歡迎訪問愛發(fā)表,線上期刊服務咨詢

數(shù)據(jù)挖掘技術研究8篇

時間:2023-01-14 09:17:20

緒論:在尋找寫作靈感嗎?愛發(fā)表網為您精選了8篇數(shù)據(jù)挖掘技術研究,愿這些內容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!

篇1

關鍵詞:Web應用;數(shù)據(jù)挖掘技術;互聯(lián)網;研究

中圖分類號:TP393.09

隨著互聯(lián)網的產生,其網絡上各種不同服務也正在快速產生而得到發(fā)展,很多公司急切需要通過利用互聯(lián)網巨大的信息源對客戶行為進行分析,搜尋最佳商機。Web數(shù)據(jù)挖掘技術就是從該種商業(yè)角度進行考慮,它是在二十世紀八十年代末的時候被研發(fā)出來,該數(shù)據(jù)挖掘技術是在Web網絡原有的基礎上納入挖掘數(shù)據(jù)的方法與思想。在Web網絡中通過該方法解決遇到出現(xiàn)的問題,以此形成Web的數(shù)據(jù)挖掘,基于Web網絡的數(shù)據(jù)挖掘,它是數(shù)據(jù)挖掘中的一個全新的研究領域與方向,能夠滿足對未來電子商務的發(fā)展趨勢的需求。

1 Web數(shù)據(jù)庫及數(shù)據(jù)挖掘的特點

在對大量的網絡信息進行認真分析研究的基礎上,我們才可以進行Web數(shù)據(jù)的挖掘活動,在這個過程中一定要注意使用最佳的方式來進行,在具體的模式可使用過程中,必須要進行數(shù)據(jù)信息的提煉、信息選擇、信息調整、數(shù)據(jù)挖掘和模式分析,然后再進行歸納總結,對使用者的習慣以及細化哦進行推測,以實現(xiàn)合理地信息數(shù)據(jù)管理,將可能存在的安全性問題的發(fā)現(xiàn)進行防御。Web數(shù)據(jù)挖掘所包含的內容及其寬泛,除了對信息數(shù)據(jù)進行的處理,還涉及計算機胡網絡、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索、可視化、自然語言理解等多方面的內容。

從海量的信息中找到一個有意思的模式就是信息數(shù)據(jù)的挖掘,這些數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息存儲中,從學科方面來說它已經具有了跨學科的性質,比方說數(shù)據(jù)庫體系、信息儲備中心、統(tǒng)計、機器學習、數(shù)據(jù)可視化、信息提取和高性能計算。

2 Web數(shù)據(jù)挖掘技術的概念與類型

所謂的Web數(shù)據(jù)挖掘技術,它是在挖掘數(shù)據(jù)技術的基礎之上,針對網絡數(shù)據(jù)中的服務日志文件與Web文檔進行分析數(shù)據(jù)、歸納與匯總,并且在當中發(fā)掘與索取有用潛在的知識及信息的技術。應用Web挖掘技術能夠發(fā)現(xiàn)更多的隱藏信息資源或者其他潛在的有趣應用模式,同時在信息過濾技術的協(xié)助下使客戶獲取層次更高的知識和規(guī)律。按照有關技術原理,可把Web數(shù)據(jù)挖掘技術分如下幾大類:

2.1 Web的結構挖掘

結構挖掘是指在Web挖掘中運用Web構造組織之間的鏈接關聯(lián),從而對網頁系統(tǒng)里具有實用價值的形式進行計算。在海量的Web超鏈接數(shù)據(jù)中,為Web網頁面創(chuàng)造出足夠的合適的數(shù)據(jù)信息資料,它可以對文檔當中的引用、從屬及包含關系聚集地反映出來,同時經由對Web文檔當中信息資料體系進行分析,能夠有效地處理掉存在的任何問題,以有便于搜尋到權威性的網頁面。

在Web結構挖掘范圍內,HITS和PageRank算法是應用最多的算法,這兩個方面都是通過固定的計算手段進行測算的,在這種情況下可以對網頁超鏈接的質量進行有效保護,比方說:在百度中搜索方式的使用可以提高計算水平。

2.2 Web的內容挖掘

內容挖掘主要是在Web挖掘中搜集有利的Web資源信息(例如:內容、數(shù)據(jù)及文檔等)。Web包括許多不同種類的資源信息,現(xiàn)在絕大部分網絡資源信息基本上均都是從www資源信息當中獲得,這除了這些可以個體可以直接檢索得到并加以使用達到目標的信息資源以外,還有一些信息數(shù)據(jù)是通過加密的普通個體是無法檢索得到的,要向獲得這些信息數(shù)據(jù)必須對其采取Web挖掘的手段來進行。

2.3 Web的使用挖掘

使用挖掘是在Web挖掘中實施挖掘網頁面中的對應站點信息數(shù)據(jù)與日志文件,從而去對相應的站點進行有效地訪問。這是因為在網頁面的信息訪問中,質量具有很重要的作用、復雜的信息,而每個資源信息在服務器的上面,都存在一個形式化的日志訪問頁面,當用戶提出了訪問頁面的要求以后,訪問服務器會自覺地將所需的數(shù)據(jù)進行記錄。因此對Web不同的使用的日志訪問進行分析,有助于掌控Web結構與客戶的動態(tài)行為,更加有利于使網站的工作效率得到有效提升。

3 數(shù)據(jù)挖掘工作流程

3.1 定義問題

先對信息挖掘體系的主要目的進行評論,明確其具備的具體價值以及將會帶來的實際效果進行分析。

3.2 形成數(shù)據(jù)挖掘庫

對于數(shù)據(jù)挖掘來說數(shù)據(jù)挖掘體系是最重要的一個關鍵點,我們可以通過相關信息資料的搜集來證實,對數(shù)據(jù)體系的行程內容進行研究,生成“數(shù)據(jù)表述報告”,將信息資料庫中所有的信息進行合理地整合,把來自不同數(shù)據(jù)源的數(shù)據(jù)并到同一個數(shù)據(jù)庫中,讓沖突的以及不一致的數(shù)據(jù)統(tǒng)一化。建好數(shù)據(jù)挖掘庫以后應該安排專門的人員對它進行定期的檢查管理,防止任何安全隱患的存在,在對它的安全性進行維護的過程中,需要定期備份,監(jiān)視它的性能,還需要根據(jù)實際的需要不斷地擴大它的存放空間,對那些專門用來存放復雜數(shù)據(jù)的系統(tǒng)中心,必須要將這項工作交給專業(yè)的工作人員來完成。

3.3 清理分析數(shù)據(jù)挖掘庫

不正確的信息數(shù)據(jù)都是廣泛地存在的,所以說對于很大的信息數(shù)據(jù)儲存中心來說保證數(shù)據(jù)的正確性。所以,一定要采取有效的措施對其進行合理的管理,將數(shù)據(jù)保存與使用中可能會出現(xiàn)的機械性錯誤率降到最低,處理好模型與整個數(shù)據(jù)體系的完整性。

3.4 探索分析數(shù)據(jù)挖掘庫

這樣做主要是為了對信息數(shù)據(jù)的模型進行管理。主要包括選擇變量、選擇記錄、創(chuàng)建新變量、轉換變量、探索分析。

3.5 創(chuàng)立數(shù)據(jù)挖掘模型

做好這項工作對于信息數(shù)據(jù)的高效保存有很重要的作用,為了讓模型更加合理,具有正確性與穩(wěn)定性,我們必須要從宏觀上來對這個模型所需的材料進行處理,讓模型能為后續(xù)的數(shù)據(jù)保存工作提供一個依據(jù)與參考標準。

4 基于Web的數(shù)據(jù)挖掘應用

4.1 數(shù)據(jù)控掘在高校教學中的應用

使用該種體系有利于對學生學習生活的實際狀況進行客觀有效地分析,掌握學生的實際學習狀況,為教師的教學活動提供詳細的信息,提高教學效率的同時提高學生的學習效率,幫助學生在最短的時間內提高學習成績;端正學生的學習態(tài)度,提高學習方法。

4.2 數(shù)據(jù)控掘在電子商冬中的應用

對于現(xiàn)代市場營銷來說,網絡方式引進就是其信息化的最有利的證明,隨著我們的商務活動的不斷完善,網絡營銷將會成為營銷業(yè)的全新發(fā)展趨勢。因此我們可以看到,將這一技術充分地應用到電子商務活動中,能夠幫助企業(yè)進行客觀的市場發(fā)展狀況的分析,確定有效的發(fā)展目標,找到最佳發(fā)展方式。

5 結束語

總而言之,Web數(shù)據(jù)挖掘技術的應用有利于企業(yè)編制具有遠見性的營銷戰(zhàn)略,促使企業(yè)可以在市場激烈競爭中掌控更加有利的發(fā)展時機。隨著迅速發(fā)展的電子商務,Web數(shù)據(jù)挖掘技術在未來的發(fā)展空間將變得更加廣闊及前途無量。

參考文獻:

[1]柴文光,周寧.網絡信息安全防范與Web數(shù)據(jù)挖掘技術的整合研究[J].情報理論與實踐,2009(03):97-101.

[2]范建中,王福慶.基于Web的數(shù)據(jù)挖掘技術研究與應用[J].電腦編程技巧與維護,2009(12):32-33+42.

[3]居曉琴,周學全.Web數(shù)據(jù)挖掘技術探索與應用[J].山東紡織經濟,2009(06):144-147.

篇2

    關鍵詞:空間數(shù)據(jù)挖掘;地理信息系統(tǒng);研究分析

    隨著數(shù)據(jù)采集技術的成熟和普及,大量的空間數(shù)據(jù)通過遙感、地理信息系統(tǒng)、多媒體系統(tǒng)、醫(yī)學和衛(wèi)星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數(shù)據(jù)類型,空間數(shù)據(jù)挖掘技術應運而生,并在地理信息系統(tǒng)、遙感勘測、圖像處理、交通管理、環(huán)境研究等領域得到廣泛應用。

    1 空間數(shù)據(jù)挖掘研究概述

    空間數(shù)據(jù)挖掘(spatial Data Mining,簡稱SDM),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關系、數(shù)據(jù)特征的過程。空間數(shù)據(jù)挖掘技術綜合數(shù)據(jù)挖掘技術與空間數(shù)據(jù)庫技術,可用于對空間數(shù)據(jù)的理解、空間關系和空間與非空間關系的發(fā)現(xiàn)、空間知識庫的構造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標是把大量的原始數(shù)據(jù)轉換成有價值的知識,發(fā)現(xiàn)大量的地學信息中所隱含的規(guī)則。

    空間數(shù)據(jù)挖掘是計算機技術、數(shù)據(jù)庫應用技術和管理決策支持技術等多學科交叉發(fā)展的新興邊緣學科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯(lián)規(guī)則四類。空間分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法。空間關聯(lián)規(guī)則是指空間鄰接圖中對象之間的關聯(lián),空間關聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價高的算法進行進一步精化挖掘。

    空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識)、模式評估(根據(jù)某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)。空間數(shù)據(jù)挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數(shù)據(jù)的過程。

    2 空間數(shù)據(jù)挖掘在GIS中的應用

    空間數(shù)據(jù)挖掘技術與地理信息系統(tǒng)(GIS)的結合具有非常廣泛的應用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當作一個空間數(shù)據(jù)庫看待,在G IS環(huán)境外部借助其它軟件或計算機語言進行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。

    利用空間數(shù)據(jù)挖掘技術可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運輸、環(huán)境監(jiān)測和保護、110和1 20快速反應系統(tǒng)等資源管理和城市管理領域。在市場分析、企業(yè)客戶關系管理、銀行保險、人口統(tǒng)計、房地產開發(fā)、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。

    3 空間數(shù)據(jù)挖掘面臨的問題

    (1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲、 處理及空間數(shù)據(jù)本身的特點。空間數(shù)據(jù)不同于關系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術往往不能很好地分析復雜的空間現(xiàn)象和空間對象。

    (2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發(fā)現(xiàn)、去除與任務無關的數(shù)據(jù),有效地降低問題的維數(shù),設計出更有效的知識發(fā)現(xiàn)算法。

    (3) 沒有公認的標準化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎。

    (4) 空間數(shù)據(jù)挖掘知識發(fā)現(xiàn)系統(tǒng)交互性不強,在知識發(fā)現(xiàn)過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數(shù)據(jù)挖掘過程。

    (5) 空間數(shù)據(jù)挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發(fā)現(xiàn)的知識有限。

    (6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識發(fā)現(xiàn)過程中的作用。一個方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數(shù)據(jù)庫領域,如果要在更廣闊的領域發(fā)現(xiàn)知識,知識發(fā)現(xiàn)系統(tǒng)就應該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網絡等多項技術集成的系統(tǒng)。

    上述問題使得從空間數(shù)據(jù)庫中提取知識比從傳統(tǒng)的關系數(shù)據(jù)庫中提取知識更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。

    4 空間數(shù)據(jù)挖掘的發(fā)展趨勢

    (1)空間數(shù)據(jù)挖掘算法和技術的研究。空間關聯(lián)規(guī)則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點,同時提高空間數(shù)據(jù)挖掘算法的效率也很重要。

    (2) 多源空間數(shù)據(jù)的預處理。空間數(shù)據(jù)內容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預處理就顯得格外重要。

    (3)其他各種空間數(shù)據(jù)挖掘及其相關技術研究。如網絡環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫的知識發(fā)現(xiàn)等。

篇3

關鍵詞:人工智能;數(shù)據(jù)挖掘;發(fā)展前景

當今社會已經進入了人工智能時代,人工智能的應用,大大改善了我們的生活。大數(shù)據(jù)時代已經來臨,不論是從數(shù)據(jù)的使用,挖掘,處理等方面,都為人工智能的應用起到了基礎和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡稱AI。屬于計算機學科下的分支,顧名思義,它是一門專門研究類人化的智能機器學科,即利用現(xiàn)階段科學的研究方法和技術,研制出具有模仿、延伸和擴展人類智能的機器或智能系統(tǒng),從而實現(xiàn)利用機器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達特矛斯會議上,“人工智能”這一術語正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進行了許多的研究和開發(fā),人工智能這個話題也取得了飛速的發(fā)展。人工智能是一門極具挑戰(zhàn)性的科學,從事這項工作的人必須了解計算機知識、心理學和哲學理念。人工智能的研究包涵廣泛的科學知識,以及其他領域的知識,如機器學習、計算機視覺等。一般來說,人工智能研究的主要目標是使機器能夠做一些通常需要人工智能完成復雜工作的機器。1.3人工智能的研發(fā)歷程。早期研究領域:人工智能專家系統(tǒng),機器學習,模式識別,自然語言理解,自動定理證明,自動編程,機器人,游戲,人工神經網絡等,現(xiàn)在涉及以下研究領域:數(shù)據(jù)挖掘,智能決策系統(tǒng),知識工程,分布式人工智能等。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應用領域得到廣泛的發(fā)展。以下簡要介紹其中的幾個重要部分:(1)專家系統(tǒng)。所謂專家系統(tǒng)就是控制計算的智能化程序系統(tǒng),通過研發(fā)人員總結歸納了專業(yè)學科知識和日常經驗,能夠知道計算機完成某個領域內的專業(yè)性活動或者解決某些專業(yè)級別的問題。人工智能技術可以合理利用已知的經驗體系在復雜環(huán)境中,解決和處理復雜問題。(2)機器系統(tǒng)。機器系統(tǒng)簡單說就是機器人通過人造神經系統(tǒng),借助于網絡或者存儲系統(tǒng)汲取系統(tǒng)的知識進行開發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過模擬人類的感官,感知生物學特征,通過人工智能機器的感部件對外界外部環(huán)境進行感知,識別,判斷,分析的能力。能夠更好的適應環(huán)境,做出判斷。(4)數(shù)據(jù)重組和發(fā)掘。是指通過人工智能系統(tǒng),結合當前先進的理念,對大數(shù)據(jù)的總結歸納,識別存儲,調取等應用。通過數(shù)據(jù)的加工處理,能夠主動做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時間內的局限性,并能有效地改善因資源造成的時間和空間不均衡問題。它具備,模式自動轉換,并行處理,開放啟發(fā)方式,冗余且容錯糾錯的能力。

2數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(DataMining,DM)是揭示數(shù)據(jù)中存在的模式和數(shù)據(jù)關系的學科,強調處理大型可觀察數(shù)據(jù)庫。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應用領域得到了廣泛的發(fā)展。這里包括數(shù)據(jù)挖掘和智能信息提取過程,前者從大量復雜的現(xiàn)實世界數(shù)據(jù)中挖掘出未知和有價值的模式或規(guī)則,后者是知識的比較,選擇和總結出來的原則和規(guī)則,形成一個智能系統(tǒng)。2.2數(shù)據(jù)挖掘的研究現(xiàn)狀。當前數(shù)據(jù)挖掘應用主要集中在電信、零售、農業(yè)、網絡日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實際應用還遠沒有普及。而據(jù)Gartner的報告也指出,數(shù)據(jù)挖掘會成為未來10年內重要的技術之一。而數(shù)據(jù)挖掘,也已經開始成為一門獨立的專業(yè)學科。2.3數(shù)據(jù)挖掘的研究發(fā)展。具體發(fā)展趨勢和應用方向主要有:性能方面:數(shù)據(jù)挖掘設計的數(shù)據(jù)量會更大,處理的效率會更高,結果也會更精確。工具方面:挖掘工具越來越強大,算法收斂越來越多,預測算法將吸收新穎性算法(支持向量機(SVM),粗糙集,云模型,遺傳算法等),并實現(xiàn)自動化的實現(xiàn)算法,選擇和自動調諧參數(shù)。應用:數(shù)據(jù)挖掘的應用除了應用于大型專門問題外,還將走向嵌入式,更加智能化。例如進一步研究知識發(fā)現(xiàn)方法,對貝葉斯定理和Boosting方法的研究和改進,以及對商業(yè)工具軟件不斷的生成和改進,著重建立整體系統(tǒng)來解決問題,如Weka等軟件。在先進理論的指導下,按照國內形態(tài)發(fā)展,至少需要20年的時間,才能改進數(shù)據(jù)挖掘的發(fā)展。

3數(shù)據(jù)挖掘與人工智能技術的聯(lián)系

數(shù)據(jù)挖掘屬于人工智能中獨立系統(tǒng)。它于人工智能的存在關系屬于,并存聯(lián)系,且獨立運行,互不從屬。此設計體系一方面可以有效促進人工智能提升學習能力,增進分析能力,另一方面還對分析,統(tǒng)計,OLSP,以及決策支持系統(tǒng)模塊等起到推動作用。在收挖掘應用領域,處理可以對WEB挖掘,還能夠有效進行文本,數(shù)據(jù)庫,知識庫,不同領域不同學科的信息進行序列矩陣模式挖掘。基于數(shù)據(jù)本身的分類,辨識,關聯(lián)規(guī)則,聚類算法更加博大精深。因此,獨立于人工智能的數(shù)據(jù)挖掘,更加便于科研團體或者領域對數(shù)據(jù)的使用和分析。數(shù)據(jù)挖掘是人工智能領域的一部分。首先,高智能是數(shù)據(jù)挖掘和人工智能的最終目標,正是由于這個目標,人工智能和數(shù)據(jù)挖掘有很多關聯(lián)。其次,數(shù)據(jù)挖掘和人工智能是各種技術的整合。數(shù)據(jù)挖掘和人工智能是許多學科的跨學科學科。最后,數(shù)據(jù)挖掘的出現(xiàn)逐漸發(fā)展壯大,加強了人工智能,因此可以說,它們兩者是不可分割的。

4人工智能和數(shù)據(jù)挖掘技術的發(fā)展前景

在當前環(huán)境下,人工智能和數(shù)據(jù)挖掘技術具有以下發(fā)展前景:(1)在大數(shù)據(jù)互聯(lián)網中的應用。將人工智能的技術應用于互聯(lián)網中將會使網絡技術帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網絡運行效率、增加網絡安全性等。(2)智能化服務的研究。人工智能和數(shù)據(jù)挖掘都很注重對智能化服務的研究,例如很多智能機器人便應運而生,它們已經能勝任許多簡單的工作,可以為人們提供人性化的服務。高度的智能化是數(shù)據(jù)挖掘和人工智能研究最終追求的目標,也是二者最終合而為一的標志。(3)使知識產生經濟化。在現(xiàn)階段的知識經濟時代,人工智能和數(shù)據(jù)挖掘勢必受到經濟的影響,這決定了人工智能和數(shù)據(jù)挖掘將具有經濟特征。人工智能和數(shù)據(jù)挖掘技術作為無形資產可以直接帶來經濟效益,通過交流,教育,生產和創(chuàng)新的無形資產將成為知識經濟時代的主要資本。可以預期未來的人工智能和數(shù)據(jù)挖掘技術將更加經濟實用。(4)交叉學科的技術融合。各行各業(yè)的理論和方法都已經開始融入了人工智能和數(shù)據(jù)挖掘之中。未來的人工智能和數(shù)據(jù)挖掘技術必將是一個融合眾多領的復合學科。當今,我們已經在逐漸使用人工智能與數(shù)據(jù)挖掘技術,去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學院

參考文獻:

[1]萬璞,王麗莎.數(shù)據(jù)挖掘與人工智能技術研究[J].無線互聯(lián)科技,2016(10):113-114.

[2]王翔.試論如何利用大數(shù)據(jù)挖掘技術推動人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報,2017,14(01).

[3]秦益文.微博數(shù)據(jù)挖掘中人工智能推理引擎的應用[J].中小企業(yè)管理與科技(中旬刊),2017(02).

[4]蒲東齊.數(shù)據(jù)挖掘在人工智能上的應用[J].信息與電腦(理論版),2016(19).

[5]李丹丹.數(shù)據(jù)挖掘技術及其發(fā)展趨勢[J].電腦應用技術,2007(02):38-40.

篇4

關鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;預處理技術

中圖分類號:TP311.131

隨著計算機和互聯(lián)網的普及應用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計算機應用的基礎上,提出了無紙化辦公的理念,在實際應用的過程中,計算機需要存儲大量的數(shù)據(jù),對于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會給企業(yè)的發(fā)展帶來嚴重的影響,甚至造成巨大的經濟損失。受到特殊的歷史因素影響,我國的經濟和科技起步較晚,與西方發(fā)達國家相比,存在較大的差距,雖然經過了多年改革開放的發(fā)展,我國已經成為了世界第二大經濟體,計算機的應用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領域中,研究的還比較少,而數(shù)據(jù)挖掘等技術,能夠在很大程度上影響數(shù)據(jù)的利用效率,對于實際的工作來說,具有非常重要的作用。

1 數(shù)據(jù)挖掘的預處理技術簡析

1.1 數(shù)據(jù)挖掘預處理技術的概念

數(shù)據(jù)挖掘技術是隨著數(shù)據(jù)庫的發(fā)展,逐漸形成的一門學科,在計算機出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應的存儲設備也有了很大的進步,計算機能夠處理的任務越來越復雜,存儲的數(shù)據(jù)越來越多,現(xiàn)在我國建成了多個大型數(shù)據(jù)存儲中心,存儲的數(shù)據(jù)量非常巨大。對于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統(tǒng)的數(shù)據(jù)應用中,通常都是利用檢索技術,根據(jù)輸入的關鍵詞,在數(shù)據(jù)庫中進行逐個的匹配,如果數(shù)據(jù)庫的存儲量較小,檢索的效率就比較高,而對于現(xiàn)在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數(shù)據(jù)挖掘的預處理技術,正是在這種背景下出現(xiàn)的,所謂預處理技術,就是在數(shù)據(jù)挖掘之前,對數(shù)據(jù)進行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對現(xiàn)有的數(shù)據(jù)庫或者互聯(lián)網上海量的數(shù)據(jù),如果在數(shù)據(jù)庫中進行挖掘,那么可以對數(shù)據(jù)庫進行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網上進行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。

1.2 數(shù)據(jù)挖掘預處理技術的特點

與正常的數(shù)據(jù)挖掘技術相比,如何增加相應的預處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫中進行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術,輸入指定的關鍵詞后,與數(shù)據(jù)庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應的預處理環(huán)節(jié),如在數(shù)據(jù)庫中添加索引,對數(shù)據(jù)庫中的數(shù)據(jù)進行分類,那么在輸入相應的關鍵詞后,首先與索引進行匹配,然后在指定類別的數(shù)據(jù)中進行對比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫中,大多采用了這樣的預處理技術,取得了很好的應用效果。受到特殊歷史因素的影響,我國數(shù)據(jù)庫相關技術水平較低,目前我國建設的大型數(shù)據(jù)庫,都是與國外的技術公司合建的,通過實際的調查發(fā)現(xiàn),現(xiàn)在我國還無法自主生產外部存儲設備,市面上的存儲設備,都是從外國引進的,但是在實際數(shù)據(jù)庫的建設中,在外國存儲設備的基礎上,我國也進行了大量數(shù)據(jù)挖掘等技術的研究。

1.3 數(shù)據(jù)挖掘預處理技術的發(fā)展

從某種意義上來說,數(shù)據(jù)挖掘技術是隨著互聯(lián)網和數(shù)據(jù)庫的應用,根據(jù)實際使用的需要,逐漸形成的一門技術,在互聯(lián)網發(fā)展的初期,網絡上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業(yè)網站等,隨著計算機的普及應用,互聯(lián)網有了很大的發(fā)展,現(xiàn)在已經建成了覆蓋世界范圍的因特網。據(jù)最新的統(tǒng)計調查表明,我國的網民數(shù)量已經超過了6億,如果龐大的用戶群體,為我國互聯(lián)網的發(fā)展,提供了堅實的基礎,但是通過實際的調查發(fā)現(xiàn),我國的實際網絡帶寬,還沒有達到世界平均水平,即使實際使用的網絡帶寬較低,我國互聯(lián)網內容的發(fā)展速度依然很快,現(xiàn)在網絡上出現(xiàn)了各種各樣的網站,極大的提高了網絡建設水平。在實際的網絡瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現(xiàn)了搜索引擎,只要輸入相應的關鍵詞,搜索引擎就可以很快的找到大量相關內容,然后進行必要的篩選,就能夠得到相應的數(shù)據(jù),但是隨著互聯(lián)網內容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進行相應的挖掘工作,具有較大的難度。

2 影響數(shù)據(jù)挖掘預處理技術的因素

2.1 預處理的方式

在實際的數(shù)據(jù)挖掘過程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來說,數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內,找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強的目的性,但是對于找到數(shù)據(jù)的量,并沒有明確的要求,尤其是隨著互聯(lián)網內容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會附帶大量的相關信息。對于數(shù)據(jù)挖掘的預處理技術來說,預處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數(shù)據(jù)庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據(jù)輸入的關鍵詞,逐條的與數(shù)據(jù)庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預處理,將這一百條數(shù)據(jù)根據(jù)自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數(shù)據(jù)處于哪個位置,最多只需要十次匹配,就可以找到相應的數(shù)據(jù),由此可以看出,預處理方式對于數(shù)據(jù)挖掘效率具有非常重要的影響。

2.2 數(shù)據(jù)量的大小

計算機經過了多年的發(fā)展,其自身的性能有了很大的提高,在實際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經過任何的預處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫容量越來越大,在數(shù)據(jù)庫中查找指定的數(shù)據(jù),需要較長的時間,要想很好的解決這個問題,必須對數(shù)據(jù)挖掘的方式等,進行相應的優(yōu)化。通過實際的調查發(fā)現(xiàn),目前我國使用的數(shù)據(jù)庫,大多都是國外的技術公司設計的,為了方便數(shù)據(jù)庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優(yōu)質的軟件服務。目前市面上的數(shù)據(jù)庫,大多對數(shù)據(jù)挖掘技術進行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過這些技術的使用,很好的提高了實際的挖掘效率,但是這些預處理技術,并沒有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲到指定的分類中即可。

2.3 操作人員自身的素質

對于實際的數(shù)據(jù)挖掘工作來說,操作人員自身的素質,也可以在很大程度上影響挖掘的效率,經過了多年的完善,數(shù)據(jù)挖掘技術已經成為了一門單獨的學科,計算機專業(yè)的學生,要進行相應知識的學習,但是通過實際的調查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對互聯(lián)網上的內容,而互聯(lián)網日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經驗,顯然很難完成相應的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應的工作,也需要較長的時間,雖然這些學生在學校中,能夠學習到大量的數(shù)據(jù)挖掘知識,為了提高教學的效果,老師還會講解一些數(shù)據(jù)挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經驗,在實際的工作中,必然會總結一些相應的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數(shù)據(jù)挖掘的準確性,對于數(shù)據(jù)挖掘工作來說,具有非常重要的作用,從某種意義上來說,數(shù)據(jù)挖掘的預處理技術,指的就是這些從實踐中總結出來的技巧,然后進行科學、系統(tǒng)的分析,應用到實際的挖掘中。

3 我國數(shù)據(jù)挖掘預處理技術應用中存在的問題

3.1 沒有意識到預處理技術的重要性

在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預處理技術,隨著數(shù)據(jù)庫自身的發(fā)展,計算機的性能也有了很大的提高,在很長一段時間內,硬件的發(fā)展速度都要領先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網的普及應用,在很大程度上改變了這種現(xiàn)象,尤其是云計算等理念的出現(xiàn)。在互聯(lián)網海量數(shù)據(jù)中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術,成為了很多專家和學者研究的問題,預處理技術就是根據(jù)實際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫的建設等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術,但是并沒有取得明顯的效果。正是受到自身技術水平的限制,使得我國數(shù)據(jù)建設中,對數(shù)據(jù)挖掘的預處理技術,沒有足夠的重視,導致很大數(shù)據(jù)庫中,還采用傳統(tǒng)的檢索等方式,沒有任何的預處理技術,在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫中集成了相應的功能,但是通過實際的調查發(fā)現(xiàn),在實際使用的過程中,并沒有啟用相應的功能。

3.2 沒有針對性的預處理方式

由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對互聯(lián)網上海量的數(shù)據(jù),而互聯(lián)網上的數(shù)據(jù)非常復雜,尤其是近些年網絡的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網的數(shù)據(jù)量較大,即使借助相應的搜索引擎,依然需要很長的挖掘時間,對于現(xiàn)在使用的一些數(shù)據(jù)挖掘預處理技術,只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預處理技術出現(xiàn)的時間較短,目前還沒有形成統(tǒng)一的認識,不同學者根據(jù)實際工作的需要,提出了不同的預處理方式,通過實際的調查發(fā)現(xiàn),這些預處理方式的應用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對于其他數(shù)據(jù)的挖掘,就無法起到相應的作用。受到我國數(shù)據(jù)挖掘技術水平的限制,并沒有意識到這點,在實際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預處理方式,這樣顯然無法最大成都上提高數(shù)據(jù)挖掘的效率,有時候反而會降低工作的效率,目前西方發(fā)達國家的數(shù)據(jù)挖掘預處理中,都會根據(jù)每次工作的實際情況,針對性的設計一個預處理的方式。

4 數(shù)據(jù)挖掘的預處理技術應用措施

4.1 重視數(shù)據(jù)挖掘的預處理技術

考慮到我國的數(shù)據(jù)庫建設中,很多都沒有采用相應的預處理技術,在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個問題,必須對預處理技術給予足夠的重視,在數(shù)據(jù)庫的設計時,就對預處理的方式等進行考慮,如果是購買的數(shù)據(jù)庫服務,那么就要根據(jù)自身的實際情況,對預處理技術提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調查發(fā)現(xiàn),西方國家的預處理技術水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節(jié)進行完善,并總結相關的經驗,方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達國家的預處理技術快速的發(fā)展。我國要想提高自身的數(shù)據(jù)挖掘預處理技術,必須根據(jù)自身的實際情況,借鑒外國一些先進的經驗,最大程度上完善預處理技術,要想達到這個目的,首先應該提高對預處理技術的重視程度,無論是實際的操作人員,還是管理人員和開發(fā)人員,都應該重視預處理技術的應用,然后從自身的工作角度出發(fā),對其進行一定的完善。

4.2 提高工作人員自身的素質

數(shù)據(jù)挖掘預處理技術的應用,需要實際的操作人員,而不同工作人員,由于自身經驗等不同,工作的效率會有一定的差距,如剛畢業(yè)的大學生,即使在學校中的成績較好,掌握了足夠的預處理知識,還是無法很好的完成相應的工作,尤其是近些年信息技術的發(fā)展,互聯(lián)網上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預處理方式等也應該具有一定的差異,通過實際的調查發(fā)現(xiàn),目前我國的數(shù)據(jù)挖掘工作人員自身的素質普遍較低,無法根據(jù)實際的工作情況,針對性的選擇一種預處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質,在實際的招聘過程中,盡量聘請一些具有豐富經驗的人員。對于現(xiàn)有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預處理技術的重要性等,如果條件允許,還可以與一些先進的企業(yè)進行交流,學習先進的預處理技術,這樣在提高預處理技術水平的同時,還可以對數(shù)據(jù)庫的其他的技術,進行一定的優(yōu)化。

4.3 采用針對性的預處理方式

經過了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預處理技術已經非常普遍,目前的很大數(shù)據(jù)庫建設中,都會采用預處理技術,甚至在日常的數(shù)據(jù)搜索中,也開始使用預處理技術,但是通過實際的調查發(fā)現(xiàn),根據(jù)實際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預處理方式。而目前我國的數(shù)據(jù)挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預處理方式,但是預處理的方式,并不會根據(jù)數(shù)據(jù)挖掘的不同,進行針對性的變化,沒有真正的達到預處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數(shù)據(jù)挖掘中,預處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預處理方式,對目前已有的預處理方式進行總結、分類,根據(jù)需要數(shù)據(jù)的情況,針對性的選擇,如果人員的自身素質較高,還可以設計一個新的預處理方式,以此來最大程度上提高數(shù)據(jù)挖掘的效率。

5 結束語

通過全文的分析可以知道,隨著近些年計算機和互聯(lián)網的普及應用,數(shù)據(jù)的挖掘、存儲、調用等技術越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發(fā)達國家相比,在數(shù)據(jù)挖掘等領域中,具有明顯的差異,雖然經過了多年改革開放的發(fā)展,這種差距在逐漸的減小,但是很難在短時間內趕上發(fā)達國家的技術水平,在這種背景下,要想快速的提高我國數(shù)據(jù)挖掘預處理技術,必須結合我國數(shù)據(jù)挖掘的實際情況,借鑒西方國家先進的經驗,完善目前的預處理技術。

參考文獻:

[1]鄭繼剛,謝芳.多媒體圖像挖掘的關聯(lián)規(guī)則挖掘[J].紅河學院學報,2009(05):44-47.

[2]謝邦昌,李揚.數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來發(fā)展[J].統(tǒng)計與信息論壇,2008(05):94-96.

[3]林建勤.數(shù)據(jù)挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.

[4]陳娜.數(shù)據(jù)挖掘技術的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術,2006(01):46-49.

[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學報,2004(03):10-15.

[6]鄭斌祥,杜秀華,席裕庚.一種時序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.

[7]臧洌.人工神經網絡在混沌觀測時序數(shù)據(jù)處理中的應用[J].數(shù)據(jù)采集與處理,2001(04):486-489.

篇5

【關鍵詞】數(shù)據(jù)挖掘;電子商務系統(tǒng)

1.前言

數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,融合了人工智能、數(shù)據(jù)庫技術、模式識別、機器學習、統(tǒng)計學和數(shù)據(jù)可視化等多個領域的理論和技術,數(shù)據(jù)挖掘是一個包含多個處理步驟的知識發(fā)現(xiàn)過程,其主要內容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉換、數(shù)據(jù)挖掘、模式評估和知識表達輸出等。

把數(shù)據(jù)挖掘技術應用到電子商務系統(tǒng)中,開發(fā)出基于數(shù)據(jù)挖掘技術的電子商務系統(tǒng)能夠加深和加強對電子商務系統(tǒng)數(shù)據(jù)的分析功能,為電子商務企業(yè)管理人員提供電子商務的預期信息,從而能很好的保證電子商務網站的運行效果。

現(xiàn)在電子商務系統(tǒng)主要形式B2C,涉及的數(shù)據(jù)不僅包括客戶在電子商務網站上的交易數(shù)據(jù),還包括客戶的注冊信息數(shù)據(jù)和商品信息等數(shù)據(jù)。電子商務系統(tǒng)的數(shù)據(jù)有如下特點:

(1)數(shù)據(jù)量大;

(2)數(shù)據(jù)質量差;

(3)數(shù)據(jù)種類多。

2.電子商務系統(tǒng)功能模塊結構設計

根據(jù)B2C電子商務系統(tǒng)設計的目標,管理業(yè)務流程,將這個B2C電子商務系統(tǒng)分為:會員注冊管理、會員帳戶管理、商品購買管理、會員管理、商品類別管理、商品管理、優(yōu)惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網站管理和數(shù)據(jù)挖掘管理等功能模塊(如圖1所示)。

3.數(shù)據(jù)挖掘管理模塊的設計

B2C電子商務數(shù)據(jù)挖掘管理模塊主要通過對電子商務企業(yè)當前的和歷史的交易數(shù)據(jù)進行分析。挖掘出其中隱含的知識和從中發(fā)現(xiàn)隱含的趨勢和規(guī)律。它主要包括數(shù)據(jù)預處理模塊、數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結果顯示模塊。B2C電子商務數(shù)據(jù)挖掘系統(tǒng)從電子商務運行商品數(shù)據(jù)庫、客戶信息數(shù)據(jù)庫和交易數(shù)據(jù)庫中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進行數(shù)據(jù)預處理,并建立數(shù)據(jù)挖掘模型,供電子商務企業(yè)的用戶挖掘時使用。用戶只需要輸入簡單的一些參數(shù),系統(tǒng)就會自動的根據(jù)已建立的模型輸出預測結果。電子商務挖掘系統(tǒng)體系結構如圖2所示。

3.1 數(shù)據(jù)預處理模塊

數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結果。但往往不適合直接在這些數(shù)據(jù)上面進行挖掘,需要做數(shù)據(jù)預處理工作,其一般包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉換。數(shù)據(jù)預處理是否做好將影響數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性。這些處理技術在數(shù)據(jù)挖掘之前使用可以大大提高數(shù)據(jù)挖掘模式的質量,降低實際挖掘所需要的時間。原始數(shù)據(jù)通過數(shù)據(jù)選擇、清理、集成和轉換后生成數(shù)據(jù)挖掘庫,為下一步的數(shù)據(jù)挖掘做好準備。

3.2 數(shù)據(jù)挖掘模塊

數(shù)據(jù)挖掘的目的是生成可以據(jù)其所示的含義采取行動的知識,也就是建立一個現(xiàn)實世界的模型。數(shù)據(jù)挖掘的本質就是數(shù)學建模。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯(lián)規(guī)則模型。針對同一模型,可以使用不同的算法進行數(shù)據(jù)挖掘。算法的目的就是找到適合于數(shù)據(jù)的模型。數(shù)據(jù)挖掘涉及到多步驟、各系統(tǒng)間的交互、特殊解決方案及各步驟間的反復過程。

B2C電子商務網站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會影響客戶對商品的購買率。而商品之間的關聯(lián)性一般不是很容易看出來的,一般人很難聯(lián)想到商品之間的關聯(lián)性,只有實際上通過對大量的交易歷史數(shù)據(jù)的分析,才可以挖掘出它們之間的關聯(lián)性。在數(shù)據(jù)挖掘過程中對關聯(lián)產品和服務進行深入挖掘,可以發(fā)現(xiàn)其中的關聯(lián)規(guī)則,利用關聯(lián)規(guī)則模型進行數(shù)據(jù)挖掘可以了解客戶的購買行為,這對于改進B2C電子商務商業(yè)活動的決策很有幫助。例如,可以通過改進商品介紹位置的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規(guī)劃市場(互相搭配進貨)等。而作為B2C電子商務網站。可以針對不同客戶特點動態(tài)調整網站結構,使客戶訪問的有關聯(lián)的網頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網站更能吸引客戶,提高客戶的忠誠度,提高網站的效益。

B2C電子商務網站網頁主要為顧客展示商品名稱或圖片,為顧客推薦與當前感興趣商品更詳細或相關的網頁是個性化推薦的關鍵。根據(jù)客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個性化服務,例如系統(tǒng)可以向客戶顯示那些可能引起客戶感興趣的新商品。

隨著“以客戶為中心”的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業(yè)經營的重要課題。通過對B2C電子商務系統(tǒng)收集的客戶的交易數(shù)據(jù)進行聚類模型挖掘,可以確定不同類萬方數(shù)據(jù)型客戶的行為模式,電子商務企業(yè)便可以采取相應的營銷措施,促使企業(yè)利潤的最大化。

3.3 數(shù)據(jù)挖掘結果顯示模塊

數(shù)據(jù)挖掘結果的顯示模塊是將數(shù)據(jù)挖掘后得到的知識和結果用可視化形式表示出來,例如采用圖形化界面把挖掘結果顯示給電子商務企業(yè)的管理人員。在建立好相關數(shù)學模型后,把實際數(shù)據(jù)作為輸入信息,通過挖掘模型的計算獲得預測結果。B2C電子商務企業(yè)要根據(jù)不同的挖掘結果做出不同的反應。采取不同的措施,給顧客提供不同的服務,在為顧客服務的同時也為自己的B2C電子商務企業(yè)獲取更多的利潤。

4.結論

本文討論了把數(shù)據(jù)挖掘技術應用于B2C電子商務系統(tǒng)中,并采用J2EE的B/S架構將其實現(xiàn),系統(tǒng)采用客戶端、中間服務器和后臺數(shù)據(jù)庫三層架構。利用數(shù)據(jù)挖掘技術可以提高B2C電子商務企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,它能夠提高B2C電子商務企業(yè)對客戶管理和商品管理方面信息的準確性和及時性,可以幫助B2C電子商務企業(yè)網站的開發(fā)人員及時、全面了解B2C電子商務企業(yè)網站運營情況和合理安排網頁的頁面布局,為不同瀏覽習慣的顧客提供個性化服務,為各項具體工作提供技術、信息支持;有效地減少各種失誤并保證B2C電子商務企業(yè)網站的各項任務保質保量、按計劃完成,從而提高電子商務企業(yè)網站的運作效率。

參考文獻

[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學技術大學出版杜(第2版),2008.

[2]寰方,王煜,等.PaoloGiudici.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版,2004.

[3]廖芹,郝志峰.數(shù)據(jù)挖掘與數(shù)學建模[M].北京:國防工業(yè)出版社,2010.

篇6

1.1數(shù)據(jù)電子化

要讓數(shù)據(jù)電子化,首先要搭建適用的網絡平臺,網絡平臺的搭建分為2個過程。如果需要收集數(shù)據(jù),則需要搭建一個面向對象的網絡平臺。在對大學生社會體系和人際關系的研究中,采用的是在WEB上自動收集量表數(shù)據(jù),首先將量表轉換為匯編語言編寫的網頁,再采用將量表轉換后的電子版網頁與數(shù)據(jù)庫中的表相連接,這樣,只要被試登錄指定網站,就可以在網上完成量表的填寫,數(shù)據(jù)則直接存入數(shù)據(jù)庫中。數(shù)據(jù)庫管理系統(tǒng)使用的是SQLServer2000,在網絡成癮和注意關系偏向的研究中,也采用了同樣的方法。如果對現(xiàn)有的數(shù)據(jù)進行分析,則可以略過數(shù)據(jù)收集這個步驟,直接將數(shù)據(jù)輸入數(shù)據(jù)處理軟件中。在對于青少年同伴關系的研究中,創(chuàng)建了一個數(shù)據(jù)倉庫來存放現(xiàn)有數(shù)據(jù),選用SQLServer2000作為數(shù)據(jù)倉庫的構建平臺。由于青少年同伴關系的研究中的維度不是太多,維度層次也不復雜,出于對查詢效率和使用者是否容易理解的角度考慮,決定使用星型結構來創(chuàng)建數(shù)據(jù)倉庫,青少年同伴關系研究的星型結構。最后一種方法是直接將數(shù)據(jù)輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。

1.2數(shù)據(jù)挖掘分析

將數(shù)據(jù)轉換為需要的電子文本格式以后,進行簡單的數(shù)據(jù)處理。在剔除了部分缺失或者明顯錯誤的數(shù)據(jù)后,就可以進行數(shù)據(jù)挖掘工作了。數(shù)據(jù)挖掘的常用算法為關聯(lián)規(guī)則挖掘、決策樹算法和聚類挖掘算法。在此選用關聯(lián)規(guī)則挖掘算法做詳細說明,在大學生社會網絡和人際關系研究中,選取被試人際關系滿意度為例進行關聯(lián)規(guī)則挖掘。表1被試人際關系滿意度關聯(lián)規(guī)則挖掘關聯(lián)規(guī)則挖掘的步驟如下:

①選擇數(shù)據(jù)根據(jù)關聯(lián)規(guī)則挖掘的目標,選擇如上表所示的屬性,通過下面的sql語句選擇數(shù)據(jù),并將jibenxinxi表和zongjie表通過學號連接起來。select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;

②保存選擇的數(shù)據(jù):首先將第一步選擇的數(shù)據(jù)插入到一張表中,sql語句如下:insertintoguanlianguize1select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;

③構造滿足關聯(lián)規(guī)則挖掘的事務數(shù)據(jù)庫在guanlianguize1表中增加一個屬性item,通過下面的sql語句給item賦值。注意各屬性的數(shù)據(jù)挖掘映射代碼如上表所示。新建表social_guanlian_1作為數(shù)據(jù)挖掘的事務數(shù)據(jù)庫,導入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關聯(lián)規(guī)則挖掘的結果,結果表明:對自己圖人際關系評價較高的大學生,同時對自己人際關系的滿意度也較高。對自己人際關系評價較低的大學生,同時對自己人際關系的滿意度也較低。對人際關系關注程度較低的同學,人際關系滿意度也較低。這些數(shù)據(jù)之間是互相有關聯(lián)的,因此呼吁大學生多關注人際關系和人際交往的法則,有利于他們及早的認識到自己在人際交往方面的不足,為以后步入社會,創(chuàng)造更大的社會價值打好基礎。除此以外,對于教育學中的很多課題,例如青少年同伴關系的研究,網絡成癮與注意偏向關系的研究,學生成績的分析等等都可以用數(shù)據(jù)挖掘來進行科學的數(shù)據(jù)分析,數(shù)據(jù)挖掘技術在教育學領域正發(fā)揮著越來越大的作用。

2結束語

篇7

關鍵詞:數(shù)據(jù)挖掘;計算智能;應用領域

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0016-03

數(shù)據(jù)挖掘技術在當前是人工智能和數(shù)據(jù)庫研究的熱點問題,它是一門涉及面比較廣的學科,應用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數(shù)據(jù)庫進行數(shù)據(jù)的存儲,還能夠借助計算機等工具進行數(shù)據(jù)的分析以及從大量數(shù)據(jù)中搜尋有用的知識,正是基于二者的結合才促成了數(shù)據(jù)挖掘技術的誕生。在當前日益激增的信息量中,傳統(tǒng)的搜索技術顯然不能滿足,通過數(shù)據(jù)挖掘技術,在海量的數(shù)據(jù)庫中提取有用的信息,以供人們使用,更加符合現(xiàn)實的需求。此外,數(shù)據(jù)挖掘技術能夠被廣泛應用于銷售、金融等多個領域,極大地推動了信息技術的發(fā)展以及現(xiàn)代化進程。

1 數(shù)據(jù)挖掘技術概述

1.1數(shù)據(jù)挖掘技術的產生

隨著科技的進步以及網絡技術的發(fā)展,計算機從硬件到軟件都有著極大的進步。隨著數(shù)據(jù)信息的迅猛增加,數(shù)據(jù)庫技術現(xiàn)在被廣泛用于各行各業(yè)之中,但是如果利用數(shù)據(jù)庫中的信息,利用其隱藏的信息價值,獲取更大的收益,成為技術工作者不斷探究的新課題。雖然信息數(shù)據(jù)迅猛增長,但是現(xiàn)有的數(shù)據(jù)分析工具卻無法實現(xiàn)在海量的數(shù)據(jù)中搜尋有用的信息,為決策者提供有價值的數(shù)據(jù)作出正確的決策和發(fā)展預測。為了解決此問題,數(shù)據(jù)挖掘技術便開始發(fā)展起來。在當前全球海量的數(shù)據(jù)資源以及各行各業(yè)巨大的需求,再加上技術工作者的不斷努力,數(shù)據(jù)挖掘技術的發(fā)展取得了巨大的成就,并被廣泛應用于商業(yè)管理、控制、分析、設計等領域。

20世紀60年代,數(shù)據(jù)庫技術從基本的文件處理發(fā)展為數(shù)據(jù)庫系統(tǒng);70年代,關系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)建模工具等迅速發(fā)展起來;80年代中期開始,關系數(shù)據(jù)庫被普遍采用,促進了新型數(shù)據(jù)庫系統(tǒng)等發(fā)展。但是,隨著數(shù)據(jù)庫系統(tǒng)等不斷發(fā)展,海量的數(shù)據(jù)成為數(shù)據(jù)庫的負累,如何從其中搜尋有用的數(shù)據(jù)已經成為非常困難的事,在不借助任何工具等情況下,人類已經無法進行數(shù)據(jù)的處理和分析,這樣不斷地存儲數(shù)據(jù)就像“墓地”,不能被人們利用,決策者不能從中提取有價值的數(shù)據(jù)進行決策的制定和發(fā)展的預測[1]。在此種背景下,數(shù)據(jù)挖掘技術便開始發(fā)展起來,并取得巨大的成就,現(xiàn)在人們已經能夠利用數(shù)據(jù)挖掘技術挖掘數(shù)據(jù)庫中有用的信息,幫助人們實現(xiàn)信息的利用和財富的轉化。

1.2 數(shù)據(jù)挖掘技術的概念

當前,隨著科技的發(fā)展和互聯(lián)網技術的發(fā)展,數(shù)據(jù)庫中各種信息不斷增多,數(shù)據(jù)庫技術也隨之進步。雖然數(shù)據(jù)庫管理系統(tǒng)被運用于各個行業(yè),但因信息量的劇增,使得數(shù)據(jù)庫管理系統(tǒng)從中提取信息的難度非常大。許多重要的信息都包含在海量的數(shù)據(jù)里面,需要我們將它們從中提取出來,利用這些數(shù)據(jù)發(fā)揮更大的作用,創(chuàng)造出更多的價值,獲取更大的利益。而將這些信息從海量的數(shù)據(jù)庫中提取出來的技術,通常叫做數(shù)據(jù)挖掘技術[2]。

數(shù)據(jù)挖掘技術是從海量數(shù)據(jù)庫中搜索并挖掘有用信息的一種技術,幫助企業(yè)或個人通過數(shù)據(jù)之間的聯(lián)系和不容易引起注意的信息,作出正確的決策,并且通過挖掘的信息進行預測發(fā)展趨勢。數(shù)據(jù)挖掘技術能夠利用信息發(fā)現(xiàn)未知的東西,與先假設再驗證的數(shù)據(jù)處理技術不同,數(shù)據(jù)挖掘技術顯然更加真實準備,更加能夠被廣泛采用。目前,數(shù)據(jù)挖掘技術越來越被各行各業(yè)重視并運用,在未來也有巨大的發(fā)展前景。

1.3 數(shù)據(jù)挖掘技術的功能

數(shù)據(jù)挖掘技術的功能非常強大,能夠使用此技術在數(shù)據(jù)挖掘任務中尋找需要的信息。一般數(shù)據(jù)挖掘的任務分為描述和預測:簡單在數(shù)據(jù)庫中搜尋數(shù)據(jù)反映數(shù)據(jù)的一般特性即為描述;利用數(shù)據(jù)信息進行推算,進行預測即為預測。當前,數(shù)據(jù)挖掘技術的功能有以下幾種:

1)概念或者類描述

數(shù)據(jù)一般是與概念或者類聯(lián)系著的。能夠用總結的、簡單的、正確的方法進行概念或者類的描述就被稱為概念或類描述。通過此種描述方法能夠知道:一是任務數(shù)據(jù)的特征或者整體數(shù)據(jù)的特征,二是能夠將任務數(shù)據(jù)的特征與其他數(shù)據(jù)進行特征的對比,三是能夠利用前述二者進行概念或者類描述。

2)關聯(lián)分析

數(shù)據(jù)挖掘技術通過關聯(lián)分析能夠發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)規(guī)則。這些規(guī)則比較固定地展示了數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)挖掘技術的這項功能在事務數(shù)據(jù)分析中應用較多。

3)分類和預測

分類是指在任務數(shù)據(jù)中找出不同類或者概念的數(shù)據(jù),而后利用分類進行預測還沒有被發(fā)現(xiàn)的信息。預測是給建立一個模型來對不知道的數(shù)據(jù)進行預測或者給定一個數(shù)值區(qū)間,進行任務數(shù)據(jù)的預測。分類與預測的不同之處為:分類是利用分散的數(shù)值進行預測;而預測是利用連續(xù)數(shù)值進行預測。

4)聚類分析

聚類就是將任務數(shù)據(jù)進行同類的聚集,這些任務數(shù)據(jù)中有著非常高的相同點,但是不同聚類之間的差異非常大。與分類大區(qū)別在于,聚類是進行未知數(shù)據(jù)的類別。通過聚類,而后進行數(shù)據(jù)的分析預測。

5)孤立點分析

孤立點一般是度量或者系統(tǒng)執(zhí)行失誤造成的,也有固定數(shù)值突變產生的孤立點。目前,很多數(shù)據(jù)挖掘技術希望通過孤立點分析將其影響變?yōu)樽钚 2贿^,一單操作很容易使重要信息損壞或者丟失,畢竟孤立點是非常重要的。

6)演變分析

數(shù)據(jù)不是固定不變的,而是會不斷地進行變化,利用數(shù)據(jù)挖掘技術進行任務數(shù)據(jù)演變分析,對其規(guī)律或者趨勢進行預測。演變分析包括對數(shù)據(jù)的時間序列、周期進行分析或者類似性地數(shù)據(jù)分析。

2 數(shù)據(jù)挖掘技術的分類

數(shù)據(jù)挖掘技術的分類能夠根據(jù)發(fā)現(xiàn)知識的種類、挖掘的數(shù)據(jù)庫種類、采用的技術等方法進行分類。根據(jù)采用的技術進行分類,則主要有七種。

2.1規(guī)則歸納

規(guī)則歸納就是利用設定的統(tǒng)計方法進行歸納對挖掘者有用的規(guī)則,關聯(lián)規(guī)則挖掘就是其中的一種。

2.2決策樹方法

所謂決策樹方法就是建立樹狀模型進行決策集合。利用已有信息挖掘數(shù)據(jù)庫中重要的有價值的信息,構建支點,再根據(jù)數(shù)據(jù)的不同取值進行分支構造,最后通過分析形成整個的決策樹。決策者可以根據(jù)此決策樹進行決策的制定或者預測發(fā)展趨勢。

2.3人工神經網絡

人工神經網絡的應用比較多,主要是模擬人腦進行數(shù)據(jù)的分析,建立非線性預測模型,從而完成分類、聚類等多種任務。

2.4遺傳算法

遺傳算法是模擬生物進化過程的算法。它是通過將一個問題分解為多個個體,然后在每個個體上進行取值,從而完成信息搜索、任務挖掘。

2.5模糊技術

顧名思義,模糊技術即是利用模糊集合理論對實際問題進行預測、推斷等。一般來說,數(shù)據(jù)庫數(shù)據(jù)具有模糊性,通過大概的數(shù)值估計,利用期望值、隨機值進行組合,使得信息挖掘能夠定性定量的轉換。

2.6粗集方法

1982年,Pawlak(波蘭)提出的數(shù)據(jù)分析方法。粗集方法是利用等價思想將數(shù)據(jù)分散,然后利用屬性的等價進行集合,形成決策集合。

2.7可視化技術

可視化技術即是利用最直觀的圖形方法把數(shù)據(jù)庫信息、數(shù)據(jù)的關聯(lián)等呈現(xiàn)出來,決策者能夠直觀地通過圖形進行發(fā)展趨勢的預測,作出正確的決策。

3基于計算智能的數(shù)據(jù)挖掘技術的具體技術探究

3.1關聯(lián)規(guī)則的挖掘

關聯(lián)規(guī)則挖掘是關聯(lián)分析中的一種數(shù)據(jù)挖掘技術,利用數(shù)據(jù)庫中海量的數(shù)據(jù)進行有用信息間的聯(lián)系的挖掘。當前關聯(lián)規(guī)則的挖掘已經取得巨大的成就,當前,關聯(lián)規(guī)則的挖掘技術有:1)多循環(huán)方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數(shù)據(jù)庫增加紀錄后關聯(lián)規(guī)則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關聯(lián)規(guī)則挖掘,就是為了發(fā)現(xiàn)更多、有用、特別的關聯(lián)規(guī)則;5)挖掘多值屬性關聯(lián)規(guī)則,包括擴展布爾屬性的關聯(lián)規(guī)則算法、K度完全方法等 [3]。

3.2分類規(guī)則的挖掘

分類規(guī)則的挖掘就是在已有數(shù)據(jù)的基礎上建立分類模型,利用該模型將數(shù)據(jù)庫中的數(shù)據(jù)映射到分類中,從而進行數(shù)據(jù)預測。分類模型的構造方法有許多種,通常有決策樹法、神經網絡算法等。由于分類模型等正確率與數(shù)據(jù)、屬性等因素有關,因此在進行分類評估時需要采用以下方法:一是保留方法,將數(shù)據(jù)庫中的一部分數(shù)據(jù)保留,其他的用于數(shù)據(jù)分析評估;二是交叉糾錯方法,即是將分類中有重復的數(shù)據(jù)進行提取,而后進行測試,提高評估正確率[4]。

3.3聚類分析

聚類分析就是將特征相似的數(shù)據(jù)進行歸類,建立成一個集合。再聚類之時要保證數(shù)據(jù)相似性最大,而不同類別的數(shù)據(jù)相似性要最小。這些數(shù)據(jù)的特性在事前并不清楚,聚類分析就是要通過將數(shù)據(jù)進行歸類在進行分析,發(fā)現(xiàn)有價值的信息。聚類算法一般包括基于概率的聚類算法以及基于距離的聚類算法兩種。在實際應用中,基于概率的聚類算法因效率低下而采用較少,基于距離的聚類算法因效率高被廣泛采用。通過聚類分析,對數(shù)據(jù)進行挖掘分析,能夠更加準確地獲得更多地具有價值的信息,為決策者作出決策或者作出發(fā)展預測提供更加有力的數(shù)據(jù)支持。

3.4離群數(shù)據(jù)挖掘

離群數(shù)據(jù)就是指那些明顯跟其他數(shù)據(jù)不同的數(shù)據(jù)類型。離群數(shù)據(jù)的挖掘時數(shù)據(jù)挖掘技術中非常重要的內容,它通過發(fā)現(xiàn)離群數(shù)據(jù)與其他數(shù)據(jù)的區(qū)別,獲取比一般數(shù)據(jù)更有價值的信息。一般離群數(shù)據(jù)主要有以下發(fā)現(xiàn)方法:一是基于統(tǒng)計,即在已知的數(shù)據(jù)上進行離群數(shù)據(jù)的挖掘;二是基于距離,即通過計算數(shù)據(jù)間的距離進行離群數(shù)據(jù)的挖掘;三是基于偏離,即在事前知道數(shù)據(jù)的特性前提下對數(shù)據(jù)進行檢測發(fā)現(xiàn)離群數(shù)據(jù);四是基于規(guī)則,即是根據(jù)已有規(guī)則發(fā)現(xiàn)明顯不同規(guī)則的離群數(shù)據(jù);五是離群數(shù)據(jù)發(fā)現(xiàn)的多策略方法,即是對數(shù)據(jù)進行聚類,進行子集的劃分,再根據(jù)觀察發(fā)現(xiàn)明顯不同的離群數(shù)據(jù)。

4數(shù)據(jù)挖掘技術的應用領域

隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,各行各業(yè)越來越意識到數(shù)據(jù)挖掘技術的巨大優(yōu)勢,因此其應用前景非常廣泛。數(shù)據(jù)挖掘技術的應用主要在以下領域:

4.1科學研究領域

科學技術領域需要運用各種最新技術,利用最新技術進行科學領域的研究。隨著科學數(shù)據(jù)收集工具的運用,各種科學研究收集到了海量的數(shù)據(jù),但是顯然依靠人力或者傳統(tǒng)的數(shù)據(jù)分析工具是不能夠應付的,因此必須要使用一種能夠從海量數(shù)據(jù)中自動搜尋分析提取的工具。正是科學技術領域的需求,推動了數(shù)據(jù)挖掘技術的發(fā)展以及在科學技術領域的應用,并為科學研究領域作出了巨大的貢獻。比如,在遺傳研究領域,涉及DNA的數(shù)據(jù)非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進行數(shù)據(jù)的排練組合顯然是不可能的,所以必須采用數(shù)據(jù)挖掘工具,對不同的基因組進行分析,剔除無害的基因組,選擇出有害的基因組,然后工作人員再根據(jù)提取的數(shù)據(jù)進行分析[5]。此外,數(shù)據(jù)挖掘技術還能運用于對歷史發(fā)展規(guī)律的預測、對人類行為規(guī)律的預測等等。

4.2商業(yè)零售業(yè)

眾所周知,零售業(yè)有著大量的數(shù)據(jù),從進貨到銷售,都有大量的數(shù)據(jù),尤其是隨著電子商業(yè)的發(fā)展,數(shù)據(jù)量也劇增,而處理這些數(shù)據(jù)就需要依靠數(shù)據(jù)挖掘技術。通過數(shù)據(jù)挖掘技術,對銷售數(shù)據(jù)進行分析,就能夠知道什么商品受到顧客喜愛,銷售得最快,而后有針對性地進貨[6]。利用數(shù)據(jù)挖掘技術進行分析,就能夠通過數(shù)據(jù)分析,制定有效銷售措施,獲取最大的利益。

篇8

關鍵詞:網絡安全;入侵檢測;數(shù)據(jù)挖掘

中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 08-0000-01

Research of Intrusion Detection Technology Based on Data Mining

Zhao Nan,Feng Jianlin

(College of Computer and Information Engineering,Lishui University,Lishui323000,China)

Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.

Keywords:Network security;Intrusion detection;Data mining

目前大部分入侵檢測采用特征檢測的方法,它們由安全專家預先定義出一系列特征模式(此處的特征模

式含義比較窄,如表達式、字節(jié)匹配或“特征字符串”,與后面提到的規(guī)則不同),用來識別入侵,同時,入侵檢測系統(tǒng)需要不斷更新自己的模式庫以跟上入侵技術發(fā)展的步伐,僅僅采用這種入侵檢測方法將會帶來很多缺陷。

基于數(shù)據(jù)挖掘的入侵檢測技術可以自動地從訓練數(shù)據(jù)中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)有以下幾點優(yōu)勢:智能性好、檢測效率高、自適應能力強和誤警率低。

一、入侵檢測技術簡介

入侵檢測是對網絡系統(tǒng)的運行狀態(tài)進行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結果,以保證系統(tǒng)資源的機密性、完整性與可用性。入侵檢測系統(tǒng)是從多種計算機系統(tǒng)及網絡中搜集信息,再從這些信息中分析入侵及誤用特征。入侵是由系統(tǒng)外部發(fā)起的攻擊。誤用是由系統(tǒng)內部發(fā)起的攻擊。所有的IDS的本質都是基于分析一系列離散的、按先后順序發(fā)生的事件,這些事件用于誤用模式進行匹配,入侵檢測源都是連續(xù)的紀錄,他們反映了特定的操作,間接反映了運轉狀態(tài)。IDS一般包括三部分:信息的搜集和預處理、入侵檢測分析引擎以及響應和恢復系統(tǒng)[1]。

絕大多數(shù)入侵檢測系統(tǒng)的處理效率低下,不能滿足大規(guī)模和高帶寬網絡的安全防護要求。目前使用的主要檢測方法是將審計事件同特征庫中的特征匹配,但現(xiàn)在的特征庫組織簡單。導致的漏報率和誤報率較高,很難實現(xiàn)對分布式、協(xié)同式攻擊等復雜攻擊手段的準確檢測;此外,預測能力嚴重受限于攻擊特征庫,缺乏對未知入侵的預測能力。

二、數(shù)據(jù)挖掘技術簡介

數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中提取或“挖掘”知識,這些數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息存儲中[2]。于數(shù)據(jù)挖掘是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導致了很多不同的術語名稱。數(shù)據(jù)挖掘是針對特定應用的數(shù)據(jù)分析處理過程,如何選擇輸入數(shù)據(jù)、變換數(shù)據(jù)集對應的挖掘算法,取決于具體的數(shù)據(jù)挖掘目標,即期望從數(shù)據(jù)中發(fā)掘出什么知識。數(shù)據(jù)挖掘可粗略地理解為三步:數(shù)據(jù)準備、數(shù)據(jù)挖掘,以及結果的解釋評估。

三、基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含的、以前不知道的、有潛在作用的信息。它利用統(tǒng)計與可視化技術以易于理解的形式發(fā)現(xiàn)并表現(xiàn)信息。在入侵檢測中,數(shù)據(jù)挖掘被定義為處理大量在中央位置收集得到的數(shù)據(jù),從而察看其規(guī)則模式。基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)(DMIDS)是從訓練數(shù)據(jù)中得到規(guī)則模式,用于實時的入侵檢測系統(tǒng)中的入侵檢測。

基于數(shù)據(jù)挖掘的入侵檢測技術可以自動地從訓練數(shù)據(jù)中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)有以下幾點優(yōu)勢:智能性好、檢測效率高、自適應能力強、誤警率低[3]。

基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)原理,DMIDS總體分為兩部分:

第一部分是數(shù)據(jù)挖掘部分,主要采用數(shù)據(jù)挖掘技術來得出規(guī)則庫,為后續(xù)的檢測提供依據(jù);其中包括:訓練數(shù)據(jù),數(shù)據(jù)挖掘模塊和規(guī)則庫,

第二部分為入侵檢測部分,實時采集數(shù)據(jù),處理數(shù)據(jù),然后和規(guī)則庫進行比較,判斷當前用戶的操作是否合法,并相應的作為響應或恢復機制。該部分主要擁有以下模塊:

數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘技術是一種決策支持過程,它主要基于AI,機器學習統(tǒng)計等技術,它能高度自動化地分析原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預測出客戶的行為。

數(shù)據(jù)挖掘模塊的主要作用就是從訓練數(shù)據(jù)中挖掘正常和異常行為規(guī)則,構建規(guī)則庫,對于不同性質的數(shù)據(jù)源,這里要求采用不同的數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的隱含規(guī)律。

DM的技術基礎是人工智能,它利用了人工智能的一些已經成熟的算法和技術,例如:人工神經網絡、遺傳算法。決策樹、鄰近搜索算法、規(guī)則推理、模糊邏輯等DM系統(tǒng)問題利用的技術越多,得出的結果精確性就越高。這主要取決于問題的類型以及數(shù)據(jù)的類型和規(guī)模。

四、結論

由于入侵檢測系統(tǒng)本身應用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環(huán)境適應性和本身的健壯性。本文對基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)的信息提取技術作了較全面的研究和介紹,重點研究了啟發(fā)式的聚類數(shù)據(jù)挖掘算法,并對其中涉及到的概化分層和聚類算法和關聯(lián)算法,分類算法等進行了介紹。

參考文獻:

[1]孫鑫鴿,趙躍龍.基于數(shù)據(jù)挖掘的分布式入侵檢測系統(tǒng)[J].電子技術應用,2008,3:126-130

推薦期刊
九九热国产视频精品,免费国产不卡一级αⅴ片,欧美日韩蜜桃在线播放,精品国内自产拍99在线观看
视频精品中文字幕一区二区 | 在线观看免费人成片 | 日本精品中文字幕 | 在线观看免费人成视频在线 | 亚洲欧美人成在线 | 日韩按摩在线一区 |