數(shù)據(jù)挖掘研究及發(fā)展現(xiàn)狀_第1頁(yè)
已閱讀1頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向摘 要:數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫(kù)和人工智能領(lǐng)域研究的熱點(diǎn)。從數(shù)據(jù)挖掘的定義出發(fā),介紹了數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法和關(guān)聯(lián)規(guī)則法等概念及其各自的優(yōu)缺點(diǎn);詳細(xì)總結(jié)了國(guó)內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀及研究熱點(diǎn),指出了數(shù)據(jù)挖掘的發(fā)展方向。關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);決策樹(shù);粗糙集;模糊集;研究現(xiàn)狀;發(fā)展方向The present situation and future direction

2、 ofthe data mining technology researchAbstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advan

3、tages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international resear

4、ch situation and focus of data mining in details, and pointed out the development trend of data mining.Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development directio

5、n 0 引言隨著信息技術(shù)的迅猛發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機(jī)構(gòu)和政府部門(mén)等都積累了海量的、不同形式存儲(chǔ)的數(shù)據(jù)資料[1]。這些海量數(shù)據(jù)中往往隱含著各種各樣有用的信息,僅僅依靠數(shù)據(jù)庫(kù)的查詢檢索機(jī)制和統(tǒng)計(jì)學(xué)方法很難獲得這些信息,數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開(kāi)發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識(shí)金磚,從而達(dá)到為決策服務(wù)的目的。在這種情況下,一個(gè)新的技術(shù)——數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)應(yīng)運(yùn)而生[2]。數(shù)據(jù)挖掘正是為了迎合這種

6、需要而產(chǎn)生并迅速發(fā)展起來(lái)的、用于開(kāi)發(fā)信息資源的、一種新的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)挖掘通常又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases) ,是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、信息檢索等最新技術(shù)的研究成果,其應(yīng)用非常廣泛。只要是有分析價(jià)值的數(shù)據(jù)庫(kù),都可以利用數(shù)據(jù)挖掘工具來(lái)挖掘有用的信息。數(shù)據(jù)挖掘典型的應(yīng)用領(lǐng)域包括市場(chǎng)、工業(yè)生產(chǎn)、金融、醫(yī)學(xué)、科學(xué)研究、工程診斷等。

7、本文主要介紹數(shù)據(jù)挖掘的主要算法及其各自的優(yōu)缺點(diǎn),并對(duì)國(guó)內(nèi)外的研究現(xiàn)狀及研究熱點(diǎn)進(jìn)行了詳細(xì)的總結(jié),最后指出其發(fā)展趨勢(shì)及問(wèn)題所在。1 數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識(shí)的非平凡過(guò)程[3]。所得到的信息應(yīng)具有先前未知、有效和實(shí)用三個(gè)特征。數(shù)據(jù)挖掘過(guò)程如圖 1 所示。這些數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的、甚至是異構(gòu)型的。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的、也

8、可以是歸納的。最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等[4]。數(shù)據(jù)選擇:確定發(fā)現(xiàn)任務(wù)的操作對(duì)象,即目標(biāo)對(duì)象;預(yù)處理:包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等;轉(zhuǎn)換:消減數(shù)據(jù)維數(shù)或降維;數(shù)據(jù)開(kāi)采:確定開(kāi)采的任務(wù),如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等,并確定使用什么樣的開(kāi)采算法; 解釋和評(píng)價(jià):數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過(guò)用戶和機(jī)器的評(píng)價(jià),可能存在冗余或無(wú)關(guān)的模式,這時(shí)需

9、要剔除,使用戶更容易理解和應(yīng)用。 十大經(jīng)典算法如圖 2:目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。叉變異及自然選擇等操作來(lái)生成實(shí)現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是/適者生存 0 原理,具有隱含并行性、易于和其它模型結(jié)合等性質(zhì)。主要的優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)類型,同時(shí)可以并行處理各種數(shù)據(jù),對(duì)問(wèn)題的種類有很強(qiáng)的魯棒性;缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計(jì)算量比較大。遺傳算

10、法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),解決其它技術(shù)難以解決的問(wèn)題。1.4 粗糙集法粗糙集法也稱粗糙集理論,是一種新的處理含糊、不精確、不完備問(wèn)題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡(jiǎn)、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評(píng)估等問(wèn)題。其優(yōu)點(diǎn)是算法簡(jiǎn)單,不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息;缺點(diǎn)是難以直接處理連續(xù)的屬性,須先進(jìn)行屬性的離散化。因此,連續(xù)屬性的離散化問(wèn)題是制約粗糙集理論實(shí)用化的難點(diǎn)[7]。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡(jiǎn)、建立預(yù)測(cè)模型等問(wèn)題。

11、1.5 模糊集法模糊集法利用模糊集合理論對(duì)問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。模糊集合理論是用隸屬度來(lái)描述模糊事物的屬性[7]。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。1.6 關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則反應(yīng)了事物之間的相互依賴性或關(guān)聯(lián)性。其最著名的算法是 R.AGRAWAL 等人提出的 Apriori 算法。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的 2個(gè)閾值。在這個(gè)意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫(kù)中挖掘出滿足最小支

12、持度和最小可信度的關(guān)聯(lián)規(guī)則。2 數(shù)據(jù)挖掘研究現(xiàn)狀2.1 國(guó)外研究現(xiàn)狀知識(shí)發(fā)現(xiàn)[8]( Knowledge Discovery in Databases, KDD)與 DM 是數(shù)據(jù)庫(kù)領(lǐng)域中最重要的課題之一。KDD 一詞是在 1989 年 8 月于美國(guó)底特律市召開(kāi)的第十一屆國(guó)際人工智能會(huì)議上正式形成的。1995 年在加拿大蒙特利爾召開(kāi)的首屆 KDD & Data Mining 國(guó)際學(xué)術(shù)會(huì)議上,把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識(shí)發(fā)

13、現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘[9]。之后每年召開(kāi)一次這樣的會(huì)議,經(jīng)過(guò)十幾年的努力,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。目前,對(duì) KDD 的研究主要圍繞理論、技術(shù)和應(yīng)用這三個(gè)方面展開(kāi)。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術(shù)。目前,國(guó)外數(shù)據(jù)挖掘的最新發(fā)展主要有對(duì)發(fā)現(xiàn)知識(shí)的方法的進(jìn)一步研究,如近年來(lái)注重對(duì)Bayes(貝葉斯)方法以及 Boosting 方法的研究和改進(jìn)提高;KDD 與數(shù)據(jù)庫(kù)的緊密結(jié)合;傳統(tǒng)的統(tǒng)計(jì)學(xué)回歸方法在 KDD

14、 中的應(yīng)用。在應(yīng)用方面主要體現(xiàn)在 KDD 商業(yè)軟件工具從解決問(wèn)題的孤立過(guò)程轉(zhuǎn)向建立解決問(wèn)題的整體系統(tǒng),主要用戶有保險(xiǎn)公司、大型銀行和銷售業(yè)等。許多計(jì)算機(jī)公司和研究機(jī)構(gòu)都非常重視數(shù)據(jù)挖掘的開(kāi)發(fā)應(yīng)用,IBM 和微軟都相繼成立了相應(yīng)的研究中心[10]。美國(guó)是全球數(shù)據(jù)挖掘研究最繁榮的地區(qū),并占據(jù)著研究的核心地位。由于數(shù)據(jù)挖掘軟件市場(chǎng)需求量的增大,包括國(guó)際知名公司在內(nèi)的很多軟件公司都紛紛加入到了數(shù)據(jù)挖掘工具研發(fā)的行列中來(lái),到目前已開(kāi)發(fā)了一系列技術(shù)

15、成熟、應(yīng)用價(jià)值較高的數(shù)據(jù)挖掘軟件。以下為目前最主要的數(shù)據(jù)挖掘軟件:(1) Knowledge Studio:由 Angoss 軟件公司開(kāi)發(fā)的能夠靈活地導(dǎo)入外部模型和產(chǎn)生規(guī)則的數(shù)據(jù)挖掘工具。最大的優(yōu)點(diǎn):響應(yīng)速度快,且模型、文檔易于理解,SDK 中容易加入新的算法。(2) IBM Intelligent Miner:該軟件能自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、轉(zhuǎn)換、發(fā)掘和結(jié)果呈現(xiàn)一整套數(shù)據(jù)挖掘操作;支持分類、預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類等算法,并且具有強(qiáng)大的 API

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論