基于web服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究_第1頁
已閱讀1頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  華中科技大學(xué)</b></p><p><b>  碩士學(xué)位論文</b></p><p>  基于Web服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究</p><p><b>  姓名:侯敬軍</b></p><p><b>  申請學(xué)位級別:碩士</

2、b></p><p><b>  專業(yè):水利水電工程</b></p><p><b>  指導(dǎo)教師:曾致遠(yuǎn)</b></p><p><b>  20040501</b></p><p><b>  摘</b></p><p>

3、<b>  要</b></p><p><b>  由于以下原因</b></p><p>  原有的集中式數(shù)據(jù)挖掘越來越不適應(yīng)新的需求</p><p>  1 待處理的數(shù)據(jù)源是分布式存放在網(wǎng)絡(luò)的不同主機(jī)上的</p><p>  2 于網(wǎng)絡(luò)帶寬的限制 數(shù)據(jù)的私有性和安全性 系統(tǒng)的不兼容性等原因 把所&

4、lt;/p><p>  有數(shù)據(jù)源集到一個集中的地方</p><p><b>  如數(shù)據(jù)倉庫</b></p><p>  進(jìn)行集中數(shù)據(jù)挖掘往往是不現(xiàn)實的</p><p>  3 對挖掘系統(tǒng)的開放性和易用性的要求越來越高</p><p>  分布式數(shù)據(jù)挖掘技術(shù)就是為了解決上述問題而被提出的</p&g

5、t;<p><b>  目前</b></p><p><b>  該研究領(lǐng)域的</b></p><p>  兩個重要問題式設(shè)計合適的分布式數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)和相應(yīng)的分布式挖掘算</p><p>  法 本文將最新的分布式組件技術(shù)</p><p>  解決上述兩個問題方面做了一些嘗試

6、</p><p>  Web 服務(wù)技術(shù)引入分布式數(shù)據(jù)挖掘領(lǐng)域</p><p><b>  在</b></p><p>  首先介紹了分布式數(shù)據(jù)挖掘產(chǎn)生的背景</p><p><b>  研究現(xiàn)狀和成果</b></p><p><b>  存在的問題以及關(guān)</b

7、></p><p>  聯(lián)規(guī)則挖掘的不同算法 接著介紹了 Web 服務(wù)及其相關(guān)技以及 Web 服務(wù)技術(shù)的優(yōu)點</p><p><b>  和其適用場合</b></p><p>  給出了 Web 服務(wù)技術(shù)與分布式數(shù)據(jù)挖掘的結(jié)合點 然后提出了一種</p><p><b>  跨平臺的</b>&l

8、t;/p><p><b>  易擴(kuò)展的</b></p><p>  適用于分布環(huán)境下的基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)架</p><p><b>  構(gòu)</b></p><p>  并結(jié)合上述系統(tǒng)的特點</p><p>  給出一個該系統(tǒng)中的分布式關(guān)聯(lián)規(guī)則挖掘算法</

9、p><p>  FDM-GS(FDM with global site) 該算法應(yīng)用了新的候選集剪枝策略</p><p><b>  可有效減小候</b></p><p>  選集的規(guī)模和收集候選集支持計數(shù)時的網(wǎng)絡(luò)信息流量</p><p><b>  了詳細(xì)的說明</b></p><

10、p>  并結(jié)合一個實例對該算法做</p><p><b>  關(guān)鍵詞</b></p><p>  數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 分布式計算 組件技術(shù) Web 服務(wù)</p><p><b>  IV</b></p><p><b>  Abstract</b></p>

11、<p>  For the following reasons, the original centralized data mining became more and</p><p>  more out of date:</p><p>  1. The data source need to be processed is distributed on the diffe

12、rent computers in</p><p>  the networks.</p><p>  2. For the constrain of networks band, the privacy and safety of data, the</p><p>  incompatibility of systems, etc, it is not real

13、istic to put all data source in a place (for</p><p>  example, the data warehouse) for centralized data mining.</p><p>  3. More and more demands have addressed on the openness and easy accessib

14、ility.</p><p>  The distributed data mining technology was presented for the problems mentioned</p><p>  above. Presently, the two important matters in this field are that, design for suitable&l

15、t;/p><p>  architecture of distributed data mining systems and corresponding distributed mining</p><p>  algorithms. This article introduced the latest technology for distributed component</p>

16、;<p>  technology — Web services technology into distributed data mining field, and took some</p><p>  tentative efforts in solving the aforementioned two problems.</p><p>  In the beginn

17、ing, the background for bringing distributed data mining, the status of</p><p>  research and research achievements, the existing problems, and algorithm for association</p><p>  rules were intr

18、oduced. And then, the web services and related technology, and the</p><p>  advantages and disadvantages of web service technology were introduced, and the</p><p>  connecting point for web serv

19、ice technology and distributed data mining. And then a</p><p>  multi-platform, easy-extensible, suitable for distributed environment and web-based</p><p>  services distributed association rule

20、 mining algorithm FDM-GS (FDM with global site)</p><p>  were proposed. This algorithm adopted a new pruning strategy of candidate set and it can</p><p>  decrease the scale of candidate set and

21、 the networks information flow for collecting</p><p><b>  V</b></p><p>  candidate set supporting counts. In addition, the detailed explanation for this algorithm</p><p>

22、;  was made with a practical example.</p><p>  Keywords: Data mining, Association rules, Distributed computing, Component</p><p>  technology, Web service</p><p><b>  VI</b

23、></p><p><b>  獨創(chuàng)性聲明</b></p><p>  本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究</p><p>  成果 盡我所知 除文中已經(jīng)標(biāo)明引用的內(nèi)容外 本論文不包含任何其他個人或集體已</p><p>  經(jīng)發(fā)表或撰寫過的研究成果 對本文的研究做出貢獻(xiàn)的個人和

24、集體 均已在文中以明確</p><p>  方式標(biāo)明 本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)</p><p><b>  學(xué)位論文作者簽名</b></p><p><b>  日期</b></p><p><b>  年</b></p><p><

25、;b>  月</b></p><p><b>  日</b></p><p>  學(xué)位論文版權(quán)使用授權(quán)書</p><p>  本學(xué)位論文作者完全了解學(xué)校有關(guān)保留 使用學(xué)位論文的規(guī)定 即 學(xué)校有權(quán)保留</p><p>  并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版 允許論文被查閱和借閱 本人授<

26、/p><p>  權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索 可以采</p><p><b>  用影印</b></p><p>  縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文</p><p><b>  保密</b></p><p>  在_______

27、_____年解密后適用本授權(quán)書</p><p><b>  本論文屬于 不保密</b></p><p><b>  請在以上方框內(nèi)打</b></p><p><b>  學(xué)位論文作者簽名</b></p><p><b>  指導(dǎo)教師簽名</b></p

28、><p><b>  日期</b></p><p><b>  年</b></p><p><b>  月</b></p><p><b>  日</b></p><p><b>  日期</b></p>

29、;<p><b>  年</b></p><p><b>  月</b></p><p><b>  日</b></p><p><b> ?。薄 【w 論 </b></p><p>  1.1 課題的目的和意義 </p><

30、;p><b>  近來</b></p><p><b>  由于挖掘?qū)ο?lt;/b></p><p><b>  數(shù)據(jù)源</b></p><p><b>  在地理上的分布</b></p><p>  數(shù)據(jù)集中代價太大或根本無</p>&l

31、t;p><b>  法進(jìn)行</b></p><p>  挖掘系統(tǒng)所涉及的軟組件以及用戶在地理上的分布</p><p><b>  遺留系統(tǒng)的重用和集</b></p><p>  成 成本方面的考慮等原因 分布式數(shù)據(jù)挖掘受到越來越多的重視 在目前的分布</p><p>  式數(shù)據(jù)開采的研究工作中

32、</p><p>  非常重要的一個方面是如何設(shè)計分布式數(shù)據(jù)開采系統(tǒng)的</p><p><b>  體系結(jié)構(gòu)</b></p><p>  真正能支持各種分布式開采算法 真正實現(xiàn)平臺無關(guān)性 本文就如何解</p><p>  決上述問題做了一些探索</p><p>  1.2 本文的主要研究內(nèi)容和創(chuàng)新

33、點</p><p>  1 介紹了分布式數(shù)據(jù)挖掘產(chǎn)生的背景 研究現(xiàn)狀和成果</p><p><b>  存在的問題以及關(guān)</b></p><p>  聯(lián)規(guī)則挖掘的不同算法</p><p>  2 概述了 Web 服務(wù)及其相關(guān)技術(shù) 介紹了 Web 服務(wù)技術(shù)的優(yōu)點和其適用場合</p><p>  3

34、給出了 Web 服務(wù)技術(shù)與分布式數(shù)據(jù)挖掘的結(jié)合點</p><p><b>  提出一種跨平臺的</b></p><p><b>  易</b></p><p>  擴(kuò)展的 適用于分布環(huán)境下的基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)架構(gòu)</p><p><b>  4 上述系統(tǒng)的特點</

35、b></p><p>  FDM with global site</p><p><b>  1.3 章節(jié)安排</b></p><p><b>  全文章節(jié)安排如下</b></p><p>  給出一個該系統(tǒng)中的分布式關(guān)聯(lián)規(guī)則挖掘算法 FDM-GS</p><p> 

36、 并結(jié)合一個實例對該算法做了詳細(xì)的說明</p><p><b>  第一章</b></p><p><b>  緒論</b></p><p>  介紹了本論文研究課題的出發(fā)點 給出了本文的主要研究內(nèi)容和創(chuàng)新點 同時</p><p>  對文章的組織進(jìn)行了敘述</p><p>

37、<b>  1</b></p><p>  第二章 分布式數(shù)據(jù)挖掘概述</p><p>  簡單介紹數(shù)據(jù)挖掘技術(shù)產(chǎn)生的背景以及數(shù)據(jù)挖掘的主要功能 接著給出了分布</p><p>  式數(shù)據(jù)挖掘的定義 介紹了進(jìn)行分布式數(shù)據(jù)挖掘的必要性和需要解決好的問題以及</p><p>  分布式數(shù)據(jù)挖掘的研究現(xiàn)狀</p>

38、<p><b>  成果以及趨勢</b></p><p><b>  第三章</b></p><p><b>  關(guān)聯(lián)規(guī)則挖掘</b></p><p>  首先結(jié)合一個例子給出了關(guān)聯(lián)規(guī)則挖掘的定義和其相關(guān)術(shù)語 然后介紹了關(guān)聯(lián)</p><p>  規(guī)則挖掘的經(jīng)典頻繁項

39、集發(fā)現(xiàn)算法 Apriori 算法及其改進(jìn)以及其它的算法</p><p><b>  第四章</b></p><p><b>  Web 服務(wù)技術(shù)</b></p><p>  介紹了 Web 服務(wù)技術(shù)出現(xiàn)的背景及其相關(guān)技術(shù)</p><p>  論述了 Web 服務(wù)技術(shù)的優(yōu)點</p>&l

40、t;p><b>  及其適用場合</b></p><p>  第五章 基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)</p><p>  首先介紹了 Web 服務(wù)技術(shù)和分布式數(shù)據(jù)挖掘的結(jié)合點</p><p><b>  接著提出了一種基于</b></p><p>  Web 服務(wù)的分布式數(shù)據(jù)挖掘體

41、系結(jié)構(gòu) 然后給出了一個該體系結(jié)構(gòu)下的分布式關(guān)聯(lián)</p><p><b>  規(guī)則挖掘算法</b></p><p>  并通過一個實例詳細(xì)說明</p><p><b>  第五章</b></p><p><b>  總結(jié)與展望</b></p><p>&l

42、t;b>  對全文進(jìn)行了總結(jié)</b></p><p>  并提出了有待進(jìn)一步研究的內(nèi)容</p><p><b>  2</b></p><p>  2 分布式數(shù)據(jù)挖掘概述</p><p>  2.1 數(shù)據(jù)挖掘簡介</p><p><b>  近年來</b>&

43、lt;/p><p>  隨著越來越多的企業(yè)將通信</p><p>  計算機(jī)和網(wǎng)絡(luò)技術(shù)引入企業(yè)的日常工作</p><p><b>  和業(yè)務(wù)處理當(dāng)中</b></p><p>  企業(yè)的信息化程度不斷提高</p><p>  現(xiàn)代信息技術(shù)的廣泛應(yīng)用顯著的提</p><p>  高

44、了企業(yè)的工作效率和經(jīng)濟(jì)效益</p><p><b>  然而</b></p><p>  在享用信息技術(shù)帶來的方便 快捷的同時 新的問題和需求也在不斷涌</p><p>  現(xiàn) 其中比較突出的有</p><p><b>  第一</b></p><p>  企業(yè)積累了大量的歷

45、史數(shù)據(jù)</p><p><b>  這些數(shù)據(jù)對企業(yè)當(dāng)前</b></p><p>  的日常經(jīng)營活動幾乎沒有任何的使用價值</p><p>  完全儲藏這些歷史數(shù)據(jù)會對企業(yè)造成很</p><p><b>  大的困難和開銷</b></p><p>  但其中顯然蘊(yùn)涵著對企業(yè)高層

46、次的決策有著寶貴價值的信息</p><p><b>  簡</b></p><p>  單的將它們丟棄是很大的浪費(fèi)</p><p>  希望能夠?qū)ζ溥M(jìn)行更高層次的分析 以便利用好這</p><p><b>  些數(shù)據(jù)</b></p><p>  雖然目前的數(shù)據(jù)庫系統(tǒng)可以高效的

47、實現(xiàn)數(shù)據(jù)的錄入</p><p><b>  查詢 統(tǒng)計等功能</b></p><p>  但是這些功能都是對企業(yè)的宏觀經(jīng)營決策沒有多大幫助的低層次的 微觀的功能</p><p>  無法發(fā)現(xiàn)海量數(shù)據(jù)中存在的關(guān)系和規(guī)則 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢</p><p>  缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識的手段 導(dǎo)致了 數(shù)據(jù)

48、豐富</p><p><b>  但信息貧乏</b></p><p><b>  理解這些</b></p><p>  海量歷史數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力</p><p><b>  結(jié)果這些數(shù)據(jù)變成了</b></p><p><b>  數(shù)據(jù)

49、墳?zāi)?lt;/b></p><p><b>  難</b></p><p>  得再訪問的數(shù)據(jù)檔案 第二</p><p>  上述的大量歷史數(shù)據(jù)是以各種各樣的形式存在著的</p><p>  直接在其上進(jìn)行高層次的分析是幾乎無法實現(xiàn)的</p><p>  層次分析能夠順利進(jìn)行</p&g

50、t;<p>  必須對上述信息做初加工</p><p><b>  使高</b></p><p><b>  有需求就有供給</b></p><p>  為解決上述問題 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生</p><p><b>  許多研究成果和</b></p>

51、<p><b>  應(yīng)用產(chǎn)品不斷涌現(xiàn)</b></p><p>  該課題依然是當(dāng)前信息技術(shù)領(lǐng)域的熱門研究方向之一</p><p>  那么到底什么是數(shù)據(jù)挖掘 Data Mining 呢</p><p>  許多文獻(xiàn)[1][2]對其有著不同的定義</p><p>  但其共同點都大致為 數(shù)據(jù)挖掘是從大量的 不完

52、全的</p><p><b>  有噪聲的 模糊的</b></p><p><b>  隨機(jī)</b></p><p><b>  的數(shù)據(jù)中</b></p><p>  提取隱含在其中 人們事先不知道的但又是潛在有用的信息和知識的過</p><p>  程

53、 數(shù)據(jù)挖掘提取的知識可以表示為概念</p><p><b>  規(guī)律</b></p><p><b>  模式</b></p><p><b>  約束</b></p><p><b>  可視化</b></p><p><b

54、>  數(shù)據(jù)挖掘</b></p><p><b>  3</b></p><p>  算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞 數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式</p><p>  2.2 數(shù)據(jù)挖掘的功能</p><p>  數(shù)據(jù)挖掘功能用于制定數(shù)據(jù)挖掘</p><p>  任務(wù)中要

55、找的模式類型 數(shù)據(jù)挖掘任務(wù)</p><p>  一般可以分為兩類 描述和預(yù)測 描述</p><p>  性挖掘任務(wù)刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般</p><p>  特性 預(yù)測性數(shù)據(jù)挖掘任務(wù)在當(dāng)前數(shù)據(jù)</p><p>  上進(jìn)行推斷 以進(jìn)行預(yù)測</p><p>  下面介紹一下數(shù)據(jù)挖掘功能以及它們可以發(fā)現(xiàn)的模式類型</p

56、><p><b>  1 特征化和區(qū)分</b></p><p><b>  數(shù)據(jù)特征化是目標(biāo)類</b></p><p><b>  所研究的對象</b></p><p>  數(shù)據(jù)的一般特征或特征的匯總 數(shù)據(jù)特</p><p>  征的輸出可以用多種形式提供&

57、lt;/p><p><b>  包括餅圖</b></p><p><b>  條圖</b></p><p><b>  曲線</b></p><p>  多維數(shù)據(jù)立方體和包括交</p><p><b>  叉表在內(nèi)的多維表</b><

58、;/p><p>  數(shù)據(jù)區(qū)分是將目標(biāo)類對象的一般特征與一個或多個對比類對象的一般特征比</p><p>  較 區(qū)分描述的形式類似與特征描述</p><p>  但區(qū)分描述應(yīng)當(dāng)包括比較度量</p><p><b>  幫助區(qū)分目</b></p><p><b>  標(biāo)類和對比類</b&

59、gt;</p><p>  用戶應(yīng)當(dāng)能夠?qū)μ卣骱蛥^(qū)分描述的輸出進(jìn)行操作</p><p><b>  2 關(guān)聯(lián)分析</b></p><p>  關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則</p><p>  若兩個或多個數(shù)據(jù)項的取值重復(fù)出現(xiàn)且概率很高</p><p>  時 它就存在著某種關(guān)聯(lián)</p>

60、<p>  可以建立起這些數(shù)據(jù)項的關(guān)聯(lián)規(guī)則</p><p><b>  關(guān)聯(lián)分析的目的是</b></p><p>  找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng) 在大型數(shù)據(jù)庫中 這種關(guān)聯(lián)規(guī)則是很多的 一般用 支</p><p><b>  4</b></p><p><b>  持度</b&

61、gt;</p><p><b>  和</b></p><p><b>  置信度</b></p><p>  兩個閾值來淘汰那些無用的關(guān)聯(lián)規(guī)則</p><p><b>  3 分類</b></p><p>  分類是數(shù)據(jù)挖掘中應(yīng)用得最多的方法</

62、p><p>  分類是找出一個類別的概念描述</p><p><b>  它代</b></p><p>  表了這類數(shù)據(jù)的整體信息</p><p><b>  即該類的內(nèi)涵描述</b></p><p>  一般用規(guī)則或決策樹模式表示</p><p><

63、;b>  一</b></p><p>  個類的內(nèi)涵描述分為特征性描述和區(qū)別性描述</p><p>  特征性描述是對類中對象的共同特</p><p><b>  征的描述</b></p><p>  區(qū)別性描述是對兩個或多個類之間的區(qū)別的描述</p><p><b>

64、  4 聚類分析</b></p><p>  數(shù)據(jù)庫中的數(shù)據(jù)可以分為一系列有意義的子集</p><p><b>  或稱為類</b></p><p><b>  在同一類別中</b></p><p><b>  個</b></p><p>&

65、lt;b>  體之間的距離較小</b></p><p>  而不同類別的個體之間距離較大</p><p>  但是如何劃分這些子集</p><p><b>  即</b></p><p>  如何標(biāo)記這些不同的類</p><p>  聚類可以用于產(chǎn)生這種標(biāo)記 待劃分的對象根據(jù)最大

66、化</p><p><b>  類內(nèi)的相似性</b></p><p>  最小化類間的相似性的原則進(jìn)行聚類或分組</p><p><b>  5 序貫?zāi)J?lt;/b></p><p>  通過時間序列搜索出重復(fù)發(fā)生概率較高的模式</p><p>  這里強(qiáng)調(diào)時間序列的影響<

67、/p><p><b>  例</b></p><p><b>  如</b></p><p>  在所有購買激光打印機(jī)的人中</p><p>  半年后有 80%的人再購買新硒鼓</p><p><b>  20%的人用</b></p><

68、;p><b>  舊硒鼓裝碳粉</b></p><p><b>  6 孤立點分析</b></p><p>  數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄 這些記錄稱為孤立點</p><p><b>  從數(shù)據(jù)庫中檢測出</b></p><p>  這些孤立點很有意義 孤立點包括很多

69、潛在的知識 如分類中的反常實例 不滿足</p><p>  規(guī)則的特例 觀測結(jié)果與模型預(yù)測值的偏差 量值隨時間的變化等 孤立點分析基</p><p>  本方法是尋找觀測結(jié)果與參照之間的差別</p><p>  2.3 分布式數(shù)據(jù)挖掘簡介</p><p>  最近 分布式數(shù)據(jù)挖掘 DDM 又吸引了不少研究者的目光 并取得了一些進(jìn)</p&

70、gt;<p><b>  展</b></p><p>  2.3.1 何謂分布式數(shù)據(jù)挖掘</p><p>  所謂分布式數(shù)據(jù)挖掘有兩層含義 第一 就是使用分布式算法 從邏輯上或物</p><p><b>  5</b></p><p>  理上分布的數(shù)據(jù)源中發(fā)現(xiàn)知識的過程 </p

71、><p>  這里主要強(qiáng)調(diào)數(shù)據(jù)源的分布性</p><p><b>  第二</b></p><p><b>  是</b></p><p>  指與某個數(shù)據(jù)挖掘任務(wù)相關(guān)的用戶 數(shù)據(jù) 挖掘軟件以及其他軟組件是地理上分散</p><p><b>  的</b>&

72、lt;/p><p>  這里主要強(qiáng)調(diào)的是軟組件的分散性</p><p>  2.3.2 分布式數(shù)據(jù)挖掘的必要性</p><p>  為什么分布式數(shù)據(jù)挖掘會被重視呢</p><p>  這是因為以下幾個因素</p><p> ?。保?shù)據(jù)挖掘的目標(biāo)是大規(guī)模的數(shù)據(jù)集 而在現(xiàn)實環(huán)境中 絕大部分的大型數(shù)據(jù)</p>&l

73、t;p>  庫都是以分布式的形式存在的 因此 提出新的分布式數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)是</p><p><b>  非常必要的</b></p><p> ?。玻┰跀?shù)據(jù)挖掘系統(tǒng)中 經(jīng)常需要來自不同站點的數(shù)據(jù)庫中的數(shù)據(jù) 這就使得數(shù)</p><p>  據(jù)挖掘系統(tǒng)必須具有分布式挖掘的能力 同時也需要我們根據(jù)分布式數(shù)據(jù)挖掘的特</p>

74、<p>  點設(shè)計出新的分布式數(shù)據(jù)挖掘算法</p><p> ?。常┯捎诰W(wǎng)絡(luò)帶寬的限制 數(shù)據(jù)的私有性和安全性 系統(tǒng)的不兼容性等原因 把</p><p>  所有數(shù)據(jù)源集到一個集中的地方 如數(shù)據(jù)倉庫 進(jìn)行集中數(shù)據(jù)挖掘往往是不現(xiàn)實的  </p><p> ?。矗┥鲜鋈c都是因數(shù)據(jù)源的分布而帶來的問題 另外 成本是另一個必須考慮</p><

75、p>  的因素 這主要是針對上述分布式數(shù)據(jù)挖掘的第二層含義而言的 為了完成不同的</p><p>  數(shù)據(jù)挖掘任務(wù) 用戶必須使用許多不同的挖掘工具 在分布的環(huán)境下更是可能進(jìn)一</p><p>  步增加成本 因為這需要挖掘工具的多個拷貝 還有 為了節(jié)約投資 用戶往往希</p><p>  望只使用那些能夠滿足他們需要的組件</p><p&g

76、t;<b>  而不是整個軟件包</b></p><p><b>  一個典型的例子是</b></p><p>  用戶用一個供應(yīng)商的工具 例如一個較新的并且是免費(fèi)的研究模型 來獲取他感興</p><p>  趣的模式 然后用另一個供應(yīng)商的可視化工具來顯示這些模式 一個可能的解決方</p><p>

77、  案是把這些分布的挖掘工具集成到一個數(shù)據(jù)挖掘應(yīng)用中</p><p><b>  資  </b></p><p>  2.3.3 進(jìn)行分布式數(shù)據(jù)挖掘需要解決的問題</p><p>  這將大大減少用戶的投</p><p><b>  在分布式數(shù)據(jù)挖掘中</b></p><p>

78、;  有幾個技術(shù)細(xì)節(jié)需要注意</p><p>  1)全局集中控制 為了方便地實現(xiàn)分布式數(shù)據(jù)挖掘 一個用于集中控制的站點</p><p>  是必須的 在不存在全局控制站點情況下 整個系統(tǒng)的通訊開銷是非常巨大的 為</p><p>  了得到全局知識 所有的站點將進(jìn)行大量的廣播 比起使用全局控制站點的系統(tǒng)來</p><p><b>

79、  6</b></p><p>  說 開銷和難度無疑要大得多 此外 在某些分布式數(shù)據(jù)挖掘算法中 需要進(jìn)行全</p><p>  局范圍內(nèi)的決策 這也是引入全局控制站點的一個自然原因 實際上在引入了全局</p><p><b>  控制站點后</b></p><p>  系統(tǒng)的可擴(kuò)展性和靈活性都得到了很好的支

80、持</p><p>  2)并行和分布式數(shù)據(jù)挖掘算法 這實際上是針對性能問題提出來的 服務(wù)器端</p><p>  的大容量數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘要耗費(fèi)很長時間 因為數(shù)據(jù)挖掘算法的時間復(fù)雜度</p><p>  很高 一個比較好的方法是使用并行化數(shù)據(jù)挖掘算法</p><p>  將數(shù)據(jù)集劃分成多個子集</p><p> 

81、 并行處理后合并各個子集的挖掘結(jié)果 這些算法應(yīng)該具有增量特點 它與數(shù)據(jù)庫結(jié)</p><p>  合 可以不必重新挖掘全部數(shù)據(jù)</p><p><b> ?。常≈R共享</b></p><p>  在各個站點間進(jìn)行分布式挖掘時必須采用可以被理解的知識形</p><p>  式 一是因為分布式數(shù)據(jù)挖掘一般包含面向知識的挖掘

82、 即在本地知識的基礎(chǔ)上挖</p><p>  掘全局知識 所以必須采取能夠被統(tǒng)一理解的知識表示方式才能夠在各個站點間實</p><p>  現(xiàn)協(xié)同挖掘 二是因為各個站點上的用戶可能需要訪問其它站點上的知識 這也需</p><p>  要有一種通用的知識表示方式</p><p> ?。矗┓植际杰浖O(shè)計 當(dāng)今系統(tǒng)設(shè)計軟件的重用和復(fù)用的要求越來越高

83、 對系統(tǒng)</p><p>  設(shè)計的層次性也有很高要求 很多情況下 應(yīng)用開發(fā)主要是開發(fā)軟組件 然后再把</p><p>  它們組合起來 軟組件是一種不和特定程序或計算機(jī)語言綁定的分布式對象 可以</p><p>  跨越平臺的異構(gòu)性 具有封裝性 它和外界通過預(yù)先定義好的應(yīng)用程序接口來完成</p><p>  交互 其最大的優(yōu)點是支持軟件復(fù)用

84、 系統(tǒng)設(shè)計人員可以使用現(xiàn)存的軟組件 這樣</p><p><b>  可以優(yōu)化分工</b></p><p><b>  大大減少編碼工作量</b></p><p><b>  提高工作效率</b></p><p><b>  降低成本</b></p&

85、gt;<p>  2.3.4 分布式數(shù)據(jù)挖掘的研究現(xiàn)狀</p><p>  雖然分布式數(shù)據(jù)開采是近幾年才提出的一個新的研究領(lǐng)域 但是已經(jīng)引起了相</p><p><b>  當(dāng)多的研究者的注意</b></p><p>  取得了一定的進(jìn)展[3]</p><p>  PADMA[4]系統(tǒng)是 Hi11o1 Ka

86、rgupta 等提出的一個基于 Agent 的并行/分布式數(shù)據(jù)</p><p>  挖掘系統(tǒng) 該系統(tǒng)不限定于特定的數(shù)據(jù)挖掘領(lǐng)域</p><p>  PADMA 系統(tǒng)由如下組件構(gòu)成</p><p>  數(shù)據(jù)挖掘 Agent 協(xié)調(diào)各 Agent 工作的 Facilitator 和用戶接口 數(shù)據(jù)挖掘 Agent 負(fù)責(zé)</p><p>  讀取數(shù)據(jù)并

87、提取高層次的信息</p><p>  Agent 通過 Facilitator 并行工作 Facilitator 負(fù)責(zé)協(xié)</p><p>  調(diào)各 Agent 工作并提供信息給用戶接口</p><p>  同時接收用戶的反饋信息給各個 Agent</p><p><b>  7</b></p><p&

88、gt;  PADMA 系統(tǒng)有一個圖形化的基于 Web 的用戶接口用來把各 Agent 提取的信息展現(xiàn)</p><p>  給用戶 Facilitator 接收用戶接口以標(biāo)準(zhǔn) SQL 格式提交的查詢 這些查詢被廣播給</p><p>  各 Agent Agent 提取與特定查詢相關(guān)的信息 Facilitator 收集這些信息并將其展現(xiàn)</p><p>  給用戶 該

89、系統(tǒng)使用 PPFS(Parallel Portable File System)開發(fā)</p><p><b>  以面向?qū)ο蟮姆绞接?lt;/b></p><p><b>  C++語言編碼</b></p><p>  提供了一個可擴(kuò)展的架構(gòu)</p><p>  使用 MPI Message Passin

90、g Interface</p><p>  進(jìn)行底層的消息交換和通信 該系統(tǒng)可以劃分為如下三個功能模塊 并行數(shù)據(jù)讀取</p><p><b>  和查詢處理模塊</b></p><p><b>  收集匯總模塊</b></p><p>  用戶交互和結(jié)果展現(xiàn)模塊</p><p&g

91、t;  JAM Java Agents for Meta-learning</p><p><b>  [5]</b></p><p>  分布式數(shù)據(jù)開采系統(tǒng) 在這個系統(tǒng)中提出了使用 meta-learning 進(jìn)行分布式數(shù)據(jù)開采</p><p><b>  的思想</b></p><p>  me

92、ta-learning 是一種計算高層 classifiers</p><p>  稱為 meta-classifiers</p><p><b>  的技術(shù)</b></p><p>  即把各個數(shù)據(jù)庫上分別獨立計算的 classifiers 以某種原則匯集成高層 classifiers 的技</p><p><b

93、>  術(shù)</b></p><p>  該系統(tǒng)使用 JAVA 語言編寫</p><p>  具有較好的平臺無關(guān)性</p><p>  很多分布式數(shù)據(jù)挖掘系統(tǒng)都是針對數(shù)據(jù)源 水平劃分 的情形 即各個數(shù)據(jù)分</p><p>  塊中的記錄具有相同的屬性結(jié)構(gòu)</p><p>  Hi11o1 Kargupta

94、[6]等 最 近 提 出 一 種 稱 為</p><p>  Collective Data Mining 的思想來實現(xiàn)對數(shù)據(jù)源 垂直劃分 的情形進(jìn)行分布式數(shù)據(jù)</p><p>  挖掘 其主要方法是首先各個站點根據(jù)自己的數(shù)據(jù)集獨立計算一個近似規(guī)范正交基</p><p>  系數(shù) 然后從各個站點的數(shù)據(jù)集選取一些特定的樣本移到一個站點上 根據(jù)這個集</p>

95、<p>  成數(shù)據(jù)集來計算針對于非線性交叉項的近似基系數(shù) 最后根據(jù)基系數(shù)將局部模型合</p><p>  并成全局模型并提交給用戶</p><p>  其它的分布式數(shù)據(jù)挖掘系統(tǒng)還有美國 Pittsburgh 大學(xué)的 Aronis 教授等設(shè)計的</p><p>  World[7]系統(tǒng) Chavez 的 Challenger[8]系統(tǒng)等</p>

96、;<p>  在目前的分布式數(shù)據(jù)開采的研究工作中 非常重要的一個方面是如何設(shè)計一個</p><p>  分布式數(shù)據(jù)開采系統(tǒng)的體系結(jié)構(gòu) 真正能支持各種分布式開采算法 真正實現(xiàn)平臺</p><p>  無關(guān)性 目前這方面的工作仍屬于起步階段</p><p><b>  8</b></p><p><b&g

97、t;  3 關(guān)聯(lián)規(guī)則挖掘</b></p><p>  3.1 關(guān)聯(lián)規(guī)則的形式化定義</p><p>  第二章中我們已經(jīng)提到過關(guān)聯(lián)規(guī)則</p><p>  讓我們從一個典型的例子</p><p><b>  購物籃分</b></p><p><b>  析</b>

98、</p><p>  給出關(guān)聯(lián)規(guī)則的形式化定義</p><p>  以一個擁有大量商品的超級市場為例 為了更加了解顧客的購物習(xí)慣 以此決</p><p>  定該賣什么商品 怎樣訂貨 怎樣在貨架上放置商品以吸引顧客購買 從而獲得最</p><p>  大的利潤 為了做好這些決策 可以對一段時間內(nèi)積累的歷史數(shù)據(jù)利用計算機(jī)進(jìn)行</p>

99、<p>  分析 過去的交易記錄詳細(xì)的記載了每一筆業(yè)務(wù)中用戶購買商品的情況 就可以在</p><p>  這些數(shù)據(jù)的基礎(chǔ)上分析得到顧客的購買習(xí)慣 如 顧客在購買餅干的同時往往也購</p><p>  買了一定數(shù)量的牛奶 關(guān)聯(lián)規(guī)則正是對貨籃數(shù)據(jù)進(jìn)行分析 以得到商品之間關(guān)系的</p><p>  一種很流行的數(shù)據(jù)挖掘算法 當(dāng)關(guān)聯(lián)規(guī)則被找到后 就可以利用這些

100、規(guī)則幫助管理</p><p><b>  者進(jìn)行決策</b></p><p>  1)如果發(fā)現(xiàn)包含牛奶的所有規(guī)則</p><p>  我們就知道為了增加牛奶的銷量該做些什</p><p><b>  么</b></p><p> ?。玻┤绻业劫徺I某種面包的同時顧客還購買了哪

101、些商品的規(guī)則 我們就知道當(dāng)</p><p>  停止這種面包的銷售時</p><p>  哪些商品的銷售會收到影響</p><p> ?。常┤绻l(fā)現(xiàn)顧客購買某種面包的同時購買某種牛奶的所有規(guī)則 我們就可以決</p><p>  定是否為了促銷牛奶而將牛奶和面包捆綁銷售</p><p>  上述的購買模式可以用關(guān)聯(lián)規(guī)則的

102、形式表示 例如購買面包的同時也趨向于購</p><p>  買牛奶可以用以下關(guān)聯(lián)規(guī)則表示</p><p>  面包?? 牛奶[支持度</p><p><b>  20</b></p><p><b>  置信度</b></p><p>  60 ]              

103、 ?。ǎ常保?lt;/p><p>  規(guī)則的支持度和置信度是規(guī)則的兩個興趣度度量</p><p><b>  對于形如</b></p><p><b>  A?? B 的關(guān)聯(lián)</b></p><p>  規(guī)則 其確定性度量是置信度</p><p>  其中 A 和 B 是項目

104、的集合</p><p><b>  給定一個任務(wù)相關(guān)的</b></p><p><b>  數(shù)據(jù)元組集合</b></p><p>  或事務(wù)數(shù)據(jù)庫事務(wù)的集合</p><p>  A?? B 的置信度定義為</p><p><b>  9</b></

105、p><p><b>  置信度 A?? B</b></p><p><b>  包含A和B的元組數(shù)</b></p><p><b>  包含A的元組數(shù)</b></p><p><b> ?。ǎ常玻?lt;/b></p><p>  關(guān)聯(lián)模

106、式的支持度是模式為真的任務(wù)相關(guān)的元組 或事務(wù) 所占的百分比 對</p><p><b>  于形如 A?? B</b></p><p><b>  的關(guān)聯(lián)規(guī)則</b></p><p><b>  其支持度定義為</b></p><p><b>  支持度 A?? B&

107、lt;/b></p><p><b>  包含A和B的元組數(shù)</b></p><p><b>  元組總數(shù)</b></p><p><b>  (3.3) </b></p><p>  只要找出所有用戶感興趣的關(guān)聯(lián)規(guī)則</p><p>  就可以幫

108、助決策者做出科學(xué)的決策</p><p>  關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的主要功能之一</p><p>  它是 R.Agrawal 等人在 1993[9]年提</p><p>  出的 目的是希望在事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)各項目之間的關(guān)系</p><p><b>  設(shè) I { i1</b></p><p>

109、<b>  i 2</b></p><p><b>  ….</b></p><p>  i m }是由 m 個不同的項目組成的集合</p><p><b>  其中的元素稱為項</b></p><p>  (item) 項的集合稱為項集(itemset) 包含 k 個項的項集

110、稱為 k-項集 記 D 為事務(wù) T</p><p>  的集合 這里事務(wù) T 是項的集合 其中每個事務(wù) T 包含若干項目 i1</p><p><b>  i 2</b></p><p><b>  ….</b></p><p><b>  i m?∈ I</b></p&

111、gt;<p>  設(shè) X 是一個項集 事務(wù) T 包含 X 當(dāng)且僅當(dāng) X?? T 一個關(guān)聯(lián)規(guī)則是形如 X?? Y 的蘊(yùn)</p><p>  涵式 這里 X?? I</p><p>  Y?? I 并且 X?∩ Y</p><p><b>  ?</b></p><p>  規(guī)則 X?? Y 在事務(wù)集 D 中成

112、立</p><p><b>  其在</b></p><p>  D 中的支持度是 D 中包含 X 和 Y 的事務(wù)數(shù)和所有事務(wù)數(shù)之比 它是概率 P X?∪ Y</p><p>  規(guī)則 X?? Y 在事務(wù)集 D 中的置信度是指包含 X 和 Y 的事務(wù)數(shù)與包含 X 的事務(wù)數(shù)之</p><p><b>  比<

113、;/b></p><p><b>  這是條件概率 P</b></p><p><b>  Y|X</b></p><p><b>  即</b></p><p><b>  支持度 X?? Y</b></p><p><

114、;b>  置信度 X?? Y</b></p><p><b>  P X?∪ Y</b></p><p><b>  P Y|X</b></p><p><b>  (3.4)</b></p><p><b>  (3.5)</b><

115、;/p><p>  同時滿足最小支持度和最小置信度的規(guī)則稱作強(qiáng)規(guī)則</p><p>  項集出現(xiàn)的頻率是包含項集的事務(wù)數(shù) 簡稱為頻率或計數(shù) 如果項集滿足最小</p><p>  支持度 即項集出現(xiàn)的頻率大于或等于最小支持度與 D 中事務(wù)總數(shù)的乘積 則稱它</p><p><b>  為頻繁項集</b></p>

116、<p>  頻繁 k-項集的集合通常記做 Lk</p><p>  關(guān)聯(lián)規(guī)則的挖掘可以分為兩個子問題</p><p><b> ?。?lt;/b></p><p><b>  2</b></p><p>  產(chǎn)生出現(xiàn)次數(shù)大于某個閾值的所有項目的集合 即找出所有頻繁項集</p>&l

117、t;p>  由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則  </p><p><b>  10</b></p><p>  第一個子問題解決了 第二個子問題很直接 所以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的重點就在于</p><p><b>  第一個子問題</b></p><p><b>  如何發(fā)現(xiàn)頻繁項集</b&g

118、t;</p><p>  下面介紹一個經(jīng)典的發(fā)現(xiàn)頻繁項集的算法</p><p>  現(xiàn)在許多新提出的算法都是以這個算法為基礎(chǔ)的</p><p>  3.2 Apriori 經(jīng)典頻繁項集發(fā)現(xiàn)算法 [1]</p><p>  Apriori 算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項集的算法 它利用頻繁項集</p><p> 

119、 性質(zhì)的先驗知識 使用一種逐層搜索的迭代方法</p><p>  k-項集用于探索(k+1)-項集</p><p><b>  首</b></p><p>  先找出頻繁 1-項集的集合 該集合記做 L1</p><p>  L1 用于尋找頻繁 2-項集的集合 L2 而 L2</p><p>&l

120、t;b>  用于尋找 L3</b></p><p><b>  如此類推</b></p><p>  直到不能找到頻繁 k-項集</p><p>  找每個 Lk 需要掃描一次數(shù)據(jù)</p><p><b>  庫  </b></p><p>  頻繁項集的所

121、有非空子集都必須也是頻繁的</p><p><b>  根據(jù)定義</b></p><p>  如果項集 I 不滿足最</p><p>  小支持都閾值 min_sup 則 I 不是頻繁的 即 P(I)<min_sup 如果項 A 添加到 I 則</p><p>  結(jié)果項集(I?∪ A)不可能比 I 更頻繁出現(xiàn)&l

122、t;/p><p>  因此 I?∪ A 也不是頻繁的即 P(I?∪ A)<</p><p>  min_sup 頻繁項集的這一特性稱作 Apriori 性質(zhì) Apriori 算法利用這一重要性質(zhì)來</p><p>  壓縮搜索空間 生成較小的候選項集 也就是盡可能不生成和計算那些不可能成為</p><p><b>  頻繁項集的候

123、選集</b></p><p>  提高頻繁項集逐層產(chǎn)生的效率</p><p>  可以將 Apriori 性質(zhì)用在由 Lk??1 尋找 Lk 中</p><p><b> ?。保檎?Lk</b></p><p>  通過 Lk??1 與自己連接產(chǎn)生候選 k-項集的集合 該候選項集的結(jié)合記</p>

124、<p><b>  做 Ck</b></p><p>  設(shè) l1和 l2 是 Lk??1 中的項集</p><p>  記號 li [j]表示 li 的第 j 項 為方便計</p><p><b>  假定事務(wù)和</b></p><p>  項集中的項是按字典次序排序 執(zhí)行連接 Lk

125、??1>< Lk??1 其中 Lk??1 的元素是可連接的</p><p>  如果它們前(k-2)個項相同 即</p><p>  Lk??1 的元素 l1和 l2 是可連接的 如果( l1 [1]=  l2 [1])?∧  </p><p> ?。?l1[2]= l2 [2]) ?∧</p><p>  ∧  ( l1 [k-

126、2]= l2 [k-2]) ?∧ ?。?l1 [k-1]< l2 [k-1]) 條件( l1 [k-1]< l2 [k-1])</p><p>  是簡單地保證不產(chǎn)生重復(fù)</p><p>  連接 l1和 l2 產(chǎn)生的結(jié)果項集是 l1 [1] l1 [2] … l1 [k-1] l2 [k-1]</p><p><b>  這一步為連接步<

127、;/b></p><p><b>  11</b></p><p><b>  2</b></p><p>  Ck 是 Lk 的超集 它的成員可以是也可以不是頻繁的</p><p>  但所有頻繁的 k-項</p><p>  集都包含在 Ck 中 掃描數(shù)據(jù)庫<

128、/p><p>  確定 Ck 中每個候選的計數(shù)</p><p><b>  從而確定 Lk</b></p><p><b>  根據(jù)定</b></p><p>  義 計數(shù)值不小于最小支持度計數(shù)的所有候選是頻繁的</p><p><b>  從而屬于 Lk</b&

129、gt;</p><p><b>  然而 Ck 可</b></p><p>  能很大 這樣所涉及的計算量就很大</p><p><b>  為壓縮 Ck</b></p><p>  可以用以下辦法使用 Apriori 性</p><p>  質(zhì) 任何非頻繁的(k-1)-項集

130、都不可能是頻繁 k-項集的子集</p><p><b>  因此</b></p><p><b>  如果一個候選</b></p><p>  k-項集的(k-1)-子集不在 Lk??1 中 則該候選也不可能是頻繁的 從而可以從 Ck 中將其</p><p><b>  刪除</b&

131、gt;</p><p><b>  該步稱為剪枝步</b></p><p>  下面給出 Apriori 算法</p><p><b>  算法</b></p><p>  Apriori 使用根據(jù)候選生成的逐層迭代找出頻繁項集</p><p>  輸入 事務(wù)數(shù)據(jù)庫 D 最小

132、支持度閾值 min_sup</p><p>  輸出 D 中的頻繁項集 L</p><p><b>  方法</b></p><p><b>  begin</b></p><p><b>  L1</b></p><p>  {large 1-item

133、sets}</p><p>  for(k=2; Lk??1?≠?? ;k++){</p><p>  Ck =apriori_gen( Lk??1 ,min_sup)</p><p>  for all tracsaction t∈ D do{</p><p>  Ct =subset( Ck ,t)</p><p>

134、;  for all candidate c∈ Ct do c.count++}</p><p>  Lk ={c∈ Ck |c.count?≥ min_sup}</p><p><b>  }</b></p><p>  answer=?∪k Lk</p><p><b>  end</b><

135、;/p><p><b>  12</b></p><p>  算法的第一步是計算單個項目在事務(wù)集的出現(xiàn)次數(shù)以決定含有一個項目的頻</p><p><b>  繁項集</b></p><p>  隨后的步驟稱為 k-pass</p><p><b>  共分兩步</

136、b></p><p>  1) 利用 Apriori_gen 函數(shù)從 Lk??1 中產(chǎn)生候選集 Ck</p><p><b>  枝兩步執(zhí)行</b></p><p>  Apriori_gen 函數(shù)分連接和剪</p><p><b>  第一步</b></p><p>

137、<b>  連接</b></p><p>  insert into Ck ?。螅澹欤澹悖簟。穑椋簦澹恚?,p.item2,</p><p> ?。妫颍铮怼?Lk??1 ?。?, Lk??1 ?。瘛?lt;/p><p>  ,p.item(k-1),q.item(k-1) </p><p> ?。鳎瑁澹颍濉。穑椋簦澹恚保剑瘢?/p>

138、item1 AND?。穑椋簦澹恚玻剑瘢椋簦澹恚病。粒危摹?lt;/p><p><b> ?。粒危摹?lt;/b></p><p> ?。穑椋簦澹恚ǎ耄玻剑瘢椋簦澹恚ǎ耄玻。粒危摹。穑椋簦澹恚ǎ耄保迹瘢椋簦澹恚ǎ耄保?lt;/p><p><b>  第二步 剪枝</b></p><p>

139、  對 Ck 中的任一候選 c</p><p>  如果 c 中存在一個不屬于 Lk??1 的長度為 k-1 的子序列</p><p>  那么就從 Ck 中刪除 c</p><p>  for all itemset c∈ Ck do</p><p>  for all (k-1)-subset s of c do</p>&

140、lt;p>  if (s? Lk??1 ) then delete c from Ck</p><p> ?。玻├?Ck 對數(shù)據(jù)庫進(jìn)行掃描</p><p>  以求出 Ck 的支持度</p><p>  Apriori 算法的流程圖如下</p><p><b>  13</b></p><p&

141、gt;  圖 3-1 算法 Apriori 流程圖</p><p>  一旦由數(shù)據(jù)庫 D 中的事務(wù)找出頻繁項集</p><p>  由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直截了當(dāng)</p><p><b>  的</b></p><p>  強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度</p><p><b> 

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論