版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 華中科技大學(xué)</b></p><p><b> 碩士學(xué)位論文</b></p><p> 基于Web服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究</p><p><b> 姓名:侯敬軍</b></p><p><b> 申請學(xué)位級別:碩士</
2、b></p><p><b> 專業(yè):水利水電工程</b></p><p><b> 指導(dǎo)教師:曾致遠(yuǎn)</b></p><p><b> 20040501</b></p><p><b> 摘</b></p><p>
3、<b> 要</b></p><p><b> 由于以下原因</b></p><p> 原有的集中式數(shù)據(jù)挖掘越來越不適應(yīng)新的需求</p><p> 1 待處理的數(shù)據(jù)源是分布式存放在網(wǎng)絡(luò)的不同主機(jī)上的</p><p> 2 于網(wǎng)絡(luò)帶寬的限制 數(shù)據(jù)的私有性和安全性 系統(tǒng)的不兼容性等原因 把所&
4、lt;/p><p> 有數(shù)據(jù)源集到一個集中的地方</p><p><b> 如數(shù)據(jù)倉庫</b></p><p> 進(jìn)行集中數(shù)據(jù)挖掘往往是不現(xiàn)實的</p><p> 3 對挖掘系統(tǒng)的開放性和易用性的要求越來越高</p><p> 分布式數(shù)據(jù)挖掘技術(shù)就是為了解決上述問題而被提出的</p&g
5、t;<p><b> 目前</b></p><p><b> 該研究領(lǐng)域的</b></p><p> 兩個重要問題式設(shè)計合適的分布式數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)和相應(yīng)的分布式挖掘算</p><p> 法 本文將最新的分布式組件技術(shù)</p><p> 解決上述兩個問題方面做了一些嘗試
6、</p><p> Web 服務(wù)技術(shù)引入分布式數(shù)據(jù)挖掘領(lǐng)域</p><p><b> 在</b></p><p> 首先介紹了分布式數(shù)據(jù)挖掘產(chǎn)生的背景</p><p><b> 研究現(xiàn)狀和成果</b></p><p><b> 存在的問題以及關(guān)</b
7、></p><p> 聯(lián)規(guī)則挖掘的不同算法 接著介紹了 Web 服務(wù)及其相關(guān)技以及 Web 服務(wù)技術(shù)的優(yōu)點</p><p><b> 和其適用場合</b></p><p> 給出了 Web 服務(wù)技術(shù)與分布式數(shù)據(jù)挖掘的結(jié)合點 然后提出了一種</p><p><b> 跨平臺的</b>&l
8、t;/p><p><b> 易擴(kuò)展的</b></p><p> 適用于分布環(huán)境下的基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)架</p><p><b> 構(gòu)</b></p><p> 并結(jié)合上述系統(tǒng)的特點</p><p> 給出一個該系統(tǒng)中的分布式關(guān)聯(lián)規(guī)則挖掘算法</
9、p><p> FDM-GS(FDM with global site) 該算法應(yīng)用了新的候選集剪枝策略</p><p><b> 可有效減小候</b></p><p> 選集的規(guī)模和收集候選集支持計數(shù)時的網(wǎng)絡(luò)信息流量</p><p><b> 了詳細(xì)的說明</b></p><
10、p> 并結(jié)合一個實例對該算法做</p><p><b> 關(guān)鍵詞</b></p><p> 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 分布式計算 組件技術(shù) Web 服務(wù)</p><p><b> IV</b></p><p><b> Abstract</b></p>
11、<p> For the following reasons, the original centralized data mining became more and</p><p> more out of date:</p><p> 1. The data source need to be processed is distributed on the diffe
12、rent computers in</p><p> the networks.</p><p> 2. For the constrain of networks band, the privacy and safety of data, the</p><p> incompatibility of systems, etc, it is not real
13、istic to put all data source in a place (for</p><p> example, the data warehouse) for centralized data mining.</p><p> 3. More and more demands have addressed on the openness and easy accessib
14、ility.</p><p> The distributed data mining technology was presented for the problems mentioned</p><p> above. Presently, the two important matters in this field are that, design for suitable&l
15、t;/p><p> architecture of distributed data mining systems and corresponding distributed mining</p><p> algorithms. This article introduced the latest technology for distributed component</p>
16、;<p> technology — Web services technology into distributed data mining field, and took some</p><p> tentative efforts in solving the aforementioned two problems.</p><p> In the beginn
17、ing, the background for bringing distributed data mining, the status of</p><p> research and research achievements, the existing problems, and algorithm for association</p><p> rules were intr
18、oduced. And then, the web services and related technology, and the</p><p> advantages and disadvantages of web service technology were introduced, and the</p><p> connecting point for web serv
19、ice technology and distributed data mining. And then a</p><p> multi-platform, easy-extensible, suitable for distributed environment and web-based</p><p> services distributed association rule
20、 mining algorithm FDM-GS (FDM with global site)</p><p> were proposed. This algorithm adopted a new pruning strategy of candidate set and it can</p><p> decrease the scale of candidate set and
21、 the networks information flow for collecting</p><p><b> V</b></p><p> candidate set supporting counts. In addition, the detailed explanation for this algorithm</p><p>
22、; was made with a practical example.</p><p> Keywords: Data mining, Association rules, Distributed computing, Component</p><p> technology, Web service</p><p><b> VI</b
23、></p><p><b> 獨創(chuàng)性聲明</b></p><p> 本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究</p><p> 成果 盡我所知 除文中已經(jīng)標(biāo)明引用的內(nèi)容外 本論文不包含任何其他個人或集體已</p><p> 經(jīng)發(fā)表或撰寫過的研究成果 對本文的研究做出貢獻(xiàn)的個人和
24、集體 均已在文中以明確</p><p> 方式標(biāo)明 本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)</p><p><b> 學(xué)位論文作者簽名</b></p><p><b> 日期</b></p><p><b> 年</b></p><p><
25、;b> 月</b></p><p><b> 日</b></p><p> 學(xué)位論文版權(quán)使用授權(quán)書</p><p> 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留 使用學(xué)位論文的規(guī)定 即 學(xué)校有權(quán)保留</p><p> 并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版 允許論文被查閱和借閱 本人授<
26、/p><p> 權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索 可以采</p><p><b> 用影印</b></p><p> 縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文</p><p><b> 保密</b></p><p> 在_______
27、_____年解密后適用本授權(quán)書</p><p><b> 本論文屬于 不保密</b></p><p><b> 請在以上方框內(nèi)打</b></p><p><b> 學(xué)位論文作者簽名</b></p><p><b> 指導(dǎo)教師簽名</b></p
28、><p><b> 日期</b></p><p><b> 年</b></p><p><b> 月</b></p><p><b> 日</b></p><p><b> 日期</b></p>
29、;<p><b> 年</b></p><p><b> 月</b></p><p><b> 日</b></p><p><b> ?。薄 【w 論 </b></p><p> 1.1 課題的目的和意義 </p><
30、;p><b> 近來</b></p><p><b> 由于挖掘?qū)ο?lt;/b></p><p><b> 數(shù)據(jù)源</b></p><p><b> 在地理上的分布</b></p><p> 數(shù)據(jù)集中代價太大或根本無</p>&l
31、t;p><b> 法進(jìn)行</b></p><p> 挖掘系統(tǒng)所涉及的軟組件以及用戶在地理上的分布</p><p><b> 遺留系統(tǒng)的重用和集</b></p><p> 成 成本方面的考慮等原因 分布式數(shù)據(jù)挖掘受到越來越多的重視 在目前的分布</p><p> 式數(shù)據(jù)開采的研究工作中
32、</p><p> 非常重要的一個方面是如何設(shè)計分布式數(shù)據(jù)開采系統(tǒng)的</p><p><b> 體系結(jié)構(gòu)</b></p><p> 真正能支持各種分布式開采算法 真正實現(xiàn)平臺無關(guān)性 本文就如何解</p><p> 決上述問題做了一些探索</p><p> 1.2 本文的主要研究內(nèi)容和創(chuàng)新
33、點</p><p> 1 介紹了分布式數(shù)據(jù)挖掘產(chǎn)生的背景 研究現(xiàn)狀和成果</p><p><b> 存在的問題以及關(guān)</b></p><p> 聯(lián)規(guī)則挖掘的不同算法</p><p> 2 概述了 Web 服務(wù)及其相關(guān)技術(shù) 介紹了 Web 服務(wù)技術(shù)的優(yōu)點和其適用場合</p><p> 3
34、給出了 Web 服務(wù)技術(shù)與分布式數(shù)據(jù)挖掘的結(jié)合點</p><p><b> 提出一種跨平臺的</b></p><p><b> 易</b></p><p> 擴(kuò)展的 適用于分布環(huán)境下的基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)架構(gòu)</p><p><b> 4 上述系統(tǒng)的特點</
35、b></p><p> FDM with global site</p><p><b> 1.3 章節(jié)安排</b></p><p><b> 全文章節(jié)安排如下</b></p><p> 給出一個該系統(tǒng)中的分布式關(guān)聯(lián)規(guī)則挖掘算法 FDM-GS</p><p>
36、 并結(jié)合一個實例對該算法做了詳細(xì)的說明</p><p><b> 第一章</b></p><p><b> 緒論</b></p><p> 介紹了本論文研究課題的出發(fā)點 給出了本文的主要研究內(nèi)容和創(chuàng)新點 同時</p><p> 對文章的組織進(jìn)行了敘述</p><p>
37、<b> 1</b></p><p> 第二章 分布式數(shù)據(jù)挖掘概述</p><p> 簡單介紹數(shù)據(jù)挖掘技術(shù)產(chǎn)生的背景以及數(shù)據(jù)挖掘的主要功能 接著給出了分布</p><p> 式數(shù)據(jù)挖掘的定義 介紹了進(jìn)行分布式數(shù)據(jù)挖掘的必要性和需要解決好的問題以及</p><p> 分布式數(shù)據(jù)挖掘的研究現(xiàn)狀</p>
38、<p><b> 成果以及趨勢</b></p><p><b> 第三章</b></p><p><b> 關(guān)聯(lián)規(guī)則挖掘</b></p><p> 首先結(jié)合一個例子給出了關(guān)聯(lián)規(guī)則挖掘的定義和其相關(guān)術(shù)語 然后介紹了關(guān)聯(lián)</p><p> 規(guī)則挖掘的經(jīng)典頻繁項
39、集發(fā)現(xiàn)算法 Apriori 算法及其改進(jìn)以及其它的算法</p><p><b> 第四章</b></p><p><b> Web 服務(wù)技術(shù)</b></p><p> 介紹了 Web 服務(wù)技術(shù)出現(xiàn)的背景及其相關(guān)技術(shù)</p><p> 論述了 Web 服務(wù)技術(shù)的優(yōu)點</p>&l
40、t;p><b> 及其適用場合</b></p><p> 第五章 基于 Web 服務(wù)的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)</p><p> 首先介紹了 Web 服務(wù)技術(shù)和分布式數(shù)據(jù)挖掘的結(jié)合點</p><p><b> 接著提出了一種基于</b></p><p> Web 服務(wù)的分布式數(shù)據(jù)挖掘體
41、系結(jié)構(gòu) 然后給出了一個該體系結(jié)構(gòu)下的分布式關(guān)聯(lián)</p><p><b> 規(guī)則挖掘算法</b></p><p> 并通過一個實例詳細(xì)說明</p><p><b> 第五章</b></p><p><b> 總結(jié)與展望</b></p><p>&l
42、t;b> 對全文進(jìn)行了總結(jié)</b></p><p> 并提出了有待進(jìn)一步研究的內(nèi)容</p><p><b> 2</b></p><p> 2 分布式數(shù)據(jù)挖掘概述</p><p> 2.1 數(shù)據(jù)挖掘簡介</p><p><b> 近年來</b>&
43、lt;/p><p> 隨著越來越多的企業(yè)將通信</p><p> 計算機(jī)和網(wǎng)絡(luò)技術(shù)引入企業(yè)的日常工作</p><p><b> 和業(yè)務(wù)處理當(dāng)中</b></p><p> 企業(yè)的信息化程度不斷提高</p><p> 現(xiàn)代信息技術(shù)的廣泛應(yīng)用顯著的提</p><p> 高
44、了企業(yè)的工作效率和經(jīng)濟(jì)效益</p><p><b> 然而</b></p><p> 在享用信息技術(shù)帶來的方便 快捷的同時 新的問題和需求也在不斷涌</p><p> 現(xiàn) 其中比較突出的有</p><p><b> 第一</b></p><p> 企業(yè)積累了大量的歷
45、史數(shù)據(jù)</p><p><b> 這些數(shù)據(jù)對企業(yè)當(dāng)前</b></p><p> 的日常經(jīng)營活動幾乎沒有任何的使用價值</p><p> 完全儲藏這些歷史數(shù)據(jù)會對企業(yè)造成很</p><p><b> 大的困難和開銷</b></p><p> 但其中顯然蘊(yùn)涵著對企業(yè)高層
46、次的決策有著寶貴價值的信息</p><p><b> 簡</b></p><p> 單的將它們丟棄是很大的浪費(fèi)</p><p> 希望能夠?qū)ζ溥M(jìn)行更高層次的分析 以便利用好這</p><p><b> 些數(shù)據(jù)</b></p><p> 雖然目前的數(shù)據(jù)庫系統(tǒng)可以高效的
47、實現(xiàn)數(shù)據(jù)的錄入</p><p><b> 查詢 統(tǒng)計等功能</b></p><p> 但是這些功能都是對企業(yè)的宏觀經(jīng)營決策沒有多大幫助的低層次的 微觀的功能</p><p> 無法發(fā)現(xiàn)海量數(shù)據(jù)中存在的關(guān)系和規(guī)則 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢</p><p> 缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識的手段 導(dǎo)致了 數(shù)據(jù)
48、豐富</p><p><b> 但信息貧乏</b></p><p><b> 理解這些</b></p><p> 海量歷史數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力</p><p><b> 結(jié)果這些數(shù)據(jù)變成了</b></p><p><b> 數(shù)據(jù)
49、墳?zāi)?lt;/b></p><p><b> 難</b></p><p> 得再訪問的數(shù)據(jù)檔案 第二</p><p> 上述的大量歷史數(shù)據(jù)是以各種各樣的形式存在著的</p><p> 直接在其上進(jìn)行高層次的分析是幾乎無法實現(xiàn)的</p><p> 層次分析能夠順利進(jìn)行</p&g
50、t;<p> 必須對上述信息做初加工</p><p><b> 使高</b></p><p><b> 有需求就有供給</b></p><p> 為解決上述問題 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生</p><p><b> 許多研究成果和</b></p>
51、<p><b> 應(yīng)用產(chǎn)品不斷涌現(xiàn)</b></p><p> 該課題依然是當(dāng)前信息技術(shù)領(lǐng)域的熱門研究方向之一</p><p> 那么到底什么是數(shù)據(jù)挖掘 Data Mining 呢</p><p> 許多文獻(xiàn)[1][2]對其有著不同的定義</p><p> 但其共同點都大致為 數(shù)據(jù)挖掘是從大量的 不完
52、全的</p><p><b> 有噪聲的 模糊的</b></p><p><b> 隨機(jī)</b></p><p><b> 的數(shù)據(jù)中</b></p><p> 提取隱含在其中 人們事先不知道的但又是潛在有用的信息和知識的過</p><p> 程
53、 數(shù)據(jù)挖掘提取的知識可以表示為概念</p><p><b> 規(guī)律</b></p><p><b> 模式</b></p><p><b> 約束</b></p><p><b> 可視化</b></p><p><b
54、> 數(shù)據(jù)挖掘</b></p><p><b> 3</b></p><p> 算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞 數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式</p><p> 2.2 數(shù)據(jù)挖掘的功能</p><p> 數(shù)據(jù)挖掘功能用于制定數(shù)據(jù)挖掘</p><p> 任務(wù)中要
55、找的模式類型 數(shù)據(jù)挖掘任務(wù)</p><p> 一般可以分為兩類 描述和預(yù)測 描述</p><p> 性挖掘任務(wù)刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般</p><p> 特性 預(yù)測性數(shù)據(jù)挖掘任務(wù)在當(dāng)前數(shù)據(jù)</p><p> 上進(jìn)行推斷 以進(jìn)行預(yù)測</p><p> 下面介紹一下數(shù)據(jù)挖掘功能以及它們可以發(fā)現(xiàn)的模式類型</p
56、><p><b> 1 特征化和區(qū)分</b></p><p><b> 數(shù)據(jù)特征化是目標(biāo)類</b></p><p><b> 所研究的對象</b></p><p> 數(shù)據(jù)的一般特征或特征的匯總 數(shù)據(jù)特</p><p> 征的輸出可以用多種形式提供&
57、lt;/p><p><b> 包括餅圖</b></p><p><b> 條圖</b></p><p><b> 曲線</b></p><p> 多維數(shù)據(jù)立方體和包括交</p><p><b> 叉表在內(nèi)的多維表</b><
58、;/p><p> 數(shù)據(jù)區(qū)分是將目標(biāo)類對象的一般特征與一個或多個對比類對象的一般特征比</p><p> 較 區(qū)分描述的形式類似與特征描述</p><p> 但區(qū)分描述應(yīng)當(dāng)包括比較度量</p><p><b> 幫助區(qū)分目</b></p><p><b> 標(biāo)類和對比類</b&
59、gt;</p><p> 用戶應(yīng)當(dāng)能夠?qū)μ卣骱蛥^(qū)分描述的輸出進(jìn)行操作</p><p><b> 2 關(guān)聯(lián)分析</b></p><p> 關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則</p><p> 若兩個或多個數(shù)據(jù)項的取值重復(fù)出現(xiàn)且概率很高</p><p> 時 它就存在著某種關(guān)聯(lián)</p>
60、<p> 可以建立起這些數(shù)據(jù)項的關(guān)聯(lián)規(guī)則</p><p><b> 關(guān)聯(lián)分析的目的是</b></p><p> 找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng) 在大型數(shù)據(jù)庫中 這種關(guān)聯(lián)規(guī)則是很多的 一般用 支</p><p><b> 4</b></p><p><b> 持度</b&
61、gt;</p><p><b> 和</b></p><p><b> 置信度</b></p><p> 兩個閾值來淘汰那些無用的關(guān)聯(lián)規(guī)則</p><p><b> 3 分類</b></p><p> 分類是數(shù)據(jù)挖掘中應(yīng)用得最多的方法</
62、p><p> 分類是找出一個類別的概念描述</p><p><b> 它代</b></p><p> 表了這類數(shù)據(jù)的整體信息</p><p><b> 即該類的內(nèi)涵描述</b></p><p> 一般用規(guī)則或決策樹模式表示</p><p><
63、;b> 一</b></p><p> 個類的內(nèi)涵描述分為特征性描述和區(qū)別性描述</p><p> 特征性描述是對類中對象的共同特</p><p><b> 征的描述</b></p><p> 區(qū)別性描述是對兩個或多個類之間的區(qū)別的描述</p><p><b>
64、 4 聚類分析</b></p><p> 數(shù)據(jù)庫中的數(shù)據(jù)可以分為一系列有意義的子集</p><p><b> 或稱為類</b></p><p><b> 在同一類別中</b></p><p><b> 個</b></p><p>&
65、lt;b> 體之間的距離較小</b></p><p> 而不同類別的個體之間距離較大</p><p> 但是如何劃分這些子集</p><p><b> 即</b></p><p> 如何標(biāo)記這些不同的類</p><p> 聚類可以用于產(chǎn)生這種標(biāo)記 待劃分的對象根據(jù)最大
66、化</p><p><b> 類內(nèi)的相似性</b></p><p> 最小化類間的相似性的原則進(jìn)行聚類或分組</p><p><b> 5 序貫?zāi)J?lt;/b></p><p> 通過時間序列搜索出重復(fù)發(fā)生概率較高的模式</p><p> 這里強(qiáng)調(diào)時間序列的影響<
67、/p><p><b> 例</b></p><p><b> 如</b></p><p> 在所有購買激光打印機(jī)的人中</p><p> 半年后有 80%的人再購買新硒鼓</p><p><b> 20%的人用</b></p><
68、;p><b> 舊硒鼓裝碳粉</b></p><p><b> 6 孤立點分析</b></p><p> 數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄 這些記錄稱為孤立點</p><p><b> 從數(shù)據(jù)庫中檢測出</b></p><p> 這些孤立點很有意義 孤立點包括很多
69、潛在的知識 如分類中的反常實例 不滿足</p><p> 規(guī)則的特例 觀測結(jié)果與模型預(yù)測值的偏差 量值隨時間的變化等 孤立點分析基</p><p> 本方法是尋找觀測結(jié)果與參照之間的差別</p><p> 2.3 分布式數(shù)據(jù)挖掘簡介</p><p> 最近 分布式數(shù)據(jù)挖掘 DDM 又吸引了不少研究者的目光 并取得了一些進(jìn)</p&
70、gt;<p><b> 展</b></p><p> 2.3.1 何謂分布式數(shù)據(jù)挖掘</p><p> 所謂分布式數(shù)據(jù)挖掘有兩層含義 第一 就是使用分布式算法 從邏輯上或物</p><p><b> 5</b></p><p> 理上分布的數(shù)據(jù)源中發(fā)現(xiàn)知識的過程 </p
71、><p> 這里主要強(qiáng)調(diào)數(shù)據(jù)源的分布性</p><p><b> 第二</b></p><p><b> 是</b></p><p> 指與某個數(shù)據(jù)挖掘任務(wù)相關(guān)的用戶 數(shù)據(jù) 挖掘軟件以及其他軟組件是地理上分散</p><p><b> 的</b>&
72、lt;/p><p> 這里主要強(qiáng)調(diào)的是軟組件的分散性</p><p> 2.3.2 分布式數(shù)據(jù)挖掘的必要性</p><p> 為什么分布式數(shù)據(jù)挖掘會被重視呢</p><p> 這是因為以下幾個因素</p><p> ?。保?shù)據(jù)挖掘的目標(biāo)是大規(guī)模的數(shù)據(jù)集 而在現(xiàn)實環(huán)境中 絕大部分的大型數(shù)據(jù)</p>&l
73、t;p> 庫都是以分布式的形式存在的 因此 提出新的分布式數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)是</p><p><b> 非常必要的</b></p><p> ?。玻┰跀?shù)據(jù)挖掘系統(tǒng)中 經(jīng)常需要來自不同站點的數(shù)據(jù)庫中的數(shù)據(jù) 這就使得數(shù)</p><p> 據(jù)挖掘系統(tǒng)必須具有分布式挖掘的能力 同時也需要我們根據(jù)分布式數(shù)據(jù)挖掘的特</p>
74、<p> 點設(shè)計出新的分布式數(shù)據(jù)挖掘算法</p><p> ?。常┯捎诰W(wǎng)絡(luò)帶寬的限制 數(shù)據(jù)的私有性和安全性 系統(tǒng)的不兼容性等原因 把</p><p> 所有數(shù)據(jù)源集到一個集中的地方 如數(shù)據(jù)倉庫 進(jìn)行集中數(shù)據(jù)挖掘往往是不現(xiàn)實的 </p><p> ?。矗┥鲜鋈c都是因數(shù)據(jù)源的分布而帶來的問題 另外 成本是另一個必須考慮</p><
75、p> 的因素 這主要是針對上述分布式數(shù)據(jù)挖掘的第二層含義而言的 為了完成不同的</p><p> 數(shù)據(jù)挖掘任務(wù) 用戶必須使用許多不同的挖掘工具 在分布的環(huán)境下更是可能進(jìn)一</p><p> 步增加成本 因為這需要挖掘工具的多個拷貝 還有 為了節(jié)約投資 用戶往往希</p><p> 望只使用那些能夠滿足他們需要的組件</p><p&g
76、t;<b> 而不是整個軟件包</b></p><p><b> 一個典型的例子是</b></p><p> 用戶用一個供應(yīng)商的工具 例如一個較新的并且是免費(fèi)的研究模型 來獲取他感興</p><p> 趣的模式 然后用另一個供應(yīng)商的可視化工具來顯示這些模式 一個可能的解決方</p><p>
77、 案是把這些分布的挖掘工具集成到一個數(shù)據(jù)挖掘應(yīng)用中</p><p><b> 資 </b></p><p> 2.3.3 進(jìn)行分布式數(shù)據(jù)挖掘需要解決的問題</p><p> 這將大大減少用戶的投</p><p><b> 在分布式數(shù)據(jù)挖掘中</b></p><p>
78、; 有幾個技術(shù)細(xì)節(jié)需要注意</p><p> 1)全局集中控制 為了方便地實現(xiàn)分布式數(shù)據(jù)挖掘 一個用于集中控制的站點</p><p> 是必須的 在不存在全局控制站點情況下 整個系統(tǒng)的通訊開銷是非常巨大的 為</p><p> 了得到全局知識 所有的站點將進(jìn)行大量的廣播 比起使用全局控制站點的系統(tǒng)來</p><p><b>
79、 6</b></p><p> 說 開銷和難度無疑要大得多 此外 在某些分布式數(shù)據(jù)挖掘算法中 需要進(jìn)行全</p><p> 局范圍內(nèi)的決策 這也是引入全局控制站點的一個自然原因 實際上在引入了全局</p><p><b> 控制站點后</b></p><p> 系統(tǒng)的可擴(kuò)展性和靈活性都得到了很好的支
80、持</p><p> 2)并行和分布式數(shù)據(jù)挖掘算法 這實際上是針對性能問題提出來的 服務(wù)器端</p><p> 的大容量數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘要耗費(fèi)很長時間 因為數(shù)據(jù)挖掘算法的時間復(fù)雜度</p><p> 很高 一個比較好的方法是使用并行化數(shù)據(jù)挖掘算法</p><p> 將數(shù)據(jù)集劃分成多個子集</p><p>
81、 并行處理后合并各個子集的挖掘結(jié)果 這些算法應(yīng)該具有增量特點 它與數(shù)據(jù)庫結(jié)</p><p> 合 可以不必重新挖掘全部數(shù)據(jù)</p><p><b> ?。常≈R共享</b></p><p> 在各個站點間進(jìn)行分布式挖掘時必須采用可以被理解的知識形</p><p> 式 一是因為分布式數(shù)據(jù)挖掘一般包含面向知識的挖掘
82、 即在本地知識的基礎(chǔ)上挖</p><p> 掘全局知識 所以必須采取能夠被統(tǒng)一理解的知識表示方式才能夠在各個站點間實</p><p> 現(xiàn)協(xié)同挖掘 二是因為各個站點上的用戶可能需要訪問其它站點上的知識 這也需</p><p> 要有一種通用的知識表示方式</p><p> ?。矗┓植际杰浖O(shè)計 當(dāng)今系統(tǒng)設(shè)計軟件的重用和復(fù)用的要求越來越高
83、 對系統(tǒng)</p><p> 設(shè)計的層次性也有很高要求 很多情況下 應(yīng)用開發(fā)主要是開發(fā)軟組件 然后再把</p><p> 它們組合起來 軟組件是一種不和特定程序或計算機(jī)語言綁定的分布式對象 可以</p><p> 跨越平臺的異構(gòu)性 具有封裝性 它和外界通過預(yù)先定義好的應(yīng)用程序接口來完成</p><p> 交互 其最大的優(yōu)點是支持軟件復(fù)用
84、 系統(tǒng)設(shè)計人員可以使用現(xiàn)存的軟組件 這樣</p><p><b> 可以優(yōu)化分工</b></p><p><b> 大大減少編碼工作量</b></p><p><b> 提高工作效率</b></p><p><b> 降低成本</b></p&
85、gt;<p> 2.3.4 分布式數(shù)據(jù)挖掘的研究現(xiàn)狀</p><p> 雖然分布式數(shù)據(jù)開采是近幾年才提出的一個新的研究領(lǐng)域 但是已經(jīng)引起了相</p><p><b> 當(dāng)多的研究者的注意</b></p><p> 取得了一定的進(jìn)展[3]</p><p> PADMA[4]系統(tǒng)是 Hi11o1 Ka
86、rgupta 等提出的一個基于 Agent 的并行/分布式數(shù)據(jù)</p><p> 挖掘系統(tǒng) 該系統(tǒng)不限定于特定的數(shù)據(jù)挖掘領(lǐng)域</p><p> PADMA 系統(tǒng)由如下組件構(gòu)成</p><p> 數(shù)據(jù)挖掘 Agent 協(xié)調(diào)各 Agent 工作的 Facilitator 和用戶接口 數(shù)據(jù)挖掘 Agent 負(fù)責(zé)</p><p> 讀取數(shù)據(jù)并
87、提取高層次的信息</p><p> Agent 通過 Facilitator 并行工作 Facilitator 負(fù)責(zé)協(xié)</p><p> 調(diào)各 Agent 工作并提供信息給用戶接口</p><p> 同時接收用戶的反饋信息給各個 Agent</p><p><b> 7</b></p><p&
88、gt; PADMA 系統(tǒng)有一個圖形化的基于 Web 的用戶接口用來把各 Agent 提取的信息展現(xiàn)</p><p> 給用戶 Facilitator 接收用戶接口以標(biāo)準(zhǔn) SQL 格式提交的查詢 這些查詢被廣播給</p><p> 各 Agent Agent 提取與特定查詢相關(guān)的信息 Facilitator 收集這些信息并將其展現(xiàn)</p><p> 給用戶 該
89、系統(tǒng)使用 PPFS(Parallel Portable File System)開發(fā)</p><p><b> 以面向?qū)ο蟮姆绞接?lt;/b></p><p><b> C++語言編碼</b></p><p> 提供了一個可擴(kuò)展的架構(gòu)</p><p> 使用 MPI Message Passin
90、g Interface</p><p> 進(jìn)行底層的消息交換和通信 該系統(tǒng)可以劃分為如下三個功能模塊 并行數(shù)據(jù)讀取</p><p><b> 和查詢處理模塊</b></p><p><b> 收集匯總模塊</b></p><p> 用戶交互和結(jié)果展現(xiàn)模塊</p><p&g
91、t; JAM Java Agents for Meta-learning</p><p><b> [5]</b></p><p> 分布式數(shù)據(jù)開采系統(tǒng) 在這個系統(tǒng)中提出了使用 meta-learning 進(jìn)行分布式數(shù)據(jù)開采</p><p><b> 的思想</b></p><p> me
92、ta-learning 是一種計算高層 classifiers</p><p> 稱為 meta-classifiers</p><p><b> 的技術(shù)</b></p><p> 即把各個數(shù)據(jù)庫上分別獨立計算的 classifiers 以某種原則匯集成高層 classifiers 的技</p><p><b
93、> 術(shù)</b></p><p> 該系統(tǒng)使用 JAVA 語言編寫</p><p> 具有較好的平臺無關(guān)性</p><p> 很多分布式數(shù)據(jù)挖掘系統(tǒng)都是針對數(shù)據(jù)源 水平劃分 的情形 即各個數(shù)據(jù)分</p><p> 塊中的記錄具有相同的屬性結(jié)構(gòu)</p><p> Hi11o1 Kargupta
94、[6]等 最 近 提 出 一 種 稱 為</p><p> Collective Data Mining 的思想來實現(xiàn)對數(shù)據(jù)源 垂直劃分 的情形進(jìn)行分布式數(shù)據(jù)</p><p> 挖掘 其主要方法是首先各個站點根據(jù)自己的數(shù)據(jù)集獨立計算一個近似規(guī)范正交基</p><p> 系數(shù) 然后從各個站點的數(shù)據(jù)集選取一些特定的樣本移到一個站點上 根據(jù)這個集</p>
95、<p> 成數(shù)據(jù)集來計算針對于非線性交叉項的近似基系數(shù) 最后根據(jù)基系數(shù)將局部模型合</p><p> 并成全局模型并提交給用戶</p><p> 其它的分布式數(shù)據(jù)挖掘系統(tǒng)還有美國 Pittsburgh 大學(xué)的 Aronis 教授等設(shè)計的</p><p> World[7]系統(tǒng) Chavez 的 Challenger[8]系統(tǒng)等</p>
96、;<p> 在目前的分布式數(shù)據(jù)開采的研究工作中 非常重要的一個方面是如何設(shè)計一個</p><p> 分布式數(shù)據(jù)開采系統(tǒng)的體系結(jié)構(gòu) 真正能支持各種分布式開采算法 真正實現(xiàn)平臺</p><p> 無關(guān)性 目前這方面的工作仍屬于起步階段</p><p><b> 8</b></p><p><b&g
97、t; 3 關(guān)聯(lián)規(guī)則挖掘</b></p><p> 3.1 關(guān)聯(lián)規(guī)則的形式化定義</p><p> 第二章中我們已經(jīng)提到過關(guān)聯(lián)規(guī)則</p><p> 讓我們從一個典型的例子</p><p><b> 購物籃分</b></p><p><b> 析</b>
98、</p><p> 給出關(guān)聯(lián)規(guī)則的形式化定義</p><p> 以一個擁有大量商品的超級市場為例 為了更加了解顧客的購物習(xí)慣 以此決</p><p> 定該賣什么商品 怎樣訂貨 怎樣在貨架上放置商品以吸引顧客購買 從而獲得最</p><p> 大的利潤 為了做好這些決策 可以對一段時間內(nèi)積累的歷史數(shù)據(jù)利用計算機(jī)進(jìn)行</p>
99、<p> 分析 過去的交易記錄詳細(xì)的記載了每一筆業(yè)務(wù)中用戶購買商品的情況 就可以在</p><p> 這些數(shù)據(jù)的基礎(chǔ)上分析得到顧客的購買習(xí)慣 如 顧客在購買餅干的同時往往也購</p><p> 買了一定數(shù)量的牛奶 關(guān)聯(lián)規(guī)則正是對貨籃數(shù)據(jù)進(jìn)行分析 以得到商品之間關(guān)系的</p><p> 一種很流行的數(shù)據(jù)挖掘算法 當(dāng)關(guān)聯(lián)規(guī)則被找到后 就可以利用這些
100、規(guī)則幫助管理</p><p><b> 者進(jìn)行決策</b></p><p> 1)如果發(fā)現(xiàn)包含牛奶的所有規(guī)則</p><p> 我們就知道為了增加牛奶的銷量該做些什</p><p><b> 么</b></p><p> ?。玻┤绻业劫徺I某種面包的同時顧客還購買了哪
101、些商品的規(guī)則 我們就知道當(dāng)</p><p> 停止這種面包的銷售時</p><p> 哪些商品的銷售會收到影響</p><p> ?。常┤绻l(fā)現(xiàn)顧客購買某種面包的同時購買某種牛奶的所有規(guī)則 我們就可以決</p><p> 定是否為了促銷牛奶而將牛奶和面包捆綁銷售</p><p> 上述的購買模式可以用關(guān)聯(lián)規(guī)則的
102、形式表示 例如購買面包的同時也趨向于購</p><p> 買牛奶可以用以下關(guān)聯(lián)規(guī)則表示</p><p> 面包?? 牛奶[支持度</p><p><b> 20</b></p><p><b> 置信度</b></p><p> 60 ]
103、 ?。ǎ常保?lt;/p><p> 規(guī)則的支持度和置信度是規(guī)則的兩個興趣度度量</p><p><b> 對于形如</b></p><p><b> A?? B 的關(guān)聯(lián)</b></p><p> 規(guī)則 其確定性度量是置信度</p><p> 其中 A 和 B 是項目
104、的集合</p><p><b> 給定一個任務(wù)相關(guān)的</b></p><p><b> 數(shù)據(jù)元組集合</b></p><p> 或事務(wù)數(shù)據(jù)庫事務(wù)的集合</p><p> A?? B 的置信度定義為</p><p><b> 9</b></
105、p><p><b> 置信度 A?? B</b></p><p><b> 包含A和B的元組數(shù)</b></p><p><b> 包含A的元組數(shù)</b></p><p><b> ?。ǎ常玻?lt;/b></p><p> 關(guān)聯(lián)模
106、式的支持度是模式為真的任務(wù)相關(guān)的元組 或事務(wù) 所占的百分比 對</p><p><b> 于形如 A?? B</b></p><p><b> 的關(guān)聯(lián)規(guī)則</b></p><p><b> 其支持度定義為</b></p><p><b> 支持度 A?? B&
107、lt;/b></p><p><b> 包含A和B的元組數(shù)</b></p><p><b> 元組總數(shù)</b></p><p><b> (3.3) </b></p><p> 只要找出所有用戶感興趣的關(guān)聯(lián)規(guī)則</p><p> 就可以幫
108、助決策者做出科學(xué)的決策</p><p> 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的主要功能之一</p><p> 它是 R.Agrawal 等人在 1993[9]年提</p><p> 出的 目的是希望在事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)各項目之間的關(guān)系</p><p><b> 設(shè) I { i1</b></p><p>
109、<b> i 2</b></p><p><b> ….</b></p><p> i m }是由 m 個不同的項目組成的集合</p><p><b> 其中的元素稱為項</b></p><p> (item) 項的集合稱為項集(itemset) 包含 k 個項的項集
110、稱為 k-項集 記 D 為事務(wù) T</p><p> 的集合 這里事務(wù) T 是項的集合 其中每個事務(wù) T 包含若干項目 i1</p><p><b> i 2</b></p><p><b> ….</b></p><p><b> i m?∈ I</b></p&
111、gt;<p> 設(shè) X 是一個項集 事務(wù) T 包含 X 當(dāng)且僅當(dāng) X?? T 一個關(guān)聯(lián)規(guī)則是形如 X?? Y 的蘊(yùn)</p><p> 涵式 這里 X?? I</p><p> Y?? I 并且 X?∩ Y</p><p><b> ?</b></p><p> 規(guī)則 X?? Y 在事務(wù)集 D 中成
112、立</p><p><b> 其在</b></p><p> D 中的支持度是 D 中包含 X 和 Y 的事務(wù)數(shù)和所有事務(wù)數(shù)之比 它是概率 P X?∪ Y</p><p> 規(guī)則 X?? Y 在事務(wù)集 D 中的置信度是指包含 X 和 Y 的事務(wù)數(shù)與包含 X 的事務(wù)數(shù)之</p><p><b> 比<
113、;/b></p><p><b> 這是條件概率 P</b></p><p><b> Y|X</b></p><p><b> 即</b></p><p><b> 支持度 X?? Y</b></p><p><
114、;b> 置信度 X?? Y</b></p><p><b> P X?∪ Y</b></p><p><b> P Y|X</b></p><p><b> (3.4)</b></p><p><b> (3.5)</b><
115、;/p><p> 同時滿足最小支持度和最小置信度的規(guī)則稱作強(qiáng)規(guī)則</p><p> 項集出現(xiàn)的頻率是包含項集的事務(wù)數(shù) 簡稱為頻率或計數(shù) 如果項集滿足最小</p><p> 支持度 即項集出現(xiàn)的頻率大于或等于最小支持度與 D 中事務(wù)總數(shù)的乘積 則稱它</p><p><b> 為頻繁項集</b></p>
116、<p> 頻繁 k-項集的集合通常記做 Lk</p><p> 關(guān)聯(lián)規(guī)則的挖掘可以分為兩個子問題</p><p><b> ?。?lt;/b></p><p><b> 2</b></p><p> 產(chǎn)生出現(xiàn)次數(shù)大于某個閾值的所有項目的集合 即找出所有頻繁項集</p>&l
117、t;p> 由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 </p><p><b> 10</b></p><p> 第一個子問題解決了 第二個子問題很直接 所以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的重點就在于</p><p><b> 第一個子問題</b></p><p><b> 如何發(fā)現(xiàn)頻繁項集</b&g
118、t;</p><p> 下面介紹一個經(jīng)典的發(fā)現(xiàn)頻繁項集的算法</p><p> 現(xiàn)在許多新提出的算法都是以這個算法為基礎(chǔ)的</p><p> 3.2 Apriori 經(jīng)典頻繁項集發(fā)現(xiàn)算法 [1]</p><p> Apriori 算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項集的算法 它利用頻繁項集</p><p>
119、 性質(zhì)的先驗知識 使用一種逐層搜索的迭代方法</p><p> k-項集用于探索(k+1)-項集</p><p><b> 首</b></p><p> 先找出頻繁 1-項集的集合 該集合記做 L1</p><p> L1 用于尋找頻繁 2-項集的集合 L2 而 L2</p><p>&l
120、t;b> 用于尋找 L3</b></p><p><b> 如此類推</b></p><p> 直到不能找到頻繁 k-項集</p><p> 找每個 Lk 需要掃描一次數(shù)據(jù)</p><p><b> 庫 </b></p><p> 頻繁項集的所
121、有非空子集都必須也是頻繁的</p><p><b> 根據(jù)定義</b></p><p> 如果項集 I 不滿足最</p><p> 小支持都閾值 min_sup 則 I 不是頻繁的 即 P(I)<min_sup 如果項 A 添加到 I 則</p><p> 結(jié)果項集(I?∪ A)不可能比 I 更頻繁出現(xiàn)&l
122、t;/p><p> 因此 I?∪ A 也不是頻繁的即 P(I?∪ A)<</p><p> min_sup 頻繁項集的這一特性稱作 Apriori 性質(zhì) Apriori 算法利用這一重要性質(zhì)來</p><p> 壓縮搜索空間 生成較小的候選項集 也就是盡可能不生成和計算那些不可能成為</p><p><b> 頻繁項集的候
123、選集</b></p><p> 提高頻繁項集逐層產(chǎn)生的效率</p><p> 可以將 Apriori 性質(zhì)用在由 Lk??1 尋找 Lk 中</p><p><b> ?。保檎?Lk</b></p><p> 通過 Lk??1 與自己連接產(chǎn)生候選 k-項集的集合 該候選項集的結(jié)合記</p>
124、<p><b> 做 Ck</b></p><p> 設(shè) l1和 l2 是 Lk??1 中的項集</p><p> 記號 li [j]表示 li 的第 j 項 為方便計</p><p><b> 假定事務(wù)和</b></p><p> 項集中的項是按字典次序排序 執(zhí)行連接 Lk
125、??1>< Lk??1 其中 Lk??1 的元素是可連接的</p><p> 如果它們前(k-2)個項相同 即</p><p> Lk??1 的元素 l1和 l2 是可連接的 如果( l1 [1]= l2 [1])?∧ </p><p> ?。?l1[2]= l2 [2]) ?∧</p><p> ∧ ( l1 [k-
126、2]= l2 [k-2]) ?∧ ?。?l1 [k-1]< l2 [k-1]) 條件( l1 [k-1]< l2 [k-1])</p><p> 是簡單地保證不產(chǎn)生重復(fù)</p><p> 連接 l1和 l2 產(chǎn)生的結(jié)果項集是 l1 [1] l1 [2] … l1 [k-1] l2 [k-1]</p><p><b> 這一步為連接步<
127、;/b></p><p><b> 11</b></p><p><b> 2</b></p><p> Ck 是 Lk 的超集 它的成員可以是也可以不是頻繁的</p><p> 但所有頻繁的 k-項</p><p> 集都包含在 Ck 中 掃描數(shù)據(jù)庫<
128、/p><p> 確定 Ck 中每個候選的計數(shù)</p><p><b> 從而確定 Lk</b></p><p><b> 根據(jù)定</b></p><p> 義 計數(shù)值不小于最小支持度計數(shù)的所有候選是頻繁的</p><p><b> 從而屬于 Lk</b&
129、gt;</p><p><b> 然而 Ck 可</b></p><p> 能很大 這樣所涉及的計算量就很大</p><p><b> 為壓縮 Ck</b></p><p> 可以用以下辦法使用 Apriori 性</p><p> 質(zhì) 任何非頻繁的(k-1)-項集
130、都不可能是頻繁 k-項集的子集</p><p><b> 因此</b></p><p><b> 如果一個候選</b></p><p> k-項集的(k-1)-子集不在 Lk??1 中 則該候選也不可能是頻繁的 從而可以從 Ck 中將其</p><p><b> 刪除</b&
131、gt;</p><p><b> 該步稱為剪枝步</b></p><p> 下面給出 Apriori 算法</p><p><b> 算法</b></p><p> Apriori 使用根據(jù)候選生成的逐層迭代找出頻繁項集</p><p> 輸入 事務(wù)數(shù)據(jù)庫 D 最小
132、支持度閾值 min_sup</p><p> 輸出 D 中的頻繁項集 L</p><p><b> 方法</b></p><p><b> begin</b></p><p><b> L1</b></p><p> {large 1-item
133、sets}</p><p> for(k=2; Lk??1?≠?? ;k++){</p><p> Ck =apriori_gen( Lk??1 ,min_sup)</p><p> for all tracsaction t∈ D do{</p><p> Ct =subset( Ck ,t)</p><p>
134、; for all candidate c∈ Ct do c.count++}</p><p> Lk ={c∈ Ck |c.count?≥ min_sup}</p><p><b> }</b></p><p> answer=?∪k Lk</p><p><b> end</b><
135、;/p><p><b> 12</b></p><p> 算法的第一步是計算單個項目在事務(wù)集的出現(xiàn)次數(shù)以決定含有一個項目的頻</p><p><b> 繁項集</b></p><p> 隨后的步驟稱為 k-pass</p><p><b> 共分兩步</
136、b></p><p> 1) 利用 Apriori_gen 函數(shù)從 Lk??1 中產(chǎn)生候選集 Ck</p><p><b> 枝兩步執(zhí)行</b></p><p> Apriori_gen 函數(shù)分連接和剪</p><p><b> 第一步</b></p><p>
137、<b> 連接</b></p><p> insert into Ck ?。螅澹欤澹悖簟。穑椋簦澹恚?,p.item2,</p><p> ?。妫颍铮怼?Lk??1 ?。?, Lk??1 ?。瘛?lt;/p><p> ,p.item(k-1),q.item(k-1) </p><p> ?。鳎瑁澹颍濉。穑椋簦澹恚保剑瘢?/p>
138、item1 AND?。穑椋簦澹恚玻剑瘢椋簦澹恚病。粒危摹?lt;/p><p><b> ?。粒危摹?lt;/b></p><p> ?。穑椋簦澹恚ǎ耄玻剑瘢椋簦澹恚ǎ耄玻。粒危摹。穑椋簦澹恚ǎ耄保迹瘢椋簦澹恚ǎ耄保?lt;/p><p><b> 第二步 剪枝</b></p><p>
139、 對 Ck 中的任一候選 c</p><p> 如果 c 中存在一個不屬于 Lk??1 的長度為 k-1 的子序列</p><p> 那么就從 Ck 中刪除 c</p><p> for all itemset c∈ Ck do</p><p> for all (k-1)-subset s of c do</p>&
140、lt;p> if (s? Lk??1 ) then delete c from Ck</p><p> ?。玻├?Ck 對數(shù)據(jù)庫進(jìn)行掃描</p><p> 以求出 Ck 的支持度</p><p> Apriori 算法的流程圖如下</p><p><b> 13</b></p><p&
141、gt; 圖 3-1 算法 Apriori 流程圖</p><p> 一旦由數(shù)據(jù)庫 D 中的事務(wù)找出頻繁項集</p><p> 由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直截了當(dāng)</p><p><b> 的</b></p><p> 強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度</p><p><b>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于代理的分布式數(shù)據(jù)挖掘系統(tǒng)研究.pdf
- 基于數(shù)據(jù)挖掘的分布式入侵檢測系統(tǒng)研究.pdf
- 基于動態(tài)Agent技術(shù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究.pdf
- 基于Multi-agent的分布式數(shù)據(jù)挖掘系統(tǒng)研究.pdf
- 基于網(wǎng)格服務(wù)的分布式數(shù)據(jù)挖掘.pdf
- 基于WEB的分布式PDM系統(tǒng)研究.pdf
- 基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究與設(shè)計
- 基于數(shù)據(jù)挖掘的分布式網(wǎng)絡(luò)入侵檢測系統(tǒng)研究.pdf
- 基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究與設(shè)計.pdf
- 基于Agent的分布式數(shù)據(jù)挖掘系統(tǒng).pdf
- 基于Web的分布式CAPP系統(tǒng)研究.pdf
- 基于Web Service技術(shù)的分布式并行數(shù)據(jù)挖掘研究.pdf
- 基于Web Services的分布式應(yīng)用系統(tǒng)研究.pdf
- 基于Web服務(wù)的分布式工作流系統(tǒng)研究與實現(xiàn).pdf
- 基于企業(yè)服務(wù)總線的分布式數(shù)據(jù)挖掘系統(tǒng)的研究與設(shè)計.pdf
- 基于Web日志的分布式并行數(shù)據(jù)挖掘算法研究.pdf
- 基于數(shù)據(jù)挖掘的分布式入侵檢測系統(tǒng).pdf
- 基于.net與xml的分布式web應(yīng)用系統(tǒng)研究
- 基于Web Service的分布式文件服務(wù)系統(tǒng).pdf
- 基于WebService的分布式多層Web應(yīng)用系統(tǒng)研究.pdf
評論
0/150
提交評論