

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著各行業(yè)對(duì)數(shù)據(jù)越來(lái)越重視和信息技術(shù)的快速發(fā)展,產(chǎn)生的數(shù)據(jù)越來(lái)越全面,同時(shí)數(shù)據(jù)量也在快速的增長(zhǎng);并且各行業(yè)又要求能及時(shí)對(duì)已產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘和分析,這使得數(shù)據(jù)流挖掘技術(shù)愈發(fā)重要。由于數(shù)據(jù)流具有海量性、實(shí)時(shí)性和動(dòng)態(tài)變化性的特點(diǎn),這就要求數(shù)據(jù)流上的挖掘算法有較高的時(shí)空效率。盡管數(shù)據(jù)流上數(shù)據(jù)挖掘技術(shù)取得了一定的進(jìn)展,但是挖掘算法的時(shí)空效率仍然是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域中的研究焦點(diǎn)之一。
本文主要研究了數(shù)據(jù)流模式挖掘算法,包括傳統(tǒng)數(shù)據(jù)集類(lèi)型中
2、的頻繁模式挖掘以及大數(shù)據(jù)集下的頻繁模式挖掘、不確定數(shù)據(jù)流中的頻繁模式挖掘、和高效用模式挖掘。本文首先對(duì)已有的頻繁模式和高效用模式挖掘算法進(jìn)行了回顧,詳細(xì)的介紹了算法Apriori和FP-Growth等;然后在對(duì)典型的挖掘算法和最新研究成果進(jìn)行分析研究的基礎(chǔ)上,深入研究了傳統(tǒng)數(shù)據(jù)中的頻繁模式挖掘、不確定數(shù)據(jù)上的頻繁模式挖掘和具有效用值的數(shù)據(jù)中的高效用模式挖掘算法。本文取得了如下的創(chuàng)新性研究成果:
(1)在傳統(tǒng)數(shù)據(jù)的頻繁模式挖掘算
3、法研究中,提出新的尾節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)和一種最多兩次MapReduce的并行挖掘算法。針對(duì)數(shù)據(jù)流中的頻繁模式挖掘問(wèn)題,采用尾節(jié)點(diǎn)和尾節(jié)點(diǎn)表來(lái)提高窗口內(nèi)數(shù)據(jù)更新的時(shí)間效率和維護(hù)的空間效率;并通過(guò)提高窗口內(nèi)頻繁模式挖掘算法的時(shí)間效率,進(jìn)而提高數(shù)據(jù)流中模式挖掘的整體時(shí)間效率。針對(duì)大數(shù)據(jù)下的數(shù)據(jù)流頻繁模式挖掘問(wèn)題,首先通過(guò)一次MapReduce找到局部頻繁模式做為候選項(xiàng)集,然后通過(guò)給出的剪枝策略對(duì)候選項(xiàng)集進(jìn)行剪枝,最后進(jìn)行第二次MapReduce對(duì)候
4、選項(xiàng)集中剩余項(xiàng)集進(jìn)行支持?jǐn)?shù)統(tǒng)計(jì);在多數(shù)情況下,該算法不需要第二次MapReduce就可以有效的挖掘到所有的頻繁模式。
(2)在不確定事務(wù)數(shù)據(jù)的頻繁模式挖掘算法研究中,提出具有更高壓縮率的樹(shù)結(jié)構(gòu)來(lái)改進(jìn)不確定數(shù)據(jù)集及數(shù)據(jù)流上的頻繁模式挖掘算法。首先利用數(shù)組來(lái)存儲(chǔ)事務(wù)項(xiàng)集的概率,然后將事務(wù)概率在數(shù)組中的索引和事務(wù)項(xiàng)集映射到一棵樹(shù)上,從而可以有效的降低維護(hù)不確定數(shù)據(jù)集的樹(shù)節(jié)點(diǎn)個(gè)數(shù)。在此基礎(chǔ)上,結(jié)合滑動(dòng)窗口技術(shù),同時(shí)給出兩種新的樹(shù)結(jié)構(gòu)分
5、別來(lái)維護(hù)窗口中數(shù)據(jù)和挖掘過(guò)程中的子數(shù)據(jù)集,保證在挖掘的過(guò)程中使窗口中事務(wù)項(xiàng)集的信息不會(huì)從樹(shù)上丟失;從而使頻繁模式挖掘算法的時(shí)空效率得到較大的提升。另外,本文還提出一種新的具有權(quán)重的頻繁模式挖掘模型和算法;該模型主要是將項(xiàng)的權(quán)重值引入到頻繁模式的挖掘過(guò)程中,將權(quán)重值大的模式考慮到挖掘結(jié)果中。
(3)在高效用模式挖掘算法研究中,提出避免使用高估效用值的不產(chǎn)生候選項(xiàng)集的挖掘算法。首先本文提出一個(gè)新的樹(shù)結(jié)構(gòu)來(lái)維護(hù)事務(wù)項(xiàng)集及效用值信息,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)流頻繁模式挖掘關(guān)鍵算法及其應(yīng)用研究.pdf
- 數(shù)據(jù)流挖掘技術(shù)及應(yīng)用研究.pdf
- 數(shù)據(jù)流的頻繁模式挖掘算法研究.pdf
- 數(shù)據(jù)流閉頻繁模式挖掘算法研究.pdf
- 基于數(shù)據(jù)流的頻繁模式挖掘應(yīng)用研究.pdf
- 商業(yè)數(shù)據(jù)流頻繁模式挖掘算法研究與應(yīng)用.pdf
- 數(shù)據(jù)流挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁模式挖掘算法的研究.pdf
- 數(shù)據(jù)流滑動(dòng)窗口頻繁模式挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁模式挖掘算法研究與設(shè)計(jì).pdf
- 數(shù)據(jù)流閉合頻繁模式挖掘算法的研究.pdf
- 數(shù)據(jù)流頻繁模式和分類(lèi)挖掘算法研究.pdf
- 網(wǎng)上銀行數(shù)據(jù)流頻繁模式挖掘算法研究及應(yīng)用.pdf
- 數(shù)據(jù)流容錯(cuò)挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁模式挖掘及數(shù)據(jù)預(yù)測(cè)算法研究.pdf
- 高性能數(shù)據(jù)流模式發(fā)現(xiàn)算法及其應(yīng)用研究.pdf
- 數(shù)據(jù)流頻繁項(xiàng)挖掘算法研究與應(yīng)用.pdf
- 制造物聯(lián)海量數(shù)據(jù)流模式挖掘算法研究.pdf
- 數(shù)據(jù)流top-K頻繁模式挖掘算法研究.pdf
- 數(shù)據(jù)流中頻繁項(xiàng)集挖掘算法及其應(yīng)用研究.pdf
評(píng)論
0/150
提交評(píng)論