版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、關(guān)聯(lián)挖掘是用來發(fā)現(xiàn)海量數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間存在潛在的、有價(jià)值的關(guān)聯(lián)關(guān)系,以便于商業(yè)決策提高企業(yè)利潤。隨著移動(dòng)互聯(lián)網(wǎng)、人工智能、信息處理、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)等各種計(jì)算機(jī)科學(xué)技術(shù)的急速發(fā)展和普遍應(yīng)用,各種海量信息數(shù)據(jù)呈指數(shù)迅速增長,人們?yōu)榱四軌驈暮A繑?shù)據(jù)集中提取有價(jià)值的信息,提出了各種數(shù)據(jù)挖掘技術(shù)。增量更新關(guān)聯(lián)挖掘是一種動(dòng)態(tài)的關(guān)聯(lián)挖掘方法,它主要用來解決動(dòng)態(tài)事務(wù)數(shù)據(jù)庫中事務(wù)記錄隨時(shí)間的推移而不斷地更新,以及根據(jù)用戶需求的不同,最小支持度閾值、最
2、小置信度閾值發(fā)生改變時(shí),發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間存在潛在、有價(jià)值的關(guān)聯(lián)關(guān)系問題。針對現(xiàn)有的改進(jìn)增量更新關(guān)聯(lián)規(guī)則挖掘算法存在以下缺陷:①多次頻繁地掃描原始事務(wù)數(shù)據(jù)庫、產(chǎn)生大量無用的候選項(xiàng)集以及使用集合連接操作來計(jì)算頻繁項(xiàng)集;②新產(chǎn)生的關(guān)聯(lián)規(guī)則不能滿足用戶的不同需求;③當(dāng)原始事務(wù)數(shù)據(jù)庫新增事務(wù)記錄的同時(shí),改變最小支持度閾值和最小置信度閾值的情況下,實(shí)現(xiàn)增量更新關(guān)聯(lián)挖掘維護(hù)問題的研究很少。為解決此類問題,本文采用倒排索引技術(shù)與樹型結(jié)構(gòu)相結(jié)合的方式,提出
3、一種高效的增量更新關(guān)聯(lián)挖掘算法UP-IITree。該算法有效的實(shí)現(xiàn)了無需掃描原始事務(wù)數(shù)據(jù)庫DB,不產(chǎn)生候選項(xiàng)集且使用集合與操作,能夠高效地計(jì)算出增量更新后的所有頻繁項(xiàng)集。實(shí)驗(yàn)結(jié)果表明,該算法占用內(nèi)存空間少、檢索頻繁項(xiàng)集效率高,且能更好地解決了增量更新關(guān)聯(lián)挖掘算法存在上述難題。
在大數(shù)據(jù)環(huán)境下,原始事務(wù)數(shù)據(jù)庫中新增的事務(wù)數(shù)據(jù)集都是大批量的,且根據(jù)用戶的需求不同,所指定的最小支持度閾值和最小置信度閾值也會(huì)有所改變,為了能夠?qū)崿F(xiàn)更新
4、后的關(guān)聯(lián)規(guī)則得到及時(shí)的維護(hù)一直是人們追求的目標(biāo)。本文將UP-IITree算法實(shí)行進(jìn)一步創(chuàng)新,將倒排索引技術(shù)與MapReduce并行編程模型相結(jié)合提出一種并行增量更新關(guān)聯(lián)挖掘算法UP-IIMR。該算法是利用hadoop平臺(tái)中MapReduce并行編程模型,使得能夠以并行的方式應(yīng)用倒排索引技術(shù),以便于在新增大批量數(shù)據(jù)集的同時(shí),改變最小支持度閾值和最小置信度閾值的情況下,高效、及時(shí)地解決了關(guān)聯(lián)規(guī)則難以維護(hù)的問題。通過使用真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 關(guān)聯(lián)規(guī)則的增量更新挖掘算法.pdf
- 基于快速挖掘的增量更新AAIU算法的研究.pdf
- 增量更新關(guān)聯(lián)規(guī)則挖掘方法的研究.pdf
- 利用關(guān)聯(lián)規(guī)則增量式更新算法挖掘Web日志.pdf
- 關(guān)聯(lián)規(guī)則增量式更新算法的研究.pdf
- 基于關(guān)聯(lián)規(guī)則的增量挖掘算法的研究與設(shè)計(jì).pdf
- 基于分區(qū)的倒排索引壓縮算法研究.pdf
- 基于倒排索引的壓縮算法性能研究.pdf
- 增量式關(guān)聯(lián)規(guī)則更新算法研究.pdf
- 模糊關(guān)聯(lián)規(guī)則增量更新算法的研究與應(yīng)用.pdf
- 倒排索引壓縮算法研究.pdf
- 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的更新算法研究.pdf
- 關(guān)聯(lián)規(guī)則增量更新算法研究與應(yīng)用.pdf
- 關(guān)聯(lián)規(guī)則增量挖掘算法研究及應(yīng)用.pdf
- 序列模式挖掘中的增量式更新算法研究.pdf
- 一種基于索引的關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 面向增量更新的數(shù)據(jù)挖掘算法及其應(yīng)用研究.pdf
- 基于SP-tree的關(guān)聯(lián)規(guī)則更新挖掘算法.pdf
- 基于文法壓縮的倒排索引求交算法設(shè)計(jì).pdf
- 基于固態(tài)硬盤的倒排索引動(dòng)態(tài)更新策略及其優(yōu)化研究.pdf
評論
0/150
提交評論