數(shù)據(jù)流頻繁項挖掘及相關(guān)性分析算法的研究.pdf_第1頁
已閱讀1頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)流應(yīng)用最早出現(xiàn)于傳統(tǒng)的銀行和股票交易等金融領(lǐng)域,后來則出現(xiàn)在天文觀測、交通、醫(yī)療、地質(zhì)測量、氣象等眾多領(lǐng)域。尤其是隨著無線通信網(wǎng)(通話記錄)和互聯(lián)網(wǎng)(網(wǎng)絡(luò)流量監(jiān)控,點擊流)的廣泛應(yīng)用,需要對數(shù)據(jù)流類型的數(shù)據(jù)進行分析與挖掘。比如,數(shù)據(jù)流頻繁項技術(shù)及相關(guān)性分析技術(shù)可被應(yīng)用到智慧醫(yī)療和識別可疑洗錢行為的領(lǐng)域中,具有非常重要的應(yīng)用價值。而且,數(shù)據(jù)流頻繁項挖掘和相關(guān)性分析算法是眾多數(shù)據(jù)流挖掘技術(shù)的基礎(chǔ),因此具有非常重要的學(xué)術(shù)研究價值。

2、  數(shù)據(jù)流挖掘的常用技術(shù)主要有頻繁項(集)挖掘、相關(guān)性分析、分類分析、聚類分析、時序模式分析等。一般來說,數(shù)據(jù)流挖掘算法都試圖從兩個方面來研究:一是查詢響應(yīng)時間問題,即如何高效實時地處理數(shù)據(jù),以匹配數(shù)據(jù)流高速到達的特性。在技術(shù)層面上通過提出新的或者改進已有的高效的數(shù)據(jù)結(jié)構(gòu)、有效的剪枝策略等來解決。二是壓縮存儲空間并保證高精度的查詢結(jié)果。在技術(shù)層面上通過構(gòu)造一個內(nèi)存占用少、并能提供近似結(jié)果的數(shù)據(jù)結(jié)構(gòu)以存放被壓縮的數(shù)據(jù)流數(shù)據(jù)。
  綜

3、上分析,本文致力于解決數(shù)據(jù)流頻繁項發(fā)現(xiàn)及相關(guān)性分析問題中,如何更好的解決以上提出的兩大問題(提高查詢響應(yīng)時間和壓縮存儲數(shù)據(jù)所花費空間)。在現(xiàn)有的數(shù)據(jù)流挖掘技術(shù)研究基礎(chǔ)上,以有效管理海量數(shù)據(jù)和提高查詢效率以及精確度為優(yōu)化目標,展開一系列能夠滿足實際應(yīng)用需要的挖掘技術(shù)研究;提出高效的數(shù)據(jù)流概要結(jié)構(gòu)和挖掘算法。本文研究主要包括以下內(nèi)容:
  延遲教據(jù)流的頻繁項挖掘方法研究:所謂“延遲”即基于時間延遲模型。該模型考慮了不同時刻的數(shù)據(jù)的重要

4、性不同,即已到達的數(shù)據(jù)項的重要性隨時間逐漸衰減。為了提高查詢響應(yīng)時間,本文研究了一個可以在內(nèi)存維持的,并能保證高效地更新和檢索其中的信息的數(shù)據(jù)結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項挖掘算法的效率。此外,為了壓縮存儲數(shù)據(jù)所花費空間,本文還設(shè)計了一種新的數(shù)據(jù)流概要結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項挖掘結(jié)果的準確度。
  數(shù)據(jù)流最熱項概念的提出及其查詢方法研究:針對不斷出現(xiàn)的多樣的查詢需求,例如,在促銷中,商戶希望找到巔峰銷售記錄,以宣傳其產(chǎn)品的受歡迎程度

5、,目前已有的數(shù)據(jù)流挖掘概念并不能適用于這一新的需求。因此,本文研究了一個自適應(yīng)可變滑動窗口的數(shù)據(jù)流頻率問題——數(shù)據(jù)流最熱項問題。由于無法用現(xiàn)有的挖掘算法來解決數(shù)據(jù)流最熱項問題,因此,本文深入研究了實時挖掘數(shù)據(jù)流最熱項的算法。一是設(shè)計一個高效的數(shù)據(jù)結(jié)構(gòu)來存儲已到達的數(shù)據(jù)項的關(guān)鍵信息,使得可以在其上進行數(shù)據(jù)流最熱項的挖掘,并且可以保證高效地存儲、更新和檢索其中的信息。二是,在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計幾種剪枝策略以提高實時查詢效率。
 

6、 數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析方法研究:已有的延遲關(guān)聯(lián)分析主要集中在兩個方面,一是延遲關(guān)聯(lián)被計算在整個數(shù)據(jù)流上;二是,需要設(shè)置一個合適長度的滑動窗口來計算延遲關(guān)聯(lián)性。然而,沒有一個最佳的窗口長度適用于所有的場景,因為合適的窗口長度取決于查詢、時間、數(shù)據(jù)和應(yīng)用領(lǐng)域等因素。因此,本文設(shè)計了一種滑動窗口大小可自適應(yīng)調(diào)整的延遲相關(guān)性查詢。也就是,基于可變的滑動窗口排序目標數(shù)據(jù)流與給定的查詢數(shù)據(jù)流之間的延遲關(guān)聯(lián)關(guān)系。因此,本文開展研究了數(shù)據(jù)流自適

7、應(yīng)的延遲相關(guān)性分析算法。
  本文首先研究了數(shù)據(jù)流中的數(shù)據(jù)項出現(xiàn)次數(shù)問題,也即數(shù)據(jù)流頻繁項挖掘方法的研究;接著將出現(xiàn)次數(shù)問題擴展到出現(xiàn)頻率的問題,即提出了一種新的數(shù)據(jù)流挖掘概念-數(shù)據(jù)流最熱項問題及其查詢方法的研究;最后本文探究了數(shù)據(jù)流之間相關(guān)性分析的方法,研究了基于可變滑動窗口的延遲相關(guān)性分析方法的研究。本文的研究還只是初步進行了嘗試和探索,但是仍有許多的研究工作需要進一步深入和開拓。比如研究適應(yīng)流速率變化的數(shù)據(jù)流的挖掘問題,利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論