時間序列數(shù)據(jù)挖掘若干關(guān)鍵問題研究.pdf_第1頁
已閱讀1頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、時間序列是一種廣泛存在的數(shù)據(jù),客觀記錄了所觀測的系統(tǒng)在各個時刻點的具體值,所以可以通過研究時間序列數(shù)據(jù)來辨識和重構(gòu)所觀測系統(tǒng)的動力學(xué)行為。早期的研究方法是基于統(tǒng)計學(xué)知識的,主張在滿足某種假設(shè)的前提下用解析函數(shù)來對時間序列進行全局建模。但是時間序列往往都含有大量噪聲和復(fù)雜結(jié)構(gòu),導(dǎo)致解析函數(shù)的建模變得非常困難。因此,需要一種研究方法能夠充分利用時間序列數(shù)據(jù)發(fā)掘其背后隱含的規(guī)律和知識。
  在這種需求的促進下,基于數(shù)據(jù)挖掘技術(shù)的時間序列

2、數(shù)據(jù)研究方法就應(yīng)運而生了。數(shù)據(jù)挖掘是一個十分活躍和具有研究前景的領(lǐng)域,為時間序列分析提供了新思路和視野。由于所研究的真實系統(tǒng)或現(xiàn)象的內(nèi)部往往受到多個因素的綜合作用,從而導(dǎo)致作為其輸出的時間序列具有許多復(fù)雜性的表現(xiàn):維度高、海量性、結(jié)構(gòu)復(fù)雜、存在噪聲、存在相似性變形(不精確匹配)等等。這些固有的特性使時間序列數(shù)據(jù)挖掘研究充滿了挑戰(zhàn)。盡管國內(nèi)外研究者在時間序列挖掘上已經(jīng)取得了許多研究成果,但依然存在很多亟待解決的關(guān)鍵問題。
  本論文

3、對時間序列數(shù)據(jù)挖掘技術(shù)中的近似表示方法、相似性度量方法和時間序列聚類等技術(shù)面臨的關(guān)鍵問題進行了深入研究,其主要研究內(nèi)容如下:
  第一,針對現(xiàn)有近似表示方法所面臨的維度約簡會丟失基本信息、算法參數(shù)需要精調(diào)的問題,本文提出了一種無參的符號化近似表示模型NSAR(Nonparametric Symbolic Approximate Representation)。針對以往近似表示在實現(xiàn)維度約簡的同時會丟失基本信息的問題,NSAR主要采

4、用符號化編碼技術(shù)實現(xiàn)維度的極大約簡,同時采用了提取多尺度離散小波近似系數(shù)和關(guān)鍵點來保留原始序列的基本特征信息。針對現(xiàn)有的絕大多數(shù)近似表示方法面臨需要精調(diào)參數(shù)的難點,NSAR在設(shè)計時從三個方面實現(xiàn)了無參化:小波分解尺度log2 n是由序列長度確定的;關(guān)鍵點提取在濾除噪聲后的小波近似系數(shù)上進行,不用設(shè)置閾值篩選;對關(guān)鍵點序列進行符號化,自動決定出只需要2個符號來表示上升,下降趨勢。實驗結(jié)果表明,NSAR能夠有效解決上述兩個問題,可以實現(xiàn)維度

5、極大約簡的同時保留住原始時間序列的基本信息,并且是無參。
  第二,針對現(xiàn)有的相似性度量方法只能容忍一兩種輕微的相似性變形,本文設(shè)計了一種基于形狀信息的肘間序列相似性度量方法SIMshape(SIMilaritymeasure based shape information)。不同于現(xiàn)有的相似性度量方法在相似性比較時不加區(qū)別的對待序列所有信息,SIMshape在相似性判斷時更側(cè)重序列基本形狀的對比,弱化細節(jié)信息的影響,以充分考慮相

6、似性變形只會影響細節(jié)信息,不會改變序列基本形狀的特性。SIMshape的實現(xiàn)是在序列的多尺度形狀信息上進行,同時設(shè)計了尺度權(quán)值函數(shù)賦予較粗尺度大權(quán)值,較細尺度上小權(quán)值來進一步減弱相似性變形對相似性判斷的干擾。實驗結(jié)果表明SIMshape可以容忍更多的相似性變形。
  第三,針對現(xiàn)有的時間序列聚類過程中缺乏自發(fā)性、聚類質(zhì)量較差的問題,本文提出了一種基于全局結(jié)構(gòu)特征和核力場的時間序列聚類。針對現(xiàn)有的聚類方法需要人為指定閾值完成對聚類對

7、象,缺乏自發(fā)性的問題,新的聚類方法選取了核力為聚類的一種新標準,利用物理粒子相互作用的核力,來產(chǎn)生自發(fā)的相向運動反映數(shù)據(jù)對象之間的天然聚散關(guān)系,從而可以依據(jù)數(shù)據(jù)對象間的自組織聚集特性找出類結(jié)構(gòu),減少了聚類過程中的人為因素。針對現(xiàn)有的時間序列聚類質(zhì)量較差的問題,新的聚類方法利用信息熵的方法找出有助于呈現(xiàn)聚類結(jié)構(gòu)的全局特征,從而使得后續(xù)的算法更容易發(fā)現(xiàn)真實的類簇。相關(guān)實驗結(jié)果表明提出的時間聚類方法可以自發(fā)的找出數(shù)據(jù)的真實聚類,并且可以容忍一

8、定程度的時間序列不等長,不易受到噪聲和缺失點的影響。
  本文從三個方面進行研究來提高時間序列數(shù)據(jù)挖掘的性能,即:通過建立非參數(shù)符號化近似表示模型NSAR來減少基本信息丟失和實現(xiàn)無參化設(shè)計;通過建立形狀相似性度量SIMshape來提高相似性度量方法對相似性變形的容忍力;根據(jù)全局特征和基于核力場的動態(tài)聚類來實現(xiàn)時間序列自發(fā)的聚類。實驗結(jié)果表明,本文提出的方法在時間序列數(shù)據(jù)挖掘上具有更好的相似性檢索性能,可有效降低時間序列最近鄰分類誤

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論