面向多維數據流的典型相關分析若干問題研究.pdf_第1頁
已閱讀1頁,還剩119頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、作為一種特殊的數據形態(tài),數據流產生于廣泛的應用領域,如傳感器監(jiān)測、移動對象跟蹤、網絡日志以及股票交易等。在數據流環(huán)境中,數據持續(xù)不斷地快速到達,對這類數據無法存儲全部歷史記錄,對其挖掘分析常需要設計單遍掃描的快速算法,這給數據流挖掘帶來極大挑戰(zhàn)。數據流應用的廣泛性和研究的挑戰(zhàn)性共同吸引了大量學者的關注,使其成為近年來一個研究熱點。以往研究表明,數據流在演化過程中常常呈現出顯著的相關性,且存在固有的低維結構。作為一種功能強大的多元統(tǒng)計方法

2、,典型相關分析(canonical correlation analysis,CCA)既能檢測兩組數據間的相關性,又能提取其低維特征。因此多維數據流CCA作為數據流領域的新興之秀,正成為一個前沿熱點課題。
  學者們在前期研究中產出了一些有意義的探索結果,如基于低階近似理論、不等概抽樣、奇異值分解以及基于 GPU的并行處理架構等技術或方法所提出的各種多維數據流CCA算法等。這些成果促進了多維數據流CCA的發(fā)展和應用,然而它們卻無法

3、滿足一些新興領域的需求,如實時應用環(huán)境下數據流相關性的快速跟蹤、動態(tài)數據場環(huán)境下數據流低維特征的提取、面向大數據流的CCA快速求解、CCA在多維數據流隱私保護領域的應用等。因此,對CCA進行面向多維數據流的模型擴展和應用推廣具有極高的理論研究價值和現實應用意義。本文就此展開如下幾個方面的研究工作:
  (1)傳統(tǒng)CCA方法不具有狀態(tài)維持能力,本質上不是持續(xù)更新的快速算法,這影響了CCA在實時應用環(huán)境中快速跟蹤多維數據流之間的相關性

4、及其低維結構的效率。針對此問題,提出一種基于秩2更新理論的多維數據流典型相關快速跟蹤算法。該算法基于秩2更新的持續(xù)更新和并行求解能力,通過并行方式持續(xù)更新樣本協(xié)方差矩陣的特征子空間,進而實現多維數據流典型相關的快速跟蹤。該算法能維持前一步的狀態(tài),具有與容量無關的低復雜度。實驗結果表明,所提算法具有較好的穩(wěn)定性、較高的計算效率和精度,能有效實現典型相關系數和典型相關變量的持續(xù)快速更新。
  (2)傳統(tǒng)CCA方法在提取數據的低維特征時

5、未考慮數據間的相互作用,這致使數據場環(huán)境下數據的低維特征由于數據的相互作用而呈現出的某些獨特性質未能得以揭示。針對此問題,提出一種基于酶數值P系統(tǒng)的動態(tài)數據場CCA方法。該方法將數據之間的相互作用納入其相關性求解中。本研究形式化描述了數據場 CCA的表達式,并給出解的推導,開拓了一種嶄新的CCA模型。這種新的CCA擴展模型提取的特征具有良好的分布特性,此特性使其具有較好的類邊界辨識能力。為滿足數據流快速處理的要求,本研究還基于自然計算領

6、域最新的研究成果,即酶數值P系統(tǒng),引入轉移P系統(tǒng)的字符變量和進化規(guī)則對酶數值P系統(tǒng)加以改進,以提高后者的流程可控性,進而設計一個用于數據場勢值快速求解的酶數值P系統(tǒng),該P系統(tǒng)的極大并行求解能力大幅提高了數據場CCA的計算效率。
 ?。?)數據流是最典型的一類大數據。傳統(tǒng)CCA方法在面臨大數據PB級規(guī)模以及稀疏價值等特性時已不再適應。針對此問題,基于云理論提出一種面向大數據流的CCA方法。該方法首先設計一種面向大數據挖掘的分布式云架

7、構,作為大數據存儲和計算的基礎;其次根據多維逆向正態(tài)云發(fā)生器在各云端產生端點云,并據此由多維云合并運算產生中心云滴作為原大數據的不確定性復原小樣本;最后在容量較小的中心云滴群上進行CCA操作,大幅提高了CCA的執(zhí)行效率。為提高云的產生效率,提出啟發(fā)式的端點云生成策略,進而對多維逆向正態(tài)云發(fā)生器進行改進。作為端點云啟發(fā)式生成策略的關鍵,提出云的部分增量更新式,以加速不重復隨機采樣時迭代終止條件的求解速度;為度量不同云之間的差異,提出云差異

8、的弦度量以及基于子空間的云差異度量方法。此外,為克服經典云合并運算每次僅能完成一對云加法運算的不足,還提出一種一次性快速合并多個多維云的云合并方法。實驗結果表明,該方法以增加系統(tǒng)資源為代價,可獲得一定的計算精度和較快的處理速度,且從相關性這一側面揭示了大數據的稀疏價值特性。
 ?。?)憑借其強大功能,CCA在悠久的歷史長河中被持續(xù)應用到各種嶄新領域。然而,CCA在數據流隱私保護領域的應用鮮有研究者涉足?,F存的、為數不多的個性化軌跡

9、隱私保護方法未考慮不同隱私需求的軌跡之間的隱含關系,這可能導致軌跡數據質量的降低。針對位置流隱私保護的個性化需求問題,基于 CCA提出一種個性化軌跡隱私保護算法。該算法對數據產生者認為不敏感的軌跡直接發(fā)布,而僅對數據產生者認為敏感的軌跡施以隱私保護操作,較好地尊重了數據產生者的隱私保護意愿;此外,該方法通過引入 CCA隱變量模型,充分利用不敏感軌跡和敏感軌跡間的隱含關系,這有效提高了隱私保護后軌跡的質量。實驗結果表明,該算法在軌跡數目為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論