面向多維數(shù)據(jù)流的典型相關(guān)分析若干問題研究.pdf_第1頁
已閱讀1頁,還剩119頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、作為一種特殊的數(shù)據(jù)形態(tài),數(shù)據(jù)流產(chǎn)生于廣泛的應(yīng)用領(lǐng)域,如傳感器監(jiān)測、移動對象跟蹤、網(wǎng)絡(luò)日志以及股票交易等。在數(shù)據(jù)流環(huán)境中,數(shù)據(jù)持續(xù)不斷地快速到達(dá),對這類數(shù)據(jù)無法存儲全部歷史記錄,對其挖掘分析常需要設(shè)計單遍掃描的快速算法,這給數(shù)據(jù)流挖掘帶來極大挑戰(zhàn)。數(shù)據(jù)流應(yīng)用的廣泛性和研究的挑戰(zhàn)性共同吸引了大量學(xué)者的關(guān)注,使其成為近年來一個研究熱點。以往研究表明,數(shù)據(jù)流在演化過程中常常呈現(xiàn)出顯著的相關(guān)性,且存在固有的低維結(jié)構(gòu)。作為一種功能強(qiáng)大的多元統(tǒng)計方法

2、,典型相關(guān)分析(canonical correlation analysis,CCA)既能檢測兩組數(shù)據(jù)間的相關(guān)性,又能提取其低維特征。因此多維數(shù)據(jù)流CCA作為數(shù)據(jù)流領(lǐng)域的新興之秀,正成為一個前沿?zé)狳c課題。
  學(xué)者們在前期研究中產(chǎn)出了一些有意義的探索結(jié)果,如基于低階近似理論、不等概抽樣、奇異值分解以及基于 GPU的并行處理架構(gòu)等技術(shù)或方法所提出的各種多維數(shù)據(jù)流CCA算法等。這些成果促進(jìn)了多維數(shù)據(jù)流CCA的發(fā)展和應(yīng)用,然而它們卻無法

3、滿足一些新興領(lǐng)域的需求,如實時應(yīng)用環(huán)境下數(shù)據(jù)流相關(guān)性的快速跟蹤、動態(tài)數(shù)據(jù)場環(huán)境下數(shù)據(jù)流低維特征的提取、面向大數(shù)據(jù)流的CCA快速求解、CCA在多維數(shù)據(jù)流隱私保護(hù)領(lǐng)域的應(yīng)用等。因此,對CCA進(jìn)行面向多維數(shù)據(jù)流的模型擴(kuò)展和應(yīng)用推廣具有極高的理論研究價值和現(xiàn)實應(yīng)用意義。本文就此展開如下幾個方面的研究工作:
 ?。?)傳統(tǒng)CCA方法不具有狀態(tài)維持能力,本質(zhì)上不是持續(xù)更新的快速算法,這影響了CCA在實時應(yīng)用環(huán)境中快速跟蹤多維數(shù)據(jù)流之間的相關(guān)性

4、及其低維結(jié)構(gòu)的效率。針對此問題,提出一種基于秩2更新理論的多維數(shù)據(jù)流典型相關(guān)快速跟蹤算法。該算法基于秩2更新的持續(xù)更新和并行求解能力,通過并行方式持續(xù)更新樣本協(xié)方差矩陣的特征子空間,進(jìn)而實現(xiàn)多維數(shù)據(jù)流典型相關(guān)的快速跟蹤。該算法能維持前一步的狀態(tài),具有與容量無關(guān)的低復(fù)雜度。實驗結(jié)果表明,所提算法具有較好的穩(wěn)定性、較高的計算效率和精度,能有效實現(xiàn)典型相關(guān)系數(shù)和典型相關(guān)變量的持續(xù)快速更新。
  (2)傳統(tǒng)CCA方法在提取數(shù)據(jù)的低維特征時

5、未考慮數(shù)據(jù)間的相互作用,這致使數(shù)據(jù)場環(huán)境下數(shù)據(jù)的低維特征由于數(shù)據(jù)的相互作用而呈現(xiàn)出的某些獨特性質(zhì)未能得以揭示。針對此問題,提出一種基于酶數(shù)值P系統(tǒng)的動態(tài)數(shù)據(jù)場CCA方法。該方法將數(shù)據(jù)之間的相互作用納入其相關(guān)性求解中。本研究形式化描述了數(shù)據(jù)場 CCA的表達(dá)式,并給出解的推導(dǎo),開拓了一種嶄新的CCA模型。這種新的CCA擴(kuò)展模型提取的特征具有良好的分布特性,此特性使其具有較好的類邊界辨識能力。為滿足數(shù)據(jù)流快速處理的要求,本研究還基于自然計算領(lǐng)

6、域最新的研究成果,即酶數(shù)值P系統(tǒng),引入轉(zhuǎn)移P系統(tǒng)的字符變量和進(jìn)化規(guī)則對酶數(shù)值P系統(tǒng)加以改進(jìn),以提高后者的流程可控性,進(jìn)而設(shè)計一個用于數(shù)據(jù)場勢值快速求解的酶數(shù)值P系統(tǒng),該P系統(tǒng)的極大并行求解能力大幅提高了數(shù)據(jù)場CCA的計算效率。
  (3)數(shù)據(jù)流是最典型的一類大數(shù)據(jù)。傳統(tǒng)CCA方法在面臨大數(shù)據(jù)PB級規(guī)模以及稀疏價值等特性時已不再適應(yīng)。針對此問題,基于云理論提出一種面向大數(shù)據(jù)流的CCA方法。該方法首先設(shè)計一種面向大數(shù)據(jù)挖掘的分布式云架

7、構(gòu),作為大數(shù)據(jù)存儲和計算的基礎(chǔ);其次根據(jù)多維逆向正態(tài)云發(fā)生器在各云端產(chǎn)生端點云,并據(jù)此由多維云合并運算產(chǎn)生中心云滴作為原大數(shù)據(jù)的不確定性復(fù)原小樣本;最后在容量較小的中心云滴群上進(jìn)行CCA操作,大幅提高了CCA的執(zhí)行效率。為提高云的產(chǎn)生效率,提出啟發(fā)式的端點云生成策略,進(jìn)而對多維逆向正態(tài)云發(fā)生器進(jìn)行改進(jìn)。作為端點云啟發(fā)式生成策略的關(guān)鍵,提出云的部分增量更新式,以加速不重復(fù)隨機(jī)采樣時迭代終止條件的求解速度;為度量不同云之間的差異,提出云差異

8、的弦度量以及基于子空間的云差異度量方法。此外,為克服經(jīng)典云合并運算每次僅能完成一對云加法運算的不足,還提出一種一次性快速合并多個多維云的云合并方法。實驗結(jié)果表明,該方法以增加系統(tǒng)資源為代價,可獲得一定的計算精度和較快的處理速度,且從相關(guān)性這一側(cè)面揭示了大數(shù)據(jù)的稀疏價值特性。
 ?。?)憑借其強(qiáng)大功能,CCA在悠久的歷史長河中被持續(xù)應(yīng)用到各種嶄新領(lǐng)域。然而,CCA在數(shù)據(jù)流隱私保護(hù)領(lǐng)域的應(yīng)用鮮有研究者涉足?,F(xiàn)存的、為數(shù)不多的個性化軌跡

9、隱私保護(hù)方法未考慮不同隱私需求的軌跡之間的隱含關(guān)系,這可能導(dǎo)致軌跡數(shù)據(jù)質(zhì)量的降低。針對位置流隱私保護(hù)的個性化需求問題,基于 CCA提出一種個性化軌跡隱私保護(hù)算法。該算法對數(shù)據(jù)產(chǎn)生者認(rèn)為不敏感的軌跡直接發(fā)布,而僅對數(shù)據(jù)產(chǎn)生者認(rèn)為敏感的軌跡施以隱私保護(hù)操作,較好地尊重了數(shù)據(jù)產(chǎn)生者的隱私保護(hù)意愿;此外,該方法通過引入 CCA隱變量模型,充分利用不敏感軌跡和敏感軌跡間的隱含關(guān)系,這有效提高了隱私保護(hù)后軌跡的質(zhì)量。實驗結(jié)果表明,該算法在軌跡數(shù)目為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論