基于低秩稀疏子空間的數(shù)據挖掘算法研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、高維數(shù)據不僅具有高維的屬性特征,通常還含有大量的冗余和噪聲以及離群點,這使得高維數(shù)據的空間結構變得復雜,不利于數(shù)據挖掘算法使用數(shù)據中的真實關聯(lián)結構來構建效果更好的模型。其中,構造系數(shù)矩陣是尋找數(shù)據中關聯(lián)結構的重要步驟,即通過學習系數(shù)矩陣來捕捉樣本之間或屬性之間的關聯(lián)大小,然而其學習過程對噪音和離群點等干擾較敏感。稀疏學習可以使系數(shù)矩陣變得稀疏,即相關的樣本或屬性之間具有大系數(shù)值,不相關的樣本或屬性之間的系數(shù)值很小甚至為零,因而所獲得的稀

2、疏系數(shù)矩陣能非常有效地反映數(shù)據之間的關聯(lián)關系,從而使數(shù)據挖掘算法能有效的去除冗余和噪聲以及離群點的干擾,從而獲得非常好的魯棒性。此外,高維數(shù)據可通過多個低維子空間組成的集合來表示,因此,使用子空間學習將復雜的高維數(shù)據空間轉為結構較簡單的低維子空間,更有利于數(shù)據挖掘算法找到數(shù)據中隱藏的全局結構和局部結構,從而得到更有效的數(shù)據挖掘結果。另外,數(shù)據中含有的噪聲和離群點會使學習獲得的系數(shù)矩陣的秩變大,使得數(shù)據挖掘算法無法捕捉到高維數(shù)據中真實的低

3、秩結構,所以,通過在系數(shù)矩陣的學習過程中使用低秩約束來明確地降低其秩的大小。然而,現(xiàn)有的數(shù)據挖掘算法仍然存在一些不足:第一,僅考慮到高維數(shù)據中的片面關聯(lián)結構,例如模型僅使用全局結構信息或局部結構信息,少部分算法能夠通過較全面的結構信息來構建模型,然而卻沒有同時把稀疏學習和低秩約束以及子空間學習相結合來獲取數(shù)據中的互補結構信息,以便得到更有效的數(shù)據挖掘模型;第二,將數(shù)據挖掘任務分成多個獨立進行的步驟來完成,即使這些獨立的步驟可以在各自優(yōu)化

4、過程中得到每個步驟的最優(yōu)解,但是卻不能確保最終獲得的解是全局最優(yōu)解。
  為此,本文主要研究稀疏學習和低秩約束以及子空間學習等技術,針對現(xiàn)有數(shù)據挖掘算法存在的一些不足,分別提出創(chuàng)新的多輸出回歸算法和子空間聚類算法來更有效的對高維數(shù)據進行挖掘。本文的主要研究成果可以歸納如下:
  1)提出了一種基于低秩約束和特征選擇的多輸出回歸算法(Low-rank FeatureReduction for multi-output regr

5、ession,簡稱為LFR),來解決現(xiàn)有多輸出回歸分析算法沒有充分使用高維數(shù)據中固有的多種關聯(lián)關系的問題。LFR算法結合使用稀疏學習和低秩約束以及子空間學習等技術來考慮多輸出回歸高維數(shù)據集里的屬性特征與屬性特征之間的關聯(lián)關系、輸出變量與輸出變量之間的關聯(lián)關系以及訓練樣本與訓練樣本之間的關聯(lián)關系,提高多輸出回歸模型對多輸出變量實值預測的能力。具體而言,LFR算法創(chuàng)新的使用稀疏學習理論中的l2,1-范數(shù)正則化項來尋找高維數(shù)據中特征與特征之間

6、的關聯(lián)關系,并通過特征選擇來選出具有重要信息的特征與去除噪聲的干擾;此外,通過兩個帶有低秩約束的新矩陣的乘積來表示回歸系數(shù)矩陣,從而間接地對回歸系數(shù)矩陣進行低秩約束來探尋輸出變量與輸出變量之間的關聯(lián)關系;另外,通過將l2,1-范數(shù)與損失函數(shù)項相結合來進行樣本選擇,從樣本與樣本之間的關聯(lián)關系來去除離群點對回歸模型學習的影響。通過在大量多輸出回歸數(shù)據集上進行的實驗,結果表明本文第三章中所提出的LFR算法具有非常好的多輸出回歸預測能力。

7、>  2)提出了一種基于低秩約束和稀疏學習的子空間聚類算法(Low-rank Sparse Subspaceclustering,簡稱為LSS)?,F(xiàn)有子空間聚類算法通過兩個分開獨立的步驟實現(xiàn)聚類,即首先構造相似度矩陣和然后進行譜聚類,不能確保最終獲得的解是最優(yōu)解,并且沒有考慮從原始數(shù)據的低維結構中學習相似度矩陣。本文在第四章中提出LSS算法,創(chuàng)新地結合稀疏學習、低秩約束、樣本自表達和子空間學習等技術來獲得更好的高維數(shù)據聚類效果。具體而言

8、,LSS算法通過稀疏學習對系數(shù)矩陣進行特征選擇來去除冗余特征和噪聲;并且從原始數(shù)據空間中及其低維空間中分別學習相似度矩陣,然后讓這兩個矩陣在迭代優(yōu)化過程中相互得到優(yōu)化,使相似度矩陣能更好地反映數(shù)據真實的相似度;此外,通過低秩約束來約束相似度矩陣的拉普拉斯矩陣,從而能在迭代優(yōu)化的過程中同時獲得最好的相似度矩陣和最優(yōu)的聚類結果。通過大量聚類實驗的結果,驗證了本文第四章中所提出的LSS算法能夠非常有效地對高維數(shù)據進行聚類。
  本文主要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論