版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、高維數(shù)據(jù)通常含有噪音以及冗余。特別是,數(shù)據(jù)的高屬性維度不僅會增加儲存空間,而且屬性維數(shù)在達(dá)到某一臨界值后,特定數(shù)據(jù)挖掘算法的性能反而下降,即所謂的“維度災(zāi)難”。另一方面,由于資源所限等原因數(shù)據(jù)的類標(biāo)簽在實際應(yīng)用中很難獲取,因此,無監(jiān)督的屬性約簡通過降低無標(biāo)簽數(shù)據(jù)的維度以解決上述問題,在數(shù)據(jù)挖掘領(lǐng)域具有重要意義。
現(xiàn)有的屬性約簡方法可分為子空間學(xué)習(xí)和屬性選擇。子空間學(xué)習(xí)比屬性選擇更高效,但屬性選擇方法得到的結(jié)果更具有可解釋性。本
2、文結(jié)合子空間學(xué)習(xí)和屬性選擇思想提出兩種無監(jiān)督屬性選擇方法,即從輸入的高維數(shù)據(jù)中選取有意義的屬性(也就是說去除屬性的冗余和噪音),使得輸出的低維數(shù)據(jù)既能提升數(shù)據(jù)的學(xué)習(xí)效果,又具有可解釋性。本文具體的內(nèi)容和創(chuàng)新點為:
(1)基于樣本自表達(dá)方法的成功運用,本文利用屬性自表達(dá)能力,提出了一種簡單而且有效的無監(jiān)督屬性選擇框架—基于稀疏學(xué)習(xí)的魯棒自表達(dá)屬性選擇算法(SRFS算法)。具體來說,SRFS算法首先采用包含屬性自表達(dá)的損失函數(shù),將
3、數(shù)據(jù)每個屬性用其他屬性線性表示來取得自表達(dá)系數(shù)矩陣;然后結(jié)合稀疏學(xué)習(xí)的理論(即用系數(shù)矩陣的l2,1-范數(shù)作為稀疏正則化項)取得稀疏的系數(shù)矩陣。在優(yōu)化所得的目標(biāo)函數(shù)時,稀疏正則化因子導(dǎo)致重要的屬性對應(yīng)的自表達(dá)系數(shù)值,相對于冗余屬性或者不相關(guān)屬性的值要大,以此區(qū)別屬性的重要性從而達(dá)到屬性選擇的目的。SRFS算法利用屬性自表達(dá)的方法,使得每個屬性都能被全體屬性很好的表現(xiàn)出來,不重要的屬性或噪音冗余屬性在自表達(dá)過程中被賦予很小的權(quán)重或零權(quán)重。在
4、真實數(shù)據(jù)的模擬實驗中,使用支持向量機(SVM)作為屬性選擇的評價方法進(jìn)行分類,分別作用于被SRFS方法和其他屬性約簡算法處理過的數(shù)據(jù),結(jié)果表明SRFS優(yōu)于其他對比算法。
(2)傳統(tǒng)的屬性選擇方法通常不考慮屬性間的關(guān)系,如:數(shù)據(jù)的局部結(jié)構(gòu)或整體結(jié)構(gòu)。而噪聲或離群點會增加數(shù)據(jù)矩陣秩,基于以上事實,本文結(jié)合低秩約束、流形學(xué)習(xí)、超圖理論和屬性自表達(dá)在同一個框架下進(jìn)行無監(jiān)督屬性選擇,即提出了“基于超圖的屬性自表達(dá)無監(jiān)督低秩屬性選擇算法”
5、(SHLFS算法)。具體來說,SHLFS算法首先擴展上述屬性自表達(dá)理論,即將各個屬性用其他屬性來表示,然后嵌入一個低秩約束項來去除噪音和離群點的影響。此外,鑒于超圖(Hypergraph)能比一般圖捕獲更復(fù)雜的關(guān)系,SHLFS算法使用一個超圖正則化因子來考慮數(shù)據(jù)的高階關(guān)系和局部結(jié)構(gòu),且使用l2,1-范數(shù)正則化實現(xiàn)系數(shù)矩陣的稀疏性。本文進(jìn)一步證明了所用的低秩約束導(dǎo)致SHLFS算法具有子空間學(xué)習(xí)的效果。最終,SHLFS算法既考慮了全局的數(shù)據(jù)
6、結(jié)構(gòu)(通過低秩約束)又考慮了局部數(shù)據(jù)結(jié)構(gòu)(通過超圖正則化),而且在進(jìn)行屬性選擇的同時進(jìn)行了子空間學(xué)習(xí),使得得到的屬性選擇模型既具有可解釋性且性能優(yōu)異。由于比上一方法使用了更強的約束,且考慮了數(shù)據(jù)間的關(guān)系,SHLFS算法比之前的模型更健壯。在實驗部分,使用SVM分類和k-means聚類兩種評價方法,在多類和二類數(shù)據(jù)集上進(jìn)行實驗,經(jīng)多個評價指標(biāo)驗證,SHLFS方法比對比屬性約簡方法具有更好的效果。
本論文主要針對高維數(shù)據(jù)的特點,設(shè)
7、計新的屬性選擇方法。具體地說,本文創(chuàng)新的使用屬性自表達(dá)來實現(xiàn)無監(jiān)督屬性選擇,另一方面使用超圖模型和低秩約束表示數(shù)據(jù)之間的高階關(guān)系,并結(jié)合稀疏學(xué)習(xí)理論給每個屬性賦予不同的權(quán)重以判別屬性的重要性。為保證設(shè)計方法的有效性,模擬實驗部分在多個公開數(shù)據(jù)集上進(jìn)行,對比算法包括近幾年流行的算法和領(lǐng)域經(jīng)典算法,使用分類和聚類作為評價方法,分類準(zhǔn)確率(ACC)和標(biāo)準(zhǔn)化互信息(NMI)等多個評價指標(biāo)。實驗結(jié)果顯示,本文提出的方法均獲得最優(yōu)的效果。后續(xù)的工作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權(quán)的自物權(quán)屬性研究.pdf
- 基于屬性間相關(guān)性分析的屬性選擇方法研究.pdf
- 會計計量屬性的應(yīng)用選擇研究
- 基于Ⅳ屬性選擇的隨機森林模型研究.pdf
- 基于屬性相關(guān)性分類理論的屬性選擇方法研究.pdf
- 生物資產(chǎn)計量屬性的選擇研究.pdf
- 基于自表達(dá)的無監(jiān)督特征選擇模型和算法.pdf
- 基于粗糙集合的屬性選擇方法研究.pdf
- 屬性子集選擇算法及其推薦方法研究.pdf
- 基于BP神經(jīng)網(wǎng)絡(luò)的屬性選擇研究.pdf
- 商業(yè)銀行貸款計量屬性選擇研究.pdf
- 基于互信息的屬性選擇算法研究.pdf
- 符號屬性數(shù)據(jù)的半監(jiān)督聚類與屬性選擇.pdf
- 基于MRMR和FCBF屬性選擇方法的比較研究.pdf
- 幾類復(fù)雜體系的分類及屬性選擇問題研究.pdf
- 代價約束下的屬性選擇問題.pdf
- 面向軟件度量的復(fù)合式屬性選擇算法研究.pdf
- 數(shù)據(jù)挖掘中屬性選擇算法的分析與研究.pdf
- 會計計量屬性的選擇及應(yīng)用
- 作業(yè)車間調(diào)度屬性選擇及調(diào)度規(guī)則挖掘方法研究.pdf
評論
0/150
提交評論