特征提取與特征選擇技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩106頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域普遍存在數(shù)據(jù)維度很高但同時(shí)樣本數(shù)量偏少的情形,經(jīng)典的分類(lèi)、回歸算法在對(duì)這種數(shù)據(jù)進(jìn)行分析處理時(shí)往往計(jì)算代價(jià)過(guò)高甚至完全失效。一般的做法是在數(shù)據(jù)分析與處理之前對(duì)數(shù)據(jù)集進(jìn)行特征提取或特征選擇,抽取樣本最相關(guān)特征,消除不相關(guān)特征與噪聲特征,以利于后續(xù)工作。本文在深入分析與研究常用特征提取與特征選擇方法基礎(chǔ)上,提出了一些克服小樣本與高計(jì)算復(fù)雜度問(wèn)題的有效算法,主要內(nèi)容如下:
   1、提出了一種基于K-近鄰局部間隔的

2、判別映射方法。首先,將假設(shè)間隔概念應(yīng)用于樣本數(shù)據(jù)的局部分析并加以擴(kuò)展,在樣本分布空間要求局部鄰域內(nèi)同類(lèi)樣本與非同類(lèi)樣本能夠盡可能判別;其次,鑒于對(duì)未知樣本特征提取的需要,將局部鄰域結(jié)構(gòu)投影于一個(gè)較低維度的子空間內(nèi),要求在子空間內(nèi)局部鄰域仍然保持與同類(lèi)樣本距離和與非同類(lèi)樣本距離差異極大,即局部間隔極大化??紤]到求解局部最近鄰步驟包含了矩陣求逆運(yùn)算,基于投影定理使用Gram-Schmidt正交化降低時(shí)間復(fù)雜度。最后,探討了基于局部間隔的判別

3、映射方法與局部線性嵌入算法(Local Linear Embedding,LLE)之間的關(guān)系,發(fā)現(xiàn)基于局部間隔的判別映射方法可以視為L(zhǎng)LE算法在有指導(dǎo)學(xué)習(xí)情形下的線性擴(kuò)展。
   2、為進(jìn)一步提高基于局部間隔的特征提取能力,引入無(wú)標(biāo)記樣本,由非同類(lèi)樣本估計(jì)局部樣本的判別性質(zhì),由較多的未標(biāo)記近鄰樣本估計(jì)局部幾何結(jié)構(gòu)。將樣本局部分布投影于較低維度的子空間,則算法具有了判別不同子流形的能力。在可視化實(shí)驗(yàn)中發(fā)現(xiàn),這種基于局部間隔的半監(jiān)督

4、判別嵌入算法能夠發(fā)現(xiàn)不同子流形,同時(shí)能夠得到較高的分類(lèi)精度。
   3、譜聚類(lèi)是被證明效果較好的無(wú)指導(dǎo)學(xué)習(xí)方法。研究發(fā)現(xiàn),Laplacian矩陣的特征向量指示了樣本的類(lèi)別信息,本文證明了Laplacian矩陣的若干小特征值表現(xiàn)了簇結(jié)構(gòu)的顯著性,即特征值趨于零說(shuō)明聚類(lèi)效果會(huì)比較好。將這一定理作為衡量原始特征重要度的準(zhǔn)則,提出了基于無(wú)監(jiān)督技術(shù)的特征選擇算法,即重要特征能夠保證簇結(jié)構(gòu)的顯著性,而不相關(guān)特征不能保證簇結(jié)構(gòu)的顯著性甚至破壞

5、簇結(jié)構(gòu)。由于每選擇一個(gè)特征都需要對(duì)Laplacian矩陣的特征分解步驟,為此使用Nystrom方法逼近半正定矩陣特征值以降低計(jì)算復(fù)雜度。
   4、將流形學(xué)習(xí)的思想應(yīng)用到特征排序,通過(guò)對(duì)特征賦予權(quán)重的方法計(jì)算特征的相關(guān)度。主要思想是相關(guān)特征在加權(quán)特征空間鄰域保持同類(lèi)樣本仍然為近鄰,而對(duì)于非同類(lèi)近鄰則應(yīng)盡量遠(yuǎn)離。提出了兩種評(píng)價(jià)特征相關(guān)度的標(biāo)準(zhǔn):商準(zhǔn)則與差準(zhǔn)則,由于避免了特征分解步驟,計(jì)算表明兩種準(zhǔn)則下算法的時(shí)間復(fù)雜度為樣本維度的線

6、性函數(shù),或樣本數(shù)量的二次函數(shù),與RELIEF-F算法相當(dāng)。另外,通過(guò)對(duì)商準(zhǔn)則的進(jìn)一步研究,提出了基于局部學(xué)習(xí)的半監(jiān)督特征加權(quán)與排序框架,將無(wú)標(biāo)記樣本引入,要求在加權(quán)空間相關(guān)特征不僅能夠更好的判別樣本,還能夠保持樣本的局部光滑性質(zhì)。半監(jiān)督特征排序框架同樣不需要特征分解步驟,因此具有較低的計(jì)算復(fù)雜度。從此框架導(dǎo)出兩種半監(jiān)督特征排序算法:基于線性判別分析的特征排序與基于局部判別嵌入分析的特征排序,前者適于線性可分問(wèn)題的特征排序,后者適于非線性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論