主動學(xué)習(xí)方法及其應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在一些機(jī)器學(xué)習(xí)任務(wù)中,收集訓(xùn)練樣本的代價很大而資源是有限的,因此以有限的資源收集高質(zhì)量的樣本是至關(guān)重要的。通常情況下,隨機(jī)抽取的樣本被假設(shè)服從獨(dú)立同分布。然而,主動學(xué)習(xí)是基于先前查詢樣本的答案選擇下一個樣本進(jìn)行查詢,考慮了樣本之間的相關(guān)性,因此主動學(xué)習(xí)收集的樣本質(zhì)量更高。主動學(xué)習(xí)在分類、回歸、優(yōu)化等許多任務(wù)之中都具有應(yīng)用。
  地標(biāo)點(diǎn)是數(shù)據(jù)中具有代表性的樣本點(diǎn),在流形學(xué)習(xí)、譜聚類等領(lǐng)域都具有重要的應(yīng)用。當(dāng)數(shù)據(jù)量較大時,當(dāng)前的流形上

2、地標(biāo)點(diǎn)選擇算法的時間代價較高。我們將主動學(xué)習(xí)應(yīng)用于流形上地標(biāo)點(diǎn)的選擇,提出了基于主動學(xué)習(xí)和高斯過程的地標(biāo)點(diǎn)選擇算法(Landmarks Selection based on Active Learning and Gaussian Processes,LS-ALGP)。LS-ALGP選擇的地標(biāo)點(diǎn)能夠刻畫流形的非線性結(jié)構(gòu)和保留數(shù)據(jù)集本身的特征。(1)我們提出了新的地標(biāo)點(diǎn)選擇目標(biāo):最大化高斯過程整體方差改變量。針對新的目標(biāo)在大型數(shù)據(jù)集上時間

3、復(fù)雜度過高的問題,LS-ALGP應(yīng)用了近似的目標(biāo):最大化高斯過程k-近鄰方差改變量。在高斯過程模型中,地標(biāo)點(diǎn)對近鄰數(shù)據(jù)點(diǎn)的方差有更大的影響,對距離較遠(yuǎn)的數(shù)據(jù)點(diǎn)有較小的影響。(2)我們提出了確定地標(biāo)點(diǎn)數(shù)量的策略。隨著地標(biāo)點(diǎn)數(shù)量的增多,如果目標(biāo)函數(shù)在一定步數(shù)之內(nèi)的變化量小于給定的閾值,那么算法可以停止。(3)我們?yōu)槊總€類別的數(shù)據(jù)分別選擇地標(biāo)點(diǎn)。為了有效地利用這些地標(biāo)點(diǎn),我們結(jié)合正交匹配追蹤(Orthogonal Matching Pursu

4、it,OMP)和神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)分類算法框架。給定某個類別的地標(biāo)點(diǎn),該框架利用OMP為每一個樣本計(jì)算相應(yīng)的稀疏系數(shù),然后把這些系數(shù)拼接起來作為新的樣本,最后用新的樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)。LS-ALGP和其他地標(biāo)點(diǎn)選擇算法在不同的分類器、不同的數(shù)據(jù)集上進(jìn)行效果的比較。具體方案是首先運(yùn)用地標(biāo)點(diǎn)對原始數(shù)據(jù)降維,然后在降維后的數(shù)據(jù)上訓(xùn)練分類器,最后根據(jù)分類器效果評價地標(biāo)點(diǎn)選擇的好壞。我們分別應(yīng)用邏輯回歸和支持向量機(jī)在MNIST和LetterRec數(shù)據(jù)集上

5、進(jìn)行實(shí)驗(yàn),結(jié)果證明LS-ALGP相比于地標(biāo)點(diǎn)選擇算法ML更具有競爭力。
  協(xié)方差矩陣自適應(yīng)進(jìn)化策略(Covariance Matrix Adaptation Evolution Strategy,CMA-ES)可以求解非線性、非凸的連續(xù)函數(shù)優(yōu)化問題,而且在病態(tài)、高維度和不可分離的問題上具有良好的表現(xiàn)。為了獲得較好的效果,CMA-ES的超參需要進(jìn)行合適的配置。超參配置是一個關(guān)于超參的黑盒優(yōu)化問題。在一些算法中評估超參的代價很高,因

6、此獲取高質(zhì)量的超參極為關(guān)鍵。我們利用主動學(xué)習(xí)尋找CMA-ES的最佳超參。(1)我們對CMA-ES的超參cc,cl和cμ做離線的配置研究,發(fā)現(xiàn)他們對CMA-ES的效果有著重要的影響。(2)為了描述超參與解質(zhì)量的關(guān)系,基于樹結(jié)構(gòu)Parzen窗估計(jì)器(Tree-structured Parzen Estimators,TPE),我們獲得解質(zhì)量分布以及給定解質(zhì)量情況下的超參條件分布?;谶@兩個分布,期望提升(Expected Improveme

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論