融合全局和局部信息的度量學(xué)習(xí)方法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：pdf 頁(yè)數(shù)：106 大?。?.97MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩105頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、度量學(xué)習(xí)(Metric Learning)在機(jī)器學(xué)習(xí)中是一個(gè)非常重要的基礎(chǔ)性命題。距離函數(shù)度量了不同樣本點(diǎn)之間的相似性，因此，距離函數(shù)顯著地影響著大部分機(jī)器學(xué)習(xí)算法的性能，如k-近鄰分類、徑向基函數(shù)網(wǎng)絡(luò)分類、支持向量機(jī)分類以及k-means聚類等方法。由于線性度量學(xué)習(xí)的高效性和可擴(kuò)展性（通過(guò)核方法可擴(kuò)展為非線性度量方法），現(xiàn)今的研究重點(diǎn)放在了線性度量（馬氏距離）學(xué)習(xí)問(wèn)題上。為了提升分類性能并且適應(yīng)多峰分布的數(shù)據(jù)集，將全局信息和局部信息融

2、合在馬氏距離學(xué)習(xí)中是一個(gè)非常有價(jià)值而且具有挑戰(zhàn)性的課題。同時(shí)隨著互聯(lián)網(wǎng)和信息行業(yè)的快速發(fā)展，人們面臨對(duì)海量數(shù)據(jù)的挖掘和應(yīng)用，高效性也是度量學(xué)習(xí)亟待解決的問(wèn)題。本篇論文針對(duì)度量學(xué)習(xí)中的兩個(gè)問(wèn)題:1）通過(guò)不引入平衡權(quán)重的方式實(shí)現(xiàn)全局和局部信息融合;2）降低運(yùn)算復(fù)雜度，進(jìn)行了系統(tǒng)性的研究，取得了下面三個(gè)階段性研究成果。
　　第一階段:基于識(shí)別坍塌的全局和局部保持映射最大坍塌的度量學(xué)習(xí)(Maximally Collapsing Metri

3、c Learning，MCML)[5]是一種廣泛應(yīng)用的馬氏度量學(xué)習(xí)算法，旨在將所有相同標(biāo)簽的數(shù)據(jù)點(diǎn)通過(guò)學(xué)習(xí)到的度量矩陣坍塌在一起。針對(duì)MCML中數(shù)據(jù)局部信息的丟失，本部分提出一個(gè)度量學(xué)習(xí)算法將最大坍塌的思想、局部保持的思想和分類識(shí)別能力統(tǒng)一在一起，從而有效地將全局信息和局部信息融合在學(xué)習(xí)到的馬氏距離中而不需要引入平衡權(quán)重。更重要的是，該提出的度量學(xué)習(xí)算法是一個(gè)凸問(wèn)題，可以通過(guò)一個(gè)一階梯度下降法求解而避免陷入局部極值。為了進(jìn)一步的降低運(yùn)算

4、時(shí)間，本部分將算法中一些計(jì)算密集的步驟映射到了并行平臺(tái)圖像處理器（graphics processor units，GPUs）上。基準(zhǔn)數(shù)據(jù)集上的分類和可視化結(jié)果驗(yàn)證了提出算法的可靠性和有效性。
　　第二階段:基于相關(guān)性最大化的度量學(xué)習(xí)第一階段提出的度量學(xué)習(xí)算法雖然能夠有效地融合全局信息和局部信息，但是它的目標(biāo)函數(shù)比較復(fù)雜，求導(dǎo)的運(yùn)算復(fù)雜度比較高。因此，在第二個(gè)階段我們提出了一個(gè)基于統(tǒng)計(jì)的馬氏學(xué)習(xí)框架，稱為“基于相關(guān)性最大化的度量學(xué)

5、習(xí)”。本部分的貢獻(xiàn)包括:
　　有效地將全局信息和局部信息融合在馬氏距離中而不需要引入平衡權(quán)重。
　　區(qū)別于經(jīng)典的相關(guān)性衡量標(biāo)準(zhǔn)，例如互信息(Mutual Information)和皮爾森卡方檢定(Pearson's x2 test)，本部分采用了在再生核希爾伯特空間(reproducing kernel Hilbert spaces，RKHSs)計(jì)算的衡量標(biāo)準(zhǔn)，從而不需要對(duì)數(shù)據(jù)的分布進(jìn)行估計(jì)或者假設(shè)。
　　在這個(gè)度量學(xué)

6、習(xí)框架下，通過(guò)采用不同的基于核的準(zhǔn)則，提出了兩種具體的學(xué)習(xí)算法。這兩種算法都屬于凸優(yōu)化問(wèn)題，而且目標(biāo)函數(shù)的求導(dǎo)運(yùn)算復(fù)雜度很低，可以通過(guò)一個(gè)一階梯度下降法有效求解。在基準(zhǔn)數(shù)據(jù)集下的分類、可視化和檢索實(shí)驗(yàn)結(jié)果證明了兩種算法的有效性和不同的適用范圍。
　　第三階段:基于信息幾何的度量學(xué)習(xí)方法前兩個(gè)階段提出的度量學(xué)習(xí)算法雖然都是凸的優(yōu)化問(wèn)題，但是都需要通過(guò)一個(gè)梯度下降法迭代求解。不同于現(xiàn)今存在的大部分度量學(xué)習(xí)算法，信息幾何度量算法(Inf

7、ormation GeometryMetric Learning，IGML)[24]可以找到一個(gè)解析解而不需要求解一個(gè)半正定規(guī)劃問(wèn)題。在第三個(gè)階段，我們根據(jù)信息幾何理論，提出了兩種算法來(lái)分別解決IGML的局限性。(1) IGML的時(shí)間復(fù)雜度是O(d3+ nd2)，其中n是訓(xùn)練樣本個(gè)數(shù)，d是數(shù)據(jù)的維度?；诘椭鹊募僭O(shè)，本部分提出一個(gè)度量學(xué)習(xí)算法EIGML將IGML的運(yùn)算復(fù)雜度降到了O(nd)，極大地提升了算法在高維數(shù)據(jù)集上的性能。(2)

8、IGML不適用于奇異核矩陣，而且丟失了數(shù)據(jù)的局部信息。本部分提出一個(gè)度量學(xué)習(xí)算法SIGML將IGML擴(kuò)展到了非奇異核矩陣的情況而且同時(shí)融合了數(shù)據(jù)的局部和全局信息。我們強(qiáng)調(diào)提出的兩種算法都能找到解析解，可以被高效優(yōu)化。實(shí)驗(yàn)結(jié)果驗(yàn)證了這兩種算法的有效性。
　　小結(jié):通過(guò)以上三個(gè)階段的研究，論文最后提出的基于信息幾何的算法SIGML在全局信息和局部信息融合的思想上涵蓋了前兩個(gè)階段的研究，而且SIGML能夠找到解析解從而避免了迭代求解中參

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

融合全局和局部信息的度量學(xué)習(xí)方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

融合全局和局部信息的度量學(xué)習(xí)方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載