版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)的普及和互聯(lián)網(wǎng)內(nèi)容的不斷豐富,如何通過有效的方式獲取需要的信息顯得尤為重要。搜索引擎很好地解決了這個(gè)問題,成為了人們?cè)L問互聯(lián)網(wǎng)的入口。如何對(duì)搜索引擎返回的結(jié)果進(jìn)行排序成為近年來研究的熱點(diǎn),另一方面,搜索引擎結(jié)果排序的質(zhì)量也直接決定了用戶的使用體驗(yàn),進(jìn)而影響搜索引擎的市場(chǎng)份額。本文的研究工作正是以搜索引擎為大背景進(jìn)行的。
縱觀各大主流搜索引擎,查詢的結(jié)果網(wǎng)頁通常在經(jīng)過排序后,以列表的形式返回給用戶,排在最靠前的是系
2、統(tǒng)認(rèn)為最相關(guān),最能滿足用戶信息需求的網(wǎng)頁。近年來,運(yùn)用大規(guī)模數(shù)據(jù)處理和機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練最優(yōu)排序模型成為學(xué)術(shù)界的研究熱點(diǎn),國內(nèi)外研究者先后提出了一系列經(jīng)典的方法,有些在工業(yè)界已經(jīng)獲得了良好的應(yīng)用,比如排序支持向量機(jī)(Ranking SVM)。絕大多數(shù)這類方法都屬于監(jiān)督學(xué)習(xí)的范疇,為了獲得一個(gè)可靠的排序模型,我們需要標(biāo)注大量的訓(xùn)練數(shù)據(jù),將這些數(shù)據(jù)輸入到特定的學(xué)習(xí)機(jī),經(jīng)過一定時(shí)間的自動(dòng)訓(xùn)練,學(xué)習(xí)機(jī)輸出得到的排序模型。
在排序?qū)W習(xí)
3、算法的實(shí)際應(yīng)用中,標(biāo)注數(shù)據(jù)數(shù)量不足,甚至根本沒有標(biāo)注數(shù)據(jù)的情況經(jīng)常出現(xiàn)。現(xiàn)有的監(jiān)督排序?qū)W習(xí)方法總是需要一定數(shù)量規(guī)模的標(biāo)注數(shù)據(jù),以保證最終獲得的排序模型的可靠性,當(dāng)標(biāo)注數(shù)據(jù)不足時(shí)這些方法就無法得到應(yīng)用。所幸的是,在排序?qū)W習(xí)算法的實(shí)際應(yīng)用中,我們也發(fā)現(xiàn),雖然目標(biāo)領(lǐng)域的標(biāo)注數(shù)據(jù)不足,但可能還存在另一部分?jǐn)?shù)量較多的標(biāo)注數(shù)據(jù),這些數(shù)據(jù)來自一個(gè)與目標(biāo)領(lǐng)域不同但相關(guān)的領(lǐng)域(我們稱之為“源領(lǐng)域”)。如何利用這部分?jǐn)?shù)據(jù)來幫助目標(biāo)領(lǐng)域中的排序?qū)W習(xí),以獲得改
4、進(jìn)的排序模型是本文關(guān)注的重點(diǎn)。
本文針對(duì)排序?qū)W習(xí)實(shí)際應(yīng)用中面臨的標(biāo)注數(shù)據(jù)不足的問題,充分利用來自源領(lǐng)域的標(biāo)注數(shù)據(jù),引入遷移學(xué)習(xí)的概念,創(chuàng)新性地提出了基于遷移學(xué)習(xí)的跨領(lǐng)域排序?qū)W習(xí)算法,并進(jìn)行了應(yīng)用研究。在系統(tǒng)分析排序?qū)W習(xí)算法的基本假設(shè)、損失函數(shù)、優(yōu)化公式和學(xué)習(xí)算法之后,本文分別在實(shí)例和特征兩個(gè)方面進(jìn)行遷移學(xué)習(xí),給出各自的基本假設(shè)、優(yōu)化公式以及學(xué)習(xí)算法。最后,本文還研究了我們的方法在文檔檢索、垂直搜索中的應(yīng)用。
5、對(duì)于基于實(shí)例的遷移排序?qū)W習(xí),我們首先提出了一個(gè)啟發(fā)式的方法TransRank,該方法首先對(duì)源領(lǐng)域標(biāo)注數(shù)據(jù)進(jìn)行兩步預(yù)處理,然后將處理過的數(shù)據(jù)和目標(biāo)領(lǐng)域的少量訓(xùn)練數(shù)據(jù)一起輸入到Ranking SVM,經(jīng)過訓(xùn)練得到排序模型。隨后,我們又提出了一個(gè)改進(jìn)的概率分布算法CLRankins。對(duì)于基于特征的情況,根據(jù)假設(shè)我們提出了一個(gè)統(tǒng)一的優(yōu)化公式,并將其轉(zhuǎn)換成依次優(yōu)化兩個(gè)變量的迭代過程。我們還研究了該優(yōu)化問題和經(jīng)典的Ranking SVM之間的關(guān)系,
6、并通過證明得出,該優(yōu)化問題可以使用Ranking SVM作為基礎(chǔ)學(xué)習(xí)機(jī)。對(duì)該優(yōu)化問題的求解最終形成了基于特征的遷移排序?qū)W習(xí)算法CLRankfeat。
跨領(lǐng)域的遷移排序?qū)W習(xí)在文檔檢索中有著廣泛的應(yīng)用前景。本文使用文檔檢索的一些公共數(shù)據(jù)集,模擬標(biāo)注數(shù)據(jù)不足的情況,通過實(shí)驗(yàn)驗(yàn)證了遷移排序?qū)W習(xí)在文檔檢索中的應(yīng)用效果?;诖笠?guī)模公共數(shù)據(jù)集的實(shí)驗(yàn)表明,本文提出的三個(gè)遷移排序?qū)W習(xí)方法能不同程度地改進(jìn)目標(biāo)領(lǐng)域的排序模型。CLRankfea
7、t能在所有的實(shí)驗(yàn)數(shù)據(jù)集上獲得5-15%的性能提升;TransRank和CLRankins只能在部分?jǐn)?shù)據(jù)集上獲得較小的性能提升。同時(shí),我們還在算法敏感性和魯棒性上,對(duì)這些方法進(jìn)行比較分析。
垂直搜索引擎是遷移排序?qū)W習(xí)的另一個(gè)應(yīng)用場(chǎng)景。新開發(fā)的垂直搜索往往沒有足夠的時(shí)間去標(biāo)注數(shù)據(jù)以訓(xùn)練排序模型,但我們可以利用其它垂直搜索的標(biāo)注數(shù)據(jù),通過遷移排序?qū)W習(xí)來獲得排序模型,用于新開發(fā)的垂直搜索。在實(shí)驗(yàn)中,我們使用某商業(yè)搜索引擎的查詢點(diǎn)擊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于跨領(lǐng)域的遷移學(xué)習(xí)算法研究.pdf
- 基于遷移學(xué)習(xí)的跨領(lǐng)域推薦的方法研究.pdf
- 基于知識(shí)遷移的跨領(lǐng)域推薦算法研究.pdf
- 基于gpu的并行排序?qū)W習(xí)算法研究
- 基于實(shí)例的遷移學(xué)習(xí)算法研究.pdf
- 基于GPU的并行排序?qū)W習(xí)算法研究.pdf
- 基于稀疏表示的排序?qū)W習(xí)算法.pdf
- 排序?qū)W習(xí)中的領(lǐng)域自適應(yīng)研究.pdf
- LambdaXGB排序?qū)W習(xí)算法研究.pdf
- 網(wǎng)頁學(xué)習(xí)排序算法研究.pdf
- 基于RankBoost的排序函數(shù)學(xué)習(xí)算法研究.pdf
- 基于排序?qū)W習(xí)的商品搜索算法研究.pdf
- 基于樣本遷移的多核學(xué)習(xí)算法研究.pdf
- 半監(jiān)督排序?qū)W習(xí)算法研究.pdf
- 基于列表級(jí)的相關(guān)文本排序?qū)W習(xí)算法研究.pdf
- 基于實(shí)例和特征的遷移學(xué)習(xí)算法研究.pdf
- 基于B細(xì)胞算法的排序?qū)W習(xí)方法研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁排序?qū)W習(xí)算法研究.pdf
- 基于遷移學(xué)習(xí)的跨項(xiàng)目軟件缺陷預(yù)測(cè).pdf
- 基于多潛在空間的遷移學(xué)習(xí)算法研究.pdf
評(píng)論
0/150
提交評(píng)論