版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)的普及,過(guò)去的幾年里,網(wǎng)絡(luò)上的數(shù)據(jù)快速增長(zhǎng)。對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō),大量的數(shù)據(jù)意味著可以訓(xùn)練更加復(fù)雜的模型,模型的泛化能力也得到提高,但同時(shí),模型在訓(xùn)練和使用階段的計(jì)算和時(shí)間代價(jià)使某些機(jī)器學(xué)習(xí)算法面臨較大的可用性問(wèn)題。特別的,KNN檢索作為機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)常用到的一種基本算法,大規(guī)模數(shù)據(jù)集上簡(jiǎn)單的線性搜索會(huì)消耗大量時(shí)間。哈希算法作為最有效的近似近鄰檢索方法之一,能有效權(quán)衡檢索速度和檢索準(zhǔn)確度,在過(guò)去幾年時(shí)間里得到了國(guó)內(nèi)外學(xué)者越來(lái)越多的關(guān)
2、注。
另一方面,網(wǎng)絡(luò)上的很多對(duì)象同時(shí)包含多個(gè)模態(tài)進(jìn)行展示,例如微博通常同時(shí)包括文本和圖片,或者文本和視頻。隨著多模態(tài)數(shù)據(jù)的增多,在學(xué)術(shù)和工業(yè)上,跨模態(tài)檢索逐漸成為一個(gè)新的需求。由于不同模態(tài)的數(shù)據(jù)往往有不同維度的特征,目前常用的方法是把不同模態(tài)的數(shù)據(jù)投影到同一個(gè)隱空間以消除不同模態(tài)之間的異構(gòu)性,從而數(shù)據(jù)可以直接在隱空間中尋找近鄰。在此基礎(chǔ)上,跨模態(tài)哈??梢约涌鞕z索速度。
本文的主要工作是無(wú)監(jiān)督哈希算法和跨模態(tài)哈希算法的
3、研究。由于二進(jìn)制編碼計(jì)算的高效性,使用哈希算法進(jìn)行檢索往往比線性搜索K近鄰快數(shù)十甚至上百倍。本文主要進(jìn)行了兩方面的研究:1)一種歐幾里得空間線性無(wú)監(jiān)督哈希(USEH算法)。部分無(wú)監(jiān)督哈希算法使用徑向基核函數(shù)來(lái)度量歐幾里得空間中數(shù)據(jù)樣本之間的相似度,構(gòu)造相似度矩陣。USEH算法也采用了相似的思路,以確保投影到海明空間后樣本間的相似度保一致。但由于構(gòu)造這樣一個(gè)相似度矩陣占用的空間過(guò)大,USEH利用LSH向量來(lái)近似徑向基函數(shù)的。具體的,USE
4、H算法利用LSH從無(wú)監(jiān)督數(shù)據(jù)集中生成偽標(biāo)簽信息,用標(biāo)簽矩陣和它轉(zhuǎn)置的乘積來(lái)近似相似度矩陣,從而減少訓(xùn)練過(guò)程中占用的內(nèi)存空間和訓(xùn)練時(shí)間。另外,由于哈希編碼正交約束會(huì)導(dǎo)致較多的信息丟失,USEH算法使用順序?qū)W習(xí)的策略逐個(gè)學(xué)習(xí)哈希函數(shù),忽略正交約束以獲取訓(xùn)練集數(shù)據(jù)更多的方差信息。隨著哈希編碼長(zhǎng)度增加,相比于正交約束算法,USEH順序?qū)W習(xí)方法的優(yōu)勢(shì)越來(lái)越明顯。2)一種基于字典學(xué)習(xí)的跨模態(tài)檢索哈希(DLCMH算法)。DLCMH算法把不同模態(tài)的數(shù)據(jù)
5、投影到同一個(gè)海明空間,并假設(shè)同一個(gè)對(duì)象的不同模態(tài)數(shù)據(jù)有相同的哈希編碼。通常情況下,同一個(gè)模態(tài)內(nèi)樣本特征之間的歐氏距離和語(yǔ)義相似度之間存在不一致的情況,而線性哈希投影矩陣很難糾正兩者之間的偏差。為了使投影后數(shù)據(jù)間的距離和語(yǔ)義相似度更好的匹配,DLCMH算法引入了字典學(xué)習(xí),通過(guò)字典表示來(lái)自動(dòng)學(xué)習(xí)語(yǔ)義信息,然后用線性投影矩陣把數(shù)據(jù)的字典表示投影到海明空間。在目標(biāo)函數(shù)優(yōu)化階段,DLCMH對(duì)哈希編碼矩陣進(jìn)行松弛使目標(biāo)函數(shù)容易求導(dǎo),并把較難求解的優(yōu)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于哈希加速的近似最近鄰檢索算法研究.pdf
- 基于局部敏感哈希的近似最近鄰查詢研究.pdf
- 基于局部敏感哈希的近似近鄰查詢算法研究.pdf
- 適用于最近鄰檢索的堆疊哈希量化算法.pdf
- 存儲(chǔ)系統(tǒng)中近似視頻快速檢索方法.pdf
- 基于哈希算法的高維數(shù)據(jù)的最近鄰檢索.pdf
- Hamming空間中的快速近鄰檢索算法.pdf
- 基于哈希方法的移動(dòng)圖像檢索.pdf
- 基于哈希的最近鄰查找.pdf
- 基于哈希方法的跨媒體檢索研究.pdf
- 云環(huán)境下密文數(shù)據(jù)的近似最近鄰檢索技術(shù)研究.pdf
- 基于圖像哈希檢索的圖像重排方法研究.pdf
- 面向圖像檢索和分類(lèi)的監(jiān)督哈希方法研究.pdf
- 基于圖像哈希的大規(guī)模圖像檢索方法研究.pdf
- 基于感知哈希的遙感圖像檢索方法研究.pdf
- 面向多示例數(shù)據(jù)檢索的哈希方法研究.pdf
- 音樂(lè)情感檢索下音頻感知哈希方法的研究.pdf
- 海量數(shù)據(jù)的高效近似近鄰查詢研究.pdf
- 基于哈希的圖像檢索研究.pdf
- 基于哈希技術(shù)的時(shí)間序列近似查詢研究.pdf
評(píng)論
0/150
提交評(píng)論