多模態(tài)圖像檢索技術(shù).pdf_第1頁(yè)
已閱讀1頁(yè),還剩104頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)和移動(dòng)網(wǎng)絡(luò)的發(fā)展,人們可以隨時(shí)隨地接入互聯(lián)網(wǎng)獲取信息。而搜索是人們通過互聯(lián)網(wǎng)獲取信息的主要途徑之一。傳統(tǒng)的搜索方法使用文本的方式進(jìn)行檢索,通常得到的也是文本信息。而互聯(lián)網(wǎng)上如圖片、視頻、聲音等多媒體信息爆炸式地增長(zhǎng),遠(yuǎn)遠(yuǎn)超過了文字信息。為了達(dá)到檢索多媒體內(nèi)容的目的,傳統(tǒng)的基于文字的信息檢索只能通過檢索多媒體內(nèi)相關(guān)文本的方式,把相關(guān)文本對(duì)應(yīng)的多媒體內(nèi)容返回給用戶,其并不能根據(jù)多媒體的內(nèi)容來進(jìn)行檢索。而最近在基于內(nèi)容檢索技術(shù)上的突

2、破打破了這一局面。針對(duì)互聯(lián)網(wǎng)上存在的大量重復(fù)的圖片,人們通過一些圖片特征進(jìn)行匹配或索引,實(shí)現(xiàn)了以圖搜圖的目的。然而,這種方式僅限于搜索與查詢圖片相似的圖片,而用戶的檢索意圖往往是復(fù)雜多樣的,單一的使用文本或圖片檢索無法滿足用戶復(fù)雜的檢索意圖。
   另一方面,手機(jī)、平板電腦等移動(dòng)終端漸漸成為了人們接入互聯(lián)網(wǎng)的主要途徑。而這些移動(dòng)設(shè)備本身提供了諸如語(yǔ)音、拍照、手勢(shì)等大量交互方式。這些交互方式為我們豐富用戶檢索意圖的表達(dá)提供了方便。

3、目前手機(jī)上的檢索仍然采用傳統(tǒng)臺(tái)式電腦的文本檢索和網(wǎng)頁(yè)方式,沒有充分利用移動(dòng)設(shè)備的優(yōu)勢(shì)。本文充分發(fā)掘移動(dòng)設(shè)備的交互優(yōu)勢(shì),結(jié)合文本與圖片,創(chuàng)造性地提出了一種利用語(yǔ)音/文字輸入,結(jié)合視覺信息篩選的圖像檢索方式。
   本論文的研究?jī)?nèi)容主要集中在基于內(nèi)容的圖像檢索方法,分別在檢索的查詢條件構(gòu)建,特征的構(gòu)建、組織,以及視頻序列的索引結(jié)構(gòu)上。本論文的主要工作和創(chuàng)新之處歸納為以下幾點(diǎn):
   (1)論文提出一種在移動(dòng)終端上利用多模態(tài)輸

4、入方便構(gòu)建查詢條件的方式以及整個(gè)系統(tǒng)的實(shí)現(xiàn)方法。首先用戶用語(yǔ)音輸入來描述想要搜索的目標(biāo),系統(tǒng)利用視覺和文本對(duì)應(yīng)關(guān)系,根據(jù)用戶描述中所包含的的關(guān)鍵詞,采用聚類算法為用戶推薦一些圖片素材,用戶選擇一系列符合用戶意圖的素材,并且通過調(diào)整素材的大小和位置構(gòu)造出一幅拼圖。系統(tǒng)根據(jù)用戶的文字輸入得到候選圖片,再根據(jù)拼圖的元素及元素間位置關(guān)系,對(duì)圖片進(jìn)行過濾,返回給用戶既滿足文本查詢條件,也滿足視覺查詢條件的圖片結(jié)果。論文提出了有效的算法,根據(jù)視覺特

5、征和位置關(guān)系對(duì)圖片進(jìn)行過濾。提出的算法最終使得整個(gè)系統(tǒng)成為可能。
   (2)論文提出了利用拼圖中的多樣例圖片以及相對(duì)位置關(guān)系對(duì)海量圖片進(jìn)行索引和檢索的算法。對(duì)于大規(guī)模海量圖片,構(gòu)造一個(gè)有空間位置關(guān)系的拼圖進(jìn)行檢索,需要考慮組成拼圖的各個(gè)視覺元素的存在性和相對(duì)位置關(guān)系。本文打破了以往只能根據(jù)絕對(duì)位置進(jìn)行匹配、校驗(yàn)的方式,采用自然分割獲取視覺單詞,利用視覺單詞確定每個(gè)目標(biāo)的存在性以及位置,最后對(duì)每對(duì)目標(biāo)的相對(duì)位置進(jìn)行校驗(yàn),判斷位置

6、關(guān)系是否符合要求。通過對(duì)比試驗(yàn),本文證明了相對(duì)位置校驗(yàn)相比絕對(duì)位置方法的優(yōu)越性。此外,本文還第一次提出將多樣例圖片搜索方法引入相似圖片檢索,將查詢圖片先粗分割成若干簡(jiǎn)單元素變成多樣例圖片,通過查找簡(jiǎn)單元素并進(jìn)行相對(duì)位置校驗(yàn),找到與之相似的圖片。
   (3)論文還提出了對(duì)視頻序列的高效視覺索引方法。為了把視覺索引方法引入視頻,論文提出了一種利用局部特征匹配進(jìn)行視頻的劃分方法,把視頻分割成幾段可以用共享特征描述的場(chǎng)景。不同于傳統(tǒng)的

7、使用關(guān)鍵幀來索引視頻,文章提出了對(duì)于每個(gè)場(chǎng)景提取一個(gè)虛擬幀來描述其內(nèi)容的方法。虛擬幀包含了少量場(chǎng)景內(nèi)最穩(wěn)定的特征,用更少的特征保存了盡可能多的視頻信息。作者將虛擬幀與關(guān)鍵幀進(jìn)行試驗(yàn)比較,證明了虛擬幀比關(guān)鍵幀在對(duì)視頻的描述上具有更好的緊湊性和有效性,因此更適于對(duì)視頻的視覺索引。
   總而言之,本文從基于內(nèi)容的角度出發(fā),針對(duì)多模態(tài)輸入、圖像特征、多樣例檢索以及對(duì)視頻的索引進(jìn)行討論,提出思考問題的新的角度和解決問題的新的方法。同時(shí),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論