

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在當(dāng)今高速互聯(lián)網(wǎng)時(shí)代,眾多數(shù)字影像設(shè)備的普及,加上互聯(lián)網(wǎng)技術(shù)的進(jìn)步,互聯(lián)網(wǎng)圖像如今在我們的生活中扮演著越來(lái)越重要的角色,網(wǎng)絡(luò)圖像搜索也已經(jīng)成為一個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)非?;钴S和相當(dāng)具有挑戰(zhàn)性的研究課題。需要指出的是,與十年前的情況不同,現(xiàn)在的互聯(lián)網(wǎng)使得數(shù)字圖像可以很容易地創(chuàng)建、上傳、共享和分布在互聯(lián)網(wǎng)上。比如Facebook,YouTube,F(xiàn)lickr等社群媒體允許圖像的上載者提供一組能夠描述該圖像的關(guān)鍵詞(亦稱(chēng)Social Tags),
2、后系統(tǒng)利用這些關(guān)鍵詞來(lái)索引圖像,由于圖像的語(yǔ)義標(biāo)注是通過(guò)網(wǎng)絡(luò)由用戶(hù)共同協(xié)作來(lái)完成的,因此這類(lèi)圖像集合也被稱(chēng)為Collaboratively-Tagged Images。這些標(biāo)注信息一方面可以直接作為Web圖像索引,同時(shí)也可被用于自動(dòng)圖像標(biāo)注技術(shù)研究中的訓(xùn)練樣本。由于Flickr等圖像共享網(wǎng)站上存在著大量的帶標(biāo)簽的圖像集合,這種基于社群標(biāo)注(Social Tagging)的共享方式將會(huì)極大地改善互聯(lián)網(wǎng)海量圖像組織及檢索的性能,因而如何更加
3、有效地利用這些帶標(biāo)簽的圖像集合成為改善自動(dòng)圖像標(biāo)注性能的關(guān)鍵問(wèn)題之一。
需要指出的是,用戶(hù)通常是按照隨機(jī)的順序(Random Order)來(lái)上傳圖像對(duì)應(yīng)的標(biāo)簽,即用戶(hù)所提交的標(biāo)簽集合往往并不按照標(biāo)簽與圖像內(nèi)容的語(yǔ)義相關(guān)性(Tag Relevance)的大小進(jìn)行排序。另外,用戶(hù)標(biāo)注的關(guān)鍵詞標(biāo)簽集合中存在大量的噪聲標(biāo)簽(Noisy Tags),而目前Flickr尚沒(méi)有提供基于相關(guān)性(Relevance-based Ranking)
4、的檢索排序機(jī)制。這種標(biāo)簽集合隨機(jī)排序的特性制約了海量圖像檢索性能的更進(jìn)一步的應(yīng)用。目前Flickr圖像共享網(wǎng)站提供了兩種圖像排序方式:1.Most Recent:即按照用戶(hù)上傳圖像的時(shí)間戳排序;2.Most Interesting:即按照用戶(hù)點(diǎn)擊率、評(píng)論數(shù)量等排序,但Flickr目前尚不能提供按照語(yǔ)義相關(guān)度檢索的模式。如何依據(jù)關(guān)鍵詞表征圖像的相關(guān)度(Relevance)大小實(shí)現(xiàn)標(biāo)簽排序(Tag Ranking)成為了新的研究熱點(diǎn)。換句話
5、說(shuō),盡管基于社群標(biāo)注的共享方式極大地改善了互聯(lián)網(wǎng)海量圖像組織及檢索的性能,然而用戶(hù)通常是按照隨機(jī)的順序(Random Order)來(lái)上傳圖像對(duì)應(yīng)的標(biāo)簽,即用戶(hù)所提交的標(biāo)簽集合往往并不按照標(biāo)簽與圖像內(nèi)容的語(yǔ)義相關(guān)性(Tag Relevance)的大小進(jìn)行排序。這種標(biāo)簽集合隨機(jī)排序的特性制約了海量圖像檢索性能的更進(jìn)一步的應(yīng)用,因此標(biāo)簽排序正逐漸成為多媒體研究領(lǐng)域的一個(gè)新的熱點(diǎn)。需要指出的是,經(jīng)過(guò)語(yǔ)義相關(guān)性排序后的圖像集合,可以作為表征語(yǔ)義關(guān)
6、鍵詞的有效訓(xùn)練樣本,更好地解決區(qū)域?qū)訄D像標(biāo)注中的小樣本學(xué)習(xí)問(wèn)題。
如前所述,社群標(biāo)簽在互聯(lián)網(wǎng)上蔚然成風(fēng),已經(jīng)成為一種捕述、歸類(lèi)、檢索內(nèi)容的流行的方式,并已經(jīng)在實(shí)際的社群媒體系統(tǒng)的管理和檢索中獲得了成功的應(yīng)用。鑒于社群標(biāo)簽對(duì)于網(wǎng)絡(luò)圖像檢索的重大意義,越來(lái)越多的研究人員針對(duì)社群圖像標(biāo)簽展開(kāi)研究。盡管用戶(hù)為社群圖像提供了標(biāo)簽來(lái)描述圖像的內(nèi)容,由于這些標(biāo)簽是由不同的文化背景、知識(shí)結(jié)構(gòu)的網(wǎng)絡(luò)用戶(hù)按照自己對(duì)圖像內(nèi)容的主觀理解手工輸入的,因
7、此社群圖像的標(biāo)簽的質(zhì)量尚不能直接作為可靠的圖像索引關(guān)鍵詞進(jìn)行基于關(guān)鍵詞的圖像檢索。目前社群圖像的標(biāo)簽主要存在著標(biāo)簽排列的無(wú)序性、標(biāo)簽內(nèi)容的不精確性等問(wèn)題,因此帶標(biāo)簽的社群圖像語(yǔ)義理解主要圍繞著改善標(biāo)簽排序和標(biāo)簽內(nèi)容的精準(zhǔn)度等方面展開(kāi)。
目前已有部分研究機(jī)構(gòu)(如MSRA)針對(duì)Tag Ranking問(wèn)題展開(kāi)研究。由于一幅圖像可能同時(shí)標(biāo)注有若干個(gè)語(yǔ)義語(yǔ)義概念標(biāo)記,這是一個(gè)典型的多標(biāo)記學(xué)習(xí)問(wèn)題,圖像本身具有一定程度的語(yǔ)義歧義性。而實(shí)現(xiàn)
8、標(biāo)簽集合按照語(yǔ)義相關(guān)度進(jìn)行排序,則抽象為一個(gè)典型的多標(biāo)記排序(Multi-Label Ranking)問(wèn)題。目前針對(duì)多標(biāo)記學(xué)習(xí)的研究較多,而針對(duì)多標(biāo)記排序問(wèn)題的研究還相對(duì)較少。與多標(biāo)記排序問(wèn)題相似的研究包括樣本典型性排序(Typicality Ranking)和標(biāo)簽排序(Tag Ranking)。
現(xiàn)有的針對(duì)標(biāo)簽排序(Tag Ranking)的算法大多著力于基于標(biāo)簽相關(guān)度的標(biāo)簽排序(Relevance-based Tag Ra
9、nking)。直觀地,給定一幅圖像和標(biāo)注的標(biāo)簽集合,若標(biāo)簽集合中的某個(gè)標(biāo)簽A的相關(guān)度高于標(biāo)簽B,則說(shuō)明給定圖像表征標(biāo)簽A的典型性高于表征標(biāo)簽B的典型性,即標(biāo)簽A更能表征圖像的語(yǔ)義內(nèi)容。換言之,通過(guò)計(jì)算得到的給定圖像的K近鄰圖像子集中,標(biāo)簽A在子集中出現(xiàn)的頻率要更高。這類(lèi)算法主要有兩種代表性工作。(1)基于統(tǒng)計(jì)模型(Statistical Modeling)的排序算法;(2)基于數(shù)據(jù)驅(qū)動(dòng)(Data-driven)的算法?;诮y(tǒng)計(jì)模型的排序
10、算法利用核密度估計(jì)思想估計(jì)出圖像中每個(gè)標(biāo)簽與圖像本身的語(yǔ)義相關(guān)度,其本質(zhì)就是估計(jì)樣本的典型性(Typicality),如果圖像中表征某個(gè)語(yǔ)義標(biāo)簽的區(qū)域的低層視覺(jué)特征較為典型,即其與其它標(biāo)有相同標(biāo)簽的區(qū)域的特征向量在特征空間中較為接近,則該標(biāo)簽的語(yǔ)義相關(guān)度就高;同時(shí)考慮到標(biāo)簽之間的語(yǔ)義相關(guān)性,采用隨機(jī)游走算法改善排序結(jié)果,實(shí)現(xiàn)最終的標(biāo)簽排序。然而算法使用基于全局低層視覺(jué)特征來(lái)表征具有多標(biāo)簽語(yǔ)義的圖像,因此無(wú)法較好地估計(jì)出每個(gè)標(biāo)簽在特征空間
11、的密度值。而基于數(shù)據(jù)驅(qū)動(dòng)的排序算法通過(guò)簡(jiǎn)單的圖像全局特征匹配得到給定圖像的近鄰圖像子集,通過(guò)近鄰?fù)镀辈呗?Neighbor-voting)統(tǒng)計(jì)其標(biāo)簽序列中每個(gè)關(guān)鍵詞的出現(xiàn)頻度,按照頻度的高低實(shí)現(xiàn)對(duì)標(biāo)簽序列的排序。與基于統(tǒng)計(jì)模型的排序算法不同,基于數(shù)據(jù)驅(qū)動(dòng)的排序算法在選擇待排序圖像的近鄰樣本集合時(shí),只單純地使用圖像的視覺(jué)特征,而無(wú)需考量圖像的標(biāo)簽信息。直觀地,由于算法較為簡(jiǎn)單,因此基于近鄰?fù)镀睓C(jī)制的標(biāo)簽排序算法在海量圖像數(shù)據(jù)集上體現(xiàn)出了較
12、好的擴(kuò)展性。但需要指出的是,由于這類(lèi)算法忽略了標(biāo)簽之間的語(yǔ)義相關(guān)性,因此其排序性能不甚理想;其次,該算法亦采用全局視覺(jué)特征來(lái)表征圖像,因此在圖像相似性度量上無(wú)法取得令人滿意的效果。
據(jù)此,本文提出了一種改進(jìn)的圖像多標(biāo)簽排序算法,通過(guò)引入信號(hào)處理領(lǐng)域的稀疏表示理論,將近鄰圖像檢索問(wèn)題轉(zhuǎn)化為稀疏重構(gòu)問(wèn)題,以此來(lái)改進(jìn)近鄰圖像集合選取的語(yǔ)義相關(guān)性,進(jìn)而改善圖像多標(biāo)簽排序算法的性能。近年來(lái),壓縮感知(Compressed Sensing
13、)和特征選擇的理論與方法結(jié)合,用來(lái)對(duì)圖像形成更加有效的稀疏表示(Sparse Representation),成為計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)問(wèn)題。斯坦福大學(xué)的Tibshirani和加州大學(xué)伯克利分校的Breiman等人幾乎同時(shí)提出了對(duì)特征選擇稀疏施以l1-范數(shù)約束的Lasso思想,以促使被選擇出來(lái)的特征盡可能稀疏,提高數(shù)據(jù)處理過(guò)程的可解釋性(interpretable)和精度。以Lasso為代表的變量選擇方法已成為統(tǒng)計(jì)學(xué)在分析高
14、維數(shù)據(jù)所采用的主流手段。因此,可在稀疏表示基礎(chǔ)上研究圖像語(yǔ)義理解的理論與方法。
本文所提出的基于稀疏表示的圖像多標(biāo)簽排序算法的具體思路如下:首先,該算法本質(zhì)上歸屬于基于語(yǔ)義相關(guān)度排序的圖像多標(biāo)簽排序算法。給定一幅待排序測(cè)試圖像,以及海量已標(biāo)注社群圖像集合。我們將這幅待排序測(cè)試圖像看成是一個(gè)待重構(gòu)的測(cè)試樣本,而將海量已標(biāo)注社群圖像集合看成是過(guò)完備字典。通過(guò)稀疏表示理論,我們可以認(rèn)為,待重構(gòu)的測(cè)試樣本可以由該過(guò)完備字典中的少數(shù)樣本
15、稀疏重構(gòu)得到,并基于學(xué)習(xí)得出的稀疏系數(shù)向量來(lái)表征子彈中的每個(gè)已標(biāo)注圖像與測(cè)試樣本圖像的語(yǔ)義相似度和相關(guān)性。因此,所學(xué)習(xí)得到的稀疏系數(shù)向量中的每個(gè)維度表示了測(cè)試樣本圖像與字典中每個(gè)已標(biāo)注圖像的語(yǔ)義相關(guān)性。最終基于所學(xué)習(xí)得到的語(yǔ)義相關(guān)性來(lái)獲得測(cè)試圖像的近鄰圖像子集,并利用近鄰?fù)镀辈呗詠?lái)統(tǒng)計(jì)標(biāo)簽序列中每個(gè)關(guān)鍵詞的出現(xiàn)頻度,按照頻度的高低實(shí)現(xiàn)對(duì)標(biāo)簽序列的排序。此外,本文所提的算法同時(shí)考慮到標(biāo)記之間的語(yǔ)義相關(guān)性(即共生關(guān)系),采用隨機(jī)游走算法改善
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示理論的社群圖像標(biāo)簽排序算法的研究與實(shí)現(xiàn).pdf
- 基于稀疏編碼的圖像分類(lèi)算法研究.pdf
- 基于稀疏編碼理論的自然圖像處理研究.pdf
- 多標(biāo)簽分類(lèi)中標(biāo)簽編碼算法研究.pdf
- 基于稀疏表示的圖像標(biāo)簽填充算法的研究與實(shí)現(xiàn).pdf
- 基于稀疏分解的圖像壓縮編碼算法研究.pdf
- 海量圖像標(biāo)簽自動(dòng)排序算法的研究與實(shí)現(xiàn).pdf
- 基于信號(hào)稀疏分解的圖像壓縮編碼算法的研究.pdf
- 圖像稀疏編碼算法及應(yīng)用研究.pdf
- 圖像稀疏編碼算法及其應(yīng)用研究.pdf
- 基于多參考圖像的群體圖像編碼算法.pdf
- 基于稀疏編碼的圖像分類(lèi)研究.pdf
- 標(biāo)簽的生成、排序算法研究.pdf
- 基于稀疏表示的排序?qū)W習(xí)算法.pdf
- 基于子空間學(xué)習(xí)和稀疏編碼的圖像分類(lèi)算法研究.pdf
- 基于多形態(tài)稀疏基的WMSN圖像融合算法研究.pdf
- 基于Laplacian稀疏編碼的圖像分類(lèi)研究.pdf
- 基于多特征融合與稀疏編碼的人臉識(shí)別算法研究.pdf
- 基于多模態(tài)監(jiān)督學(xué)習(xí)的圖像重排序算法研究.pdf
- 基于分形理論的圖像編碼算法研究.pdf
評(píng)論
0/150
提交評(píng)論