基于內容的多模態(tài)視頻檢索.pdf_第1頁
已閱讀1頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,視頻內容呈現爆炸式增長態(tài)勢。隨著個人數碼攝像設備的普及,存儲器容量的提升,以及網絡環(huán)境的改善,越來越多的人熱衷于拍攝自己身邊各種有趣的視頻,并上傳到網上與人分享,同時又在網上搜索并欣賞自己感興趣的視頻。對于電影工作者來說,人工處理海量的視頻數據是件相當耗時耗力的事,如何更有效地管理并再利用視頻成為了當務之急。在社會安全保障行動中,偵察活動必不可少,如何從偵察機和無人機上拍攝的大量視頻中提取有用的信息對整個戰(zhàn)局起著至關重要的作用。

2、因此,視頻檢索在國民經濟和社會發(fā)展中有重大需求,是當今信息社會亟待解決的基本問題之一。 然而,視頻檢索技術面臨著巨大挑戰(zhàn)。如今的視頻檢索引擎(如YouTube.com等)基本沿用了文本檢索的方式,且文本僅來自于視頻外部人們對視頻的文本描述,諸如視頻標題、標簽等,即把視頻當作文檔來處理。如何自動從視頻內在的語音、字幕、圖像序列等信息中提取語義繼而進行檢索極具挑戰(zhàn)和吸引力。與文本檢索不同,基于內容的視頻檢索涉及圖像處理、語音識別、信

3、息檢索、機器學習、模式識別等多個領域的綜合交叉學科。美國國家標準局(NIST)自2003年起組織了視頻檢索競賽(稱為TRECVID),TRECVID已經成為比較視頻檢索算法性能的全球公共平臺,每年吸引了全球眾多研究團隊的參與。本項研究工作就是在微軟亞洲研究院與上海交通大學聯合參加TRECVID2007的背景下開展的,并在最后的檢索任務中取得了第一名的成績。本文重點闡述在如下三方面中的研究成果。 首先,在基于文本的視頻檢索中,一方

4、面提出了對從視頻中提取出的語音文本實行根據視頻語言種類采取不同的文本組合策略,克服了固定文本組合數太小時不能充分利用上下文信息即視頻內容在時序上的連貫性而引起的查全率降低,以及組合數太大時不相關的結果被誤檢索出來而引起的查準率降低的問題。另一方面,改進了在傳統(tǒng)文本檢索中有良好表現的BM25公式。考慮到傳統(tǒng)文本檢索時,查詢詞在文檔中被檢索到就表明該詞出現在該文檔中;而在視頻檢索中,同樣出現在語音文本中不同詞性的詞,在視頻畫面中體現出來的概

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論