面向數(shù)字圖書館的多媒體處理技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩144頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字圖書館作為21世紀(jì)圖書館現(xiàn)代化發(fā)展的方向,已成為信息時(shí)代的基礎(chǔ)設(shè)施之一。它向讀者和用戶提供比傳統(tǒng)圖書館更為廣泛、更為先進(jìn)、更為方便的服務(wù),從根本上改變了人們獲取、傳播和使用信息的方式。隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)字圖書館中包含的信息內(nèi)容也越來(lái)越豐富?,F(xiàn)在,其館藏內(nèi)容不僅包括結(jié)構(gòu)化數(shù)據(jù),也包括各種非結(jié)構(gòu)化異構(gòu)信息,如文本、圖像、視頻、音頻、地圖、三維模型等。如何有效的處理與檢索這些多媒體數(shù)據(jù)已成為數(shù)字圖書館下一步提供精細(xì)化、智能化信息服

2、務(wù)面臨的巨大挑戰(zhàn)。
  論文在國(guó)家教育部211重點(diǎn)工程大學(xué)數(shù)字圖書館國(guó)際合作計(jì)劃(ChinaAcademicDigitalAssociativeLibrary,CADAL)項(xiàng)目中醫(yī)藥信息提取與服務(wù)系統(tǒng)、核高基國(guó)家重大專項(xiàng)“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”(Unstructureddatamanagementsystem,UDMS)的支持下,圍繞掃描書籍版面分析、基于內(nèi)容的圖像檢索、基于字幕/文本的視頻幀圖像/自然場(chǎng)景圖像語(yǔ)義理解的若干問(wèn)題展

3、開(kāi)研究,主要工作包括:
  1)提出一種圖文混合版面分析框架,用于分離掃描書頁(yè)的圖像和文本區(qū)域并提取文本結(jié)構(gòu)。
  對(duì)于較復(fù)雜的既含有文本又含有圖片的掃描書頁(yè),商用OCR軟件的版面分析往往不能準(zhǔn)確地將文本區(qū)域與圖像區(qū)域分離開(kāi)來(lái)。基于此,我們提出了基于投影方法和基于Boosting方法的兩種圖文分割算法。基于投影的方法用于版面較規(guī)整的Manhattan版式文檔分析,而基于Boosting的方法用于分析版面較復(fù)雜的非Manhat

4、tan版式文檔。分離文本區(qū)域和圖像區(qū)域后,對(duì)于文本區(qū)域分別利用啟發(fā)式規(guī)則和機(jī)器學(xué)習(xí)方法獲取文本大小和字體信息,由此確定部分結(jié)構(gòu)信息,用于后續(xù)的文本結(jié)構(gòu)化處理。
  2)提出一種綜合PHOG形狀和小波能量分布金字塔特征的圖像檢索方法。
  根據(jù)圖像能量在各高頻子帶和空域的分布特征,提出了小波能量分布金字塔特征。實(shí)驗(yàn)表明,該特征在大多數(shù)情況下檢索效果優(yōu)于PHOG特征,同時(shí)該特征的時(shí)空效率也更高。另外,針對(duì)兩種特征單獨(dú)使用時(shí)存在的

5、描述能力不足的缺點(diǎn),提出了綜合PHOG和小波能量分布金字塔特征的檢索算法。該算法根據(jù)圖像視覺(jué)特征動(dòng)態(tài)調(diào)整兩種特征的權(quán)重,從而進(jìn)一步提高圖像檢索效果。
  3)提出一種新的增強(qiáng)微結(jié)構(gòu)描述子以及一種綜合此描述子和上下文敏感相似度的圖像檢索方法。
  針對(duì)傳統(tǒng)單一特征對(duì)圖像刻畫能力不足,而簡(jiǎn)單的多特征綜合又存在維數(shù)過(guò)高及權(quán)重難以確定的問(wèn)題,提出了一種基于增強(qiáng)微結(jié)構(gòu)的描述子,它在綜合顏色、紋理和形狀特征的同時(shí)又保持適度的維數(shù)。首先提

6、出一種局部模式映射,用于刻畫圖像的局部紋理和形狀特征;再由該映射圖中的模式共生關(guān)系得到圖像的增強(qiáng)微結(jié)構(gòu)映射;以此微結(jié)構(gòu)映射作為過(guò)濾器對(duì)圖像的量化顏色映射圖進(jìn)行過(guò)濾,最終得到圖像的量化表示。該描述子只有72維,且不存在加權(quán)組合的問(wèn)題。
  提出的綜合圖像檢索方法利用上述描述子描述圖像,同時(shí)結(jié)合上下文信息,在基于最短路徑結(jié)點(diǎn)的擴(kuò)展參考集上利用圖傳播理論傳播相似度到目標(biāo)圖像上,再使用新的相似度對(duì)圖像集進(jìn)行re-rank。相比于其它基于微

7、結(jié)構(gòu)的圖像檢索方法,本文方法的檢索效果有了進(jìn)一步的提高。
  4)提出一種基于邊緣信息和分布熵的級(jí)聯(lián)過(guò)濾視頻字幕檢測(cè)算法及一種基于邊緣密度和局部閾值的文本提取方法。
  針對(duì)視頻幀文本區(qū)域?qū)Ρ榷茸兓蟆⒃肼曅盘?hào)強(qiáng)的特點(diǎn),提出綜合邊緣像素分布熵和SVM分類器的級(jí)聯(lián)過(guò)濾的方法去除非文本區(qū)域。級(jí)聯(lián)過(guò)濾的優(yōu)點(diǎn)主要體現(xiàn)在兩方面,一方面提高了識(shí)別準(zhǔn)確率,另一方面由于在第一步快速過(guò)濾掉大多數(shù)噪聲區(qū)域,從而可以提高檢測(cè)速度。SVM分類器采用

8、提出的前景像素分布熵、skeleton/最大邊比、邊緣密度等特征作為輸入向量。
  提出的文本抽取方法使用邊緣密度對(duì)經(jīng)傳統(tǒng)文本區(qū)域二值化去噪方法處理后的二值圖進(jìn)行二次去噪,極大的提高了文本提取精度。
  5)提出一種基于相似度測(cè)度和稀疏分類器的文本檢測(cè)方法,用于自然圖像任意方向文本的檢測(cè)。
  針對(duì)多數(shù)自然場(chǎng)景文本檢測(cè)方法只能檢測(cè)近似水平文本行的局限性,提出了一種任意方向文本檢測(cè)方法。首先檢測(cè)基于canny邊緣約束的最

9、大穩(wěn)定極值區(qū)域(MaximalStableExtremalRegions)作為候選文本區(qū)域;為了判斷兩區(qū)域能否位于同一文本行,提出綜合區(qū)域大小、絕對(duì)距離、相對(duì)距離、上下文信息和顏色信息的相似度測(cè)度,在此相似度的基礎(chǔ)上提出兩階段的候選文本線檢測(cè)方法,該方法由種子點(diǎn)選取和文本線擴(kuò)展兩步迭代地搜索所有候選文本線;最終為了過(guò)濾偽文本線,提出一種基于骨架特征的Fisher稀疏分類器。所提出的文本檢測(cè)方法能準(zhǔn)確檢測(cè)自然圖像中任意方向文本行,并具有較

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論