面向數(shù)字圖書館的多媒體處理技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁(yè)數(shù)：145 大小：9.85MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩144頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字圖書館作為21世紀(jì)圖書館現(xiàn)代化發(fā)展的方向，已成為信息時(shí)代的基礎(chǔ)設(shè)施之一。它向讀者和用戶提供比傳統(tǒng)圖書館更為廣泛、更為先進(jìn)、更為方便的服務(wù)，從根本上改變了人們獲取、傳播和使用信息的方式。隨著科學(xué)技術(shù)的不斷發(fā)展，數(shù)字圖書館中包含的信息內(nèi)容也越來(lái)越豐富?，F(xiàn)在，其館藏內(nèi)容不僅包括結(jié)構(gòu)化數(shù)據(jù)，也包括各種非結(jié)構(gòu)化異構(gòu)信息，如文本、圖像、視頻、音頻、地圖、三維模型等。如何有效的處理與檢索這些多媒體數(shù)據(jù)已成為數(shù)字圖書館下一步提供精細(xì)化、智能化信息服

2、務(wù)面臨的巨大挑戰(zhàn)。
　　論文在國(guó)家教育部211重點(diǎn)工程大學(xué)數(shù)字圖書館國(guó)際合作計(jì)劃(ChinaAcademicDigitalAssociativeLibrary，CADAL)項(xiàng)目中醫(yī)藥信息提取與服務(wù)系統(tǒng)、核高基國(guó)家重大專項(xiàng)“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”(Unstructureddatamanagementsystem，UDMS)的支持下，圍繞掃描書籍版面分析、基于內(nèi)容的圖像檢索、基于字幕/文本的視頻幀圖像/自然場(chǎng)景圖像語(yǔ)義理解的若干問(wèn)題展

3、開(kāi)研究，主要工作包括:
　　1)提出一種圖文混合版面分析框架，用于分離掃描書頁(yè)的圖像和文本區(qū)域并提取文本結(jié)構(gòu)。
　　對(duì)于較復(fù)雜的既含有文本又含有圖片的掃描書頁(yè)，商用OCR軟件的版面分析往往不能準(zhǔn)確地將文本區(qū)域與圖像區(qū)域分離開(kāi)來(lái)。基于此，我們提出了基于投影方法和基于Boosting方法的兩種圖文分割算法。基于投影的方法用于版面較規(guī)整的Manhattan版式文檔分析，而基于Boosting的方法用于分析版面較復(fù)雜的非Manhat

4、tan版式文檔。分離文本區(qū)域和圖像區(qū)域后，對(duì)于文本區(qū)域分別利用啟發(fā)式規(guī)則和機(jī)器學(xué)習(xí)方法獲取文本大小和字體信息，由此確定部分結(jié)構(gòu)信息，用于后續(xù)的文本結(jié)構(gòu)化處理。
　　2)提出一種綜合PHOG形狀和小波能量分布金字塔特征的圖像檢索方法。
　　根據(jù)圖像能量在各高頻子帶和空域的分布特征，提出了小波能量分布金字塔特征。實(shí)驗(yàn)表明，該特征在大多數(shù)情況下檢索效果優(yōu)于PHOG特征，同時(shí)該特征的時(shí)空效率也更高。另外，針對(duì)兩種特征單獨(dú)使用時(shí)存在的

5、描述能力不足的缺點(diǎn)，提出了綜合PHOG和小波能量分布金字塔特征的檢索算法。該算法根據(jù)圖像視覺(jué)特征動(dòng)態(tài)調(diào)整兩種特征的權(quán)重，從而進(jìn)一步提高圖像檢索效果。
　　3)提出一種新的增強(qiáng)微結(jié)構(gòu)描述子以及一種綜合此描述子和上下文敏感相似度的圖像檢索方法。
　　針對(duì)傳統(tǒng)單一特征對(duì)圖像刻畫能力不足，而簡(jiǎn)單的多特征綜合又存在維數(shù)過(guò)高及權(quán)重難以確定的問(wèn)題，提出了一種基于增強(qiáng)微結(jié)構(gòu)的描述子，它在綜合顏色、紋理和形狀特征的同時(shí)又保持適度的維數(shù)。首先提

6、出一種局部模式映射，用于刻畫圖像的局部紋理和形狀特征;再由該映射圖中的模式共生關(guān)系得到圖像的增強(qiáng)微結(jié)構(gòu)映射;以此微結(jié)構(gòu)映射作為過(guò)濾器對(duì)圖像的量化顏色映射圖進(jìn)行過(guò)濾，最終得到圖像的量化表示。該描述子只有72維，且不存在加權(quán)組合的問(wèn)題。
　　提出的綜合圖像檢索方法利用上述描述子描述圖像，同時(shí)結(jié)合上下文信息，在基于最短路徑結(jié)點(diǎn)的擴(kuò)展參考集上利用圖傳播理論傳播相似度到目標(biāo)圖像上，再使用新的相似度對(duì)圖像集進(jìn)行re-rank。相比于其它基于微

7、結(jié)構(gòu)的圖像檢索方法，本文方法的檢索效果有了進(jìn)一步的提高。
　　4)提出一種基于邊緣信息和分布熵的級(jí)聯(lián)過(guò)濾視頻字幕檢測(cè)算法及一種基于邊緣密度和局部閾值的文本提取方法。
　　針對(duì)視頻幀文本區(qū)域?qū)Ρ榷茸兓蟆⒃肼曅盘?hào)強(qiáng)的特點(diǎn)，提出綜合邊緣像素分布熵和SVM分類器的級(jí)聯(lián)過(guò)濾的方法去除非文本區(qū)域。級(jí)聯(lián)過(guò)濾的優(yōu)點(diǎn)主要體現(xiàn)在兩方面，一方面提高了識(shí)別準(zhǔn)確率，另一方面由于在第一步快速過(guò)濾掉大多數(shù)噪聲區(qū)域，從而可以提高檢測(cè)速度。SVM分類器采用

8、提出的前景像素分布熵、skeleton/最大邊比、邊緣密度等特征作為輸入向量。
　　提出的文本抽取方法使用邊緣密度對(duì)經(jīng)傳統(tǒng)文本區(qū)域二值化去噪方法處理后的二值圖進(jìn)行二次去噪，極大的提高了文本提取精度。
　　5)提出一種基于相似度測(cè)度和稀疏分類器的文本檢測(cè)方法，用于自然圖像任意方向文本的檢測(cè)。
　　針對(duì)多數(shù)自然場(chǎng)景文本檢測(cè)方法只能檢測(cè)近似水平文本行的局限性，提出了一種任意方向文本檢測(cè)方法。首先檢測(cè)基于canny邊緣約束的最

9、大穩(wěn)定極值區(qū)域（MaximalStableExtremalRegions）作為候選文本區(qū)域;為了判斷兩區(qū)域能否位于同一文本行，提出綜合區(qū)域大小、絕對(duì)距離、相對(duì)距離、上下文信息和顏色信息的相似度測(cè)度，在此相似度的基礎(chǔ)上提出兩階段的候選文本線檢測(cè)方法，該方法由種子點(diǎn)選取和文本線擴(kuò)展兩步迭代地搜索所有候選文本線;最終為了過(guò)濾偽文本線，提出一種基于骨架特征的Fisher稀疏分類器。所提出的文本檢測(cè)方法能準(zhǔn)確檢測(cè)自然圖像中任意方向文本行，并具有較

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

面向數(shù)字圖書館的多媒體處理技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

面向數(shù)字圖書館的多媒體處理技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載