版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、<p><b> 畢業(yè)設(shè)計文獻綜述</b></p><p><b> 計算機科學(xué)與技術(shù)</b></p><p> 圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)</p><p><b> 一、前言部分</b></p><p> 圖片文字的檢測與識別技術(shù)在計算機網(wǎng)絡(luò)日益發(fā)展的今
2、天有著大量的應(yīng)用,特別是對于基于內(nèi)容的圖片或視頻過濾、檢索等應(yīng)用來講,有重要意義,它可以幫助我們了解圖片內(nèi)容或者視頻內(nèi)容[1]。</p><p> 圖片中的文字可分為兩大類:一類是圖片中場景本身包含的文字,稱為場景文字;另一類是圖片后期制作中加入的文字,稱為人工文字。一般人工文字的特點:文字位于前端,且不會被遮擋;文字一半是單色的;文字大小在一幅圖片中固定,并且寬度和高度答題相同,從滿足人眼視覺感受的角度來說,
3、圖片中文字的尺寸不會過大也不會過?。晃淖值姆植急容^集中;文字的排列一般為水平方向或是垂直方向;多行文字之間,以及單行內(nèi)各個字之間存在不同于文字區(qū)域的空隙等[2]。而場景文字的特點卻與之正好相反:文字和其他自然景物混雜在一起,背景復(fù)雜;文字的顏色多種多樣;文字的字體和大小復(fù)雜多變;光照的變化等[3]。</p><p> 在分析圖像算法之前,我們先了解一下我們所要分析的BMP位圖的基本知識。BMP是英文Bitmap
4、(位圖)的簡寫,它是Windows操作系統(tǒng)中的標準圖像文件格式,能夠被多種Windows應(yīng)用程序所支持。位圖文件可看成由4個部分組成:位圖文件頭(bitmap-file header)、位圖信息頭(bitmap-information header)、彩色表(color table)和定義位圖的字節(jié)陣列。</p><p> 圖像邊緣的定義。圖像的大部分信息都存在于圖像的邊緣中,主要表現(xiàn)為圖像局部特征的不連續(xù)性,
5、即圖像中灰度變化比較劇烈的地方。因此,我們把邊緣定義為圖像中灰度發(fā)生急劇變化的區(qū)域邊界。根據(jù)灰度變化的劇烈程度,通常將邊緣劃分為階躍狀和屋頂狀兩種類型。階躍邊緣兩邊的灰度值變化明顯,而屋頂邊緣位于灰度值增加與減少的交界處。那么,對階躍邊緣和屋頂邊緣分別求取一階、二階導(dǎo)數(shù)就可以表示邊緣點的變化。因此,對于一個階躍邊緣點,其灰度變化曲線的一階導(dǎo)數(shù)在該點達到極大值,二階導(dǎo)數(shù)在該點與零交叉;對于一個屋頂邊緣點,其灰度變化曲線的一階導(dǎo)數(shù)在該點與零
6、交叉;二階導(dǎo)數(shù)在該點達到極大值[4]。</p><p> 圖像二值化對于提取文本信息非常重要。二值化的結(jié)果好壞,直接影響著最終的處理結(jié)果。對于文本標簽的提取,如果能夠?qū)D像文字區(qū)域合適二值化,就可以應(yīng)用基于區(qū)域的灰度聚類方法實現(xiàn)文字區(qū)域的檢測定位[1]。</p><p> 通過參考了2002-2009年間發(fā)表于《計算機應(yīng)用研究》、《計算機應(yīng)用》、《光學(xué)技術(shù)》、《計算機科學(xué)》、《計算機工
7、程與設(shè)計》、《計算機工程與應(yīng)用》等學(xué)術(shù)雜志中的研究論文,借鑒了天津理工大學(xué)學(xué)報、通信學(xué)報、延邊大學(xué)學(xué)報(自然科學(xué)版)、電子與信息學(xué)報等大學(xué)學(xué)報文章,通過分析和總結(jié)這些文章,對圖片文字提取的算法有了深刻的理解。</p><p><b> 二、主題部分</b></p><p> (一)圖片提取技術(shù)的歷史背景</p><p> 隨著計算機科學(xué)的
8、飛速發(fā)展,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介。從圖像中提取文字屬于信息智能化處理的前沿課題,是當前人工智能與模式識別領(lǐng)域中的研究熱點。文字具有高級語義特征,因此圖像中的文本是圖像內(nèi)容的一個重要來源,如果這些文本能自動地被檢測、分割、識別出來,則對圖像語義的自動理解、索引和檢索是非常有價值的。所以,研究圖片文字提取就具有了重要的實際意義。</p><p> 靜態(tài)圖片中文本提取方面的文獻不是很豐富,之
9、前的研究更多關(guān)注文檔圖像的分析和處理. 而對于復(fù)雜圖像中的文本或者嵌入圖像的文本標簽進行提取和分析研究剛剛引起人們的興趣. 目前提出的紋理特征主要包括有原始像素抽樣[5]、局部方差[6]、梯度分布[7]、強邊緣的密度及方向分布等空域統(tǒng)計特征,以及小波、FFT、Gabor變換系數(shù)的統(tǒng)計特征,如矩、直方圖、共生矩陣等。通過梯度特征進行邊緣檢測,可以達到快速的定位效果,然而同時約束參數(shù)設(shè)置非常復(fù)雜,并且檢測錯誤率也很高;利用紋理特征決定像素塊
10、是否屬于文字,可以在復(fù)雜背景的條件下檢測文字信息, 但是計算非常耗時, 而且文字精確定位的穩(wěn)定性也不夠理想;對于視頻文字,可以利用相鄰幀的相關(guān)性大體確定字幕位置,然而這種方法不能用來處理靜態(tài)圖像. 另外,基于支持向量機(SVM) 分類器的多尺度定位算法也得到了廣泛的研究,雖然其檢測效果較好,但算法復(fù)雜,需事先有樣本進行學(xué)習(xí)分類器的訓(xùn)練[8] .</p><p> (二)發(fā)展現(xiàn)狀——圖片文字提取算法的研究<
11、/p><p> 1、人工文字提取的算法</p><p> (1)為了能夠清楚地辨識出每個字的結(jié)構(gòu),文字在顏色上與其背景總是存在一定差異。因此,文字提取的實質(zhì)就是描述文字圖層與背景圖層之間的差異,并以這種差異對像素進行聚類。對彩色圖像在HSV顏色空間進行色彩聚類形成顏色圖層,再通過投影算法將顏色圖層進一步細分為子圖層進行圖層分析,最后通過子圖層合并產(chǎn)生備選文字圖層,能夠良好地從各種復(fù)雜顏色背
12、景中提取垂直或平行于圖像邊緣的單色文字。具體方法:顏色聚類;子圖層分割;圖層分析;圖層合并[9]。</p><p> (2) 視頻文字大小自適應(yīng)提取算法基于離散傅里葉變換( discrete Fourier transform, DFT)特征、多分辨率處理及支持向量機分類技術(shù)。算法在不同分辨率下結(jié)合梯度信息、文字邊界定位技術(shù)提取出文字候選區(qū)域,然后用支持向量機對于候選圖像塊DFT特征作進一步分類。具體方法:提取
13、候選區(qū)域;分割候選區(qū)域塊及文字邊界定位;多分辨率融合處理;驗證候選塊[10]。</p><p> (3) 彩色圖像下的文本提取方法,該方法對彩色圖像在R、G、B 三個顏色層分別進行亮度分級,以避開傳統(tǒng)顏色聚類方法的聚類數(shù)目選擇問題,降低圖像復(fù)雜度;考慮到文字筆畫的顯著方向性特征,并且通常具有穩(wěn)定的顏色,利用方向梯度算法進行文本粗定位;然后進一步利用多類SVM分類器實現(xiàn)文本區(qū)域精確判別。具體方法:亮度分級;筆畫檢
14、測算法;SVM 精確判別[11]。</p><p> (4) 自動提取圖像中的文本對圖像視頻檢索具有重要意義。提出了一種基于顏色和筆畫特征, 應(yīng)用無監(jiān)督聚類方法進行復(fù)雜背景下的文本分割算法。首先在對文本進行圖像增強的基礎(chǔ)上, 應(yīng)用顏色約減和直方圖確定文本顏色。然后提取顏色和筆畫特征, 應(yīng)用k均值聚類算法分割出文本和背景像素。最后應(yīng)用后處理優(yōu)化分割結(jié)果。具體方法:圖像增強預(yù)處理;文本顏色估計;
15、特征提??;無監(jiān)督聚類;基于連通成分的后處理[12]。</p><p> (5) 為解決漸變色給文字提取聚類算法帶來的問題,研究與實現(xiàn)了基于二值化聚類的圖像文字提取算法。圖像通過一系列預(yù)處理后,得到了利于聚類的二值圖像,根據(jù)背景圖像區(qū)域特征,對圖像進行聚類分塊,再利用文字圖像區(qū)域特征,聚類識別出文字區(qū)域。具體方法:預(yù)處理,包括灰度化、二值化、長線剔除;文本聚類,包括背景查找、文字分割[13]。</p>
16、<p> (6) 一種利用筆畫線條的統(tǒng)計特征基于支持向量機進行圖像中疊加文字檢測的方法。該算法首先通過一種改進的線段檢測算子提取出筆畫線段;然后對筆畫線條通過區(qū)域合并定位出候選文字塊;接著對候選文字塊提取一個反映文字筆畫線條空間分布特點的32 維特征,并通過支持向量機建立的模型對候選文字塊進行確認分類。具體方法:基于筆畫線條的特征抽取;基于SVM的候選文字塊分類確認;基于筆畫線條粗定位候選文字塊[14]。</p&g
17、t;<p> 2、場景文字提取算法</p><p> (1) 基于邊緣檢測的文本提取方法對自然場景文本的提取進行研究。通過改進彩色圖像邊緣檢測和二值邊緣圖像的形態(tài)學(xué)文本定位的算法,從而實現(xiàn)場景文本的提取。先將原始圖片進行金字塔分解,然后進行圖片預(yù)處理,對圖像進行邊緣提取和二值化,再形態(tài)學(xué)文本定位,最后文本區(qū)域字符提取[3]。</p><p> (2) 自然環(huán)境下文本圖像
18、背景復(fù)雜,常規(guī)閾值分割方法往往無法有效分割;基于譜聚類的圖像分割方法利用圖分割理論可以有效地實現(xiàn)圖像分割,但過高的計算復(fù)雜度和空間復(fù)雜度使其在處理大圖像時不能滿足實際需求?;诨叶戎狈綀D的譜聚類分割方法來實現(xiàn)字符提取,利用像素灰度計算相似性,在灰度直方圖上構(gòu)造相似矩陣,并通過實驗確定直方圖的理想等級數(shù)及相關(guān)參數(shù)。通過將像素級上的劃分轉(zhuǎn)化為灰度等級上的劃分,從而大大減少特征值求解時的計算量和開銷,提高算法的實用性及有效性[15]。<
19、/p><p> 3、圖像邊緣檢測算法</p><p> 基于灰度直方圖的邊緣檢測,基于梯度的邊緣檢測包括Roberts邊緣算子、Sobel邊緣檢測算子、Prewitt 邊緣算子、Laplacan邊緣算子,Canny邊緣檢測算子,模糊推理的邊緣檢測,Mallat小波邊緣檢測算子等[4]。</p><p><b> 三、總結(jié)部分</b></
20、p><p> 上述不同算法實際上反映了學(xué)術(shù)界對圖片文字提取技術(shù)研究方向的不同。同時,這些算法之間也是相互聯(lián)系的,其所達成的共識是:文字具有高級語義特征,對圖片內(nèi)容的理解、索引、檢索等具有重要作用,因此,研究圖片文字提取具有重要的實際意義。由于不同的方法并不是孤立的, 它們各自具有其局限性和應(yīng)用范圍, 因此在實際應(yīng)用中, 應(yīng)該結(jié)合多種方法, 以實現(xiàn)有效地提取文字的目的。為此, 在以后的研究中, 我們不但需要研究自適應(yīng)
21、的文字提取算法,也應(yīng)研究多種方法的融合機制, 從而實現(xiàn)對包括漸變、場景文字等復(fù)雜情況在內(nèi)的圖像進行文字檢測與提取。此外, 還可將提取出的文字從原圖中除去,同時修復(fù)被文字所遮擋的背景區(qū)域, 然后添加上多語種的文字, 這對于不同語種間的圖像交流和圖像的再次使用是很有意義的。</p><p><b> 四、參考文獻</b></p><p> [1] 王健,王晨. 基于靜
22、態(tài)圖片的文本提取技術(shù)的研究[J].延邊大學(xué)學(xué)報(自然科學(xué)版),2007,33(2):124-128.</p><p> [2] 田其沖,董恒強,何新求.靜態(tài)圖像提取文字技術(shù)[J].電腦編程技巧與維護,2008,6(13):96-97,104.</p><p> [3] 何興恒,胡德婷.有效的場景文本提取算法[J].計算機工程與設(shè)計,2008,29(10):2598-2599,2603.
23、</p><p> [4] 段瑞玲,李慶祥,李玉和. 圖像邊緣檢測方法研究綜述[J].光學(xué)技術(shù),2005,31(3):415-419.</p><p> [5] KIM K I,JUNG K ,KIM J H.Texture-based approach for text detection in images using support vector machines and con
24、tinuously adaptive mean shift algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12): 1631-1639.</p><p> [6] ZHONG Y,KARU K,JAIN A K.Locating text in complex color images[J]
25、.Pattern Recognition,1995,28(10):1523-1535.</p><p> [7] LIENHART R, WERNICKE A. Localizing and segmenting text in images and videos[J]. IEEE Transactions on Circuits and Systems for Video Technology,2002,12
26、(4): 256-268.</p><p> [8] 莊越挺,劉駿偉,吳飛.基于支持向量機的視頻字幕自動定位與提取[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2002,14(8):750-753.</p><p> [9] 劉世與,曹作良.復(fù)雜色彩單幀圖像中的文字提取[J].天津理工大學(xué)學(xué)報,2007,23(6):58-61.</p><p> [10] 薛衛(wèi),都思丹
27、,吳書凱.視頻文字大小自適應(yīng)提取算法[J].計算機應(yīng)用研究,2009,26(3):1146-1147,1159.</p><p> [11] 劉瓊,周慧燦,王耀南.結(jié)合亮度分級和筆畫檢測的彩色圖像文本提取[J]. 計算機工程與應(yīng)用,2008,44(18):157-159,162.</p><p> [12] 黃百鋼,李俊山,胡雙演.基于顏色和筆畫特征的文本分割算法[J].計算機科學(xué),2
28、009,36(7):292-294.</p><p> [13]戴維,張申生.基于二值化聚類的圖像文字提取算法[J].計算機應(yīng)用,2009,29(1):57-59,77.</p><p> [14] 王偉強,付立波,高文,黃慶明,蔣樹強.基于筆畫特征的疊加文字檢測方法[J].通信學(xué)報,2007,28(12):116-120.</p><p> [15] 吳銳,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【畢業(yè)設(shè)計+開題報告+文獻綜述】
- 圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【開題報告】
- 圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【畢業(yè)設(shè)計】
- 圖片人臉檢測系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 在線考試系統(tǒng)的設(shè)計與實現(xiàn)[文獻綜述]
- 在線點歌系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 基于android系統(tǒng)的文字閱讀器的設(shè)計與實現(xiàn)【開題報告+文獻綜述+畢業(yè)設(shè)計】
- 網(wǎng)上虛擬試衣系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 文獻綜述--家庭理財系統(tǒng)的設(shè)計與實現(xiàn)
- 基于php的crm系統(tǒng)設(shè)計與實現(xiàn)[文獻綜述]
- eboard倉儲管理系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 高校門禁系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 大學(xué)選課系統(tǒng)的分析、設(shè)計與實現(xiàn)【文獻綜述】
- idingfan訂餐系統(tǒng)后臺設(shè)計與實現(xiàn)【文獻綜述】
- 網(wǎng)絡(luò)花卉銷售系統(tǒng)的設(shè)計與實現(xiàn)【文獻綜述】
- 網(wǎng)上購物管理系統(tǒng)設(shè)計與實現(xiàn)【文獻綜述】
- 教材征訂管理系統(tǒng)設(shè)計與實現(xiàn) ——文獻綜述
- 文獻綜述--家庭理財系統(tǒng)的設(shè)計與實現(xiàn)
- 在線網(wǎng)摘系統(tǒng)的設(shè)計與實現(xiàn)[文獻綜述]
- 物流綜合管理系統(tǒng)的設(shè)計與實現(xiàn)[文獻綜述]
評論
0/150
提交評論