圖片文字提取系統(tǒng)的設(shè)計與實(shí)現(xiàn)【文獻(xiàn)綜述】_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  畢業(yè)設(shè)計文獻(xiàn)綜述</b></p><p><b>  計算機(jī)科學(xué)與技術(shù)</b></p><p>  圖片文字提取系統(tǒng)的設(shè)計與實(shí)現(xiàn)</p><p><b>  一、前言部分</b></p><p>  圖片文字的檢測與識別技術(shù)在計算機(jī)網(wǎng)絡(luò)日益發(fā)展的今

2、天有著大量的應(yīng)用,特別是對于基于內(nèi)容的圖片或視頻過濾、檢索等應(yīng)用來講,有重要意義,它可以幫助我們了解圖片內(nèi)容或者視頻內(nèi)容[1]。</p><p>  圖片中的文字可分為兩大類:一類是圖片中場景本身包含的文字,稱為場景文字;另一類是圖片后期制作中加入的文字,稱為人工文字。一般人工文字的特點(diǎn):文字位于前端,且不會被遮擋;文字一半是單色的;文字大小在一幅圖片中固定,并且寬度和高度答題相同,從滿足人眼視覺感受的角度來說,

3、圖片中文字的尺寸不會過大也不會過??;文字的分布比較集中;文字的排列一般為水平方向或是垂直方向;多行文字之間,以及單行內(nèi)各個字之間存在不同于文字區(qū)域的空隙等[2]。而場景文字的特點(diǎn)卻與之正好相反:文字和其他自然景物混雜在一起,背景復(fù)雜;文字的顏色多種多樣;文字的字體和大小復(fù)雜多變;光照的變化等[3]。</p><p>  在分析圖像算法之前,我們先了解一下我們所要分析的BMP位圖的基本知識。BMP是英文Bitmap

4、(位圖)的簡寫,它是Windows操作系統(tǒng)中的標(biāo)準(zhǔn)圖像文件格式,能夠被多種Windows應(yīng)用程序所支持。位圖文件可看成由4個部分組成:位圖文件頭(bitmap-file header)、位圖信息頭(bitmap-information header)、彩色表(color table)和定義位圖的字節(jié)陣列。</p><p>  圖像邊緣的定義。圖像的大部分信息都存在于圖像的邊緣中,主要表現(xiàn)為圖像局部特征的不連續(xù)性,

5、即圖像中灰度變化比較劇烈的地方。因此,我們把邊緣定義為圖像中灰度發(fā)生急劇變化的區(qū)域邊界。根據(jù)灰度變化的劇烈程度,通常將邊緣劃分為階躍狀和屋頂狀兩種類型。階躍邊緣兩邊的灰度值變化明顯,而屋頂邊緣位于灰度值增加與減少的交界處。那么,對階躍邊緣和屋頂邊緣分別求取一階、二階導(dǎo)數(shù)就可以表示邊緣點(diǎn)的變化。因此,對于一個階躍邊緣點(diǎn),其灰度變化曲線的一階導(dǎo)數(shù)在該點(diǎn)達(dá)到極大值,二階導(dǎo)數(shù)在該點(diǎn)與零交叉;對于一個屋頂邊緣點(diǎn),其灰度變化曲線的一階導(dǎo)數(shù)在該點(diǎn)與零

6、交叉;二階導(dǎo)數(shù)在該點(diǎn)達(dá)到極大值[4]。</p><p>  圖像二值化對于提取文本信息非常重要。二值化的結(jié)果好壞,直接影響著最終的處理結(jié)果。對于文本標(biāo)簽的提取,如果能夠?qū)D像文字區(qū)域合適二值化,就可以應(yīng)用基于區(qū)域的灰度聚類方法實(shí)現(xiàn)文字區(qū)域的檢測定位[1]。</p><p>  通過參考了2002-2009年間發(fā)表于《計算機(jī)應(yīng)用研究》、《計算機(jī)應(yīng)用》、《光學(xué)技術(shù)》、《計算機(jī)科學(xué)》、《計算機(jī)工

7、程與設(shè)計》、《計算機(jī)工程與應(yīng)用》等學(xué)術(shù)雜志中的研究論文,借鑒了天津理工大學(xué)學(xué)報、通信學(xué)報、延邊大學(xué)學(xué)報(自然科學(xué)版)、電子與信息學(xué)報等大學(xué)學(xué)報文章,通過分析和總結(jié)這些文章,對圖片文字提取的算法有了深刻的理解。</p><p><b>  二、主題部分</b></p><p>  (一)圖片提取技術(shù)的歷史背景</p><p>  隨著計算機(jī)科學(xué)的

8、飛速發(fā)展,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介。從圖像中提取文字屬于信息智能化處理的前沿課題,是當(dāng)前人工智能與模式識別領(lǐng)域中的研究熱點(diǎn)。文字具有高級語義特征,因此圖像中的文本是圖像內(nèi)容的一個重要來源,如果這些文本能自動地被檢測、分割、識別出來,則對圖像語義的自動理解、索引和檢索是非常有價值的。所以,研究圖片文字提取就具有了重要的實(shí)際意義。</p><p>  靜態(tài)圖片中文本提取方面的文獻(xiàn)不是很豐富,之

9、前的研究更多關(guān)注文檔圖像的分析和處理. 而對于復(fù)雜圖像中的文本或者嵌入圖像的文本標(biāo)簽進(jìn)行提取和分析研究剛剛引起人們的興趣. 目前提出的紋理特征主要包括有原始像素抽樣[5]、局部方差[6]、梯度分布[7]、強(qiáng)邊緣的密度及方向分布等空域統(tǒng)計特征,以及小波、FFT、Gabor變換系數(shù)的統(tǒng)計特征,如矩、直方圖、共生矩陣等。通過梯度特征進(jìn)行邊緣檢測,可以達(dá)到快速的定位效果,然而同時約束參數(shù)設(shè)置非常復(fù)雜,并且檢測錯誤率也很高;利用紋理特征決定像素塊

10、是否屬于文字,可以在復(fù)雜背景的條件下檢測文字信息, 但是計算非常耗時, 而且文字精確定位的穩(wěn)定性也不夠理想;對于視頻文字,可以利用相鄰幀的相關(guān)性大體確定字幕位置,然而這種方法不能用來處理靜態(tài)圖像. 另外,基于支持向量機(jī)(SVM) 分類器的多尺度定位算法也得到了廣泛的研究,雖然其檢測效果較好,但算法復(fù)雜,需事先有樣本進(jìn)行學(xué)習(xí)分類器的訓(xùn)練[8] .</p><p>  (二)發(fā)展現(xiàn)狀——圖片文字提取算法的研究<

11、/p><p>  1、人工文字提取的算法</p><p>  (1)為了能夠清楚地辨識出每個字的結(jié)構(gòu),文字在顏色上與其背景總是存在一定差異。因此,文字提取的實(shí)質(zhì)就是描述文字圖層與背景圖層之間的差異,并以這種差異對像素進(jìn)行聚類。對彩色圖像在HSV顏色空間進(jìn)行色彩聚類形成顏色圖層,再通過投影算法將顏色圖層進(jìn)一步細(xì)分為子圖層進(jìn)行圖層分析,最后通過子圖層合并產(chǎn)生備選文字圖層,能夠良好地從各種復(fù)雜顏色背

12、景中提取垂直或平行于圖像邊緣的單色文字。具體方法:顏色聚類;子圖層分割;圖層分析;圖層合并[9]。</p><p>  (2) 視頻文字大小自適應(yīng)提取算法基于離散傅里葉變換( discrete Fourier transform, DFT)特征、多分辨率處理及支持向量機(jī)分類技術(shù)。算法在不同分辨率下結(jié)合梯度信息、文字邊界定位技術(shù)提取出文字候選區(qū)域,然后用支持向量機(jī)對于候選圖像塊DFT特征作進(jìn)一步分類。具體方法:提取

13、候選區(qū)域;分割候選區(qū)域塊及文字邊界定位;多分辨率融合處理;驗證候選塊[10]。</p><p>  (3) 彩色圖像下的文本提取方法,該方法對彩色圖像在R、G、B 三個顏色層分別進(jìn)行亮度分級,以避開傳統(tǒng)顏色聚類方法的聚類數(shù)目選擇問題,降低圖像復(fù)雜度;考慮到文字筆畫的顯著方向性特征,并且通常具有穩(wěn)定的顏色,利用方向梯度算法進(jìn)行文本粗定位;然后進(jìn)一步利用多類SVM分類器實(shí)現(xiàn)文本區(qū)域精確判別。具體方法:亮度分級;筆畫檢

14、測算法;SVM 精確判別[11]。</p><p>  (4) 自動提取圖像中的文本對圖像視頻檢索具有重要意義。提出了一種基于顏色和筆畫特征, 應(yīng)用無監(jiān)督聚類方法進(jìn)行復(fù)雜背景下的文本分割算法。首先在對文本進(jìn)行圖像增強(qiáng)的基礎(chǔ)上, 應(yīng)用顏色約減和直方圖確定文本顏色。然后提取顏色和筆畫特征, 應(yīng)用k􀀁均值聚類算法分割出文本和背景像素。最后應(yīng)用后處理優(yōu)化分割結(jié)果。具體方法:圖像增強(qiáng)預(yù)處理;文本顏色估計;

15、特征提?。粺o監(jiān)督聚類;基于連通成分的后處理[12]。</p><p>  (5) 為解決漸變色給文字提取聚類算法帶來的問題,研究與實(shí)現(xiàn)了基于二值化聚類的圖像文字提取算法。圖像通過一系列預(yù)處理后,得到了利于聚類的二值圖像,根據(jù)背景圖像區(qū)域特征,對圖像進(jìn)行聚類分塊,再利用文字圖像區(qū)域特征,聚類識別出文字區(qū)域。具體方法:預(yù)處理,包括灰度化、二值化、長線剔除;文本聚類,包括背景查找、文字分割[13]。</p>

16、<p>  (6) 一種利用筆畫線條的統(tǒng)計特征基于支持向量機(jī)進(jìn)行圖像中疊加文字檢測的方法。該算法首先通過一種改進(jìn)的線段檢測算子提取出筆畫線段;然后對筆畫線條通過區(qū)域合并定位出候選文字塊;接著對候選文字塊提取一個反映文字筆畫線條空間分布特點(diǎn)的32 維特征,并通過支持向量機(jī)建立的模型對候選文字塊進(jìn)行確認(rèn)分類。具體方法:基于筆畫線條的特征抽??;基于SVM的候選文字塊分類確認(rèn);基于筆畫線條粗定位候選文字塊[14]。</p&g

17、t;<p>  2、場景文字提取算法</p><p>  (1) 基于邊緣檢測的文本提取方法對自然場景文本的提取進(jìn)行研究。通過改進(jìn)彩色圖像邊緣檢測和二值邊緣圖像的形態(tài)學(xué)文本定位的算法,從而實(shí)現(xiàn)場景文本的提取。先將原始圖片進(jìn)行金字塔分解,然后進(jìn)行圖片預(yù)處理,對圖像進(jìn)行邊緣提取和二值化,再形態(tài)學(xué)文本定位,最后文本區(qū)域字符提取[3]。</p><p>  (2) 自然環(huán)境下文本圖像

18、背景復(fù)雜,常規(guī)閾值分割方法往往無法有效分割;基于譜聚類的圖像分割方法利用圖分割理論可以有效地實(shí)現(xiàn)圖像分割,但過高的計算復(fù)雜度和空間復(fù)雜度使其在處理大圖像時不能滿足實(shí)際需求?;诨叶戎狈綀D的譜聚類分割方法來實(shí)現(xiàn)字符提取,利用像素灰度計算相似性,在灰度直方圖上構(gòu)造相似矩陣,并通過實(shí)驗確定直方圖的理想等級數(shù)及相關(guān)參數(shù)。通過將像素級上的劃分轉(zhuǎn)化為灰度等級上的劃分,從而大大減少特征值求解時的計算量和開銷,提高算法的實(shí)用性及有效性[15]。<

19、/p><p>  3、圖像邊緣檢測算法</p><p>  基于灰度直方圖的邊緣檢測,基于梯度的邊緣檢測包括Roberts邊緣算子、Sobel邊緣檢測算子、Prewitt 邊緣算子、Laplacan邊緣算子,Canny邊緣檢測算子,模糊推理的邊緣檢測,Mallat小波邊緣檢測算子等[4]。</p><p><b>  三、總結(jié)部分</b></

20、p><p>  上述不同算法實(shí)際上反映了學(xué)術(shù)界對圖片文字提取技術(shù)研究方向的不同。同時,這些算法之間也是相互聯(lián)系的,其所達(dá)成的共識是:文字具有高級語義特征,對圖片內(nèi)容的理解、索引、檢索等具有重要作用,因此,研究圖片文字提取具有重要的實(shí)際意義。由于不同的方法并不是孤立的, 它們各自具有其局限性和應(yīng)用范圍, 因此在實(shí)際應(yīng)用中, 應(yīng)該結(jié)合多種方法, 以實(shí)現(xiàn)有效地提取文字的目的。為此, 在以后的研究中, 我們不但需要研究自適應(yīng)

21、的文字提取算法,也應(yīng)研究多種方法的融合機(jī)制, 從而實(shí)現(xiàn)對包括漸變、場景文字等復(fù)雜情況在內(nèi)的圖像進(jìn)行文字檢測與提取。此外, 還可將提取出的文字從原圖中除去,同時修復(fù)被文字所遮擋的背景區(qū)域, 然后添加上多語種的文字, 這對于不同語種間的圖像交流和圖像的再次使用是很有意義的。</p><p><b>  四、參考文獻(xiàn)</b></p><p>  [1] 王健,王晨. 基于靜

22、態(tài)圖片的文本提取技術(shù)的研究[J].延邊大學(xué)學(xué)報(自然科學(xué)版),2007,33(2):124-128.</p><p>  [2] 田其沖,董恒強(qiáng),何新求.靜態(tài)圖像提取文字技術(shù)[J].電腦編程技巧與維護(hù),2008,6(13):96-97,104.</p><p>  [3] 何興恒,胡德婷.有效的場景文本提取算法[J].計算機(jī)工程與設(shè)計,2008,29(10):2598-2599,2603.

23、</p><p>  [4] 段瑞玲,李慶祥,李玉和. 圖像邊緣檢測方法研究綜述[J].光學(xué)技術(shù),2005,31(3):415-419.</p><p>  [5] KIM K I,JUNG K ,KIM J H.Texture-based approach for text detection in images using support vector machines and con

24、tinuously adaptive mean shift algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12): 1631-1639.</p><p>  [6] ZHONG Y,KARU K,JAIN A K.Locating text in complex color images[J]

25、.Pattern Recognition,1995,28(10):1523-1535.</p><p>  [7] LIENHART R, WERNICKE A. Localizing and segmenting text in images and videos[J]. IEEE Transactions on Circuits and Systems for Video Technology,2002,12

26、(4): 256-268.</p><p>  [8] 莊越挺,劉駿偉,吳飛.基于支持向量機(jī)的視頻字幕自動定位與提取[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2002,14(8):750-753.</p><p>  [9] 劉世與,曹作良.復(fù)雜色彩單幀圖像中的文字提取[J].天津理工大學(xué)學(xué)報,2007,23(6):58-61.</p><p>  [10] 薛衛(wèi),都思丹

27、,吳書凱.視頻文字大小自適應(yīng)提取算法[J].計算機(jī)應(yīng)用研究,2009,26(3):1146-1147,1159.</p><p>  [11] 劉瓊,周慧燦,王耀南.結(jié)合亮度分級和筆畫檢測的彩色圖像文本提取[J]. 計算機(jī)工程與應(yīng)用,2008,44(18):157-159,162.</p><p>  [12] 黃百鋼,李俊山,胡雙演.基于顏色和筆畫特征的文本分割算法[J].計算機(jī)科學(xué),2

28、009,36(7):292-294.</p><p>  [13]戴維,張申生.基于二值化聚類的圖像文字提取算法[J].計算機(jī)應(yīng)用,2009,29(1):57-59,77.</p><p>  [14] 王偉強(qiáng),付立波,高文,黃慶明,蔣樹強(qiáng).基于筆畫特征的疊加文字檢測方法[J].通信學(xué)報,2007,28(12):116-120.</p><p>  [15] 吳銳,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論