基于筆段的脫機(jī)手寫體漢字識(shí)別方法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-12 格式：pdf 頁(yè)數(shù)：70 大?。?.52MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩69頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、脫機(jī)手寫體漢字識(shí)別具有廣闊的應(yīng)用前景和很高的理論價(jià)值。從應(yīng)用角度來(lái)看，它可以廣泛應(yīng)用于各種紙質(zhì)文檔的高速自動(dòng)錄入，圖書資料的數(shù)字化，郵件的自動(dòng)分揀，證件的自動(dòng)閱讀，票據(jù)的自動(dòng)處理等方面。從理論方面來(lái)講，研究脫機(jī)手寫體漢字識(shí)別可以認(rèn)識(shí)高難度模式識(shí)別的一般規(guī)律，有助于發(fā)展新的模式識(shí)別理論，從而對(duì)傳統(tǒng)的模式識(shí)別理論和技術(shù)在脫機(jī)手寫體漢字識(shí)別中的局限性有所突破，且因它涉及到模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、自然語(yǔ)言理解、人工智能、模糊數(shù)學(xué)、信息

2、論、中文信息處理等許多學(xué)科，故脫機(jī)手寫體漢字識(shí)別在相關(guān)學(xué)科研究和多學(xué)科的融合研究中都有很高的理論價(jià)值。從1966年IBM公司的Casey和Nagy首次發(fā)表印刷體漢字識(shí)別的文章開(kāi)始算起，到現(xiàn)在漢字識(shí)別已有40多年的歷史。經(jīng)過(guò)無(wú)數(shù)科研工作者的不懈努力，漢字識(shí)別中的聯(lián)機(jī)手寫體識(shí)別和脫機(jī)印刷體識(shí)別已日趨成熟，出現(xiàn)了很多有實(shí)用價(jià)值的產(chǎn)品。只有脫機(jī)手寫體識(shí)別至今還不能達(dá)到令人滿意的效果，被稱為文字識(shí)別中“最難征服的領(lǐng)域”，尤其是基于結(jié)構(gòu)特

3、征的手寫體漢字識(shí)別更具有挑戰(zhàn)性。它不能利用筆劃順序、書寫輕重等重要信息，而且手寫體漢字因人而異，字體繁多，其中連筆問(wèn)題和變形問(wèn)題是手寫體漢字識(shí)別中的兩大難點(diǎn)。因此，如何解決這些問(wèn)題已經(jīng)成為研究的熱點(diǎn)。本文主要研究脫機(jī)手寫體漢字識(shí)別中基于筆段的識(shí)別方法，涉及到模式識(shí)別、圖像處理等技術(shù)。預(yù)處理在識(shí)別過(guò)程中占有重要地位，其中細(xì)化和特征點(diǎn)提取是本文的研究重點(diǎn)。細(xì)化方法主要有2類，第1類是一遍掃描，得到單側(cè)邊緣；第2類是多遍掃描，得到中

4、心線(骨架)。在第2類方法中，目前較成熟的是利用模板細(xì)化，但存在著模板數(shù)目太多，內(nèi)存需求大，運(yùn)算速度慢等缺陷。為彌補(bǔ)這一缺陷，一些學(xué)者提出了基于分組的細(xì)化方法，但遠(yuǎn)未成熟。有鑒于此，本文在此基礎(chǔ)上提出了分組細(xì)化法，不僅能夠較快地實(shí)現(xiàn)細(xì)化，而且同時(shí)能夠標(biāo)記出除拐點(diǎn)之外的特征點(diǎn)。具體地說(shuō)，即逐個(gè)掃描字符圖像像素點(diǎn)，由當(dāng)前像素點(diǎn)8鄰點(diǎn)的分組個(gè)數(shù)來(lái)判斷此點(diǎn)類型，對(duì)筆劃圖像前景點(diǎn)逐層做類型標(biāo)記(刪除某點(diǎn)時(shí)僅做刪除標(biāo)記，不立即置為背景，直到下一輪掃

5、描時(shí)，才視為背景)，如此循環(huán)，直到所有前景點(diǎn)被標(biāo)記完為止。在細(xì)化過(guò)程中，根據(jù)分組數(shù)，標(biāo)記字符圖像中心線中的孤立點(diǎn)(0分叉)、端點(diǎn)(1分叉)、骨架點(diǎn)(2分叉)和交叉點(diǎn)(3～8分叉)。拐點(diǎn)提取方法可分為以下2類：第1類方法是按局部特征來(lái)提取拐點(diǎn)，即從像素點(diǎn)入手。這一類方法運(yùn)算量大，易受噪聲干擾。第2類方法按全局特征來(lái)檢測(cè)拐點(diǎn)，從筆劃的整體形狀入手，略去骨架的小波折。這類方法簡(jiǎn)單，檢測(cè)速度快，受噪聲影響小，適合于尋找漢字骨架上的拐點(diǎn)

6、，如最大距離法。但最大距離法只能處理單拐點(diǎn)筆劃，不能處理多拐點(diǎn)筆劃，也不能判斷筆劃上拐點(diǎn)的個(gè)數(shù)。本文提出的遠(yuǎn)端拐點(diǎn)法，對(duì)最大距離法進(jìn)行了改進(jìn)。既保持了運(yùn)算速度快、受噪聲影響小的優(yōu)點(diǎn)，又能判斷筆劃上拐點(diǎn)的個(gè)數(shù)，找出多拐點(diǎn)筆劃上的所有拐點(diǎn)。實(shí)驗(yàn)證明，分組細(xì)化法和遠(yuǎn)端拐點(diǎn)法執(zhí)行速度快，內(nèi)存需求小，算法簡(jiǎn)單，效率高。最后，本文給出了脫機(jī)手寫體漢字識(shí)別系統(tǒng)的流程，其中有些模塊尚未實(shí)現(xiàn)，或尚有一定缺陷，這有待進(jìn)一步研究。文中給出了部分算法

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于筆段的脫機(jī)手寫體漢字識(shí)別方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于筆段的脫機(jī)手寫體漢字識(shí)別方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載