2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、脫機(jī)手寫體漢字識別具有廣闊的應(yīng)用前景和很高的理論價值。從應(yīng)用角度來看,它可以廣泛應(yīng)用于各種紙質(zhì)文檔的高速自動錄入,圖書資料的數(shù)字化,郵件的自動分揀,證件的自動閱讀,票據(jù)的自動處理等方面。從理論方面來講,研究脫機(jī)手寫體漢字識別可以認(rèn)識高難度模式識別的一般規(guī)律,有助于發(fā)展新的模式識別理論,從而對傳統(tǒng)的模式識別理論和技術(shù)在脫機(jī)手寫體漢字識別中的局限性有所突破,且因它涉及到模式識別、圖像處理、數(shù)字信號處理、自然語言理解、人工智能、模糊數(shù)學(xué)、信息

2、論、中文信息處理等許多學(xué)科,故脫機(jī)手寫體漢字識別在相關(guān)學(xué)科研究和多學(xué)科的融合研究中都有很高的理論價值。 從1966年IBM公司的Casey和Nagy首次發(fā)表印刷體漢字識別的文章開始算起,到現(xiàn)在漢字識別已有40多年的歷史。經(jīng)過無數(shù)科研工作者的不懈努力,漢字識別中的聯(lián)機(jī)手寫體識別和脫機(jī)印刷體識別已日趨成熟,出現(xiàn)了很多有實用價值的產(chǎn)品。只有脫機(jī)手寫體識別至今還不能達(dá)到令人滿意的效果,被稱為文字識別中“最難征服的領(lǐng)域”,尤其是基于結(jié)構(gòu)特

3、征的手寫體漢字識別更具有挑戰(zhàn)性。它不能利用筆劃順序、書寫輕重等重要信息,而且手寫體漢字因人而異,字體繁多,其中連筆問題和變形問題是手寫體漢字識別中的兩大難點(diǎn)。因此,如何解決這些問題已經(jīng)成為研究的熱點(diǎn)。 本文主要研究脫機(jī)手寫體漢字識別中基于筆段的識別方法,涉及到模式識別、圖像處理等技術(shù)。預(yù)處理在識別過程中占有重要地位,其中細(xì)化和特征點(diǎn)提取是本文的研究重點(diǎn)。細(xì)化方法主要有2類,第1類是一遍掃描,得到單側(cè)邊緣;第2類是多遍掃描,得到中

4、心線(骨架)。在第2類方法中,目前較成熟的是利用模板細(xì)化,但存在著模板數(shù)目太多,內(nèi)存需求大,運(yùn)算速度慢等缺陷。為彌補(bǔ)這一缺陷,一些學(xué)者提出了基于分組的細(xì)化方法,但遠(yuǎn)未成熟。有鑒于此,本文在此基礎(chǔ)上提出了分組細(xì)化法,不僅能夠較快地實現(xiàn)細(xì)化,而且同時能夠標(biāo)記出除拐點(diǎn)之外的特征點(diǎn)。具體地說,即逐個掃描字符圖像像素點(diǎn),由當(dāng)前像素點(diǎn)8鄰點(diǎn)的分組個數(shù)來判斷此點(diǎn)類型,對筆劃圖像前景點(diǎn)逐層做類型標(biāo)記(刪除某點(diǎn)時僅做刪除標(biāo)記,不立即置為背景,直到下一輪掃

5、描時,才視為背景),如此循環(huán),直到所有前景點(diǎn)被標(biāo)記完為止。在細(xì)化過程中,根據(jù)分組數(shù),標(biāo)記字符圖像中心線中的孤立點(diǎn)(0分叉)、端點(diǎn)(1分叉)、骨架點(diǎn)(2分叉)和交叉點(diǎn)(3~8分叉)。 拐點(diǎn)提取方法可分為以下2類:第1類方法是按局部特征來提取拐點(diǎn),即從像素點(diǎn)入手。這一類方法運(yùn)算量大,易受噪聲干擾。第2類方法按全局特征來檢測拐點(diǎn),從筆劃的整體形狀入手,略去骨架的小波折。這類方法簡單,檢測速度快,受噪聲影響小,適合于尋找漢字骨架上的拐點(diǎn)

6、,如最大距離法。但最大距離法只能處理單拐點(diǎn)筆劃,不能處理多拐點(diǎn)筆劃,也不能判斷筆劃上拐點(diǎn)的個數(shù)。本文提出的遠(yuǎn)端拐點(diǎn)法,對最大距離法進(jìn)行了改進(jìn)。既保持了運(yùn)算速度快、受噪聲影響小的優(yōu)點(diǎn),又能判斷筆劃上拐點(diǎn)的個數(shù),找出多拐點(diǎn)筆劃上的所有拐點(diǎn)。 實驗證明,分組細(xì)化法和遠(yuǎn)端拐點(diǎn)法執(zhí)行速度快,內(nèi)存需求小,算法簡單,效率高。最后,本文給出了脫機(jī)手寫體漢字識別系統(tǒng)的流程,其中有些模塊尚未實現(xiàn),或尚有一定缺陷,這有待進(jìn)一步研究。文中給出了部分算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論