基于圖的手寫漢字切分與識別技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩121頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、離線手寫漢字識別中,字符的正確切分是實現(xiàn)傳統(tǒng)OCR(OpticalCharacterReading)技術(shù)可用性的基本因素。然而,對于自由手寫漢字字符串,在識別之前無法可靠地對字符實施分割,主要困難來源于字符大小、間距的變化和相鄰字符之間的粘連。找到所有的候選切分位置是成功分割的前提。根據(jù)候選切分位置構(gòu)造候選字符模式,由候選字符模式識別結(jié)果的有效性可以做出切分決策,其中需要將字符分類結(jié)果和語言知識合并到分割中。利用語言知識的策略以及分割與

2、分類的實施,均依賴于特定的應用背景,語言知識可以用于候選字符識別或識別假設的后處理。 對于存在字符間粘連的手寫體漢字串,在圖像上精確定位包含所有分割位置的候選切分位置集是很困難的。然而,漢字是由簡單筆劃按照特定的關(guān)系構(gòu)成的,粘連漢字的分割點在筆劃結(jié)構(gòu)上通常是清晰的。 本文提出了一種基于筆劃結(jié)構(gòu)圖的手寫體漢字切分與識別方法。通過提取漢字的筆劃結(jié)構(gòu)并以圖的方式予以表達,將漢字的切分與識別轉(zhuǎn)換為圖的分割和識別,運用圖論進行漢字

3、的切分。對于由多個連通部件構(gòu)成或者發(fā)生內(nèi)部斷裂的漢字,可以通過筆劃結(jié)構(gòu)子圖的合并構(gòu)成候選的字符模式;而彼此粘連漢字的切分就是相應圖的分割。采用基于骨骼的筆劃提取方法,提取漢字的筆劃結(jié)構(gòu);從筆劃結(jié)構(gòu)圖上直接計算筆劃方向特征,采用特征值誤差補償和非對稱分布模型對候選字符模式進行分類;針對特定的應用背景,采用詞典驅(qū)動的切分與識別策略。 基于骨骼圖像的筆劃提取取決于特征點的提取,特征點集合的完整性是提取正確筆劃結(jié)構(gòu)的前提。 預分

4、割是基于子圖合并的切分與識別策略的基礎。預分割并非一定要求提取單個完整的字符,如果在詞圖上存在一條從源點到終點的路徑,該路徑上的邊構(gòu)成相應的字符序列,則預分割的結(jié)果就使得正確分割成為可能。 筆跡重構(gòu)是從字符的靜態(tài)圖像中提取筆跡順序信息,有助于將在線識別方法應用于離線識別問題,以及實現(xiàn)單個手寫字符識別和字符序列識別方法的統(tǒng)一。 在已經(jīng)提取筆劃結(jié)構(gòu)的情況下,當然可以采用結(jié)構(gòu)匹配的方法進行漢字識別。然而,基于降低技術(shù)難度和提高

5、穩(wěn)定性的考慮,本文采用了統(tǒng)計模式識別理論與方法進行漢字識別,直接從筆劃結(jié)構(gòu)上計算筆劃方向特征,綜合利用了漢字筆劃結(jié)構(gòu)穩(wěn)定和統(tǒng)計方法抗噪聲干擾的優(yōu)點。 馬氏距離是在多變量正態(tài)分布概率密度函數(shù)的假設下推導出來的,然而,漢字字符樣本的分布與正態(tài)分布假設有明顯的差異。當可以利用的樣本數(shù)量有限時,主向量分析(PrincipalComponentAnalysis)計算的特征值通常包含誤差。因此,需要采用改進的馬氏距離來計算未知模式的特征矢量

6、與某類的均值矢量之間的距離。 詞典驅(qū)動的方式在英文單詞識別中已有廣泛的應用。漢字類別繁多,采用詞典驅(qū)動的方法進行詞語識別,是針對特定應用背景的一種有效的解決方案。 本文對上述問題進行了深入研究,主要創(chuàng)新體現(xiàn)在以下方面:1.采用基于識別的手寫體漢字切分策略,并將其轉(zhuǎn)換為相應圖的分割。2.基于骨骼的特征點直接提取方法,保證筆劃提取的可靠性,并基于筆劃結(jié)構(gòu)直接計算筆劃方向特征。3.基于圖分割的漢字切分方法,字符切分就是相應筆劃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論