印刷體漢字識別技術的研究畢業(yè)設計_第1頁
已閱讀1頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  學校代碼:10259</p><p><b>  上海應用技術學院</b></p><p><b>  學士學位論文</b></p><p>  題 目: 硬刷題漢字識別技術的研究 </p>

2、;<p>  專 業(yè): 電氣工程及其自動化 </p><p>  班 級: 09103212 </p><p&g

3、t;  姓 名: 沈佳駿 </p><p>  學 號: 0910321220 </p><p> 

4、 指導教師: 陳嵐 </p><p>  二O一三年 六月六日</p><p>  印刷體漢字識別技術的研究</p><p>  摘要:印刷體漢字識別技術是一種高速、自動的信息錄入手段,成為未來計算機的重要職能接口,還可以作

5、為辦公自動化、新聞出版、機器翻譯等領域的理想輸入方式,有著廣泛的應用前景。漢字識別的最終目的是使中文信息能更自然,更方便地輸入計算機,以便于進一步處理。實際生活中,大量的書信、報紙、雜志內(nèi)容需要輸入計算機,這就是印刷體漢字識別要解決的問題。本文首先在第一章就漢字識別研究的意義和背景以及對目前存在的問題作了綜述。第二章對印刷體漢字的識別過程進行基本概述。第三章對印刷體漢字識別作了詳細闡述,論述了印刷體漢字識別的原理和預處理、特征抽取與分析

6、、后處理過程;分析了統(tǒng)計模式識別方法、 結構模式識別方法以及人工神經(jīng)網(wǎng)絡模式識別方法;第四章用Matlab對系統(tǒng)進行了仿真;最后在第五章進行全文總結并預測了漢字識別技術研究今后的發(fā)展方向。</p><p>  關鍵詞:漢字識別; 特征提取; 匹配識別; 人工神經(jīng)網(wǎng)絡; Matlab仿真</p><p>  The research of printed Chinese characters

7、 recognition technology</p><p>  Abstract: Printed Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interfa

8、ce, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural a

9、nd convenient so that the computer could process Chinese information more easily. In practice, large volum</p><p>  KeyWords:Chinese characters recognition;feature extraction;Matching recognition;Artificial

10、neural network;Matlab simulation</p><p><b>  目 錄</b></p><p><b>  摘要i</b></p><p>  ABSTRACT.i</p><p><b>  目錄iii</b></p>&l

11、t;p><b>  1 緒論1</b></p><p>  1.1 印刷體漢字識別技術的研究意義1</p><p>  1.2 印刷體漢字識別技術的研究狀況1</p><p>  1.3 印刷體漢字識別技術存在的難點2</p><p>  2 印刷體漢字識別的概述4</p><

12、;p>  2.1 印刷體漢字識別的原理簡介4</p><p>  2.2 印刷體漢字識別的流程簡介4</p><p>  3 印刷體漢字識別技術的研究6</p><p>  3.1 預處理6</p><p>  3.2 漢字特征提取8</p><p>  3.3 漢字識別算法分類9<

13、/p><p>  3.4 后處理11</p><p>  3.5 印刷體漢字識別方法分析12</p><p>  3.5.1 結構模式識別方法12</p><p>  3.5.2 統(tǒng)計模式識別方法12</p><p>  3.5.3 人工神經(jīng)網(wǎng)絡14</p><p>  3.5.

14、4 BP神經(jīng)網(wǎng)絡15</p><p>  3.5.5 支持向量機17</p><p>  3.6 本章小結18</p><p>  4 系統(tǒng)的Matlab仿真19</p><p>  4.1 系統(tǒng)的分析19</p><p>  4.2 系統(tǒng)的實現(xiàn)20</p><p>  

15、4.2.1 特征提取20</p><p>  4.2.2 BP神經(jīng)網(wǎng)絡的建立21</p><p>  4.2.3 BP神經(jīng)網(wǎng)絡的訓練21</p><p>  4.2.4 系統(tǒng)的仿真23</p><p>  4.2.5 系統(tǒng)性能的進一步驗證27</p><p>  4.2.6 仿真結果分析31&l

16、t;/p><p>  4.3 本章小結32</p><p>  5 未來展望與全文總結33</p><p>  5.1 未來展望33</p><p>  5.2 全文總結33</p><p><b>  參考文獻35</b></p><p><b>

17、  致謝36</b></p><p><b>  參考附錄37</b></p><p><b>  參考附錄137</b></p><p><b>  參考附錄248</b></p><p><b>  1 緒論</b></p&g

18、t;<p>  1.1 印刷體漢字識別技術的研究意義</p><p>  漢字已有數(shù)千年的歷史,是中華民族文化的重要結晶,閃爍著中華人民智慧的光芒。同時也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。在跨入信息時代后,現(xiàn)如今漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是呈爆炸性增長,畢竟閱讀印刷材料更為符合人的自然閱讀習慣。然而,隨

19、著人們對電子化信息需求的日益增加,如何將漢字快速高效地輸入計算機,是信息處理的一個關鍵問題,也是關系到計算機技術能否在我國真正普及的重要前提,更是能否傳播與弘揚中華民族悠久歷史文化的關鍵因素。傳統(tǒng)的人工鍵入不僅速度慢而且勞動強度大,即使是專業(yè)的打字員每分鐘也只能輸入100-120個漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高,利用人工方法進行漢字輸入也將面臨經(jīng)濟效益的挑戰(zhàn)

20、。人們要求有一種能將文字信息高速、自動輸入計算機的方法,于是印刷體漢字識別技術便應運而生。這種快速,準確的自動處理方式將在很大程度上推動我國信息化的發(fā)展進程,對社會各方面的工作都有著相當深遠的意義。目前印刷體漢字識別技術已經(jīng)呈現(xiàn)出了</p><p>  漢字識別是模式識別的重要應用領域,也是光學字符識別OCR(Optical Character Recognition)的重要組成部分。漢字識別是一門多學科綜合性的

21、研究課題,它不僅與人工智能的研究有關,而且與數(shù)字信號處理、圖像處理、信息論、計算機科學、幾何學、統(tǒng)計學、語言學、生物學、模糊數(shù)學、決策論等技術都有著千絲萬縷的聯(lián)系。一方面各學科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進各學科的相互進步。因而該技術有著重要的實用價值和理論意義。同時,中國是使用漢字最久遠和最廣泛的國家。因此,能否在漢字識別技術的研究方面占據(jù)領先的位置也是中國科技實力的一項至關重要的體現(xiàn)。</p&g

22、t;<p>  1.2印刷體漢字識別技術的研究狀況</p><p>  印刷體漢字識別是文字識別技術的一種。利用機器識別文字符號,可以說從1929年奧地利科學家陶舍克利用光學模板匹配識別開始。當時,他使用了10塊模板對應10個數(shù)字,依次把待識別的數(shù)字投影到這10塊模板上,當模板透過的光達到最小時(數(shù)字遮擋了模板的透光部分),數(shù)字就被識別成這塊模板上的數(shù)字。大約在50年代末60年代初,就已經(jīng)出現(xiàn)了關于

23、利用計算機識別數(shù)字及英文符號的研究論文。據(jù)文獻記載,印刷體漢字的識別最早可以追溯到60年代中期。1966年,IBM公司發(fā)表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了1000個印刷體漢字。隨后,日本也在70年代開始對漢字識別進行了研究。1981年5月在日本第56屆商業(yè)展覽會上,富士通研究實驗室進行了手寫印刷體漢字識別的公開表演。1984年日本武藏野電氣研究所研制成多體印刷漢字識別裝置,可以識別2300個多

24、體漢字的印刷體漢字識別系統(tǒng), 識別率為99.88%,識別速度大于100字/秒,代表了當時漢字識別的最高水平[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識別系統(tǒng),但因這些系統(tǒng)價格極其昂貴,沒有得到廣泛應用。直</p><p>  同國外相比,我國的印刷體漢字識別研究起步較晚[2]。我國在20世紀70年代才開始對數(shù)字、英文字母及符號的識別技術進行研究,20世紀70年代末僅有少數(shù)大學和研究所開始

25、進行漢字識別的研究并發(fā)表了一些論文,研制了少量模擬識別軟件或系統(tǒng)。但由于我國政府從80年代中期開始對漢字自動識別輸人的研究給予了充分的重視和支持,漢字識別技術進入了研究的高潮。經(jīng)過科研人員這些年的辛勤努力,印刷體漢字識別技術的發(fā)展和應用有了長足進步,從簡單的單體識別發(fā)展到多種字體混排的多體識別,從中文印刷材料的識別發(fā)展到中英文混排印刷材料的雙語識別。各個系統(tǒng)可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可

26、以進行有效的定量分析,同時漢字識別率已達到了98%以上。進入90年代以來,印刷體漢字識別研究的主要目的是提高識別系統(tǒng)的品質(zhì)和效率,增強系統(tǒng)對不同文本的適應性,擴大使用面。在加強版面分析、識別結果上下文匹配后處理和各種實用化技術的研制的同時,進行對識別方法的進一步研究,促使更實用的產(chǎn)品廣泛出現(xiàn)。</p><p>  1.3 印刷體漢字識別技術存在的難點</p><p>  由于漢字具有以下幾

27、個方面的特點,使?jié)h字字符在識別難度上遠遠大于字母化字符的識別。</p><p><b> ?。?)類別較大</b></p><p>  目前我國常用漢字約3000~4000個。國標GB2312一80常用漢字字符集中共有,6763個常用字,分為兩級。第一級3,755個漢字,使用頻度為99.7%,第二級有3,008個漢字,兩級漢字總使用頻度為99.99%,識別系統(tǒng)一般應能

28、正確識別這些常用字,才能滿足實際應用的需要。目前的研究目標一般都著眼于解決國標一級3755個漢字,即使是這樣,漢字識別也屬于大類別數(shù)的模式識別問題??梢哉f,字量大是造成漢字識別困難的主要原因之一。</p><p><b> ?。?)結構復雜</b></p><p>  漢字是一種結構性很強的文字,每個漢字都具有獨一無二特定分布的若干筆劃構成,筆劃是漢字最基本的組成部分

29、,漢字也可以看成是由部件組合而成的,部件是筆劃有意義的組合,一般稱之為偏旁、部首或字根。筆劃和部首的不同排列組合,構成了數(shù)以千計表達不同含義的結構異常復雜的漢字字符。與世界上常用的其他民族的文字相比,漢字的結構是最為復雜的。 </p><p><b> ?。?)相似字多</b></p><p>  部分漢字字符之間只存在著很細小的差別,具有相同筆劃數(shù)目的漢字字符之間的

30、差異有的表現(xiàn)為某一個筆劃位置或形態(tài)的微小變化,又比如“土”和“士”這兩個字僅在下部筆劃長短有細微的差別而已。即使由人來辨認印刷體的這些漢字,在無上下文信息的幫助時,也很容易發(fā)生混淆[3]。識別算法和系統(tǒng)必須能夠正確判定這些細微的差異,否則就會發(fā)生錯誤。</p><p>  漢字的以上幾個特點就決定了沒有單一的一種特征就可以完成對漢字的識別,因此如何有效的選取各種特征,有效的進行組合,使它們在匹配速度和識別率上都能

31、滿足實際需求就成為整個系統(tǒng)的關鍵。</p><p>  2 印刷體漢字識別的概述</p><p>  2.1 印刷體漢字識別的原理簡介</p><p>  漢字識別(CCR:Chinese Character Recognition)是用電子計算機自動辨識印刷在紙上或者人寫在紙(或其他介質(zhì))上的漢字。漢字識別技術是計算機智能接口的一個重要組成部分。從學科上劃分,漢字

32、識別屬于模式識別和人工智能的范疇。它涉及到模式識別和圖像處理、人工智能、形式語言學、模糊數(shù)學等眾多學科,是一門綜合性的技術。該系統(tǒng)由輸入設備、漢字識別模塊和計算機硬、軟件三部分組成。核心部分是漢字識別模塊部分,印刷體漢字識別的過程主要過程包括預處理、特征提取、特征匹配、識別后處理。預處理是在所有識別處理之前進行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識別技術的深入研究,漢字的特征提取的算法越來越多,如何選擇

33、特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領域。漢字識別的基本思想是匹配識別,匹配識別技術涉及到分類器的設計等重要問題,這也是非常重要的一個環(huán)節(jié)。漢字的后處理是出于獲得最大化識別率考慮,它在前期已有識別水平上,通過調(diào)整參數(shù)或反饋處理獲得更高的識別率。在本文中,將二值化,平滑去噪,文本行字切分都歸為預處理。漢字圖像通過光電掃描儀,CCD器件等工具掃描</p><p>  2.2印刷體漢字識別的流程簡介</p&g

34、t;<p>  印刷體漢字識別的過程主要過程包括預處理、版面分析理解、文本行字切分、特征提取、漢字識別、識別后處理,在本文中,將版面分析理解、文本行字切分都歸為預處理。系統(tǒng)框圖如2.2.1所示。</p><p>  圖2.2.1 印刷體漢字識別流程圖</p><p>  版面分析主要是對文本圖像的總體進行分析,區(qū)分出文本段落及排版順序,圖像、表格的區(qū)域;對于文本區(qū)域?qū)⑦M行識別

35、處理,對于表格區(qū)域進行專用的表格分析及識別處理,對于圖像區(qū)域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個字符的過程。特征提取是整個環(huán)節(jié)中最重要的一環(huán),它是從單個字符圖像上提取統(tǒng)計特征或結構特征的過程,包括為此而做的細化(Thinning)、規(guī)范化(Normalization)等。提取特征的穩(wěn)定性及有效性,直接決定了識別的性能。文字識別,即從學習得到的特征庫中找到與待識別字符相似度最高的字符類的過程。后處理

36、則是利用詞義、詞頻、語法規(guī)則或語料庫等語言先驗知識對識別結果進行校正的過程。由此可見,印刷漢字識別技術主要包括圖像處理模塊,圖像版面的分析與理解模塊,圖像的行切分與字切分模塊,單字圖像的特征提取與匹配模塊,特征庫,識別結果的后處理模塊。其中單字圖像的特征提取與匹配模塊是印刷漢字識別中最為核心的技術。近幾年來,印刷漢字識別系統(tǒng)的單字識別正確率已經(jīng)超過98%,為了進一步提高系統(tǒng)的總體識別率,掃描圖像、圖像的預處理以及識別后處理等方面的技術,

37、也都得到了深入</p><p>  3 印刷體漢字識別技術的研究</p><p><b>  3.1 預處理 </b></p><p>  由于用數(shù)碼相機或掃描儀作為輸入設備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差,對識別效果有一定影響。因此,在對原始圖像進行識別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對

38、原始采樣信號進行預處理。預處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細化等[3][4]。</p><p><b>  (1)版面分析</b></p><p>  印刷體文字識別常遇到的識別主體不是一個文字段,而是整個版面,所以版面分析是印刷體文字識別系統(tǒng)中的重要組成部分。它是指對印刷體文檔圖像進行分析,提取出文本、圖像圖形、表格等區(qū)域,

39、并確定其邏輯關系,并將相應的文本塊連接在一起。這一過程的自動完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動完成所有的版面分析。</p><p><b> ?。?)二值化</b></p><p>  將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理[5],二值化的主要目的是將漢字從圖像中分離出來。通常的方法為先確定像素的閾值,比較像素

40、值和閾值的大小,從而確定為1或0,這個二值化閾值的選取較為關鍵。若閾值取的過大,則保留的信息過多,其中許多雜點無用信息造成了對以后處理的干擾;若閾值取得過小,則丟失的信息過多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。如何確定此閾值的過程也就成了研究二值化算法的重點?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應用限制。研究一種適合各種文字圖像的二值化方法也是預處理環(huán)節(jié)的重點。</p><p&

41、gt;<b>  (3)傾斜校正</b></p><p>  通過輸入設備獲得的圖像不可避免地會發(fā)生傾斜,這會給后面的行字分割、文字識別等圖像處理與分析帶來困難,因此,在漢字識別系統(tǒng)中,傾斜校正是圖像預處理的重要部分。傾斜校正的核心在于如何檢測出圖像的傾斜角。目前,傾斜角檢測的方法有許多種,主要可分為5類:基于Hough變換的方法;基于交叉相關性的方法;基于投影的方法;基于Fourier變換

42、的方法和最近鄰簇方法。靈活運用傾斜角度檢測算法將是傾斜校正環(huán)節(jié)的重要研究方向。</p><p><b>  (4)行字切分</b></p><p>  漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個漢字從整個圖像中分離出來。漢字的切分分為行切分和字切分。</p><p>  行切分是利用行與行之間的直線型空隙來分辨行,將各行的行上界和

43、行下界記錄下來[6]。典型的算法是,從上到下,對二值漢字點陣的每行像素值進行累加,若從某行開始的若干累加和均大于一個試驗常數(shù),則可認為該行是一漢字文本行的開始,即行上界。同理,當出現(xiàn)連續(xù)大約一個漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時,判定為行下界。</p><p>  字切分是利用字與字之間的直線型空隙來分辨字,將各字的左邊界和右邊界記錄下來。典型的算法是,在確定這一行的行上界和行下界之后,從左

44、到右搜索一行文字的左右邊界,切分出單字或標點符號。從左邊開始垂直方向的行距內(nèi)像素單列累加和均大于一個試驗常數(shù),則可認為是該漢字的左邊界。同理,當出現(xiàn)連續(xù)一個漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時,判定為該漢字的右邊界。對文本漢字行來說,由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號、和字間污點干擾,使得字切分比行切分困難得多。</p><p><b> ?。?)歸

45、一化</b></p><p>  歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置(平移),文字筆畫粗細變換等文字圖像的規(guī)格化處理,并只對文字圖像進行投影。漢字圖像的歸一化往往會帶來兩個問題:一是字符圖像的縮放可能會引入一些干擾;二是圖像縮放本身的運算量較大。所以,必須采用恰當?shù)臍w一化方法來盡可能的消除尺度變化對特征值提取的影響。</p><p><b>

46、 ?。?)平滑</b></p><p>  對數(shù)字圖像進行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。平滑在圖像處理中實質(zhì)是一幅文字圖像通過一個低通濾波器,去除高頻分量,保留低頻分量,在實際應用中,采用WXW(一般采用3x3)的輔助矩陣對二值文字圖像進行掃描。根據(jù)輔助矩陣中各像素0、1的分布,使處于矩陣中心的被平滑的像素X從“0”變成“1”或者從“1”變成“O”。常用的平滑濾波方法有中值濾波和均值

47、濾波[7]。</p><p><b>  (7)細化</b></p><p>  細化處理是在圖像處理中相當重要和關鍵的一環(huán),它是將二值化文字點陣逐層剝?nèi)ポ喞吘壣系狞c,變成筆畫寬度只有一個比特的文字骨架圖形。細化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細化處理結果的好壞,直接影響到識別的效果和質(zhì)量。在細化

48、處理過程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細化算法程序?qū)D像識別有很大的實用價值。</p><p>  針對文字圖像的細化算法已有很多,它的優(yōu)劣對系統(tǒng)的識別效果影響很大。對細化的一般要求是保持原有筆畫的連續(xù)性,不能由于細化造成筆畫斷開;細化成為單層像素線;保持文字原有特征,既不要增加,也不要

49、丟失,保持筆畫特征,最好細化掉筆鋒:細化結果是原曲線的中心線,保留曲線的端點,交叉部分中心線不畸變。針對各種不同的應用,國內(nèi)外已發(fā)表了許多細化算法,如Hilditch經(jīng)典細化算法、Deutsch算法等。然而,細化過程本身固有的弱點總是造成筆畫骨架線的畸變,增加對識別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等??梢哉f,這些問題依賴細化算法本身是無法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。&l

50、t;/p><p>  3.2 漢字特征提取</p><p>  預處理的最終目的是為了更加方便、準確地進行漢字的特征提取,從而提高漢字識別率。對于漢字,其特征大致分為兩類,包括結構特征和統(tǒng)計特征,至今總數(shù)己經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強的自動糾錯能力,但在另外一些情況下卻完全失去了效用[8]。例如,漢字特征點特征算法本身是一種比較簡單、完善的特征提取

51、算法。在漢字圖像滿足清晰、無筆畫連聯(lián)、無斷筆等細化要求時,是能夠完全將漢字的各種特征點位置提取處理的;若漢字圖像本身模糊不清,預處理工作也無法達到要求,這樣再好的漢字特征點特征提取算法也無法提取正確的漢字特征點特征,已經(jīng)獲得的特征點特征一旦應用到漢字識別系統(tǒng)中去,將會極大地影響整個系統(tǒng)的實用性。針對不同的系統(tǒng)需求,應該選擇不同的漢字特征,進行優(yōu)化特征組合,這樣才能達到系統(tǒng)最佳識別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部

52、分的重點研究領域。但不得不提到的是,任何一個實用的。識別系統(tǒng)只利用其中部分子空間的信息。由于信息的缺陷,便不可避免地遇到識別“死角”的問題。如下介紹并分析一下常用的一些的可供提取的漢字特征。</p><p><b> ?。?)結構特征</b></p><p><b>  ① 抽取筆畫法</b></p><p>  抽取筆畫

53、法是利用漢字由筆畫所構成的特點進行識別,它利用漢字的結構信息來進行漢字的聯(lián)機識別,在印刷體和脫機印刷體識別中,由于筆畫提取的困難,結果不是很理想。</p><p><b> ?、?松弛匹配法</b></p><p>  松弛匹配法是一種基于全局特征的匹配方法,它對輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。這種

54、方法利用彈性吸收漢字的變形,一個字只用一個樣本。其缺點是操作速度較慢,計算量大。</p><p><b> ?、鄯蔷€性匹配法</b></p><p>  非線性匹配法是由Tsukumo等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。此方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。</p><p><b>  (2)統(tǒng)計

55、特征</b></p><p><b> ?、?特征點法</b></p><p>  特征點提取算法的主要思想是利用字符點陣中一些有代表性的黑點(筆畫)、白點(背景)作為特征來區(qū)分不同的字符。特征點包括筆畫骨架線的端點、折點、歧點和交點,漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點作為特征點,有利于提高系統(tǒng)的抗干擾能力。其特點是能夠大大壓縮特征

56、庫的容量,對于內(nèi)部筆畫粘連字符,其識別的適應性較強、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。</p><p><b> ?、?筆段特征法</b></p><p>  漢字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長度和寬度的矩形段。利用筆段與筆段之間的關系組成特征對漢字進行識別,受字體和字號的影響小,對于多體漢字的識別獲得了

57、良好效果。其缺點是筆段的提取會較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。當然,漢字的特征多種多樣,各有各的優(yōu)點、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識別效果達到最佳,選擇哪些特征來優(yōu)化組合來達到整個系統(tǒng)的識別效果達到最佳,這也是設計者需要考慮的因素。</p><p> ?、鬯倪叴a(Four-side Code)</p><p>  四邊碼是在漢字點陣圖的四周

58、各取一條帶,計算其中的文字圖像素點數(shù),并將它分成四級,構成一個四元組。由于漢字邊框不但含有豐富的結構信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強,但對漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復雜性指數(shù)正好形成互補。</p><p>  當然,漢字的特征多種多樣,各有各的優(yōu)點、短處和不同的適用范圍。選擇什么樣的特征使得此單分類環(huán)節(jié)的識別效果達到最佳,選擇哪些特征來優(yōu)化組合來達到整個系統(tǒng)的識別效果達到最佳,這都需要

59、通過具體的實驗來驗證。但不管使用什么樣的特征,漢字特征的提取都要遵循區(qū)別性、可靠性、獨立性和特征數(shù)量這四個標準[9]。</p><p>  而本文為實現(xiàn)特征提取,我們將著重于對漢字的橫豎撇捺四種特征的提取(漢字本身屬性決定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向數(shù)據(jù)統(tǒng)計特征提取法,13特征點提取方法等,本設計中將引入13點特征提取法。</p><p>  3.3 漢字識

60、別算法分類 </p><p>  識別算法是整個識別過程的核心部分。原始圖像經(jīng)過預處理后,得到一個較為理想的二值圖像,然后就可以對這個處理后的二值圖像進行識別。識別的過程包括根據(jù)識別算法選擇和提取漢字的特征、與標準文字的特征進行匹配判別。</p><p>  漢字的分類識別方法也是漢字識別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點。</p><p><b&

61、gt; ?。?)相關匹配</b></p><p>  這是一種統(tǒng)計識別方法,它通過在特征空間中計算輸入特征向量與各模板向量之間的距離進行分類判決。相關匹配是一種統(tǒng)計識別方法。統(tǒng)計方法的優(yōu)點是特征提取和模板的建立都比較容易,抗干擾能力強,使局部噪聲不敏感:缺點是分辨相似字的能力較弱,對書寫風格的變化比較敏感。</p><p><b> ?。?)文法分析</b>

62、;</p><p>  文法分析的基本思想是將輸入的漢字看作是一個語句或符號串,將識別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種語言,即句子是否符合某種語言的語法約束條件,這種方法在漢字識別中也得到了應用。</p><p>  文法分析是典型的結構識別方法,由于其側重點是在筆段形狀、位置以及筆段之間相互關系的分析上,所以它的優(yōu)點是分辨相似字的能力較強,對書寫風格的變化不敏感:缺點是對局部噪聲敏感

63、,特征提取比較復雜。</p><p><b> ?。?)松弛匹配</b></p><p>  無論是相關匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應關系,然而在結構分析中,往往事先難以確定兩者各分量間的對應關系,此時可以采用松弛匹配法。</p><p>  松弛匹配法首先通過迭代運算,找出輸入向量與模板向量各分量

64、間的對應關系,然后再根據(jù)這一對應關系進行匹配。迭代開始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構成一個初始權值矩陣。矩陣中各元素的值為相應分量之間的初始匹配概率,然后通過迭代運算對各個權值進行修正,并將其中趨近于零的值置為零,直至權值的變化趨于穩(wěn)定,此時,可以認為權值矩陣中非零元素所對應的分量之間只有對應關系,然后根據(jù)這一對應關系計算輸入量與該模板問的距離,重復上述過程。求出輸入量與每個模板間的距離,取其中距離最小的模板

65、所代表的類別為識別結果。</p><p>  松弛匹配法兼具統(tǒng)計方法和結構方法的特長。由于它是根據(jù)總體的匹配程度來決定識別結果的,所以這一點它類似于統(tǒng)計方法,同時它在迭代中還把基元間位置關系等結構信息考慮在內(nèi),這一點又很像結構方法。因此松弛匹配法在漢字識別中取得了很好的效果,它不僅可以用于特征點的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點是運算量較大,識別中往往需要增加預分類環(huán)節(jié)以減小運算量。另外,它

66、吸收畸變的能力仍有不足。</p><p><b> ?。?)人工神經(jīng)網(wǎng)絡</b></p><p>  漢字識別是一個非?;钴S的分支,不斷有新的方法涌現(xiàn)出來,為漢字識別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡的識別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡理論的應用己經(jīng)滲透到各個領域,并在模式識別、智能控制、計算機視覺、自適應濾波和信號處理、非線性優(yōu)化、自動目標識別,連續(xù)語

67、音識別、聲納信號的處理、知識處理、傳感技術與機器人、生物等領域都得到了日益廣泛地應用。</p><p><b>  3.4 后處理</b></p><p>  后處理就是利用相關算法對識別后的漢字文本或者初級識別結果做進一步的處理,糾正誤識的漢字,給出拒識的漢字,確定模棱兩可的漢字。漢字識別的后處理方法從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計算機自動

68、處理。一般而言,后處理可以在相關編程過程中由計算機自動實現(xiàn)[6]。</p><p>  以下對各種常用的后處理方法做簡單的介紹。</p><p><b> ?。?)簡單的詞匹配</b></p><p>  簡單的詞匹配就是利用文本中字的上下文匹配關系和詞的使用頻度,給識別后文本中的拒識字提供一個“最佳”的候選字,其關鍵是建立漢語詞條數(shù)據(jù)庫。該數(shù)

69、據(jù)庫應具印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究有完善的詞條存儲、維修功能,應該能夠反映不同詞的使用頻度,應盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。</p><p><b> ?。?)綜合詞匹配</b></p><p>  綜合詞匹配方法,就是綜合利用初級識別結果和字的上下文關系及詞的使用頻度,來決定最后的識別結果。這種方法實際上己把識別過

70、程和后處理過程融為一體了。</p><p>  綜合利用初級識別結果與詞條信息的糾錯優(yōu)于單純利用詞條的糾錯。綜合詞匹配法可以減少搜索詞條關系時的搜索空間,從而提高糾錯速度。這是因為在尋找字的上下文匹配關系時,利用初級識別結果的待選集,可以大大縮小搜索范圍,避免了在整個詞條庫中查詢。在不利用待選集時,對于有可能識別出錯的地方,只能采用拒識,而拒識不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時的

71、搜索空間只能是整個詞條庫。另外,當某一個詞前后兩個字都被拒識時,簡單的詞匹配法就無能為力,而綜合詞匹配法仍能利用詞條信息進行糾錯。</p><p><b> ?。?)詞法分析</b></p><p>  語言是語音和意義的結合體。語素是最小的語言單位。無論是詞還是短語,都有其構成規(guī)則,利用這些規(guī)則,將它們分類。另外,不同的應用背景,也有不同的分類結果。</p&g

72、t;<p>  漢字識別后處理的詞法分析方法,就是在詞匹配的基礎上,對仍難以確定的漢字,找出這些漢字與前后漢字所能組成的詞,然后通過詞法分析,確定一個能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識別的漢字。基于詞法分析的漢字識別后處理的關鍵是構造一個完善的詞條數(shù)據(jù)庫。該數(shù)據(jù)庫中的每一個詞條項都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。</p><p> ?。?)句法、語義分析</p&

73、gt;<p>  語句無論是從結構上,還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則。所以利用語義句法的方法,在初級識別結果的基礎上,在利用詞法分析進行匹配之后或匹配的同時,再進行句法分析和語義分析,從而確定要識別的漢字。</p><p>  進行語義句法分析也要首先建立詞條庫。這時詞條庫中的每一個詞條項,還要包括該詞的句法信息和語義信息。另外,還要建立起一套句法規(guī)則和語義規(guī)則,

74、以便指導語法分析和語義分析。</p><p> ?。?)人工神經(jīng)元網(wǎng)絡</p><p>  利用人工神經(jīng)元網(wǎng)絡的漢字識別后處理可以采取兩種方式。一種是把識別過程和后處理過程分開,網(wǎng)絡的輸入是初級識別結果的短語或者句子,其中包含不確定的漢字(或拒識的漢字),通過網(wǎng)絡的運行,最終確定這些字。另一種方法是把識別過程和后處理過程綜合在一起,初級識別給出的結果是每一個待識漢字的前幾個候選字和每一候選

75、字與待識字之間的相似度。然后,把這些候選字以及與之相連的相似度輸入網(wǎng)絡,通過網(wǎng)絡的并行作用,找到最符合漢語語法和語義組合關系的詞或句子,從而確定出要識別的漢字。</p><p>  3.5 印刷體漢字識別方法分析</p><p>  3.5.1 結構模式識別方法 </p><p>  漢字的數(shù)量巨大,結構復雜,但其特殊的組成結構中蘊藏著相當嚴的規(guī)律。從筆畫上講,漢字

76、有包括橫、豎、撇、捺、點、折、勾等七種基本筆畫,還有提挑、撇點、橫捺等七種變形筆畫。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。換而言之,漢字圖形具有豐富的有規(guī)律可循的結構信息,可以設法提取含有這些信息的結構特征和組字規(guī)律,將它們作為漢字識別的依據(jù)。這就是結構模式識別。</p><p>  結構模式識別理論在20 世紀70 年代初形成,是早期漢字識別研究的主要方法。其思想是直接從字符的輪廓或骨架上提

77、取的字符像素分布特征,如筆畫、圈、端點、節(jié)點、弧、突起、凹陷等多個基元組合,再用結構方法描述基元組合所代表的結構和關系。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關系完全可以精確地對漢字加以描述,最后利用形式語言及自動機理論進行文法推斷,即識別。結構模式識別方法的主要優(yōu)點在于對字體變化的適應性強,區(qū)分相似字能力強;缺點是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點比較困難,匹配過程復雜。因此,有人采用漢字輪廓結構信

78、息作為特征,但這一方案需要進行松弛迭代匹配,耗時太長,而且對于筆畫較模糊的漢字圖像,抽取輪廓會遇到極大困難。也有些學者采用抽取漢字圖像中關鍵特征點來描述漢字,但是特征點的抽取易受噪聲點、筆畫的粘連與斷裂等影響??傊畣渭儾捎媒Y構模式識別方法的脫機手寫漢字識別系統(tǒng),識別率較低。</p><p>  3.5.2 統(tǒng)計模式識別方法 </p><p>  統(tǒng)計決策論發(fā)展較早,理論也較成熟。其要點是提

79、取待識別模式的的一組統(tǒng)計特征,然后按照一定準則所確定的決策函數(shù)進行分類判決。漢字的統(tǒng)計模式識別是將字符點陣看作一個整體,其所用的特征是從這個整體上經(jīng)過大量的統(tǒng)計而得到的。統(tǒng)計特征的特點是抗干擾性強,匹配與分類的算法簡單,易于實現(xiàn)。不足之處在于細分能力較弱,區(qū)分相似字的能力差一些。常用的漢字統(tǒng)計模式識別方法包括[10]:</p><p><b>  (1)模板匹配</b></p>

80、<p>  模板匹配是將漢字的圖像直接作為特征,將之與特征庫中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點陣均存儲起來,既占用大量的內(nèi)存空間,特別是對嵌入式系統(tǒng)來說是不可容忍的,也將在尋找最相似漢字過程中耗費大量的時間,這對實時系統(tǒng)也是致命的。另外,其對于傾斜、筆畫變粗變細均無良好的適應能力。</p><p>  (2)利用變換特征的方法</p>&l

81、t;p>  該方法利用各種函數(shù)變換,例如K-L變換、Fourier變換和Gabor變換等對漢字圖像特征進行變換。但這些變換如果沒有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復雜度高。</p><p><b> ?。?)筆畫方向特征</b></p><p>  筆畫方向的統(tǒng)計特征總共有3種:全局筆畫方向密度G-DCD,局部筆畫方向密度L-DCD和周邊筆畫

82、方向PDC。前兩者用于預分類,后者用于單字識別。這些特征都是以筆畫方向貢獻(Direction Contribution)為基礎。</p><p><b> ?。?)外圍特征</b></p><p>  漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。</p><p>

83、<b> ?。?)特征點特征</b></p><p>  漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點上。一旦確定這些筆畫特征點,漢字筆畫以及結構形狀就可以確定。它們包括端點、折點、歧點和交點等。漢字特征點的提取一般是基于漢字細化后的單像素圖像,而往往細化算法不能達到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點點變形或噪聲都會影響漢字特征點的提取。也就是它的魯棒

84、性一般不好。</p><p>  當然還有許多種不同的統(tǒng)計特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。隨著漢字識別技術的發(fā)展,已經(jīng)有越來越多的統(tǒng)計特征</p><p>  出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。</p><p>  如表3-1所示為統(tǒng)計方法和結構方法特征比較:</p>&l

85、t;p>  表3-1 統(tǒng)計方法和結構方法特征比較</p><p>  由上述分析可見,統(tǒng)計與結構方法各有優(yōu)缺點。統(tǒng)計方法具有良好的魯棒性,較好的抗干擾抗噪聲的能力,它一般按一定的距離度量匹配準則,采用多維特征值累加的辦法,把局部噪聲和微小畸變淹沒在最后的累加和里,但是,可以用來區(qū)分“敏感部位”的差異也隨之消失,因此對漢字結構的差異區(qū)分能力較弱,區(qū)分相似字的能力較差;而結構方法對結構特征較敏感,區(qū)分相似字的能

86、力較強,但是結構特征難以抽取,不穩(wěn)定。因此,現(xiàn)在人們已注意到將兩種方法結合起來使用,加強識別技術的穩(wěn)定性與泛化能力使之可處理更多類型、更加復雜的模式。這是近年來文字識別領域的一個重要研究方向,并將得到廣泛應用。</p><p>  3.5.3人工神經(jīng)網(wǎng)絡</p><p>  人工神經(jīng)網(wǎng)絡(Artificial Neural Network,以下稱ANN)是一種模擬人腦神經(jīng)元細胞的網(wǎng)絡結構,

87、它是由大量簡單的基本元件—神經(jīng)元,相互連接成的自適應非線性動態(tài)系統(tǒng)[11]。雖然目前對于人腦神經(jīng)元的研究還不算完善,我們無法確定ANN的工作方式是否與人腦神經(jīng)元的運作方式相同,但是ANN正在吸引著越來越多的注意力。</p><p>  ANN中的各個神經(jīng)元的結構與功能較為簡單,但大量的簡單神經(jīng)元的組合卻可以非常復雜,我們從而可以通過調(diào)整神經(jīng)元間的連接系數(shù)完成分類、識別等復雜的功能。ANN還具有一定的自適應的學習與

88、組織能力,組成網(wǎng)絡的各個“細胞”可以并行工作,并可以通過調(diào)整“細胞”間的連接系數(shù)完成分類、識別等復雜的功能。</p><p>  ANN可以作為單純的分類器(不包含特征提取、選擇),也可以用作功能完善的分類器。在英文字母與數(shù)字的識別等類別數(shù)目較少的分類問題中,常常將字符的圖像點陣直接作為神經(jīng)網(wǎng)絡的輸入。不同于傳統(tǒng)的模式識別方法,在這種情況下,神經(jīng)網(wǎng)絡所“提取”的特征并無明顯的物理含義,而是儲存在神經(jīng)物理中各個神經(jīng)

89、元的連接之中,省去了由人來決定特征提取的方法與實現(xiàn)過程。從這個意義上來說,ANN提供了一種“字符自動識別”的可能性。此外,ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復雜的類間分界面,這也為復雜分類問題的解決提供了一種可能的解決方式。</p><p>  目前,在對于像漢字識別這樣超多類的分類問題,ANN的規(guī)模會很大,結構也很復雜,實用性較差。另外,這種方法所需要的訓練樣本規(guī)模比較大,訓練過程也比

90、較長。對于與樣本相差較大的模式的識別能力也比較差。這其中的原因很多,主要的原因還在于我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案。</p><p>  人工神經(jīng)網(wǎng)絡模式識別與傳統(tǒng)的統(tǒng)計模式識別開始是兩個獨立發(fā)展的分支,但隨著研究的深入,人們發(fā)現(xiàn)二者之間存在緊密的聯(lián)系。在一些情況下,統(tǒng)計方法和神經(jīng)網(wǎng)絡方法是可互相替代的,實際上神經(jīng)網(wǎng)絡的方法有時被認為是統(tǒng)計方法的子集。例如,對于統(tǒng)計模式識別方法,

91、如分段線性判決函數(shù)法,F(xiàn)isher線性判決規(guī)則,多變量高斯線性分類器,主成分分析PCA(Primary Component Analysis)等,都可用神經(jīng)網(wǎng)絡的并行計算結構或迭代計算結構實現(xiàn):而一些重要的神經(jīng)網(wǎng)絡模型,其學習算法與統(tǒng)計方法是相通的,如在一定條件下,MLP和RBF分類器的對于訓練樣本的輸出就是該樣本的后驗概率的估計,這等價于Bayes方法。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡方法有許多地方與統(tǒng)計方法在數(shù)學原理上是相通的。

92、但是,神經(jīng)網(wǎng)絡確實有優(yōu)于傳統(tǒng)統(tǒng)計方法的地方,這表現(xiàn)為[11]:</p><p> ?。?)神經(jīng)網(wǎng)絡的計算結構是并行的,而且常常是通過大量簡單單元的協(xié)同運算完成諸如求矩陣特征值這樣復雜的計算任務,這一點在PCA網(wǎng)絡中得以充分體現(xiàn)。</p><p> ?。?)神經(jīng)網(wǎng)絡不但能在模式空間中形成復雜的判決表面,而且還具備自適應的能力,即網(wǎng)絡不但具備自適應的學習能力,還能自適應地調(diào)整網(wǎng)絡規(guī)模的大小,適

93、合大類別集的識別工作。</p><p>  (3)一般的神經(jīng)網(wǎng)絡兼有模式變換和模式特征提取的作用,如前饋網(wǎng)絡的隱層就有非線性映射的功能,這一特點也被利用來與其他方法結合來確定一些重要的參數(shù)。</p><p> ?。?)神經(jīng)網(wǎng)絡由于其信息的分布式的存儲方式使它具備一定的容錯能力,因此神經(jīng)網(wǎng)絡分類器對于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識別。</p><p&

94、gt;  由于上述優(yōu)點,神經(jīng)網(wǎng)絡的識別方法正在越來越多地得到關注,也因而成為近來的研究熱點。但是,神經(jīng)網(wǎng)絡方法還需要在以下幾方面進行深人研究:網(wǎng)絡的模型,以保證網(wǎng)絡的快速收斂;訓練樣本集的選擇,全面的學習樣本是高識別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡的過訓練,訓練樣本特征的選取,保證良好的識別穩(wěn)定性。</p><p>  3.5.4 BP神經(jīng)網(wǎng)絡</p><p>  BP(Back Pro

95、pagation)神經(jīng)網(wǎng)絡是1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。BP網(wǎng)絡能學習和存貯大量的輸入- 輸出模式映射關系,而無需事前揭示描述這種映射關系的數(shù)學方程。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡的權值和閾值,使網(wǎng)絡的誤差平方和最小[12]。BP神經(jīng)網(wǎng)絡模型拓撲結構包括輸入層(input)、隱層(hide

96、layer)和輸出層(output layer)。BP神經(jīng)網(wǎng)絡結構圖(圖3.5.2):</p><p>  圖3.5.2 BP神經(jīng)網(wǎng)絡結構</p><p>  在人工神經(jīng)網(wǎng)絡發(fā)展歷史中,很長一段時間里沒有找到隱層的連接權值調(diào)整問題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡權重調(diào)整問題。 </p><p>  

97、BP (Back Propagation)神經(jīng)網(wǎng)絡,即誤差反傳誤差反向傳播算法的學習過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。輸入層各神經(jīng)元負責接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負責信息變換,根據(jù)信息變化能力的需求,中間層可以設計為單隱層或者多隱層結構;最后一個隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進一步處理后,完成一次學習的正向傳播處理過程,由輸出層向外界輸出信息處理結果。當實際輸出與期望輸

98、出不符時,進入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權值,向隱層、輸入層逐層反傳。周而復始的信息正向傳播和誤差反向傳播過程,是各層權值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡學習訓練的過程,此過程一直進行到網(wǎng)絡輸出的誤差減少到可以接受的程度,或者預先設定的學習次數(shù)為止。 </p><p>  BP神經(jīng)網(wǎng)絡模型BP網(wǎng)絡模型包括其輸入輸出模型、作用函數(shù)模型、誤差計算模型和自學習模型。</p>

99、<p> ?。?)節(jié)點輸出模型 </p><p>  隱節(jié)點輸出模型: (3-3) </p><p>  輸出節(jié)點輸出模型: (3-4) </p><p>  f-非線形

100、作用函數(shù);q -神經(jīng)單元閾值。</p><p><b> ?。?)作用函數(shù)模型</b></p><p>  作用函數(shù)是反映下層輸入對上層節(jié)點刺激脈沖強度的函數(shù)又稱刺激函數(shù),一般取為(0,1)內(nèi)連續(xù)取值Sigmoid函數(shù):</p><p><b> ?。?-5)</b></p><p><b&g

101、t; ?。?)誤差計算模型</b></p><p>  誤差計算模型是反映神經(jīng)網(wǎng)絡期望輸出與計算輸出之間誤差大小的函數(shù):</p><p>  (3-6) </p><p>  tpi-i節(jié)點的期望輸出值;Opi-i節(jié)點計算輸出值。</p><p><b>  (4)

102、自學習模型</b></p><p>  神經(jīng)網(wǎng)絡的學習過程,即連接下層節(jié)點和上層節(jié)點之間的權重拒陣Wij的設定和誤差修正過程。BP網(wǎng)絡有師學習方式-需要設定期望值和無師學習方式-只需輸入模式之分。自學習模型為:</p><p><b> ?。?-7) </b></p><p>  h-學習因子;-輸出節(jié)點i的計算誤差;Oj-輸出節(jié)點

103、j的計算輸出;a-動量因子。</p><p>  3.5.5支持向量機</p><p>  支持向量機是Vapnik 等人根據(jù)統(tǒng)計學習理論提出的一種新的機器學習方法,已經(jīng)在模式識別、回歸分析和特征選擇等方面得到了較好的效果。支持向量機可以看作一種新的訓練多項式、徑向基機分類器或神經(jīng)網(wǎng)絡分類器的方法。其分類原理是通過某種事先選擇的非線性映射將輸入向量映射到高維特征空間,然后在這個高維空間構造

104、最優(yōu)超平面,使兩類之間的間隔最大,同時保證訓練樣本的分類誤差盡可能小。</p><p>  支持向量機與神經(jīng)網(wǎng)絡的學習方法相比,支持向量機具有以下特點: </p><p> ?。?)支持向量機是基于結構風險最小化原則,保證學習機器具有良好的泛化能力; </p><p> ?。?)解決了算法復雜度與輸入向量密切相關的問題; </p><p> 

105、 (3)通過引用核函數(shù),將輸入空間中的非線性問題映射到高維特征空間中在高維空間中構造線性函數(shù)判別; </p><p>  (4)支持向量機是以統(tǒng)計學理論為基礎的,與傳統(tǒng)統(tǒng)計學習理論不同。它主要是針對小樣本情況,且最優(yōu)解是基于有限的樣本信息,而不是樣本數(shù)趨于無窮大時的最優(yōu)解; </p><p> ?。?)算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡無法解決的局部最小

106、問題; </p><p> ?。?)支持向量機有嚴格的理論和數(shù)學基礎,避免了神經(jīng)網(wǎng)絡實現(xiàn)中的經(jīng)驗成分。</p><p><b>  3.6 本章小結</b></p><p>  本章對印刷體漢字識別技術的理論部分進行了較為全面和詳細的研究,論述了漢字在識別過程中各個組成部分基本的運作原理,并對多種識別方法進行了簡要的論述及比較。文字的識別方法主

107、要分為結構模式識別、統(tǒng)計模式識別、人工神經(jīng)網(wǎng)絡三種方法。其中結構模式識別方法主要是早期文字識別的主要方法,隨著統(tǒng)計理論的發(fā)展,統(tǒng)計模式識別方法逐漸成為文字識別主要的研究力法。近年來,人工神經(jīng)網(wǎng)絡發(fā)展迅猛,它模擬人腦的活動方式,更符合人們的思維習慣。但它的建模比較復雜,而且運算量大。在印刷體漢字識別中采用有一定的難度,還需進一步改進和簡化。</p><p>  4 系統(tǒng)的Matlab仿真</p>&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論