

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、在漢字信息處理領(lǐng)域,現(xiàn)有的各種漢字字形形式化描述方法主要以文字研究和漢語教學(xué)研究中描寫漢字形體結(jié)構(gòu)的結(jié)構(gòu)分析法為基礎(chǔ),采用人認知的結(jié)構(gòu)類型、部件、筆畫等構(gòu)形單位對漢字字形進行分層描述。這些方法在字形拆分規(guī)則、結(jié)構(gòu)類型劃分、描述基元選取等方面存在著歧義和描述缺失,無法滿足統(tǒng)一描述各種漢字(包括錯字、古籍異體字、民俗拼合字)字形的需要,也無法支持字形自動比對計算處理,不能滿足以字形比對計算分析為基礎(chǔ)的各種應(yīng)用需要,如教學(xué)研究中錯字描述及偏誤
2、定量分析、古籍字形描述及比對分析、數(shù)字圖書中生僻字形檢索等。 基于統(tǒng)計機器學(xué)習(xí)的漢字識別模型,對事先無法收集樣本的錯字、異體字、拼合字等特殊漢字,由于沒有訓(xùn)練樣本可學(xué)習(xí),無法支持這類漢字的分類計算。對于可收集訓(xùn)練樣本的一般漢字,識別模型中采用的字形統(tǒng)計特征難以邏輯解析來與人認知的字形結(jié)構(gòu)類型、部件、筆畫建立對應(yīng)關(guān)系,是一種“黑盒”字形描述模型,無法支持面向人的各種字形比對分析應(yīng)用需要。 上述問題歸結(jié)為漢字缺少統(tǒng)一有效的字
3、形形式化描述和字形比對計算方法。本文工作圍繞這一核心問題展開,面向字形比對分析應(yīng)用建立了一種漢字字形描述方法及一組相關(guān)的字形比對算法和實用工具。主要創(chuàng)新性工作包括: 1)提出一種筆段網(wǎng)格漢字字形形式化描述方法,用預(yù)先定義好長度、方向的直線段——筆段作為描述字形的基元,基元顆粒度適當、規(guī)范、無歧義,能統(tǒng)一描述一切可能今文字(包括錯字、異體字、拼合字)字形骨架的異同。論證實驗表明,這種方法與相同基元量點陣字形相比,描述同一漢字所需的
4、有效基元更少,字形比對計算效率更高;描述不同漢字的字形間區(qū)分度大,有利于提高字形比對計算的準確性和可靠性,具有較高的性能代價比。 2)基于筆段網(wǎng)格字形描述方法,本文進一步提出一組字形比對算法。其中,筆段上下文字形比對算法,以筆段為比對單位,在GB2312字符集漢字和部分錯字、異體字上的測試實驗表明,算法無需進行訓(xùn)練就能比對字形相似性,字形相似性比對結(jié)果受漢字結(jié)構(gòu)類型、筆畫劃分影響小,在輸入字形和比對字形網(wǎng)格大小一致時比對準確率可
5、達100%;基于筆段組合的字形比對算法,在筆段網(wǎng)格字形描述基礎(chǔ)上,能自動提取簡單筆畫、復(fù)合筆畫,既能按簡單筆畫為單位進行字形比對,也能按復(fù)合筆畫、簡單筆畫自適應(yīng)進行字形比對。在同樣測試漢字集上實驗表明,基于簡單筆畫和復(fù)合筆畫的字形比對算法無需訓(xùn)練就能進行字形相似度比對計算,比對結(jié)果對輸入字形整體大小變化、斜筆畫不同變形的敏感性降低,對依照約束描畫的結(jié)構(gòu)規(guī)范字形,比對準確率很高,可達到100%;比對單位大,比對效率高,可以適應(yīng)大規(guī)模漢字字
6、形的比對、查找;比對單位容易與人認知的構(gòu)字單位建立對應(yīng)關(guān)系,是一種“白盒”字形相似度比對計算方法,既適用整體字形比對,也適用局部字形比對,對結(jié)構(gòu)比例失調(diào)較大的不規(guī)范字形能發(fā)現(xiàn)與結(jié)構(gòu)規(guī)范字形的差異性,適合面向字形分析的應(yīng)用需要。 此外,建立了基于筆畫關(guān)系矩陣的漢字結(jié)構(gòu)關(guān)系描述和計算方法,可用于支持漢字結(jié)構(gòu)類型的自動判別。 3)由于漢字部件在漢字形體結(jié)構(gòu)研究中的重要性,本文提出了在筆段網(wǎng)格描述的簡單筆畫上,附加組合關(guān)系標注的
7、部件描述方法及部件自動發(fā)現(xiàn)算法,實驗表明,該算法能很準確發(fā)現(xiàn)包含特定部件的漢字,而不受部件在字形中位置和大小的影響。 4)本文還改進了《漢字信息字典》的漢字結(jié)構(gòu)描述體系,提出了基于結(jié)構(gòu)描述的字形相似度比對算法,實驗表明,該法找到的相似字結(jié)構(gòu)類型一致性好,與人認知的相似字吻合度較高(96%以上),適合結(jié)構(gòu)類型劃分無歧義漢字的相似性計算。 5)本文最后設(shè)計實現(xiàn)了一個實用軟件系統(tǒng)——漢字字形描述和自動比對分析工具,采用大眾化手
8、寫描畫方法來建立筆段網(wǎng)格字形描述,可以輸入各種可以想見的漢字,包括錯字、異體字和拼合字及其它相關(guān)信息,能自動將筆段網(wǎng)格字形轉(zhuǎn)換成對應(yīng)TrueType字模,與標準字符集內(nèi)漢字一樣被處理。對筆段網(wǎng)格字形可以自動進行整字、局部的字形比對,找出按相似度大小排序的相似字。采用這一工具完成了GBK字符集20902個漢字及北京語言大學(xué)留學(xué)生錯字的描述,字形庫應(yīng)用于漢字教學(xué)錯字偏誤分析。 這些工作有益于漢字字形描述的標準化,在基于漢字字形計算的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢字字形描述技術(shù)研究.pdf
- 俗字字形描述方法研究.pdf
- 基于形式化描述的構(gòu)件庫應(yīng)用研究.pdf
- 筆段網(wǎng)格漢字字形筆畫曲線美化及應(yīng)用研究.pdf
- 基于COM的漢字字形描述工具軟件的研究.pdf
- UML順序圖的形式化描述方法研究.pdf
- 基于RSL的協(xié)議形式化描述方法研究.pdf
- 安全協(xié)議的形式化設(shè)計方法及應(yīng)用研究.pdf
- 基于網(wǎng)格應(yīng)用的高層形式化描述.pdf
- 應(yīng)用系統(tǒng)的形式化描述研究與實現(xiàn).pdf
- 中日漢字字形比較研究.pdf
- 突發(fā)事件應(yīng)急預(yù)案形式化描述方法研究.pdf
- 數(shù)據(jù)驅(qū)動的漢字字形分析與優(yōu)化方法研究.pdf
- 圖像結(jié)構(gòu)的形式化描述.pdf
- 協(xié)議形式化技術(shù)的應(yīng)用研究.pdf
- UML用例模型的B形式化描述方法研究.pdf
- 形式化方法在CSTA系統(tǒng)測試中的應(yīng)用研究.pdf
- B語言與方法在算法形式化中的應(yīng)用研究.pdf
- 漢字字形解體及其ERP證據(jù)的研究.pdf
- 基于形式化方法的SIP研究與應(yīng)用.pdf
評論
0/150
提交評論