版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、蒙古族以前使用過若干個文字,但是目前主要使用傳統(tǒng)蒙古文、西里爾蒙古文和托忒文。
本文旨在研究傳統(tǒng)蒙古文和西里爾蒙古文的信息化技術(shù),該信息化技術(shù)一是指研究傳統(tǒng)蒙古文和西里爾蒙古文之間的文字轉(zhuǎn)化,二是研究傳統(tǒng)蒙古文和西里爾蒙古文的形態(tài)即詞法。本文緒論中詳細介紹了上述研究工作的意義、目的和目標(biāo)。
將計算機技術(shù)與蒙古學(xué)研究相結(jié)合已經(jīng)成為研究蒙古文計算語言學(xué)的必然趨勢。盡管在蒙古國內(nèi)已有相關(guān)公司及個人在此領(lǐng)域從事相關(guān)研究工作并
2、研發(fā)了一些相關(guān)的應(yīng)用程序,但上述應(yīng)用程序的研發(fā)水平尚不能與發(fā)達國家的相關(guān)研究水平相媲美。
鑒于此,本人致力于研究西里爾蒙古文和傳統(tǒng)蒙古文的信息化技術(shù)。
在這項工作中,我們試圖從形態(tài)分析西里爾蒙古文和傳統(tǒng)蒙古文,并利用蒙古文構(gòu)詞規(guī)則研究了西里爾蒙古文和傳統(tǒng)蒙古文的相互轉(zhuǎn)換問題。這個過程包含以下兩個步驟:首先,從形態(tài)分析西里爾蒙古文或傳統(tǒng)蒙古文語義,找出詞干和后綴;然后,將它們轉(zhuǎn)換成對應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文詞干和后
3、綴,并利用構(gòu)詞規(guī)則生成對應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文。本文完成的主要研究工作如下:
1.本文研究了西里爾蒙古文和傳統(tǒng)蒙古文的相關(guān)特點,從而試圖將二級形態(tài)的模型(Two Level Morphology Model)應(yīng)用在蒙古文當(dāng)中。從計算語言學(xué)角度考慮,西里爾蒙古文和傳統(tǒng)蒙古文有著很多相似之處,也有一些不同之處。目前,西里爾蒙古文的書寫規(guī)則有66大類。傳統(tǒng)蒙古文確只有3項書寫規(guī)則,即元音和諧規(guī)則、輔音規(guī)則、連接音規(guī)則。蒙古文是
4、粘著語,是詞干加后綴的形式生成新詞的。在詞干和后綴綴接方面,西里爾蒙古文和傳統(tǒng)蒙古文也有不同之處,這是因為書寫規(guī)則不同而導(dǎo)致。根據(jù)上述情況,本人研究了名詞和動詞的生成和解析模型,同時研究出詞干加構(gòu)形后綴的規(guī)則,并找出了詞干加多個構(gòu)形后綴的所有可能。
2.完成上述工作后建立對應(yīng)資源庫的工作顯得十分緊迫。資源庫是繼續(xù)開展西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作的基礎(chǔ)。該資源庫包括詞干資源庫、形態(tài)資源庫和附加資源庫。蒙古文詞干后綴加構(gòu)形
5、后綴后可以生成大規(guī)模的蒙古文單詞,所以本人選用詞干作為資源庫的基本單元,主要優(yōu)點是:資源庫的數(shù)據(jù)不會太大;加快應(yīng)用程序的運算速度;可以確定詞匯生成規(guī)則,進而掌握生成某種詞匯的所有可能。詞干資源庫包含3個子庫:西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)詞干庫,并包含單詞解釋(包含72000詞條);帶有詞性標(biāo)注的西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)詞干庫(包含61000詞條);由詞干編碼,詞匯生成、詞匯解析編碼組成的資源庫(48000條)。形態(tài)資源庫包含2個子庫
6、:西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)構(gòu)形后綴庫(包含86詞條);多個構(gòu)形后綴綴接條件庫(包含876詞條)。附件資源庫包含2個子庫:專有名詞庫(包含9135條);縮略語庫(包含1100條)。
3.根據(jù)二級形態(tài)的模型及“有窮自動機”制作出西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則模型。根據(jù)該模型對單詞的構(gòu)成進行分析,并做了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換試驗。PC-Kimmo是用于詞形分析的開源系統(tǒng),它由兩個組成部分,即詞匯形式和規(guī)則形式。本文以
7、PC-Kimmo為工具制作完成了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換模型。本文將詞匯分成了名詞和動詞兩大類,并分別建立了名詞生成模型和動詞生成模型。本人將西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則分別制作了模型,并利用該模型及資源庫建立了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換系統(tǒng),并把該系統(tǒng)命名為KIM MON(第一版)。該系統(tǒng)能夠為用戶解析、研判、生成詞匯并將最終結(jié)果告知用戶。
4.最后,利用KIM_MON系統(tǒng)進行了蒙古文詞法分析的實驗工作。實
8、驗結(jié)果表明:當(dāng)我們對西里爾蒙古文和傳統(tǒng)蒙古文的形態(tài)分析時,正確率達到了97.6%。在正確分析蒙古文形態(tài)基礎(chǔ)上KIM_MON能夠100%的正確的連接單詞。在詞法研究工作的基礎(chǔ)上,我們對西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作進行實驗,實驗結(jié)果表明:從西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換準(zhǔn)確率達到了91.3%,從傳統(tǒng)蒙古文到西里爾蒙古文的轉(zhuǎn)換準(zhǔn)確率達到了89.1%。在西里爾蒙古文的詞同義不同單詞的轉(zhuǎn)換實驗中,準(zhǔn)確率達到了86.9%。并且通過實驗得出,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于規(guī)則和統(tǒng)計的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究.pdf
- 基于LDA的西里爾蒙古文主題模型研究.pdf
- 蒙古文編碼轉(zhuǎn)換研究.pdf
- 蒙古文信息處理平臺-蒙古文、錫伯文和滿文的文字輸入法的研究.pdf
- 蒙古文停用詞表和詞干提取對蒙古文文本分類的影響.pdf
- 蒙古貞蒙古文對聯(lián)研究
- 蒙古文網(wǎng)頁抓取及編碼識別轉(zhuǎn)換研究.pdf
- 傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究.pdf
- 蒙古文停用詞和英文停用詞比較研究.pdf
- 基于Lucene的蒙古文全文檢索系統(tǒng)研究與實現(xiàn).pdf
- 基于深度學(xué)習(xí)和知識策略的蒙古文古籍識別研究
- 基于規(guī)則的傳統(tǒng)蒙古文句法分析研究.pdf
- 魯迅作品的蒙古文譯作研究
- 蒙古文字結(jié)構(gòu)研究.pdf
- 蒙古文信息檢索模型的研究.pdf
- 蒙古文古籍識別技術(shù)的研究.pdf
- 蒙古文變形顯現(xiàn)字符到名義字符轉(zhuǎn)換的研究與實現(xiàn).pdf
- 政治籠罩下的宗教紛爭——聶斯脫利與西里爾基督論之爭研究.pdf
- 蒙古文期刊評價系統(tǒng)設(shè)計與實現(xiàn)
- 規(guī)則與統(tǒng)計相結(jié)合的蒙古文編碼轉(zhuǎn)換的研究與實現(xiàn).pdf
評論
0/150
提交評論