西里爾和傳統(tǒng)蒙古文的形態(tài)和轉(zhuǎn)換系統(tǒng)研究.pdf_第1頁
已閱讀1頁,還剩153頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、蒙古族以前使用過若干個文字,但是目前主要使用傳統(tǒng)蒙古文、西里爾蒙古文和托忒文。
  本文旨在研究傳統(tǒng)蒙古文和西里爾蒙古文的信息化技術(shù),該信息化技術(shù)一是指研究傳統(tǒng)蒙古文和西里爾蒙古文之間的文字轉(zhuǎn)化,二是研究傳統(tǒng)蒙古文和西里爾蒙古文的形態(tài)即詞法。本文緒論中詳細介紹了上述研究工作的意義、目的和目標(biāo)。
  將計算機技術(shù)與蒙古學(xué)研究相結(jié)合已經(jīng)成為研究蒙古文計算語言學(xué)的必然趨勢。盡管在蒙古國內(nèi)已有相關(guān)公司及個人在此領(lǐng)域從事相關(guān)研究工作并

2、研發(fā)了一些相關(guān)的應(yīng)用程序,但上述應(yīng)用程序的研發(fā)水平尚不能與發(fā)達國家的相關(guān)研究水平相媲美。
  鑒于此,本人致力于研究西里爾蒙古文和傳統(tǒng)蒙古文的信息化技術(shù)。
  在這項工作中,我們試圖從形態(tài)分析西里爾蒙古文和傳統(tǒng)蒙古文,并利用蒙古文構(gòu)詞規(guī)則研究了西里爾蒙古文和傳統(tǒng)蒙古文的相互轉(zhuǎn)換問題。這個過程包含以下兩個步驟:首先,從形態(tài)分析西里爾蒙古文或傳統(tǒng)蒙古文語義,找出詞干和后綴;然后,將它們轉(zhuǎn)換成對應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文詞干和后

3、綴,并利用構(gòu)詞規(guī)則生成對應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文。本文完成的主要研究工作如下:
  1.本文研究了西里爾蒙古文和傳統(tǒng)蒙古文的相關(guān)特點,從而試圖將二級形態(tài)的模型(Two Level Morphology Model)應(yīng)用在蒙古文當(dāng)中。從計算語言學(xué)角度考慮,西里爾蒙古文和傳統(tǒng)蒙古文有著很多相似之處,也有一些不同之處。目前,西里爾蒙古文的書寫規(guī)則有66大類。傳統(tǒng)蒙古文確只有3項書寫規(guī)則,即元音和諧規(guī)則、輔音規(guī)則、連接音規(guī)則。蒙古文是

4、粘著語,是詞干加后綴的形式生成新詞的。在詞干和后綴綴接方面,西里爾蒙古文和傳統(tǒng)蒙古文也有不同之處,這是因為書寫規(guī)則不同而導(dǎo)致。根據(jù)上述情況,本人研究了名詞和動詞的生成和解析模型,同時研究出詞干加構(gòu)形后綴的規(guī)則,并找出了詞干加多個構(gòu)形后綴的所有可能。
  2.完成上述工作后建立對應(yīng)資源庫的工作顯得十分緊迫。資源庫是繼續(xù)開展西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作的基礎(chǔ)。該資源庫包括詞干資源庫、形態(tài)資源庫和附加資源庫。蒙古文詞干后綴加構(gòu)形

5、后綴后可以生成大規(guī)模的蒙古文單詞,所以本人選用詞干作為資源庫的基本單元,主要優(yōu)點是:資源庫的數(shù)據(jù)不會太大;加快應(yīng)用程序的運算速度;可以確定詞匯生成規(guī)則,進而掌握生成某種詞匯的所有可能。詞干資源庫包含3個子庫:西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)詞干庫,并包含單詞解釋(包含72000詞條);帶有詞性標(biāo)注的西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)詞干庫(包含61000詞條);由詞干編碼,詞匯生成、詞匯解析編碼組成的資源庫(48000條)。形態(tài)資源庫包含2個子庫

6、:西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)構(gòu)形后綴庫(包含86詞條);多個構(gòu)形后綴綴接條件庫(包含876詞條)。附件資源庫包含2個子庫:專有名詞庫(包含9135條);縮略語庫(包含1100條)。
  3.根據(jù)二級形態(tài)的模型及“有窮自動機”制作出西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則模型。根據(jù)該模型對單詞的構(gòu)成進行分析,并做了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換試驗。PC-Kimmo是用于詞形分析的開源系統(tǒng),它由兩個組成部分,即詞匯形式和規(guī)則形式。本文以

7、PC-Kimmo為工具制作完成了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換模型。本文將詞匯分成了名詞和動詞兩大類,并分別建立了名詞生成模型和動詞生成模型。本人將西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則分別制作了模型,并利用該模型及資源庫建立了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換系統(tǒng),并把該系統(tǒng)命名為KIM MON(第一版)。該系統(tǒng)能夠為用戶解析、研判、生成詞匯并將最終結(jié)果告知用戶。
  4.最后,利用KIM_MON系統(tǒng)進行了蒙古文詞法分析的實驗工作。實

8、驗結(jié)果表明:當(dāng)我們對西里爾蒙古文和傳統(tǒng)蒙古文的形態(tài)分析時,正確率達到了97.6%。在正確分析蒙古文形態(tài)基礎(chǔ)上KIM_MON能夠100%的正確的連接單詞。在詞法研究工作的基礎(chǔ)上,我們對西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作進行實驗,實驗結(jié)果表明:從西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換準(zhǔn)確率達到了91.3%,從傳統(tǒng)蒙古文到西里爾蒙古文的轉(zhuǎn)換準(zhǔn)確率達到了89.1%。在西里爾蒙古文的詞同義不同單詞的轉(zhuǎn)換實驗中,準(zhǔn)確率達到了86.9%。并且通過實驗得出,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論