漢蒙詞語對齊及相關技術研究.pdf_第1頁
已閱讀1頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、漢蒙平行語料庫是包含漢語和蒙古語兩種語言互譯文本的語料庫,它是蒙古文信息處理數(shù)據資源的重要組成部分。漢蒙平行語料庫在語言的多個層面上呈現(xiàn)漢語和蒙古語的互譯對照信息,能夠為漢蒙機器翻譯或者其他與漢蒙雙語相關的信息處理提供強有力的支持。
  漢蒙平行語料庫的建設中,最關鍵的技術是"對齊"。所謂對齊,就是從源文和譯文文本中找出互為翻譯的片斷。由于互譯片段的粒度不盡相同,因此有篇章、段落、句子、短語以及詞等不同級別的對齊。許多與雙語處理相

2、關的應用,如統(tǒng)計機器翻譯、基于實例的機器翻譯、詞義消歧、雙語詞典編纂等,都要求以經過詞語對齊的平行語料庫作為依托。
  目前,漢蒙平行語料庫的大部分數(shù)據是通過手工錄入的方式收集起來的。錄入過程中,按照"句對"的格式對語料進行了整理。因此,至少現(xiàn)階段,漢蒙平行語料庫的加工不涉及篇章、段落或者句子級別的對齊任務。如何在漢蒙句對上,進一步尋找漢蒙詞語之間的對應關系,是本篇論文的重點研究內容。
  現(xiàn)在雖然有詞語對齊開源軟件(如,G

3、IZA++)可供使用,但這一類基于純統(tǒng)計學方法的工具通常只有在超大規(guī)模語料庫上才能取得令人滿意的效果。對于像漢蒙平行語料庫這樣規(guī)模偏小的資源,主張使用"基于知識"的方法來實現(xiàn)詞語對齊。
  本文在借鑒和吸收前人研究成果的基礎上,結合蒙古文信息處理的資源現(xiàn)狀,提出了一種知識密集型(Knowledge Intensive)的漢蒙詞語對齊方法。該方法的主旨是以"基于雙語詞典的Greedy算法"作為基本框架,通過在此框架內引入多種外部知識

4、和信息,如蒙古語同義詞知識、蒙古語詞法知識、蒙古語連續(xù)多詞單元的標注信息、漢蒙數(shù)詞到阿拉伯數(shù)字的轉換信息以及漢語介詞與蒙古語"格"的對應規(guī)則等,逐步提高對齊的召回率和準確率。就這些知識(或信息)的獲取方法及它們在漢蒙詞語對齊中的作用,本文的研究包括如下幾個方面:
  (1)提出利用蒙古語《類語辭典》中的同義詞知識對漢蒙雙語詞典進行擴充,為漢蒙詞語對齊提供更多的翻譯選項。
  (2)利用一個基于詞典和規(guī)則的方法對蒙古語文本進行

5、詞法分析和標注,為漢蒙詞語的相似度計算提供蒙古語詞干信息。
  (3)提出一種基于同現(xiàn)頻率和詞類信息的蒙古語連續(xù)多詞單元的抽取方法,結合語言學家的內省判斷構造出一個有效的詞表,并以該詞表作為依據,對蒙古語文本中的連續(xù)多詞單元進行捆綁標注。這一標注信息能夠幫助漢蒙詞語對齊系統(tǒng)返回一部分"1(:)n"模式的對齊連接。
  (4)提出一種將漢蒙數(shù)詞轉換成阿拉伯數(shù)字的方法,目的是以阿拉伯數(shù)字作為中介,得到漢蒙數(shù)詞的對齊。
  

6、(5)基于漢語介詞和蒙古語"格"之間的對應規(guī)律,提出一種局部啟發(fā)式算法,以實現(xiàn)漢語"介詞+名詞(或代詞)"結構與蒙古語格變化詞形之間的"2(:)1"模式的對齊。
  另外,通過對大量漢蒙詞語人工對齊結果及相關筆記進行比較和研究,發(fā)現(xiàn)人工詞語對齊中存在相當程度的"主觀性"因素。本文以當前漢蒙詞語對齊系統(tǒng)的評價為主要目標,提出并制定了"漢蒙詞語人工對齊規(guī)范",為建立"標準對齊連接"提供操作細則。
  實驗部分,采用召回率、正確率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論