工作報告-模式識別國家重點實驗室_第1頁
已閱讀1頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于統(tǒng)計方法的短語翻譯模型過濾器設計,楊 攀,08-11-28,總體框架,引言統(tǒng)計方法介紹過濾器設計實驗及分析結束語,引言,基于短語的統(tǒng)計機器翻譯的最大特點就是其翻譯模型為短語級的,這里的短語并非是語言學意義上的短語,而是連續(xù)的語言片段。翻譯模型的好壞對于翻譯結果的影響舉足輕重。翻譯模型的生成要經歷詞對齊,短語對齊,短語評分等不同的階段,最終生成的翻譯模型必含有一些不正確的短語翻譯對,本文稱之為“噪音”。,引言,Johnson

2、等(2007)在ACL07上提出的基于Fisher準確檢驗的方法去除翻譯模型噪音的方法是最早利用統(tǒng)計方法對翻譯模型進行降噪的文章,但追本溯源,這個方法的真正來源還是早期單語的搭配或雙語的詞對齊研究中的統(tǒng)計方法的新的應用而已,正所謂老瓶裝新醋。本文的著眼點不是提出新的方法進行翻譯模型的降噪,而是想站在巨人的肩膀上,既在早期基于統(tǒng)計的搭配,詞對齊等研究成果及開源項目Ngram Statistics Package (NSP) 的支持下,設

3、計了一個短語翻譯模型過濾器。,統(tǒng)計方法介紹,本文中用到的幾個關鍵統(tǒng)計值說明:s為翻譯模型中的源短語;t為目標短語;c(s)為雙語對齊語料庫中含有源短語的源句子數(shù); c(t)為含有目標短語的目標句子數(shù);c(s,t)為同時含有源短語及目標短語的句子數(shù);N為語料庫中對齊句子數(shù);,統(tǒng)計方法介紹,假設檢驗:假設檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統(tǒng)計推斷方法。利用假設檢驗處理翻譯模型的關鍵就是

4、用它來評價源短語到目標短語的翻譯是偶然的還是必然的,若是偶然,就否定它;若是必然,就肯定它;t 檢驗:,,統(tǒng)計方法介紹,列聯(lián)表:列聯(lián)表是觀測數(shù)據(jù)按兩個或更多屬性(定性變量)分類時所列出的頻數(shù)表,本文僅使用兩個屬性的列聯(lián)表,既2x2表。它直觀,簡單,方便,并且利于計算機進行統(tǒng)計值的計算。表1是翻譯模型過濾器中的設計的列聯(lián)表:,,,,,,,,,,,,,,,,,,,,統(tǒng)計方法介紹,基于列聯(lián)表計算的三種統(tǒng)計值:令似然比:互信息:

5、Fisher準確檢驗值:,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,過濾器設計,過濾器總體框架,實驗及分析,按ACL07統(tǒng)計機器翻譯討論會(ACL 2007 SECOND WORKSHOP ON STATISTICAL MACHINE TRANSLATION)的介紹搭建了Moses測試平臺,其核心框架仍是Kohen的基于短語的SMT框架。平臺采用GIZA++進行翻譯模型的訓練,SRILM工具進行語言模型的訓練,Mo

6、ses工具包進行生成模型的訓練及解碼,mteval工具包對實驗結果進行BLEU評分。,實驗及分析,訓練語料庫來源于內蒙古大學提供的38,000句對日常用語漢蒙平行語料庫。由于目前還沒有漢蒙機器翻譯公共測試平臺,我們選用訓練集以外的350句(含200句對話,150句日常用語)作為測試集,由以蒙古語為母語的專業(yè)人員進行翻譯,每個漢語句子對應4種譯文。蒙古語部分采用拉丁轉寫形式。,實驗及分析,似然比的NIST,BLEU評測實驗結果:,實驗及分

7、析,互信息的NIST,BLEU評測實驗結果:,實驗及分析,Fisher值的NIST,BLEU評測實驗結果:,實驗及分析,結果分析在三個表中,都有一個明顯的閾值“拐點”,依次為10.5453、23.0907、0.0004,這與翻譯模型中存在著大量的1-1-1型翻譯短語有關。所謂1-1-1型翻譯短語,即在語料庫中其源短語,目標短語及二者同現(xiàn)的頻率僅為1次。我們統(tǒng)計了一下,在本實驗的翻譯模型中為1-1-1型翻譯短語約占了48.9%。閾值“拐

8、點”亦即1-1-1型的相應值,特別,對于fisher值,我們取其值的負對數(shù),按照Moore(2004)的文章的討論,在Fisher準確檢驗下其P值為1/N,負對數(shù)值為log(N),由于實驗中N=38000,log(N)= 10.5453,其理論值與實驗值完全吻合。,實驗及分析,結果分析從表中可以看出,閾值拐點左右的NIST、BLEU值跳躍均比較大,這與翻譯模型被過濾了一半有極大關系。但是,仔細觀察這三個表,我們發(fā)現(xiàn)隨著閾值的不斷升高,

9、似然比、互信息的評分值在拐點前的降低比較理想,其過濾效果比較好,而Fisher準確檢驗的評分值則有一個明顯的下滑,且評分效果不盡如人意。,實驗及分析,結果分析我們以效果最好的似然比實驗結果進一步分析,當閾值設置為10.0時,翻譯模型被過濾掉了6352行,但其NIST、BLEU值均有很小幅度的提高,這表明在取得合適的閾值的情況下,機器翻譯系統(tǒng)的翻譯質量在翻譯模型過濾的情況下反而能得到提高。我們又以閾值拐點a左右為例,當閾值為a-e時,過

10、濾后的翻譯模型為原翻譯模型的62.9%,而其BLEU值僅降低了0.0033,對于一般的機器翻譯系統(tǒng)來說,用戶對翻譯質量的降低感受是不明顯的;而當閾值為a+e時,過濾后的翻譯模型為原翻譯模型的14.0%,BLEU值降低了0.0239,這對于一些對內存占用要求比較高的機器翻譯系統(tǒng)來說亦是完全可以接受的。,結束語,本文利用統(tǒng)計方法設計了短語翻譯模型過濾器,并且針對漢蒙統(tǒng)計機器翻譯做了三組實驗,實驗結果表明,如果選用統(tǒng)計方法及閾值得當,翻譯模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論