樹到樹統(tǒng)計機器翻譯優(yōu)化學(xué)習及解碼方法研究.pdf_第1頁
已閱讀1頁,還剩146頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器翻譯作為全人類的夢想之一,長期以來一直受到學(xué)術(shù)界及工業(yè)界的廣泛關(guān)注。近些年來,隨著統(tǒng)計方法在機器翻譯中的成功使用,人們迫切需要解決如何利用日益增多的大規(guī)模平行語料自動訓(xùn)練翻譯系統(tǒng),并利用訓(xùn)練得到的系統(tǒng)進行全自動翻譯。傳統(tǒng)的統(tǒng)計方法通常是在基于詞或者n元語法單元上對機器翻譯進行建模。雖然這種方法有較強的容錯能力,且模型簡單易于實現(xiàn),但是由于沒有考慮翻譯源語和目標語的句法信息,它對許多重要的翻譯問題(如:長距離依賴問題)不能很好的進行處

2、理。針對這些問題,基于句法的統(tǒng)計機器翻譯應(yīng)運而生。特別是,樹到樹翻譯模型(同時利用源語言和目標語句法樹的翻譯模型)可以同時利用雙語的句法信息進行調(diào)序、源語結(jié)構(gòu)分析及目標語結(jié)構(gòu)生成,因此它相比其它基于句法的翻譯模型具有更大的翻譯性能提升潛力。本文以基于句法的統(tǒng)計機器翻譯為框架,對樹到樹翻譯模型的優(yōu)化學(xué)習及解碼中的若干關(guān)鍵問題進行研究并提出解決方案。主要內(nèi)容包括以下四個方面:
  本文提出了一種無指導(dǎo)的樹到樹結(jié)構(gòu)對齊模型。首先,本文把

3、結(jié)構(gòu)對齊問題轉(zhuǎn)化為翻譯規(guī)則的推導(dǎo),然后把結(jié)構(gòu)對齊概率計算化簡為多種因素的組合,最后通過EM等算法對結(jié)構(gòu)對齊模型的參數(shù)進行無指導(dǎo)學(xué)習。在獲得樹結(jié)構(gòu)對齊模型的基礎(chǔ)上,本文進一步利用樹結(jié)構(gòu)對齊的后驗概率,構(gòu)建樹到樹對齊矩陣。并利用樹到樹對齊矩陣進行規(guī)則抽取。相比傳統(tǒng)的基于單一對齊結(jié)果的規(guī)則抽取,基于樹到樹對齊矩陣的規(guī)則抽取可以顯著增加規(guī)則覆蓋度,進而提高系統(tǒng)的翻譯質(zhì)量。
  本文提出一種受限束寬度的模型訓(xùn)練方法。相比傳統(tǒng)的不考慮搜索問題

4、的模型參數(shù)訓(xùn)練方法,本文將受限束寬度的搜索引入到參數(shù)訓(xùn)練過程中來。通過定義不同的損失函數(shù),本文分別從束搜索和翻譯結(jié)果評價(如:BLEU)兩個角度對訓(xùn)練過程進行建模。最后利用迭代式學(xué)習從雙語數(shù)據(jù)中自動訓(xùn)練模型參數(shù)。由于本文提出的方法可以在訓(xùn)練過程中更多的考慮搜索和翻譯結(jié)果評價等因素,利用這個方法訓(xùn)練所得到的模型更適用于(樹到樹)解碼,進而提高系統(tǒng)在測試集上的翻譯準確性。
  本文針對樹到樹的解碼問題,提出了基于混合粒度的解碼和基于集

5、成學(xué)習的解碼優(yōu)化方法。前者通過定義不同粒度的翻譯文法(或模型)來對翻譯過程進行不同層次/粒度的描述,然后混合使用多種粒度的文法進行樹到樹解碼。一方面,粗粒度文法可以確保解碼能在足夠大的搜索空間上進行,減少搜索錯誤;另一方面,細粒度文法可以對翻譯結(jié)果進行更準確地評價,進而提高模型打分的準確性?;诩蓪W(xué)習的解碼的基本思想是利用同一個解碼器生成多個翻譯結(jié)果候選集,之后對所有這些翻譯候選重新解碼,進而得到更優(yōu)的翻譯結(jié)果。實驗結(jié)果證明本文提出的

6、這兩種優(yōu)化解碼方法可以顯著提高樹到樹系統(tǒng)的翻譯質(zhì)量。
  本文提出一種基于樹替換文法的目標語樹結(jié)構(gòu)評價模型。首先,本文對樹到樹系統(tǒng)的翻譯結(jié)果所對應(yīng)的句法樹結(jié)構(gòu)進行建模,并利用樹替換文法對目標語樹結(jié)構(gòu)的質(zhì)量進行評價。通過在機器翻譯訓(xùn)練數(shù)據(jù)(目標語部分)上的學(xué)習,本文提出的樹結(jié)構(gòu)評價模型能夠準確地評價翻譯結(jié)果的句法結(jié)構(gòu)的質(zhì)量,進而帶來了翻譯性能的提升。此外,本文還對目標語樹結(jié)構(gòu)評價模型在解碼器中的集成問題進行了研究,并提出了三種樹結(jié)構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論