版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于統(tǒng)計(jì)方法的短語(yǔ)翻譯模型過(guò)濾器設(shè)計(jì),楊 攀,08-11-28,總體框架,引言統(tǒng)計(jì)方法介紹過(guò)濾器設(shè)計(jì)實(shí)驗(yàn)及分析結(jié)束語(yǔ),引言,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的最大特點(diǎn)就是其翻譯模型為短語(yǔ)級(jí)的,這里的短語(yǔ)并非是語(yǔ)言學(xué)意義上的短語(yǔ),而是連續(xù)的語(yǔ)言片段。翻譯模型的好壞對(duì)于翻譯結(jié)果的影響舉足輕重。翻譯模型的生成要經(jīng)歷詞對(duì)齊,短語(yǔ)對(duì)齊,短語(yǔ)評(píng)分等不同的階段,最終生成的翻譯模型必含有一些不正確的短語(yǔ)翻譯對(duì),本文稱之為“噪音”。,引言,Johnson
2、等(2007)在ACL07上提出的基于Fisher準(zhǔn)確檢驗(yàn)的方法去除翻譯模型噪音的方法是最早利用統(tǒng)計(jì)方法對(duì)翻譯模型進(jìn)行降噪的文章,但追本溯源,這個(gè)方法的真正來(lái)源還是早期單語(yǔ)的搭配或雙語(yǔ)的詞對(duì)齊研究中的統(tǒng)計(jì)方法的新的應(yīng)用而已,正所謂老瓶裝新醋。本文的著眼點(diǎn)不是提出新的方法進(jìn)行翻譯模型的降噪,而是想站在巨人的肩膀上,既在早期基于統(tǒng)計(jì)的搭配,詞對(duì)齊等研究成果及開(kāi)源項(xiàng)目Ngram Statistics Package (NSP) 的支持下,設(shè)
3、計(jì)了一個(gè)短語(yǔ)翻譯模型過(guò)濾器。,統(tǒng)計(jì)方法介紹,本文中用到的幾個(gè)關(guān)鍵統(tǒng)計(jì)值說(shuō)明:s為翻譯模型中的源短語(yǔ);t為目標(biāo)短語(yǔ);c(s)為雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)中含有源短語(yǔ)的源句子數(shù); c(t)為含有目標(biāo)短語(yǔ)的目標(biāo)句子數(shù);c(s,t)為同時(shí)含有源短語(yǔ)及目標(biāo)短語(yǔ)的句子數(shù);N為語(yǔ)料庫(kù)中對(duì)齊句子數(shù);,統(tǒng)計(jì)方法介紹,假設(shè)檢驗(yàn):假設(shè)檢驗(yàn)是用來(lái)判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。利用假設(shè)檢驗(yàn)處理翻譯模型的關(guān)鍵就是
4、用它來(lái)評(píng)價(jià)源短語(yǔ)到目標(biāo)短語(yǔ)的翻譯是偶然的還是必然的,若是偶然,就否定它;若是必然,就肯定它;t 檢驗(yàn):,,統(tǒng)計(jì)方法介紹,列聯(lián)表:列聯(lián)表是觀測(cè)數(shù)據(jù)按兩個(gè)或更多屬性(定性變量)分類時(shí)所列出的頻數(shù)表,本文僅使用兩個(gè)屬性的列聯(lián)表,既2x2表。它直觀,簡(jiǎn)單,方便,并且利于計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)值的計(jì)算。表1是翻譯模型過(guò)濾器中的設(shè)計(jì)的列聯(lián)表:,,,,,,,,,,,,,,,,,,,,統(tǒng)計(jì)方法介紹,基于列聯(lián)表計(jì)算的三種統(tǒng)計(jì)值:令似然比:互信息:
5、Fisher準(zhǔn)確檢驗(yàn)值:,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,過(guò)濾器設(shè)計(jì),過(guò)濾器總體框架,實(shí)驗(yàn)及分析,按ACL07統(tǒng)計(jì)機(jī)器翻譯討論會(huì)(ACL 2007 SECOND WORKSHOP ON STATISTICAL MACHINE TRANSLATION)的介紹搭建了Moses測(cè)試平臺(tái),其核心框架仍是Kohen的基于短語(yǔ)的SMT框架。平臺(tái)采用GIZA++進(jìn)行翻譯模型的訓(xùn)練,SRILM工具進(jìn)行語(yǔ)言模型的訓(xùn)練,Mo
6、ses工具包進(jìn)行生成模型的訓(xùn)練及解碼,mteval工具包對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行BLEU評(píng)分。,實(shí)驗(yàn)及分析,訓(xùn)練語(yǔ)料庫(kù)來(lái)源于內(nèi)蒙古大學(xué)提供的38,000句對(duì)日常用語(yǔ)漢蒙平行語(yǔ)料庫(kù)。由于目前還沒(méi)有漢蒙機(jī)器翻譯公共測(cè)試平臺(tái),我們選用訓(xùn)練集以外的350句(含200句對(duì)話,150句日常用語(yǔ))作為測(cè)試集,由以蒙古語(yǔ)為母語(yǔ)的專業(yè)人員進(jìn)行翻譯,每個(gè)漢語(yǔ)句子對(duì)應(yīng)4種譯文。蒙古語(yǔ)部分采用拉丁轉(zhuǎn)寫(xiě)形式。,實(shí)驗(yàn)及分析,似然比的NIST,BLEU評(píng)測(cè)實(shí)驗(yàn)結(jié)果:,實(shí)驗(yàn)及分
7、析,互信息的NIST,BLEU評(píng)測(cè)實(shí)驗(yàn)結(jié)果:,實(shí)驗(yàn)及分析,Fisher值的NIST,BLEU評(píng)測(cè)實(shí)驗(yàn)結(jié)果:,實(shí)驗(yàn)及分析,結(jié)果分析在三個(gè)表中,都有一個(gè)明顯的閾值“拐點(diǎn)”,依次為10.5453、23.0907、0.0004,這與翻譯模型中存在著大量的1-1-1型翻譯短語(yǔ)有關(guān)。所謂1-1-1型翻譯短語(yǔ),即在語(yǔ)料庫(kù)中其源短語(yǔ),目標(biāo)短語(yǔ)及二者同現(xiàn)的頻率僅為1次。我們統(tǒng)計(jì)了一下,在本實(shí)驗(yàn)的翻譯模型中為1-1-1型翻譯短語(yǔ)約占了48.9%。閾值“拐
8、點(diǎn)”亦即1-1-1型的相應(yīng)值,特別,對(duì)于fisher值,我們?nèi)∑渲档呢?fù)對(duì)數(shù),按照Moore(2004)的文章的討論,在Fisher準(zhǔn)確檢驗(yàn)下其P值為1/N,負(fù)對(duì)數(shù)值為log(N),由于實(shí)驗(yàn)中N=38000,log(N)= 10.5453,其理論值與實(shí)驗(yàn)值完全吻合。,實(shí)驗(yàn)及分析,結(jié)果分析從表中可以看出,閾值拐點(diǎn)左右的NIST、BLEU值跳躍均比較大,這與翻譯模型被過(guò)濾了一半有極大關(guān)系。但是,仔細(xì)觀察這三個(gè)表,我們發(fā)現(xiàn)隨著閾值的不斷升高,
9、似然比、互信息的評(píng)分值在拐點(diǎn)前的降低比較理想,其過(guò)濾效果比較好,而Fisher準(zhǔn)確檢驗(yàn)的評(píng)分值則有一個(gè)明顯的下滑,且評(píng)分效果不盡如人意。,實(shí)驗(yàn)及分析,結(jié)果分析我們以效果最好的似然比實(shí)驗(yàn)結(jié)果進(jìn)一步分析,當(dāng)閾值設(shè)置為10.0時(shí),翻譯模型被過(guò)濾掉了6352行,但其NIST、BLEU值均有很小幅度的提高,這表明在取得合適的閾值的情況下,機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量在翻譯模型過(guò)濾的情況下反而能得到提高。我們又以閾值拐點(diǎn)a左右為例,當(dāng)閾值為a-e時(shí),過(guò)
10、濾后的翻譯模型為原翻譯模型的62.9%,而其BLEU值僅降低了0.0033,對(duì)于一般的機(jī)器翻譯系統(tǒng)來(lái)說(shuō),用戶對(duì)翻譯質(zhì)量的降低感受是不明顯的;而當(dāng)閾值為a+e時(shí),過(guò)濾后的翻譯模型為原翻譯模型的14.0%,BLEU值降低了0.0239,這對(duì)于一些對(duì)內(nèi)存占用要求比較高的機(jī)器翻譯系統(tǒng)來(lái)說(shuō)亦是完全可以接受的。,結(jié)束語(yǔ),本文利用統(tǒng)計(jì)方法設(shè)計(jì)了短語(yǔ)翻譯模型過(guò)濾器,并且針對(duì)漢蒙統(tǒng)計(jì)機(jī)器翻譯做了三組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,如果選用統(tǒng)計(jì)方法及閾值得當(dāng),翻譯模型
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- the mrtd project (draft) - 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 沒(méi)有幻燈片標(biāo)題-模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 漢蒙藏維語(yǔ)言翻譯方法研究 - 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 超導(dǎo)國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室申請(qǐng)報(bào)告
- 凝固技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室“共建—共管”模式研究.pdf
- 煤轉(zhuǎn)化國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室建設(shè)方案
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室評(píng)估規(guī)則
- 海洋地質(zhì)國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 遙感科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 催化基礎(chǔ)國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室評(píng)估細(xì)則
- 作物遺傳改良國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 作物遺傳改良國(guó)家重點(diǎn)實(shí)驗(yàn)室
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室成功申請(qǐng)案例
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室建設(shè)申請(qǐng)書(shū)
- 國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金申請(qǐng)指南
- 油氣資源與探測(cè)國(guó)家重點(diǎn)實(shí)驗(yàn)室
評(píng)論
0/150
提交評(píng)論