cwmt2008機(jī)器翻譯評(píng)測總結(jié)報(bào)告_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、CWMT2008機(jī)器翻譯評(píng)測總結(jié)報(bào)告,中科院計(jì)算所機(jī)器翻譯評(píng)測組趙紅梅 謝軍 呂雅娟 劉群2008年11月,提綱,● 概述 ● 參評(píng)單位和參評(píng)系統(tǒng) ● 評(píng)測語料 ● 評(píng)測流程 ● 評(píng)測方法 ● 評(píng)測結(jié)果 ● 評(píng)測結(jié)果分析 ● 總結(jié)和展望,概述,● 機(jī)器翻譯核心技術(shù)的評(píng)測● 目的: 推進(jìn)機(jī)器翻譯技術(shù)的

2、交流和發(fā)展● 15個(gè)參評(píng)單位● 2個(gè)語種方向(漢英、英漢)● 兩種領(lǐng)域(新聞、科技),其中科技翻譯為新增項(xiàng)目● 新增了漢英新聞系統(tǒng)融合項(xiàng)目● 新增了WoodPecker評(píng)測● 新增了BLEU-SBP參考指標(biāo),參評(píng)單位,,● 廈門大學(xué)人工智能研究所 ● 中國軟件與技術(shù)服務(wù)股份有限公司● 東北大學(xué)自然語言處理實(shí)驗(yàn)室● 中科院自動(dòng)化研究所系統(tǒng)1● 中科院自動(dòng)化研究所系統(tǒng)

3、2● 北京邁創(chuàng)語通軟件有限公司● 北京賽迪翻譯技術(shù)有限公司● 中國科學(xué)院軟件研究所● 西安匯申軟件有限公司● 中科院計(jì)算技術(shù)研究所多語言交互技術(shù)研究室● 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院智能信息處理研究所● 微軟亞洲研究院● 北京工業(yè)大學(xué)● 哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室● SYSTRAN Software, Inc,參評(píng)單位和系統(tǒng)數(shù)量,,評(píng)測語料,機(jī)器翻語譯料訓(xùn)練語料: 新聞、科技公共

4、訓(xùn)練語料:868,947句對(duì); 科技獨(dú)有訓(xùn)練語料: 620,985句對(duì) 其中, 萬方數(shù)據(jù):320,985句對(duì) 中信所語料:300,000句對(duì)。6家單位參加了萬方數(shù)據(jù)論文摘要句對(duì)齊語料的校對(duì)測試語料:新

5、聞?wù)Z料按照分割日期規(guī)定均采自國內(nèi)外新聞網(wǎng)站;所有測試集中均混入了3倍的干擾集,真實(shí)測試集規(guī)模:,參考譯文每句4個(gè)參考譯文4個(gè)以目標(biāo)語言為母語的翻譯者獨(dú)立翻譯新聞的參考譯文由計(jì)算所制作,科技的參考譯文由中信所提供系統(tǒng)融合語料訓(xùn)練語料SSMT2007漢英新聞測試集、參考集和本次評(píng)測中10家參評(píng)單位提交的17個(gè)系統(tǒng)在SSMT2007漢英新聞?wù)鎸?shí)測試語料上的翻譯結(jié)果(共1,002句對(duì))測試語料以上17個(gè)系統(tǒng)在CW

6、MT2008漢英新聞測試集上的翻譯結(jié)果。其中,12個(gè)系統(tǒng)提交了n-best結(jié)果,5個(gè)系統(tǒng)提交了1-best結(jié)果。參考譯文同本次評(píng)測漢英新聞翻譯項(xiàng)目的參考集,評(píng)測語料,評(píng)測流程,本次評(píng)測采用了網(wǎng)上評(píng)測的方式,流程如下: 8月31日 評(píng)測組織方發(fā)放各個(gè)項(xiàng)目的訓(xùn)練數(shù)據(jù)10月8日 評(píng)測組織方發(fā)放新聞翻譯項(xiàng)目的測試數(shù)據(jù)10月10日 參評(píng)單位提交新聞翻譯項(xiàng)目的測試運(yùn)行結(jié)果和系統(tǒng)描述10月13日 評(píng)測組織方發(fā)放

7、英漢科技翻譯項(xiàng)目的測試數(shù)據(jù)10月15日 各參評(píng)單位提交英漢科技翻譯項(xiàng)目的測試運(yùn)行結(jié)果和系統(tǒng)描述10月20日 評(píng)測組織方發(fā)放漢英系統(tǒng)融合項(xiàng)目的測試數(shù)據(jù)(即機(jī)器翻譯項(xiàng)目參評(píng)單位提交的運(yùn)行結(jié)果的匯總)10月22日 各參評(píng)單位提交漢英系統(tǒng)融合項(xiàng)目的測試運(yùn)行結(jié)果和系統(tǒng)描述,評(píng)測方法,格式預(yù)處理:各系統(tǒng)翻譯的結(jié)果首先需要轉(zhuǎn)換為評(píng)測軟件能夠處理的內(nèi)部格式;此次評(píng)測的內(nèi)部格式更加接近NIST評(píng)測格式;部分單位提交的結(jié)果格式不

8、符合要求;解決辦法:下次評(píng)測提供格式檢測程序!10月22日收到提交結(jié)果后開始進(jìn)行自動(dòng)評(píng)測,10月28日全部完成。體會(huì):評(píng)測中最麻煩的問題莫過于格式和編碼統(tǒng)一采用UTF-8編碼,但是:帶編碼(如utf-8)的文件在Windows下復(fù)制到剪貼板上時(shí)(包括使用寫字版和UltraEdit),很多符號(hào)如引號(hào)和連字符等都會(huì)被轉(zhuǎn)換成默認(rèn)的編碼方式(如ANSI編碼),從而出現(xiàn)亂碼。不能采用utf-8、無BOM編碼:因其不識(shí)別英鎊符號(hào)£,評(píng)測

9、方法,評(píng)測指標(biāo): 本次評(píng)測采用多種自動(dòng)評(píng)價(jià)指標(biāo),包括:BLEU、 NIST、GTM、mWER、mPER、ICT參考指標(biāo):BLEU-SBP:采用修改bp的BLEUWoodPecker:提供基于檢測點(diǎn)的評(píng)測結(jié)果以上指標(biāo)均為:大小寫敏感的中文的評(píng)測是基于字的,而不是基于詞的,評(píng)測方法: BLEU-SBP,我們發(fā)現(xiàn)了BLEU本身存在的問題: 將測試結(jié)果中2%的句子縮短為只有1-2個(gè)單詞,BLEU

10、值不變! 用BLEU進(jìn)行A、B兩個(gè)結(jié)果的顯著性差異的符號(hào)檢驗(yàn),發(fā)現(xiàn):,,評(píng)測方法: BLEU-SBP,解決:采用BLEU-SBP指標(biāo) (David Chiang et al., 2008),BLEU vs. BLEU-SBP,兩者的最大區(qū)別在于bp ( brevity penalty)部分請(qǐng)參考Decomposability of Translation Metrics for Improved Evaluatio

11、n and Efficient Algorithms, David Chiang, et.al, EMNLP2008,,,,,評(píng)測方法: BLEU-SBP,,漢英新聞12個(gè)參評(píng)主系統(tǒng)BLEU4與BLEU-SBP結(jié)果對(duì)比,,,,評(píng)測方法,符號(hào)檢驗(yàn):在BLEU-SBP的基礎(chǔ)上,針對(duì)各主系統(tǒng)的翻譯結(jié)果,進(jìn)行了結(jié)果之間差異的顯著性檢驗(yàn)---符號(hào)檢驗(yàn) (Collins et al.,2005)做法:分別以每個(gè)主系統(tǒng)為基準(zhǔn)系統(tǒng),測試了

12、所有其它主系統(tǒng)與基準(zhǔn)系統(tǒng)結(jié)果差異的顯著性程度,以此構(gòu)造了所有主系統(tǒng)翻譯結(jié)果的差異顯著性矩陣。,,評(píng)測結(jié)果:漢英新聞主系統(tǒng),漢英新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,漢 英 新 聞 主 系 統(tǒng),0.0968,0.1539,0.1686,0.1773,0.1838,0.2033,0.2051,0.2188,0.2264,0.2275,0.2390,0.2809,0.0

13、5,0.10,0.15,0.20,0.25,0.30,12,11,10,9,8,7,6,5,4,3,2,1,BLEU-4,,,,,,,,,評(píng)測結(jié)果:英漢新聞主系統(tǒng),英漢新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 新 聞 主 系 統(tǒng),0.2369,0.2408,0.2532,0.2622,0.1964,0.2129,0.2413,0.2611,0.297,0.3157

14、,0.3263,0.15,0.20,0.25,0.30,0.35,9,8,6,4,11,10,7,5,3,2,1,BLEU-5,,,不,,受,,限,受,,,限,,,評(píng)測結(jié)果:英漢科技主系統(tǒng),英漢科技主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 科 技 主 系 統(tǒng),0.3528,0.3743,0.4026,0.4618,0.2173,0.2859,0.3651,0.4718,0

15、.4879,0.20,0.25,0.30,0.35,0.40,0.45,0.50,7,5,4,3,9,8,6,2,1,BLEU-5,,不,,受,,限,受,,,限,,評(píng)測結(jié)果:漢英新聞系統(tǒng)融合主系統(tǒng),漢英新聞系統(tǒng)融合主系統(tǒng)BLEU結(jié)果,,,以規(guī)則方法為主以統(tǒng)計(jì)方法為主,評(píng)測結(jié)果分析:各主系統(tǒng)所用方法,,,評(píng)測結(jié)果分析,兩種方法在各項(xiàng)目中的平均BLEU對(duì)比表明:統(tǒng)計(jì)方法在英漢科技的BLEU得分上優(yōu)勢(shì)明顯,這一點(diǎn)也可以從隨后的WoodPec

16、ker評(píng)測結(jié)果上看出來。,結(jié)論:科技翻譯很適合于使用統(tǒng)計(jì)機(jī)器翻譯方法,系統(tǒng)融合的最好結(jié)果僅比單系統(tǒng)的最好結(jié)果BLEU值高出1.35個(gè)百分點(diǎn),比預(yù)想的要差得多原因還沒有弄明白,評(píng)測結(jié)果分析,MSRA在漢英新聞不受限項(xiàng)目上優(yōu)勢(shì)明顯與去年SSMT2007評(píng)測相比,HIT、NEU等單位進(jìn)步非常大基于規(guī)則的系統(tǒng)表現(xiàn)比想象的好,評(píng)測結(jié)果分析,評(píng)測方法: WoodPecker,WoodPecker是微軟亞洲研究院開發(fā)的基于檢測點(diǎn)的評(píng)測工具基于

17、語言學(xué)分類的檢測工具檢測點(diǎn)自動(dòng)抽取可以提供詞級(jí)、短語級(jí)以及句級(jí)的評(píng)價(jià)指標(biāo)下載地址:http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-6a7c7919b4a/details.aspx,Linguistic Taxonomy,WoodPecker: 系統(tǒng)流程,WoodPecker: 相關(guān)工具,數(shù)據(jù)預(yù)處理中文全/半角轉(zhuǎn)換:

18、 A3區(qū)全半角轉(zhuǎn)換 A2B中文分詞: ICTCLAS英文首字母大小寫轉(zhuǎn)化 Truecase英文Tokenization詞對(duì)齊GIZA++ParsingBerkeley ParserStanford Parser,檢測點(diǎn)提取和選擇,檢測點(diǎn)的提取和評(píng)測:參考譯文的預(yù)處理方法和對(duì)參評(píng)系統(tǒng)輸出的預(yù)處理方法保持一致。基于WoodPecker語言學(xué)檢測點(diǎn)分類體系,從評(píng)測語料中總共提取出了52種漢英檢測點(diǎn),81種英漢檢測點(diǎn)。檢

19、測點(diǎn)的選擇:根據(jù)出現(xiàn)頻次對(duì)檢測點(diǎn)類別進(jìn)行了篩選:源語言檢測點(diǎn):出現(xiàn)頻次﹥10目標(biāo)語言檢測點(diǎn):出現(xiàn)頻次﹥40 (注: 獨(dú)立計(jì)算每個(gè)參考譯文中檢測點(diǎn)的頻次)說明: (1)漢英介詞同時(shí)計(jì)入功能詞類別和內(nèi)容詞類別.(2)英漢歧義詞沒有考慮最終選取的檢測點(diǎn)類別數(shù)目:漢英檢測點(diǎn): 46英漢檢測點(diǎn): 58,評(píng)測結(jié)果:WoodPecker,漢英新聞主系統(tǒng)英漢新聞主系統(tǒng)英漢科技主系統(tǒng)漢英新聞系統(tǒng)融合,WoodPecker 與 BLEU

20、 相關(guān)性分析 (英漢),,,WoodPecker 與 BLEU 相關(guān)性分析 (漢英),WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最好的5類檢測點(diǎn),WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最差的5類檢測點(diǎn),評(píng)測結(jié)果分析,,在漢英新聞?lì)I(lǐng)域,在源語言的“搭配”、“介詞”兩個(gè)檢測點(diǎn)上,統(tǒng)計(jì)翻譯系統(tǒng)

21、顯示出一定優(yōu)勢(shì):,評(píng)測結(jié)果分析,在漢英新聞?lì)I(lǐng)域,“成語”測試點(diǎn)上,基于規(guī)則的系統(tǒng)則表現(xiàn)更好:,評(píng)測結(jié)果分析,在英漢新聞?lì)I(lǐng)域, “介詞”和“詞典介詞”兩個(gè)檢測點(diǎn),基于規(guī)則的系統(tǒng)占優(yōu):,在英漢新聞?lì)I(lǐng)域,源語言的“數(shù)詞短語”測試點(diǎn)上,基于規(guī)則的翻譯系統(tǒng)結(jié)果較好:,評(píng)測結(jié)果分析,評(píng)測結(jié)果分析,各項(xiàng)目WoodPecker評(píng)測中總分前五名的結(jié)果顯示:在英漢新聞?lì)I(lǐng)域,基于規(guī)則的系統(tǒng)在這種基于語言學(xué)分類的檢測點(diǎn)評(píng)測中顯示了一定的優(yōu)勢(shì):,總結(jié)和展望,總結(jié)

22、:從準(zhǔn)備到結(jié)束歷時(shí)半年,期間細(xì)節(jié)之繁瑣非一個(gè)“累”字了得!所幸評(píng)測中的小 “閃失” 都得到了糾正,更有幸都得到了大家的諒解!?改進(jìn)之處:更加詳盡的評(píng)測大綱增加了科技翻譯評(píng)測增加了系統(tǒng)融合評(píng)測引入BLEU-SBP,并進(jìn)行了顯著性檢驗(yàn)引入WoodPecker!展望:交流、溝通、進(jìn)步!,下次評(píng)測怎么做?項(xiàng)目設(shè)置詞語對(duì)齊?系統(tǒng)融合?科技翻譯?其他?訓(xùn)練語料評(píng)測指標(biāo)組織方式,總結(jié)和展望,致謝,感

23、謝為此次評(píng)測提供訓(xùn)練數(shù)據(jù)的單位,他們是(按拼音順序排列):北京大學(xué)計(jì)算語言學(xué)研究所哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室(無償)哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室萬方數(shù)據(jù)公司廈門大學(xué)中國科學(xué)技術(shù)信息研究所(無償)中國科學(xué)院計(jì)算技術(shù)研究所中國科學(xué)院自動(dòng)化研究所感謝為此次評(píng)測中提供測試數(shù)據(jù)的單位,他們是(按拼音順序排列):中國科學(xué)技術(shù)信息研究所(無償)特別感謝!中國科學(xué)院計(jì)算技術(shù)研究所本次WoodPecker評(píng)測的全過程中

24、,得到了微軟亞洲研究院自然語言計(jì)算組的張冬冬、李沐的鼎立協(xié)助,在此深表感謝!感謝本次評(píng)測組織工作的主要承擔(dān)者付出的艱辛勞動(dòng):趙紅梅、謝軍!,參考文獻(xiàn),David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Al

25、gorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational LinguisticsMing Zhou, Bo Wang, Shujie

26、 Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008.Natural Language Computing Group, Microsoft Research A

27、sia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-d6a7c7919b4a/details.aspxMichael Collins, Philipp Koehn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論