cwmt2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-05 格式：ppt 頁(yè)數(shù)：46 大?。?.17MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

cwmt2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告_第1頁(yè)

已閱讀1頁(yè)，還剩45頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、CWMT2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告,中科院計(jì)算所機(jī)器翻譯評(píng)測(cè)組趙紅梅謝軍呂雅娟劉群2008年11月,提綱,● 概述 ● 參評(píng)單位和參評(píng)系統(tǒng) ● 評(píng)測(cè)語(yǔ)料 ● 評(píng)測(cè)流程 ● 評(píng)測(cè)方法 ● 評(píng)測(cè)結(jié)果 ● 評(píng)測(cè)結(jié)果分析 ● 總結(jié)和展望,概述,● 機(jī)器翻譯核心技術(shù)的評(píng)測(cè)● 目的：推進(jìn)機(jī)器翻譯技術(shù)的

2、交流和發(fā)展● 15個(gè)參評(píng)單位● 2個(gè)語(yǔ)種方向（漢英、英漢）● 兩種領(lǐng)域（新聞、科技），其中科技翻譯為新增項(xiàng)目● 新增了漢英新聞系統(tǒng)融合項(xiàng)目● 新增了WoodPecker評(píng)測(cè)● 新增了BLEU-SBP參考指標(biāo),參評(píng)單位,,● 廈門大學(xué)人工智能研究所 ● 中國(guó)軟件與技術(shù)服務(wù)股份有限公司● 東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室● 中科院自動(dòng)化研究所系統(tǒng)1● 中科院自動(dòng)化研究所系統(tǒng)

3、2● 北京邁創(chuàng)語(yǔ)通軟件有限公司● 北京賽迪翻譯技術(shù)有限公司● 中國(guó)科學(xué)院軟件研究所● 西安匯申軟件有限公司● 中科院計(jì)算技術(shù)研究所多語(yǔ)言交互技術(shù)研究室● 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院智能信息處理研究所● 微軟亞洲研究院● 北京工業(yè)大學(xué)● 哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室● SYSTRAN Software, Inc,參評(píng)單位和系統(tǒng)數(shù)量,,評(píng)測(cè)語(yǔ)料,機(jī)器翻語(yǔ)譯料訓(xùn)練語(yǔ)料：新聞、科技公共

4、訓(xùn)練語(yǔ)料：868,947句對(duì)；科技獨(dú)有訓(xùn)練語(yǔ)料： 620,985句對(duì) 其中，萬(wàn)方數(shù)據(jù)：320,985句對(duì) 中信所語(yǔ)料：300,000句對(duì)。6家單位參加了萬(wàn)方數(shù)據(jù)論文摘要句對(duì)齊語(yǔ)料的校對(duì)測(cè)試語(yǔ)料：新

5、聞?wù)Z料按照分割日期規(guī)定均采自國(guó)內(nèi)外新聞網(wǎng)站；所有測(cè)試集中均混入了3倍的干擾集，真實(shí)測(cè)試集規(guī)模：,參考譯文每句4個(gè)參考譯文4個(gè)以目標(biāo)語(yǔ)言為母語(yǔ)的翻譯者獨(dú)立翻譯新聞的參考譯文由計(jì)算所制作，科技的參考譯文由中信所提供系統(tǒng)融合語(yǔ)料訓(xùn)練語(yǔ)料SSMT2007漢英新聞測(cè)試集、參考集和本次評(píng)測(cè)中10家參評(píng)單位提交的17個(gè)系統(tǒng)在SSMT2007漢英新聞?wù)鎸?shí)測(cè)試語(yǔ)料上的翻譯結(jié)果（共1,002句對(duì)）測(cè)試語(yǔ)料以上17個(gè)系統(tǒng)在CW

6、MT2008漢英新聞測(cè)試集上的翻譯結(jié)果。其中，12個(gè)系統(tǒng)提交了n-best結(jié)果，5個(gè)系統(tǒng)提交了1-best結(jié)果。參考譯文同本次評(píng)測(cè)漢英新聞翻譯項(xiàng)目的參考集,評(píng)測(cè)語(yǔ)料,評(píng)測(cè)流程,本次評(píng)測(cè)采用了網(wǎng)上評(píng)測(cè)的方式，流程如下： 8月31日評(píng)測(cè)組織方發(fā)放各個(gè)項(xiàng)目的訓(xùn)練數(shù)據(jù)10月8日評(píng)測(cè)組織方發(fā)放新聞翻譯項(xiàng)目的測(cè)試數(shù)據(jù)10月10日參評(píng)單位提交新聞翻譯項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述10月13日評(píng)測(cè)組織方發(fā)放

7、英漢科技翻譯項(xiàng)目的測(cè)試數(shù)據(jù)10月15日各參評(píng)單位提交英漢科技翻譯項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述10月20日評(píng)測(cè)組織方發(fā)放漢英系統(tǒng)融合項(xiàng)目的測(cè)試數(shù)據(jù)（即機(jī)器翻譯項(xiàng)目參評(píng)單位提交的運(yùn)行結(jié)果的匯總）10月22日各參評(píng)單位提交漢英系統(tǒng)融合項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述,評(píng)測(cè)方法,格式預(yù)處理：各系統(tǒng)翻譯的結(jié)果首先需要轉(zhuǎn)換為評(píng)測(cè)軟件能夠處理的內(nèi)部格式；此次評(píng)測(cè)的內(nèi)部格式更加接近NIST評(píng)測(cè)格式；部分單位提交的結(jié)果格式不

8、符合要求；解決辦法：下次評(píng)測(cè)提供格式檢測(cè)程序！10月22日收到提交結(jié)果后開始進(jìn)行自動(dòng)評(píng)測(cè)，10月28日全部完成。體會(huì)：評(píng)測(cè)中最麻煩的問題莫過于格式和編碼統(tǒng)一采用UTF-8編碼，但是：帶編碼（如utf-8）的文件在Windows下復(fù)制到剪貼板上時(shí)（包括使用寫字版和UltraEdit），很多符號(hào)如引號(hào)和連字符等都會(huì)被轉(zhuǎn)換成默認(rèn)的編碼方式（如ANSI編碼），從而出現(xiàn)亂碼。不能采用utf-8、無(wú)BOM編碼：因其不識(shí)別英鎊符號(hào)￡,評(píng)測(cè)

9、方法,評(píng)測(cè)指標(biāo)：本次評(píng)測(cè)采用多種自動(dòng)評(píng)價(jià)指標(biāo)，包括：BLEU、 NIST、GTM、mWER、mPER、ICT參考指標(biāo)：BLEU-SBP：采用修改bp的BLEUWoodPecker：提供基于檢測(cè)點(diǎn)的評(píng)測(cè)結(jié)果以上指標(biāo)均為：大小寫敏感的中文的評(píng)測(cè)是基于字的，而不是基于詞的,評(píng)測(cè)方法： BLEU-SBP,我們發(fā)現(xiàn)了BLEU本身存在的問題：將測(cè)試結(jié)果中2%的句子縮短為只有1-2個(gè)單詞，BLEU

10、值不變！用BLEU進(jìn)行A、B兩個(gè)結(jié)果的顯著性差異的符號(hào)檢驗(yàn)，發(fā)現(xiàn)：,,評(píng)測(cè)方法： BLEU-SBP,解決：采用BLEU-SBP指標(biāo) (David Chiang et al., 2008),BLEU vs. BLEU-SBP,兩者的最大區(qū)別在于bp ( brevity penalty)部分請(qǐng)參考Decomposability of Translation Metrics for Improved Evaluatio

11、n and Efficient Algorithms, David Chiang, et.al, EMNLP2008,,,,,評(píng)測(cè)方法： BLEU-SBP,,漢英新聞12個(gè)參評(píng)主系統(tǒng)BLEU4與BLEU-SBP結(jié)果對(duì)比,,,,評(píng)測(cè)方法,符號(hào)檢驗(yàn)：在BLEU-SBP的基礎(chǔ)上，針對(duì)各主系統(tǒng)的翻譯結(jié)果，進(jìn)行了結(jié)果之間差異的顯著性檢驗(yàn)---符號(hào)檢驗(yàn) （Collins et al.,2005）做法：分別以每個(gè)主系統(tǒng)為基準(zhǔn)系統(tǒng)，測(cè)試了

12、所有其它主系統(tǒng)與基準(zhǔn)系統(tǒng)結(jié)果差異的顯著性程度，以此構(gòu)造了所有主系統(tǒng)翻譯結(jié)果的差異顯著性矩陣。,,評(píng)測(cè)結(jié)果：漢英新聞主系統(tǒng),漢英新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,漢英新聞主系統(tǒng),0.0968,0.1539,0.1686,0.1773,0.1838,0.2033,0.2051,0.2188,0.2264,0.2275,0.2390,0.2809,0.0

13、5,0.10,0.15,0.20,0.25,0.30,12,11,10,9,8,7,6,5,4,3,2,1,BLEU-4,,,,,,,,,評(píng)測(cè)結(jié)果：英漢新聞主系統(tǒng),英漢新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英漢新聞主系統(tǒng),0.2369,0.2408,0.2532,0.2622,0.1964,0.2129,0.2413,0.2611,0.297,0.3157

14、,0.3263,0.15,0.20,0.25,0.30,0.35,9,8,6,4,11,10,7,5,3,2,1,BLEU-5,,,不,,受,,限,受,,,限,,,評(píng)測(cè)結(jié)果：英漢科技主系統(tǒng),英漢科技主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英漢科技主系統(tǒng),0.3528,0.3743,0.4026,0.4618,0.2173,0.2859,0.3651,0.4718,0

15、.4879,0.20,0.25,0.30,0.35,0.40,0.45,0.50,7,5,4,3,9,8,6,2,1,BLEU-5,,不,,受,,限,受,,,限,,評(píng)測(cè)結(jié)果：漢英新聞系統(tǒng)融合主系統(tǒng),漢英新聞系統(tǒng)融合主系統(tǒng)BLEU結(jié)果,,,以規(guī)則方法為主以統(tǒng)計(jì)方法為主,評(píng)測(cè)結(jié)果分析：各主系統(tǒng)所用方法,,,評(píng)測(cè)結(jié)果分析,兩種方法在各項(xiàng)目中的平均BLEU對(duì)比表明：統(tǒng)計(jì)方法在英漢科技的BLEU得分上優(yōu)勢(shì)明顯，這一點(diǎn)也可以從隨后的WoodPec

16、ker評(píng)測(cè)結(jié)果上看出來(lái)。,結(jié)論：科技翻譯很適合于使用統(tǒng)計(jì)機(jī)器翻譯方法,系統(tǒng)融合的最好結(jié)果僅比單系統(tǒng)的最好結(jié)果BLEU值高出1.35個(gè)百分點(diǎn)，比預(yù)想的要差得多原因還沒有弄明白,評(píng)測(cè)結(jié)果分析,MSRA在漢英新聞不受限項(xiàng)目上優(yōu)勢(shì)明顯與去年SSMT2007評(píng)測(cè)相比，HIT、NEU等單位進(jìn)步非常大基于規(guī)則的系統(tǒng)表現(xiàn)比想象的好,評(píng)測(cè)結(jié)果分析,評(píng)測(cè)方法： WoodPecker,WoodPecker是微軟亞洲研究院開發(fā)的基于檢測(cè)點(diǎn)的評(píng)測(cè)工具基于

17、語(yǔ)言學(xué)分類的檢測(cè)工具檢測(cè)點(diǎn)自動(dòng)抽取可以提供詞級(jí)、短語(yǔ)級(jí)以及句級(jí)的評(píng)價(jià)指標(biāo)下載地址:http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-6a7c7919b4a/details.aspx,Linguistic Taxonomy,WoodPecker: 系統(tǒng)流程,WoodPecker: 相關(guān)工具,數(shù)據(jù)預(yù)處理中文全/半角轉(zhuǎn)換:

18、 A3區(qū)全半角轉(zhuǎn)換 A2B中文分詞: ICTCLAS英文首字母大小寫轉(zhuǎn)化 Truecase英文Tokenization詞對(duì)齊GIZA++ParsingBerkeley ParserStanford Parser,檢測(cè)點(diǎn)提取和選擇,檢測(cè)點(diǎn)的提取和評(píng)測(cè)：參考譯文的預(yù)處理方法和對(duì)參評(píng)系統(tǒng)輸出的預(yù)處理方法保持一致?；赪oodPecker語(yǔ)言學(xué)檢測(cè)點(diǎn)分類體系，從評(píng)測(cè)語(yǔ)料中總共提取出了52種漢英檢測(cè)點(diǎn)，81種英漢檢測(cè)點(diǎn)。檢

19、測(cè)點(diǎn)的選擇：根據(jù)出現(xiàn)頻次對(duì)檢測(cè)點(diǎn)類別進(jìn)行了篩選：源語(yǔ)言檢測(cè)點(diǎn)：出現(xiàn)頻次﹥10目標(biāo)語(yǔ)言檢測(cè)點(diǎn)：出現(xiàn)頻次﹥40 (注: 獨(dú)立計(jì)算每個(gè)參考譯文中檢測(cè)點(diǎn)的頻次)說(shuō)明: (1)漢英介詞同時(shí)計(jì)入功能詞類別和內(nèi)容詞類別.(2)英漢歧義詞沒有考慮最終選取的檢測(cè)點(diǎn)類別數(shù)目：漢英檢測(cè)點(diǎn): 46英漢檢測(cè)點(diǎn): 58,評(píng)測(cè)結(jié)果：WoodPecker,漢英新聞主系統(tǒng)英漢新聞主系統(tǒng)英漢科技主系統(tǒng)漢英新聞系統(tǒng)融合,WoodPecker 與 BLEU

20、相關(guān)性分析（英漢）,,,WoodPecker 與 BLEU 相關(guān)性分析（漢英）,WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最好的5類檢測(cè)點(diǎn),WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最差的5類檢測(cè)點(diǎn),評(píng)測(cè)結(jié)果分析,,在漢英新聞?lì)I(lǐng)域，在源語(yǔ)言的“搭配”、“介詞”兩個(gè)檢測(cè)點(diǎn)上，統(tǒng)計(jì)翻譯系統(tǒng)

21、顯示出一定優(yōu)勢(shì)：,評(píng)測(cè)結(jié)果分析,在漢英新聞?lì)I(lǐng)域，“成語(yǔ)”測(cè)試點(diǎn)上，基于規(guī)則的系統(tǒng)則表現(xiàn)更好：,評(píng)測(cè)結(jié)果分析,在英漢新聞?lì)I(lǐng)域， “介詞”和“詞典介詞”兩個(gè)檢測(cè)點(diǎn)，基于規(guī)則的系統(tǒng)占優(yōu)：,在英漢新聞?lì)I(lǐng)域，源語(yǔ)言的“數(shù)詞短語(yǔ)”測(cè)試點(diǎn)上，基于規(guī)則的翻譯系統(tǒng)結(jié)果較好：,評(píng)測(cè)結(jié)果分析,評(píng)測(cè)結(jié)果分析,各項(xiàng)目WoodPecker評(píng)測(cè)中總分前五名的結(jié)果顯示：在英漢新聞?lì)I(lǐng)域，基于規(guī)則的系統(tǒng)在這種基于語(yǔ)言學(xué)分類的檢測(cè)點(diǎn)評(píng)測(cè)中顯示了一定的優(yōu)勢(shì)：,總結(jié)和展望,總結(jié)

22、：從準(zhǔn)備到結(jié)束歷時(shí)半年，期間細(xì)節(jié)之繁瑣非一個(gè)“累”字了得！所幸評(píng)測(cè)中的小 “閃失” 都得到了糾正，更有幸都得到了大家的諒解！?改進(jìn)之處：更加詳盡的評(píng)測(cè)大綱增加了科技翻譯評(píng)測(cè)增加了系統(tǒng)融合評(píng)測(cè)引入BLEU-SBP，并進(jìn)行了顯著性檢驗(yàn)引入WoodPecker！展望：交流、溝通、進(jìn)步！,下次評(píng)測(cè)怎么做？項(xiàng)目設(shè)置詞語(yǔ)對(duì)齊？系統(tǒng)融合？科技翻譯？其他？訓(xùn)練語(yǔ)料評(píng)測(cè)指標(biāo)組織方式,總結(jié)和展望,致謝,感

23、謝為此次評(píng)測(cè)提供訓(xùn)練數(shù)據(jù)的單位，他們是（按拼音順序排列）：北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室（無(wú)償）哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室萬(wàn)方數(shù)據(jù)公司廈門大學(xué)中國(guó)科學(xué)技術(shù)信息研究所（無(wú)償）中國(guó)科學(xué)院計(jì)算技術(shù)研究所中國(guó)科學(xué)院自動(dòng)化研究所感謝為此次評(píng)測(cè)中提供測(cè)試數(shù)據(jù)的單位，他們是（按拼音順序排列）：中國(guó)科學(xué)技術(shù)信息研究所（無(wú)償）特別感謝！中國(guó)科學(xué)院計(jì)算技術(shù)研究所本次WoodPecker評(píng)測(cè)的全過程中

24、，得到了微軟亞洲研究院自然語(yǔ)言計(jì)算組的張冬冬、李沐的鼎立協(xié)助，在此深表感謝！感謝本次評(píng)測(cè)組織工作的主要承擔(dān)者付出的艱辛勞動(dòng)：趙紅梅、謝軍！,參考文獻(xiàn),David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Al

25、gorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational LinguisticsMing Zhou, Bo Wang, Shujie

26、 Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008.Natural Language Computing Group, Microsoft Research A

27、sia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-d6a7c7919b4a/details.aspxMichael Collins, Philipp Koehn

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

cwmt2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

cwmt2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載