2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、CWMT2008機器翻譯評測總結報告,中科院計算所機器翻譯評測組趙紅梅 謝軍 呂雅娟 劉群2008年11月,提綱,● 概述 ● 參評單位和參評系統(tǒng) ● 評測語料 ● 評測流程 ● 評測方法 ● 評測結果 ● 評測結果分析 ● 總結和展望,概述,● 機器翻譯核心技術的評測● 目的: 推進機器翻譯技術的

2、交流和發(fā)展● 15個參評單位● 2個語種方向(漢英、英漢)● 兩種領域(新聞、科技),其中科技翻譯為新增項目● 新增了漢英新聞系統(tǒng)融合項目● 新增了WoodPecker評測● 新增了BLEU-SBP參考指標,參評單位,,● 廈門大學人工智能研究所 ● 中國軟件與技術服務股份有限公司● 東北大學自然語言處理實驗室● 中科院自動化研究所系統(tǒng)1● 中科院自動化研究所系統(tǒng)

3、2● 北京邁創(chuàng)語通軟件有限公司● 北京賽迪翻譯技術有限公司● 中國科學院軟件研究所● 西安匯申軟件有限公司● 中科院計算技術研究所多語言交互技術研究室● 北京航空航天大學計算機學院智能信息處理研究所● 微軟亞洲研究院● 北京工業(yè)大學● 哈爾濱工業(yè)大學機器智能與翻譯研究室● SYSTRAN Software, Inc,參評單位和系統(tǒng)數(shù)量,,評測語料,機器翻語譯料訓練語料: 新聞、科技公共

4、訓練語料:868,947句對; 科技獨有訓練語料: 620,985句對 其中, 萬方數(shù)據(jù):320,985句對 中信所語料:300,000句對。6家單位參加了萬方數(shù)據(jù)論文摘要句對齊語料的校對測試語料:新

5、聞語料按照分割日期規(guī)定均采自國內外新聞網站;所有測試集中均混入了3倍的干擾集,真實測試集規(guī)模:,參考譯文每句4個參考譯文4個以目標語言為母語的翻譯者獨立翻譯新聞的參考譯文由計算所制作,科技的參考譯文由中信所提供系統(tǒng)融合語料訓練語料SSMT2007漢英新聞測試集、參考集和本次評測中10家參評單位提交的17個系統(tǒng)在SSMT2007漢英新聞真實測試語料上的翻譯結果(共1,002句對)測試語料以上17個系統(tǒng)在CW

6、MT2008漢英新聞測試集上的翻譯結果。其中,12個系統(tǒng)提交了n-best結果,5個系統(tǒng)提交了1-best結果。參考譯文同本次評測漢英新聞翻譯項目的參考集,評測語料,評測流程,本次評測采用了網上評測的方式,流程如下: 8月31日 評測組織方發(fā)放各個項目的訓練數(shù)據(jù)10月8日 評測組織方發(fā)放新聞翻譯項目的測試數(shù)據(jù)10月10日 參評單位提交新聞翻譯項目的測試運行結果和系統(tǒng)描述10月13日 評測組織方發(fā)放

7、英漢科技翻譯項目的測試數(shù)據(jù)10月15日 各參評單位提交英漢科技翻譯項目的測試運行結果和系統(tǒng)描述10月20日 評測組織方發(fā)放漢英系統(tǒng)融合項目的測試數(shù)據(jù)(即機器翻譯項目參評單位提交的運行結果的匯總)10月22日 各參評單位提交漢英系統(tǒng)融合項目的測試運行結果和系統(tǒng)描述,評測方法,格式預處理:各系統(tǒng)翻譯的結果首先需要轉換為評測軟件能夠處理的內部格式;此次評測的內部格式更加接近NIST評測格式;部分單位提交的結果格式不

8、符合要求;解決辦法:下次評測提供格式檢測程序!10月22日收到提交結果后開始進行自動評測,10月28日全部完成。體會:評測中最麻煩的問題莫過于格式和編碼統(tǒng)一采用UTF-8編碼,但是:帶編碼(如utf-8)的文件在Windows下復制到剪貼板上時(包括使用寫字版和UltraEdit),很多符號如引號和連字符等都會被轉換成默認的編碼方式(如ANSI編碼),從而出現(xiàn)亂碼。不能采用utf-8、無BOM編碼:因其不識別英鎊符號£,評測

9、方法,評測指標: 本次評測采用多種自動評價指標,包括:BLEU、 NIST、GTM、mWER、mPER、ICT參考指標:BLEU-SBP:采用修改bp的BLEUWoodPecker:提供基于檢測點的評測結果以上指標均為:大小寫敏感的中文的評測是基于字的,而不是基于詞的,評測方法: BLEU-SBP,我們發(fā)現(xiàn)了BLEU本身存在的問題: 將測試結果中2%的句子縮短為只有1-2個單詞,BLEU

10、值不變! 用BLEU進行A、B兩個結果的顯著性差異的符號檢驗,發(fā)現(xiàn):,,評測方法: BLEU-SBP,解決:采用BLEU-SBP指標 (David Chiang et al., 2008),BLEU vs. BLEU-SBP,兩者的最大區(qū)別在于bp ( brevity penalty)部分請參考Decomposability of Translation Metrics for Improved Evaluatio

11、n and Efficient Algorithms, David Chiang, et.al, EMNLP2008,,,,,評測方法: BLEU-SBP,,漢英新聞12個參評主系統(tǒng)BLEU4與BLEU-SBP結果對比,,,,評測方法,符號檢驗:在BLEU-SBP的基礎上,針對各主系統(tǒng)的翻譯結果,進行了結果之間差異的顯著性檢驗---符號檢驗 (Collins et al.,2005)做法:分別以每個主系統(tǒng)為基準系統(tǒng),測試了

12、所有其它主系統(tǒng)與基準系統(tǒng)結果差異的顯著性程度,以此構造了所有主系統(tǒng)翻譯結果的差異顯著性矩陣。,,評測結果:漢英新聞主系統(tǒng),漢英新聞主系統(tǒng)BLEU結果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,漢 英 新 聞 主 系 統(tǒng),0.0968,0.1539,0.1686,0.1773,0.1838,0.2033,0.2051,0.2188,0.2264,0.2275,0.2390,0.2809,0.0

13、5,0.10,0.15,0.20,0.25,0.30,12,11,10,9,8,7,6,5,4,3,2,1,BLEU-4,,,,,,,,,評測結果:英漢新聞主系統(tǒng),英漢新聞主系統(tǒng)BLEU結果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 新 聞 主 系 統(tǒng),0.2369,0.2408,0.2532,0.2622,0.1964,0.2129,0.2413,0.2611,0.297,0.3157

14、,0.3263,0.15,0.20,0.25,0.30,0.35,9,8,6,4,11,10,7,5,3,2,1,BLEU-5,,,不,,受,,限,受,,,限,,,評測結果:英漢科技主系統(tǒng),英漢科技主系統(tǒng)BLEU結果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 科 技 主 系 統(tǒng),0.3528,0.3743,0.4026,0.4618,0.2173,0.2859,0.3651,0.4718,0

15、.4879,0.20,0.25,0.30,0.35,0.40,0.45,0.50,7,5,4,3,9,8,6,2,1,BLEU-5,,不,,受,,限,受,,,限,,評測結果:漢英新聞系統(tǒng)融合主系統(tǒng),漢英新聞系統(tǒng)融合主系統(tǒng)BLEU結果,,,以規(guī)則方法為主以統(tǒng)計方法為主,評測結果分析:各主系統(tǒng)所用方法,,,評測結果分析,兩種方法在各項目中的平均BLEU對比表明:統(tǒng)計方法在英漢科技的BLEU得分上優(yōu)勢明顯,這一點也可以從隨后的WoodPec

16、ker評測結果上看出來。,結論:科技翻譯很適合于使用統(tǒng)計機器翻譯方法,系統(tǒng)融合的最好結果僅比單系統(tǒng)的最好結果BLEU值高出1.35個百分點,比預想的要差得多原因還沒有弄明白,評測結果分析,MSRA在漢英新聞不受限項目上優(yōu)勢明顯與去年SSMT2007評測相比,HIT、NEU等單位進步非常大基于規(guī)則的系統(tǒng)表現(xiàn)比想象的好,評測結果分析,評測方法: WoodPecker,WoodPecker是微軟亞洲研究院開發(fā)的基于檢測點的評測工具基于

17、語言學分類的檢測工具檢測點自動抽取可以提供詞級、短語級以及句級的評價指標下載地址:http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-6a7c7919b4a/details.aspx,Linguistic Taxonomy,WoodPecker: 系統(tǒng)流程,WoodPecker: 相關工具,數(shù)據(jù)預處理中文全/半角轉換:

18、 A3區(qū)全半角轉換 A2B中文分詞: ICTCLAS英文首字母大小寫轉化 Truecase英文Tokenization詞對齊GIZA++ParsingBerkeley ParserStanford Parser,檢測點提取和選擇,檢測點的提取和評測:參考譯文的預處理方法和對參評系統(tǒng)輸出的預處理方法保持一致?;赪oodPecker語言學檢測點分類體系,從評測語料中總共提取出了52種漢英檢測點,81種英漢檢測點。檢

19、測點的選擇:根據(jù)出現(xiàn)頻次對檢測點類別進行了篩選:源語言檢測點:出現(xiàn)頻次﹥10目標語言檢測點:出現(xiàn)頻次﹥40 (注: 獨立計算每個參考譯文中檢測點的頻次)說明: (1)漢英介詞同時計入功能詞類別和內容詞類別.(2)英漢歧義詞沒有考慮最終選取的檢測點類別數(shù)目:漢英檢測點: 46英漢檢測點: 58,評測結果:WoodPecker,漢英新聞主系統(tǒng)英漢新聞主系統(tǒng)英漢科技主系統(tǒng)漢英新聞系統(tǒng)融合,WoodPecker 與 BLEU

20、 相關性分析 (英漢),,,WoodPecker 與 BLEU 相關性分析 (漢英),WoodPecker 與 BLEU 相關性分析 --相關性最好的5類檢測點,WoodPecker 與 BLEU 相關性分析 --相關性最差的5類檢測點,評測結果分析,,在漢英新聞領域,在源語言的“搭配”、“介詞”兩個檢測點上,統(tǒng)計翻譯系統(tǒng)

21、顯示出一定優(yōu)勢:,評測結果分析,在漢英新聞領域,“成語”測試點上,基于規(guī)則的系統(tǒng)則表現(xiàn)更好:,評測結果分析,在英漢新聞領域, “介詞”和“詞典介詞”兩個檢測點,基于規(guī)則的系統(tǒng)占優(yōu):,在英漢新聞領域,源語言的“數(shù)詞短語”測試點上,基于規(guī)則的翻譯系統(tǒng)結果較好:,評測結果分析,評測結果分析,各項目WoodPecker評測中總分前五名的結果顯示:在英漢新聞領域,基于規(guī)則的系統(tǒng)在這種基于語言學分類的檢測點評測中顯示了一定的優(yōu)勢:,總結和展望,總結

22、:從準備到結束歷時半年,期間細節(jié)之繁瑣非一個“累”字了得!所幸評測中的小 “閃失” 都得到了糾正,更有幸都得到了大家的諒解!?改進之處:更加詳盡的評測大綱增加了科技翻譯評測增加了系統(tǒng)融合評測引入BLEU-SBP,并進行了顯著性檢驗引入WoodPecker!展望:交流、溝通、進步!,下次評測怎么做?項目設置詞語對齊?系統(tǒng)融合?科技翻譯?其他?訓練語料評測指標組織方式,總結和展望,致謝,感

23、謝為此次評測提供訓練數(shù)據(jù)的單位,他們是(按拼音順序排列):北京大學計算語言學研究所哈爾濱工業(yè)大學信息檢索實驗室(無償)哈爾濱工業(yè)大學機器智能與翻譯研究室萬方數(shù)據(jù)公司廈門大學中國科學技術信息研究所(無償)中國科學院計算技術研究所中國科學院自動化研究所感謝為此次評測中提供測試數(shù)據(jù)的單位,他們是(按拼音順序排列):中國科學技術信息研究所(無償)特別感謝!中國科學院計算技術研究所本次WoodPecker評測的全過程中

24、,得到了微軟亞洲研究院自然語言計算組的張冬冬、李沐的鼎立協(xié)助,在此深表感謝!感謝本次評測組織工作的主要承擔者付出的艱辛勞動:趙紅梅、謝軍!,參考文獻,David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Al

25、gorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational LinguisticsMing Zhou, Bo Wang, Shujie

26、 Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008.Natural Language Computing Group, Microsoft Research A

27、sia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-d6a7c7919b4a/details.aspxMichael Collins, Philipp Koehn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論