2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、計算機輔助翻譯系統(tǒng)漫談,陳群秀清華大學(xué)計算機科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國家實驗室 北京 100084cqx@s1000e.cs.tsinghua.edu.cn,摘要 本文首先簡單介紹機器翻譯研究發(fā)展簡史和研究動向。然后本文闡述機器翻譯系統(tǒng)的分類及特點:機器翻譯系統(tǒng)從系統(tǒng)研制的方法分為基于規(guī)則的機器翻譯系統(tǒng)和基于語料庫的機器翻譯系統(tǒng),后者又分為基于統(tǒng)計的機器翻譯系統(tǒng)、基于實例的機器翻譯系統(tǒng)和翻譯記憶系統(tǒng);從自動化程度分為全自動

2、機器翻譯系統(tǒng)、人助機譯系統(tǒng)和機助人譯系統(tǒng),后兩種合稱為計算機輔助翻譯系統(tǒng);從翻譯轉(zhuǎn)換方式分為直譯式系統(tǒng)、基于轉(zhuǎn)換方式的翻譯系統(tǒng)和基于中間語言(樞軸式)的翻譯系統(tǒng);從翻譯用戶的需求分為為瀏覽者研制、為修訂者研制、為翻譯者研制和為寫作者研制的系統(tǒng)等四種類型。進而本文提出機器輔助翻譯系統(tǒng)最好同時包含基于翻譯記憶技術(shù)和基于實例模式翻譯這兩種翻譯功能并且這兩種翻譯方法和翻譯過程最好分階段進行。最后本文對基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù)和基于實例

3、模式翻譯的有關(guān)技術(shù)進行了討論。 關(guān)鍵詞 計算機輔助翻譯系統(tǒng);機器翻譯系統(tǒng)的分類及特點;基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù);基于實例模式翻譯的有關(guān)技,機器翻譯研究發(fā)展簡史和研究動向 隨著因特網(wǎng)的日益普及應(yīng)用和全球一體化日益進展,不同語種間人們交流的語言障礙日益顯得更為突出。為解決這一難題而進行的機器翻譯研究是一個涉及語言學(xué)、計算機科學(xué)、認知科學(xué)等多學(xué)科的綜合性研究領(lǐng)域。目前,機器翻譯研究是國際上激烈競爭的

4、高科技研究領(lǐng)域之一,也是信息處理的實用學(xué)科。機器翻譯研究是1946年計算機產(chǎn)生后的第一個應(yīng)用。機器翻譯研究自1947年美國洛克菲勒基金會自然科學(xué)部主任華倫·韋弗提出用現(xiàn)代電子計算機進行語言翻譯的設(shè)想至今,已有五十多年近六十年的歷史,它的發(fā)展歷史波波折折、起起復(fù)復(fù)。它經(jīng)歷過最初近二十年的初創(chuàng)期和第一個興旺期,但由于當(dāng)時人們對機器翻譯的期望值過高,而機器翻譯當(dāng)時的研究水平和技術(shù)的歷史局限,也因為當(dāng)時的大學(xué)科人工智能研究沒抓住本質(zhì)而

5、又頭腦發(fā)熱盲目樂觀,致使人工智能和機器翻譯的研究進入了低谷期,即機器翻譯自1966年美國發(fā)表了ALPAC報告(黑皮書)后經(jīng)歷了1966年~1976年長達十年的蕭條低迷期。到二十世紀七十年代中期機器翻譯研究才開始逐漸復(fù)蘇并進入了第二個興旺期。特別是八十年代以來,機器翻譯研究得到了長足的發(fā)展,進入了發(fā)展的黃金時代。這個時代有四個顯著特點:,(1) 機器翻譯研究走出實驗室開始進入實用階段。 這個階段相繼出現(xiàn)了一些實用型的機器翻

6、譯系統(tǒng),例如美國的SYSTRAN系統(tǒng)(1975年)、加拿大蒙特利爾大學(xué)的TAUM-METEO系統(tǒng)(1976年)、日本富士通公司的ATLAS系統(tǒng)、法國紡織研究所的TITUS-IV系統(tǒng)(翻譯編織專業(yè)文摘)等。機器翻譯研究面向應(yīng)用、走向應(yīng)用、邁向商品化,同時又以應(yīng)用推動更高層次的研究,是這一時代最主要的特點。 (2) 電子和軟件產(chǎn)業(yè)部門直接卷入機器翻譯研究是這個時代的第二個特點。產(chǎn)業(yè)部門的直接卷入對機器翻譯研究發(fā)展產(chǎn)生深遠的影

7、響。 (3) 國際間的交流與合作十分活躍是這個時代的又一特點。 國家政府間的合作、民間組織間的合作形式都有。國家間的合作主要有歐洲共同體EUROTRA計劃和亞洲由日本政府支持的ODA計劃。EUROTRA計劃開始于1978年,主要目的在于開發(fā)一個能處理歐洲共同體成員國語言的機器翻譯系統(tǒng),當(dāng)時就投入4000萬美元,參加的國家有法國、德國、比利時、丹麥、荷蘭、希臘、愛爾蘭、意大利、盧森保和美國,大約有100多名

8、的研究人員。ODA計劃是由日本通產(chǎn)省發(fā)起和資助、由日本國際情報協(xié)力中心CICC組織、有中國、泰國、馬來西亞和印度尼西亞參加的機譯合作計劃,開始于1987年,預(yù)定1992年完成(實際1993年結(jié)束),政府投資60億日元,翻譯策略為中間語言表示和概念詞典。 (4) 加速吸收和采用新理論和新技術(shù)是這個時代的第四個特點。,機器翻譯研究雖然進入了全面發(fā)展的黃金時代,但仍然面臨著重重的困難,困難歸困難,但因機器翻譯的市場是巨大的,

9、前景也是遠大的,因此各個國家對機器翻譯研究的興趣正在持續(xù)增長,特別是日本,熱情有增無減。全世界從事機器翻譯的研究人員有幾千人,其中日本就將近占了一半。機器翻譯面臨一些嚴峻問題,例如,機器翻譯系統(tǒng)的譯準率長期徘徊在70%左右(大規(guī)模真實語料文本下更低),譯文的可讀性、系統(tǒng)對語言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會迫切需要對真實文本(尤其是網(wǎng)上海量文本)進行大規(guī)模的處理,而機器翻譯系統(tǒng)同當(dāng)今社會對大規(guī)模真實文本處理的期望相

10、差甚遠。機器翻譯系統(tǒng)的譯準率和譯文可讀性(可理解度,可懂度)之所以不盡人意是因為在翻譯過程中存在著下列問題:①源文句子分析時語法結(jié)構(gòu)和語義結(jié)構(gòu)存在歧義;②多義詞在不同語境中存在譯詞選擇問題;③譯文生成時存在介詞、助詞的多義選擇問題;④譯文生成時還存在性、數(shù)、格一致性問題、時態(tài)、語態(tài)、語氣、尊稱選擇問題和符合母語語言習(xí)慣、語序選擇問題;⑤代詞指代問題、相關(guān)詞照應(yīng)問題、省略成分復(fù)原問題,等等。,目前,機器翻譯研究領(lǐng)域有幾個研究動向值得注意:

11、 (1) 為解決機器翻譯系統(tǒng)面臨的重重困難,采用多種翻譯分析策略、多種翻譯方法的結(jié)合是當(dāng)前機器翻譯研究的動向和前沿性研究; 現(xiàn)有基于規(guī)則的翻譯技術(shù)和基于語料統(tǒng)計的翻譯技術(shù)各有其不足之處,考慮到語言的規(guī)律性和重復(fù)性,一些研究者又提出了一種基于翻譯記憶技術(shù)的機器翻譯方法,即利用先驗的或者人機交互過程中生成的翻譯記憶,實現(xiàn)對輸入文本的翻譯,例如歐共體(德國TRADOS公司)開發(fā)的“Trados Translat

12、or’s workbench”系統(tǒng)、美國的CMU大學(xué)研究開發(fā)的Pangloss系統(tǒng)等,并已取得了很好的效果。不過由于它們是基于例子的完全匹配,有下面三方面的問題:一方面這種例子庫無法包容所有的現(xiàn)實自然語言句子;另一方面由于例子的適應(yīng)性不強,如要使這種例子庫具有一定的語言現(xiàn)象覆蓋面的話,勢必會使例子庫非常龐大,并且細微差別不能夠有效泛化,冗余度很大;第三方面是例子庫的譯文構(gòu)造基本局限在模式匹配的語言處理層次上,譯文近似構(gòu)造能力很低。但是基

13、于實例模式庫的基于實例的翻譯方法則能克服以上問題,是對基于簡單翻譯記憶方法的改造和完善。實際上現(xiàn)在很多機器翻譯系統(tǒng)或研究基本上都是采用基于規(guī)則翻譯方法和基于語料庫翻譯方法相結(jié)合,形成一種研究的潮流和動向。,(2) 在機器翻譯系統(tǒng)中實現(xiàn)參數(shù)化,這也是現(xiàn)在機器翻譯系統(tǒng)的一個發(fā)展方向和新動向。 為了提高機器翻譯的譯文質(zhì)量,有效的方法是將通用的機器翻譯系統(tǒng)進行專一領(lǐng)域化(可在很大程度上提高機器翻譯系統(tǒng)的翻譯質(zhì)量),而專一領(lǐng)域化又

14、必須對每一個領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典加上通用詞典,這就必須花費巨大的人力、物力和時間。為了既能對機器翻譯系統(tǒng)實現(xiàn)專一領(lǐng)域化而又不必對每一個領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典,對機器翻譯系統(tǒng)實現(xiàn)參數(shù)化是一種解決辦法。參數(shù)化的機器翻譯系統(tǒng)有一個翻譯核心,而且只有一套詞典和一套語法規(guī)則,但在模型的建立中設(shè)置了很多的參數(shù)。對于不同領(lǐng)域的需求,參數(shù)化的機器翻譯系統(tǒng)采用自動學(xué)習(xí)的方法來調(diào)整參數(shù)的設(shè)置,以達到符合這個領(lǐng)域的要求。臺灣清華大學(xué)的蘇克毅教授與英

15、群公司研制的英漢機器翻譯系統(tǒng)ARCHTRAN(采用ATN、RULE、統(tǒng)計方法三結(jié)合),1989年5月完成,一直為IBM、HP、SUN等公司翻譯手冊。蘇克毅教授的英漢機器翻譯系統(tǒng)中實現(xiàn)了參數(shù)化。,國內(nèi)翻譯軟件市場上的商業(yè)軟件主要有詞典類軟件和翻譯類軟件兩種。前者包括金山詞霸、東方快車、華建詞海等產(chǎn)品,后者包括華建網(wǎng)上通系列、銘泰公司的東方快譯系列、金山公司的金山快譯、IBM的翻譯家和中軟公司的譯星系列等全文翻譯軟件。華建機器翻譯有限公司的

16、IAT系統(tǒng)(單板版和局域網(wǎng)絡(luò)版)、德國TRADOS公司的TRADOS系統(tǒng)(在英語類國家中市場占有明顯領(lǐng)先地位,有60多個國家)、北京雅信誠軟件公司的雅信CAT系統(tǒng)(按設(shè)定的匹配率給出參考譯文)則是輔助翻譯類的產(chǎn)品代表。,2. 機器翻譯系統(tǒng)的分類及特點 從機器翻譯系統(tǒng)研制的方法來分,機器翻譯系統(tǒng)可以分為如下類型: (1) 基于規(guī)則的機器翻譯系統(tǒng)(Rule-Based MT system,簡稱RBM

17、TS):它是根據(jù)專家的知識歸納的語言的規(guī)則設(shè)計的機器翻譯系統(tǒng)。基于規(guī)則翻譯方法在機器翻譯界一直占有主導(dǎo)地位,直到今天仍發(fā)揮著重要作用,現(xiàn)在有影響的MTS都是基于規(guī)則的。 (2) 基于語料庫的機器翻譯系統(tǒng)(Corpus-Based MT system,簡稱CBMTS):它是根據(jù)從語料庫中獲取的統(tǒng)計數(shù)據(jù)或者語言實例來設(shè)計的機器翻譯系統(tǒng)?;谡Z料庫方法的MTS通常稱為第三代MTS?;谡Z料庫的機器翻譯系統(tǒng)還可以進一步再分類,分

18、為如下三種類型:,a.基于統(tǒng)計的機器翻譯系統(tǒng)(Statistic-Based MT system,簡稱SBMTS):它是根據(jù)從語料庫中獲取的統(tǒng)計數(shù)據(jù)來設(shè)計的機器翻譯系統(tǒng)。統(tǒng)計機器翻譯的數(shù)學(xué)模型是由IBM公司的Brown等人提出的(1990,1993),它包括語言模型和復(fù)雜程度遞增的5種翻譯模型(數(shù)學(xué)模型),簡稱IBM Model 1~5。IBM公司的英法機譯系統(tǒng)Candide在統(tǒng)計機器翻譯方法上做出了有益嘗試。 b.

19、基于實例的機器翻譯系統(tǒng)(Example-Based MT system,簡稱EBMTS):它是根據(jù)從語料庫中獲取的語言實例來設(shè)計的機器翻譯系統(tǒng)?;趯嵗g方法最早是由日本著名的機器翻譯專家長尾真1984年提出的,其基本設(shè)想是不通過深層的分析,僅僅利用已有的翻譯經(jīng)驗知識,通過類比原理進行翻譯。日本京都大學(xué)的英日實驗系統(tǒng)MBT2在基于實例翻譯方法上做出了有益嘗試。 c.翻譯記憶系統(tǒng)(Translation Memory

20、MT system,簡稱TMMTS):它是能夠保存和重復(fù)使用翻譯工作者已經(jīng)翻譯好的譯文的翻譯系統(tǒng)。翻譯記憶軟件在內(nèi)容修訂和更新的全過程中能保存和重復(fù)使用譯文。如果有新的資料需要翻譯,可以使用原來存儲在翻譯記憶中的譯文,重復(fù)使用原來的譯文。關(guān)于翻譯記憶機制的設(shè)想,最早提出這一想法的是Peter Arthern(1978)。他指出:如果能在線檢索已有的、相似文檔的譯文,翻譯人員就能從中獲得很大的幫助。他還主張開發(fā)一個程序,讓系統(tǒng)記住已經(jīng)翻譯

21、過的文本,新文本輸入后系統(tǒng)檢查“記憶庫”,找到相似的文本并輸出其譯文。翻譯記憶技術(shù)系統(tǒng)產(chǎn)品包括Transit(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translator’s Workbench(Trados)、TransPro(TranPro)、WorldLingo等。,從機器翻譯系統(tǒng)的自動化程度來分,機器翻譯系統(tǒng)可以分為如下類型: (1) 全自動機器翻

22、譯系統(tǒng)(Full Automatic MT system, 簡稱FAMTS):它是由計算機全部自動地進行翻譯的機器翻譯系統(tǒng)。 (2) 人助機譯機器翻譯系統(tǒng)(Human-Assisted MT system,簡稱HAMTS):它是由人來輔助計算機進行翻譯的機器翻譯系統(tǒng)??梢酝ㄟ^譯前編輯對于要翻譯的原文進行加工,使之適合機器翻譯系統(tǒng)的要求,或者通過譯后編輯對于翻譯好的譯文進行修改,使之滿足用戶的需要。 (3)

23、 機助人譯機器翻譯系統(tǒng)(Machine-Assisted MT system,簡稱MAMTS):它是由計算機輔助人來進行翻譯的機器翻譯系統(tǒng)。例如,人可以使用計算機來查詢詞典,修改譯文錯誤等。 這后兩種翻譯系統(tǒng)合稱計算機輔助翻譯系統(tǒng)。,從翻譯轉(zhuǎn)換方式和翻譯過程來分,機器翻譯系統(tǒng)又可以分為以下三種類型: (1) 直譯方式和直譯式系統(tǒng)(Driect Translation MTS,簡稱DTMTS):它是以直接翻

24、譯方法為基礎(chǔ)的第一代機器翻譯系統(tǒng)。直譯法的基本原則是把原語的詞或句子替換成相應(yīng)的譯語的詞或句子,必要時對譯文詞序進行適當(dāng)?shù)恼{(diào)整。早期的MTS主要采用直譯式的翻譯模式。 (2) 基于轉(zhuǎn)換翻譯方式和基于轉(zhuǎn)換方式的機器翻譯系統(tǒng)(Transfer Based MTS,簡稱TBMTS):它包括源語言分析、源語言到目標語言的轉(zhuǎn)換和目標語言生成三個階段。轉(zhuǎn)換方法保留了較多的源語句型信息和源語到目標語的結(jié)構(gòu)轉(zhuǎn)換信息,同時也較依賴雙語詞典

25、來提供轉(zhuǎn)換時所需的源語到目標語的結(jié)構(gòu)轉(zhuǎn)換信息。轉(zhuǎn)換可以在詞法、句法或語義等不同的層次上進行,即一類系統(tǒng)僅有句法轉(zhuǎn)換,另一類則超越了表層結(jié)構(gòu)加入了語義分析?;谵D(zhuǎn)換翻譯方式其中的許多方法和技術(shù)相對比較成熟,直到今天仍被沿用。有些基于轉(zhuǎn)換策略的MTS采用了在源語和譯語之間能表現(xiàn)句法關(guān)系并在一定程度上表現(xiàn)語義關(guān)系的中間表達式(例如句法結(jié)構(gòu)樹、語義網(wǎng)絡(luò)等)。在翻譯過程中先把源語句子分析結(jié)果轉(zhuǎn)化為中間表達式,再由中間表達式轉(zhuǎn)換生成譯文。第二代MT

26、S以基于轉(zhuǎn)換的方法為代表,普遍采用以句法分析為主、語義分析為輔的基于規(guī)則方法、采用由抽象的轉(zhuǎn)換表示的分層次實現(xiàn)策略。比如著名的有加拿大蒙特利爾大學(xué)的TAUM-METEO系統(tǒng),法國Grenoble大學(xué)的英法機器翻譯系統(tǒng)GETA系統(tǒng)和TITUS系統(tǒng),美國Texas大學(xué)的德英機器翻譯系統(tǒng)METAL系統(tǒng)和LOGOS系統(tǒng)、德國Saar大學(xué)的德俄英法多語機器翻譯系統(tǒng)SUSY系統(tǒng)和日本FUJITSU公司的日英機器翻譯系統(tǒng)ATLAS-I、ATLAS-I

27、I。,(3) 基于中間語言(中介語)方式和基于中間語言(樞軸式)的機器翻譯系統(tǒng)(Interlingua-Based MTS,簡稱IBMTS):它將語義表達推至極限,試圖創(chuàng)造一個獨立于各種自然語言同時又能表達各種自然語言的無歧義人工語言作為中間語言。中間語言方法的基本論點是:雖然各種語言的表層結(jié)構(gòu)(句法結(jié)構(gòu))差異比較大,但卻有相同的深層結(jié)構(gòu)表達式,這些表達式可以看作通用的語義表達式。源語經(jīng)過各個層次的分析由表層結(jié)構(gòu)到達深層結(jié)構(gòu),而目標語的

28、生成也是從深層結(jié)構(gòu)經(jīng)過各個層次最后到達表層結(jié)構(gòu)。其特點是對多語翻譯系統(tǒng)非常經(jīng)濟合算,將n(n-1)個雙語有向系統(tǒng)變?yōu)?n個語言分析模塊和生成模塊。法國Grenoble大學(xué)的俄法系統(tǒng)CETA和美國Texas大學(xué)的德英機器翻譯系統(tǒng)METAL在基于中間語言翻譯方法上都做出了有益嘗試。歐共體的EUROTRA計劃包括多種語言互譯,向多種語言間全自動翻譯這一艱巨目標邁出實實在在的步伐。由日本政府(日本國際情報化合作中心CICC)資助的ODA計劃從1

29、987年至1992年(實際上是1993年)有日本、中國、泰國、馬來西亞、印度尼西亞等五個亞洲國家參加,投資六十億日元,對中間語言翻譯方法進行了探索。,從機器翻譯用戶的需求來分,機器翻譯系統(tǒng)可以分為如下四種類型: (1) 為瀏覽者研制的機器翻譯(MT for the Watcher,簡稱MT-W,或MT for the Browser,簡稱MT-B):其目的是幫助瀏覽者查閱外文資料,對于譯文質(zhì)量要求不高,瀏覽者可以接受粗糙

30、的譯文。 (2) 為修訂者研制的機器翻譯(MT for the Reviser,簡稱MT-R):其目的是幫助用戶修訂粗糙的譯文,粗糙的譯文經(jīng)過修訂之后,質(zhì)量應(yīng)該比為瀏覽者研制的機器翻譯的譯文有所提高。 (3) 為翻譯者研制的機器翻譯(MT for the Translator,簡稱MT-T):其目的是幫助用戶進行在線機器翻譯,用戶在翻譯時可以使用在線機器詞典、翻譯實例庫等,因此,對于譯文質(zhì)量的要求比較高。

31、 (4) 為寫作者研制的機器翻譯(MT for the Author,簡稱MT-A):其目的在于幫助用戶進行翻譯或?qū)懽?,要盡量避免翻譯中的歧義,因此,對于譯文質(zhì)量要求更高。,3. 機器輔助翻譯系統(tǒng) 前面已經(jīng)講過,機器翻譯系統(tǒng)(全自動翻譯)的譯準率長期徘徊在70%左右,譯文的可讀性、系統(tǒng)對語言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會迫切需要對真實文本(尤其是網(wǎng)上海量文本)進行大規(guī)模的處理,而機

32、器翻譯系統(tǒng)同當(dāng)今社會對大規(guī)模真實文本處理的期望相差甚遠。機器輔助翻譯(Computer Aided Translation,簡稱CAT)的思想就是在這樣的背景下產(chǎn)生的。與全自動機器翻譯系統(tǒng)相比較,機器輔助翻譯系統(tǒng)是一種人機交互式系統(tǒng)。在這種翻譯模式中,計算機負責(zé)輔助翻譯人員的任務(wù),不僅給翻譯人員提供一些詞匯、術(shù)語、短語、慣用語翻譯的知識,而且從已翻譯過文本中查找相同或相似語句的譯文,使翻譯人員避免不必要的重復(fù)勞動,進行高效率的翻譯工作。

33、計算機輔助翻譯的重要思想(包括基于翻譯記憶技術(shù)和基于實例模式的翻譯技術(shù))是在翻譯記憶庫(雙語對齊庫)和實例模式庫中搜索相同或相似的句子或短語,給出參考譯文。翻譯人員充分利用已有的翻譯資源,盡量避免重復(fù)勞動。這種輔助翻譯機制特別適合于科技專著、科技文獻、產(chǎn)品說明書、用戶手冊、產(chǎn)品的幫助文件、聯(lián)合國文件等這種篇幅長、重復(fù)語言現(xiàn)象較多的文本類型的翻譯,能幫助翻譯人員消除重復(fù)的翻譯勞動,只需專注于新內(nèi)容的翻譯。,機器輔助翻譯系統(tǒng)有不同層次的系統(tǒng)

34、,最早最低級的是各種雙語電子詞典,第二層是單純的翻譯記憶系統(tǒng)(如德國Trados公司的Translator’s Workbench),第三層是同時含有翻譯記憶功能、基于實例模式翻譯功能、甚至包括規(guī)則翻譯功能的系統(tǒng),例如國內(nèi)的華建公司的基于多策略的交互式智能輔助翻譯平臺華建智能輔助翻譯系統(tǒng)HJ-IAT。智能化的機器輔助翻譯系統(tǒng)至少應(yīng)該包括譯前編輯、譯后編輯、翻譯記憶和檢索、基于實例模式翻譯、項目工程管理等功能。在基于實例模式翻譯和基于翻

35、譯記憶技術(shù)翻譯的翻譯流程設(shè)計上,有幾種做法: (1) 第一種做法是僅僅包含基于翻譯記憶技術(shù)功能或僅僅包含基于實例模式翻譯功能; (2) 第二種做法是同時包含基于翻譯記憶技術(shù)功能和基于實例模式翻譯功能,但兩種翻譯方法和兩種翻譯過程混合在一起; (3) 第三種做法是同時包含基于翻譯記憶技術(shù)功能和基于實例模式翻譯功能,而且兩種翻譯方法和翻譯過程分階段進行。 這第一種做法的兩種都不

36、夠全面,功能也不全,一般不應(yīng)取這種做法。第二種做法能比第一種做法功能要強要全面,但是兩種方法和兩種過程混合在一起,技術(shù)難度要大,過程也不好控制。我自己的機器翻譯系統(tǒng)研究經(jīng)驗和體會是第三種做法總體上最好,兩種方法和兩種過程的各自目標清晰明確,兩種方法可以將自己的優(yōu)勢發(fā)揮到極致,過程也好控制。,4. 基于翻譯記憶技術(shù)的輔助翻譯的有關(guān)技術(shù) 前面提到關(guān)于翻譯記憶機制的設(shè)想是Peter Arthern(1978)最早提出的。198

37、0年前后一些研究人員紛紛開始收集和保存翻譯樣例,希望能將已有的翻譯資源重新利用并資源共享。但當(dāng)時計算機硬件限制(儲存空間有限),建設(shè)雙語語料庫的費用高,雙語語料對齊的算法不成熟,因此翻譯記憶技術(shù)一直處于探索階段。到1990年左右才有實際上的翻譯記憶系統(tǒng)在市場上出現(xiàn),如Sadler & Vendelman(1990)的“Bilingual Knowledge Bank”。之后支持翻譯記憶的翻譯工作站首次上市,產(chǎn)品包括Transit

38、(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translator’s Workbench(Trados)、TransPro(TransPro)、WorldLingo等。而且隨著計算機存儲空間擴大、處理速度加快、大量文本數(shù)據(jù)數(shù)字化又相當(dāng)容易,翻譯記憶系統(tǒng)越來越得到翻譯人員的關(guān)注和重視(John Hutchins,1998)。目前翻譯記憶機制不僅是絕大多數(shù)機器輔助翻譯系統(tǒng)的核心甚至

39、已經(jīng)成為機器輔助翻譯的代名詞,而且已經(jīng)成為一些多種翻譯策略的機器翻譯系統(tǒng)的組成部分,成為基于規(guī)則翻譯方法和基于統(tǒng)計方法的輔助手段和提高翻譯效率的手段。,近幾年各種機器輔助翻譯軟件在國內(nèi)外不斷面世,它們的應(yīng)用在國外翻譯界較為普遍,如歐盟、德國大眾、西門子、聯(lián)合國、Microsoft、Cisco、Intel、HP等企業(yè)和國際組織使用“塔多思專業(yè)輔助翻譯軟件(Trados Translator’s Workbench)”來進行大量科技文獻的翻

40、譯。“Translator’s Workbench”是由德國Trados公司開發(fā)的面向企業(yè)及個人的互動式翻譯系統(tǒng),該系統(tǒng)直接和微軟的Word集成,界面友好,此外還有強大的網(wǎng)絡(luò)共享、術(shù)語管理、翻譯項目管理,為專業(yè)翻譯領(lǐng)域提供了一整套的解決方案。塔多思基本壟斷了國際大型翻譯和本地化公司以及全球四萬多企業(yè)和國際組織,市場占有率達70%以上。中國對外翻譯出版公司使用英國著名的翻譯系統(tǒng)SDLX進行大量的專業(yè)文本的翻譯。中國國內(nèi)主要產(chǎn)品有雅信CAT

41、和華建智能輔助翻譯系統(tǒng)HJ-IAT,這兩個系統(tǒng)都支持漢英、英漢雙向翻譯。,基于翻譯記憶技術(shù)的輔助翻譯的研制牽涉到雙語語料庫的庫構(gòu)造、語料管理和語料對齊技術(shù)、輔助翻譯平臺的翻譯句對檢索算法、項目工程管理有關(guān)技術(shù),其中最重要的是雙語語料庫的規(guī)模、語料加工深度、加工質(zhì)量、對齊描述的對齊信息描述內(nèi)容和對齊技術(shù)以及對齊工具的開發(fā)。雙語對齊可在篇章級、段落級、句子級、子句級、短語級、詞匯級多種級別進行。目前比較實用的、技術(shù)比較成熟的是句子級的對齊。

42、句子對齊現(xiàn)有方法基本上有三種:①基于長度的方法:依據(jù)的是兩種語言譯文的長度滿足一定比例關(guān)系。②基于雙語詞典的方法:根據(jù)雙語單詞對譯的分布信息和詞典翻譯模型進行句子對齊。③基于雙語詞典和基于長度的混合方法:基于長度的對齊方法模型簡單,獨立于語言知識和其他外部資源,對齊效率高,但容易造成錯誤蔓延?;陔p語詞典對齊方法相對可靠精確,但計算相當(dāng)復(fù)雜并且詞典譯文覆蓋率先對較低。將這兩種方法結(jié)合起來進行句子對齊,有互補優(yōu)勢,可提高對齊的召回率和正確

43、率。句子對齊模式可能存在多種模式,例如1:1,1:n,n:1,m:n,甚至0:1或1:0模式。,同句子對齊相比,短語對齊或詞匯對齊可以提供更細粒度的對譯信息,能有效地提高譯文準確度和可讀性,因此對它的研究具有重要意義。就詞匯級對齊技術(shù)而言,目前有基于統(tǒng)計的和基于詞典的兩類主要方法。統(tǒng)計方法的主要思想是通過對大規(guī)模雙語語料的統(tǒng)計訓(xùn)練,獲得雙語對譯詞同現(xiàn)概率,以此作為對齊的根據(jù)。Brown首先實現(xiàn)了基于統(tǒng)計的機器翻譯模型的詞對齊,Dagan

44、等對Brown的模型進行了改進。Gale & Church等人使用概率分布統(tǒng)計雙語對譯詞的同現(xiàn)概率。Vogel等把HMM模型引入詞對齊。雖然基于統(tǒng)計的詞對齊方法已被證明有效,但是該方法需要超大規(guī)模的雙語語料庫作為訓(xùn)練基礎(chǔ)(Brown所用語料庫規(guī)模是1778620句對,Gale所用語料庫的規(guī)模是897077句對)但一般人很難獲得如此規(guī)模的雙語語料庫。而在小規(guī)模語料庫中直接應(yīng)用基于詞匯同現(xiàn)的統(tǒng)計方法不可避免出現(xiàn)數(shù)據(jù)稀疏問題。由于語言

45、學(xué)信息在雙語語料庫詞對齊中有著重要的作用,所以近年來基于詞典和語言學(xué)知識的詞對齊方法也逐漸得到了人們的重視。基于雙語詞典的方法可以獲得可靠的非空匹配。但是由于真實文本翻譯上下文的多樣性和翻譯的靈活性,詞典譯文的覆蓋率相對比較低。因此有些研究使用詞性對齊統(tǒng)的計方法和基于雙語詞典方法結(jié)合的方法來進行雙語詞匯對齊。另外還有基于位置變形距離的方法等。華建公司在詞法分析的基礎(chǔ)上利用有限的語言資源(主要是用一部雙語詞典),采取多級匹配和消歧算法,將

46、詞對齊問題轉(zhuǎn)化為迭代問題求解錨點詞對的過程。,5. 基于實例模式翻譯的有關(guān)技術(shù) 由日本著名機器翻譯專家長尾真首先提出的基于實例的翻譯方法的基本思想是根據(jù)已經(jīng)翻譯過的句子實例,通過效仿人類類比思想獲得當(dāng)前帶翻譯句子結(jié)果,即我們平常說的觸類旁通,舉一反三。 為了增強機器翻譯系統(tǒng)的魯棒性和開放性使之適應(yīng)當(dāng)今信息社會對大規(guī)模真是文本翻譯處理的迫切需要,更是為了增強機器輔助翻譯的功能,研究和實現(xiàn)基于實例模式翻譯具有

47、重大的意義?;趯嵗姆g方法有一系列的技術(shù)問題,例如實例的選取、實例模式的機內(nèi)表示和存儲結(jié)構(gòu)、查詢算法、復(fù)雜句長難句的分析和實例組合、實例模式自動積累、實例精煉和泛化、待翻句子與實例庫中實例句子相似度的計算等。其中句子相似度的計算是其核心技術(shù)之一。 句子相似度的計算包括詞的相似度計算、句子句法結(jié)構(gòu)的相似度計算、句子語義結(jié)構(gòu)的相似度計算?;趯嵗J椒g方法的特點為:如在實例庫中找到句法結(jié)構(gòu)和語義結(jié)構(gòu)都相似的例句便可得到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論