版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、搭配是人們在使用語言的過程中,所形成的一種固有的語言現(xiàn)象。搭配表現(xiàn)了詞匯之間的內(nèi)在聯(lián)系,而這種詞匯間的聯(lián)系可以幫助人們更好地使用和理解語言。近些年來,有很多學(xué)者針對搭配獲取展開研究,并嘗試將其應(yīng)用到機(jī)器翻譯、自動分析等自然語言處理任務(wù)中去。由于搭配是自然語言中非常普遍的現(xiàn)象,構(gòu)成搭配的詞匯允許自由組合,搭配在不同的語種中又有不同的表達(dá)方式等諸多原因,搭配研究也面臨著很大的挑戰(zhàn)。
隨著自然語言處理技術(shù)的不斷發(fā)展,搭配研究受到了越
2、來越多的關(guān)注。目前,搭配研究主要包括兩大內(nèi)容:其一是搭配自動獲取,即從預(yù)處理過的文本數(shù)據(jù)中,自動抽取高質(zhì)量的搭配資源;其二是搭配應(yīng)用,包括詞匯間的相似度計算、自動翻譯中的譯文選擇、依存分析中的詞對關(guān)系估計等。本文的主要研究內(nèi)容覆蓋了以上兩個方面,首先,嘗試借鑒統(tǒng)計詞對齊的思想,在不利用額外資源和預(yù)處理的情況下,直接從文本數(shù)據(jù)中進(jìn)行搭配資源自動獲取,在此基礎(chǔ)上,本研究提出一系列方法把搭配資源應(yīng)用到機(jī)器自動翻譯方法上,從多個角度提高不同類型
3、的機(jī)器翻譯系統(tǒng)的性能。本研究的主要內(nèi)容包括以下幾個方面:
1.基于單語統(tǒng)計詞對齊方法的搭配獲取研究。搭配是自然語言處理任務(wù)中的基礎(chǔ)資源之一,近些年來,很多搭配獲取技術(shù)被相繼提出。在充分借鑒前人研究的基礎(chǔ)上,本文提出利用單語統(tǒng)計詞對齊方法來自動獲取搭配資源。該研究的意義不僅是提出了更有效的搭配獲取方法,而且還針對獲取的搭配資源構(gòu)造了統(tǒng)計搭配模型,為搭配資源在機(jī)器翻譯中找到了新的應(yīng)用方式。同時也為搭配資源在其他自然語言處理任務(wù)中的
4、應(yīng)用提供了參考和借鑒。
2.基于單語搭配資源的雙語詞對齊優(yōu)化方法。雙語詞對齊是基于語料庫機(jī)器翻譯方法中的關(guān)鍵技術(shù)之一,自動獲取的雙語詞對齊質(zhì)量會直接影響翻譯系統(tǒng)的譯文質(zhì)量。但是目前的雙語詞對齊研究主要集中在源語言和目標(biāo)語言之間的對應(yīng)關(guān)系上,而本研究從源語言或目標(biāo)語言句子中詞匯之間的關(guān)系入手,通過估計詞匯間的搭配強(qiáng)度來判斷句子內(nèi)部的詞組是否適合作為一個整體來對齊,以此來約束雙語詞對齊中的多詞單元的對齊,從而提高了雙語詞對齊的效果
5、。
3.基于詞匯間的搭配關(guān)系的翻譯模型的優(yōu)化方法。翻譯模型是統(tǒng)計翻譯方法的基礎(chǔ)資源之一,其質(zhì)量對于翻譯效果具有顯著影響。翻譯模型的過濾和壓縮一直是目前的研究熱點。本研究提出了利用句子中詞匯間的搭配關(guān)系描述了詞組內(nèi)部詞匯之間及和內(nèi)部詞匯與上下文間的關(guān)聯(lián)程度,進(jìn)而利用這種關(guān)聯(lián)程度估計了詞組作為一個翻譯單元的可能性。在基于短語(包括層次短語和連續(xù)短語)的統(tǒng)計翻譯系統(tǒng)中增加了對短語的評價之后,可以有效區(qū)分翻譯短語的質(zhì)量及提高待翻譯短語
6、和待翻譯句子之間的匹配度。
4.基于搭配信息的統(tǒng)計翻譯系統(tǒng)的譯文調(diào)序改進(jìn)方法。從1993年第一次提出統(tǒng)計翻譯方法至今,譯文調(diào)序都是統(tǒng)計翻譯領(lǐng)域中的難點,人們已經(jīng)陸續(xù)提出了詞匯模型、位置模型、甚至句法模型來嘗試提高譯文調(diào)序效果。與以往研究方法不同的是,本文通過觀察源語言搭配詞匯與對應(yīng)的譯文之間的位置關(guān)系,提出來通過對源語言搭配詞匯對應(yīng)的譯文順序進(jìn)行預(yù)測,以此約束譯文的相對位置,進(jìn)而改善譯文片段在候選譯文中的順序。
5.
7、利用統(tǒng)計搭配模型改進(jìn)基于實例的機(jī)器翻譯方法?;趯嵗臋C(jī)器翻譯方法是機(jī)器自動翻譯的主要方法之一,已經(jīng)在很多領(lǐng)域翻譯中取得了成功的應(yīng)用。本研究從三個角度重新審視了基于實例的翻譯方法的核心問題:實例選擇、譯文選擇及譯文一致性。然后利用統(tǒng)計搭配模型有效解決了這三個問題:首先,利用統(tǒng)計搭配模型估計待翻譯句子與翻譯實例之間的匹配度,從而增強(qiáng)系統(tǒng)的翻譯實例選擇能力;然后,通過引入候選譯文與上下文之間搭配強(qiáng)度的估計來提高系統(tǒng)的譯文選擇能力;最后,使用
8、統(tǒng)計搭配模型檢測翻譯實例中被替換詞的搭配詞,同時根據(jù)新的替換詞及上下文對搭配詞進(jìn)行矯正,進(jìn)一步提高譯文質(zhì)量。實驗結(jié)果表明,本文提出的方法有效提高了EBMT系統(tǒng)的譯文質(zhì)量,人工評價結(jié)果顯示,改善后的譯文能夠表達(dá)原文的大部分信息,并且具有較高的流利度。
總之,本文一方面致力于搭配資源的別樣獲取,另一方面,又嘗試將獲取的搭配資源或搭配模型,從不同角度應(yīng)用到機(jī)器翻譯方法中去。本研究取得了一些初步的研究和試驗成果,希望這些成果能對本領(lǐng)域
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 英漢平行語料庫句子級對齊研究及其在機(jī)器翻譯中的應(yīng)用.pdf
- Web雙語平行語料自動獲取及其在統(tǒng)計機(jī)器翻譯中的應(yīng)用.pdf
- 詞對齊技術(shù)研究及統(tǒng)計機(jī)器翻譯平臺的構(gòu)建.pdf
- 使用多層對齊框架進(jìn)行基于實例機(jī)器翻譯研究.pdf
- 面向機(jī)器翻譯的模板自動獲取技術(shù)研究.pdf
- 面向統(tǒng)計機(jī)器翻譯的結(jié)構(gòu)對齊及結(jié)構(gòu)轉(zhuǎn)換技術(shù)研究.pdf
- 機(jī)器翻譯與人工翻譯的對比研究及其在科技英語翻譯中的應(yīng)用.pdf
- 機(jī)器翻譯中系統(tǒng)融合技術(shù)的研究.pdf
- 基于英漢平行語料庫的機(jī)器翻譯知識獲取研究.pdf
- 基于統(tǒng)計的機(jī)器翻譯研究及應(yīng)用.pdf
- 依存文法在漢英統(tǒng)計機(jī)器翻譯中的應(yīng)用.pdf
- 基于互聯(lián)網(wǎng)的統(tǒng)計機(jī)器翻譯平行句對獲取.pdf
- 統(tǒng)計機(jī)器翻譯中結(jié)構(gòu)轉(zhuǎn)換技術(shù)的研究.pdf
- 漢英機(jī)器翻譯在中文科技文摘翻譯中的應(yīng)用.pdf
- 基于短語的統(tǒng)計機(jī)器翻譯研究與應(yīng)用.pdf
- 論不可譯及不可逆在機(jī)器翻譯中的應(yīng)用.pdf
- 基于融合技術(shù)的機(jī)器翻譯評價研究.pdf
- 基于Internet的人機(jī)互助機(jī)器翻譯技術(shù)的研究.pdf
- 基于機(jī)器翻譯的查詢結(jié)果Rerank技術(shù).pdf
- 服務(wù)于漢維機(jī)器翻譯系統(tǒng)的雙語句子對齊的研究.pdf
評論
0/150
提交評論