2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩128頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、動詞次范疇化信息反映了動詞作謂詞時所表現(xiàn)出來的不同句法特征的分布,是語言學研究的熱點,也是自然語言處理進一步發(fā)展所不可或缺的知識。世界上很多語種在次范疇化信息自動獲取的理論和實踐等方面都取得了很大的進展。怎樣減少次范疇自動分析過程中所需的由人工給定的語言學知識,同時減少輸入數(shù)據(jù)對完全正確句法信息的依賴,并將目前已經(jīng)成熟的漢英動詞次范疇資源應用于實際,不但可以加深對動詞次范疇語言現(xiàn)象的整體理解,完善動詞次范疇相關(guān)的理論體系;而且也為語義和

2、層次句法結(jié)構(gòu)的表示及應用提供了新的研究方向,具有重要的理論研究意義和廣闊的應用前景。
  阻礙次范疇化信息應用于實際的有兩個關(guān)鍵問題。一是從真實應用中獲得的文本數(shù)據(jù)一般不含有句法信息,并且同時含有大量的格式噪音現(xiàn)象,目前的動詞次范疇自動獲取技術(shù)不適合直接使用這樣的數(shù)據(jù)作為輸入;二是次范疇假設(shè)自動獲取過程中,需要一定的手寫語言學規(guī)則作為啟發(fā)式信息。為了彌補以上不足,在盡可能少地依賴由人工給定的語言學知識的情況下,設(shè)計一整套更加適合計

3、算機自動分析方法,使得動詞次范疇可以取自實際,并應用于實際,本文在國內(nèi)外已有相關(guān)成果的基礎(chǔ)上,充分考慮動詞次范疇的自身特點,對整個流程進行了深入的研究。依照數(shù)據(jù)處理的前后順序,本文研究從如下幾個方面展開:
  1.借鑒自然語言基礎(chǔ)相關(guān)研究的方法,將段落切分、句子切分、標點符號的使用以及英文單詞的大小寫等格式噪音的糾正真正地整合到了一個統(tǒng)一的框架中。這種方法可以直接以同時含有多種格式噪音的數(shù)據(jù)作為輸入,并且在噪音過濾過程中考慮了不同

4、類別噪音之間的依賴關(guān)系,而不像傳統(tǒng)方法,獨立的考慮不同類別的噪音。這種統(tǒng)一的處理方法,極大提高了輸入數(shù)據(jù)格式噪音的過濾性能,為將從真實應用中獲取的文本數(shù)據(jù)被后續(xù)的自然語言處理工具所接受奠定了基礎(chǔ);
  2.設(shè)計實現(xiàn)了基于無向圖模型漢語分詞詞性標注一體化系統(tǒng)并從泛函空間的角度討論了各種分類器融合方式的優(yōu)劣。一體化漢語詞法分析系統(tǒng)可以同時進行分詞和詞性標注兩個漢語自然語言基礎(chǔ)任務,并且避免了傳統(tǒng)的詞法分析方法中分詞階段對詞性標注階段造

5、成的錯誤累積,同時相對基于有向圖的漢語分詞詞性標注一體化方法,無向圖模型可以考慮更深層次的依賴關(guān)系,大幅提高了漢語詞法分析的性能,為次范疇自動獲取提供了保證。
  3.完成了從大規(guī)模真實文本中自動抽取語言學知識。這種以動詞次范疇論元映射關(guān)系存在的語言學知識可以代替目前SCF自動獲取過程中所需的啟發(fā)式信息。這一過程不但放松了對輸入句子必須含有完全正確句法信息的限制,并且采用了主動學習策略,使得在抽取過程中幾乎不需要任何先驗的額外語言

6、學知識。此方法避免了目前方法中,論元映射關(guān)系需要人工事先給定的缺點,同時因為自動抽取方法可以獲得大量的論元映射關(guān)系,較人工給定的論元映射規(guī)則,大幅提高了論元映射關(guān)系集合的覆蓋范圍。
  4.引入間隔加權(quán)子序列核函數(shù),設(shè)計了一種基于有指導模式的動詞次范疇的自動獲取方法。這種方法不再直接應用論元映射關(guān)系的匹配推導來得到相應的次范疇假設(shè)。而是將指向同一論元類型的所有映射的左部,作為訓練樣本集,通過間隔加權(quán)子序列核函數(shù)的方法,將問題空間轉(zhuǎn)

7、化為特征空間,并在特征空間內(nèi),判定新輸入的數(shù)據(jù)和哪一類映射關(guān)系所描述的論元類別更加相似,以決定應用哪一論元類別的映射關(guān)系。這種新的論元對應關(guān)系使用方式和間隔加權(quán)子序列核函數(shù)的引入,大幅提高了自動獲取過程中論元對應關(guān)系集推導結(jié)果的一致性。
  5.研究了漢英雙語動詞次范疇論元對應關(guān)系(論元等價對)的自動獲取方法。此方法可以在大規(guī)模的雙語平行語料上,以一個簡單的論元對應關(guān)系為初始種子自動地發(fā)現(xiàn)大量新的漢英論元對應關(guān)系。我們將這些新發(fā)現(xiàn)

8、對應關(guān)系融入了基于短語的統(tǒng)計機器翻譯系統(tǒng)后,翻譯系統(tǒng)的漢英翻譯性能有明顯的提升,證明了自動抽取的漢英論元對應關(guān)系的有效性。
  以上5個技術(shù)依次應用,每一個步驟的輸出都是下一個步驟的輸入。技術(shù)1去掉了數(shù)據(jù)中格式噪音,使得這些文本數(shù)據(jù)可以被后續(xù)的自然語言處理工具所接受;技術(shù)2為動詞次范疇獲取添加了必要的詞法信息。前兩個技術(shù)廣泛適用于其他應用,我們稱其為預處理過程,但又是高質(zhì)量動詞次范疇分析不可缺少的支持。準備好數(shù)據(jù)后,技術(shù)3自動獲取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論