漢語動詞次范疇化自動獲取技術(shù)的研究.pdf_第1頁
已閱讀1頁,還剩171頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、動詞次范疇化信息反映了動詞作謂詞時所表現(xiàn)出來的不同句法特征的分布,是自然語言處理進(jìn)一步發(fā)展所不可或缺的知識。世界上很多語種在次范疇化信息自動獲取的理論和實踐等方面都取得了很大的進(jìn)展,而針對漢語的相關(guān)研究還很薄弱。探索基于漢語自身語言特色的動詞次范疇化自動獲取方法對于中文信息處理來說具有重要的理論研究意義和廣闊的應(yīng)用前景。
  對次范疇化信息的自動獲取技術(shù)來說,最關(guān)鍵的兩個問題是假設(shè)生成和假設(shè)檢驗。前者解決如何利用已有自然語言處理工

2、具和語言學(xué)規(guī)范從輸入語料中為相關(guān)動詞獲取可能的次范疇化信息;后者解決如何設(shè)計一種符合相關(guān)語言特點的統(tǒng)計檢驗方法,最大限度地過濾掉第一步輸出結(jié)果中的噪音。本文在國內(nèi)外已有相關(guān)成果的基礎(chǔ)上,充分考慮漢語的自身特點,對這兩個主要問題進(jìn)行了深入研究。具體地講,本文研究從如下幾個方面展開:
  1.借鑒相關(guān)研究,分析了漢語動詞次范疇化的語言現(xiàn)象,給出了以句法模式為主的漢語次范疇化信息的形式化描寫規(guī)范,在內(nèi)容和形式上基本保持了次范疇化規(guī)范與現(xiàn)

3、有主要漢語處理工具,以及國際同類研究之間的一致性,為漢語動詞次范疇化信息的自動獲取打下了理論基礎(chǔ)。
  2.基于最大似然估計提出了一種動態(tài)估計最優(yōu)經(jīng)驗閾值的漢語動詞次范疇化基礎(chǔ)類型假設(shè)檢驗方法。該方法以假設(shè)類型出現(xiàn)頻率的數(shù)學(xué)期望為觀察量來動態(tài)估計用于最大似然假設(shè)檢驗的最優(yōu)閾值。并通過自動獲取方法,以少量手工分析工作為補充,構(gòu)建起了漢語動詞次范疇化基礎(chǔ)類型集合和以次范疇化類型描述的句式轉(zhuǎn)換集合,為大規(guī)模真實文本的漢語動詞次范疇化自動

4、獲取打下了物質(zhì)基礎(chǔ)。
  3.設(shè)計并完成了從大規(guī)模真實文本中自動獲取漢語動詞次范疇化信息的實驗過程,實現(xiàn)了一個自動構(gòu)建漢語動詞次范疇化詞匯知識庫的系統(tǒng)原型。性能評價表明,該系統(tǒng)已經(jīng)達(dá)到了國際上同類研究相應(yīng)階段的水平;基于任務(wù)的評價體現(xiàn)了次范疇化信息在中文信息處理領(lǐng)域有著可觀的潛在價值。
  4.研究了以動詞分類知識和句式轉(zhuǎn)換知識為回退啟發(fā)信息的獲取性能改進(jìn)技術(shù)。動詞分類知識的回退實驗揭示了漢語動詞次范疇化的形式化描寫規(guī)范同已

5、有手工資源中動詞概念描述方式之間的潛在關(guān)系,在一定程度上改善了次范疇化自動獲取的整體性能;在句式轉(zhuǎn)換知識的回退實驗中提出了雙重過濾的假設(shè)檢驗方法,該方法通過同一謂語動詞的高頻和低頻次范疇化假設(shè)類型之間可能存在的句式轉(zhuǎn)換關(guān)系,比簡單的最大似然估計方法更加充分地利用了輸入語料上的可觀察信息,較為徹底地擺脫了其它檢驗方法中次范疇化類型與動詞之間的獨立性假設(shè)和次范疇化類型之間的獨立性假設(shè)所帶來的負(fù)面影響,使得漢語動詞次范疇化自動獲取研究取得了當(dāng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論