2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩110頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)信息和信息檢索在人們?nèi)粘I钪幸殉蔀椴豢苫蛉钡慕M成部分,語言文字占據(jù)信息形式上的絕大多數(shù),實際上關(guān)注的是語言形式所承載的內(nèi)容信息,本質(zhì)上都涉及自然語言的語義概念。自然語言成分結(jié)構(gòu)間的語義關(guān)系計算問題是自然語言理解的關(guān)鍵,其本質(zhì)在于計算語言結(jié)構(gòu)與語言語義之間的對應(yīng)關(guān)系。如何尋找新的思路及其理論和方法,使得語言的結(jié)構(gòu)和語義盡量能同構(gòu)對應(yīng),尤其是適應(yīng)動態(tài)地計算語言復(fù)合結(jié)構(gòu)的概念意義,具有重要的理論研究意義和廣闊的應(yīng)用前景。盡管語言表達(dá)有句

2、、短語等多種形式,但從概念分析角度看都可歸結(jié)到詞匯概念間的組合疊置。這與當(dāng)前國內(nèi)外語言學(xué)聚焦于詞匯理論相一致。 復(fù)合結(jié)構(gòu)是一種由若干個名詞性詞匯直接組合而成,在整體上相當(dāng)于一個新的名詞性詞匯的語言結(jié)構(gòu)形式。和短語、句等語言結(jié)構(gòu)不同,復(fù)合結(jié)構(gòu)的構(gòu)成缺乏功能標(biāo)記,這對其語義計算形成很大障礙,實際上成為語義計算的一個瓶頸問題。本文主要解決漢語中動詞名物化進(jìn)入復(fù)合結(jié)構(gòu)時的語義解釋問題。研究的起點(diǎn)是從實例分析出發(fā),剖析以往語法研究中的不足

3、,標(biāo)引復(fù)合結(jié)構(gòu)子成分之間的概念關(guān)系,歸納復(fù)合結(jié)構(gòu)中概念耦合的內(nèi)在特點(diǎn)以及多語種表達(dá)式在復(fù)合結(jié)構(gòu)這一層次上存在自然對齊的潛在可能性。首先,作為數(shù)據(jù)準(zhǔn)備工作,研究了動詞名物化復(fù)合結(jié)構(gòu)的識別;然后,分別構(gòu)建了兩種基本動詞名物化復(fù)合結(jié)構(gòu)(NV型和VN型)的語義解釋模型;最后,還探討了屬性知識在復(fù)合結(jié)構(gòu)語義解釋中的應(yīng)用。 具體來講,本文的創(chuàng)新性工作有以下幾點(diǎn): 一、提出了一種基于主題詞表和萬維網(wǎng)的復(fù)合結(jié)構(gòu)識別方法。為了有效地解決漢

4、語中名詞和動詞組合時的結(jié)構(gòu)歧義問題,構(gòu)造了兩個新的分類特征集合:詞匯復(fù)合能力和指稱模板特征。特征的獲取使用了兩個獨(dú)立的資源:主題詞表和萬維網(wǎng),其好處在于不依賴于復(fù)合結(jié)構(gòu)出現(xiàn)的具體上下文,可以用于對文檔中的低頻復(fù)合結(jié)構(gòu)進(jìn)行識別,而這是以往的識別模型所無法解決的問題。機(jī)器學(xué)習(xí)實驗表明,兩個新特征集極大的改善了動詞名物化復(fù)合結(jié)構(gòu)識別的性能。 二、歸納了漢語NV型復(fù)合結(jié)構(gòu)中涉及的語義關(guān)系,構(gòu)建了一個基于詞匯語法模板的復(fù)合結(jié)構(gòu)語義解釋模型

5、。模型定義了新的詞匯模板形式:功能詞例化模板,并將其作為分類特征,對復(fù)合結(jié)構(gòu)詞匯間的語義關(guān)系進(jìn)行標(biāo)注。模型的主要優(yōu)點(diǎn)是其對資源的依賴性很低,以往的方法主要利用詞匯本體和句法語料,而該模型則使用純文本語料來獲取復(fù)合結(jié)構(gòu)的分類特征,從而使得模型的適用性和可移植性大大增強(qiáng)。實驗表明,基于功能詞例化模板的模型取得了很好的性能。 三、提出了漢語VN型復(fù)合結(jié)構(gòu)的語義關(guān)系標(biāo)注集,并設(shè)計了一個機(jī)器翻譯驅(qū)動的復(fù)合結(jié)構(gòu)語義解釋模型?;趶?fù)合結(jié)構(gòu)的多

6、語種自然同構(gòu)假設(shè),模型首先將漢語復(fù)合結(jié)構(gòu)自動翻譯為對齊的英文復(fù)合結(jié)構(gòu),然后將英文復(fù)合結(jié)構(gòu)作為附加信息,用于對漢語的復(fù)合結(jié)構(gòu)進(jìn)行解釋。模型的主要優(yōu)點(diǎn)是可以利用跨語種的資源,對多語種的對齊復(fù)合結(jié)構(gòu)同時進(jìn)行語義解釋,從而可以在某種程度解決某些語種中的資源缺乏問題。實驗證實,雙語語義解釋模型的性能要好于單語模型。 四、構(gòu)建了一個屬性知識庫的獲取框架。詞匯概念可以被描述為屬性和屬性值的集合,屬性知識對于復(fù)合結(jié)構(gòu)語義解釋非常重要。屬性獲取分

7、為兩個階段,一個階段是屬性詞的獲取,一個階段是屬性宿主的求取。在屬性詞的獲取中,設(shè)計了一個機(jī)讀詞典和萬維網(wǎng)的協(xié)同自舉算法。算法充分利用了漢語的義符構(gòu)詞特點(diǎn),并結(jié)合了機(jī)讀詞典和萬維網(wǎng)作為屬性知識的來源,對屬性詞進(jìn)行獲取。而針對屬性宿主的求取,則將其視為一個選擇約束求解問題,通過評估屬性與可能的概念類之間的選擇關(guān)聯(lián)度來確定屬性的宿主。該方法的特點(diǎn)在于其可以動態(tài)、高效地獲取以屬性詞為中心的詞匯知識。 五、利用所獲取的屬性知識,提出了一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論