2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩137頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、社會(huì)快速發(fā)展,各種知識(shí)爆發(fā)式增加。知識(shí)的自動(dòng)獲取,特別是從自然語(yǔ)言文本中自動(dòng)獲取知識(shí)成為重要的研究課題,這一課題既有極大的應(yīng)用需求,又有理論上的挑戰(zhàn)性。 百科全書文本中包含著集中、系統(tǒng)、全面的知識(shí),是比較理想的文本知識(shí)獲取的來源。百科全書往往以學(xué)科體系分卷。雖然都是說明文,但同一學(xué)科卷目中往往包含彼此差異很大,說明很不相同的知識(shí)的條目,這給自動(dòng)提取知識(shí)造成了很大困難。本文的工作越過學(xué)科卷目分類,從條目的題材性質(zhì)出發(fā),以段落劃分的

2、形式,從百科全書文本中獲取知識(shí)。 題材是不同于學(xué)科卷目的另一種條目分類方式,如人物題材、行政區(qū)劃題材、生物物種題材等。同一題材的條目文本所包含的知識(shí)有較強(qiáng)的一致性。從文本段落的角度看,同題材的條目文本有這樣的特點(diǎn): (1)每個(gè)題材有題材相關(guān)的若干內(nèi)容成份,這些內(nèi)容成份是題材涉及到的若干方面的知識(shí)。在條目文本中,內(nèi)容成份表現(xiàn)為文本段落。 (2)內(nèi)容成份在條目文本中的分布有順序規(guī)律,并且大部分內(nèi)容成份有自身的詞匯分布

3、。 上述特點(diǎn)體現(xiàn)在同題材條目的整體條目文本集合上,因此同題材條目文本的段落結(jié)構(gòu)與該題材的條目文本集合的整體性質(zhì)有關(guān)。 本文的具體研究?jī)?nèi)容是百科全書同題材條目文本的段落劃分,即在同題材的條目文本上根據(jù)題材的內(nèi)容成份進(jìn)行段落劃分,一個(gè)段落對(duì)應(yīng)一個(gè)內(nèi)容成份,內(nèi)容成份的變化之處即為段落的切分點(diǎn)。劃分的任務(wù)包括確定段落的邊界,以及每個(gè)段落對(duì)應(yīng)的內(nèi)容成份。 在應(yīng)用層面,通過段落劃分,可以提供段落一級(jí)的百科全書知識(shí)的直接檢索,

4、另外也為段落內(nèi)部具體知識(shí)項(xiàng)目的挖掘提供基礎(chǔ)。 本文的工作包括兩個(gè)層面。第一個(gè)層面是構(gòu)建面向百科全書同題材條目文本段落劃分的詞匯語(yǔ)義知識(shí)庫(kù)。通過知識(shí)庫(kù)中的語(yǔ)義知識(shí)可以獲得更集中、更可靠的詞匯統(tǒng)計(jì)數(shù)據(jù),另外這個(gè)知識(shí)庫(kù)也可以作為結(jié)合人的觀察與知識(shí)的基礎(chǔ)平臺(tái)。第二個(gè)層面是在詞匯語(yǔ)義知識(shí)庫(kù)的基礎(chǔ)上,以有指導(dǎo)及無指導(dǎo)兩種機(jī)器學(xué)習(xí)方式研究同題材條目文本的段落劃分方法。有指導(dǎo)的劃分方法方面的主要工作是研究新的段落劃分方法,即基于熵最小化的段落劃

5、分方法,以及發(fā)掘更多有效的劃分依據(jù),并以適當(dāng)模型結(jié)合使用。無指導(dǎo)方式包括同題材條目文本段落結(jié)構(gòu)的自動(dòng)發(fā)現(xiàn)。這個(gè)工作面對(duì)的是這樣一個(gè)問題:在給定的同題材條目文本集合上,自動(dòng)發(fā)現(xiàn)與同題材條目文本的特點(diǎn)相一致的段落結(jié)構(gòu),并獲得相應(yīng)的段落劃分。段落結(jié)構(gòu)是在同題材的條目文本集合上獲得的,在目前的研究中,與文本集合的整體性質(zhì)有關(guān)的段落劃分還沒有引起足夠重視,因此本文的這部分研究可作為這方面有益的補(bǔ)充。本文的主要工作和創(chuàng)新性成果包括以下幾個(gè)方面:

6、 (1) 面向同題材條目文本段落劃分的詞匯語(yǔ)義知識(shí)庫(kù)的構(gòu)建。這個(gè)知識(shí)庫(kù)有兩個(gè)方面的意義。一是由于大量?jī)?nèi)容詞頻次過低,僅依靠詞匯的原形難以獲得有效的統(tǒng)計(jì)依據(jù)。將詞匯原形代之以語(yǔ)義屬性,可以獲得更集中、更可靠的統(tǒng)計(jì)數(shù)據(jù)。二是通過構(gòu)建詞匯知識(shí)庫(kù),可以將人的觀察與知識(shí)結(jié)合進(jìn)劃分算法,從而使劃分算法可以憑借的依據(jù)更為豐富、可靠。本文在考察了《同義詞詞林》等現(xiàn)有詞匯語(yǔ)義資源的基礎(chǔ)上,構(gòu)建了適合于同題材條目文本段落劃分的詞匯語(yǔ)義知識(shí)庫(kù)。目前這個(gè)知

7、識(shí)庫(kù)有兩個(gè)層面的詞匯語(yǔ)義知識(shí)。一是領(lǐng)域?qū)C托g(shù)語(yǔ)類語(yǔ)義信息的標(biāo)注。首先將領(lǐng)域?qū)C托g(shù)語(yǔ)方面的語(yǔ)義屬性組織為樹狀知識(shí)體系,之后按此體系標(biāo)注題材文本中的相應(yīng)詞匯。這個(gè)層次的詞匯語(yǔ)義知識(shí)獨(dú)立于具體題材。二是具體題材及其內(nèi)容成份的主題詞的標(biāo)注,以及主題詞對(duì)內(nèi)容成份的抽象程度的區(qū)分與標(biāo)注。這個(gè)層次的詞匯語(yǔ)義知識(shí)與具體題材及內(nèi)容成份直接關(guān)聯(lián)。實(shí)驗(yàn)表明這個(gè)庫(kù)提供的詞匯語(yǔ)義知識(shí)非常有效。 (2) 提出了基于熵最小化的段落劃分方法。這個(gè)劃分方法的

8、原理是文本單元的順序聚類,聚類類別對(duì)應(yīng)于段落。獲得的類別由連續(xù)若干個(gè)文本單元構(gòu)成,這些類別在熵的度量下,在一個(gè)條目文本的范圍內(nèi)與別的類盡可能不同,并且類內(nèi)盡可能一致。這是在聚類的角度下全局切分優(yōu)化的結(jié)果,沒有Hidden Markov Model(隱馬爾科夫模型,HMM)段落劃分方法的段落類別重復(fù)的問題。這個(gè)方法可以通過控制“段內(nèi)不確定程度”與“段間重疊程度”的相對(duì)重要性,可以獲得由“細(xì)”到“粗”的、段落個(gè)數(shù)可以調(diào)節(jié)的劃分結(jié)果,因此比較

9、靈活。在算法的具體實(shí)現(xiàn)中使用了經(jīng)過參數(shù)調(diào)整后的HMM模型狀態(tài)后驗(yàn)分布,獲得的性能優(yōu)于基于HMM的劃分方法。 (3) 發(fā)掘了具有段落整體特性的劃分依據(jù),以及題材相關(guān)的提示性劃分依據(jù),并以semi-Conditional Random Field(半條件隨機(jī)域,semi-CRF)模型結(jié)合使用。Semi-CRF模型是分辨型概率模型,便于使用各種提示性依據(jù)(clue)。另外這個(gè)模型是Conditional Random Field(條件

10、隨機(jī)域,CRF)模型在段落方面的擴(kuò)展,可以使用具有段落整體特性的依據(jù)。本文根據(jù)這個(gè)模型,在具體題材的段落劃分中,將通用依據(jù)表示為經(jīng)過整理的HMM模型的狀態(tài)后驗(yàn)分布的基礎(chǔ)上,進(jìn)一步發(fā)現(xiàn)并使用了具有段落整體性的基于主題詞的段落開始特征,以及針對(duì)特定段落類別的提示性特征。這些依據(jù)都發(fā)揮了效果,劃分性能優(yōu)于HMM模型和CRF模型的段落劃分方法,以及基于熵最小化的段落劃分方法。 (4) 提出了一種同題材條目文本段落結(jié)構(gòu)自動(dòng)發(fā)現(xiàn)方法。本文的

11、方法首先獲取了詞匯的鄰接關(guān)系在文本單元層面上的分布數(shù)據(jù),之后使用aspect model等因子分解技術(shù)獲取其中若干主要因子,這些主要因子相當(dāng)于自動(dòng)發(fā)現(xiàn)的抽象內(nèi)容成份。通過aspect model的對(duì)數(shù)似然值(log likelihood)和因子在條目文本中順序分布的互信息確定適當(dāng)?shù)囊蜃觽€(gè)數(shù)的范圍。這個(gè)方法的特點(diǎn)是從詞匯在文本單元層面的順序性的角度,而不是從文本單元之間的相似性角度發(fā)現(xiàn)段落結(jié)構(gòu),利用了同題材條目文本中內(nèi)容成份的順序規(guī)律,而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論