版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、以“事件”作為知識(shí)表示的基本單元和信息組織的重要手段,已經(jīng)受到越來越多的重視。研究面向事件的知識(shí),可以為自動(dòng)文摘和問題回答系統(tǒng)等信息處理技術(shù)提供服務(wù)。本文主要從面向事件的中文語料庫構(gòu)建、事件識(shí)別、事件要素識(shí)別以及事件因果關(guān)系抽取等四個(gè)方面進(jìn)行了深入的研究,并針對(duì)以往研究中存在的不足,提出了一些切實(shí)可行的解決辦法,具體包括:
1.語料庫建設(shè)是自然語言處理技術(shù)中的基礎(chǔ)性的研究工作,由于研究的目的和研究的對(duì)象不相同,現(xiàn)有面向事件
2、的語料庫分別采用了不同的標(biāo)注體系。這些標(biāo)注體系主要關(guān)注某些特定類型的事件或事件要素,但是卻忽略了一般意義上的事件以及人們對(duì)于事件的理解和認(rèn)知。本文以調(diào)查問卷為基礎(chǔ),了解和分析了人們對(duì)于通常意義上的文本中的“事件”概念的理解,研究了中文事件的可標(biāo)注性,提出了一種中文事件語料庫的制作方法。該方法并不局限于標(biāo)注某幾類事件,而是針對(duì)文本中所有提及的事件。而且,該方法是建立在中文句法分析和語義分析基礎(chǔ)之上的,符合中文的特點(diǎn)。評(píng)測(cè)實(shí)驗(yàn)表明,采用該方
3、法標(biāo)注得到的語料可以取得較高的一致性。我們還開發(fā)了一個(gè)標(biāo)注輔助工具,收集了200篇突發(fā)事件領(lǐng)域的新聞報(bào)道作為生語料并對(duì)其進(jìn)行了標(biāo)注,制作了一個(gè)中文事件語料庫(Chinese Event Corpus, CEC)。整個(gè)語料庫的加工制作過程歷時(shí)10個(gè)月,先后有近十人參與。與ACE和TimeBank語料庫相比,CEC語料庫的規(guī)模雖然偏小,但是對(duì)事件和事件要素的標(biāo)注卻最為全面。
2.事件識(shí)別是事件抽取任務(wù)的基礎(chǔ),目前的事件識(shí)別大多
4、采用了機(jī)器學(xué)習(xí)的方法,這種方法需要發(fā)掘有效的特征以提高識(shí)別效果。本文提出了一種基于多種特征融合的事件識(shí)別方法,在構(gòu)造特征向量時(shí),加入了上下文特征、詞性特征、句法特征以及語義特征等等。在兩種不同的分類器上對(duì)這些特征的區(qū)分能力分別進(jìn)行了實(shí)驗(yàn)和分析,實(shí)驗(yàn)表明,隨著有效特征的加入,事件識(shí)別的效果明顯提高,而將多種特征融合在一起時(shí),事件識(shí)別的效果最好。與基于tf×idf的事件識(shí)別方法相比,本文方法可以取得更好的識(shí)別效果。
3.采用監(jiān)
5、督(分類)學(xué)習(xí)的方法識(shí)別事件要素,需要大規(guī)模人工標(biāo)注的熟語料庫作為訓(xùn)練集以獲取事件要素的相關(guān)知識(shí),對(duì)語料庫的依賴性比較強(qiáng),常常會(huì)因?yàn)檎Z料稀疏的問題導(dǎo)致效果不理想。本文提出了一種基于半監(jiān)督聚類和特征加權(quán)的事件要素識(shí)別方法,以減少對(duì)于語料的依賴。該方法利用少量的標(biāo)記數(shù)據(jù)作為Seed集指導(dǎo)聚類,并且在聚類分析中根據(jù)不同特征的貢獻(xiàn)分別賦予相應(yīng)的權(quán)值。此外,本文還對(duì)傳統(tǒng)的半監(jiān)督聚類算法(Constrained-KMeans)和特征加權(quán)算法(Rel
6、iefF)進(jìn)行了改進(jìn),使之適用于事件要素識(shí)別任務(wù)。實(shí)驗(yàn)表明,該方法在帶標(biāo)記語料較少的情況下具有一定的優(yōu)勢(shì),可以取得相對(duì)較好的識(shí)別效果。
4.事件因果關(guān)系是非常重要的一類語義關(guān)系,從文本中抽取事件因果關(guān)系具有廣闊的應(yīng)用前景。傳統(tǒng)的事件因果關(guān)系抽取方法只能抽取顯式帶標(biāo)記的、句內(nèi)的一因一果關(guān)系。實(shí)際上,文本中除了包含上述因果關(guān)系之外,還包含了大量的無標(biāo)記因果關(guān)系、跨句/跨段因果關(guān)系以及一因多果、多因一果和多因多果等。針對(duì)這種不足
7、,本文提出了一種基于層疊條件隨機(jī)場(chǎng)的事件因果關(guān)系抽取方法,該方法將事件因果關(guān)系的抽取問題轉(zhuǎn)化為對(duì)事件序列的標(biāo)注問題,采用層疊(兩層)條件隨機(jī)場(chǎng)標(biāo)注出事件之間的因果關(guān)系。第一層條件隨機(jī)場(chǎng)模型用于標(biāo)注事件在因果關(guān)系中的語義角色,標(biāo)注結(jié)果傳遞給第二層條件隨機(jī)場(chǎng)模型用于識(shí)別因果關(guān)系的邊界。語料分析和實(shí)驗(yàn)表明,本文方法不僅可以有效覆蓋文本中的各種因果關(guān)系(包括:帶標(biāo)記/無標(biāo)記因果關(guān)系、句內(nèi)/跨句/跨段因果關(guān)系以及一因一果、一因多果、多因一果和多因
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向多事件源的復(fù)雜事件處理方法的研究.pdf
- 面向事件處理的領(lǐng)域知識(shí)管理關(guān)鍵技術(shù)研究及實(shí)現(xiàn).pdf
- 面向RFID應(yīng)用的復(fù)雜事件處理.pdf
- 面向物聯(lián)網(wǎng)的復(fù)雜事件處理方法的研究.pdf
- 面向突發(fā)事件的事件要素識(shí)別研究.pdf
- 面向事件的自動(dòng)文摘研究.pdf
- 面向大規(guī)模CPS系統(tǒng)的復(fù)雜事件處理技術(shù)研究.pdf
- 面向大型物聯(lián)網(wǎng)的概率復(fù)雜事件處理方法.pdf
- mba論文面向用戶偏好的突發(fā)事件知識(shí)獲取研究pdf
- 面向知識(shí)管理的模具設(shè)計(jì)知識(shí)表達(dá)與處理方法研究.pdf
- 面向RFID倉儲(chǔ)的數(shù)據(jù)處理與事件實(shí)時(shí)監(jiān)測(cè)系統(tǒng)研究.pdf
- 面向WSN的事件流處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向物聯(lián)網(wǎng)的上下文敏感復(fù)雜事件處理方法研究.pdf
- 面向物聯(lián)網(wǎng)的不確定性復(fù)雜事件處理研究.pdf
- 面向主動(dòng)式復(fù)雜事件處理的交通物聯(lián)網(wǎng)仿真系統(tǒng)研究.pdf
- 面向突發(fā)事件的事件識(shí)別及其應(yīng)用研究.pdf
- 面向港口物流的物聯(lián)網(wǎng)中間件復(fù)雜事件處理.pdf
- 面向突發(fā)事件的即興決策研究.pdf
- 面向產(chǎn)品需求分析的事件抽取研究.pdf
- 面向事件的多文檔自動(dòng)文摘研究.pdf
評(píng)論
0/150
提交評(píng)論