版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著在線新聞媒體網(wǎng)站以及新聞客戶端APPs的快速發(fā)展,它們每天產(chǎn)生海量的新聞報道,已經(jīng)成為人們獲取和關(guān)注國內(nèi)外熱點事件的主要途徑。事件線抽取(Storyline Extraction)主要研究從海量的文本中抽出熱門的事件,以結(jié)構(gòu)化的形式表示事件,比如什么人,什么地方,什么機(jī)構(gòu),關(guān)鍵詞以及相關(guān)主題等,并呈現(xiàn)出該事件是如何隨著時間而不斷變化。對于基于新聞文本的事件線抽取的研究具有重要的現(xiàn)實意義和巨大的應(yīng)用價值。
新聞文本具有實時性
2、,持續(xù)性,高關(guān)注,文檔質(zhì)量高的特點,因而基于新聞文本的事件線抽取具有可行性和挑戰(zhàn)性。另外,有監(jiān)督的方法不能處理開放的事件線抽取,并且有監(jiān)督的方法的實驗效果依賴于標(biāo)注語料的數(shù)量和質(zhì)量,而標(biāo)注大規(guī)模的語料通常需要耗費(fèi)大量的人力、物力,所以本文針對無監(jiān)督的基于新聞文本的事件線抽取方法進(jìn)行研究,本文的主要貢獻(xiàn)有:
1.對基于新聞文本的無監(jiān)督的事件抽取方法進(jìn)行了研究,本文提出了一種動態(tài)的事件線抽取(Dynamic Storyline D
3、etection Model,DSDM)方法。DSDM是一種無監(jiān)督的貝葉斯隱變量模型,利用之前時間段的事件線概率分布作為當(dāng)前時間段事件線概率分布的先驗參數(shù)來表示相同事件線中不同時刻的事件的依賴關(guān)系。本文詳細(xì)闡述了該方法的模型表示和參數(shù)估計方法。將基于DSDM的事件線抽取方法分別在兩個數(shù)據(jù)集上進(jìn)行驗證。第一個數(shù)據(jù)集是已標(biāo)注的包含101,654條新聞文本的一周的數(shù)據(jù)集Ⅰ,第二個數(shù)據(jù)集是未標(biāo)注的包含526,587條新聞文本的一個月的數(shù)據(jù)集Ⅱ。
4、該方法對于事件線抽取的效果在數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ上都優(yōu)于對比算法。
2.針對DSDM模型存在不能夠動態(tài)確定事件線的個數(shù),采樣復(fù)雜度過高以及關(guān)鍵詞,主題精度低等問題,本文對DSDM模型進(jìn)行改進(jìn),將DSDM與中餐館模型(Chinese Restaurant Process,CRP)相結(jié)合來動態(tài)確定事件線個數(shù),利用Metropolis-Hastings采樣方法和LightLDA降低采樣的復(fù)雜度,添加單詞類型變量來提高關(guān)鍵詞和主題抽取的
5、精度,提出了一個新的動態(tài)事件線抽取模型(Dynamic Storyline Extraction Model,DSEM)。本文詳細(xì)闡述了該方法的模型表示和參數(shù)估計方法。為了評估模型處理復(fù)雜事件線抽取的性能,本文人工構(gòu)建包含各種類型事件線的23,376篇新聞文本的數(shù)據(jù)集Ⅲ。在數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ上,該方法的準(zhǔn)確率相比DSDM分別提高5.23%和2.50%,在數(shù)據(jù)集Ⅲ上,該方法的準(zhǔn)確率相比DSDM提高20.83%。
3.針對DSEM
6、存在的需要設(shè)置先驗參數(shù)以及構(gòu)建事件線中不同時間段事件的依賴關(guān)系需要人工設(shè)定等問題,本文從神經(jīng)網(wǎng)絡(luò)的角度對DSEM模型進(jìn)行改進(jìn),利用文檔的事件線概率分布與相應(yīng)標(biāo)題的事件線概率分布相似這一假設(shè)生成事件線,并且利用神經(jīng)網(wǎng)絡(luò)雙輸出來表示事件之間的依賴關(guān)系,提出了基于神經(jīng)網(wǎng)絡(luò)的事件線抽取(Neural Dynamic Storyline Extraction Model,Neural-DSEM)模型。在數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ上,該方法的準(zhǔn)確率相比DS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向微博文本的事件抽取.pdf
- 基于事件抽取的日漢新聞?wù)Z料庫構(gòu)建研究.pdf
- 基于事件框架的突發(fā)事件信息抽取.pdf
- 微博文本的事件抽取與可視化.pdf
- 56295.面向網(wǎng)絡(luò)新聞的事件抽取研究
- 基于雙語的事件抽取方法研究.pdf
- Web新聞文本信息抽取與可視化研究.pdf
- 基于雙分解的生物事件抽取.pdf
- 事件及其事件要素的抽取研究.pdf
- 基于本體的文本信息抽取技術(shù)及實現(xiàn).pdf
- 微博事件抽取.pdf
- 基于HMM的教育新聞抽取與分類研究.pdf
- 反轉(zhuǎn)事件中媒介報道的特點與誤區(qū)——基于幾起反轉(zhuǎn)新聞文本的分析.pdf
- 基于文本的實體—關(guān)系抽取技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的生物醫(yī)學(xué)事件抽取研究.pdf
- 基于改進(jìn)HMMs的中文原子事件抽取方法.pdf
- 突發(fā)事件新聞文本自動分類技術(shù)研究.pdf
- 突發(fā)事件新聞文本層次聚類方法研究.pdf
- 基于規(guī)則的Web文本信息抽取技術(shù)的研究.pdf
- 文本特征抽取方法的研究.pdf
評論
0/150
提交評論