

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著文本數(shù)據(jù)特別是網(wǎng)頁(yè)信息的持續(xù)激增,如何快速、自動(dòng)地抽取海量文本中蘊(yùn)含的主要或重要信息,已成為人們關(guān)心的一個(gè)熱點(diǎn)研究問(wèn)題,由此刺激了面向文本的信息抽取技術(shù)的迅速發(fā)展。文本摘要技術(shù)能夠抽取文本的篇章結(jié)構(gòu)及主要信息,自動(dòng)生成單篇文檔或多篇文檔的摘要,可以看成是信息抽取技術(shù)的一種。而通常意義上的信息抽取技術(shù)則主要是抽取文本中蘊(yùn)含的用戶(hù)所需的特定重要信息。
本文面向循證醫(yī)學(xué)(EBM)網(wǎng)頁(yè)并結(jié)合其它類(lèi)型的訓(xùn)練文本,重點(diǎn)研究文本的自
2、動(dòng)摘要和信息抽取方法,主要針對(duì)信息抽取結(jié)果不理想、主題劃分不明確、段落聚類(lèi)算法對(duì)初始值敏感、聚類(lèi)數(shù)目需要人工設(shè)定等問(wèn)題,提出一系列新穎的研究方法和模型。
(1)提出一種段落特征與隱馬爾可夫模型相結(jié)合的信息抽取方法。該方法與其它信息抽取方法的不同之處在于以段落而不是單詞為研究對(duì)象。網(wǎng)頁(yè)上的信息經(jīng)過(guò)預(yù)處理以后,以段落為單位,保存成文本序列,每一個(gè)段落要轉(zhuǎn)換成特定的字符串,這些字符串做為隱馬爾可夫模型中的可觀察變量。實(shí)驗(yàn)表明,無(wú)
3、論是準(zhǔn)確率還是召回率,以段落為觀察序列的信息抽取結(jié)果都要優(yōu)于以單詞為觀察序列的信息抽取結(jié)果。
(2)對(duì)文檔進(jìn)行主題劃分,為摘要的生成做準(zhǔn)備。主題劃分的過(guò)程是將文本中的段落表示成向量空間模型,利用互信息計(jì)算連續(xù)段落的關(guān)聯(lián)程度,將關(guān)聯(lián)程度較弱的段落作為劃分的邊界??紤]到算法中人工定義參數(shù)會(huì)對(duì)劃分結(jié)果造成一定程度的不利影響,所以本文采用遺傳算法對(duì)主題劃分過(guò)程中出現(xiàn)的參數(shù)閾值進(jìn)行優(yōu)化。實(shí)驗(yàn)表明,互信息與遺傳算法相結(jié)合的主題劃分方法
4、在準(zhǔn)確率上取得了較好的結(jié)果。
(3)對(duì)單詞-文檔譜聚類(lèi)方法的基本步驟進(jìn)行分析,找出其對(duì)初始值敏感的根本原因,提出一種基于模糊K-調(diào)和均值的單詞.文檔譜聚類(lèi)方法。該方法包括兩個(gè)方面,一是從矩陣相似的角度對(duì)譜聚類(lèi)中的Laplacian矩陣進(jìn)行處理,使其滿(mǎn)足對(duì)初始值不敏感的條件。二是通過(guò)加入模糊的概念,用模糊K-調(diào)和均值算法代替K-均值算法,使聚類(lèi)結(jié)果對(duì)初始值不敏感。實(shí)驗(yàn)表明,基于模糊K-調(diào)和均值的單詞-文檔譜聚類(lèi)方法不僅使聚類(lèi)
5、結(jié)果對(duì)初始值不敏感,而且在一定程度上改進(jìn)了數(shù)據(jù)的聚類(lèi)結(jié)果。
(4)利用形態(tài)學(xué)的方法確定聚類(lèi)數(shù)目,并對(duì)單詞-文檔譜聚類(lèi)方法進(jìn)行改進(jìn)。確定聚類(lèi)數(shù)目主要分三個(gè)步驟,第一步將單詞-文檔譜聚類(lèi)方法中產(chǎn)生的矩陣轉(zhuǎn)換成VAT灰度圖,第二步利用灰度形態(tài)學(xué)、圖像二值化、距離轉(zhuǎn)換等圖像處理技術(shù)對(duì)VAT灰度圖進(jìn)行過(guò)濾,第三步對(duì)過(guò)濾后的。VAT灰度圖建立信號(hào)圖,并進(jìn)行平滑處理,通過(guò)平滑后的信號(hào)圖的波峰波谷數(shù)目確定文檔集的聚類(lèi)數(shù)目。實(shí)驗(yàn)表明,該方法
6、能夠提高單詞-文檔譜聚類(lèi)方法的聚類(lèi)效果。
(5)在LDA.主題模型的基礎(chǔ)上,提出了基于主題融合的多文檔自動(dòng)摘要算法Titled-LDA??紤]到文檔的標(biāo)題信息對(duì)摘要形成有很強(qiáng)的指示作用,因此為每篇文檔分別建立標(biāo)題和正文的主題模型,并對(duì)兩個(gè)模型進(jìn)行融合。融合過(guò)程中,根據(jù)兩種形態(tài)的信息熵,進(jìn)行自適應(yīng)不對(duì)稱(chēng)學(xué)習(xí),從而對(duì)不同形態(tài)的主題分布進(jìn)行加權(quán)處理,融合后的模型適當(dāng)?shù)仃P(guān)聯(lián)了標(biāo)題和正文的信息,因此有助于摘要質(zhì)量的提高。實(shí)驗(yàn)表明,Ti
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于主題的短文本自動(dòng)摘要抽取研究與應(yīng)用.pdf
- 文本病歷信息抽取方法研究.pdf
- WEB數(shù)據(jù)自動(dòng)抽取技術(shù)及其應(yīng)用研究.pdf
- 基于DOM信息抽取技術(shù)的網(wǎng)頁(yè)自動(dòng)翻譯方法的應(yīng)用研究.pdf
- 自動(dòng)文本摘要方法的研究及應(yīng)用.pdf
- 介詞用法自動(dòng)識(shí)別及其在信息抽取中的應(yīng)用研究.pdf
- 面向自由文本的信息抽取方法研究.pdf
- 圖像的特征抽取方法及其應(yīng)用研究.pdf
- 面向自由文本的信息抽取方法研究
- 半結(jié)構(gòu)化文本信息抽取方法研究及應(yīng)用.pdf
- 面向領(lǐng)域的文本信息抽取方法研究.pdf
- 網(wǎng)頁(yè)信息的自動(dòng)抽取方法研究.pdf
- 基于Hadoop的文本信息抽取系統(tǒng)開(kāi)發(fā)及應(yīng)用研究.pdf
- 半結(jié)構(gòu)化Web信息抽取技術(shù)及其應(yīng)用研究.pdf
- 問(wèn)答系統(tǒng)中的文本信息抽取研究與應(yīng)用.pdf
- 文本特征抽取方法的研究.pdf
- 生物醫(yī)學(xué)文本中藥物信息抽取方法研究.pdf
- 網(wǎng)頁(yè)信息抽取方法研究與應(yīng)用.pdf
- 基于統(tǒng)計(jì)的中文文本關(guān)鍵短語(yǔ)自動(dòng)抽取方法研究.pdf
- 基于GATE的貨物動(dòng)態(tài)郵件信息抽取方法與應(yīng)用研究.pdf
評(píng)論
0/150
提交評(píng)論