文本信息抽取模型及算法研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-10 格式：pdf 頁數(shù)：132 大?。?.14MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩131頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、從20世紀60年代以來，作為自然語言處理領(lǐng)域的一個重要研究分支，文本信息抽取理論的研究受到了國內(nèi)外研究者的廣泛關(guān)注，得到了不斷的發(fā)展，取得了許多研究成果。但是，在文本信息抽取中還存在許多關(guān)鍵的問題，例如，文本信息抽取性能不高、抽取模型的適用性不強、訓(xùn)練文本的人工標記工作量大等問題，有待進一步通過研究加以解決。本文通過規(guī)則和統(tǒng)計的方法，研究文本信息抽取的模型和算法，以進一步提高模型的抽取性能，增強模型的適用能力，減少模型的訓(xùn)練對人工標記文

2、本的依賴程度，提高模型主動學(xué)習(xí)的能力，解決文本信息抽取中的一些關(guān)鍵問題。本文的主要研究工作包括以下幾個方面： (1) 在分析基于頁面標志信息和基于文本模式信息兩類算法的基礎(chǔ)上，提出了一種新的包裝器歸納學(xué)習(xí)算法。新算法綜合了上述兩類算法的優(yōu)點，不但能利用頁面的標志信息進行信息定位，而且能利用文本的模式信息進行信息抽取，并對抽取結(jié)果進行必要的過濾，因而，新的算法具有更高的抽取精確度與更強的信息表達能力。 (2) 為了解決變化

3、的WEB頁面導(dǎo)致包裝器失效的問題，使包裝器模型能自動適用變化的WEB頁面的信息抽取。論文基于以下的觀察：盡管頁面有多種多樣的變化方式，但是許多重要的頁面特征信息在新頁面都得到了保存，例如文本模式信息、注釋信息和超級鏈接信息等。提出了一種基于頁面特征的包裝器平衡算法，新算法首先從包裝器正常工作時被收集起來的訓(xùn)練樣例中學(xué)習(xí)得到WEB頁面的模式信息、數(shù)據(jù)項注釋信息以及可能的超級鏈接信息等特征信息，然后充分利用這些特征信息在變化的WEB頁面中定

4、位目標信息，以自動修復(fù)失效的包裝器。對實際WEB站點信息抽取的實驗表明，新算法能有效地維持包裝器的平衡。 (3) 提出了一種基于聚簇隱馬爾可夫模型的文本信息抽取算法。對于網(wǎng)上不同來源的格式不同的文本，在以往的抽取方法中，將所有的訓(xùn)練文本混合訓(xùn)練一個統(tǒng)一的隱馬爾可夫模型，一般難以得到較優(yōu)化的抽取模型，影響了抽取性能。因此，論文考慮將聚簇分析應(yīng)用到文本信息抽取中，首先，對聚簇分析中的K-平均方法進行改進，以提高聚簇性能；然后，對訓(xùn)練

5、文本的Markov鏈模型進行聚簇，用各個簇的文本訓(xùn)練出不同的抽取模型；最后，應(yīng)用各模型分別進行文本信息抽取，并通過比較得到最優(yōu)的抽取結(jié)果。仿真實驗結(jié)果表明，對不同來源的文本信息的抽取，新的抽取模型和算法具有良好的適用能力和更高抽取性能。 (4) 研究了基于隱馬爾可夫模型文本信息抽取中的信息熵模型。首先，考慮特征信息對提高文本信息抽取性能的作用，提出了一種基于最大熵隱馬爾可夫模型的文本信息抽取算法，該算法通過最大熵模型，將文本的上

6、下文特征信息和文本詞匯本身包含的特征信息加入到模型的訓(xùn)練和文本信息抽取中，提高了抽取性能；其次，為了解決從大段文本信息中抽取關(guān)鍵信息的問題，將互信息模型應(yīng)用到基于隱馬爾可夫模型的文本信息抽取中，通過點互信息定量描述文本信息的隱馬爾可夫模型中非相鄰狀態(tài)之間的轉(zhuǎn)移概率，實現(xiàn)了對文本中關(guān)鍵信息的抽取，并得到了較好的抽取效果。 (5) 研究了文本信息抽取中的二階隱馬爾可夫模型。在一階隱馬爾可夫模型中，假設(shè)狀態(tài)的轉(zhuǎn)移概率和觀察值的輸出概率只依賴于

7、模型當前的狀態(tài)，一定程度制約了信息抽取的精確度。二階隱馬爾可夫模型合理地考慮了概率和模型歷史狀態(tài)的關(guān)聯(lián)性，對錯誤信息的識別能力更強。論文在一階模型的ML(ML，MaximumLikelihood)算法的基礎(chǔ)上推導(dǎo)了二階模型的ML算法；提出了基于二階隱馬爾可夫模型的文本信息抽取算法；分析了二階隱馬爾可夫模型在提高信息抽取正確率上的有效性。仿真實驗結(jié)果表明，新的算法比基于一階隱馬爾可夫模型的算法具有更高的抽取精確度。 (6) 研究了

8、結(jié)合最大熵模型和二階隱馬爾可夫模型的文本信息抽取方法。在基于二階隱馬爾可夫模型的文本信息抽取中，雖然提高了模型對錯誤信息的識別能力，提高了信息抽取的正確率，但是信息抽取的召回率沒有提高，因此，在該方法中，通過最大熵模型，在基于二階隱馬爾可夫模型的文本信息抽取中加入文本的上下文特征信息，進一步改善二階隱馬爾可夫模型的抽取性能，在進一步提高文本信息抽取正確率的同時也提高了召回率。 (7) 提出了一種文本信息抽取的主動學(xué)習(xí)算法。在只有

9、部分標記訓(xùn)練文本的情況下，通過主動學(xué)習(xí)算法，將最有價值的訓(xùn)練文本挑選出來進行標記。該算法能應(yīng)用到基于包裝器模型和基于隱馬爾可夫模型的文本信息抽取中，在不影響抽取性能的前提下，能有效降低模型的訓(xùn)練對已標記訓(xùn)練文本的依賴程度，很大程度減少人工標記訓(xùn)練文本的工作量。總之，論文通過規(guī)則和統(tǒng)計的方法分別從上述各個方面對文本信息抽取的模型和算法進行了深入研究。解決了文本信息抽取中存在的關(guān)鍵問題，提高了文本信息抽取的精確度和召回率；增強了抽

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本信息抽取模型及算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

文本信息抽取模型及算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載