基于維基百科的概念圖建模及其應用研究.pdf_第1頁
已閱讀1頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文本的表征與文本間的語義相似度計算是自然語言處理領域里十分重要的基礎性研究課題,它們直接影響著諸如文本自動分類、信息檢索、機器翻譯、問答系統等多個應用系統的效果。傳統的機器學習方法僅僅使用了文本本身所提供的信息來建模和運算,面對復雜多變的網絡用語和短文本,僅僅依靠文本自身所提供的信息來理解文本語義信息變得越來越困難。這是因為傳統的機器學習方法大多數是基于詞袋(Bag of words)模型,即依靠詞或短語之間的匹配,面對詞匯的多樣性、多

2、義性,它就顯得無能無力了。此外,隨著互聯網的發(fā)展,人類的語言生活也發(fā)生了很大變化,短文本占據了網絡用語的大量比例,而這些短文本所能提供的詞匯特征信息又非常之少,不利于傳統的模型表征。
  借助于文本以外的知識擴展文本的信息,是解決以上問題的一個主要途徑,然而,現有的模型并沒有能充分利用外部知識所提供給我們的語義信息。以維基百科為例,大部分模型忽略了不同詞條之間的語義聯系和用戶提供的標注信息,然而,有些時候,這些信息對于理解文本的語

3、義、獲取信息的增益非常重要。因此,設計一個更為合理的知識表示模型來更加充分的利用這些信息,可以說是自然語言處理領域一個亟待解決的研究課題。
  本文從以上問題出發(fā),提出了一個新的知識表示模型,該模型彌補了同類模型的不足之處,既考慮進了知識之間的相互聯系,也使用了用戶標注的額外信息。
  概括起來,本文所做的工作主要有以下幾點:
  第一,本文提出了一個新的知識表示模型,在該模型中,每個知識不再被當作語義獨立的個體看待,

4、不同的知識根據它們之間的語義相似度被聯系到了一起,從宏觀角度看,所有知識通過這些連接關系,構成了一張圖的形狀。以維基百科為例,維基百科中的每一個條目被視為一個概念,它們被當作概念圖中的節(jié)點。概念之間的語義聯系構成了它們之間的邊。邊的權值表示概念之間的語義相似程度,它的值是根據維基百科概念的正文內容、標題、錨文本、超鏈接、類別標簽等多個信息綜合衡量得出的,本文稱此結構為概念圖。這里需要特別指出,雖然本文使用了維基百科作為外部知識庫來建模,

5、但本文所提的模型不僅限于它,該模型同樣適用于其它符合條件的外部知識庫。
  第二,本文提出了一種基于概念的文本表征方式。本文在構建的概念圖模型上設計了一套文本映射到概念的方法,成功把文本從詞頻向量空間轉換到概念空間,增大了文本特征的粒度,從而解決了同義詞等語言現象給傳統文本表征方式帶來的困擾。此外,本文還提出了利用新的文本表征模型來計算文本的語義相似度的方法。我們首先通過簡單的詞義相似度比較,將文本映射到一組概念節(jié)點上。然后根據節(jié)

6、點之間的語義聯系,對映射到圖中的節(jié)點做調整,找出最能代表文本語義的一組節(jié)點。最后,通過比較概念向量之間的語義相似度來計算文本之間的語義相似度。
  第三,為了方便地將本文所提出的概念圖模型運用到實際應用中。本文提出了一種針對語料特征的靈活建模方法。首先,對需要處理的語料進行隨機采樣。然后,采用多種特征抽取的方法抽取出實驗語料的特征,并根據這些抽取出的特征,有針對性地選取與實驗語料語義接近的一部分概念來構造圖模型,從而成功地將概念圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論