領(lǐng)域知識圖譜的自動化構(gòu)建.pdf_第1頁
已閱讀1頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著Google公司于2012年發(fā)布Google Knowledge Graph,國內(nèi)外開始對知識圖譜的研究升溫,相關(guān)研究不斷地涌現(xiàn)。這其中,通用知識圖譜的構(gòu)建和應(yīng)用得到了長足的發(fā)展,WordNet、DBpedia、Freebase、WikiData等大型通用知識圖譜相繼發(fā)布。但由于需要領(lǐng)域?qū)<业拇罅咳斯じ深A(yù),因此基于特定領(lǐng)域的知識庫的構(gòu)建,進展卻一直十分緩慢。基于此,本文從工程角度提出了一個面向領(lǐng)域知識圖譜的自動化構(gòu)建方案,并以此方案

2、開發(fā)出了WAKA-KG框架用于輔助構(gòu)建特定領(lǐng)域的知識圖譜,有效地降低領(lǐng)域知識圖譜的構(gòu)建成本。WAKA-KG可以在用戶提供的特定領(lǐng)域模型基礎(chǔ)之上,通過對海量Web文檔的篩選,自動從領(lǐng)域相關(guān)文檔中抽取出實體及實體關(guān)系集,然后通過知識融合以及鏈接預(yù)測技術(shù),增量迭代出該領(lǐng)域知識庫。WAKA-KG構(gòu)建出的知識庫是“扁平”的,不包含本體及分類信息,因此不需要過多的人工干預(yù)?;趹?yīng)用的需要,領(lǐng)域?qū)<铱梢赃x擇在WAKA-KG生成的知識庫的基礎(chǔ)之上,再去

3、做知識清洗以及本體定義。
  本文研究的主要內(nèi)容包括:
  (1)通過分析觀察,發(fā)現(xiàn)謂詞的詞法功能在語句中通常是固定不變的,另外特定于某一謂詞,實體之間在依存關(guān)系一般存在著依賴鏈。基于這兩個詞法特征,本文使用斯坦福自然語言處理工具包開發(fā)了一個三元組(知識)抽取組件,接受文本文檔做為輸入,輸出特定形式的三元組;
  (2)參考韓先陪等人的“集體實體鏈接”[16]概念實現(xiàn)了一個三元組鏈接器,通過該組件可以將抽取的三元組消歧

4、后鏈接到知識圖譜中;
  (3)通過實體及實體關(guān)系自動抽取所獲得的三元組一般都會存在大量的噪聲,為了保證知識庫的構(gòu)建質(zhì)量,系統(tǒng)必須要有一定的策略來消除噪聲。為此,本文在三元組上引入置信度屬性,并且根據(jù)推薦系統(tǒng)的基本原理基于貝葉斯個性化排序算法(BPR)訓練了一個置信度評估模型,使用該模型,本文在WAKA-KG框架上實現(xiàn)了一個三元組篩選器,對待選三元組進行置信度評估,利用評估結(jié)果消除噪聲。
  在WAKA-KG中,本文解決了以

5、下研究挑戰(zhàn):
  1)三元組抽取。三元組抽取實際上包含了Web文檔或數(shù)據(jù)爬取、實體及實體關(guān)系抽取兩部分。為了避免爬蟲成為系統(tǒng)瓶頸,本文對 Java網(wǎng)絡(luò)爬蟲工具WebMagic進行了深度定制,優(yōu)化了其網(wǎng)絡(luò)和分布式組件,將其整體效率提升了近2倍。另外,通過分析語句的詞法特征,并結(jié)合使用斯坦福自然語言處理工具包,本文開發(fā)實現(xiàn)了實體關(guān)系的自動抽取。
  2)實體消歧。抽取到的三元組需要通過實體鏈接技術(shù)鏈接到現(xiàn)有圖譜中,以便實現(xiàn)對知識

6、圖譜的擴充。這其中最重要的也是最困難的部分就是要對實體進行消歧,也就是解決命名指稱與實體對齊的問題。針對這一難點,本文參考了韓先陪等人的“集體實體鏈接”[16]概念,開發(fā)實現(xiàn)了一個實體消歧組件,在一定程度上解決了消歧問題。
  3)三元組篩選。WAKA-KG的三元組抽取器是一個完全自動化的組件,它從文本流中抽取的實體關(guān)系必然不可避免的包含著各種噪聲,為了一定程度上解決這個問題,本文引入了三元組篩選器模塊,該模塊借用推薦系統(tǒng)的用戶-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論