基于本體的web文檔知識(shí)獲取的框架研究_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  基于本體的Web文檔知識(shí)獲取的框架研究</p><p>  摘 要 本文在分析了Web文本的知識(shí)獲取途徑之后,提出了一個(gè)基于本體的Web文檔知識(shí)獲取模型。該模型具有較好的適應(yīng)性和可移植性,模型使用了可擴(kuò)充標(biāo)記語言(XML),使得對知識(shí)庫的處理更加簡便。最后,通過一個(gè)臨床實(shí)例對其流程進(jìn)行了詳細(xì)說明,并分析其在醫(yī)院知識(shí)庫系統(tǒng)中的應(yīng)用。</p><p>  關(guān)鍵字 知

2、識(shí)獲??;本體;Web文檔</p><p><b>  1 引言</b></p><p>  互聯(lián)網(wǎng)技術(shù)的發(fā)展為知識(shí)獲取方法的研究帶來了機(jī)遇和挑戰(zhàn)。必須發(fā)展相應(yīng)的知識(shí)自動(dòng)獲取技術(shù)。為了使語義網(wǎng)應(yīng)用到實(shí)際中給人們提供知識(shí)服務(wù),就需要解決從Web文檔中獲取知識(shí)的問題。盡管從Web頁面的注釋中我們可以發(fā)現(xiàn)部分信息,然而所獲得的信息是不全面的,而且很難能獲取元信息。有研究者將

3、本體的概念引入到知識(shí)發(fā)現(xiàn)領(lǐng)域[1] [5],但還沒有充分發(fā)揮到本體的優(yōu)勢。本文中本體以概念和關(guān)系來劃分知識(shí)類型,并且以獲取知識(shí)的本體為指導(dǎo)來從非結(jié)構(gòu)化的Web文檔中發(fā)現(xiàn)知識(shí)。</p><p>  2 面向Web文本的知識(shí)獲取途徑</p><p>  互聯(lián)網(wǎng)中存在大量的Web文檔,其中記載著大量的信息。通過超鏈接逐頁閱讀相關(guān)文獻(xiàn)來查找所需信息是初級(jí)的且效率較低的知識(shí)獲取方式。從文本中發(fā)現(xiàn)知

4、識(shí)并提供給用戶從技術(shù)上講有兩條主要途徑:</p><p>  (1)傳統(tǒng)的途徑,即通過使用如歸納程序等工具直接獲取文本中的知識(shí),或通過知識(shí)工程師或領(lǐng)域?qū)<沂褂弥R(shí)編輯、編譯工具間接獲取知識(shí),然后構(gòu)造專家系統(tǒng)知識(shí)庫,通過專家系統(tǒng)間接為用戶提供知識(shí)[2]。這種方法有如下不足:第一,專家系統(tǒng)知識(shí)庫的表現(xiàn)形式不統(tǒng)一,存在知識(shí)難以共享的問題,且不適合逐頁瀏覽;第二,在知識(shí)從文本轉(zhuǎn)移到專家系統(tǒng)知識(shí)庫過程中,存在信息丟失的弊端

5、 [3]。</p><p>  (2)自然語言技術(shù),即直接從自然語言文本獲取有用的知識(shí)并提供給用戶[4]。但由于目前自然語言理解水平還比較低,主要是利用用戶提供的樣本進(jìn)行訓(xùn)練,然后開發(fā)相應(yīng)的程序來獲取特定范圍的知識(shí)。這種途徑的缺點(diǎn)是有限的樣本庫資源限制決定了其應(yīng)用范圍的狹窄性。</p><p>  為此,需要有一種新的知識(shí)獲取方法,它能以適當(dāng)?shù)姆绞郊皶r(shí)地將適用的知識(shí)從眾多的文本提供給用戶。

6、將知識(shí)表示技術(shù)處理技術(shù)及XML技術(shù)標(biāo)準(zhǔn)結(jié)合起來,構(gòu)成了一種新的知識(shí)獲取途徑。</p><p>  3 基于本體的知識(shí)獲取模型</p><p>  3.1 本體的基本概念</p><p>  本體的英文有兩種寫法:①大寫開頭的Ontology 指哲學(xué)領(lǐng)域的本體論的概念。在哲學(xué)中Ontology 是一種存在的系統(tǒng)化解釋,用于描述事物的本質(zhì)。本體論的概念和方法被計(jì)算機(jī)

7、領(lǐng)域采用,用于知識(shí)表示、知識(shí)共享和重用。②小寫開頭的ontology 是計(jì)算機(jī)領(lǐng)域廣泛使用的概念,翻譯為本體,是某領(lǐng)域內(nèi)共享概念的明確的形式化規(guī)范說明。雖然本體還沒有一個(gè)明確的定義,AI領(lǐng)域普遍認(rèn)同Gruber于1995年指出類似的概念:本體是“概念化(Conceptualization) 的顯式( Explicit) 說明或表示”[6] 。直觀地講,本體是一個(gè)實(shí)體,是對某一領(lǐng)域應(yīng)用本體論的方法分析、建模的結(jié)果,即將現(xiàn)實(shí)世界中的某個(gè)領(lǐng)域

8、抽象為一組概念及概念之間的關(guān)系。</p><p>  3.2 基于本體的知識(shí)獲取方法</p><p>  很多知識(shí)獲取系統(tǒng)(如IE)能識(shí)別一些文檔實(shí)體,例如張三是一個(gè)人,2004年6月是一個(gè)日期,但是如果不將這些信息通過它們之間的關(guān)系聯(lián)系起來,就沒有太多的實(shí)用價(jià)值了。因?yàn)樗荒鼙磉_(dá)出張三出生于2004年6月的完整含義。這就要求有一種自動(dòng)處理機(jī)制用于發(fā)現(xiàn)實(shí)體之間的關(guān)系,也就是要求信息向本體

9、轉(zhuǎn)化。</p><p>  基于本體的知識(shí)獲取模型將知識(shí)獲取工具與本體聯(lián)系在一起,用本體來支持和指導(dǎo)知識(shí)獲取,是零散的信息集中到一起形成知識(shí),以不斷地獲取知識(shí)。知識(shí)獲取工具通過搜索Web文檔,將那些能與給定的規(guī)則結(jié)構(gòu)匹配的知識(shí)提取出來,然后將它格式化為一種便于機(jī)器閱讀的格式(如XML),并將它存入知識(shí)庫(KnowledgeBase)。在知識(shí)獲取過程中起指導(dǎo)作用的本體本身也要采用一種字典擴(kuò)展機(jī)制來擴(kuò)展本體集合。&l

10、t;/p><p>  3.3 基于本體的知識(shí)獲取模型</p><p>  基于本體的知識(shí)獲取模型包括知識(shí)獲取、信息管理、和知識(shí)生成3大部分。其中知識(shí)獲取工具利用搜索引擎技術(shù)從Web文檔中一點(diǎn)一點(diǎn)地收集信息項(xiàng)(如句子和段落)。知識(shí)獲取工具將所獲得的信息片斷和本體字典庫中的元數(shù)據(jù)一起傳送到本體服務(wù)器中,本體服務(wù)器存儲(chǔ)并固化這些信息到知識(shí)庫以備知識(shí)生成工具訪問,當(dāng)用戶請求查詢某條相關(guān)信息時(shí),知識(shí)生

11、成工具從知識(shí)庫中獲取信息并生成知識(shí)敘述通過用戶接口返回信息給用戶。其結(jié)構(gòu)如圖1所示。</p><p><b>  1) 知識(shí)獲取</b></p><p>  首先,用戶向系統(tǒng)發(fā)出請求并提供相關(guān)的信息,如姓名,職業(yè)等;然后知識(shí)獲取工具根據(jù)用戶所提供的信息,利用Web搜索引擎在Web文檔中進(jìn)行檢索,其檢索到的信息項(xiàng)以句子和段落的形式,傳送到本體庫中;在本體庫中,根據(jù)用戶提

12、供的信息在本體字典找到需要的元數(shù)據(jù),并連同Web搜索引擎的結(jié)果一起發(fā)送到本體服務(wù)器上。</p><p><b>  2) 信息管理</b></p><p>  信息管理模塊主要由本體服務(wù)器和知識(shí)庫組成。本體服務(wù)器在接收到知識(shí)獲取模塊發(fā)送的信息項(xiàng)和本體元數(shù)據(jù)后,根據(jù)元數(shù)據(jù)對信息項(xiàng)進(jìn)行處理,通過對句子和段落進(jìn)行語義識(shí)別,包括語法分析、語義分析和本體分析,生成一個(gè)關(guān)于本體的

13、XML文檔,其中的各屬性名為本體的屬性,對應(yīng)的值是從語義識(shí)別中獲得數(shù)據(jù)。然后將生成的XML文檔保存到知識(shí)庫中,以備返回給用戶接口程序,為用戶提供知識(shí)。</p><p><b>  3) 知識(shí)生成</b></p><p>  知識(shí)生成模塊主要負(fù)責(zé)將知識(shí)庫中的知識(shí),以自然語言的形式生成知識(shí)文檔,通過用戶接口,輸出給用戶界面。其中最重要的是知識(shí)文檔的生成,由于在知識(shí)庫中預(yù)先

14、存有知識(shí)文檔模板,因此只要將知識(shí)文檔中對應(yīng)的屬性值填充到模板的相應(yīng)位置即可。</p><p><b>  4 實(shí)例分析</b></p><p>  大多數(shù)Web信息以自然語言文檔形式存在,一般的信息獲取工具可以將文檔信息分成實(shí)體,但是它們不能識(shí)別實(shí)體間的相互關(guān)系。為此提出了一種基于本體的識(shí)別工具來識(shí)別實(shí)體中的信息碎片及它們之間的關(guān)系。本系統(tǒng)以一個(gè)臨床疾病的本體為例,

15、該本體除了包含該疾病的臨床表現(xiàn)、主要特征等外,還包含了這些文本信息所在的網(wǎng)絡(luò)路徑,以便重新組織它們時(shí)起指導(dǎo)作用。</p><p>  例如用戶從用戶接口發(fā)出請求查詢感冒的知識(shí),知識(shí)生成工具迅速搜索知識(shí)庫,看能否找到有關(guān)感冒的知識(shí)。如果沒有找到,則通知知識(shí)獲取工具從Web中去搜索,然后從搜索結(jié)果中過濾出相關(guān)文檔。例如用百度搜索引擎搜索到100個(gè)包含感冒的網(wǎng)址,這些網(wǎng)址當(dāng)中可能會(huì)含關(guān)于感冒的治療、預(yù)防等,這些網(wǎng)址要采

16、用過濾技術(shù)將其過濾掉。一旦某個(gè)文檔被選中,它隨即被分成段、句。然后從語義的角度尋找相關(guān)知識(shí),如果語法相關(guān)則進(jìn)行語義識(shí)別。</p><p><b>  4.1 語義識(shí)別</b></p><p>  例如某文檔內(nèi)容為:通常所說的“感冒”主要指的是西醫(yī)學(xué)的“上呼吸道感染”,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。流行性感冒則是由感染流感

17、病毒引起,有以下特點(diǎn):如發(fā)作多呈流行性,中毒癥狀常更重,甚至表現(xiàn)為寒戰(zhàn)高熱、周身酸痛,全身癥狀明顯等。本病四季均可發(fā)生,以冬、春兩季多見,所有人群均易感。</p><p>  為了從二進(jìn)制信息中獲取實(shí)體關(guān)系,需要用存儲(chǔ)在本體中的領(lǐng)域?qū)<业闹R(shí)來決定實(shí)體間的關(guān)系。為此必須向本體服務(wù)器請求本體相關(guān)知識(shí),而且在定義本體的同時(shí),還必須有詞典的幫助。例如一個(gè)詞有同義詞、廣義詞、狹義詞等。</p><p&

18、gt;  例如對“通常所說的‘感冒’主要指的是西醫(yī)學(xué)的‘上呼吸道感染’,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。”這個(gè)句子的分析過程用謂詞邏輯描述如下:</p><p><b>  1)語法分析</b></p><p>  none(感冒);none(上呼吸道感染);verb(指);</p><p>  su

19、bject(感冒);predicate(指);object(上呼吸道感染)。</p><p><b>  2)語義分析</b></p><p>  disease(感冒);name(上呼吸道感染)。</p><p><b>  3)本體分析</b></p><p>  假設(shè)本體的模型為:疾病名稱,專

20、業(yè)名稱,臨床表現(xiàn)……正好與語義分析的結(jié)果匹配,于是原句被分成兩個(gè)句子,感冒的專業(yè)名稱是上呼吸道感染,感冒的臨床表現(xiàn)是鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適。</p><p><b>  4)知識(shí)存儲(chǔ)</b></p><p>  每次知識(shí)獲取產(chǎn)生一個(gè)XML文檔輸出,并將其存入知識(shí)庫中。整體分析過程如圖2所示。</p><p><b

21、>  4.2 知識(shí)生成</b></p><p>  機(jī)器可以通過結(jié)構(gòu)化的本體來交換信息,但是人們需要一個(gè)較為直觀的接口。如記敘的方式,就是一個(gè)較為自然的方式。在此系統(tǒng)中,知識(shí)庫中已經(jīng)存儲(chǔ)了一些本體信息,它們之間沒有明確的順序,但是有一定的相互關(guān)系。所以只需要將他們按照一定的序列組織起來即可。</p><p><b>  5 結(jié)論</b></

22、p><p>  基于本體的知識(shí)獲取模型,由于引入了本體庫,使Web文本中零散的知識(shí)更加容易被發(fā)現(xiàn),因此該模型在獲取知識(shí)的全面性上有一定的優(yōu)勢;而且本體庫可以針對不同的領(lǐng)域設(shè)計(jì),因此只要開發(fā)出對應(yīng)領(lǐng)域的本體庫,就可以很方便地實(shí)現(xiàn)向該領(lǐng)域的移植;同時(shí)利用XML語言來表示本體,可以更加簡便地處理知識(shí)庫的信息。當(dāng)前醫(yī)院知識(shí)庫系統(tǒng)中存在大量可用知識(shí),它們都以分散的Web文本形式存在,因此將基于本體的知識(shí)獲取系統(tǒng)引入其中,必然可

23、以得到大量對診斷具有意義的知識(shí)。這將為廣大臨床醫(yī)師做出更好更準(zhǔn)確地診斷提供一定的依據(jù)。</p><p><b>  參考文獻(xiàn)</b></p><p>  [1] M.Vargas-Vera et al.,”Knowledge Extraction Using an Ontology-Based Annotation Tool,” Workshop on Knowled

24、ge Markup&amp; Semantic Annotation, ACM Press, New York, 2001,5-12</p><p>  [2] 賴朝安 孫延明 齊德昱 鄭時(shí)雄,《基于自然語言理解的專家系統(tǒng)研究》,計(jì)算機(jī)工程,2003.01,vol.29:20-34</p><p>  [3] 賴朝安 孫延明 鄭時(shí)雄,《面向Web文本的機(jī)械知識(shí)獲取方法研究》,機(jī)械設(shè)

25、計(jì),2002.08:33-36</p><p>  [4] 鄧志鴻 唐世渭 等. 面向語義集成-本體在Web信息集成中的研究進(jìn)展. 計(jì)算機(jī)應(yīng)用.2002,22(1).-15-17 </p><p>  [5] Gruber T R, Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J ]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論