基于本體的Deep Web語義搜索引擎.pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著WWW的迅速發(fā)展和普及,WWW 成為一個巨大的信息資源庫,對這個信息資源庫的搜索出現(xiàn)了“信息過載”和“信息迷航”的問題。由于WWW的自治性、開放性、異構(gòu)性、動態(tài)性和指數(shù)增長等特點,目錄式搜索引擎、全文搜索引擎都暴露出了根本的缺點。基于關(guān)鍵字查詢,只檢索靜態(tài)頁面,只能進行“導航式”的檢索,導致了索引容量指數(shù)增長、查全率和查準率不斷降低等問題。提高搜索引擎的查全率和查準率,滿足用戶“知識粒度”檢索的要求,同時能夠進行語義層面的搜索,成為

2、用戶對新一代搜索引擎提出的要求。為了從根本上解決這些問題,新一代的搜索引擎要求必須對WWW 進行新的知識表示。萬維網(wǎng)的創(chuàng)始人Tim Berners-lee為此提出了新一代萬維網(wǎng)的架構(gòu)—Semantic Web,其上的信息具有良好的定義,使得人與機器、機器間能夠更好的實現(xiàn)信息的共享與協(xié)作。Semantic Web能夠從根本上解決傳統(tǒng)搜索引擎所暴露出來的問題。由于WWW的自治性特點,SemanticWeb的接受需要一個相當長的時間,并且由于

3、Semantic Web的研究大都停留在理論研究階段,所以新一代搜索引擎難以實現(xiàn)。本文在新一代搜索引擎和WWW 之間找到了一個結(jié)合點,將Semantic Web的架構(gòu)應用到Deep Web的搜索,提出了基于本體的Deep Web語義搜索引擎?;诒倔w的Deep Web語義搜索引擎可以解決傳統(tǒng)搜索引擎只能搜索靜態(tài)頁面,無法進行語義搜索,無法為用戶提供“知識粒度”檢索的缺點。本文的創(chuàng)新點如下: 1、本文基于Semantic Web

4、架構(gòu)對Deep Web 進行語義搜索,解決了傳統(tǒng)搜索引擎只能搜索靜態(tài)頁面,無法對Deep Web 進行搜索,只能基于關(guān)鍵字搜索,無法進行語義搜索,只對靜態(tài)頁面的內(nèi)容進行索引,而不能進行元數(shù)據(jù)索引的缺點,提高了搜索引擎的查全率和查準率,避免了搜索引擎索引容量的瓶頸問題。 2、本文通過對Deep Web 查詢接口進行元數(shù)據(jù)提取,將查詢接口看作后臺數(shù)據(jù)庫的元模式,利用元數(shù)據(jù)描述語言RDF 對查詢接口進行RDF 描述,然后結(jié)合領(lǐng)域本體對

5、查詢接口的RDF 元數(shù)據(jù)進行RDF 檢索,從而實現(xiàn)查詢接口的語義搜索,提高了查詢接口檢索的準確率,由于查詢接口具有高度的領(lǐng)域相關(guān)性,所以提高了搜索引擎的查準率。 3、本文提出了基于領(lǐng)域本體的Deep Web語義搜索引擎的框架,由Deep Web 爬蟲、Deep Web 分類器、Deep Web 表單提取、自然語言查詢接口、語義推理、表單檢索器、Web檢索器、統(tǒng)一接口查詢和結(jié)果集成模塊組成。在本文中重點分析了Deep Web的發(fā)現(xiàn)

6、、分類和查詢接口RDF的語義檢索,整個RDF 檢索系統(tǒng)以Jena 平臺為開發(fā)平臺,以汽車領(lǐng)域本體和查詢接口RDF模型為例進行了驗證。 4、基于知網(wǎng)的詞匯語義關(guān)系判斷算法以知網(wǎng)做為本體,采用基于結(jié)構(gòu)的模式匹配算法進行詞匯邏輯關(guān)系的判斷;Deep Web 特征選擇算法采用詞匯頻度作為類內(nèi)、類間可分性判據(jù)以Tabu 搜索策略進行特征選擇;Deep Web 查詢接口RDF提取算法根據(jù)查詢接口Html代碼的特征進行查詢接口Html代碼和查

7、詢接口RDF模型的映射;Deep Web 查詢接口RDF查詢算法以用戶輸入的關(guān)鍵詞序列為檢索條件,進行關(guān)鍵詞序列的分類操作,概念推理算子操作,得到概念關(guān)鍵詞對序列和實例關(guān)鍵詞對序列,根據(jù)概念關(guān)鍵詞對序列采用RDQL語言對RDF進行檢索,然后根據(jù)檢索結(jié)果和實例關(guān)鍵詞對序列以Http協(xié)議格式對Web 進行數(shù)據(jù)檢索。本文對上述算法進行了實例驗證。 本文從理論上對基于Semantic Web 架構(gòu)的Deep Web 搜索引擎進行了研究,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論