版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p> 語義網(wǎng)在數(shù)字圖書館信息檢索中的應(yīng)用</p><p> 【摘 要】基于字面匹配檢索的傳統(tǒng)數(shù)字圖書館信息檢索方法在檢索效率方面存在一定的缺陷。新一代語義網(wǎng)在語義理解、信息關(guān)聯(lián)方面有其獨(dú)特優(yōu)勢,其在數(shù)字圖書館信息檢索系統(tǒng)中的應(yīng)用必將大大提高信息檢索效率。 </p><p> 【關(guān)鍵詞】語義網(wǎng);數(shù)字圖書館;信息組織;信息檢索 </p><p>
2、數(shù)字信息資源的海量增長導(dǎo)致了人類信息行為的改變。數(shù)字圖書館以其時(shí)空的便利性越來越收到人們的重視,人們更多地通過圖書館的信息檢索系統(tǒng)來獲得所需的資源。但數(shù)字圖書館傳統(tǒng)的信息檢索系統(tǒng)的缺陷也逐漸顯現(xiàn)出來。 </p><p> 一、數(shù)字圖書館傳統(tǒng)信息檢索系統(tǒng)存在的問題 </p><p> 目前數(shù)字圖書館中搜索引擎多以傳統(tǒng)的關(guān)鍵詞檢索為主。這種檢索方式曾在一定程度上滿足過用戶的需求,但由于字義
3、本身與其概念的延伸經(jīng)常不在同一級,使得尋得結(jié)果往往僅與字面意義相匹配,與人們想得到信息概念及其相關(guān)的成分的意愿相違背。首先,傳統(tǒng)的檢索系統(tǒng)難以準(zhǔn)確理解用戶的檢索需求。如當(dāng)用戶需要查找題名中包含“計(jì)算機(jī)”的文獻(xiàn)時(shí),其真實(shí)的檢索意圖是將關(guān)于“計(jì)算機(jī)”、“電腦”等具有同一語義的文獻(xiàn)都查找出來。其次,檢索系統(tǒng)返回的多篇文章往往只按相關(guān)度、實(shí)踐、被引頻次等進(jìn)行排序,各篇文獻(xiàn)之間相互獨(dú)立,缺乏語義上的聯(lián)系。 </p><p>
4、; 二、概念語義檢索的優(yōu)勢 </p><p> ?。ㄒ唬┱Z義檢索系統(tǒng)可以收集用戶的相關(guān)信息,分析用戶的檢索行為,了解用戶的檢索特征與檢索愛好,創(chuàng)建符合用戶特征的訪問模式,從一定程度上提高用戶的檢索效率。 </p><p> ?。ǘτ脩魴z索語義的確切理解保證了檢索結(jié)果的可靠性。概念語義檢索克服了字面匹配檢索的弊端,使檢索結(jié)果更接近用戶真實(shí)的檢索需求。 </p><p
5、> ?。ㄈ┯脩艨梢詫ο到y(tǒng)提供的服務(wù)做出信息反饋,對檢索結(jié)果進(jìn)行打分排序,系統(tǒng)可根據(jù)反饋信息調(diào)整服務(wù),從而達(dá)到個(gè)性化搜索。 </p><p> 三、語義網(wǎng)及其體系結(jié)構(gòu) </p><p> 1998年,萬維網(wǎng)之父Tim Berners-Lee 提出“語義網(wǎng)”(Semantic Web)理念。語義網(wǎng)的基本思想是在網(wǎng)絡(luò)信息的創(chuàng)作和發(fā)布中嵌入機(jī)器可理解的知識元數(shù)據(jù),使計(jì)算機(jī)具備更強(qiáng)的“理
6、解”和處理數(shù)據(jù)的能力。語義網(wǎng)環(huán)境下,網(wǎng)絡(luò)成為能理解人類語言的智能網(wǎng),人機(jī)交流變成類似人與人的交流。2000年Tim Berners-Lee提出的語義網(wǎng)標(biāo)準(zhǔn)體系結(jié)構(gòu)。該機(jī)制的核心由兩大模塊組成:① 以XML與RDF(s)為手段的信息組織模塊,用于管理信息,具備部分語義。②以O(shè)ntology為手段的知識組織模塊,用于管理知識,提供機(jī)器間的語義互操作。標(biāo)準(zhǔn)最底層由統(tǒng)一資源標(biāo)識符(URI)和統(tǒng)一字符編碼(Unicode)構(gòu)成。語義網(wǎng)標(biāo)準(zhǔn)的第二層
7、由可擴(kuò)展標(biāo)記語言(XML)、域名系統(tǒng)(Namespace)以及可擴(kuò)展標(biāo)記語言結(jié)構(gòu)表(XML Schema)構(gòu)成。第三層由資源描述框架(RDF)和資源描述框架結(jié)構(gòu)表(RDF Schema)構(gòu)成。 “XML+RDF(s)”就構(gòu)成了計(jì)算機(jī)間相互理解的基礎(chǔ),它們是改造萬維網(wǎng)、建立起語義網(wǎng)信息組織機(jī)制的三大核心技術(shù)。第五層邏輯(Logic)是在本體層之上要做邏輯推理工作。接</p><p> 根據(jù)以上內(nèi)容可知,語義網(wǎng)信息
8、組織機(jī)制的核心是XML、RDF、Ontology。XML(可擴(kuò)展標(biāo)記語言)被譽(yù)為“語義標(biāo)記”,是一種完全面向數(shù)據(jù)語義的置標(biāo)語言。XML Schema提供了規(guī)定XML 文檔結(jié)構(gòu)和內(nèi)容約束的機(jī)制。Namespace則是解決自定義標(biāo)記過程中名稱沖突問題的。RDF(資源描述框架)是網(wǎng)絡(luò)資源通用描述框架,它是以三元組:主體—謂詞—客體,來對網(wǎng)絡(luò)信息資源進(jìn)行簡單描述的。RDF是一個(gè)開放的元數(shù)據(jù)集成方案。采用RDF來處理不同類型元數(shù)據(jù)集合,可以實(shí)現(xiàn)元
9、數(shù)據(jù)之間的互操作,使計(jì)算機(jī)可以理解語義。XML與RDF結(jié)合解決了信息建立于信息描述的開放機(jī)制和系統(tǒng)的開放性,有利于資源的共享。Ontology(本體)在人工智能領(lǐng)域指的是對共享概念模型的明確的形式化規(guī)范說明。 </p><p> 四、概念語義檢索的實(shí)現(xiàn) </p><p> ?。ㄒ唬└拍钫Z義檢索的原理。概念語義檢索的原理主要分為三個(gè)過程:首先,用戶向系統(tǒng)輸入檢索請求,由于用戶的知識領(lǐng)域的差
10、異,輸入的關(guān)鍵詞的準(zhǔn)確性有差別,需要系統(tǒng)對檢索需求進(jìn)行語義分析,分析出用戶真正的檢索需求。第二,概念語義檢索系統(tǒng)須對數(shù)字對象進(jìn)行描述和表示,對海量的信息資源進(jìn)行描述和表示是信息資源數(shù)字化整序的過程。第三,語義檢索系統(tǒng)將分析出的用戶真正的檢索意圖的認(rèn)知表達(dá)式與概念語義檢索系統(tǒng)中整合后的資源進(jìn)行匹配,檢索出所需的信息資源。 </p><p> ?。ǘ└拍钫Z義檢索的流程。(1)創(chuàng)建元數(shù)據(jù):收集各學(xué)科的數(shù)字信息資源,在
11、MARC、DC等元數(shù)據(jù)標(biāo)準(zhǔn)下,利用XML、RDF等語義網(wǎng)技術(shù),更準(zhǔn)確地描述數(shù)字對象的語義,建立元數(shù)據(jù)并存儲在元數(shù)據(jù)庫中。(2)創(chuàng)建本體知識庫:利用元數(shù)據(jù)庫中的信息以及現(xiàn)有的主題詞表、語義詞典等工具,并且借助領(lǐng)域?qū)<业闹R和經(jīng)驗(yàn)的幫助,構(gòu)建領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出詞匯和詞匯間相互關(guān)系的明確定義。(3)語義標(biāo)引:利用領(lǐng)域本體對文檔進(jìn)行標(biāo)引。先從文檔集中抽取出特征詞匯,分析特征詞匯,并建立與概念集之間的聯(lián)系,從而達(dá)
12、到使用領(lǐng)域本體對文檔進(jìn)行語義標(biāo)引。(4)檢索式的處理:用戶通過檢索界面提交查詢請求,推理機(jī)利用本體領(lǐng)域內(nèi)的知識和一些基本的自然語言理解技術(shù)對關(guān)鍵詞或語句進(jìn)行分析,從領(lǐng)域本體中抽取出與用戶查詢關(guān)鍵詞或語句具有語義相似度的本體,最終得到用戶真正的檢索意圖。(5)實(shí)施查詢并返回結(jié)果:推理機(jī)將抽取出的語義關(guān)鍵詞組成語句群,提交至檢索系統(tǒng)。然后,系統(tǒng)從數(shù)字圖書館信息資源中搜索出符合該語義詞或句的所有相關(guān)文獻(xiàn)資源,即結(jié)果集。 </p>
13、<p> 作為下一代互聯(lián)網(wǎng),語義網(wǎng)在信息檢索方面的優(yōu)勢可以為數(shù)字圖書館提高檢索效率所借鑒。語義網(wǎng)的和核心技術(shù)XML、RDF、Ontology為數(shù)字圖書館實(shí)現(xiàn)用戶檢索需求的確切理解,構(gòu)建信息資源的語義關(guān)聯(lián)提供了有效途徑,并最終提高了數(shù)字圖書館學(xué)術(shù)信息資源的檢全率和檢準(zhǔn)率。 </p><p><b> 參考文獻(xiàn) </b></p><p> [1] 羅昊.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于語義web的信息檢索技術(shù)及其在數(shù)字圖書館的應(yīng)用.pdf
- 圖像語義標(biāo)注與檢索及在數(shù)字圖書館中的應(yīng)用.pdf
- 基于本體的語義檢索在數(shù)字圖書館中的應(yīng)用研究.pdf
- 基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究.pdf
- 呼叫中心在數(shù)字圖書館中的應(yīng)用.pdf
- 三網(wǎng)融合在數(shù)字圖書館信息化建設(shè)中的應(yīng)用分析
- 數(shù)據(jù)挖掘在數(shù)字圖書館的應(yīng)用.pdf
- 元數(shù)據(jù)及其在數(shù)字圖書館信息組織中的應(yīng)用.pdf
- 信息可視化在數(shù)字圖書館中的應(yīng)用研究.pdf
- 畢業(yè)設(shè)計(jì)(論文)圖像檢索技術(shù)在數(shù)字圖書館中的應(yīng)用研究
- XML在數(shù)字圖書館信息資源組織中的應(yīng)用研究.pdf
- 數(shù)據(jù)庫技術(shù)在數(shù)字圖書館中的應(yīng)用.pdf
- JBIG2標(biāo)準(zhǔn)在數(shù)字圖書館中的應(yīng)用.pdf
- 中間件技術(shù)在數(shù)字圖書館中的應(yīng)用.pdf
- 開源軟件在數(shù)字圖書館中的應(yīng)用研究.pdf
- OGSA—DAI在數(shù)字圖書館中的應(yīng)用研究.pdf
- lib2.0在數(shù)字圖書館中的應(yīng)用研究
- 書法重現(xiàn)及其在數(shù)字化圖書館中的應(yīng)用.pdf
- prov溯源模型在數(shù)字圖書館的應(yīng)用研究
- 基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應(yīng)用.pdf
評論
0/150
提交評論