文本信息檢索模型研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數(shù)：67 大?。?.78MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩66頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著Internet技術(shù)的發(fā)展，人類已經(jīng)步入信息時代，網(wǎng)上龐大的數(shù)字化信息與人們獲取所需信息能力之間的矛盾日益突出，怎樣快速準(zhǔn)確地檢索相關(guān)信息已經(jīng)成為當(dāng)今信息領(lǐng)域的研究熱點(diǎn)。到目前為止，國內(nèi)外研究組織和公司已經(jīng)提出了多種信息檢索模型并研發(fā)出了相應(yīng)的搜索引擎，這些搜索引擎對于要在網(wǎng)絡(luò)上獲取相關(guān)知識的用戶起到了一定的導(dǎo)航的作用，但是同時也有不少局限性：返回大量的垃圾信息，重要信息丟失等。本文首先從研究文本信息檢索模型入手，闡述了傳

2、統(tǒng)的信息檢索模型的基本原理及其算法思想，然后著重介紹了有關(guān)領(lǐng)域本體的知識以及在領(lǐng)域本體參照下三種語義相似度的計算模型：基于距離的語義相似度計算模型、基于內(nèi)容的語義相似度計算模型以及基于屬性的語義相似度計算模型。得知這三種語義相似度的計算模型分別從三個不同的分析角度來量化概念之間的語義相似度：(1)基于距離的語義相似度計算模型簡單、直觀，但它非常依賴預(yù)先建立好的概念層次網(wǎng)絡(luò)，網(wǎng)絡(luò)的結(jié)構(gòu)直接影響到語義相似度的計算；(2)基于內(nèi)容的語義相似度

3、計算模型在理論上更有說服力，因為在計算概念之間語義相似度的時候，充分利用了信息理論和概率統(tǒng)計理論的相關(guān)知識，但是這種方法不能更細(xì)致的區(qū)分層次網(wǎng)絡(luò)中各個概念之間語義相似度的值；(3)基于屬性的語義相似度計算模型可以很好的模擬人們平時對現(xiàn)實世界中事物之間的認(rèn)識和辨別，但是要求對客觀事物的每一個屬性進(jìn)行詳細(xì)和全面的描述。因此，針對這三種計算模型的優(yōu)缺點(diǎn)和領(lǐng)域本體所特有的性質(zhì)，提出了一種改進(jìn)的基于領(lǐng)域本體的語義相似度計算模型，該模型能夠比較準(zhǔn)確

4、地反映概念之間的語義關(guān)系，為概念之間的語義關(guān)系提供一種有效的量化。論文在上述基礎(chǔ)上，通過對基于統(tǒng)計的信息檢索模型和基于本體的信息檢索模型進(jìn)行分析比較，得知這兩種模型在某種程度上互補(bǔ)：(1)基于統(tǒng)計的信息檢索模型強(qiáng)調(diào)關(guān)鍵字的統(tǒng)計信息，然而忽略了關(guān)鍵字之間的語義信息；(2)基于本體的信息檢索模型強(qiáng)調(diào)關(guān)鍵字之間的語義信息，然而忽略了關(guān)鍵字的統(tǒng)計信息。結(jié)合兩種信息檢索模型各自的優(yōu)點(diǎn)提出了一種混合的信息檢索模型。通過該模型構(gòu)建了一種新的

5、信息檢索系統(tǒng)的原型，并對該原型系統(tǒng)的幾個重要的模塊的功能及原理進(jìn)行了說明。最后，實驗主要采用JSP作開發(fā)技術(shù)構(gòu)建了基于C/S模式的文本信息檢索系統(tǒng)，通過protégée開發(fā)《數(shù)據(jù)結(jié)構(gòu)》這門課程前三章的領(lǐng)域本體，使用ApacheTomcat 5.0作為Web服務(wù)器，采用Microsoft Office XP Access Professional作為數(shù)據(jù)庫構(gòu)建的實驗環(huán)境。實驗結(jié)果證明該原型用于信息檢索中，其查全率和查準(zhǔn)率方面較基于統(tǒng)計的信

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本信息檢索模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

文本信息檢索模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載