面向信息檢索的語義計算技術(shù).pdf_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息檢索,包括信息的組織、呈現(xiàn)、查詢、存取等各個方面,為人們提供了快速、精確地獲取所需信息的方式.信息檢索通常是文本檢索,其核心是根據(jù)用戶查詢找到相關(guān)文本,包括"標引"和"相似度計算"兩個關(guān)鍵技術(shù).隨著信息社會尤其是互聯(lián)網(wǎng)的發(fā)展,人們對檢索的要求越來越高.傳統(tǒng)的基于關(guān)鍵詞匹配的檢索技術(shù),往往存在查不全、查不準、檢索質(zhì)量不高的問題.因此,智能檢索研究已經(jīng)成為熱點,并將是支撐下一代互聯(lián)網(wǎng)的核心技術(shù)之一.由于文本大多數(shù)是用非形式化的自然語言表

2、述,因此實現(xiàn)智能檢索的關(guān)鍵就是要在一定程度上理解自然語言,挖掘出隱藏在文本背后的"語義".從研究現(xiàn)狀來看,基于詞匯的語義模型是一類比較理想的淺層語義表述方式,已經(jīng)有了很多成功的實踐.因此,在信息檢索中引入智能技術(shù)的一種方案,就是在"標引"和"相似度計算"兩個關(guān)鍵技術(shù)中引入詞匯語義模型,用淺層語義來指導(dǎo)檢索過程,提高檢索的準確率.這正是文本的選題思路和工作重點.該文首先簡要介紹信息檢索和語義模型的研究現(xiàn)狀,說明兩者結(jié)合的必要性和合理性.然

3、后,論述三類語義模型(隱含語義標引、語義樹、語義張量)在信息檢索中的應(yīng)用.最后,介紹模式識別國家重點實驗室(NLPR)的信息檢索系統(tǒng)框架、模塊和實現(xiàn);并利用TREC評測來測試系統(tǒng)的功能和性能.概括地說,該文主要有如下一些工作.(1)論述了語義模型與信息檢索中兩個關(guān)鍵技術(shù)("標引"和"相似度計算")的結(jié)合問題;(2)改進了隱含語義標引模型,提出弱指導(dǎo)的統(tǒng)計隱含語義標引模型,使語義空間分布更合理,效率也更高.這個模型可以小規(guī)模地應(yīng)用于"查詢

4、主題詞構(gòu)造"技術(shù);(3)提出了基于語義樹的語義空間模型.語義空間不再是靜態(tài)的,而是實時構(gòu)建的,其靈活性和可操作性優(yōu)于各種隱含語義標引模型.尤其在查詢主題詞擴展技術(shù)方面,性能超過了常見的擴展算法;(4)提出了語義張量的概念,并明確了其物理意義,歸納為兩個核心思想.進一步,用窗口系列模型來表述這兩個思想,并應(yīng)用于查詢和文本間的相似度計算.實驗證明,這類模型比傳統(tǒng)的矢量模型更有效;(5)構(gòu)建了NLPR檢索系統(tǒng)框架,并完成了模塊設(shè)計和編程的工作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論