2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、信息檢索,包括信息的組織、呈現(xiàn)、查詢、存取等各個方面,為人們提供了快速、精確地獲取所需信息的方式.信息檢索通常是文本檢索,其核心是根據(jù)用戶查詢找到相關文本,包括"標引"和"相似度計算"兩個關鍵技術.隨著信息社會尤其是互聯(lián)網(wǎng)的發(fā)展,人們對檢索的要求越來越高.傳統(tǒng)的基于關鍵詞匹配的檢索技術,往往存在查不全、查不準、檢索質(zhì)量不高的問題.因此,智能檢索研究已經(jīng)成為熱點,并將是支撐下一代互聯(lián)網(wǎng)的核心技術之一.由于文本大多數(shù)是用非形式化的自然語言表

2、述,因此實現(xiàn)智能檢索的關鍵就是要在一定程度上理解自然語言,挖掘出隱藏在文本背后的"語義".從研究現(xiàn)狀來看,基于詞匯的語義模型是一類比較理想的淺層語義表述方式,已經(jīng)有了很多成功的實踐.因此,在信息檢索中引入智能技術的一種方案,就是在"標引"和"相似度計算"兩個關鍵技術中引入詞匯語義模型,用淺層語義來指導檢索過程,提高檢索的準確率.這正是文本的選題思路和工作重點.該文首先簡要介紹信息檢索和語義模型的研究現(xiàn)狀,說明兩者結合的必要性和合理性.然

3、后,論述三類語義模型(隱含語義標引、語義樹、語義張量)在信息檢索中的應用.最后,介紹模式識別國家重點實驗室(NLPR)的信息檢索系統(tǒng)框架、模塊和實現(xiàn);并利用TREC評測來測試系統(tǒng)的功能和性能.概括地說,該文主要有如下一些工作.(1)論述了語義模型與信息檢索中兩個關鍵技術("標引"和"相似度計算")的結合問題;(2)改進了隱含語義標引模型,提出弱指導的統(tǒng)計隱含語義標引模型,使語義空間分布更合理,效率也更高.這個模型可以小規(guī)模地應用于"查詢

4、主題詞構造"技術;(3)提出了基于語義樹的語義空間模型.語義空間不再是靜態(tài)的,而是實時構建的,其靈活性和可操作性優(yōu)于各種隱含語義標引模型.尤其在查詢主題詞擴展技術方面,性能超過了常見的擴展算法;(4)提出了語義張量的概念,并明確了其物理意義,歸納為兩個核心思想.進一步,用窗口系列模型來表述這兩個思想,并應用于查詢和文本間的相似度計算.實驗證明,這類模型比傳統(tǒng)的矢量模型更有效;(5)構建了NLPR檢索系統(tǒng)框架,并完成了模塊設計和編程的工作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論