基于用戶搜索歷史的個性化信息檢索研究.pdf_第1頁
已閱讀1頁,還剩134頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、個性化信息檢索針對用戶個人興趣偏好優(yōu)化文檔排序,被認為是現有搜索引擎改善用戶檢索體驗的一種有效途徑。個性化信息檢索以用戶為中心提供有針對性的檢索結果,因此不僅考慮查詢和文檔的匹配度,還考慮文檔和用戶興趣偏好的匹配度。用戶歷史包含用戶豐富的信息,是獲取用戶興趣偏好的最佳途徑,成為個性化信息檢索研究的焦點。為了探索不同的用戶歷史在檢索中的作用,本文量化分析了用戶歷史與檢索結果的相關性,探討了如何利用短期歷史、長期歷史、以及綜合利用二者以提高

2、個性化檢索性能的方法。
  1)針對用戶歷史與檢索結果的關系,量化分析了用戶長短期歷史與用戶查詢和點擊的相關性。本文采用向量空間模型框架,從以下四個方面分析了用戶長短期歷史與查詢和點擊的關系:相關比例、相關程度、是否存在線性關系和具體內容上的差異。分析發(fā)現79.55%的查詢可以從用戶歷史中獲取相關信息,其中短期歷史覆蓋的比例較大(71.23%),相關程度也較高;而針對同一個查詢,不同的用戶歷史所提供的相關信息不盡相同,彼此的結合有

3、可能進一步提高檢索性能。
  2)針對如何合理利用短期歷史的問題,提出了一種短期歷史權重自適應的個性化檢索方法。為了合理分配短期歷史權重,本文以短期歷史和當前查詢的相關強度為核心依據,以當前查詢、短期歷史查詢、短期歷史點擊三個維度上的用戶行為特征為線索,建立了 SVM回歸模型對短期歷史的權重進行預測。實驗表明,該方法能夠根據具體的檢索環(huán)境為每個查詢的短期歷史動態(tài)分配權重,有效提升了個性化檢索性能。
  3)針對如何有效利用長

4、期歷史的問題,本文引入增量層次聚類算法對長期興趣建模,并在此基礎上建立新的查詢模型。長期歷史內容豐富但主題相對分散,并隨著用戶的使用不斷積累更新,因此長期歷史中包含很多與當前查詢無關的內容。針對該問題,本文采用增量層次聚類算法漸進地構建用戶長期興趣樹,并使用對當前檢索有最大幫助的興趣簇估計長期興趣模型,從而對用戶查詢進行有益補充。實驗證明,基于長期歷史增量層次聚類的個性化檢索方法顯著優(yōu)于現有基于長期歷史的檢索方法,在一定程度上解決了具有

5、多樣性和動態(tài)性的長期歷史的利用問題,改善了個性化檢索性能。
  4)在上述研究的基礎上,設計了一種基于用戶長短期歷史融合的個性化檢索框架。用戶長短期歷史對檢索結果的作用不同,本文的模型將二者的不同作用綜合作用于查詢和文檔,一方面根據長短期歷史更準確地估計用戶查詢,另一方面考慮了文檔相對于用戶的重要性差異。實驗中全面比較了不同用戶歷史的各種組合,結果表明長短期歷史融合作用于查詢的效果優(yōu)于只使用一種歷史的情況,而同時作用于查詢和文檔可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論