基于Nutch的科技項目主題搜索引擎研究.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網信息的日益增長,通用搜索引擎已經無法滿足用戶對于特定領域信息的查詢需求。搜索引擎正在向個性化、主題化、智能化發(fā)展,其中基于某種特定主題的搜索引擎已成為一個研究熱點。目前,在科技項目領域,科技項目信息獲取基本靠通用搜索引擎查詢和專家經驗,通過科技項目主題搜索為用戶提供相關項目信息的研究還比較少。本文針對通用搜索引擎查詢無法為用戶提供深入科技項目信息的問題,設計開發(fā)基于科技項目主題的搜索引擎系統(tǒng),方便用戶準確了解科技項目發(fā)展狀況。

2、論文研究工作如下:
  (1)分析主題爬行器的關鍵技術,研究提出基于科技項目主題的爬行器模型。模型通過選擇權威頁面作為初始URL種子頁面,選取項目模板文檔訓練科技項目主題詞庫,應用改進的VSM余弦方法判定網頁主題相關性,提出基于Shark Search和Hits的主題爬行策略。該模型過濾科技項目主題相關性差的網頁,使爬行器能夠更多的爬行主題相關網頁,提高網頁爬行質量。
  (2)針對PageRank算法容易產生“主題漂移”,

3、偏重舊網頁的問題,提出一種基于時間衰減因子的改進算法TD-PageRank(Time Decay PageRank)。該算法將網頁內容表示為空間向量模型,運用TF-IDF計算關鍵詞權值的基礎上,給予網頁不同區(qū)域關鍵詞相應權值,減少“主題漂移”,加入時間衰減因子,以此來加速舊網頁“沉淀”。實驗表明,改進的算法相較于PageRank算法,主題相關的新網頁在排序中上升,更多的主題相關的網頁排在結果集前列。
  (3)基于以上兩點研究成果

4、,結合Nutch開源搜索引擎,設計基于科技項目的主題搜索引擎原型系統(tǒng)。系統(tǒng)對Nutch爬行模塊進行改進,加入主題相關性判定模塊和主題詞庫訓練模塊,加入IKAnalyzer中文分詞,通過結合Nutch評分機制和TD-PageRank算法改進查詢結果排序,設計用戶查詢接口。實驗測試驗證原型系統(tǒng)的可行性。
  在國內對于科技項目領域主題搜索引擎研究較少的背景上,本文在科技項目主題搜索引擎方面所做的研究成果對科技項目搜索領域起到“拋磚引玉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論