垂直搜索引擎中主題網絡爬蟲算法的設計與研究.pdf_第1頁
已閱讀1頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯網的快速發(fā)展,近幾年,傳統(tǒng)的通用搜索引擎已不能滿足人們對于專業(yè)化、個性化的信息需求,因此建立面向特定領域的垂直搜索引擎迫在眉睫。主題網絡爬蟲在主題搜索引擎中起著舉足輕重的作用,它設計的好壞直接影響著搜索引擎的服務質量。傳統(tǒng)的主題網絡爬蟲主要通過分析網頁的全部內容來分析候選URL與主題的相關性,但現今的網頁包含的主題越來越多,這種分析方式可能會由于網頁中存在噪音而影響候選URL與主題相關性的判定。近年來對主題爬蟲的研究主要集中于兩

2、個方面:主題相關性判定和主題爬蟲搜索策略。本文針對傳統(tǒng)的主題網絡爬蟲的不足提出基于一種混合爬行的搜索策略。主要的研究工作包括:
  (1)文章在研究主題爬蟲相關技術的基礎上,對現有的研究成果分別做了闡述,這為文章提出的新的爬蟲策略奠定了理論基礎。
  (2)把樹的層次型結構應用到Bloom Filter去重過程,提出一種基于傳統(tǒng)BloomFilter的多層Bloom Filter(MLBF)對抓取的URL去重,每層Bloom

3、 Filter由k個獨立的哈希函數和m位位數組組成,將URL看成是由”/”分割之后組成的集合,從而將URL的去重問題轉換成判定樹的路徑問題。實驗結果分析表明:改進后的多層BloomFilter具有更小的誤判率,提升了爬行效率。
  (3)文章吸取了已有成果的研究精華,充分結合網頁內容評價和網頁鏈接評價兩個維度提出基于內容和鏈接評價的一種混合爬行策略。在內容評價策略上,構建以網頁內容和錨文本為輸入的樸素貝葉斯分類器分析候選URL與主

4、題的相關性,在鏈接評價策略上,采用高效的HITS算法來獲得Authority和Hub網頁。將整個爬行策略的周期合理分為兩步,提高了網頁與主題的相關性。
  (4)在預測候選URL與主題相關度方面,采用典型的杜威十進制分類法和鏈接結構分析法等差異化的方法預測URL與主題的相關性,綜合考慮了錨文本、錨文本附近的信息、反向網頁、反向鏈接與主題的相關,避免了“主題漂移”現象。
  (5)對爬蟲效果采用差準率和模擬查全率來進行評估,通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論