面向農(nóng)業(yè)領域的垂直搜索技術的研究.pdf_第1頁
已閱讀1頁,還剩100頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著網(wǎng)絡信息的爆炸性增長,人們在網(wǎng)上查詢所需信息的難度變得越來越大,搜索引擎的出現(xiàn)在某種程度上緩解了這一矛盾。
   通用搜索引擎分布在不同領域、不同地方為用戶提供服務,在早期設立較多,在當前的應用仍然是最廣。雖然它相對容易實現(xiàn)相關檢索,但其覆蓋面狹窄,檢索效率低,隨著Web的迅速發(fā)展,已顯得越來越力不從心了。為了改變這種狀況,它們中的一些搜索引擎改變了原來收集綜合信息的方式,轉(zhuǎn)為集中收集某一領域的信息,為領域檢索用戶提供了較為

2、精確的檢索結果。如果在某個特定的領域內(nèi)要得到相對全面、準確的搜索結果,就必須改變傳統(tǒng)的搜索方式,面向某個特定領域的垂直搜索技術的研究即是在這一背景下產(chǎn)生的。然而對基于關鍵詞的檢索,同一個關鍵詞在不同的領域具有著不同的意義,這也是造成通用引擎數(shù)據(jù)查準率低的原因,因為通用搜索引擎無法識別領域用戶的真實意圖。農(nóng)業(yè)領域作為專題領域同樣存在很多具有領域意義的一些關鍵詞,如“富士”、“玉米”等,對于領域內(nèi)檢索用戶,“富士”對應的是蘋果而非富士數(shù)碼或

3、者富士山之類的數(shù)據(jù),“玉米”對應的是農(nóng)產(chǎn)品而非李宇春玉米基地數(shù)據(jù)。
   面向農(nóng)業(yè)領域的垂直搜索技術的研究旨在搜索引擎能夠理解領域用戶的真實意圖,反饋領域用戶所需的數(shù)據(jù)信息。首先,在研究成員通用搜索引擎的選擇策略及搜索引擎結果處理方法的基礎上構建了元搜索引擎,其次分析了如何利用正則表達式抓取農(nóng)業(yè)領域內(nèi)網(wǎng)頁信息內(nèi)容,再結合領域分析的方法獲取領域特征詞完成農(nóng)業(yè)領域網(wǎng)頁特征庫的構建,最終利用此特征庫對元搜索引擎檢索結果進行結果處理操作

4、,并反饋最終結果。三部分結合完成農(nóng)業(yè)領域內(nèi)的垂直技術的研究。研究工作如下:
   首先,在了解了通用搜索引擎的分類及其關鍵技術基礎之上,重點研究了元搜索引擎的結構原理和實現(xiàn)元搜索引擎過程中用到的關鍵技術:成員搜索引擎的選擇策略和搜索引擎結果處理方法。在成員搜索引擎的選擇策略問題上,對比了現(xiàn)有的成員搜索引擎選擇方法,并對它們進行了分析、比較和評價,最終歸納設計了適合本文的成員搜索引擎的選擇策略。此外,從檢索效果來講,成員搜索引擎反

5、饋的查詢結果信息總是希望能夠更貼近于最終結果,然而根據(jù)成員搜索引擎各自查詢機制查詢的結果雜亂無章,結果處理操作是元搜索引擎構建的另一個重點,在對不同成員搜索引擎返回結果處理中,介紹了元搜索引擎在結果處理中一些常用的方法,對這些方法進行了比較分析,并提出了合適的搜索引擎結果處理的方法。
   其次,領域網(wǎng)頁特征庫的構建是為了對元搜索引擎初次檢索結果集進行篩選排序處理的,以此來達到去除非領域相關網(wǎng)頁和按照規(guī)則重排序的目的,實現(xiàn)查全到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論