面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究.pdf_第1頁
已閱讀1頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著網(wǎng)絡信息的爆炸性增長,人們在網(wǎng)上查詢所需信息的難度變得越來越大,搜索引擎的出現(xiàn)在某種程度上緩解了這一矛盾。
   通用搜索引擎分布在不同領(lǐng)域、不同地方為用戶提供服務,在早期設立較多,在當前的應用仍然是最廣。雖然它相對容易實現(xiàn)相關(guān)檢索,但其覆蓋面狹窄,檢索效率低,隨著Web的迅速發(fā)展,已顯得越來越力不從心了。為了改變這種狀況,它們中的一些搜索引擎改變了原來收集綜合信息的方式,轉(zhuǎn)為集中收集某一領(lǐng)域的信息,為領(lǐng)域檢索用戶提供了較為

2、精確的檢索結(jié)果。如果在某個特定的領(lǐng)域內(nèi)要得到相對全面、準確的搜索結(jié)果,就必須改變傳統(tǒng)的搜索方式,面向某個特定領(lǐng)域的垂直搜索技術(shù)的研究即是在這一背景下產(chǎn)生的。然而對基于關(guān)鍵詞的檢索,同一個關(guān)鍵詞在不同的領(lǐng)域具有著不同的意義,這也是造成通用引擎數(shù)據(jù)查準率低的原因,因為通用搜索引擎無法識別領(lǐng)域用戶的真實意圖。農(nóng)業(yè)領(lǐng)域作為專題領(lǐng)域同樣存在很多具有領(lǐng)域意義的一些關(guān)鍵詞,如“富士”、“玉米”等,對于領(lǐng)域內(nèi)檢索用戶,“富士”對應的是蘋果而非富士數(shù)碼或

3、者富士山之類的數(shù)據(jù),“玉米”對應的是農(nóng)產(chǎn)品而非李宇春玉米基地數(shù)據(jù)。
   面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究旨在搜索引擎能夠理解領(lǐng)域用戶的真實意圖,反饋領(lǐng)域用戶所需的數(shù)據(jù)信息。首先,在研究成員通用搜索引擎的選擇策略及搜索引擎結(jié)果處理方法的基礎(chǔ)上構(gòu)建了元搜索引擎,其次分析了如何利用正則表達式抓取農(nóng)業(yè)領(lǐng)域內(nèi)網(wǎng)頁信息內(nèi)容,再結(jié)合領(lǐng)域分析的方法獲取領(lǐng)域特征詞完成農(nóng)業(yè)領(lǐng)域網(wǎng)頁特征庫的構(gòu)建,最終利用此特征庫對元搜索引擎檢索結(jié)果進行結(jié)果處理操作

4、,并反饋最終結(jié)果。三部分結(jié)合完成農(nóng)業(yè)領(lǐng)域內(nèi)的垂直技術(shù)的研究。研究工作如下:
   首先,在了解了通用搜索引擎的分類及其關(guān)鍵技術(shù)基礎(chǔ)之上,重點研究了元搜索引擎的結(jié)構(gòu)原理和實現(xiàn)元搜索引擎過程中用到的關(guān)鍵技術(shù):成員搜索引擎的選擇策略和搜索引擎結(jié)果處理方法。在成員搜索引擎的選擇策略問題上,對比了現(xiàn)有的成員搜索引擎選擇方法,并對它們進行了分析、比較和評價,最終歸納設計了適合本文的成員搜索引擎的選擇策略。此外,從檢索效果來講,成員搜索引擎反

5、饋的查詢結(jié)果信息總是希望能夠更貼近于最終結(jié)果,然而根據(jù)成員搜索引擎各自查詢機制查詢的結(jié)果雜亂無章,結(jié)果處理操作是元搜索引擎構(gòu)建的另一個重點,在對不同成員搜索引擎返回結(jié)果處理中,介紹了元搜索引擎在結(jié)果處理中一些常用的方法,對這些方法進行了比較分析,并提出了合適的搜索引擎結(jié)果處理的方法。
   其次,領(lǐng)域網(wǎng)頁特征庫的構(gòu)建是為了對元搜索引擎初次檢索結(jié)果集進行篩選排序處理的,以此來達到去除非領(lǐng)域相關(guān)網(wǎng)頁和按照規(guī)則重排序的目的,實現(xiàn)查全到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論