版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著Internet信息量的迅速增長,Web已經逐漸成為人們獲取信息的主要平臺。各大搜索引擎應運而生,競爭激烈。評價引擎的好壞,不僅要看搜索結果,還要依靠用戶體驗。用戶體驗必然能為引擎帶來流量,所以針對搜索引擎進行用戶滿意度的評測已經越來越重要,部分具有大型搜索引擎的公司已經為此成立了專門的評測團隊甚至部門,利用評測數(shù)據(jù)來引導引擎的走向。
搜索引擎用戶滿意度評測的原理,就是將搜索引擎的結果集信息搜集起來,交給用戶打分,并針對指
2、標進行統(tǒng)計,對比引擎之間的優(yōu)劣。而能否成功地獲取到評測數(shù)據(jù),是能否成功發(fā)起評測任務的關鍵。
本文通過實驗數(shù)據(jù)說明數(shù)據(jù)抽取的準確程度會直接影響評測結果,突出信息抽取部分對整個系統(tǒng)的重要性。對比了一些現(xiàn)有的Web信息抽取技術,并針對本系統(tǒng)的需求進行分析,結合搜索引擎結果集頁面源碼的特點,總結各技術的優(yōu)勢與不足。提出使用正則匹配和Dom解析相結合的方式來抽取和處理評測數(shù)據(jù)。并基于這種設計思想,實現(xiàn)了一個適用性較強,自動化程度較高的W
3、eb信息抽取系統(tǒng),來解決評測系統(tǒng)如何搜集評測數(shù)據(jù)的問題。
系統(tǒng)主要包括頁面下載、頁面過濾、生成抽取規(guī)則、信息抽取、數(shù)據(jù)存儲等部分。本文對這些部分依次做了較為詳細的介紹。其中生成抽取規(guī)則是系統(tǒng)較為重要的實現(xiàn)部分。系統(tǒng)可以利用Dom結構和樣本學習來自動生成抽取規(guī)則,尋找節(jié)點的最大公共路徑,記錄樣本節(jié)點的特征,并經過節(jié)點相似度匹配的算法過濾掉無關節(jié)點信息,為部分產品實現(xiàn)自動化較高的信息抽取。當然,抽取規(guī)則也可人工修正。為了提高精度,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向Web站點的搜索引擎研究與實現(xiàn).pdf
- Web搜索引擎的開發(fā)設計與多格式信息搜索的實現(xiàn).pdf
- 視頻搜索引擎中的精確文本信息抽取系統(tǒng)的設計與實現(xiàn).pdf
- 面向可下載資源的WEB搜索引擎的設計與實現(xiàn).pdf
- Web搜索引擎原理與實現(xiàn).pdf
- 主題搜索引擎的信息抽取和索引的研究.pdf
- 搜索引擎系統(tǒng)的設計與實現(xiàn).pdf
- 面向主題的垂直搜索引擎系統(tǒng)的設計與實現(xiàn).pdf
- 漁業(yè)信息搜索引擎的設計與實現(xiàn).pdf
- 垂直搜索引擎中Web信息抽取技術研究.pdf
- 基于WEB的空間信息搜索引擎的研究與實現(xiàn).pdf
- Web搜索引擎的研究與設計.pdf
- 搜索引擎的設計與實現(xiàn)
- 搜索引擎的設計與實現(xiàn)
- 基于語義的Web搜索引擎的設計與實現(xiàn).pdf
- 面向課程信息的專題搜索引擎的研究與實現(xiàn).pdf
- 面向技術信息領域垂直搜索引擎的設計與實現(xiàn).pdf
- 招聘信息垂直搜索引擎系統(tǒng)設計與實現(xiàn).pdf
- 基于Web圖像搜索引擎的Spider系統(tǒng)設計與實現(xiàn).pdf
- Web搜索引擎檢索子系統(tǒng)的設計與實現(xiàn).pdf
評論
0/150
提交評論