

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目前互聯(lián)網(wǎng)已經(jīng)成為公眾生活的必需品,大家的工作生活都需要從互聯(lián)網(wǎng)上查找信息,搜索引擎在互聯(lián)網(wǎng)信息查找的過(guò)程中起了非常重要的作用。
以Google為首的各種綜合搜索引擎在幫助用戶從互聯(lián)網(wǎng)上查找信息,但是搜索的結(jié)果只能是信息所在的網(wǎng)址,這種方式非常適合靜態(tài)網(wǎng)頁(yè),但是現(xiàn)在動(dòng)態(tài)網(wǎng)頁(yè)越來(lái)越多,用戶搜索需要的是非結(jié)構(gòu)化網(wǎng)頁(yè)里的結(jié)構(gòu)化信息,例如不同網(wǎng)站的票務(wù)信息、房產(chǎn)信息、商品信息等等,目前要得到這些信息可以通過(guò)垂直搜索引擎的主題爬蟲(chóng)實(shí)
2、現(xiàn),但是現(xiàn)在的垂直搜索引擎對(duì)這些信息的提取一般分為兩種策略,一種是先用主題爬蟲(chóng)抓取網(wǎng)頁(yè),再對(duì)抓取的網(wǎng)頁(yè)進(jìn)行分析提取;另一種是主題爬蟲(chóng)在抓取網(wǎng)頁(yè)時(shí)就進(jìn)行提取。前一種抓取網(wǎng)頁(yè)比較廣泛,但是分析時(shí)速度較慢,無(wú)關(guān)網(wǎng)頁(yè)較多,效率比較低,現(xiàn)在一般采用的是后一種方式,這種方式精確度高,抓取準(zhǔn)確,頁(yè)面信息提取也較快。
不論采用哪種方式,信息的提取都具有很強(qiáng)的針對(duì)性,但目前主題爬蟲(chóng)廣泛存在配置不靈活,用戶參與度不夠等問(wèn)題,論文通過(guò)研究搜索引
3、擎和規(guī)則引擎技術(shù),提出了利用規(guī)則引擎建立搜索引擎的配置機(jī)制,以實(shí)現(xiàn)能個(gè)性化配置的主題爬蟲(chóng)的目的。
論文中將個(gè)性化主題爬蟲(chóng)的爬行過(guò)程設(shè)計(jì)為由規(guī)則編輯器模塊、規(guī)則引擎模塊和爬蟲(chóng)抓取模塊三個(gè)部分組成。先由規(guī)則編輯器模塊制定爬行所需要的規(guī)則庫(kù),然后在抓取任務(wù)執(zhí)行過(guò)程中將事實(shí)數(shù)據(jù)和規(guī)則庫(kù)都提交給規(guī)則引擎模塊,最后由規(guī)則引擎模塊根據(jù)規(guī)則指導(dǎo)爬蟲(chóng)抓取模塊的運(yùn)行。
為了簡(jiǎn)化規(guī)則庫(kù)的設(shè)定,將爬蟲(chóng)抓取模塊分成了由五個(gè)小任務(wù)完成,
4、分別是預(yù)抓取處理、抓取處理、內(nèi)容抽取處理、寫(xiě)入和索引處理、后置處理,每一個(gè)小任務(wù)都將對(duì)應(yīng)的常用算法轉(zhuǎn)換了規(guī)則引擎處理模式,使得用戶可以通過(guò)設(shè)定規(guī)則庫(kù)文件,靈活調(diào)整爬蟲(chóng)的工作方式,最后將整個(gè)個(gè)性化主題爬蟲(chóng)加上用戶控制,從而使得每個(gè)用戶都可設(shè)定自己的爬蟲(chóng),而不會(huì)影響到其他用戶,還可以共享自己設(shè)置的規(guī)則庫(kù)。
通過(guò)這種方式替換傳統(tǒng)的配置模式,達(dá)到提高配置的靈活性,降低用戶使用難度的目的,最后利用實(shí)例證明這種方式的可行性。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)性化的網(wǎng)頁(yè)搜索研究.pdf
- 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦.pdf
- 基于本體的個(gè)性化搜索引擎研究.pdf
- 基于搜索引擎的個(gè)性化推薦研究.pdf
- 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦算法研究.pdf
- 基于用戶的個(gè)性化搜索引擎研究.pdf
- 基于web使用挖掘的個(gè)性化網(wǎng)站網(wǎng)頁(yè).pdf
- 基于用戶興趣的個(gè)性化搜索引擎研究.pdf
- 基于概念格的個(gè)性化搜索引擎研究.pdf
- 基于本體的個(gè)性化元搜索引擎.pdf
- 基于內(nèi)容個(gè)性化的網(wǎng)頁(yè)信息抽取技術(shù)研究.pdf
- 基于關(guān)聯(lián)規(guī)則挖掘的Web個(gè)性化推薦研究.pdf
- 個(gè)性化推薦引擎系統(tǒng)研究.pdf
- 個(gè)性化搜索引擎算法研究.pdf
- 基于Agent元搜索引擎的個(gè)性化研究.pdf
- 基于本體的個(gè)性化元搜索引擎研究.pdf
- 基于智能代理的個(gè)性化搜索引擎研究.pdf
- 基于LUCENE的群體個(gè)性化搜索引擎研究.pdf
- 個(gè)性化推薦的關(guān)聯(lián)規(guī)則算法研究.pdf
- 基于行業(yè)的個(gè)性化搜索引擎的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論