基于Web圖像搜索引擎的Spider系統(tǒng)設(shè)計與實(shí)現(xiàn).pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數(shù)：88 大?。?.35MB 人氣指數(shù)：12 舉報 版權(quán)申訴

基于Web圖像搜索引擎的Spider系統(tǒng)設(shè)計與實(shí)現(xiàn).pdf_第1頁

已閱讀1頁，還剩87頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著Internet、數(shù)碼相機(jī)技術(shù)和掃描技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上的圖像信息以爆炸性的速度不斷豐富和擴(kuò)展。然而由于Web數(shù)據(jù)具有多樣性、復(fù)雜性和無規(guī)則性,如何快速有效地從海量數(shù)據(jù)中獲取所需的圖像信息成為一項(xiàng)非常具有挑戰(zhàn)性的工作。圖像搜索引擎正是為解決這個問題而誕生的。
　　現(xiàn)有的Web圖像搜索引擎包括基于內(nèi)容的和基于文本的兩類。基于內(nèi)容的Web圖像搜索引擎主要根據(jù)圖像內(nèi)容(如顏色、紋理等)為圖像建立索引,而基于文本的Web圖像搜索

2、引擎則主要根據(jù)頁面間的超鏈接等文本信息來標(biāo)注圖像。然而,目前這些方案的效果均不夠理想,很難精準(zhǔn)地檢索圖像信息。
　　因此,我們項(xiàng)目組提出基于譜圖理論的Web圖像搜索引擎技術(shù),該技術(shù)結(jié)合了基于內(nèi)容的圖像搜索引擎和基于文本的圖像搜索引擎的特點(diǎn),是一種更有效的新型Web圖像信息分析方法。
　　在構(gòu)建圖像搜索引擎時,首先需要將圖像數(shù)據(jù)采用爬蟲收集起來。但是由于網(wǎng)絡(luò)上的信息紛繁復(fù)雜,可能會下載大量無用的數(shù)據(jù)。這樣會浪費(fèi)網(wǎng)絡(luò)帶寬

3、和響信息提取。因此我們對heritrix爬蟲進(jìn)行擴(kuò)展和改進(jìn),針對不同網(wǎng)站的特點(diǎn)設(shè)計了普通爬蟲和精確爬蟲。對于普通的網(wǎng)站,優(yōu)先考慮信息的全面性,采用了普通爬蟲模塊進(jìn)行下載。對于圖像網(wǎng)站,在犧牲一定全面性的情況下,采用了精確爬蟲模塊進(jìn)行下載。這樣就能在一定程度上保證圖像數(shù)據(jù)的數(shù)量和質(zhì)量。在數(shù)據(jù)下載之后,如何剔除噪聲信息提取出對圖像描述有用的文字信息成為一個需要解決的問題。在論文中對網(wǎng)頁的HTML標(biāo)記進(jìn)行分析,實(shí)現(xiàn)了有效的頁面解析,提取出描述

4、圖像的文本信息。這樣就能提高整個系統(tǒng)檢索的準(zhǔn)確度和精確度。同時,為保證系統(tǒng)的更新度,拓展了heritrix的更新方案,提出從網(wǎng)頁結(jié)構(gòu)、網(wǎng)頁內(nèi)容和網(wǎng)頁圖像三方面來檢測分析網(wǎng)頁是否需要更新。
　　本文首先介紹了圖像搜索引擎系統(tǒng)的總體設(shè)計,分別介紹了數(shù)據(jù)下載模塊、預(yù)處理模塊、圖像分類模塊、圖像檢索模塊。在分析Spider系統(tǒng)的總體架構(gòu)、運(yùn)行流程和重要組件的基礎(chǔ)上,實(shí)現(xiàn)了普通爬蟲和精確爬蟲,分別針對不同的網(wǎng)頁進(jìn)行數(shù)據(jù)下載。為滿足系統(tǒng)需

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于Web圖像搜索引擎的Spider系統(tǒng)設(shè)計與實(shí)現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

基于Web圖像搜索引擎的Spider系統(tǒng)設(shè)計與實(shí)現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載