版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Internet、數(shù)碼相機(jī)技術(shù)和掃描技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上的圖像信息以爆炸性的速度不斷豐富和擴(kuò)展。然而由于Web數(shù)據(jù)具有多樣性、復(fù)雜性和無(wú)規(guī)則性,如何快速有效地從海量數(shù)據(jù)中獲取所需的圖像信息成為一項(xiàng)非常具有挑戰(zhàn)性的工作。圖像搜索引擎正是為解決這個(gè)問(wèn)題而誕生的。
現(xiàn)有的Web圖像搜索引擎包括基于內(nèi)容的和基于文本的兩類(lèi)。基于內(nèi)容的Web圖像搜索引擎主要根據(jù)圖像內(nèi)容(如顏色、紋理等)為圖像建立索引,而基于文本的Web圖像搜索
2、引擎則主要根據(jù)頁(yè)面間的超鏈接等文本信息來(lái)標(biāo)注圖像。然而,目前這些方案的效果均不夠理想,很難精準(zhǔn)地檢索圖像信息。
因此,我們項(xiàng)目組提出基于譜圖理論的Web圖像搜索引擎技術(shù),該技術(shù)結(jié)合了基于內(nèi)容的圖像搜索引擎和基于文本的圖像搜索引擎的特點(diǎn),是一種更有效的新型Web圖像信息分析方法。
在構(gòu)建圖像搜索引擎時(shí),首先需要將圖像數(shù)據(jù)采用爬蟲(chóng)收集起來(lái)。但是由于網(wǎng)絡(luò)上的信息紛繁復(fù)雜,可能會(huì)下載大量無(wú)用的數(shù)據(jù)。這樣會(huì)浪費(fèi)網(wǎng)絡(luò)帶寬
3、和響信息提取。因此我們對(duì)heritrix爬蟲(chóng)進(jìn)行擴(kuò)展和改進(jìn),針對(duì)不同網(wǎng)站的特點(diǎn)設(shè)計(jì)了普通爬蟲(chóng)和精確爬蟲(chóng)。對(duì)于普通的網(wǎng)站,優(yōu)先考慮信息的全面性,采用了普通爬蟲(chóng)模塊進(jìn)行下載。對(duì)于圖像網(wǎng)站,在犧牲一定全面性的情況下,采用了精確爬蟲(chóng)模塊進(jìn)行下載。這樣就能在一定程度上保證圖像數(shù)據(jù)的數(shù)量和質(zhì)量。在數(shù)據(jù)下載之后,如何剔除噪聲信息提取出對(duì)圖像描述有用的文字信息成為一個(gè)需要解決的問(wèn)題。在論文中對(duì)網(wǎng)頁(yè)的HTML標(biāo)記進(jìn)行分析,實(shí)現(xiàn)了有效的頁(yè)面解析,提取出描述
4、圖像的文本信息。這樣就能提高整個(gè)系統(tǒng)檢索的準(zhǔn)確度和精確度。同時(shí),為保證系統(tǒng)的更新度,拓展了heritrix的更新方案,提出從網(wǎng)頁(yè)結(jié)構(gòu)、網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)圖像三方面來(lái)檢測(cè)分析網(wǎng)頁(yè)是否需要更新。
本文首先介紹了圖像搜索引擎系統(tǒng)的總體設(shè)計(jì),分別介紹了數(shù)據(jù)下載模塊、預(yù)處理模塊、圖像分類(lèi)模塊、圖像檢索模塊。在分析Spider系統(tǒng)的總體架構(gòu)、運(yùn)行流程和重要組件的基礎(chǔ)上,實(shí)現(xiàn)了普通爬蟲(chóng)和精確爬蟲(chóng),分別針對(duì)不同的網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)下載。為滿(mǎn)足系統(tǒng)需
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 一種專(zhuān)題式搜索引擎Spider的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于語(yǔ)義的Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).pdf
- Web搜索引擎原理與實(shí)現(xiàn).pdf
- 基于lucene的web搜索引擎實(shí)現(xiàn)
- 基于Lucene的Web搜索引擎實(shí)現(xiàn).pdf
- 圖像搜索引擎
- 搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的圖像搜索引擎設(shè)計(jì)及數(shù)據(jù)庫(kù)系統(tǒng)的實(shí)現(xiàn).pdf
- 海量的基于web的ftp搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 基于java搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
- Web搜索引擎的研究與設(shè)計(jì).pdf
- 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
- 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
- Web服務(wù)搜索引擎研究與實(shí)現(xiàn).pdf
- 垂直搜索引擎Spider技術(shù)的研究和應(yīng)用.pdf
- Web搜索引擎檢索子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于WEB的學(xué)科資源垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Nutch的搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 圖像搜索引擎.pdf
- 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
評(píng)論
0/150
提交評(píng)論