版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、近年來,互聯(lián)網(wǎng)技術(shù)得到了前所未有的巨大發(fā)展。它給我們帶來了一種全新的生活方式,對(duì)我們的生活帶來了極大的方便?;ヂ?lián)網(wǎng)成功的關(guān)鍵在于其龐大的信息容量以及它的內(nèi)容不需要集中進(jìn)行控制。這在為用戶獲取信息提供極大的便利的同時(shí)也使得用戶對(duì)信息的查找猶如大海撈針。新的信息獲取技術(shù).搜索引擎技術(shù)應(yīng)運(yùn)而生,并得到了飛速的發(fā)展。Web技術(shù)已經(jīng)發(fā)展到現(xiàn)在的2.0,目前的互聯(lián)網(wǎng)中的網(wǎng)頁已經(jīng)不再是其誕生時(shí)以文本信息為主的模樣,網(wǎng)頁中大量的多媒體信息(圖片,視頻剪
2、輯,音樂)使得我們的互聯(lián)網(wǎng)內(nèi)容變得豐富多彩。這同時(shí)也促使了我們對(duì)搜索內(nèi)容提出了更高的要求,比如我們想搜索某些圖片。加上基于文本的搜索技術(shù)的成熟,所以本文就以基于文本的Web圖片搜索引擎為研究對(duì)象,在對(duì)其相關(guān)技術(shù)進(jìn)行了詳細(xì)的分析的基礎(chǔ)上,提出了一個(gè)較完整的系統(tǒng)設(shè)計(jì)方案,并且實(shí)現(xiàn)了一個(gè)初步的基于文本的Web圖片搜索引擎系統(tǒng)。 本文首先介紹了圖片搜索的背景,并對(duì)當(dāng)前一些主流的圖片搜索引擎進(jìn)行了簡要的分析。之后簡介了搜索引擎相關(guān)的技術(shù),
3、包括其典型架構(gòu)、網(wǎng)頁抓取、信息提取、索引、結(jié)果相關(guān)性排序等,作為本文的最基本的理論基礎(chǔ)。本文所使用的網(wǎng)頁庫的spider——WIRE,在第三章進(jìn)行了相關(guān)的介紹。 本文在第四章通過細(xì)致地分析HFML文件的標(biāo)記、標(biāo)記、圖片uRL、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、關(guān)聯(lián)的和結(jié)構(gòu)、標(biāo)記、
評(píng)論
0/150
提交評(píng)論