web_9-第九章 搜索引擎的應(yīng)用與評(píng)價(jià)_第1頁(yè)
已閱讀1頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,第9章 搜索引擎的應(yīng)用與評(píng)價(jià),9.1 搜索引擎的基本概念,9.1.1 搜索引擎定義 搜索引擎(Search Engine)是一種用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。9.1.2 搜索引擎的歷史   1994年春天,Michael Mauldin將John Leavitt的spider程序接入到其索引程序中

2、,創(chuàng)建了最早的真正意義上的搜索引擎Lycos。接著,Yahoo也在當(dāng)年成立。今天搜索引擎的核心是網(wǎng)絡(luò)導(dǎo)航服務(wù),有時(shí)搜索引擎成了門戶網(wǎng)站的代名詞,它們不僅提供網(wǎng)站搜索服務(wù),還提供新聞、在線圖書館、詞典,以及其它網(wǎng)絡(luò)資源,涉及面越來(lái)越廣。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎的分類搜索引擎按其工作方式分為兩類:網(wǎng)站分類目錄搜索引擎和基于關(guān)鍵字檢索的搜索引擎。⑴網(wǎng)站分類目錄搜索引擎網(wǎng)站分類目錄搜索引擎通過(guò)人

3、工建立一個(gè)結(jié)構(gòu)化的分類目錄體系,將搜索到的網(wǎng)站劃分到各個(gè)類別及子類下,并將每個(gè)網(wǎng)址抽象為一段摘要性信息,作為對(duì)該網(wǎng)站的概括介紹。它的優(yōu)點(diǎn)是層次清楚,方便用戶簡(jiǎn)單準(zhǔn)確地查找某一方面的信息,設(shè)計(jì)上也更簡(jiǎn)單、容易實(shí)現(xiàn);缺點(diǎn)是靠人工操作工作量太大,因而搜索的站點(diǎn)少,更新慢;如果用戶對(duì)查詢問(wèn)題的類目劃分與該分類體系不一致,則有可能找不到相應(yīng)的類目,搜索只在網(wǎng)站摘要而不是全文中進(jìn)行,不夠全面。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎

4、的分類⑵基于關(guān)鍵字檢索的搜索引擎基于關(guān)鍵字檢索的搜索引擎,可以根據(jù)用戶用邏輯組合方式輸入的各種關(guān)鍵字(Keyword),尋找用戶所需資源的地址,然后根據(jù)一定的規(guī)則反饋給用戶包含此關(guān)鍵字詞信息的所有網(wǎng)頁(yè)的內(nèi)容摘要和指向這些網(wǎng)頁(yè)的鏈接。隨著互聯(lián)網(wǎng)信息的快速增長(zhǎng),搜索引擎利用其內(nèi)部的Spider(蜘蛛)或者Robots(機(jī)器人)程序,自動(dòng)搜索一定范圍內(nèi)所有網(wǎng)站每個(gè)網(wǎng)頁(yè)的頭部信息,并把每頁(yè)用于描述網(wǎng)頁(yè)性質(zhì)所有詞匯作為關(guān)鍵字與網(wǎng)

5、頁(yè)的url地址一同放入數(shù)據(jù)庫(kù)供用戶查詢?;陉P(guān)鍵字檢索的搜索引擎很多,下面列舉一些具有代表性的網(wǎng)站及其搜索引擎。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.1 META標(biāo)記⑴META標(biāo)記的產(chǎn)生最初網(wǎng)頁(yè)的設(shè)計(jì)很復(fù)雜,需要幾個(gè)人一起來(lái)做一頁(yè),為了讓大家都能了解這一頁(yè)的主題中心,人們開始使用META標(biāo)簽,作為自己對(duì)頁(yè)面的注釋說(shuō)明,同時(shí)這些說(shuō)明瀏覽者看不到。接著出現(xiàn)了搜索引擎,它們首先遇到的一個(gè)障礙就是如何“自動(dòng)”判定一個(gè)

6、頁(yè)面的內(nèi)容。人們想到了META標(biāo)簽,檢索機(jī)器人(Robots)只須檢索頁(yè)面的META值而無(wú)須整個(gè)頁(yè)面就能了解該頁(yè)面的內(nèi)容了。人們知道了引擎的這種運(yùn)作方式,于是在頁(yè)面中加入很多META標(biāo)簽以提高排名,很快搜索引擎對(duì)檢索方法做了改進(jìn),對(duì)META的依賴越來(lái)越少,它們?cè)黾恿俗约旱乃惴ǎ壕C合考慮META標(biāo)簽、標(biāo)題(TITLE)、頁(yè)面最初幾段的內(nèi)容、域名的鏈接廣泛性等。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.1 META標(biāo)記⑵M

7、eta標(biāo)記的用法Meta 標(biāo)記是放在HTML文件的開頭部分,它的功能之一便是向搜索引擎介紹網(wǎng)頁(yè),其它功能請(qǐng)參看HTML語(yǔ)法。在編寫Meta標(biāo)記時(shí)應(yīng)注意以下一些事項(xiàng):①搜索引擎只會(huì)搜索Title及Keywords中的文字,所以應(yīng)該保持每頁(yè)具適當(dāng)而不同的Title,Description和Keywords。②關(guān)鍵詞以逗號(hào)隔開,最好不超過(guò)255個(gè)字符,重要的要放在前端。③Keywords中的關(guān)鍵詞一般不能重復(fù)多于

8、5次,否則搜索引擎會(huì)撤除登錄。④關(guān)鍵詞可適當(dāng)使用一些2至3字的詞組。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.2 工作原理⑴搜索引擎的組成搜索引擎基本由三部分組成,第一部分是蜘蛛軟件(Spider),即自動(dòng)的收集程序,它的作用是負(fù)責(zé)收集網(wǎng)頁(yè)的內(nèi)容;第二部分是索引器(Indexer),其作用是將收集回來(lái)的內(nèi)容進(jìn)行分析,然后做一個(gè)索引;第三部分是搜索器(Searcher),即響應(yīng)用戶的檢索請(qǐng)求。當(dāng)用戶輸入關(guān)鍵字后,搜

9、索器用這個(gè)關(guān)鍵字與建立的索引器匹配,匹配后做相關(guān)性排序,再將排序結(jié)果送給用戶。 ⑵搜索引擎的工作過(guò)程搜索引擎通過(guò)某種界面(例如動(dòng)態(tài)網(wǎng)頁(yè))跟用戶交互,接受用戶查詢特定信息的請(qǐng)求,然后對(duì)用戶查詢請(qǐng)求進(jìn)行分析,比如將查詢請(qǐng)求分解成若干關(guān)鍵字,在分析用戶請(qǐng)求之后,在索引數(shù)據(jù)庫(kù)中不斷進(jìn)行匹配,挑出符合條件的信息,同時(shí)按照匹配程度的高低對(duì)結(jié)果進(jìn)行排序,最后將排序后的結(jié)果返回給用戶。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),

10、9.2.3 信息檢索模型 信息檢索系統(tǒng)的核心是搜索引擎,它需要從紛繁復(fù)雜的大量信息中,篩選出符合用戶需求的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、向量空間模型以及概率模型等。⑴布爾型信息檢索模型:布爾型信息檢索模型,是最早也是最簡(jiǎn)單的信息檢索模型。在布爾檢索模型中,用戶輸入的關(guān)鍵字被轉(zhuǎn)化成布爾表達(dá)式,使用邏輯運(yùn)算符將提問(wèn)詞連接起來(lái)。其文檔組織形式分為兩種:順排文檔和倒排文檔。 ⑵向量空

11、間模型:向量空間模型用檢索項(xiàng)的多維向量空間來(lái)表示用戶的提問(wèn)和文本集信息,其中每一維為一個(gè)特征。 ⑶概率模型:基于貝葉斯概率公式的概率模型不同于布爾和向量空間模型,它利用相關(guān)反饋的歸納學(xué)習(xí)方法,獲取匹配函數(shù)。在概率模型中,檢索是根據(jù)概率排序規(guī)則進(jìn)行的。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.4 搜索引擎的評(píng)價(jià)標(biāo)準(zhǔn) ⑴搜索范圍⑵檢索速度 ⑶查全率與查準(zhǔn)率 ⑷功能水平及易用性,9.3 搜

12、索引擎的使用,9.3.1 在搜索引擎注冊(cè) 網(wǎng)站登錄到搜索引擎中的資料一般包括:網(wǎng)站名、地址(URL)、描述、關(guān)鍵字、管理員名、郵件地址。對(duì)宣傳推廣網(wǎng)站起決定作用的是前四項(xiàng)。但是它們?cè)跈z索過(guò)程中的優(yōu)先級(jí)別也是不同的。例如國(guó)內(nèi)的某個(gè)搜索引擎,檢索的順序依次為:網(wǎng)站名、關(guān)鍵字、描述。所以登錄時(shí)對(duì)這3項(xiàng)的內(nèi)容應(yīng)該格外重視。 搜索引擎使用關(guān)鍵字的相關(guān)程度來(lái)決定網(wǎng)頁(yè)的先后順序。每個(gè)搜索引擎都有它自己的排列搜索結(jié)果的公式,而

13、且它們被作為機(jī)密保存起來(lái)。但基本規(guī)則是,一個(gè)網(wǎng)頁(yè)出現(xiàn)某個(gè)關(guān)鍵字的次數(shù)越多,那么,該網(wǎng)頁(yè)與關(guān)鍵字的相關(guān)程度就高,該網(wǎng)頁(yè)在搜索結(jié)果中的排列位置就越靠前。網(wǎng)頁(yè)標(biāo)題、章節(jié)標(biāo)題中的關(guān)鍵字,相關(guān)程度更高。,9.3 搜索引擎的使用,9.3.1 在搜索引擎注冊(cè)一個(gè)較好的辦法是:找出人們搜索某類網(wǎng)站時(shí)可能使用的所有詞匯(關(guān)鍵字),并將它們盡可能地串起來(lái),給網(wǎng)站寫個(gè)簡(jiǎn)短的描述。 例如,如果要注冊(cè)東北大學(xué)秦皇島分校,并且已經(jīng)列出了

14、下面的關(guān)鍵字:   教育部 東北大學(xué)   高?! ?全國(guó)招生 可以這樣寫描述: “東北大學(xué)秦皇島分校于1987年經(jīng)國(guó)家教委批準(zhǔn)成立,隸屬教育部,是在東北大學(xué)統(tǒng)一規(guī)劃與管理下的高校,面向全國(guó)招生。開設(shè)的各專業(yè)的培養(yǎng)目標(biāo)、主要課程設(shè)置以及畢業(yè)生適應(yīng)范圍均和東北大學(xué)總校相同”,9.3 搜索引擎的使用,9.3.2 使用搜索引擎查找信息 ⑴運(yùn)用邏輯運(yùn)算符

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論