web_9-第九章搜索引擎的應(yīng)用與評(píng)價(jià)

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-09-27 格式：ppt 頁數(shù)：22 大小：1.77MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

web_9-第九章搜索引擎的應(yīng)用與評(píng)價(jià)_第1頁

已閱讀1頁，還剩21頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、,第9章搜索引擎的應(yīng)用與評(píng)價(jià),9.1 搜索引擎的基本概念,9.1.1 搜索引擎定義搜索引擎（Search Engine）是一種用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具，它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的。9.1.2 搜索引擎的歷史　　 1994年春天，Michael Mauldin將John Leavitt的spider程序接入到其索引程序中

2、，創(chuàng)建了最早的真正意義上的搜索引擎Lycos。接著，Yahoo也在當(dāng)年成立。今天搜索引擎的核心是網(wǎng)絡(luò)導(dǎo)航服務(wù)，有時(shí)搜索引擎成了門戶網(wǎng)站的代名詞，它們不僅提供網(wǎng)站搜索服務(wù)，還提供新聞、在線圖書館、詞典，以及其它網(wǎng)絡(luò)資源，涉及面越來越廣。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎的分類搜索引擎按其工作方式分為兩類：網(wǎng)站分類目錄搜索引擎和基于關(guān)鍵字檢索的搜索引擎。⑴網(wǎng)站分類目錄搜索引擎網(wǎng)站分類目錄搜索引擎通過人

3、工建立一個(gè)結(jié)構(gòu)化的分類目錄體系，將搜索到的網(wǎng)站劃分到各個(gè)類別及子類下，并將每個(gè)網(wǎng)址抽象為一段摘要性信息，作為對(duì)該網(wǎng)站的概括介紹。它的優(yōu)點(diǎn)是層次清楚，方便用戶簡單準(zhǔn)確地查找某一方面的信息，設(shè)計(jì)上也更簡單、容易實(shí)現(xiàn)；缺點(diǎn)是靠人工操作工作量太大，因而搜索的站點(diǎn)少，更新慢；如果用戶對(duì)查詢問題的類目劃分與該分類體系不一致，則有可能找不到相應(yīng)的類目，搜索只在網(wǎng)站摘要而不是全文中進(jìn)行，不夠全面。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎

4、的分類⑵基于關(guān)鍵字檢索的搜索引擎基于關(guān)鍵字檢索的搜索引擎，可以根據(jù)用戶用邏輯組合方式輸入的各種關(guān)鍵字（Keyword），尋找用戶所需資源的地址，然后根據(jù)一定的規(guī)則反饋給用戶包含此關(guān)鍵字詞信息的所有網(wǎng)頁的內(nèi)容摘要和指向這些網(wǎng)頁的鏈接。隨著互聯(lián)網(wǎng)信息的快速增長，搜索引擎利用其內(nèi)部的Spider（蜘蛛）或者Robots（機(jī)器人）程序，自動(dòng)搜索一定范圍內(nèi)所有網(wǎng)站每個(gè)網(wǎng)頁的頭部信息，并把每頁用于描述網(wǎng)頁性質(zhì)所有詞匯作為關(guān)鍵字與網(wǎng)

5、頁的url地址一同放入數(shù)據(jù)庫供用戶查詢?；陉P(guān)鍵字檢索的搜索引擎很多，下面列舉一些具有代表性的網(wǎng)站及其搜索引擎。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.1 META標(biāo)記⑴META標(biāo)記的產(chǎn)生最初網(wǎng)頁的設(shè)計(jì)很復(fù)雜，需要幾個(gè)人一起來做一頁，為了讓大家都能了解這一頁的主題中心，人們開始使用META標(biāo)簽，作為自己對(duì)頁面的注釋說明，同時(shí)這些說明瀏覽者看不到。接著出現(xiàn)了搜索引擎，它們首先遇到的一個(gè)障礙就是如何“自動(dòng)”判定一個(gè)

6、頁面的內(nèi)容。人們想到了META標(biāo)簽，檢索機(jī)器人（Robots）只須檢索頁面的META值而無須整個(gè)頁面就能了解該頁面的內(nèi)容了。人們知道了引擎的這種運(yùn)作方式，于是在頁面中加入很多META標(biāo)簽以提高排名，很快搜索引擎對(duì)檢索方法做了改進(jìn)，對(duì)META的依賴越來越少，它們?cè)黾恿俗约旱乃惴ǎ壕C合考慮META標(biāo)簽、標(biāo)題（TITLE）、頁面最初幾段的內(nèi)容、域名的鏈接廣泛性等。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.1 META標(biāo)記⑵M

7、eta標(biāo)記的用法Meta 標(biāo)記是放在HTML文件的開頭部分，它的功能之一便是向搜索引擎介紹網(wǎng)頁，其它功能請(qǐng)參看HTML語法。在編寫Meta標(biāo)記時(shí)應(yīng)注意以下一些事項(xiàng)：①搜索引擎只會(huì)搜索Title及Keywords中的文字，所以應(yīng)該保持每頁具適當(dāng)而不同的Title，Description和Keywords。②關(guān)鍵詞以逗號(hào)隔開，最好不超過255個(gè)字符，重要的要放在前端。③Keywords中的關(guān)鍵詞一般不能重復(fù)多于

8、5次，否則搜索引擎會(huì)撤除登錄。④關(guān)鍵詞可適當(dāng)使用一些2至3字的詞組。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.2 工作原理⑴搜索引擎的組成搜索引擎基本由三部分組成，第一部分是蜘蛛軟件（Spider），即自動(dòng)的收集程序，它的作用是負(fù)責(zé)收集網(wǎng)頁的內(nèi)容；第二部分是索引器（Indexer），其作用是將收集回來的內(nèi)容進(jìn)行分析，然后做一個(gè)索引；第三部分是搜索器（Searcher），即響應(yīng)用戶的檢索請(qǐng)求。當(dāng)用戶輸入關(guān)鍵字后，搜

9、索器用這個(gè)關(guān)鍵字與建立的索引器匹配，匹配后做相關(guān)性排序，再將排序結(jié)果送給用戶。 ⑵搜索引擎的工作過程搜索引擎通過某種界面（例如動(dòng)態(tài)網(wǎng)頁）跟用戶交互，接受用戶查詢特定信息的請(qǐng)求，然后對(duì)用戶查詢請(qǐng)求進(jìn)行分析，比如將查詢請(qǐng)求分解成若干關(guān)鍵字，在分析用戶請(qǐng)求之后，在索引數(shù)據(jù)庫中不斷進(jìn)行匹配，挑出符合條件的信息，同時(shí)按照匹配程度的高低對(duì)結(jié)果進(jìn)行排序，最后將排序后的結(jié)果返回給用戶。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),

10、9.2.3 信息檢索模型信息檢索系統(tǒng)的核心是搜索引擎，它需要從紛繁復(fù)雜的大量信息中，篩選出符合用戶需求的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同，可將信息檢索分為：布爾邏輯模型、向量空間模型以及概率模型等。⑴布爾型信息檢索模型：布爾型信息檢索模型，是最早也是最簡單的信息檢索模型。在布爾檢索模型中，用戶輸入的關(guān)鍵字被轉(zhuǎn)化成布爾表達(dá)式，使用邏輯運(yùn)算符將提問詞連接起來。其文檔組織形式分為兩種：順排文檔和倒排文檔。 ⑵向量空

11、間模型：向量空間模型用檢索項(xiàng)的多維向量空間來表示用戶的提問和文本集信息，其中每一維為一個(gè)特征。 ⑶概率模型：基于貝葉斯概率公式的概率模型不同于布爾和向量空間模型，它利用相關(guān)反饋的歸納學(xué)習(xí)方法，獲取匹配函數(shù)。在概率模型中，檢索是根據(jù)概率排序規(guī)則進(jìn)行的。,9.2 搜索引擎的工作原理與評(píng)價(jià)標(biāo)準(zhǔn),9.2.4 搜索引擎的評(píng)價(jià)標(biāo)準(zhǔn) ⑴搜索范圍⑵檢索速度 ⑶查全率與查準(zhǔn)率 ⑷功能水平及易用性,9.3 搜

12、索引擎的使用,9.3.1 在搜索引擎注冊(cè) 網(wǎng)站登錄到搜索引擎中的資料一般包括：網(wǎng)站名、地址（URL）、描述、關(guān)鍵字、管理員名、郵件地址。對(duì)宣傳推廣網(wǎng)站起決定作用的是前四項(xiàng)。但是它們?cè)跈z索過程中的優(yōu)先級(jí)別也是不同的。例如國內(nèi)的某個(gè)搜索引擎，檢索的順序依次為：網(wǎng)站名、關(guān)鍵字、描述。所以登錄時(shí)對(duì)這3項(xiàng)的內(nèi)容應(yīng)該格外重視。搜索引擎使用關(guān)鍵字的相關(guān)程度來決定網(wǎng)頁的先后順序。每個(gè)搜索引擎都有它自己的排列搜索結(jié)果的公式，而

13、且它們被作為機(jī)密保存起來。但基本規(guī)則是，一個(gè)網(wǎng)頁出現(xiàn)某個(gè)關(guān)鍵字的次數(shù)越多，那么，該網(wǎng)頁與關(guān)鍵字的相關(guān)程度就高，該網(wǎng)頁在搜索結(jié)果中的排列位置就越靠前。網(wǎng)頁標(biāo)題、章節(jié)標(biāo)題中的關(guān)鍵字，相關(guān)程度更高。,9.3 搜索引擎的使用,9.3.1 在搜索引擎注冊(cè)一個(gè)較好的辦法是：找出人們搜索某類網(wǎng)站時(shí)可能使用的所有詞匯（關(guān)鍵字），并將它們盡可能地串起來，給網(wǎng)站寫個(gè)簡短的描述。例如，如果要注冊(cè)東北大學(xué)秦皇島分校，并且已經(jīng)列出了

14、下面的關(guān)鍵字：　　教育部東北大學(xué)　　高?！　?全國招生可以這樣寫描述： “東北大學(xué)秦皇島分校于1987年經(jīng)國家教委批準(zhǔn)成立，隸屬教育部，是在東北大學(xué)統(tǒng)一規(guī)劃與管理下的高校，面向全國招生。開設(shè)的各專業(yè)的培養(yǎng)目標(biāo)、主要課程設(shè)置以及畢業(yè)生適應(yīng)范圍均和東北大學(xué)總校相同”,9.3 搜索引擎的使用,9.3.2 使用搜索引擎查找信息 ⑴運(yùn)用邏輯運(yùn)算符

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論

 聯(lián)系客服

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知眾賞文庫，我們立即給予刪除！

備案號(hào): 經(jīng)營許可證編號(hào):浙ICP備20018660號(hào)

/ 22

  0
 分享

復(fù)制分享文檔地址

http://facezit.com/shtml/view-6290818.html

復(fù)制

下載本文檔

web_9-第九章 搜索引擎的應(yīng)用與評(píng)價(jià)

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載

web_9-第九章搜索引擎的應(yīng)用與評(píng)價(jià)