版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、搜索引擎分類搜索引擎分類搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(FullTextSearchEngine)、目錄索引類搜索引擎(SearchIndexDirecty)和元搜索引擎(MetaSearchEngine)。?全文搜索引擎全文搜索引擎全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表性的有Google、FastAllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Bai
2、du)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的
3、數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。?目錄索引目錄索引目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywds)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有OpenDirectyProject(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一
4、類。?元搜索引擎元搜索引擎(METASearchEngine)元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。?除上述三大類引擎外,還有以下幾種
5、非主流形式:除上述三大類引擎外,還有以下幾種非主流形式:集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進(jìn)行搜索,而是由用戶從提供的4個引擎當(dāng)中選擇,因此叫它“集合式”搜索引擎更確切些。門戶搜索引擎:如AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。免費(fèi)鏈接列表(FreeFAllLinks,簡稱F
6、FA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見,我們通常將其統(tǒng)稱為搜索引擎。?搜索引擎基本工作原理搜索引擎基本工作原理了解搜索引擎的工作原理對我們?nèi)粘K阉鲬?yīng)用和網(wǎng)站提交推廣都會有很大幫助。?搜索引擎的第三定律搜索引擎的第三定律搜索引擎走到今天,已經(jīng)是一個結(jié)束過去,開辟未來的時候了。為了說清楚我所講的第三定律,我們先來回顧一
7、下第一和第二定律。第一定律第一定律相關(guān)性定律相關(guān)性定律聽起來象是一篇學(xué)術(shù)論文,的確,就連第一,第二定律的提法以前也沒有過,但是第一,第二定律的內(nèi)容確早已在業(yè)界和學(xué)術(shù)界得到了公認(rèn)。其實(shí)這第一定律是早在互聯(lián)網(wǎng)出現(xiàn)之前就被學(xué)術(shù)界廣泛研究過的,那就是所謂的相關(guān)性定律。這個領(lǐng)域那時叫情報檢索,或信息檢索,也有叫全文檢索的。那時的相關(guān)性都是基于詞頻統(tǒng)計的,也就是說,當(dāng)用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網(wǎng)頁)中出現(xiàn)頻率較高的,位置較重要
8、的,再加上一些對檢索詞本身常用程度的加權(quán),最后排出一個結(jié)果來(檢索結(jié)果頁面)。早期的搜索引擎結(jié)果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡(luò)時代之前學(xué)術(shù)界的研究成果,工業(yè)界的主要精力放在處理大訪問量和大數(shù)據(jù)量上,對相關(guān)性排序沒有突破。詞頻統(tǒng)計其實(shí)根本沒有利用任何跟網(wǎng)絡(luò)有關(guān)的特性,是前網(wǎng)絡(luò)時代的技術(shù)。然而,網(wǎng)絡(luò)時代的主要文獻(xiàn)是以網(wǎng)頁的形式存在的,而幾乎每個人都可以隨心所欲地在網(wǎng)上發(fā)表
9、各種內(nèi)容,詞頻相同的兩個網(wǎng)頁,質(zhì)量相差可以很遠(yuǎn),可是按照搜索引擎的第一定律,對這兩個網(wǎng)頁的排序應(yīng)該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位,許多網(wǎng)頁內(nèi)容的制作者絞盡腦汁,在其頁面上堆砌關(guān)鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了1996年開始有了改變。第二定律第二定律人氣質(zhì)量定律人氣質(zhì)量定律1996年4月,我到賭城拉斯維加斯開一個有關(guān)信息檢索方面的學(xué)術(shù)會議,會議的內(nèi)容就象拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠(yuǎn)離公司的我,
10、卻難得有一個靜下心來認(rèn)真思考問題的機(jī)會。就在聽一個毫不相干的論文演講的時候,我突然把科學(xué)引文索引的機(jī)制跟Web上的超級鏈接聯(lián)系起來了感謝北大,她在我上大三的時候就教授了我科學(xué)引文索引的機(jī)制,美國恐怕沒有一所大學(xué)會在你本科的時候教這玩藝兒??茖W(xué)引文索引的機(jī)制,說白了就是誰的論文被引用次數(shù)多,誰就被認(rèn)為是權(quán)威,論文就是好論文。這個思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多,那個網(wǎng)頁就被認(rèn)為是質(zhì)量高,人氣旺。在加上相應(yīng)的鏈接文字分析,就可以用在搜
11、索結(jié)果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,并不完全依賴于詞頻統(tǒng)計,而是更多地依賴于超鏈分析。我意識到這是一個突破性的東西,回去以后就很快總結(jié)了思路,于96年6月申請了這一方面的美國專利。1999年7月6號,美國專利和商標(biāo)局批準(zhǔn)了專利號為5920859的,以我為唯一發(fā)明人的專利。大約在96年底,斯坦福大學(xué)計算機(jī)系的兩位研究生也想到了同樣的解決方法,他們后來創(chuàng)立了一個叫Google的搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論