基于java技術(shù)的搜索引擎的研究與實(shí)現(xiàn)43617_第1頁
已閱讀1頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于JAVA技術(shù)的搜索引擎的研究與實(shí)現(xiàn)目錄目錄目錄目錄............................................................................................................................................................1摘要摘要................................

2、............................................................................................................................3第一章第一章引言引言.....................................................................................

3、...........................................................4第二章第二章搜索引擎的結(jié)構(gòu)搜索引擎的結(jié)構(gòu)..............................................................................................................................52.1系統(tǒng)概述......

4、.....................................................................................................................................52.2搜索引擎的構(gòu)成............................................................................

5、....................................................52.2.1網(wǎng)絡(luò)機(jī)器人................................................................................................................................52.2.2索引與搜索..................

6、..............................................................................................................52.2.3Web服務(wù)器..................................................................................................

7、.............................62.3搜索引擎的主要指標(biāo)及分析..............................................................................................................62.4小節(jié)...........................................................

8、.......................................................................................6第三章第三章網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人....................................................................................................................

9、.................73.1什么是網(wǎng)絡(luò)機(jī)器人.............................................................................................................................73.2網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析....................................................

10、.................................................................73.2.1如何解析HTML.........................................................................................................................73.2.2Spider程序結(jié)構(gòu)....

11、....................................................................................................................83.2.3如何構(gòu)造Spider程序......................................................................................

12、..........................93.2.4如何提高程序性能...................................................................................................................113.2.5網(wǎng)絡(luò)機(jī)器人的代碼分析................................................

13、................................................................123.3小節(jié)................................................................................................................................................14第四章

14、第四章基于基于LUCENE的索引與搜索的索引與搜索.......................................................................................................154.1什么是LUCENE全文檢索..........................................................................

15、....................................154.2LUCENE的原理分析......................................................................................................................154.2.1全文檢索的實(shí)現(xiàn)機(jī)制..................................

16、..............................................................................154.2.2Lucene的索引效率.................................................................................................................154.2.3中文切分

17、詞機(jī)制......................................................................................................................174.3LUCENE與SPIDER的結(jié)合..............................................................................

18、............................184.4小節(jié)................................................................................................................................................21第五章第五章基于基于TOMCAT的WEB服務(wù)器服務(wù)器.............

19、.......................................................................................225.1什么是基于TOMCAT的WEB服務(wù)器............................................................................................225.2用戶接口設(shè)計(jì).......

20、...........................................................................................................................225.3.1客戶端設(shè)計(jì).....................................................................................

21、.........................................225.3.2服務(wù)端設(shè)計(jì)..............................................................................................................................235.3在TOMCAT上部署項(xiàng)目........................

22、.........................................................................................255.4小節(jié)............................................................................................................................

23、....................25第六章第六章搜索引擎策略搜索引擎策略...............................................................................................................................266.1簡介..............................................

24、..................................................................................................26是基于因特網(wǎng)的搜索引擎,他們通過網(wǎng)絡(luò)機(jī)器人程序收集上千萬到幾億個(gè)網(wǎng)頁,并且每一個(gè)詞都被搜索引擎索引,也就是我們說的全文檢索。著名的因特網(wǎng)搜索引擎包括FirstSearch、Google、HotBot等。在中國,搜索引擎通常指基于網(wǎng)站目錄的搜

25、索服務(wù)或是特定網(wǎng)站的搜索服務(wù),本人這里研究的是基于因特網(wǎng)的搜索技術(shù)。第二章第二章搜索引擎的結(jié)構(gòu)搜索引擎的結(jié)構(gòu)2.1系統(tǒng)概述系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請(qǐng)求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。系統(tǒng)結(jié)構(gòu)圖2.2搜索引擎的構(gòu)成搜索引擎的構(gòu)成2.2.1網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人也

26、稱為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個(gè)功能很強(qiáng)的WEB掃描程序。它可以在掃描WEB頁面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。因?yàn)閃EB中廣泛使用超鏈接,所以一個(gè)Spider程序理論上可以訪問整個(gè)WEB頁面。為了保證網(wǎng)絡(luò)機(jī)器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。2.2.2索引與搜索索引與搜索網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁面存放在臨時(shí)數(shù)據(jù)庫中,如果通過SQL直接查詢信息速度將會(huì)難以忍受。為了提高檢索效率,

27、需要建立索引,按照倒排文件的格式存放。如果索引不及時(shí)跟新的話,用戶用搜索引擎也不能檢索到。用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進(jìn)行分級(jí)排列并且返回給用戶。2.2.3Web服務(wù)器服務(wù)器客戶一般通過瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進(jìn)行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。2.3搜索引擎

28、的主要指標(biāo)及分析搜索引擎的主要指標(biāo)及分析搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率的,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來保障。召回率召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比準(zhǔn)確率準(zhǔn)確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比相關(guān)度相關(guān)度:用戶查詢與搜索

29、結(jié)果之間相似度的一種度量精確度精確度:對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁的抗干擾能力2.4小節(jié)小節(jié)以上對(duì)基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用JavaTM技術(shù)和一些OpenSource工具實(shí)現(xiàn)了一個(gè)簡單的搜索引擎——新聞搜索引擎。在接下來的幾章里將會(huì)就本人的設(shè)計(jì)進(jìn)行詳細(xì)的分析。第三章第三章網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人3.1什么是網(wǎng)絡(luò)機(jī)器人什么是網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人又稱為Spider程序,是一種專業(yè)的Bot程序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論