版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和計(jì)算機(jī)技術(shù)的廣泛應(yīng)用,人類已經(jīng)步入了信息爆炸的時(shí)代。在互聯(lián)網(wǎng)上涌現(xiàn)的大量信息以及信息結(jié)構(gòu)的多樣化,使得人們很難在沒(méi)有其它工具幫助的情況下快速搜尋到自己想要的信息。中國(guó)互聯(lián)網(wǎng)信息中心CNNIC于2012年公布的互聯(lián)網(wǎng)用戶白皮書中明確提出,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)繼續(xù)保持著爆炸式的增長(zhǎng)模式,每年的增長(zhǎng)率已經(jīng)超過(guò)10倍。用戶在互聯(lián)網(wǎng)上獲取信息的渠道雖然呈現(xiàn)多元化發(fā)展的趨勢(shì),但門戶網(wǎng)站、搜索引擎、博客、微博
2、、論壇、社交網(wǎng)站等仍是用戶獲取信息的主要渠道。
元搜索引擎是信息檢索中Web檢索技術(shù)不斷發(fā)展的產(chǎn)物,由于它能夠集合多個(gè)成員搜索引擎的檢索結(jié)果,并通過(guò)相應(yīng)的算法優(yōu)化檢索結(jié)果的排序,所以它返回的結(jié)果能大大提高檢索結(jié)果的查全率和查準(zhǔn)率,因此受到了互聯(lián)網(wǎng)用戶的廣泛歡迎。但是,隨著成員搜索引擎數(shù)量上升,返回結(jié)果較多時(shí),檢索的效率以及文檔最后的排序問(wèn)題成為了現(xiàn)在元搜索引擎發(fā)展的瓶頸。
分布式系統(tǒng)的發(fā)展,旨在聯(lián)合網(wǎng)絡(luò)上的單
3、個(gè)主機(jī),將一個(gè)復(fù)雜的大任務(wù)分解為多個(gè)規(guī)模小、復(fù)雜度低的子任務(wù)。通過(guò)利用網(wǎng)絡(luò)上大量的廉價(jià)機(jī)處理規(guī)模較小、復(fù)雜度低的子任務(wù),可以將串行工作模式改為并行工作的模式,這樣的改進(jìn)可以大大提高用戶檢索的效率。
本文首先闡述了近幾年國(guó)內(nèi)外元搜索引擎系統(tǒng)的發(fā)展現(xiàn)狀,在此基礎(chǔ)上引出了論文的主要研究?jī)?nèi)容。針對(duì)元搜索引擎系統(tǒng)在檢索結(jié)果排序融合方面的不足,本文對(duì)已有的基于位置信息排序算法進(jìn)行了改進(jìn)。在將文檔的位置信息轉(zhuǎn)換為文檔得分時(shí),增加了對(duì)成員
4、搜索引擎?zhèn)€數(shù)因素的考慮,同時(shí),對(duì)文檔的URL通過(guò)構(gòu)造域名緩存表來(lái)計(jì)算文檔URL的分值;在成員搜索引擎權(quán)值方面,采用多元線性回歸中參數(shù)的最小二乘估計(jì)法計(jì)算出各成員系統(tǒng)的權(quán)值;最后根據(jù)線性組合算法模型計(jì)算出文檔總評(píng)分并作為排序依據(jù)。
為滿足用戶對(duì)檢索實(shí)時(shí)性的要求,本文將分布式系統(tǒng)中的主從模式結(jié)構(gòu)引入到元搜索引擎系統(tǒng)設(shè)計(jì)中。具體地,采用基于HTTP/1.1的通信協(xié)議作為各個(gè)工作模塊的傳輸協(xié)議,以各下載節(jié)點(diǎn)的CPU負(fù)載率作為分發(fā)模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Agent的分布式元搜索引擎架構(gòu)研究與實(shí)現(xiàn).pdf
- 分布式搜索引擎設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于YARN的分布式搜索引擎設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于MPI的分布式搜索引擎設(shè)計(jì)與實(shí)現(xiàn).pdf
- 分布式企業(yè)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn).pdf
- 基于可擴(kuò)展分布式架構(gòu)的高校搜索引擎研究與實(shí)現(xiàn).pdf
- 基于分布式的智能搜索引擎.pdf
- 基于MapReduce的分布式搜索引擎研究與實(shí)現(xiàn).pdf
- 一個(gè)分布式搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 分布式搜索引擎中緩存系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于分布式的搜索引擎框架研究和實(shí)現(xiàn).pdf
- 基于MapReduce的分布式搜索引擎的研究與實(shí)現(xiàn).pdf
- 基于ElasticSearch的分布式物流垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Nutch的分布式搜索引擎的設(shè)計(jì)與研究.pdf
- 基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Lucene的分布式醫(yī)療搜索引擎的研究與實(shí)現(xiàn).pdf
- 基于Hadoop的Nutch分布式搜索引擎研究與實(shí)現(xiàn).pdf
- 基于Hadoop的分布式搜索引擎的研究及實(shí)現(xiàn).pdf
- 分布式實(shí)時(shí)垂直搜索引擎研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論