基于小世界模型的P2P網(wǎng)絡(luò)文本檢索.pdf_第1頁
已閱讀1頁,還剩100頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、與集中式搜索引擎相比,構(gòu)建在P2P網(wǎng)絡(luò)上的文本檢索系統(tǒng)在可擴(kuò)展性、數(shù)據(jù)更新、維護(hù)成本和安全性等方面具有與生俱來的優(yōu)勢。由于P2P網(wǎng)絡(luò)中的節(jié)點(diǎn)缺乏全局網(wǎng)絡(luò)的拓?fù)渲R,如何定位節(jié)點(diǎn)資源、減少網(wǎng)絡(luò)節(jié)點(diǎn)之間的通信開銷成為P2P網(wǎng)絡(luò)中文本檢索的核心問題。本文對小世界模型的P2P網(wǎng)絡(luò)中文本檢索問題進(jìn)行了研究。主要內(nèi)容如下: ⑴針對向量空間模型中文檔矩陣高維稀疏的問題,提出了一個P2P網(wǎng)絡(luò)節(jié)點(diǎn)文檔向量降維的方法。該方法將文檔中詞頻出現(xiàn)兩次以上

2、的詞條作為文檔的摘要信息,來表示節(jié)點(diǎn)文檔內(nèi)容,然后根據(jù)改進(jìn)的STC算法為選出的詞條建立了一個樹狀的層次結(jié)構(gòu)。在計(jì)算文檔向量相似度時,采用sigmoid函數(shù)為不同層次的詞條賦予不同的權(quán)重。 ⑵針對Gnutella網(wǎng)絡(luò)中轉(zhuǎn)發(fā)消息的泛洪問題,基于小世界模型提出了一種無結(jié)構(gòu)P2P網(wǎng)絡(luò)文本檢索的方法。該方法中,P2P網(wǎng)絡(luò)的每個節(jié)點(diǎn)都維護(hù)一定數(shù)量的短程連接鄰居節(jié)點(diǎn)和長程連接鄰居節(jié)點(diǎn),由此來構(gòu)建具有小世界特性的網(wǎng)絡(luò)。鄰居節(jié)點(diǎn)的更新策略是在節(jié)點(diǎn)

3、的查詢和應(yīng)答交互過程中進(jìn)行的,每次查詢結(jié)束后,都會更新鄰居節(jié)點(diǎn)文檔向量中關(guān)鍵詞的權(quán)重,使得節(jié)點(diǎn)能夠動態(tài)地快速了解網(wǎng)絡(luò)的拓?fù)淝闆r和其他節(jié)點(diǎn)的文檔內(nèi)容。實(shí)驗(yàn)結(jié)果顯示,與Gnutella網(wǎng)絡(luò)相比,小世界P2P網(wǎng)絡(luò)具有更大的聚類系數(shù)、較小的特征路徑長度和更高的文本檢索查全率。 ⑶針對基于DHT技術(shù)的結(jié)構(gòu)化P2P網(wǎng)絡(luò)在不支持復(fù)雜查詢、負(fù)載不平衡和路由效率低等方面的問題,根據(jù)Kleinberg小世界模型設(shè)計(jì)了一個結(jié)構(gòu)化P2P網(wǎng)絡(luò)協(xié)議(SPP

4、SW協(xié)議)。在SPPSW協(xié)議中,內(nèi)容相近的節(jié)點(diǎn)被劃分到相同的節(jié)點(diǎn)類中,在節(jié)點(diǎn)類的內(nèi)部,節(jié)點(diǎn)可以根據(jù)相似程度選擇鄰居,網(wǎng)絡(luò)由一些相互連接節(jié)點(diǎn)類構(gòu)成。節(jié)點(diǎn)類可以動態(tài)地調(diào)整節(jié)點(diǎn)類的大小,能夠自組織地分裂、合并,節(jié)點(diǎn)類之間存在一些長程連接,縮短了查詢路由步數(shù)。 ⑷實(shí)驗(yàn)結(jié)果顯示,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,在SPPSW協(xié)議網(wǎng)絡(luò)中,搜索開銷呈對數(shù)平方曲線增長,維護(hù)開銷呈線性增長;選擇一個合適的節(jié)點(diǎn)類內(nèi)部節(jié)點(diǎn)的數(shù)量,可以使得整體的網(wǎng)絡(luò)維護(hù)開銷和搜索開

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論