基于社會網(wǎng)絡(luò)分析方法的web資源挖掘研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、當今的時代是網(wǎng)絡(luò)信息的時代,網(wǎng)絡(luò)上的網(wǎng)頁數(shù)量非常的龐大,并且正在以飛快的速度增長。搜索引擎的出現(xiàn)可以幫助我們從網(wǎng)絡(luò)上較為準確的獲取含有相關(guān)的信息的網(wǎng)頁,但是獲得信息是比較寬泛的,有很多不是你想要的信息,也無法確認這些信息的準確性。這時候,最好的方法是從權(quán)威的網(wǎng)站上找相應(yīng)的信息。如果能在用戶使用搜索引擎查詢信息時,給出相應(yīng)信息的權(quán)威網(wǎng)頁,則可以提高用戶搜索的效率,改善搜索引擎的搜索質(zhì)量。 本文研究了幾種社會網(wǎng)絡(luò)分析方法在Web資源

2、挖掘上的應(yīng)用。通過用戶紿定的關(guān)鍵詞,從指定的搜索引擎獲取相應(yīng)的搜索結(jié)果,并以這些搜索結(jié)果的URL為初始的URL集合,通過自己開發(fā)的URL網(wǎng)絡(luò)蜘蛛向外做適當擴展,得到一個結(jié)點間主題相似度較高的權(quán)威圖。對獲得權(quán)威圖進行Random Walks分析,點度中心性分析,凝聚子群分析,從而挖掘出其中的權(quán)威頁面和權(quán)威社區(qū)。 (1)Random Walks應(yīng)用于分析相鄰網(wǎng)頁結(jié)點之間的親密度,即相互到達的概率的乘積。親密度高,網(wǎng)頁與網(wǎng)頁的聯(lián)系就比

3、較緊密,而且可以通過比較相互到達概率的大小來判斷網(wǎng)頁結(jié)點之間是否存在依附關(guān)系。 (2)點度中心性分析應(yīng)用于分析單個結(jié)點的權(quán)威值的大小,依據(jù)是網(wǎng)頁被引用的次數(shù)。 (3)凝聚子群分析是挖掘出相互之間聯(lián)系比較緊密的小團體,主要指標是邊密度,如果幾個結(jié)點之間的邊的密度比較高,則它們之間的聯(lián)系就比較緊密。 實驗表明,結(jié)合三種分析算法,點度中心性分析算法可以較好地挖掘出時下相關(guān)主題的權(quán)威網(wǎng)頁站點,Random Walks和凝

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論