大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究.pdf_第1頁
已閱讀1頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著web2.0時(shí)代的到來,越來越多的數(shù)據(jù)呈現(xiàn)在互聯(lián)網(wǎng)上,更多的體現(xiàn)用戶在網(wǎng)絡(luò)上的互相交互。人們既生產(chǎn)大量網(wǎng)絡(luò)數(shù)據(jù)、又同時(shí)對(duì)其進(jìn)行消費(fèi)。人們的生產(chǎn)、生活、學(xué)習(xí)、娛樂也越來越離不開互聯(lián)網(wǎng)。社交網(wǎng)絡(luò)把現(xiàn)實(shí)中人與人之間的關(guān)系建立在互聯(lián)網(wǎng)上,加強(qiáng)人們之間的交流和互動(dòng),促進(jìn)信息更快的在世界范圍內(nèi)流動(dòng)。隨著Facebook上市,社交網(wǎng)絡(luò)也越來越多的受到人們的關(guān)注。Facebook是一種強(qiáng)關(guān)系的社交網(wǎng)絡(luò),用戶可以利用其進(jìn)行朋友之間的關(guān)系的促進(jìn)改善和維

2、護(hù);微博Twitter是一種弱關(guān)系的社交網(wǎng)絡(luò),在其上容易形成意見領(lǐng)袖和信息快速傳播,有利于社交網(wǎng)絡(luò)的廣告推廣和營(yíng)銷;Linkedin是專注于商務(wù)人士拓展業(yè)務(wù),求職招聘等進(jìn)行商務(wù)交流的專業(yè)社交平臺(tái)。國內(nèi)也有很多社交網(wǎng)絡(luò)如騰訊微博、嘀咕、9911、隨心微博、新浪微博、搜狐微博、Follow5、網(wǎng)易微博、品品米、MySpace聚友網(wǎng)、百度i貼、同學(xué)網(wǎng)、飯否等,其中比較知名的新浪微博比較類似于Twitter。
  截至2012年12月份,

3、國內(nèi)知名社交網(wǎng)絡(luò)新浪微博用戶規(guī)模達(dá)到5億;時(shí)至2012年7月國外著名社交網(wǎng)絡(luò)Twitter用戶數(shù)量超過5億;另外一個(gè)世界知名社交網(wǎng)站FaceBook用戶數(shù)量達(dá)到10億以上。據(jù)國外知名數(shù)據(jù)公司PingDom的數(shù)據(jù)顯示,全球已有幾十億社交網(wǎng)絡(luò)用戶,同時(shí)社交網(wǎng)絡(luò)鏈接和網(wǎng)頁插件已經(jīng)占據(jù)全世界所有網(wǎng)站的四分之一。對(duì)社交網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)社交網(wǎng)絡(luò)中各種社區(qū)對(duì)于商品推薦、廣告推送、朋友推薦以及對(duì)社交網(wǎng)絡(luò)進(jìn)行劃分具有十分重要的意義。
  本文在調(diào)

4、研分析大規(guī)模社交網(wǎng)絡(luò)發(fā)展和研究的基礎(chǔ)上,主要就如何有效挖掘社交網(wǎng)絡(luò)中興趣社區(qū)做了深入研究。本文先就其兩個(gè)子問題社交網(wǎng)絡(luò)中個(gè)性化興趣的建模和個(gè)性化PageRank高效計(jì)算進(jìn)行研究。在完成興趣建模和個(gè)性化PageRank高效計(jì)算的基礎(chǔ)上,進(jìn)行大規(guī)模社交網(wǎng)絡(luò)的興趣社區(qū)探測(cè)。
  首先,采用用戶好友關(guān)系信息、用戶發(fā)布和轉(zhuǎn)發(fā)微博信息作為興趣信息,針對(duì)普通用戶和特殊用戶的不同,分別提出以關(guān)注對(duì)象為興趣的三層模型和以發(fā)布微博為興趣的兩層模型的模

5、型表示方法。針對(duì)微博內(nèi)容為興趣建模,提出基于LDA改進(jìn)的微博興趣分類方法。針對(duì)用戶興趣改變的問題,提出基于用戶微博內(nèi)容為反饋的貝葉斯方法,同時(shí)還提出基于興趣社區(qū)發(fā)現(xiàn)為目的的用戶興趣偏好模型。最后通過以用戶標(biāo)簽作為參考對(duì)模型進(jìn)行評(píng)估,得出模型在標(biāo)簽較充足時(shí)能有80%以上的查準(zhǔn)率和查全率。
  其次,個(gè)性化PageRank作為信息檢索和數(shù)據(jù)挖掘領(lǐng)域的重要算法,隨著數(shù)據(jù)規(guī)模的不斷增大,有必要對(duì)其進(jìn)行優(yōu)化和加速。傳統(tǒng)迭代方法比較耗費(fèi)時(shí)間和

6、空間,本文使用基于Monte Carlo隨機(jī)步方法。MapReduce適合數(shù)據(jù)密集型計(jì)算,不適合大量的迭代,本文提出基于MPI的分布式算法。改進(jìn)先前的二路合并方法到基于Fibonacci的方法,從理論上性能有30%左右的提高,在大量真實(shí)數(shù)據(jù)的實(shí)驗(yàn)上得出該方法相對(duì)基礎(chǔ)方法性能提高10%到40%。
  最后,由于社區(qū)結(jié)構(gòu)信息包含成員關(guān)系連接信息和成員本身的個(gè)性化信息,提出考慮結(jié)構(gòu)信息和節(jié)點(diǎn)自身屬性特征的基于個(gè)性化PageRank的社區(qū)

7、發(fā)現(xiàn)方法。針對(duì)日益發(fā)展的社交網(wǎng)絡(luò)的數(shù)據(jù)大規(guī)模性,提出局部的社區(qū)分析方法和將算法改進(jìn)適應(yīng)在分布式計(jì)算架構(gòu)MapReduce之上。由于大部分社區(qū)探測(cè)方法不適合用在具有千萬級(jí)甚至更大用戶規(guī)模的社區(qū)分析,而Metis方法是少有的能處理如此大規(guī)模的網(wǎng)絡(luò)分析工具,本文將所提出的基于個(gè)性化PageRank方法與Metis方法進(jìn)行比較,凸顯本文提出方法具有更好的社區(qū)探測(cè)能力,能找到聚簇性很強(qiáng)的局部社區(qū)。另外,本文通過MapReduce擴(kuò)展實(shí)驗(yàn)說明了方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論