基于微博社會(huì)網(wǎng)絡(luò)的用戶興趣模型研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩72頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、微博是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái),是基于web2.0平臺(tái)新近興起的開(kāi)放互聯(lián)網(wǎng)社交服務(wù)。在微博平臺(tái)中,用戶通過(guò)關(guān)注形成人際關(guān)系網(wǎng),用戶發(fā)布的信息通過(guò)轉(zhuǎn)發(fā)等方式以病毒的方式飛速傳播。這使得微博不僅僅是擴(kuò)大人際圈實(shí)現(xiàn)社會(huì)交往的社交網(wǎng)絡(luò),更是獲取最新資訊和各方評(píng)論信息的重要媒介。近年來(lái)國(guó)外基于社會(huì)網(wǎng)絡(luò)的用戶興趣研究越來(lái)越多,利用用戶興趣模型提供的精準(zhǔn)化廣告投放服務(wù)成本低、效果好,逐漸成長(zhǎng)為一種主要盈利模式。國(guó)內(nèi)目前還沒(méi)有十分完

2、善成熟的類(lèi)似系統(tǒng),因此本文針對(duì)微博的社會(huì)網(wǎng)絡(luò)特性進(jìn)行了如下研究:
  第一,分析了微博社會(huì)網(wǎng)絡(luò)的信息結(jié)構(gòu),概括了微博用戶興趣的構(gòu)成,針對(duì)傳統(tǒng)微博信息采集方案的不足提出了具有可行性的微博信息采集系統(tǒng)設(shè)計(jì)方案,實(shí)現(xiàn)的分布式采集系統(tǒng)在實(shí)際應(yīng)用中效率和擴(kuò)展性好于傳統(tǒng)采集方案;
  第二,構(gòu)建出真實(shí)的微博社會(huì)網(wǎng)絡(luò)關(guān)系,結(jié)合復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)重要度算法相關(guān)理論,以PageRank算法思想為基礎(chǔ)提出了微博用戶重要度的收斂算法,以用戶重要度反映

3、微博用戶的現(xiàn)實(shí)影響力;
  第三,研究了微博短文本的關(guān)鍵詞提取方案,包括微博中冗余信息的過(guò)濾,利用自然語(yǔ)言處理工具分詞,用同義詞詞林計(jì)算詞語(yǔ)相似度,根據(jù)詞語(yǔ)間相似度關(guān)系構(gòu)造無(wú)向圖,用圖的鄰接矩陣計(jì)算詞語(yǔ)重要度,從而提取出微博文本中的關(guān)鍵詞;
  第四,在用戶重要度和微博關(guān)鍵詞的基礎(chǔ)上,提出了基于TF-IDF改進(jìn)的微博用戶興趣特征項(xiàng)提取算法,利用向量空間模型建立微博用戶的興趣空間,通過(guò)長(zhǎng)期興趣與短期興趣定義用戶的興趣度,完成用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論