微博熱點話題發(fā)現(xiàn)方法的研究和實現(xiàn).pdf_第1頁
已閱讀1頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,微博平臺因其廣泛的參與性和良好的用戶體驗迅速積累了大量用戶。在社會熱點話題的傳播上,微博平臺往往比其他媒體具有更高的時效性和更深層次的用戶參與度。一個社會熱點話題很多時候都是從微博平臺上首先發(fā)布并迅速引起大量關注的。事實上,社會熱點信息,對新聞業(yè)、金融業(yè)、甚至國家網絡輿論安全都至關重要。因此對于微博平臺熱點話題的發(fā)現(xiàn)研究具有重要的現(xiàn)實意義。如何快速有效地提取微博熱點話題是本文的主要研究內容。
  論文從現(xiàn)有的研究入手,梳理

2、了前人對微博熱點話題提取和微博主題發(fā)現(xiàn)的研究成果,并系統(tǒng)地介紹了微博話題發(fā)現(xiàn)的相關技術和理論基礎。論文通過分析聚類算法和主題模型算法的優(yōu)缺點,提出了以LDA主題模型算法為基礎的微博熱點話題提取方案,具體成果如下:
  (1)針對LDA主題模型在微博短文本領域效果欠佳問題,本文提出了一種利用微博評論信息和百度百科詞條的微博短文本擴展方案。該方案充分考慮微博文本本身特性以及擴展信息的特點,設計了以詞共現(xiàn)模型為基礎的微博評論信息篩選機制

3、和以重合詞概率為基礎的百度百科詞條篩選機制。通過理論分析和實驗驗證,將經本文所提方案擴充的微博短文本和未經擴充的微博短文本進行對比,結果表明,本方案使得微博文本平均長度增加了近50%,在各個主題數(shù)目下,經過擴展的微博文本的LDA主題模型困惑度均有所降低。
  (2)本文以LDA主題模型的輸出為基礎,提出了一種基于時序分割和主題結果聚類的微博熱點話題提取方案。該方案根據微博信息的生命周期理論,將擴展后的微博文本按照其發(fā)布的時間進行切

4、分,形成單位語料,對每個單位語料使用Gibbs Sampling算法求解其LDA主題模型,使用凝聚層次聚類算法將主題聚類,根據聚類結果發(fā)現(xiàn)話題,并計算話題熱度。同時根據一個話題在不同時間段內的熱度變化形成話題熱度時間序列,通過變異系數(shù)指標衡量一個話題是否為突發(fā)性話題,通過近期熱度率指標衡量一個話題是否在近期時間內被熱烈討論。實驗結果顯示,該方法能有效地提取微博平臺上的熱點話題,具有一定的實用價值。
  論文最后總結了整個研究工作,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論