微博熱點(diǎn)話題發(fā)現(xiàn)方法的研究和實(shí)現(xiàn).pdf_第1頁
已閱讀1頁,還剩71頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來,微博平臺(tái)因其廣泛的參與性和良好的用戶體驗(yàn)迅速積累了大量用戶。在社會(huì)熱點(diǎn)話題的傳播上,微博平臺(tái)往往比其他媒體具有更高的時(shí)效性和更深層次的用戶參與度。一個(gè)社會(huì)熱點(diǎn)話題很多時(shí)候都是從微博平臺(tái)上首先發(fā)布并迅速引起大量關(guān)注的。事實(shí)上,社會(huì)熱點(diǎn)信息,對(duì)新聞業(yè)、金融業(yè)、甚至國(guó)家網(wǎng)絡(luò)輿論安全都至關(guān)重要。因此對(duì)于微博平臺(tái)熱點(diǎn)話題的發(fā)現(xiàn)研究具有重要的現(xiàn)實(shí)意義。如何快速有效地提取微博熱點(diǎn)話題是本文的主要研究?jī)?nèi)容。
  論文從現(xiàn)有的研究入手,梳理

2、了前人對(duì)微博熱點(diǎn)話題提取和微博主題發(fā)現(xiàn)的研究成果,并系統(tǒng)地介紹了微博話題發(fā)現(xiàn)的相關(guān)技術(shù)和理論基礎(chǔ)。論文通過分析聚類算法和主題模型算法的優(yōu)缺點(diǎn),提出了以LDA主題模型算法為基礎(chǔ)的微博熱點(diǎn)話題提取方案,具體成果如下:
  (1)針對(duì)LDA主題模型在微博短文本領(lǐng)域效果欠佳問題,本文提出了一種利用微博評(píng)論信息和百度百科詞條的微博短文本擴(kuò)展方案。該方案充分考慮微博文本本身特性以及擴(kuò)展信息的特點(diǎn),設(shè)計(jì)了以詞共現(xiàn)模型為基礎(chǔ)的微博評(píng)論信息篩選機(jī)制

3、和以重合詞概率為基礎(chǔ)的百度百科詞條篩選機(jī)制。通過理論分析和實(shí)驗(yàn)驗(yàn)證,將經(jīng)本文所提方案擴(kuò)充的微博短文本和未經(jīng)擴(kuò)充的微博短文本進(jìn)行對(duì)比,結(jié)果表明,本方案使得微博文本平均長(zhǎng)度增加了近50%,在各個(gè)主題數(shù)目下,經(jīng)過擴(kuò)展的微博文本的LDA主題模型困惑度均有所降低。
  (2)本文以LDA主題模型的輸出為基礎(chǔ),提出了一種基于時(shí)序分割和主題結(jié)果聚類的微博熱點(diǎn)話題提取方案。該方案根據(jù)微博信息的生命周期理論,將擴(kuò)展后的微博文本按照其發(fā)布的時(shí)間進(jìn)行切

4、分,形成單位語料,對(duì)每個(gè)單位語料使用Gibbs Sampling算法求解其LDA主題模型,使用凝聚層次聚類算法將主題聚類,根據(jù)聚類結(jié)果發(fā)現(xiàn)話題,并計(jì)算話題熱度。同時(shí)根據(jù)一個(gè)話題在不同時(shí)間段內(nèi)的熱度變化形成話題熱度時(shí)間序列,通過變異系數(shù)指標(biāo)衡量一個(gè)話題是否為突發(fā)性話題,通過近期熱度率指標(biāo)衡量一個(gè)話題是否在近期時(shí)間內(nèi)被熱烈討論。實(shí)驗(yàn)結(jié)果顯示,該方法能有效地提取微博平臺(tái)上的熱點(diǎn)話題,具有一定的實(shí)用價(jià)值。
  論文最后總結(jié)了整個(gè)研究工作,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論