中文微博熱點話題檢測技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著移動互聯(lián)技術(shù)的迅猛發(fā)展,微博這一新興的社交網(wǎng)絡(luò)平臺快速興起,成為廣大用戶的一種新的交流方式。用戶以微博為載體,可以方便快捷地發(fā)表觀點,進行信息交流、互動、資源共享。微博平臺特有的時效性和隨意性,使得微博信息能夠快速傳播及擴散,在現(xiàn)實社會中產(chǎn)生強大的影響力。在微博文本中,隱含著大量時政要點、突發(fā)事件等有價值的信息。對微博文本進行熱點話題的提取、檢索,可以幫助用戶迅速了解社會中的實時熱點信息,對網(wǎng)絡(luò)輿情監(jiān)控和信息即時搜索,具有重要的現(xiàn)實

2、意義。但是,微博文本具有大數(shù)據(jù)的特征,難以由人工進行識別和過濾。由此,通過尋求相關(guān)信息過濾手段,研究微博文本熱點話題的自動檢測技術(shù),成為信息檢索領(lǐng)域研究的熱點。
  論文首先介紹了話題檢測的背景,研究現(xiàn)狀及相關(guān)技術(shù);接著分析了中文微博的信息特點及傳播特點;針對熱點話題檢測的信息過濾問題,提出了一種用戶角色定位方法。該方法通過用戶個人粉絲數(shù)和關(guān)注數(shù)指標(biāo)來計算用戶關(guān)注度;通過微博轉(zhuǎn)發(fā)數(shù)和評論數(shù)來計算微博影響力;再通過用戶關(guān)注度和微博影

3、響力來綜合評估用戶影響力。通過對用戶角色的定位,實現(xiàn)了熱點話題檢測前的信息粗度過濾。然后,采用基于改進的Single-Pass增量式聚類算法,對微博信息進行初步話題檢測;最后結(jié)合微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)等話題熱度的影響因素,進行微博話題熱度的評估和排序,從而找到一定時間段內(nèi)的熱點話題。論文對中文微博話題檢測中的文本預(yù)處理、文本特征選取方法等進行了優(yōu)化,采用結(jié)合語義相似度的TF-IDF函數(shù)計算特征權(quán)重。
  基于上述方法,論文以新浪微博語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論