中文微博熱點話題檢測與自動文摘技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、微博在當(dāng)今已經(jīng)成為互聯(lián)網(wǎng)用戶中越來越受歡迎的交流工具和平臺。每天,有數(shù)以百萬計的用戶在微博平臺上分享和發(fā)表著對生活當(dāng)中各個方面的觀點和看法。微博作為快速分享和傳播信息的新平臺,具有信息量龐大、信息分散多樣等特點。它已經(jīng)成許多重大事件爆發(fā)的第一現(xiàn)場,用戶在微博上發(fā)布關(guān)于事件的第一手資料。為了使人們不僅能夠獲取微博中分散的信息,且能夠及時了解整個微博中的熱點話題,及時獲取話題的后續(xù)信息,本文針對這幾個方面分別進行了研究。
  首先,檢

2、測微博熱點話題。微博熱點話題具有以下三個特點:熱門性、突發(fā)性、時效性。熱門性可以從搜索次數(shù)和微博中提及率中體現(xiàn)出來,一個熱門話題必然會成為用戶在微博平臺上議論的焦點;突發(fā)性是指,該話題在某個特點時間點突然爆發(fā),在此之前可能少有人議論,或者沒有被提到過,從該時間點開始搜索次數(shù)和提及率大量增加;時效性指的是該熱點話題一旦產(chǎn)生,會在微博中停留一段時間,但很快將有新的話題取代舊話題成為熱點。本文基于微博熱點話題的以上三個特點提出了基于話題發(fā)現(xiàn)和

3、話題合并的檢測技術(shù)。
  獲得熱點話題之后,用戶急需了解這個話題是關(guān)于什么。由于微博信息數(shù)據(jù)量十分龐大,逐條閱讀會花費很多時間,自動提取微博摘要就成為了本文需要解決的第二個問題。本文將自動文摘的問題簡化為從含有某話題的大量微博中找到一個子集,這個子集中的微博與話題的相關(guān)程度最強,且能夠盡可能全面的描述這個話題。用戶在微博中描述一個話題時使用的詞語往往屬于一個較為固定的詞集,本文中將這個詞集定義為某話題的特征詞集合。因此本文提出了基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論