微博客細粒度情感分析技術(shù)的研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著社會媒體平臺的普及,越來越多的人喜歡通過網(wǎng)絡(luò)對人物、事件、產(chǎn)品等信息發(fā)表評論并表達個人的觀點。在此背景下,微博客作為一種新興的社會媒體,發(fā)展迅速,在短短幾年的時間內(nèi)即擁有了大量的用戶群體。微博客中包含了大量的用戶主觀發(fā)表的有價值的評論信息,這些信息表達了用戶的各種情感,因而針對微博客的情感分析在網(wǎng)絡(luò)輿情分析中起著非常重要的作用。但是,目前針對微博客的情感分類大多是諸如“正、反”或“正、中、反”這種粗粒度的,本文針對微博客的特點,著重

2、研究微博客的細粒度情感分析技術(shù)和相關(guān)問題。
  首先,研究面向微博客細粒度情感分析的微博客相似度計算。由于微博文本的簡短性,兩條微博中出現(xiàn)的相同的特征詞數(shù)量極少,因而簡單使用TF-IDF方法得到的向量空間模型的向量值非常稀疏,相似度的計算結(jié)果不理想。為降低微博特征詞稀少對相似度計算的影響,本文采用基于LDA模型,計算得出微博數(shù)據(jù)的主題—詞概率分布,通過計算兩條微博互異特征詞的主題相關(guān)度,更新相應(yīng)特征詞的向量值的方法。最后通過余弦相

3、似度的方法計算兩條微博的相似度。實驗證明了此種方法的相似度計算是有效的。同時,在實驗前,對數(shù)據(jù)進行刪除垃圾微博及無用字段處理及分詞和刪除停用詞等預(yù)處理以得到實驗所需的純凈數(shù)據(jù),并將微博所表達的細粒度情感劃分為“高興”、“喜愛”、“傷心”、“焦慮”、“憤怒”五類,以具有細粒度情感標注的表情符號詞典為基礎(chǔ)對微博數(shù)據(jù)進行情感標注,得到最終的實驗數(shù)據(jù)。
  其次,研究基于貝葉斯定理的微博客細粒度情感分析。以訓(xùn)練數(shù)據(jù)為基礎(chǔ),首先訓(xùn)練得出每個

4、特征詞屬于每種情感的概率,然后計算出每條微博具有每種情感的概率值,最后計算得出微博客的細粒度情感序列。通過實驗證明基于貝葉斯的方法對微博客細粒度情感分析具有較好的效果。
  然后,研究基于K近鄰的細粒度情感分析。以微博相似度計算為基礎(chǔ),得到每條微博的K近鄰。通過測試數(shù)據(jù)與近鄰微博的相似度及近鄰微博的情感序列,計算得出微博所表達的細粒度情感序列。通過實驗證明K近鄰方法對微博客細粒度情感分析具有比較好的結(jié)果。
  最后,針對基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論