基于LDA的情感分類及主題情感變化分析.pdf_第1頁
已閱讀1頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在互聯網以及大數據快速發(fā)展的時代,在各種互聯網媒體上會產生越來越多的信息,包括評論信息、用戶信息、新聞資訊等。這些海量的信息背后通常蘊藏著大量的數據價值,通過對這些信息進行挖掘分析,能夠更好的理解用戶的消費需求和心理,分析熱點事件的發(fā)展及社會輿情的走勢,能夠給商家或者政府等提供一定的決策依據。
  海量數據中的大部分是以文本的形式呈現,在這些文本信息中,通常傳遞著客觀事實信息和用戶的主觀的情感色彩信息,因此基于文本情感信息的挖掘是

2、近年來研究的熱點。其中在文本情感分類方面,如果分類方法可以自動的對文本的主觀情感信息進行劃分,則能夠根據這些劃分信息更好的分析用戶的心理。傳統(tǒng)的分類方法在文本特征提取方面存在一定的缺陷,如未考慮文本間關系或者特征維度的問題。此外基于文本的主題情感挖掘也是研究熱點之一,主題模型也證實是文本挖掘方面比較有效的方法。傳統(tǒng)的主題模型,如 PLSA(Probability Latent Semantic Analysis)和 LDA(Latent

3、 Dirichlet Allocation),主要是針對文本隱含的主題進行建模來挖掘文本的主題信息。但是由于文本信息或者研究內容的不同,使基礎模型不再適用,這也就給文本挖掘在某些方面帶來了一定的挑戰(zhàn)。
  針對傳統(tǒng)文本情感分類以及主題情感挖掘所存在的不足,近年來已經有很多研究對這些不足進行了改進,其中在文本情感分類方面主要是對分類器進行了改進,在主題情感挖掘方面主要是根據 LDA主題模型的思想進行改進。本文在已有的研究基礎上所做的

4、工作主要有兩個方面:(一)在中英文評論數據集上對文本的特征提取進行了改進,主要是結合 LDA主題模型和 SVM分類器進行文本情感分類的分析;(二)在新浪新聞的數據集上,利用新聞信息的一些屬性,如時間、情感注釋等,進行LDA主題模型的擴展來挖掘主題情感的關系并分析主題的變化趨勢。
  在文本情感分類方面,本文在LDA模型的基礎上提出了一種新的文本特征提取模型ELDA(External Knowledge-based Latent D

5、irichlet Allocation),可以說是一種弱監(jiān)督形式的模型。該模型針對實驗數據集的內容尋找合適的外部數據集,首先利用LDA主題模型對外部數據集進行主題抽取,之后在外部數據集主題抽取的基礎上對實驗數據集和外部數據集整體上進行主題的抽取,把主題特征看作文本的特征,其中外部數據集的引入在一定程度上增加了情感特征的權重。在實驗中設置不同的模型主題數,并結合SVM分類器來分析文本情感分類所需要的合適的特征維度,尋找最佳的文本情感分類模

6、型。實驗結果證明,無論是在中文評論數據集還是英文評論數據集上,此特征提取方法在分類效果上均達到了較好的效果,相較于傳統(tǒng)的文本情感分類方法在準確率方面有了4%的提升。
  在主題情感挖掘與主題變化分析兩個方面,本文在已有的研究基礎上提出了一種新的四層主題模型JTSoT(Joint Topic-Sentiment over Time)。為了主題情感的挖掘,本文在傳統(tǒng) LDA模型的基礎上在主題與單詞層之間引入了情感層,主要是避免傳統(tǒng)JS

7、T(Joint Sentiment Topic)模型中情感因素會對主題的劃分產生影響,同時在主題情感之間引入狄利克雷分布。而在主題變化分析方面,根據已有的時間標簽,將時間信息作為主題的屬性,并引入了主題對時間的Beta分布,來分析主題的變化。最終實驗結果表明,相較于已有工作TOT(Topic over Time)以及eToT(emotion Topic over Time)模型而言,本文提出的JTSoT模型能夠直接體現主題情感之間的關系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論