社交媒體中觀點信息分析與應用.pdf_第1頁
已閱讀1頁,還剩149頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著社交媒體的日益普及,互聯(lián)網(wǎng)用戶越來越習慣于在社交媒體中評論話題、表達觀點。社交媒體用戶規(guī)模龐大,觀點涉及話題廣泛,使其成為包含大量針對流行話題的用戶觀點的寶貴資源庫。然而用戶表達觀點的方式多種多樣,使得社會媒體中的觀點文本呈現(xiàn)出碎片化、噪音多、非結構化等特征。因此,在社交媒體中通過人工方式分析總結用戶觀點非常困難,如何借助計算的手段自動地分析并總結出社交媒體全體用戶的觀點信息成為一個重要挑戰(zhàn)。本文主要研究社交媒體用戶觀點的自動分析問

2、題(包括觀點挖掘和整合集成),希望能對用戶在社交媒體上就所關注話題發(fā)表的大量觀點進行建模,并基于此模型進一步對社交媒體中用戶行為進行分析。
  為了對問題進行系統(tǒng)地研究,本文將問題分解為觀點分析與基于觀點的行為分析,其中觀點分析又由情感知識的抽取、觀點文本情感極性分類、用戶觀點集成三部分組成。本文的主要貢獻如下:
  ?中文情感詞典的抽取和構建:目前常見的情感詞典基本都是英文詞典,這些詞典在英文觀點文本識別、極性分類等任務中

3、起到了重要作用,是進行觀點分析的基礎。中文情感詞典抽取和構建方法研究相對較少,還沒有形成比較全面可靠的情感詞典??咳斯俗⑿纬傻那楦性~典對時間和人力要求較高,但是詞語覆蓋度偏低,因此需要研究自動構建情感詞典的方法。本文根據(jù)不同語言間表達情感知識的詞匯間對應性,使用HowNet語義知識庫轉(zhuǎn)化英文情感詞典的情感知識,抽取對應的中文情感詞匯并計算情感極性值,自動構建了中文情感詞典SentiHowNet。為了提高詞典的覆蓋度以及領域適應性,本文

4、分析驗證了基于語料資源中連詞語言規(guī)則和上下文統(tǒng)計特征的情感詞典擴展方法,并提出了混合方法對SentiHowNet在領域語料內(nèi)進行擴展。使用本文方法得到的中文情感詞典可以自動構建無需人工標注,與現(xiàn)有中文情感詞典相比,覆蓋度和領域適應性更好。
  ?基于特征空間劃分的情感極性分類:對于情感極性分類問題來說,不同情感詞表達情感的作用范圍、使用語境存在一定的差別,有些詞語能在不同領域和語境中表達不變的情感極性,而有些詞語只有在特定的領域和

5、語境中才能表達特定的情感極性。因此,本文提出了將特征空間劃分為領域獨立和領域依賴兩部分的情感極性分類方法,該方法分別在兩部分特征空間上訓練分類器,然后將兩個分類器組合在一個框架中形成一個更強的情感極性分類器,框架從現(xiàn)成的成語詞典和遠程監(jiān)督數(shù)據(jù)資源開始,使用自舉式迭代機器學習方法,可以在無需標注數(shù)據(jù)進行訓練情況下達到有監(jiān)督機器學習方法的性能。
  ?用戶觀點的集成建模:社交媒體中用戶產(chǎn)生的內(nèi)容往往是短小而又分散的非結構化信息,用戶在

6、這些非結構化的短文本中表達的觀點也呈現(xiàn)出碎片化的特點。為了能夠全面準確地了解用戶的觀點,本文提出了用戶主觀模型的概念,將用戶產(chǎn)生內(nèi)容中所關注的話題以及用戶針對話題的觀點組合在一起進行建模,并將觀點按照話題的不同方面進行整合集成,在此基礎上提出一種新的可擴展觀點表示方法,將同一話題的觀點表示為在一個可擴展的情感值空間的分布,這種表示能夠表達出用戶多視角下更詳細的觀點信息。
  ?用戶交互行為分析:作為用戶主觀模型的直接應用,本文對用

7、戶在社交媒體中信息傳播行為的主觀動機進行建模分析。針對Twitter中用戶轉(zhuǎn)發(fā)信息的三種常見動機,即對內(nèi)容的興趣、社交的需要、對流行的興趣三種動機通過用戶主觀模型進行定量分析。使用三個主觀相似性計算方法進行度量。通過對轉(zhuǎn)發(fā)行為的分析發(fā)現(xiàn),三種主觀相似性與轉(zhuǎn)發(fā)行為都具有相關性,能夠作為轉(zhuǎn)發(fā)行為預測的有效特征,并能顯著提高現(xiàn)有預測模型的性能。
  在對以上四個觀點分析與應用研究任務中,本文側(cè)重于使用通用的魯棒性好的無監(jiān)督或弱監(jiān)督方法,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論