基于樸素貝葉斯的中文文本情感傾向分類研究.pdf_第1頁
已閱讀1頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類號TP391密級基于樸素貝葉斯的中文文本情感傾向分類研究研究生姓名:楊鼎指導教師姓名、職稱:陽愛民教授學科專業(yè):計算機軟件與理論研究方向:模式分類湖南工業(yè)大學二○一○年六月十七日I摘要人們對事物的情感傾向是兩面性的,例如正面和負面,褒義和貶義等。因此通常認為文本的情感傾向分類是一個兩分類問題,也就是把文本的情感分成正面或者反面。文本情感傾向分類是文本分類領(lǐng)域一個比較新穎的研究方向,具有很大的商業(yè)價值,可以應用到輿論分析、信息過濾、產(chǎn)

2、品評價、產(chǎn)品推薦、智能化搜索和用戶興趣發(fā)掘等方面。本文以樸素貝葉斯方法構(gòu)建文本情感分類器為主線,研究了文本情感傾向分類中情感語料采集和標注、情感詞典構(gòu)建、特征選擇方法、特征權(quán)值與向量表示等關(guān)鍵問題,提出了一些新的觀點和方法,并通過實驗進行了驗證。主要的研究工作和結(jié)果有:1、利用DOM對中文賓館評論網(wǎng)頁進行分析,設(shè)計了對賓館評論文本自動采集的算法,用這種算法從互聯(lián)網(wǎng)上采集了700萬字的中文賓館評論作為語料庫。該語料庫來源可靠,情感特征明顯

3、,對研究互聯(lián)網(wǎng)評論文本的情感分類問題具有一定的意義。并對其進行了中文分詞和情感標注處理。2、提出利用PMI算法,選用基礎(chǔ)情感詞典作為種子詞,在中文賓館評論語料庫上構(gòu)建賓館評論領(lǐng)域情感詞典的方法。并用這種方法構(gòu)建了一個賓館評論情感詞典,基于該詞典作為特征選擇對賓館評論進行情感分類效果比較好。3、研究了利用樸素貝葉斯理論構(gòu)建文本情感分類器的方法,以及先驗概率和后驗概率的估計問題,提出了一種新的后驗概率Laplace轉(zhuǎn)換的參數(shù)設(shè)置,這種設(shè)置方

4、法對樸素貝葉斯分類器的分類性能有很大的提升。并且提出了一種基于情感詞典作為特征選擇的文本情感分類方法,這種方法具有分類速度快、分類效果好,魯棒性等特點比使用CHI統(tǒng)計進行特征選擇的樸素貝葉斯文本情感分類器和基于情感傾向權(quán)值構(gòu)建的文本情感分類器的分類效果都要好,可以對大量文本進行情感分類應用。4、設(shè)計和實現(xiàn)了一個中文文本情感分類實驗系統(tǒng),該系統(tǒng)具有界面友好、速度快和穩(wěn)定性高等特點。具有中文分詞、特征權(quán)值計算、CHI特征選擇、情感詞典構(gòu)建、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論