網(wǎng)站商品評(píng)論挖掘技術(shù)的研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)應(yīng)用的迅速發(fā)展,購(gòu)物網(wǎng)站、點(diǎn)評(píng)網(wǎng)站以及各種論壇上不斷積累了越來(lái)越多的商品評(píng)論文本。在商品評(píng)論挖掘的研究中,基于方面的情感分析備受關(guān)注。從消費(fèi)者的角度來(lái)看,不同消費(fèi)者看重的方面會(huì)有所區(qū)別,基于方面的情感分析結(jié)果可以幫助他們選擇更適合自己的產(chǎn)品。從商家的角度來(lái)看,基于方面的情感分析結(jié)果可以讓商家知道其產(chǎn)品有哪些方面存在問(wèn)題,可以幫助他們對(duì)產(chǎn)品進(jìn)行改進(jìn)。
  本文利用CRFs模型,對(duì)評(píng)論文本進(jìn)行基于方面的情感分析研究,主要包括

2、方面與評(píng)價(jià)詞抽取、情感極性及強(qiáng)度分析、基于主題-方面的情感極性及強(qiáng)度分析結(jié)果總結(jié)三部分。
  關(guān)于方面與評(píng)價(jià)詞的抽取,本文提出了基于LDA和CRFs的半監(jiān)督方面詞與評(píng)價(jià)詞同步抽取方法。初始方面詞與評(píng)價(jià)詞集合從LDA主題模型的訓(xùn)練結(jié)果以及知網(wǎng)的情感詞典中獲取。在CRFs模型中,融合了統(tǒng)計(jì)特征(從LDA主題模型的訓(xùn)練結(jié)果中得到)、語(yǔ)義特征(詞、詞性、語(yǔ)氣詞、程度詞、詞之間的前后關(guān)系)以及方面與評(píng)價(jià)詞的共現(xiàn)等特征,最終得到方面詞抽取的F

3、1值為71.7%,評(píng)價(jià)詞抽取的F1值為55.3%。和有監(jiān)督學(xué)習(xí)相比,本文的半監(jiān)督方法能很大程度上減少方面詞和評(píng)價(jià)詞標(biāo)注的工作量。因?yàn)槭前氡O(jiān)督,該方法還具有一定的跨領(lǐng)域性,如果應(yīng)用到其他領(lǐng)域,需要做的額外工作很少。
  關(guān)于情感極性分類(lèi)及強(qiáng)度分析,本文利用層疊CRFs模型,融合詞、詞性、語(yǔ)氣詞、程度詞、方面和評(píng)價(jià)詞的共現(xiàn)等特征,在情感句識(shí)別、情感極性分類(lèi)和情感強(qiáng)度分析上得到的F1值分別為86.3%、77.2%、70.7%。
 

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論