網(wǎng)購用戶評論中隱式評價對象的提取方法研究.pdf_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在我國電子商務(wù)得到快速發(fā)展的同時,網(wǎng)購已經(jīng)深入人們?nèi)粘I?,由于信息的不對稱性,使得消費(fèi)者難以了解到商品的真實情況,而在線用戶評論為用戶的購買決策提供了參考意見,針對在線評論的意見挖掘也得到了廣大學(xué)者的青睞。評價對象作為意見挖掘領(lǐng)域的一個方面,也得到了廣泛的研究,而現(xiàn)有針對評價對象的研究主要集中在顯式評價對象的研究,很少有學(xué)者將隱式評價對象納入研究的考慮范圍。在研究領(lǐng)域,對于學(xué)者來說,針對隱式評價對象的研究能夠提高評價對象研究的準(zhǔn)確率;

2、對于企業(yè)來說,充分挖掘隱式評價對象,能夠使企業(yè)關(guān)注到隱藏在消費(fèi)者評論中的意見對象,更為全面地認(rèn)識到消費(fèi)者對產(chǎn)品各個方面的使用體驗;對于消費(fèi)者個人來說,電子商務(wù)平臺通過對隱式評價對象的抽取,使得展示或推薦給用戶的有效評論更加真實,消費(fèi)者能夠獲得其他用戶對商品各方面更加精確的評論意見?;诖?,本文對用戶評論中的隱式評價對象進(jìn)行了挖掘研究,主要工作包括以下幾方面:
  (1)數(shù)據(jù)預(yù)處理。通過數(shù)據(jù)抓取工具從淘寶網(wǎng)站上抓取用戶評論的真實數(shù)據(jù)

3、,然后對此文本數(shù)據(jù)進(jìn)行分句、分詞、特征選擇、向量表示等處理。針對初始文本特征詞空間維度較高的問題,采用基于模擬退火的粒子群優(yōu)化算法對特征集進(jìn)行二次特征提取,從而降低特征詞空間維度。實驗結(jié)果表明,采用該方法后,特征詞空間維度由425維降低到296維,該方法能夠進(jìn)行有效的特征選擇。
  (2)顯式評價句的聚類分析。本文將評價句分為顯式評價句和隱式評價句,并對顯式評價句進(jìn)行文本聚類研究。在用特征詞對評價句進(jìn)行表示后,得到的文本向量空間維

4、度依然很高,因此,本文采用適用于高維數(shù)據(jù)集的FCM聚類算法。針對FCM算法容易陷入局部最優(yōu)的特點,本文提出了基于模擬退火的FCM改進(jìn)算法,通過對FCM算法迭代過程的控制,有效避免了算法陷入局部最優(yōu)。通過實驗將顯式評價句聚為9類,給每個類別設(shè)定類別名稱。實驗結(jié)果表明,基于模擬退火的FCM改進(jìn)算法能夠?qū)ξ谋具M(jìn)行合理聚類。
  (3)隱式評價句評價對象提取。在對顯式評價句進(jìn)行文本聚類之后,將同類別評價句歸為一個文檔集。由于評價句的評價對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論