意見挖掘中若干關(guān)鍵問題研究.pdf_第1頁
已閱讀1頁,還剩189頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)上存儲了大量消費(fèi)者對產(chǎn)品的評論信息,這些評論中包含消費(fèi)者對產(chǎn)品性能或功能等方面褒義或者貶義的評價。商家/廠商可以通過跟蹤這些信息,及時獲取消費(fèi)者的反饋意見,從而改進(jìn)產(chǎn)品;潛在消費(fèi)者可以了解其他消費(fèi)者的使用體驗(yàn),為合理購買產(chǎn)品提供幫助。然而面對Web上海量的無結(jié)構(gòu)化或半結(jié)構(gòu)化的評論信息,通過人工閱讀的方式獲取是一個費(fèi)時費(fèi)力的過程。因此,用戶評論的意見挖掘研究應(yīng)運(yùn)而生,并成為近年來Web信息處理的

2、一個研究熱點(diǎn)。
   本文旨在研究意見挖掘中評價對象識別、評價內(nèi)容分析及評價情感獲取等關(guān)鍵問題,探索領(lǐng)域本體對其提供支持的方式和作用,并結(jié)合信息抽取、文本分類和自然語言處理等技術(shù)進(jìn)行深入探討。本文研究采取了方法論探索與實(shí)證分析相結(jié)合的方式,所做工作及創(chuàng)新點(diǎn)如下:
   (1)在分析已有方法和技術(shù)的基礎(chǔ)上,借鑒軟件工程中基于生命周期的模型,提出了增量迭代模型的構(gòu)建方法。該方法將本體構(gòu)建分成三個階段,多步驟實(shí)施,結(jié)合本文實(shí)際

3、應(yīng)用,通過創(chuàng)建實(shí)例,豐富和完善了領(lǐng)域本體的知識結(jié)構(gòu),最終構(gòu)建了一個用于產(chǎn)品命名實(shí)體識別中的筆記本電腦電子產(chǎn)品的領(lǐng)域本體NBO(Notebook Ontology)。
   (2)在定義并系統(tǒng)分析產(chǎn)品命名實(shí)體識別任務(wù)和方法的基礎(chǔ)上,研究利用條件隨機(jī)域CRFs(Conditional Random Fields)模型進(jìn)行產(chǎn)品命名實(shí)體識別的方法,對識別過程中“觀察窗口”大小的選取、建模粒度的選取、標(biāo)注集的確定、特征的選擇等關(guān)鍵問題通過

4、實(shí)驗(yàn)驗(yàn)證其有效性;為了進(jìn)一步提高產(chǎn)品命名實(shí)體識別的性能,提出了在CRFs模型中引入新的外部特征--本體特征,實(shí)驗(yàn)表明,融合內(nèi)外部特征對產(chǎn)品名稱實(shí)體、產(chǎn)品屬性名稱實(shí)體、產(chǎn)品構(gòu)件名稱實(shí)體的識別性能達(dá)到了理想的效果。
   (3)在研究傳統(tǒng)基于主題的文本分類方法的基礎(chǔ)上,利用基于機(jī)器學(xué)習(xí)的方法來進(jìn)行文本的粗粒度情感分類,為解決數(shù)據(jù)稀疏問題,提出利用情感向量空間模型來進(jìn)行文本表示,并通過實(shí)驗(yàn)對情感分類過程中的分類算法的選取,特征選擇方法

5、的運(yùn)用、特征維數(shù)的選取等關(guān)鍵問題進(jìn)行了分析和比較。為了綜合考慮特征詞對整個語料的貢獻(xiàn)度和各個類別的貢獻(xiàn)度,結(jié)合了文檔頻率和卡方統(tǒng)計(jì)的思想,提出了一個褒貶類卡方差值特征選擇方法CDPNC,其分類性能F-度量值的宏平均和微平均分別達(dá)到了90.18%,90.08%。
   (4)在研究基于語義分析的情感分類方法基礎(chǔ)上,利用依存句法分析來進(jìn)行特征觀點(diǎn)對的提?。粚τ^點(diǎn)詞的情感分類,針對中英文語言表達(dá)的差異,結(jié)合實(shí)際對基于逐點(diǎn)互信息的語義傾

6、向方法中褒貶基準(zhǔn)詞對的選取、閾值的設(shè)定等問題進(jìn)行改進(jìn),驗(yàn)證了其在中文評論文本情感分類上的可行性,并彌補(bǔ)了基于HowNet語義相似度的觀點(diǎn)詞情感分類方法的不足。
   (5)在上述研究成果的基礎(chǔ)上,本文給出了一個意見挖掘系統(tǒng)的系統(tǒng)構(gòu)架并設(shè)計(jì)實(shí)現(xiàn)了其原型系統(tǒng)。該系統(tǒng)可以從不同的粒度,對產(chǎn)品的整體評論、產(chǎn)品的綜合特征及細(xì)節(jié)特征的評論進(jìn)行全方位的意見挖掘,最終可將產(chǎn)品及評論的查詢結(jié)果,產(chǎn)品意見的查詢結(jié)果和產(chǎn)品的意見比較結(jié)果以可視化的方式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論