版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、伴隨著電子商務(wù)的迅速發(fā)展,用戶評(píng)論信息也快速積累起來(lái),如何有效利用用戶評(píng)論信息分析商品的各種特征是潛在消費(fèi)者所關(guān)心的問(wèn)題,而同時(shí)如何有效利用用戶評(píng)論信息來(lái)追蹤商品的口碑,銷售趨勢(shì),市場(chǎng)影響力等也是商家所非常關(guān)注的問(wèn)題。所以,針對(duì)評(píng)論的挖掘具有非?,F(xiàn)實(shí)的意義。
近年來(lái),已經(jīng)有不少與中文評(píng)論挖掘相關(guān)的工作在開展,有的學(xué)者在文檔層面上使用LSA模型或者是n-gram模型進(jìn)行分析,但僅僅給出該文檔推薦或者不推薦的兩極性結(jié)果,粒度比較粗
2、糙,信息提取得不夠充分,而有些學(xué)者在特征詞層面上進(jìn)行評(píng)論的挖掘,但對(duì)于低頻詞以及短語(yǔ)結(jié)構(gòu)的識(shí)別還存在或多或少的問(wèn)題。還有些工作則集中于對(duì)命名實(shí)體的識(shí)別上,解決對(duì)文檔中詞語(yǔ)的提取問(wèn)題,但是很少兼顧到詞語(yǔ)的感情傾向等主觀信息。隨著大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,一些機(jī)器學(xué)習(xí)算法逐漸被投入到評(píng)論挖掘相關(guān)的領(lǐng)域中,并且取得了很好的效果。比如基于隱馬爾可夫模型和層疊隱馬爾可夫模型的命名實(shí)體識(shí)別,基于最大熵馬爾科夫模型的自然語(yǔ)言處理研究等。
3、 本文在前人的工作基礎(chǔ)上,考慮到自然語(yǔ)言的語(yǔ)言學(xué)特征,通過(guò)將詞性詞匯特征納入到標(biāo)準(zhǔn)隱馬爾科夫模型中,提出了基于詞性詞匯的隱馬爾科夫模型,在評(píng)論的極性分析和評(píng)價(jià)對(duì)象的提取方面都取得了不錯(cuò)的效果。
本文的主要工作為:
1.深入研究探討隱馬爾可夫模型中的三個(gè)問(wèn)題,即評(píng)估問(wèn)題、序列問(wèn)題以及學(xué)習(xí)問(wèn)題。同時(shí)也對(duì)這三個(gè)問(wèn)題的算法求解過(guò)程進(jìn)行了細(xì)致的理解和掌握,分別是用于求解評(píng)估問(wèn)題的前向-后向算法,用于求解序列問(wèn)題的最大似然估計(jì)與
4、期望最大化算法以及用于求解學(xué)習(xí)問(wèn)題的Viterbi算法。
2.基于標(biāo)準(zhǔn)隱馬爾科夫模型,提出了基于詞性詞匯信息的隱馬爾科夫模型,并推導(dǎo)了模型的計(jì)算式,同時(shí)對(duì)模型在工程實(shí)踐中碰到的一些主要訓(xùn)練問(wèn)題提供了相應(yīng)的解決辦法,包括使用古德-圖靈估計(jì)解決模型訓(xùn)練中的零概率問(wèn)題,使用對(duì)數(shù)運(yùn)算取代連乘運(yùn)算以解決浮點(diǎn)數(shù)下溢問(wèn)題,使用LDA(Latent dirichlet allocation)模型解決未登錄詞數(shù)量較大的問(wèn)題。結(jié)果,在電商商品評(píng)論
5、文本上的數(shù)據(jù)挖掘工作中表現(xiàn)了較好的效果。
3.定義了一套適用于電商評(píng)論內(nèi)容的標(biāo)注規(guī)則,并在模型訓(xùn)練數(shù)據(jù)集的構(gòu)建過(guò)程中發(fā)揮了良好的作用。同時(shí)使用詞向量模型算法對(duì)評(píng)論挖掘結(jié)果集中的同義詞與近義詞進(jìn)行了合并處理,有效防止了意義相近的高頻評(píng)論的特征淹沒了其他低頻評(píng)論的特征。
4.對(duì)本文所提出的算法進(jìn)行了對(duì)比評(píng)測(cè),在不同分類下的電商商品評(píng)論上進(jìn)行了多個(gè)模型的精確率,召回率,F(xiàn)1值比較工作,實(shí)驗(yàn)結(jié)果證明了本文所提算法具有更好的效
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘在中文病歷中的應(yīng)用.pdf
- 鄰域信息HMM在個(gè)體疾病預(yù)測(cè)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在電信客戶評(píng)價(jià)中的研究和應(yīng)用.pdf
- 數(shù)據(jù)挖掘在供應(yīng)商評(píng)價(jià)中的應(yīng)用.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在評(píng)價(jià)系統(tǒng)中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在高校教學(xué)評(píng)價(jià)中的應(yīng)用研究.pdf
- VQ和HMM在語(yǔ)音識(shí)別中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘在教學(xué)評(píng)價(jià)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在保險(xiǎn)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在目標(biāo)行銷中的研究與應(yīng)用.pdf
- 聚類分析在文本挖掘中的應(yīng)用與研究.pdf
- SVM在Web文本挖掘中的應(yīng)用與研究.pdf
- WEB挖掘在VOD系統(tǒng)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在醫(yī)保中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在股票分析中的研究與應(yīng)用.pdf
- 聚類挖掘研究及其在隧道病害評(píng)價(jià)中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘及在綠地生態(tài)評(píng)價(jià)中的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘在水資源分析評(píng)價(jià)中的應(yīng)用研究.pdf
- 基于HMM的中文語(yǔ)音合成研究.pdf
- 中文文本挖掘技術(shù)的研究與應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論