版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、隨著在線旅游的迅猛發(fā)展,實時分析旅游者對旅游景點的觀點與態(tài)度的需求愈發(fā)迫切。面對在線旅游平臺中日益激增的評論數(shù)據(jù),僅靠人工分析,耗時耗力且供不應求。因此,觀點挖掘即通過計算機自動從海量的用戶評論中提取出能表達用戶觀點和情感的信息,具有重要的理論價值和應用價值。
觀點挖掘具體包含方面抽取和觀點摘要兩個重要的子任務。前者的目的是識別文本中用戶所評價的方面及其情感傾向,后者的目的是在于對提取的觀點信息進行量化匯總,形成便于用戶理解的
2、摘要形式。近些年,雖然針對上述子任務的研究成果層出不窮,但是目前的觀點挖掘技術仍無法解決旅游領域中所存在的問題。具體而言,第一,旅游者在撰寫景點評論時,通常會夾雜了個人的旅游經(jīng)歷,會引入大量與評價主題不太相關的內(nèi)容,而現(xiàn)階段的方面抽取研究的關注點集中在對評價對象的抽取和觀點詞的判定,很少有研究關注如何衡量所抽取方面與評價主題的相關程度;第二,在線旅游平臺中,即使是同一景點,其評論的評分在時間上會呈現(xiàn)較大差異,即在時間軸上存在“變點”情況
3、,而傳統(tǒng)的觀點摘要技術并不能很好地反映用戶的情感變化。
針對上述問題,本文提出了動態(tài)觀點挖掘的概念,并提出虛擬觀點文檔模型作為實現(xiàn)。主要工作包括:
(1)提出一種基于詞頻和句法關聯(lián)度相結(jié)合的權重算法,用來動態(tài)衡量所抽取的方面與評價主題的相關程度。本文提出的權重計算策略源于對在線旅游平臺中評論數(shù)據(jù)的兩個觀察,結(jié)合方面抽取過程中的統(tǒng)計信息,分別為所抽取的方面在全局文檔中的出現(xiàn)頻率以及在局部文檔中的句法關聯(lián)度。
4、(2)提出一種基于時間軸的觀點摘要策略,用來動態(tài)描述用戶的觀點變化。本文首先在句子級別上對傳統(tǒng)的觀點四元組進行擴展,增加時間變量。然后在篇章級別根據(jù)時間值對已構建虛擬觀點文檔進行聚合。最后生成基于時間軸的觀點分布。
(3)實現(xiàn)一個完整的基于虛擬觀點文檔的動態(tài)觀點挖掘系統(tǒng)。該系統(tǒng)采用了微服務的分布式架構,通過分解單體應用為多個微服務的方式,實現(xiàn)了虛擬觀點文檔的分布式構建、計算和應用,并提供了可視化的動態(tài)觀點摘要。
本文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論