微博主觀性發(fā)現(xiàn)關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)和通訊產(chǎn)業(yè)的快速發(fā)展,微博成為了又一個跨時代產(chǎn)品。微博是一個基于關(guān)系的信息分享、傳播以及獲取平臺。用戶可以通過WEB、WAP以及各種客戶端組件,以140字左右的文字更新信息,并實現(xiàn)即時分享。由于微博發(fā)展迅猛,微博文本已經(jīng)形成了大規(guī)模積累,針對微博文本的研究已經(jīng)成為了一個十分重要的課題。
   本文主要針對在判定中文微博是否具有主觀性的過程中所需的關(guān)鍵技術(shù)進行研究。論文的主要內(nèi)容歸納如下:
   (1)基于線索樹

2、雙層聚類的微博話題檢測方法
   本文針對微博文本短、半結(jié)構(gòu)、上下文信息豐富等特點,提出了基于線索樹雙層聚類的話題檢測方法,利用融合了時序特征和作者信息的話題模型進行線索樹內(nèi)的局部聚類,借以實現(xiàn)垃圾微博的過濾,最后利用整合后的線索樹進行全局話題檢測,該方法有效緩解了微博文本中的數(shù)據(jù)稀疏問題。
   (2)基于跨實體推演的事件抽取方法
   本文將實體類型一致性作為事件抽取過程中的一個重要特征,針對實體類型和事件類

3、型之間的關(guān)系,通過實體類型推演出事件類型,然后選取特征對事件的其他要素進行判定。該方法比較傳統(tǒng)的句子級事件抽取系統(tǒng)取得了更好的效果。
   (3)基于文法特征的中文能愿詞挖掘方法
   本文采用基于二元、三元、四元文法的方法,對微博中的中文能愿詞進行抽取,并以該微博所抽取出的事件中是否含有能愿詞作為微博主觀性判定的依據(jù)。該方法主要基于規(guī)則和文法特征,分為兩個階段,其中第二部分是在第一部分的基礎(chǔ)上,對能愿詞進行循環(huán)迭代挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論