基于半監(jiān)督學習的中文短文本分類研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著即時通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡中的信息每天都在以一定的速率增長著,生活中最常見的就是如:網(wǎng)絡新聞、微博及其評論、聊天記錄、手機短消息、科技文獻摘要、搜索引擎返回的結(jié)果和社區(qū)論壇中的發(fā)帖回復等形式的短文本信息,這類文本通常都控制在160個字左右,存在的種類樣式繁多,而且經(jīng)常以口語化、生活化的不規(guī)則形式出現(xiàn)。特征詞較少、關(guān)聯(lián)性不強是這類短文本的主要特點,并且其中可能隱匿著一些有價值的信息內(nèi)容,因而對短文本進行有效的組織分類是非常有

2、必要的。傳統(tǒng)的文本分類方法大多是以長文本作為對象進行研究的,如果直接套用于短文本將會影響分類取得的效果。另外,通常用于構(gòu)建傳統(tǒng)文本分類器的已標注樣本是需要由人工進行標注才能獲得的,既費時又費力,還易形成標注瓶頸,而相比之下,數(shù)量頗為豐富的未經(jīng)標注樣本的獲取與搜集卻是較為容易的。
  傳統(tǒng)基于監(jiān)督學習的分類方法,僅僅是使用了數(shù)據(jù)樣本集合中的已標注部分,并沒有注意到其中未標注樣本的存在價值,未能較好地挖掘出可能隱藏的信息。而半監(jiān)督學習

3、的方法則是可以將少量的已標注樣本與大量的未經(jīng)標注樣本相結(jié)合起來進行學習訓練,從而使未標注部分能被充分地利用,文本分類器性能得到有效地改善,因此這樣的方法也逐漸地被人們所關(guān)注。
  考慮到短文本不同于長文本的特點,再加上參考了已有的相關(guān)研究成果,本文在現(xiàn)有的分類算法基礎(chǔ)上,將半監(jiān)督學習的思想貫穿到短文本分類的過程當中,改進地使用維基百科對短文本進行特征擴展,提出一種基于半監(jiān)督學習的文本分類方法,用于實現(xiàn)對短文本的有效分類。該方法通過

4、使用外部知識資源庫構(gòu)建的特征詞擴展表對短文本進行信息擴充以解決特征稀疏等問題,然后構(gòu)建基于監(jiān)督學習的初始中間過程的分類器,不斷地迭代訓練數(shù)據(jù)樣本中未標注部分,再用更新過的訓練樣本集來構(gòu)建最終的文本分類器,通過實驗驗證了該方法能夠達到充分利用大量未標注樣本來改善分類器性能的目的。
  另外,為了解決傳統(tǒng)基于向量空間模型構(gòu)建短文本分類器時造成的文本結(jié)構(gòu)信息的缺失以及大量樣本存在的標注瓶頸問題,提出了一種利用圖結(jié)構(gòu)模型進行半監(jiān)督文本分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論