文本分類技術與應用研究.pdf_第1頁
已閱讀1頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、互聯(lián)網上充斥著各種信息,其中有一些信息,如恐怖組織等通過互聯(lián)網散布的消息,直接影響著國家安全與穩(wěn)定。傳統(tǒng)的按IP地址、主題進行信息攔截的方法已不再適合當前的需要,目前主要是對內容進行監(jiān)控。
   鑒于Internet上的大部分信息都以文本的形式存在,以上技術大都依賴于文本內容的理解,核心技術是文本分類與聚類技術。爆炸式增長的文本信息對文本內容理解的精度與速度提出了新的標準與挑戰(zhàn),要求文本理解在提高精度的同時,還要進一步提升訓練與

2、理解速度。
   本文挑選文本分類中的3個困難與挑戰(zhàn)進行了研究:數(shù)據(jù)集偏斜(數(shù)據(jù)集關于類別的分布是偏斜的,即類偏斜)、特征選擇、小樣本問題(標注瓶頸)。從提高分類方法的快速性、準確性出發(fā),提出多種有效的解決(改進)方法。同時,對文本聚類、分類的一個重要應用領域——話題識別與跟蹤,進行了研究。本文的創(chuàng)新工作主要包括以下三點:
   1、kNN文本分類器中類偏斜問題的處理
   類偏斜問題是數(shù)據(jù)挖掘領域的常見問題之一

3、。在文本分類中得到廣泛應用的kNN方法,當訓練樣本存在類偏斜問題時,分類性能明顯下降。將kNN分類器用于某文本內容安全項目,我們發(fā)現(xiàn),小類別的待測樣本幾乎都錯分到其它大類中去了。針對kNN存在的這個問題,提出了訓練集的臨界點(CriticalPoint,CP)的概念,根據(jù)CP的下(上)近似值LA(UA)及訓練樣本數(shù)對傳統(tǒng)的Knn決策函數(shù)進行修改,這就是自適應的加權kNN分類。在偏斜文本數(shù)據(jù)集上進行的實驗表明,LA、UA是較好的收縮因子。

4、自適應的加權kNN文本分類性能優(yōu)于傳統(tǒng)kNN方法及隨機重取樣方法。
   2、訓練樣本的選擇
   訓練樣本的選擇對分類器的創(chuàng)建非常重要,非典型樣本不僅增加了分類器的訓練時間,而且容易給訓練樣本集中引入一些“噪聲”。作為一種基于實例的方法,kNN分類器有大量的計算及存儲需求。同時,訓練數(shù)據(jù)分布的不均衡,也會導致kNN分類器的性能下降。針對這些缺陷,首先對MultiEdit與Condensing算法進行了改進,然后提出了特

5、征選擇與Condensing技術相結合的取樣方法。該方法分為兩步:第一步,由幾種傳統(tǒng)的特征選擇方法產生訓練集中每類訓練數(shù)據(jù)的特征;第二步,根據(jù)文檔自身的類特征,結合Condensing策略移去多余的訓練實例。大量實驗表明,該方法明顯減小了訓練集的數(shù)據(jù)量,從而降低了算法的時空消耗,改進了分類器的性能。
   3、半監(jiān)督的文本分類
   傳統(tǒng)的分類器僅使用有標簽的數(shù)據(jù)進行訓練,然而,有標簽的實例通常因昂貴、耗時而難以獲得,從

6、而造成標注瓶頸問題。半監(jiān)督學習通過大量的無標簽數(shù)據(jù)與有標簽數(shù)據(jù)相結合來創(chuàng)建性能良好的分類器,從而解決標注瓶頸問題。由于半監(jiān)督的學習需要較少的人工介入,而精確率又較高,因此無論在理論上還是實踐上都具有意義。本文在對已有的半監(jiān)督學習算法進行研究的基礎上,針對有標簽數(shù)據(jù)相當少時,無法使用統(tǒng)計方法進行標注置信度評價的情況,提出了基于kNN和SVM的二階段協(xié)同學習,實驗證實該方法是有效的。
   作為文本分類、聚類技術的應用,我們對BBS

7、的話題識別與跟蹤進行了研究。從文本挖掘的角度上來說,話題識別類似于文本聚類;而話題跟蹤類似于多類文本分類。話題識別與跟蹤,研究目標是要實現(xiàn)按話題查找、組織和利用來自多種新聞媒體的多語言信息。這類新技術是現(xiàn)實中急需的,比如:自動監(jiān)控各種信息源(如廣播、電視等),并從中識別出各種突發(fā)事件、新事件以及關于已知事件的新信息,這可廣泛用于信息安全、證券市場分析等領域。另外,還可以找出有關用戶某一感興趣話題的所有報道,研究這一話題的發(fā)展歷程等等。在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論