大規(guī)模文本分類的若干問題研究.pdf_第1頁
已閱讀1頁,還剩140頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、文本分類是文本信息處理的基礎(chǔ)性工作,早就受到很多關(guān)注。但是,隨著社會網(wǎng)絡(luò)化的發(fā)展,大規(guī)模的甚至海量的文本信息急劇增加,導(dǎo)致文本分類問題面臨著巨大挑戰(zhàn)。本文從文本的表示和支持向量機的高效訓(xùn)練兩個方面展開了創(chuàng)新性和探索性研究:
  1.文本通常表示為單詞特征上的權(quán)值向量的形式。每個特征的權(quán)值一般用單詞在文本中出現(xiàn)的頻率及在不同文本間出現(xiàn)的次數(shù)來計算。本文在實際數(shù)據(jù)集上觀察了這些度量取值的分布特點,得到了兩個啟發(fā)式的規(guī)則:在做特征選擇時

2、,宜選擇中間頻率的特征,或者按特征頻率分為高中低三組;而傳統(tǒng)的IDF權(quán)因子可以用訓(xùn)練集上總的TF來加強。
  2.短語表達的語義比單詞更豐富,但傳統(tǒng)上是用特征選擇算法來選取一個短語子集作為文本的特征集。本文從語法分析樹的節(jié)點層次的角度來選擇短語,這種方法能夠可更好地反映短語在句子結(jié)構(gòu)中的語義地位和作用。對比實驗表明,新的表示方法提高了正例的召回率。
  3.向量空間模型的語義化改造通常都利用相鄰單詞間的語義關(guān)系,或者非相鄰甚

3、至不出現(xiàn)的單詞間的詞典語義關(guān)系。本文利用上下文中的指代關(guān)系所給出的不相鄰單詞間的語義關(guān)系來改善特征的權(quán)度量。這種增強的加權(quán)度量可以從語義層面上更準(zhǔn)確地表達特征的真實頻率。經(jīng)驗研究表明,新表示方法提高了正例的召回率。
  4.核矩陣的 cache緩沖是 SVM分解優(yōu)化求解的重要加速技術(shù)。但是傳統(tǒng)的分解算法未必總表現(xiàn)出很好的局部性特點。本文提出了一種三層工作集選擇框架,以直接控制迭代過程的局部化。結(jié)合多種工作集選擇算法,有效地實現(xiàn)了對

4、分解優(yōu)化算法進一步加速的效果。
  5.對于大規(guī)模文本分類問題,利用逐步求精的思路,把它化為兩階段來處理是一個有效策略。直觀上,兩分類問題中每類數(shù)據(jù)的分布輪廓對于分類任務(wù)才是最重要的。本文用一個平面擬合每類數(shù)據(jù),并把擬合問題轉(zhuǎn)化為一個最小包球問題。進一步注意到,若用核集優(yōu)化求解,則所產(chǎn)生的核集coreset能反映分布輪廓。對比實驗表明,在這種很小的子集上訓(xùn)練SVM分類器具有非常高的效率,也可以得到非常稀疏的解。
  6.不同

5、于前面用一個平面孤立地擬合其中一類數(shù)據(jù),進一步納入兩類數(shù)據(jù)間的分離性來建立新的平面擬合模型。即平面不僅要擬合指定類別的數(shù)據(jù),還要使得另一類數(shù)據(jù)盡量位于它的一側(cè)。實驗表明,改進的算法保持了與問題規(guī)模和維度無關(guān)的處理效率,同時具有與標(biāo)準(zhǔn)SVM類似的平均泛化能力。
  7.進一步探討另外一種結(jié)合分離性的方法。即除了要求平面擬合指定類別的數(shù)據(jù)外,不僅要求另一類數(shù)據(jù)要盡量位于它的一側(cè),還要求離該平面盡量遠(yuǎn)。實驗結(jié)果顯示,新的改進算法平均泛化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論