

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、文本分類是文本信息處理的基礎(chǔ)性工作,早就受到很多關(guān)注。但是,隨著社會網(wǎng)絡(luò)化的發(fā)展,大規(guī)模的甚至海量的文本信息急劇增加,導(dǎo)致文本分類問題面臨著巨大挑戰(zhàn)。本文從文本的表示和支持向量機的高效訓(xùn)練兩個方面展開了創(chuàng)新性和探索性研究:
1.文本通常表示為單詞特征上的權(quán)值向量的形式。每個特征的權(quán)值一般用單詞在文本中出現(xiàn)的頻率及在不同文本間出現(xiàn)的次數(shù)來計算。本文在實際數(shù)據(jù)集上觀察了這些度量取值的分布特點,得到了兩個啟發(fā)式的規(guī)則:在做特征選擇時
2、,宜選擇中間頻率的特征,或者按特征頻率分為高中低三組;而傳統(tǒng)的IDF權(quán)因子可以用訓(xùn)練集上總的TF來加強。
2.短語表達的語義比單詞更豐富,但傳統(tǒng)上是用特征選擇算法來選取一個短語子集作為文本的特征集。本文從語法分析樹的節(jié)點層次的角度來選擇短語,這種方法能夠可更好地反映短語在句子結(jié)構(gòu)中的語義地位和作用。對比實驗表明,新的表示方法提高了正例的召回率。
3.向量空間模型的語義化改造通常都利用相鄰單詞間的語義關(guān)系,或者非相鄰甚
3、至不出現(xiàn)的單詞間的詞典語義關(guān)系。本文利用上下文中的指代關(guān)系所給出的不相鄰單詞間的語義關(guān)系來改善特征的權(quán)度量。這種增強的加權(quán)度量可以從語義層面上更準(zhǔn)確地表達特征的真實頻率。經(jīng)驗研究表明,新表示方法提高了正例的召回率。
4.核矩陣的 cache緩沖是 SVM分解優(yōu)化求解的重要加速技術(shù)。但是傳統(tǒng)的分解算法未必總表現(xiàn)出很好的局部性特點。本文提出了一種三層工作集選擇框架,以直接控制迭代過程的局部化。結(jié)合多種工作集選擇算法,有效地實現(xiàn)了對
4、分解優(yōu)化算法進一步加速的效果。
5.對于大規(guī)模文本分類問題,利用逐步求精的思路,把它化為兩階段來處理是一個有效策略。直觀上,兩分類問題中每類數(shù)據(jù)的分布輪廓對于分類任務(wù)才是最重要的。本文用一個平面擬合每類數(shù)據(jù),并把擬合問題轉(zhuǎn)化為一個最小包球問題。進一步注意到,若用核集優(yōu)化求解,則所產(chǎn)生的核集coreset能反映分布輪廓。對比實驗表明,在這種很小的子集上訓(xùn)練SVM分類器具有非常高的效率,也可以得到非常稀疏的解。
6.不同
5、于前面用一個平面孤立地擬合其中一類數(shù)據(jù),進一步納入兩類數(shù)據(jù)間的分離性來建立新的平面擬合模型。即平面不僅要擬合指定類別的數(shù)據(jù),還要使得另一類數(shù)據(jù)盡量位于它的一側(cè)。實驗表明,改進的算法保持了與問題規(guī)模和維度無關(guān)的處理效率,同時具有與標(biāo)準(zhǔn)SVM類似的平均泛化能力。
7.進一步探討另外一種結(jié)合分離性的方法。即除了要求平面擬合指定類別的數(shù)據(jù)外,不僅要求另一類數(shù)據(jù)要盡量位于它的一側(cè),還要求離該平面盡量遠(yuǎn)。實驗結(jié)果顯示,新的改進算法平均泛化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機器學(xué)習(xí)的大規(guī)模文本分類.pdf
- 大規(guī)模層次文本分類解決方案
- 文本分類和聚類中若干問題的研究.pdf
- 大規(guī)模層次文本分類的解決方案.pdf
- 大規(guī)模Web信息抽取與文本分類研究.pdf
- 大規(guī)模異構(gòu)環(huán)境下的文本分類算法研究及應(yīng)用.pdf
- 基于支持向量機的大規(guī)模文本分類研究與設(shè)計.pdf
- 自動文本分類若干基本問題研究.pdf
- 基于大規(guī)模人工神經(jīng)網(wǎng)絡(luò)的可擴展文本分類算法研究.pdf
- 【碩士論文】大規(guī)模平衡語料的收集分析及文本分類方法研究
- 中文文本自動分類中的若干問題研究.pdf
- 大規(guī)模定制下敏捷供應(yīng)鏈的若干問題研究.pdf
- 大規(guī)模短文本的分類過濾方法研究.pdf
- 大規(guī)模社會網(wǎng)絡(luò)可視化若干問題及算法研究.pdf
- 文本分類相關(guān)問題研究.pdf
- 科技文本分類問題的研究.pdf
- 面向大規(guī)模短文本的分類技術(shù)研究.pdf
- 文本分類和聚類若干模型的研究.pdf
- 文本情感分析若干問題研究.pdf
- 文本聚類分析若干問題研究.pdf
評論
0/150
提交評論