

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著信息技術(shù)的發(fā)展,文本數(shù)據(jù)的大量產(chǎn)生和快速傳播引發(fā)了對(duì)文本分類(lèi)的要求。作為文本分類(lèi)的關(guān)鍵技術(shù)之一的特征選擇,經(jīng)典的特征選擇方法沒(méi)有考慮到詞條在類(lèi)內(nèi)分布情況,大多簡(jiǎn)單地依據(jù)閾值刪除低頻詞,而信息檢索理論認(rèn)為“高頻詞沒(méi)有低頻詞對(duì)文檔特征貢獻(xiàn)大”。
針對(duì)以上問(wèn)題,本文在對(duì)經(jīng)典的特征選擇方法TF-IDF方法進(jìn)行分析的基礎(chǔ)上,提出詞分布均衡度評(píng)價(jià)特征詞選擇方法,在此基礎(chǔ)上構(gòu)造了一個(gè)以特征向量個(gè)數(shù)作為權(quán)值的加權(quán)分類(lèi)器,最后采用基于支
2、持向量機(jī)的文本分類(lèi)算法驗(yàn)證其有效性。本文主要工作如下:
(1)概述了文本分類(lèi)技術(shù)。分析了文本分類(lèi)和支持向量機(jī)文本分類(lèi)的發(fā)展及其基本理論,以文本分類(lèi)過(guò)程為主線,對(duì)文本分類(lèi)技術(shù)進(jìn)行了分析研究,對(duì)分類(lèi)過(guò)程中關(guān)鍵技術(shù)一特征選擇方法和文本分類(lèi)算法作了詳細(xì)的分析比較;
(2)提出詞分布均衡度評(píng)價(jià)特征詞選擇方法。在對(duì)經(jīng)典的特征選擇方法中DF算法存在的問(wèn)題作詳細(xì)分析的基礎(chǔ)上,提出詞分布均衡度評(píng)價(jià)特征詞選擇方法。通過(guò)綜合考慮詞
3、條在類(lèi)內(nèi)部出現(xiàn)的概率和類(lèi)內(nèi)文檔中出現(xiàn)概率,評(píng)價(jià)該詞條在類(lèi)內(nèi)各文本中分布的均衡度,作為特征詞選擇的主要依據(jù)。特征詞分布均衡度越小,說(shuō)明在類(lèi)內(nèi)部和類(lèi)內(nèi)文檔中分布越均衡,特征詞越能代表此類(lèi)。實(shí)驗(yàn)表明該方法在分類(lèi)精度方面有了很大提高;
(3)加權(quán)分類(lèi)器的構(gòu)造。針對(duì)實(shí)驗(yàn)樣本數(shù)不均衡的情況下,導(dǎo)致實(shí)驗(yàn)分類(lèi)效果也不均衡的問(wèn)題,對(duì)分類(lèi)器構(gòu)造方法進(jìn)行了分析研究,提出了一個(gè)加權(quán)分類(lèi)器,即統(tǒng)計(jì)出每類(lèi)樣本集合的訓(xùn)練向量數(shù)目,以特征向量的個(gè)數(shù)作為權(quán)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 類(lèi)別特征詞權(quán)重加權(quán)文本分類(lèi)方法
- 文本分類(lèi)特征選取技術(shù)研究.pdf
- 面向短文本分類(lèi)的特征擴(kuò)展方法.pdf
- KNN文本分類(lèi)中特征詞權(quán)重算法的研究.pdf
- 面向文本分類(lèi)的文本特征學(xué)習(xí)技術(shù)研究.pdf
- 文本分類(lèi)的特征選擇和分類(lèi)方法研究.pdf
- 文本分類(lèi)特征選擇方法研究.pdf
- 文本分類(lèi)中特征選擇方法研究.pdf
- 文本分類(lèi)中的特征降維方法研究.pdf
- 面向文本分類(lèi)的k近鄰查詢方法研究.pdf
- 面向文本分類(lèi)的k近鄰查詢方法研究
- 基于語(yǔ)句特征提取的文本分類(lèi)方法研究.pdf
- 文本分類(lèi)中的特征選擇研究.pdf
- 短文本分類(lèi)方法研究.pdf
- 維吾爾文文本分類(lèi)中特征選擇方法的研究.pdf
- 文本分類(lèi)中特征提取和特征加權(quán)方法研究.pdf
- 基于RLS-MARS特征選擇的文本分類(lèi)方法研究.pdf
- 中文文本分類(lèi)特征選擇方法的研究與實(shí)現(xiàn).pdf
- 文本分類(lèi)中特征選擇方法研究--維吾爾語(yǔ)系.pdf
- 三網(wǎng)融合下文本分類(lèi)的特征選擇方法研究.pdf
評(píng)論
0/150
提交評(píng)論