版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、如何對網(wǎng)上的文本信息進(jìn)行分類,使Internet這個巨大分布式信息空間的無序狀態(tài)有序化,已成為文本信息處理和計算機研究領(lǐng)域亟待解決的一個問題.一般來說,由于文本集中的特征項可能多達(dá)數(shù)萬個,那么把文本表示為向量形式時,特征空間的維數(shù)也就高達(dá)數(shù)萬維,如此高維的特征向量的處理具有極高的計算復(fù)雜度,用常用的分類算法進(jìn)行處理,高維帶來的噪音會淹沒真正的對分類有用的信息,尤其是會產(chǎn)生所謂的"維數(shù)災(zāi)難問題",所以人們?yōu)樘岣叻诸愃俣?降低噪音的影響,應(yīng)
2、用降維技術(shù)處理維數(shù)災(zāi)難.現(xiàn)有的文本自動分類中的降維大多采用特征選擇的方法,選擇一些主要特征,即通過評價函數(shù)進(jìn)行降維,但通過這種方法選擇的特征項中可能還包含一些彼此相關(guān)的因素,也就是說有些特征是冗余的.降維的另外一種方式是利用映射(或變換)的方法(也稱特征提取)把原始項集映射到較低維的空間中,通過降維映射,構(gòu)造總數(shù)量較少的新特征集,其中每個特征都是原有特征的函數(shù),并通過新特征進(jìn)行識別.經(jīng)典的算法有:主成分分析和Fisher線性判別分析.但
3、這些方法都是建立在數(shù)據(jù)總體服從正態(tài)分布這個假定基礎(chǔ)之上的,而文本特征數(shù)據(jù)并不滿足正態(tài)分布假定,需要用穩(wěn)健的或非參數(shù)的方法來解決這個問題.基于上述原因,我們提出了基于投影尋蹤的中文網(wǎng)頁分類算法.該文的主要思想是:把高維數(shù)據(jù)投影到低維子空間上,尋找出最能反映原高維數(shù)據(jù)的結(jié)構(gòu)和特征的投影方向,然后將文本投影到這一方向,使高維數(shù)據(jù)降低維數(shù),通過研究降維后低維數(shù)據(jù)的散布情況來揭示高維數(shù)據(jù)的結(jié)構(gòu)特征.該文的主要創(chuàng)新點如下:(1)對數(shù)據(jù)不做正態(tài)分布等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼結(jié)構(gòu)制作中鋼板定長與不定長經(jīng)濟分析
- 不定長車牌字符分割算法研究.pdf
- C-曲線光順?biāo)惴ǖ难芯颗c實現(xiàn).pdf
- 基于不定長拼接單元的維吾爾語文語轉(zhuǎn)換系統(tǒng)的研究與實現(xiàn).pdf
- CAT3516C型柴油發(fā)電機仿真研究與實現(xiàn).pdf
- 基于March C-算法的SRAM測試設(shè)計與實現(xiàn).pdf
- 面向船舶建造的不定長原管一維下料問題研究.pdf
- 四元數(shù)矩陣方程組A-,a-X=C-,a-,XB-,b-=C-,b-,A-,c-XB-,c-=C-,c-的各種對稱解.pdf
- 不定長度漢語非特定人連續(xù)數(shù)字串語音識別研究.pdf
- C-半群的穩(wěn)定性與退化C-半群的逼近.pdf
- 高C-,3-S水泥熟料形成化學(xué)與摻雜C-,3-S結(jié)構(gòu)研究.pdf
- RCLD工藝制備C-,f--C、C-,f--C-SiC材料及其性能的研究.pdf
- 具有認(rèn)知診斷功能的CAT的研究與實現(xiàn).pdf
- C-反應(yīng)蛋白與冠心病的相關(guān)研究.pdf
- 模糊C-均值算法改進(jìn)研究.pdf
- 模糊c-均值算法的研究.pdf
- 3色Ramsey數(shù)R(C-,m-,1--,C-,m-,2--,C-,m-,3--).pdf
- 腦出血與超敏C-反應(yīng)蛋白關(guān)系的研究.pdf
- 小碳簇(C-,36-和C-,39-)的化學(xué)合成、分離與表征.pdf
- 型材定長切割系統(tǒng)研究與設(shè)計.pdf
評論
0/150
提交評論