版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、模式分類是數(shù)據(jù)挖掘的一個重要研究分支,其任務(wù)是根據(jù)給定的特征集與類標(biāo)集訓(xùn)練一個數(shù)學(xué)函數(shù),該函數(shù)也被稱為分類器,以便對新出現(xiàn)的對象進(jìn)行類別預(yù)測。自上世紀(jì)六七十年代以來,模式分類一直受到國內(nèi)外學(xué)者的關(guān)注。然而,隨著研究的深入,近年來數(shù)據(jù)挖掘領(lǐng)域涌現(xiàn)出許多新的分類問題。例如:模型不匹配問題、不確定性問題、小樣本問題、樣本不均衡問題等等。越來越多的學(xué)者認(rèn)識到,常規(guī)的分類技術(shù)在解決這些復(fù)雜的分類問題上存在一定的難度。常規(guī)的分類技術(shù)是一種有監(jiān)督的學(xué)
2、習(xí)方式,即在完全信任特征與類標(biāo)的前提下,訓(xùn)練一個分類器,并以某種準(zhǔn)則去逼近一個函數(shù),以發(fā)現(xiàn)出一種特征與類標(biāo)之間的關(guān)系。但是,由于模型不匹配、類標(biāo)不確定性、有類標(biāo)樣本數(shù)目過少等原因,直接根據(jù)特征與類標(biāo)尋找分類函數(shù)存在一定困難,因而這種有監(jiān)督的學(xué)習(xí)方式并不適合處理復(fù)雜的分類問題。相反,基于聚類的分類方法(Clustering-Based Classfication,CBC)并不是完全相信訓(xùn)練集的類標(biāo)信息,而是通過類與簇的相互轉(zhuǎn)換,在數(shù)據(jù)的空
3、間特征與類標(biāo)信息之間尋找平衡,是一種弱監(jiān)督的學(xué)習(xí)方式。與有監(jiān)督學(xué)習(xí)方法相比,弱監(jiān)督學(xué)習(xí)方法受類標(biāo)的誤導(dǎo)程度更低,因而泛化能力更強(qiáng),更適合于處理上述復(fù)雜的分類問題。
本文著重研究的聚類樹方法是一類基于聚類的分類方法。本文以誤差界估計為理論基礎(chǔ),研究了文本聚類樹、半監(jiān)督聚類樹、主動半監(jiān)督聚類樹等具體的分類算法,來解決一些實際的應(yīng)用問題。主要研究內(nèi)容包括:⑴分析了CBC方法與傳統(tǒng)分類方法在原理上的不同,并解釋了這種弱監(jiān)督學(xué)習(xí)方式可用
4、于解決某些復(fù)雜分類問題的原因。提出了置信誤差公式,該公式可以用于預(yù)測分類誤差和優(yōu)化分類模型。⑵在基于距離度量決策的CBC模型研究中,提出了一種基于Kernel距離的DCC算法(KDCC),該算法解決了簇之間不均衡的問題。⑶針對文本數(shù)據(jù),擴(kuò)展了k-means系列算法,提出橢球k-means算法。該算法既采用更適合文本數(shù)據(jù)的余弦距離作為相似度度量,又采用一種加權(quán)機(jī)制來突出重要詞并抑制噪聲詞?;跈E球k-means算法,本文提出了一種聚類樹算
5、法,以適合文本數(shù)據(jù)的分類。⑷針對小樣本問題,提出了一種半監(jiān)督聚類樹算法,該算法根據(jù)所用聚類算法的不同,又有兩個變種,分別針對常規(guī)數(shù)據(jù)分類與文本數(shù)據(jù)分類,該算法在樣本數(shù)極少的情況下優(yōu)于目前常見的半監(jiān)督算法。⑸結(jié)合主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)思想,提出了主動半監(jiān)督聚類樹算法。此外,本論文在討論了訓(xùn)練代價和分類性能之間關(guān)系的基礎(chǔ)上,提出了一個基于性價比的主動半監(jiān)督分類系統(tǒng)。該系統(tǒng)能夠根據(jù)最優(yōu)的性價比自動終止學(xué)習(xí)過程,彌補了目前主動學(xué)習(xí)算法中沒有類似機(jī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于聚類生成樹的分類算法研究.pdf
- 面向文本流的聚類樹分類方法研究.pdf
- 基于聚類技術(shù)的網(wǎng)頁分類應(yīng)用-基于后綴樹的中文文本聚類方法.pdf
- 基于流形聚類的多分量信號參數(shù)估計及分類方法研究.pdf
- 基于聚類樹的多類標(biāo)文本分類算法研究.pdf
- 基于改進(jìn)聚類的R樹索引方法研究.pdf
- 基于模糊聚類的客戶分類方法研究.pdf
- 多類標(biāo)聚類樹分類方法優(yōu)化及并行化實現(xiàn).pdf
- 基于Chameleon聚類算法的R樹索引方法研究.pdf
- 基于無監(jiān)督?jīng)Q策樹聚類方法的研究.pdf
- 基于聚類森林的文本流分類方法研究.pdf
- 基于聚類與流形正則化的分類方法研究.pdf
- 基于生成樹基因表達(dá)數(shù)據(jù)聚類方法分析.pdf
- 基于聚類和決策樹C5分類算法的應(yīng)用研究.pdf
- 基于聚類的主題模型短文本分類方法研究.pdf
- 基于半監(jiān)督聚類的鋒電位信號分類方法研究.pdf
- 基于語義標(biāo)記樹的XML文檔聚類研究.pdf
- 詞聚類用于文本分類的方法研究.pdf
- 基于雙層聚類的用電負(fù)荷分類研究.pdf
- 基于層次聚類的中醫(yī)體質(zhì)分類研究.pdf
評論
0/150
提交評論