結(jié)合先驗知識的分類器設(shè)計研究.pdf_第1頁
已閱讀1頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類器設(shè)計是模式識別系統(tǒng)的關(guān)鍵環(huán)節(jié),其目的在于根據(jù)給定的觀測或訓(xùn)練數(shù)據(jù)學(xué)習(xí)分類規(guī)則,實現(xiàn)對未見樣本的預(yù)測,并達(dá)到盡可能好的泛化或推廣性能。然而實際應(yīng)用中可資利用的訓(xùn)練數(shù)據(jù)數(shù)量有限,且往往含有噪聲,導(dǎo)致能夠正確分類訓(xùn)練數(shù)據(jù)的分類器未必能在未見或測試數(shù)據(jù)上獲得好的分類推廣性能,此時,為提高推廣性能,必須在分類器設(shè)計中盡可能多地利用與當(dāng)前分類任務(wù)相關(guān)的先驗知識(或信息)。同時,由著名的“沒有免費午餐定理(No FreeLunch Theore

2、m,NFL)”可知,不存在任何一種分類算法具有“與生俱來”的優(yōu)越性,想要獲得“最佳”分類性能,必須結(jié)合與特定分類任務(wù)相關(guān)的先驗知識。因此,分類器推廣性能=數(shù)據(jù)+先驗知識!本文通過分析發(fā)現(xiàn)最常用和有效的基于判別函數(shù)的支持向量機(jī)(Support VectorMachine,SVM)及其改進(jìn)算法在一些分類學(xué)習(xí)任務(wù)中并沒有充分利用先驗知識,性能仍有進(jìn)一步提升的空間。因此我們嘗試在其學(xué)習(xí)過程中嵌入先驗知識以進(jìn)一步提升其推廣性能。本文所結(jié)合的先驗信

3、息類型包括特征判別能力信息和樣本聚類結(jié)構(gòu)信息,所采用的結(jié)合方式包括正則化方式和改變模型刻畫的方式。本文主要貢獻(xiàn)在于:
   1)首次嘗試在分類器設(shè)計中考慮反映特征判別能力的先驗信息,并通過在SVM中結(jié)合該信息提出了結(jié)合特征判別性的SVM算法FDSVM(Feature Discrimination incorporated SVM)。SVM同等程度地懲罰各特征權(quán)值,而FDSVM約束各特征權(quán)值的懲罰程度反比于對應(yīng)的判別能力值,使具有

4、強(qiáng)判別能力的特征在學(xué)習(xí)過程中被賦予更高的重要性。實驗表明,F(xiàn)DSVM能達(dá)到優(yōu)于SVM的推廣性能,同時保持相當(dāng)?shù)挠嬎阈省?br>   2)通過在AUC-SVM(AUC-maximized SVM)中嵌入樣本對的整體聚類結(jié)構(gòu)信息提出了結(jié)構(gòu)嵌入的AUC-SVM算法SAUC-SVM(Structure-embedded AUC-SVM)。一方面,AUC-SVM僅關(guān)注與支持向量對相關(guān)的數(shù)據(jù)局部判別信息,忽略了數(shù)據(jù)分布的全局結(jié)構(gòu)信息。另一方面,

5、通過樣本采樣技術(shù)降低AUC-SVM訓(xùn)練復(fù)雜度的策略會進(jìn)一步導(dǎo)致數(shù)據(jù)整體分布信息的丟失。而SAUC-SVM通過將數(shù)據(jù)局部判別信息和全局聚類結(jié)構(gòu)信息相融合彌補(bǔ)了上述不足,進(jìn)而提升了推廣性能。實驗表明,SAUC-SVM能達(dá)到比AUC-SVM更優(yōu)的性能,并能保持相當(dāng)?shù)挠嬎阈省?br>   3)指出在基于ECOC(Error Correcting Output Codes)的多類分類器設(shè)計中,利用多個原有類組成各二類子問題中的“超類”,并將各

6、“超類”視為單個類掩蓋了由各原有類所構(gòu)成的內(nèi)在結(jié)構(gòu)信息。為此,我們將其嵌入基于ECOC的多類分類器設(shè)計中提出改進(jìn)的多類分類方法。實驗表明,改進(jìn)方法確實能夠獲得性能提升,從而驗證了在基于ECOC的多類分類器設(shè)計中利用各原有類結(jié)構(gòu)信息的有效性。
   4)提出修正的聚類假設(shè),并據(jù)此提出新的半監(jiān)督分類算法SSCCM(Semi-SupervisedClassification based on Class Membership)。通過將

7、“相似樣本共享相近類標(biāo)號”的聚類假設(shè)修正為“相似樣本共享相近類標(biāo)號隸屬度”,SSCCM允許各樣本同時屬于多個類,對應(yīng)不同的類標(biāo)號隸屬度。SSCCM返回決策函數(shù)和類標(biāo)號隸屬度函數(shù),兩者預(yù)測結(jié)果通常一致,可以相互印證,而不一致結(jié)果則可被利用以增強(qiáng)半監(jiān)督分類學(xué)習(xí)的可靠性。實驗表明,相比于基于聚類假設(shè)的半監(jiān)督分類方法,SSCCM的分類性能具有相當(dāng)?shù)母偁幜?,從而驗證了修正聚類假設(shè)的合理性。
   5)進(jìn)一步將修正聚類假設(shè)應(yīng)用于大間隔聚類中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論