版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著云計算和移動技術的發(fā)展,互聯(lián)網進入大數(shù)據時代,人們面對急劇膨脹的多媒體信息,需要有效的內容管理和快速的信息查找。分類算法通過學習已標注數(shù)據建立模型,對數(shù)據進行分類和標簽,已經廣泛應用于計算機視覺、文字識別、聲音識別、文檔歸類等領域。基于標注數(shù)據的分類算法已經走向成熟,如樸素貝葉斯、邏輯回歸、支持向量機、決策樹等。然而,這些算法都依賴于數(shù)據集規(guī)模,按照學習理論,只有樣本規(guī)模超過規(guī)定下界時,正確率才能高于臨界點;同時不平衡數(shù)據集大量存在
2、于人們的現(xiàn)實生活中,人們更關心少數(shù)類的樣本,錯分少數(shù)類所產生的代價更大。為了解決這個矛盾,本文致力于基于免疫系統(tǒng)的不平衡數(shù)據分類方法研究。借鑒人體免疫系統(tǒng)的原理和特性,研究和解決二類不平衡數(shù)據分類問題、多類不平衡數(shù)據分類問題,密度缺失下的不平衡數(shù)據分類問題,以及類內簇不平衡下的不平衡數(shù)據分類問題。
本研究主要內容包括:⑴在二類不平衡環(huán)境下,研究了基于免疫中心點的過采樣提高分類算法性能的理論和方法。在二類學習中,多數(shù)類(或負類)
3、的樣本數(shù)量比少數(shù)類(或正類)的樣本數(shù)量更多,標準分類學習算法趨于偏向多數(shù)類,造成少數(shù)類的錯分率明顯高于多數(shù)類的錯分率。本文提出的基于免疫中心點的過采樣方法(ICOTE)借鑒免疫網絡原理,經過繁殖、變異、抑制等過程,產生免疫型中心點來擴充少數(shù)類樣本,以達到樣本分布的類平衡。免疫型中心點反映少數(shù)類的分布特征,擴張后的樣本集不會改變原有樣本的形狀,防止新簇的產生,因而 ICOTE在避免過學習的同時,也克服了隨機合成采樣方法不考慮樣本空間分布的
4、問題。⑵在多類不平衡環(huán)境下,研究了基于多免疫子網絡的過采樣提高分類算法性能的理論和方法。與二類學習相比,多類學習面臨著搜索空間變大、算法復雜度升高、空間重合等新問題,往往無法簡單地把二類方法照搬到多類問題。同時,不平衡問題變得更加突出,少數(shù)類不止一個,類空間重疊現(xiàn)象更加普遍,造成傳統(tǒng)分類算法忽視少數(shù)類現(xiàn)象,更傾向降低多數(shù)類的錯分率。本文提出的基于免疫中心點的全局過采樣方法(Global-IC)借鑒免疫網絡原理,在每個少數(shù)類空間生成免疫子
5、網絡,網絡節(jié)點用來擴充少數(shù)類樣本,最終達到整個樣本分布的類平衡,促使分類算法在生成模型時,給予每個類同樣的權重,正確預測未知樣本。⑶在少數(shù)類數(shù)據密度稀疏條件下,研究基于陰性選擇的過采樣提高分類算法性能的理論和方法。與多數(shù)類樣本空間相比,少數(shù)類空間不僅樣本數(shù)量少,數(shù)據也比較稀疏,形成許多的孤立點或小簇,分類算法易于向多數(shù)類偏置。本文借鑒人體免疫系統(tǒng)的陰性選擇機制,提出非我抗原型檢測器和離散點檢測相結合,學習整個數(shù)據空間的分布特性,生成符合
6、少數(shù)類密度分布的合成樣本,擴大少數(shù)類空間的決策區(qū)域。因為盡可能多的利用樣本數(shù)據,在少數(shù)類空間生成更大或更稠密的決策區(qū)后,決策樹分類算法有足夠的分類信息,生成的決策樹能夠對未標注樣本進行正確分類。⑷在類內簇不平衡條件下,研究基于形狀的過采樣提高分類算法性能的理論和方法。不平衡問題不簡單是類間的不平衡,而是類內部有更多的“小簇”,簇間的不平衡造成預測精度變低。本文借鑒免疫網絡原理和離散點檢測,提出了基于形狀的過采樣方法(SBO)。SBO利用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于不平衡數(shù)據的分類方法研究.pdf
- 基于不平衡數(shù)據的情感分類方法研究.pdf
- 基于關聯(lián)規(guī)則的不平衡數(shù)據分類方法研究.pdf
- 不平衡數(shù)據分類問題研究.pdf
- 數(shù)據不平衡分類問題研究.pdf
- 基于集成學習的不平衡數(shù)據分類.pdf
- 不平衡數(shù)據集分類問題研究.pdf
- 半監(jiān)督不平衡數(shù)據的分類.pdf
- 不平衡數(shù)據集分類算法的研究.pdf
- 不平衡數(shù)據的最優(yōu)分類閾值研究.pdf
- 基于不平衡數(shù)據集的數(shù)據挖掘分類算法研究.pdf
- 基于過抽樣技術的不平衡數(shù)據分類研究.pdf
- 不平衡數(shù)據集分類的Random-SMOTE方法研究.pdf
- 面向不平衡數(shù)據的支持向量機分類方法研究.pdf
- 基于支持向量機的不平衡數(shù)據分類方法研究與應用.pdf
- 基于Fisher判別技術的不平衡數(shù)據分類算法研究.pdf
- 基于少數(shù)類樣本重組的不平衡數(shù)據分類研究.pdf
- 基于均衡采樣方法的數(shù)據不平衡問題研究.pdf
- 關聯(lián)分類改進及不平衡數(shù)據分類算法研究.pdf
- 基于不平衡數(shù)據集的文本分類技術.pdf
評論
0/150
提交評論