代價敏感支持向量機快速算法研究.pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、支持向量機是由Vapnik等人提出的一種分類算法,因其具有良好的泛化性能,在機器學習和數(shù)據(jù)挖掘領域中被研究者廣泛使用。傳統(tǒng)分類算法中假設對于屬于不同類型的樣本的錯誤分類導致的誤分代價是相同的。然而在很多實際應用中,誤分類不同類別的樣本將會產(chǎn)生不同的誤分代價,例如疾病診斷、信用卡詐騙檢測等場景即是如此。針對這一類的代價敏感問題,研究者提出了多種代價敏感算法,其中代價敏感支持向量機具有很好的性能及廣泛的適應性。本文即以代價敏感支持向量機作為

2、重點研究對象。文中取得的創(chuàng)新研究成果如下。
  (1)針對代價敏感問題,文中設計了一系列的對比實驗對于多種代價敏感算法進行了比較。實驗在十個代價敏感數(shù)據(jù)集和四個不平衡數(shù)據(jù)集上進行,并使用了總代價、AUC、F1指標和G均值等四種代價敏感問題中常用的評價指標對實驗結果進行了評估。通過對比實驗發(fā)現(xiàn)代價敏感支持向量機與其他代價敏感算法相比,具有更好的分類性能,并能夠適應多種來自不同場景的數(shù)據(jù)集。
  (2)文中首先對代價敏感支持向量

3、機提出了一種全量快速求解算法。代價敏感支持向量機與非代價敏感支持向量機類似,其求解問題本質上是二次規(guī)劃問題,因而可以采用SMO算法進行求解。文中首先對于代價敏感支持向量機的SMO算法(序列最小優(yōu)化)算法進行了理論推導和時間復雜度分析,并根據(jù)時間復雜度分析指出了SMO算法可以進一步加速的方向;隨后提出了使用隨機梯度下降方法對于SMO算法進行加速的算法框架;之后通過實驗分析,驗證了使用隨機梯度下降對SMO進行加速的有效性,并印證了之前對于S

4、MO算法時間復雜度的理論分析。
  (3)為了適應在線學習場景下的分類問題,文中提出了一種代價敏感支持向量機的多樣本增量式快速求解算法。全量算法在訓練數(shù)據(jù)集發(fā)生改變時需要對所有訓練樣本進行重新訓練,從而得到新的模型,因而在數(shù)據(jù)集不斷變化的在線學習場景下會浪費很多學習時間;而增量算法可以直接吸收新增樣本并直接更新現(xiàn)有模型,從而避免了對已有數(shù)據(jù)的重新訓練。文中首先對于代價敏感支持向量機的多樣本增量式算法進行了理論推導;隨后通過實驗研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論