基于cuda的gmm模型快速訓練方法及應用_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于基于CUDA的GMM模型快速訓練方法及應用模型快速訓練方法及應用?吳奎,宋彥,戴禮榮(中國科學技術(shù)大學電子工程與信息科學系,安徽合肥,230027)摘要由于能夠很好地近似描述任何分布,GMM在模式在識別領(lǐng)域得到了廣泛的應用。GMM模型參數(shù)通常使用迭代的EM算法訓練獲得,當訓練數(shù)據(jù)量非常龐大及模型混合數(shù)很大時,需要花費很長的訓練時間。NVIDIA公司推出的CUDA技術(shù)通過在GPU并發(fā)執(zhí)行多個線程能夠?qū)崿F(xiàn)大規(guī)模并行快速計算。由此,本文提

2、出一種基于CUDA,適用于特大數(shù)據(jù)量的GMM模型快速訓練方法,包括用于模型初始化的Kmeans算法的快速實現(xiàn)方法,以及用于模型參數(shù)估計的EM算法的快速實現(xiàn)方法。文中還將這種訓練方法應用到語種GMM模型訓練中。實驗結(jié)果表明,與IntelDualCePentiumⅣ3.0GHzCPU的一個單核相比,在NVIDIAGTS250GPU上語種GMM模型訓練速度提高了26倍左右。關(guān)鍵詞:關(guān)鍵詞:GMM模型;語種識別;圖形處理單元;統(tǒng)一計算設備架構(gòu)C

3、UDAbasedFastGMMModelTrainingMethoditsApplicationWuKui,SongYan,DaiLiRong(DepartmentofElectronicEngineeringInfmationScience,UniversityofScienceTechnologyofChina,Hefei,230027,China)Abstract:Duetoitsgoodpropertytoprovideanap

4、proximationtoanydistributionGMMhasbeenwidelyappliedinthefieldofpatternrecognition.UsuallytheiterativeEMalgithmisappliedtoestimateGMMparameters.Thecomputationalcomplexityatmodeltrainingprocedurewillbecomeveryhighwhenlarge

5、amountsoftrainingdatalargemixturenumberareengaged.TheCUDAtechnologyprovidedbyNVIDIACpationcanperfmfastparallelcomputationbyrunningthoussofthreadssimultaneouslyonGPU.InthispaperafastGMMmodeltrainingimplementationusingCUDA

6、ispresentedwhichisespeciallyapplicabletolargeamountsoftrainingdata.ThefasttrainingimplementationcontainstwopartstheKmeansalgithmfmodelinitializationtheEMalgithmfparameterestimation.Furthermethisfasttrainingmethodhasbeena

7、ppliedinlanguageGMMstraining.TheexperimentalresultsshowthatlanguagemodeltrainingusingGPUisabout26timesfasteronNVIDIAGTS250whencomparedtotraditionalimplementationononeofthesingleceofIntelDualCePentiumⅣ3.0GHzCPU.Keywds:GMM

8、modelLanguageidentificationGPUCUDA1引言引言由于能夠很好地近似描述任何分布,高斯混合模型(GaussianMixtureModel,GMM)在模式識別領(lǐng)域得到了廣泛的應用。GMM模型參數(shù)通常使用迭代的EM(ExpectationMaximization)算法[1]訓練獲得。EM算法是一個迭代算法需要對模型初始化,一般采用Kmeans算法實現(xiàn)EM算法的初始化。當訓練數(shù)據(jù)量非常龐大及模型混合數(shù)很大時,模型訓

9、練需要花費很長的時間。例如,在GMMUBM(GaussianMixtureModelUniverseBackgroundModel)模型的語種識別系統(tǒng)[2]中,語種訓練樣本數(shù)非常龐大(如:NISTLRE2007包含14個大語種,對應的SDC[2]訓練矢量特征總數(shù)為68281155),模型混合高斯數(shù)多(一般為2048)計算量巨大。如果用一個CPU的單核訓練模型,那么訓3.1EM算法的矩陣表示算法的矩陣表示首先用矩陣的形式描述EM算法,以更

10、好的介紹EM算法在GPU上的實現(xiàn)過程?;旌蠑?shù)為的GMM模型的密度函數(shù)表示M為????1||iMiiiipxpx???????其中是參數(shù)集合,??1212MM??????????,,,分別是第個高斯分??iii??μ?i?i?i?i量的權(quán)重、均值向量和協(xié)方差矩陣,且,第個高斯的密度函數(shù)為:11Mii????i??????1121221|2TiiiiDipxe???????xμxμ??將所有訓練樣本集表示成矩陣形式X,樣本數(shù)為,維數(shù)為,其?

11、?1TN??XxxND中。??1212TiiiiDxxxiN??x??上述形式的GMM模型的EM算法迭代公式[6]如下??11|NnewgliiplN?????x(1)????11||NgiinewilNgiiplpl???????xxμx(2)????????11||NTgiiiiinewilNgiiplxxpl?????????xuux?(3)其中是已知的當前模??11gggggMM????????型參數(shù)估計值,,稱??????1|

12、p||gglilgiMggkikkplp????????xxx為高斯分量對訓練樣本的占有率。實lix際應用中,協(xié)方差矩陣通常取對角陣,所以式(3)又可寫為(4)??????11||NgTTiiinewnewnewilllNgiipldiagpl????????????????xxxμμx?將個高斯分量的參數(shù)表示成矩陣形式:M權(quán)重矩陣;??12M?????W均值矩陣;1TTTD??????MEANuu協(xié)方差矩陣,1TTTD????????

13、?是第個高斯分量的對角協(xié)??22212iiiiD??????i方差矩陣中對角線上的元素構(gòu)成的向量。估計模型的參數(shù),也就是去估計上面三個矩陣。定義三個統(tǒng)計累積量矩陣:權(quán)重累積量矩陣,均??12accaccaccMacc?????W值累積量矩陣,方1TTTaccaccDacc??????MEANuu差累積量矩陣及1TTTaccaccDacc?????????階占有率矩陣,NM?O其中,??1|Nglaccnnapl????x????11|N

14、glacclacclDaccnnnpl????????xx?????22211|NglacclacclDaccnnnpl????????xx?,??2221TnnnDxx??x????|gnnlpl??Ox1nN??1lM??寫成矩陣形式:??111acc???WO(5)Tacc?MEANOX(6)2Tacc?ΣOX(7)其中??2221TN??Xxx根據(jù)式(1、2、4)可以得到參數(shù)矩陣更新公式:(8)laccnewlN???laccn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論