2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、高斯混合模型詳解高斯混合模型詳解聚類的方法有很多種,kmeans要數(shù)最簡單的一種聚類方法了,其大致思想就是把數(shù)據(jù)分為多個堆,每個堆就是一類。每個堆都有一個聚類中心(學習的結(jié)果就是獲得這k個聚類中心),這個中心就是這個類中所有數(shù)據(jù)的均值,而這個堆中所有的點到該類的聚類中心都小于到其他類的聚類中心(分類的過程就是將未知數(shù)據(jù)對這k個聚類中心進行比較的過程,離誰近就是誰)。其實kmeans算的上最直觀、最方便理解的一種聚類方式了,原則就是把最像

2、的數(shù)據(jù)分在一起,而“像”這個定義由我們來完成,比如說歐式距離的最小,等等。想對kmeans的具體算法過程了解的話,請看這里。而在這篇博文里,我要介紹的是另外一種比較流行的聚類方法GMM(GaussianMixtureModel)。GMM和kmeans其實是十分相似的,區(qū)別僅僅在于對GMM來說,我們引入了概率。說到這里,我想先補充一點東西。統(tǒng)計學習的模型有兩種,一種是概率模型,一種是非概率模型。所謂概率模型,就是指我們要學習的模型的形式是

3、我們要學習的模型的形式是P(Y|X)P(Y|X),這樣在分類的過程中,我們通過未知數(shù)據(jù),這樣在分類的過程中,我們通過未知數(shù)據(jù)X可以獲得可以獲得Y取值的一個取值的一個概率分布,也就是訓練后模型得到的輸出不是一個具體的值,而是一系列值的概率(對應(yīng)于分類問題來說,概率分布,也就是訓練后模型得到的輸出不是一個具體的值,而是一系列值的概率(對應(yīng)于分類問題來說,就是對應(yīng)于各個不同的類的概率),然后我們可以選取概率最大的那個類作為判決對象(算軟分類就

4、是對應(yīng)于各個不同的類的概率),然后我們可以選取概率最大的那個類作為判決對象(算軟分類softsoftassignmentassignment)。)。而非概率模型非概率模型,就是指我們學習的模型是一個決策函數(shù)指我們學習的模型是一個決策函數(shù)Y=f(X)Y=f(X),輸入數(shù)據(jù),輸入數(shù)據(jù)X是多少就可是多少就可以投影得到唯一的一個以投影得到唯一的一個Y,就是判決結(jié)果(算硬分類,就是判決結(jié)果(算硬分類hardhardassignmentassign

5、ment)。)?;氐紾MM,學習的過程就是訓練出幾個概率分布,所謂混合高斯模型混合高斯模型就是指對樣本的概率密度分布進行估計,而估計的模型是幾個高斯模型加權(quán)之和(具體是幾個要在模型訓練前建立好)。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后我們可以選取概率最大的類所為判決結(jié)果。得到概率有什么好處呢?我們知道人很聰明,就是在于我們會用各種不同的模型對觀察到的事

6、物和現(xiàn)象做判決和分析。當你在路上發(fā)現(xiàn)一條狗的時候,你可能光看外形好像鄰居家的狗,又更像一點點女朋友家的狗,你很難判斷,所以從外形上看,用軟分類的方法,是女朋友家的狗概率51%,是鄰居家的狗的概率是49%,屬于一個易混淆的區(qū)域內(nèi),這時你可以再用其它辦法進行區(qū)分到底是誰家的狗。而如果是硬分類的話,你所判斷的就是女朋友家的狗,沒有“多像”這個概念,所以不方便多模型的融合。從中心極限定理的角度上看,把混合模型假設(shè)為高斯的是比較合理的,當然也可以

7、根據(jù)實際數(shù)據(jù)定義成任何分布的MixtureModel不過定義為高斯的在計算上有一些方便之處,另外,理論上可以通過增加Model的個數(shù),用GMM近似任何概率分布?;旌细咚鼓P偷亩x為:其中K為模型的個數(shù),πk為第k個高斯的權(quán)重,則為第k個高斯的概率密度函數(shù),其均值為μk,方差為σk。我們對此概率密度的估計就是要求πk、μk和σk各個變量。當求出的表達式后,求和式的各項的結(jié)果就分別代表樣本x屬于各個類的概率。3、重復上述兩步驟直到算法收斂(

8、這個算法一定是收斂的,至于具體的證明請回溯到EM算法中去,而我也沒有具體關(guān)注,以后補上)。最后總結(jié)一下,用GMM的優(yōu)點是投影后樣本點不是得到一個確定的分類標記,而是得到每個類的概率,投影后樣本點不是得到一個確定的分類標記,而是得到每個類的概率,這是一個重要信息。這是一個重要信息。GMMGMM每一步迭代的計算量比較大,大于每一步迭代的計算量比較大,大于kmeanskmeans。GMMGMM的求解辦法基于的求解辦法基于EMEM算法,因此算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論