樸素貝葉斯分類器的改進(jìn)_第1頁
已閱讀1頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、《模式識別》課程大作業(yè)1樸素貝葉斯分類器的改進(jìn)樸素貝葉斯分類器的改進(jìn)摘要摘要:樸素貝葉斯分類器是一種簡單而高效的分類器,但是它的屬性獨(dú)立性假設(shè)使其無法表示現(xiàn)實(shí)世界屬性之間的依賴關(guān)系,以及它的被動(dòng)學(xué)習(xí)策略,影響了它的分類性能。本文從不同的角度出發(fā),討論并分析了三種改進(jìn)樸素貝葉斯分類性能的方法。為進(jìn)一步的研究打下堅(jiān)實(shí)的基礎(chǔ)。關(guān)鍵詞關(guān)鍵詞:樸素貝葉斯;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò)分類器;訓(xùn)練樣本;樹增廣樸素貝葉斯1問題描述問題描述隨著計(jì)算機(jī)與信息技術(shù)

2、的發(fā)展,人類獲取的知識和能夠及時(shí)處理的數(shù)據(jù)之間的差距在加大,從而導(dǎo)致了一個(gè)尷尬的境地,即“豐富的數(shù)據(jù)”和“貧乏的知識”并存。在數(shù)據(jù)挖掘技術(shù)中,分類技術(shù)能對大量的數(shù)據(jù)進(jìn)行分析、學(xué)習(xí),并建立相應(yīng)問題領(lǐng)域中的分類模型。分類技術(shù)解決問題的關(guān)鍵是構(gòu)造分類器。分類器是一個(gè)能自動(dòng)將未知文檔標(biāo)定為某類的函數(shù)。通過訓(xùn)練集訓(xùn)練以后,能將待分類的文檔分到預(yù)先定義的目錄中。常用的分類器的構(gòu)造方法有決策樹、樸素貝葉斯、支持向量機(jī)、k近鄰、神經(jīng)網(wǎng)絡(luò)等多種分類法,在

3、各種分類法中基于概率的貝葉斯分類法比較簡單,在分類技術(shù)中得到了廣泛的應(yīng)用。在眾多的分類器的構(gòu)造方法與理論中,樸素貝葉斯分類器(NaiveBayesianClassifiers)[1]由于計(jì)算高效、精確度高。并具有堅(jiān)實(shí)的理論基礎(chǔ)而得到了廣泛的應(yīng)用。文獻(xiàn)樸素貝葉斯的原理、研究成果進(jìn)行了具體的闡述。文章首先介紹了樸素貝葉斯分類器,在此基礎(chǔ)上分析所存在的問題。并從三個(gè)不同的角度對樸素貝葉斯加以改進(jìn)。2研究現(xiàn)狀研究現(xiàn)狀樸素貝葉斯分類器(NaveB

4、ayesianClassifier)是一種基于Bayes理論的簡單分類方法,它在很多領(lǐng)域都表現(xiàn)出優(yōu)秀的性能[1][2]。樸素貝葉斯分類器的“樸素”指的是它的條件獨(dú)立性假設(shè),雖然在某些不滿足獨(dú)立性假設(shè)的情況下其仍然可能獲得較好的結(jié)果[3],但是大量研究表明此時(shí)可以通過各種方法來提高樸素貝葉斯分類器的性能。改進(jìn)樸素貝葉斯分類器的方式主要有兩種:一種是放棄條件獨(dú)立性假設(shè),在NBC的基礎(chǔ)上增加屬性間可能存在的依賴關(guān)系;另一種是重新構(gòu)建樣本屬性集

5、,以新的屬性組(不包括類別屬性)代替原來的屬性組,期望在新的屬性間存在較好的條件獨(dú)立關(guān)系。目前對于第一種改進(jìn)方法研究得較多[2][4][5]。這些算法一般都是在分類精度和算法復(fù)雜度之間進(jìn)行折衷考慮,限制在一定的范圍內(nèi)而不是在所有屬性構(gòu)成的完全網(wǎng)中搜索條件依賴關(guān)系。雖然如此,尋找條件依賴關(guān)系依然需要較復(fù)雜的算法。而通過重新構(gòu)建樣本屬性集的方式則可以避免尋找條件依賴關(guān)系,保持樸素貝葉斯分類器的簡單和直觀。事實(shí)上,屬性構(gòu)造方法一直是機(jī)器學(xué)習(xí)領(lǐng)

6、域中重要的方法之一,在決策樹、規(guī)則學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方面得到了有效應(yīng)用[6][7]。Pazzani提出了一種構(gòu)建NBC的方法:BSEJ算法,該算法是基于原有屬性的笛卡兒積來構(gòu)建新的屬性。3算法原理算法原理3.1樸素貝葉斯分類器樸素貝葉斯分類器假定特征向量的各分量間相對于決策變量是相對獨(dú)立的,并使用概率規(guī)則來實(shí)現(xiàn)學(xué)習(xí)或某種推理過程,即將學(xué)習(xí)或推理的結(jié)果表示為隨機(jī)變量的概率分布。這可以解釋為對不同可能性的信任程度。它的出發(fā)點(diǎn)就是貝葉斯定理和貝

7、葉斯假設(shè)[3]。假定隨機(jī)向量x,Θ的聯(lián)合分布密度是p(x,Θ),它們的邊際密度分別為p(x),p(Θ)。一般情況下設(shè)X是觀測向量。Θ是未知參數(shù)向量,通過觀測向量獲得未知參數(shù)向量的估計(jì)。貝葉斯定理《模式識別》課程大作業(yè)3適用于屬性可以分為獨(dú)立的子集合的情況。Kononerko提出一種采用窮盡搜索的屬性分組技術(shù),假定同一組內(nèi)的屬性之間可能是相互依賴的,但組與組之間是滿足獨(dú)立性假設(shè)的屬性集合。也就是說,獨(dú)立性假設(shè)弱化為這些屬性組之間的獨(dú)立性。

8、但是,這種算法的復(fù)雜性要遠(yuǎn)遠(yuǎn)高于樸素貝葉斯分類器,而且在現(xiàn)實(shí)世界中,屬性可以完全被分成獨(dú)立的子集合只是少數(shù)情況。4.1.2樹增廣的樸素貝葉斯分類器TAN這種結(jié)構(gòu)允許各屬性節(jié)點(diǎn)之間構(gòu)成一樹形結(jié)構(gòu),即若去掉根結(jié)點(diǎn)到各屬性節(jié)點(diǎn)之間的有向弧,各屬性節(jié)點(diǎn)之間形成樹形結(jié)構(gòu)(如圖1)。學(xué)習(xí)該模型結(jié)構(gòu)的典型方法是以條件互信息為評分函數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,學(xué)習(xí)TAN的一般過程可描述為:圖1TAN模型(1)計(jì)算各屬性節(jié)點(diǎn)間的條件互信息;(2)以屬性變量為節(jié)

9、點(diǎn),以條件互信息為節(jié)點(diǎn)之間的連接權(quán),構(gòu)造無向完全圖;(3)生成最大權(quán)張樹;(4)轉(zhuǎn)換無向的最大權(quán)張樹為有向樹;(5)從類別變量向各屬性節(jié)點(diǎn)引一條有向邊,生成TAN模型。這種方法可以增強(qiáng)樸素貝葉斯分類器的表達(dá)能力,但計(jì)算量明顯變大。4.2樸素貝葉斯分類器的提升提升方法[2](Boosting)總的思想是學(xué)習(xí)一系列分類器,在這個(gè)序列中每一個(gè)分類器對它前一個(gè)分類器導(dǎo)致的錯(cuò)誤分類例子給予更大的重視。尤其是,在學(xué)習(xí)完分類器Hk之后,增加了Hk導(dǎo)致

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論