版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨機森林定義:隨機森林是一個分類器,它有一系列的單株樹決策器h(X,?k);k=1,......來組成其中?k是獨立同分布的隨機變量。再輸入X時,每一棵樹只投一票給它認為最合適的類。在機器學習中,隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數而定構成隨機森林的基礎分類器稱為決策樹。LeoBreiman和AdeleCutler發(fā)展出推論出隨機森林的算法。這個術語是1995年由貝爾實驗室的TinKamHo所
2、提出的隨機決策森林(romdecisionfests)而來的。這個方法則是結合Breimans的“Bootstrapaggregating“想法和Ho的“romsubspacemethod““以建造決策樹的集合。隨機森林是一個組合分類器,構成隨機森林的基礎分類器是決策樹。決策樹算法決策樹可以視為一個樹狀預測模型,它是由結點和有向邊組成的層次結構。樹中包含3個節(jié)點:根節(jié)點。內部節(jié)點,終節(jié)點(葉子節(jié)點)。決策樹只有一個根節(jié)點,是全體訓練集的
3、結合。樹中的每個內部節(jié)點都是一個分裂問題,它將到達該節(jié)點的樣本按某個特定的屬性進行分割,可以將數據集合分割成2塊或若干塊。每個終結點(葉子節(jié)點)是帶有分裂標簽的數據集合,從決策樹的根節(jié)點到葉子節(jié)點的每一條路徑都形成一個類;決策樹的算法很多,例如ID3算法,CART算法等。這些算法均采用自上而下的貪婪的算法,每個內部節(jié)點選擇分類效果最好的屬性進行分裂節(jié)點,可以分為兩個或若干個子節(jié)點,繼續(xù)此過程到這可決策樹能夠將全部訓練數據準確的分類,或所
4、有屬性都被用到為止。具體步驟如下:1)假設T為訓練樣本集。2)選擇一個最能區(qū)分T中樣本的一個屬性。3)創(chuàng)建一個數的節(jié)點,它的值是所選擇的屬性,創(chuàng)建此節(jié)點的子節(jié)點,每個子鏈代表所選屬性的唯一值,適用子鏈的值進一步將樣本細分為子類。對于3)創(chuàng)建的三個子類(1)如果子類的樣本滿足預定義的標準,或者樹的這條路的剩余可選屬性集為空,為沿此路徑的新的樣本指定類別。(2)如果子類不滿足于定義的標準,或者至少有一個屬性能細分樹的路徑,設T為當前子類樣本
5、的集合,返回步驟2),以下簡單的給出二分樹的結構圖示:根節(jié)點中間節(jié)點葉節(jié)點規(guī)則1規(guī)則1規(guī)則2葉節(jié)點葉節(jié)點林的運行速度非常的塊并且不會產生過度擬合,可以根據需要來生成任意多的樹?;陔S機樹上的諸多優(yōu)點,隨機森林在當前的機器學習領域是一個新的研究熱點。隨機森林的理論基礎隨機森林之所有那么多的優(yōu)點,是因為有強大的數學知識做后盾。一個隨機森林是否能夠進行正確的分類,分類的效果如何,以及如何評價隨機森林的分類效果都有數學知識的基礎。R.F不會過度
6、擬合的保證——大數定律隨機森林的一個與眾不同的特征就是它不會產生過度擬合。那么它為什么不會產生過度擬合呢?不會產生過度擬合的理論依據是什么呢?下面解釋這一個問題。給定一系列分類器h(x,θ1),h(x,θ2),,,,,,h(x,θk)隨機取出服從隨機向量YX分布的訓練集。定義邊際函數為:))((max))(()(jxIayxIaYXhvhvmkkyjkkg?????其中I(.)是示性函數,(.)vka表示取平均。于是,邊際函數刻畫了在正
7、確分類Y下X的得票超過其他分類的最大平均得票數的程度。該值越大,表明分類器的置信度越高。泛化誤差由下式得出:)0)((???YXPmPEgYX其中,下標XY表明了概率的定義空間。在隨機森林中,)(xhk=h(x,θk)。當樹的數目很大時,它會遵循大數定律,因此樹的結構為:隨著分類樹數目的增加,由于所有的序列θi,?pE幾乎處處收斂到)0)((max))(((??????jxhyyXhpppYjYX????其中θ是對應單棵樹決策樹的隨機變
8、量,h(x,θ)是基于x和θ的輸出。這以結果解釋了為什么隨機森林不會隨著分布樹的增加而產生過擬合,但是卻有一個有限的繁華誤差值。它的依據是大數定律。在有關隨機森林的實驗中,裝袋方法和隨機特征選擇并行應用。袋裝方法的每一個新的訓練集都是在原始訓練集中通過一種叫做步步為營法隨機重復采樣得到的。應用這種方法的訓練集一般只能包含原訓練集中大約百分之六十七的樣本,其余的樣本作為袋外數據,基于新的訓練集生成樹可以充分的成長,不進行剪枝。應用袋裝方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 隨機森林
- 隨機森林綜述.pdf
- 隨機森林算法優(yōu)化研究.pdf
- 基于隨機森林的年齡估計.pdf
- 基于屬性組合的隨機森林.pdf
- 隨機森林算法研究及改進.pdf
- 基于關聯規(guī)則的隨機森林模型.pdf
- 基于隨機森林的失真圖像分類.pdf
- 隨機森林算法的優(yōu)化改進研究.pdf
- 基于改進隨機森林的推薦算法研究
- 基于Ⅳ屬性選擇的隨機森林模型研究.pdf
- 粒子群優(yōu)化加權隨機森林算法研究.pdf
- 基于改進隨機森林的推薦算法研究.pdf
- 基于隨機森林的人臉表情識別研究.pdf
- 基于隨機森林的模糊坡位劃分.pdf
- 基于組合策略的隨機森林方法研究.pdf
- 基于隨機森林的目標跟蹤算法研究.pdf
- 基于隨機森林的個人信用風險評估
- 基于隨機森林算法的土壤圖斑分解.pdf
- 基于隨機森林的船舶碰撞風險預警研究.pdf
評論
0/150
提交評論