2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、C45決策樹工具使用說明1.簡介:本文檔給出了有關(guān)C45決策樹方法相關(guān)的一些資料,面向?qū)ο笫茄芯咳藛T。本文檔的內(nèi)容安排如下:1C45決策樹方法的使用場合描述;2C45決策樹如何訓練,即C45_VC.exe使用說明;3C45決策樹訓練結(jié)果如何在代碼中使用,即CAskC45編程說明;4C45的外圍工具簡介;5C45的原理說明;6聯(lián)系方式。2.適合用C45解決的問題C45是一種決策樹的算法,可以理解為數(shù)據(jù)挖掘算法的一種。從大規(guī)模的數(shù)據(jù)中挖掘規(guī)

2、律,這里的大規(guī)模數(shù)據(jù)一般是用屬性來描述,屬性本身可以是連續(xù)量,如語音數(shù)據(jù)的基頻值;也可以使離散量,如句子中詞的個數(shù);還可以使枚舉量,如26個詞類,聲韻母類型等。屬性分為輸入屬性,和結(jié)論屬性(或稱決策屬性)。結(jié)論屬性就是我們希望從輸入屬性中得到的結(jié)果,如希望從輸入的詞性序列中預測某個位置是不是L3邊界,或者根據(jù)前后的音調(diào)、基頻等預測當前的音節(jié)應該是哪一類的韻律曲線。結(jié)論屬性必須是枚舉量(當然包括布爾量)。而規(guī)律則以決策樹的形式來表示,其形

3、式如,在C45_VC.txt或者Screen.txt中可以看到類似的輸出結(jié)果:DecisionTree:e_lv45.8:NeiBuWen(44.0)如果n_lv值大于45.8,結(jié)論屬性應該是NewiBuWen。e_lv47.6:如果e_lv屬性值大于47.6的話|n_lv45.8:WaiBuWen(32.0)…注:n_lv=45.8:NeiWen(76.02.0)中的76.0表示到這個決策分支的有76個例子,其中2.0是錯誤的例子數(shù)目

4、。這里有可能出現(xiàn)小數(shù),這是決策樹根據(jù)概率計算過程中可能將一個例子劃分到多個子分支,每個分支算是(0.幾)個事例到此。這里同時給出關(guān)于使用C45決策樹方法的一些注意事項:1)C45是狂揉的,只要你給它輸入屬性和輸出屬性,即使輸出和輸入之間沒有任何關(guān)系,決策樹一樣可以給出很不錯的決策正確率,尤其是集內(nèi)測試正確率。2)要避免上述問題,兩個方面重要:(1)集外測試,集內(nèi)測試不說明問題。集外測試也要有一定的數(shù)目,這樣才可以得到比較可信的測試結(jié)果。

5、(2)輸入數(shù)據(jù)量,理論上訓練例子的個數(shù)應該是所有屬性空間大小的10倍。屬性空間大小計算為:每個屬性可能的取值的種類數(shù)的連乘積。比如輸入屬性是3個詞類,而每個詞類可能有32種可能,則理論上需要的訓練例子數(shù)為:323232=32768個。當然考慮到有些詞類組合不可能出現(xiàn),所需訓練例子數(shù)可以籌減。3)理論上,C45能自動排除那些不相關(guān)的屬性,但是在訓練數(shù)據(jù)稀疏的情況下,決策樹一樣會利用那些不相關(guān)的屬性,得到一些結(jié)論。所以不能一咕腦兒把所有的屬

6、性扔給決策樹,還是需要對輸入屬性與輸出屬性之間有沒有關(guān)聯(lián)進行仔細的分析。4)決策樹的結(jié)論屬性不宜太多。超過20就是很不好了,因為決策樹認為結(jié)論屬性完全如上,在輸入數(shù)據(jù)文件中,每一個訓練例占一行;在一行中,按照先因素屬性后決策屬性的順序,因素屬性按照說明先后的順序依次輸入屬性值,中間用逗號隔開,以句號結(jié)束。從上述討論可以看到,對C4.5的應用的關(guān)鍵就在于如何組織輸入的格式文件和數(shù)據(jù)文件,也就是數(shù)據(jù)的預處理。yu.tes文件格式和yu.da

7、t完全一樣,但理論上數(shù)據(jù)應該不一樣,因為一個是訓練數(shù)據(jù),一個是用于測試開放正確率。如果用到C45輔助工具:FeatureAnalysis.exe,則很可能還需要一個文件:yu.crs,這個文件格式和yu.dat還是一樣,用于交叉集的測試。訓練集:交叉集:測試集的例子數(shù)目之比一般為:4:1:1。3.2訓練過程C45的訓練過程利用C45_VC.exe。這是一個控制臺(Console)程序,其最基本的調(diào)用格式為:C45_VC.exe–fyu其

8、中f表示后面接了項目名稱,這里是yu。C45_VC.exe還支持多個參數(shù),這些參數(shù)的設置對效果有很多好處,請多加利用,下面一個一個說明,按使用頻度排序:3.2.1–f項目名后接項目名稱,注意不要.nam后綴名3.2.2–u利用訓練生成的決策樹檢測對應的.tes文件。3.2.3–s嘗試對枚舉類型的屬性進行聚類分析,比如某個屬性(記為CiLei)是詞類屬性,有:abcdef…z共26種可能,如果不用s參數(shù),則一旦用到CurrentCiLei

9、屬性,那么會把決策樹一下子生成26個子分支,而用到s參數(shù)之后,則C45_VC自動嘗試可能的詞類組合,生成的子分支可能是:||CurrentCiLei=p:1(2.01.0)||CurrentCiLeiinbeghijklruwxyznewold01(0.0)||CurrentCiLeiinacdfmnoqstvngp這樣有助于提高訓練的效果。3.2.4–m數(shù)字m后面接的數(shù)字表示當一個決策分支中必須有大于等于數(shù)字個支撐事例時才可能繼續(xù)往下

10、細分。比如m5表示,如果到這個分支的時候,還有超過5個實例,那么才嘗試是不是繼續(xù)往下分。這個參數(shù)有助于提高集外測試正確率。3.2.5–c數(shù)字c后面接的數(shù)字表示裁減到的比例,決策樹有個裁減的概念,先會生成一個完整的決策樹,然后進行裁減,裁減有助于提高決策樹的集外測試正確率,缺省裁減到25%。注意是裁減到原先的25%。后面的數(shù)字必須是整型,c5就表示裁減到原先的5%。裁減越多一般來說集內(nèi)測試正確率降低而集外測試效果上升。3.2.6–v數(shù)字輸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論