版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1、分類和預測的基本概念2、常用分類方法3、預測方法4、分類法的準確性,第七章 分類與預測,數(shù)據(jù)庫內容豐富,蘊涵大量信息,可以用于作出智能的商務決策。分類和預測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。分類是預測分類標號(離散值),預測建立連續(xù)值函數(shù)模型。,第七章 分類與預測,許多分類和預測方法被機器學習、專家系統(tǒng)、統(tǒng)計學和神經(jīng)生物學方面的學者提出; 分類和預測的大部分算法是內存駐留
2、算法,通常假設數(shù)據(jù)量較?。?可伸縮的分類和預測技術,能夠處理大量的駐留磁盤的數(shù)據(jù); 數(shù)據(jù)分類的基本技術有:判定樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡等; 預測的方法主要有:線性的、非線性的、廣義線性回歸。,第七章 分類與預測,第一節(jié) 分類和預測的基本概念,1、 數(shù)據(jù)分類(data classification) 數(shù)據(jù)分類是一個兩步的過程: 學習:用分類算法分析訓練數(shù)據(jù); 分類:測試數(shù)據(jù)用于評估分類規(guī)則的
3、準確率。,第一節(jié) 分類和預測的基本概念,1、 數(shù)據(jù)分類 學習:建立一個模型,描述預定義的數(shù)據(jù)類集或概念集。 通過分析由屬性描述的數(shù)據(jù)庫元組來構造模型。 假設每個元組屬于一個預定義的類,由一個稱作類標 號屬性的屬性確定。 對于分類,數(shù)據(jù)元組也稱為樣本、實例或對象。 為建立模型而被分析的數(shù)據(jù)元組形成訓練數(shù)據(jù)集。 訓練數(shù)據(jù)集中的單個元組稱作訓練樣本,隨機從樣本 群中選取。,第一節(jié) 分
4、類和預測的基本概念,1、 數(shù)據(jù)分類 學習過程:,第一節(jié) 分類和預測的基本概念,1、 數(shù)據(jù)分類 分類:使用模型進行分類。首先評估分類模型的預測準確率。 保持方法是一種使用類標號樣本測試集的簡 單方法。 模型在給定測試集上的準確率是正確被模型 分類的測試樣本的百分比。,第一節(jié) 分類和預測的基本概念,1、 數(shù)據(jù)分類 分類過程:,第一節(jié) 分類和預測的基本概念,2、
5、 預測 預測:就是構造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區(qū)間。 分類和回歸是兩類主要的預測問題: 分類是預測離散或標稱值,用預測法預測類 標號為分類; 回歸勇于預測連續(xù)或有序值,用預測法預測 連續(xù)值為預測。,第一節(jié) 分類和預測的基本概念,3、分類和預測方法的評估 分類和預測的方法可以根據(jù)下列標準比較和評估: 預測的準確性:正確預測新的類標
6、號的能力; 速度:產(chǎn)生和使用模型的計算花費; 強壯性:對于給定噪聲或具有空缺值數(shù)據(jù),模型正確 預測的能力; 可伸縮性:對于給定大量數(shù)據(jù),有效構造模型的能力。 可解釋性:學習模型提供的理解的層次。,第二節(jié) 常用分類方法,判定樹歸納分類 貝葉斯分類 神經(jīng)網(wǎng)絡 其他分類方法,第二節(jié) 常用分類方法,1、判定樹歸納分類 判定樹是一個類似于流程圖的樹結構,其中每個內部節(jié)點表示在一個屬性上的測試,每個分枝
7、代表一個輸出,而每個樹葉節(jié)點代表類或類分布。樹的最頂層節(jié)點是根節(jié)點。,第二節(jié) 常用分類方法,1、判定樹歸納分類 一棵典型的判定樹如:,第二節(jié) 常用分類方法,1、判定樹歸納分類 判定樹歸納的基本算法是貪心算法,它以自頂向下遞歸的方式構造判定樹,比較著名的判定樹歸納算法ID3版本。其基本策略如: 樹以代表訓練樣本的單個節(jié)點開始; 如果樣本都在同一個類,則該節(jié)點成為樹葉,并用該類 標記; 否則,算
8、法使用信息增益的基于熵的度量作為啟發(fā)信息, 選擇能夠最好地將樣本分類的屬性。該屬性成為該節(jié)點 的“測試”或“判定”屬性。所有屬性是分類的,是離散值。,第二節(jié) 常用分類方法,1、判定樹歸納分類 對測試屬性的每個已知的值,創(chuàng)建一個分枝,并據(jù)此劃 分樣本; 算法使用同樣的過程,遞歸地形成每個劃分上的樣本判 定樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不必考慮該 節(jié)點的任何后代上; 遞歸劃分步驟僅
9、當下列條件之一成立時停止: 給定節(jié)點的所有樣本屬于同一類; 沒有剩余屬性可以用來進一步劃分樣本; 分枝沒有樣本。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯分類是統(tǒng)計學的方法,可以預測類成員關系的可能性,如給定樣本屬于一個特定類的概率。 貝葉斯分類基于貝葉斯定理。其中,樸素貝葉斯分類算法可以與判定樹和神經(jīng)網(wǎng)絡分類算法相媲美。當應用于大型數(shù)據(jù)庫時,貝葉斯分類也已表現(xiàn)出高準確率與高速度。如,Oracle 9
10、i具有貝葉斯分類、關聯(lián)規(guī)則挖掘功能。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯分類主要有: 樸素貝葉斯分類:假定一個屬性值對給定類的 影響獨立于其他屬性的值,這一假定稱作類條 件獨立。假定簡化所需計算,稱為“樸素”。 貝葉斯信念網(wǎng)絡:是圖形模型,可以表示屬性 子集間的依賴。,第二節(jié) 常用分類方法,2、貝葉斯分類 樸素貝葉斯分類舉例。 設有數(shù)據(jù)庫數(shù)據(jù)元組訓練集
11、,如表所示。類標號屬性buys_computer有兩個不同值{yes,no},因此有兩個不同的類C1和C2,分別對應于yes和no。類有9個樣本,類有5個樣本。希望分類的未知樣本為: X=(age=“<=30”,income=“medium”, student=“yes”,credit_rating=“fair”),第二節(jié) 常用分類方法,2、貝葉斯分類,第二節(jié)
12、 常用分類方法,2、貝葉斯分類 求最大化P(X|Ci)P(Ci),i=1,2。需要根據(jù)訓練樣本計算每個類的先驗概率P(Ci)有: P(buys_computer=“yes”)=9/14=0.643 P(buys_computer=“no”)=5/14=0.357,第二節(jié) 常用分類方法,2、貝葉斯分類為計算P(X|Ci),i=1,2。需要計算條件概率:P(age=“<30”|buys_computer=
13、“yes”)=2/9=0.222P(age=“<30”|buys_computer=“no”)=3/5=0.600P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.400P(student=“yes”|buys_computer=“yes”)=6/9=0.667P(student=“yes
14、”|buys_computer=“no”)=1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.400,第二節(jié) 常用分類方法,2、貝葉斯分類使用以上概率,可以得到:P(X|buys_computer=“yes”)
15、 =0.222*0.444 *0.667 *0.667=0.044P(X|buys_computer=“no”) =0.600*0.400 *0.200 *0.400=0.019P(X|buys_computer=“yes”) P(buys_computer=“yes”) =0.0
16、44*0.643=0.028P(X|buys_computer=“no”) P(buys_computer=“no”) =0.019*0.357=0.007因此,對于樣本X,樸素貝葉斯分類預測: buys_computer=“yes”,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯信念網(wǎng)絡:變量之間存在依賴的情形
17、,提供一種因果關系的圖形,可以在其上進行學習。 主要由兩部分定義: 有向無環(huán)圖 每個屬性條件概率表。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯信念網(wǎng)絡的有向無環(huán)圖和每個屬性條件概率表。,第二節(jié) 常用分類方法,3、后向傳播分類 后向傳播分類是一種神經(jīng)網(wǎng)絡學習算法。神經(jīng)網(wǎng)絡最早由心理學家和神經(jīng)生物學家提出,期望尋求開發(fā)和測試神經(jīng)的計算模擬。簡單地,神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,
18、其中每個連接都與一個權相相聯(lián)。在學習階段,通過調整神經(jīng)網(wǎng)絡的權,使得能夠預測輸入樣本的正確類標號來學習。,第二節(jié) 常用分類方法,3、后向傳播分類 神經(jīng)網(wǎng)絡學習的特點: 需要很長的訓練時間; 需要大量的參數(shù),主要靠經(jīng)驗確定,如網(wǎng)絡 拓撲; 對噪聲數(shù)據(jù)的高承受能力; 對未經(jīng)訓練的數(shù)據(jù)分類模式的能力; 訓練過的神經(jīng)網(wǎng)絡可以提取規(guī)則。,第二節(jié) 常用分類方法,3、后向傳播分類 后向傳播算法在多
19、層前饋(multilayer feed-forward)神經(jīng)網(wǎng)絡上的學習。,第二節(jié) 常用分類方法,4、其他分類方法 最臨近分類 基于案例的推理 遺傳算法 粗慥集方法,第三節(jié) 預測方法,預測連續(xù)值可以用回歸統(tǒng)計技術建模。常用預測方法有: 線性回歸 多元回歸 非線性回歸 廣義線性模型,第四節(jié) 分類法的準確性,估計分類法的準確性是重要的,這樣可以估計一個給定的分類法對未來的數(shù)據(jù)正確標號的準確率。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎第6章關聯(lián)規(guī)則趙志升
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學大綱
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設計
- 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與olap技術
- 《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復習題
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 復習題
- 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程授課進度計劃
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術復習資料
- 基于數(shù)據(jù)倉庫的OLAP與數(shù)據(jù)挖掘.pdf
- 點擊流數(shù)據(jù)倉庫與數(shù)據(jù)挖掘研究.pdf
- 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘題庫
- 基于數(shù)據(jù)倉庫的大規(guī)模數(shù)據(jù)集分類數(shù)據(jù)挖掘研究與設計.pdf
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘中數(shù)據(jù)清洗的研究.pdf
- 數(shù)據(jù)庫系統(tǒng)原理數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在its中的應用
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設計--圖書館數(shù)據(jù)倉庫系統(tǒng)分析與設計
- 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術的研究與實現(xiàn)數(shù)據(jù)分類的研究與實現(xiàn).pdf
評論
0/150
提交評論