統(tǒng)計學習基礎_第1頁
已閱讀1頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1,統(tǒng)計學習基礎,卿來云中國科學院研究生院信息學院lyqing@gucas.ac.cn / lyqing@jdl.ac.cn,2,概率 vs. 統(tǒng)計,概率:研究隨機事件出現(xiàn)的可能性的數(shù)學分支,描述非確定性的正式語言基本問題:給定以一個數(shù)據(jù)產(chǎn)生過程,輸出的性質(zhì)? 統(tǒng)計推斷:處理數(shù)據(jù)分析和概率理論的數(shù)學分支,與數(shù)據(jù)挖掘和機器學習是近親基本問題:給定輸出數(shù)據(jù),該數(shù)據(jù)的產(chǎn)生過程?,數(shù)據(jù)產(chǎn)生過程,觀測到的數(shù)據(jù),概率,統(tǒng)計推斷,3,統(tǒng)計學

2、習,統(tǒng)計學 ≈ 根據(jù)數(shù)據(jù)進行推理的學科統(tǒng)計學習 ≈多元統(tǒng)計分析 + 計算統(tǒng)計學多元統(tǒng)計分析 ≈ 基于一個多元變量數(shù)據(jù)集,預測函數(shù)值計算統(tǒng)計學 ≈ 統(tǒng)計問題的計算方法 (a.k.a. 統(tǒng)計計算) + 計算繁重的統(tǒng)計方法數(shù)據(jù)挖掘 ≈ 研究數(shù)據(jù)分析,尤其是大數(shù)據(jù)量/復雜的數(shù)據(jù)集,4,學習的主要目的:預測,通過學習,得到訓練數(shù)據(jù)的某種模型然后利用該模型,預測未見過的測試數(shù)據(jù)假設測試數(shù)據(jù)與訓練數(shù)據(jù)來自相同分布,5,統(tǒng)計學習的

3、任務,概率密度估計:預測概率密度回歸:預測連續(xù)目標變量的值分類:預測離散目標變量的值其他:聚類、降維有監(jiān)督/無監(jiān)督學習有監(jiān)督學習:回歸、分類無監(jiān)督學習:概率密度估計、聚類、降維,6,統(tǒng)計學習的主要部分,模型類別參數(shù)模型、非參數(shù)模型損失函數(shù)L2損失、0-1損失、log似然損失…推廣性訓練誤差(學習)、測試誤差(預測)優(yōu)化計算,7,例:回歸,數(shù)據(jù)產(chǎn)生過程為加上 的高斯噪聲目標:用多項式模型

4、擬合 ,使得最小。,8,例:回歸(續(xù)),,,,擬合函數(shù),,樣本數(shù)據(jù)點,,9,例:回歸(續(xù)),,10,例:人臉形狀,,ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy,11,一些問題,怎樣表示誤差?(損失函數(shù))怎樣保證在未來的數(shù)據(jù)集上誤差最???(推廣性)對特定的數(shù)據(jù),應該選擇哪個模型/方法?(模型選擇、假設檢驗)

5、我們的方法在未來數(shù)據(jù)集上的誤差是多少?(誤差估計、置信帶、學習理論),12,課程目的,為計算機專業(yè)的學生快速提供廣泛的概率和統(tǒng)計背景概率統(tǒng)計統(tǒng)計學習為學習其他課程打好統(tǒng)計學基礎機器學習數(shù)據(jù)挖掘模式識別人工智能…,13,數(shù)學基礎的重要性,研究數(shù)據(jù)分析必須打好概率和統(tǒng)計基礎Using fancy tools like neural nets, boosting and support vector machines w

6、ithout understanding basic statistics like doing brain surgery before knowing how to use a band-aid.,14,教材/參考書,[AOL] Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference中譯本:《統(tǒng)計學完全教程》主要教材:內(nèi)容很全,但

7、有些部分篇幅略少,更偏向于從統(tǒng)計的角度講述Chp1-13, Chp20[ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman,The Elements of Statistical Learning – Data Mining, Inference, and Prediction中譯本:《統(tǒng)計學習基礎—數(shù)據(jù)挖掘、推理與預測》統(tǒng)計學習部分的主要教材:主要從機器學習的角度講述

8、Chp1-7[PRML] Bisshopr,Pattern Recognition and Machine Learning,15,課程內(nèi)容(1),第一部分:概率隨機變量及其概率分布概率不等式和收斂性第二部分:統(tǒng)計推斷統(tǒng)計推斷基本知識非參數(shù)估計、Bootstrap、Jackknife參數(shù)估計假設檢驗,16,課程內(nèi)容(2),第三部分:統(tǒng)計學習統(tǒng)計學習概述線性回歸核方法統(tǒng)計判決理論模型選擇和模型評估,17,作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論