預(yù)備知識(shí)-東北大學(xué)數(shù)學(xué)系_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、《統(tǒng)計(jì)學(xué)基本概念與方法》,孫 平東北大學(xué)數(shù)學(xué)系,plsun@mail.neu.edu.cn,2.參數(shù)估計(jì),1.預(yù)備知識(shí),,,,3.假設(shè)檢驗(yàn),4.方差分析,5.回歸分析,統(tǒng)計(jì)學(xué) ( Statistics ) 是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進(jìn)行推斷的藝術(shù)與科學(xué)。 ———— 《大英百科全書》,(數(shù)理) 統(tǒng)計(jì)學(xué)中的數(shù)據(jù)都是隨機(jī)數(shù)據(jù)。統(tǒng)計(jì)學(xué)的任務(wù)就是在隨機(jī)性中去尋找

2、規(guī)律。,統(tǒng)計(jì)學(xué)理論主要包含三個(gè)部分:1.數(shù)據(jù)收集,2.數(shù)據(jù)分析,3.由數(shù)據(jù)做出決策。,(一). 統(tǒng)計(jì)學(xué)的基本概念,統(tǒng)計(jì)學(xué)中把所研究的對(duì)象全體稱為總體,總體中的每一個(gè)元素稱為一個(gè)個(gè)體。,總體與個(gè)體都用數(shù)量指標(biāo)來表示,1. 總體與個(gè)體 (population),即使面臨的是一個(gè)定性的實(shí)際問題,也必須把有關(guān)的資料定量化。,一. 預(yù)備知識(shí),但同時(shí)在直觀上又認(rèn)為、或者希望做到:抽取出的每個(gè)個(gè)體 (樣本) 都充分蘊(yùn)涵總體信息。,從總體中取出

3、一個(gè)個(gè)體,稱為從總體中得到一個(gè)樣本。,2. 樣本 (sample),統(tǒng)計(jì)學(xué)的目的就是從樣本去得出總體的信息。,由于各種原因與實(shí)際條件的限制,不可能得到一個(gè)總體中所有個(gè)體的數(shù)據(jù)。即樣本總是總體的一小部分。,,,,被研究的對(duì)象全體,具有代表性的 部分個(gè)體,總體,樣本,,,,,,,,,,,,,,,,,,,,,……..,,,,獨(dú)立同分布的樣本稱為簡(jiǎn)單隨機(jī)樣本。,總體被認(rèn)為是一個(gè)服從某種概率分布 F 的隨機(jī)變量。,樣本是和總體隨機(jī)變量有相同

4、分布 F 的隨機(jī)變量,樣本的個(gè)數(shù)稱為樣本容量, n 。,總體分布 F 可以是未知的, 非參數(shù)統(tǒng)計(jì)學(xué),總體分布 F 的類型已知,但是含有一些未知的參數(shù)。 參數(shù)估計(jì),(二). 數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容,1. 抽樣理論:介紹如何收集數(shù)據(jù)。主要 抽樣方法,樣本容量的確定,抽樣誤差, 敏感問題等,2. 參數(shù)估計(jì):如何根據(jù)數(shù)據(jù)得到總體參數(shù) 信息。點(diǎn)估計(jì)、區(qū)間估計(jì),Bayes 估計(jì)等,3. 假設(shè)檢驗(yàn): 如何對(duì)關(guān)于總

5、體的一些假設(shè) 做出決策。正態(tài)總體參數(shù)的檢驗(yàn),分布擬合 檢驗(yàn),秩檢驗(yàn),列聯(lián)表,統(tǒng)計(jì)決策等理論,4. 方差分析與回歸分析:變量之間的效應(yīng) 關(guān)系。 方差分析 — 分類變量與數(shù)值變量的效應(yīng)關(guān)系 回歸分析 — 研究數(shù)值變量之間的效應(yīng)關(guān)系,5. 多元分析: 研究若干個(gè)變量之間的關(guān)系 聚類分析、判別分析、主成分分析、 因子分析、典型相關(guān)分析等等,例1.

6、1 希望了解某所高校學(xué)生月消費(fèi)情況。,解決方法:從這所大學(xué)里隨機(jī)地調(diào)查有代表性的一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)生每個(gè)月支出費(fèi)用的有關(guān)信息。,1. 如何得到樣本 ?,不同家庭背景學(xué)生的比例應(yīng)該各占多少?樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)查怎么辦?,抽樣調(diào)查,2. 如何確定總體的分布 ?,這里的總體是這所大學(xué)的學(xué)生月支出費(fèi)用,我們不妨認(rèn)為學(xué)生月支出費(fèi)用是一個(gè)服從正態(tài)分布的隨機(jī)變量。,根據(jù)經(jīng)驗(yàn)或者是所討論的問題的實(shí)際

7、背景,總體的分布類型一般可以事先確定下來。,( 不同學(xué)校對(duì)應(yīng)的這兩個(gè)參數(shù)也就不相同 ),即,總體隨機(jī)變量 X ~ N (?,?2 ) ,而這個(gè)學(xué)校相應(yīng)的兩個(gè)參數(shù) ? 與 ? 2 是未知的。,Remark 當(dāng)不知道或者難以確定總體的分布類型時(shí),在統(tǒng)計(jì)學(xué)中常常采用下面兩種辦法來近似得到總體分布的有關(guān)信息。,(1). 直方圖的方法,只適用連續(xù)總體,得到的是總體密度函數(shù)近似。,把收集到的 n 個(gè)數(shù)據(jù) x1,x2 ,…,x

8、n 從小到大排列: x(1) ≤ x(2) ≤ … ≤ x(n) ;其次取區(qū)間 (a,b),包含全部數(shù)據(jù) a < x(1) ,x(n) < b ;,把 (a,b) 等分成若干小區(qū)間,計(jì)算每個(gè)小區(qū)間中包含的數(shù)據(jù)的頻率。,x(1) x(n),根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,則當(dāng) n 充分大時(shí),這些小區(qū)間上矩形的面積將近似于總體的概率密度函數(shù)下曲邊梯形的面積。

9、,,,,(2). 經(jīng)驗(yàn)分布函數(shù)的方法,構(gòu)造一個(gè)分布函數(shù),得到的是總體分布函數(shù) F (x) 的近似。,Fn (x) =,0, x ≤ x(1) — , x(k) < x ≤ x(k+1) 1, x > x(n),,這個(gè)函數(shù)實(shí)際上是觀察值 x1,…,xn中小于 x 的頻率,即 Fn (x) = { x1,…,xn中小于 x 的個(gè)數(shù)} / n,k n,,,O,x,y,,,,,,○,

10、○,x(1),x(2),x(3),1/n,2/n,可以證明,經(jīng)驗(yàn)分布函數(shù) Fn (x) 將依概率、甚至是幾乎處處收斂到 F (x) 。,…,3. 如何從樣本得出總體的信息 ?,樣本是一組與總體獨(dú)立、同分布的隨機(jī)變量,我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。,調(diào)查一個(gè)學(xué)生得到了一個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了一次隨機(jī)試驗(yàn)而觀察到了這個(gè)隨機(jī)變量的具體取值。,一共有 n 個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了 n 次獨(dú)立重復(fù)試驗(yàn),而得到了這個(gè)總體隨機(jī)變

11、量在這些試驗(yàn)中的具體取值。,利用樣本觀察值去估計(jì)出總體的未知參數(shù),直觀上可以利用調(diào)查到的 n 個(gè)學(xué)生的月支出 x1 ,x2 ,…,xn 的算術(shù)平均 :,去估計(jì)這所學(xué)校學(xué)生的平均月支出費(fèi)用 ? 。,它的合理性在哪? 還有沒有其它的辦法? 這些不同的方法各有什么樣的優(yōu)缺點(diǎn)?,數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一,參數(shù)估計(jì),事先提出一個(gè)假設(shè),利用樣本觀察值去檢驗(yàn)這個(gè)假設(shè)是否可以被接受,假設(shè)檢驗(yàn),假定學(xué)校要制定相關(guān)一些政策,

12、如獎(jiǎng)學(xué)金、貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營(yíng)的價(jià)格等等。,共同關(guān)心的一些問題,比如說: ? > ?0 ? 這里 ?0 是一個(gè)已知的常數(shù)。,數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一,應(yīng)該如何去做這個(gè)檢驗(yàn)?,一種想法是:既然已經(jīng)通過參數(shù)估計(jì)得到了這個(gè)學(xué)校學(xué)生月平均支出 ( 即總體的參數(shù) ? ) 的估計(jì)值,自然就可以用它代替假設(shè)里的 ? 去做檢驗(yàn): 當(dāng)估計(jì)值比

13、?0 大就接受這個(gè)假設(shè),否則就拒絕,但是這樣的風(fēng)險(xiǎn)很大:樣本總是隨機(jī)得到的,因此估計(jì)值與真實(shí)值之間不可避免地存在著隨機(jī)誤差。,傳統(tǒng)的方法是:給出一個(gè)區(qū)域 (拒絕域),如果估計(jì)值落在這個(gè)區(qū)域內(nèi),就拒絕原來的假設(shè),否則就接受。,除了對(duì)總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)檢驗(yàn)問題,例如:,關(guān)于總體分布的檢驗(yàn),檢驗(yàn)得到的樣本數(shù)據(jù)是不是來自于某個(gè)事先給出的總體,獨(dú)立性的檢驗(yàn),檢驗(yàn)一些分類變量之間是否是獨(dú)立的,例如: 抽煙與肺癌,

14、睡覺打鼾與心臟病…,分布擬合檢驗(yàn),關(guān)于數(shù)據(jù)差異的檢驗(yàn),主要希望了解兩組或多組數(shù)據(jù)間的差異究竟是來自于隨機(jī)性,還是總體間的確存在差異?,例如: 小兒麻痹癥、SARS疫苗的研制, 越戰(zhàn)期間美國(guó)的征兵計(jì)劃, …,以及我們?cè)诳茖W(xué)研究、工程實(shí)踐、社會(huì)調(diào)查等等得到的數(shù)據(jù),討論數(shù)值變量之間的效應(yīng)關(guān)系問題,比如說,想了解兒子身高與父親身高之間的關(guān)

15、系。 在每個(gè)被調(diào)查的家庭中同時(shí)獲得這兩個(gè)變量的觀察值,分析它們是否有某種(函數(shù))關(guān)系,…,一元線性回歸,多元線性回歸,例如,鋼的去碳量與不同礦石、融化時(shí)間、煉鋼爐體積等等是否有關(guān)?關(guān)系如何?…,數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一,回歸與相關(guān)分析,討論分類變量與數(shù)值變量之間的關(guān)系,比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。 是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?如果偏高,這種差異是否是純屬偶然原因,…,單因素方差分析,數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一,

16、方差分析,雙因素方差分析,希望了解操作人員和設(shè)備這兩個(gè)因素聯(lián)合對(duì)質(zhì)量的關(guān)系。各自單獨(dú)是否有影響?交互效應(yīng)如何?…,簡(jiǎn)單的說,從概率論的角度出發(fā), 可以把上述數(shù)理統(tǒng)計(jì)學(xué)的過程理解成:,,,有一個(gè)含有未知信息的概率分布 F,針對(duì) F 做了 n 次獨(dú)立重復(fù)的試驗(yàn)與觀察,得到 n 個(gè)獨(dú)立同分布于 F 的隨機(jī)變量的取值,根據(jù)樣本的具體觀察值,去推斷出總體 F 所包含的未知信息,或作出進(jìn)一步的決策等,例1.2. 如何分析

17、與處理變量的關(guān)系?,分類變量:如性別、信仰、職業(yè)等等,順序變量:如名次(第一、第二,…),數(shù)值變量:如收入、比例、產(chǎn)量等等,,簡(jiǎn)單 復(fù)雜,Remark 可以把復(fù)雜的變量簡(jiǎn)化為簡(jiǎn)單變量,反之不行 數(shù)值變量 ? 順序變量 ? 分類變量,變量組合與相應(yīng)的統(tǒng)計(jì)分析方法,因變量 y,自變量 x 分類變量 順序變量 數(shù)值變量分類變量 卡方分析 ?

18、 回歸與相關(guān)順序變量 ? 秩方法 ?數(shù)值變量 方差分析 ? 回歸與相關(guān),,,,,把兩個(gè)變量分別作為橫軸和縱軸描出散點(diǎn),散點(diǎn)圖(Scatterplot),散點(diǎn)圖在簡(jiǎn)化數(shù)據(jù)的同時(shí),能夠保留原始數(shù)據(jù)的信息。,(三). 變量的統(tǒng)計(jì)圖表示,例1.3. 下面是 24 對(duì)夫妻的數(shù)據(jù),有兩個(gè)變量:結(jié)婚時(shí)間和一年內(nèi)的吵架次數(shù)。,結(jié)

19、婚年數(shù) 5 2 4 1 3 6 5 8 3 7 3 9爭(zhēng)吵次數(shù) 10 20 16 15 9 6 8 5 10 7 8 6,結(jié)婚年數(shù) 10 15 13 20 16 25 22 14 15 19 17 20爭(zhēng)吵次數(shù) 5 3 4 2 4 1 3 3 4 3 3

20、 2,,,,,結(jié)婚時(shí)間與吵架次數(shù)的散點(diǎn)圖,(2). 時(shí)間序列圖,特殊散點(diǎn)圖,以時(shí)間作為橫軸的變量,時(shí)間序列圖能夠反映出一個(gè)變量隨著時(shí)間而變化的趨勢(shì)。,蘇格蘭羊,總體 X 的分布函數(shù) F 含有未知的參數(shù) ? ,? 所有可能的取值范圍稱為“參數(shù)空間”,記為? 。 從這個(gè)總體中抽取了一組樣本 X1,…,Xn ,相應(yīng)的樣本觀察值是 x1,…,xn 。 應(yīng)該如何估計(jì)出 ? 的具體數(shù)值?,點(diǎn)

21、估計(jì)就是利用樣本構(gòu)造一個(gè)合理的統(tǒng)計(jì)量: g (X1,…,Xn ) ;用它的觀察值 g(x1,…,xn ) 去作為作為 ? 的估計(jì)值。,二. 參數(shù)估計(jì),你可以用這組數(shù)據(jù)中的任何一個(gè),或者樣本均值,或者是樣本中位數(shù)等,作為 ? 的估計(jì)值。,例2.1 甲同學(xué)在一個(gè)體重儀上稱她的體重,假定 這個(gè)體重儀沒有系統(tǒng)誤差,每次稱量的結(jié)果 是真實(shí)重量? 加上一個(gè)隨機(jī)誤差 ?k 。一般認(rèn)為 ?k ~ N (0,?

22、2 ) ,因此 n 次稱量的結(jié)果 Xk = ? + ?k ~ N (?,?2 ),矩估計(jì): 用樣本的有關(guān)矩去作為總體有關(guān)矩的 估計(jì)。即樣本均值作為總體期望的估計(jì); 樣本方差作為總體方差的估計(jì);樣本中位數(shù) (或眾數(shù)) 作為總體中位數(shù)( 或眾數(shù) ) 的估計(jì)等 。,極大似然估計(jì): 所有情況中 “看起來最象” 的那個(gè)估計(jì),常用的點(diǎn)估計(jì)方法,例2.2. 假定盒子里黑、白球共 5 個(gè),但是

23、 不知道黑球具體數(shù)目?,F(xiàn)在隨機(jī)有放回抽取 3 個(gè)小球,發(fā)現(xiàn)是兩個(gè)黑球和一個(gè)白球。 問盒子里最可能有幾個(gè)黑球?,解:盒子里黑白球所有的可能有六種: 5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑,以 p 記盒子里黑球所占的比例,則 p 全部可能的值是: { 0,—, —, —,—,1 },1 2 3 4 5 5 5

24、 5,定義三個(gè)統(tǒng)計(jì)量 X1,X2,X3 表示抽樣結(jié)果:取到黑球記為 1 ,否則記為 0 。因此X1,X2,X3獨(dú)立同分布于參數(shù) p 的兩點(diǎn)分布。 例題中的三個(gè)樣本觀察值 x1,x2 ,x3 有兩個(gè)取值是 1,一個(gè)取值為 0。,而樣本的聯(lián)合分布律顯然是L(x, p) = px1+x2+x3 (1 - p )3 - x1 - x2 - x3= p2 (1 - p ),它的含義是:當(dāng)盒中黑球比例為 p 時(shí),隨機(jī)事件“

25、有放回取出的三個(gè)小球中有兩個(gè)黑球、一個(gè)白球”的概率。,對(duì)應(yīng)于參數(shù)空間中不同的 p ,樣本分布 L(x, p) = p2 (1 - p ) 所對(duì)應(yīng)的這些概率是:,□,p 0,— , — , — ,— ,1 L(x, p) 0,— , — , — ,— ,0,1 2 3 4 5 5 5 5,4 1

26、2 18 16 125 125 125 125,,,既然“ 三個(gè)小球中包含兩個(gè)黑球 ” 是已經(jīng)發(fā)生了的隨機(jī)事件,因此使得這個(gè)事件發(fā)生概率取最大的那個(gè)值就是未知參數(shù) p 最有可能的取值 。 即 p 的極大似然估計(jì)就是 3/5 。,三. 假設(shè)檢驗(yàn),(一). 假設(shè)檢驗(yàn)的思想,它是如下的一種統(tǒng)計(jì)推斷:,對(duì)于一個(gè)統(tǒng)計(jì)模型,我們提出一個(gè)假設(shè),根據(jù)抽取到的樣本

27、,來作出是接受還是拒絕這個(gè)假設(shè)。,小概率事件在一次試驗(yàn)中不應(yīng)該發(fā)生。,有一種飲料由 Tea 和 Milk 混合而成,按照順序的不同,分為 TM、 MT 兩種,,有位女士聲稱她有能力品嘗出是 TM 還是MT 。,為了檢驗(yàn)她的說法是否可信,準(zhǔn)備 8 杯飲料, TM 和 MT 各一半,并且把這一點(diǎn)告訴她。 現(xiàn)在隨機(jī)的讓這位女士品嘗,指出哪些是 TM , 最終的結(jié)果是她全部說對(duì)了。,女士品茶,R.A

28、.Fisher 的推理過程如下:,引進(jìn)一個(gè)假設(shè),,H0 :這位女士沒有鑒別能力,如果 H0 是正確的,她只能隨機(jī)從 8 杯飲料中猜測(cè) 4 杯說是 TM 。全部猜對(duì)的概率為: — = — ≈0.014,現(xiàn)在她正確的說出了全部的 TM,要解釋這種現(xiàn)象,只能有下面兩種可能:,1 1 C84 70,H0 不成立,即:她的確有鑒別能力;(2) H0 成立,意味

29、著一件概率為 0.014 的 隨機(jī)事件在一次試驗(yàn)中發(fā)生了。,Fisher 認(rèn)為,隨機(jī)試驗(yàn)的結(jié)果(或樣本) 構(gòu)成不利于假設(shè) H0 的顯著性證據(jù),因此應(yīng)該否定H0 。,這種推理過程就稱為:顯著性檢驗(yàn),顯著性是統(tǒng)計(jì)意義上的顯著,意思是一個(gè)小概率事件是否發(fā)生。,一個(gè)概率不到 2% 的隨機(jī)事件在一次試驗(yàn)中發(fā)生了,這是比較稀奇或者說不太可能的。,思考 假如這位女士只說對(duì)了 3 杯 ?,一個(gè)人純粹靠隨機(jī)的猜測(cè),能夠說對(duì)至少

30、 3 杯的概率 ( 即 H0 成立的情況下,出現(xiàn)這種試驗(yàn)結(jié)果的可能性 ) : ———— = — ≈0.243,顯然我們不會(huì)對(duì)一個(gè)概率接近 25% 的隨機(jī)事件在一次試驗(yàn)中發(fā)生而感到驚訝。 試驗(yàn)結(jié)果并沒有提供不利于H0 的顯著性證據(jù),因此不能否定零假設(shè) ,而應(yīng)該接受H0 ,即應(yīng)該認(rèn)為這位女士沒有鑒別能力 。,1+ C43 C41 17 C84

31、 70,(二). 假設(shè)檢驗(yàn)的基本過程,例3.2. 當(dāng)包裝機(jī)器正常工作時(shí),每袋葡萄糖 的重量應(yīng)該是一個(gè)服從均值 0.5 kg,標(biāo)準(zhǔn)差 0.015 kg的隨機(jī)變量。有一天隨機(jī)地抽取了 9 袋包裝好的產(chǎn)品,測(cè)量出它們的平均重量 是 0.511 kg,問這臺(tái)包裝機(jī)器是否正常工作?,(假定即使工作異常標(biāo)準(zhǔn)差也不會(huì)改變),1. 提出一個(gè)統(tǒng)計(jì)假設(shè),根據(jù)題意每袋產(chǎn)品重量 X ~ N (?,0.0152 )

32、, 如果機(jī)器正常工作,應(yīng)該是 ? = 0.5 ,反之應(yīng)該是 ? ≠ 0.5 。,因此首先提出統(tǒng)計(jì)假設(shè):,假設(shè)檢驗(yàn)的任務(wù)就是要根據(jù)抽取出的樣本,來決定是接受零假設(shè),還是拒絕零假設(shè) ( 接受對(duì)立假設(shè) ) 。,H0:? = ?0 ( = 0.5 ) ? H1:? ≠ ?0 (≠ 0.5 ),2. 選取一個(gè)合適的檢驗(yàn)統(tǒng)計(jì)量,它的分布當(dāng)零假設(shè)成立時(shí)應(yīng)該是已知的,而且一般是從待檢驗(yàn)的總體參數(shù)的良好的點(diǎn)估計(jì)中去尋找。,在例題中需要

33、檢驗(yàn)的是總體期望 ? ,因此考慮樣本均值,,零假設(shè)成立時(shí) (? = 0.5 ) 則有:,3. 利用零假設(shè)成立時(shí)檢驗(yàn)統(tǒng)計(jì)量的 分布構(gòu)造出一個(gè)小概率事件,這個(gè)小概率就是給定的顯著性水平(也稱檢驗(yàn)水平),而這個(gè)小概率事件就是零假設(shè)的拒絕域,并且拒絕域必須和對(duì)立假設(shè)有關(guān):零假設(shè)的拒絕域相當(dāng)于對(duì)立假設(shè)的接受域 。,在例題中由于樣本均值是總體期望 ? 的一個(gè)良好的點(diǎn)估計(jì),因此零假設(shè)成立(? = 0.5 )時(shí),偏差

34、 應(yīng)該比較小,不能夠太大。,而如果 比較大時(shí),自然我們會(huì)認(rèn)為零假設(shè)不成立,所以應(yīng)該接受對(duì)立假設(shè)。所以零假設(shè) (? = 0.5 ) 的拒絕域的形式就是 :,根據(jù)檢驗(yàn)統(tǒng)計(jì)量的分布, 有:,這個(gè)常數(shù) z0 就可以取為 u?/2,統(tǒng)計(jì)量| z | = > 某個(gè)常數(shù) z0,4. 代入樣本觀察值,如果使得這個(gè)小概率 事件發(fā)生,就否定零假設(shè)而去接受對(duì)立

35、 假設(shè)。否則說明樣本沒有提供否定零假設(shè) 的顯著性證據(jù),因此應(yīng)該接受零假設(shè)。,在這個(gè)例題里,檢驗(yàn)統(tǒng)計(jì)量 | z | = ———— = 2.2, H0:? = ?0 ( = 0.5 ) ? H1:? ≠ ?0 (≠ 0.5 ) 的顯著水平? 的拒絕域就是 { 2.2 >u?/2 }。,3×0.011 0.015,假設(shè)檢驗(yàn)?zāi)J(rèn)的顯著水平是? =0.05,(1) 如果取? = 0.05

36、,則2.2>常數(shù) z0 = 1.96 ,說明 一個(gè)概率為0.05 的隨機(jī)事件發(fā)生了,樣本提供 了機(jī)器異常的顯著證據(jù),應(yīng)該否定零假設(shè);(2) 如果取 ? =0.01,則2.2<常數(shù) z0 = 2.575 ,說 明一個(gè)概率0.01的隨機(jī)事件沒有發(fā)生,樣本沒有 提供機(jī)器異常的顯著證據(jù),應(yīng)該接受零假設(shè)。,在不同的顯著水平下,可以導(dǎo)致最終得出的檢驗(yàn)結(jié)論完全不同。這個(gè)現(xiàn)象說明了顯著水平? 對(duì)于 H0的保護(hù):? 越小越不容易

37、否定零假設(shè)。,□,(三). 卡方 檢驗(yàn),如果一組樣本 X1,…,Xn 來自分布 F,需要檢驗(yàn)是如下問題: H0:F = F0 ? H1:F ≠ F0,從理論上來說無論 F 是離散還是連續(xù)分布,卡方檢驗(yàn)都可以處理;不過它更適用于離散的總體,對(duì)于連續(xù)的總體 F ,采用 Kolmogrov 檢驗(yàn)更好。,K.Pearson 的擬合優(yōu)度檢驗(yàn)思想,在實(shí)數(shù)軸上取 m 個(gè)點(diǎn)把 R1 分成 m + 1 個(gè)部分

38、,以 vi 表示落在第i 個(gè)區(qū)間里的樣本個(gè)數(shù),pi 是總體隨機(jī)變量 X 在這個(gè)區(qū)間中的概率:,,x,t1 t2 t3 … tm,,,,,x(1) … … x(n),,,,,,,,當(dāng)零假設(shè) H0:F = F0 成立時(shí)pi 可以計(jì)算出: pi = F0(ti )

39、- F0(ti - 1 ) ,1 ≤ i ≤ m + 1; 這里 F0 (t0 ) = 0,F(xiàn)0(tm +1 ) = 1 n 充分大時(shí),頻率 vi/n 與概率 pi 應(yīng)該相當(dāng)接近, 因此如果零假設(shè)成立則統(tǒng)計(jì)量:,應(yīng)該偏小,反之則可以否定零假設(shè) H0:F = F0 。 1900年K.Pearson 證明了極限分布 K2 ??2(m), 因此 H0 的一個(gè)水平? 拒絕域近似

40、為 K2 >??2(m) 。,總體 X 只可能取有限個(gè)值ai ,1 ≤ i ≤ k 。相應(yīng)地,樣本 X1,…,Xn中取值為ai 的個(gè)數(shù)為vi ,1 ≤ i ≤ k 。需要檢驗(yàn): H0:P { X = ai} = pi ,1 ≤ i ≤ k,取檢驗(yàn)統(tǒng)計(jì)量:,則H0 的一個(gè)水平? 檢驗(yàn)的拒絕域?yàn)?K2 >??2(k - 1),例3.3. Mendel 的遺傳學(xué)例子,Mendel 研究豌豆時(shí)發(fā)現(xiàn)豌豆有兩

41、種特性:圓與皺、黃與綠,他觀察了 556 顆豌豆:,圓黃 皺黃 圓綠 皺綠 (總數(shù))315 101 108 32 (556),而根據(jù)他的遺傳學(xué)理論,Mendel 認(rèn)為這些組合關(guān)系應(yīng)該有理論上的概率:,,,圓黃 皺黃 圓綠 皺綠 (概率)9/16 3/16 3/16

42、1/16 (1),,,解. 總體分布的 k = 4,對(duì)應(yīng) K2 統(tǒng)計(jì)量為:,□,?0.052(3)=7.815,?0.902(3)=0.584,?0.952(3)=0.352 甚至在水平0.90下都可以接受零假設(shè),即認(rèn)為Mendel 的遺傳學(xué)理論是正確的。,從p-值的角度擬合優(yōu)度 p = P {?2(3) >0.47 }這個(gè)值是0.9254 ,理論分布與實(shí)際數(shù)據(jù)相當(dāng)吻合。,四. 方差分析,方差分析針

43、對(duì)方差相同的多個(gè)正態(tài)總體,檢驗(yàn)它們的均值是否相同。 即, 同時(shí)判斷多組數(shù)據(jù)均值之間差異是否顯著,方差分析 ( Analysis of Variance,ANOVA ) : 研究一個(gè)(或多個(gè))分類自變量如何影響一個(gè)數(shù)值因變量的統(tǒng)計(jì)分析方法。,方差分析的特點(diǎn)① 方差分析與一般的假設(shè)檢驗(yàn)不同 要比較均值是否相同,可以使用第三章假設(shè)檢驗(yàn)的方法,但是只能處理兩個(gè)均值。 方差分

44、析處理的是多個(gè)均值的情況。,方差分析的目的①. 判斷某些因素對(duì)于我們感興趣的因變量是否 具有“顯著”的影響,②. 如果因素間有交互效應(yīng),尋找最佳搭配方案。,常見的方差分析主要有: 單因素方差分析,雙因素方差分析, 多因素方差分析。,② 方差分析與回歸、相關(guān)分析不同 回歸與相關(guān)處理的是兩個(gè)數(shù)值變量的問題,相應(yīng)的散點(diǎn)在 x 軸上具有順序(從小到大),而方

45、差分析的數(shù)據(jù)在 x 軸上可以任意交換位置。,考察小麥產(chǎn)量( y ) 對(duì)于品種和施肥量的關(guān)系。,Fisher的農(nóng)業(yè)試驗(yàn),選擇了:兩個(gè)不同的小麥品種, 三個(gè)不同的施肥等級(jí);一共 2×3 = 6 種搭配做試驗(yàn),建立模型。,y11 = ?0 + ?1 + ?1 + ?11 y12 = ?0 + ?1 + ?2 + ?12 y13 = ?0 + ?1 + ?3 + ?13 y

46、21 = ?0 + ?2 + ?1 + ?21 y22 = ?0 + ?2 + ?2 + ?22 y23 = ?0 + ?2 + ?3 + ?23,,yij 是小麥產(chǎn)量,?1、?2 是品種效應(yīng),?1、 ?2、 ?3 是施肥 等級(jí)的效應(yīng),?0 是其它因素的 平均效應(yīng)。,?ij 是隨機(jī)誤差,i.i.d ~ N (0,?2 ),品種是否對(duì)產(chǎn)量有影響 ? H01: ?1 = ?2 施肥量是否對(duì)產(chǎn)量有

47、影響 ? H02: ?1 = ?2 = ?3,把這個(gè)模型寫成矩陣的形式:Y = X? + ?,在方差分析中,同一個(gè)因素的不同水平看成是模型里的不同變量,而不能看成是同一個(gè)自變量在不同試驗(yàn)里的取值。(否則需要 y 對(duì) x 有線性相依關(guān)系),五. 回歸與相關(guān)分析,回歸與相關(guān)分析是用于討論數(shù)值變量之間關(guān)系的統(tǒng)計(jì)分析方法。,回歸分析研究一個(gè)(或多個(gè))自變量的變化如何影響因變量, 相關(guān)分析研究這兩個(gè)數(shù)值變量的相關(guān)程度。,Regres

48、sion,y = 33.73 + 0.516 x (單位:英寸),?,?,,?,?,直觀上在一個(gè)總體中有兩個(gè)特征( X,Y ),觀察了n 次得到平面上的 n 個(gè)點(diǎn) ( x1,y1 ),…,( xn,yn ) 。,,,x,y,o,?,如果一條曲線 y = f (x) 基本上通過這些點(diǎn),或者這些點(diǎn)的大多數(shù)與這條曲線偏離很小,則稱曲線是對(duì)觀察值的擬合曲線,或者稱為是 y 對(duì)于x 的回歸曲線。,,“回歸”的含義,?,?,?,

49、?,?,?,?,?,?,?,?,?,在理論上,假定( X,Y )有聯(lián)合分布,二階矩存在,則當(dāng)X 取某個(gè)值 x 時(shí)Y 有一個(gè)確定的條件分布 F( · | x),這個(gè)分布的數(shù)學(xué)期望即條件期望 E(Y|x) 存在,E(Y|x) 就稱為Y 對(duì)于x 的回歸(函數(shù)),如果X 是一維隨機(jī)變量,則E (Y|x) 就稱為一元回歸函數(shù)(主要是回歸直線); 當(dāng) X 是多維隨機(jī)變量時(shí)就是多元回歸(曲面),Remark

50、 采用條件期望E(Y|x) 而不是其它的函數(shù) y= g(x) 作為Y 對(duì)于 x 的回歸,原因是在均方誤差的意義下條件期望是最優(yōu)的。,如果 E(Y|x) 就是 x 的線性函數(shù),即: E(Y|x) = ?0 + x1?1 +…+ xk?k ,線性回歸模型就定義成:,yi = ?0 + ?1 xi1 +…+ ?k xik + ?i ,1 ≤ i ≤ n ?i 獨(dú)立同分布于 N

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論