

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、,,統(tǒng)計案例要點梳理1.回歸分析 (1)定義:對具有 的兩個變量進行統(tǒng)計 分析的一種常用方法. (2)隨機誤差:線性回歸模型用y=bx+a+e表示,其 中a和b為模型的 , 稱為隨機誤差. (3)樣本點的中心 在具有線性相關關系的數(shù)據(jù)(x1,y1), (x2,y2), …,(xn,yn)中,回歸方程的截距和斜率的最小二乘 估計公式分別為:,相關關系,未知參數(shù),e,基礎知識
2、自主學習,其中 稱為樣本點的中心.(4)相關系數(shù),,,,,.,,,,,,,,①r=,,②當r >0時,表明兩個變量 ;當r <0時,表明兩個變量 .r 的絕對值越接近于1,表明兩個變量的線性相關性 .r 的絕對值越接近于0時,表明兩個變量之間 .通常|r|大于 時,認為兩個變
3、量有很強的線性相關性.,,正相關,負相關,越強,幾乎不存在線性相關關系,0.75,2.殘差分析 (1)總偏差平方和 把每個效應(觀測值減去總的平均值)的平方加起來即: .(2)殘差 數(shù)據(jù)點和它回歸直線上相應位置的差異(yi- ) 是 的效應,稱 為殘差.(3)殘差平方和 .,隨機誤差,3.獨立性檢驗 (1)分類變量:變量的不同“值”表示個體
4、所屬的 ,像這類變量稱為分類變量.,(4)相關指數(shù)R2= .R2的值越大,說明殘差平方和 ,也就是說模型的擬合效果越好.在線性回歸模型中,R2表示解釋變量對預報變量變化的貢獻率,R2越接近于1,表示回歸的效果越好.,越小,不同類別,(2)列聯(lián)表:列出兩個分類變量的 ,稱為列聯(lián)表.假設有兩個分類變量X和Y,它們的可能取值分別為{x1,x2}和{y1,y2},其樣本頻
5、數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為2×2列聯(lián)表,頻數(shù)表,構造一個隨機變量K2= , 其中n= 為樣本容量.(3)獨立性檢驗利用隨機變量 來確定是否能以一定把握認為“兩個分類變量 ”的方法稱為兩個分類變量的獨立性檢驗.,a+b+c+d,K2,有關系,基礎自測1.相關系數(shù)度量() A.兩個變量之間線性相關關系的強度 B.
6、散點圖是否顯示有意義的模型 C.兩個變量之間是否存在因果關系 D.兩個變量之間是否存在關系 解析 相關系數(shù)來衡量兩個變量之間線性相關關系的強弱.,A,2.甲、乙、丙、丁四位同學各自對A、B兩變量的線性 相關性作試驗,并用回歸分析方法分別求得相關系 數(shù)r與殘差平方和m如下表:,則哪位同學的試驗結果體現(xiàn)A、B兩變量更強的線性相關性?()A.甲B.乙C.丙D.丁解析 r>0且丁最接近1,殘差
7、平方和越小,相關性越高,故選D.,D,3.已知x、y之間的數(shù)據(jù)如表所示,則回歸直線過點() A.(0,0) B.( ,0) C.(0, ) D.( , ) 解析 回歸直線過樣本點的中心( , ).,D,4.下列說法中正確的有:①若r>0,則x增大時,y也相應增大;②若r<0,則x增大時,y也相應增大;③若r=1或r=-1,則x與y的關系完全對應(有函數(shù)關系),在
8、散點圖上各個點均在一條直線上( ) A.①② B.②③ C.①③ D.①②③ 解析 若r>0,表示兩個相關變量正相關,x增大時,y也相應增大,故①正確.r<0,表示兩個變量負相關,x增大時,y相應減小,故②錯誤.|r|越接近1,表示兩個變量相關性越高,|r|=1表示兩個變量有確定的關系(即函數(shù)關系),故③正確.,C,5.在一項打鼾與患心臟病的調查中,共調查了1 671人,經(jīng)過計算K
9、2=27.63,根據(jù)這一數(shù)據(jù)分析,我們有理由認為打鼾與患心臟病是 的(有關,無關). 解析 ∵K2=27.63>10.828, ∴有99.9%的把握認為“打鼾與患心臟病有關”.,有關,題型一 線性回歸分析【例1】假設關于某種設備的使用年限x(年)與所支出的維修費用y(萬元)有如下統(tǒng)計資料:,已知(1)求 , ;(2)對x,y進行線性相關性檢驗;(3)如果x與y具有線性相關關系,求出線性回歸方程;(4
10、)估計使用年限為10年時,維修費用約是多少?,x,(3)如果x與y具有線性相關關系,求出線性回歸方程;(4)估計使用年限為10年時,維修費用約是多少? (1)先根據(jù)已知計算相關系數(shù)r,判斷是否具有相關關系.(2)再利用公式求出回歸方程進行回歸分析. 解 (1),思維啟迪,(2)步驟如下:①作統(tǒng)計假設H0:x與y不具有線性相關關系.②n-2=3時,r0.05=0.878.③ =11
11、2.3-5×4×5=12.3, =90-5×42=10, =140.8-125=15.8,∴r=④|r|=0.987>0.878,即|r|>r0.05,所以有95%的把握認為“x與y之間具有線性相關關系”,去求線性回歸方程是有意義的.,所以線性回歸方程為 =1.23x+0.08.(4)當x=10時, =1.23×10+0.08=12.38(萬元),
12、即估計使用10年時,維修費用約為12.38萬元. 在解決具體問題時,要先進行相關性檢驗,通過檢驗確認兩個變量是否具有線性相關關系.若它們之間具有相關關系,再求回歸方程,否則,即使求出回歸方程也是毫無意義的,而且用其估計和預測的量也是不可信的.,探究提高,知能遷移1 測得某國10對父子身高(單位:英寸) 如下:,(1)對變量y與x進行相關性檢驗;(2)如果y與x之間具有線性相關關系,求線性回歸方程
13、;(3)如果父親的身高為73英寸,估計兒子的身高.,解 (1),因為r的值較大,所以y與x之間具有很強的線性相關關系.(2)設回歸方程為,故所求的回歸方程為 =0.464 6x+35.974 7.(3)當x=73時, =0.464 6×73+35.974 7≈69.9.所以當父親身高為73英寸時,估計兒子身高約為69.9英寸.,題型二 非線性回歸分析【例2】下表是某年美國舊轎車價格的調查資料,以x表示轎車的
14、使用年數(shù),y表示相應的年均價格,求y關于x的回歸方程.,由已知表格先畫出散點圖,可以看出隨著使用年數(shù)的增加,轎車的平均價格在遞減,但不在一條直線附近.但據(jù)此認為y與x之間具有線性相關關系是不科學的,要根據(jù)圖形的形狀進行合理轉化,轉化成線性關系的變量間的關系.,思維啟迪,解 作出散點圖如圖所示.,可以發(fā)現(xiàn),各點并不是基本處于一條直線附近,因此,y與x之間應是非線性相關關系.與已學函數(shù)圖象比較,用 來刻畫題中模型
15、更為合理,令 ,則 ,題中數(shù)據(jù)變成如下表所示:,相應的散點圖如圖所示,從圖中可以看出,變換的樣本點分布在一條直線附近,因此可以用線性回歸方程擬合.,由表中數(shù)據(jù)可得r≈-0.996.|r|>0.75.認為x與z之間具有線性相關關系,由表中數(shù)據(jù)得 ≈-0.298, ≈8.165,所以 =-0.298x+8.165,最后回代 =ln ,即 =e-0.298x+8.165為所求.
16、 非線性回歸問題有時并不給出經(jīng)驗公式.這時我們可以畫出已知數(shù)據(jù)的散點圖,把它與學過的各種函數(shù)(冪函數(shù)、指數(shù)函數(shù)、對數(shù)函數(shù)等)圖象作比較,挑選一種跟這些散點擬合得最好的函數(shù),然后采用適當?shù)淖兞恐脫Q,把問題化為線性回歸分析問題,使之得到解決.,探究提高,知能遷移2 在試驗中得到變量y與x的數(shù)據(jù)如下表:,試求y與x之間的回歸方程,當x0=40時,預測y0的值.解 作散點圖如圖所示,從散點圖可以看出,兩個變量
17、x,y不呈線性相關關系.根據(jù)學過的函數(shù)知識,樣本點分布的曲線可能有兩種情況.,(1)指數(shù)函數(shù)曲線y=c1 ;(2)二次函數(shù)曲線y=c3x2+c4.對于(1),問題變?yōu)槿绾喂烙嫶▍?shù)c1,c2,可通過對數(shù)變換把指數(shù)關系變?yōu)榫€性關系,那么令則,作散點圖如圖所示.,列表①,從圖中可以看出x與z有很強的線性相關性.由表①中的數(shù)據(jù)得到線性回歸方程 =0.277x-3.992.所以,變量y關于x的指數(shù)回歸方程為 =
18、e0.277x-3.992.對于(2),問題變?yōu)槿绾喂烙嫶▍?shù)c3,c4,那么令t=x2,則y=c3t+c4.列表②,從圖中可以看出,y與t不宜用線性回歸方程來擬合.,為比較兩個模型的擬合效果,用線性回歸模型擬合表②中的數(shù)據(jù),可得到y(tǒng)關于t的線性回歸方程為 0.357t-177.08.所以,變量y關于x的二次回歸方程為 0.357x2-177.08.利用殘差比較兩個回歸方程的擬合效果.,列表③,計算殘差平方和
19、 ≈812.759, ≈13 669.063.因此,指數(shù)模型的擬合效果遠遠優(yōu)于二次模型,應選用指數(shù)模型.所以,當x0=40時,y0=e0.277×40-3.992≈1 197.510.,題型三 獨立性檢驗【例3】(12分)在調查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分別利用圖形和獨立性檢驗的方法來判斷色盲與性別是否有關?你所得到的結論在什么范圍內有效? (1)先由
20、已知作出調查數(shù)據(jù)的列聯(lián)表. (2)再根據(jù)列聯(lián)表畫出二維條形圖,并進行分析. (3)利用獨立性檢驗作出判斷.,思維啟迪,解 根據(jù)題目所給的數(shù)據(jù)作出如下的列聯(lián)表:,4分根據(jù)列聯(lián)表作出相應的二維條形圖,如圖所示.,6分,從二維條形圖來看,在男人中患色盲的比例要比在女人中患色盲的比例 要大,其差值為 差值較大,因而我們可以認為“性別與患色盲是有關的”,8分根據(jù)列聯(lián)表中所給的數(shù)據(jù)可以有
21、a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式K2=得K2= 10分,由于K2=27.1>10.828,所以我們有99.9%的把握認為性別與患色盲有關系.這個結論只對所調查的480名男人和520名女人有效. 12分 利用圖形來判斷兩個變量之間是
22、否有關系,可以畫出三維柱形圖,也可以畫出二維條形圖,從圖形上只可以粗略地估計兩個分類變量的關系,可以結合所求的數(shù)值來進行比較.作圖應注意單位統(tǒng)一、圖形準確,但它不能給出我們兩個分類變量有關或無關的精確的可信程度,若要作出精確的判斷,可以作獨立性檢驗的有關計算.,探究提高,題型三 獨立性檢驗在對人們休閑方式的一次調查中,共調查了124人,其中女性70人,男性54人.女性中有43人主要的休閑方式是看電視,另外27人的休閑方式
23、是運動;男性中有21人主要的休閑方式是看電視,另外33人主要的休閑方式是運動.(1)根據(jù)以上數(shù)據(jù)建立一個2×2列聯(lián)表;(2)畫出二維條形圖;(3)檢驗休閑方式是否與性別有關,可靠性有多大.,解 (1)2×2列聯(lián)表如圖:,休閑方式,性別,(2)二維條形圖如圖:,(3)假設休閑方式與性別無關,則K2=所以有理由認為休閑方式與性別無關是不合理的,即我們有97.5%的把握認為休閑方式與性別有關.,方法與技巧1
24、.線性回歸分析以散點圖為基礎,具有很強的直觀性,有散點圖作比較時,擬合效果的好壞可由直觀性直接判斷,沒有散點圖時,只須套用公式求r,R2再作判斷即可.2.獨立性檢驗沒有直觀性,必須依靠K2的觀測值作判斷.,思想方法 感悟提高,失誤與防范1.r的大小只說明是否相關并不能說明擬合效果的好壞,R2才是判斷擬合效果好壞的依據(jù).2.獨立性檢驗的隨機變量K2=2.706是判斷是否有關系的臨界值,K2<2.706應判斷為沒有充分證據(jù)顯示X與Y
25、有關系,一、選擇題1.下列四個命題: ①線性相關系數(shù)r越大,兩個變量的線性相關性越強;反之,線性相關性越弱; ②殘差平方和越小的模型,模型擬合的效果越好; ③用相關指數(shù)R2來刻畫回歸效果,R2越小,說明模型的擬合效果越好; ④在推斷H:“X與Y有關系”的論述中,用三維柱形圖,只要主對角線上兩個柱形高度的比值與副對角線上的兩個柱形高度的比值相差越大,H成立的可能性就越大.,,其中真命題的個數(shù)是()A.1 B.2
26、 C.3D.4,其中真命題的個數(shù)是()A.1B.2C.3D.4解析 ①r有正負,應為|r|越大,相關性越強.②正確.③R2越大,擬合效果越好.④應為高度積的差的絕對值越大,H成立的可能性就越大,故選A.,A,2.對兩個變量y與x進行回歸分析,分別選擇不同的模型, 它們的相關系數(shù)r如下,其中擬合效果最好的模型是() A.模型Ⅰ的相關系數(shù)r為0.98 B.模型Ⅱ的相關系數(shù)r
27、為0.80 C.模型Ⅲ的相關系數(shù)r為0.50 D.模型Ⅳ的相關系數(shù)r為0.25 解析 根據(jù)相關系數(shù)的定義和計算公式可知,|r| ≤1,且|r|越接近于1,相關程度越大,擬合效果越好;|r|越接近于0,相關程度越小,擬合效果越弱,所以A正確.,A,3.下列說法: ①將一組數(shù)據(jù)中的每個數(shù)據(jù)都加上或減去同一個常數(shù)后,方差恒不變; ②設有一個回歸方程 =3-5x,變量x增加一個單位時,y平均增加5個單位;
28、 ③線性回歸方程 必過點( , ); ④曲線上的點與該點的坐標之間具有相關關系; ⑤在一個2×2列聯(lián)表中,由計算得K2=13.079,則其兩個變量間有關系的可能性是90%. 其中錯誤的個數(shù)是() A.1B.2C.3D.4,解析 根據(jù)方差的計算公式,可知①正確;由線性回歸方程的定義及最小二乘法的思想,知③正確,②④⑤不正確.答案 C,4.下面是2×2列聯(lián)
29、表:,則表中a,b的值分別為()A.94,72B.52,50C.52,74D.74,52解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.,C,5.若變量y與x之間的相關系數(shù)r=-0.936 2,查表得到相關系數(shù)臨界值r0.05=0.801 3,則變量y與x之間() A.不具有線性相關關系 B.具有線性相關關系 C.它們的線性關系還要進一步確定 D.不確定 解
30、析 相關系數(shù)r主要是來衡量兩個變量之間線性關系的強弱,|r|越接近1,兩個變量之間線性關系就越強,|r|越接近0,兩個變量之間幾乎不存在線性關系.因為|r|=0.936 2,接近1,所以變量y與x之間具有線性相關關系.,B,5.冶煉某種金屬可以用舊設備和改造后的新設備,為了檢驗用這兩種設備生產(chǎn)的產(chǎn)品中所含雜質的關系,調查結果如下表所示.,根據(jù)以上數(shù)據(jù),則()A.含雜質的高低與設備改造有關B.含雜質的高低與設備改造無關C
31、.設備是否改造決定含雜質的高低D.以上答案都不對,解析 由已知數(shù)據(jù)得到如下2×2列聯(lián)表,答案 A,由公式由于13.11>10.828,故有99.9%的把握認為含雜質的高低與設備是否改造是有關的.,二、填空題6.為了判斷高中三年級學生是否選修文科與性別的關系,現(xiàn)隨機抽取50名學生,得到如下2×2列聯(lián)表:,已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根據(jù)表中數(shù)據(jù),得到則認
32、為選修文科與性別有關系出錯的可能性約為 .,解析 K2≈4.844,這表明小概率事件發(fā)生.根據(jù)假設檢驗的基本原理,應該斷定“是否選修文科 與性別之間有關系”成立,并且這種判斷出錯的 可能性約為5%. 答案 5%7.某醫(yī)療研究所為了檢驗某種血清預防感冒的作用, 把500名使用血清的人與另外500名未用血清的人 一年中的感冒記錄作比較,提出假設H0:“這種 血清不能起到預防感冒的作用”,利用2
33、215;2列聯(lián) 表計算得K2≈3.918, 經(jīng)查對臨界值表知P(K2≥ 3.841)≈0.05.對此,四名同學作出了以下的判斷:,p:有95%的把握認為“這種血清能起到預防感冒的作用”;q:若某人未使用該血清,那么他在一年中有95%的可能性得感冒;r:這種血清預防感冒的有效率為95%;s:這種血清預防感冒的有效率為5%.則下列結論中,正確結論的序號是 .(把你認為正確的命題序號都填上)①p∧
34、q ② p∧q ③( p∧ q)∧(r∨s)④(p∨ r)∧( q∨s),解析 本題考查了獨立性檢驗的基本思想及常用 邏輯用語.由題意,得K2≈3.918,P(K2≥3.841) ≈0.05,所以,只有第一位同學的判斷正確,即 有95%的把握認為“這種血清能起到預防感冒的作 用”.由真值表知①④為真命題. 答案 ①④,9.對196個接受心臟搭橋手術的病人和196個接受血管清障手術的病人進行了3
35、年的跟蹤研究,調查他們是否又發(fā)作過心臟病,調查結果如下表所示:,試根據(jù)上述數(shù)據(jù)計算K2= .(保留兩位小數(shù))比較這兩種手術對病人又發(fā)作心臟病的影響有沒有差別. .解析 提出假設H0:兩種手術對病人又發(fā)作心臟病的影響沒有差別.根據(jù)列聯(lián)表中的數(shù)據(jù),可以求得當H0成立時K2≈1.78,而K2<2.072的概率為0.85.所以,
36、不能否定假設H0.也就是不能作出這兩種手術對病人又發(fā)作心臟病的影響有差別的結論.,答案 1.78不能作出這兩種手術對病人又發(fā)作心臟病的影響有差別的結論,三、解答題10.在一次飛機航程中調查男女乘 客的暈機情況,其二維條形圖 如圖: (1)寫出2×2列聯(lián)表; (2)判斷暈機與性別是否有關?,解 (1),故有97.5%的把握認為“暈機與性別有關”.,11.對某校學生進行心理障礙測試得到如下列聯(lián)表.,試
37、說明在這三種心理障礙中哪一種與性別關系最大?,解 對于上述三種心理障礙分別構造三個隨機變量由表中數(shù)據(jù)可得,所以沒有充分的證明顯示焦慮與性別有關,有97.5%的把握認為說謊與性別有關,沒有充分的證明顯示懶惰與性別有關.,12.某農(nóng)科所對冬季晝夜溫差大小與某反季節(jié)大豆新品種發(fā)芽多少之間的關系進行分析研究,他們分別記錄了12月1日至12月5日的每天晝夜溫差與實驗室每天每100顆種子中的發(fā)芽數(shù),得到如下資料:,該農(nóng)科所確定
38、的研究方案是:先從這五組數(shù)據(jù)中選取2組,用剩下的3組數(shù)據(jù)求線性回歸方程,再對被選取的2組數(shù)據(jù)進行檢驗. (1)求選取的2組數(shù)據(jù)恰好是不相鄰2天數(shù)據(jù)的概率; (2)若選取的是12月1日與12月5日的兩組數(shù)據(jù),請根據(jù)12月2日至12月4日的數(shù)據(jù),求出y關于x的線性回歸方程 (3)若由線性回歸方程得到的估計數(shù)據(jù)與所選出的檢驗數(shù)據(jù)的誤差均不超過2顆,則認為得到的線性回歸方程是可靠的,試問(2)中所得到的線性回歸方程是否可靠?,解 (1)
39、設抽到不相鄰的兩組數(shù)據(jù)為事件A,因為從5組數(shù)據(jù)中選取2組數(shù)據(jù)共有10種情況:(1,2)(1,3)(1,4)(1,5)(2,3)(2,4)(2,5)(3,4)(3,5)(4,5),其中數(shù)據(jù)為12月份的日期數(shù). 每種情況都是可能出現(xiàn)的,事件A包括的基本事件有6種. 所以P(A)= 所以選取的2組數(shù)據(jù)恰好是不 相鄰2天數(shù)據(jù)的概率是,(2)由數(shù)據(jù),求得 =12, =27.由公式,求得所以y關于x的線性回歸方程為(3)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計與統(tǒng)計案例
- 統(tǒng)計與統(tǒng)計案例
- 事業(yè)統(tǒng)計案例
- 【2020高三一輪復習】理科數(shù)學專題卷:專題十六《統(tǒng)計與統(tǒng)計案例》
- 典型題高考數(shù)學二輪復習知識點總結統(tǒng)計與統(tǒng)計案例
- 統(tǒng)計復習
- 高中數(shù)學統(tǒng)計與統(tǒng)計案例全章復習題型完美版
- 考點3 統(tǒng)計與統(tǒng)計案例 題型3 變量間的相關關系統(tǒng)計案例
- 2019高考數(shù)學二輪復習課時跟蹤檢測(十三)概率、統(tǒng)計、統(tǒng)計案例(小題練)理
- 高考數(shù)學復習題庫 變量間的相關關系、統(tǒng)計案例
- 實務案例復習
- 考點3 統(tǒng)計與統(tǒng)計案例 題型3 變量間的相關關系統(tǒng)計案例
- 概率統(tǒng)計總復習
- 統(tǒng)計學復習
- 作業(yè)答案-第十單元 算法、統(tǒng)計、統(tǒng)計案例
- 測評答案-第十單元 算法、統(tǒng)計、統(tǒng)計案例
- 《統(tǒng)計》復習作業(yè)
- 統(tǒng)計學復習
- 應用統(tǒng)計復習總結
- spss統(tǒng)計分析案例
評論
0/150
提交評論