

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、,了解:相關(guān)關(guān)系的概念、種類,第9章 相關(guān)與回歸分析,重點(diǎn)掌握:1.相關(guān)系數(shù)的計(jì)算及其意義2.回歸方程的建立和估計(jì)標(biāo)準(zhǔn)誤,一般掌握: 相關(guān)分析的內(nèi)容、任務(wù) 相關(guān)表和EXCEL應(yīng)用等,第1節(jié) 相關(guān)的概念和種類第2節(jié) 直線相關(guān)分析第3節(jié) 直線回歸分析第4節(jié) 估計(jì)標(biāo)準(zhǔn)誤差第5節(jié) 回歸方程的檢驗(yàn)與預(yù)測,第1節(jié) 相關(guān)的概念和種類,1 變量間的相互關(guān)系,當(dāng)一個(gè)或幾個(gè)變量取一定的值時(shí),另一個(gè)變量有確定值
2、與之對應(yīng),稱這種關(guān)系為確定性的函數(shù)關(guān)系。函數(shù)關(guān)系是一種嚴(yán)格的依存關(guān)系,這種關(guān)系可用y = f(x)的方程表現(xiàn)。各觀測點(diǎn)落在一條線上。,(1)函數(shù)關(guān)系,(1)某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y =px (p 為單價(jià))(2)圓的面積(S)與半徑之間的關(guān)系可表示為S = ?R2 (3)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價(jià)格(x3)之間的關(guān)系可表示為y = x1x2x3,3,當(dāng)一個(gè)或幾
3、個(gè)變量取一定的值時(shí),與之相對應(yīng)的另一個(gè)變量的值雖然不確定,但它仍然按某一規(guī)律在一定的范圍內(nèi)變化,變量間的這種關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。相關(guān)關(guān)系是一種不完全確定的統(tǒng)計(jì)關(guān)系。,(2)相關(guān)關(guān)系,(1)變量間關(guān)系不能用函數(shù)關(guān)系 精確表達(dá)(2)一個(gè)變量的取值不能由另一 個(gè)變量唯一確定(3)當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值可能有幾個(gè)(4)各觀測點(diǎn)分布在直線周圍
4、,第1節(jié) 相關(guān)的概念和種類,4,相關(guān)關(guān)系的例子,商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、 溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系人的身高(y)與人的體重(x)之間的關(guān)系,第1節(jié) 相關(guān)的概念和種類,2 相關(guān)的種類,(1)按相關(guān)的程度分,完全相關(guān),不完全相關(guān),不相關(guān),,第1節(jié) 相關(guān)的概念和種類
5、,(2)按相關(guān)的形式分,線性相關(guān),非線性相關(guān),,(3)按影響因素的多少分,單相關(guān),復(fù)相關(guān),,(1)按相關(guān)的方向分,正相關(guān),負(fù)相關(guān),,第1節(jié) 相關(guān)的概念和種類,3 相關(guān)分析的主要內(nèi)容(任務(wù)):,(1) 確定現(xiàn)象之間有無關(guān)系,(3) 確定相關(guān)關(guān)系的密切程度,(4) 相關(guān)系數(shù)的顯著性檢驗(yàn),(2) 確定相關(guān)關(guān)系的類型,(5)對達(dá)到一定密切程度的相關(guān)關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模 型,以確定自變量與因變量之間數(shù)量變化的規(guī)律性;(6)測定數(shù)學(xué)模型的
6、代表性大小并根據(jù)自變量數(shù)值對因 變量的數(shù)量變化做出具有一定概率保證程度的推算 和預(yù)測。,廣義的相關(guān)分析還包括回歸分析的內(nèi)容:,第1節(jié) 相關(guān)的概念和種類,第二節(jié) 直線相關(guān)分析,一 相關(guān)圖表,相關(guān)圖表是相關(guān)分析的重要方法。通過相關(guān)圖表可以直觀地判斷現(xiàn)象之間呈現(xiàn)的相關(guān)的形態(tài)和方向。,(一) 相關(guān)表,簡單相關(guān)表:根據(jù)總體單位的原始資料編制的相關(guān)表,分組相關(guān)表,單變量分組相關(guān)表,雙變量分組相關(guān)表,,,有相關(guān)關(guān)系的兩個(gè)變量中,只根
7、據(jù)一個(gè)變量進(jìn)行分組,另一個(gè)變量不進(jìn)行分組,只計(jì)算出次數(shù)和平均數(shù)。,有相關(guān)關(guān)系的兩個(gè)變量中,自變量和因變量都進(jìn)行分組而編制的相關(guān)表。,,,,(二)相關(guān)圖(散點(diǎn)圖),利用直角坐標(biāo)系第一象限,把自變量置于橫軸上,因變量置于縱軸上,再將兩變量相對應(yīng)的變量值用坐標(biāo)點(diǎn)形式描繪出來即可。,,第二節(jié) 直線相關(guān)分析,10,400名女大學(xué)身高與體重相關(guān)表,第二節(jié) 直線相關(guān)分析,雙變量分組相關(guān)表,第二節(jié) 直線相關(guān)分析,二 相關(guān)系數(shù)(correlation c
8、oefficient),相關(guān)系數(shù)是指在直線相關(guān)條件下,說明兩個(gè)現(xiàn)象之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)。,(一)相關(guān)系數(shù)的計(jì)算方法:,若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為?。,總體相關(guān)系數(shù)反映總體兩個(gè)變量X和Y的線性相關(guān)程度。 特點(diǎn):對于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。,,(9.1),協(xié)方差:Covariance;方差:Variance,第二節(jié) 直線相關(guān)分析,,,,,,,
9、,,,,,,,,,,,,,,,,,,,Ⅰ,Ⅱ,Ⅲ,Ⅳ,協(xié)方差的意義,x,y,第二節(jié) 直線相關(guān)分析,若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為 r,特點(diǎn):樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機(jī)樣本的觀測值計(jì)算出來的,是對總體相關(guān)系數(shù)的估計(jì),它是個(gè)隨機(jī)變量。 容易證明,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計(jì)量 。,該公式是K.皮爾遜提出來的,故稱皮爾遜相關(guān)系數(shù)。,,(9.2),(9.3),第二節(jié) 直線相關(guān)分析,如果定義:,
10、相關(guān)系數(shù)可以表示為:,(9.4),第二節(jié) 直線相關(guān)分析,1.44,4.00,9.61,14.44,25.00,17.21,51.84,64.00,207.54,3844,7396,6400,12100,13225,17424,18225,25600,104214,74.4,172.0,248.0,418.0,575.0,805.2,972.0,1280.0,4544.6,【例9.1】相關(guān)系數(shù)的計(jì)算分析,第二節(jié) 直線相關(guān)分析,根據(jù)計(jì)算結(jié)果
11、可知:,則相關(guān)系數(shù)為:,說明產(chǎn)量和生產(chǎn)費(fèi)用之間存在高度正相關(guān)。,第二節(jié) 直線相關(guān)分析,【例9.2】在研究銷售額與廣告費(fèi)的問題中,把銷售額記為y,把廣告費(fèi)記為x。根據(jù)收集到的1~13年的樣本數(shù)據(jù)(xi ,yi),i =1,2,…,13,計(jì)算相關(guān)系數(shù)。,銷售額與廣告費(fèi)數(shù)據(jù),用Excel計(jì)算相關(guān)數(shù)據(jù),第二節(jié) 直線相關(guān)分析,解:根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有,用PEARSON函數(shù)計(jì)算,銷售額與廣告費(fèi)之間的相關(guān)系數(shù)為 0.998940923,第二節(jié)
12、 直線相關(guān)分析,(二)相關(guān)系數(shù)的性質(zhì),(2)相關(guān)系數(shù)的取值范圍在絕對值的 之間。 其值大小反映兩變量之間相關(guān)的密切程度。,(1)相關(guān)系數(shù)有正負(fù)號,分別表示正相關(guān)和負(fù) 相關(guān)。,(3)相關(guān)系數(shù),表明兩變量完全相關(guān);,表明兩變量完全不相關(guān)。,(4)當(dāng)計(jì)算相關(guān)系數(shù)的原始數(shù)據(jù)較多(如50項(xiàng)以 上)時(shí),認(rèn)為相關(guān)系數(shù)在0.3以下為無相關(guān)或 微弱相關(guān); 0.
13、3以上為有相關(guān);0.3-0.5為低度 相關(guān);0.5-0.8為顯著(中度)相關(guān);0.8以上 為高度相關(guān)。,第二節(jié) 直線相關(guān)分析,r,|r|=0 不存在線性關(guān)系; |r|=1 完全線性相關(guān)0<|r|<1不同程度線性相關(guān)(0~0.3 微弱;0.3~0.5 低度; 0.5~0.8 顯著(中度);0.8~1 高度),第
14、二節(jié) 直線相關(guān)分析,(三)相關(guān)系數(shù)的缺點(diǎn),相關(guān)系數(shù)接近于1的程度與數(shù)據(jù)組數(shù)n 有關(guān),這樣容易給人一種假象。因?yàn)椋?dāng)n較小時(shí),相關(guān)系數(shù)的絕對值容易接近于1,當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對值容易偏小。特別是當(dāng)n=2時(shí),相關(guān)系數(shù)的絕對值總為1。因此在樣本容量較小時(shí),如果我們僅憑相關(guān)系數(shù)較大就說變量x與y之間有密切的關(guān)系,則顯得匆忙。,第二節(jié) 直線相關(guān)分析,(四)用相關(guān)系數(shù)分析相關(guān)關(guān)系時(shí)應(yīng)注意的問題,1、x和y都是相互對稱的隨機(jī)變量,rxy=ryx
15、。,2、相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系。,3、相關(guān)系數(shù)只能反映變量間的線性相關(guān)程度,并不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。,第二節(jié) 直線相關(guān)分析,24,三 相關(guān)系數(shù)的顯著性檢驗(yàn),(一)r 的抽樣分布,(1)r 的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化。當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時(shí),隨著n的增大,r 的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)?很小或接近0時(shí),趨于正態(tài)分布的趨勢非
16、常明顯。而當(dāng)?遠(yuǎn)離0時(shí),除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。(2)當(dāng)?為較大的正值時(shí),r 呈現(xiàn)左偏分布;當(dāng)?為較小的負(fù)值時(shí),r 呈現(xiàn)右偏分布。只有當(dāng)?接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量。,第二節(jié) 直線相關(guān)分析,(二)檢驗(yàn)的步驟,檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系等價(jià)于對回歸系數(shù) b的檢驗(yàn)采用R.A.Fisher提出的 t 檢驗(yàn)檢驗(yàn)的步驟為:,2. 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,3.
17、確定顯著性水平?,根據(jù)顯著性水平?,查t分布表得自由度為(n-2)的臨界值t??? 。,1. 提出假設(shè):H0:? ? ? ;H1: ? ? 0,(9.5),4. 若?t?>t???,表明相關(guān)系數(shù)在統(tǒng)計(jì)上是顯著的,應(yīng)拒絕H0的原假設(shè),即認(rèn)為兩變量之間存在線性相關(guān)。 若?t?<t???,不能拒絕H0。,第二節(jié) 直線相關(guān)分析,(1)提出假設(shè):H0:? ? ? ;H1: ? ? 0(2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,(3)根據(jù)顯著
18、性水平?=0.05,查t分布表得(P.376): t???(n-2)=2.201,【例9.3】,對前例計(jì)算的相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)(??0.05),(4)由于?t?=72.006606>t???(13-2)=2.201,拒絕H0,銷售額與廣告費(fèi)之間的相關(guān)關(guān)系顯著。,第二節(jié) 直線相關(guān)分析,27,第三節(jié) 直線回歸分析,一 回歸分析(Regression)的概念,高爾頓遺傳學(xué)的回歸概念,英國人類學(xué)家 F.
19、Galton首次在《自然遺傳》一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計(jì)學(xué)家 Karl Pearson對上千個(gè)家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn):,也即高個(gè)子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。,兒子身高(Y,英寸
20、)與父親身高(X,英寸)存在線性關(guān)系:,回歸分析是對具有相關(guān)關(guān)系的兩個(gè)或兩個(gè)以上變量之間的數(shù)量變化的一般關(guān)系進(jìn)行測定,確立一個(gè)相應(yīng)的數(shù)學(xué)表達(dá)式(數(shù)學(xué)模型),近似地描述變量間的平均變化關(guān)系,以便從一個(gè)已知量來推測另一個(gè)未知量,為估算預(yù)測提供一個(gè)重要的方法。,回歸的目的(實(shí)質(zhì)):由固定的自變量(independent variable)去估計(jì)因變量(dependent variable)的平均值。,目前,“回歸”已成為表示變量之間某種數(shù)量
21、依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。,第三節(jié) 直線回歸分析,二 回歸的種類,(一)按自變量的個(gè)數(shù)分,一元回歸,多元回歸,(二)按回歸線的形態(tài)分,線性回歸,非線性回歸,,,第三節(jié) 直線回歸分析,回歸模型的類型,第三節(jié) 直線回歸分析,31,三 簡單線性回歸方程,(一)簡單線性方程式的一般形式,當(dāng)兩變量的增長比率為常數(shù)時(shí),它們之間就呈現(xiàn)為一種簡單線性關(guān)系。,(二)簡單線性回歸方程進(jìn)行回歸分析的前提,所分
22、析的兩個(gè)變量之間必須存在相關(guān)關(guān)系,且相關(guān)程度在顯著相關(guān)以上。,(三)對兩變量進(jìn)行簡單線性回歸分析的任務(wù),設(shè)法在分散的、具有線性關(guān)系的相關(guān)點(diǎn)之間配合一條最優(yōu)的直線,這條直線就是估計(jì)回歸線,它表明兩變量之間具體的變動(dòng)關(guān)系。,第三節(jié) 直線回歸分析,32,配合估計(jì)回歸線的方程稱為回歸方程。,方程式為:,回歸系數(shù)b的經(jīng)濟(jì)涵義:,當(dāng)自變量變動(dòng)一個(gè)單位時(shí),因變量的平均變動(dòng)值。,(四)配合直線回歸方程的方法,(9.6),第三節(jié) 直線回歸分析,33,
23、用最小平方法配合回歸直線的基本思想是:,在所有的相關(guān)點(diǎn)中,通過數(shù)學(xué)方法配合一條較為理想的直線,這條直線必須滿足兩點(diǎn):,2、原數(shù)列與回歸線的離差平方和為最小值。,1、原數(shù)列與回歸線的離差之和為零。,配合直線回歸方程的過程就是求解方程系數(shù)a、b的過程,求解a、b的方法一般采用最小平方法。,(9.7),(9.8),即,即,第三節(jié) 直線回歸分析,通過求a、b的一階偏導(dǎo)可得到求解a、b的聯(lián)立方程:,解聯(lián)立方程得到:,(9.9),(9.10),
24、第三節(jié) 直線回歸分析,4544.6,74.4 172.0 248.0 418.0 575.0 805.2 972.0 1280.0,,104214,3844 7396 6400 12100 13225174241822525600,,207.54,1.44 4.00 9.61 14.44 25.00 37.21 51.84 64.00,,880,36.4,∑,62
25、 86 80 110 115 132 135 160,1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0,1 2 3 4 5 6 7 8,生產(chǎn)費(fèi)用,月產(chǎn)量,序 號,,,,,,,,,,,,,,【例9.4】根據(jù)例9.1資料配合生產(chǎn)費(fèi)用依產(chǎn)量變化的回歸方程:,第三節(jié) 直線回歸分析,則回歸方程為:,回歸系數(shù)b的涵義:
26、月產(chǎn)量每增加1000噸,生產(chǎn)費(fèi)用平均增加12.9萬元。,計(jì)算得到:,第三節(jié) 直線回歸分析,【例9.5】根據(jù)例9.2中的數(shù)據(jù),配合銷售額與廣告費(fèi)的回歸方程 根據(jù)a和b的求解公式得,所以銷售額與廣告費(fèi)的回歸方程為,yc = 54.0049 + 0.5258964 x,運(yùn)用INTERCEPT函數(shù) 計(jì)算截距,運(yùn)用SLOPE函數(shù) 計(jì)算斜率,第三節(jié) 直線回歸分析,運(yùn)用INTERCEPT函數(shù) 計(jì)算截距,運(yùn)用SLOPE函數(shù) 計(jì)算斜率,
27、第三節(jié) 直線回歸分析,(五)用Excel進(jìn)行回歸分析,第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項(xiàng)第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當(dāng)對話框出現(xiàn)時(shí) 在“Y值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域 在“X值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域 在“置信度”選項(xiàng)中給出所需的數(shù)值 在“輸出選項(xiàng)”
28、中選擇輸出區(qū)域 在“殘差”分析選項(xiàng)中選擇所需的選項(xiàng) ?用Excel進(jìn)行回歸分析,第三節(jié) 直線回歸分析,,,,,,相關(guān)系數(shù)的顯著性檢驗(yàn)-t檢驗(yàn),,Excel的輸出結(jié)果,第三節(jié) 直線回歸分析,系數(shù),R square稱為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對y的解釋能力越強(qiáng)。對于回歸方程來說,總結(jié)了以下幾個(gè)意義:1.R square可以作為選擇不同模型的標(biāo)準(zhǔn)。如果在
29、擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對變量的不同數(shù)學(xué)形式進(jìn)行擬合,然后看R square的大小,R square大的模型,說明這個(gè)模型對數(shù)據(jù)擬合的較好。2.在數(shù)據(jù)的關(guān)系存在非線性可能情況下:(a)不一定R square越大擬合越好,因?yàn)镽 square只是回歸平方和占總平方和的比例。比如,在那四幅著名的圖里面,R square都等于66%,并且都是線性擬合,但是他們的數(shù)據(jù)點(diǎn)完全不同,有些是因?yàn)樘禺惏咐拇嬖?,致使?shù)據(jù)擬
30、合出來是線性的,而事實(shí)上并非如此。所以,應(yīng)該在擬合之前觀察散點(diǎn)圖,然后去掉特異值.,(b)如果一個(gè)模型的R square很小,不一定代表數(shù)據(jù)之間沒有關(guān)系,而很有可能是選擇的模型不對,因?yàn)閿?shù)據(jù)之間也許的其他的函數(shù)關(guān)系,比如對數(shù)關(guān)系或者指數(shù)關(guān)系。這意味著需要對數(shù)據(jù)作進(jìn)一步的擬合。(當(dāng)然,最好的方法應(yīng)該是在數(shù)據(jù)擬合之前先觀察散點(diǎn)圖)。如果是線性模型,那么R square才是方程擬合優(yōu)度的度量,R square越大,回歸方程擬合數(shù)據(jù)越好,線性關(guān)
31、系越強(qiáng)。,3.當(dāng)自變量個(gè)數(shù)增加時(shí),盡管有的自變量與y的線性關(guān)系不顯著,R square也會增大。R square受自變量個(gè)數(shù)與樣本規(guī)模影響。對于這點(diǎn),采用Adjusted R square進(jìn)行調(diào)整。4.當(dāng)想確定方程中的每一個(gè)自變量對y的邊際解釋能力時(shí),應(yīng)該確定每個(gè)自變量的偏確定系數(shù)(partial coefficient of determination)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步
32、回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說,x1與x2共同解釋的y的貢獻(xiàn),已包含在x1解釋的y的貢獻(xiàn)里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時(shí),計(jì)算這個(gè)的意義不大。,顯著性水平 顯著性水平是估計(jì)總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯(cuò)誤的概率為顯著性水平,用α表示。顯著性是對差異的程度而言的,程度不同說明引起變動(dòng)的原因也有不同:一類是條件差異,一類是隨機(jī)差異。它是在進(jìn)行假設(shè)檢驗(yàn)時(shí)事先
33、確定一個(gè)可允許的作為判斷界限的小概率標(biāo)準(zhǔn)。,估計(jì)總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯(cuò)誤的概率為顯著性水平,用α表示, 1-α 為置信度或置信水平,其表明了區(qū)間估計(jì)的可靠性。,Excel輸出的部分回歸結(jié)果,第三節(jié) 直線回歸分析,要求:分析兩變量相關(guān)密切程度,若為顯著相關(guān)以上, 則對兩變量進(jìn)行回歸分析。,課堂練習(xí):某地區(qū)人均年收入與耐用消費(fèi)品銷售額 資料如下:,第三節(jié)
34、直線回歸分析,答案:相關(guān)系數(shù) r = 0.98 b = 0.24 a = -1.13 yc = -1.13+0.24x,回歸系數(shù)b的涵義:人均年收入每增加一元,耐用消費(fèi)品銷售額平均增加0.24萬元。,第三節(jié) 直線回歸分析,四 回歸系數(shù)與相關(guān)系數(shù)的關(guān)系,因?yàn)椋?所以:,即:,(9.11),(9.12),r和b 都能判斷現(xiàn)象之間相關(guān)方
35、向,而且是一致的,即當(dāng)r(b)>0正相關(guān),r(b)<0時(shí),負(fù)相關(guān);但 r 還可以判斷相關(guān)程度,b 不能判斷相關(guān)程度。,第三節(jié) 直線回歸分析,五 回歸分析與相關(guān)分析的關(guān)系,1、回歸分析必須區(qū)分自變量和因變量,而相關(guān)分析不必區(qū)分。,2、回歸分析的兩個(gè)變量一個(gè)是自變量,一個(gè)是因變量,通過給定自變量的值來推算因變量的可能值;而相關(guān)分析的兩個(gè)變量都是隨機(jī)變量。,3、回歸分析中對于因果關(guān)系不甚明確的兩個(gè)變量,可以建立兩個(gè)回歸方程
36、;而相關(guān)分析只能計(jì)算出一個(gè)相關(guān)系數(shù)。,4、一種回歸方程只能做一種推算,即只能給出自變量的值來推算因變量的值,不能逆推。,1、相關(guān)分析是回歸分析的基礎(chǔ)和前提;,(一)區(qū)別,(二)聯(lián)系,2、相關(guān)分析需要回歸分析來表明現(xiàn)象數(shù)量關(guān)系的具體形式,回歸分析是相關(guān)性分析的繼續(xù)和拓展。,第三節(jié) 直線回歸分析,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,一 估計(jì)標(biāo)準(zhǔn)誤的涵義,根據(jù)直線回歸方程,在知道了自變量的數(shù)值情況下可以推算出因變量的數(shù)值,但是,推算出來的因變量的數(shù)值不
37、是精確的值,它與實(shí)際值之間有差異。,估計(jì)標(biāo)準(zhǔn)誤差就是用來說明回歸方程推算結(jié)果的準(zhǔn)確程度的統(tǒng)計(jì)分析指標(biāo),或者說是反映回歸直線代表性大小的統(tǒng)計(jì)分析指標(biāo)。,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,二 估計(jì)標(biāo)準(zhǔn)誤的計(jì)算公式,該式稱為簡化公式。,(一)根據(jù)因變量實(shí)際值和估計(jì)值的離差計(jì)算,(二)根據(jù)a、b兩個(gè)參數(shù)值計(jì)算,統(tǒng)計(jì)上定義剩余離差平方和 除以自由度n-2所得商的平方根為估計(jì)標(biāo)準(zhǔn)誤。,(9.13),(9.14),,5
38、3,三 判定系數(shù) r2 –擬合優(yōu)度的度量,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,回歸直線在一定程度上描述了自變量與因變量之間的關(guān)系,利用這一方程,可根據(jù)自變量的取值來估計(jì)或預(yù)測因變量的取值。但估計(jì)或預(yù)測的精度如何,取決于回歸直線對觀察數(shù)據(jù)的擬合優(yōu)度。,我們把樣本觀察值數(shù)據(jù)聚集在樣本回歸直線周圍的緊密程度稱為回歸直線對數(shù)據(jù)的擬合優(yōu)度,通常用判定系數(shù)度量。,各觀察值數(shù)據(jù)越是緊密地聚集在這條回歸直線周圍,說明直線對觀察數(shù)據(jù)的擬合優(yōu)度越好,反之則越差。如果各
39、觀察值數(shù)據(jù)的散點(diǎn)都落在這條回歸直線上,那么這條直線就是對數(shù)據(jù)的完全擬合,此時(shí)用來估計(jì)是沒有誤差的。,另一個(gè)是隨機(jī)因素的影響,即除自變量 x 對 y 的影響外,其他隨機(jī)因素所引起的 y 的變動(dòng),這種變動(dòng)可以由 表示,稱之為剩余變差。三者關(guān)系是:,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,根據(jù)方差分析的一般原理:因變量 y 的實(shí)際觀察值yi 總是圍繞其平均數(shù) 而上下波動(dòng),所以 y 的變動(dòng)可以由
40、 來反映,稱之為總變差。引起總變差的原因有兩方面:,一個(gè)是由于自變量 x 的取值不同,使得與 x 有直線相關(guān)關(guān)系的 y 值不同。在回歸方程yc=a+bx中,yc為 y 的估計(jì)值,x 通過方程對 y 產(chǎn)生影響,其影響程度可由 來表示 ,稱其為回歸變差。,(9.15),(一)總平方和的分解,判定系數(shù)建立在對總離差平方和進(jìn)行分解的基礎(chǔ)上。,55,?,?,?,總變差(離差平方和)的分解,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差
41、,離差分解圖,,,x,y,{,},?,(x1 , y1),?,?,?,,,(x2 , y2),(xn , yn),?,?,?,,,?,?,?,?,?,兩端平方后求和有,從圖上看有,SST = SSR + SSE,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,即,(ei稱為殘差),(9.16),(9.17),(二)三個(gè)平方和的意義,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,總平方和(SST- Total Square Sum )反映因變量的 n 個(gè)觀察值與其均值的總離差。
42、回歸平方和(SSR- Regression Square Sum )反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和。殘差平方和(SSE- Error Square Sum )反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩余平方和。,58,TSS:Total Square Sum / 總離差平方和RSS:Reg
43、ression Square Sum / 回歸平方和Residual Square Sum / 殘差平方和ESS:Error Square Sum / 誤差平方和(殘差平方和)Explain Square Sum / 解釋平方和(回歸平方和),注意英文縮寫的含義,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,59,【例9.6】根據(jù)例9.2計(jì)算銷售額與廣告費(fèi)回歸的判定系數(shù),并解釋其意義。,判定系數(shù)的實(shí)際意義是:在銷售額取值的變差中,有9
44、9.788%可以由銷售額與廣告費(fèi)之間的線性關(guān)系來解釋,或者說,在銷售額取值的變動(dòng)中,有99.788%是由廣告費(fèi)所決定的??梢婁N售額與廣告費(fèi)之間有較強(qiáng)的線性關(guān)系。,(三)判定系數(shù) r2的計(jì)算,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,Excel的輸出結(jié)果,相關(guān)系數(shù),判定系數(shù),調(diào)整后的相關(guān)系數(shù),,,,在多元回歸時(shí)使用,有統(tǒng)計(jì)學(xué)家認(rèn)為,在多元回歸模型中,增加預(yù)測變量,必然會使R Square增大,故必須加以調(diào)整。,,估計(jì)標(biāo)準(zhǔn)誤Sy,,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差
45、,(四)判定系數(shù) r2的性質(zhì),回歸平方和占總離差平方和的比例。,反映回歸直線的擬合程度。 r2越大,擬合優(yōu)度越大,自變量對因變量的解釋程度越高,自變量引起的變動(dòng)占總變動(dòng)的百分比高。觀察點(diǎn)在回歸直線附近越密集。取值范圍在 [ 0 , 1 ] 之間。r2 ?1,說明回歸方程擬合的越好;r2?0,說明回歸方程擬合的越差。判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,(9.18),第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,由此可以推
46、導(dǎo)出:,因?yàn)椋?四 相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差的關(guān)系,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,因?yàn)椋?所以:,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,從這個(gè)式子可以看出,如果兩個(gè)變量之間的直線相關(guān)關(guān)系十分密切,相關(guān)系數(shù)的絕對值就接近于1,這時(shí)估計(jì)標(biāo)準(zhǔn)誤差的數(shù)值越接近于0,說明回歸方程的代表性越高。,所以相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差的關(guān)系為:,(9.19),第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,或者:,從這個(gè)式子可以看出,如果Syx越小,殘差平方和占總離差平方和的比例也就越小,從而相關(guān)系數(shù)r
47、的值就會越大,即一個(gè)代表性很好的方程,其變量之間的相關(guān)關(guān)系也一定很高。,因?yàn)?,所以,(9.20),由式(9.19)有:,在簡單線性回歸中,因?yàn)榕卸ㄏ禂?shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,一 線性關(guān)系的檢驗(yàn),1、提出假設(shè),2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,3、確定顯著性水平?,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F ?,H0:b=0 線性關(guān)系不顯著,4、作出決策:若F>F ?拒絕H0;若F<F ?不能拒絕H0,第五節(jié)
48、 回歸方程的檢驗(yàn)與預(yù)測,SST、SSR、SSE的自由度,模型中樣本值可以自由變動(dòng)的個(gè)數(shù),稱為自由度。自由度 = 樣本個(gè)數(shù)-樣本數(shù)據(jù)受約束條件(方程)的個(gè)數(shù)。,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,1、提出假設(shè)H0: b=0,銷售額和廣告費(fèi)之間的線性關(guān)系不顯著2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,3、確定顯著性水平?=0.05,并根據(jù)分子自由度1和分母自由度13-2找出臨界值F ?=0.05=4.75;p.380,4、作出決策:因?yàn)镕>F ?拒絕
49、H0,所以銷售額和廣告費(fèi)之間線性關(guān)系顯著。,【例9.7】根據(jù)例9.2資料對建立的回歸方程進(jìn)行檢驗(yàn),第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,Excel 輸出的方差分析表(續(xù)前例),平方和,均方=平方和/自由度,,,F=5184.95?F ?=0.5=4.75,拒絕H0,線性關(guān)系顯著,,,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,二 回歸系數(shù)的檢驗(yàn),在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)。略。,檢驗(yàn) x 與 y 之間是否具有線性關(guān)系,或者說,檢
50、驗(yàn)自變量 x 對因變量 y 的影響是否顯著。,理論基礎(chǔ)是回歸系數(shù)b的抽樣分布。,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,三 利用回歸方程進(jìn)行估計(jì)和預(yù)測(點(diǎn)估計(jì)),2. 點(diǎn)估計(jì)值有y 的平均值的點(diǎn)估計(jì)y 的個(gè)別值的點(diǎn)估計(jì)3. 在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同,對于自變量 x 的一個(gè)給定值x0 ,根據(jù)回歸方程得到因變量 y 的一個(gè)估計(jì)值y0,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,(一)y 的平均
51、值的點(diǎn)估計(jì),利用估計(jì)的回歸方程,對于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的平均值的一個(gè)估計(jì)值E(y0) ,就是平均值的點(diǎn)估計(jì)。,在前面的例子中,假如我們要估計(jì)廣告費(fèi)為2000時(shí),所有年份銷售額的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得:,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,(二)y 的個(gè)別值的點(diǎn)估計(jì),利用估計(jì)的回歸方程,對于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的一個(gè)個(gè)別值的估計(jì)值y0 ,就是個(gè)別值的點(diǎn)估計(jì)
52、,2. 比如,如果我們只是想知道第10年廣告費(fèi)為1250.7時(shí)的平均銷售額是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,75,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測,76,在本例中,影響人均消費(fèi)性支出的因素,除了居民人均可支配收入之外,還可能有消費(fèi)品的價(jià)格水平、銀行存款利率、消費(fèi)者的偏好,政府的政策,需求者對未來的預(yù)期等等多種因素。我們這里僅分析居民人均可支配收入對人均消費(fèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 應(yīng)用統(tǒng)計(jì)學(xué)--第8章-相關(guān)分析與回歸分析
- 統(tǒng)計(jì)學(xué)相關(guān)與回歸分析
- 應(yīng)用統(tǒng)計(jì)學(xué)---第9章-時(shí)間序列分析
- 統(tǒng)計(jì)學(xué)--第九章直線回歸與相關(guān)
- 8-應(yīng)用統(tǒng)計(jì)學(xué)(教案)相關(guān)與回歸分析
- 統(tǒng)計(jì)學(xué)第1章
- 管理統(tǒng)計(jì)學(xué)第11章-一元線性回歸
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)一元相關(guān)與回歸
- 統(tǒng)計(jì)學(xué)a第8章-統(tǒng)計(jì)指數(shù)
- 大學(xué)統(tǒng)計(jì)學(xué)-ch8相關(guān)與回歸分析
- 統(tǒng)計(jì)學(xué)第4章
- 第9章 回歸分析
- 應(yīng)用統(tǒng)計(jì)學(xué)第12章
- 第01章管理統(tǒng)計(jì)學(xué)
- 統(tǒng)計(jì)學(xué)第3章練習(xí)
- 統(tǒng)計(jì)學(xué)第1.2章--習(xí)題
- 管理統(tǒng)計(jì)學(xué)-現(xiàn)代回歸分析方法
- [學(xué)習(xí)]統(tǒng)計(jì)學(xué)教學(xué)資料派斯相關(guān)與回歸幻燈片-7章
- 統(tǒng)計(jì)學(xué)【第5章概率】
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)相關(guān)分析
評論
0/150
提交評論