版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、,了解:相關(guān)關(guān)系的概念、種類,第9章 相關(guān)與回歸分析,重點掌握:1.相關(guān)系數(shù)的計算及其意義2.回歸方程的建立和估計標準誤,一般掌握: 相關(guān)分析的內(nèi)容、任務 相關(guān)表和EXCEL應用等,第1節(jié) 相關(guān)的概念和種類第2節(jié) 直線相關(guān)分析第3節(jié) 直線回歸分析第4節(jié) 估計標準誤差第5節(jié) 回歸方程的檢驗與預測,第1節(jié) 相關(guān)的概念和種類,1 變量間的相互關(guān)系,當一個或幾個變量取一定的值時,另一個變量有確定值
2、與之對應,稱這種關(guān)系為確定性的函數(shù)關(guān)系。函數(shù)關(guān)系是一種嚴格的依存關(guān)系,這種關(guān)系可用y = f(x)的方程表現(xiàn)。各觀測點落在一條線上。,(1)函數(shù)關(guān)系,(1)某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y =px (p 為單價)(2)圓的面積(S)與半徑之間的關(guān)系可表示為S = ?R2 (3)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y = x1x2x3,3,當一個或幾
3、個變量取一定的值時,與之相對應的另一個變量的值雖然不確定,但它仍然按某一規(guī)律在一定的范圍內(nèi)變化,變量間的這種關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。相關(guān)關(guān)系是一種不完全確定的統(tǒng)計關(guān)系。,(2)相關(guān)關(guān)系,(1)變量間關(guān)系不能用函數(shù)關(guān)系 精確表達(2)一個變量的取值不能由另一 個變量唯一確定(3)當變量 x 取某個值時,變量 y 的取值可能有幾個(4)各觀測點分布在直線周圍
4、,第1節(jié) 相關(guān)的概念和種類,4,相關(guān)關(guān)系的例子,商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、 溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系人的身高(y)與人的體重(x)之間的關(guān)系,第1節(jié) 相關(guān)的概念和種類,2 相關(guān)的種類,(1)按相關(guān)的程度分,完全相關(guān),不完全相關(guān),不相關(guān),,第1節(jié) 相關(guān)的概念和種類
5、,(2)按相關(guān)的形式分,線性相關(guān),非線性相關(guān),,(3)按影響因素的多少分,單相關(guān),復相關(guān),,(1)按相關(guān)的方向分,正相關(guān),負相關(guān),,第1節(jié) 相關(guān)的概念和種類,3 相關(guān)分析的主要內(nèi)容(任務):,(1) 確定現(xiàn)象之間有無關(guān)系,(3) 確定相關(guān)關(guān)系的密切程度,(4) 相關(guān)系數(shù)的顯著性檢驗,(2) 確定相關(guān)關(guān)系的類型,(5)對達到一定密切程度的相關(guān)關(guān)系建立適當?shù)臄?shù)學模 型,以確定自變量與因變量之間數(shù)量變化的規(guī)律性;(6)測定數(shù)學模型的
6、代表性大小并根據(jù)自變量數(shù)值對因 變量的數(shù)量變化做出具有一定概率保證程度的推算 和預測。,廣義的相關(guān)分析還包括回歸分析的內(nèi)容:,第1節(jié) 相關(guān)的概念和種類,第二節(jié) 直線相關(guān)分析,一 相關(guān)圖表,相關(guān)圖表是相關(guān)分析的重要方法。通過相關(guān)圖表可以直觀地判斷現(xiàn)象之間呈現(xiàn)的相關(guān)的形態(tài)和方向。,(一) 相關(guān)表,簡單相關(guān)表:根據(jù)總體單位的原始資料編制的相關(guān)表,分組相關(guān)表,單變量分組相關(guān)表,雙變量分組相關(guān)表,,,有相關(guān)關(guān)系的兩個變量中,只根
7、據(jù)一個變量進行分組,另一個變量不進行分組,只計算出次數(shù)和平均數(shù)。,有相關(guān)關(guān)系的兩個變量中,自變量和因變量都進行分組而編制的相關(guān)表。,,,,(二)相關(guān)圖(散點圖),利用直角坐標系第一象限,把自變量置于橫軸上,因變量置于縱軸上,再將兩變量相對應的變量值用坐標點形式描繪出來即可。,,第二節(jié) 直線相關(guān)分析,10,400名女大學身高與體重相關(guān)表,第二節(jié) 直線相關(guān)分析,雙變量分組相關(guān)表,第二節(jié) 直線相關(guān)分析,二 相關(guān)系數(shù)(correlation c
8、oefficient),相關(guān)系數(shù)是指在直線相關(guān)條件下,說明兩個現(xiàn)象之間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標。,(一)相關(guān)系數(shù)的計算方法:,若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為?。,總體相關(guān)系數(shù)反映總體兩個變量X和Y的線性相關(guān)程度。 特點:對于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。,,(9.1),協(xié)方差:Covariance;方差:Variance,第二節(jié) 直線相關(guān)分析,,,,,,,
9、,,,,,,,,,,,,,,,,,,,Ⅰ,Ⅱ,Ⅲ,Ⅳ,協(xié)方差的意義,x,y,第二節(jié) 直線相關(guān)分析,若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為 r,特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關(guān)系數(shù)的估計,它是個隨機變量。 容易證明,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量 。,該公式是K.皮爾遜提出來的,故稱皮爾遜相關(guān)系數(shù)。,,(9.2),(9.3),第二節(jié) 直線相關(guān)分析,如果定義:,
10、相關(guān)系數(shù)可以表示為:,(9.4),第二節(jié) 直線相關(guān)分析,1.44,4.00,9.61,14.44,25.00,17.21,51.84,64.00,207.54,3844,7396,6400,12100,13225,17424,18225,25600,104214,74.4,172.0,248.0,418.0,575.0,805.2,972.0,1280.0,4544.6,【例9.1】相關(guān)系數(shù)的計算分析,第二節(jié) 直線相關(guān)分析,根據(jù)計算結(jié)果
11、可知:,則相關(guān)系數(shù)為:,說明產(chǎn)量和生產(chǎn)費用之間存在高度正相關(guān)。,第二節(jié) 直線相關(guān)分析,【例9.2】在研究銷售額與廣告費的問題中,把銷售額記為y,把廣告費記為x。根據(jù)收集到的1~13年的樣本數(shù)據(jù)(xi ,yi),i =1,2,…,13,計算相關(guān)系數(shù)。,銷售額與廣告費數(shù)據(jù),用Excel計算相關(guān)數(shù)據(jù),第二節(jié) 直線相關(guān)分析,解:根據(jù)樣本相關(guān)系數(shù)的計算公式有,用PEARSON函數(shù)計算,銷售額與廣告費之間的相關(guān)系數(shù)為 0.998940923,第二節(jié)
12、 直線相關(guān)分析,(二)相關(guān)系數(shù)的性質(zhì),(2)相關(guān)系數(shù)的取值范圍在絕對值的 之間。 其值大小反映兩變量之間相關(guān)的密切程度。,(1)相關(guān)系數(shù)有正負號,分別表示正相關(guān)和負 相關(guān)。,(3)相關(guān)系數(shù),表明兩變量完全相關(guān);,表明兩變量完全不相關(guān)。,(4)當計算相關(guān)系數(shù)的原始數(shù)據(jù)較多(如50項以 上)時,認為相關(guān)系數(shù)在0.3以下為無相關(guān)或 微弱相關(guān); 0.
13、3以上為有相關(guān);0.3-0.5為低度 相關(guān);0.5-0.8為顯著(中度)相關(guān);0.8以上 為高度相關(guān)。,第二節(jié) 直線相關(guān)分析,r,|r|=0 不存在線性關(guān)系; |r|=1 完全線性相關(guān)0<|r|<1不同程度線性相關(guān)(0~0.3 微弱;0.3~0.5 低度; 0.5~0.8 顯著(中度);0.8~1 高度),第
14、二節(jié) 直線相關(guān)分析,(三)相關(guān)系數(shù)的缺點,相關(guān)系數(shù)接近于1的程度與數(shù)據(jù)組數(shù)n 有關(guān),這樣容易給人一種假象。因為,當n較小時,相關(guān)系數(shù)的絕對值容易接近于1,當n較大時,相關(guān)系數(shù)的絕對值容易偏小。特別是當n=2時,相關(guān)系數(shù)的絕對值總為1。因此在樣本容量較小時,如果我們僅憑相關(guān)系數(shù)較大就說變量x與y之間有密切的關(guān)系,則顯得匆忙。,第二節(jié) 直線相關(guān)分析,(四)用相關(guān)系數(shù)分析相關(guān)關(guān)系時應注意的問題,1、x和y都是相互對稱的隨機變量,rxy=ryx
15、。,2、相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系。,3、相關(guān)系數(shù)只能反映變量間的線性相關(guān)程度,并不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。,第二節(jié) 直線相關(guān)分析,24,三 相關(guān)系數(shù)的顯著性檢驗,(一)r 的抽樣分布,(1)r 的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化。當樣本數(shù)據(jù)來自正態(tài)總體時,隨著n的增大,r 的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)?很小或接近0時,趨于正態(tài)分布的趨勢非
16、常明顯。而當?遠離0時,除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。(2)當?為較大的正值時,r 呈現(xiàn)左偏分布;當?為較小的負值時,r 呈現(xiàn)右偏分布。只有當?接近于0,而樣本容量n很大時,才能認為r是接近于正態(tài)分布的隨機變量。,第二節(jié) 直線相關(guān)分析,(二)檢驗的步驟,檢驗兩個變量之間是否存在線性相關(guān)關(guān)系等價于對回歸系數(shù) b的檢驗采用R.A.Fisher提出的 t 檢驗檢驗的步驟為:,2. 計算檢驗的統(tǒng)計量:,3.
17、確定顯著性水平?,根據(jù)顯著性水平?,查t分布表得自由度為(n-2)的臨界值t??? 。,1. 提出假設:H0:? ? ? ;H1: ? ? 0,(9.5),4. 若?t?>t???,表明相關(guān)系數(shù)在統(tǒng)計上是顯著的,應拒絕H0的原假設,即認為兩變量之間存在線性相關(guān)。 若?t?<t???,不能拒絕H0。,第二節(jié) 直線相關(guān)分析,(1)提出假設:H0:? ? ? ;H1: ? ? 0(2)計算檢驗的統(tǒng)計量:,(3)根據(jù)顯著
18、性水平?=0.05,查t分布表得(P.376): t???(n-2)=2.201,【例9.3】,對前例計算的相關(guān)系數(shù)進行顯著性檢驗(??0.05),(4)由于?t?=72.006606>t???(13-2)=2.201,拒絕H0,銷售額與廣告費之間的相關(guān)關(guān)系顯著。,第二節(jié) 直線相關(guān)分析,27,第三節(jié) 直線回歸分析,一 回歸分析(Regression)的概念,高爾頓遺傳學的回歸概念,英國人類學家 F.
19、Galton首次在《自然遺傳》一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個概念,為相關(guān)論奠定了基礎。其后,他和英國統(tǒng)計學家 Karl Pearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn):,也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。,兒子身高(Y,英寸
20、)與父親身高(X,英寸)存在線性關(guān)系:,回歸分析是對具有相關(guān)關(guān)系的兩個或兩個以上變量之間的數(shù)量變化的一般關(guān)系進行測定,確立一個相應的數(shù)學表達式(數(shù)學模型),近似地描述變量間的平均變化關(guān)系,以便從一個已知量來推測另一個未知量,為估算預測提供一個重要的方法。,回歸的目的(實質(zhì)):由固定的自變量(independent variable)去估計因變量(dependent variable)的平均值。,目前,“回歸”已成為表示變量之間某種數(shù)量
21、依存關(guān)系的統(tǒng)計學術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學概念。,第三節(jié) 直線回歸分析,二 回歸的種類,(一)按自變量的個數(shù)分,一元回歸,多元回歸,(二)按回歸線的形態(tài)分,線性回歸,非線性回歸,,,第三節(jié) 直線回歸分析,回歸模型的類型,第三節(jié) 直線回歸分析,31,三 簡單線性回歸方程,(一)簡單線性方程式的一般形式,當兩變量的增長比率為常數(shù)時,它們之間就呈現(xiàn)為一種簡單線性關(guān)系。,(二)簡單線性回歸方程進行回歸分析的前提,所分
22、析的兩個變量之間必須存在相關(guān)關(guān)系,且相關(guān)程度在顯著相關(guān)以上。,(三)對兩變量進行簡單線性回歸分析的任務,設法在分散的、具有線性關(guān)系的相關(guān)點之間配合一條最優(yōu)的直線,這條直線就是估計回歸線,它表明兩變量之間具體的變動關(guān)系。,第三節(jié) 直線回歸分析,32,配合估計回歸線的方程稱為回歸方程。,方程式為:,回歸系數(shù)b的經(jīng)濟涵義:,當自變量變動一個單位時,因變量的平均變動值。,(四)配合直線回歸方程的方法,(9.6),第三節(jié) 直線回歸分析,33,
23、用最小平方法配合回歸直線的基本思想是:,在所有的相關(guān)點中,通過數(shù)學方法配合一條較為理想的直線,這條直線必須滿足兩點:,2、原數(shù)列與回歸線的離差平方和為最小值。,1、原數(shù)列與回歸線的離差之和為零。,配合直線回歸方程的過程就是求解方程系數(shù)a、b的過程,求解a、b的方法一般采用最小平方法。,(9.7),(9.8),即,即,第三節(jié) 直線回歸分析,通過求a、b的一階偏導可得到求解a、b的聯(lián)立方程:,解聯(lián)立方程得到:,(9.9),(9.10),
24、第三節(jié) 直線回歸分析,4544.6,74.4 172.0 248.0 418.0 575.0 805.2 972.0 1280.0,,104214,3844 7396 6400 12100 13225174241822525600,,207.54,1.44 4.00 9.61 14.44 25.00 37.21 51.84 64.00,,880,36.4,∑,62
25、 86 80 110 115 132 135 160,1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0,1 2 3 4 5 6 7 8,生產(chǎn)費用,月產(chǎn)量,序 號,,,,,,,,,,,,,,【例9.4】根據(jù)例9.1資料配合生產(chǎn)費用依產(chǎn)量變化的回歸方程:,第三節(jié) 直線回歸分析,則回歸方程為:,回歸系數(shù)b的涵義:
26、月產(chǎn)量每增加1000噸,生產(chǎn)費用平均增加12.9萬元。,計算得到:,第三節(jié) 直線回歸分析,【例9.5】根據(jù)例9.2中的數(shù)據(jù),配合銷售額與廣告費的回歸方程 根據(jù)a和b的求解公式得,所以銷售額與廣告費的回歸方程為,yc = 54.0049 + 0.5258964 x,運用INTERCEPT函數(shù) 計算截距,運用SLOPE函數(shù) 計算斜率,第三節(jié) 直線回歸分析,運用INTERCEPT函數(shù) 計算截距,運用SLOPE函數(shù) 計算斜率,
27、第三節(jié) 直線回歸分析,(五)用Excel進行回歸分析,第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當對話框出現(xiàn)時 在“Y值輸入?yún)^(qū)域”設置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域 在“X值輸入?yún)^(qū)域”設置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域 在“置信度”選項中給出所需的數(shù)值 在“輸出選項”
28、中選擇輸出區(qū)域 在“殘差”分析選項中選擇所需的選項 ?用Excel進行回歸分析,第三節(jié) 直線回歸分析,,,,,,相關(guān)系數(shù)的顯著性檢驗-t檢驗,,Excel的輸出結(jié)果,第三節(jié) 直線回歸分析,系數(shù),R square稱為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對y的解釋能力越強。對于回歸方程來說,總結(jié)了以下幾個意義:1.R square可以作為選擇不同模型的標準。如果在
29、擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對變量的不同數(shù)學形式進行擬合,然后看R square的大小,R square大的模型,說明這個模型對數(shù)據(jù)擬合的較好。2.在數(shù)據(jù)的關(guān)系存在非線性可能情況下:(a)不一定R square越大擬合越好,因為R square只是回歸平方和占總平方和的比例。比如,在那四幅著名的圖里面,R square都等于66%,并且都是線性擬合,但是他們的數(shù)據(jù)點完全不同,有些是因為特異案例的存在,致使數(shù)據(jù)擬
30、合出來是線性的,而事實上并非如此。所以,應該在擬合之前觀察散點圖,然后去掉特異值.,(b)如果一個模型的R square很小,不一定代表數(shù)據(jù)之間沒有關(guān)系,而很有可能是選擇的模型不對,因為數(shù)據(jù)之間也許的其他的函數(shù)關(guān)系,比如對數(shù)關(guān)系或者指數(shù)關(guān)系。這意味著需要對數(shù)據(jù)作進一步的擬合。(當然,最好的方法應該是在數(shù)據(jù)擬合之前先觀察散點圖)。如果是線性模型,那么R square才是方程擬合優(yōu)度的度量,R square越大,回歸方程擬合數(shù)據(jù)越好,線性關(guān)
31、系越強。,3.當自變量個數(shù)增加時,盡管有的自變量與y的線性關(guān)系不顯著,R square也會增大。R square受自變量個數(shù)與樣本規(guī)模影響。對于這點,采用Adjusted R square進行調(diào)整。4.當想確定方程中的每一個自變量對y的邊際解釋能力時,應該確定每個自變量的偏確定系數(shù)(partial coefficient of determination)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步
32、回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說,x1與x2共同解釋的y的貢獻,已包含在x1解釋的y的貢獻里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時,計算這個的意義不大。,顯著性水平 顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率為顯著性水平,用α表示。顯著性是對差異的程度而言的,程度不同說明引起變動的原因也有不同:一類是條件差異,一類是隨機差異。它是在進行假設檢驗時事先
33、確定一個可允許的作為判斷界限的小概率標準。,估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率為顯著性水平,用α表示, 1-α 為置信度或置信水平,其表明了區(qū)間估計的可靠性。,Excel輸出的部分回歸結(jié)果,第三節(jié) 直線回歸分析,要求:分析兩變量相關(guān)密切程度,若為顯著相關(guān)以上, 則對兩變量進行回歸分析。,課堂練習:某地區(qū)人均年收入與耐用消費品銷售額 資料如下:,第三節(jié)
34、直線回歸分析,答案:相關(guān)系數(shù) r = 0.98 b = 0.24 a = -1.13 yc = -1.13+0.24x,回歸系數(shù)b的涵義:人均年收入每增加一元,耐用消費品銷售額平均增加0.24萬元。,第三節(jié) 直線回歸分析,四 回歸系數(shù)與相關(guān)系數(shù)的關(guān)系,因為:,所以:,即:,(9.11),(9.12),r和b 都能判斷現(xiàn)象之間相關(guān)方
35、向,而且是一致的,即當r(b)>0正相關(guān),r(b)<0時,負相關(guān);但 r 還可以判斷相關(guān)程度,b 不能判斷相關(guān)程度。,第三節(jié) 直線回歸分析,五 回歸分析與相關(guān)分析的關(guān)系,1、回歸分析必須區(qū)分自變量和因變量,而相關(guān)分析不必區(qū)分。,2、回歸分析的兩個變量一個是自變量,一個是因變量,通過給定自變量的值來推算因變量的可能值;而相關(guān)分析的兩個變量都是隨機變量。,3、回歸分析中對于因果關(guān)系不甚明確的兩個變量,可以建立兩個回歸方程
36、;而相關(guān)分析只能計算出一個相關(guān)系數(shù)。,4、一種回歸方程只能做一種推算,即只能給出自變量的值來推算因變量的值,不能逆推。,1、相關(guān)分析是回歸分析的基礎和前提;,(一)區(qū)別,(二)聯(lián)系,2、相關(guān)分析需要回歸分析來表明現(xiàn)象數(shù)量關(guān)系的具體形式,回歸分析是相關(guān)性分析的繼續(xù)和拓展。,第三節(jié) 直線回歸分析,第四節(jié) 估計標準誤差,一 估計標準誤的涵義,根據(jù)直線回歸方程,在知道了自變量的數(shù)值情況下可以推算出因變量的數(shù)值,但是,推算出來的因變量的數(shù)值不
37、是精確的值,它與實際值之間有差異。,估計標準誤差就是用來說明回歸方程推算結(jié)果的準確程度的統(tǒng)計分析指標,或者說是反映回歸直線代表性大小的統(tǒng)計分析指標。,第四節(jié) 估計標準誤差,二 估計標準誤的計算公式,該式稱為簡化公式。,(一)根據(jù)因變量實際值和估計值的離差計算,(二)根據(jù)a、b兩個參數(shù)值計算,統(tǒng)計上定義剩余離差平方和 除以自由度n-2所得商的平方根為估計標準誤。,(9.13),(9.14),,5
38、3,三 判定系數(shù) r2 –擬合優(yōu)度的度量,第四節(jié) 估計標準誤差,回歸直線在一定程度上描述了自變量與因變量之間的關(guān)系,利用這一方程,可根據(jù)自變量的取值來估計或預測因變量的取值。但估計或預測的精度如何,取決于回歸直線對觀察數(shù)據(jù)的擬合優(yōu)度。,我們把樣本觀察值數(shù)據(jù)聚集在樣本回歸直線周圍的緊密程度稱為回歸直線對數(shù)據(jù)的擬合優(yōu)度,通常用判定系數(shù)度量。,各觀察值數(shù)據(jù)越是緊密地聚集在這條回歸直線周圍,說明直線對觀察數(shù)據(jù)的擬合優(yōu)度越好,反之則越差。如果各
39、觀察值數(shù)據(jù)的散點都落在這條回歸直線上,那么這條直線就是對數(shù)據(jù)的完全擬合,此時用來估計是沒有誤差的。,另一個是隨機因素的影響,即除自變量 x 對 y 的影響外,其他隨機因素所引起的 y 的變動,這種變動可以由 表示,稱之為剩余變差。三者關(guān)系是:,第四節(jié) 估計標準誤差,根據(jù)方差分析的一般原理:因變量 y 的實際觀察值yi 總是圍繞其平均數(shù) 而上下波動,所以 y 的變動可以由
40、 來反映,稱之為總變差。引起總變差的原因有兩方面:,一個是由于自變量 x 的取值不同,使得與 x 有直線相關(guān)關(guān)系的 y 值不同。在回歸方程yc=a+bx中,yc為 y 的估計值,x 通過方程對 y 產(chǎn)生影響,其影響程度可由 來表示 ,稱其為回歸變差。,(9.15),(一)總平方和的分解,判定系數(shù)建立在對總離差平方和進行分解的基礎上。,55,?,?,?,總變差(離差平方和)的分解,第四節(jié) 估計標準誤差
41、,離差分解圖,,,x,y,{,},?,(x1 , y1),?,?,?,,,(x2 , y2),(xn , yn),?,?,?,,,?,?,?,?,?,兩端平方后求和有,從圖上看有,SST = SSR + SSE,第四節(jié) 估計標準誤差,即,(ei稱為殘差),(9.16),(9.17),(二)三個平方和的意義,第四節(jié) 估計標準誤差,總平方和(SST- Total Square Sum )反映因變量的 n 個觀察值與其均值的總離差。
42、回歸平方和(SSR- Regression Square Sum )反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和。殘差平方和(SSE- Error Square Sum )反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩余平方和。,58,TSS:Total Square Sum / 總離差平方和RSS:Reg
43、ression Square Sum / 回歸平方和Residual Square Sum / 殘差平方和ESS:Error Square Sum / 誤差平方和(殘差平方和)Explain Square Sum / 解釋平方和(回歸平方和),注意英文縮寫的含義,第四節(jié) 估計標準誤差,59,【例9.6】根據(jù)例9.2計算銷售額與廣告費回歸的判定系數(shù),并解釋其意義。,判定系數(shù)的實際意義是:在銷售額取值的變差中,有9
44、9.788%可以由銷售額與廣告費之間的線性關(guān)系來解釋,或者說,在銷售額取值的變動中,有99.788%是由廣告費所決定的。可見銷售額與廣告費之間有較強的線性關(guān)系。,(三)判定系數(shù) r2的計算,,第四節(jié) 估計標準誤差,Excel的輸出結(jié)果,相關(guān)系數(shù),判定系數(shù),調(diào)整后的相關(guān)系數(shù),,,,在多元回歸時使用,有統(tǒng)計學家認為,在多元回歸模型中,增加預測變量,必然會使R Square增大,故必須加以調(diào)整。,,估計標準誤Sy,,,第四節(jié) 估計標準誤差
45、,(四)判定系數(shù) r2的性質(zhì),回歸平方和占總離差平方和的比例。,反映回歸直線的擬合程度。 r2越大,擬合優(yōu)度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。取值范圍在 [ 0 , 1 ] 之間。r2 ?1,說明回歸方程擬合的越好;r2?0,說明回歸方程擬合的越差。判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,第四節(jié) 估計標準誤差,(9.18),第四節(jié) 估計標準誤差,由此可以推
46、導出:,因為:,四 相關(guān)系數(shù)與估計標準誤差的關(guān)系,第四節(jié) 估計標準誤差,因為:,所以:,,第四節(jié) 估計標準誤差,從這個式子可以看出,如果兩個變量之間的直線相關(guān)關(guān)系十分密切,相關(guān)系數(shù)的絕對值就接近于1,這時估計標準誤差的數(shù)值越接近于0,說明回歸方程的代表性越高。,所以相關(guān)系數(shù)與估計標準誤差的關(guān)系為:,(9.19),第四節(jié) 估計標準誤差,或者:,從這個式子可以看出,如果Syx越小,殘差平方和占總離差平方和的比例也就越小,從而相關(guān)系數(shù)r
47、的值就會越大,即一個代表性很好的方程,其變量之間的相關(guān)關(guān)系也一定很高。,因為,,所以,(9.20),由式(9.19)有:,在簡單線性回歸中,因為判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,一 線性關(guān)系的檢驗,1、提出假設,2、計算檢驗統(tǒng)計量F,3、確定顯著性水平?,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F ?,H0:b=0 線性關(guān)系不顯著,4、作出決策:若F>F ?拒絕H0;若F<F ?不能拒絕H0,第五節(jié)
48、 回歸方程的檢驗與預測,SST、SSR、SSE的自由度,模型中樣本值可以自由變動的個數(shù),稱為自由度。自由度 = 樣本個數(shù)-樣本數(shù)據(jù)受約束條件(方程)的個數(shù)。,第五節(jié) 回歸方程的檢驗與預測,1、提出假設H0: b=0,銷售額和廣告費之間的線性關(guān)系不顯著2、計算檢驗統(tǒng)計量F,3、確定顯著性水平?=0.05,并根據(jù)分子自由度1和分母自由度13-2找出臨界值F ?=0.05=4.75;p.380,4、作出決策:因為F>F ?拒絕
49、H0,所以銷售額和廣告費之間線性關(guān)系顯著。,【例9.7】根據(jù)例9.2資料對建立的回歸方程進行檢驗,第五節(jié) 回歸方程的檢驗與預測,Excel 輸出的方差分析表(續(xù)前例),平方和,均方=平方和/自由度,,,F=5184.95?F ?=0.5=4.75,拒絕H0,線性關(guān)系顯著,,,第五節(jié) 回歸方程的檢驗與預測,二 回歸系數(shù)的檢驗,在一元線性回歸中,等價于線性關(guān)系的顯著性檢驗。略。,檢驗 x 與 y 之間是否具有線性關(guān)系,或者說,檢
50、驗自變量 x 對因變量 y 的影響是否顯著。,理論基礎是回歸系數(shù)b的抽樣分布。,第五節(jié) 回歸方程的檢驗與預測,三 利用回歸方程進行估計和預測(點估計),2. 點估計值有y 的平均值的點估計y 的個別值的點估計3. 在點估計條件下,平均值的點估計和個別值的點估計是一樣的,但在區(qū)間估計中則不同,對于自變量 x 的一個給定值x0 ,根據(jù)回歸方程得到因變量 y 的一個估計值y0,第五節(jié) 回歸方程的檢驗與預測,(一)y 的平均
51、值的點估計,利用估計的回歸方程,對于自變量 x 的一個給定值 x0 ,求出因變量 y 的平均值的一個估計值E(y0) ,就是平均值的點估計。,在前面的例子中,假如我們要估計廣告費為2000時,所有年份銷售額的平均值,就是平均值的點估計。根據(jù)估計的回歸方程得:,第五節(jié) 回歸方程的檢驗與預測,(二)y 的個別值的點估計,利用估計的回歸方程,對于自變量 x 的一個給定值 x0 ,求出因變量 y 的一個個別值的估計值y0 ,就是個別值的點估計
52、,2. 比如,如果我們只是想知道第10年廣告費為1250.7時的平均銷售額是多少,則屬于個別值的點估計。根據(jù)估計的回歸方程得,第五節(jié) 回歸方程的檢驗與預測,第五節(jié) 回歸方程的檢驗與預測,75,第五節(jié) 回歸方程的檢驗與預測,76,在本例中,影響人均消費性支出的因素,除了居民人均可支配收入之外,還可能有消費品的價格水平、銀行存款利率、消費者的偏好,政府的政策,需求者對未來的預期等等多種因素。我們這里僅分析居民人均可支配收入對人均消費
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 應用統(tǒng)計學--第8章-相關(guān)分析與回歸分析
- 統(tǒng)計學相關(guān)與回歸分析
- 應用統(tǒng)計學---第9章-時間序列分析
- 統(tǒng)計學--第九章直線回歸與相關(guān)
- 8-應用統(tǒng)計學(教案)相關(guān)與回歸分析
- 統(tǒng)計學第1章
- 管理統(tǒng)計學第11章-一元線性回歸
- 醫(yī)學統(tǒng)計學一元相關(guān)與回歸
- 統(tǒng)計學a第8章-統(tǒng)計指數(shù)
- 大學統(tǒng)計學-ch8相關(guān)與回歸分析
- 統(tǒng)計學第4章
- 第9章 回歸分析
- 應用統(tǒng)計學第12章
- 第01章管理統(tǒng)計學
- 統(tǒng)計學第3章練習
- 統(tǒng)計學第1.2章--習題
- 管理統(tǒng)計學-現(xiàn)代回歸分析方法
- [學習]統(tǒng)計學教學資料派斯相關(guān)與回歸幻燈片-7章
- 統(tǒng)計學【第5章概率】
- 醫(yī)學統(tǒng)計學相關(guān)分析
評論
0/150
提交評論