管理統(tǒng)計(jì)學(xué)第11章-一元線性回歸_第1頁
已閱讀1頁,還剩94頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第 11 章 一元線性回歸,第11章 一元線性回歸,§11.1 變量間關(guān)系的度量 §11.2 一元線性回歸§11.3 利用回歸方程進(jìn)行估計(jì)和預(yù)測§11.4 殘差分析,學(xué)習(xí)目標(biāo),1.相關(guān)系數(shù)的分析方法一元線性回歸的基本原理和參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度回歸方程的顯著性檢驗(yàn)利用回歸方程進(jìn)行估計(jì)和預(yù)測用 Excel 進(jìn)行回歸,§11.1 變

2、量間關(guān)系的度量,變量間的關(guān)系相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)的顯著性檢驗(yàn),變量間的關(guān)系,函數(shù)關(guān)系,是一一對(duì)應(yīng)的確定關(guān)系設(shè)有兩個(gè)變量 x 和 y ,變量 y 隨變量 x 一起變化,并完全依賴于 x ,當(dāng)變量 x 取某個(gè)數(shù)值時(shí), y 依確定的關(guān)系取相應(yīng)的值,則稱 y 是 x 的函數(shù),記為 y = f (x),其中 x 稱為自變量,y 稱為因變量各觀測點(diǎn)落在一條線上,函數(shù)關(guān)系(幾個(gè)例子),? 函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷

3、售量(x)之間的關(guān)系可表示為 y = px (p 為單價(jià))圓的面積(S)與半徑之間的關(guān)系可表示為S=?R2 企業(yè)的原材料消耗額(y)與產(chǎn)量(x1) 、單位產(chǎn)量消耗(x2) 、原材料價(jià)格(x3)之間的關(guān)系可表示為y = x1 x2 x3,相關(guān)關(guān)系(correlation),變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá)一個(gè)變量的取值不能由另一個(gè)變量唯一確定當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值可能有幾個(gè)各觀測點(diǎn)分布在直線周圍,相關(guān)關(guān)系(

4、幾個(gè)例子),? 相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1) 、降雨量(x2) 、溫度(x3)之間的關(guān)系商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系,相關(guān)關(guān)系(類型),相關(guān)關(guān)系的描述與測度(散點(diǎn)圖),散點(diǎn)圖(scatter diagram),散點(diǎn)圖(例題分析),【例】一家大型商業(yè)銀行在多個(gè)地區(qū)

5、設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè)、國家重點(diǎn)項(xiàng)目建設(shè)、固定資產(chǎn)投資等項(xiàng)目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù),散點(diǎn)圖(例題分析),散點(diǎn)圖(例題分析),相關(guān)關(guān)系的描述與測度(相關(guān)系數(shù)),相關(guān)系數(shù)(correlati

6、on coefficient),對(duì)變量之間關(guān)系密切程度的度量對(duì)兩個(gè)變量之間線性相關(guān)程度的度量稱為簡單相關(guān)系數(shù)若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為?若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為 r,相關(guān)系數(shù) (計(jì)算公式),? 樣本相關(guān)系數(shù)的計(jì)算公式,或化簡為,相關(guān)系數(shù)(取值及其意義),r 的取值范圍是 [-1,1] |r|=1,為完全相關(guān)r =1,為完全正相關(guān)r =-1,為完全負(fù)正相關(guān) r =

7、0,不存在線性相關(guān)關(guān)系相關(guān) -1?r<0,為負(fù)相關(guān) 0<r?1,為正相關(guān) |r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切,相關(guān)系數(shù)(取值及其意義),r,相關(guān)系數(shù)(例題分析),用Excel計(jì)算相關(guān)系數(shù),相關(guān)系數(shù)的顯著性檢驗(yàn),相關(guān)系數(shù)的顯著性檢驗(yàn)( r 的抽樣分布),1.r 的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時(shí),隨著n的增大,r 的抽樣分布趨于正態(tài)分布,尤其是在總體

8、相關(guān)系?數(shù)很小或接近0時(shí),趨于正態(tài)分布的趨勢(shì)非常明顯。而當(dāng)遠(yuǎn)離0時(shí),除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。當(dāng)?為較大的正值時(shí),r 呈現(xiàn)左偏分布;當(dāng)?為較大的負(fù)值時(shí),r 呈現(xiàn)右偏分布。只有當(dāng)?接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量,相關(guān)系數(shù)的顯著性檢驗(yàn)(檢驗(yàn)的步驟),1.檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系等價(jià)于對(duì)回歸系數(shù) b1的檢驗(yàn)采用R.A.Fisher提出的 t 檢驗(yàn)檢驗(yàn)的步驟為提出

9、假設(shè):H0:? ? ? ;H1: ? ? 0,計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,確定顯著性水平?,并作出決策 若?t?>t???,拒絕H0 若?t?<t???,不拒絕H0,相關(guān)系數(shù)的顯著性檢驗(yàn)(例題分析),? 對(duì)不良貸款與貸款余額之間的相關(guān)系數(shù)進(jìn)行顯著性檢(??0.05)提出假設(shè):H0:? ? ? ;H1: ? ? 0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量,3. 根據(jù)顯著性水平?=0.05,查t分布表得t???(n-2)=2.0687由于?t?=

10、7.5344>t???(25-2)=2.0687,拒絕H0,不良貸款與貸款余額之間存在著顯著的正線性相關(guān)關(guān)系,相關(guān)系數(shù)的顯著性檢驗(yàn)(例題分析),各相關(guān)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量,§11.2 一元線性回歸,一元線性回歸模型參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度顯著性檢驗(yàn),什么是回歸分析?(Regression),從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的

11、諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確程度,回歸分析與相關(guān)分析的區(qū)別,相關(guān)分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱為因變量,處在被解釋的地位,x 稱為自變量,用于預(yù)測因變量的變化相關(guān)分析中所涉及的變量 x 和 y 都是隨機(jī)變量;回歸分析中,因變量 y 是隨機(jī)變量,自變量 x 可以是隨機(jī)變量,也可以是

12、非隨機(jī)的確定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量 x 對(duì)變量 y 的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制,回歸模型的類型,一元線性回歸模型,一元線性回歸,涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependent variable),用y表示用來預(yù)測或用來解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independent variable),用x

13、表示 因變量與自變量之間的關(guān)系用一條線性方程來表示,回歸模型(regression model),回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1 個(gè)數(shù)字的因變量(響應(yīng)變量)被預(yù)測的變量1 個(gè)或多個(gè)數(shù)字的或分類的自變量 (解釋變量)用于預(yù)測的變量3.主要用于預(yù)測和估計(jì),一元線性回歸模型,描述因變量 y 如何依賴于自變量 x 和誤差項(xiàng)? 的方程稱為回歸模型一元線性回歸模型可表示為 y

14、 = b0 + b1 x + ey 是 x 的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于 x 的變化而引起的 y 的變化誤差項(xiàng) ? 是隨機(jī)變量反映了除 x 和 y 之間的線性關(guān)系之外的隨機(jī)因素對(duì) y 的影響是不能由 x 和 y 之間的線性關(guān)系所解釋的變異性?0 和 ?1 稱為模型的參數(shù),一元線性回歸模型(基本假定),誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的 x 值,y 的期望值為E ( y )

15、=? 0+ ? 1 x對(duì)于所有的 x 值,ε的方差σ2 都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N( 0 ,σ2 )獨(dú)立性意味著對(duì)于一個(gè)特定的 x 值,它所對(duì)應(yīng)的ε與其他 x 值所對(duì)應(yīng)的ε不相關(guān)對(duì)于一個(gè)特定的 x 值,它所對(duì)應(yīng)的 y 值與其他 x 所對(duì)應(yīng)的 y 值也不相關(guān),回歸方程 (regression equation),描述 y 的平均值或期望值如何依賴于 x 的方程稱為回歸方程一元線性回歸方程的

16、形式如下 E( y ) = ?0+ ?1 x,方程的圖示是一條直線,也稱為直線回歸方程?0是回歸直線在 y 軸上的截距,是當(dāng) x=0 時(shí) y 的期望值?1是直線的斜率,稱為回歸系數(shù),表示當(dāng) x 每變動(dòng)一個(gè)單位時(shí),y 的平均變動(dòng)值,估計(jì)的回歸方程(estimated regression equation),一元線性回歸中估計(jì)的回歸方程為,用樣本統(tǒng)計(jì)量 和 代替回歸方

17、程中的未知參數(shù) 和 ,就得到了估計(jì)的回歸方程,總體回歸參數(shù) 和 是未知的,必需利用樣本數(shù)據(jù)去估計(jì),其中: 是估計(jì)的回歸直線在 y 軸上的截距, 是直線的斜率,它表示對(duì)于一個(gè)給定的 x 的值, 是 y 的估計(jì)值,也表示 x 每變動(dòng)一個(gè)單位時(shí), y 的平均變動(dòng)值,參數(shù)的最小二乘估計(jì),最小二乘估計(jì),使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得 和 的方法。即,用最小二乘法擬合的直線來代表x與y

18、之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小,最小二乘估計(jì)(圖示),最小二乘法 ( 和 的計(jì)算公式),? 根據(jù)最小二乘法的要求,可得求解 和 的公式如下,估計(jì)方程的求法(例題分析),【例】求不良貸款對(duì)貸款余額的回歸方程,回歸方程為:y = -0.8295 + 0.037895 x回歸系數(shù) =0.037895 表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元,估計(jì)方程的求法(例題分析),

19、不良貸款對(duì)貸款余額回歸方程的圖示,用Excel進(jìn)行回歸分析,第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項(xiàng)第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當(dāng)對(duì)話框出現(xiàn)時(shí) 在“Y值輸入?yún)^(qū)域”方框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域 在“X值輸入?yún)^(qū)域”方框內(nèi)鍵入X的數(shù)據(jù)區(qū)域 在“置信度”選項(xiàng)中給出所需的數(shù)值 在“輸出選項(xiàng)”中選

20、擇輸出區(qū)域 在“殘差”分析選項(xiàng)中選擇所需的選項(xiàng)用Excel進(jìn)行回歸分析,回歸直線的擬合優(yōu)度,變差,因變量 y 的取值是不同的,y 取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量 x 的取值不同造成的除 x 以外的其他因素(如x對(duì)y的非線性影響、測量誤差等)的影響對(duì)一個(gè)具體的觀測值來說,變差的大小可以通過該實(shí)際觀測值與其均值之差 來表示,變差的分解(圖示),,離差平方和的分解 (三個(gè)平方和的關(guān)

21、系),離差平方和的分解 (三個(gè)平方和的意義),總平方和(SST)反映因變量的 n 個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除 x 以外的其他因素對(duì) y 取值的影響,也稱為不可解釋的平方和或剩余平方和,判定系數(shù)r2 (coefficient of determ

22、ination),回歸平方和占總離差平方和的比例,反映回歸直線的擬合程度取值范圍在 [ 0 , 1 ] 之間 R2 ?1,說明回歸方程擬合的越好;R2?0,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2,判定系數(shù)r2 (例題分析),【例】計(jì)算不良貸款對(duì)貸款余額回歸的判定系數(shù),并解釋其意義 判定系數(shù)的實(shí)際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)

23、系來解釋,或者說,在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說,不良貸款取值的差異有2/3以上是由貸款余額決定的??梢姴涣假J款與貸款余額之間有較強(qiáng)的線性關(guān)系,估計(jì)標(biāo)準(zhǔn)誤差(standard error of estimate),實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)?的標(biāo)準(zhǔn)差?的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方

24、程預(yù)測y時(shí)預(yù)測誤差的大小 計(jì)算公式為,注:例題的計(jì)算結(jié)果為1.9799,顯著性檢驗(yàn),線性關(guān)系的檢驗(yàn),檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p) 殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1),線性關(guān)系的檢驗(yàn) (檢驗(yàn)的步驟),提出假設(shè)H0:?1=0 線性關(guān)系不顯著,2

25、. 計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,確定顯著性水平?,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F ?作出決策:若F>F ?,拒絕H0;若F<F ?,不拒絕H0,線性關(guān)系的檢驗(yàn) (例題分析),提出假設(shè)H0: ?1=0 不良貸款與貸款余額之間的線性關(guān)系不顯著計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,確定顯著性水平?=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F ?=4.28作出決策:若F>F ?,拒絕H0,線性關(guān)系顯著,線

26、性關(guān)系的檢驗(yàn) (方差分析表),Excel 輸出的方差分析表,回歸系數(shù)的檢驗(yàn),在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn),檢驗(yàn) x 與 y 之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量 x 對(duì)因變量 y 的影響是否顯著,理論基礎(chǔ)是回歸系數(shù) 的抽樣分布,回歸系數(shù)的檢驗(yàn)(樣本統(tǒng)計(jì)量 的分布),是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布 的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于?未知,需用

27、其估計(jì)量sy來代替得到 的估計(jì)的標(biāo)準(zhǔn)差,回歸系數(shù)的檢驗(yàn) (檢驗(yàn)步驟),提出假設(shè)H0: b1 = 0 (沒有線性關(guān)系) H1: b1 ? 0 (有線性關(guān)系) 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量,確定顯著性水平?,并進(jìn)行決策? t?>t???,拒絕H0;? t?<t???,不拒絕H0,回歸系數(shù)的檢驗(yàn) (例題分析),?對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(?=0.05)提出假設(shè)H0:b1 = 0 H1:b1 ? 0 計(jì)算檢

28、驗(yàn)的統(tǒng)計(jì)量,t=7.533515>t???=2.201,拒絕H0,表明不良貸款與貸款余額之間有線性關(guān)系,回歸系數(shù)的檢驗(yàn) (例題分析),?P 值的應(yīng)用,P=0.000000<?=0.05,拒絕原假設(shè),不良貸款與貸款余額之間有線性關(guān)系,Excel輸出的部分回歸結(jié)果,§11.3 利用回歸方程進(jìn)行 估計(jì)和預(yù)測,點(diǎn)估計(jì)區(qū)間估計(jì),利用回歸方程進(jìn)行估計(jì)和預(yù)測,根據(jù)自變量 x 的取值估計(jì)或預(yù)

29、測因變量 y的取值估計(jì)或預(yù)測的類型點(diǎn)估計(jì)y 的平均值的點(diǎn)估計(jì)y 的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y 的平均值的置信區(qū)間估計(jì)y 的個(gè)別值的預(yù)測區(qū)間估計(jì),點(diǎn)估計(jì),點(diǎn)估計(jì),2. 點(diǎn)估計(jì)值有y 的平均值的點(diǎn)估計(jì)y 的個(gè)別值的點(diǎn)估計(jì)在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同,對(duì)于自變量 x 的一個(gè)給定值x0 ,根據(jù)回歸方程得到因變量 y 的一個(gè)估計(jì)值,y 的平均值的點(diǎn)估計(jì),?利用估計(jì)的回歸方程,對(duì)于

30、自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的平均值的一個(gè)估計(jì)值E(y0) ,就是平均值的點(diǎn)估計(jì)在前面的例子中,假如我們要估計(jì)貸款余額為100億元時(shí),所有分行不良貸款的平均值,就是平均值的點(diǎn)估計(jì) 。根據(jù)估計(jì)的回歸方程得,y 的個(gè)別值的點(diǎn)估計(jì),,?利用估計(jì)的回歸方程,對(duì)于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的一個(gè)個(gè)別值的估計(jì)值 ,就是個(gè)別值的點(diǎn)估計(jì)比如,如果我們只是想知道貸款余額為72.8億元的那個(gè)分行(這里

31、是編號(hào)為10的那個(gè)分行)的不良貸款是多少,則屬于個(gè)別值的點(diǎn)估計(jì) 。根據(jù)估計(jì)的回歸方程得,區(qū)間估計(jì),區(qū)間估計(jì),點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)對(duì)于自變量 x 的一個(gè)給定值 x0,根據(jù)回歸方程得到因變量 y 的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidence interval estimate)預(yù)測區(qū)間估計(jì)(prediction interval estimate),置信

32、區(qū)間估計(jì),利用估計(jì)的回歸方程,對(duì)于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的平均值的估計(jì)區(qū)間 ,這一估計(jì)區(qū)間稱為置信區(qū)間(confidence interval) E(y0) 在1-?置信水平下的置信區(qū)間為,式中:sy為估計(jì)標(biāo)準(zhǔn)誤差,置信區(qū)間估計(jì)(例題分析),【例】求出貸款余額為100億元時(shí),不良貸款95% 的置信區(qū)間 解:根據(jù)前面的計(jì)算結(jié)果,已知n=25,

33、 sy=1.9799,t???(25-2)=2.0687 置信區(qū)間為,當(dāng)貸款余額為100億元時(shí),不良貸款的平均值在2.1141億元到3.8059億元之間,預(yù)測區(qū)間估計(jì),利用估計(jì)的回歸方程,對(duì)于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測區(qū)間(prediction interval) y0在1-?置信水平下的預(yù)測區(qū)間為,預(yù)測區(qū)間

34、估計(jì)(例題分析),【例】求出貸款余額為72.8億元時(shí),不良貸款 95% 的置信區(qū)間 解:根據(jù)前面的計(jì)算結(jié)果,已知n=25, sy=1.9799,t???(25-2)=2.0687 置信區(qū)間為,貸款余額為72.8億元的那個(gè)分行,其不良貸款的預(yù)測區(qū)間在-2.2766億元到6.1366億元之間,影響區(qū)間寬度的因素,置信水平 (1 -

35、?)區(qū)間寬度隨置信水平的增大而增大數(shù)據(jù)的離散程度 (s)區(qū)間寬度隨離散程度的增大而增大3.樣本容量區(qū)間寬度隨樣本容量的增大而減小4.用于預(yù)測的 xp與?x的差異程度區(qū)間寬度隨 xp與?x 的差異程度的增大而增大,置信區(qū)間、預(yù)測區(qū)間、回歸方程,§11.4 殘差分析,用殘差證實(shí)模型的假定用殘差檢測異常值和有影響的觀測值,殘差(residual),因變量的觀測值與根據(jù)估計(jì)的回歸方程求出的預(yù)測值之差,用e表

36、示反映了用估計(jì)的回歸方程去預(yù)測而引起的誤差 確定有關(guān)誤差項(xiàng)?的假定是否成立 檢測有影響的觀測值,用殘差證實(shí)模型的假定,殘差圖(residual plot),表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖標(biāo)準(zhǔn)化殘差圖用于判斷誤差?的假定是否成立 檢測有影響的觀測值,殘差圖(形態(tài)及判別),殘差圖(例題分析),,標(biāo)準(zhǔn)化殘差(standardized residual),? 殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值。計(jì)算公式為

37、 ei是第i個(gè)殘差的標(biāo)準(zhǔn)差,其計(jì)算公式為,標(biāo)準(zhǔn)化殘差圖,? 用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立 若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間,標(biāo)準(zhǔn)化殘差圖(例題分析),,用殘差檢測異常值和有影響的觀測值,異常值(outlier),如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢(shì)不相吻合,這個(gè)點(diǎn)就有可能是異常點(diǎn),或稱為野點(diǎn)如果異常值是一個(gè)錯(cuò)誤的數(shù)據(jù),比如記錄錯(cuò)誤造成的,

38、應(yīng)該修正該數(shù)據(jù),以便改善回歸的效果如果是由于模型的假定不合理,使得標(biāo)準(zhǔn)化殘差偏大,應(yīng)該考慮采用其他形式的模型,比如非線性模型如果完全是由于隨機(jī)因素而造成的異常值,則應(yīng)該保留該數(shù)據(jù)在處理異常值時(shí),若一個(gè)異常值是一個(gè)有效的觀測值,不應(yīng)輕易地將其從數(shù)據(jù)集中予以剔出,異常值(識(shí)別),異常值也可以通過標(biāo)準(zhǔn)化殘差來識(shí)別如果某一個(gè)觀測值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差較大,就可以識(shí)別為異常值一般情況下,當(dāng)一個(gè)觀測值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差小于-2或大于+2時(shí)

39、,就可以將其視為異常值,有影響的觀測值,如果某一個(gè)或某一些觀測值對(duì)回歸的結(jié)果有強(qiáng)烈的影響,那么該觀測值或這些觀測值就是有影響的觀測值 一個(gè)有影響的觀測值可能是一個(gè)異常值,即有一個(gè)的值遠(yuǎn)遠(yuǎn)偏離了散點(diǎn)圖中的趨勢(shì)線對(duì)應(yīng)一個(gè)遠(yuǎn)離自變量平均值的觀測值或者是這二者組合而形成的觀測值,,有影響的觀測值(圖示),,不存在影響值的趨勢(shì),,不存在影響值的趨勢(shì),存在影響值的趨勢(shì),,,杠桿率點(diǎn)(ieverage point),如果自變量存在一個(gè)極端

40、值,該觀測值則稱為高杠桿率點(diǎn)(high ieverage point)在一元回歸中,第i個(gè)觀測值的杠桿率用hi表示,其計(jì)算公式為 如果一個(gè)觀測值的杠桿率 就可以將該觀測值識(shí)別為有高杠桿率的點(diǎn) 一個(gè)有高杠桿率的觀測值未必是一個(gè)有影響的觀測值,它可能對(duì)回歸直線的斜率沒有什么影響,高杠桿率點(diǎn) (圖示),高杠桿率點(diǎn),,本章小結(jié),變量間關(guān)系的度量回歸模型、回歸方程與估計(jì)的回歸方程回歸直線的擬合優(yōu)度回歸分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論