《統(tǒng)計學》線性回歸模型

上傳人：奔*** IP屬地：河北更新時間：2024-01-05 格式：ppt 頁數(shù)：92 大?。?74.50KB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩91頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、1,,,第八章　回歸和相關分析,2,,§1 　導　言,3,,在自然界和人類社會中，經(jīng)常會遇到一些變量共處于一個統(tǒng)一體中，他們相互聯(lián)系，相互制約，在一定條件下相互轉化。社會經(jīng)濟現(xiàn)象尤其如此。例如某生產(chǎn)廠家的生產(chǎn)費用由所生產(chǎn)的產(chǎn)品數(shù)量和各種生產(chǎn)投入要素的價格等因素所決定。,4,,在社會經(jīng)濟現(xiàn)象中，變量之間的關系大致可以分為兩種： 1).函數(shù)關系 2).統(tǒng)計關系。,5,,函數(shù)關系：變量之間依一定的函數(shù)形式形成的一一對應關系稱

2、為函數(shù)關系。若兩個變量分別記作y和x，則當y 與x之間存在函數(shù)關系時，x值一旦被指定，y值就是唯一確定的。函數(shù)關系可以用公式確切的反映出來，一般記為y=f(x)。,6,,例如，某種商品的銷售額(y)與銷售量(x)之間的關系，在銷售價格(p)一定的條件下，只要給定一個商品銷售量，就有一個唯一確定的商品銷售額與之對應，用公式表示為y=p(x)。,7,,統(tǒng)計關系：兩個變量之間存在某種依存關系，但變量Y并不是由變量X唯一確定的，它們之間沒有嚴格

3、的一一對應關系。兩個變量之間的這種關系就是統(tǒng)計關系，也稱為相關關系。,8,,相關關系與函數(shù)關系有十分密切的聯(lián)系。在實際中，由于觀察和測量誤差等原因，函數(shù)關系往往是通過相關關系表現(xiàn)的，而在研究相關關系時，又常用函數(shù)關系作為工具，以相應的函數(shù)關系數(shù)學表達式表現(xiàn)相關關系的一般數(shù)量關系。,9,,例如：同樣收入的家庭，用于食品的消費支出往往并不相同。因為對家庭食品費用的影響，不僅有家庭收入的多少，還有家庭人口，生活習慣等因素，所以，家庭食品費用支

4、出與家庭收入之間不是函數(shù)關系，而是相關關系。,10,,在含有變量的系統(tǒng)中，考察一些變量對另一些變量的影響，它們之間可能存在一種簡單的函數(shù)關系，也可能存在一種非常復雜的函數(shù)關系。有些變量之間的關系是非確定性的關系，這種關系無法用一個精確的數(shù)學來表示。,11,,我們需要區(qū)分兩種主要類型的變量。一種變量相當于通常函數(shù)關系中的自變量，它或者能控制或者雖不能控制但可觀測，這種變量稱為自變量。自變量的變化能波及另一些變量，這樣的變量稱為因變量。人們

5、通常感興趣的問題是自變量的變化對因變量的取值有什么樣的影響。,12,,回歸分析正是研究自變量的變動對因變量的變動的影響程度，其目的在于根據(jù)已知自變量的變化來估計或預測因變量的變化情況。,13,,回歸的內容包括如何確定因變量與自變量之間的回歸模型；如何根據(jù)樣本觀測數(shù)據(jù)估計并檢驗回歸模型及未知參數(shù)；在眾多的自變量中，判斷哪些變量對因變量的影響是顯著的，哪些變量的影響是不顯著的；根據(jù)自變量的已知值或給定值來估計和預測因變量的平均值等等。,14

6、,,線性回歸分析是研究變量與變量之間的線性相關關系。從分析的內容上看，線性回歸是建立變量間的擬合線性相關模型，主要用于估計和預測。線性回歸模型應用領域極為廣泛，在許多領域里都有應用非常成功的例子，它是現(xiàn)代應用統(tǒng)計分析方法中的重要內容之一。,15,,§２　一元線性回歸模型,,16,8.2.1 一元線性回歸模型的數(shù)學表示式,如果兩個變量之間存在相關關系，并且一個變量的變化會引起另一個變量按某一線性關系變化，則兩個變量間的關系可以

7、用一元線性回歸模型描述。,17,,其數(shù)學模型為： y= …(8-1) 其中，y 為因變量， x為自變量，為模型參數(shù)，為回歸截距，為回歸系數(shù) ，為隨機誤差項，且～N(0, ).,,,,,,,,,18,,在實際問題中，(8-1)中的模型參數(shù) 是未知的，通常只能在自變量的一些點上對因變量進行觀測，得到一定量的數(shù)據(jù)，由數(shù)據(jù)出發(fā)對模型進行推

8、斷。,,19,8.2.2 回歸系數(shù) 的最小二乘估計。,假定（）, （）, …,（）為n次獨立試驗所得到的樣本觀測值，則有， i=1,2,…,n …(8-2) 其中i ,i=1,2,…,n為隨機誤差項，對i ,i=1,2,…,n的基本假定是i ,i=1,2,…,n相互獨立，服從N(0, )分布。,,,,,,,20,,記 Q(

9、 )= Q( )是直線y= 對于所有數(shù)據(jù)點的偏差平方和。取直線y= 使得 Q( )達到最小即 Q( )=Q( )，z用y=來估計回歸直線，這種方法稱為最小二乘法。,,,,,,,,,,21,,為求與分別對應的最小二乘估計，注意到Q( )是的非負二次函數(shù)，

10、因此最小值點存在且唯一，應滿足以下方程組：,,,,,,22,,求解方程組得：其中，,,,,23,8.2.3利用最小二乘法所得到的估計量有如下性質：,(1）分別是的無偏估計。（2）和的最小二乘估計和為“方差最小”線性無偏估計（3）的無偏估計為 :,,,,,,,,,,24,,在實際中，方差是未知的，因此，可用估計量

11、來估計。,,,,25,,例題1、在某類企業(yè)中隨機抽取10個企業(yè)，搜集它們的產(chǎn)量和生產(chǎn)費用情況，獲得數(shù)據(jù)如表1所示：,26,,表1 企業(yè)產(chǎn)量和生產(chǎn)費用,27,,我們可作出散點圖，易看出變量x與y之間的關系近似可看作是線性關系，根據(jù)表1的數(shù)據(jù)，利用最小二乘法，求一元線性回歸方程，,28,,以下列出的為計算表,29,,,30,,= =134.7909+0.3978x為所求的一元

12、回歸模型。,,,,31,8.2.4 一元線性回歸模型的檢驗,我們根據(jù)樣本觀測值，利用最小二乘法建立起一元線性回歸模型 = ，該模型是否滿足回歸模型的基本假設，還需要進行統(tǒng)計檢驗。,,,,,32,,統(tǒng)計檢驗應包括兩方面的內容：一是回歸方程的顯著性檢驗，即反映回歸模型 = 對樣本觀測值的擬合程度如何;一是回歸系數(shù)的顯著性檢驗，即檢驗變量y與變量x之間是否能用線性關系來描述；以下介紹三種檢驗的方法

13、：,33,（1）回歸模型的擬合程度的測度,變量y的各個觀測點聚集在回歸直線 = 周圍的緊密程度，稱為回歸直線對樣本數(shù)據(jù)點的擬合程度，常用可決系數(shù)R2來表示。,,,34,,總的離差平方和 SST= = = +,,,,,35,,因為 =0 故 SST= 記 SSR=

14、，SSE= 則 SST=SSR+SSE …… (8-5) SSR稱為回歸平方和， SSE稱為殘差平方和,,,,,36,,(8-5)可作如下解釋：因變量的總變化量（有SST表示）可分成兩部分之和，其中一部分是由自變量所引起的變化（由SSR刻畫），另一部分是隨機誤差所引起的變化（由SSE刻畫）。變量y的各個觀測值點與回歸直線越靠近，SSR在SST中所占的比重越大，可見，比值SSR/SS

15、T的大小，能反映回歸模型擬合程度的優(yōu)劣。,37,,由此，可定義統(tǒng)計量： R2= R2稱為“可決系數(shù)”,顯然，0≤R2≤1。當R2接近于1時，回歸平方和SSR在總的平方和SST中所占的比重大，說明自變量對因變量的影響較大；反之，當R2接近與0時，回歸平方和SSR在總的平方和SST中所占的比重小，說明自變量對因變量的影響較小。綜上所述，R2越接近與1，說明模型越有效，R2越接近與0，說明模型越無效。應該注意的是，R2通常只用于模型有效

16、性的一個大致的判斷。,,38,,R2稱為“可決系數(shù)”,顯然，0≤R2≤1。當R2接近于1時，回歸平方和SSR在總的平方和SST中所占的比重大，說明自變量對因變量的影響較大；反之，當R2接近與0時，回歸平方和SSR在總的平方和SST中所占的比重小，說明自變量對因變量的影響較小。綜上所述，R2越接近與1，說明模型越有效，R2越接近與0，說明模型越無效。應該注意的是，R2通常只用于模型有效性的一個大致的判斷。,39,,可決系數(shù)R2只說明了回歸

17、方程對樣本觀察值擬合程度的好壞，卻不能表示回歸直線估計值與變量y的各實際觀察值的絕對離差的數(shù)額。估計標準誤差則是反映回歸估計值與樣本實際觀察值的平均差異程度的指標，用Syx表示估計標準誤差，其計算公式為： Syx =,,40,,若估計標準誤差Syx小，表示各實際觀察值與回歸估計值平均差異小，實際觀察點靠近回歸直線，回歸直線的擬合程度好，代表性高；若樣本觀察點全部落在直線上，則Syx=0，說明樣本實際值與估計值沒有差別。若Syx大

18、，則說明回歸直線擬合不好，代表性差。,41,,估計標準誤差也可化簡為 Syx =,,42,（2）回歸系數(shù)的顯著性檢驗,一元線性回歸模型中，一次項系數(shù) 是一個關鍵的量，通過可反映自變量x的變動對因變量y的影響。若 =0意味著y不隨x變動而變動，因此y與x之間不存在線性關系；若 0，說明變量y與x之間存在線性關系；當 >0時，x對y的影響為正效應；當 <0時x對y的影響為負效應，影響的大小由

19、的絕對值來反映。,,,,,,,,43,,回歸系數(shù)的顯著性檢驗通常是通過回歸系數(shù)的t值檢驗，檢驗步驟如下: 統(tǒng)計假設：H0: =0 H1: 0,,44,,計算回歸系數(shù) 的t值： t= 其中 :,,,,45,,在原假設成立的條件下，t 服從自由度為 n-2的t分布，即t～t(n-2). 若給定的顯著性水

20、平為，（通常取=0.05），查t分布表，得到臨界值使得 P{|t|> }=,,,,,46,,假設的檢驗決策規(guī)則是：若|t|> , 則拒絕接受原假設H0; 若|t| 時說明變量y與x之間存在線性關系；；|t|< 時，意味著y不隨x變動而變動。,,,,,47,,雖然在回歸函數(shù)中常數(shù)項的作用不如重要，但有時也要對它作區(qū)

21、間估計或假設檢驗，例如有時要檢驗假設 =0，這相當于要檢驗回歸直線是否通過原點，下面介紹以下關于的統(tǒng)計假設檢驗。,,,,,48,,檢驗步驟如下：統(tǒng)計假設：H0： =0 H1: 0計算回歸系數(shù) 的t值t=在原假設H0成立時，t服從自由度為n-2的t分布。,,,,,,49,,對給定的顯著性水平，決策規(guī)則是：若|t|> , 則拒絕接受原假設H0;若|t

22、|< ，則接受原假設H0。,,,,50,（3）回歸方程線性關系的顯著性檢驗,該檢驗是以方差分析方法為基礎，反映y與x之間是否存在線性相關關系的檢驗，也被稱為回歸方程的F檢驗。其檢驗步驟如下：,51,,統(tǒng)計假設 H0： =0 H1： 0計算回歸方程的F統(tǒng)計量：F=可證明，在原假設H0成立時，有F～F（1，n-2）,,,,,52,,根據(jù)給定的顯著性水平，查F分布表，

23、對于給定的顯著性水平，假設檢驗決策的規(guī)則為：若F > （1，n-2）時，則拒絕接受原假設H0 若F < （1，n-2）時，則接受原假設 H0。,,,,,53,,也就是說，F(xiàn) > （1，n-2）時，回歸方程的回歸效果是顯著的； F < （1，n-2）時，回歸方程的回歸效果是不顯著的。,,,54,,例題2、利用例題1的結果，檢驗生產(chǎn)費用和產(chǎn)量之間存在著線性關系的假設是否成立

24、。解：(1) F檢驗統(tǒng)計假設：H0： =0 H1： 0,,,,55,,SSR= =1666.3577SST= =887.7423統(tǒng)計量F= = =15.0166,,,,,56,,給定的顯著性水平 =0

25、.01，查F分布表，得 (1，8)=11.26 由于F=15.0166> (1，8)=11.26，所以，拒絕接受H0，即生產(chǎn)費用和參量之間存在著十分顯著的線性關系。,,,,57,8．2．5 一元線性回歸模型的應用,回歸模型在應用領域里一項重要的研究內容是如何利用回歸模型進行預測，預測就是在確定自變量的某一個值時，求相應的因變量y的估計值，其中可分為點預測和區(qū)間預測。,58,,（1）點預測

26、點預測是將自變量的預測值代入回歸模型=，所得到的因變量y的值作為與相對應的的預測，不難驗證，是無偏預測。,59,,（2）區(qū)間預測類似于對參數(shù)作置信區(qū)間估計，可對預測作指定置信水平的預測區(qū)間，這樣可以以相當大的概率保證預測的“方向”及精度。,60,,對于與相對應的值為，由于樣本的不得到的回歸模型的，會不同，通過 = 預測的，這個與之間總存在一定

27、的抽樣誤差，可證明（ — )～ N[0,,,,,,,,,,,,,,61,,其中，因此，的概率為1- 的預測區(qū)間為,,,,,62,,因而，對于給定的置信水平1- ，有 , 為的置信水平100(1 - )%的預測區(qū)間。,,,,,,63,,例題3、依據(jù)例題1中所建立的回歸模型，給定x0=50（千個）時，試預測y0,并求 =0.05時y0的

28、預測區(qū)間。,,64,,解：當x0=50時， =134.7909+0.397850=154.6809 （千元） = （8）=2.306 =26.3301 所以，（128.3607，181.0209）為y0的置信水平95%的預測區(qū)間。,,,,,65,§3 多元線性回歸模型及其應用,一元線性回歸將影

29、響因變量的自變量限制在一個，但在實際中，社會經(jīng)濟現(xiàn)象的復雜性決定了某一現(xiàn)象的變動往往受多種因素的影響。如某種產(chǎn)品單位成本的高低受產(chǎn)品原材料消耗量，原材料價格，產(chǎn)品產(chǎn)量等多種因素影響；企業(yè)的利潤受產(chǎn)品銷售收入，產(chǎn)品銷售成本，期間費用等因素影響，這就需要研究兩個或兩個以上自變量對因變量的影響。一個因變量與多個自變量之間的線性相關關系稱為多元線性回歸。,66,8.3.1多元線性回歸模型的數(shù)學表示式為：,y=

30、 ……(8-6) 其中，y為因變量，，i=1,2,…,n為自變量. ，i=0，1，…,k為回歸參數(shù)，為隨機變量，且～,,,,,,,67,8.3.2 參數(shù)的最小二乘估計,實際上，回歸參數(shù) , ,…, 通常是未知的，需要對其進行估計。假定對于自變量 ,… , +和因變量y已得到n次觀測，第i 次觀測值為（

31、），i=1,2,…,n,,,,,,,68,,于是有 = i=1,2,…,n 其中，為相互獨立的隨機變量，且～。,,,,,,69,,回歸參數(shù) , ,…, 常用最小二乘法來估計，記 Q( , ,…, )=,,,,,,,,70,,求它的最小值點（）

32、，即 Q( )= Q( , ,…, ) 則就是 , ,…, 的最小二乘估計。,,,,,,,,,,,71,,令 Q對 , ,…, 的一階偏導數(shù)為零，即可求出最小二乘估計。 (j=1,2,…n),,,,,,72,,將上述方程組整理可得到

33、 (8-7)方程組（8-7）稱為“正規(guī)方程組”。,,73,,記,,,,,74,,則模型（8-6）可表示為 Y=X +正規(guī)方程組（8-7）可表示為（XTX） =XTY,,,,75,,當k+1階方陣XTX滿秩時，（即等價于r(X)=k+1）,可解出的唯一最小二乘估計這樣就得到了y的估計式可以看出，最小二乘估計是y的觀測值的線性函數(shù)，且是的無偏估計。,,,,,76,,因為 E( )=(XTX

34、)-1XTE(y) =(XTX)-1XTX = 類似于一元線性模型，可證明最小二乘估計為的“方差最小”線性無偏估計，“方差最小”可理解為：對的每個分量，最小二乘估計的方差最小。,,,,,,,77,8.3.3 多元線性回歸模型的檢驗,多元線性回歸模型的檢驗包括兩個方面：對回歸模型的擬合程度的評價，和回歸線性相關關系的檢驗，方法和一元線性回歸類同。,78,8.3.4 多元線性回歸模型的應用,在多元

35、線性回歸模型中，預測的方法與一元線性回歸模型的情況非常類似，建立了線性回歸模型之后，便可用它對有關變量進行預測。,,79,,給定，，… ，對應的因變量記為y0，則y0的點估計可由模型求得。,,,,80,,若記，則可證明～N 于是～N(0,1) 用代替

36、，便有～t(n-k-1),,,,,,,,,81,,對于給定的，的置信度為100（1- ）%的置信區(qū)間為,,,,,,82,,§4 回歸分析中的一些特殊問題,83,,前面我們介紹了線性回歸模型的建立和應用，一元線性回歸分析在實際中應用并不廣泛，而更多的是多元線性回歸模型，但在實際中，正確應用線性回歸模型分析實際問題并不是一件容易的事。由于有多個自變量，以下我

37、們來介紹回歸分析中的一些特殊問題。,84,8.4.1 自變量的選擇問題,在建立一個回歸模型時，我們要將所有可能對因變量產(chǎn)生影響的自變量考慮到模型中去，而通常在所有備選的自變量中，只有一部分真正對因變量有影響，這樣的變量稱為有效變量，而其它的則可能對因變量沒有影響，稱為無效變量。因此需要將有效變量保留在模型中，而無效變量應從模型中去掉，這樣就產(chǎn)生了自變量的篩選問題，具體方法略。,85,8.4.2多重共線型問題,在許多場合，如社會研究，時常

38、分析等領域中，自變量是隨機的，在這種情況下，自變量之間就會有很強的統(tǒng)計相關性，即多重共線性。由于樣本數(shù)據(jù)間存在著線性相關關系而產(chǎn)生的問題就稱為多重共線性問題。因此檢驗多重共線型問題是必要的，具體方法略。,86,,在多重共線性現(xiàn)象中，一種極端情況是自變量間的相關系數(shù)為１，這種情況稱為完全的多重共線性現(xiàn)象。此時，某個自變量可表示為其它自變量的線性組合，則有X的秩小于k+1, XTX的逆不存在。,87,,而在建立線性回歸接近于零，這時雖然XT

39、X的逆存在且可求出回歸參數(shù)的唯一的最小二乘估計量，但對應的估計量方差將會隨著相關程度的不斷增強而增大，回歸參數(shù)的估計量的方差不斷地增加，使得其置信區(qū)間不斷增大，從而回歸系數(shù)估計值的精度下降，我們便不能準確的分析有關自變量對因變量的真正影響。另外，估計量的方差增大，也使我們在回歸系數(shù)檢驗中容易得到不顯著的結果。,88,8.4.3 自相關問題,在研究線性模型　

40、 i=1,2,…,n其中假定了隨機誤差項之間是相互獨立的即: ～N(0, ) =,,,,,,89,,但在實際中，特別是在經(jīng)濟分析中，大多數(shù)時間序列的資料都具有時滯性，如投資，收入，消費，就業(yè)等，這樣的時間序列資料中順序觀測數(shù)據(jù)之間存在著相關現(xiàn)象，這種相關現(xiàn)象又將反映到中去，使得隨機誤差項之間存在著一定程度的相關關系。隨機誤

41、差項與，，…相關稱為自相關，與相關稱為r階自相關，而最常見的是一階自相關，即與相關。,,,,,,,,,,90,,以下我們討論的是一階自相關問題: 設模型為　 (8-8)　＝　　 i=1,2,…,n 其中　滿足 <１，稱為一階自相關系數(shù) i是

42、獨立的隨機變量且 i～N(0, ),,,,,,,,,,91,,若＝０，則之間不存在自相關現(xiàn)象；若 >0，則之間存在正自相關現(xiàn)象；若 <0，則之間存在負相關現(xiàn)象。,,,,,,,92,,隨機誤差項的自相關現(xiàn)象將使得回歸參數(shù) 不再是最小方差估計量，估計量的方差增大，估計精度將會下降；估計量不能準確地估計，從而會引起與有關的結論產(chǎn)生錯誤。因此，

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《統(tǒng)計學》線性回歸模型

文檔簡介

溫馨提示

最新文檔

評論

《統(tǒng)計學》線性回歸模型

文檔簡介

溫馨提示

最新文檔

評論

免費下載