2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,第8章 相關分析和回歸分析,2,相關分析(掌握)線性回歸分析(掌握)回歸模型的統(tǒng)計檢驗和預測(掌握)非線性回歸模型(了解),主要內容和學習目標,3,8.1.1 相關關系的概念和種類8.1.1.1 相關關系的概念在社會經(jīng)濟發(fā)展變化中,客觀現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象(變量)之間的數(shù)量依存關系可分為兩種類型:確定性關系和相關關系。相關關系是指現(xiàn)象之間客觀存在的非確定性的數(shù)量依存關系。,8.1相關分析,4,如:商品的

2、消費量(y)與居民收入(x)之間的關系,變量間關系是不能用函數(shù)關系精確表達的,一個變量的取值不能由另一個變量唯一確定。當變量x取某個值時,變量y的取值可能有幾個。,各觀測點分布在直線周圍。,5,8.1.1.2 相關關系的種類,按相關的方向可以分為正相關和負相關。按相關的程度可分為完全相關、不完全相關和不相關。按涉及的變量或因素的個數(shù)可以分為單相關與復相關。按相關的表現(xiàn)形式可分為線性相關與非線性相關。,6,曲線相關,,相關關系

3、,線性相關,,,,,正相關,負相關,,,,,,單相關,復相關,,,多元線性相關,多元非線性相關,,,,,7,8.1.1.3 相關圖表,相關表和相關圖可直觀地表達變量之間的相關關系的程度。相關表是將具有相關關系的原始數(shù)據(jù),按某一順序平行排列在一張表上,以觀察它們之間的相互關系。,8,表8-1高校人數(shù)和周邊飯店季營業(yè)額,9,相關圖也稱為分布圖或散點圖,它是在平面直角坐標中把相關關系的原始數(shù)據(jù)用點描繪出來,通常以直角坐標的橫軸代表自變量x,

4、縱軸代表因變量y。相關圖所反映的變量之間的相關關系的方向和程序比相關表更為清晰,也更為直觀。,10,圖8-1學生人數(shù)和季營業(yè)額相關圖,,11,,,12,8.1.1.4 相關分析的意義,1、相關分析可以確定變量之間相關關系的方向和程度2、相關分析可以衡量回歸估計的精確程度,13,8.1.2 簡單線性相關,8.1.2.1 相關系數(shù)相關系數(shù)是描述相關的兩個變量之間相關關系密切程度的數(shù)量指標。早在1890年,英國著名統(tǒng)計學家Karl

5、Pearson便提出了一個測定兩個變量線性相關的計算方法,通常稱為積差相關系數(shù)或簡單相關系數(shù)。,14,總體相關系數(shù):,,式中:,——是變量X和Y的協(xié)方差,——是變量X的標準差,——是變量Y的標準差,樣本相關系數(shù):,,,15,計算學生人數(shù)和季營業(yè)額的相關系數(shù),,16,8.1.2.2 相關系數(shù)的性質,1、2、若 ,表示變量x與變量y為線性正相關關系;若 ,表示變量x與變量y為線性負相關

6、關系。3、若 ,表示兩變量完全線性相關,即變量x與變量y之間存在確定的函數(shù)關系。若 ,表示兩變量完全線性正相關;若 ,表示兩變量完全線性負相關。4、若 ,表示兩變量不存在線性相關。,,,,,,,,17,5、當 時,表示兩變量存在不同程度的線性相關。 的數(shù)值越接近于1,表示兩變量之間線性相關程度越高;反之 的數(shù)值越接近于0,表示兩

7、變量之間線性相關程度越低。通常認為: 微弱相關; 低度相關 顯著相關; 高度相關6、相關系數(shù)不受變量值水平和計量單位的影響。,,,,,,,,18,根據(jù)給定的顯著性水平和自由度n-2,查找t分布中的相應臨界值 。如果 ,就否定原假設,認為 r 在統(tǒng)計上是顯著的,

8、即總體相關系數(shù)不為零,總體變量間存在線性相關關系。,8.1.2.3 相關系數(shù)的顯著性檢驗,提出假設:,計算 t 檢驗統(tǒng)計量:,,19,檢驗高校學生人數(shù)與周邊飯店季營業(yè)額之間的相關系數(shù)是否顯著,顯著性水平?=0.05。第一步:提出假設第二步:構造并計算檢驗統(tǒng)計量,,,20,第三步:確定臨界值。根據(jù)給定的顯著性水平?=0.05和自由度10-2=8,查找t分布表或利用Excel計算,得到臨界值。第四步:決策。由于

9、 所以拒絕原假設,說明高校學生人數(shù)與周邊飯店季營業(yè)額之間存在著顯著的正線性相關關系。,,,21,8.2.1 回歸分析 回歸分析是根據(jù)已知變量估計未知變量的一種統(tǒng)計方法,它是以對未知變量(因變量)同其他變量(自變量)相互關系的觀察為基礎,在某種精確度下,預測未知變量的數(shù)值。,8.2 線性回歸分析,22,回歸分析的內容和步驟:,①選擇適當?shù)幕貧w模型。②進行參數(shù)估計。③進行模型的檢驗。

10、④進行預測。即根據(jù)回歸方程進行適當?shù)慕?jīng)濟預測,這是回歸分析的最終目的。,23,8.2.1.1 總體回歸方程與樣本回歸方程,例:研究家庭消費支出與家庭收入之間的關系,一個總體由50戶家庭組成,并按人均月收入水平劃分成組內收入水平大致相同的10個組。,24,圖8-4 不同收入水平的家庭消費支出散點分布圖,總體回歸線PRL,隨機試驗所有可能結果的集合稱為總體或樣本空間,第一節(jié) 古典回歸模型,由圖中看出總體回歸直線是線性的,用函數(shù)的形式來表示

11、: (1) 這是直線的數(shù)學表達式,在式(1)中, E(Y|Xi)表示給定X值相應的(或條件的) Y的均值,稱為Y的條件期望或條件均值下標i代表第i個子總

12、體。如,x=2時,y的條件均值為 即收入水平為2000元的4個家庭的平均消費支出為1500元。,第一節(jié) 古典回歸模型,注意:,E(Y|Xi)是Xi的函數(shù)(在此例中是線性函數(shù))。這意味著Y依賴于Xi,一般稱之為Y對X的回歸。回歸可簡單地定義為在給定X值的條件下Y值分布的均值。換句話說,總體回歸直線經(jīng)過Y的條件期望值。式(1)是總體回歸函數(shù)(Population Regression Function, PRF)的數(shù)學形式。在本

13、例中,總體回歸函數(shù)是線性函數(shù)。,第一節(jié) 古典回歸模型,為參數(shù)(parameters),也稱回歸系數(shù)(regression coefficients)。 又稱為截距(intercept),是當X為0時Y的均值 又稱為斜率(slope),斜率度量了X 每變動一單位,Y 的均值的變化率。 例,如果斜率 為0.5,那么,當收入x每增加1單位(千元),Y 的(期望)均值將增加0.5個單位(千元);即,平均而言,消

14、費支出將增加0.5千元。,第一節(jié) 古典回歸模型,模型的隨機設定,從圖中可看出單個家庭的消費支出與平均消費支出之間存在著一定的離差,即 (2) 其中, 表示隨機誤差項(stochastic, random erro

15、r term)或簡稱為誤差項。,29,表8-4 從表8-3的總體中抽取一個隨機樣本,,30,圖8-5 總體回歸線與樣本回歸線,第一節(jié) 古典回歸模型,得到一條很好地“擬合”了樣本數(shù)據(jù)的直線,稱之為樣本回歸線(sample regression lines, SRL)。可能從K個不同的樣本中得到K條不同的樣本回歸直線,所有的這些樣本回歸線不可能都相同。每一條直線也最多是對真實總體回歸線的近似。,第一節(jié) 古典回歸模型,用樣本回歸函數(shù)(sa

16、mple regression function,S R F)來表示樣本回歸線。 (3) 表示總體條件均值, E(Y|Xi)的估計量; 表

17、示 的估計量; 表示 的估計量;,,,第一節(jié) 古典回歸模型,建立隨機的樣本回歸函數(shù): (4)其中ei為殘差項(residual term),或簡稱為殘差(residual)。,,第一節(jié) 古典回歸模型,回歸分析的主要目的是根據(jù)樣本回歸函數(shù)來估計總體回歸函數(shù),,35,8.2.1.2 相關

18、分析與回歸分析的聯(lián)系與區(qū)別,1、相關分析與回歸分析的聯(lián)系①相關分析和回歸分析具有共同的研究對象②相關分析和回歸分析需要相互補充③相關分析是回歸分析的前提④回歸分析是相關分析的拓展,36,2、相關分析與回歸分析的區(qū)別,①變量的地位不同②變量的性質不同③研究的目的不同④研究的方法不同⑤所起的作用不同,37,8.2.2 一元線性回歸模型,8.2.2.1 回歸模型的基本假定回歸模型是描述因變量如何依賴自變量和隨機誤差項的方程。

19、一元線性回歸模型只涉及一個自變量,可表述為:,第一節(jié) 古典回歸模型,隨機誤差項是服從正態(tài)分布的實隨機變量。零均值假定。即,同方差假定,即對于自變量 所有觀察值,隨機誤差項?的方差 都相同。非自相關假定,即與自變量不同觀察值對應的隨機誤差項之間是互不相關、互不影響的自變量變量與隨機誤差項不相關假定。無多重共線性假定。,回歸模型的基本假定,第二節(jié) 回歸模型的參數(shù)的估計,8.2.2.2 最小二乘估計

20、(OLS),殘差是Yi的真實值與估計值之差,即普通最小二乘法(ordinary least squares, OLS ),即選擇參數(shù) 和 ,使得全部觀察值的殘差平方和最小。用數(shù)學形式表示為:最小二乘原理就是所選樣本回歸函數(shù)使得所有Y的估計值與真實值差的平方和最小。,第二節(jié) 回歸模型的參數(shù)的估計,求解聯(lián)立方程解得,41,參數(shù)估計誤差和置信區(qū)間,1、估計誤差:估計值和真值的偏差。 的估計誤差為:

21、 的估計誤差為:,42,2、置信區(qū)間,對于給定的置信度1-?, 參數(shù)的置信區(qū)間為:即以100(1-?)%的概率回歸系數(shù)屬于該區(qū)間內。同理, 參數(shù)的置信區(qū)間為,43,8.2.3 多元線性回歸模型,8.2.3.1 多元線性回歸模型的參數(shù)估計利用最小二乘法估計模型的參數(shù),44,參數(shù)估計值應該是下列方程組的解:,45,定義矩陣:方程組可以用矩陣表示成:參數(shù)的最小二乘估計為,46,8.2.3.2 參數(shù)的估

22、計誤差和置信區(qū)間,參數(shù)估計值的標準差為 為矩陣 對角線上的第i個元素對于給定的置信度1-?,參數(shù)的100(1-?)%置信區(qū)間為:,47,8.2.3.3 多元回歸模型中的相關分析,多元回歸分析中,由于變量總數(shù)不止兩個,因變量與多個自變量的組合產(chǎn)生一定的依存關系;同時任何兩個變量之間的相關關系都可能受到其余變量的影響。為此需要對已建立的多元回歸模型進行相關分

23、析,包括復相關和偏相關。,48,1、復相關,在多變量情況下,復相關系數(shù)是用來測定因變量 與一組自變量 之間相關程度的指標。其計算公式為:,,,,復相關系數(shù)的值域在0到1之間,它的值為1,表明 與 之間存在嚴密的線性關系;它的值為0,則表明 與 之間不存在任何線性相關關系;它的取值在0和1之間時,表明變量之間存在一定的線性相關關系。,49,2、偏相關,在多變

24、量情況下,偏相關系數(shù)是用來測定當其他變量保持不變的情況下,任意兩個變量之間相關程度的指標。它主要考察兩個變量之間的凈相關關系,從而反映現(xiàn)象之間的真實聯(lián)系。以兩個自變量的情形為例:,,,x1和y偏相關系數(shù):,,x2和y偏相關系數(shù):,50,回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù)。在一次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。主要包括擬合優(yōu)度檢驗、模型的顯著性檢驗和變量的顯著性檢驗,以及

25、預測。,8.3 回歸模型的統(tǒng)計檢驗和預測,51,8.3.1 擬合優(yōu)度檢驗,擬合優(yōu)度檢驗:對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合優(yōu)度的指標:判定系數(shù)(可決系數(shù))R2,問題:采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?,52,如果Yi=?i 即實際觀測值落在樣本回歸“線”上,則擬合最好。可認為,“離差”全部來自回歸線,而與“殘差”無關。,53,對于所有樣本點,則需考慮這些點與樣本

26、均值離差的平方和,可以證明:,,記,總體平方和,回歸平方和,殘差平方和,54,TSS=RSS+ESS,Y的觀測值圍繞其均值的總離差(total variation)可分解為兩部分:一部分來自回歸線(RSS),另一部分則來自隨機勢力(ESS)。,在給定樣本中,TSS不變,如果實際觀測點離樣本回歸線越近,則RSS在TSS中占的比重越大,因此 擬合優(yōu)度:回歸平方和RSS/Y的總離差TSS,55,可決系數(shù)R2統(tǒng)計量,稱 R2 為(樣本)

27、可決系數(shù)或判定系數(shù),可決系數(shù)的取值范圍:[0,1] R2越接近1,說明實際觀測點離樣本線越近,擬合優(yōu)度越高。,56,8.3.2 模型的顯著性檢驗,模型的顯著性檢驗,就是檢驗模型對總體的近似程度,即檢驗因變量y和模型中所以自變量的線性關系是否顯著。通常構造F統(tǒng)計量進行檢驗,稱為F檢驗。對多元線性回歸模型,57,基本步驟如下:,1、提出假設,2、計算檢驗統(tǒng)計量:,3、對給定的顯著水平?確定臨界值,4、得出檢驗結論:,如果

28、 ,則否定原假設,表明回歸模型是顯著的;反之,就不能否定原假設。,58,8.3.3 解釋變量的顯著性檢驗,變量的顯著性檢驗是判斷解釋變量X是否對被解釋變量Y具有顯著的線性性影響,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。多元線性回歸模型, 檢驗某個自變量 x 對y是否有顯著影響,進行解釋變量的顯著性檢驗。,59,檢驗步驟:,1、對總體參數(shù)提出假設,4、 比較,判斷 若|t|>

29、;t?/2(n--k-1),則拒絕H0 ,接受H1 ; 若|t|? t?/2(n-k-1),則拒絕H1 ,接受H0 ;,2、構造檢驗統(tǒng)計量,3、對給定的顯著水平?確定臨界值t ?/2(n-k-1),60,注意:,在一元線性回歸分析中,回歸系數(shù)的顯著性檢驗與回歸模型的顯著性檢驗是等價的,因此 t 檢驗和F 檢驗的結論是一致的。但在多元回歸分析中,它們是不等價的,t 檢驗只檢驗方程中各個系數(shù)的顯著性,而 F 檢驗則檢驗的是整個方程的

30、顯著性。,61,(一)點預測對于一元線性回歸模型,給定樣本以外的解釋變量的觀測值Xf,可以得到被解釋變量的預測值?f ,可以此作為其條件均值E(Y|X=Xf)或個別值Yf的一個近似估計。,注意:嚴格地說,這只是被解釋變量的預測值的估計值,而不是預測值。 原因:(1)參數(shù)估計量不確定; (2)隨機項的影響,8.3.4 預測,62,(二)區(qū)間預測1、y的期望值的置信區(qū)間估計 在1-?的置信水平下的置信區(qū)間

31、可表示為 (一元模型) (多元模型),63,2、y的個別值的預測區(qū)間估計真實值 的置信水平為1-?的預測區(qū)間為:,64,1. 適配曲線問題選配曲線通??梢苑譃橄铝袃蓚€步驟:確定變量間的依存關系,根據(jù)實際資料做散點圖,按照圖形的分布形狀選擇合適的模型。確定回歸模型中的未知參數(shù)。2.常見的函數(shù)雙曲

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論