版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十四章 直線回歸分析 上一章我們學(xué)習(xí)了對(duì)每個(gè)研究對(duì)象同時(shí)觀察兩個(gè)指標(biāo) 的成對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析方法。本章將討論成對(duì)觀 察數(shù)據(jù)中變量間的數(shù)量依存關(guān)系。 “回歸”一詞最早由Golton在一項(xiàng)有關(guān)父親與兒子身高 的研究中提出。后來(lái)人們借用“回歸”這個(gè)詞來(lái)描述通 過(guò)自變量的數(shù)值預(yù)測(cè)反應(yīng)變量的平均水平。 為了通過(guò)可測(cè)或易測(cè)的變量對(duì)未知或難測(cè)或不可測(cè)變 量的狀態(tài)進(jìn)行估計(jì),可以借助于回歸
2、分析。,,,,為了研究父親與成年兒子身高之間的關(guān)系,卡爾.皮爾遜測(cè)量了1078對(duì)父子的身高。把1078對(duì)數(shù)字表示在坐標(biāo)上,如圖。例如兒子的身高與父親的身高有著某種依存關(guān)系,可以用回歸分析的方法去研究這種關(guān)系,即把兩個(gè)變量間的數(shù)量依存關(guān)系用函數(shù)形式表示出來(lái),用一個(gè)或多個(gè)變量去推測(cè)另一個(gè)變量的估計(jì)值和波動(dòng)范圍,這就是回歸分析。,例如,我們可以用身高、體重、肺活量的這些容易測(cè) 量的指標(biāo)來(lái)估計(jì)心室輸出量、體循環(huán)總血量等相對(duì)難
3、 測(cè)的指標(biāo)。 我們把被估計(jì)或預(yù)測(cè)的變量稱為因變量(dependent variable),或稱反應(yīng)變量(response variable),常用 y表示; y 所依存的變量稱為自變量(independent variable),或稱解釋變量(explanatory variable),或稱預(yù)測(cè)因子(predictor),常用x表示。,第一節(jié) 直線回歸方程的建立 一、直線回歸的概念 本章重點(diǎn)介紹兩個(gè)連續(xù)性
4、變量之間的線性依存關(guān)系的統(tǒng)計(jì)方法,簡(jiǎn)稱線性回歸(linear regression)。 例14.1 某研究欲探討男性腰圍與腹腔內(nèi)脂肪面積的關(guān)系,對(duì)20名男性志愿受試者測(cè)量其腰圍(cm),并采用磁共振成像法測(cè)量其腹腔內(nèi)脂肪面積(cm2),結(jié)果如表14.1所示。試建立腹腔內(nèi)脂肪面積( y )和腰圍( x )的直線回歸方程。,表 20名男性志愿受試者腰圍和腹腔內(nèi)脂肪面積的測(cè)量值,為直觀理解男性腰圍與腹腔內(nèi)脂肪面積的關(guān)系,以腰圍
5、為橫軸,腹腔內(nèi)脂肪面積為縱軸,描出20對(duì)數(shù)據(jù)散點(diǎn)圖如圖14.1。,腰圍 (cm),圖14.1 兩變量直線回歸關(guān)系散點(diǎn)圖,腹腔內(nèi)脂肪面積 (cm2),如上圖所示,可見散點(diǎn)大致呈直線趨勢(shì)。 即假設(shè)有一條潛在的直線可用來(lái)刻畫兩變量之間的關(guān)系,這樣的直線稱為回歸直線。 通常用 來(lái)表示回歸直線上各點(diǎn)的縱坐標(biāo),其數(shù)值是當(dāng) x 取某一值時(shí)因變量 y 的總體均數(shù)的估計(jì)值。,在數(shù)學(xué)上,描述因變量(y)依賴于另一自變量(x)的變化而變
6、化的方程稱為直線回歸方程,也稱為直線回歸模型,表述為: 其中, y為個(gè)體的因變量值,x為其自變量值,?為回歸直線的截距參數(shù),?為回歸直線的斜率參數(shù),又稱回歸系數(shù)。,通常情況下,研究者只能獲取一定數(shù)量的樣本數(shù)據(jù),用該樣本數(shù)據(jù)建立的有關(guān) y 依 x 變化的線性表達(dá)式稱為回歸方程,記為:,,直線回歸參數(shù)的含義,:回歸直線在軸上的截距。 >0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方; 0,表示 y 隨 x 增大而增
7、大; <0,表示 y 隨 x 增大而減?。?=0,表示直線與軸平行,即 y 與 x 無(wú)直線關(guān)系。,,,,,,,,,,,a>0,a=0,a<0,,b的統(tǒng)計(jì)學(xué)意義,x增(減)一個(gè)單位,y 平均改變b個(gè)單位。說(shuō)明存在回歸關(guān)系的兩變量間依存變化的數(shù)量關(guān)系。,二、回歸方程的估計(jì)(一) 回歸方程估計(jì)的最小二乘原則參數(shù)α和β一般只能通過(guò)用樣本數(shù)據(jù)來(lái)估計(jì)。當(dāng)x取值為xi時(shí),y的平均值的估計(jì)值 應(yīng)為
8、 而實(shí)際觀察值是yi。兩者之差為殘差,即:其中,(xi, yi),i=1, 2, ???, n為已知的樣本數(shù)據(jù)。,,,,,根據(jù)數(shù)學(xué)上的最小二乘法原理,導(dǎo)出 a 和 b 的算式如下:,的意義,,殘差絕對(duì)值: 實(shí)測(cè)點(diǎn)到直線的縱向距離。,回歸直線的有關(guān)性質(zhì),直線通過(guò)點(diǎn) 各實(shí)測(cè)點(diǎn)到該回歸線的縱向距離平方和較到其它任何直線者為小。,(二) 回歸系數(shù)的估計(jì)方法 例 現(xiàn)以例14.1資料說(shuō)明建立直線回歸方程的具
9、體步驟。 1. 繪制兩變量間的散點(diǎn)圖,如圖14.1所示,觀察到二者 存在直線趨勢(shì),故可進(jìn)行直線回歸分析。 2. 由樣本數(shù)據(jù)計(jì)算如下統(tǒng)計(jì)量,,3. 求回歸系數(shù)b。,,4. 求回歸截距α。5. 最小二乘原則下的回歸方程。,,第二節(jié) 直線回歸的統(tǒng)計(jì)推斷 一、總體回歸系數(shù)β的假設(shè)檢驗(yàn) 在簡(jiǎn)單回歸模型中,參數(shù)β的意義是: 若自變量x增加一個(gè)單位,反應(yīng)變量y的平均值便增
10、加β。如果β=0,說(shuō)明y與x之間并不存在線性關(guān)系;反之,β≠0,說(shuō)明y與x之間存在線性關(guān)系。 從β=0的總體中抽樣,計(jì)算出的樣本回歸系數(shù) b 很可能不為零。所以需對(duì)樣本回歸系數(shù) b 進(jìn)行假設(shè)檢驗(yàn)。,例 試對(duì)例14.1資料的樣本回歸方程進(jìn)行假設(shè)檢驗(yàn)。 Ⅰ. 建立假設(shè) H0:β=0 H1:β≠0 Ⅱ. 確定檢驗(yàn)水準(zhǔn) α=0.05 Ⅲ
11、. 計(jì)算統(tǒng)計(jì)量,(一) 方差分析(1) lyy的分析。 如圖 P點(diǎn)的縱坐標(biāo)被回歸直線與均數(shù) 截成三個(gè)線段:第一段 ,表示P點(diǎn)與回歸直線的縱向距離,為實(shí)際值y與估計(jì)值 之差,即殘差。第二段 ,即估計(jì)值 與均數(shù) 之差,它與回歸系數(shù)的大小有關(guān)。?b ?值越大, 的差值也越大,反之亦然。當(dāng)b=0時(shí), 亦為零,則
12、 ,也就是回歸直線并不能使殘差減少。,,,,,,,應(yīng)變量 y 的平方和劃分示意,x,P (x, y),y,,,,,,,,,,,,,第三段 ,是因變量 y 的均數(shù)。上述三個(gè)線段的代數(shù)和為:移項(xiàng) 這里P點(diǎn)是散點(diǎn)圖中任取的一點(diǎn),若將全部點(diǎn)子都按上法處理,并將等式兩端平方后再求和,則有,,,,,,,,,,,上式用符號(hào)表示為:SS總= SS回+SS殘式中SS總,即 ,為y的離
13、均差平方和lyy,又稱總平方和,說(shuō)明未考慮x與y的回歸關(guān)系時(shí)y的變異。SS回,即 ,它反映在y的總變異中由于x與y的直線關(guān)系而使y變異減少的部分,也就是在總平方和中可以用x解釋的部分。SS回越大,說(shuō)明回歸效果越好。SS殘,即 ,為殘差平方和,它反映x對(duì)y的線性影響之外的一切因素對(duì)y的變異的影響,也就是總平,,,,,,,,,,,,方和中無(wú)法用x解釋的部分。在散點(diǎn)圖中,各實(shí)測(cè)點(diǎn)與回歸
14、直線越近, 也就越小,說(shuō)明直線回歸的殘差越小。上述三個(gè)平方和各自的自由度?及相互關(guān)系如下:?總=?回+?殘?總=n-1,?回=1,?殘=n-2在H0為β=0的假設(shè)下,統(tǒng)計(jì)量F服從自由度為?回、?殘的F分布。,,,,,,,,,,,,,,,,,,,,,,SS殘=SS總-SS回,因?yàn)镾S總= SS回+SS殘 所以SS殘=SS總-SS回 =
15、7293.650-4235.086 =3058.564,,,,,,,,,,(2) 方差分析這里的方差分析的基本思想是:將SS總分解為SS回與 SS殘兩個(gè)部分,然后按下式計(jì)算F統(tǒng)計(jì)量。式中MS回為回歸均方,MS殘為殘差均方,?回為直線回歸的自由度,?殘為殘差變異的自由度。求得F值后,查F界值表,按所取檢驗(yàn)水準(zhǔn)?作出推斷結(jié)論。,,,,,,,,,,,,,,上面已算得SS總,SS回,SS殘列
16、方差分析表,如下表:表 直線回歸的方差分析表,,,,,,,,,,,,,,現(xiàn)?1=1,?2=18,查F界值表,得P<0.01,按?=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計(jì)學(xué)意義,故可認(rèn)為腹腔內(nèi)脂肪面積與腰圍之間存在直線回歸關(guān)系,總體回歸系數(shù)不等于零。,,,,,,,,,,,,,,(二) t 檢驗(yàn) 這里t 檢驗(yàn)的基本思想與定量變量中樣本均數(shù)與總體均數(shù)比較的t 檢驗(yàn)類似,統(tǒng)計(jì)量t 計(jì)算如下式:,,Sb為樣本回歸系數(shù)b的標(biāo)
17、準(zhǔn)誤,Sy?x為回歸殘差的標(biāo)準(zhǔn)誤。求得t值后查t界值表得到P值,按?水準(zhǔn)作出推斷結(jié)論。,Ⅳ. 確定概率P值 v=n-2=20-2=18,tb=4.9924,查 t 界值表, 得p<0.001。,,Ⅴ. 下結(jié)論 因?yàn)閜<0.01,按?=0.05水準(zhǔn),拒絕H0,接受H1, 差異有統(tǒng)計(jì)學(xué)意義。即故可認(rèn)為腹腔內(nèi)脂肪面積
18、 與腰圍之間存在直線回歸關(guān)系,總體回歸系數(shù)不 等于零。,,對(duì)于同一資料,對(duì)總體回歸系數(shù)?的假設(shè)檢驗(yàn)與總體相關(guān)系數(shù)?的假設(shè)檢驗(yàn)等價(jià),并且檢驗(yàn)統(tǒng)計(jì)量值具有如下關(guān)系:,,二、總體回歸系數(shù)β的置信區(qū)間 類似于總體均數(shù)的置信區(qū)間,參數(shù)β的(1-α)的置信區(qū)間為,,,,例14.4 試估計(jì)例14.1資料的總體回歸系數(shù)?的95%置信區(qū)間。,三、決定系數(shù) 回歸平方和與總離均差平方和之比稱為決定系數(shù),即
19、為R。 R2之值在0到1之間,且無(wú)單位。直觀地表示R2是回歸平方和在總平方和中所占的比例,它反映了回歸貢獻(xiàn)的相對(duì)程度,即在應(yīng)變量Y的總變異中回歸關(guān)系所能解釋的比例。(本例為R2=0.581) 在實(shí)際應(yīng)用中,通過(guò)決定系數(shù)來(lái)反映回歸的實(shí)際效果。,,第三節(jié) 直線回歸分析的應(yīng)用利用回歸方程進(jìn)行統(tǒng)計(jì)預(yù)測(cè)是回歸分析最重要的應(yīng)用。所謂預(yù)測(cè)就是將預(yù)報(bào)因子(自變量x)代入回歸方程對(duì)預(yù)報(bào)變量進(jìn)行估計(jì)。,,(一) y 的總體均數(shù)的
20、置信區(qū)間給定x=xP 時(shí),yP的總體均數(shù) 的點(diǎn)估計(jì)為:其標(biāo)準(zhǔn)誤為:,,,,的(1-?)的置信區(qū)間為:容易知道,當(dāng) 時(shí)標(biāo)準(zhǔn)誤 最小,所以在均 數(shù) 點(diǎn)處置信帶寬度最小,越遠(yuǎn)離均數(shù)點(diǎn),置信帶寬度越大。(1-?)的置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),其置信度為1-?。,,,(二) 個(gè)
21、體y值的預(yù)測(cè)區(qū)間總體中,當(dāng)xP為某一固定值時(shí),個(gè)體y值圍繞著對(duì)應(yīng)與xP值的 波動(dòng)。其方差為:,,,所以,個(gè)體Y值的標(biāo)準(zhǔn)差按下式計(jì)算:個(gè)體Y值的預(yù)測(cè)區(qū)間為:可見,在相同置信度下,個(gè)體值預(yù)測(cè)帶的曲線要比回歸線置信帶的曲線離回歸線更遠(yuǎn)。,,,,直線回歸分析需注意的問(wèn)題,回歸分析前應(yīng)繪制散點(diǎn)圖(必需有直線趨勢(shì)時(shí),才適宜作直線回歸分析。應(yīng)注意資料有無(wú)離群點(diǎn)(outlier)及離群點(diǎn)的處理。,,模型假設(shè)條件的考察(殘差圖)
22、,,結(jié)果的解釋及正確應(yīng)用 反映自變量對(duì)應(yīng)變量數(shù)量上影響大小的是回歸系數(shù) ,而非P值。 內(nèi)插與外推,直線回歸與相關(guān)的區(qū)別和聯(lián)系,區(qū)別 資料要求不同應(yīng)用情況不同聯(lián)系,直線回歸與相關(guān)的區(qū)別,資料要求不同回歸要求因變量y服從正態(tài)分布;y是可以精確測(cè)量和嚴(yán)格控制的變量,稱為Ⅰ型回歸。相關(guān)要求兩個(gè)變量x、y服從雙變量正態(tài)分布,稱為Ⅱ型回歸。應(yīng)用情況不同說(shuō)明兩變量間依存變化的數(shù)量關(guān)系用回歸,說(shuō)明變量間的
23、相關(guān)關(guān)系用相關(guān)。,直線回歸與相關(guān)的聯(lián)系,方向一致,即r與b正負(fù)號(hào)一致r和b假設(shè)檢驗(yàn)等價(jià)用回歸解釋相關(guān),,應(yīng)用直線回歸應(yīng)注意的問(wèn)題,回歸分析要有實(shí)際意義。在進(jìn)行直線回歸分析前,應(yīng)繪制散點(diǎn)圖??紤]建立線性回歸模型的基本假定。直線回歸方程應(yīng)用與圖示應(yīng)以自變量的取值范圍為限。兩變量間的直線關(guān)系不一定是因果關(guān)系。,給定X時(shí),Y是正態(tài)分布、等方差示意圖,二、回歸模型的適用條件 線性回歸模型的適用條件如下: (1)
24、因變量Y與自變量X呈線性關(guān)系。 線性指反應(yīng)變量Y的總體平均值與自變量X呈線性 關(guān)系。 如果發(fā)現(xiàn)數(shù)據(jù)違背該線性的假定,可尋求最適合 客觀實(shí)際的非線性模型。 (2) 每個(gè)個(gè)體觀察值之間互相獨(dú)立。,(3) 在一定范圍內(nèi),任意給定X值,對(duì)應(yīng)的隨機(jī)變量Y都 服從正態(tài)分布。 如果數(shù)據(jù)不滿足正態(tài)性假設(shè)首先考慮對(duì)原始數(shù)據(jù)進(jìn)
25、 行數(shù)據(jù)變換,使其正態(tài)化后進(jìn)行線性模型擬合與分 析。(4) 在一定范圍內(nèi)(自變量X取值范圍內(nèi)),不同的X值對(duì) 應(yīng)的隨機(jī)變量Y都具有相同的方差。 如果數(shù)據(jù)不滿足等方差性假設(shè),可試用變量變換使 其方差齊性后再進(jìn)行回歸分析,或者采用加權(quán)回歸 的方法。,,,圖 美國(guó)肺癌的監(jiān)測(cè)數(shù)據(jù)年及美國(guó)煙草消耗量的數(shù)據(jù)(American Cancer Society 2005),,,,,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)統(tǒng)計(jì)學(xué)-卡方檢驗(yàn)
- 緒論中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)教育技術(shù)中心
- 試題 - 中國(guó)醫(yī)科大學(xué)
- 中國(guó)醫(yī)科大學(xué)課件
- 麻疹中國(guó)醫(yī)科大學(xué)
- 中國(guó)醫(yī)科大學(xué)《藥劑學(xué)》習(xí)題
- 中國(guó)醫(yī)科大學(xué)考試《醫(yī)學(xué)遺傳學(xué)》考試答案
- 中國(guó)醫(yī)科大學(xué)《藥劑學(xué)(本科)》習(xí)題
- 中國(guó)醫(yī)科大學(xué)《大語(yǔ)文》習(xí)題
- 中國(guó)醫(yī)科大學(xué)《醫(yī)用化學(xué)》習(xí)題
- 肺功能檢查中國(guó)醫(yī)科大學(xué)
- 惡心與嘔吐中國(guó)醫(yī)科大學(xué)
- 中國(guó)醫(yī)科大學(xué)《健康評(píng)估》習(xí)題
- 中國(guó)醫(yī)科大學(xué)中國(guó)醫(yī)科大學(xué)2018年7月考試《臨床營(yíng)養(yǎng)學(xué)》考查課試題
- 中國(guó)醫(yī)科大學(xué)《大學(xué)英語(yǔ)2》習(xí)題
- 中國(guó)醫(yī)科大學(xué)《大學(xué)英語(yǔ)上》習(xí)題
- 中國(guó)醫(yī)科大學(xué)《分析化學(xué)(本科)》習(xí)題
- [中國(guó)醫(yī)科大學(xué)]中國(guó)醫(yī)科大學(xué)2019年7月考試《藥用植物學(xué)》考查課試題
- 中國(guó)醫(yī)科大學(xué)《系統(tǒng)解剖學(xué)(本科)》習(xí)題
- 中國(guó)醫(yī)科大學(xué) 系統(tǒng)解剖學(xué)(網(wǎng)上作業(yè))
評(píng)論
0/150
提交評(píng)論