

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基本內容,,相關與回歸,第九章,用于研究和解釋變量之間相互關系的,掌握:積差相關等級相關線性回歸的概念線性回歸方程的計算回歸系數的假設檢驗相關與回歸的區(qū)別與聯系了解:曲線擬合,教學目的和要求,重點講解積差相關等級相關線性回歸的概念回歸系數的假設檢驗相關與回歸的區(qū)別與聯系介紹曲線擬合,教學內容提要,第一節(jié) 兩變量相關,,相關分析是研究客觀事物或現象之間關系的密切程度(不存在函數關系)。,線性相關是研究兩變量
2、之間是否存在線性關系。,為研究父親與成年兒子身高之間的關系,皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上。X上的數代表父親身高,Y上的數代表兒子的身高。1078個點形成圖形是一個散點圖。,一、積差相關,1、散點圖,一、積差相關 1、散點圖,2、 積差相關系數,定量描述X與Y兩變量間直線相關方向和相關密切程度的統(tǒng)計指標。,Pearson相關系數,簡稱相關系數,適用于x、y都服從正態(tài)分布(稱為雙變量正態(tài)分布)的資料。
3、,積差相關系數的計算,,r 沒有單位取值范圍:-1≤r≤1,Lxy=∑XY- (∑X)(∑Y)/nLxx= ∑X2- (∑X)2/nLyy= ∑Y2- (∑Y)2/n,r的特點沒有單位-1≤ r ≤1 r=-1 完全負相關,-1≤ r <0 負相關 r= 1 完全正相關, 0< r ≤1 正相關 r= 0 零相關,散點圖,【例9-1】一個產科醫(yī)師發(fā)現孕婦尿中雌三醇含量與產兒的體重有關。于是設想,通過測量待產婦尿中雌三醇
4、含量,可以預測產兒體重,以便對低出生體重進行預防。因此收集了31例待產婦24小時的尿,測量其中的雌三醇含量,同時記錄產兒的體重。問尿中雌三醇含量與產兒體重之間是否存在相關關系?是正相關還是負相關?,,3、積差相關分析,13,待產婦尿雌三醇含量與產兒體重關系,,,,1)繪制散點圖,2)積差相關系數的計算,∑X=534;∑Y=99.2;∑X2=9876 ∑Y2=324.8;∑XY=1750;,3) 相關系數的假設檢驗,上例中r =0.6
5、1,說明了31例樣本中雌三醇含量與出生體重之間存在相關關系。但是,這31例只是總體中的一個樣本,由此得到的相關系數會存在抽樣誤差。?=0時,由于抽樣誤差,可能導致r≠0。對r進行假設檢驗,判斷r ≠0是由于抽樣誤差所致,還是兩個變量之間確實存在相關關系。,3) 相關系數的假設檢驗,,總體相關系數ρ=0表示總體中兩變量x和y無直線相關關系,,r 的標準誤為sr=,,,用r和自由度v=n-2,查附表18,相關系數界值表,H0:ρ=0
6、 H1:ρ≠0 ν= n-2=31-2=29查附表7, t0.0005/2,28=3.9351, t0.0002/2,28=4.2754, 0.0002< P<0.0005,拒絕H0,接受H1,認為待產婦尿中雌三醇含量與產兒體重之間有正相關關系。,第二節(jié) 直線回歸
7、,一、回歸方程二、回歸系數三、回歸系數的假設檢驗四、直線回歸的應用,一個人的快樂,不是因為他擁有的多,而是因為他計較的少,休息,二、等級相關(秩相關),①不服從正態(tài)分布的資料;②總體分布類型不知的資料;③用等級或相對數表示的資料;④數據一端或兩端有不確定值的資料 用等級相關(或稱秩相關)分析(屬非參數統(tǒng)計法)。,秩相關系數,Spearman相關系數(rs)Kendall相關系數(rk),,用等級相關系數表示兩個變
8、量間直線關系密切程度和方向。,先分別將兩個變量按原始數值由小到大編秩(遇相同觀察值時取平均秩),計算每對觀察值的秩之差d。,n為對子數;d為配對秩次之差;Tx(或Ty)=Σ(tj3-tj)/12;tj為x(或y)中第j個相同秩次的個數。查附表19確定P的大小。,1)Spearman相關系數(rs),【例9-2】 12名2~7歲急性白血病患兒的血小板數與出血癥狀資料見下表,分析兩者之間有無直線關系:,H0:ρ=0,H1:ρ≠0,查統(tǒng)計用
9、附表19,r0.05/2 (12)=0.587,P>0.05不能以?=0.05水準拒絕H0,不能認為2~7歲急性白血病患兒的血小板數與出血癥狀之間有直線相關關系。,2)Kendall相關系數,在X的秩從小到大排列后,計算配對的Y每個秩下面更大者的個數,合計值記為S,計算rK并在相同秩次較多時校正:,,其中,n為對子數,Ux或Uy=∑(tj2-tj)/2,tj為第j個相同秩次的個數。查附表20確定P的大小。,三、相關系數應用注意事項
10、有實際意義在兩個變量的變化范圍內進行相關不是因果關系,但可做為進一步考證有無因果關系的基礎,四、直線相關的應用,一般說來,當n>100,并對r進行假設檢驗,有統(tǒng)計學意義時:∣r∣>0.7,則表示兩個變量高度相關;0.4<∣r∣≤0.7時,則表示兩個變量之間中度相關;0.2<∣r∣≤0.4時,則兩個變量低度相關。,,待產婦尿中雌三醇含量和產兒體重之間成正相關。那么,如果我們知道了一位待產婦的尿雌三醇含量,能推斷出產兒的體重
11、嗎?或產兒的體重可能在什么范圍內呢?身高與體重之間也成正相關關系。那么,身高每增加1厘米,體重增加多少克呢?上面的相關關系分析不能提供給我們需要的答案。這些要用直線回歸的方法來解決。,某保險公司承保汽車5萬量,平均每量保費收入為1000元,則該保險公司汽車承??偸杖霝?000萬元。 承??偸杖耄?Y 承保汽車量數: X Y=1000X X與Y兩
12、個變量間完全表現為一種確定性關系,即函數關系。,第二節(jié) 一元回歸,銀行的1年期存款利息年息為2.25%,存入的本金用X表示,到期的本息用Y表示,則 Y=X+2.25%X 這里Y與X仍表現為一種線性函數關系。,另外一種情況: 兩事物之間有著密切的聯系,但密切的程度并沒有達到由一個可以完全
13、確定另一個的程度。例如: ?生長發(fā)育階段動物體重增量與食量 ? 廣告費支出與商品銷售額,由于其它因素的干擾,許多雙變量之間的關系并不是嚴格的函數關系,不能用函數方程反映,為了區(qū)別于兩變量間的函數方程,我們稱這種關系式為一元回歸方程,這種關系為一元回歸。,第二節(jié) 一元回歸,一、直線回歸分析,繪制散點圖求直線回歸方程繪制回歸直線回歸系數的假設檢驗,用直線方程描述兩個變量間的數量依存關系。,① 一般
14、形式: a:截距 b:回歸系數(回歸直線斜率),1. 直線回歸方程的求法,b>0 x↑ y↑;b<0 x↑ y↓ b:意義為x每變化一個單位,y變化的平均值 x:自變量,要求容易測定、容易控制 :y 的估計值,y稱因變量,要求在不同的x的 時候其分布為正態(tài)分布,②a、b的計算(用最小二乘法原理估計b)
15、n:對子數(數據對),剩余誤差,殘差:各實測值y至回歸直線縱向距離。剩余平方和或殘差平方和最小。,SSe=Σ( y- )2,SS總= SSR +SSe,決定系數(determining coefficient,R2):回歸平方和在總平方和中所占的比例。,R2 = SS回 /SS總,R2是評價回歸強度的一個重要指標。 0≤R2 ≤ 1, → 1,回歸效果越好,強度↑。 臨床研究中,R2≥0.7認為回歸效果不
16、錯。,2. 回歸方程擬合效果評價(決定系數),,,(1) 繪制散點圖(2) 求直線回歸方程,(3)繪制回歸直線,在自變量的變化范圍內選兩點做直線 (0,a)(X,Y)這兩點可以用來核對圖線繪制是否正確。,,,例題中得到的直線回歸方程一定經過(0,2.15)(17.23,3.2)兩點。,直線回歸方程從樣本資料計算而得,有抽樣誤差。需要對樣本的回歸系數b進行假設檢驗,以判斷b是否從回歸系數為零的總體中抽得???/p>
17、體的回歸系數一般用β表示。,是否能說明雌三醇與產兒體重之間一定存在回歸關系?,t-檢驗 H0:β=0 (直線回歸方程不成立) H1:β≠0 (直線回歸方程成立),進行β=0的假設檢驗(即X與Y間無直線回歸關系) t 檢驗或F檢驗 相關系數的檢驗代替,(4) 回歸系數的假設檢驗,υ=n-2,H0:β=0H1:β≠0 α=0.05,,υ=31-2=29,查表 t0.0005/2,28=3.9351,
18、P<0.0005拒絕H0,接受H1,認為待產婦尿中雌三醇含量與產兒體重之間存在直線回歸關系。,二、直線回歸方程的應用,估計:描述兩變量間的依存關系 通過回歸系數的假設檢驗,若認為兩變量之間存在直線回歸關系,則可用直線回歸來描述。 利用回歸方程進行預測把自變量代入回歸方程,對應變量進行估計。例如,已知某待產婦的尿雌三醇濃度,估計產兒的體重范圍。利用回歸方程進行統(tǒng)計控制胰島素與血糖制定正常值范圍血細胞,
19、血紅蛋白等,三、曲線擬合,對呈曲線關系的資料,可用散點圖分析曲線的類型,建立曲線回歸方程。常用曲線的類型:對數: =a+blnX 指數:ln =a+bX 冪函數:ln =a+blnX Logistic:,,四、相關與回歸分析注意事項,1. 實際意義 進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現象用來作相關回歸分析。 2. 相關關系 相
20、關關系不一定是因果關系,也可能是伴隨關系,并不能證明事物間有內在聯系。例如,同一父母生的兄弟,往往哥高弟也高,這主要與遺傳因素及生活條件相關,而不能說哥高是弟高的原因。但如果事物之間存在因果關系,則兩者必然是相關的。,3.利用散點圖 對于性質不明確的兩組數據,可先做散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,然后再進行相關回歸分析。4.變量范圍 相關分析和回歸方程僅適用于樣本的原始
21、數據范圍之內,出了這個范圍,我們不能得出兩變量的相關關系和原來的回歸關系。,資料要求直線回歸要求應變量Y是服從正態(tài)分布的隨機變量,X是可以精確測量和嚴格控制的變量,一般稱為I型回歸;直線相關要求X和Y服從雙變量正態(tài)分布,二者間若進行回歸分析,則稱為II型回歸。參與相關分析的兩個變量無主次之分,參與回歸分析的兩個變量則有自變量和應變量之分。,★五、相關與回歸的區(qū)別,應用說明兩變量間的關聯關系用相關分析;說明兩者數量上的依存關系則用回
22、歸分析。意義b表示X每改變一個單位,Y平均改變b個單位;r說明具有線性關聯的兩個變量間關系的密切程度和相關方向。 r的絕對值越大,散點圖中的點越趨向于一條直線,表明兩變量的關系越密切,相關程度越高。b的絕對值越大,回歸直線越陡,說明當X變化一個單位時,Y的平均變化就越大。,★五、相關與回歸的區(qū)別,計算方法取值范圍單位 r無量綱;b有量綱。,★五、相關與回歸的區(qū)別,六、相關與回歸的聯系,關系:
23、 能進行回歸分析的變量之間存在相關關系。所以,對于兩組新數據(兩個變量)可先做散點圖,求出它們的相關系數,對于確有相關關系的變量再進行回歸分析,求出回歸方程。,六、相關與回歸的聯系,相關系數r與回歸系數b : 1)r與b的符號一致。r為正時,b也為正,表示兩變量是正相關,是同向變化。r為負時,b也為負,表示兩變量是負相關,是反向變化。?。玻﹔與b的假設檢驗結果一致 ,可用r的顯著檢驗代替b的顯著性檢驗?!。常┮阎獂、y的標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學一元線性回歸課后習題答案
- 管理統(tǒng)計學第11章-一元線性回歸
- 醫(yī)學統(tǒng)計學logistic回歸
- 醫(yī)學統(tǒng)計學-logistic回歸
- 統(tǒng)計學相關與回歸分析
- 醫(yī)學統(tǒng)計學16-logistic回歸
- 醫(yī)學統(tǒng)計學相關分析
- 統(tǒng)計學a第9章--相關與回歸分析
- 8-應用統(tǒng)計學(教案)相關與回歸分析
- 醫(yī)學 統(tǒng)計學
- 醫(yī)學統(tǒng)計學
- 衛(wèi)生統(tǒng)計學 醫(yī)學統(tǒng)計學 習題
- 醫(yī)學 統(tǒng)計學
- 統(tǒng)計學--第九章直線回歸與相關
- 應用統(tǒng)計學--第8章-相關分析與回歸分析
- 《統(tǒng)計學》線性回歸模型
- 醫(yī)學統(tǒng)計學復習
- 醫(yī)學統(tǒng)計學13
- 診斷醫(yī)學統(tǒng)計學
- 醫(yī)學統(tǒng)計學任
評論
0/150
提交評論