版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Linear correlation線性相關,兩指標間的關系分析,易洪剛,Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University,直線相關分析(linear correlation analysis),1 問題的提出 the Relationship 2 確定性關系與相關關系3
2、相關關系4 散點圖5 Pearson相關系數6 相關系數的計算7 相關系數的性質8 相關關系示意圖9 相關系數的含義10 相關系數的假設檢驗11 總體相關系數的區(qū)間估計12 相關分析的正確應用,,,,,問題的提出,以往方法的局限僅限于考察一個觀察指標 昆明治療羊角風醫(yī)院http://www.moobeye.com/ 昆明軍海醫(yī)院癲癇病http://km
3、dxb.jzcool.com/ 昆明治療羊角風醫(yī)院http://www.dxbzxw.com/ 昆明治療癲癇病比較好的醫(yī)院http://www.39kmdxb.com/,問題的提出,人的體重往往隨著身高的增加而增加。二者之間是否存在某種關聯?如果存在,可否用身高來推測體重的多少?兒童所能發(fā)出的最長音調往往和年齡有關。同樣,是否可以建立年齡和音調長度的數量關系?人的肺活量往往隨著胸圍的增加而增加。舉重運動員所能舉起的
4、最大重量是否與他的體重有關?,,,,聯系與相互影響是普遍的現象,,,,,,,,,,,,,,,,,,,,,,1 the Relationship,Could you give me some examples about the relationship between two variables?,,,,,,,,1 the Relationship Type One,,1 the Relationship Type
5、 Two,,,,,2 確定性關系與相關關系,確定性的函數關系:兩變量間的函數關系 。,隨機性的相關關系:兩變量在宏觀上存在關系,但并未精確到可以用函數關系來表達。,圓的周長與半徑的關系: C=2?R 速度、時間與路程的關系:L=ST,青少年身高與年齡的關系; 體重與體表面積的關系;,,,,,相關關系與確定性關系(2),當對事物的規(guī)律了解加深時,相關關系可以轉變?yōu)榇_定性關系。父親患白化病X, (X=是,否);子
6、女患白化病Y, (Y=是,否);X與Y的關系不確定。,當母親患白化病時,X與Y的關系確定: X=是,則Y=是; X=否,則Y=否。 (父親為異?;虻臄y帶者出外。),3 相關關系,當一個變量增大,另一個也隨之增大(或減少),我們稱這種現象為共變,或相關(correlation)。兩個變量有共變現象,稱為有相關關系。,,,,,若兩個變量同時增加或
7、減少,變化趨勢是同向的,則兩變量之間的關系為正相關(positive correlation);若一個變量增加時,另一個變量減少,變化趨勢是反向的,則稱為負相關(negative correlation)。,3 相關關系,直線相關(linear correlation),又稱簡單相關,用以描述兩個呈正態(tài)分布的變量之間的線性共變關系,常簡稱為相關。,直線相關的概念,3 相關關系 The story…,Sir Francis
8、Galton 1822-1911 an explorer and anthropologist half-cousin of Charles Darwin,,,,,Heredity experiments lead to initial concepts of correlation and regression.,Sweet peas experiment (1875) Symmetric studies of S
9、tature (1885),,,,3 相關關系 The story…,,,,,,Correlation exists between two variables when one of them is related to the other in some way.,,,,3 相關關系 The story…,,4 Scatter plot (or scatter diagram)is a graph
10、in which the paired (x,y) sample data are plotted with a horizontal x axis and a vertical y axis. Each individual (x,y) pair is plotted as a single point.,散點圖(Scatter plot )在平面直角坐標系上標識兩變量(x,y)間關系的統(tǒng)計圖。,,,,,,,,,,,,Figue
11、1 Plot of Diameter of Daughter Seed versus Diameter of Parent Seed from the data in Table 1.,,,,,,反映兩定量指標間的相關關系用 Pearson 相關系數,r。 (Pearson correlation coefficient) 用以說明具有直線關系的兩個變量間相關關系的密切程度和相關方向的指標.,Correlation
12、analysis Analysis of the degree to which changes in one variable are associated with changes in another variable.,,,,5 Pearson相關系數,,5 Pearson相關系數,,,,,X 的離均差平方和:Y 的離均差平方和:X與Y 間的離均差積和:,,,,,以下資料選自Galton的一項研究,目的是探討成年時
13、身高是否與兩歲時的身高(單位:英寸)有關。,6 相關系數的計算,繪制散點圖,Y 成年后身高(單位:英寸),X 2歲時的身高(單位:英寸),30,32,34,36,38,40,63,,,,,,,,65,,67,,69,,71,,,,,,6 相關系數的計算,,,6 相關系數的計算,例10.1 10名3歲男童體重與體表面積的關系,編號 體重(X,kg) 體表面積(Y,103cm2)111.05.2832
14、11.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合計133.457.266,10名3歲男童體重與體表面積散點圖,體重(kg),X,體表面積Y(103cm2),,例10.1
15、資料相關系數的計算,,,,,6 相關系數的計算,,,,6 相關系數的計算,,7 相關系數的性質,-1 ≤ r ≤ 1r>0為正相關r<0為負相關r=0為零相關或無相關相關系數絕對值越大,兩變量間相關程度越密切;相關系數越接近于0,表示相關越不密切。,,,,,8 相關關系示意圖,,,,,r =-1,-1<r <0,r =0,直線相關的圖示與相關系數的關系,0<r <1,r =1,相關系數的正負示意
16、圖,體重(kg),X,肺活量Y(L),,,,,,,,,,相關系數的大小示意圖,r = 1,0< r <1,r = 0,,,,,9 相關系數的含義(了解),,,,,,,,協(xié)方差(covariance,COV):兩個變量與其均值離差乘積的平均數,是相互關系的一種度量。,樣本協(xié)方差:,9 相關系數的含義(了解),,,,,,,對協(xié)方差的理解,協(xié)方差為大的正值時,表示強的正相關。,,,,,,,對協(xié)方差的理解,協(xié)方差接近于零
17、時,表示很小或沒有線性相關關系。,,,,,,,,對協(xié)方差的理解,協(xié)方差為大的負值時,表示強的負相關。,,,,對協(xié)方差的理解,-Are they right?,-Maybe.,,,,,cm,kg,mm,kg,大于,基本結論:協(xié)方差受計量單位影響,從而不能真實反映相關的程度。,,相關系數:協(xié)方差與兩變量標準差乘積的比值,是沒有量綱的、標準化的協(xié)方差。,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,X,Y,10 相關系數的假
18、設檢驗,?=0,,,,,H 0:?=0,親代種子直徑與子代無相關關系;H 1: ??0,親代種子直徑與子代有相關關系。? = 0.05。t 服從自由度為n-2的 t 分布。,,,,10 相關系數的假設檢驗,,Table 1 資料相關系數的假設檢驗,自由度=10-2,P=0.0020拒絕H0,接受H1??梢哉J為親代種子直徑與子代之間有正相關關系,相關系數為0.93。,,,,,H 0:?=0,體重與體表面積無相關關系;
19、H 1: ??0,體重與體表面積有相關關系。? = 0.05。t 服從自由度為n-2的 t 分布。,例10.1資料相關系數的假設檢驗,例10.1資料相關系數的假設檢驗,自由度=10-2,P<0.001拒絕H0,接受H1??梢哉J為3歲男童體重與體表面積之間有正相關關系。,11 總體相關系數的區(qū)間估計,從相關系數?不等于0的總體中抽樣,樣本相關系數的分布是偏態(tài)的。,相關系數的抽樣分布(? = - 0.8),相關系數的
20、抽樣分布(? = 0),相關系數的抽樣分布(? =0.8),,R.A. Fisher(1921) 的 z 變換,z 近似服從均數為 ,標準差為 的正態(tài)分布。,,,相關系數的z 值的抽樣分布(? = - 0.8),相關系數的z 值的抽樣分布(? = 0),相關系數的z 值的抽樣分布(? = 0.8),相關系數的可信區(qū)間估計,將 r 變換為 z ;根據 z 服從正態(tài)
21、分布,估計 z 的可信區(qū)間;再將 z 變換回 r 。,,相關系數的可信區(qū)間估計,Fisher’s 變換 r z 正態(tài)近似
22、 Fisher’s 反變換 ?的95%CI z的95%CI,,,,,,該可信區(qū)間有什么含義?,例 某醫(yī)院分別測定正常成年男子12人和正常成年女子12人的心率(X,次/分)與心臟左室電機械收縮時間QS(Y,毫秒)的數據見表10.2,試比較男子和女子的心率(次/分)與心臟左室電機械收縮時間QS(毫秒)的相關是否相同。,兩
23、個相關系數的比較(了解),兩個相關系數的比較(了解),男女的心率和電機械收縮時間,分析思路:兩組資料的相關性如何?兩個相關系數是否相等?由于相關系數并不服從正態(tài)分布,因此對兩個相關系數的差別的假設檢驗可以通過z變換的原理,對兩個z變換值作假設檢驗得到。,24名成年男女的心率(X)與收縮時間(Y)的散點圖,男性 女性,,,,分別對兩相關系數是否為0進行假設檢驗。
24、?=12-2=10,則P1<0.001,P2<0.001。故可以認為無論男子和女子,其心率與心臟左室電機械收縮時間均呈負相關關系。,,,H0:男子心率與心臟左室電機械收縮時間的相關與女子的相等,?1=?2;H1:男子心率與心臟左室電機械收縮時間的相關與女子的不等,?1≠?2。? =0.10。,,,,,,P>0.20,故尚不能認為男子和女子的心率與心臟左室電機械收縮時間間的相關系數不等。,等級資料的相關(了
25、解),Spearman等級相關將各變量X,Y分別編秩RX, RY;計算RX與RY的Pearson相關;所得結果即為Spearman等級相關rS。-1≤rs≤1,例 抗白指數與臨床療效的關系,某研究所用野百合治療白血病,并作抗白血病指數(簡稱抗白指數)及療效的分析,問抗白指數與臨床療效間有無關系? 病例號 抗白指數X 臨床療效Y(1)(2)12++2
26、3++39++410+++511+++630-735-845-955+1070+1188-1290-,,,,RX(3)123456789101112,RY(4)99911.511.53336.56.
27、533,RX(3)123456789101112,RY(4)99911.511.53336.56.533,rs = = -0.6894,等級資料的相關(了解),等級相關的假設檢驗,H 0:?S=0,抗白指數與療效無相關關系;H 1: ?S?0,抗白指數與療效有相關關系。
28、? = 0.05。當n≤50時,用查“等級相關界值表”;當n>50時,用 t 檢驗:t 服從自由度為n-2的 t 分布。,資料的假設檢驗,本例 n = 12, 查界值表,得: rs(0.05,12)=0.587即,若 H0 成立,則等級相關系數有95%的可能在(-0.587,0.587)之間?,F rs = -0.6894,故 P < 0.05??梢哉J為,抗白指數與療效有等級相關關系
29、。,例 母親文化程度與兒童智商的關系,母親文化程度 兒童智商等級 (Y)合計 (X) 中下中等中上上等 小學2281303136 初中5723613526454高中或中專1111210517245大專及以上1410722 合計9143328053857rs=0.2261,,大樣本
30、時的等級相關檢驗,本例 n =857,大于50,用 t 檢驗:P<0.01??梢哉J為,母親文化程度與兒童智商等級間存在相關關系,母親文化程度越高,兒童智商等級亦高。,,相關關系不等于因果關系; 相關系數只度量變量間的線性關系,因此,弱相關不一定表明變量間沒有關系; 極端值可能影響相關系數; 注意相關關系成立的數據范圍; 警惕虛假相關。,12 相關分析的正確應用,,,,,定量資料在進行相關分析(Pear
31、son相關)前,需作散點圖,從散點圖的趨勢判斷是否可以作線性相關分析;,12 相關分析的正確應用,某地160名20歲男子身高與體重散點圖(雙變量正態(tài)分布),,,,成都市男中小學生12個年齡組的平均身高,,,紫外光對新生小鼠背皮ATP酶陽性的郎格漢斯細胞(LC)照射不同時間的細胞密度(個/mm3),,,某腫瘤病人的生存率,大白鼠進食量(X,g)與體重增加(Y,g)的關系,,免疫球蛋白A(IgA,?g)與火箭電泳高度(Y,mm)的關系
32、,26名病人的胃液的pH值及尿中亞硝酸鹽濃度的散點圖,尿中亞硝酸鹽的濃度,胃液的pH值,建湖縣1978~1985年瘧疾逐月發(fā)病數,月份,月發(fā)病人數,我國1940~1988年間不同月份的男性嬰兒死亡率(‰)的季節(jié)性分析,男性嬰兒死亡率(‰),月份,識別離群值;,P,Q,圖10.5 離群值對相關的影響,12 相關分析的正確應用,排除間雜性。,(a),(b),? 樣本甲觀察點 樣本乙觀察點,,圖10.6 樣本的間雜性對相關性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)學統(tǒng)計學-生存分析
- 醫(yī)學 統(tǒng)計學
- 醫(yī)學統(tǒng)計學
- 醫(yī)學統(tǒng)計學-判別分析
- 衛(wèi)生統(tǒng)計學 醫(yī)學統(tǒng)計學 習題
- 醫(yī)學 統(tǒng)計學
- 醫(yī)學統(tǒng)計學-方差分析
- 醫(yī)學統(tǒng)計學--方差分析
- 醫(yī)學統(tǒng)計學復習
- 醫(yī)學統(tǒng)計學13
- 診斷醫(yī)學統(tǒng)計學
- 醫(yī)學統(tǒng)計學任
- 醫(yī)學統(tǒng)計學研
- 醫(yī)學統(tǒng)計學題庫
- 醫(yī)學統(tǒng)計學方法
- 醫(yī)學統(tǒng)計學2
- 醫(yī)學統(tǒng)計學題庫
- 醫(yī)學統(tǒng)計學護理
- 10《醫(yī)學統(tǒng)計學》
- 醫(yī)學統(tǒng)計學04
評論
0/150
提交評論