醫(yī)學統(tǒng)計學16-logistic回歸_第1頁
已閱讀1頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第十六章 logistic回歸分析,暨南大學醫(yī)學院醫(yī)學統(tǒng)計教研室林漢生,內(nèi)容,logistic 回歸的概念應用舉例預備知識:OR值與RR值logistic回歸對資料的要求模型的建立與變量篩選logistic回歸分析的結(jié)果表達logistic回歸應用的注意事項logistic回歸的應用logistic回歸的種類logistic回歸分析資料主要來源,一、logistic 回歸的概念,在醫(yī)學研究中經(jīng)常遇到應變量為二項分

2、類的資料,如治愈與未愈、生存與死亡、發(fā)病與未發(fā)病等,可以概括為陽性與陰性兩種互斥的結(jié)果,同時可能存在對分類結(jié)果發(fā)生概率產(chǎn)生影響的因素即自變量。研究1個二分類觀察結(jié)果與多個影響因素之間關(guān)系的多變量分析方法。,二、應用舉例,探討疾病發(fā)生的危險因素、篩選與疾病預后有關(guān)的因素、綜合多個指標進行診斷試驗,等。如:非胰島素依賴型糖尿病的危險因素分析301例急性心肌梗死病人急性期預后因素的logistic模型分析運動試驗logistic回歸分

3、析對冠心病的診斷價值,三、預備知識:OR值與RR值,預備知識:OR值,OR值(odds ratio):比值比或優(yōu)勢比比值( odds )是指某事物發(fā)生的概率與不發(fā)生的概率之比。病例組和對照組有暴露史與無暴露史的概率分別為: a / (a+b), b/(a+b) a / b c / (c+d), d / (c+d) c / d OR=( a / b)/( c / d )=(ad)/(bc)

4、 =( 76 ? 44)/ (10 ? 40)=8.36出生時有窒息缺氧史兒童,發(fā)生低智的危險是對照兒童的8.36倍(要經(jīng)過假設(shè)檢驗)。,OR值與RR值,RR(relative risk):暴露人群發(fā)病率P(1)與非暴露人群發(fā)病率P(0)之比。當P(1)和 P(0)都很小時,OR值接近RR值。RR>1:說明暴露越多,發(fā)病越多,可能是致病因素;RR<1:說明暴露越少,發(fā)病越少,可能是抑制發(fā)病因素。,四、

5、 logistic回歸對資料的要求,Y 取值:0,1X1,X2,X3,…,Xm的取值:計數(shù)、計量和等級資料。,五、模型的建立與變量篩選,將回歸效果顯著的自變量選入模型,不顯著的自變量則排除在模型外,使建立的模型比較穩(wěn)定和便于解釋。,,,《實習指導》例題,例 某研究人員在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除患者的腎癌標本資料,現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析。,有關(guān)符號意義說明如

6、下,i:標本序號x1 :確診時患者年齡x2 :腎細胞血管內(nèi)皮生長因子,分3個等級x3 :腎細胞癌組織內(nèi)微血管數(shù)x4 :腎癌細胞核組織學分級,分4級x5 :腎細胞癌分期,分4期y :腎細胞癌轉(zhuǎn)移情況(1轉(zhuǎn)移;0無轉(zhuǎn)移),1. SPSS的數(shù)據(jù)工作表,2. SPSS的操作步驟Analyze ?Regression ? Binary Logistic,Logistic regression 對話框,將Y選入Dependent欄,

7、X1 ~X5選入Covariate欄,選擇Forward:LR法。單擊Options按鈕。,Options對話框,單擊Continue按鈕,單擊OK按鈕,3. SPSS的結(jié)果與分析(1)數(shù)據(jù)基本情況,數(shù)據(jù)基本情況為26例納入分析,沒有缺失值,,(2)0步時的分析結(jié)果,,變量篩選第0步的Score檢驗結(jié)果,可作為單變量logistic回歸分析的結(jié)果。如進行單變量logistic回歸分析,在?=0.05水準,變量X2、X4和X5有統(tǒng)計學

8、意義。,,,,(3)擬合優(yōu)度用決定系數(shù)R2描述,(4)分類表:只有1個分錯類,即觀察值為0類,而預測值為1類,Y的觀察值和預測值的符合情況:觀測值為0時(腎癌未轉(zhuǎn)移),預測的準確率為94.1%;觀測值為1時(腎癌轉(zhuǎn)移),預測的準確率為100.0%;總的預測準確率為96.2%。該指標可以評價logistic模型的擬合優(yōu)度。,(5)模型中的變量,B:回歸系數(shù)。當其他變量保持不變時,Xj每增加或減少1個單位時,OR值自然對數(shù)的平均變化量。E

9、xp (B):OR值(經(jīng)校正的,或調(diào)整的OR值,adjusted odds ratio)SE:回歸系數(shù)的標準誤Wald值:對回歸系數(shù)進行假設(shè)檢驗的統(tǒng)計量,最重要的結(jié)果,選入模型的變量:X2和X4的OR值都大于1,故等級越高,腎癌轉(zhuǎn)移的風險越大??傮wOR值的95%可信區(qū)間太寬,提示例數(shù)太少 。可以將X2和X4的取值代入下式,計算腎癌轉(zhuǎn)移的可能性。判斷的截斷點默認為0.50,大于0.50,則預測為腎癌轉(zhuǎn)移(分類表中的結(jié)果)。,(6)

10、未引入模型的變量,沒有引入模型的變量,最小的P值為0.197。即使將引入變量的檢驗水準放寬到0.10,也不能引入新變量。,,多因素logistic回歸分析結(jié)果,該表可以改進嗎?,表1 腎細胞癌轉(zhuǎn)移的多因素logistic回歸分析,表1 腎細胞癌轉(zhuǎn)移的多因素logistic回歸分析,小結(jié),用多因素logistic回歸分析的似然比前進法篩選變量,引入變量的檢驗水準為?=0.10。在所研究的5個有關(guān)臨床病理因素中,入選模型的因素有2個:腎細胞

11、血管內(nèi)皮生長因子表達等級是腎細胞癌轉(zhuǎn)移的危險因素(經(jīng)校正的OR值為11.17,95% CI為 1.07~116.45,P=0.044);腎癌細胞核組織學分級也是腎細胞癌轉(zhuǎn)移的危險因素(經(jīng)校正的OR值為8.14,95% CI為 0.97~68.62,P=0.054 )。,六、logistic回歸分析的結(jié)果表達,賦值表單因素分析多因素分析,例:16-2(P339),為了探討冠心病發(fā)生的有關(guān)危險因素,對26例冠心病病人和28例對照者進行病

12、例對照研究,各因素的說明及資料見表。試用logistic回歸分析方法篩選危險因素。,冠心病危險因素的病例-對照調(diào)查資料,表1 冠心病的相關(guān)因素與賦值,(一)相關(guān)因素與賦值,(二)單因素分析,單獨分析每個自變量X與應變量Y是否有關(guān)聯(lián)。檢驗水準可以放寬到0.10。對單因素有統(tǒng)計學意義的變量,進行多因素logistic回歸分析。當某個自變量有缺失值時,不影響對其它自變量進行分析??梢苑治雒總€自變量與應變量的關(guān)聯(lián)對自變量進行初步篩選,為

13、多因素分析做準備。當例數(shù)較少,而自變量較多,缺失值較多時,初步篩選更有必要。,單因素分析方法,無序分類資料:卡方檢驗有序分類資料:卡方檢驗中的線性趨勢檢驗計量資料:t檢驗每次引入1個自變量進行l(wèi)ogistic回歸分析(任意類型資料)當缺失值沒有或很少時,逐步多因素logistic回歸0步時的分析結(jié)果(任意類型資料),1. 卡方檢驗,Y ? Column (s),Chi-square?卡方檢驗Risk ?求OR值或RR值,列聯(lián)表

14、及行百分數(shù),8個變量,例數(shù)54,無缺失值,年齡:等級資料;病例組與對照組的年齡構(gòu)成,線性趨勢檢驗:年齡與冠心病的發(fā)病呈線性關(guān)系(?2=5.68,P=0.017)等級資料,不能計算OR值,A型性格 與 冠心病OR= (21×15) / (13×5)=(21/13) / (5/15)= 4.85,,?2=6.82,P=0.009OR=4.85 (1.42, 16.51),表中的因素都是2分類變量,如果

15、是計量資料,則百分率改為 ,?2 改為t,2. 每次引入1個自變量進行l(wèi)ogistic回歸分析,OR為4.85, 95% CI為1.42~16.51, P=0.012,Score統(tǒng)計量的結(jié)果與卡方檢驗一致Wald統(tǒng)計量的結(jié)果與卡方檢驗很接近,3. 當缺失值沒有或很少時,逐步多因素logistic回歸0步時的分析結(jié)果,結(jié)果,沒有缺失值,Score統(tǒng)計量的結(jié)果與卡方檢驗一致(無缺失值的情況下),(三)多因素分析,

16、篩選獨立的自變量進入模型例如,動物脂肪攝入和體重指數(shù)在單因素分析都有統(tǒng)計學意義,但多因素分析時,只有動物脂肪攝入這個因素被引入模型。說明動物脂肪攝入與體重指數(shù)可能有聯(lián)系,動物脂肪攝入提供的信息取代了體重指數(shù)。,,多因素logistic回歸分析結(jié)果,,結(jié)果簡潔清楚,七、logistic回歸應用的注意事項,危險因素分析 時,將計量指標轉(zhuǎn)變?yōu)榈燃壔蚨诸愔笜耍ㄈ缒挲g,腫瘤轉(zhuǎn)移的淋巴結(jié)個數(shù)),使OR值的實際意義明確。無序分類變量的賦值方法:

17、啞變量樣本含量:經(jīng)驗上,病例和對照的人數(shù)應至少各有30~50例。,SPSS中啞變量的設(shè)置,Categorical按鈕的使用,例(P 352),1352名少年兒童肥胖癥危險因素調(diào)查資料肥胖癥:無;有(根據(jù)體重指數(shù)BMI劃分)性別:男;女年齡組:7-9歲;10-12歲;13-15歲;16歲及以上膽固醇:低;高甘油三脂:低;高,數(shù)據(jù)文件,多因素logistic回歸分析,年齡的OR值為0.782,什么含義?,,Crosstab:肥胖

18、發(fā)生風險并非隨年齡增加而減少。可以7~9歲年齡組為參照,7~9歲年齡組為參照:單擊Categorical,選擇:First (1: 7~9歲年齡組),單擊Change,單擊Continue,單擊OK,啞變量自動生成Frequency是分層的數(shù)目,總共有64層,其中有7層的例數(shù)為0,,,,,,,結(jié)果解釋,年齡的參照組為7~9歲年齡組(1)的OR值為2.53,P=0.001。即在校正了其它因素后, 10~12歲兒童患肥胖癥的風險是7~

19、9歲兒童的2.52倍。13~15歲和16歲及以上兒童患肥胖癥的風險與7~9歲兒童比較,差異無統(tǒng)計學意義。性別的OR值為0.607?(1:男性;2:女性)甘油三酯的OR值為2.02? (1:低;2:高),是每個年齡組都是男性肥胖率高于女性嗎?,,八、logistic回歸的應用,篩選疾病預后或發(fā)生的有關(guān)因素診斷模型的建立校正混雜因素 如臨床試驗數(shù)據(jù)分析:當評價指標為二值變量(有效,無效),非處理因素在試驗組和對照組中分布可

20、能不均衡時??梢岳胠ogistic回歸分析得到調(diào)整后的藥物評價結(jié)果。 Y group 年齡 病情(0無效;1有效) (1常規(guī)療法;2新療法) (不均衡),九、logistic回歸的種類,非條件logistic回歸分析:簡稱logistic回歸分析,即前面介紹的內(nèi)容,應用最廣泛。條件logistic回歸分析:為消除混雜因素對研究結(jié)

21、果的影響,對每1例病人選擇1至數(shù)例在混雜因素的暴露水平上相一致的,合乎研究條件的,未患病的人作為對照,共同組成一個匹配組。統(tǒng)計分析按匹配組進行。多項分類Logistic回歸分析有序多分類Logistic回歸分析,十、Logistic回歸分析資料主要來源,回顧性資料(研究開始前病歷等資料已經(jīng)存在,但可能不完整)前瞻性資料(可按設(shè)計要求收集臨床和實驗室數(shù)據(jù))現(xiàn)況研究(橫斷面研究:在某一特定人群中,調(diào)查收集特定時間內(nèi)某種疾病的患病情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論