基于統(tǒng)計學習的逆概率加權(quán)方法研究及其在醫(yī)學中的應用.pdf_第1頁
已閱讀1頁,還剩163頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、研究背景:
  探討處理/暴露因素與結(jié)局之間的因果效應是醫(yī)學研究中的重要課題。隨機對照試驗通常被認為是因果效應估計的金標準。在觀察性研究中,研究對象的處理分配機制通常不是隨機發(fā)生的,而是會受到眾多混雜因素的影響。在比較處理組間的暴露效應時,如果忽略這些混雜因素,效果估計就會發(fā)生偏倚。基于邊際結(jié)構(gòu)模型的逆概率加權(quán)法(inverse probability weighing,IPW)是一類可用于觀察性資料處理效應估計的重要方法。IPW

2、在應用時需要滿足一些前提假設,比如無遺漏未觀測混雜因素、非負性假設、穩(wěn)定單元處理值假設以及要正確設定權(quán)重估計模型等。對于IPW而言,第一階段的逆概率權(quán)重估計非常關(guān)鍵,這是因為最終的處理效應估計對于第一階段的權(quán)重估計準確與否非常敏感。如果權(quán)重估計模型設定錯誤(如遺漏二次項或交互項等),估計的權(quán)重就不準確,且容易產(chǎn)生極端權(quán)重,導致最終的效應估計發(fā)生偏倚。近年來,越來越多的研究人員推薦采用包括許多統(tǒng)計學習算法在內(nèi)的數(shù)據(jù)適應性方法估計逆概率權(quán)重

3、,取得了良好的效果。然而,目前的研究大多局限于二分類處理因素資料以及單一結(jié)局縱向生存資料。
  醫(yī)學實踐中存在著許多處理/暴露因素為連續(xù)性變量的資料以及時依性競爭風險生存資料。對于處理因素為連續(xù)性變量的資料類型而言,采用IPW進行效應估計要比二分類處理因素的情況更復雜,比如要考察處理因素的分布類型、控制較多的極端權(quán)重對于效應估計的影響等。對于時依性競爭風險生存資料而言,傳統(tǒng)的邊際結(jié)構(gòu)原因別風險模型(marginal structu

4、ral cause specific hazard models,MSCSHM)中的逆概率權(quán)重是多次隨訪所得的權(quán)重累乘所得。即使權(quán)重估計模型設定發(fā)生了比較輕微的錯誤,最終處理效應估計都將可能發(fā)生嚴重的偏倚。有鑒于此,探索基于統(tǒng)計學習算法的逆概率加權(quán)法在連續(xù)性處理因素資料以及時依性競爭風險生存資料中的適用效果具有潛在的理論意義和實際應用價值。
  研究目的:
  1、針對連續(xù)性處理因素的資料,通過模擬研究比較包括一般線性模型在

5、內(nèi)的7種逆概率權(quán)重估計方法在不同數(shù)據(jù)情境下的估計效果。同時,以一般線性模型為例,探討權(quán)重截斷方法對于效應估計的影響。
  2、針對時依性競爭風險生存資料,在MSCSHM的基礎上,引入8種統(tǒng)計學習方法估計逆概率權(quán)重。通過模擬研究比較logistic回歸與這8種方法在不同數(shù)據(jù)情境下的估計效果,篩選出其中表現(xiàn)較優(yōu)的方法。另外,探討不同程度的權(quán)重截斷水平對于各個估計方法的影響。
  研究方法:
  針對以上兩個研究目的,均分別

6、采用數(shù)據(jù)模擬→模型構(gòu)建→模型篩選→實例應用的研究流程開展研究。分述如下:
  1、連續(xù)性處理因素的逆概率加權(quán)方法研究
  采用蒙特卡洛法模擬處理因素為連續(xù)性變量的觀察性隊列資料。模擬實驗設置三種不同大小的樣本量(250、1000和2500)和四種不同復雜程度的處理因素生成模型(線性可加、非線性、非可加以及非線性非可加模型),比較一般線性模型(general linear model,GLM)、gamma回歸模型、分位數(shù)分組法

7、(quantile binning,QB)、協(xié)變量均衡性傾向性評分(covariate-balancing propensity score,CBPS)、非參數(shù)CBPS(nonparametric CBPS,npCBPS)、boosted分類與回歸樹(boosted classification and regression trees,boosted CART)和隨機森林(random forest,RF)等7種方法估計廣義傾向性評分

8、和逆概率權(quán)重,另外,對由GLM得到的穩(wěn)定權(quán)重分別在雙側(cè)1%和5%分位點進行截斷處理,得到相應的截斷權(quán)重。進一步,利用得到的9個權(quán)重變量對原始樣本加權(quán),通過加權(quán)結(jié)局回歸模型得到各自的處理效應估計量。采用平均絕對相關(guān)系數(shù)(average absolute correlation coefficient,AACC)、相對偏倚(relative bias)、經(jīng)驗標準差(standard deviation,SD)、模型輸出的標準誤(standa

9、rd error,SE)、均方根誤差(root mean squared error,RMSE)和95%置信區(qū)間(confidence interval,CI)覆蓋率等指標評價估計效果。最后通過研究吸煙量對于醫(yī)療總支出的影響,比較不同的IPW估計方法在實際數(shù)據(jù)分析時的應用效果。
  2、時依性競爭風險生存數(shù)據(jù)的逆概率加權(quán)方法研究
  首先提出采用MSCSHM作為本研究的基礎框架,引入LASSO、貝葉斯logistic回歸、C

10、ART、bagged CART、boosted CART、隨機森林、支持向量機(support vector machine,SVM)和EL(ensemble learner)算法等8種統(tǒng)計學習方法構(gòu)造第一階段的逆概率權(quán)重。然后采用蒙特卡洛法模擬時依性競爭風險生存數(shù)據(jù)。模擬設置了兩種不同大小的樣本量(250和1000)、不同強度的處理因素序列的自相關(guān)性(相關(guān)系數(shù)為log(4)和0.5)、不同的競爭終點事件數(shù)(2和3)以及四種處理因素生成

11、模型(線性可加、非可加、非線性以及非線性非可加模型)。分別采用logistic回歸和上述8種統(tǒng)計學習方法估計穩(wěn)定權(quán)重。另外,分別在穩(wěn)定權(quán)重分布的雙側(cè)1%、5%、10%、25%、35%和50%分位點進行截斷處理,探討不同的截斷水平對于處理效應估計的影響。
  上述研究過程均采用統(tǒng)計分析軟件R3.4.3中實現(xiàn)。
  研究結(jié)果:
  1、連續(xù)性處理因素的逆概率加權(quán)方法研究
  (1)模擬研究結(jié)果:①在均衡協(xié)變量的能力方

12、面,CBPS在所有方法中表現(xiàn)最好,其次為npCBPS。直接采用GLM法得到的原始穩(wěn)定權(quán)重對樣本加權(quán),協(xié)變量分布仍然不均衡,通過權(quán)重截斷方法去除極端值后,采用GLM(1,99)加權(quán)后的樣本的協(xié)變量均衡性顯著改善。②Boosted CART和RF在不同程度的權(quán)重估計模型誤設的情況下的估計偏倚均較小,在減小偏倚方面優(yōu)于其他方法。③由GLM、GLM(1,99)和GLM(5,95)三者的SD可以看出,權(quán)重截斷方法可以減小估計量的方差,且隨著截斷水

13、平的提高,方差逐漸變小。④CBPS、npCBPS和boosted CART的RMSE較小,估計精度較高。由于權(quán)重截斷減小了方差,致使GLM(5,95)和GLM(1,99)的RMSE小于前述三種方法。⑤隨著處理因素生成模型復雜度的上升,各個方法的95%CI覆蓋率均有不同程度的下降。GLM(1,99)、CBPS、npCBPS和boosted CART四種方法的表現(xiàn)相對穩(wěn)健。
  (2)實例研究結(jié)果:通過“考察處理因素的分布-逆概率權(quán)重

14、的估計-考察權(quán)重的分布-協(xié)變量均衡性的評價-劑量反應函數(shù)的估計”的分析流程研究了吸煙數(shù)量對于醫(yī)療總支出的影響。結(jié)果表明,隨著吸煙量的增加,個人的醫(yī)療總支出也隨之增加;在調(diào)整了相關(guān)混雜因素后,吸煙量對于醫(yī)療總支出的效應雖有所減弱,標準誤增大,但是除了boosted CART(1,99)加權(quán)法得到的估計量具有臨界統(tǒng)計學意義外,GLM(1,99)和RF(1,99)加權(quán)法得到的估計量仍具有顯著的統(tǒng)計學意義。
  2、時依性競爭風險生存數(shù)據(jù)

15、的逆概率加權(quán)方法研究
  (1)模擬研究結(jié)果:①當處理因素生成模型僅包括主效應項(線性可加)時,boosted CART估計量的偏倚較小,且在SD和RMSE方面表現(xiàn)最優(yōu),而基于參數(shù)logistic回歸的估計量的SD較大,估計精度較差。②當處理因素生成模型僅包括二階交互項(非可加)時,在大樣本且處理因素序列強自相關(guān)時,boosted CART和RF的估計效果非常接近,且均優(yōu)于其他方法;在小樣本或處理因素序列中度自相關(guān)時,RF在偏倚和

16、RMSE方面表現(xiàn)最優(yōu)。③當處理因素生成模型包括非線性項時,boosted CART在偏倚、RMSE和95%CI覆蓋率方面最優(yōu)。④當處理因素生成模型同時包括二階交互項和非線性項時,RF在RMSE和95%CI覆蓋率方面表現(xiàn)最優(yōu)。⑤低水平(如雙側(cè)1%分位點)的權(quán)重截斷能夠進一步減小boosted CART和RF兩種方法的RMSE。⑥在相同的模擬情境下,多數(shù)估計方法的最優(yōu)截斷水平不盡相同;在不同的模擬情境下,同一種方法的最優(yōu)截斷水平也有差異。最

17、優(yōu)截斷水平的選擇具有數(shù)據(jù)依賴性。
  (2)實例研究結(jié)果:采用帶有時依性協(xié)變量的Cox比例風險模型、分別基于logistic回歸和boosted CART的MSCSHM分析硫唑嘌呤暴露對炎癥性腸病患者的兩個競爭終點事件的風險大小。結(jié)果顯示,無論處理因素定義為過去3個月暴露還是累積暴露,各個模型的效應估計結(jié)果均未顯示暴露效應具有統(tǒng)計學意義。
  研究結(jié)論:
  對于連續(xù)性處理因素資料,CBPS和npCBPS在均衡協(xié)變量方

18、面的能力較強;在減小估計偏倚方面,boosted CART和RF等統(tǒng)計學習算法的表現(xiàn)較優(yōu);在采用IPW進行效應估計時,應首先考察權(quán)重變量的分布,若存在較多離群點,應首先對權(quán)重作截斷處理,然后進行下一步的效應估計。
  對于時依性競爭風險生存資料,在采用MSCSHM模型進行效應估計時,由于實際資料中的處理分配機制往往未知,建議采用boosted CART和RF兩種方法替代傳統(tǒng)的logistic回歸構(gòu)建逆概率權(quán)重,以減小模型設定錯誤對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論