基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：pdf 頁數(shù)：164 大?。?4.67MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用.pdf_第1頁

已閱讀1頁，還剩163頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究背景:
　　探討處理/暴露因素與結(jié)局之間的因果效應(yīng)是醫(yī)學(xué)研究中的重要課題。隨機(jī)對(duì)照試驗(yàn)通常被認(rèn)為是因果效應(yīng)估計(jì)的金標(biāo)準(zhǔn)。在觀察性研究中，研究對(duì)象的處理分配機(jī)制通常不是隨機(jī)發(fā)生的，而是會(huì)受到眾多混雜因素的影響。在比較處理組間的暴露效應(yīng)時(shí)，如果忽略這些混雜因素，效果估計(jì)就會(huì)發(fā)生偏倚?；谶呺H結(jié)構(gòu)模型的逆概率加權(quán)法(inverse probability weighing，IPW)是一類可用于觀察性資料處理效應(yīng)估計(jì)的重要方法。IPW

2、在應(yīng)用時(shí)需要滿足一些前提假設(shè)，比如無遺漏未觀測(cè)混雜因素、非負(fù)性假設(shè)、穩(wěn)定單元處理值假設(shè)以及要正確設(shè)定權(quán)重估計(jì)模型等。對(duì)于IPW而言，第一階段的逆概率權(quán)重估計(jì)非常關(guān)鍵，這是因?yàn)樽罱K的處理效應(yīng)估計(jì)對(duì)于第一階段的權(quán)重估計(jì)準(zhǔn)確與否非常敏感。如果權(quán)重估計(jì)模型設(shè)定錯(cuò)誤（如遺漏二次項(xiàng)或交互項(xiàng)等），估計(jì)的權(quán)重就不準(zhǔn)確，且容易產(chǎn)生極端權(quán)重，導(dǎo)致最終的效應(yīng)估計(jì)發(fā)生偏倚。近年來，越來越多的研究人員推薦采用包括許多統(tǒng)計(jì)學(xué)習(xí)算法在內(nèi)的數(shù)據(jù)適應(yīng)性方法估計(jì)逆概率權(quán)重

3、，取得了良好的效果。然而，目前的研究大多局限于二分類處理因素資料以及單一結(jié)局縱向生存資料。
　　醫(yī)學(xué)實(shí)踐中存在著許多處理/暴露因素為連續(xù)性變量的資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料。對(duì)于處理因素為連續(xù)性變量的資料類型而言，采用IPW進(jìn)行效應(yīng)估計(jì)要比二分類處理因素的情況更復(fù)雜，比如要考察處理因素的分布類型、控制較多的極端權(quán)重對(duì)于效應(yīng)估計(jì)的影響等。對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料而言，傳統(tǒng)的邊際結(jié)構(gòu)原因別風(fēng)險(xiǎn)模型(marginal structu

4、ral cause specific hazard models，MSCSHM)中的逆概率權(quán)重是多次隨訪所得的權(quán)重累乘所得。即使權(quán)重估計(jì)模型設(shè)定發(fā)生了比較輕微的錯(cuò)誤，最終處理效應(yīng)估計(jì)都將可能發(fā)生嚴(yán)重的偏倚。有鑒于此，探索基于統(tǒng)計(jì)學(xué)習(xí)算法的逆概率加權(quán)法在連續(xù)性處理因素資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料中的適用效果具有潛在的理論意義和實(shí)際應(yīng)用價(jià)值。
　　研究目的:
　　1、針對(duì)連續(xù)性處理因素的資料，通過模擬研究比較包括一般線性模型在

5、內(nèi)的7種逆概率權(quán)重估計(jì)方法在不同數(shù)據(jù)情境下的估計(jì)效果。同時(shí)，以一般線性模型為例，探討權(quán)重截?cái)喾椒▽?duì)于效應(yīng)估計(jì)的影響。
　　2、針對(duì)時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料，在MSCSHM的基礎(chǔ)上，引入8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)逆概率權(quán)重。通過模擬研究比較logistic回歸與這8種方法在不同數(shù)據(jù)情境下的估計(jì)效果，篩選出其中表現(xiàn)較優(yōu)的方法。另外，探討不同程度的權(quán)重截?cái)嗨綄?duì)于各個(gè)估計(jì)方法的影響。
　　研究方法:
　　針對(duì)以上兩個(gè)研究目的，均分別

6、采用數(shù)據(jù)模擬→模型構(gòu)建→模型篩選→實(shí)例應(yīng)用的研究流程開展研究。分述如下:
　　1、連續(xù)性處理因素的逆概率加權(quán)方法研究
　　采用蒙特卡洛法模擬處理因素為連續(xù)性變量的觀察性隊(duì)列資料。模擬實(shí)驗(yàn)設(shè)置三種不同大小的樣本量(250、1000和2500)和四種不同復(fù)雜程度的處理因素生成模型（線性可加、非線性、非可加以及非線性非可加模型），比較一般線性模型(general linear model，GLM)、gamma回歸模型、分位數(shù)分組法

7、(quantile binning，QB)、協(xié)變量均衡性傾向性評(píng)分（covariate-balancing propensity score，CBPS）、非參數(shù)CBPS(nonparametric CBPS，npCBPS)、boosted分類與回歸樹(boosted classification and regression trees，boosted CART)和隨機(jī)森林(random forest，RF)等7種方法估計(jì)廣義傾向性評(píng)分

8、和逆概率權(quán)重，另外，對(duì)由GLM得到的穩(wěn)定權(quán)重分別在雙側(cè)1％和5％分位點(diǎn)進(jìn)行截?cái)嗵幚?，得到相?yīng)的截?cái)鄼?quán)重。進(jìn)一步，利用得到的9個(gè)權(quán)重變量對(duì)原始樣本加權(quán)，通過加權(quán)結(jié)局回歸模型得到各自的處理效應(yīng)估計(jì)量。采用平均絕對(duì)相關(guān)系數(shù)(average absolute correlation coefficient，AACC)、相對(duì)偏倚(relative bias)、經(jīng)驗(yàn)標(biāo)準(zhǔn)差(standard deviation，SD)、模型輸出的標(biāo)準(zhǔn)誤(standa

9、rd error，SE)、均方根誤差(root mean squared error，RMSE)和95％置信區(qū)間（confidence interval，CI）覆蓋率等指標(biāo)評(píng)價(jià)估計(jì)效果。最后通過研究吸煙量對(duì)于醫(yī)療總支出的影響，比較不同的IPW估計(jì)方法在實(shí)際數(shù)據(jù)分析時(shí)的應(yīng)用效果。
　　2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)的逆概率加權(quán)方法研究
　　首先提出采用MSCSHM作為本研究的基礎(chǔ)框架，引入LASSO、貝葉斯logistic回歸、C

10、ART、bagged CART、boosted CART、隨機(jī)森林、支持向量機(jī)(support vector machine，SVM)和EL(ensemble learner)算法等8種統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)造第一階段的逆概率權(quán)重。然后采用蒙特卡洛法模擬時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)。模擬設(shè)置了兩種不同大小的樣本量（250和1000）、不同強(qiáng)度的處理因素序列的自相關(guān)性(相關(guān)系數(shù)為log(4)和0.5）、不同的競(jìng)爭(zhēng)終點(diǎn)事件數(shù)（2和3）以及四種處理因素生成

11、模型（線性可加、非可加、非線性以及非線性非可加模型）。分別采用logistic回歸和上述8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)穩(wěn)定權(quán)重。另外，分別在穩(wěn)定權(quán)重分布的雙側(cè)1％、5％、10％、25％、35％和50％分位點(diǎn)進(jìn)行截?cái)嗵幚?，探討不同的截?cái)嗨綄?duì)于處理效應(yīng)估計(jì)的影響。
　　上述研究過程均采用統(tǒng)計(jì)分析軟件R3.4.3中實(shí)現(xiàn)。
　　研究結(jié)果:
　　1、連續(xù)性處理因素的逆概率加權(quán)方法研究
　　(1)模擬研究結(jié)果:①在均衡協(xié)變量的能力方

12、面，CBPS在所有方法中表現(xiàn)最好，其次為npCBPS。直接采用GLM法得到的原始穩(wěn)定權(quán)重對(duì)樣本加權(quán)，協(xié)變量分布仍然不均衡，通過權(quán)重截?cái)喾椒ㄈコ龢O端值后，采用GLM(1，99)加權(quán)后的樣本的協(xié)變量均衡性顯著改善。②Boosted CART和RF在不同程度的權(quán)重估計(jì)模型誤設(shè)的情況下的估計(jì)偏倚均較小，在減小偏倚方面優(yōu)于其他方法。③由GLM、GLM(1，99)和GLM(5，95)三者的SD可以看出，權(quán)重截?cái)喾椒梢詼p小估計(jì)量的方差，且隨著截?cái)嗨?/p>

13、平的提高，方差逐漸變小。④CBPS、npCBPS和boosted CART的RMSE較小，估計(jì)精度較高。由于權(quán)重截?cái)鄿p小了方差，致使GLM(5，95)和GLM(1，99)的RMSE小于前述三種方法。⑤隨著處理因素生成模型復(fù)雜度的上升，各個(gè)方法的95％CI覆蓋率均有不同程度的下降。GLM(1，99)、CBPS、npCBPS和boosted CART四種方法的表現(xiàn)相對(duì)穩(wěn)健。
　　(2)實(shí)例研究結(jié)果:通過“考察處理因素的分布-逆概率權(quán)重

14、的估計(jì)-考察權(quán)重的分布-協(xié)變量均衡性的評(píng)價(jià)-劑量反應(yīng)函數(shù)的估計(jì)”的分析流程研究了吸煙數(shù)量對(duì)于醫(yī)療總支出的影響。結(jié)果表明，隨著吸煙量的增加，個(gè)人的醫(yī)療總支出也隨之增加;在調(diào)整了相關(guān)混雜因素后，吸煙量對(duì)于醫(yī)療總支出的效應(yīng)雖有所減弱，標(biāo)準(zhǔn)誤增大，但是除了boosted CART(1，99)加權(quán)法得到的估計(jì)量具有臨界統(tǒng)計(jì)學(xué)意義外，GLM(1，99)和RF(1，99)加權(quán)法得到的估計(jì)量仍具有顯著的統(tǒng)計(jì)學(xué)意義。
　　2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)

15、的逆概率加權(quán)方法研究
　　(1)模擬研究結(jié)果:①當(dāng)處理因素生成模型僅包括主效應(yīng)項(xiàng)（線性可加）時(shí)，boosted CART估計(jì)量的偏倚較小，且在SD和RMSE方面表現(xiàn)最優(yōu)，而基于參數(shù)logistic回歸的估計(jì)量的SD較大，估計(jì)精度較差。②當(dāng)處理因素生成模型僅包括二階交互項(xiàng)（非可加）時(shí)，在大樣本且處理因素序列強(qiáng)自相關(guān)時(shí)，boosted CART和RF的估計(jì)效果非常接近，且均優(yōu)于其他方法;在小樣本或處理因素序列中度自相關(guān)時(shí)，RF在偏倚和

16、RMSE方面表現(xiàn)最優(yōu)。③當(dāng)處理因素生成模型包括非線性項(xiàng)時(shí)，boosted CART在偏倚、RMSE和95％CI覆蓋率方面最優(yōu)。④當(dāng)處理因素生成模型同時(shí)包括二階交互項(xiàng)和非線性項(xiàng)時(shí)，RF在RMSE和95％CI覆蓋率方面表現(xiàn)最優(yōu)。⑤低水平（如雙側(cè)1％分位點(diǎn)）的權(quán)重截?cái)嗄軌蜻M(jìn)一步減小boosted CART和RF兩種方法的RMSE。⑥在相同的模擬情境下，多數(shù)估計(jì)方法的最優(yōu)截?cái)嗨讲槐M相同;在不同的模擬情境下，同一種方法的最優(yōu)截?cái)嗨揭灿胁町?。?/p>

17、優(yōu)截?cái)嗨降倪x擇具有數(shù)據(jù)依賴性。
　　(2)實(shí)例研究結(jié)果:采用帶有時(shí)依性協(xié)變量的Cox比例風(fēng)險(xiǎn)模型、分別基于logistic回歸和boosted CART的MSCSHM分析硫唑嘌呤暴露對(duì)炎癥性腸病患者的兩個(gè)競(jìng)爭(zhēng)終點(diǎn)事件的風(fēng)險(xiǎn)大小。結(jié)果顯示，無論處理因素定義為過去3個(gè)月暴露還是累積暴露，各個(gè)模型的效應(yīng)估計(jì)結(jié)果均未顯示暴露效應(yīng)具有統(tǒng)計(jì)學(xué)意義。
　　研究結(jié)論:
　　對(duì)于連續(xù)性處理因素資料，CBPS和npCBPS在均衡協(xié)變量方

18、面的能力較強(qiáng);在減小估計(jì)偏倚方面，boosted CART和RF等統(tǒng)計(jì)學(xué)習(xí)算法的表現(xiàn)較優(yōu);在采用IPW進(jìn)行效應(yīng)估計(jì)時(shí)，應(yīng)首先考察權(quán)重變量的分布，若存在較多離群點(diǎn)，應(yīng)首先對(duì)權(quán)重作截?cái)嗵幚?，然后進(jìn)行下一步的效應(yīng)估計(jì)。
　　對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料，在采用MSCSHM模型進(jìn)行效應(yīng)估計(jì)時(shí)，由于實(shí)際資料中的處理分配機(jī)制往往未知，建議采用boosted CART和RF兩種方法替代傳統(tǒng)的logistic回歸構(gòu)建逆概率權(quán)重，以減小模型設(shè)定錯(cuò)誤對(duì)

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載