版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、傾向性評分法(Propensity Score,PS)是近年來興起的一種控制已觀測的混雜因素的有效方法,該方法可以用來控制觀察性研究中的選擇偏倚問題。傾向性評分值,則是指在存在協(xié)變量的情況下,個體被分配至暴露組的條件概率。該方法主要分兩步,第一步是通過協(xié)變量與暴露因素構(gòu)建模型來估計傾向性評分值,第二步是利用估計的傾向性評分值構(gòu)建暴露因素與結(jié)局變量的模型,從而估計暴露效應(yīng)。該方法近年來越來越受到研究者的重視和廣泛應(yīng)用。但實際研究中存在大量
2、的大規(guī)模的多水平層次結(jié)構(gòu)的數(shù)據(jù),如國家衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)等,而傾向性評分方法在這種數(shù)據(jù)中的研究和應(yīng)用還較為少見,只在教育和經(jīng)濟(jì)領(lǐng)域有一定的應(yīng)用,尤其是針對多水平(多層)數(shù)據(jù)中暴露因素為無序多分類和有序分類變量的情況,仍然未見相關(guān)研究及報道。同時,對目前現(xiàn)有的暴露因素為二分類變量構(gòu)建的多水平傾向性評分模型,也多局限在使用傳統(tǒng)的Logistic回歸等方法來估計傾向性評分值,但在單水平數(shù)據(jù)的研究中有報道Boosting算法估計傾向性評分更為準(zhǔn)確
3、,而這兩種方法在多水平層次結(jié)構(gòu)數(shù)據(jù)中孰優(yōu)孰劣還有待研究。
目的:
本研究針對醫(yī)療衛(wèi)生大數(shù)據(jù)中,多水平層次結(jié)構(gòu)的數(shù)據(jù)中暴露因素為分類變量(包括二分類、無序多分類和有序分類變量)的情況,深入探索優(yōu)化目前二分類暴露因素的多水平傾向性評分模型,將Boosting估計傾向性評分的方法引入到多水平傾向性評分模型中,并構(gòu)建暴露因素為無序多分類和有序分類數(shù)據(jù)(主要以三分類為例)的多水平傾向性評分模型,比較在不同數(shù)據(jù)情況下,運用不同的
4、傾向性評分計算方法以及不同估計暴露效應(yīng)的模型所得暴露效應(yīng)估計值的精確度與準(zhǔn)確度,從而探索不同情況下的最優(yōu)模型。并構(gòu)建的模型應(yīng)用于第五次國家衛(wèi)生服務(wù)調(diào)查(上海區(qū))的實例分析中。
方法:
1.模擬數(shù)據(jù)
首先進(jìn)行數(shù)據(jù)模擬,數(shù)據(jù)的模擬過程主要根據(jù)數(shù)據(jù)類型的不同分為三個部分,即暴露因素為二分類變量、無序多分類變量和有序分類變量三部分。在每一部分的模擬中,又根據(jù)數(shù)據(jù)結(jié)構(gòu)的復(fù)雜程度,將數(shù)據(jù)分為三種情況,分別是:(1)僅包
5、含隨機截距;(2)包含隨機截距和隨機系數(shù);(3)同時含有隨機截距、隨機系數(shù)以及第一、二水平協(xié)變量交互作用項(跨層交互作用項)。為了盡可能多地覆蓋各種樣本量情況,共設(shè)置3×30,3×50,3×100,3×200,3×600,20×30,20×50,20×100,20×200和200×30等共10種樣本情況,其中30,50,100,200,600分別代表第二水平包含的單位數(shù),后文用site表示,3,20,和200分別代表第二水平的每個單位內(nèi)
6、包含的第一水平的個體數(shù),后文用size表示,而size×site所得的結(jié)果即為總的樣本含量。在模擬每種情況時,均模擬500個數(shù)據(jù)集,分別設(shè)置六個第一水平協(xié)變量,其中三個為連續(xù)型協(xié)變量,三個為二分類變量;同時設(shè)置一個連續(xù)型變量作為第二水平協(xié)變量。在暴露因素為二分類變量和有序分類變量時,將暴露效應(yīng)的效應(yīng)值的金標(biāo)準(zhǔn)γ設(shè)為2.5,當(dāng)暴露因素為無序三分類變量時,設(shè)效應(yīng)值的金標(biāo)準(zhǔn)分別為γ1=-2.5,γ2=4。
2.構(gòu)建模型
針
7、對三種暴露因素的變量類型分別構(gòu)建模型,其主要步驟如下:第一步,估計傾向性評分值。在估計時,對于二分類暴露因素,除采用傳統(tǒng)的Logistic回歸模型,還需采用單水平隨機效應(yīng)模型、兩水平隨機效應(yīng)模型、考慮水平因素的Logistic回歸模型以及Boosting算法(考慮或不考慮水平因素);對于暴露因素為無序多分類變量,采用多項Logistic回歸模型(考慮或不考慮水平因素)、多項單水平隨機效應(yīng)模型、多項兩水平隨機效應(yīng)模型、和Boosting算
8、法(考慮或不考慮水平因素);對于暴露因素為有序分類變量,采用有序Logistic回歸模型(考慮或不考慮水平因素)、累積單水平隨機效應(yīng)模型、累積兩水平隨機效應(yīng)模型、和Boosting算法(考慮或不考慮水平因素)。以上估計傾向性評分的方法中,若采用的為單水平隨機效應(yīng)或兩水平隨機效應(yīng)模型,還需根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同類型,分別采用隨機截距、隨機系數(shù)以及含跨層交互項的模型分別估計傾向性評分值。第二步,利用估計的傾向性評分值構(gòu)建結(jié)局變量模型從而估計暴露
9、效應(yīng)的效應(yīng)值。對每種方法所估計的傾向性評分值進(jìn)行協(xié)變量調(diào)整(回歸調(diào)整法)或加權(quán)(逆概率加權(quán)法)后納入多層模型進(jìn)行分析。同時,本研究還采用了不使用傾向性評分法的單純多水平模型對暴露效應(yīng)進(jìn)行估計。
3.評價模型
采用標(biāo)準(zhǔn)誤作為模型估計暴露效應(yīng)的精確度的衡量指標(biāo),采用絕對偏倚和95%置信區(qū)間覆蓋率作為衡量模型估計暴露效應(yīng)準(zhǔn)確度的指標(biāo)。最終綜合以上三個指標(biāo),對模型做出綜合評價,選擇在不同情況下的最適合模型。
4.分
10、析實例
本研究以第五次國家衛(wèi)生服務(wù)調(diào)查上海區(qū)的數(shù)據(jù)作為實例分析部分的數(shù)據(jù)來源。暴露因素為二分類變量情況的實例為60歲以上老人吸煙狀況對其患慢性病的影響;暴露因素為無序多分類變量的實例將針對28-44歲人群婚姻狀況與自評健康之間的關(guān)系進(jìn)行分析;而針對暴露因素為序分類變量,則采用居民體重指數(shù)與是否患高血壓的關(guān)系作為分析實例。
結(jié)果:
1.模擬研究結(jié)果
(1)暴露因素為二分類變量
在大多數(shù)情況
11、下,尤其是數(shù)據(jù)結(jié)構(gòu)不包含跨層交互作用項的情況下,考慮水平因素的多層Boosting傾向性評分調(diào)整模型的估計結(jié)果較為可靠。而當(dāng)數(shù)據(jù)中存在第一、二水平內(nèi)協(xié)變量交互作用的情況時,若樣本量小于2000,則采用多層傾向性評分加權(quán)模型較容易得到較為準(zhǔn)確的估計結(jié)果,具體來說:對樣本量為3×30,多層兩水平隨機效應(yīng)傾向性評分調(diào)整法的準(zhǔn)確度和精確度最高;對樣本量為3×50,考慮水平因素的多層Logistic傾向性評分調(diào)整法精確度和準(zhǔn)確度最高;而對樣本量為
12、3×100,3×200和3×600的情況,采用多層Logistic回歸傾向性評分加權(quán)模型所得的結(jié)果則較為接近真實值。
(2)暴露因素為無序多分類變量
針對暴露因素為無序多分類變量的情況,多水平傾向性評分加權(quán)模型得到準(zhǔn)確的估計結(jié)果的情況逐漸增多,而當(dāng)樣本量大于或等于2000時多水平傾向性評分調(diào)整模型更容易得到較為準(zhǔn)確的估計結(jié)果。
(3)暴露因素為有序分類變量
在樣本量較小,且第二水平單位內(nèi)的個體數(shù)較
13、少時,采用多層傾向性評分加權(quán)模型較好,若數(shù)據(jù)結(jié)構(gòu)僅包含隨機截距,多層累積Boosting傾向性評分加權(quán)和多層累積單水平隨機效應(yīng)傾向性評分加權(quán)所得的結(jié)果更加穩(wěn)定;若數(shù)據(jù)結(jié)果包含跨層交互作用,則多層累積兩水平隨機效應(yīng)傾向性評分調(diào)整模型更容易得到較準(zhǔn)確的估計結(jié)果。而當(dāng)樣本量增大到2000及以上,推薦采用多層傾向性評分調(diào)整模型,且各種估計傾向性評分方法的模型效果差別不大。但對于樣本量大且數(shù)據(jù)結(jié)構(gòu)含跨層交互作用項,那么無論是多水平傾向性評分加權(quán)模
14、型或是調(diào)整模型,乃至單純的多層Logistic回歸模型所估計的暴露效應(yīng)值,其可信度均有待提高。
2.實例分析結(jié)果
針對暴露因素為二分類變量的分析實例為60歲以上男性吸煙與患慢性病的風(fēng)險,采用普通多水平模型所得的結(jié)果為吸煙是患慢性病的保護(hù)因素,估計的系數(shù)為-0.1511(p=0.0218),風(fēng)險比(OR值)為0.86;而采用多層Boosting傾向性評分調(diào)整模型估計的效應(yīng)值為-0.1096(p=0.1731),風(fēng)險比為
15、0.90(95%CI,0.77-1.05),差別沒有統(tǒng)計學(xué)意義,提示尚不能認(rèn)為吸煙與患慢性病的之間存在明確的風(fēng)險關(guān)系。對暴露因素為無序多分類變量的分析實例為婚姻狀況對自評健康的影響,結(jié)果顯示,可以認(rèn)為未婚與已婚相比,未婚人群更容易得到較好的自評健康狀況(OR=1.60,p=0.0006),其自評健康狀況得到較高分值的可能是已婚人群的1.60倍,而對于離異或喪偶人群,調(diào)整法和單純多水平模型都沒有得出具有顯著性差異的結(jié)果(p=0.6310)
16、,因而尚不能認(rèn)為離異喪偶人群與已婚人群之間的自評健康狀況有差別。
結(jié)論:
本研究通過對不同樣本量情況下暴露因素為二分類、無序多分類和有序分類三種情況分別進(jìn)行了模擬研究,發(fā)現(xiàn)在不同數(shù)據(jù)情況下,不同多水平傾向性評分模型估計暴露效應(yīng)的準(zhǔn)確度和精確度差異較大,每種方法都有其適用條件,不能一概而論。具體來說:(1)在樣本量為3×30,3×50,3×100,20×30,20×50這幾種情況下且變量間不存在跨層交互作用的情況下,可
17、以采用多水平傾向性評分加權(quán)模型;(2)當(dāng)樣本量為3×200,3×600,20×100或20×200且變量跨層交互作用不明顯時,建議采用多水平傾向性評分調(diào)整模型;(3)當(dāng)樣本量為20×200或200×30甚至更大時,若數(shù)據(jù)結(jié)構(gòu)僅存在隨機截距,則可以采用多水平傾向性評分調(diào)整模型或只采用單純的多水平模型,二者均可以得到較為準(zhǔn)確的結(jié)果;如果變量間存在跨層交互作用或有隨機系數(shù)存在,尤其是暴露因素為無序多分類的情況,各種方法得出的暴露效應(yīng)的估計值的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分類資料的多水平傾向性評分模型構(gòu)建及應(yīng)用.pdf
- 多組比較資料貝葉斯傾向性評分模型的構(gòu)建及應(yīng)用.pdf
- 多組比較的傾向性評分模型構(gòu)建及匹配法的研究和應(yīng)用
- 多組比較的傾向性評分模型構(gòu)建及匹配法的研究和應(yīng)用.pdf
- 煤層沖擊傾向性分類及指數(shù)的測定方法
- 中文WEB文本傾向性分類研究.pdf
- 微博評論情感傾向性分類研究.pdf
- 中文Web文檔傾向性自動分類研究.pdf
- 中文文本情感傾向性分類研究.pdf
- 中文網(wǎng)頁褒貶傾向性分類研究.pdf
- 文本傾向性分析中的分類方法研究.pdf
- 中文產(chǎn)品評論情感傾向性分類研究.pdf
- 網(wǎng)絡(luò)輿情的傾向性分析及應(yīng)用研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的文本傾向性分類研究.pdf
- 傾向性評分法及在藥品不良反應(yīng)信號檢測中的應(yīng)用.pdf
- 基于復(fù)雜網(wǎng)絡(luò)的在線評論情感傾向性分類.pdf
- 貝葉斯傾向性評分模型及其在藥品不良反應(yīng)信號檢測中的應(yīng)用.pdf
- 傾向性評分方法及其在伽瑪?shù)吨委煷贵w腺瘤療效評價中的應(yīng)用.pdf
- 基于SVM增量學(xué)習(xí)的文本情感傾向性分類研究.pdf
- 面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究.pdf
評論
0/150
提交評論