2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩150頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、傾向性評(píng)分法(Propensity Score,PS)是近年來興起的一種控制已觀測(cè)的混雜因素的有效方法,該方法可以用來控制觀察性研究中的選擇偏倚問題。傾向性評(píng)分值,則是指在存在協(xié)變量的情況下,個(gè)體被分配至暴露組的條件概率。該方法主要分兩步,第一步是通過協(xié)變量與暴露因素構(gòu)建模型來估計(jì)傾向性評(píng)分值,第二步是利用估計(jì)的傾向性評(píng)分值構(gòu)建暴露因素與結(jié)局變量的模型,從而估計(jì)暴露效應(yīng)。該方法近年來越來越受到研究者的重視和廣泛應(yīng)用。但實(shí)際研究中存在大量

2、的大規(guī)模的多水平層次結(jié)構(gòu)的數(shù)據(jù),如國(guó)家衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)等,而傾向性評(píng)分方法在這種數(shù)據(jù)中的研究和應(yīng)用還較為少見,只在教育和經(jīng)濟(jì)領(lǐng)域有一定的應(yīng)用,尤其是針對(duì)多水平(多層)數(shù)據(jù)中暴露因素為無序多分類和有序分類變量的情況,仍然未見相關(guān)研究及報(bào)道。同時(shí),對(duì)目前現(xiàn)有的暴露因素為二分類變量構(gòu)建的多水平傾向性評(píng)分模型,也多局限在使用傳統(tǒng)的Logistic回歸等方法來估計(jì)傾向性評(píng)分值,但在單水平數(shù)據(jù)的研究中有報(bào)道Boosting算法估計(jì)傾向性評(píng)分更為準(zhǔn)確

3、,而這兩種方法在多水平層次結(jié)構(gòu)數(shù)據(jù)中孰優(yōu)孰劣還有待研究。
  目的:
  本研究針對(duì)醫(yī)療衛(wèi)生大數(shù)據(jù)中,多水平層次結(jié)構(gòu)的數(shù)據(jù)中暴露因素為分類變量(包括二分類、無序多分類和有序分類變量)的情況,深入探索優(yōu)化目前二分類暴露因素的多水平傾向性評(píng)分模型,將Boosting估計(jì)傾向性評(píng)分的方法引入到多水平傾向性評(píng)分模型中,并構(gòu)建暴露因素為無序多分類和有序分類數(shù)據(jù)(主要以三分類為例)的多水平傾向性評(píng)分模型,比較在不同數(shù)據(jù)情況下,運(yùn)用不同的

4、傾向性評(píng)分計(jì)算方法以及不同估計(jì)暴露效應(yīng)的模型所得暴露效應(yīng)估計(jì)值的精確度與準(zhǔn)確度,從而探索不同情況下的最優(yōu)模型。并構(gòu)建的模型應(yīng)用于第五次國(guó)家衛(wèi)生服務(wù)調(diào)查(上海區(qū))的實(shí)例分析中。
  方法:
  1.模擬數(shù)據(jù)
  首先進(jìn)行數(shù)據(jù)模擬,數(shù)據(jù)的模擬過程主要根據(jù)數(shù)據(jù)類型的不同分為三個(gè)部分,即暴露因素為二分類變量、無序多分類變量和有序分類變量三部分。在每一部分的模擬中,又根據(jù)數(shù)據(jù)結(jié)構(gòu)的復(fù)雜程度,將數(shù)據(jù)分為三種情況,分別是:(1)僅包

5、含隨機(jī)截距;(2)包含隨機(jī)截距和隨機(jī)系數(shù);(3)同時(shí)含有隨機(jī)截距、隨機(jī)系數(shù)以及第一、二水平協(xié)變量交互作用項(xiàng)(跨層交互作用項(xiàng))。為了盡可能多地覆蓋各種樣本量情況,共設(shè)置3×30,3×50,3×100,3×200,3×600,20×30,20×50,20×100,20×200和200×30等共10種樣本情況,其中30,50,100,200,600分別代表第二水平包含的單位數(shù),后文用site表示,3,20,和200分別代表第二水平的每個(gè)單位內(nèi)

6、包含的第一水平的個(gè)體數(shù),后文用size表示,而size×site所得的結(jié)果即為總的樣本含量。在模擬每種情況時(shí),均模擬500個(gè)數(shù)據(jù)集,分別設(shè)置六個(gè)第一水平協(xié)變量,其中三個(gè)為連續(xù)型協(xié)變量,三個(gè)為二分類變量;同時(shí)設(shè)置一個(gè)連續(xù)型變量作為第二水平協(xié)變量。在暴露因素為二分類變量和有序分類變量時(shí),將暴露效應(yīng)的效應(yīng)值的金標(biāo)準(zhǔn)γ設(shè)為2.5,當(dāng)暴露因素為無序三分類變量時(shí),設(shè)效應(yīng)值的金標(biāo)準(zhǔn)分別為γ1=-2.5,γ2=4。
  2.構(gòu)建模型
  針

7、對(duì)三種暴露因素的變量類型分別構(gòu)建模型,其主要步驟如下:第一步,估計(jì)傾向性評(píng)分值。在估計(jì)時(shí),對(duì)于二分類暴露因素,除采用傳統(tǒng)的Logistic回歸模型,還需采用單水平隨機(jī)效應(yīng)模型、兩水平隨機(jī)效應(yīng)模型、考慮水平因素的Logistic回歸模型以及Boosting算法(考慮或不考慮水平因素);對(duì)于暴露因素為無序多分類變量,采用多項(xiàng)Logistic回歸模型(考慮或不考慮水平因素)、多項(xiàng)單水平隨機(jī)效應(yīng)模型、多項(xiàng)兩水平隨機(jī)效應(yīng)模型、和Boosting算

8、法(考慮或不考慮水平因素);對(duì)于暴露因素為有序分類變量,采用有序Logistic回歸模型(考慮或不考慮水平因素)、累積單水平隨機(jī)效應(yīng)模型、累積兩水平隨機(jī)效應(yīng)模型、和Boosting算法(考慮或不考慮水平因素)。以上估計(jì)傾向性評(píng)分的方法中,若采用的為單水平隨機(jī)效應(yīng)或兩水平隨機(jī)效應(yīng)模型,還需根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同類型,分別采用隨機(jī)截距、隨機(jī)系數(shù)以及含跨層交互項(xiàng)的模型分別估計(jì)傾向性評(píng)分值。第二步,利用估計(jì)的傾向性評(píng)分值構(gòu)建結(jié)局變量模型從而估計(jì)暴露

9、效應(yīng)的效應(yīng)值。對(duì)每種方法所估計(jì)的傾向性評(píng)分值進(jìn)行協(xié)變量調(diào)整(回歸調(diào)整法)或加權(quán)(逆概率加權(quán)法)后納入多層模型進(jìn)行分析。同時(shí),本研究還采用了不使用傾向性評(píng)分法的單純多水平模型對(duì)暴露效應(yīng)進(jìn)行估計(jì)。
  3.評(píng)價(jià)模型
  采用標(biāo)準(zhǔn)誤作為模型估計(jì)暴露效應(yīng)的精確度的衡量指標(biāo),采用絕對(duì)偏倚和95%置信區(qū)間覆蓋率作為衡量模型估計(jì)暴露效應(yīng)準(zhǔn)確度的指標(biāo)。最終綜合以上三個(gè)指標(biāo),對(duì)模型做出綜合評(píng)價(jià),選擇在不同情況下的最適合模型。
  4.分

10、析實(shí)例
  本研究以第五次國(guó)家衛(wèi)生服務(wù)調(diào)查上海區(qū)的數(shù)據(jù)作為實(shí)例分析部分的數(shù)據(jù)來源。暴露因素為二分類變量情況的實(shí)例為60歲以上老人吸煙狀況對(duì)其患慢性病的影響;暴露因素為無序多分類變量的實(shí)例將針對(duì)28-44歲人群婚姻狀況與自評(píng)健康之間的關(guān)系進(jìn)行分析;而針對(duì)暴露因素為序分類變量,則采用居民體重指數(shù)與是否患高血壓的關(guān)系作為分析實(shí)例。
  結(jié)果:
  1.模擬研究結(jié)果
  (1)暴露因素為二分類變量
  在大多數(shù)情況

11、下,尤其是數(shù)據(jù)結(jié)構(gòu)不包含跨層交互作用項(xiàng)的情況下,考慮水平因素的多層Boosting傾向性評(píng)分調(diào)整模型的估計(jì)結(jié)果較為可靠。而當(dāng)數(shù)據(jù)中存在第一、二水平內(nèi)協(xié)變量交互作用的情況時(shí),若樣本量小于2000,則采用多層傾向性評(píng)分加權(quán)模型較容易得到較為準(zhǔn)確的估計(jì)結(jié)果,具體來說:對(duì)樣本量為3×30,多層兩水平隨機(jī)效應(yīng)傾向性評(píng)分調(diào)整法的準(zhǔn)確度和精確度最高;對(duì)樣本量為3×50,考慮水平因素的多層Logistic傾向性評(píng)分調(diào)整法精確度和準(zhǔn)確度最高;而對(duì)樣本量為

12、3×100,3×200和3×600的情況,采用多層Logistic回歸傾向性評(píng)分加權(quán)模型所得的結(jié)果則較為接近真實(shí)值。
  (2)暴露因素為無序多分類變量
  針對(duì)暴露因素為無序多分類變量的情況,多水平傾向性評(píng)分加權(quán)模型得到準(zhǔn)確的估計(jì)結(jié)果的情況逐漸增多,而當(dāng)樣本量大于或等于2000時(shí)多水平傾向性評(píng)分調(diào)整模型更容易得到較為準(zhǔn)確的估計(jì)結(jié)果。
  (3)暴露因素為有序分類變量
  在樣本量較小,且第二水平單位內(nèi)的個(gè)體數(shù)較

13、少時(shí),采用多層傾向性評(píng)分加權(quán)模型較好,若數(shù)據(jù)結(jié)構(gòu)僅包含隨機(jī)截距,多層累積Boosting傾向性評(píng)分加權(quán)和多層累積單水平隨機(jī)效應(yīng)傾向性評(píng)分加權(quán)所得的結(jié)果更加穩(wěn)定;若數(shù)據(jù)結(jié)果包含跨層交互作用,則多層累積兩水平隨機(jī)效應(yīng)傾向性評(píng)分調(diào)整模型更容易得到較準(zhǔn)確的估計(jì)結(jié)果。而當(dāng)樣本量增大到2000及以上,推薦采用多層傾向性評(píng)分調(diào)整模型,且各種估計(jì)傾向性評(píng)分方法的模型效果差別不大。但對(duì)于樣本量大且數(shù)據(jù)結(jié)構(gòu)含跨層交互作用項(xiàng),那么無論是多水平傾向性評(píng)分加權(quán)模

14、型或是調(diào)整模型,乃至單純的多層Logistic回歸模型所估計(jì)的暴露效應(yīng)值,其可信度均有待提高。
  2.實(shí)例分析結(jié)果
  針對(duì)暴露因素為二分類變量的分析實(shí)例為60歲以上男性吸煙與患慢性病的風(fēng)險(xiǎn),采用普通多水平模型所得的結(jié)果為吸煙是患慢性病的保護(hù)因素,估計(jì)的系數(shù)為-0.1511(p=0.0218),風(fēng)險(xiǎn)比(OR值)為0.86;而采用多層Boosting傾向性評(píng)分調(diào)整模型估計(jì)的效應(yīng)值為-0.1096(p=0.1731),風(fēng)險(xiǎn)比為

15、0.90(95%CI,0.77-1.05),差別沒有統(tǒng)計(jì)學(xué)意義,提示尚不能認(rèn)為吸煙與患慢性病的之間存在明確的風(fēng)險(xiǎn)關(guān)系。對(duì)暴露因素為無序多分類變量的分析實(shí)例為婚姻狀況對(duì)自評(píng)健康的影響,結(jié)果顯示,可以認(rèn)為未婚與已婚相比,未婚人群更容易得到較好的自評(píng)健康狀況(OR=1.60,p=0.0006),其自評(píng)健康狀況得到較高分值的可能是已婚人群的1.60倍,而對(duì)于離異或喪偶人群,調(diào)整法和單純多水平模型都沒有得出具有顯著性差異的結(jié)果(p=0.6310)

16、,因而尚不能認(rèn)為離異喪偶人群與已婚人群之間的自評(píng)健康狀況有差別。
  結(jié)論:
  本研究通過對(duì)不同樣本量情況下暴露因素為二分類、無序多分類和有序分類三種情況分別進(jìn)行了模擬研究,發(fā)現(xiàn)在不同數(shù)據(jù)情況下,不同多水平傾向性評(píng)分模型估計(jì)暴露效應(yīng)的準(zhǔn)確度和精確度差異較大,每種方法都有其適用條件,不能一概而論。具體來說:(1)在樣本量為3×30,3×50,3×100,20×30,20×50這幾種情況下且變量間不存在跨層交互作用的情況下,可

17、以采用多水平傾向性評(píng)分加權(quán)模型;(2)當(dāng)樣本量為3×200,3×600,20×100或20×200且變量跨層交互作用不明顯時(shí),建議采用多水平傾向性評(píng)分調(diào)整模型;(3)當(dāng)樣本量為20×200或200×30甚至更大時(shí),若數(shù)據(jù)結(jié)構(gòu)僅存在隨機(jī)截距,則可以采用多水平傾向性評(píng)分調(diào)整模型或只采用單純的多水平模型,二者均可以得到較為準(zhǔn)確的結(jié)果;如果變量間存在跨層交互作用或有隨機(jī)系數(shù)存在,尤其是暴露因素為無序多分類的情況,各種方法得出的暴露效應(yīng)的估計(jì)值的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論