版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、有關(guān)logistic回歸的樣本量估計目前尚無實用的理論方法,實踐中更多的是基于經(jīng)驗方法,即所謂應(yīng)變量(結(jié)局變量)事件數(shù)(EPV,events per variable)方法,即應(yīng)變量發(fā)生的事件數(shù)(陽性事件數(shù)和陰性事件數(shù)的最小值)需不少于模型中納入的自變量個數(shù)乘以的倍數(shù)。目前已經(jīng)開展的EPV方法的研究較多,如Harrell(1984),Concato(1995),Peduzzi(1995),Vittinghoff等(2006),通過模擬研
2、究得出,采用基于最大似然估計(MLE,maximum likelihood estimate)的Wald方法時,EPV不小于5,10,甚至20等,才可保證回歸分析結(jié)果穩(wěn)健;楊曉妍(2005)的研究認(rèn)為EPV應(yīng)不小于10。
然而,有關(guān)自變量的事件數(shù)(EIV,events of independent variable),即納入模型的某一二分類自變量發(fā)生事件的個數(shù)(二分類中個數(shù)較小的那類),對模型的影響卻鮮有研究,而此問題恰恰也是
3、實際數(shù)據(jù)中經(jīng)常會遇到的問題。如果EIV太小會導(dǎo)致logistic回歸模型的估計失準(zhǔn)或不穩(wěn)定,可認(rèn)為僅僅依靠EPV方法確定樣本量是不夠的,還需要結(jié)合EIV一起來確定樣本量。為此,本研究將通過模擬研究探討EIV對模型的影響,進(jìn)而得到EIV界值的確定策略,為logistic回歸的樣本量估計提供更完善的經(jīng)驗方法。
目的:
本研究采用Monte Carlo技術(shù)從EIV的角度探討logistic回歸模型的穩(wěn)定性,并建立確定EIV
4、界值的方法。
方法:
Logistic回歸分析最常用的參數(shù)估計方法是MLE,還有罰分似然估計(PLE,penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計收斂但至少有一個參數(shù)估計發(fā)散至正/負(fù)無窮的問題,主要發(fā)生在EIV與非事件數(shù)不平衡和高風(fēng)險因素情況下,該方法校正了MLE的偏倚,具有較好的性能,效果優(yōu)于精確logi
5、stic回歸和最大似然估計,但在實際應(yīng)用中較少。稀有事件logistic回歸原理是校正應(yīng)變量發(fā)生事件的概率,從而保證回歸結(jié)果的穩(wěn)健性,且從楊曉妍模擬結(jié)果來看,該方法對模型結(jié)果改善較小。最常用的估計logistic回歸系數(shù)的置信區(qū)間和假設(shè)檢驗方法是Wald方法,但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健,能嚴(yán)格控制一類錯誤率,且檢驗效能優(yōu)于Wald方法。因此,本研究分
6、別選取MLE和PLE進(jìn)行參數(shù)估計,選取Wald方法和輪廓似然方法估計回歸系數(shù)的置信區(qū)間及假設(shè)檢驗。
本研究采用Monte Carlo技術(shù)進(jìn)行模擬研究,后經(jīng)實例驗證,所有模擬及計算均通過R3.1.2軟件實現(xiàn)。
首先,模擬產(chǎn)生logistic回歸的自變量(IV,independent variable)與應(yīng)變量,6類模擬參數(shù)的設(shè)置為:自變量個數(shù)(1,4,8)、回歸系數(shù)絕對值(0,1,2)、樣本量(50,70,80,90,
7、100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自變量間的相關(guān)性(0,0.5,0.8)、自變量事件發(fā)生率(5%,10%,15%,30%,50%)。參數(shù)設(shè)置非完全組合,其中,EIV最多為樣本量的一半,且MLE下EIV最小為5;1個自變量模型不涉及相關(guān)性;僅在8個自變量模型中,設(shè)置自變量事件發(fā)生率。
8、應(yīng)變量則通過概率抽樣獲得,概率由人為設(shè)定的β和模擬自變量計算得到。每種參數(shù)組合下模擬10000次。
其次,分別采用MLE和PLE對模擬數(shù)據(jù)進(jìn)行參數(shù)估計,采用Wald方法和輪廓似然方法進(jìn)行假設(shè)檢驗及置信區(qū)間估計。
最后,以一類錯誤(TypeⅠ Error)、均方根誤差(MSE,mean square error)、準(zhǔn)確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個指
9、標(biāo)評價統(tǒng)計性能,由參數(shù)收斂的回歸結(jié)果與開始設(shè)定值比較獲得,從而探究EIV對模型結(jié)果的影響。當(dāng)指標(biāo)值達(dá)到期望值或達(dá)到相對穩(wěn)定狀態(tài)時對應(yīng)的EIV即為EIV界值。
結(jié)果:
EIV對logistic回歸結(jié)果具有規(guī)律性影響,而自變量事件率的影響需結(jié)合樣本量共同發(fā)揮作用。表1,給出不同方法和五個評價指標(biāo)下,EIV的具體選擇策略。
基于MLE的Wald方法和基于PLE的輪廓似然方法,均可以較好地控制一類錯誤率,但是后者明
10、顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到20以上,一類錯誤率可以穩(wěn)定保持在4%到6%之間;而基于PLE的輪廓似然方法需要EIV達(dá)到12以上,一類錯誤率可以穩(wěn)定保持在5%附近。而基于MLE的輪廓似然方法需EIV達(dá)到12以上,但樣本量要達(dá)到200以上,一類錯誤率可以穩(wěn)定保持在5%附近;基于PLE的Wald方法需EIV達(dá)到45以上,且樣本量也需達(dá)到200以上,一類錯誤率可穩(wěn)定保持在5%附近。
第二步為量化危險因素的強(qiáng)度,即
11、參數(shù)估計的精準(zhǔn)性方面。采用MLE方法時,EIV需分別達(dá)到18、12、16以獲得穩(wěn)定的均方根誤差、準(zhǔn)確性和精確性;而采用PLE方法時,EIV需分別達(dá)到12、12、7。
最后為置信區(qū)間覆蓋率方面,基于MLE的Wald方法和基于PLE的輪廓方法,可以將覆蓋率較好控制在預(yù)期范圍內(nèi),穩(wěn)定控制在95%附近,但后者明顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到30以上;而基于PLE的輪廓方法需要EIV達(dá)到14以上。而另外兩種情況,基于
12、MLE的輪廓似然方法受其他因素影響較大,很多情況不能達(dá)到預(yù)期值;而基于PLE的Wald方法EIV達(dá)到45以上,且樣本量也需達(dá)到200以上。此外,自變量個數(shù)、回歸系數(shù)絕對值、樣本量及相關(guān)性對EIV界值存在一定影響,但在影響方向和強(qiáng)度上略微不同。
結(jié)論:
在實際應(yīng)用logistic回歸模型時,應(yīng)結(jié)合EPV和EIV一起確定樣本量。就EIV而言,應(yīng)不小于12。當(dāng)EIV在12→20之間,可采用基于PLE的輪廓似然方法,以較好地
13、控制一類錯誤并獲得精準(zhǔn)的參數(shù)估計;當(dāng)EIV大于等于20時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進(jìn)一步,當(dāng)EIV在14→30之間,可采用基于PLE的輪廓似然方法,以較好地控制置信區(qū)間覆蓋率;當(dāng)EIV大于等于30時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用,優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無法擴(kuò)大樣本量的情況下,logistic回歸模型中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Logistic回歸和稀有事件logistic回歸模型的模擬研究.pdf
- 自變量和因變量的確定
- 檢驗的樣本量確定及模擬研究.pdf
- 第5章自變量的選擇與逐步回歸
- 分類變量的logistic回歸模型及其應(yīng)用研究.pdf
- 自變量為區(qū)間刪失型數(shù)據(jù)的線性回歸分析.pdf
- 自變量與應(yīng)變量的關(guān)系
- 基于混合Copula和Logistic回歸的極端事件研究.pdf
- 因變量 自變量 控制變量 調(diào)節(jié)變量 介入變量
- 高維數(shù)據(jù)回歸模型自變量相對重要性排秩方法的研究.pdf
- 基于輔助變量的隨機(jī)效應(yīng)logistic回歸及其加權(quán)平均分估計.pdf
- 回歸分析中樣本容量的確定.pdf
- 15823.多類型復(fù)發(fā)事件數(shù)據(jù)的變量選擇
- logistic回歸模型
- logistic回歸分析
- logistic回歸研
- 戰(zhàn)略企業(yè)組織結(jié)構(gòu)變革的自變量
- 多元線性回歸與logistic回歸
- 考慮自變量個數(shù)先驗分布的貝葉斯變量選擇.pdf
- 40456.雙自變量的結(jié)合似然
評論
0/150
提交評論