Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-07 格式：pdf 頁(yè)數(shù)：81 大小：5.29MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩80頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、有關(guān)logistic回歸的樣本量估計(jì)目前尚無(wú)實(shí)用的理論方法，實(shí)踐中更多的是基于經(jīng)驗(yàn)方法，即所謂應(yīng)變量（結(jié)局變量）事件數(shù)(EPV，events per variable)方法，即應(yīng)變量發(fā)生的事件數(shù)（陽(yáng)性事件數(shù)和陰性事件數(shù)的最小值）需不少于模型中納入的自變量個(gè)數(shù)乘以的倍數(shù)。目前已經(jīng)開(kāi)展的EPV方法的研究較多，如Harrell(1984)，Concato(1995)，Peduzzi(1995)，Vittinghoff等(2006)，通過(guò)模擬研

2、究得出，采用基于最大似然估計(jì)(MLE，maximum likelihood estimate)的Wald方法時(shí)，EPV不小于5，10，甚至20等，才可保證回歸分析結(jié)果穩(wěn)健;楊曉妍(2005)的研究認(rèn)為EPV應(yīng)不小于10。
　　然而，有關(guān)自變量的事件數(shù)(EIV，events of independent variable)，即納入模型的某一二分類(lèi)自變量發(fā)生事件的個(gè)數(shù)（二分類(lèi)中個(gè)數(shù)較小的那類(lèi)），對(duì)模型的影響卻鮮有研究，而此問(wèn)題恰恰也是

3、實(shí)際數(shù)據(jù)中經(jīng)常會(huì)遇到的問(wèn)題。如果EIV太小會(huì)導(dǎo)致logistic回歸模型的估計(jì)失準(zhǔn)或不穩(wěn)定，可認(rèn)為僅僅依靠EPV方法確定樣本量是不夠的，還需要結(jié)合EIV一起來(lái)確定樣本量。為此，本研究將通過(guò)模擬研究探討EIV對(duì)模型的影響，進(jìn)而得到EIV界值的確定策略，為logistic回歸的樣本量估計(jì)提供更完善的經(jīng)驗(yàn)方法。
　　目的：
　　本研究采用Monte Carlo技術(shù)從EIV的角度探討logistic回歸模型的穩(wěn)定性，并建立確定EIV

4、界值的方法。
　　方法：
　　Logistic回歸分析最常用的參數(shù)估計(jì)方法是MLE，還有罰分似然估計(jì)(PLE，penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計(jì)收斂但至少有一個(gè)參數(shù)估計(jì)發(fā)散至正/負(fù)無(wú)窮的問(wèn)題，主要發(fā)生在EIV與非事件數(shù)不平衡和高風(fēng)險(xiǎn)因素情況下，該方法校正了MLE的偏倚，具有較好的性能，效果優(yōu)于精確logi

5、stic回歸和最大似然估計(jì)，但在實(shí)際應(yīng)用中較少。稀有事件logistic回歸原理是校正應(yīng)變量發(fā)生事件的概率，從而保證回歸結(jié)果的穩(wěn)健性，且從楊曉妍模擬結(jié)果來(lái)看，該方法對(duì)模型結(jié)果改善較小。最常用的估計(jì)logistic回歸系數(shù)的置信區(qū)間和假設(shè)檢驗(yàn)方法是Wald方法，但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健，能?chē)?yán)格控制一類(lèi)錯(cuò)誤率，且檢驗(yàn)效能優(yōu)于Wald方法。因此，本研究分

6、別選取MLE和PLE進(jìn)行參數(shù)估計(jì)，選取Wald方法和輪廓似然方法估計(jì)回歸系數(shù)的置信區(qū)間及假設(shè)檢驗(yàn)。
　　本研究采用Monte Carlo技術(shù)進(jìn)行模擬研究，后經(jīng)實(shí)例驗(yàn)證，所有模擬及計(jì)算均通過(guò)R3.1.2軟件實(shí)現(xiàn)。
　　首先，模擬產(chǎn)生logistic回歸的自變量(IV，independent variable)與應(yīng)變量，6類(lèi)模擬參數(shù)的設(shè)置為:自變量個(gè)數(shù)(1，4，8)、回歸系數(shù)絕對(duì)值(0，1，2)、樣本量(50,70,80,90,

7、100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200，250)、自變量間的相關(guān)性(0，0.5，0.8)、自變量事件發(fā)生率(5％，10％，15％，30％，50％)。參數(shù)設(shè)置非完全組合，其中，EIV最多為樣本量的一半，且MLE下EIV最小為5;1個(gè)自變量模型不涉及相關(guān)性;僅在8個(gè)自變量模型中，設(shè)置自變量事件發(fā)生率。

8、應(yīng)變量則通過(guò)概率抽樣獲得，概率由人為設(shè)定的β和模擬自變量計(jì)算得到。每種參數(shù)組合下模擬10000次。
　　其次，分別采用MLE和PLE對(duì)模擬數(shù)據(jù)進(jìn)行參數(shù)估計(jì)，采用Wald方法和輪廓似然方法進(jìn)行假設(shè)檢驗(yàn)及置信區(qū)間估計(jì)。
　　最后，以一類(lèi)錯(cuò)誤(TypeⅠ Error)、均方根誤差(MSE，mean square error)、準(zhǔn)確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個(gè)指

9、標(biāo)評(píng)價(jià)統(tǒng)計(jì)性能，由參數(shù)收斂的回歸結(jié)果與開(kāi)始設(shè)定值比較獲得，從而探究EIV對(duì)模型結(jié)果的影響。當(dāng)指標(biāo)值達(dá)到期望值或達(dá)到相對(duì)穩(wěn)定狀態(tài)時(shí)對(duì)應(yīng)的EIV即為EIV界值。
　　結(jié)果：
　　EIV對(duì)logistic回歸結(jié)果具有規(guī)律性影響，而自變量事件率的影響需結(jié)合樣本量共同發(fā)揮作用。表1，給出不同方法和五個(gè)評(píng)價(jià)指標(biāo)下，EIV的具體選擇策略。
　　基于MLE的Wald方法和基于PLE的輪廓似然方法，均可以較好地控制一類(lèi)錯(cuò)誤率，但是后者明

10、顯優(yōu)于前者?；贛LE的Wald方法需要EIV達(dá)到20以上，一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在4％到6％之間;而基于PLE的輪廓似然方法需要EIV達(dá)到12以上，一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5％附近。而基于MLE的輪廓似然方法需EIV達(dá)到12以上，但樣本量要達(dá)到200以上，一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5％附近;基于PLE的Wald方法需EIV達(dá)到45以上，且樣本量也需達(dá)到200以上，一類(lèi)錯(cuò)誤率可穩(wěn)定保持在5％附近。
　　第二步為量化危險(xiǎn)因素的強(qiáng)度，即

11、參數(shù)估計(jì)的精準(zhǔn)性方面。采用MLE方法時(shí)，EIV需分別達(dá)到18、12、16以獲得穩(wěn)定的均方根誤差、準(zhǔn)確性和精確性;而采用PLE方法時(shí)，EIV需分別達(dá)到12、12、7。
　　最后為置信區(qū)間覆蓋率方面，基于MLE的Wald方法和基于PLE的輪廓方法，可以將覆蓋率較好控制在預(yù)期范圍內(nèi)，穩(wěn)定控制在95％附近，但后者明顯優(yōu)于前者。基于MLE的Wald方法需要EIV達(dá)到30以上;而基于PLE的輪廓方法需要EIV達(dá)到14以上。而另外兩種情況，基于

12、MLE的輪廓似然方法受其他因素影響較大，很多情況不能達(dá)到預(yù)期值;而基于PLE的Wald方法EIV達(dá)到45以上，且樣本量也需達(dá)到200以上。此外，自變量個(gè)數(shù)、回歸系數(shù)絕對(duì)值、樣本量及相關(guān)性對(duì)EIV界值存在一定影響，但在影響方向和強(qiáng)度上略微不同。
　　結(jié)論：
　　在實(shí)際應(yīng)用logistic回歸模型時(shí)，應(yīng)結(jié)合EPV和EIV一起確定樣本量。就EIV而言，應(yīng)不小于12。當(dāng)EIV在12→20之間，可采用基于PLE的輪廓似然方法，以較好地

13、控制一類(lèi)錯(cuò)誤并獲得精準(zhǔn)的參數(shù)估計(jì);當(dāng)EIV大于等于20時(shí)，基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進(jìn)一步，當(dāng)EIV在14→30之間，可采用基于PLE的輪廓似然方法，以較好地控制置信區(qū)間覆蓋率;當(dāng)EIV大于等于30時(shí)，基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用，優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無(wú)法擴(kuò)大樣本量的情況下，logistic回歸模型中

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載