零頻數(shù)過多資料的統(tǒng)計學模型應用研究——亞健康狀態(tài)研究中的應用.pdf_第1頁
已閱讀1頁,還剩117頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在醫(yī)學研究中,經(jīng)常遇到零頻數(shù)過多的計數(shù)資料,如亞健康癥狀數(shù)。此種數(shù)據(jù)表現(xiàn)為離散型資料,其觀察值為零或正整數(shù),但是近半數(shù)甚至于大多數(shù)觀察值為零,過多零頻數(shù)的存在使得數(shù)據(jù)過度離散。傳統(tǒng)的負二項回歸和Poisson回歸模型的擬合效果將受到影響,在模型擬合過程中,如果忽略這些零的存在,對參數(shù)的估計就會產(chǎn)生偏差。在這種情況下可把原始數(shù)據(jù)集看成是由一個全零數(shù)據(jù)集和一個服從Poisson分布或負二項分布的數(shù)據(jù)集混合而成,這就是零頻數(shù)過多的回歸模型,簡

2、稱ZI模型。
   已報道的關于ZI模型應用的研究都是通過一個實際樣本探討ZI模型的應用效果,并與傳統(tǒng)的Poisson回歸和負二項回歸模型進行比較,沒有一項研究能夠在各種零頻數(shù)比例下驗證ZI模型的擬合優(yōu)度,探討零頻數(shù)比例多大時則過多,及在何種零頻數(shù)比例下數(shù)據(jù)分布將不滿足傳統(tǒng)的Poisson回歸或負二項回歸模型的要求。本研究利用bootstrap方法在實例樣本中通過隨機模擬獲取各種比例零頻數(shù)的模擬樣本,得到各種零頻數(shù)比例的隨機樣本

3、,探討各種比例零頻數(shù)時的最優(yōu)擬合模型,解決零頻數(shù)比例何時過大而必須采用ZI模型的問題;同時研究ZI模型在亞健康癥狀數(shù)資料中的適用性。
   研究方法:
   ZI模型產(chǎn)生的前提正是可以同時解決資料的過度離散和零頻數(shù)過多的問題。ZI模型可在醫(yī)學領域中用于估計一個兩階段的疾病進程,其基本思想是把零事件的發(fā)生看做兩部分,模型也包括兩部分,第一部分來源于那些從未可能發(fā)生事件的個體或處于低風險個體,模型參數(shù)的解釋和一般的logis

4、tic回歸相似,說明協(xié)變量是否影響事件發(fā)生;第二部分來源于在Poisson分布或負二項分布條件下沒有發(fā)生事件的個體或處于高風險個體,模型參數(shù)的解釋與傳統(tǒng)的Poisson回歸或負二項回歸一樣,說明協(xié)變量影響事件發(fā)生多少的問題。
   本研究以亞健康癥狀數(shù)為響應變量,以性別、年齡、婚姻狀況、民族、職業(yè)、吸煙、飲酒、血壓高和肥胖為解釋變量,用SAS9.2軟件分別對各種零頻數(shù)比例的bootstrap樣本擬合Poisson回歸、負二項回歸

5、、ZI模型和序數(shù)回歸模型。用α系數(shù)、O檢驗和Vuong檢驗等進行數(shù)據(jù)的過度離散性和零頻數(shù)是否過多的判斷,并用回歸模型對各種計數(shù)值的預測概率及似然比、AIC、BIC等指標對各種模型的擬合優(yōu)度進行判定,以選擇最優(yōu)的模型。
   研究結果:
   在樣本量為11227的實際樣本中,43.3%的受試者沒有陽性的亞健康癥狀,離散系數(shù)α為1.013,95%CI為0.965-1.063,可以認為α顯著大于0,對亞健康癥狀數(shù)進行過度離散

6、性檢驗,(x)=2.90,s=3.85,離散統(tǒng)計量O=308.011,P<0.0001,方差顯著大于均數(shù),表明存在過度離散,亞健康癥狀數(shù)不符合Poisson分布。Vuong檢驗的統(tǒng)計量Z=31.93,P<0.0001,表明此數(shù)據(jù)的零頻數(shù)過多,遠遠超出了傳統(tǒng)負二項分布的估計范圍,用負二項分布也不能很好的擬合數(shù)據(jù)特征。ZINB模型的Log likelihood最大(-22170.741),AIC(44363.482)和BIC(44444.0

7、69)最小,且ZINB模型對各種頻數(shù)的預測概率與實測頻率的吻合程度最高。從各擬合優(yōu)度指標和預測概率而言,ZINB模型是進行亞健康癥狀數(shù)影響因素分析的最佳模型。
   在ZINB模型中,從Logit部分可見,年齡越高(β=-0.436,P<0.001)、民族為朝鮮族(β=-2.253,P<0.001)是出現(xiàn)亞健康癥狀的危險因素,而單身(β=2.175,P=0.006)和從事腦力勞動(β=1.527,P<0.001)的受試者不容易受

8、到亞健康癥狀的危害。而由負二項部分發(fā)現(xiàn),年齡、性別、腦力勞動、飲酒和婚姻狀況是亞健康癥狀數(shù)多少的影響因素,即在處于亞健康狀態(tài)的受試者中,女性(β=0.280,P<0.001)、飲酒者(β=0.098,P=0.008)、離異或喪偶的受試者(β=0.200,P<0.001),具有更多的亞健康癥狀;而年齡越大(β=-0.003,P=0.009)和從事腦力勞動(β=-0.076,P=0.012)的受試者可能具有較少的亞健康癥狀。
  

9、各種零頻數(shù)比例的bootstrap抽樣模擬樣本中,當零頻數(shù)比例小于15%時,ZINB模型的擬合效果與傳統(tǒng)的負二項回歸模型相當,ZINB模型未體現(xiàn)出擬合效果和結果解釋上的優(yōu)勢;而當零頻數(shù)比例在20%以上時,ZINB模型的擬合效果明顯優(yōu)于傳統(tǒng)的負二項回歸模型,此時綜合考慮擬合優(yōu)度、預測概率、結果解釋的合理性方面,ZINB模型是最佳模型,特別是當零頻數(shù)比例達到70%以上時,ZINB模型對響應變量的各觀察值的預測概率與實際頻率幾乎完全一致。

10、r>   當零頻數(shù)比例達到或超過85%時,序數(shù)回歸模型的似然比和AIC等指標也較為理想,但從模型對各種頻數(shù)的預測效果而言,不管零頻數(shù)的比例大小如何,序數(shù)回歸模型的預測效果與實測頻率均相差較大,序數(shù)模型不是進行此類計數(shù)資料分析的最佳選擇。在任何零頻數(shù)比例時,由于本樣本數(shù)據(jù)過度離散,Poisson回歸的擬合效果都是最差的,ZIP模型的擬合效果也不好。
   結論:
   當零頻數(shù)的比例達到20%以上時,各種模型預測概率、擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論