臨床治療數(shù)據(jù)的統(tǒng)計分析_第1頁
已閱讀1頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、臨床治療數(shù)據(jù)的統(tǒng)計分析,統(tǒng)計學(xué)家在面對一個實際的數(shù)據(jù)分析問題時,,如何將實際問題轉(zhuǎn)化為統(tǒng)計問題?如何設(shè)計一套系統(tǒng)的統(tǒng)計分析路線來得到答案?在進(jìn)行統(tǒng)計分析時,如何根據(jù)問題背景和數(shù)據(jù)特性選擇恰當(dāng)?shù)哪P团c分析方法?如何對用不同模型或分析方法得到的結(jié)果進(jìn)行評估、比較?如何對統(tǒng)計分析的結(jié)果結(jié)合實際問題的背景加以合理的解釋?,1、白血病臨床治療的數(shù)據(jù)與問題,在持續(xù)1年的急性白血病治療的臨床試驗中,研究者將42位急性白血病患者(進(jìn)入項目的時間

2、有先后)隨機(jī)地分成兩組(各21人)。對一組病人用藥物6-MP治療以緩解病痛,而另一組病人用安慰劑。安慰劑的外形和顏色與藥物完全相同,但不含任何藥物,病人自己并不知道實際服用的是藥物還是安慰劑。研究者記錄下每個病人病痛緩解的持續(xù)時間(以周為單位),持續(xù)時間越長則療效越好。數(shù)據(jù)見表1。,表1 處理組和控制組各21人的病痛緩解的持續(xù)時間(周),表1數(shù)據(jù)后面有+者表示,當(dāng)項目結(jié)束時緩解仍在持續(xù)。例如,處理組中的20+表示:該病人在項目結(jié)束前20

3、小時進(jìn)入臨床治療,使用6-MP后,緩解持續(xù)到項目結(jié)束。因此,該病人的實際緩解持續(xù)時間至少為20周,很可能大于20周。這種數(shù)據(jù)在統(tǒng)計學(xué)中稱為刪失數(shù)據(jù)。,醫(yī)學(xué)研究關(guān)注的問題是:6-MP能否顯著延長緩解的持續(xù)時間?如果不能得到肯定的回答,則對該藥物沒有必要進(jìn)一步研究;反之,如果結(jié)論是肯定的,則研究者希望進(jìn)一步對以后的病人在使用6-MP后的效果進(jìn)行量化的評估。,2、統(tǒng)計分析的思路,用統(tǒng)計學(xué)的術(shù)語,白血病的緩解效果的分析是一個“兩樣本比較”問題,

4、一般用的是兩正態(tài)樣本均值比較的t檢驗。但現(xiàn)在的問題復(fù)雜得多:首先,樣本分布未知,而且在時間數(shù)據(jù)的分析中,由于數(shù)據(jù)分布有很大的偏度,正態(tài)分布是一個“壞”的模型。其次,數(shù)據(jù)是不完全的(有刪失數(shù)據(jù)),常規(guī)的、用于完全數(shù)據(jù)的分析方法不能簡單套用。,本案例中,樣本容量不大,首先采用參數(shù)模型的分析方法:,1)分別對處理組和控制組的數(shù)據(jù)擬合一個滿意的參數(shù)分布(最好是同一個分布族)。2)用參數(shù)假設(shè)檢驗來判斷處理組和控制組的緩解時間分布是否有顯著差別

5、,從而回答醫(yī)學(xué)研究中“6-MP能否顯著延長緩解的持續(xù)時間”的問題。如果回答是否定的,則可以認(rèn)為本項研究得不出有意義的結(jié)果;如果回答是肯定的,則進(jìn)入下一步。,3)預(yù)測以后的病人在使用6-MP后的緩解持續(xù)時間的有關(guān)參數(shù),對6-MP的效果給出有足夠置信度的量化評估。,3、對完全數(shù)據(jù)擬合分布,在這批數(shù)據(jù)中,控制組(使用安慰劑)的數(shù)據(jù)是完全的,沒有刪失數(shù)據(jù)。完全數(shù)據(jù)的分析相對比較簡單。我們的第一步目標(biāo)是要選擇一個參數(shù)分布來擬合數(shù)據(jù)。常用的擬合時間

6、數(shù)據(jù)的參數(shù)模型(分布)有指數(shù)分布、Weibull分布、Gamma分布及對數(shù)正態(tài)分布等。,合理性:每個實際問題都有一定的“背景機(jī)理”,一般來說,統(tǒng)計模型的選擇應(yīng)該考慮背景機(jī)理。合適性:模型應(yīng)該能夠較好地擬合數(shù)據(jù)。簡單性:當(dāng)簡單的模型可以相當(dāng)滿意地擬合數(shù)據(jù)時,不要采用復(fù)雜的模型。簡單模型可以避免由隨機(jī)因素造成的模型變形,并且容易從背景機(jī)理上解釋。,在選擇參數(shù)分布模型時有幾個原則需要遵循:,在刻畫時間分布模型的特征方面,“生存函數(shù)”和“危

7、險率”是兩個重要的函數(shù)。,生存函數(shù)也稱為“可靠度”,是個體壽命超過某個時刻的概率。用X記個體壽命,生存函數(shù)S(x)定義為:,S(x)=P(X>x).,危險率又稱為“失效率”或“瞬時失效率”,它刻畫的是,在個體活過某個時刻的條件下,在下一瞬間死亡的危險性。危險率h(x)定義為:,根據(jù)危險率h(x)的發(fā)展趨勢,“生存”模型可分為三大類:,h(x)單調(diào)下降(成長階段);h(x)保持不變(成熟階段);h(x)單調(diào)上升(衰老階段)。

8、,以上三種類型中,“h(x)”保持不變等價于指數(shù)分布,刻畫在任何時刻隨機(jī)發(fā)生的死亡風(fēng)險,其生存函數(shù) 其中參數(shù)λ=h(x)=1/Ex.,本案例中,由于緩解持續(xù)時間不長,因此年齡、體質(zhì)等可能影響緩解持續(xù)時間的因素作用不大,可以認(rèn)為在任何時刻緩解持續(xù)的結(jié)束是隨機(jī)的,因此用指數(shù)分布刻畫緩解持續(xù)時間是合適的,也足夠簡單。問題是,這種背景機(jī)理的考慮是否真的合理?需要經(jīng)受數(shù)據(jù)的考驗。,直方圖是統(tǒng)計分析中借助直觀幫助選擇

9、分布模型的重要方法。對于指數(shù)分布,考察其“累積危險率”:,這是一條關(guān)于時間變量x的直線。利用數(shù)據(jù)可以得到H(x)的“經(jīng)驗估計” ,若,大致呈直線走勢,則可以直觀地認(rèn)為指數(shù)分布對于數(shù)據(jù)的擬合是比較滿意的。,的獲得基于“經(jīng)驗分布”。,生存函數(shù)S(x)的經(jīng)驗估計:,=“大于x的數(shù)據(jù)個數(shù)”/n,,而,圖:控制組數(shù)據(jù)的 圖像,Weibull分布比指數(shù)分布更具有一般性,其危險率函數(shù)為,若用Weibull分布擬合控制組數(shù)據(jù)

10、, 接近于1,由簡單性原則,沒有必要用。,表 控制組(安慰劑)數(shù)據(jù)的 和,4、擬合優(yōu)度檢驗,用“擬合優(yōu)度檢驗”對擬合效果進(jìn)行評估。,構(gòu)造一個度量所假設(shè)的分布擬合數(shù)據(jù)的好壞(優(yōu)度)的檢驗統(tǒng)計量 D 。D的值小表示擬合得好,反之表示擬合得差。根據(jù)數(shù)據(jù)計算得到D=d,計算在假設(shè)的分布正確的前提下的概率p=P(D>d),則p的值大表示擬合得好。這里p就是擬合優(yōu)度,簡稱為“p-值”。,作為正式的檢驗

11、程序,可以事先指定一個檢驗的顯著性水平 ,當(dāng) 時就接受所假設(shè)的分布,反之拒絕。,Kolmogorov檢驗法適用于單一分布的檢驗,其檢驗統(tǒng)計量的構(gòu)造方法如下:,記經(jīng)驗分布函數(shù)為 ,假設(shè)的分布函數(shù)為 ,定義檢驗統(tǒng)計量,D是兩個函數(shù) 和 之間的最大距離。由于 為階梯函數(shù),且兩個函數(shù)均單增,D的計算并不困難。,設(shè)數(shù)據(jù)點為 注意到

12、 計算,則,對于控制組數(shù)據(jù),假設(shè)的分布為e(0.115),計算D=0.170,相應(yīng)的p值約為0.50.由于p值相當(dāng)大,可以認(rèn)為此分布對數(shù)據(jù)擬合得相當(dāng)滿意。,5、數(shù)據(jù)有刪失時擬合分布的方法,對于處理組(6-MP),由于數(shù)據(jù)有刪失,其經(jīng)驗分布不能如完全數(shù)據(jù)時有簡單的定義。我們采用如下的思路來擬合分布:,建立有刪失數(shù)據(jù)的經(jīng)驗分布——乘積限估計(Kaplan-Meier估計);用直方圖直觀選取一個看起來比較滿意的分布族(最

13、好也是指數(shù)分布);對選取的分布族估計參數(shù),選定一個分布。,乘積限估計:假定n個數(shù)據(jù)中有d個不同的“死亡”時間,按從小到大的順序排列,記為 并記 在死亡時間,上的重復(fù)數(shù)據(jù)個數(shù)記為,對死亡時間 滿足大于等于 的數(shù)據(jù)(包括死亡、刪失、重復(fù))個數(shù)記為,在區(qū)間 上的刪失時間其實際死亡時間不早于,當(dāng) 條件概率

14、 的經(jīng)驗估計為:,乘積限估計基于條件概率的思想來建立經(jīng)驗分布,但需要一個關(guān)于死亡時間和刪失時間之間關(guān)系的假定:,在上述假定下,由乘積限估計得到的經(jīng)驗生存函數(shù) 定義為:,當(dāng),可以證明,如果數(shù)據(jù)是完全的(無刪失),則乘積限估計與通常的經(jīng)驗分布一致。,處理組數(shù)據(jù)的 和 見下表。處理組數(shù)據(jù) 的圖像也非常接近于直線,可以認(rèn)為處理組的緩解時間也遵從指數(shù)分布。,經(jīng)驗累積危險率,表 處理組(

15、6-MP)數(shù)據(jù)的 和 值,6、數(shù)據(jù)有刪失時的最大似然估計,對于完全數(shù)據(jù) 似然函數(shù),而刪失數(shù)據(jù) 表示的是,死亡發(fā)生在 之后,所以它提供的信息不是密度函數(shù)值,而是概率值,因此,當(dāng)存在刪失數(shù)據(jù)時,記死亡數(shù)據(jù)為,則似然函數(shù)為:,(都允許重復(fù)),,刪失數(shù)據(jù)為,對于指數(shù)分布,可以算出對數(shù)似然函數(shù)為:,的極大似然估計為:,對于處理組數(shù)據(jù),在指數(shù)分布下的最大似然估計

16、 該值明顯小于控制組的估計值0.115。但還不能簡單地?fù)?jù)此斷言6-MP可以顯著地延長緩解時間,需要通過一個正式的假設(shè)檢驗程序。,對于有刪失的數(shù)據(jù)的擬合優(yōu)度檢驗不能采用完全數(shù)據(jù)的擬合優(yōu)度檢驗方法(略)。,7、一種具有普遍性的參數(shù)假設(shè)檢驗方法,前面已經(jīng)用指數(shù)分布分別較好地擬合了控制組和處理組的數(shù)據(jù),兩個指數(shù)分布可能有相同或不同的參數(shù) 。為回答6-MP是否可以顯著地延長緩解時間的問題,標(biāo)準(zhǔn)的統(tǒng)計程序就是進(jìn)行參數(shù)的

17、假設(shè)檢驗。,用 和 分別記控制組和處理組所對應(yīng)的參數(shù),則,原假設(shè):,備擇假設(shè):,“似然比檢驗”是一種具有普遍性、高功效的參數(shù)假設(shè)檢驗程序,所基于的檢驗統(tǒng)計量稱為“負(fù)二倍對數(shù)似然比”,其一般構(gòu)造方法如下:,計算在原假設(shè)約束下似然函數(shù)的最大值,記為計算不受原假設(shè)約束時似然函數(shù)的全局最大值,記為似然比負(fù)二倍對數(shù)似然比當(dāng)樣本容量足夠大時, 在原假設(shè)下的分布可以用 近似。,似然比的值在0到1之間,越小對原假設(shè)

18、越不利。 取正值,越大對原假設(shè)越不利。,本問題中,當(dāng)原假設(shè)為真時,控制組和處理組的數(shù)據(jù)看成來自同一指數(shù)分布總體的樣本,根據(jù)合并的數(shù)據(jù)計算出極大似然估計,得到,當(dāng)備擇假設(shè)為真時,控制組和處理組的數(shù)據(jù)是來自不同指數(shù)分布總體的樣本,似然函數(shù)是兩組樣本似然函數(shù)的乘積,分別計算兩組數(shù)據(jù)的極大似然估計和對數(shù)似然值,求和得到,最后得到負(fù)二倍對數(shù)似然比 其p-值約為0.00003。假設(shè)檢驗的結(jié)果顯示兩組樣本的分布有非常

19、顯著的差別。這個結(jié)果在統(tǒng)計意義上十分肯定地回答本案例開頭提出的問題:6-MP能夠顯著延長緩解的持續(xù)時間。,需要指出:統(tǒng)計意義上的顯著性并不就意味著實際意義上的顯著性。就此案例而言,使用6-MP的期望緩解持續(xù)時間為40周左右(見下節(jié))。,8、置信區(qū)間,在前面的基礎(chǔ)上,醫(yī)學(xué)研究者希望對未來病人使用6-MP的效果進(jìn)行評估。例如:未來病人使用6-MP后的期望緩解持續(xù)時間;未來病人使用6-MP后的緩解持續(xù)時間超過半年(26周)的概率;未來病

20、人使用6-MP后有80%的可能性緩解持續(xù)時間不短于某個下限。,用X記未來病人使用6-MP后的緩解持續(xù)時間。上述三個問題分別對應(yīng)三個統(tǒng)計推斷問題:,估計EX;估計估計分位數(shù) ,滿足,前面已經(jīng)用指數(shù)分布較好地擬合了使用6-MP的緩解持續(xù)時間分布,并且,利用點估計,有:,理想的結(jié)果應(yīng)該是為真實的參數(shù)提供一個可能的范圍,以相當(dāng)大的概率保證真實的參數(shù)在這個范圍內(nèi),即在一定的置信度下給出置信區(qū)間或置信下限(上限)。,估計EX的95%置

21、信區(qū)間;估計 的95%置信下限;估計分位數(shù) 的95%置信下限。,首先估計 的95%置信區(qū)間。,最大似然估計 的一個重要性質(zhì)是:,對于指數(shù)分布, 利用上述性質(zhì)得到:,因此,,EX的95%置信區(qū)間為,注意到 和 都是 的單增函數(shù),且 的95%置信下限為,的95%置信下限為 的95%置信下限為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論