2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:生存分析中,Cox模型是分析生存數據的經典模型。隨著高通量技術的飛速發(fā)展,實現了數以萬計的基因位點測定,而樣本量往往較小,如何高效地從繁多的基因位點中篩選出與所研究疾病相關的基因位點就顯得尤為重要,傳統(tǒng)的Cox模型并不適用于處理高維數據,并且高維數據中自變量間往往存在較強相關性。經典的Lasso法雖然可以實現高維數據的變量選擇和系數估計,較好地處理 Cox模型的變量選擇問題,但是該方法采用的是對所有的變量施加相同的懲罰,使其得到的

2、估計量往往是有偏的,并且該方法對于強相關變量的處理效果較差。本文為得到更加精確的稀疏化模型,將Adaptive Elastic Net(AEnet)引入Cox模型,并與Lasso、Adaptive Lasso(ALasso)、Elastic Net(Enet)三種變量選擇方法比較優(yōu)劣,從而得到更合乎實際的模型,為今后高維數據分析方法學研究奠定基礎。
  方法:
  1.數據模擬和實例數據分析均在 R3.3.0軟件中進行。研究

3、過程中,主要利用“Matrix”、“MASS”、“survival”、“Coxnet”四個 R包進行數據模擬和實例數據分析。本文算法采用的是一階循環(huán)坐標下降算法,在實際基因表達數據中,與疾病相關的基因位點相對較少,即最終模型具有稀疏的系數結構,該算法尤其適用這種情況,運行速度極快,數據處理效率較高。
  2.針對生存分析中基因表達數據高維度、強相關、數據存在刪失的特性,生成模擬數據時,變量間的相關系數設定分別為0.3、0.6、0.

4、9,刪失比例設定分別為20%、50%、70%,生成9種方案的模擬數據,樣本量為100,自變量個數為1000,每種方案前10個變量系數定義為5,即高信息變量,第11至20號變量系數定義為2,即低信息變量,其他變量的系數均定義為0,即零信息變量。每種方案重復模擬1000次,均采用四種變量選擇方法進行變量篩選,比較各部分信息變量的選擇結果。模型最優(yōu)調整參數的選擇方法為五折交叉驗證法。
  3.實例數據來源于荷蘭Van't Veer[12

5、]等人對原發(fā)性乳腺癌病人進行的DNA微陣列數據分析研究。本文選取該研究中78例沒有發(fā)生淋巴結轉移的乳腺癌患者4751個基因位點進行分析。終點事件定義為乳腺癌患者是否發(fā)生遠端轉移,分別用四種變量選擇方法對實例數據進行變量篩選,并估計最終模型中各自變量系數。模型最優(yōu)調整參數的選擇方法為五折交叉驗證法。
  結果:
  1.經數據模擬過程,四種方法進行變量選擇結果顯示,在數據刪失比例較低時(20%),第一部分自變量納入最終模型的百

6、分比接近百分之百,所有高信息自變量幾乎完全納入最終模型,第二部分自變量篩選百分比較高,經比較存在差別,ALasso法相對于Lasso法、AEnet法相對于EN法篩選變量百分比有所降低。隨著刪失比例的增加,第一部分、第二部分自變量納入最終模型的百分比較低刪失時逐漸下降,并且ALasso法相對于Lasso法、AEnet法相對于Enet法篩選變量百分比有所降低。比較四種方法最終納入模型變量個數發(fā)現,彈性網懲罰得到的變量個數普遍高于僅施加Las

7、so懲罰,尤其是變量間相關性較強時,而且采用自適應Lasso懲罰得到的變量個數均低于僅施加Lasso懲罰。
  2.實例數據分析結果顯示,Lasso、ALasso、Enet、AEnet四種變量選擇方法對實例數據進行分析,最終模型中變量數目分別為11、4、21、8,最優(yōu)調整參數λ分別為0.207、0.250、0.344、0.500。ALasso方法篩選變量數目明顯低于Lasso方法,并且兩者篩選得到的相同變量系數比較, ALasso

8、方法篩選得到的變量系數絕對值均小于Lasso法。AEnet方法篩選變量數目明顯低于Enet方法,兩者篩并且篩選得到的相同變量系數比較, AEnet方法篩選得到的變量系數絕對值均小于Enet法。
  結論:
  1.Enet法、Lasso法都能處理高維的生存分析數據,但Enet法能把強相關變量更多的納入最終模型,Lasso法不具有該性質。
  2.AEnet法在處理高維度且變量間存在較強相關性的生存分析數據時,變量選擇結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論