2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩140頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本文分為以下幾個部分進行探討:
  一、基因網絡拓撲先驗驅動的貝葉斯生物標記篩選模型(第二章)
  在全基因組關聯(lián)分析(GWAS)中,數(shù)據(jù)分析策略包括兩種:第一種是統(tǒng)計推斷策略,即采用統(tǒng)計學檢驗(如卡方檢驗、t檢驗、Logistic回歸模型等)方法,針對每一個生物標記(SNP位點)計算對比組(如病例組和對照組)之間的統(tǒng)計量及其對應的P值,通過比較P值與預先設定的顯著性檢驗水準α決定是否拒絕H0,若P<α則認為該SNP位點與疾

2、病具有統(tǒng)計學關聯(lián)。第二種是變量選擇策略,即采用變量選擇方法(如LASSO回歸、嶺回歸等),將與疾病具有關聯(lián)性的SNP位點選入模型。上述兩類方法均忽略了基因交互網絡結構,因而不可避免的會丟失信息。為此,本研究提出了基因網絡拓撲先驗驅動的生物標記(SNP)篩選模型,在SNP和疾病表型之間引入基因網絡層,作為生物標記篩選的網絡拓撲先驗,進而構建貝葉斯分層模型(Bayesian hierarchical model),篩選出與疾病表型有關的SN

3、P位點。即,構建基因網絡拓撲先驗驅動的貝葉斯生物標記篩選模型(ND-BVS model)。該方法是針對全外顯子測序的GWAS基因組數(shù)據(jù)的整體基因關聯(lián)分析方法,此類數(shù)據(jù)是以整體基因為單位(gene-based),獲取基因內外顯子區(qū)域內的全部SNP分型數(shù)據(jù)。
  基因網絡拓撲先驗驅動的貝葉斯生物標記篩選模型的基本原理和方法如下:1)從KEGG數(shù)據(jù)庫(http://www.kegg.jp/)中獲取基因網絡的拓撲結構(該數(shù)據(jù)庫中的生物網絡

4、結構均經大量的實驗證實),構建基因間的鄰接矩陣R(如果基因i和基因j間在網絡中有連線,則Rij=1,否則Rij=0)。2)以基因網絡結構為先驗,構建貝葉斯分層模型Zi=(T(ξ,γ)β(ξ,γ))i+εi,εi~N(0,1),其中Z是表型潛變量得分,T(ξ,γ)是基因得分,β(ξ,γ)為基因對表型的效應;ξ=(ξ1,…,ξJ)是決定第j個基因是否被選入模型的指示變量,ξj=1表示第j個基因被選入,否則不被選入。γ=(γ1,…,γP)是決

5、定特定基因j內第p個SNP是否被選入模型的指示變量,γp=1表示第p個SNP被選入,否則不被選入。3)在上述貝葉斯分層模型中,ξ=(ξ1,…,ξJ)的先驗分布定義為基因之間的馬爾科夫隨機場,兩兩基因之間的關系由鄰接矩陣R決定;γ=(γ1,…,γP)的先驗分布由每個SNP的指示變量服從伯努利分布而界定。4)根據(jù)概率的鏈式分解法則推導上述模型內所有參數(shù)的聯(lián)合后驗分布,進而通過馬爾科夫鏈蒙特卡洛(MCMC)方法獲得參數(shù)的后驗概率。5)根據(jù)SN

6、P的后驗概率由高到低排序,將SNP依次納入模型后經十折交叉驗證計算預測誤差,當模型納入前k個SNP使得預測誤差達到最小時,則將前k個SNP定義為與疾病表型相關聯(lián)的位點。
  結論:
  ND-BVS模型充分利用了基因之間的交互網絡拓撲先驗,與傳統(tǒng)方法(LASSO回歸和逐步回歸法)相比提高了致病位點的識別能力及對疾病表型的預測能力。
  主要創(chuàng)新點:
  在貝葉斯分層模型框架內,基于基因網絡拓撲先驗,構建了基因網絡

7、拓撲先驗驅動的貝葉斯生物標記篩選模型(ND-BVS),為全外顯子測序的GWAS基因組數(shù)據(jù)分析提供了新方法。
  二、網絡結構驅動的疾病篩檢模型(第三章)
  疾病篩檢是一種主動發(fā)現(xiàn)無癥狀疾病的預防性措施,它是應用能迅速區(qū)分外表健康的人群中可能有病者與可能無病者的試驗、檢查或其他步驟,對未被識別的疾病或缺陷作出推斷性鑒定。通常采用橫斷面調查,首先確定與疾病表型相關的因素(包括生活習慣、體質測量指標、生化指標、血清學標記、基因標

8、記等),然后以表型相關因素為輸入變量,以疾病表型為輸出變量,采用統(tǒng)計模式識別模型構建相應的疾病篩檢模型。在建模策略上,通常是基于回歸建模策略(例如Logistic回歸模型),將自變量(篩查指標)以線性可加形式納入疾病篩檢模型。這種策略只能反映篩檢指標對疾病表型的獨立線性可加效應,或通過變量的乘積項反映變量之間的交互的獨立效應對疾病表型的貢獻。然而,篩檢指標對疾病表型的影響是復雜的,不僅廣泛存在著非線性效應,而且往往存在復雜的交互效應。當

9、篩檢指標較多且交互作用復雜時,回歸建模策略將出現(xiàn)估計偏性或失效。盡管可以采用神經網絡模型等學習算法,優(yōu)化學習變量之間的交互效應或非線性效應,從而提高預測精度,但此類方法本質上仍未擺脫回歸模型的限制,仍然忽略了變量之間的調控關系,且往往存在過度學習的缺陷,從而出現(xiàn)外推預測的不準確性。為此,本研究基于條件獨立準則,構建變量之間的貝葉斯網絡,不僅充分提取變量之間的調控關系,而且利用了變量網絡的整體效應,旨在提高模型的篩檢能力。
  貝葉

10、斯網絡是借助網絡拓撲結構來描述變量之間的依賴和獨立關系的有向無環(huán)圖(directed acyclic graph,DAG)。網絡中的節(jié)點表示變量,節(jié)點間的邊表示變量間的直接依賴關系。貝葉斯網絡的構建包括網絡的結構學習和參數(shù)學習兩部分,在網絡節(jié)點(生物標記)之間的病理生理調控先驗與計算機機器學習算法有機結合,進行網絡的結構學習,在網絡結構學習的基礎上,通過最大似然法估計網絡節(jié)點的條件概率(即參數(shù)學習)。為了評價基于網絡結構的疾病篩檢模型的

11、科學性和有效性,本研究設計了如下統(tǒng)計模擬試驗:以十折交叉驗證的AUC(AUC-CV)作為評價指標,評價所構建的貝葉斯網絡疾病篩檢模型的判別能力,并與Logistic回歸模型、神經網絡模型進行比較。具體模擬方案如下:1)在原假設成立(AUC=0.5)時,設立兩種情形(所有預測因子相互獨立且與疾病結局無關、預測因子之間具有網絡結構但與疾病結局無關),評價模型的判別能力AUC指標是否穩(wěn)定在0.5附近。2)設置多種網絡結構(如普通網絡、輪狀網絡

12、、鏈狀網絡),基于貝葉斯網絡算法產生網絡模擬數(shù)據(jù),探索在何種情況下忽略網絡結構而盲目采用回歸分析策略(Logistic回歸模型、神經網絡模型)將導致判別能力的損失。3)通過Logistic回歸模型產生線性可加性的沒有網絡結構的數(shù)據(jù),比較貝葉斯網絡模型與Logistic回歸模型的判別能力,探討貝葉斯網絡在線性可加情況下的穩(wěn)健性。
  結論:
  忽略預測因子之間以及預測因子與疾病表型之間的網絡結構而構建的疾病篩檢模型,不可避免

13、的將損失判別能力;而利用上述網絡結構信息構建的疾病篩檢模型不僅能提高判別能力,并且在預測變量間不存在網絡結構時,貝葉斯網絡模型仍能顯示出與Logistic回歸模型等價的判別能力。
  主要創(chuàng)新點:
  提出了利用預測因子與疾病表型之間的網絡結構信息提高疾病篩檢模型判別能力的創(chuàng)新建模策略,證明了忽略網絡結構信息而構建的疾病篩檢模型勢必損失判別能力,為充分利用網絡信息提高疾病篩檢模型判別能力提供了新思路。
  三、網絡結構

14、驅動的疾病風險預測模型(第四章)
  疾病風險預測的基本任務是指在疾病結局發(fā)生前,采用競爭風險模型預測個體未來特定時間段內疾病發(fā)生的絕對風險。而絕對風險是指具備某特定危險因素集的某個體在年齡a時未發(fā)生疾病結局而在年齡a+τ時段內發(fā)生該疾病的概率,其中τ是人為規(guī)定的隨訪時間,一般設為五年風險預測模型或十年風險預測模型。在疾病風險預測中,競爭風險是廣泛存在的,它是指在研究對象的隨訪期內,除了會發(fā)生所研究的疾病結局外,還會出現(xiàn)其它競爭性

15、結局,它的出現(xiàn)往往會影響所研究的疾病結局的發(fā)生概率,甚至導致疾病結局不會再發(fā)生;例如,在構建腦卒中發(fā)病風險預測模型時,若某個體在腦卒中發(fā)生前死于肺癌,則該個體今后發(fā)生腦卒中的概率即為0。在構建疾病風險預測模型中,若不考慮競爭風險效應對疾病發(fā)生或轉歸概率的影響,勢必會導致對預測果的偏差。因此,疾病風險預測模型構建常常基于競爭風險理論,構建原因別風險模型(cause-specific hazardmodel)或部分分布風險模型(sub-di

16、stribution hazard model)。其中,原因別風險模型使用范圍較廣,既可基于隊列設計,又可基于病例對照設計構建疾病風險預測模型,其基本原理如下:
  本研究提出了網絡結構驅動的疾病風險預測模型構建的新策略。其基本方法是,首先建立預測因子與疾病表型之間的貝葉斯網絡模型,進而利用貝葉斯網絡計算具有特定預測因子向量的個體發(fā)生疾病結局的相對危險度為RRBNi=P(Y=1|Xi1,Xi2,…Xip)P(Y=1| X01,X0

17、2,…X0p),其中X01,X02,…,X0p是處于基準發(fā)病風險的個體的暴露水平,而Xi1,Xi2,…,Xip是其實際暴露水平?;谝陨侠碚撃P?,本研究通過統(tǒng)計模擬實驗,評價所構建的網絡結構驅動的疾病風險預測模型的校準能力(E/O比)和判別能力(AUC),并與傳統(tǒng)的Logistic回歸模型方法進行比較(模擬方案見正文4.2.3)。通過本課題組所構建的多中心健康體檢縱向檢測隊列構建糖尿病風險預測模型,進一步評價模型的實用性。
  結

18、論:
  統(tǒng)計模擬與實例驗證均表明,網絡結構驅動的疾病風險預測模型與傳統(tǒng)的基于Logistic回歸的疾病預測模型相比,雖然在判別能力(AUC)上相差不大,但在外推預測準確性(E/O比)上,前者明顯優(yōu)于后者。提示忽略網絡結構的預測模型勢必會造成模型預測準確性的降低。
  主要創(chuàng)新點:
  將預測因子與疾病表型之間的網絡結構信息嵌入到競爭風險模型內,構建了網絡結構驅動的疾病風險預測模型,提高了疾病風險預測模型的預測準確性,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論