基于貝葉斯網(wǎng)的潛類(lèi)分析在基因關(guān)聯(lián)分析中的應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、絕大多數(shù)復(fù)雜性狀疾?。╟omplex diseases)都是多基因病(polygenic disorders),隨著人類(lèi)基因組單型圖(HapMap)的逐步完成,單核苷酸多態(tài)性(single-nucleotidepolymorphisms)與單體型的研究必將在探究復(fù)雜性遺傳疾病的遺傳機(jī)理、患病風(fēng)險(xiǎn)與藥物反應(yīng)不同中扮演重要角色,已成為了生物醫(yī)學(xué)許多研究領(lǐng)域的焦點(diǎn)。而與之相適應(yīng)的統(tǒng)計(jì)學(xué)方法研究,近年來(lái)也成為國(guó)際上統(tǒng)計(jì)遺傳學(xué)領(lǐng)域的熱點(diǎn)。SNPs

2、 數(shù)據(jù)存在高維性和存在測(cè)量誤差的特點(diǎn),并且研究中容易忽視對(duì)基因整體效應(yīng)的評(píng)價(jià),導(dǎo)致許多方法在實(shí)際應(yīng)用中存在缺陷。為此,本文采用基于Bayesian 網(wǎng)絡(luò)的潛類(lèi)模型來(lái)進(jìn)行高維度全基因組數(shù)據(jù)的分析。貝葉斯網(wǎng)潛類(lèi)分析既可以有效地體現(xiàn)單體型和高維SNPs的綜合效應(yīng),又可以充分發(fā)揮貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)分析的特征,分析SNPs 復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系,是分析大規(guī)?;驍?shù)據(jù)的一種有效的方法,將為復(fù)雜性狀疾病遺傳以及基因定位等方面的研究提供新的方法支持。

3、   本文從貝葉斯網(wǎng)絡(luò)的概念入手,系統(tǒng)的介紹了貝葉斯網(wǎng)隱變量模型的有關(guān)理論,包括模型的可識(shí)別性,模型的參數(shù)估計(jì),模型的結(jié)構(gòu)學(xué)習(xí)。模型的可識(shí)別性通過(guò)引入正則性的概念予以介紹,說(shuō)明了模型可識(shí)別與不可識(shí)別的標(biāo)準(zhǔn);模型參數(shù)估計(jì)闡述了最大似然估計(jì),貝葉斯估計(jì)和EM算法這三種常用的參數(shù)估計(jì)方法,其中EM算法用于處理存在缺失情況的數(shù)據(jù);模型結(jié)構(gòu)學(xué)習(xí)按照貝葉斯隱變量模型生成的過(guò)程,依次介紹了模型的選擇標(biāo)準(zhǔn)—
   評(píng)分函數(shù)與模型的優(yōu)化算法,評(píng)

4、分函數(shù)主要有貝葉斯評(píng)分、BIC 評(píng)分、AIC 評(píng)分、HVL 評(píng)分、BICe 評(píng)分、CS 評(píng)分等,模型的優(yōu)化算法介紹了K2算法和爬山算法,其中爬山算法是本次研究使用的重點(diǎn)算法。本文詳細(xì)介紹了兩種類(lèi)型的貝葉斯網(wǎng)隱變量模型,即隱類(lèi)模型和多層隱類(lèi)模型,指出了兩類(lèi)模型的區(qū)別與聯(lián)系,并闡述了在當(dāng)前數(shù)據(jù)下,各個(gè)模型如何分別得到最優(yōu)模型。
   在理論基礎(chǔ)之上,本文應(yīng)用貝葉斯網(wǎng)隱變量模型對(duì)實(shí)際SNPs 數(shù)據(jù)進(jìn)行了兩個(gè)實(shí)例分析。實(shí)例1應(yīng)用山西醫(yī)科

5、大學(xué)第一醫(yī)院抑郁障礙性疾病的單核苷酸多態(tài)性的檢測(cè)數(shù)據(jù),每位患者分別測(cè)量7個(gè)SNPs。數(shù)據(jù)分析結(jié)果顯示,人群被分為兩個(gè)潛在類(lèi)別,各類(lèi)別的概率分別為0.22和0.78。造成兩個(gè)類(lèi)別概率不同的原因主要是由rs11568817和rs130058 造成的。根據(jù)這兩個(gè)SNPs 位點(diǎn),可以對(duì)兩個(gè)人群的內(nèi)在特征進(jìn)行解釋?zhuān)渲蓄?lèi)別1傾向于雜合子,類(lèi)別2 傾向于純合子,各類(lèi)別的概率分布情況由類(lèi)概率分布直方表和類(lèi)概率分布直方圖給出。實(shí)例2 數(shù)據(jù)是由GAW17

6、 提供的,包含697個(gè)個(gè)體22 條常染色體的上萬(wàn)個(gè)SNP。
   本次研究隨機(jī)挑選出1號(hào)染色體上12個(gè)基因的29個(gè)SNPs作為研究對(duì)象,按照累計(jì)信息貢獻(xiàn)率達(dá)到95%的原則,模型選出C1S11408、C1S3201、C1S1786等15個(gè)與X0互信息量大的SNPs 位點(diǎn)來(lái)對(duì)研究人群進(jìn)行分類(lèi)與解釋。人群總體被分為2個(gè)類(lèi)潛在類(lèi)別,各類(lèi)別的概率分別為0.68和0.32,其中第一個(gè)類(lèi)別人群在各SNPs 位點(diǎn)上純合和雜合的概率大體相當(dāng)(除C

7、IS3201外),差別不是很大;第二個(gè)類(lèi)別人群在各SNPs 位點(diǎn)上純合與雜合的概率差別特別大(個(gè)別位點(diǎn)除外)。實(shí)例2 還對(duì)兩個(gè)類(lèi)別人群的疾病感染狀況進(jìn)行分析,結(jié)果表明兩個(gè)類(lèi)別人群的疾病感染狀況不一致,第二個(gè)類(lèi)別人群感染率(38.64%)明顯高于第一個(gè)類(lèi)別人群(25.99%),且差別具有統(tǒng)計(jì)學(xué)意義(? 2 ? 11.459, P ? 0.001),而這種差別正是用來(lái)分類(lèi)和解釋兩個(gè)類(lèi)別的SNPs 造成的,我們有理由認(rèn)為這些SNPs為可疑致病

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論