復(fù)雜疾病致病機(jī)制研究中數(shù)據(jù)分析算法的開(kāi)發(fā)與應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩169頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、復(fù)雜疾病的致病不是由于單個(gè)基因位點(diǎn)的顯性或隱性的遺傳所引起的,遺傳因素在復(fù)雜疾病的發(fā)展中起著重要的作用,且其病因由多種因素組成,包括常見(jiàn)變異以及基因-基因、基因-環(huán)境相互作用等。目前我們對(duì)于大多數(shù)復(fù)雜疾病的病因的了解仍然有限,有很大比例的遺傳風(fēng)險(xiǎn)因素還有待探索。開(kāi)展復(fù)雜疾病的遺傳學(xué)研究將有助于我們了解疾病發(fā)生發(fā)展中的生化機(jī)制和發(fā)病機(jī)制,從而為疾病的早期預(yù)防、早期診斷、藥物篩選和使用提供理論依據(jù)和生物靶標(biāo),最終提高復(fù)雜疾病的防治水平。因此

2、,開(kāi)展復(fù)雜疾病的遺傳學(xué)研究有著重要的意義。
  當(dāng)前,復(fù)雜疾病遺傳機(jī)制的研究思路主要分為以下幾步:(1)開(kāi)展高通量實(shí)驗(yàn)得到位點(diǎn)的基因型。(2)對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量控制、人群結(jié)構(gòu)分析。(3)進(jìn)行功能變異位點(diǎn)分析,即單位點(diǎn)分析策略。(4)進(jìn)行基因相互作用分析,即多位點(diǎn)分析策略。(5)構(gòu)建復(fù)雜疾病遺傳機(jī)制的分子網(wǎng)絡(luò)。
  復(fù)雜疾病的遺傳學(xué)研究的成果能夠?yàn)檫z傳診斷和疾病預(yù)防提供大量的信息,這些信息將能夠?yàn)榕R床決策提供重要的依據(jù)并使得個(gè)

3、性化醫(yī)療成為可能。二代測(cè)序技術(shù)的發(fā)展為遺傳疾病的診斷和預(yù)防奠定了堅(jiān)實(shí)的基礎(chǔ)。
  本研究論文的前三個(gè)課題將圍繞復(fù)雜疾病遺傳機(jī)制的研究思路中的(2)、(3)、(4)展開(kāi)。第四個(gè)課題則提出了一種新的基于二代測(cè)序的無(wú)創(chuàng)產(chǎn)前診斷方法。
  課題I:人群層化是指不同人群之間等位基因頻率存在系統(tǒng)性差異的現(xiàn)象。在全基因組關(guān)聯(lián)分析研究中,人群層化的存在會(huì)增加關(guān)聯(lián)分析結(jié)果的假陽(yáng)性率。主成分分析是目前使用最廣泛的檢測(cè)人群層化的方法之一。然而,隨

4、著基因芯片技術(shù)的發(fā)展,其通量也越來(lái)越大,傳統(tǒng)的基于CPU的算法的效率已經(jīng)無(wú)法滿足日益增長(zhǎng)的數(shù)據(jù)量的需求。為此,我們實(shí)現(xiàn)了一種基于G P U的主成分分析的算法:SHEsisPCA,其運(yùn)算效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的基于CPU的算法,最高加速比超過(guò)了100倍。同時(shí),我們也實(shí)現(xiàn)了一種基于X-means的聚類(lèi)分析算法,它可以根據(jù)樣本的遺傳背景計(jì)算出匹配的病例和對(duì)照樣本,從而降低人群層化對(duì)于全基因組關(guān)聯(lián)分析的影響。我們使用SHEsisPCA對(duì)非洲人種進(jìn)行了

5、人群結(jié)構(gòu)分析,結(jié)果表明樣本的聚類(lèi)結(jié)果和樣本的實(shí)際人群分類(lèi)是高度相關(guān)的。且我們的研究表明,使用SHEsisPCA得到匹配的病例對(duì)照樣本后再進(jìn)行關(guān)聯(lián)分析能很大程度上降低關(guān)聯(lián)分析的假陽(yáng)性率。研究者們也可以使用SHEsisPCA來(lái)匹配公共數(shù)據(jù)庫(kù)里(如dbGaP,Illumina iControlDB)的對(duì)照樣本,從而擴(kuò)充研究樣本的數(shù)據(jù)量,增加全基因組關(guān)聯(lián)分析的統(tǒng)計(jì)效能。
  課題 II:關(guān)聯(lián)分析是遺傳學(xué)研究的重要手段。目前,已有很多適用于

6、二倍體二等位基因物種的關(guān)聯(lián)分析算法和軟件被提出,而適用于多倍體多等位基因物種的算法和軟件卻十分有限。多倍體在植物中是十分常見(jiàn)的,且多等位基因的遺傳標(biāo)記位點(diǎn),如小衛(wèi)星位點(diǎn),拷貝數(shù)多態(tài)性等,也常常被研究者使用。本課題提出了一個(gè)用于多倍體多等位基因物種的關(guān)聯(lián)分析的在線分析平臺(tái)SHEsisPlus,其操作簡(jiǎn)單、用戶友好,主要功能包括:病例-對(duì)照以及數(shù)量性狀位點(diǎn)的關(guān)聯(lián)分析、哈溫平衡檢驗(yàn)、連鎖不平衡分析、單倍型分析以及高維的基因相互作用分析。同時(shí),

7、我們也提出了兩種新的算法。一種是適用于多倍體多等位基因物種的高效的單倍型推斷算法,該算法的準(zhǔn)確度以及效率遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)有的算法。另一種是適用于數(shù)量性狀的高維基因相互作用分析算法,我們應(yīng)用了信息論中的互作信息來(lái)定量位點(diǎn)之間的相互作用,研究結(jié)果表明該方法的統(tǒng)計(jì)效能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的方法,且不受單個(gè)位點(diǎn)的邊際效應(yīng)的影響。SHEsisPlus是目前第一個(gè)支持多倍體多等位基因物種關(guān)聯(lián)分析的在線平臺(tái)。
  課題 m:前列腺癌是發(fā)生于男性的最常見(jiàn)的惡

8、性腫瘤之一。前列腺癌是一種復(fù)雜疾病,目前認(rèn)為復(fù)雜疾病的致病機(jī)制受遺傳因素和環(huán)境因素的交互影響。雖然現(xiàn)已發(fā)現(xiàn)了多個(gè)前列腺癌的易感基因位點(diǎn),然而這些發(fā)現(xiàn)僅能解釋13%的遺傳度。為了進(jìn)一步尋找前列腺癌致病因素中缺失的遺傳度,我們?cè)谒膫€(gè)人種(非洲裔美國(guó)人、歐洲人、拉丁美洲人、日本人)中開(kāi)展了大規(guī)模的全基因組基因相互作用研究,共包含5,269個(gè)病例及5,289個(gè)對(duì)照。在我們的結(jié)果中,有一對(duì)相互作用的區(qū)域(7p21.3和18p11.2,p=1.4x

9、10_14)達(dá)到了經(jīng) Bonferroni矯正后的全局陽(yáng)性閾值(p<2.28x10_13),且這兩個(gè)區(qū)域間的相互作用在四個(gè)人種中均為陽(yáng)性。18p11.22位于基因以R4附近,研究表明,在前列腺癌的發(fā)生發(fā)展中,是基因 P T E N的ceRNAs(competing endogenous R N A),而P T E N則是一個(gè)重要的腫瘤抑制基因,該基因在多種腫瘤中均存在變異,包括前列腺癌。以往的研究已在7p21區(qū)域內(nèi)發(fā)現(xiàn)了多個(gè)前列腺癌的易

10、感位點(diǎn)。藥物富集分析的結(jié)果表明,呈現(xiàn)強(qiáng)陽(yáng)性的相互作用的基因與經(jīng)FDA批準(zhǔn)的用于治療前列腺癌的藥物的靶標(biāo)基因顯著重疊。之前的研究認(rèn)為全基因組關(guān)聯(lián)分析的結(jié)果可以為新藥的開(kāi)發(fā)提供非常寶貴的信息。這里我們證明了全基因組基因相互作用分析的結(jié)果也能夠?yàn)樗幬镅邪l(fā)提供重要的證據(jù)和指導(dǎo)。這表明人類(lèi)遺傳數(shù)據(jù)可以有效地和其他生物學(xué)信息相結(jié)合以發(fā)現(xiàn)新的生物學(xué)證據(jù)并指導(dǎo)藥物的開(kāi)發(fā)。
  課題 W:高通量測(cè)序技術(shù)已被廣泛應(yīng)用于無(wú)創(chuàng)產(chǎn)前診斷領(lǐng)域,相比于傳統(tǒng)的有

11、創(chuàng)產(chǎn)前診斷,無(wú)創(chuàng)產(chǎn)前診斷不僅安全性高,其準(zhǔn)確度和靈敏度也很高。無(wú)創(chuàng)產(chǎn)前診斷主要用于檢測(cè)胎兒的染色體非整倍性疾病,如21-三體綜合征、18-三體綜合征以及13-三體綜合征等。目前,使用高通量測(cè)序技術(shù)進(jìn)行無(wú)創(chuàng)產(chǎn)前診斷的方法主要是Z-score法。該方法首先使用懷有正常胎兒的孕婦的相應(yīng)染色體含量建立一個(gè)正常分布,然后將待測(cè)樣本的相應(yīng)染色體的含量與該分布進(jìn)行比較,最后得出診斷結(jié)果。由于該方法需要使用大量的正常樣本建立正常分布,這不僅耗時(shí)長(zhǎng),且成

12、本高。除此以外,每次測(cè)序的實(shí)驗(yàn)環(huán)境(如實(shí)驗(yàn)室的溫度、濕度等)無(wú)法保證一致,因此可能會(huì)引入噪聲,對(duì)結(jié)果造成一定的影響。針對(duì)這些問(wèn)題,我們提出了一種新的分析方法,該方法只需一個(gè)已知正常的樣本即可判斷待測(cè)樣本是否患病,且參考樣本和受試樣本的DNA信息都在同一次測(cè)序中得到。這樣不僅減少了測(cè)序的成本、節(jié)約時(shí)間,且能夠盡可能地避免引入噪聲。我們使用該方法檢測(cè)了44個(gè)已知核型的樣本(共計(jì)13次測(cè)序?qū)嶒?yàn)),其對(duì)于13-三體綜合征的檢測(cè)的特異性和靈敏性分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論