2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩99頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、新一代的高通量全基因組測序技術(shù)能夠有效地探測出整條染色體的所有遺傳變異,從而繪制出全基因組的變異圖譜,是全面而系統(tǒng)地探測群體內(nèi)常見變異(MAF>5%)、低頻變異(0.5%

2、目前為止最大規(guī)模、測序覆蓋密度最高的全基因組測序數(shù)據(jù)。面對如此豐富的數(shù)據(jù)資源,我們進行了大量的工作,根據(jù)課題的進度,主要分為兩個階段,其中不少研究成果已經(jīng)整理并發(fā)表。
   第一階段的工作,我們主要研究了新一代高通量測序技術(shù)下疾病關(guān)聯(lián)分析的特點。
   在過去十多年,典型的全基因組關(guān)聯(lián)分析只考慮了常見變異的情況,而用以檢驗低頻變異和自有變異的方法及相關(guān)研究卻還沒有得到很好地發(fā)展。為了尋求突破,我們使用千人基因組計劃的常染

3、色體的單核苷酸多態(tài)性數(shù)據(jù)作為下一波關(guān)聯(lián)分析方案設(shè)計的參考基礎(chǔ),從低頻變異領(lǐng)域出發(fā),探討未來的全基因組關(guān)聯(lián)分析新的時代,現(xiàn)有的關(guān)聯(lián)分析研究方法是否依然有效可用,針對疾病關(guān)聯(lián)分析應(yīng)該如何制定新的不同研究方案。
   我們首先研究low coverage pilot中常見SNP、低頻SNP之間的連鎖不平衡模式,圖解說明與過往常見SNP截然不同的連鎖不平衡分布模式。我們發(fā)現(xiàn)低頻SNP與低頻SNP之間的連鎖不平衡,和低頻SNP與常見SNP

4、之間的連鎖不平衡都比常見SNP與常見SNP之間的連鎖不平衡要弱得多。其次,我們又設(shè)計了一系列的SNP標簽實驗,說明了由于弱連鎖不平衡,使得我們無法再用傳統(tǒng)的芯片設(shè)計那樣,通過標簽出一系列的SNP組成一個新的檢測芯片以達到覆蓋所有已知位點的目的。我們的實驗是假設(shè)將low coverage pilot檢測出的所有的SNP都作為“虛擬芯片”(Pilot14M)的標簽位點,我們發(fā)現(xiàn)即使如此,Pilot14M也無法全部覆蓋到exon pilot中

5、那些隨著群體樣本改變而層出不窮的低頻位點信息,我們還考慮了對缺失數(shù)據(jù)進行插補的情況,但仍然觀察到有45.4%的低頻SNP無法被虛擬芯片所檢測出,Pilot14M對低頻SNP的覆蓋率僅僅只有67.7%。最后我們采用exon pilot中CEU人群的隨機外顯子區(qū)域數(shù)據(jù)集,將Pilot14M、Illumina1M和全基因組測序技術(shù)并列計算出它們在疾病與潛藏位點關(guān)聯(lián)分析時不同的效能表現(xiàn)。我們一共設(shè)計了4種疾病遺傳模型,制定了一系列的參數(shù)策略方案

6、,通過數(shù)據(jù)模擬,分別計算了不同情況下對于潛在致病位點的檢測效能。我們發(fā)現(xiàn)在常見SNP領(lǐng)域,傳統(tǒng)基因分型芯片的檢測效能夠達到疾病關(guān)聯(lián)分析的要求,但在低頻SNP領(lǐng)域,即使將研究樣本模擬到一個很大的數(shù)量,傳統(tǒng)基因分型芯片的檢測效能不是非常樂觀,無法達到全基因組測序技術(shù)同樣的高度。為了說明實驗結(jié)果的群體普遍性,我們也對CHD人群進行了同樣的研究步驟,結(jié)果是一致的。
   我們的結(jié)論是基于已知SNP序列而設(shè)計的全基因組關(guān)聯(lián)分析方式都將不能

7、適用于低頻SNP領(lǐng)域,對于新一代全基因組的測序數(shù)據(jù),我們需要制定新的策略,使用新的方法來進行與低頻SNP相關(guān)的關(guān)聯(lián)分析研究。
   第二階段的工作,我們主要研究了新一代高通量測序技術(shù)下群體遺傳分析的特點。
   千人基因組計劃為揭示人群遺傳可變性的分布、鑒別人群結(jié)構(gòu)和推斷自然人群的人口演變歷史提供了豐富的資源,但新的測序技術(shù)也帶來新的挑戰(zhàn),主要體現(xiàn)在三個方面:測序誤差、組裝錯誤和數(shù)據(jù)缺失。流行的群體遺傳分析手段是主成分分

8、析(PCA),它對數(shù)據(jù)的異常值和缺失值都非常敏感,因此,我們將流形學(xué)習的局部線性嵌入方法引入到群體遺傳分析中,局部線性嵌入能夠很好地克服維數(shù)災(zāi)難,揭示出隱藏在高維數(shù)據(jù)空間的低維流形群體結(jié)構(gòu)。
   我們采用了豐富多樣、各具特色的群體遺傳數(shù)據(jù),從大洲群體到祖孫三代家系,詳細討論了局部線性嵌入在刻畫群體結(jié)構(gòu)特征的獨到之處。我們發(fā)現(xiàn)通過相鄰點的信息對數(shù)據(jù)點進行重構(gòu),能夠有效地克服異常值和數(shù)據(jù)缺失,我們還留意到將高維數(shù)據(jù)映射到低維空間的

9、表達時能夠?qū)θ后w分類體現(xiàn)出一種“群體特征向量”的新的概念,我們又從數(shù)學(xué)層面論證了主成分分析和局部線性嵌入的聯(lián)系,我們嘗試提出在群體結(jié)構(gòu)分析方面,局部線性嵌入是一種比主成分分析更為優(yōu)勝的分析手段。
   接下來,我們以局部線性嵌入為通用的群體遺傳分析框架,并發(fā)展了一種新的統(tǒng)計量,將整條染色體區(qū)域等分切割,將區(qū)域內(nèi)所有遺傳變異信息進行整合,結(jié)合計算得到群體特征向量,套用LASSO回歸分析,進一步討論和傳統(tǒng)的區(qū)域富集分析手段(如fis

10、her exact test)的不同之處。我們采用low coveragepilot數(shù)據(jù)集,以CEU群體為例,分別得到這兩類方法在CEU群體特征向量下的顯著關(guān)聯(lián)位點或者區(qū)域。對于常見SNP,我們分別在CEU、YRI和ASI人群中觀察到25.1%、44.9%和21.4%的與群體特征向量顯著關(guān)聯(lián)的位點,而在低頻SNP領(lǐng)域,顯著位點所占的百分比更加高,分別有89.2%,92.4%和75.1%,說明了絕大部分的低頻SNP具備群體結(jié)構(gòu)信息,而且從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論