版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、新一代的高通量全基因組測序技術(shù)能夠有效地探測出整條染色體的所有遺傳變異,從而繪制出全基因組的變異圖譜,是全面而系統(tǒng)地探測群體內(nèi)常見變異(MAF>5%)、低頻變異(0.5% 2、目前為止最大規(guī)模、測序覆蓋密度最高的全基因組測序數(shù)據(jù)。面對如此豐富的數(shù)據(jù)資源,我們進行了大量的工作,根據(jù)課題的進度,主要分為兩個階段,其中不少研究成果已經(jīng)整理并發(fā)表。 3、色體的單核苷酸多態(tài)性數(shù)據(jù)作為下一波關(guān)聯(lián)分析方案設(shè)計的參考基礎(chǔ),從低頻變異領(lǐng)域出發(fā),探討未來的全基因組關(guān)聯(lián)分析新的時代,現(xiàn)有的關(guān)聯(lián)分析研究方法是否依然有效可用,針對疾病關(guān)聯(lián)分析應(yīng)該如何制定新的不同研究方案。 4、之間的連鎖不平衡都比常見SNP與常見SNP之間的連鎖不平衡要弱得多。其次,我們又設(shè)計了一系列的SNP標簽實驗,說明了由于弱連鎖不平衡,使得我們無法再用傳統(tǒng)的芯片設(shè)計那樣,通過標簽出一系列的SNP組成一個新的檢測芯片以達到覆蓋所有已知位點的目的。我們的實驗是假設(shè)將low coverage pilot檢測出的所有的SNP都作為“虛擬芯片”(Pilot14M)的標簽位點,我們發(fā)現(xiàn)即使如此,Pilot14M也無法全部覆蓋到exon pilot中 5、那些隨著群體樣本改變而層出不窮的低頻位點信息,我們還考慮了對缺失數(shù)據(jù)進行插補的情況,但仍然觀察到有45.4%的低頻SNP無法被虛擬芯片所檢測出,Pilot14M對低頻SNP的覆蓋率僅僅只有67.7%。最后我們采用exon pilot中CEU人群的隨機外顯子區(qū)域數(shù)據(jù)集,將Pilot14M、Illumina1M和全基因組測序技術(shù)并列計算出它們在疾病與潛藏位點關(guān)聯(lián)分析時不同的效能表現(xiàn)。我們一共設(shè)計了4種疾病遺傳模型,制定了一系列的參數(shù)策略方案 6、,通過數(shù)據(jù)模擬,分別計算了不同情況下對于潛在致病位點的檢測效能。我們發(fā)現(xiàn)在常見SNP領(lǐng)域,傳統(tǒng)基因分型芯片的檢測效能夠達到疾病關(guān)聯(lián)分析的要求,但在低頻SNP領(lǐng)域,即使將研究樣本模擬到一個很大的數(shù)量,傳統(tǒng)基因分型芯片的檢測效能不是非常樂觀,無法達到全基因組測序技術(shù)同樣的高度。為了說明實驗結(jié)果的群體普遍性,我們也對CHD人群進行了同樣的研究步驟,結(jié)果是一致的。 7、適用于低頻SNP領(lǐng)域,對于新一代全基因組的測序數(shù)據(jù),我們需要制定新的策略,使用新的方法來進行與低頻SNP相關(guān)的關(guān)聯(lián)分析研究。 8、析(PCA),它對數(shù)據(jù)的異常值和缺失值都非常敏感,因此,我們將流形學(xué)習的局部線性嵌入方法引入到群體遺傳分析中,局部線性嵌入能夠很好地克服維數(shù)災(zāi)難,揭示出隱藏在高維數(shù)據(jù)空間的低維流形群體結(jié)構(gòu)。 9、表達時能夠?qū)θ后w分類體現(xiàn)出一種“群體特征向量”的新的概念,我們又從數(shù)學(xué)層面論證了主成分分析和局部線性嵌入的聯(lián)系,我們嘗試提出在群體結(jié)構(gòu)分析方面,局部線性嵌入是一種比主成分分析更為優(yōu)勝的分析手段。 10、her exact test)的不同之處。我們采用low coveragepilot數(shù)據(jù)集,以CEU群體為例,分別得到這兩類方法在CEU群體特征向量下的顯著關(guān)聯(lián)位點或者區(qū)域。對于常見SNP,我們分別在CEU、YRI和ASI人群中觀察到25.1%、44.9%和21.4%的與群體特征向量顯著關(guān)聯(lián)的位點,而在低頻SNP領(lǐng)域,顯著位點所占的百分比更加高,分別有89.2%,92.4%和75.1%,說明了絕大部分的低頻SNP具備群體結(jié)構(gòu)信息,而且從
第一階段的工作,我們主要研究了新一代高通量測序技術(shù)下疾病關(guān)聯(lián)分析的特點。
在過去十多年,典型的全基因組關(guān)聯(lián)分析只考慮了常見變異的情況,而用以檢驗低頻變異和自有變異的方法及相關(guān)研究卻還沒有得到很好地發(fā)展。為了尋求突破,我們使用千人基因組計劃的常染
我們首先研究low coverage pilot中常見SNP、低頻SNP之間的連鎖不平衡模式,圖解說明與過往常見SNP截然不同的連鎖不平衡分布模式。我們發(fā)現(xiàn)低頻SNP與低頻SNP之間的連鎖不平衡,和低頻SNP與常見SNP
我們的結(jié)論是基于已知SNP序列而設(shè)計的全基因組關(guān)聯(lián)分析方式都將不能
第二階段的工作,我們主要研究了新一代高通量測序技術(shù)下群體遺傳分析的特點。
千人基因組計劃為揭示人群遺傳可變性的分布、鑒別人群結(jié)構(gòu)和推斷自然人群的人口演變歷史提供了豐富的資源,但新的測序技術(shù)也帶來新的挑戰(zhàn),主要體現(xiàn)在三個方面:測序誤差、組裝錯誤和數(shù)據(jù)缺失。流行的群體遺傳分析手段是主成分分
我們采用了豐富多樣、各具特色的群體遺傳數(shù)據(jù),從大洲群體到祖孫三代家系,詳細討論了局部線性嵌入在刻畫群體結(jié)構(gòu)特征的獨到之處。我們發(fā)現(xiàn)通過相鄰點的信息對數(shù)據(jù)點進行重構(gòu),能夠有效地克服異常值和數(shù)據(jù)缺失,我們還留意到將高維數(shù)據(jù)映射到低維空間的
接下來,我們以局部線性嵌入為通用的群體遺傳分析框架,并發(fā)展了一種新的統(tǒng)計量,將整條染色體區(qū)域等分切割,將區(qū)域內(nèi)所有遺傳變異信息進行整合,結(jié)合計算得到群體特征向量,套用LASSO回歸分析,進一步討論和傳統(tǒng)的區(qū)域富集分析手段(如fis
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GPU和壓縮索引的新一代測序數(shù)據(jù)再測序研究.pdf
- 面向新一代測序技術(shù)的拼接算法研究.pdf
- 面向新一代測序技術(shù)的基因拼接算法.pdf
- 新一代測序數(shù)據(jù)過濾方法研究.pdf
- 基于新一代測序技術(shù)的中藥制劑質(zhì)量評價方法.pdf
- 新一代半導(dǎo)體測序儀測序數(shù)據(jù)分析方法研究.pdf
- 新一代測序技術(shù)下的軟件開發(fā)和轉(zhuǎn)錄組學(xué)研究.pdf
- 24038.新一代測序技術(shù)中的短序列比對和組裝算法
- 新一代信息技術(shù)產(chǎn)業(yè)投融資分析研究
- 基于新一代測序數(shù)據(jù)的RNA序列映射算法研究.pdf
- 面向新一代測序的GPU序列比對工具研究.pdf
- 新一代混合云助力新一代企業(yè)
- 人類成熟精子mRNA表達譜的新一代測序研究.pdf
- 31637.串聯(lián)質(zhì)譜和新一代測序技術(shù)高通量數(shù)據(jù)分析算法開發(fā)
- 基于新一代測序技術(shù)的BIOLAK和A2O活性污泥宏基因組研究.pdf
- 973 2012 基于新一代測序的生物信息學(xué)理論與方法
- 基于新一代測序的microRNA生物信息學(xué)分析及其平臺的建立.pdf
- 基于新一代測序技術(shù)的選擇性啟動子和雙向啟動子識別研究.pdf
- 30590.新一代測序技術(shù)應(yīng)用的模擬研究和短序列比對的可視化
評論
0/150
提交評論