版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著人類基因組精細(xì)圖譜的發(fā)布,全基因組關(guān)聯(lián)研究(Genome-wide association study,GWAS)得到了快速發(fā)展并成為研究人類復(fù)雜性疾病遺傳因素的重要手段?;蛱钛a(bǔ)(genotype imputation)能夠增加研究數(shù)據(jù)中單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)的密度,提高GWAS發(fā)現(xiàn)致病基因的能力,因此基于基因填補(bǔ)的GWAS方法得到了廣泛應(yīng)用。然而,這種方法目前在實(shí)際
2、應(yīng)用中存在著兩方面的問(wèn)題:(1)缺少綜合的系統(tǒng)工具來(lái)完成整個(gè)GWAS的數(shù)據(jù)處理以及分析工作;(2)當(dāng)前用于基因填補(bǔ)和關(guān)聯(lián)檢測(cè)的GWAS工具不能有效地應(yīng)對(duì)由參考數(shù)據(jù)增加而導(dǎo)致的數(shù)據(jù)量和計(jì)算量大幅的增加。
本文在對(duì)基于基因填補(bǔ)的GWAS方法和Hadoop平臺(tái)進(jìn)行研究的基礎(chǔ)上,實(shí)現(xiàn)了一個(gè)基于Hadoop平臺(tái)的全基因組關(guān)聯(lián)研究系統(tǒng)——CloudAssoc,該系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、基因填補(bǔ)和SNPs關(guān)聯(lián)檢測(cè)三個(gè)功能模塊。數(shù)據(jù)預(yù)處理模塊
3、能夠?qū)崿F(xiàn)常用數(shù)據(jù)轉(zhuǎn)換和質(zhì)量控制功能;基因填補(bǔ)模塊基于Hadoop平臺(tái)設(shè)計(jì)實(shí)現(xiàn),用于根據(jù)公共數(shù)據(jù)預(yù)測(cè)研究數(shù)據(jù)中沒(méi)有分型的SNPs位點(diǎn)的基因型;關(guān)聯(lián)檢測(cè)模塊同樣基于Hadoop平臺(tái)實(shí)現(xiàn),用于對(duì)填補(bǔ)后的研究數(shù)據(jù)進(jìn)行SNPs的關(guān)聯(lián)檢測(cè)。
CloudAssoc能夠提高GWAS效率的關(guān)鍵在于基因填補(bǔ)模塊和關(guān)聯(lián)檢測(cè)模塊的并行化實(shí)現(xiàn)。本文根據(jù)對(duì)基因填補(bǔ)軟件IMPUTE2所用模型和算法的分析研究,使用分割數(shù)據(jù)分析區(qū)間的方法,將時(shí)間和資源消耗巨大
4、的計(jì)算任務(wù)切分為眾多在Hadoop集群上分布式執(zhí)行的小任務(wù),基于Hadoop streaming框架實(shí)現(xiàn)了基因填補(bǔ)的并行化;并采用類似的方法,實(shí)現(xiàn)了關(guān)聯(lián)檢測(cè)模塊的并行化。
本文最后對(duì)系統(tǒng)進(jìn)行了測(cè)試。首先對(duì)CloudAssoc中并行化軟件的可擴(kuò)展性、高效性、運(yùn)行時(shí)間與數(shù)據(jù)分割窗口大小的關(guān)系進(jìn)行了測(cè)試。測(cè)試表明,系統(tǒng)中并行化軟件具有接近線性的加速比,具有良好的可擴(kuò)展性以及高效性。最后,對(duì)CloudAssoc進(jìn)行了整體測(cè)試,測(cè)試結(jié)果
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉米全基因組選擇分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 全基因組關(guān)聯(lián)分析中SNP數(shù)據(jù)補(bǔ)缺算法研究與實(shí)現(xiàn).pdf
- CUDA平臺(tái)下基于通路的全基因組關(guān)聯(lián)研究.pdf
- HBV相關(guān)肝病的全基因組關(guān)聯(lián)研究.pdf
- 全基因組關(guān)聯(lián)研究中的多水平模型.pdf
- 兒童孤獨(dú)癥的全基因組關(guān)聯(lián)研究.pdf
- 基于線性混合模型的全基因組關(guān)聯(lián)分析的算法研究.pdf
- 基于最大信息系數(shù)的復(fù)雜疾病全基因組關(guān)聯(lián)算法研究.pdf
- LncRNA多態(tài)性與骨質(zhì)疏松的全基因組關(guān)聯(lián)研究.pdf
- 雞攻擊行為的全基因組關(guān)聯(lián)分析.pdf
- 基于全基因組關(guān)聯(lián)研究的復(fù)雜性狀遺傳風(fēng)險(xiǎn)預(yù)測(cè)研究.pdf
- 銀屑病全基因組編碼變異關(guān)聯(lián)研究.pdf
- 基于函數(shù)變換下的基因組關(guān)聯(lián)研究.pdf
- 17233.基于罕見(jiàn)變異體的全基因組關(guān)聯(lián)分析方法研究
- 玉米芽再生能力調(diào)控基因的全基因組關(guān)聯(lián)分析.pdf
- 基因組序列denovo拼接系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 脂聯(lián)素的全基因組通路關(guān)聯(lián)分析研究.pdf
- 基于RNA-Seq的小麥產(chǎn)量性狀全基因組關(guān)聯(lián)分析.pdf
- 中國(guó)漢族人群皮肌炎的全基因組關(guān)聯(lián)研究.pdf
- 基于通路分析的中國(guó)漢族人群身高全基因組關(guān)聯(lián)研究.pdf
評(píng)論
0/150
提交評(píng)論