Docker生物云計算平臺分析松材線蟲高通量測序數(shù)據(jù)的應用研究.pdf_第1頁
已閱讀1頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著二代測序技術在生命科學研究領域的廣泛應用,生物學家們正面臨生物大數(shù)據(jù)處理、分析的挑戰(zhàn),同時生物大數(shù)據(jù)也將成為生命科學領域創(chuàng)新的源泉,對這些數(shù)據(jù)創(chuàng)新性的管理和應用,將為生命科學及相關產(chǎn)業(yè)領域帶來一次新的革命。高通量測序技術的發(fā)展,推動序列數(shù)據(jù)的迅速增長,普通實驗室也可以達到PT級生物測序數(shù)據(jù)量,如此大規(guī)模的數(shù)據(jù)的有效存儲、高效分析、共享利用,都是我們面對的難題,對高性能計算也提出了嚴峻的挑戰(zhàn)。目前已測序的物種也只是一小部分而已,已完成

2、測序的物種相關數(shù)據(jù)的分析也不深入。在算法優(yōu)化、軟件并行化、流程自動化、大規(guī)模數(shù)據(jù)存儲、處理及深度分析等層面,有亟待的工作需要廣泛開展。針對新一代測序數(shù)據(jù)量大、數(shù)據(jù)處理過程復雜、對計算資源要求高等特點,云計算提供了一種有效的解決途徑,云架構下的平臺搭建,存儲、計算軟件開發(fā),工作流框架正在不斷發(fā)展完善,并在未來的生物大數(shù)據(jù)分析、存儲方面發(fā)揮著重要作用。
  Docker是PaaS提供商dotCloud提供的一款基于LXC(LinuX

3、Containers)開源項目。Docker目前在云計算領域迅速發(fā)展,包括dotCloud、GoogleCompute Engine和百度應用引擎(BAE),都使用了Docker。LXC是一種共享Kernel的操作系統(tǒng)級別的虛擬化解決方案,通過在執(zhí)行時不重復加載內(nèi)核,且虛擬容器(Container)與宿主機(Host)之間共享內(nèi)核來加快啟動速度和減少內(nèi)存消耗。相比較傳統(tǒng)的虛擬化,基于LXC的輕量虛擬化Docker可以做到啟動快且占用資源

4、少。因此,Docker是良好的構建云計算的架構,Docker正在給云計算帶來一場革新,Docker可以靈活地封裝軟件,令其更快速地傳播。Docker技術的實現(xiàn)意味著,如果在一臺筆記本上編寫了一個軟件,可以將它移動到本地服務器或云服務器,而不需要做任務改變。這一直都是云計算的目標:互聯(lián)網(wǎng)就是一臺巨型計算機。
  生物大數(shù)據(jù)也具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價值(Value)、高速(Velocity)的“

5、4V”大數(shù)據(jù)特點,Docker的便捷、高效的特點適應了生物大數(shù)據(jù)發(fā)展的需求,所以Docker生物云計算平臺是應對生物大數(shù)據(jù)的最佳方案,本文Docker技術為基礎進行了深入研究和探討其在生物大數(shù)據(jù)分析方面的應用開發(fā),并將開發(fā)的ubuntu14.04_ biodocker生物云計算平臺應用于松材線蟲的高通量測序數(shù)據(jù)個性化分析中,為分析、處理高通量測序產(chǎn)生的生物大數(shù)據(jù)提供一種方法和思路。研究內(nèi)容如下:
  (1)Docker在Ubunt

6、u操作系統(tǒng)中的安裝及基本的Docker命令。
  (2)Docker中的數(shù)據(jù)管理及基本命令的探討:數(shù)據(jù)存儲及管理是Docker技術的一個重要內(nèi)容,我們探討了如何在容器中掛載主機的數(shù)據(jù)及如何創(chuàng)建數(shù)據(jù)容器等一些內(nèi)容。
  (3)基于ubuntu-14.04-x86_64.tar.gz模板,創(chuàng)建ubuntu14.04_biodocker基礎鏡像,由于一些分析軟件依賴許多環(huán)境,所以我們選擇的一個較完整的系統(tǒng)作為基礎鏡像。
  

7、(4)基于ubuntu14.04_biodocker基礎鏡像,我們深入探討了使用三種方法在鏡像中安裝基因組,轉(zhuǎn)錄組,宏基因組等相關軟件及處理原始數(shù)據(jù)的腳本,構建了ubuntu14.04_biodocker生物云計算平臺鏡像。該生物云計算平臺鏡像可以快速、高效的移植到任何一臺linux內(nèi)核的操作系統(tǒng)平臺,無論是單機、集群,谷歌或亞馬遜的云服務。方便了高通量測序數(shù)據(jù)分析平臺在不同硬件環(huán)境、不同操作系統(tǒng)之間的無縫遷移??梢宰屔镅芯空甙迅鄷r

8、間和精力集中在數(shù)據(jù)分析及探討生物學問題上,而不必為這些軟件安裝及軟件運行兼容性、環(huán)境依賴這些運維層面的技術而困擾,我們根據(jù)上述的鏡像分別在個人電腦、廈門大學數(shù)據(jù)挖掘組的服務器上搭建了ubuntu14.04_biodocker生物云計算平臺進行了高通量測序數(shù)據(jù)的分析、挖掘。
  (5)利用平臺我們基于松材線蟲全基因組構建了全基因組分泌蛋白基因家族的基因序列、蛋白序列,并且進行了功能注釋。結(jié)果表明,松材線蟲有923個分泌蛋白基因,僅有

9、93個基因得到注釋,其余90%的分泌蛋白均為松材線蟲所特有,值得我們更加關注和有待于更深入的研究。我們還對松材線蟲基因組進行了SSR定位及引物開發(fā),在松材線蟲全基因組中搜索到12135個SSR,開發(fā)出1155個引物,我們又把這些信息轉(zhuǎn)換成gff3格式文件,可以在基因組瀏覽器中更直觀方便的觀察這些SSR位置、類型、長度、引物等詳細信息。
  (6)利用平臺我們基于轉(zhuǎn)錄組的松材線蟲、擬松材線蟲分泌蛋白差異表達及分子進化研究。結(jié)果表明,

10、松材線蟲、擬松材線蟲轉(zhuǎn)錄組共表達800個分泌蛋白,其中294個分泌蛋白為二者差異表達顯著,并對這些蛋白進行了注釋和分析。在松材線蟲、擬松材線蟲498個分泌蛋白同源基因中篩選出16個基因的Ka/Ks值顯著大于1,并且達到了統(tǒng)計學上差異顯著的水平,表明這些基因受到強烈的自然選擇作用,為適應環(huán)境功能上發(fā)生了極顯著的進化。
  (7)利用平臺我們研究了基于轉(zhuǎn)錄組的松材線蟲、擬松材線蟲直系同源基因的研究及。結(jié)果表明,松材線蟲、擬松材線蟲與秀

11、麗線蟲、根結(jié)線蟲同源基因及其差異表達,近緣物種上都得到的大量同源基因,為我們基因功能注釋及研究提供可靠的信息,而在遠緣物種擬南芥、毛果楊獲得了同源基因為我們研究松材線蟲與寄主植物的互作提供參考。
  (8)利用平臺我們研究了基于宏基因組的松材線蟲與其伴生菌的水平轉(zhuǎn)移基因。結(jié)果表明,通過計算比較GC含量方法得到15個松材線蟲與共生菌之間的水平轉(zhuǎn)移基因,這些基因大部分都是具有重要生理生化功能,為研究松材線蟲與其伴生菌協(xié)同進化提供了有力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論