版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p> 一、關鍵科學問題及研究內容</p><p> 解讀生物細胞復雜的信息調控系統(tǒng)是理解各種復雜生命現象機理的關鍵。新一代測序技術為我們提供了從多個角度觀測這個復雜調控系統(tǒng)的可能,但要從數量巨大、類型復雜的測序數據中挖掘出規(guī)律性的知識、并通過整合這些知識形成對系統(tǒng)的整體認識,需要解決一系列生物信息學理論與方法問題。</p><p> 本項目擬結合基因組、表觀基因組、轉錄
2、組、調控組、宏基因組等各個生物層面上的應用,從數據產生的源頭、數據處理的各個環(huán)節(jié)和對復雜生物機理的解析等方面入手,系統(tǒng)研究新一代測序相關的一系列生物信息學問題。這些問題包括:怎樣建立各種新一代測序數據產生和誤差的數學模型?能否通過對數據模型和后續(xù)應用的研究指導測序的實驗設計和技術改進?怎樣通過算法、軟件、硬件和系統(tǒng)的策略有效應對超海量測序數據帶來的存儲、傳輸與計算問題?如何通過信號處理、模式識別等手段準確有效地從ChIP-seq、bis
3、ulfite-seq、3C、RNA-seq、CLIP-seq等類型的測序數據中提取各種有效信號?怎樣建立比較各種信號的統(tǒng)計模型?怎樣通過高分辨率基因組和表觀基因組數據識別各種調控元件、構建調控系統(tǒng)?如何通過對RNA測序數據的處理精細繪制轉錄組、精確構建編碼和非編碼基因的轉錄譜和剪接加工模式?如何在沒有參考序列的情況下非監(jiān)督地組裝和識別宏基因組和宏轉錄組中的有效功能單位、進而對微生物群落的功能進行刻畫?如何對細胞分化和癌癥發(fā)生發(fā)展等復雜生
4、物過程動態(tài)地構建調控網絡、解讀這些過程中的調控程序?怎樣將不同層次、不同尺度上的組學</p><p> 這些問題是緊密聯系的,概括起來,可以總結為兩類科學問題,我們稱之為新一代測序數據的計算問題和推理問題。所謂計算問題,主要包括通過對數據模型的認識改進數據處理質量,通過對算法、軟件、存儲和計算機體系結構、服務模式等的研究提高數據處理效率和能力等;所謂推理問題,則是指通過對生物問題和測序數據特點兩方面的深入研究,
5、對于多種類型的新一代測序數據,提出和發(fā)展有效提取生物學信息的理論和方法,提出和發(fā)展整合多種組學數據的理論和方法,提出和發(fā)展定量描述復雜生物網絡、系統(tǒng)及動態(tài)演化的理論與方法,并將這些理論與方法應用到細胞分化、癌癥發(fā)生發(fā)展等復雜生物過程調控系統(tǒng)的解析和建模上,獲得新的生物學認識。換句話說,這里的計算問題就是怎樣改進和提高超大規(guī)模測序數據的處理方法和處理能力,推理問題就是怎樣從復雜的測序數據中獲取知識和規(guī)律。對這兩類問題的研究相輔相成,構成了
6、我們擬研究的新一代生物信息學理論與方法。</p><p> 圍繞這些關鍵科學問題,按照新一代測序數據產生、處理、解析、應用的主要環(huán)節(jié),本項目擬開展的主要研究內容可歸納為10項,分別針對上述兩方面的科學問題、按十個主意研究內容展開研究:</p><p> 超大規(guī)模測序數據的處理方法與處理能力</p><p> (1)對新一代測序數據產生模型和特點的數學描述,以及
7、在此基礎上的新一代測序實驗設計理論與方法。深入理解數據產生過程中可能影響數據質量的各個因素,建立數據產生的數學模型,是更好地處理和應用新一代測序數據的基礎。新一代測序的發(fā)展主要是由測序技術自身的發(fā)展推動的,尚缺乏從最終應用角度對不同測序技術中各個影響因素的系統(tǒng)研究。我們將在本項目中對包括Illumina/Solexa、Roche/454、AB/SOLiD和國產AG-100/200測序系統(tǒng)在內的多種測序平臺進行實驗設計、誤差分析、質量評估
8、和平臺比較的研究,也包括對將來第三代測序平臺的相應研究,發(fā)展新一代測序技術的誤差分析和質量控制理論,建立數據分布和測序誤差的數學模型,設計具有容錯和誤差糾正能力的數據處理方法,為后續(xù)處理算法提供數據模型指導,也通過對測序誤差和質量控制的研究為測序技術本身的發(fā)展提供反饋。另一方面,針對測序實驗中可以采用的生物條碼(barcoding)技術和SOLiD等技術采用的堿基組合編碼測序策略,研究在測序技術和實驗設計中的編碼理論,發(fā)展針對不同類型應
9、用的優(yōu)化實驗設計策略和方法。</p><p> (2)高效的新一代測序數據基本處理算法和工作流,以及跨平臺測序數據的統(tǒng)合分析。不同類型測序技術的數據有各自的特點,但共同特點是數據量大、數據處理過程復雜、對計算資源要求高,這些特點,制約了生物學和醫(yī)學實驗室對測序數據的應用,也構成了將來個體化基因組發(fā)展的一個瓶頸。我們將對各種測序數據的典型處理算法進行優(yōu)化,發(fā)展針對新一代測序數據處理的可視化交互工作流;研究發(fā)展利用
10、GPU/FPGA加速器支持的快速算法,包括大量短序列比對、從頭組裝、變異位點檢測等,大大提高常見測序數據處理流程的計算效率;研究對多種測序平臺數據以及基因芯片數據的統(tǒng)合分析(meta-analysis),比較不同平臺的數據,有效利用平臺間技術差異和互補性,并結合人類基因組和變異組數據資源,提升數據質量,消除測序噪聲。</p><p> (3)適應大規(guī)?;蚪M數據的數據壓縮存儲、傳輸方法和搜索方法,面向深度測序大
11、數據量的計算模型與體系結構探索。新一代測序的發(fā)展和推廣應用使生物序列數據增長速度遠遠超過了摩爾定律對計算機處理能力增長的預期。我們將深入分析各種基因組數據的特點,針對性地研究高效數據壓縮和傳輸方法,研究新型的數據存儲系統(tǒng)構架;研究在壓縮空間上進行數據處理的方法,將存儲、壓縮和處理、應用結合起來考慮,發(fā)展適應超大規(guī)?;蚪M數據的搜索方法;深入分析測序數據的特點和測序數據常見處理任務對計算資源的需求特點,探索新的軟硬件模型和可能的新型體系結
12、構,探索新的計算服務模型在測序數據存儲、傳輸和處理上的應用,從計算技術上為迎接個體基因組時代的到來做好充分準備,同時推動我國相關信息技術和產業(yè)的創(chuàng)新發(fā)展。</p><p> 從復雜的多種測序數據中獲取知識和規(guī)律</p><p> ?。?)基于高通量基因組、表觀基因組數據進行基因調控信號的識別和調控元件功能注釋。新一代測序技術發(fā)展了ChIP-seq、bisulfite-seq等高通量、高分
13、辨率檢測表觀遺傳學特征的實驗技術,能夠揭示基因組中很多原來被認為沒有功能的區(qū)域或原有技術無法檢測的調控因素。我們將對這些數據進行深入挖掘,研究從中高分辨率檢測DNA甲基化、組蛋白修飾等表觀遺傳學因素的方法,結合基因芯片等其他組學數據,開展表觀基因組狀態(tài)注釋和功能預測、研究啟動子注釋及其使用偏好性,研究非編碼RNA的注釋及其對染色質沉默和啟動子、增強子活性的影響,研究基因測序數據的染色質三維拓撲結構功能注釋,建立不同類型細胞間染色質三維結
14、構狀態(tài)變化的比較和分析方法,研究基因轉錄系統(tǒng)與基因組序列、表觀基因組狀態(tài)間的聯系。</p><p> ?。?)基于多種組學數據研究細胞分化和重編程的數學模型及腫瘤細胞基因組演化模型。對細胞分化和腫瘤發(fā)生等重要生物過程內在分子調控機制的數學描述,是真正理解這些生物過程的關鍵。新一代測序提供的高分辨率基因組學、轉錄組學和表觀基因組學數據為建立這種數學描述提供了可能。本項目將比較和用數學模型刻畫不同來源誘導多能干細胞與
15、胚胎干細胞、體細胞在染色質狀態(tài)與基因表達等方面的差異,分析染色質狀態(tài)對細胞分化與重編程潛能的影響,建立描述細胞分化與重編程過程的動態(tài)演化模型,探索利用人工合成方法修改或擾動生物調控回路的關鍵環(huán)節(jié)。另一方面,將以在我國發(fā)病率高的肝癌等惡性腫瘤為例,以體細胞基因突變、染色體重排和表觀遺傳學修飾等數據為切入點,研究建立腫瘤多維度演化模型,對腫瘤發(fā)生和細胞分化過程進行比較,從演化和發(fā)育角度探索腫瘤發(fā)生發(fā)展的機制并進行數學建模。</p>
16、;<p> ?。?)基于RNA測序的基因表達和選擇性剪接分析、轉錄組分析。系統(tǒng)研究RNA測序數據處理與分析的方法,重點研究基因選擇性剪接模式的定量推斷方法和比較不同樣本間基因剪接模式差異的方法,與基因表達芯片數據進行比較研究,從理論上探索特殊選擇性剪接形式的不可分辨問題,綜合考慮基因表達總量、選擇性剪接模式和剪接等位體表達比例等因素,研究基因差異表達的概念和組間比較的統(tǒng)計檢驗方法,發(fā)掘不同形式的差異表達的功能影響,研究非編
17、碼RNA轉錄本的表達規(guī)律,研究不同樣本間或發(fā)育過程中轉錄組變化的比較方法,結合CLIP-seq數據分析基因選擇性剪接調控網絡。</p><p> ?。?)宏基因組與宏轉錄組數據的處理方法與功能分析方法研究。新一代測序的宏基因組、宏轉錄組數據的處理與單一基因組數據處理相比有很多獨特之處,目前通過短序列測序進行宏基因組研究的方法尚很少。我們將系統(tǒng)研究短序列宏基因組和轉錄組數據的拼接、組裝和比較方法,重點研究宏轉錄組中
18、的功能轉錄本識別和基于序列統(tǒng)計特征的宏基因組/轉錄組監(jiān)督和非監(jiān)督分類方法,研究人體微生物群落特征與人體表型特征之間可能的聯系,探索微生物基因與宿主基因之間可能的相互作用。</p><p> (8)多種組學數據的集成方法研究和生物網絡的建模、數學描述和功能研究。多種測序技術和其他組學技術以不同的尺度向人們展示了復雜生物對象的不同側面,本項目將研究如何將不同類型的組學數據聯系起來、構建包含多種調控因素的分子調控網絡
19、。進一步,系統(tǒng)研究多種類型生物分子網絡的數學描述方法,提出能夠從整體上反映網絡功能特點的數學指標,探索復雜生理病理現象與基因調控網絡或蛋白質相互作用網絡之間整體特性的關聯,探索定量研究復雜生物網絡的新途徑。</p><p> (9)深度測序數據中遺傳多態(tài)性信號的檢測方法,混合樣本測序關聯研究的統(tǒng)計遺傳學理論與方法。與SNP芯片相比,新一代測序技術能檢測人群中發(fā)生頻率更低的遺傳多態(tài)性,為研究由多種罕見突變導致的復
20、雜疾病開辟了道路,但開展大規(guī)模的基于深度測序的遺傳學研究又提出了很多新的理論與方法問題。本項目將深入研究這些問題,發(fā)展從短測序片斷中檢測點突變、插入刪除、基因組結構變異和拷貝數變化等遺傳多態(tài)性的有效算法,研究在限定測序總量的條件下平衡樣本量與測序深度的實驗設計方法,發(fā)展采用混合樣本策略進行基因組、外顯子組和RNA測序的優(yōu)化實驗設計理論,研究混合樣本測序對統(tǒng)計檢測功效的影響,為基于新一代測序的大規(guī)模關聯研究奠定理論基礎。</p>
21、;<p> ?。?0)應用新一代測序數據和統(tǒng)計遺傳學分析研究腫瘤演化過程和分子標記。綜合運用本項目取得的理論與方法成果,用群體遺傳學方法研究癌細胞群體演化規(guī)律,選擇對我國人民健康影響極大的肺癌作為研究對象,針對非小細胞肺癌的侵襲和轉移,采用混合樣本策略進行新一代測序,從基因結構、拷貝數變異、剪接體變異及非編碼RNA等水平上尋找各類型非小細胞肺癌的分子特征,為研究這一惡性腫瘤的早期診斷、預后分析和理解其分子機理提供有價值的線
22、索。</p><p><b> 二、預期目標</b></p><p> 本項目的總體目標是,基于和圍繞新一代測序技術相關的一系列科學問題,研究高效處理、分析、挖掘和整合超大規(guī)模測序數據和其他組學數據的生物信息學模型、方法、算法和軟件,發(fā)展新的生物信息學理論與方法,促進新一代測序數據的有效應用,促進從海量數據到科學知識的轉化,推動對復雜生命現象內在信息調控系統(tǒng)的認識
23、,推動相關信息技術的發(fā)展,使我國生物信息學研究進入世界前沿行列。</p><p><b> 五年的預期目標是:</b></p><p> 建立多種新一代測序數據的數學模型和質量控制方法,建立面向新一代測序的編碼和實驗設計理論。這些理論和方法,將對測序數據處理提供重要的指導,也為測序技術的改進提供借鑒。</p><p> 建立適應多種平臺、
24、針對多種應用的新一代測序數據處理方法、算法和軟件體系,包括測序讀段的回帖、拼接、糾錯、多態(tài)性檢測、蛋白質結合位點信號檢測與比較、表觀遺傳學狀態(tài)標定和功能元件注釋、基因表達估計和剪接模式估計、基因表達比較、宏轉錄組組裝與比較等。</p><p> 實現面向新一代大數據量序列數據處理的硬件加速方法,發(fā)展基于參考序列的海量測序數據壓縮、存儲和傳輸方法,發(fā)展面向海量基因組數據的搜索引擎技術,發(fā)展適應深度測序數據和個體化
25、基因組數據處理的可重構計算系統(tǒng)結構和編程模型。</p><p> 對高等真核生物中大量存在的選擇性剪接基因,提出定性和定量分析基因表達和基因差異表達的新理論框架,對選擇性剪接的功能和調控形成更系統(tǒng)的認識,對基因差異剪接表達在復雜疾病中的作用得到新的認識。</p><p> 針對新一代測序技術的特點,發(fā)展基于混合樣本測序的統(tǒng)計遺傳學新理論和方法,建立基于新一代測序數據進行大規(guī)模關聯研究的
26、優(yōu)化實驗策略。</p><p> 發(fā)展集成新一代基因組學數據和其他數據構建分子調控網絡的方法,和定量分析生物網絡功能的數學模型;綜合應用多種測序數據提供的信息,建立細胞分化、癌癥發(fā)生發(fā)展等過程中基因調控與基因組演化的數學模型,在對肝癌、肺癌等疾病的機理分析和分子標志物發(fā)現上取得進展。</p><p> 主要研究成果在國際權威期刊或重要學術會議上發(fā)表。預計發(fā)表重要學術論文100篇以上,部
27、分技術性成果以專利和軟件著作權等形式發(fā)表,預計申請專利或軟件著作權5-10項。通過發(fā)表高水平成果、在國際會議做特邀報告、主辦頂尖國際學術會議等,在國際同行中建立重要學術影響。</p><p> 通過本項目研究,培養(yǎng)一批具有堅實的生物信息學基礎、善于處理和解析超大規(guī)模生物學數據、善于從龐雜的數據中探尋復雜生物學規(guī)律的年輕科學家。預計培養(yǎng)博士生、碩士生各20-30名。</p><p><
28、;b> 三、研究方案</b></p><p><b> 總體思路和創(chuàng)新點</b></p><p> 新一代測序包含了一系列復雜的實驗技術,它對生物學研究帶來的革命是多方面的,很多分子和系統(tǒng)生物學問題都需要通過深度測序進行研究;同時,對信息科學與技術的挑戰(zhàn)也是系統(tǒng)性的,很多傳統(tǒng)的生物信息學問題都需要重新研究。針對這些特點,本項目將從測序數據產生、
29、處理、解析、應用的各個主要環(huán)節(jié)進行深入剖析,對其中的生物信息學問題進行系統(tǒng)研究。研究過程將采用理論研究與實驗研究相結合,科學問題與技術問題相結合,生物學研究與信息處理、計算技術和統(tǒng)計學研究相結合的策略。整個項目研究將圍繞統(tǒng)一的總體學術思路來進行。</p><p> 首先,從數據產生的源頭開展生物信息學研究。發(fā)揮項目參加團隊同時擁有各種主流第二代測序平臺和自主知識產權國產測序平臺的優(yōu)勢,針對各種平臺分析其數據特點
30、和噪聲規(guī)律,結合后期處理需求研究影響數據質量的各種因素,以從數據中挖掘生物學規(guī)律的最終應用目標來研究優(yōu)化的實驗設計。</p><p> 同時,提取各種測序數據處理任務中最具共性的信息技術問題,從算法、軟件、硬件、系統(tǒng)、服務模式等多角度進行深入研究,一方面研究對現有方法的改進和現有技術的巧妙應用,另一方面從長遠考慮,力求發(fā)展新的技術體系,從根本上解決不斷增長的基因和基因組數據所提出的計算和存儲挑戰(zhàn)。</p&
31、gt;<p> 更重要的,本項目充分意識到,數據的產出和積累不是目的,而是探究復雜生命系統(tǒng)的手段,真正的目的是通過數據挖掘出知識,推進對生命體內在信息調控系統(tǒng)的認識,進而對健康、農業(yè)、環(huán)境、能源等相關研究領域做出貢獻。因此,數據的獲取不能是盲目的,數據的處理也不能是孤立的,而是必須納入到整個研究的大循環(huán)中進行研究。這是本項目總體學術思路的關鍵。我們將以細胞分化、癌癥發(fā)生發(fā)展等過程中的具體科學問題為例,以最終對生物過程背后
32、分子調控程序進行數學建模為目標,引導對新一代測序數據相關的一系列生物信息學理論、技術與方法的研究。與目前國內外多數關于新一代測序數據處理的研究大都僅關注某個獨立環(huán)節(jié)相比,這一學術思路是本項目最大的特色。</p><p> 這一總體思路是本項目最大的創(chuàng)新點,預期成果的創(chuàng)新點包括新理論、新方法、新系統(tǒng)、新發(fā)現四個層面。新理論是指,建立新一代測序數據的信號和噪聲模型理論、選擇性剪接基因表達和差異表達的新理論、生物網絡
33、功能分析的數學模型和定量指標、混合樣本測序的統(tǒng)計遺傳學新模型;新方法,核心是處理和分析下一代測序數據的方法體系;新系統(tǒng)是,大規(guī)模測序數據存儲和計算的新的軟硬件系統(tǒng);新發(fā)現是,在細胞分化和癌癥發(fā)生發(fā)展中的信息調控規(guī)律和模型方面的新發(fā)現。</p><p> 我們也意識到,落實這種整體的、系統(tǒng)的學術研究思路并非輕而易舉的事,必須將系統(tǒng)進行合理的分解。為此,我們對核心科學問題進行了認真梳理,組織國內相關領域最具優(yōu)勢的研
34、究力量,將研究內容劃分為分工明確又緊密聯系的五個課題,在各個課題的研究中落實總體思路,通過項目的有效組織和研究內容之間的內在聯系將各個課題凝聚在一起。下面分別對各個課題的技術路線和預期創(chuàng)新性進行介紹。</p><p><b> 技術途徑</b></p><p> 課題一、多種新一代測序技術的數據產生模型與優(yōu)化處理方法</p><p> 本
35、課題重點從測序數據產生源頭開始研究數據的特點、實驗設計策略和數據處理技術,是整個項目的一個基礎。主要從四個方面開展研究工作,預期可以在對數據產生和實驗設計的數學建模、多種不同平臺測序數據的聯合研究和實用、高效的測序數據處理工作流方面取得創(chuàng)新性的成果。</p><p> ?。?)新一代測序技術中的編碼模型及高通量實驗設計理論與方法</p><p> 對基因序列進行編碼連接測序是測序技術的一
36、個重要方向,將信息學中的編碼理論應用于連接測序技術中,結合熒光檢測的分辨率分析,設計可靠的具有糾錯能力的多堿基熒光標記測序探針編碼與解碼方法??赏⑿碌臏y序編碼理論,指導大幅度提高測序讀長和速度。由于新一代測序通量很高,對于一些特定范圍的測序實驗,可以通過生物條碼技術在一個測序通道上對多個樣本測序,處理時再利用解碼程序將來自不同樣本的數據分開;或者,如果測序目的是檢測基因組稀有變異,可以采用將多個樣本按照一定策略進行混合測序,通過可能
37、的組合模式來推斷攜帶稀有變異的樣本。在這兩種策略中,都涉及到怎樣更有效設計樣本組合模式和編碼方案的問題,以最少次數的測序實驗來獲得最多的無歧義的檢測結果。</p><p> 目前發(fā)表的測序應用研究,實驗設計很多是根據經費和樣本的制約來進行的,缺乏從理論角度對最優(yōu)實驗方案的設計。本項目將對這一問題進行系統(tǒng)研究,針對具體的生物醫(yī)學研究問題,綜合考慮實驗各個環(huán)節(jié)技術特點,考查實驗中影響最終結果的主要因素,對樣本量、測
38、序深度、多次測序的批次組合等進行分析,發(fā)展能夠從理論上指導實驗方案設計的新方法。</p><p> (2)新一代測序數據的數學模型和質量控制方法</p><p> 對三種最常用的國外新一代測序平臺(Illumina/Solexa、Roche/454、AB/SOLiD)、我國自主研發(fā)的AG系列測序平臺和將來的第三代測序,通過對實驗環(huán)節(jié)中多種因素的分析,定量研究測序錯誤出現的規(guī)律和與之相關
39、的因素,建立數據的誤差模型,用以指導后續(xù)的數據處理算法。在此基礎上,研究不同測序平臺的特點,研究不同平臺和不同應用的質量控制方法以及平臺選擇和優(yōu)化組合方案。</p><p> 在自主研發(fā)的AG系列新一代測序平臺上,研究與測序編碼技術相銜接的測序圖像處理和堿基標識算法,結合上述誤差模型和組合編碼策略,建立我國自主知識產權的高通量測序原始數據處理算法和軟件。同時,也將這些研究的成果反饋到測序技術研發(fā)中,推進測序技術
40、本身的進步。</p><p> ?。?)新一代高通量測序數據的高效處理方法與工作流</p><p> 針對新一代測序數據量大、數據處理過程復雜、對計算資源要求高等共同特點,從硬件環(huán)境和軟件算法兩方面入手,對測序數據的典型處理算法進行優(yōu)化,研究利用GPU(圖形處理單元)/FPGA(可編程邏輯門陣列)對算法進行硬件化來大幅度提高系統(tǒng)性能。利用CUDA(統(tǒng)一計算設備架構)編程技術,發(fā)展適用于G
41、PU的高通量測序數據處理算法和應用程序。研究可重構工作流技術,發(fā)展測序數據處理的可視化交互工作流,實現各種復雜處理流程的快速組裝。</p><p> ?。?)測序數據的統(tǒng)合分析(meta-analysis)</p><p> 統(tǒng)合分析(亦稱薈萃分析)是指用數學和統(tǒng)計學方法對多個渠道的數據資料進行定量的綜合分析和概括,以提供比單一數據更準確的結果。生物學研究中,針對同一問題往往存在多種類型
42、的數據,包括不同平臺或不同實驗室的測序數據、早先的基因芯片數據等,我們將著重進行對兩類統(tǒng)合分析問題的研究:一是不同測序平臺數據的統(tǒng)合分析,比如結合454和Solexa測序平臺的誤差模型,通過統(tǒng)合分析實現基因組中重復序列的精確評估;二是測序數據與其他關聯數據的統(tǒng)合分析,比如在人群的遺傳關聯圖譜研究中整合個體基因組測序與國際單倍型計劃(HapMap)數據等。</p><p> 課題二、面向新一代測序大數據量的計算模
43、型與體系結構研究</p><p> 本課題重點從計算模型和計算機體系結構方面研究新一代測序所面臨的計算與存儲瓶頸,基本技術路線是:1、深入發(fā)掘哈希索引(Hash indexing)算法的潛力,實現高效的讀段回帖和拼接算法;2、充分利用基因組數據自身特點,研究數據壓縮和冗余數據刪除技術,實現高效的數據壓縮與存儲方法;3、參考分布式并行系統(tǒng)和MapReduce編程模型,研究實現針對高密度壓縮海量基因組數據的搜索核心
44、算法;4、在計算機體系結構方面,通過提取各種測序數據處理算法的核心特征,研究可重構計算技術的混合異構系統(tǒng)結構及其編程模型,利用可重構計算技術突破商業(yè)處理器中的指令集和系統(tǒng)結構的限制,實現序列回帖、數據壓縮及傳輸、數據檢索等核心算法的加速。本課題是面向新一代測序數據所提出的現實和未來需求的探索性研究,研究成果將不但是生物信息學領域的創(chuàng)新,也將是對計算、存儲技術自身的重要創(chuàng)新。</p><p> 以最常用的短序列回
45、帖和拼接算法為例,目前方法都采用哈希索引和動態(tài)規(guī)劃方法提高程序效率,進一步分析表明,影響算法性能的主要原因有:哈希索引表沒有數據局部性,導致CPU的緩存命中率低;建立索引需要消耗大量內存;缺乏針對性的計算指令,大量的高并行度位運算只能在CPU中低效率進行;動態(tài)規(guī)劃中數據緊耦合,在CPU難以并行,需要脈動陣列并行系統(tǒng);通用CPU中強大的浮點運算單元和深度流水線技術在基因序列數據運算中得不到有效利用甚至可能帶來負面影響。</p>
46、<p> 基于這些分析和對計算機體系結構發(fā)展歷程的研究,我們設想提出新型的可重構的體系結構以滿足深度測序數據處理需求,利用商業(yè)的雙CPU系統(tǒng)設計,包含一個X86CPU和標準芯片組和基于FPGA的可重構協(xié)處理器,動態(tài)地載入針對不同應用優(yōu)化的指令,配備大容量高寬帶內存系統(tǒng)和統(tǒng)一編址的內存空間,X86指令和協(xié)處理器擴展指令在同一個虛地址和實地址空間中執(zhí)行。在新的結構中,我們擬對測序數據處理程序進行重新設計,解決哈希表和動態(tài)規(guī)劃
47、計算中的性能瓶頸,發(fā)展深度測序數據處理的軟件包,預期處理速度至少可以比現有基于CPU的系統(tǒng)高出一個數量級以上。</p><p> 數量巨大且不斷增加的數據量是新一代測序對信息技術的一大挑戰(zhàn),我們將從數據壓縮方法和存儲方法兩方面進行深入研究?;蛐蛄袛祿泻芏嘧陨淼奶攸c,我們希望利用這些特點,通過改進基于參考序列的壓縮方法達到對巨量測序數據的高密度壓縮,而這其中同樣涉及到高效的序列回帖算法問題。我們將把序列回帖與
48、拼接和數據壓縮結合起來研究,發(fā)展高效的條件壓縮方法,并通過考慮序列的生物學性質幫助提高壓縮率。</p><p> 目前的測序數據存儲主要依賴傳統(tǒng)的磁盤陣列技術,隨著數據量超摩爾定律速度的增長,預計近三五年內,一個基因組數據中心需要存儲和訪問的數據量將達到EB(260)量級,遠非當前的磁盤陣列技術能夠解決,十分需要前瞻性地對存儲方法和系統(tǒng)結構進行研究。這里的主要問題是存儲容量和訪問速度。在硬件層次,采用分層管理的
49、異構介質分級存儲系統(tǒng)是擬發(fā)展的方向,將SSD固態(tài)硬盤、磁盤、磁帶、光盤等不同存儲介質通過高速網絡整合成透明的邏輯存儲池,輔以高效能動態(tài)分級存儲管理軟件,有效解決數據中心內冷熱數據的合理存放,在可以控制的成本內實現EB級存儲。在軟件層次,深入研究面向基因組序列的冗余數據刪除技術以降低對物理存儲容量的需求,結合高性能序列數據計算系統(tǒng)實現在有限的計算代價下高效的冗余數據刪除。針對訪問速度問題,擬采用集群化Scale-out的方法解決數據I/O
50、瓶頸問題,通過多個廉價X86處理節(jié)點達到比傳統(tǒng)高端存儲更優(yōu)的性能。</p><p> 從海量的數據進行檢索和查詢是測序數據應用中的一個基本需求。基因組數據屬于比較典型的非結構化數據,無法利用現有數據庫技術進行高效的檢索與查詢,存儲經過高度壓縮的數據更增加了檢索和查詢的難度。我們將充分考慮測序數據在壓縮、存儲和處理方案上的特點,參考分布式并行系統(tǒng)和針對大規(guī)模數據的MapReduce編程模型,研究發(fā)展適應海量基因組
51、數據的搜索引擎核心算法和軟件。</p><p> 課題三、基于新一代表觀基因組測序數據的細胞分化和腫瘤發(fā)生模型研究</p><p> 數據的采集、存儲和處理是基于新一代測序開展科學研究的基礎,而從數據中挖掘出知識、促進人類對生命現象機理的認識才是研究的根本任務。本項目的后三個課題就是從不同層面對深度測序數據中進行知識的提取和挖掘。本課題重點研究基因組各種功能元件的識別、表觀遺傳學信息的
52、提取和功能分析、以及在此基礎上對細胞分化和腫瘤發(fā)生過程進行數學建模,預期將獲得對表觀遺傳調控和細胞分化、腫瘤發(fā)生機理的新認識。</p><p> (1)表觀基因組測序數據處理方法及基因調控元件的識別和功能注釋</p><p> 與基因組測序不同,對用于功能研究的各種復合的測序數據,比如ChIP-seq轉錄因子結合位點測序、bisulfite-seq甲基化測序、3C染色質結構測序等,除了
53、讀段回帖等基本處理外,最主要的處理任務是從數據中準確檢測有效信號。我們將采用混合概率模型和現代信號處理技術,結合測序數據誤差模型,發(fā)展高分辨率識別轉錄因子結合位點、DNA甲基化、組蛋白修飾區(qū)域、染色質結構等信號的方法;將測序數據與DNA序列特征分析相結合,精細注釋蛋白質編碼基因、基因間區(qū)miRNA和長非編碼RNA基因的啟動子,包括單向和雙向啟動子及分歧啟動子;通過綜合測序數據和比較基因組學、表觀遺傳學和轉錄組數據,系統(tǒng)地注釋基因組上的各
54、種非編碼RNA;收集或采集人和小鼠胚胎干細胞、體細胞和腫瘤細胞等多種細胞的DNA甲基化和組蛋白修飾數據,用統(tǒng)計學和機器學習方法劃分染色質狀態(tài),建立基因組功能元件、DNA甲基化和染色質狀態(tài)之間的聯系,分析細胞在不同分化階段的表觀遺傳學變化,建立表觀遺傳學調控網絡并進行實驗驗證。</p><p> ?。?)分析細胞分化過程的動態(tài)表觀基因組學數據,建立細胞狀態(tài)轉化的數學模型</p><p>
55、收集和采集細胞分化不同狀態(tài)的基因組學和表觀基因組學測序數據,通過對數據的信號處理和模式識別分析,發(fā)現與細胞狀態(tài)變化相關的基因組學和表觀基因組學標志,建立調控網絡模型。分析不同分化階段的調控網絡,借鑒物理學中勢能的概念和信息論中熵的原理,發(fā)展通過表觀遺傳調控網絡描述細胞分化能力的“分化勢能”概念,定量刻畫細胞分化狀態(tài)。在此基礎上,用基因組學與表觀遺傳學標志和分化勢能建立細胞分化的坐標空間,結合蛋白質相互作用、細胞信號通路等信息,尋找網絡中
56、可以調控細胞狀態(tài)間相互轉化的關鍵環(huán)節(jié)。通過計算機仿真對細胞分化和重編程過程進行模擬,設計細胞實驗對關鍵環(huán)節(jié)進行驗證。</p><p> ?。?)綜合運用新一代測序與其他組學數據,構建腫瘤細胞演化的數學模型</p><p> 選擇肝癌這一對我國人民健康有重大影響的疾病作為研究對象,收集正常、慢性肝炎、肝硬化、肝癌的序貫樣本并應用新一代測序技術進行DNA和RNA測序,利用數據處理與分析方法的
57、研究成果,檢測體細胞突變、染色體重排與基因拷貝數變異、啟動子甲基化異常和RNA轉錄后變異等可能與肝癌發(fā)生發(fā)展過程相關的因素,結合其他組學數據,探索建立腫瘤發(fā)生過程的演化數學模型。系統(tǒng)收集多發(fā)性肝癌和肝癌血管侵犯(LVI)、淋巴結轉移、肺轉移、術后復發(fā)等樣本,通過高通量測序或基因芯片比較原發(fā)腫瘤和轉移灶、多原發(fā)灶及腫瘤復發(fā)前后樣本之間的差異信號,應用腫瘤發(fā)生模型分析轉移和復發(fā)過程中的信號變化路徑,建立腫瘤轉移和復發(fā)的數學模型。通過動物實驗
58、對模型的關鍵環(huán)節(jié)進行驗證。進一步,通過生物信息學與細胞實驗相結合,探索腫瘤干細胞演化模型,利用新一代測序檢測腫瘤干細胞在不同刺激條件下的DNA變異水平和甲基化位點動態(tài)變化,系統(tǒng)描述腫瘤干細胞自我更新和不對稱分化等方面的分子過程。</p><p> 課題四、新一代轉錄組數據處理與網絡集成分析的理論與方法</p><p> 在生物分子調控系統(tǒng)中,編碼和非編碼基因的轉錄是一個關鍵的環(huán)節(jié),存儲
59、在基因組中的遺傳信息、表觀遺傳學的調控作用,都是通過轉錄過程發(fā)揮作用。轉錄組學就是對轉錄的整體研究。本課題重點圍繞轉錄組開展對新一代測序數據處理與分析的研究,并研究在轉錄組基礎上整合多種數據構建調控網絡,以及對網絡功能進行定量分析的理論與方法,將在選擇性剪接基因表達的新概念和計算方法、宏轉錄組的功能分析方法和復雜調控網絡的定量功能描述等方面開展創(chuàng)新性的探索。</p><p> 對轉錄組測序數據研究的基礎是RNA
60、-Seq數據讀段回帖、基因表達模式推斷和表達量估計。由于人類基因大量存在剪接和選擇性剪接,RNA-Seq數據回帖比基因組測序數據回帖更具有挑戰(zhàn)性。本課題擬結合轉錄本特點的動態(tài)哈希表技術,實現外顯子跨越讀段的快速回帖,基于隱馬爾科夫模型等方法推斷選擇性剪接基因的表達模式,建立考慮讀段分布特點的基因和選擇性剪接等位型表達量估計方法。同時,根據對當前測序技術數據產生模型的認識,建立各種剪接模式及其組合下測序數據的正演模型,通過算法反演剪接模式
61、及其表達量,系統(tǒng)研究現有測序技術下的不可分辨組合,并通過模型研究完全區(qū)分各種組合對測序數據的要求,為第二代測序的實驗優(yōu)化和第三代測序的發(fā)展指出方向。</p><p> 對微生物群落的宏基因組和宏轉錄組測序是新一代測序應用的一個重要發(fā)展方向,研究生物體攜帶的微生物群落與宿主生理病理表型之間的聯系,是系統(tǒng)生物學研究的一個嶄新方向。宏基因組和轉錄組測序數據處理與單一物種測序數據處理有很多共同的任務,可以采用本項目研究
62、的各種數據處理方法,但更有自己獨特的特點。將針對宏基因組和轉錄組數據,我們將研究不依賴序列比對的讀段序列分析方法,通過統(tǒng)計k字詞的出現頻率,用模式識別方法對宏基因組/轉錄組進行分析。進一步,重點研究宏轉錄組數據中跨物種的基因轉錄本識別和局部拼接,通過比較不同樣本的宏轉錄組表達譜,選擇特征,實現對微生物群落功能的分類,探索宏轉錄組表達譜與宿主狀態(tài)之間的聯系。</p><p> 基因的轉錄受到轉錄因子和多種表觀遺傳
63、學因素的調控,而轉錄后又通過其蛋白質或RNA產物參與對其他基因的調控,或者與其他蛋白質發(fā)生相互作用,構成了復雜的轉錄調控網絡。對高等真核生物,調控網絡中還包含了復雜的、人們目前尚了解很少的剪接調控網絡。本課題擬研究整合RNA-seq、ChIP-seq、CLIP-seq等測序數據以及基因芯片、序列模體分析等數據構建轉錄和剪接調控網絡的方法,發(fā)展描述存在多元調控關系的生物網絡的數學方法,通過監(jiān)督學習、非監(jiān)督學習和半監(jiān)督學習方法對網絡進行功能
64、分解。從功能角度和遺傳穩(wěn)定性角度探索定量描述網絡或模塊的整體功能性質的統(tǒng)計量,嘗試發(fā)展定量描述網絡整體功能的生物信息學理論與方法,以癌癥疾病等為例探索網絡功能指標與疾病表型的關聯。</p><p> 課題五、基于新一代測序數據的統(tǒng)計遺傳學新理論、方法與應用</p><p> 研究遺傳信息作用的一個重要途徑是通過群體樣本數據用統(tǒng)計遺傳學手段尋找遺傳規(guī)律,如果說從細胞和分子入手探索生物系統(tǒng)
65、機理是從底向上的方法,那么統(tǒng)計遺傳學可以看作是從頂向下的方法。二者各有優(yōu)勢、相輔相成。從孟德爾遺傳定律,到摩爾根發(fā)現基因遺傳連鎖、重組規(guī)律,很多生物學原理都是通過這種從頂向下的方法發(fā)現的。近年來,隨著基因芯片等高通量技術的發(fā)展,統(tǒng)計遺傳學取得了很大進展。新一代測序對統(tǒng)計遺傳學帶來了很多新的問題和機遇,本課題將對其中的基本理論和方法進行研究,并應用于對癌癥尤其是肺癌的研究,預期可在混合樣本統(tǒng)計檢驗的理論和對癌癥分子標志物的研究等方面取得創(chuàng)
66、新性成果。</p><p> 基于新一代測序進行統(tǒng)計遺傳學研究,首先要發(fā)展從測序數據有效、準確地檢測各類多態(tài)性信號的方法和軟件。本課題擬結合測序數據誤差模型,以貝葉斯模型為基礎,發(fā)展準確鑒定基因組序列中的堿基突變、小片斷缺失/插入和拷貝數變化的方法;研究外顯子捕獲測序和酶切測序中影響序列捕獲效率和酶切效率的因素,建立統(tǒng)計回歸模型進行校正;針對混合樣本基因組或外顯子測序,發(fā)展DNA序列變異識別方法尤其是稀有變異的
67、識別方法,以及混合樣本RNA測序中剪接變異的識別方法;研究新一代測序數據中對基因型缺失數據的估計策略,以及從群體全基因組數據中準確檢測近期正選擇突變的方法。</p><p> 混合樣本測序是在有限成本下進行大規(guī)模群體遺傳學研究的有效途徑,但關于混合樣本測序對統(tǒng)計檢測功效的影響和如何優(yōu)化混合樣本測序方案,尚沒有很好的理論。我們將研究建立混合樣本基因組、外顯子組和RNA測序實驗優(yōu)化設計的基本理論,根據混合樣本測序的
68、性質重建用于基因組、外顯子組及RNA測序的分析方法,將統(tǒng)計學中混合數據分析、不完全數據分析、分布拖尾分析的理論和方法應用于混合測序數據的理論模擬與分析之中,研究不同測序深度下測序數據的統(tǒng)計學性質,通過對數據的模擬完善理論和方法研究。</p><p> 綜合運用新一代測序技術和上述研究成果,以對我國人民健康影響極大的非小細胞肺癌(NSCLC)為例進行應用研究,擬通過合作者收集各類NSCLC(包括腺癌、鱗癌、大細胞
69、癌和腺鱗癌)和正常對照樣本,建立各類肺癌和正常組織的混合樣本池,進行DNA和RNA測序,尋找與肺癌侵襲和轉移相關的分子標志物,尤其是可能的新剪接體和miRNA,通過必要的細胞和分子實驗驗證其生物學功能。同時,通過對腫瘤細胞群體演化的研究,深入分析腫瘤基因組改變發(fā)生的模式,篩選轉錄調控元件上的腫瘤特異性序列變異,探索癌癥發(fā)生發(fā)展的特征。</p><p><b> 課題組織</b></p
70、><p> 課題1:多種新一代測序技術的數據產生模型與優(yōu)化處理方法</p><p> 研究內容:重點從各種測序技術平臺數據產生的源頭開始研究數據的特點、實驗設計策略和數據處理方法,研究內容和目標包括:發(fā)展新一代測序技術中的編碼模型和高通量實驗設計理論與方法,研究各種測序平臺數據的數學模型和質量控制方法,發(fā)展高通量測序數據的高效處理方法與工作流,研究跨平臺測序數據的統(tǒng)合分析方法。</p
71、><p> 預期目標:建立多種新一代測序數據的數學模型和質量控制方法,建立面向新一代測序的編碼和實驗設計理論。建立適應多種平臺、針對多種應用的新一代測序數據處理方法、算法、可重構軟件工作流和和跨平臺數據統(tǒng)合分析方法。在國際權威期刊或重要學術會議上發(fā)表重要學術論文20篇以上,申請專利或軟件著作權2-5項。培養(yǎng)博士生、碩士生15名左右。</p><p> 承擔單位:中科院上海生命科學研究院、東
72、南大學、上海生物信息技術研究中心</p><p><b> 課題負責人:李軒</b></p><p> 學術骨干:李軒、陸祖宏、孫嘯、李園園、顧萬君、張國慶、謝雪英、趙瓊一</p><p> 經費比例:24.9%</p><p> 課題2:面向新一代測序大數據量的計算模型與體系結構研究</p>&l
73、t;p> 研究內容:重點從計算機科學角度系統(tǒng)研究新一代測序巨大的數據量帶來的挑戰(zhàn)。研究內容和目標包括:發(fā)展高效的短序列回帖與拼接算法,結合大量序列回帖與拼接的算法需求探索優(yōu)化計算機體系結構和編程模型的方法,研究針對基因組數據的高比率數據壓縮算法和冗余數據刪除方法,實現高密度數據壓縮與存儲,針對高密度壓縮的海量基因組數據發(fā)展高性能、高可靠的基因組數據搜索方法。</p><p> 預期目標:實現面向新一代大
74、數據量序列數據處理的硬件加速方法,發(fā)展基于參考序列的海量測序數據壓縮、存儲和傳輸方法,發(fā)展面向海量基因組數據的搜索引擎技術,發(fā)展適應深度測序數據和個體化基因組數據處理的可重構計算系統(tǒng)結構和編程模型。在國際權威期刊或重要學術會議上發(fā)表重要學術論文8篇左右,申請專利或軟件著作權3-5項。培養(yǎng)博士生、碩士生10名左右。</p><p> 承擔單位:中科院計算技術研究所</p><p><
75、b> 課題負責人:張佩珩</b></p><p> 學術骨干:張佩珩、卜東波、熊勁、譚光明</p><p> 經費比例:13.2%</p><p> 課題3:基于新一代表觀基因組測序數據的細胞分化和腫瘤發(fā)生模型研究</p><p> 研究內容:研究從新一代基因組和表觀基因組測序數據中檢測基因調控元件、提取表觀遺傳學
76、信息的方法,識別各種調控因子的功能,分析細胞在不同分化狀態(tài)的表觀遺傳學變化;建立細胞狀態(tài)轉化的數學模型,發(fā)展根據調控網絡定量刻畫細胞分化狀態(tài)的生物信息學新概念,實現對細胞分化和重編程過程的仿真模擬;通過綜合運用新一代測序數據和其他組學數據,以肝癌為例建立腫瘤發(fā)生、轉移和復發(fā)的數學模型,推進對肝癌發(fā)生發(fā)展機理的認識,也為新一代測序綜合應用提供一個方法學框架。</p><p> 預期目標:建立新一代測序數據的蛋白質
77、結合位點信號檢測與比較、表觀遺傳學狀態(tài)標定和功能元件注釋方法。綜合應用多種測序數據提供的信息,建立細胞分化、肝癌發(fā)生發(fā)展等過程中基因調控與基因組演化的數學模型。在國際權威期刊或重要學術會議上發(fā)表重要學術論文25篇以上。培養(yǎng)博士生、碩士生15名左右。</p><p> 承擔單位:清華大學、第二軍醫(yī)大學上海東方肝膽醫(yī)院</p><p><b> 課題負責人:張奇?zhèn)?lt;/b&g
78、t;</p><p> 學術骨干:張奇?zhèn)?、魯志、汪小我、古槿、陳磊、談冶?lt;/p><p> 經費比例:21.0%</p><p> 課題4:新一代轉錄組數據處理與網絡集成分析的理論與方法 </p><p> 研究內容:研究對RNA測序數據的處理與分析方法,重點發(fā)展選擇性剪接基因轉錄模式和表達量的推斷方法,建立對基因表達和差異表達的新
79、認識;研究宏基因組和宏轉錄組的數據分析方法,發(fā)展基于序列統(tǒng)計特征的宏基因組、宏轉錄組數據比較和模式識別方法,通過宏轉錄組探索生物群落的功能特征;集成多種組學數據構建基因轉錄調控網絡和剪接調控網絡,研究網絡的數學描述方法,發(fā)展新的網絡功能表征指標,探索通過這些指標研究復雜疾病中調控網絡的變化。</p><p> 預期目標:發(fā)展RNA轉錄組測序數據處理方法體系,對高等真核生物中大量存在的選擇性剪接基因,提出定性和定
80、量分析基因表達和基因差異表達的新理論框架,對選擇性剪接的功能和調控形成更系統(tǒng)的認識,對基因差異剪接表達在復雜疾病中的作用得到新的認識。發(fā)展集成新一代基因組學數據和其他數據構建分子調控網絡的方法,和定量分析生物網絡功能的數學模型。在國際權威期刊或重要學術會議上發(fā)表重要學術論文25篇以上。培養(yǎng)博士生、碩士生10名左右。</p><p><b> 承擔單位:清華大學</b></p>
81、<p><b> 課題負責人:張學工</b></p><p> 學術骨干:張學工、李衍達、江瑞、周彤、劉莉揚</p><p> 經費比例:17.3%</p><p> 課題5:基于新一代測序數據的統(tǒng)計遺傳學新理論、方法與應用</p><p> 研究內容與目標:發(fā)展從各類測序數據中準確高效地檢測基因組
82、遺傳多態(tài)性信號的方法;重點研究采用新一代測序數據進行復雜疾病關聯研究所需要的新的統(tǒng)計遺傳學理論和方法,研究混合樣本測序的理論問題和實驗設計問題;對非小細胞肺癌設計深度測序實驗,運用所研究的方法成果在肺癌數據中尋找關鍵標志物,探索腫瘤基因組發(fā)生改變的規(guī)律。</p><p> 預期目標:建立從新一代測序數據中精確檢測遺傳多態(tài)性的方法。針對新一代測序技術的特點,發(fā)展基于混合樣本測序的統(tǒng)計遺傳學新理論和方法,建立基于新
83、一代測序數據進行大規(guī)模關聯研究的優(yōu)化實驗策略,在對肺癌等疾病的分子標志物發(fā)現和腫瘤基因組演化模型上取得進展。在國際權威期刊或重要學術會議上發(fā)表重要學術論文25篇左右。培養(yǎng)博士生、碩士生15名左右。</p><p> 承擔單位:復旦大學、中科院北京基因組所、中科院-馬普學會計算生物學伙伴研究所</p><p><b> 課題負責人:羅澤偉</b></p>
84、<p> 學術骨干:羅澤偉、田衛(wèi)東、張洪、胡小華、蔡軍、翟巍巍、李海鵬</p><p> 經費比例:23.6%</p><p> 各課題之間的關系如下圖所示。</p><p> 項目特色和可行性分析</p><p> 新一代測序是最近幾年內發(fā)展起來的新技術,所帶來的一系列生物信息學理論與方法問題在國內外都剛剛開始被重視
85、,尚未有十分系統(tǒng)的研究。本項目的主要特色有:(1)從計算模型和推理模型兩方面系統(tǒng)梳理新一代測序數據從產生、處理、存儲到分析、解析、應用各個層面的生物信息學問題,包括理論問題、技術問題和方法問題,集中多學科優(yōu)勢力量展開系統(tǒng)研究。這種系統(tǒng)性是本項目的一大特色。(2)以認識和挖掘數據中蘊藏的科學知識為最終目標,指導對數據的實驗采集、處理、壓縮、存儲等各環(huán)節(jié)的研究,避免片面追求數據的局部指標;在對數據的分析、挖掘和應用中,充分運用數據產生模型、
86、誤差模型和實驗設計等方面的研究結果,避免對數據的盲目應用。(3)與我國自主研制的新一代測序技術密切結合,既考慮現有測序技術產生的數據,又充分考慮未來的技術發(fā)展,并且從生物信息學研究出發(fā)對測序技術自身發(fā)展提供導向。(4)對生物信息學的研究不停留在理論和方法上,而且緊密結合當前生物學前沿,對細胞分化、癌癥發(fā)生發(fā)展等重要科學問題展開深入研究,力求在生物信息學理論方法和前沿科學發(fā)現上同時取得突破。(5)以積極的姿態(tài)應對不斷增長的新一代測序數據對
87、信息技術帶來的挑戰(zhàn)</p><p> 本項目經過了充分的論證和準備,我們對在新一代生物信息學理論、方法和應用上取得重大突破充滿信心,主要原因有:(1)項目對新一代測序相關的生物信息學和生命科學、信息科學問題進行了深入系統(tǒng)的分析,研究內容既有前瞻性又切實可行,項目設計思路清晰,已形成先進、可行的學術思路和技術路線。(2)項目組織了一支在生物信息學和相關方面有雄厚基礎并充滿活力的多學科研究隊伍,既包括了國內相關領域
88、骨干力量,也包括了新近回國的優(yōu)秀人才,在高通量組學生物信息學、系統(tǒng)生物學、統(tǒng)計遺傳學和高性能計算等方面已經有充分的研究基礎。(3)項目團隊擁有良好的研究條件,尤其是同時擁有目前國際上主流的第二代測序平臺和我國自主研發(fā)的第二代測序平臺,同時與國際上第三代測序技術領導者已經建立了密切的合作關系,在用于開展實驗研究的實驗條件和樣本、病例條件上都已經有充分準備,在計算機體系結構和高性能計算上有很強的研究能力和實驗條件,有條件完成計劃的研究任務。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于新一代測序的microRNA生物信息學分析及其平臺的建立.pdf
- 基于新一代測序的數字基因表達譜生物信息學分析平臺的建立及應用.pdf
- 新一代測序數據過濾方法研究.pdf
- 基于新一代測序技術的中藥制劑質量評價方法.pdf
- 新一代半導體測序儀測序數據分析方法研究.pdf
- 基于新一代測序技術的關聯分析研究和群體結構理論.pdf
- 基于GPU和壓縮索引的新一代測序數據再測序研究.pdf
- 新一代混合云助力新一代企業(yè)
- 新一代DNA測序圖像數據處理與堿基讀出方法研究.pdf
- 基于新一代GPS框架的公差設計理論與方法研究.pdf
- 基于新一代GPS的功能公差設計理論與方法研究.pdf
- 面向新一代測序技術的基因拼接算法.pdf
- 25290.新一代高通量dna測序的新方法研究
- 面向新一代測序技術的拼接算法研究.pdf
- 基于新一代測序技術的若干信息處理方法及其在DNA指紋檢測中的應用.pdf
- 基于新一代測序數據的RNA序列映射算法研究.pdf
- 新一代??怂?/a>
- 面向新一代測序的GPU序列比對工具研究.pdf
- 人類成熟精子mRNA表達譜的新一代測序研究.pdf
- 生物信息學
評論
0/150
提交評論