

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息學,,參考書,1、生物信息學教程,蔡祿,2006,化學工業(yè)出版社2、簡明生物信息學教程,鐘揚 張亮 趙瓊 2001, 高等教育出版社3、生物信息基礎,孫嘯 陸祖宏 謝建民,清華大學出版社,20044、Introduction to Bioinformatics, T K Attwood D J Parry-Smith (羅靜初等譯)(2002)北京大學出版社5、Bioinformatics:A practice
2、guide to the analysis of genes and proteins (李衍達 孫之榮譯) (2000)清華大學出版社6、Biological sequence analysis-Probabilistic models of proteins and nucleic acids R. Durbin S. Eddy A. Krogh G. Mitchison (2002) 清華大學出版社 (引進版),第1章 生物信
3、息學引論§1.1 引言,綜合論與還原論生物并非只是物質的簡單堆積,生物體的生長發(fā)育是生命信息控制之下的復雜而有序的過程。如果說物理學是研究物質和能量的學科,那么生命科學就是研究生命物質基礎上的信息的學科。 目前,我們對生命的奧秘還不甚了解,對生命信息的組織、傳遞和表達還知之甚少。既然這牽涉到信息的組織、傳遞和表達,我們就可以用信息科學的方法和技術來嘗試認識和分析生命信息。,隨著基因組計劃的迅速發(fā)展,生物數(shù)據(jù)的積累速度不
4、斷加快。因此,也就對生物數(shù)據(jù)的科學分析方法和實用分析工具提出了更新、更高的要求。在這個過程中,需要對實驗數(shù)據(jù)進行處理并及時進行理論分析,在此基礎上解釋實驗現(xiàn)象,認識導致實驗現(xiàn)象發(fā)生的本質,在“整合”、“系統(tǒng)”等全新理念下探索固有的生物學規(guī)律,進而了解和掌握生命的物質基礎和生命的本質。,最近10余年來,生物科學與技術迅猛發(fā)展,生物學及相關數(shù)據(jù)的積累速度已大大超出了人們的想象。面對生物信息的爆炸性增長,現(xiàn)有的信息收集、儲存、處理和分析方法與
5、工具已遠遠不能滿足實際研究的需要,亟待更新。例如,人類基因組計劃(human genome project, HGP)在1990年正式啟動后,科研人員用10年時間完成了人類基因組的工作草圖(包含3×109億個堿基對,并對30000余個基因進行了注釋)越來越多的微生物和其他模式生物(如秀麗新小桿線蟲C. elegans)也已完成了全基因組測序工作。,human,Thermotoga maritima海棲熱袍菌,Escheri
6、chia coli大腸桿菌,Buchnerasp. APS,Rickettsia prowazekii普氏立克次體,Ureaplasma urealyticum溶脲脲原體,Bacillus subtilis枯草芽孢桿菌,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum惡性瘧原蟲,Helicobacter pylori幽門螺桿菌,mouse,Ca
7、enorhabitis elegans,rat,Borrelia burgorferi伯氏疏螺旋體,Borrelia burgorferi,Aquifex aeolicus嗜熱菌,Neisseria meningitidis腦膜炎奈瑟菌,Mycobacterium tuberculosis結核桿菌,Arabidopsis擬南芥,這些大型國際合作項目不僅產(chǎn)生出巨大的數(shù)據(jù)量,而且對數(shù)據(jù)處理工作也提出了前所未有的要求。人們已經(jīng)充分認識到,如
8、果不能及時分析和有效利用這些信息,那么這些耗費巨資所獲得的數(shù)據(jù)也無異于增加了一堆垃圾。,1.1.1 生物信息學基本概念廣義的生物信息學是指以核酸蛋白質等生物大分子為主要研究對象,以信息、數(shù)理、計算機科學為主要研究手段,以計算機網(wǎng)絡為主要研究環(huán)境,以計算機軟件為主要研究工具,對序列數(shù)據(jù)進行存儲、管理、注釋、加工,對各種數(shù)據(jù)庫進行查詢、搜索、比較、分析,構建各種類型的專用數(shù)據(jù)庫信息系統(tǒng),研究開發(fā)面向生物學家的新一代計算機軟件;并利用數(shù)理統(tǒng)
9、計、模式識別、動態(tài)規(guī)劃、密碼解讀、語意解析、信令傳遞、神經(jīng)網(wǎng)絡、遺傳算法以及隱馬氏模型等各種方法,對序列、結構數(shù)據(jù)進行定性和定量分析,從中獲取基因編碼、基因調控、序列-結構-功能關系等理性知識,闡明細胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時空聯(lián)系,探索生命起源、生物進化、生命本質等重大理論問題,最終建立“生物學周期表”,1.1.2 生物信息學的研究目標和任務 揭示生物分子數(shù)據(jù)隱含的生物學信息是其長遠目標和根本任務。
10、 目前生物信息學的主要任務 第一是收集和管理生物分子數(shù)據(jù) 第二是進行數(shù)據(jù)處理和分析 第三個方面是開發(fā)分析工具和實用軟件,1.1.3 生物信息學的研究意義 生物信息學研究是從理論上認識生物本質的必要途徑 生物信息學的出現(xiàn)將改變生物學的研究方式 隨著分子生物學研究的深入,必然需要生物信息學 生物信息學在指導實驗、精心沒計實驗方面將會發(fā)揮重要的作用 生物信息學研究在醫(yī)學上也有重要的意義,§1.2 生物信息學的產(chǎn)生
11、與發(fā)展 1.2.1生物信息學的發(fā)展歷史 10余年來,生物信息學的發(fā)展大致經(jīng)歷了3個階段: (1) 前基因組時代 早在20世紀50年代,生物信息學就已經(jīng)開始孕育。 20世紀60年代是生物信息學形成雛形的階段 從20世紀70年代初期到80年代初期,出現(xiàn)了一系列著名的序列比較方法。 20世紀80年代以后,出現(xiàn)了一批生物信息服務機構和生物信息數(shù)據(jù)庫 標志性工作包括生物
12、數(shù)據(jù)庫的建立、檢索工具的開發(fā)以及DNA和蛋白質序列分析。例如,20世紀80年代即并始建立GenBank,但數(shù)據(jù)量增長較慢;Needleman和Wunsch (1970)以及Smith和Waterman (1981)分別提出了全局和局部的序列對位排列(sequence alignment)算法等。,(2) 基因組時代 生物信息學的真正發(fā)展則是在20世紀90年代,在人類基因組計劃的推動下,生物信息學才得以迅猛發(fā)展,標志性工作包括基因尋找
13、和識別,網(wǎng)絡數(shù)據(jù)庫系統(tǒng)的建立和交互界面的開發(fā)等。例如,建立與發(fā)展表達序列標簽(expressed sequence tag, EST)數(shù)據(jù)庫以及電子克?。╲irtual cloning)技術等。 (3) 后基因組時代隨著后基因組時代的到來,生物信息學研究的重點逐步轉移到功能基因組信息研究。標志是大規(guī)模基因組分析、蛋白質組分析以及各種數(shù)據(jù)的比較和整合。例如,蛋白質組學(proteomics)的產(chǎn)生、藥物基因組學、比較基因組學以
14、及分析人類基因組草圖等。,其具體表現(xiàn)在:(1)將已知基因的序列與功能聯(lián)系在一起進行研究;(2)從以常規(guī)克隆為基礎的基因分離轉向以序列分析和功能分析為基礎的基因分離;(3)從單個基因致病機理的研究轉向多個基因致病機理的研究;(4)從組織與組織之間的比較來研究功能基因組和蛋白質組,組織與組織之間的比較主要表現(xiàn)在:正常與疾病組織之間的比較,正常與激活組織之間的比較,疾病與處理(或治療)組織之間的比較,不同發(fā)育過程的比較等。,1.2.2
15、 我國生物信息學發(fā)展現(xiàn)狀,20世紀80年就有若干科研院所的生物、物理、信息、數(shù)學等學科的工作者從事生物信息學的研究工作。 近幾年來,國內對生物信息學的研究和應用越來越重視。 我國在基因組信息的收集與發(fā)布方面開展了一些工作,1.2.3 我國生物信息學研究的發(fā)展方向,在2000年度國家自然科學基金委員會主持召開的“生物信息學前沿方向”研討會上,與會專家討論擬定了目前我國生物信息學研究的主要方向: 1、建立國家生物醫(yī)學數(shù)據(jù)庫與服
16、務系統(tǒng) 已有專家建議在我國盡快建立國家級的“生物醫(yī)學信息中心”,其首要任務是從國際上引進生物醫(yī)學數(shù)據(jù)庫和免費共享軟件,同時把我國在生物信息方面有特色的成果提供給國際科學界。需要開發(fā)適合我國用戶的接口和界面系統(tǒng),同時開展數(shù)據(jù)庫管理、模型和算法等方面的研究以及教育培訓等工作。 2、人類基因組的信息結構分析利用EST數(shù)據(jù)庫(如dbEST)并采用大規(guī)模并行計算,發(fā)現(xiàn)新的基因和單核苷酸多態(tài)性(SNP)以及各種功能位點;研究
17、占人類基因組95%的非編碼區(qū)的信息結構,建立理論模型以闡明非編碼區(qū)的重要生物學功能;進行模式生物完整基因組的信息結構分析和比較研究。例如,,對酵母(微生物)、線蟲(動物)和擬南芥(植物)等模式生物進行比較基因組學研究。 3、功能甚因組相關信息分析研究開發(fā)大規(guī)?;虮磉_譜分析相關的算法與軟件,特別是研究基因表達調控網(wǎng)絡;預測和模擬與基因組信息相關的核酸、蛋白質空間結構,進而預測蛋白質功能。 4、遺傳密碼起源與生
18、物進化(尤其是分子進化)的過程與機制 5、非編碼區(qū)分析和DNA語言研究 6、基于結構的藥物設計 此外,結合重大科學問題的研究,發(fā)揮我國在理論生物學和信息科學領域的研究特色,發(fā)展生物信息學的新理論、新方法、新技術和新軟件也是重要的發(fā)展方向之一在我國,有關生物信息學的研究已逐漸引起大家的重視,例如,在HGP 1%的測序工作、“中華民族基因組中若干位點基因結構的研究”和“重大疾病相關基因的定位、克隆、結構與功能研究”
19、等項目中,生物信息學分析均發(fā)揮了重要作用。如何進一步根據(jù)我國在生物學方面的特點,建立高水平的理論與實驗體系,加快培養(yǎng)優(yōu)秀的青年人才,是發(fā)展我國生物信息學研究最為迫切的任務之一,理論物理與生命科學交叉的理論研究科學目標: 圍繞生物大分子理論及生物信息學中關鍵問題,在DNA鏈復雜性、基因組序列信息分析、編碼區(qū)和非編碼區(qū)的統(tǒng)計分析、基因組全信息的生物進化等方面提出新理論、建立新方法;開展多重時空尺度上的生物大分子和生物凝聚體的結構、相互
20、作用、性質及其調控理論的創(chuàng)新研究。資助方向:(1)生物信息學研究:基因識別(包括編碼區(qū)和啟動子區(qū)域識別)的新方法;分析多個基因組新方法并應用于分子進化;基因網(wǎng)絡與系統(tǒng)生物學研究。(2)計算分子生物學與計算細胞生物學研究:單分子生物物理理論;蛋白質二、三級結構預測新方法;生物大分子的自組裝(如生物膜、肌纖、蛋白微管等)理論等。,,物理科學一處 項目申請人應主持完成過國家級項目,研究隊伍要有一定規(guī)模。優(yōu)先支持在研究目標引導下的包含
21、新能源中的物理問題、先進材料制備、物理實驗測量與表征的新技術和新方法、以及新的計算方法和模擬軟件等內容的申請項目,支持理論與實驗密切結合的申請。在申請書的附注說明中務請注明申請針對那個方向。2008年擬資助 14-15個重點項目,平均資助強度200萬元/項。5.生物信息、生物大分子結構和功能的新物理問題(A0401)(與信息科學部和化學科學部交叉) 1)非編碼RNA、DNA功能片斷及蛋白質分子的三維結構的功能模擬與預測; 2
22、)生物大分子(DNA、RNA及酶蛋白)相互作用網(wǎng)絡動力學及系統(tǒng)生物學; 3)生物分子自組裝和生物納米體系的物理、力學性質; 4)生物分子的操縱、分析與測量的新原理、新方法和新技術。,生命科學三處 生命科學三處包括生物物理、生物化學與分子生物學、遺傳學與發(fā)育生物學、細胞生物學和免疫學5個一級學科,集中了生命科學最基礎和最前沿的研究領域,并體現(xiàn)學科交叉的特點。是生命科學最活躍的研究領域之一?! ∩镂锢韺W、生物化學與分子生物
23、學 從2006年開始,生物物理學科中的理論生物物理、環(huán)境生物物理、分子生物物理、膜與細胞生物物理合并到生物化學與分子生物學學科。由此,本學科主要資助方向集中在生物大分子結構與功能、生物大分子之間的相互作用、物理環(huán)境對生物體的影響和作用以及生物化學、生物物理學新技術和新方法等方面。生物大分子特別是蛋白質結構功能研究是本學科重要領域。歷年受理和資助的課題最多。從受理項目內容來看,蛋白質晶體學、包括蛋白質復合物的課題有比較好的基礎和深度;
24、核酸生物化學、生物膜與膜生物物理有比較優(yōu)秀的課題;理論生物物理研究比較好地體現(xiàn)了學科交叉的特點;運用NMR、電子顯微鏡等結構生物學研究國內實驗比較少;多糖與糖復合物、環(huán)境生物物理方面的課題基礎稍弱,電離、電磁輻射等對機體的生物效應及作用機制仍集中在細胞或整體水平;生物聲學、生物光學等方面的研究以及生物物理、分子生物學新技術新方法方面的申請不多?! 〗窈蟊緦W科重點資助方向主要包括以下幾個方面: 蛋白質結構與功能和蛋白質折疊是生物物理
25、、生物化學領域的重要研究方向。本學科鼓勵和資助包括生物大分子結構計算與預測、蛋白質晶體學、核磁共振波譜、生物質譜、電鏡等研究蛋白質及其復合物的申請。鼓勵發(fā)展新的結構生物學方法用于蛋白質等生物大分子的結構測定和功能研究。 鼓勵和資助研究細胞信號轉導中生物大分子之間的相互作用的課題申請。如研究重要信號通路和途徑中各個重要環(huán)節(jié)的蛋白質之間的相互作用,鑒定和發(fā)現(xiàn)信號轉導網(wǎng)絡的新組分,揭示信號轉導通路和網(wǎng)絡的結構和功能等?! NA、RNA
26、等作為遺傳信息載體,研究其結構和功能及與蛋白質的相互作用是該領域更基礎的課題?;虮磉_調控等是本學科以往在核酸領域重點支持的方向之一。RNA在基因表達調控中的作用和機制是近年來生化領域研究的熱點,RNA選擇性剪接、RNA水平的編輯、snRNA、miRNA在涉及諸多生命活動過程的作用和調控機制等方面仍有許多問題值得研究?! W科鼓勵借鑒數(shù)學、信息科學等交叉學科的方法和思路。重視和鼓勵生物信息學、系統(tǒng)生物學或整合生物學研究課題;適當鼓勵計
27、算生物學、單分子技術等交叉學科課題研究?! ∧さ鞍椎慕Y構與功能及膜蛋白與膜脂的相互作用是本學科研究的重點。膜蛋白高分辨空間結構研究是具有挑戰(zhàn)性的課題;學科鼓勵膜蛋白結構生物學研究;重視膜與細胞生物物理領域的研究?! 《嗵呛吞菑秃衔锏难芯恳彩钱斍吧锘瘜W與分子生物學研究的重要方面。學科將給予一定的扶持和鼓勵。 適當鼓勵在細胞和分子水平上研究環(huán)境物理因素對機體的影響,以及微重力條件對生物體的影響等研究課題。,遺傳與發(fā)育生物學學科
28、 遺傳和發(fā)育是兩類最基本的生命現(xiàn)象,在現(xiàn)代的生命科學研究中受到廣泛的重視?! ∵z傳學是研究遺傳和變異的科學。該領域的主要資助范圍涵蓋植物遺傳學、動物遺傳學、微生物遺傳學、人類遺傳學和醫(yī)學遺傳學,以及基因組學、群體遺傳學、進化遺傳學、表觀遺傳學和生物信息學等。鼓勵通過模式生物(酵母、果蠅、線蟲、斑馬魚、小鼠、大鼠、靈長類、擬南芥、水稻等)建立各種研究系統(tǒng)和模型,以揭示各種重要生命現(xiàn)象的遺傳基礎?! ”緦W科的申請項目中,基因的鑒定和功能
29、研究,包括人類疾病相關基因、植物的重要生物學性狀相關基因等,是受資助的主要方面?;虻谋磉_與調控研究是近年來十分活躍的領域,申請者應注意將基因表達調控與功能研究結合起來。表觀遺傳調控是新的研究熱點,學科將適當予以傾斜支持。此外,學科還將繼續(xù)重視利用模式生物開展基因功能研究和遺傳疾病的機制研究。 2008年的遺傳學研究領域,將繼續(xù)重視利用遺傳資源開展基因的分離鑒定,重視采用遺傳學研究手段,開展基因的功能和表達調控機理的研究,以及基于生
30、物信息學研究手段開展基因功能預測、基因組結構信息特征、比較基因組學等交叉領域的研究。特別鼓勵非編碼RNA基因的調控功能,表觀遺傳調控的生物學意義,以及多基因復雜性狀等方面的遺傳學研究?! “l(fā)育生物學主要研究生物體從發(fā)生到死亡的全過程,包括生殖細胞的發(fā)生、受精、胚胎發(fā)育、形態(tài)發(fā)生、器官形成直至發(fā)育成一個完整的生命個體,最終至衰老和死亡?! “l(fā)育生物學領域主要資助的范圍包括生殖細胞發(fā)生與發(fā)育,受精,胚層的形成,組織器官發(fā)生,組織的維持、
31、修復和再生,衰老,胚胎干細胞和成體干細胞的增殖與分化,體細胞核重編程及核質互作等。 發(fā)育生物學領域的研究主要在組織、器官和個體水平上展開,學科重視從分子機理上認識各種正常發(fā)育過程和理解發(fā)育缺陷的研究,鼓勵發(fā)育生物學與遺傳學、細胞生物學、分子生物學、臨床醫(yī)學等學科的交叉、滲透。鼓勵新的信號通路組分、非編碼RNA和各種表觀遺傳修飾對重要發(fā)育過程的調控作用及其與性狀的關系研究。重視組織、器官發(fā)生與再生;干細胞與胚胎發(fā)育的相關研究。,細胞生
32、物學學科 細胞生物學是研究細胞的生命活動規(guī)律及其機制的學科。現(xiàn)代細胞生物學研究主要是在分子、細胞和個體水平上,揭示在生理、病理及逆境等條件下細胞的結構、功能、表型及其調控機制。 本研究領域的主要資助范圍包括:細胞及細胞器的結構、成分及組裝機制,細胞骨架和分子馬達,細胞信號轉導,細胞周期,細胞分化及細胞極性,細胞粘附和運動、細胞外基質,細胞間通訊及相互作用,生物分子和囊泡運輸,細胞的表觀遺傳,細胞應激,細胞衰老,細胞死亡,細胞病變
33、,微生物與細胞相互作用,細胞生物學研究的新技術和新方法等。 細胞生物學研究重視利用各種新技術手段,對細胞的各種生命活動在時空上的精細的分子調節(jié)機制及復雜的調控網(wǎng)絡進行系統(tǒng)研究,重視細胞在機體環(huán)境中的正常功能和異常變化的分子機制研究?! 〗陙韲鴥燃毎飳W研究取得了一定的成就,但是申請項目仍然多以描述性為主,機制性探索較少。不少申請不能準確全面地分析該領域的研究現(xiàn)狀及項目的潛在科學貢獻,因而不能提出具有重要生物學意義的科學問題,或
34、缺少科學假說和驗證假說的科學的實驗方案。一些申請者缺乏相關的研究背景及研究條件,或者申請項目沒有良好的前期研究工作基礎,研究手段單一,研究內容不夠深入細致,內容過于空泛或龐大,項目缺乏對實驗技術路線失敗的可能性分析及相應的解決和替代方案?! ?008年將繼續(xù)強調功能和機理性研究,重視細胞生物學研究中各種新研究方法和手段的建立,重視從分子、細胞和個體水平上開展整合性研究,揭示與細胞功能和生物學效應相關的各種分子機制和調控網(wǎng)絡?! ?yōu)先
35、資助領域:細胞內各種結構/細胞器的組裝機理;蛋白質合成、修飾、降解、定位、轉位的機理;正常和異常條件下細胞信號轉導過程中蛋白復合物的聚合、解離、及其組分的定位和活性的時空變化;細胞衰老、死亡、癌變或其他病變的分子機理;細胞分化與遷移;染色質重塑與轉錄調控;miRNA對細胞功能的調控;細胞對抗逆境或微生物感染等應激反應的信號轉導機理;細胞生物學新的研究技術。 人體解剖學和組織、胚胎學主要資助人體細胞、組織、器官、系統(tǒng)和整體水平的發(fā)生、
36、發(fā)育、形態(tài)結構及其功能的研究。重視應用解剖和人類學的研究。鼓勵各種新的研究手段在該領域中的應用,特別是從結構形態(tài)擴展到功能,從細胞延伸到分子水平開展相關的研究。,§ 1.3 生物信息學基本方法與前沿技術 1.2.1基本方法,目前,生物信息學研究的基本方法主要有以下幾種 1、建立生物數(shù)據(jù)庫 盡管已有大量的公共數(shù)據(jù)庫系統(tǒng)(如GenBank和PDB等)可供世界范圍內的研究者使用,但有時這些公共數(shù)據(jù)庫在內容或
37、數(shù)據(jù)綜合、檢索途徑上不一定能滿足實際研究的需要。因而,針對生物信息學特定的研究與開發(fā)工作,必須建立自己的數(shù)據(jù)庫或數(shù)據(jù)獲取界面。 2、數(shù)據(jù)庫檢索 越來越多的數(shù)據(jù)庫檢索工具已投入實際應用。其中,序列相似性檢索軟件(如BLAST系列)應用最為廣泛。開發(fā)和使用這些檢索工具時,必須明了檢索目的、數(shù)據(jù)結構、結果顯示等要素,同時應考慮檢索效率等實際問題。 3、序列分析 分子序列分析是生物信息學的核心方法,包括從
38、序列對位排列(Sequence alignment),到序列同源比較和進化分析,,直至基因組分析和蛋白質組分析等。 4、統(tǒng)計模型 越來越多的統(tǒng)計模型已用于生物信息學研究。例如,隱馬爾可夫模型(hidden Markov model,HMM)在基因識別和藥物設計中具有重要的應用價值;最大似然模型(maximum likelihood model,MLM)已成為序列進化分析中的一種常規(guī)方法。 5、算法 在生
39、物信息學實際工作中已建立了大量算法,如自動序列拼接、外顯子預測和同源比較算法等。算法的敏感性、特異性和復雜性都是必須考慮的因素。另一方面,生物學中的特殊問題也促進了計算機算法的發(fā)展,如遺傳算法(genetic algorithm)和人工神經(jīng)網(wǎng)絡(artificial neural network)的建立與發(fā)展。這些算法反過來又應用于生物信息學的研究。,1.2.2 前沿技術 1、數(shù)據(jù)管理技術 數(shù)據(jù)庫及其管理系統(tǒng)是生物信息
40、學工作的基礎,目前已發(fā)展得較為成熟的是集中式大型分子數(shù)據(jù)庫(如GenBank, EMBL和DDBJ等)。新的發(fā)展趨勢是應用互操作(database interoperation)以及數(shù)字圖書館(digital library)技術來進行異構數(shù)據(jù)庫集成。 2、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術 這些技術主要包括分子數(shù)據(jù)庫的檢索與分析工具等。例如,通過序列相似性比較來識別未知基因,或預測蛋白質結構。傳統(tǒng)數(shù)據(jù)分析技
41、術主要采用了統(tǒng)計學方法,目前的技術包括專家系統(tǒng)(expert system )、數(shù)據(jù)挖掘工具和本體論(ontology)等。這些技術能集成大量數(shù)據(jù)資源,發(fā)現(xiàn)其中蘊藏的有用信息,并通過語義互操作手段給出一致性解釋。 3、圖像處理與可視化技術 在傳統(tǒng)的數(shù)字圖像處理(digital image process)和模式識別(pattern recognition)技術的基礎上,重點開發(fā)用于處理高通量生物圖譜的計算機系統(tǒng)。例如
42、,在蛋白質組分析中,雙向,凝膠電泳圖譜已經(jīng)成為大規(guī)模蛋白質鑒定和蛋白質表達差異研究的必備手段,而計算機輔助圖像分析系統(tǒng)(包括電荷藕合器件相機、激光密度儀以及專業(yè)軟件包等)可以快速、有效地處理雙向凝膠電泳圖譜,檢測斑點和相關信息。 數(shù)據(jù)可視化(data visualization)以探索性數(shù)據(jù)分析(exploratory data analysis,EDA)和統(tǒng)計語言為基礎,逐漸發(fā)展出統(tǒng)計圖形學引擎(statistical gra
43、phics engine)、格子圖形學(trellis graphics)、交互動態(tài)圖形學系統(tǒng)(如Xgobi)、高維標度圖形排版系統(tǒng)(如Xgvis)以及大型網(wǎng)絡的交互可視化工具等(Meyer和Cook, 2000)。,§1.4 生物信息學的主要研究內容,1.4.1生物分子數(shù)據(jù)的收集與管理生物分子數(shù)據(jù)量巨大,特別是核酸序列的數(shù)據(jù)以千兆計。有組織地搜集和管理這些數(shù)據(jù)是各項工作的前提 1.4.2數(shù)據(jù)庫搜索及序列比較生物學研究人
44、員希望能夠通過搜索序列數(shù)據(jù)庫找到與新序列同源的已知序列,并根據(jù)同源性推測新序列的生物功能 對于DNA序列,同源搜索除有助于確定其功能之外,還有助于確定編碼區(qū)域,確定基因,1.4.3基因組序列分析在DNA序列分析方面,識別蛋白質編碼區(qū)域或識別基因是最關鍵的 從編碼區(qū)域可以推導出基因的結構及其對應的蛋白質序列 除尋找基因之外,詳細分析非編碼區(qū)域也是非常有意義的,目前的主要工作是分析與基因表達調控相關的信息,分析各種功能位點,分析基
45、因轉錄調控元件 1.4.4基因表達數(shù)據(jù)的分析與處理分析基因表達數(shù)據(jù)是目前生物信息學研究的熱點和重點 一塊基因芯片就可以產(chǎn)生上千個基因的表達數(shù)據(jù),數(shù)據(jù)處理量大幅度增加,數(shù)據(jù)之間的關系也更加復雜。對基因表達數(shù)據(jù),在大規(guī)模數(shù)據(jù)集上進行分析、歸納,可以了解基因表達的時空規(guī)律,探索基因表達的代謝控制,了解基因的功能,理解遺傳網(wǎng)絡,提供疾病發(fā)病機理的信息 基因表達數(shù)據(jù)的處理主要是進行聚類分析 ,還有主成分分析方法 最近,國際上在基因調控網(wǎng)
46、絡分析方面進行了許多有意義的工作 1.4.5蛋白質結構預測蛋白質結構預測分為二級結構預測和空間結構預測 ,二級結構的預測方法,但其準確率一般都不超過65% ,在空間結構預測方面,比較成功的理論方法是同源模型法,§1.5 生物信息學的應用,1.5.1生物信息的經(jīng)濟價值與生物信息學市場生物信息蘊藏著巨大的經(jīng)濟價值。許多國家的政府機構和公司紛紛投資生物信息產(chǎn)業(yè),其中制藥業(yè)對生物信息的需求最大。據(jù)估計,目前的處方藥僅采用約500
47、個基因產(chǎn)物作為靶標。隨著人類基因組計劃的完成,數(shù)以千計的基因有可能成為合適的藥物靶標。例如,G-蛋白偶合受體作為一大類潛在的靶標受到普遍的關注,而TinyGRAP數(shù)據(jù)庫系統(tǒng)就是一種有關G-蛋白偶合受體的數(shù)據(jù)挖掘工具。盡管生物信息學實際和潛在的市場規(guī)模很難分析,但確已呈現(xiàn)出良好的勢頭。表1-1粗略地反映了國外生物信息學的市場調查和預測情況。表1-2則列出了國外一些主要的生物信息公司的研究計劃和項目。從中可以發(fā)現(xiàn)信息集成技術、疾病基因和藥
48、物設計已成為熱門項目。,表1-1 生物信息學市場規(guī)模,表1-2 若干生物信息公司及研發(fā)其項目,續(xù)表1-2,1.5.2基因組分析人類基因組草圖剛剛完成,還有大量的生物信息學分析工作亟待進行,其他生物基因組計劃正方興未艾,這些都需要應用生物信息學工具。目前,生物信息學在基因組分析中的應用反映出以下幾個方面的特點:將已知基因的序列與功能聯(lián)系在一起;從基于常規(guī)克隆的基因分類轉向基于序列及功能分析的基因分類;從單個基因致病機制的研究轉向多
49、個基因致病機制的研究;從組織與組織之間的比較來研究功能基因組和蛋白質組(見下圖)從基因組和蛋白質組的結構與功能關系來預測三級結構和功能,并從三級結構和功能反推可能的序列;通過比較不同生物物種的基因組來進行分子進化研究。其中,組織與組織之間的比較主要包括:正常組織與疾病組織之間的比較;正常組織與激活組織之間的比較;疾病組織與處理(治療)的組織之間的比較;相同組織在不同發(fā)育過程中的比較。,功能基因組學,蛋白質組學,,cDNA陣列,,轉
50、基因技術,噬菌體抗體文庫,基因組學,,,,圖1-2 功能基因組學相關技術,不同生物的基因組比較具有重要的理論與應用價值。例如,秀麗新小桿線蟲(C.elegans)的全基因測序于1998年12月完成,這是人類獲得的第一個多細胞生物的全基因序列(The C. elegans Sequencing Consortium,1998)。線蟲基因組大小為9.7×108bp,約為人類基因組的1/30,基因19000多個,具有基因密度高(平
51、均每5 kb有1個基因)、內含子少的特點。比較基因組學研究表明,線蟲具有許多與人及其他動物同源的基因或蛋白。例如,人類已知44個疾病基因中有32個與線蟲基因相吻合,其中人類早老性癡呆癥、囊狀纖維變性和洛氏綜合征等均具有對應的線蟲基因。因而,線蟲基因組及比較基因組學分析方法在人類疾病基因的研究中將發(fā)揮重要作用。,1.5.3 基因芯片基因微陣列或DNA芯片的原理是將幾萬個核苷酸或DNA作為探針,密集排列于硅片等固相支持物上,將研究樣品標
52、記后與微點陣雜交并進行檢測。根據(jù)雜交信號強弱及探針位置和序列,可以確定靶DNA的表達情況以及突變和多態(tài)性存在與否。芯片技術的突出特點是高度并行化、多樣化、微型化和自動化等,因而被廣泛用于測序、轉錄情況分析、不同基因型細胞的表型分析以及基因診斷、藥物設計等領域,成為后基因組時代基因功能分析的支撐技術之一。隨著DNA芯片或蛋白質芯片的高通量檢測獲得數(shù)據(jù)能力的迅速增加,如何進行快速有效的數(shù)據(jù)分析成為生物信息學的一項重要任務。例如,2000年
53、在瑞士召開的"lab-chips and microarrays"會議最后與劍橋健康技術研究院(CHI)的生物信息學會議合二為一。會議報告包括了下面幾項內容: (1) 將EST測序與cDNA微陣列計劃相整合,增強新的診斷基因的鑒定能力,用于環(huán)境毒理監(jiān)測。新的發(fā)展趨勢是將芯片上的基因數(shù)目增加至1200-1300個,并逐步實用化。,(2) 開發(fā)統(tǒng)計分析工具及軟件,如GeneData Expressionist主
54、要用于檢驗數(shù)據(jù)的可重復性與靈敏度,同時檢測芯片生產(chǎn)、探針配備和圖像分析中可能出現(xiàn)的問題。聚類分析(cluster analysis)是目前常用的一種多元數(shù)據(jù)分析方法,簡單實用,但缺乏嚴格的統(tǒng)計檢驗基礎,因而是一種過渡性方法。目前,基因芯片數(shù)據(jù)處理仍然需要發(fā)展新的分析方法與工具。1.5.4藥物開發(fā)如前所述,新藥開發(fā)是生物信息學的主要應用領域,也是生物信息學研究與開發(fā)中主要的經(jīng)費來源。基因組研究對現(xiàn)代與未來藥物學和藥理學產(chǎn)生了重大影響,
55、尤其為新藥篩選、藥靶設計和分子藥理學研究,以及疑難病的藥物設計和途徑選擇等提供了新的方法論基礎?;蚪M學與藥物學的結合已產(chǎn)生出一門新的分支學科—藥物基因組學(pharmaco-genomics)。簡而言之,藥物基因組學旨在理解個體對藥物不同反應的遺傳背景,即為什么某種藥物對一部分人群有效,而對另一部分人群效果不佳或完全失效。制藥公司將充分應用藥物基因組學及生物信息學其他分支學科的理論知識和技術手段來設計臨床實驗并模擬和分析理論與實驗數(shù)據(jù)
56、。這將,大大減少新藥開發(fā)成本,縮短開發(fā)周期,為患者、醫(yī)生和健康醫(yī)療機構等諸方面帶來選擇性治療的革命。模式生物及其基因組比較是現(xiàn)階段藥物基因組學的重要手段之一,這不僅體現(xiàn)在可以通過同源比較來獲得基因信息,而且可以藉生物技術快速獲得有關途徑(pathway)與交互作用(interaction)信息。圖1-3反映了在潛在的藥物靶標設計過程中,模式生物與比較基因組學研究以及新的實驗技術所獲得的知識相整合的必要性,這可以補充和發(fā)展的序列—結構—
57、功能方法。例如,近來人們已經(jīng)發(fā)現(xiàn)核受體 (nuclear recentor.NR)超基因家族中包含一些重要的藥物靶標,同時令人驚訝地發(fā)現(xiàn)在線蟲中含有200多個該基因家族成員。這一研究成果已在藥物開發(fā)中發(fā)揮了新的作用,1.5.5 其他應用領域 1、寄生蟲與流行病學研究 生物信息學在醫(yī)學研究中應用十分廣泛,其中寄生蟲和流行病學研究就是較好的例子。在寄生蟲學研究中,以下幾個方面涉及生物信息學的工作: (1) 基因組
58、測序 一批人類寄生蟲的基因組計劃已經(jīng)實施,包括惡性瘧原蟲、黑熱病原蟲、血吸蟲和絲蟲等。生物信息學在大量的序列拼接中起關鍵作用。 (2) 電子克隆 應用EST分析和電子克隆可獲得全長cDNA序列,再經(jīng)實驗方法驗證。 (3)種下比較 一般生物種下的表型與基因型比較工作采用選擇交配和遺傳分析等方法,這對許多寄生蟲是不可能的。對寄生蟲基因序 列進行分析,可以提供從核苷酸水平到表型變異的信息。一個成
59、功的例子是藥物耐受性和抗性的表型分析,(4) 種間比較 對不生物種間進行比較常常用于確定基因功能和鑒定同源基因以及生物化學途徑。隨著寄生蟲基因組計劃的完成,種間比較獲得的相關種趨同的相似區(qū)域將有助于在某種特定的表型中發(fā)現(xiàn)新的基因。在這一領域中,系統(tǒng)發(fā)育分析 (phylogenetic analysis)已經(jīng)成為一種重要的方法論工具。 (5) 基因表達式樣 在寄生蟲研究中,基因表達式樣分析主要用于了解寄生蟲
60、的 生活史策略、宿主及宿主轉移、生物化學途徑等諸方面的復雜關系。生物信息學在遺傳流行病學(genetic epidemiology)研究中也發(fā)揮了重要作用。遺傳流行病學研究必須借助生物信息學工具并結合統(tǒng)計遺傳學方法,綜合分析序列信息、群體的基因變異性和流行病學數(shù)據(jù)。表1-3和表1-4分別列出了若干用于遺傳流行病研究的數(shù)據(jù)庫和分析軟件。,表1-3 若干用于遺傳流行病研究的數(shù)據(jù)庫,Continue Table 1-3,Continue
61、Table 1-3,2. 農(nóng)作物基因組分析 對重要農(nóng)作物及經(jīng)濟植物進行基因組分析也需要生物信息學工具。例如,在植物基因組調控和結構研究中,涉及生物信息學的內容有:調控序列數(shù)據(jù)庫;基因表達的調控分析;基因組序列識別;基因結構預測,轉錄與翻譯控制模型;大規(guī)?;驍?shù)據(jù)集分析。生物信息學的特殊作用主要體現(xiàn)在以下幾個方面: (1) 通過比較基因組學、表達分析和功能基因組學分析方法識別重要基因。為轉基因農(nóng)作物生產(chǎn)、改進重要經(jīng)濟
62、作物的定性定量性狀提供基礎; (2) 以信號受體和轉錄途徑組分分析為基礎,進行農(nóng)化設計(design of agrochemcals)。在此基礎上,結合化學信息學(cheminformatics)方法,對可用于殺蟲劑和除草劑的潛在化學成分進行鑒定; (3) 利用植物遺傳資源,保護農(nóng)作物遺傳多樣性。這一領域的工作必須與分類學、生物多樣性研究以及數(shù)據(jù)資源管理技術緊密結合。,一些重要的農(nóng)作物基因組數(shù)據(jù)庫已相繼建立,其中部分數(shù)
63、據(jù)庫的名稱和網(wǎng)址如下:Arabidopsis Genome Initiative(AGI) (http://genome-www.stanford.edu/Arabidopsis/AGI )Arabilopsis. Genome Data Analysis(Cold Spring Harbor Laboratory) (http://nucleus .eshi.org/protarab)Plant Ge
64、nome and Information Center USDA (http://www.nal.usda.gov/pgdic)UK Crop Plant Bioinformatics Network (http://synteny.nott.ac.uk/agr/agr.html)The Institute for Genomic Research(TIGR)Database (http://ww
65、w.tigr.org) Arabidopsis Genome Center at the University of Pennsylvania (http://genome.bio.upenn.edu/ATGCUP.html)The Genome Sequencing Center of Washington University in St Louis (http://genome.wustl.edu/gs
66、c)Grain Genes Database (http://wheat.pw.usda.gov),Maize Genome Database (http://www.agron.missouri.edu)Arabidopsis Internal Coding Exon Finder (http://clio.cshl.org/genefinder/ARAB/crab.html)NetPlant
67、Gene V2.0 Web Prediction Server (http://www.cbs.dtu.dk/NetPlantGene.html) 3. 神經(jīng)科學 神經(jīng)科學研究已成為現(xiàn)代生命科學的前沿之一。據(jù)估計,每年全世界約新增1500個神經(jīng)圖像研究項目,所產(chǎn)生的數(shù)據(jù)量達1014數(shù)量級。在這一領域中,數(shù)據(jù)共享問題已十分突出,主要體現(xiàn)在: (1) 與其他生物數(shù)據(jù)庫不同,神經(jīng)圖像數(shù)據(jù)集的結構與內
68、涵國際上尚無一致采納的標準,不同實驗室所使用的數(shù)據(jù)格式也存在很大差別; (2) 神經(jīng)圖像化方法變化較快,導致數(shù)據(jù)結構與內涵的快速變化。例如,隨著從解剖到功能核磁共振作圖(magnetic resonance imaging, MRI)的轉換,數(shù)據(jù)格式也從三維變化成四維;,(3) 神經(jīng)功能圖像往往與特定的環(huán)境和行為條件相關聯(lián),然而通常缺乏背景數(shù)據(jù),也沒用合適的工具處理這類數(shù)據(jù)。國際人腦圖譜組織(Organization f
69、or Huamn Brain Mapping, OHBM)及其神經(jīng)信息學委員會(Neuroinformatics Committee)等組織開發(fā)了神經(jīng)圖像數(shù)據(jù)庫,為神經(jīng)科學研究提供了重要的支撐條件(The Governing Council of the OHBM, 2001)。這些數(shù)據(jù)庫的主要特點為: (1) 數(shù)據(jù)、數(shù)據(jù)庫和數(shù)據(jù)模型的多樣性 由于腦圖像數(shù)據(jù)的多樣性,人們必須建立不同類型的數(shù)據(jù)庫,一些采用集中式數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論