基于整合組學策略的人類基因組功能元件的識別與注釋.pdf_第1頁
已閱讀1頁,還剩168頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著2003年人類基因組計劃的完成,我們獲得了人類基因組序列這本天書,但依然有許多問題沒有解決。一個重要的科學問題困擾著大家:機體中復雜的調控網絡是如何編碼在一維的基因組上的?識別基因組上所有的功能元件是理解轉錄調控背后的分子機制的必要前提,因而解決這個問題的關鍵是精確識別與注釋人類基因組上的重要功能元件。然而傳統(tǒng)的實驗手段如識別特殊的轉錄因子結合位置(ChIP,染色質免疫沉淀)在大量功能元件的識別與注釋上有諸多限制,如僅適用于與已知的

2、反式作用因子、依賴于分離相應轉錄因子的高質量ChIP級的抗體、價格昂貴等。
  近幾年國際上開展的大型科學計劃,包括ENCODE計劃、modENCODE計劃、表觀路線圖計劃等,提供了近700T功能元件識別與注釋相關的各組學公共數(shù)據;加上新一代測序的蓬勃發(fā)展,結合生物信息學分析技術的進步,為全面解析人類基因組中的功能元件提供了可能?;谶@些大數(shù)據資源,作者展開了人類基因組功能元件的識別和注釋研究。
  首先,研究從單個有代表性

3、的功能元件入手。染色質上的隔離子是調控基因表達水平的DNA功能元件,他有兩種方式來行使功能:一種是通過維持異染色質邊界來阻止基因沉默,另一種是阻止增強子和啟動子的作用關系來阻止基因轉錄的激活。CCCTC結合因子(CTCF)是一個廣泛表達的11-鋅指DNA結合蛋白,是脊椎動物中唯一的一個與隔離子相關的蛋白。雖然CTCF與眾多調控功能相關,但他只在人類基因組少量細胞系中被研究,因此,并不確定所識別的細胞特異性差異的CTCF結合位點是否在功能

4、上有顯著差異。我們識別了ENCODE計劃產生的人類基因組38個細胞系的CTCF結合位點,并將他們分為細胞特異的結合位點和普遍存在的結合位點。這些細胞特異的和普遍存在的CTCF結合位點展示了獨特的多樣轉錄功能和獨具特色的染色質特征。另外,我們確認了CTCF行使著隔離子的功能,并且首次發(fā)現(xiàn)CTCF參與DNA的復制過程。這些結果表明我們對CTCF全面系統(tǒng)的理解邁出了重要的一步。
  接下來,從整體上研究基因組上的開放區(qū)域DHSs。DHS

5、s是基因組上功能元件的候選區(qū)域,全基因組DHSs圖譜為轉錄調控區(qū)域的研究提供了重要線索。我們系統(tǒng)識別和注釋了人類基因組29個不同細胞系中的DHSs,試圖找到DHSs與組蛋白修飾、基因表達之間的關系。通過研究,我們發(fā)現(xiàn)了不同細胞系中DHSs、基因表達、活性和抑制組蛋白修飾數(shù)量之間的特殊關聯(lián)。這些關聯(lián)揭示了染色質域四個截然不同的結構狀態(tài):抑制態(tài)(repressive)、活性態(tài)(active)、原始態(tài)(primed)、二價態(tài)(bivalent

6、),不同的狀態(tài)對應不一樣的功能。更進一步,通過這些數(shù)據的整合分析,我們找到了CCCTC-結合因子CTCF。我們的研究結果揭示了包括DNA酶Ⅰ超敏位點和組蛋白修飾的復雜調控過程,并且表明這些動態(tài)元素可能負責維持染色體的結構和染色體的完整性。同時,在該研究中,我們基于不同技術平臺的多組學大數(shù)據,運用整合組學方法,提出了對轉錄調控機理更有意義的見解,這是是多平臺多組學大數(shù)據整合的一個值得參考的實例。
  第三,擴展到大量功能元件的識別。

7、要準確識別大量功能元件、獲取眾多轉錄因子結合位點信息十分困難,傳統(tǒng)的實驗手段幾乎不可能完成所有轉錄因子結合位點的定位。幸運的是,轉錄因子在基因組上的結合位點具有一定的特異性,可以根據這一特異性來識別轉錄因子結合位點。TRANSFAC、JASPAR、TRRD、TRED、PAZAR等轉錄因子數(shù)據庫提供了大量轉錄因子的模體信息,基于這些資源,作者開發(fā)了一套模式序列識別算法iFORM,在基因組上的開放區(qū)域(DHSs)識別轉錄因子結合位點。與國際

8、上主流的模式序列算法FIMO、CONSENSUS、HOMER、RSAT、STORM相比,iFORM不但能識別其他算法找到的可靠區(qū)間,也能識別其他算法無法找到的可靠區(qū)間,并且從ROC曲線中也能看出,iFORM明顯優(yōu)于其他算法。iFORM算法為全面解析人類基因組上的功能元件奠定了堅實的基礎。
  第四,多細胞系大量功能元件的整合分析。DNA酶Ⅰ超敏感位點定義了基因組中可訪問的染色質全景圖,使得多物種基因組中順式調控元件的識別有了革命性

9、的進展。我們基于iFORM方法識別的人類基因組133個細胞系和組織的轉錄因子結合位點,運用高斯核函數(shù)方法,首次得到了人類基因組上轉錄因子結合位點聚集區(qū)間(TFBS-clustered regions,簡稱聚集區(qū)間)全面圖譜。我們總共找到了近160萬個聚集區(qū)間,涵蓋了基因組上27.7%的堿基,并且依據每個聚集區(qū)間中轉錄因子結合的數(shù)量賦予其轉錄因子復雜度。轉錄因子復雜度與聚集區(qū)間的基因組位置、細胞特異性、進化保守性、序列特征以及功能作用均顯

10、著相關。采用ENCODE數(shù)據對聚集區(qū)間整合分析發(fā)現(xiàn):轉錄因子結合、轉錄活性、組蛋白修飾、DNA甲基化以及染色質結構均隨著轉錄因子復雜度的改變而有規(guī)律的變化。更進一步,我們發(fā)現(xiàn),對不同終端細胞系的聚集區(qū)間進行聚類,能夠重現(xiàn)細胞系的譜系進化規(guī)律。基于我們的研究結果,提出了基因組上的不同復雜度的轉錄調控模型。
  最后是轉錄因子調控網路研究。轉錄因子在基因上游調控基因表達,基因表達產物為轉錄因子,又可以調控基因,這就構成了轉錄因子調控網

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論