對長鏈非編碼RNA序列、進化與種系特異性的計算研究.pdf_第1頁
已閱讀1頁,還剩152頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:
  長鏈非編碼RNA研究目前面臨幾個重要的適合于計算分析的問題:(1)具有重要功能的IncRNA起源于哺乳動物進化的什么時期。(2)長鏈非編碼RNA如何獲得多個外顯子以及功能域。(3)如何預測長鏈非編碼RNA的DNA結合域和結合位點,從而預測長鏈非編碼RNA的靶基因。(4)長鏈非編碼RNA的DNA結合域是否有一個逐漸進化的過程。(5)長鏈非編碼RNA呈現(xiàn)怎樣的種系特異性,尤其是,人類與靈長類有哪些特異性的長鏈非編碼RNA。

2、針對這些問題,本研究的主要目的是:(1)揭示若干重要長鏈非編碼RNA的起源;(2)揭示這些長鏈非編碼RNA的進化特點,包括轉座子對長鏈非編碼RNA的進化影響:(3)揭示長鏈非編碼RNA的種系特異性,尤其是靈長類或人類特異的長鏈非編碼RNA;(4)揭示長鏈非編碼RNA功能域起源與進化的特性;(5)設計開發(fā)預測長鏈非編碼RNA:DNA的結合域與結合位點的算法與軟件,分析典型長鏈非編碼RNA的DNA結合域與結合位點。
  方法:

3、  針對上述研究目的,本研究采用并發(fā)展了如下研究方法。
  1.識別人類長鏈非編碼RNA在其它物種的直系同源物
  根據(jù)基因組搜索來確定GENCODE項目報道的13562個人類長鏈非編碼RNA和其它實驗研究報道的重要長鏈非編碼RNA在其它物種的同源序列。鑒于補償性突變使得長鏈非編碼RNA的同源序列具有序列保守性低而結構保守性高的特性,BLAST/BLAT不能可靠地搜索長鏈非編碼RNA的同源序列,我們用基于結構比對的RNA搜索

4、軟件Infernal來搜索長鏈非編碼RNA在多個物種的同源序列。大規(guī)模的基因組搜索在本地服務器和廣州超級計算中心的天河二號計算機進行。
  2.分析長鏈非編碼RNA的序列特征與進化特征
  用Phylip、MrBayes、 MEGA等構建進化樹,用PAML軟件分析進化速度,用EvoNC分析長鏈非編碼RNA相對于參照基因所受的選擇壓力,用Phylip及MEGA和不同模型計算序列間距離(選用12S和16S rRNA作為中性參考序

5、列),用Pmmulti和RNAalifold進行外顯子結構比對,用RNAfold和Mfold預測外顯子的保守結構。
  3.根據(jù)人類長鏈非編碼RNA的同源基因揭示人類與靈長類特異性長鏈非編碼RNA
  我們將13562個人類長鏈非編碼RNA在16個哺乳類動物的直系同源狀態(tài)轉為離散數(shù)據(jù),1表示該基因在某物種中存在直系同源基因,0表示該基因在某物種中不存在直系同源基因,然后基于這些離散狀態(tài)估計長鏈非編碼RNA在系統(tǒng)發(fā)育樹下的ga

6、in/loss事件。
  4.設計開發(fā)預測長鏈非編碼RNA的DNA結合域與結合位點的軟件LongTarget
  LongTarget軟件主要立足于三點:全面的Hoogsteen和反Hoogsteen堿基配對規(guī)則、局部比對、以及對所有TFO/TTS預測的分析。我們通過系統(tǒng)回顧相關文獻整理出24條Hoogsteen和反Hoogsteen堿基配對規(guī)則集,對于一段感興趣的雙鏈DNA區(qū)域,根據(jù)每一條堿基配對規(guī)則集重構四條RNA序列,

7、根據(jù)局部比對同時識別一個長鏈非編碼RNA的DNA結合域和這段DNA區(qū)域中的長鏈非編碼RNA結合位點。我們用置換檢驗來評估預測結果的敏感性與專一性。
  5.考察長鏈非編碼RNA功能域的進化特性
  使用LongTarget,我們不僅預測人類HOTAIR的DNA結合域,還預測其它物種HOTMR的DNA結合域,從而揭示HOTMR DNA結合域的種系差異和進化特性。
  結果:
  1.HOTMR的分析結果
  

8、HOTAIR的直系同源基因僅存在于真哺乳動物中,且外顯子表現(xiàn)出種系特異性缺失,HOTMR exon2在dog、mouse和rat中沒有找到直系同源序列,而且HOTAIR的功能域與保守區(qū)也表現(xiàn)出種系特異性缺失,長達1800bp的人類HOTMR exon6在靈長類中有得分較高的較完整的匹配,但在其它哺乳動物匹配的得分很低,尤其是在mouse和rat中僅有很短的匹配,一大段的保守區(qū)在mouse和rat HOTAIR缺失。
  2.ANR

9、IL的分析結果
  與HOTAIR類似,沒有在非哺乳脊椎動物、單孔目哺乳動物和有袋類哺乳動物中發(fā)現(xiàn)ANRIL的直系同源物。ANRIL的直系同源序列最早出現(xiàn)于貧齒目(sloth)和非洲獸總目(elephant)中,其基因結構逐漸在勞亞獸總目中豐富起來。但是,一方面,在免形目和嚙齒目的分枝中ANRIL的外顯子逐漸丟失,進而在mouse和rat中完全丟失,另一方面,在類人猿中ANRIL獲得完整的基因結構和19個外顯子。
  ANR

10、IL外顯子在早期靈長類(tree shrew,tarsier)呈現(xiàn)出特殊和活躍的進化。多個轉座子主要在類人猿插入ANRIL,轉座子插入增進了ANRIL外顯子序列與二級結構的保守性。
  3.人類長鏈非編碼RNA的種系特異性分析結果
  由GENCODE項目第一期確定的13562個人類長鏈非編碼RNA在其它物種的直系同源基因數(shù)目統(tǒng)計如下:單孔目哺乳動物platypus有1008個(7%),chimpanzee有13239個(9

11、8%),嚙齒目動物中的mouse和rat分別為4416個(30%)和4099個(28%)。
  用mix軟件估計了長鏈非編碼RNA在各個祖先節(jié)點的gain/loss數(shù)量,嚙齒目、兔類、樹鼩目和靈長目的早期共同祖先有7458個(55%)同源基因,在此之后,同源基因的數(shù)量在嚙齒目和兔類祖先有逐漸降低的趨勢,而在靈長目和樹鼩目的祖先則迅速增多,在靈長目祖先增加到10498個(77%)。
  4.長鏈非編碼RNA的DNA結合域與結合

12、位點預測算法
  基于24條Hoogsteen和反Hoogsteen堿基配對規(guī)則集,開發(fā)了預測長鏈非編碼RNA的DNA結合域和結合位點的軟件LongTarget,該算法表現(xiàn)出高敏感性和專一性。
  5.典型長鏈非編碼RNA的DNA結合域與結合位點預測
  用LongTarget分析了逾20個典型長鏈非編碼RNA,并和Triplexator的預測結果進行了比較,我們發(fā)現(xiàn)LongTarget預測出來的DNA結合位點位于目標

13、基因的啟動子區(qū)域、CpG島和轉座子區(qū)域,而且與ChIP-seq實驗揭示的染色質組蛋白甲基化區(qū)域高度吻合。相比而言,Triplexator的許多預測結果偏離了啟動子區(qū)域等重要已知調控元件。
  結論:
  1.HOTAIR和ANRIL起源于真哺乳動物,HOTAIR在進化中獲得功能域,而ANRIL則在進化中獲得外顯子,兩個基因都表現(xiàn)出種系特異性進化特征,提示長鏈非編碼RNA序列與功能的種系特異性,也提示長鏈非編碼RNA與種系形成

14、可能有密切關系。
  2.ANRIL以及其它許多長鏈非編碼RNA的形成與進化與轉座子有密切的聯(lián)系,轉座子的插入及馴化對ANRIL外顯子的序列、結構、保守性有顯著的影響。長鏈非編碼RNA與轉座子的關系也是長鏈非編碼RNA種系特異性的一個重要方面。
  3.根據(jù)對13562個人類長鏈非編碼RNA同源基因的分析,我們發(fā)現(xiàn)它們表現(xiàn)出明顯的種系特異性,且大量人類長鏈非編碼RNA是靈長類特有的,其中約2%是人類特有的。特別是,在單孔目哺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論