小鼠腦發(fā)育相關lncRNAs的高通量篩選及注釋平臺構建.pdf_第1頁
已閱讀1頁,還剩147頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、長非編碼RNAs(lncRNAs)是長度在200 nt以上的非編碼RNAs,在胚胎發(fā)育、癌癥、病痛和炎癥等過程中發(fā)揮重要的作用。然而,目前公共數據庫中小鼠lncRNAs數據較少,而其中被功能注釋的則更少。腦組織是lncRNAs表達的主要器官,預測腦表達lncRNAs對于全面識別小鼠腦發(fā)育相關的lncRNAs及認識其在腦發(fā)育中的作用具有重要意義。此外,將預測的lncRNAs與已知lncRNAs進行整合、注釋并存儲進專門的數據庫中對于lnc

2、RNAs的規(guī)范化和再利用具有重要意義。小鼠 DNA元件百科全書計劃測定了大量組織和細胞系的RNA測序(RNA-Seq)和染色質免疫共沉淀測序等高通量數據,對于預測新的lncRNAs提供了一個新的思路。因此,本研究收集大量組織和細胞系的RNA-Seq數據,基于RNA-Seq篩選鑒別新lncRNAs,通過基因組、轉錄組、表觀基因組和功能基因組學表征證明其有效性,利用模型進行特征選擇從而篩選腦發(fā)育相關的lncRNAs。整合已知和基于大規(guī)模 R

3、NA-Seq數據預測的lncRNAs,構建lncRNAs注釋平臺和開發(fā)分析工具,便利研究人員的使用。
  本論文首先對已有的RNA-Seq流程進行優(yōu)化,進而篩選胚胎腦發(fā)育相關的基因間、內含子和順式反義3種類型 lncRNAs。分別從基因組、轉錄組、表觀基因組和功能基因組學方法表征胚胎腦發(fā)育相關的新 lncRNAs,并與已知lncRNAs和編碼轉錄本進行比較。結果表明新lncRNAs具有相對完整的基因結構及較低的編碼潛能,具有與已知

4、lncRNAs相似的組織特異性,并與典型的染色質修飾相關。功能富集分析和基于RNA干擾的分析結果表明胚胎腦發(fā)育相關的lncRNAs具有潛在的腦發(fā)育調控功能和結合轉錄因子發(fā)揮功能的傾向。隨機挑選的lncRNAs的實驗驗證結果進一步表明lncRNAs具有較強的發(fā)育階段特異性并且可能受到印記機制調控。
  其次,LASSO調整的羅杰斯特回歸模型在本論文中被用于篩選 lncRNAs與編碼轉錄本之間的基因組和表觀基因組學差異。由于使用了3個

5、發(fā)育階段的染色質修飾數據,因此差異的特征可并用于篩選腦發(fā)育過程相關的lncRNAs。對模型進行十倍交叉證實和獨立檢驗集測試后發(fā)現特征選擇模型的性能和只使用基因組特征和染色質修飾特征相近,表明少數特征對lncRNAs的預測發(fā)揮了主要作用。基于特征選擇模型對3個發(fā)育階段的RNA-Seq數據預測的候選lncRNAs進行進一步篩選。通過對新lncRNAs進行的基因組、轉錄組和功能基因組學方法表征表明模型篩選腦發(fā)育相關lncRNAs的有效性。研究

6、lncRNAs與臨近編碼基因的關系后發(fā)現 lncRNAs傾向于與臨近編碼基因共表達,表明lncRNAs可能調控臨近基因。當使用模型分析lncRNAs特異性后,發(fā)現lncRNAs在腦發(fā)育過程中的表達特異性受到發(fā)育階段特異的染色質修飾調控,例如H3K4me1和H3K36me3,但并未發(fā)現受到基因組特征調控,表明LASSO模型具有腦發(fā)育過程特異 lncRNAs的識別能力。原位雜交結果驗證了隨機挑選的lncRNAs的腦發(fā)育特異性,而半定量RT-

7、PCR結果發(fā)現胚胎發(fā)育階段特異表達的lncRNAs傾向于具有腦組織特異性。
  再次,目前公共數據庫中 lncRNAs的數目較少,于是整合基于大規(guī)模的RNA-Seq數據預測的lncRNAs和已知lncRNAs注釋,從而識別出了約26萬個lncRNA轉錄本,稱之為 lncRNA合集。其中新 lncRNAs占75%,暗示大部分小鼠lncRNAs尚未被報道。分析發(fā)現該合集中新lncRNAs具有腦器官特異性,但沒有發(fā)育階段特異性。對新ln

8、cRNAs和已知轉錄本進行加權共表達網絡分析發(fā)現了57個模塊,其中對腦組織表達的轉錄本模塊進行的表達譜熱圖和GO生物學過程富集分析表明腦模塊中腦特異基因的富集,為功能注釋奠定基礎?;陔S機化實驗確定的共表達閾值,篩選了12548個預測的具有功能的lncRNAs,其中包括3128個預測的腦功能相關的lncRNAs。進一步利用牽連獲罪(guilt by association)方法預測新 lncRNAs的功能,結果發(fā)現預測出功能的新 lnc

9、RNAs數量比基于加權共表達網絡的方法的數量多1倍,并且注釋的功能條目數目要多2倍以上,突出了這種方法在預測lncRNAs功能方面的作用。基于交叉證實和獨立測試數據的檢驗初步證明牽連獲罪方法的有效性。
  最后,對lncRNA合集中腦表達的lncRNAs進行篩選,得到約246464個lncRNAs。對這些 lncRNAs進行基因組和功能基因組注釋,發(fā)現已知基因注釋僅能覆蓋不足1/3的lncRNAs;而幾乎所有的lncRNAs都可以

10、通過Entrez Gene ID得以在基因組定位,因此 lncbrain注釋平臺中可以通過該 ID進行 lncRNAs查詢。對lncRNAs的注釋存儲在建立的lncbrain注釋平臺中,該平臺具有較優(yōu)的平臺設計架構及可視化界面,可對查詢進行流暢的響應。平臺中除了有預先計算好的基因組注釋,還有支持使用者實時的表觀基因組和功能基因組分析模塊。此外,本文還對lncbrain平臺的使用進行了詳細的介紹。
  綜上所述,本文篩選了大量的腦表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論