基于機(jī)器學(xué)習(xí)算法的非編碼RNA識(shí)別.pdf_第1頁(yè)
已閱讀1頁(yè),還剩82頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、越來(lái)越多的研究表明非編碼RNA(ncRNA)在細(xì)胞中發(fā)揮著重要的生物學(xué)功能,包括控制染色體的動(dòng)態(tài),RNA的剪接,RNA的編輯,抑制翻譯和mRNA的沉默等等。盡管ncRNA不編碼蛋白質(zhì),但是大量的實(shí)驗(yàn)證明眾多的非編碼RNA有著重要的調(diào)控功能。經(jīng)過(guò)對(duì)人類轉(zhuǎn)錄組的分析得知,大約有70%的人類基因組被轉(zhuǎn)錄為ncRNAs,而PCT(protein-coding transcripts)只占整個(gè)基因組的2-3%。根據(jù)轉(zhuǎn)錄體的長(zhǎng)度,ncRNAs大致可

2、分為短非編碼RNA(如microRNA(miRNA),short-interfering RNA(siRNA), piwi-interacting RNA(piRNA), small nucleolarRNA(snoRNA),and short hairpin RNA(shRNA))和長(zhǎng)非編碼RNA(lncRNA)。本文主要研究了miRNA,piRNA和lncRNA的識(shí)別,取得了一些創(chuàng)新成果。主要分為以下3大模塊:
  (1)利用

3、新型的機(jī)器學(xué)習(xí)算法(極限學(xué)習(xí)機(jī))研究了miRNA前體的識(shí)別。
  miRNA主要通過(guò)與靶基因進(jìn)行完全互補(bǔ)配對(duì)或者不完全互補(bǔ)配對(duì)來(lái)調(diào)控靶基因的表達(dá),作為一種內(nèi)源的非編碼RNA在動(dòng)植物的生命過(guò)程中起著重要的調(diào)控作用。同時(shí)它與癌癥等重大疾病有著密切的關(guān)聯(lián)。所以準(zhǔn)確識(shí)別miRNA是研究miRNA功能的首要步驟。然而利用實(shí)驗(yàn)的方法是非常耗時(shí)和昂貴的,并且對(duì)于那些低表達(dá)和特定環(huán)境表達(dá)的miRNA無(wú)能為力。在本文中,我們優(yōu)化了32維的局部相鄰的

4、結(jié)構(gòu)序列特征。由于miRNA前體具有莖環(huán)結(jié)構(gòu),如果記錄整條序列關(guān)于每個(gè)堿基的特征,將帶來(lái)的一定的信息冗余。為了有效降低時(shí)間復(fù)雜度和信息冗余度,我們利用雙向窗口滑動(dòng)來(lái)提取特征。得到了8維優(yōu)化局部相鄰的連續(xù)序列特征(OP-Triplet)。結(jié)合最小自由能和結(jié)構(gòu)的多樣性指標(biāo),我們得到一個(gè)10維的特征向量。我們還介紹了一種新型的機(jī)器學(xué)習(xí)算法——極限學(xué)習(xí)機(jī)(ELM)。結(jié)果表明,ELM分類器與MiPred classifier(RF)和Triple

5、t-SVM-classifier分類器相比,分類效果有了明顯的提升。此外,基于優(yōu)化的特征集去比較這三個(gè)分類器得知ELM算法和優(yōu)化的特征集對(duì)分類效果的提高都有一定的貢獻(xiàn)。
  (2)采用集成的極限學(xué)習(xí)機(jī)算法準(zhǔn)確識(shí)別人類piRNA。
  piwi-interacting RNA(piRNA)是一種從哺乳動(dòng)物細(xì)胞中分離出來(lái)的新型的小非編碼RNA,長(zhǎng)度大約在19-33個(gè)核苷酸,主要集中在26-33個(gè)核苷酸范圍內(nèi)。piRNA通過(guò)結(jié)合p

6、iwi蛋白形成一個(gè)核蛋白復(fù)合體,是從小鼠的睪丸里面提取得到的。piRNA可以保護(hù)動(dòng)物的細(xì)胞受到轉(zhuǎn)座因子的作用,另外一些研究表明piRNA可能在一些癌癥中發(fā)揮著重要的作用。
  在本文中,我們引入一個(gè)新的機(jī)器學(xué)習(xí)算法——投票的極限學(xué)習(xí)機(jī)(VELM),同時(shí)利用一種混合的特征向量來(lái)識(shí)別人類piRNA。為此,我們提出了80維的短序列模式的新特征(SSM),并通過(guò)結(jié)合1364維k-mer特征和80維SSM特征形成一個(gè)1444維的混合特征向量

7、。然而,并不是所有的特征都有助于分類器的性能。我們利用特征評(píng)分標(biāo)準(zhǔn)(FSC)來(lái)優(yōu)化1444維特征向量,計(jì)算每個(gè)特征的FSC評(píng)分,然后對(duì)它們進(jìn)行降序排列,F(xiàn)SC排名前400的信息特征作為分類器的輸入特征向量。因此,來(lái)自于無(wú)效的特征和算法復(fù)雜性所帶來(lái)的信息冗余將有效地減少。同時(shí),基于投票的極限學(xué)習(xí)機(jī)(V-ELM),我們可以準(zhǔn)確地預(yù)測(cè)分類函數(shù)邊緣的樣本。結(jié)果表明,V-ELM分類器與piRPred和piRNApredictor相比,V-ELM算

8、法更有效。
  (3)基于隨機(jī)森林算法識(shí)別長(zhǎng)非編碼RNA(incRNA)。
  作為真核細(xì)胞轉(zhuǎn)錄組的主要部分,lncRNA已被證實(shí)與許多疾病如癌癥相關(guān),例如,心力衰竭、艾滋病等等。關(guān)于與疾病相關(guān)的lncRNA的數(shù)據(jù)庫(kù)lncmadisease已被構(gòu)建,其中記載了1000個(gè)lncRNA與疾病之間關(guān)系,其中包括321條LncRNA和221個(gè)疾病。因此,準(zhǔn)確識(shí)別和注釋LncRNA是更深入了解LncRNA調(diào)控機(jī)制的關(guān)鍵一步。
 

9、 在本文中,我們引入了MaxORF,RMaxORF和SNR三個(gè)新特征。將86個(gè)序列特征和這3個(gè)特征組合在一起,形成一個(gè)89維的混合特征。然而,并不是所有的特征都有助于分類性能的提高,所以我們使用功能評(píng)分標(biāo)準(zhǔn)(FSC)優(yōu)化89維特征,F(xiàn)SC排名前30的特征作為分類器的輸入向量。此外,為了發(fā)現(xiàn)新的lncRNA,我們構(gòu)建了RF分類器模型。RF分類器模型的構(gòu)建用來(lái)發(fā)現(xiàn)新的lncRNAs。魯棒性是一個(gè)隨機(jī)森林算法RF的優(yōu)點(diǎn),因?yàn)镽F可以通過(guò)隨機(jī)選

10、擇特征來(lái)建立一個(gè)集成分類器。RF分類器的精度取決于訓(xùn)練樣本的選取。為了選取具有代表性的樣本來(lái)構(gòu)建訓(xùn)練集,我們使用自組織特征映射(SOM)來(lái)選擇訓(xùn)練數(shù)據(jù)集。最后,我們提供了一個(gè)高度可靠和準(zhǔn)確并稱之為L(zhǎng)ncRNApred的工具,它可以從成千上萬(wàn)轉(zhuǎn)錄中準(zhǔn)確而快速識(shí)別lncRNA。此外, LncRNApred也可以用來(lái)預(yù)測(cè)蛋白質(zhì)編碼轉(zhuǎn)錄本。結(jié)果表明,LncRNApred明顯優(yōu)于CodingPotential Calculator(CPC)。因此

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論