基于深度學(xué)習(xí)的蛋白質(zhì)-RNA相互作用預(yù)測模型構(gòu)建.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-01 格式：pdf 頁數(shù)：57 大?。?.11MB 人氣指數(shù)：12 舉報 版權(quán)申訴

基于深度學(xué)習(xí)的蛋白質(zhì)-RNA相互作用預(yù)測模型構(gòu)建.pdf_第1頁

已閱讀1頁，還剩56頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、目的：
　　蛋白質(zhì)-RNA相互作用（PRI）與基因表達(dá)調(diào)控等多種生物過程密切相關(guān)，是一種基本的生物大分子相互作用。例如，細(xì)菌調(diào)控sRNA（small RNA，小RNA）Csr B與其靶標(biāo)蛋白Csr A等的結(jié)合可調(diào)控碳的攝入、細(xì)胞運(yùn)動、生物膜形成、群落感應(yīng)與細(xì)菌致病性等。在真核生物中，許多非編碼RNA（non-codingRNA，ncRNA）可通過與蛋白質(zhì)結(jié)合而發(fā)揮多種功能。因此，構(gòu)建性能優(yōu)異的PRI預(yù)測模型具有重要意義，將為實驗研

2、究PRI提供生物信息學(xué)支持。
　　目前，PRI的生物信息學(xué)預(yù)測方法可分為四類，分別為結(jié)合RNA的蛋白質(zhì)殘基預(yù)測、結(jié)合蛋白質(zhì)的RNA小片段預(yù)測、基于序列水平的PRI預(yù)測和基于結(jié)合位點水平的PRI預(yù)測。其中第一類模型，可以預(yù)測蛋白質(zhì)序列中與RNA結(jié)合的殘基，但缺點是無法找出與之結(jié)合的RNA序列或堿基?；诘诙惸Ｐ?，可以找出RNA序列中與蛋白質(zhì)相互作用的RNA結(jié)構(gòu)域信息，但不能輕易找出與之結(jié)合的蛋白?；诘谌惸Ｐ停梢灶A(yù)測一個給定的

3、蛋白與一個給定的RNA是否發(fā)生相互作用，但不能確定它們的結(jié)合位點。而第四類模型則可以確定蛋白-RNA相互作用的結(jié)合位點，缺點是假陽性率很高。因此，各類方法各有側(cè)重，我們在系統(tǒng)分析上述四類模型的基礎(chǔ)上，開展了第三類模型即基于序列水平的PRI研究，一方面，該項研究可以同時考慮蛋白與RNA序列，與前兩類模型相比，目標(biāo)更為明確。此外，該類模型的預(yù)測結(jié)果可以為第四類模型提供輸入，有助于降低假陽性與提高預(yù)測效率。
　　目前一般采用傳統(tǒng)的機(jī)器學(xué)

4、習(xí)方法構(gòu)建序列水平的PRI預(yù)測模型。然而，在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中，需要深刻理解哪些特征與PRI有關(guān)，而且即使選擇了正確的特征，也無法獲知其權(quán)重；此外，模型在訓(xùn)練中容易過擬合，即特征和權(quán)重完全適用于訓(xùn)練集，但不能確保測試集具有相同性能。為克服以上局限，我們探索了深度學(xué)習(xí)方法中的CNN（Convolutional Neural Network，卷積神經(jīng)網(wǎng)絡(luò)）在PRI預(yù)測模型構(gòu)建中的應(yīng)用。我們所知，目前尚未見到基于深度學(xué)習(xí)的構(gòu)建PRI預(yù)測模型

5、的報道。
　　方法：
　　為構(gòu)建PRI預(yù)測模型，我們首先構(gòu)建分類器所需的訓(xùn)練集及測試集。截止到2017年2月6日，從PDB（Protein Data Bank，蛋白質(zhì)數(shù)據(jù)庫）中下載到分辨率不大于5.0?的蛋白質(zhì)-RNA復(fù)合物數(shù)據(jù)1370例。對復(fù)合物數(shù)據(jù)進(jìn)行長度（>30）、冗余(<50％)和相似性(<70%)等方面的過濾篩選，得到3761個蛋白質(zhì)-RNA對，包括1432個蛋白質(zhì)片斷和765個RNA片段。我們將其作為陽性樣本，即

6、相互作用的蛋白質(zhì)-RNA對。
　　在上述復(fù)合物數(shù)據(jù)中，隨機(jī)選取蛋白質(zhì)和RNA片段，與陽性樣本進(jìn)行比對，去除相似性較高（>70%）的相互作用對，從而得到對應(yīng)的陰性樣本庫。陰性樣本數(shù)量約為陽性樣本集的10倍，訓(xùn)練和測試時，采用隨機(jī)抽取的方法，生成與陽性樣本集相當(dāng)?shù)年幮詷颖緮?shù)據(jù)集
　　除此之外，我們還對三個常用數(shù)據(jù)集進(jìn)行了測試。分別是數(shù)據(jù)集RPI2241、RPI369和RPI12737。其中RPI2241包括從PRIDB（Prot

7、ein-RNA Interface Database，蛋白質(zhì)-RNA相互作用數(shù)據(jù)庫）中提取的2241個蛋白質(zhì)-RNA對，RPI369數(shù)據(jù)集是RPI2241的子集去除了原數(shù)據(jù)集中的蛋白質(zhì)-核糖體RNA復(fù)合物，包含369個蛋白質(zhì)-RNA相互作用對，RPI12737數(shù)據(jù)集從NPInter V2.0數(shù)據(jù)庫中提取，包括12737對實驗證實的蛋白質(zhì)-RNA對。對于每個蛋白質(zhì)-RNA對，我們從序列和二級結(jié)構(gòu)兩個角度編碼，對提取的特征進(jìn)行RBM（Res

8、tricted Boltzmann Machine，受限玻爾茲曼機(jī)）變換，最終生成1024維的特征向量。
　　基于訓(xùn)練集，我們采用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建預(yù)測模型DLPRI。模型DLPRI共有7層，不包括輸入。輸入為32×32即1024維特征向量，滑動窗口大小為5×5。
　　第一層C1為卷積層，有28×28個節(jié)點，設(shè)定有6個不同的C1層，每一個C1層內(nèi)的權(quán)值是相同的。特征映射結(jié)構(gòu)采用ReLU(Rectified Li

9、near Unit)函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)，使得特征映射具有位移不變性。
　　第二層S2有14×14個節(jié)點，同樣為6層，采取下采樣的方法，C1層四個點對應(yīng)著S2層一個點，作加權(quán)平均。每個特征圖的大小是C1中特征圖大小的1/4（行和列各1/2）。
　　C3、S4同理，5-7層均為一維的全連接層。
　　結(jié)果：
　　首先，我們以數(shù)據(jù)集RPI3761為基礎(chǔ)，采用十折交叉驗證的方法（10-fold cross-vali

10、dation），對模型進(jìn)行了測試。該模型DLRPI在訓(xùn)練集上的平均分類精度達(dá)到96.7%，在測試集上的平均敏感性為91.2%，平均特異性為93.4%，敏感性和特異性均超過90%。
　　然后，我們以整個數(shù)據(jù)集為基礎(chǔ)構(gòu)建模型DLRPI，然后以3個數(shù)據(jù)集RPI369、RPI2241和RPI12737為獨(dú)立測試集來評價模型性能。由于我們構(gòu)建的訓(xùn)練集RPI3761，同RPI369和RPI2241一樣，均是來自PDB數(shù)據(jù)庫，它們之間有一些重疊

11、的樣本。為客觀評價模型性能，我們將數(shù)據(jù)集RPI369和 RPI2241中與RPI3761相同的樣本去除；之后，利用模型DLRPI來預(yù)測余下的樣本，其預(yù)測精度分別為73.2（RPI369）、86.7（RPI2241）和88.0（RPI12737）。結(jié)果表明，該模型在獨(dú)立測試集上具有較高的預(yù)測精度，可以用于新樣本即基于序列的蛋白-RNA相互作用預(yù)測研究，輔助實驗驗證。
　　最后，我們以構(gòu)造的數(shù)據(jù)集RPI3761以及多個公共數(shù)據(jù)集RPI

12、369、RPI2241和RPI12737為基礎(chǔ)，采用DLRPI與其它三種模型分別進(jìn)行機(jī)器學(xué)習(xí)，通過十折交叉驗證的方法，評估模型性能。分析結(jié)果表明，除了在RPI12737數(shù)據(jù)集上性能稍遜LPIHN模型，對于其他的測試集，DLRPI的預(yù)測性能均排名第一。結(jié)果表明，與其他已有模型模型相比，DLRPI提取的特征更具代表性，對于人們識別RPI的本質(zhì)規(guī)律，可以起到一定的輔助與啟發(fā)作用。
　　結(jié)論：
　　深度學(xué)習(xí)方法是近幾年來最火熱的機(jī)器

13、學(xué)習(xí)方法，展現(xiàn)了強(qiáng)大的提取特征能力。目前尚沒有基于深度學(xué)習(xí)算法在蛋白質(zhì)-RNA相互作用上的應(yīng)用研究。本文采用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)方法，構(gòu)建了預(yù)測模型DLRPI，在獨(dú)立測試集上，與傳統(tǒng)的機(jī)器方法相比具有更好的敏感性和特異性。這說明深度學(xué)習(xí)算法在處理蛋白質(zhì)、RNA數(shù)據(jù)方面具有很好的適用性。
　　下一步，我們將在更多的獨(dú)立數(shù)據(jù)集上對模型進(jìn)行測試。一方面，從PDB數(shù)據(jù)庫得到的數(shù)據(jù)與體內(nèi)真實的數(shù)據(jù)之間存在一定差別，模型需要反映體內(nèi)真實生

14、物學(xué)過程；另一方面，對于實驗得到的新數(shù)據(jù)，DLRPI模型能夠有怎樣的預(yù)測精度還需要進(jìn)一步的驗證。然后，將所有已知的RPI數(shù)據(jù)作為訓(xùn)練集，構(gòu)建模型，搭建蛋白質(zhì)-RNA相互作用預(yù)測網(wǎng)絡(luò)服務(wù)器，從而更好的為相關(guān)研究人員進(jìn)行實驗驗證，提供技術(shù)支持。
　　隨著高通量技術(shù)的發(fā)展，產(chǎn)生了大量RPI相關(guān)的數(shù)據(jù)，但是PRI的作用機(jī)制仍然需要進(jìn)一步探討。我們講對隱層中的特征表示進(jìn)行深入的分析，希望能夠揭示出RPI的作用機(jī)理。
　　目前，人工智能

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于深度學(xué)習(xí)的蛋白質(zhì)-RNA相互作用預(yù)測模型構(gòu)建.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于深度學(xué)習(xí)的蛋白質(zhì)-RNA相互作用預(yù)測模型構(gòu)建.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載