2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:
  蛋白質-RNA相互作用(PRI)與基因表達調控等多種生物過程密切相關,是一種基本的生物大分子相互作用。例如,細菌調控sRNA(small RNA,小RNA)Csr B與其靶標蛋白Csr A等的結合可調控碳的攝入、細胞運動、生物膜形成、群落感應與細菌致病性等。在真核生物中,許多非編碼RNA(non-codingRNA,ncRNA)可通過與蛋白質結合而發(fā)揮多種功能。因此,構建性能優(yōu)異的PRI預測模型具有重要意義,將為實驗研

2、究PRI提供生物信息學支持。
  目前,PRI的生物信息學預測方法可分為四類,分別為結合RNA的蛋白質殘基預測、結合蛋白質的RNA小片段預測、基于序列水平的PRI預測和基于結合位點水平的PRI預測。其中第一類模型,可以預測蛋白質序列中與RNA結合的殘基,但缺點是無法找出與之結合的RNA序列或堿基?;诘诙惸P?,可以找出RNA序列中與蛋白質相互作用的RNA結構域信息,但不能輕易找出與之結合的蛋白?;诘谌惸P?,可以預測一個給定的

3、蛋白與一個給定的RNA是否發(fā)生相互作用,但不能確定它們的結合位點。而第四類模型則可以確定蛋白-RNA相互作用的結合位點,缺點是假陽性率很高。因此,各類方法各有側重,我們在系統(tǒng)分析上述四類模型的基礎上,開展了第三類模型即基于序列水平的PRI研究,一方面,該項研究可以同時考慮蛋白與RNA序列,與前兩類模型相比,目標更為明確。此外,該類模型的預測結果可以為第四類模型提供輸入,有助于降低假陽性與提高預測效率。
  目前一般采用傳統(tǒng)的機器學

4、習方法構建序列水平的PRI預測模型。然而,在傳統(tǒng)的機器學習方法中,需要深刻理解哪些特征與PRI有關,而且即使選擇了正確的特征,也無法獲知其權重;此外,模型在訓練中容易過擬合,即特征和權重完全適用于訓練集,但不能確保測試集具有相同性能。為克服以上局限,我們探索了深度學習方法中的CNN(Convolutional Neural Network,卷積神經網絡)在PRI預測模型構建中的應用。我們所知,目前尚未見到基于深度學習的構建PRI預測模型

5、的報道。
  方法:
  為構建PRI預測模型,我們首先構建分類器所需的訓練集及測試集。截止到2017年2月6日,從PDB(Protein Data Bank,蛋白質數據庫)中下載到分辨率不大于5.0?的蛋白質-RNA復合物數據1370例。對復合物數據進行長度(>30)、冗余(<50%)和相似性(<70%)等方面的過濾篩選,得到3761個蛋白質-RNA對,包括1432個蛋白質片斷和765個RNA片段。我們將其作為陽性樣本,即

6、相互作用的蛋白質-RNA對。
  在上述復合物數據中,隨機選取蛋白質和RNA片段,與陽性樣本進行比對,去除相似性較高(>70%)的相互作用對,從而得到對應的陰性樣本庫。陰性樣本數量約為陽性樣本集的10倍,訓練和測試時,采用隨機抽取的方法,生成與陽性樣本集相當的陰性樣本數據集
  除此之外,我們還對三個常用數據集進行了測試。分別是數據集RPI2241、RPI369和RPI12737。其中RPI2241包括從PRIDB(Prot

7、ein-RNA Interface Database,蛋白質-RNA相互作用數據庫)中提取的2241個蛋白質-RNA對,RPI369數據集是RPI2241的子集去除了原數據集中的蛋白質-核糖體RNA復合物,包含369個蛋白質-RNA相互作用對,RPI12737數據集從NPInter V2.0數據庫中提取,包括12737對實驗證實的蛋白質-RNA對。對于每個蛋白質-RNA對,我們從序列和二級結構兩個角度編碼,對提取的特征進行RBM(Res

8、tricted Boltzmann Machine,受限玻爾茲曼機)變換,最終生成1024維的特征向量。
  基于訓練集,我們采用深度學習中卷積神經網絡的方法構建預測模型DLPRI。模型DLPRI共有7層,不包括輸入。輸入為32×32即1024維特征向量,滑動窗口大小為5×5。
  第一層C1為卷積層,有28×28個節(jié)點,設定有6個不同的C1層,每一個C1層內的權值是相同的。特征映射結構采用ReLU(Rectified Li

9、near Unit)函數作為卷積網絡的激活函數,使得特征映射具有位移不變性。
  第二層S2有14×14個節(jié)點,同樣為6層,采取下采樣的方法,C1層四個點對應著S2層一個點,作加權平均。每個特征圖的大小是C1中特征圖大小的1/4(行和列各1/2)。
  C3、S4同理,5-7層均為一維的全連接層。
  結果:
  首先,我們以數據集RPI3761為基礎,采用十折交叉驗證的方法(10-fold cross-vali

10、dation),對模型進行了測試。該模型DLRPI在訓練集上的平均分類精度達到96.7%,在測試集上的平均敏感性為91.2%,平均特異性為93.4%,敏感性和特異性均超過90%。
  然后,我們以整個數據集為基礎構建模型DLRPI,然后以3個數據集RPI369、RPI2241和RPI12737為獨立測試集來評價模型性能。由于我們構建的訓練集RPI3761,同RPI369和RPI2241一樣,均是來自PDB數據庫,它們之間有一些重疊

11、的樣本。為客觀評價模型性能,我們將數據集RPI369和 RPI2241中與RPI3761相同的樣本去除;之后,利用模型DLRPI來預測余下的樣本,其預測精度分別為73.2(RPI369)、86.7(RPI2241)和88.0(RPI12737)。結果表明,該模型在獨立測試集上具有較高的預測精度,可以用于新樣本即基于序列的蛋白-RNA相互作用預測研究,輔助實驗驗證。
  最后,我們以構造的數據集RPI3761以及多個公共數據集RPI

12、369、RPI2241和RPI12737為基礎,采用DLRPI與其它三種模型分別進行機器學習,通過十折交叉驗證的方法,評估模型性能。分析結果表明,除了在RPI12737數據集上性能稍遜LPIHN模型,對于其他的測試集,DLRPI的預測性能均排名第一。結果表明,與其他已有模型模型相比,DLRPI提取的特征更具代表性,對于人們識別RPI的本質規(guī)律,可以起到一定的輔助與啟發(fā)作用。
  結論:
  深度學習方法是近幾年來最火熱的機器

13、學習方法,展現(xiàn)了強大的提取特征能力。目前尚沒有基于深度學習算法在蛋白質-RNA相互作用上的應用研究。本文采用深度學習中的卷積神經網絡方法,構建了預測模型DLRPI,在獨立測試集上,與傳統(tǒng)的機器方法相比具有更好的敏感性和特異性。這說明深度學習算法在處理蛋白質、RNA數據方面具有很好的適用性。
  下一步,我們將在更多的獨立數據集上對模型進行測試。一方面,從PDB數據庫得到的數據與體內真實的數據之間存在一定差別,模型需要反映體內真實生

14、物學過程;另一方面,對于實驗得到的新數據,DLRPI模型能夠有怎樣的預測精度還需要進一步的驗證。然后,將所有已知的RPI數據作為訓練集,構建模型,搭建蛋白質-RNA相互作用預測網絡服務器,從而更好的為相關研究人員進行實驗驗證,提供技術支持。
  隨著高通量技術的發(fā)展,產生了大量RPI相關的數據,但是PRI的作用機制仍然需要進一步探討。我們講對隱層中的特征表示進行深入的分析,希望能夠揭示出RPI的作用機理。
  目前,人工智能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論