一種基于深度神經(jīng)網(wǎng)絡模型及蛋白相互作用預測癌癥相關蛋白及蛋白組合的新方法.pdf_第1頁
已閱讀1頁,還剩102頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、如何從大量數(shù)據(jù)中挖掘出有意義的信息,如何把復雜的研究對象用精確而簡明的模型描述出來一直是數(shù)據(jù)處理工作中的中心課題。針對這個問題有兩種截然不同的方法:數(shù)據(jù)挖掘和復雜網(wǎng)絡理論。復雜網(wǎng)絡和數(shù)據(jù)挖掘方法不僅有著相似的研究目的,而且其分析對象在多數(shù)情況下也相同。但在實驗數(shù)據(jù)分析中將兩者協(xié)同應用解決同一問題的情況比較少,主要原因是兩者在分析對象上有較多重疊,在多數(shù)情況下僅用一種方式就可以解決問題。但實際上,將數(shù)據(jù)挖掘和復雜網(wǎng)絡很好的結合起來解決問題

2、會給數(shù)據(jù)分析提供新的思路。本研究將復雜網(wǎng)絡和數(shù)據(jù)挖掘相結合,同時用于分析癌癥相關基因/蛋白,結果表明復雜網(wǎng)絡和數(shù)據(jù)挖掘技術的協(xié)同應用可以為生物學數(shù)據(jù)的分析提供新的切入點。
  對癌癥的研究積累了大量而且類型豐富的數(shù)據(jù),利用這些數(shù)據(jù)發(fā)現(xiàn)癌細胞中關鍵的基因及其作用途徑一直是重要的研究方向。得益于豐富的數(shù)據(jù),癌癥領域的數(shù)據(jù)分析方法也層出不窮,其中結合蛋白質相互作用網(wǎng)絡分析基因及蛋白功能的方法是一個重要的類別。在癌癥相關的信號傳導,細胞定

3、位和表達調控等過程中蛋白質相互作用扮演重要的角色,因此以蛋白質相互作用為基礎整合其它組學數(shù)據(jù)的生物信息方法對分析參與這些過程的關鍵基因及蛋白至為重要。本研究不僅以人類蛋白質相互作用網(wǎng)絡為基礎,結合基因表達、基因重要性及基因突變數(shù)據(jù)優(yōu)選并分析了癌癥相關基因/蛋白和蛋白組合,還利用新的模型將生物網(wǎng)絡與組學數(shù)據(jù)有效的結合起來,為后續(xù)分析提供幫助。本文的工作主要包含以下兩個方面:
  (1)結合蛋白質相互作用網(wǎng)絡和蛋白質、基因的表達數(shù)據(jù)預

4、測新的癌癥相關基因和蛋白質組合。蛋白質相互作用網(wǎng)絡是典型的復雜網(wǎng)絡,網(wǎng)絡中每條邊表示一對蛋白質的相互作用關系。表達數(shù)據(jù)包含基因或蛋白質在癌癥組織、癌癥細胞系和正常組織的樣本中的表達量的信息,比較兩類樣本可以得到與癌癥關聯(lián)密切的基因或蛋白質。本研究將蛋白質相互作用網(wǎng)絡用于構建稀疏的自動編碼機,而后用癌癥細胞系和正常組織的差異表達數(shù)據(jù)作為訓練數(shù)據(jù),訓練后的自動編碼機同時包含相互作用信息和差異表達信息。將訓練得到的自動編碼機用于構建一個深層模

5、型,來模擬每個蛋白質/基因敲降對其它蛋白質/基表達的影響,最后將這種影響關系表示為有向網(wǎng)絡的形式。蛋白間相互影響的有向網(wǎng)絡可以用于鑒定新的癌癥相關蛋白。在本研究優(yōu)選的TOP500個高可信度的癌癥相關蛋白中有211個為已知的癌癥藥物靶點,其余蛋白質的功能與癌癥也密切相關。與其它方法相比較該方法有較高的AUC值(>0.8)。蛋白間相互影響的網(wǎng)絡也可以用于預測蛋白組合。本文中提到的蛋白組合可以是合成致死組合,也可以是藥物靶標的組合。這兩類蛋白

6、組合在蛋白相互影響網(wǎng)絡中都與特定的蛋白存在密切聯(lián)系。本研究利用已知的蛋白組合將這組蛋白質識別出來,并用于識別新的蛋白組合。交叉驗證表明該策略有較高的準確度(>0.85),可以用于鑒別新的蛋白組合。進一步將該模型用于前列腺癌的單細胞測序數(shù)據(jù)集,單細胞測序可以檢測病患體內(nèi)癌細胞群體的演化,對臨床治療有重要意義。文中利用前列腺癌的數(shù)據(jù)集訓練模型且計算了相應的蛋白影響網(wǎng)絡,然后利用該網(wǎng)絡識別了前列腺癌蛋白,其中包含已知的前列腺癌基因。這表明該模

7、型適用于單細胞測序數(shù)據(jù)和小樣本數(shù)據(jù),具有良好的應用前景。
  (2)結合蛋白質相互作用網(wǎng)絡和基因重要性數(shù)據(jù)尋找復雜的基因關聯(lián)關系。在本研究中蛋白質相互作用網(wǎng)絡依然表示兩個蛋白質間的相互作用關系?;蛑匾詳?shù)據(jù)是通過CRISPR(Clustered regularly interspaced short palindromic repeats)試驗方法隨機突變細胞系基因組得到,簡單來講基因重要程度越高,可以承受的突變越少。通過比較初

8、始CRISPR隨機突變的細胞系和經(jīng)過一段時間的培養(yǎng)的細胞系間基因組的差異可以得到基因重要性數(shù)據(jù)。本研究將基因的重要性數(shù)據(jù)通過新方法轉換為蛋白質相互作用的重要性。相互作用的重要性可以用于篩選重要的互作,計算相互作用間的相關性以及重新評估基因的重要性。本研究利用蛋白相互作用的相關性發(fā)現(xiàn)了以細胞因子信號通路相關的蛋白互作為核心的網(wǎng)絡,為理解細胞因子對其它生物學途徑的調控提供了方向。另外用高重要性相互作用構建的子網(wǎng)絡包含了關鍵蛋白質行使功能時的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論