基于甲基化差異進行腫瘤分類及早診的深度神經(jīng)網(wǎng)絡模型.pdf_第1頁
已閱讀1頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、研究背景及目的:DNA甲基化是目前最為常見與重要的表觀遺傳學特征,與腫瘤的發(fā)生發(fā)展有密切關系,在腫瘤形成的初期就已經(jīng)具有明顯的特征[1]。腫瘤基因組的甲基化水平除了與正?;蚪M相比發(fā)生劇烈變化外,不同腫瘤類型之間也存在著較大差異。因此甲基化水平的變化可作為特異性的分子標記用以區(qū)分腫瘤類型。目前在臨床方面多采用一些特定的蛋白分子標記、CT影像等病理指標區(qū)分腫瘤類型。但這些方法準確性并不高,并且有些腫瘤在形成的初期,很難通過病理指標檢測出來

2、。目前對于早期腫瘤診斷的研究多集中在血漿中游離的腫瘤DNA(ctDNA)的檢測[2],但目前這些技術尚不成熟,而且成本相對較高,公開的測序數(shù)據(jù)也較少。在基因組學分析方面,盡管測序技術日漸成熟,許多腫瘤發(fā)生機制在分子生物學領域得到解釋,但對于腫瘤基因組,目前的研究大多關注于一些原癌基因以及抑癌基因區(qū)域位點的突變以及啟動子區(qū)域甲基化狀態(tài)改變[3],對于多種腫瘤類型的區(qū)分及早期腫瘤的預測并沒有非常有效的生物信息學方法。因此尋找一種對腫瘤類型的

3、區(qū)分與早期腫瘤預測提供幫助的方法就顯得尤為重要。
  研究方法及結(jié)果:本課題使用的數(shù)據(jù)為TCGA數(shù)據(jù)庫中包含24種腫瘤類型的Illumina450K數(shù)據(jù),GE0數(shù)據(jù)庫和Roadmap Epigenomics數(shù)據(jù)庫中的WGBS的數(shù)據(jù)以及模擬數(shù)據(jù)。對于Illumina450K的數(shù)據(jù),使用其提供的計算好的β值作為甲基化水平;對于WGBS數(shù)據(jù),使用序列比對軟件比對到參考基因組上,通過校正CpG位點的堿基突變以及使用高斯函數(shù)對數(shù)據(jù)的進一步處

4、理,消除了堿基突變以及相近CpG位點的影響,得到較為準確的甲基化水平。經(jīng)過計算兩種類型的數(shù)據(jù)同種組織相同位點甲基化狀態(tài)的相關性系數(shù),可得出兩種數(shù)據(jù)有非常高的相關性,能夠共同使用。數(shù)據(jù)經(jīng)過前期處理后,使用統(tǒng)計學方法去除了在各種腫瘤組織之間表現(xiàn)相似甲基化狀態(tài)的位點、與對應正常組織相比沒有明顯甲基化狀態(tài)變化的位點以及未落在基因組有明確功能區(qū)域的位點后,共得到1894個有明顯甲基化狀態(tài)差異的位點。將最后得到的CpG位點作為特征值,構(gòu)建深度神經(jīng)網(wǎng)

5、絡模型的訓練集。對于腫瘤類型的區(qū)分和早期腫瘤預測分別構(gòu)建了不同的深度神經(jīng)網(wǎng)絡模型(DNN),這兩個模型的整體結(jié)構(gòu)相同,均包含一個輸入層,五個隱藏層以及一個輸出層,選用Sigmoid函數(shù)作為激活函數(shù),使用克羅內(nèi)克符號構(gòu)建標記矩陣。不同的是,早期腫瘤預測模型其輸入的特征值、每一層的神經(jīng)元數(shù)量以及學習效率與腫瘤類型的區(qū)分模型存在差異。其輸入特征值除了去除沒有WGBS數(shù)據(jù)的組織外,還將去除白細胞和白血病這兩個組織的特異性位點。之所以采取這樣的策

6、略是因為我們的模擬數(shù)據(jù)將采用各類腫瘤組織數(shù)據(jù)與正常的白細胞數(shù)據(jù)按一定比例混合的方式生成,為了盡可能真實的模擬數(shù)據(jù),混合時腫瘤組織所占比例較小,因此需要去除這兩個組織的特異性位點的影響。兩個模型經(jīng)過多次迭代訓練,校正并且與已有的模型包括K最近鄰,樸實貝葉斯,logistic回歸,支持向量機,隨機森林比較,表現(xiàn)出了更為理想的準確率。
  研究結(jié)論:本課題通過使用數(shù)據(jù)庫中大量的數(shù)據(jù),通過生物信息學數(shù)據(jù)分析技術,發(fā)現(xiàn)腫瘤基因組甲基化存在劇

7、烈變化,通過校正CpG位點的堿基突變,以及使用高斯函數(shù)對WGBS數(shù)據(jù)處理,消除了堿基突變以及相近CpG位點的影響后,提取各種腫瘤的甲基化狀態(tài)特異的位點,以傳統(tǒng)統(tǒng)計學與深度神經(jīng)網(wǎng)絡相結(jié)合的方法構(gòu)建深度神經(jīng)網(wǎng)絡(DNN)模型,通過大量真實數(shù)據(jù)的訓練,校正、驗證以及與現(xiàn)有模型性能比較。得到準確性較高的兩個深度神經(jīng)網(wǎng)絡模型,分別為腫瘤類型區(qū)分模型(TTR_DNN)和早期腫瘤預測模型(ETP_DNN),對腫瘤類型的區(qū)分與早期腫瘤預測提供了一定幫助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論