版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著新一代測序技術(shù)(Next-Generation Sequencing,NGS)對整個測序領(lǐng)域帶來重大革新,生物學(xué)各個領(lǐng)域的研究得益于NGS技術(shù),能夠快速、廉價地獲得高通量層序數(shù)據(jù)。這一進步徹底改變了以往研究人員針對基礎(chǔ)研究、臨床研究的方法。同時,海量的數(shù)據(jù)使得新的存儲方式和計算方法不斷提出。從前以注重生化實驗的研究方法已經(jīng)慢慢轉(zhuǎn)向注重后期數(shù)據(jù)分析。從前需要大量數(shù)據(jù)才能建立的組學(xué)分析以及多組學(xué)間的分析如今已成為可能,加快了人們對復(fù)雜生
2、命現(xiàn)象機制的理解。
數(shù)據(jù)的爆炸式增長,使得研究人員意識到,需要有新的知識組織形式幫助后人更好地理解當(dāng)前的研究進展。同時,數(shù)據(jù)深層次的意義需要人們反復(fù)地對所積累的數(shù)據(jù)進行挖掘。因此,人類基因組計劃(Human Genome Project,HGP)是生物學(xué)領(lǐng)域中一個重要的里程碑,該計劃致力于讀取人類基因組全部的堿基序列。然而,我們的目的不僅僅于此,更重要的是理解DNA序列中隱含的各種功能。隨后,表觀路線圖計劃(Roadmap E
3、pigenomics Project)和DNA元件百科全書計劃(Encyclopedia of DNA Elements Project,ENCODE)是人類進一步探索遺傳奧秘的兩大重要項目。這兩個項目收集了大量來自于多組學(xué)的 DNase-Seq、RNA-Seq、ChIP-Seq等實驗數(shù)據(jù)。生物學(xué)領(lǐng)域中某個組學(xué)的研究往往不是獨立的,它僅僅反映了基因組單個方面的性質(zhì),然而多組學(xué)之間其實存在著非常緊密的聯(lián)系。如何從一個系統(tǒng)的、整體的角度將不
4、同組學(xué)的數(shù)據(jù)結(jié)合起來研究已成為當(dāng)前生物信息學(xué)領(lǐng)域最重要的研究方法之一。
通過過去40多年來的研究證明,在DNA序列上存在一系列的順式調(diào)控序列(cis-regulatory sequences),如果某些基因突變發(fā)生在這些調(diào)控元件的區(qū)域,將導(dǎo)致最終表型的差異。其中,順式調(diào)控元件(cis-regulatory elements)就是激活和維持轉(zhuǎn)錄發(fā)生的關(guān)鍵。深入理解順式調(diào)控元件對于理解生命活動的機理、人類疾病發(fā)生的原因以及物種之間
5、的保守性規(guī)律等非常重要。
增強子(Enhancer)是一類遠端順式作用的DNA調(diào)控元件,它們在不同時間、不同細胞系的基因表達中起到了關(guān)鍵的調(diào)控作用。當(dāng)前,理解增強子的特性、作用目標(biāo)和調(diào)控活動是一個非常重要的研究領(lǐng)域,因為它間接地對發(fā)育、細胞鑒定、表達多樣性、進化以及人類疾病起到關(guān)鍵作用。由于增強子元件沒有共同的序列特征,而每個增強子的作用目標(biāo)也無法精確定位,此外,增強子的調(diào)控作用具有很強的細胞/組織特異性。所以在哺乳類基因組中
6、,如何準(zhǔn)確識別增強子依然存在很大的挑戰(zhàn)。
近年來,得益于深度測序技術(shù)的發(fā)展,使得大量增強子預(yù)測的計算方法得以實現(xiàn)。這些預(yù)測方法可以利用該測序技術(shù)獲得來自不同數(shù)據(jù)源的充足數(shù)據(jù)。依據(jù)數(shù)據(jù)的不同來源,可以大致將增強子識別算法從概念上分為3類。不同的計算方法依賴不同的數(shù)據(jù)集、輸入特征或監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)的組合。第一類使用生物信息學(xué)計算方法識別增強子利用的是表觀遺傳學(xué)數(shù)據(jù),比如說從ChIP-seq數(shù)據(jù)中獲取的組蛋白信息、DNase高敏
7、位點(DHSs)或轉(zhuǎn)錄因子結(jié)合位點(TFBSs),這一類方法主要利用聚類或非監(jiān)督學(xué)習(xí)的方式完成。第二類方法是將增強子識別問題抽象成一個利用有監(jiān)督的機器學(xué)習(xí)方法來區(qū)分增強子區(qū)域和非增強子區(qū)域的二分類問題,比如說利用支持向量機(SVMs)、人工神經(jīng)網(wǎng)絡(luò)(ANNs)、決策樹(DTs)、隨機森林(RFs)、圖論模型(PGMs)或是近年來最火的深度學(xué)習(xí)(DLs)。第三類利用的生物信息學(xué)方法是通過對增強子的高精度掃描,從而獲得高質(zhì)量的數(shù)據(jù),以此來測
8、試人類、小鼠、果蠅和酵母中的增強子。盡管這些增強子識別方法都起到了一定的效果,但是在生物信息學(xué)層面上依然存在很多技術(shù)問題,比如說類別不平衡、過擬合問題、參數(shù)難確定以及泛化能力差的問題。一個主要的困難是缺乏大量實驗驗證的人類或其他物種的增強子區(qū)域。因此,我們迫切需要基于有限的實驗驗證數(shù)據(jù)的計算方法來挖掘增強子序列中關(guān)于轉(zhuǎn)錄調(diào)控編碼功能的規(guī)律。
從2006年由Genoffery Hinton首次提出深度學(xué)習(xí)(Deep Learni
9、ng)的概念,到2012年Hinton團隊的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)模型在ImageNet圖像識別比賽上大殺四方,再到2016年Alpha Go程序完勝人類圍棋高手,這三個事件徹底掀起了全球?qū)θ斯ぶ悄芗夹g(shù)的研究熱潮。得益于近年來高性能CPU、GPU、FPGA等計算硬件的發(fā)展,深度學(xué)習(xí)高復(fù)雜度復(fù)雜的計算問題得以解決。同時,憑借著深度學(xué)習(xí)算法在提取不同層次的抽象特征、學(xué)習(xí)特征上的強大能力,配合
10、當(dāng)前海量的研究數(shù)據(jù),它的性能已經(jīng)遠遠超越傳統(tǒng)的機器學(xué)習(xí)算法。深度學(xué)習(xí)已經(jīng)在圖像識別、自然語言處理、語音識別、量化交易等眾多領(lǐng)域有著廣泛應(yīng)用。當(dāng)然,深度學(xué)習(xí)算法也拓寬了生物醫(yī)學(xué)領(lǐng)域的研究方法,近年來有不少如醫(yī)學(xué)影像處理、藥物靶標(biāo)篩選、基因突變位點評估等問題通過深度學(xué)習(xí)方法獲得不錯的效果,并且相繼發(fā)表了研究成果。
在本文中,我們詳細分析了順式調(diào)控元件的研究現(xiàn)狀,重點關(guān)注了增強子調(diào)控元件的相關(guān)的各種研究方法。隨后,我們描述了使用機器
11、學(xué)習(xí)、深度學(xué)習(xí)解決相關(guān)問題的一般方法以及它們之間的區(qū)別和優(yōu)劣。通過分析利用機器學(xué)習(xí)、深度學(xué)習(xí)識別增強子調(diào)控元件的各類方法,我們發(fā)現(xiàn)其中存在著準(zhǔn)確率低、泛化能力差、受限于數(shù)據(jù)來源等問題。因此,我們構(gòu)建了一個基于深度學(xué)習(xí)的混合模型,起名為BiRen,它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)對于序列數(shù)據(jù)的表示能力以及能夠較好處理DNA序列長距離依賴問題的GRU單元雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN),通過這個模型,我們可以只依賴DNA序列本身就能準(zhǔn)確識別增強子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于隨機森林的外顯子剪接增強子識別.pdf
- 基于組蛋白修飾信息和DNA序列預(yù)測增強子的研究.pdf
- 2444.全基因組增強子調(diào)控網(wǎng)絡(luò)的識別與特征分析
- 山羊β—乳球蛋白調(diào)控序列及增強子序列共指導(dǎo)人胰島素原基因表達的研究.pdf
- 攜帶前列腺特異性膜抗原(PSMA)啟動子-增強子的重組質(zhì)粒構(gòu)建及啟動子-增強子調(diào)控活性的篩選.pdf
- 人類細胞系中遠程增強子--啟動子相互作用的識別研究.pdf
- RNA序列、位置及短序列增強子突變影響報告基因表達.pdf
- 增強子、絕緣子和β-乳球蛋白調(diào)控序列啟動功能基因在山羊乳腺上皮細胞中表達的影響.pdf
- 基于深度學(xué)習(xí)的動作識別研究.pdf
- 基于深度學(xué)習(xí)的場景識別研究.pdf
- 基于深度學(xué)習(xí)的氣體識別研究.pdf
- 馬鈴薯增強子捕獲系的創(chuàng)建及鑒定.pdf
- 基于深度序列的人體行為識別研究.pdf
- 基于深度學(xué)習(xí)的Logo識別研究.pdf
- 山羊BLG調(diào)控序列及CMV增強子指導(dǎo)人胰島素原基因在細胞和小鼠中表達.pdf
- 短序列增強子和Alu重復(fù)序列影響基因表達的實驗研究和生物信息學(xué)分析.pdf
- 基于深度學(xué)習(xí)的說話人識別研究.pdf
- 基于深度學(xué)習(xí)的維語語音識別研究.pdf
- 基于深度學(xué)習(xí)框架的動作識別研究.pdf
- 基于深度學(xué)習(xí)的目標(biāo)識別研究.pdf
評論
0/150
提交評論