版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著測序和各種技術(shù)的飛速發(fā)展,在生物學(xué)領(lǐng)域產(chǎn)生越來越多的單核苷酸突變包括同義突變,但同義突變在很大程度上沒有被特別研究,因為它們沒有改變蛋白質(zhì)序列。迄今為止,越來越多的證據(jù)表明同義突變可能影響生物體不同方面從而導(dǎo)致各種疾病發(fā)生。準(zhǔn)確快速的從大量的中性突變中識別出有害同義突變,可以顯著提高我們從各種基因組測序中鑒定出功能性突變的能力,并推動人類對疾病病因的理解。而通過生物信息學(xué)方法構(gòu)建的相關(guān)預(yù)測工具,可以幫助我們快速識別出這些潛在的有害同
2、義突變。
本文根據(jù)目前已經(jīng)報道的人類基因組上有害同義突變,深入了解了它們的致病機(jī)制,包括突變位點(diǎn)的進(jìn)化保守性,剪切位點(diǎn)的改變,同義密碼子的選擇使用,突變所在的序列的變化,RNA穩(wěn)定性變化,翻譯效率增加或降低等。這些同義突變的致病機(jī)制,一方面可以作為構(gòu)建模型時候的特征,另一方面也能為相關(guān)疾病診斷與治療提供新視角。
目前對同義突變的有害性預(yù)測研究并不多,同時這些已開發(fā)的方法存在一些不足,如構(gòu)建模型的樣本過小,特征考慮不全
3、面等。為了解決這個問題,本文構(gòu)建了一個基于特征的方法IDSV(Identification of Deleterious Synonymous Variants)來識別人類基因組中有害同義突變。我們首先從人類有害同義突變數(shù)據(jù)庫(dbDSM),VariSNP和ClinVar中獲取可靠的同義突變數(shù)據(jù),量化了7個類別共74個特征:剪切,保守性,密碼子使用,序列,前體mRNA折疊能,翻譯效率和功能區(qū)域注釋特征。然后,為了去除冗余和不相關(guān)的特征并
4、提高預(yù)測性能,使用序列后向選擇方法進(jìn)行特征選擇?;谔卣鬟x擇后的10個特征,使用隨機(jī)森林分類器構(gòu)建了識別人類基因組中有害同義突變的IDSV工具,工具可在http://bioinfo.ahu.edu.cn:8080/IDSV/上獲得。結(jié)果表明,本文提出的方法在識別有害性同義突變方面優(yōu)于其他方法。另外實(shí)驗結(jié)果顯示除了突變位點(diǎn)保守性和剪切特征外,新添加的翻譯效率特征在識別有害同義突變時也具有重要作用。雖然功能區(qū)域注釋和序列特征的貢獻(xiàn)度較小,但
5、它們可以在與其它特征組合時提高預(yù)測準(zhǔn)確性。最后本文通過不同實(shí)驗,證明了訓(xùn)練集中中性同義突變樣本的來源和大小對預(yù)測性能影響不大,這也進(jìn)一步說明了該模型的魯棒性較強(qiáng)。
然后本文分析討論了目前相關(guān)預(yù)測工具存在的一些不足,構(gòu)建一個用于預(yù)測同義突變有害性的集成方法SVEL(Synonymous Variants Ensembl Learning)。SVEL方法將目前開發(fā)的可用于同義突變預(yù)測的6個工具(SilVA,TraP,PhD-SNP
6、g,F(xiàn)ATHMM-MKL,F(xiàn)ATHMM-XF和DANN)的預(yù)測結(jié)果作為特征值,另外我們還添加了13個剪切和保守性特征。然后用隨機(jī)森林算法訓(xùn)練了來源于DDIG-SN方法用到的訓(xùn)練集,為了避免重復(fù)訓(xùn)練,我們?nèi)サ袅嗽撚?xùn)練集中用于訓(xùn)練上述6個工具的所有突變。相較單個工具SVEL表現(xiàn)出較高的預(yù)測準(zhǔn)確性,并且在正負(fù)樣本預(yù)測上沒有顯著偏向性。同時將SVEL與IDSV進(jìn)行了比較,發(fā)現(xiàn)SVEL在預(yù)測性能上有一定改進(jìn)。為了使我們的方法易于研究者和臨床診斷使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人類基因組
- 人類基因組計劃
- 人類基因組學(xué)
- 人類基因組計劃及基因測序
- 人類基因組計劃及其意義
- 人類基因組A1u序列的研究.pdf
- 醫(yī)學(xué)遺傳學(xué)-人類基因組計劃-簡
- 人類基因組堿基組成的統(tǒng)計研究.pdf
- 人類基因組計劃十歲了!
- 人類基因組SNP數(shù)據(jù)庫的數(shù)據(jù)整合.pdf
- 人類基因組中若干序列的統(tǒng)計分析.pdf
- 人類基因組核小體定位與可變剪接調(diào)控研究.pdf
- 人類基因組中檢測結(jié)構(gòu)變異的計算方法.pdf
- ALU序列在人類基因組上的分布與特征.pdf
- 醫(yī)學(xué)生物學(xué)人類基因組計劃與功能基因組學(xué)
- 第三章-醫(yī)學(xué)遺傳學(xué)-人類基因組
- 第八章遺傳和人類基因組計劃
- 人類基因組核小體定位與基因表達(dá)動態(tài)調(diào)控機(jī)制的研究.pdf
- 人類基因組復(fù)雜序列區(qū)域的擴(kuò)增與測序策略研究.pdf
- 27408.人類基因組編碼蛋白基因的進(jìn)化速率的研究
評論
0/150
提交評論