

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、雖然攜帶遺傳信息的DNA序列在人類(lèi)各組織細(xì)胞中幾乎是不變的,但其上的表觀遺傳特征卻表現(xiàn)出極大的差異性,這也被認(rèn)為是導(dǎo)致基因表達(dá)細(xì)胞特異性的主要原因。在眾多表觀遺傳特征中,DNA甲基化被認(rèn)為是當(dāng)前研究較為透徹的表觀修飾現(xiàn)象之一。DNA甲基化水平的改變與基因的選擇性表達(dá)與調(diào)控具有密不可分的關(guān)系,并且在基因印記、X染色體失活等過(guò)程中扮演關(guān)鍵作用。研究表明,基因的重要調(diào)控元件區(qū)域(如啟動(dòng)子)的非正常甲基化狀態(tài)與包括癌癥在內(nèi)的各種疾病的發(fā)生密切相
2、關(guān),所以準(zhǔn)確識(shí)別給定區(qū)域的甲基化水平,不僅有助于解析基因轉(zhuǎn)錄調(diào)控機(jī)制,而且還能為人類(lèi)認(rèn)識(shí)各種復(fù)雜疾病的形成機(jī)制提供幫助。
早期研究者主要依賴(lài)各類(lèi)實(shí)驗(yàn)方法測(cè)定DNA甲基化位點(diǎn),但實(shí)驗(yàn)方法一方面耗時(shí)耗財(cái),另一方面無(wú)法覆蓋到全基因組層面。一個(gè)替代的策略是利用計(jì)算方法來(lái)推斷目標(biāo)位點(diǎn)的DNA甲基化水平。鑒于近年來(lái)機(jī)器學(xué)習(xí)的廣泛應(yīng)用,研究者們開(kāi)始考慮利用機(jī)器學(xué)習(xí)算法對(duì)DNA甲基化位點(diǎn)構(gòu)建預(yù)測(cè)模型。然而,基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法的成敗非常依賴(lài)
3、有效的特征提取算法。本研究提出一種稱(chēng)為“阿貝爾復(fù)雜度”的新穎的DNA序列特征提取算法,并基于此構(gòu)建人類(lèi)全基因組DNA甲基化的預(yù)測(cè)模型。
我們首次將“詞的組合”領(lǐng)域中一個(gè)新穎的數(shù)學(xué)概念—阿貝爾復(fù)雜度,應(yīng)用于DNA序列的特征提取中。首先,考慮到以DNA甲基化位點(diǎn)為中心的窗口大小對(duì)預(yù)測(cè)準(zhǔn)確性的影響,我們分染色體測(cè)試了100bp-2000bp(步長(zhǎng)100bp,bp即base pair,堿基對(duì))范圍內(nèi)的所有窗口大小,結(jié)合各條染色體上的預(yù)
4、測(cè)結(jié)果發(fā)現(xiàn)窗口大小在1300bp時(shí)預(yù)測(cè)效果最佳。進(jìn)一步,我們利用卡方統(tǒng)計(jì)量和互信息兩個(gè)指標(biāo)對(duì)1301維初始阿貝爾復(fù)雜度特征進(jìn)行特征篩選,發(fā)現(xiàn)第14-50維是對(duì)模型貢獻(xiàn)最大的阿貝爾復(fù)雜度特征。另外,DNA組分特征可以被定義為DNA序列的基礎(chǔ)特征,而當(dāng)綜合阿貝爾復(fù)雜度特征和DNA組分特征時(shí)模型的預(yù)測(cè)能力得到了進(jìn)一步的提升。最后,為了選擇最適合的機(jī)器學(xué)習(xí)方法,本研究比較了支持向量機(jī)(support vector machine,SVM)、隨機(jī)
5、森林算法(Random Forest)、最鄰近算法(K-nearest neighbors)和樸素貝葉斯算法(Na(i)ve Bayes)四種機(jī)器學(xué)習(xí)算法。在5類(lèi)細(xì)胞系數(shù)據(jù)的測(cè)試中,結(jié)果發(fā)現(xiàn)SVM具有更高更穩(wěn)定的預(yù)測(cè)效果。
綜上,本文首次應(yīng)用阿貝爾復(fù)雜度方法提取DNA甲基化序列特征,并通過(guò)窗口大小選取、特征篩選過(guò)程選取第14-50維阿貝爾特征,最后結(jié)合SVM構(gòu)建DNA甲基化預(yù)測(cè)模型?;陬A(yù)測(cè)模型的全基因組掃描預(yù)測(cè)結(jié)果可以縮小或
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于神經(jīng)網(wǎng)絡(luò)的全基因組DNA甲基化預(yù)測(cè)研究.pdf
- 云南宣威肺癌全基因組DNA甲基化.pdf
- 乳腺癌全基因組DNA甲基化修飾的研究.pdf
- 酒依賴(lài)患者全基因組DNA甲基化模式研究.pdf
- 全基因組DNA甲基化模式及其在復(fù)雜疾病分析中的應(yīng)用研究.pdf
- 全基因組乳腺癌DNA甲基化與基因表達(dá)關(guān)聯(lián)模式.pdf
- LncRNA介導(dǎo)人基因組DNA甲基化研究.pdf
- 全基因組DNA甲基化參與胃癌發(fā)生發(fā)展的機(jī)制研究.pdf
- 玉米果穗不同部位種子的全基因組DNA甲基化研究.pdf
- 基于高通量測(cè)序技術(shù)的全基因組甲基化研究.pdf
- 黑色素瘤全基因組DNA甲基化與組蛋白甲基化異常譜式的研究.pdf
- 全基因組DNA甲基化對(duì)甘藍(lán)型油菜春化作用的影響.pdf
- 基于MethyLight的骨肉瘤相關(guān)基因甲基化研究及改良全基因組DNA擴(kuò)增固定技術(shù).pdf
- 胃癌的DNA甲基轉(zhuǎn)移酶表達(dá)及基因組DNA甲基化譜.pdf
- 柑橘全基因組DNA甲基化分析及調(diào)控作用研究.pdf
- 不同甘蔗品種基因組DNA甲基化分析.pdf
- 中國(guó)對(duì)蝦基因組DNA甲基化MSAP技術(shù)的建立與應(yīng)用.pdf
- 人類(lèi)與小鼠全基因組甲基化模式與基因表達(dá)的研究.pdf
- 高溫誘導(dǎo)對(duì)羅非魚(yú)全基因組甲基化水平的影響研究.pdf
- 高脂血癥對(duì)大鼠基因組DNA及bcl-2甲基化的影響.pdf
評(píng)論
0/150
提交評(píng)論