支撐向量機(jī)技術(shù)及統(tǒng)計(jì)模型在DNA功能序列識(shí)別中的應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩139頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著基因組研究的發(fā)展,人類進(jìn)入了后基因組時(shí)代,生物學(xué)數(shù)據(jù)積累出現(xiàn)了前所未有的飛躍,闡明這些數(shù)據(jù)的意義因此成為一項(xiàng)巨大的挑戰(zhàn)。生物學(xué)家需要對(duì)細(xì)胞及組織進(jìn)行不斷的了解,而我們則需要進(jìn)行很多諸如對(duì)數(shù)據(jù)進(jìn)行組織,分類,解析等工作,因?yàn)檫@些也是這項(xiàng)挑戰(zhàn)的重要組成部分。 對(duì)數(shù)據(jù)進(jìn)行解析不僅僅是抽象的字符串的解析,由于在這些堿基或氨基酸的字符串后包含著分子生物學(xué)所有的復(fù)雜性,而在所有的方法中,斷定分子的結(jié)構(gòu)或功能的最可靠的方法是生物試驗(yàn),但得

2、到生物數(shù)據(jù)比決定其結(jié)構(gòu)功能要復(fù)雜得多。因此當(dāng)下最迫切的工作就是要發(fā)展計(jì)算的方法,從序列本身得到數(shù)據(jù)的生物學(xué)信息。 目前國(guó)際上發(fā)展起來(lái)了很多基因識(shí)別軟件,但大多數(shù)軟件不能識(shí)別完整的基因結(jié)構(gòu)。本文基于統(tǒng)計(jì)學(xué)習(xí)理論-支撐向量機(jī),構(gòu)建了一個(gè)完整基因的識(shí)別軟件。本文分別引進(jìn)了兩種特征提取方法,一個(gè)是與隨機(jī)序列相比求相對(duì)差異的方法,并給出了相應(yīng)的算法;另一個(gè)是基于變長(zhǎng)度馬爾科夫鏈求生成序列的概率的方法,也給出了相應(yīng)的算法,并基于最大差異給出

3、了變量提取的閾值。這兩種方法突破了原來(lái)對(duì)DNA序列的計(jì)算編碼方式,避免了傳統(tǒng)方式由于錯(cuò)位讀取使轉(zhuǎn)碼的數(shù)列與真實(shí)的DNA序列對(duì)應(yīng)不上而出現(xiàn)錯(cuò)誤的結(jié)論。我們根據(jù)找到的特征片斷序列,將DNA序列映射到歐式空間,形成了DNA序列和歐式空間向量的一一對(duì)應(yīng)關(guān)系,在歐式空間中進(jìn)行基因和基因間區(qū)的識(shí)別。同時(shí),從數(shù)學(xué)分析的角度對(duì)用到的核函數(shù)進(jìn)行了討論,根據(jù)討論結(jié)果的啟示,對(duì)我們選取的核函數(shù)根據(jù)交叉驗(yàn)證進(jìn)行了參數(shù)選取,并取到了分類最好的參數(shù)。對(duì)基因和基因間

4、區(qū)的識(shí)別準(zhǔn)確率在染色體水平上分別達(dá)到89%和87%。 有文獻(xiàn)表明,選擇性內(nèi)在外顯子具有幾個(gè)特殊的特征。1、在轉(zhuǎn)錄過(guò)程中選擇性內(nèi)在外顯子傾向于保持閱讀框架不變,所以長(zhǎng)度基本上能被3整除。2、這種外顯子在轉(zhuǎn)錄過(guò)程中會(huì)產(chǎn)生跳躍,所以與其它外顯子相比序列長(zhǎng)度比較短。3、其上下游序列在人和大鼠之間比較保守。本文根據(jù)內(nèi)在外顯子的長(zhǎng)度、長(zhǎng)度能否被3整除以及保守率,結(jié)合我找到的調(diào)控序列,用支撐向量機(jī)技術(shù)構(gòu)建了分類器模型。該分類器能有效的在基因組

5、序列中識(shí)別選擇性內(nèi)在外顯子,識(shí)別準(zhǔn)確率達(dá)到了92%。 針對(duì)在樣本類別不知道的情況下DNA序列中功能模體和背景的分類問題,本文引進(jìn)了兩個(gè)統(tǒng)計(jì)模型。這兩個(gè)模型均把模體和背景看成是由獨(dú)立同分布的隨機(jī)變量產(chǎn)生的,只是模體和背景所用的參數(shù)不一樣。其中一個(gè)模型將模體起始位點(diǎn)看成丟失數(shù)據(jù);另一個(gè)模型則用滑動(dòng)窗口的方法將序列拆成不知類別的樣本,將類標(biāo)簽處理成丟失數(shù)據(jù)。然后又分別引進(jìn)了Gibbs抽樣和EM算法,在要解決的問題、模型和模型的解之間建

6、立了一個(gè)橋梁,形成了模體搜索算法。該算法最后通過(guò)程序?qū)崿F(xiàn),找出了13個(gè)選擇性內(nèi)在外顯子的調(diào)控模體。 蛋白質(zhì)的調(diào)控網(wǎng)絡(luò)分析是目前蛋白質(zhì)組研究的重點(diǎn)。本文對(duì)凝血系統(tǒng)的凝血因子和蛋白C之間的相互作用調(diào)控網(wǎng)絡(luò)進(jìn)行了分析,在凝血酶生成的背景下,著重討論了蛋白C的動(dòng)力學(xué)作用。我們建立了一個(gè)比較復(fù)雜的動(dòng)力學(xué)模型,通過(guò)動(dòng)力學(xué)分析和數(shù)值模擬,得到了關(guān)于蛋白C動(dòng)力學(xué)作用的一一些結(jié)論,如果APC少量缺乏,對(duì)血液凝固的影響不大,大劑量的APC缺乏會(huì)導(dǎo)致

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論