版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著基因組研究的發(fā)展,人類進(jìn)入了后基因組時(shí)代,生物學(xué)數(shù)據(jù)積累出現(xiàn)了前所未有的飛躍,闡明這些數(shù)據(jù)的意義因此成為一項(xiàng)巨大的挑戰(zhàn)。生物學(xué)家需要對細(xì)胞及組織進(jìn)行不斷的了解,而我們則需要進(jìn)行很多諸如對數(shù)據(jù)進(jìn)行組織,分類,解析等工作,因?yàn)檫@些也是這項(xiàng)挑戰(zhàn)的重要組成部分。 對數(shù)據(jù)進(jìn)行解析不僅僅是抽象的字符串的解析,由于在這些堿基或氨基酸的字符串后包含著分子生物學(xué)所有的復(fù)雜性,而在所有的方法中,斷定分子的結(jié)構(gòu)或功能的最可靠的方法是生物試驗(yàn),但得
2、到生物數(shù)據(jù)比決定其結(jié)構(gòu)功能要復(fù)雜得多。因此當(dāng)下最迫切的工作就是要發(fā)展計(jì)算的方法,從序列本身得到數(shù)據(jù)的生物學(xué)信息。 目前國際上發(fā)展起來了很多基因識別軟件,但大多數(shù)軟件不能識別完整的基因結(jié)構(gòu)。本文基于統(tǒng)計(jì)學(xué)習(xí)理論-支撐向量機(jī),構(gòu)建了一個(gè)完整基因的識別軟件。本文分別引進(jìn)了兩種特征提取方法,一個(gè)是與隨機(jī)序列相比求相對差異的方法,并給出了相應(yīng)的算法;另一個(gè)是基于變長度馬爾科夫鏈求生成序列的概率的方法,也給出了相應(yīng)的算法,并基于最大差異給出
3、了變量提取的閾值。這兩種方法突破了原來對DNA序列的計(jì)算編碼方式,避免了傳統(tǒng)方式由于錯(cuò)位讀取使轉(zhuǎn)碼的數(shù)列與真實(shí)的DNA序列對應(yīng)不上而出現(xiàn)錯(cuò)誤的結(jié)論。我們根據(jù)找到的特征片斷序列,將DNA序列映射到歐式空間,形成了DNA序列和歐式空間向量的一一對應(yīng)關(guān)系,在歐式空間中進(jìn)行基因和基因間區(qū)的識別。同時(shí),從數(shù)學(xué)分析的角度對用到的核函數(shù)進(jìn)行了討論,根據(jù)討論結(jié)果的啟示,對我們選取的核函數(shù)根據(jù)交叉驗(yàn)證進(jìn)行了參數(shù)選取,并取到了分類最好的參數(shù)。對基因和基因間
4、區(qū)的識別準(zhǔn)確率在染色體水平上分別達(dá)到89%和87%。 有文獻(xiàn)表明,選擇性內(nèi)在外顯子具有幾個(gè)特殊的特征。1、在轉(zhuǎn)錄過程中選擇性內(nèi)在外顯子傾向于保持閱讀框架不變,所以長度基本上能被3整除。2、這種外顯子在轉(zhuǎn)錄過程中會產(chǎn)生跳躍,所以與其它外顯子相比序列長度比較短。3、其上下游序列在人和大鼠之間比較保守。本文根據(jù)內(nèi)在外顯子的長度、長度能否被3整除以及保守率,結(jié)合我找到的調(diào)控序列,用支撐向量機(jī)技術(shù)構(gòu)建了分類器模型。該分類器能有效的在基因組
5、序列中識別選擇性內(nèi)在外顯子,識別準(zhǔn)確率達(dá)到了92%。 針對在樣本類別不知道的情況下DNA序列中功能模體和背景的分類問題,本文引進(jìn)了兩個(gè)統(tǒng)計(jì)模型。這兩個(gè)模型均把模體和背景看成是由獨(dú)立同分布的隨機(jī)變量產(chǎn)生的,只是模體和背景所用的參數(shù)不一樣。其中一個(gè)模型將模體起始位點(diǎn)看成丟失數(shù)據(jù);另一個(gè)模型則用滑動窗口的方法將序列拆成不知類別的樣本,將類標(biāo)簽處理成丟失數(shù)據(jù)。然后又分別引進(jìn)了Gibbs抽樣和EM算法,在要解決的問題、模型和模型的解之間建
6、立了一個(gè)橋梁,形成了模體搜索算法。該算法最后通過程序?qū)崿F(xiàn),找出了13個(gè)選擇性內(nèi)在外顯子的調(diào)控模體。 蛋白質(zhì)的調(diào)控網(wǎng)絡(luò)分析是目前蛋白質(zhì)組研究的重點(diǎn)。本文對凝血系統(tǒng)的凝血因子和蛋白C之間的相互作用調(diào)控網(wǎng)絡(luò)進(jìn)行了分析,在凝血酶生成的背景下,著重討論了蛋白C的動力學(xué)作用。我們建立了一個(gè)比較復(fù)雜的動力學(xué)模型,通過動力學(xué)分析和數(shù)值模擬,得到了關(guān)于蛋白C動力學(xué)作用的一一些結(jié)論,如果APC少量缺乏,對血液凝固的影響不大,大劑量的APC缺乏會導(dǎo)致
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 支撐向量機(jī)及其在雷達(dá)目標(biāo)識別中的應(yīng)用研究.pdf
- 支持向量機(jī)在人臉識別中的應(yīng)用.pdf
- 基于時(shí)間序列與支持向量機(jī)的信號識別模型及預(yù)測.pdf
- 支持向量機(jī)在路面識別中的應(yīng)用.pdf
- 支撐向量機(jī)及神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用.pdf
- 交叉分片技術(shù)在DNA序列挖掘中的應(yīng)用.pdf
- 模糊支持向量機(jī)在人臉識別中的應(yīng)用.pdf
- V支持向量機(jī)中參數(shù)的優(yōu)化及在語音識別中的應(yīng)用.pdf
- 支持向量機(jī)方法在結(jié)構(gòu)損傷識別中的應(yīng)用.pdf
- 支持向量機(jī)在圖像檢測和識別中的應(yīng)用.pdf
- 支持向量機(jī)研究及其在貨幣識別中的應(yīng)用.pdf
- 基于DNA序列的功能位點(diǎn)識別.pdf
- 支持向量機(jī)算法研究及在高爐煤氣識別中的應(yīng)用.pdf
- 相關(guān)向量機(jī)在語音識別中的應(yīng)用研究.pdf
- 多核支持向量機(jī)及其在人臉識別中的應(yīng)用.pdf
- 支持向量機(jī)在交通標(biāo)志識別中的應(yīng)用.pdf
- 支持向量機(jī)在語音識別中的應(yīng)用研究.pdf
- 支持向量機(jī)樣本預(yù)選取技術(shù)在語音識別中的應(yīng)用研究.pdf
- 支持向量機(jī)集成研究及其在時(shí)間序列預(yù)測中的應(yīng)用.pdf
- 支持向量機(jī)方法在非線性時(shí)間序列預(yù)測中的應(yīng)用.pdf
評論
0/150
提交評論