序列分析方法的構(gòu)建及其在基因組研究中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：pdf 頁數(shù)：136 大?。?9.88MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

序列分析方法的構(gòu)建及其在基因組研究中的應(yīng)用.pdf_第1頁

已閱讀1頁，還剩135頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著測序技術(shù)的迅速發(fā)展和各種基因組計(jì)劃的相繼完成，數(shù)據(jù)庫中所積累的序列信息呈爆炸式增長。然而面對(duì)這些海量的由抽象字符串構(gòu)成的生物序列，我們卻難以直接獲得有效的信息。因此如何發(fā)展簡單、高效的序列分析方法將會(huì)為基因組分析相關(guān)研究提供有力的理論和技術(shù)保障。本課題基于多聚體核苷酸和蛋白質(zhì)序列分別提出了相應(yīng)的幾何分析方法，并針對(duì)微生物基因組中蛋白質(zhì)編碼基因重注釋等問題進(jìn)行了深入研究，主要包括以下內(nèi)容。
　　 1.基于多聚體核苷酸的DNA序

2、列幾何分析方法的構(gòu)建。幾何方法由于其直觀化強(qiáng)、簡單有效等優(yōu)點(diǎn)在DNA序列分析中受到廣泛重視。已有幾何方法大多基于單核苷酸構(gòu)建而成，隨著功能基因組學(xué)的發(fā)展，二聯(lián)體、三聯(lián)體核苷酸等多聚體信息在基因組研究中發(fā)揮了更加重要的作用，然而由于高復(fù)雜性等原因目前基于多聚體核苷酸的幾何方法較少。本論文中，我們首先從游走模型角度分析了應(yīng)用較為成功的Z曲線理論，指出了幾何方法的共性，然后根據(jù)二聯(lián)體各位點(diǎn)堿基的理化特性，將16種二聯(lián)體核苷酸分布于笛卡爾直角坐

3、標(biāo)系的四個(gè)象限中，進(jìn)而提出一種新的幾何方法(DN曲線)。該方法克服了已有二聯(lián)體模型可視化功能差的弱點(diǎn)，可以直觀展現(xiàn)序列中二聯(lián)體核苷酸的組成及分布信息。通過對(duì)DNA序列相似性分析及甲型H1N1病毒基因組分析的應(yīng)用，結(jié)果表明該方法能夠很好地展現(xiàn)序列特征，并為今后相關(guān)研究提供了新的分析思路。與二聯(lián)體相比，三聯(lián)體核苷酸更為復(fù)雜。本論文中，我們根據(jù)三聯(lián)體各位點(diǎn)的堿基理化特性，將64種三聯(lián)體核苷酸分別用二維坐標(biāo)(x,y)數(shù)值表示，提出了目前首個(gè)能夠

4、在可視化空間中直觀展現(xiàn)DNA序列中的三聯(lián)體組成及分布信息的幾何方法(TN曲線)。我們基于該方法提出了一系列特征參數(shù)，并應(yīng)用于保守基因識(shí)別、編碼/非編碼分析及DNA序列相似性分析等研究中，結(jié)果表明該方法比已有方法更可靠、提供的信息更多，且在蛋白質(zhì)編碼基因中具有很好的應(yīng)用價(jià)值。
　　 2.基于幾何方法的微生物基因組蛋白質(zhì)編碼基因的重注釋。對(duì)微生物基因組中蛋白質(zhì)編碼基因的預(yù)測工作已經(jīng)持續(xù)了近20年，然而越來越多的研究表明目前數(shù)據(jù)庫中廣

5、泛存在微生物基因組編碼基因錯(cuò)誤注釋問題，這些錯(cuò)誤數(shù)據(jù)的不斷積累將嚴(yán)重影響數(shù)據(jù)庫的質(zhì)量，甚至?xí)?dǎo)致錯(cuò)誤的研究結(jié)論。本課題針對(duì)該問題進(jìn)行了三方面工作。第一個(gè)工作中，我們提出了改進(jìn)的TN曲線并將DNA序列中6個(gè)ORF用36個(gè)數(shù)值參數(shù)定量表示。然后結(jié)合Fisher判別方法，對(duì)當(dāng)前幾種較有爭議的痘病毒和古細(xì)菌基因組中錯(cuò)誤注釋蛋白質(zhì)編碼基因進(jìn)行了識(shí)別，取得了準(zhǔn)確率高于其他方法的預(yù)測結(jié)果。為了說明所篩選結(jié)果的可靠性，我們定義了一批數(shù)學(xué)參數(shù)，并將密碼子

6、偏好分析等統(tǒng)計(jì)方法應(yīng)用進(jìn)來，結(jié)果表明該方法可靠性高。此外，針對(duì)幾何模型中普遍存在的人為參數(shù)設(shè)置問題，我們通過實(shí)例進(jìn)行了分析討論。基于這些研究結(jié)果，在第二個(gè)工作中，我們將TN曲線系列方法和Z曲線方法有機(jī)結(jié)合提出了一套通用的微生物基因組蛋白質(zhì)編碼基因重注釋算法，并開發(fā)了首個(gè)網(wǎng)絡(luò)平臺(tái)www.cbi.seu.edu.cn/RPGM供用戶免費(fèi)使用。該算法中，共有75個(gè)特征參數(shù)描述密碼子組成及分布、密碼子各位點(diǎn)堿基組成等信息，通過對(duì)61個(gè)微生物基因

7、組的實(shí)際應(yīng)用，取得了99.94％的平均預(yù)測準(zhǔn)確率。隨后我們分別對(duì)這75個(gè)特征參數(shù)對(duì)應(yīng)的識(shí)別系數(shù)與基因組G+C含量和基因組大小之間的相互關(guān)系等問題進(jìn)行了大量分析討論，結(jié)果表明這些參數(shù)能夠展現(xiàn)序列深層次信息，預(yù)測結(jié)果比已有方法準(zhǔn)確、可靠。同時(shí)，對(duì)水平轉(zhuǎn)移基因問題的分析表明錯(cuò)誤注釋的蛋白質(zhì)編碼基因也是導(dǎo)致目前水平轉(zhuǎn)移基因預(yù)測準(zhǔn)確率低、假陽性高的主要原因。第三個(gè)工作中，將我們提出的重注釋算法與基因從頭預(yù)測方法結(jié)合，對(duì)在環(huán)境保護(hù)和新能源領(lǐng)域具有重

8、要應(yīng)用的硫還原地桿菌Geobacter sulfurreducens PCA蛋白質(zhì)編碼基因進(jìn)行重預(yù)測，結(jié)果有16個(gè)目前注釋為編碼基因的ORF被預(yù)測為非編碼序列，并有104個(gè)新基因被發(fā)現(xiàn)，其中有41個(gè)用BLAST、COG等方法預(yù)測得到詳細(xì)的生物學(xué)功能。該工作避免了以往重注釋工作中伴隨的假陰性升高問題，因此為今后微生物基因組中蛋白質(zhì)編碼基因欠注釋問題提供了新的研究方法。
　　 3.蛋白質(zhì)序列幾何分析方法的構(gòu)建。與DNA相比，蛋白質(zhì)是

9、由20種氨基酸構(gòu)成的更為復(fù)雜的字符序列，針對(duì)蛋白質(zhì)序列的幾何方法起步晚、應(yīng)用少。本論文中，我們提出了兩種用于蛋白質(zhì)序列分析幾何方法。第一種方法中，我們將在蛋白質(zhì)三維結(jié)構(gòu)中具有重要作用的氨基酸靜電和疏水特性相關(guān)的理化參數(shù)融合，提出一種新的二維曲線來直觀顯示序列特征，通過與已有方法比較表明該方法具有提供信息多、可視化效果好等特點(diǎn)。通過將該曲線轉(zhuǎn)化為數(shù)值距離矩陣，我們提取了一系列數(shù)值參數(shù)作為蛋白質(zhì)序列的定量描述符，其在不同蛋白質(zhì)序列的相似性分

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

序列分析方法的構(gòu)建及其在基因組研究中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

序列分析方法的構(gòu)建及其在基因組研究中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載