版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著測序技術(shù)的迅速發(fā)展和各種基因組計劃的相繼完成,數(shù)據(jù)庫中所積累的序列信息呈爆炸式增長。然而面對這些海量的由抽象字符串構(gòu)成的生物序列,我們卻難以直接獲得有效的信息。因此如何發(fā)展簡單、高效的序列分析方法將會為基因組分析相關(guān)研究提供有力的理論和技術(shù)保障。本課題基于多聚體核苷酸和蛋白質(zhì)序列分別提出了相應(yīng)的幾何分析方法,并針對微生物基因組中蛋白質(zhì)編碼基因重注釋等問題進行了深入研究,主要包括以下內(nèi)容。
1.基于多聚體核苷酸的DNA序
2、列幾何分析方法的構(gòu)建。幾何方法由于其直觀化強、簡單有效等優(yōu)點在DNA序列分析中受到廣泛重視。已有幾何方法大多基于單核苷酸構(gòu)建而成,隨著功能基因組學(xué)的發(fā)展,二聯(lián)體、三聯(lián)體核苷酸等多聚體信息在基因組研究中發(fā)揮了更加重要的作用,然而由于高復(fù)雜性等原因目前基于多聚體核苷酸的幾何方法較少。本論文中,我們首先從游走模型角度分析了應(yīng)用較為成功的Z曲線理論,指出了幾何方法的共性,然后根據(jù)二聯(lián)體各位點堿基的理化特性,將16種二聯(lián)體核苷酸分布于笛卡爾直角坐
3、標系的四個象限中,進而提出一種新的幾何方法(DN曲線)。該方法克服了已有二聯(lián)體模型可視化功能差的弱點,可以直觀展現(xiàn)序列中二聯(lián)體核苷酸的組成及分布信息。通過對DNA序列相似性分析及甲型H1N1病毒基因組分析的應(yīng)用,結(jié)果表明該方法能夠很好地展現(xiàn)序列特征,并為今后相關(guān)研究提供了新的分析思路。與二聯(lián)體相比,三聯(lián)體核苷酸更為復(fù)雜。本論文中,我們根據(jù)三聯(lián)體各位點的堿基理化特性,將64種三聯(lián)體核苷酸分別用二維坐標(x,y)數(shù)值表示,提出了目前首個能夠
4、在可視化空間中直觀展現(xiàn)DNA序列中的三聯(lián)體組成及分布信息的幾何方法(TN曲線)。我們基于該方法提出了一系列特征參數(shù),并應(yīng)用于保守基因識別、編碼/非編碼分析及DNA序列相似性分析等研究中,結(jié)果表明該方法比已有方法更可靠、提供的信息更多,且在蛋白質(zhì)編碼基因中具有很好的應(yīng)用價值。
2.基于幾何方法的微生物基因組蛋白質(zhì)編碼基因的重注釋。對微生物基因組中蛋白質(zhì)編碼基因的預(yù)測工作已經(jīng)持續(xù)了近20年,然而越來越多的研究表明目前數(shù)據(jù)庫中廣
5、泛存在微生物基因組編碼基因錯誤注釋問題,這些錯誤數(shù)據(jù)的不斷積累將嚴重影響數(shù)據(jù)庫的質(zhì)量,甚至?xí)?dǎo)致錯誤的研究結(jié)論。本課題針對該問題進行了三方面工作。第一個工作中,我們提出了改進的TN曲線并將DNA序列中6個ORF用36個數(shù)值參數(shù)定量表示。然后結(jié)合Fisher判別方法,對當前幾種較有爭議的痘病毒和古細菌基因組中錯誤注釋蛋白質(zhì)編碼基因進行了識別,取得了準確率高于其他方法的預(yù)測結(jié)果。為了說明所篩選結(jié)果的可靠性,我們定義了一批數(shù)學(xué)參數(shù),并將密碼子
6、偏好分析等統(tǒng)計方法應(yīng)用進來,結(jié)果表明該方法可靠性高。此外,針對幾何模型中普遍存在的人為參數(shù)設(shè)置問題,我們通過實例進行了分析討論。基于這些研究結(jié)果,在第二個工作中,我們將TN曲線系列方法和Z曲線方法有機結(jié)合提出了一套通用的微生物基因組蛋白質(zhì)編碼基因重注釋算法,并開發(fā)了首個網(wǎng)絡(luò)平臺www.cbi.seu.edu.cn/RPGM供用戶免費使用。該算法中,共有75個特征參數(shù)描述密碼子組成及分布、密碼子各位點堿基組成等信息,通過對61個微生物基因
7、組的實際應(yīng)用,取得了99.94%的平均預(yù)測準確率。隨后我們分別對這75個特征參數(shù)對應(yīng)的識別系數(shù)與基因組G+C含量和基因組大小之間的相互關(guān)系等問題進行了大量分析討論,結(jié)果表明這些參數(shù)能夠展現(xiàn)序列深層次信息,預(yù)測結(jié)果比已有方法準確、可靠。同時,對水平轉(zhuǎn)移基因問題的分析表明錯誤注釋的蛋白質(zhì)編碼基因也是導(dǎo)致目前水平轉(zhuǎn)移基因預(yù)測準確率低、假陽性高的主要原因。第三個工作中,將我們提出的重注釋算法與基因從頭預(yù)測方法結(jié)合,對在環(huán)境保護和新能源領(lǐng)域具有重
8、要應(yīng)用的硫還原地桿菌Geobacter sulfurreducens PCA蛋白質(zhì)編碼基因進行重預(yù)測,結(jié)果有16個目前注釋為編碼基因的ORF被預(yù)測為非編碼序列,并有104個新基因被發(fā)現(xiàn),其中有41個用BLAST、COG等方法預(yù)測得到詳細的生物學(xué)功能。該工作避免了以往重注釋工作中伴隨的假陰性升高問題,因此為今后微生物基因組中蛋白質(zhì)編碼基因欠注釋問題提供了新的研究方法。
3.蛋白質(zhì)序列幾何分析方法的構(gòu)建。與DNA相比,蛋白質(zhì)是
9、由20種氨基酸構(gòu)成的更為復(fù)雜的字符序列,針對蛋白質(zhì)序列的幾何方法起步晚、應(yīng)用少。本論文中,我們提出了兩種用于蛋白質(zhì)序列分析幾何方法。第一種方法中,我們將在蛋白質(zhì)三維結(jié)構(gòu)中具有重要作用的氨基酸靜電和疏水特性相關(guān)的理化參數(shù)融合,提出一種新的二維曲線來直觀顯示序列特征,通過與已有方法比較表明該方法具有提供信息多、可視化效果好等特點。通過將該曲線轉(zhuǎn)化為數(shù)值距離矩陣,我們提取了一系列數(shù)值參數(shù)作為蛋白質(zhì)序列的定量描述符,其在不同蛋白質(zhì)序列的相似性分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DNA序列特征分析及其在基因組研究中的應(yīng)用.pdf
- 基因組上下文網(wǎng)絡(luò)的構(gòu)建及其在進化分析中的應(yīng)用.pdf
- 重復(fù)序列和基因組DNA在寬葉野生稻CCDD基因組中的比較分析.pdf
- DNA序列分段新算法及其在基因組分析中的應(yīng)用.pdf
- 基因組序列特征分析.pdf
- EST序列分析系統(tǒng)的建立及在日本血吸蟲基因組研究中的應(yīng)用.pdf
- 復(fù)雜網(wǎng)絡(luò)分析方法在全基因組關(guān)聯(lián)研究中的應(yīng)用.pdf
- 加權(quán)SNP集分析方法在全基因組關(guān)聯(lián)研究中的應(yīng)用.pdf
- 玉米(Zea mays)ZmCDC5基因基因組序列的克隆、測序及其序列分析.pdf
- 全基因組擴增方法的建立及其在法醫(yī)學(xué)中的應(yīng)用.pdf
- 基因組芯片制備及其在篩選腫瘤相關(guān)基因中的應(yīng)用研究.pdf
- 草莓病毒分子檢測及其部分基因組序列分析.pdf
- 一種全基因組關(guān)聯(lián)分析模型的建立及在基因組選擇中的應(yīng)用.pdf
- 基因組序列CGR圖形的多重分形分析及應(yīng)用.pdf
- 比較基因組雜交在自然流產(chǎn)組織分析中的應(yīng)用.pdf
- 49670.基因組序列中啟動子區(qū)域的預(yù)測方法研究
- 26560.酵母基因組序列分析
- 海洋放線菌基因組文庫的構(gòu)建和功能基因的克隆及序列分析.pdf
- 冰草屬P基因組特異序列分離及其在小麥-冰草衍生后代中的應(yīng)用.pdf
- 宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究.pdf
評論
0/150
提交評論