人類基因短編碼區(qū)識別及冠狀病毒酶切位點(diǎn)預(yù)測.pdf_第1頁
已閱讀1頁,還剩75頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著人類基因組及模式生物基因組大規(guī)模測序的順利實(shí)施,GenBank,EMBL和DDBJ國際三大核酸序列數(shù)據(jù)庫的序列數(shù)量和堿基個數(shù)呈指數(shù)增長,同時國際上著名的蛋白質(zhì)數(shù)據(jù)庫如PIR,SWISS-PROT和PDB等中的蛋白質(zhì)數(shù)目與DNA序列同步,也呈指數(shù)增長.如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能等的相關(guān)信息是基因組研究取得成果的決定性步驟.該論文主要致力于真核生物基因的蛋白質(zhì)編碼區(qū)識別和冠狀病毒基因組多聚蛋白酶切位點(diǎn)的識別.論文第一部分介

2、紹了生物信息學(xué)發(fā)展的背景和主要研究內(nèi)容,真核生物基因組的特點(diǎn)以及真核基因識別算法的發(fā)展?fàn)顩r.論文第二部分是圍繞人類基因的短編碼區(qū)識別問題展開的.在Z曲線理論的基礎(chǔ)上,考慮密碼子內(nèi)部相鄰堿基之間的近程相關(guān)性,將Z曲線參數(shù)進(jìn)一步發(fā)展,得到Z曲線方法的n變量,這里n=9,21,21',45,69,69',93,189.基于建立的數(shù)據(jù)庫和標(biāo)準(zhǔn)評價指數(shù),對包括馬爾科夫模型在內(nèi)的19種算法進(jìn)行評價發(fā)現(xiàn),69參數(shù)和189參數(shù)Z曲線方法在19種算法中識

3、別準(zhǔn)確率最高.此外,與目前國際上廣泛使用的馬爾科夫模型相比,Z曲線方法參數(shù)數(shù)目少,計算簡單.論文第三部分主要致力于冠狀病毒多聚蛋白酶切位點(diǎn)的預(yù)測.基于傳統(tǒng)的權(quán)重矩陣方法,充分考慮3C-like和papain-like蛋白酶剪切位點(diǎn)及剪切產(chǎn)物的保守性,開發(fā)出了預(yù)測冠狀病毒多聚蛋白酶切位點(diǎn)的程序ZCURVE_CoV 2.0(http:∥tubic.tju.edu.cn/sars/).類比3C-like蛋白酶的剪切模式,觀察papain-li

4、ke蛋白酶剪切產(chǎn)物的注釋情況,提出了一個新的papain-like蛋白酶剪切模型,對NCBI的注釋情況進(jìn)行了修正和補(bǔ)充.論文第四部分主要是建立真核生物蛋白質(zhì)亞細(xì)胞位置序列集.利用SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫資源(版本號40,數(shù)據(jù)庫共105,322條蛋白質(zhì)記錄,于2002年2月23日建立索引)建立了真核生物亞細(xì)胞位置序列集,為開發(fā)真核生物蛋白質(zhì)亞細(xì)胞預(yù)測算法提供了相關(guān)基礎(chǔ),另外,對處于多亞細(xì)胞位置蛋白質(zhì)的各種情況給予了較詳細(xì)的分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論