化學計量學方法在基因、蛋白質序列研究中的應用.pdf_第1頁
已閱讀1頁,還剩114頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基因和蛋白質都是化合物,它們是化學計量學研究者從一開始就最感興趣的研究目標?;蚝偷鞍踪|的結構和功能,蛋白質與配體的結合過程,酶受體中反應基質向產物的轉變過程等等都是化學計量學研究的熱門問題。近幾年來,隨著人類基因組計劃以及很多生物的基因組測序工作的完成,核酸以及蛋白質序列的數(shù)目成倍增長,呈“爆炸”之勢。當務之急是,研發(fā)出更多的準確而快速的分析工具,從如此洶涌而至的海量數(shù)據中最大限度的提取有用信息。不斷地開拓新的思路、發(fā)現(xiàn)新的分析方法、

2、工具和軟件,從而高產量、高精確度的分析和挖掘原始的核酸、蛋白質序列數(shù)據是化學計量學的新的發(fā)展動力。本文基于小波分析、系統(tǒng)聚類分析法((HCA))、支持向量機(SVM)和人工神經網絡(ANN)等化學計量學技術,結合一些生物信息學的方法,以核酸和蛋白質序列數(shù)據為對象,作了以下三個方面的研究:⑴基于完全基因組的系統(tǒng)樹構建新方法的研究;⑵膜蛋白跨膜區(qū)域預測新方法的研究;⑶聯(lián)合多特征的基因預測新方法的研究。主要內容如下:
   第一章:文

3、獻綜述。講述了小波分析、系統(tǒng)聚類分析法(HCA)、支持向量機(SVM)和人工神經網絡(ANN)等化學計量學技術的發(fā)展簡史,介紹了這些分析方法的基本數(shù)學原理,并對其應用研究分別進行了評述。
   第二章:基于完全基因組的系統(tǒng)樹構建新方法的研究。隨著各層次生物的分類研究由形態(tài)狀轉向分子資料,分子進化樹構建方法的性能受到人們的日益重視。發(fā)展新的建樹方法一直是人們研究的熱點。本文基于小波頻率分析提取物種基因組序列的頻率特征發(fā)展了一種新的

4、推斷物種間系統(tǒng)發(fā)生關系的建樹方法。這種方法不需要任何序列聯(lián)配,并首次從頻域的角度分析了物種間的進化關系。它基于各物種完全基因組整體特征間的比較,推斷物種間的系統(tǒng)發(fā)生關系。且計算機復雜度較低,簡單快速。雖然SARS已得到有效控制,然而目前還沒有特效藥物可以有效治愈該疾病。對冠狀病毒內部親緣關系的研究將有助于抗病毒藥物及疫苗的開發(fā)。雖然國內外有關專家做了大量研究工作,取得了不少成果,然而由于SARS是個突如其來,威脅嚴重,又突無其蹤的一種新

5、的疾病,給研究工作帶來不少難題,至今有關SARS起源的研究仍然撲朔迷離。以11個冠狀病毒(包含SARS_CoV)作為研究對象,用它們的全基因組序列構建了無根和有根的進化樹,討論了SARS_CoV的起源問題,所得結果與加拿大,美國,中國北京的SARS研究組的分類結果一致,佐證了SARS_CoV是一種新的冠狀病毒并與第二組冠狀病毒關系最近,而且增加了一些細節(jié)。另外,以冠狀病毒的多聚蛋白ORF1ab以及S、E、M、N等結構蛋白的同源基因作為對

6、象,構建系統(tǒng)進化樹,更進一步研究了冠狀病毒的內部親緣關系和SARS-冠狀病毒的進化路徑,所得結論將有助于抗病毒藥物及疫苗的開發(fā)。原核生物在地球上分布最廣泛,理解它們的進化關系尤為必要。它們在人類健康和經濟方面的影響,如同在真核生物進化中的作用一樣重要,因此研究原核生物的進化成為一個特別引人注目的課題。然而,原核生物的分類是生物分類學上的一大挑戰(zhàn),傳統(tǒng)的分類因缺乏可觀察的形態(tài)學特征而變得困難。我們以4個古細菌、20個細菌和4個作參照用的真

7、核生物為例,構建了它們的小亞基核糖體(SSU rRNA)進化樹,與著名的卡爾.沃斯SSU rRNA生命樹,蛋白質樹和別的基于全基因組方法的進化樹,以及最近2005年的Bergey’s細菌系統(tǒng)分類手冊的分類作比較,不僅為我們提出的方法提供了佐證,而且增加了一些細節(jié)。
   第三章:基于小波變換的膜蛋白的跨膜區(qū)域預測研究。膜蛋白是一類嵌在生物膜中的蛋白質,在細胞中具有重要的生物功能,它們構成了各種神經信號分子、激素和受體,是各種離子

8、跨膜的通道,也是許多藥物分子的靶點。然而,膜蛋白與生物膜的穩(wěn)定構象非常不利于用X光晶體衍射方法和核磁共振技術測定其三維結構,目前僅有少數(shù)膜蛋白的結構已知。因此,設計準確、高效的預測膜蛋白結構的方法成為生物信息學中重要的研究課題。以多尺度morlet連續(xù)小波變換為基礎,提出了一種用于預測膜蛋白跨膜序列的方法(連續(xù)小波變換極大值譜(MSCWT))。該法對重要的8種SARS-CoV膜蛋白的預測準確度與常用膜蛋白預測軟件Tmpred相當,對Mp

9、topo膜蛋白數(shù)據庫中131種新的已知結構的螺旋束蛋白(共包含548個跨膜區(qū))的預測顯示:其跨膜螺旋區(qū)預測準確率為91.6%,膜蛋白序列的預測準確率為89.3%。實驗結果顯示本文所述的方法能夠快速準確地預測跨膜區(qū)的位置和數(shù)量,其有望成為研究膜蛋白的一種有力的新工具。用連續(xù)小波變換極大值譜(MSCWT)預測膜蛋白跨膜區(qū),它可準確預測跨膜區(qū)段的起始和終止位點等信息,還可用于進一步分析單一肽鏈上其它更細微的結構。但由于圖譜中有相當多“毛刺”,

10、非常不便于觀察跨膜信號峰,妨礙了對跨膜區(qū)域的發(fā)現(xiàn)。因此我們又開發(fā)了一種新的用于預測膜蛋白跨膜區(qū)的波譜技術:連續(xù)小波變換加和譜(SSCWT)。這種方法在很大程度上加強了跨膜信號峰。SSCWT圖譜中跨膜信號峰明顯、清晰且無毛刺,有利于大規(guī)??焖兕A測跨膜蛋白結構。將這種預測方法應用于120條膜蛋白序列(共包含537個跨膜區(qū))結構的預測,并將實驗結果同網上通用的膜蛋白預測軟件Tmpred和DAS的預測結果加以比較,證明了它具有相當高的準確性。<

11、br>   第四章:聯(lián)合多特征的基因預測算法研究??煽款A測DNA序列中的基因是基因組工程的重要任務之一。生物學家研究發(fā)現(xiàn)DNA序列中得基因具有某些特殊的特征。現(xiàn)存的基因預測算法很多都只是根據基因的一種特征設計預測的。本文計算了基因編碼區(qū)具備的四個特征:三周期性、堿基相位偏移特征、高GC含量特性和基于張春庭院士課題組提出的Z曲線特征。分別發(fā)展了基因區(qū)域識別的BP神經網絡分類模型、概率神經網絡分類模型和基于支持向量機(SVM)的分類模型,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論