

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、本論文的研究內容是從結構的角度,通過在進化過程中相對保守,并且相互作用的結構域(domain)來描述蛋白質的相互作用。為此我們首先基于序列相似性的比較對生物序列數據進行了同源(haomologous)聚類,同時我們歸納合并了所有已知的酵母和果蠅的蛋白質相互作用數據,對其進行評估,提煉出高可信的相互作用數據。我們的聚類技術和評估策略可以應用于其它生物物種的聚類分析和相互作用的評估。 因為生物系統(tǒng)在蛋白質相互作用網絡方面是保守的,即
2、從序列到結構,進而到相互作用網絡都存在著某種生物共性,這種共性或者一致性(universality)通??梢悦枋鰹橐环N模式保守的蛋白質相互作用網絡,而該網絡的基本構成單元就是蛋白質結構域。由于當前蛋白質相互作用數據主要來自序列的相互作用,每條蛋白質序列可能含有多條保守的結構域,這樣相互作用的可能性就會成指數級的增長,使得尋找某一相關的相互作用變得異常困難。因此需要到找一種確定結構域之間相互作用的途徑。為此我們對蛋白質序列進行了結構域的劃
3、分和映射,并采用機器學習的方法提取出結構域之間的相互作用。考慮到當前只有一小部分結構域具有三維結構信息,我們在論文中提出了一種系統(tǒng)的預測同源結構的方法。特別是我們構建了基于結構域聚類的模板數據庫,提高了模板的涵蓋范圍。另外我們提出了一種以模板的三維結構比對作為profile或者anchor的比-對算法,有效的提高了未知序列同相應模板之間的比對準確性,進而提高了預測結構的質量。數據分析顯示,我們的方法可以是現有的同源建模(Homology
4、 Modeling)算法預測出近三分之二的蛋白質結構。最后,我們同時采用rigid body和flexible這兩種對接工具來研究結構域對接后所形成合成體的同源和一致性。 本論文的組織結構如下: 第一章緒論,簡要介紹了該論文的研究背景和意義,對蛋白質相互作用網絡拼接過程中所涉及到的研究內容和方法進行了分類介紹,并結合現有方法總結了所涉及研究內容存在的問題。 第二章基于序列和結構域相似性的蛋白質序列聚類。本論文的研
5、究內容是從結構的角度,拼接出蛋白質的相互作用網絡,因此本課題的第一步工作是對蛋白質序列進行聚類分析,我們的目的是將直向同源物進行(orthologs)聚類。首先我們利用BLSTAP算法對蛋白質序列進行相似性比較,構建出比對間的相似距離矩陣,同時將蛋白質結構域作為一個附加的準則來篩選出假的同源關系。然后將剩余的比對用圖論的理論進行描述:節(jié)點為序列,邊為兩條序列間的對應關系。最后我們采用Markov graph-flow算法對其進行聚類分析
6、。利用該算法,我們對六種真核生物的序列進行了聚類分析,其結果要明顯優(yōu)于NCBI和TIGR的聚類結果。 第三章蛋白質相互作用數據的整合。蛋白質—蛋白質相互作用是系統(tǒng)生物系的研究核心,生物體的各種代謝和調控途徑都是有蛋白質—蛋白質相互作用來體現的。但是通過試驗手段獲得的相互作用數據包含著很多的錯誤,曾經的統(tǒng)計表明:僅僅有10%的相互作用數據可以支持不同的、獨立的試驗,而近50%的相互作用數據是假陽性的。針對這一問題,我們首先合并了所
7、有的公共數據庫(11個)中關于酵母和蠕蟲的蛋白質相互作用數據,通過交叉驗證(cross-reference)并結合序列的信息,對這些數據進行了提煉,刪除了其中的冗余信息。然后我們采用機器學習的方法對每一種實驗方法賦予一定的權值,這樣對于每一個蛋白質相互作用可以獲得一個分值,最終根據設置不同的cutoff可以篩選出高可信度(高分值)的相互作用數據。 第四章基于序列保守結構域(domain)的同源建模算法。蛋白質三維結構特征是蛋白質
8、功能分析、蛋白質相互作用、進化樹構建和藥物設計等研究的基礎。通常蛋白質結構的確定取決于X-射線晶體衍射和核磁共振等試驗方法,但是X-射線晶體衍射法非常耗時,核磁共振又無法準確地測定大蛋白質分子的結構。因此,利用計算技術開發(fā)準確、快速的蛋白質三維結構預測算法就顯得尤為關鍵和迫切。目前蛋白質結構的預測算法主要分為以下三類:同源建模(Homology Modeling)、結構模式預測(Threading)和從頭預測(ab initio)。其中
9、同源建模法采用已知的蛋白質結構作為模板,可以準確地預測其它同源蛋白質的結構,被認為是當前最成功的預測算法。 第五章基于結構的蛋白質相互作用網絡的拼接。因為蛋白質相互作用是通過保守的結構域來體現的,因此結構域被認為是生物系統(tǒng)的最基本單位(building blocks)。綜合上述各章的研究成果,在所有的酵母、蠕蟲和果蠅的序列中,我們從46,742個蛋白質同源聚類中提取出了135,744條蛋白質相互作用,其中有6,679個蛋白質同源
10、聚類包含有多個物種,約占總數的15%。采用最大相似度估計(Maximum Likelihood Estimation,MLE)算法,我們將這些蛋白質相互作用精簡成33,068條結構域間的相互作用,構建出了結構域之間的相互作用映射。另外,利用我們的同源建模算法,我們成功的預測出了酵母、蠕蟲或者果蠅的167,300條蛋白質結構。我們從相互作用映射中挑選出至少含有3個已知結構,并且分別源自同樣的三個物種的相互作用對(interaction
11、pair),以此來確保其同源性。最后利用剛體(rigid-body)和柔性(flexible)的對接(docking)工具,即Zdock和Rosetta,從結構域的角度論證了同源蛋白質相互作用的保守一致性,為蛋白質相互作用網絡的拼接提供了理論依據。 第六章結論。系統(tǒng)總結了該論文的各項研究成果,并討論了下一步的工作。 附錄一基于Smith-Waterman算法的生物序列并行比較。生物序列相似性比較是生物信息學中最常見的問題
12、,其中基于動態(tài)規(guī)劃思想的Smith-Waterman算法是相似性比較中最流行的算法。然而現有的并行Smith-Waterman都需要龐大的內存,隨著生物數據的急劇增長,并行Smith-Waterman算法內存空間的需求已經成為一個需要緊迫解決的問題?;谶@一問題,我們提出了一種基于分而治之策略的并行Smith-Waterman算法,PSW-DC算法。其基本思想是:采用數據分割的方法給每個處理器分配一定的數據,然后每個處理器獨立的運行Sm
13、ith-Waterman算法,最后再把各個處理器計算的結果進行合并,得到局部最優(yōu)比對序列。與現有的并行Smith-Waterman算法相比,該算法對內存空間的需求有了很大的降低。在曙光20001并行機上進行了模擬試驗,有效降低了算法對內存的需求,提高了算法的運算速度。 論文的主要貢獻本論文在蛋白質序列同源聚類、蛋白質相互作用的評估和驗證、蛋白質空間結構的預測、蛋白質相互作用網絡的拼接以及生物序列比對等關鍵問題上展開研究,取得如下成果:
14、 1.在蛋白質序列同源聚類方面,如何準確、快速、自動的對蛋白質序列進行聚類一直是研究人員在努力解決的難題。基于蛋白質結構域序列的相似性,本文提出一種準確的蛋白質序列同源聚類方法。該方法利用Markov Graph-Flow算法,可以自動、準確的聚類orthologs(直向同源物)and in-paralogs(橫向同源物)。對多個物種序列的 聚類結果顯示,其結果的精確度比NCBI和TIGR的結果有明顯的提高。該方法可以應用于所
15、有已知真核生物的序列聚類中,能夠大幅提高聚類結果的準確性。 2.通過試驗確定的蛋白質相互作用都存在一定范圍的誤差。我們合并了所有yeast和worm的蛋白質相互作用數據,提出了一種評價和交叉驗證蛋白質相互作用的方法。該方法采用機器學習的理論,從進化的角度對每一相互作用的可信度進行了評價。試驗結果顯示,該方法可以篩選出高可信度的相互作用。另外該方法可以評價其它物種蛋白質相互作用的可信度。 3.蛋白質空間結構的預測一直是國際
16、上研究的熱點和難點問題。本文為了解決同源比較建模(IIomology Modeling)算法的兩個瓶頸問題:模板的選擇和目標一模板序列比對的準確性,提出了相應的解決方案,完善了同源建模算法。在模板選擇方面,我們以結構域為基礎,通過構建模板庫極大的提高模板的涵蓋范圍;針對目標一模板序列比對的準確性問題,我們基于結構域的三維結構信息,提出了一種新的序列比對算法,該算法能夠產生更準確的目標一模板序列比對。采用所提出的方法,極大拓寬了已有同源建
17、模算法的應用范圍。更精確的預測出了更多的蛋白質結構。 4.在蛋白質相互作用網絡的拼接方面,由于確定結構域一結構域的相互作用一直是一個研究難點,本文根據已知的蛋白質一蛋白質相互作用關系,構建出結構域一結構域的相互作用映射。通過蛋白質對接(docking)程序,我們從結構域的角度論證了同源蛋白質相互作用的保守一致性,從而為蛋白質相互作用網絡的拼接提供了理論依據。 5.生物序列的相似性比較是生物信息學中最常見的問題,其中基于動
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Constructing Vertical Cooperation Innovation Network Based on Value Network.pdf
- Constructing Vertical Cooperation Innovation Network Based on Value Network.pdf
- Performance Evaluation of Optical Burst Switched Network.pdf
- The Research on Trusted Authentication and Assessment of Trusted Network.pdf
- Security Aggression in Mobile ad hoc Network.pdf
- White Light interferometric fiber optic sensors network.pdf
- Stochastic Performance Analysis of a Tree Top ology Network.pdf
- On the design and capacity planning of a wireless local area network.pdf
- On the design and capacity planning of a wireless local area network.pdf
- Detection of the Intermittent Earth Faultsin Compensated MV Network.pdf
- Spectrum Allocation Simulator for Centralized Cognitive Radio Network.pdf
- Detection of the Intermittent Earth Faultsin Compensated MV Network.pdf
- Research on Congestion Free Routing Algorithim for Hybrid SDN Network.pdf
- Multi-Objective Node Placement Problem in Wireless Network.pdf
- RE-ENGINEERING QoS and SECURITY IN COOPERATIVE DIVERSITY NETWORK.pdf
- Research on Congestion Control Mechanism based on MPTCP in Heterogeneous Network.pdf
- EXTREME LEARNING MACHINE BASED FUNCTIONAL LINK NEURAL NETWORK.pdf
- Graph Based Algorithms for Topology Control in Wireless Sensor Network.pdf
- Research on Local Route Repair Algorithms in Vehicular Ad Hoc Network.pdf
- Energy Efficient Node Scheduling for Conservation of Energy in Wireless Sensor Network.pdf
評論
0/150
提交評論