基于量子算法的蘋果及PCD相關(guān)蛋白亞細胞定位體系研究.pdf_第1頁
已閱讀1頁,還剩142頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、動物、植物等真核生物的蛋白質(zhì)學、蛋白質(zhì)組學方面的研究在后基因組時代變得越來越重要,由于多種生物(包括果樹中的蘋果、葡萄在內(nèi))基因測序工程的完成,研究的重心開始向確定基因的蛋白質(zhì)產(chǎn)物功能方向移動。果樹蛋白質(zhì)亞細胞定位是果樹蛋白質(zhì)組學、果樹細胞生物學和果樹分子生物信息學的重要研究內(nèi)容。果樹蛋白質(zhì)分子生物功能的實現(xiàn)一方面與代謝、信號傳導等果樹生物過程緊密相關(guān),另一方面果樹蛋白質(zhì)分子必須處于特定的亞細胞區(qū)域才能行使其生物功能。對于未知功能的果樹

2、蛋白質(zhì)獲取其亞細胞的位置信息對進一步研究該蛋白質(zhì)的分子功能是十分必要的。通過生物實驗技術(shù)手段獲取一個果樹蛋白質(zhì)亞細胞定位信息是通常的做法,但是這種做法消耗時間較長且實驗成本較高,同時由于果樹蛋白質(zhì)序列的快速增長,在短時間內(nèi)獲取規(guī)模化蛋白質(zhì)亞細胞定位信息(例如:蘋果全基因組蛋白質(zhì)亞細胞定位信息)只能依靠生物信息技術(shù)手段來完成。另一方面,從生物數(shù)據(jù)角度來看生物信息學主要可以分為三個研究領(lǐng)域:大量生物序列數(shù)據(jù)的生成與管理、生物數(shù)據(jù)的使用與分析

3、、生物數(shù)據(jù)分析平臺工具的研究與開發(fā)。由于生物信息數(shù)據(jù)大量的產(chǎn)生以及生命科學研究的迅猛發(fā)展,無論是從科學研究還是生產(chǎn)實踐,人們急需能滿足需求的生物數(shù)據(jù)分析平臺工具,在一些研究課題中生物數(shù)據(jù)分析平臺工具甚至成為制約深入研究的瓶頸問題。同時,由于生物數(shù)據(jù)分析平臺工具研究與開發(fā)往往需要來自生物、數(shù)學、物理、化學、信息科學等多領(lǐng)域的知識,這也增加生物數(shù)據(jù)分析平臺工具研究與開發(fā)的復雜性。所以在果樹生物數(shù)據(jù)分析平臺工具方面開展深入的研究是十分必要的,

4、并且也具有重要的實踐應用價值,這也是我們研究工作的目的之一。
   本文以量子算法為主,針對PCD相關(guān)蛋白質(zhì)亞細胞定位預測中的生物信息技術(shù)問題和蘋果蛋白質(zhì)亞細胞定位預測的實現(xiàn)問題進行了深入的分析與研究,結(jié)合生物物理和物理的知識,提出了具體的解決辦法和實現(xiàn)方案。本文的主要工作和創(chuàng)新之處概括如下:
   1.從蛋白質(zhì)氨基酸序列的組成出發(fā),利用物理學中粒度的思想,提出了蛋白質(zhì)氨基酸序列的粒度概念,結(jié)合具體氨基酸序列片段詳細闡述

5、了蛋白粒度的構(gòu)成。使用蛋白粒度對氨基酸序列進行分析,進一步給出了蛋白粒度的階、蛋白粒度的界、蛋白粒度的極限、蛋白粒度增量等概念。在深入的研究時發(fā)現(xiàn):蛋白粒度沿序列不均勻分布;每條蛋白序列都有各自的蛋白粒度的極限;對于所有蛋白來講,蛋白的各階粒度都有共同的界。如果從蛋白預測的應用來講,還可以得出:蛋白粒度包含了氨基酸序列的組成信息,包含了氨基酸序列的排列信息,還包含了同種氨基酸的互鄰信息,同時蛋白粒度增量自然包含了氨基酸序列的長度信息。對

6、于如何利用蛋白粒度的理論和知識來構(gòu)造蛋白序列的特征向量,本文給出了一種具體的構(gòu)造方法并對有關(guān)參數(shù)進行了詳細的說明。根據(jù)蛋白粒度增量的信息對標準數(shù)據(jù)集的蛋白質(zhì)二級結(jié)構(gòu)類以及植物蛋白亞葉綠體定位進行預測,得到比前人更好的結(jié)果,這些進一步說明了蛋白粒度是反映蛋白質(zhì)屬性的非常有用的指標。
   2.選擇ZD98、ZW225、CL317凋亡蛋白標準數(shù)據(jù)集,利用蛋白粒度對凋亡蛋白序列進行特征提取,得到38維蛋白序列特征向量,對量子神經(jīng)網(wǎng)絡算

7、法(QNN)進行改進后,對凋亡蛋白進行亞細胞定位預測,分別獲得了87.8%、83.1%、85.5%的總體預測精度,這些預測精度等于或高于原作者的預測精度,說明蛋白粒度與QNN結(jié)合的方法在凋亡蛋白亞細胞定位預測上是有效的。
   3.利用已經(jīng)公布的蘋果全基因組蛋白序列,對蘋果全基因組蛋白序列進行粒度等特征提取,分別得到蘋果全基因組蛋白二階粒度組成、三階粒度組成、粒度多空間融合等特征向量,然后根據(jù)量子力學中波函數(shù)的疊加思想研制了新的

8、量子算法(QSVM),對蘋果全基因組蛋白63541條氨基酸序列進行了亞細胞定位預測,獲得了相應的定位信息,并形成了蘋果全基因組蛋白亞細胞位點數(shù)據(jù)庫1。
   4.在Chou構(gòu)造的一個高質(zhì)量的植物蛋白細胞多定位基準數(shù)據(jù)集的基礎(chǔ)之上,本文提出分別處理的預測模式,對多標簽蛋白和單標簽蛋白分別進行預測,同時利用GO注釋對蛋白序列進行特征提取,取得了較高的預測精度,為蛋白的多定位預測找到了一種新的方法。
   5.在蘋果全基因組蛋

9、白數(shù)據(jù)集的基礎(chǔ)上,對有GO注釋的蘋果蛋白進行了GO注釋特征提取,結(jié)合本文提出的蛋白粒度的有關(guān)理論和知識,再進行蛋白粒度特征提取,研制了新的量子算法(SQSVM),對在蘋果全基因組上篩選出來的含GO注釋的15297條蛋白氨基酸序列進行了亞細胞定位預測,給出了相應的定位結(jié)果,在此基礎(chǔ)之上構(gòu)建了蘋果全基因組蛋白亞細胞位點數(shù)據(jù)庫2。
   6.作為生物數(shù)據(jù)分析平臺具體體現(xiàn)的亞細胞定位網(wǎng)站——蘋果蛋白亞細胞定位系統(tǒng)網(wǎng)站和植物蛋白亞細胞多定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論