版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、蛋白質(zhì)通過某種機制進入細胞器或亞細胞器,這個過程為完成它們各自特殊的功能提供了一個適合的環(huán)境。因此,蛋白質(zhì)的功能與其亞細胞定位之間有著密切的聯(lián)系,確定一個蛋白質(zhì)的亞細胞定位對于研究該蛋白的功能往往能夠提供重要的線索。盡管,蛋白質(zhì)的亞細胞定位可以通過實驗的方法獲得,然而這樣的做法不論是在金錢還是時間上,耗費都很高,尤其是過于耗時的缺點,使得實驗測定蛋白質(zhì)的亞細胞定位已經(jīng)遠遠不能滿足后基因組時代對于信息提取的需求。隨著生物技術(shù)尤其是大規(guī)模測
2、序技術(shù)的革新,和人類基因組計劃以及越來越多物種的全基因組測序完成,生命科學研究所產(chǎn)出的數(shù)據(jù)正在以前所未有的速度膨脹著,全球的生物數(shù)據(jù)庫中數(shù)據(jù)量翻番所需要的時間已經(jīng)越來越短。面對這樣海量且仍在高速增加的數(shù)據(jù),我們迫切的需要開發(fā)出一個能夠高效、準確地自動預(yù)測蛋白質(zhì)的亞細胞定位的系統(tǒng)。這不僅能提高蛋白質(zhì)的亞細胞定位研究的效率,為進一步的實驗研究提供借鑒和指導,同時對于蛋白質(zhì)的功能預(yù)測和研究也具有重要的意義。 在我們搜集數(shù)據(jù)的過程中,
3、具有明確且單一的亞細胞定位信息和完整序列的蛋白質(zhì)條目是我們搜集實驗數(shù)據(jù)的基本條件。為了保證數(shù)據(jù)的可靠性、權(quán)威性、實時性和盡可能的完備性,我們從SWISS-PROT(http://au.expasv.orq/sprot/)數(shù)據(jù)庫下載了最新版本42.8的全部蛋白質(zhì)數(shù)據(jù)。從這些數(shù)據(jù)中,我們篩選出滿足基本條件且分類后樣本數(shù)達到統(tǒng)計意義的蛋白質(zhì)共20,172個,它們分別屬于以下10個不同的亞細胞定位類別:(1)細胞核、(2)細胞質(zhì)、(3)線粒體、
4、(4)胞外、(5)過氧化物酶體、(6)內(nèi)質(zhì)網(wǎng)、(7)溶酶體、(8)膜蛋白、(9)葉綠體、(10)外周胞質(zhì)。為了方便數(shù)據(jù)的管理、訪問和和網(wǎng)絡(luò)查詢、共享,我們基于這些蛋白質(zhì)亞細胞定位數(shù)據(jù)構(gòu)建了MySQL數(shù)據(jù)庫,并提供了網(wǎng)絡(luò)查詢的接口。 就蛋白質(zhì)亞細胞定位預(yù)測研究而言,基于氨基酸組分的預(yù)測方法是較傳統(tǒng)的方法之一。氨基酸組分是指自然界常見的20種氨基酸在蛋白質(zhì)序列中各自所占的比例,這20個比例值的總合稱為蛋白質(zhì)的氨基酸組分。該方法被眾
5、多研究者廣泛的采用和認可,并且獲得了不錯的預(yù)測效果。然而,基于氨基酸組分的預(yù)測方法存在著固有的缺陷,就是它只考察各種氨基酸在序列中出現(xiàn)的頻率,而忽視了它們在序列中的排列方式。兩個蛋白質(zhì)序列,若20種氨基酸的出現(xiàn)頻率相等,而排列順序不相同,則在氨基酸組分中是無法表現(xiàn)出差別的,也就是僅憑氨基酸組分來觀察這樣兩條序列是完全相同的。這對于排列組合非常多變的蛋白質(zhì)序列來說,顯然是一個粗略的近似模型。為了進一步完善這個模型,我們從邏輯思維的角度考慮
6、,認為合理的加入氨基酸的排列順序的信息,對于蛋白質(zhì)的亞細胞定位預(yù)測應(yīng)該是有幫助的。 鑒于蛋白質(zhì)序列的組成單位——氨基酸的種類多達20種,且序列的長度也懸殊很大,使得理論上蛋白質(zhì)序列的排列組合數(shù)非常巨大。為了有效的將蛋白質(zhì)序列的排列順序特點放在相同尺度下進行分析和比較,我們采用了工程學上發(fā)展較為成熟的數(shù)字信號處理技術(shù)。在運用數(shù)字信號處理技術(shù)之前,我們借助與蛋白質(zhì)的亞細胞定位有潛在聯(lián)系的氨基酸的重要化學特性——疏水值,將氨基酸序列
7、轉(zhuǎn)換成相應(yīng)的數(shù)字信號。通過離散傅立葉變換,原本時間域內(nèi)的數(shù)字信號被轉(zhuǎn)換到頻率域內(nèi)進行分析。在頻率域中,一個數(shù)字信號被表示成一系列不同頻率諧波的線性組合,而信號的傅立葉變換就是該線性組合中的系數(shù)。由于信號的波形輪廓主要由其低頻成分決定,因此,我們提取每個數(shù)字信號振幅譜中的前40個值作為信號的頻域特征值,來描述每個數(shù)字信號所對應(yīng)的蛋白質(zhì)序列在氨基酸排列順序上的特點。頻域特征值與氨基酸組分的有機結(jié)合構(gòu)成了我們描述蛋白質(zhì)序列的數(shù)學模型——維數(shù)為
8、60的空間特征向量。不同的蛋白質(zhì)序列就對應(yīng)60維空間中不同的點。 對蛋白質(zhì)的亞細胞定位進行預(yù)測就等價于對蛋白質(zhì)對應(yīng)的特征向量進行識別和分類。本文中共采用了三種模式識別的最小決策函數(shù)分類器對特征向量進行分類預(yù)測,這三種分類器分別為ProtLock分類器、馬氏距離分類器和CovariantDiscrimination分類器,它們都是曾被應(yīng)用于蛋白質(zhì)亞細胞定位預(yù)測研究的典型模式識別分類器,具有各自不同的理論基礎(chǔ)。其中,Covaria
9、ntDiscrimination(CD)分類器在各類別樣本量相差較大,各類別內(nèi)的樣本具有不同的分布特征且特征值之間有耦合存在的樣本空間上較為適用,常常能夠得到較好的預(yù)測結(jié)果。 為了客觀和全面地檢測我們所建立的預(yù)測系統(tǒng)的預(yù)測效率,以及加入表征序列排列順序特點的頻域特征值以后對于預(yù)測結(jié)果的改善,我們采用了三種檢測方法來分別考察在蛋白質(zhì)的氨基酸組分所構(gòu)成的20維特征空間以及在氨基酸組分加頻域特征值所構(gòu)成的60維特征空間上預(yù)測得到的正
10、確率。首先是自身一致性檢測,運用ProtLock分類器,加入頻域特征值前后的預(yù)測正確率分別為47.9﹪和50.5﹪;運用馬氏距離分類器時,加入頻域特征值前后的預(yù)測正確率分別為36.6﹪和62.8﹪;運用CD分類器時,加入頻域特征值前后的預(yù)測正確率分別為58.8﹪和79.2﹪。對于獨立檢測,分別采用上述三種分類器,預(yù)測正確率在加入頻域特征值前后的變化分別是從48.4﹪到50.4﹪,從46.3﹪到70.4﹪,從54.8﹪到75.8﹪。對于留
11、一法檢測,同樣采用三種分類器,加入頻域特征值后帶來的預(yù)測正確率的變化分別為從47.6﹪到49.8﹪,從36.0﹪到58.5﹪,從57.9﹪到74.3﹪。從檢測的結(jié)果,我們觀察到,由于在氨基酸組分的基礎(chǔ)上增加了頻域特征值所代表的序列的順序信息,使得不論采用哪一種分類器、通過哪一種檢測手段,預(yù)測的正確率都有了不同程度的提高。尤其在采用CD分類器的結(jié)果中,預(yù)測正確率提高的平均幅度達到了19.3﹪,并且預(yù)測正確率的絕對平均值也達到了76.4﹪。
12、通過對這些數(shù)據(jù)的觀察和分析,我們得出兩點主要的結(jié)論: (1)序列排列順序?qū)τ诘鞍踪|(zhì)的亞細胞定位是有潛在影響的;(2)運用數(shù)字信號處理技術(shù)所提取的頻域特征值在反映序列的排列順序信息方面是有效的。 本文的主要貢獻在于兩個方面,一是根據(jù)現(xiàn)有的蛋白質(zhì)信息搜集了目前最完備的蛋白質(zhì)亞細胞定位的數(shù)據(jù),并進行篩選、分類和建數(shù)據(jù)庫,提供了數(shù)據(jù)網(wǎng)絡(luò)共享的查詢接口;二是首次運用數(shù)字信號處理技術(shù)對氨基酸序列進行分析,將分析結(jié)果應(yīng)用于蛋白質(zhì)亞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋白質(zhì)亞細胞定位預(yù)測方法研究.pdf
- 基于融合特征的蛋白質(zhì)亞細胞定位預(yù)測.pdf
- 基于直推學習的蛋白質(zhì)亞細胞定位預(yù)測.pdf
- 蛋白質(zhì)亞細胞定位的識別.pdf
- 基于理化特征融合的蛋白質(zhì)亞細胞定位預(yù)測.pdf
- 基于多標記學習的蛋白質(zhì)亞細胞定位預(yù)測.pdf
- 基于糾錯輸出編碼的蛋白質(zhì)亞細胞定位預(yù)測.pdf
- 使用蛋白質(zhì)和mRNA序列信息預(yù)測蛋白質(zhì)亞線粒體定位.pdf
- 蛋白質(zhì)亞細胞定位方法研究和網(wǎng)絡(luò)預(yù)測平臺構(gòu)建.pdf
- 基于圖像的蛋白質(zhì)亞細胞定位.pdf
- 基于離散特征的蛋白質(zhì)亞細胞定位預(yù)測方法研究.pdf
- 基于多信息融合的蛋白質(zhì)亞細胞定位預(yù)測方法研究.pdf
- 基于機器學習的多定位點蛋白質(zhì)亞細胞定位預(yù)測方法研究.pdf
- 基于多特征融合的蛋白質(zhì)亞細胞多位點定位預(yù)測.pdf
- 核蛋白的亞核定位和植物、非植物及小鼠蛋白質(zhì)的亞細胞定位預(yù)測研究.pdf
- 數(shù)字信號處理課程設(shè)計--使用matlab工具進行數(shù)字信號處理
- 數(shù)字信號處理課程設(shè)計-使用matlab工具進行數(shù)字信號處理
- 蛋白質(zhì)亞細胞定位的序列分析和理論預(yù)測算法研究.pdf
- 凋亡蛋白質(zhì)數(shù)據(jù)庫的建立及亞細胞定位預(yù)測.pdf
- 基于GO語義相似性的蛋白質(zhì)亞細胞定位預(yù)測研究.pdf
評論
0/150
提交評論