蛋白質(zhì)分子模式分析及識別研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),沒有蛋白質(zhì)就沒有生命。氨基酸是組成蛋白質(zhì)的基本單位,氨基酸通過脫水縮合連成蛋白質(zhì)鏈。蛋白質(zhì)的氨基酸序列是由對應(yīng)基因所編碼。蛋白質(zhì)序列通過折疊構(gòu)成一定的空間結(jié)構(gòu),從而發(fā)揮某一特定功能。蛋白質(zhì)的某些氨基酸殘基可以被翻譯后修飾而發(fā)生化學(xué)結(jié)構(gòu)的變化,進(jìn)而對蛋白質(zhì)進(jìn)行激活或調(diào)控。蛋白質(zhì)能夠在細(xì)胞中發(fā)揮多種多樣的功能,涵蓋了細(xì)胞生命活動的方方面面。蛋白質(zhì)序列、結(jié)構(gòu)、功能的研究對生命科學(xué)及制藥工程具有重要的意義。
  隨

2、著高通量技術(shù)的快速進(jìn)步,實(shí)驗(yàn)測定的蛋白質(zhì)序列數(shù)量呈指數(shù)增長。但是采用傳統(tǒng)生物實(shí)驗(yàn)的方法決定蛋白質(zhì)序列的結(jié)構(gòu)功能是相當(dāng)?shù)馁M(fèi)時(shí)費(fèi)力。因此,已知序列的蛋白質(zhì)的數(shù)目同已知結(jié)構(gòu)和功能的蛋白質(zhì)的數(shù)目之間的鴻溝有加速擴(kuò)大到趨勢。采用計(jì)算的方法預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能可以及時(shí)有效地彌補(bǔ)傳統(tǒng)生物實(shí)驗(yàn)的不足。
  本論文基于先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),以及蛋白序列特征、預(yù)測的結(jié)構(gòu)特征、進(jìn)化特征、物理化學(xué)特征等,開發(fā)設(shè)計(jì)出了蛋白質(zhì)序列分類和位點(diǎn)標(biāo)記的計(jì)算方法,其

3、性能優(yōu)于當(dāng)前已有的計(jì)算預(yù)測方法。特別地,本文重要的貢獻(xiàn)在于:芋螺毒素分類預(yù)測,蛋白質(zhì)信號肽分類和信號肽剪切位點(diǎn)識別,鈣激活蛋白酶底物剪切位點(diǎn)識別,原核蛋白中類泛素化位點(diǎn)發(fā)現(xiàn)。論文主要研究內(nèi)容和創(chuàng)新點(diǎn)如下:
  1.基于集成特征預(yù)測芋螺毒素超家族
  芋螺毒素是二硫化物豐富的無價(jià)的靶向通道肽,可以靶向神經(jīng)元感受器。在治療老年癡呆癥,帕金森癥,癲癇癥方面,芋螺毒素作為有效的藥物而展示出良好的應(yīng)用前景。因此,為了進(jìn)一步了解芋螺毒素

4、的生物和藥理功能,有必要首先對芋螺毒素的超家族進(jìn)行計(jì)算預(yù)測分類。
  芋螺毒素蛋白質(zhì)的超家族類別是由多種因素共同決定的,而且可抽象為典型的多類分類問題?;诖颂攸c(diǎn),本文提出了多特征集成預(yù)測的思想。首先創(chuàng)建了最新的基準(zhǔn)數(shù)據(jù)集,然后提取芋螺毒素蛋白質(zhì)氨基酸序列的物理化學(xué)屬性特征,并進(jìn)行小波變換之后采用隨機(jī)森林進(jìn)行降維,同時(shí)蛋白質(zhì)序列氨基酸組成特征、蛋白質(zhì)序列的進(jìn)化特征、蛋白質(zhì)序列的二級結(jié)構(gòu)特征,隨后構(gòu)建了多個(gè)一對多的支持向量機(jī)模型,最

5、終開發(fā)出了新穎的算法PredCSF算法,并將所開發(fā)出的PredCSF算法成功應(yīng)用于芋螺毒素超家族分類預(yù)測。實(shí)驗(yàn)結(jié)果表明:在本文新構(gòu)建的基準(zhǔn)數(shù)據(jù)集上,PredCSF能獲得90.65%的準(zhǔn)確率?;谟舐荻舅氐鞍仔蛄械亩喾N特征,本文提出的方法能對芋螺毒素超家族進(jìn)行有效的預(yù)測分類,這將極大地促進(jìn)治療慢性疼痛,癲癇癥等疾病的藥物開發(fā)。
  2.基于擴(kuò)散映射降維和子空間分類器判別芋螺毒素超家族
  為了進(jìn)一步改善芋螺毒素超家族分類精度,

6、并針對提取芋螺毒素多因素特征后產(chǎn)生的高維數(shù)據(jù)問題,同時(shí)考慮到芋螺毒素超家族分類本質(zhì)是多類分類問題。本文提出了基于擴(kuò)散映射進(jìn)行數(shù)據(jù)降維,采用并改進(jìn)本質(zhì)多類分類器HKNN,最后整體成功地應(yīng)用于對芋螺毒素超家族的分類預(yù)測。
  首先,芋螺毒素蛋白質(zhì)序列的物理化學(xué)屬性、進(jìn)化信息、預(yù)測的二級結(jié)構(gòu)信息和氨基酸組成等作為特征被提取出來;其次,為了獲取數(shù)據(jù)幾何描述的有效表示,把馬爾可夫矩陣的特征函數(shù)看作是原數(shù)據(jù)集上的一個(gè)坐標(biāo)系統(tǒng),基于擴(kuò)散映射進(jìn)行

7、數(shù)據(jù)降維;最后,考慮擴(kuò)散空間中的局部密度信息,改進(jìn)了局部超平面K近鄰子空間分類器(HKNN),提出了dHKNN算法進(jìn)行芋螺毒素超家族的預(yù)測分類。在基準(zhǔn)數(shù)據(jù)集上,本文提出的dHKNN通過嚴(yán)格的留一法交叉驗(yàn)證測試,取得了91.90%的分類精度,顯示出良好的應(yīng)用前景。
  3.基于特異位置氨基酸傾向性和條件隨機(jī)場預(yù)測蛋白質(zhì)N-端信號肽
  無論是在原核生物還是真核生物中,絕大部分的分泌性蛋白和許多內(nèi)在膜蛋白的靶向和易位,都必須依靠

8、蛋白質(zhì)的信號肽。在分子生物學(xué)中,一項(xiàng)重要的任務(wù)就是精確地預(yù)測識別蛋白質(zhì)的信號肽。蛋白質(zhì)的信號肽通常具有三個(gè)常見的結(jié)構(gòu)域,中間一個(gè)是明顯的疏水區(qū)域,而非信號肽則沒有這種明顯的特征。信號肽剪切位點(diǎn)是由復(fù)雜的序列模式所決定的。
  首先,針對蛋白質(zhì)的信號肽具有疏水結(jié)構(gòu)域特征,本文提出了一種新穎的判別評分方法,依靠集成疏水性比對和基于最高平均疏水位置的氨基酸傾向性,該方法成功地完成了信號肽和非信號肽的區(qū)分。結(jié)果顯示,對于三種不同物種,即真

9、核生物,革蘭氏陰性菌,革蘭氏陽性菌,在所構(gòu)建的基準(zhǔn)測試集上進(jìn)行嚴(yán)格的留一法交叉測試,該方法分別能以96.3%,97.0%和97.2%的準(zhǔn)確率區(qū)分三個(gè)物種的信號肽和非信號肽;其次,針對決定信號肽剪切位點(diǎn)的復(fù)雜氨基酸序列模式,本文把信號肽剪切位點(diǎn)的識別歸結(jié)為典型的序列標(biāo)記問題而不是常規(guī)地分類問題。本文創(chuàng)新性地提出用概率圖模型來捕獲這些氨基酸序列模式關(guān)系,構(gòu)建條件隨機(jī)場(CRF)模型成功地應(yīng)用于信號肽剪切位點(diǎn)識別。實(shí)驗(yàn)結(jié)果證明:本文所提出的基

10、于條件隨機(jī)場(CRF)的方法能分別以80.8%,89.4%,和74.0%的精度識別三個(gè)物種的信號肽的剪切位點(diǎn)。
  4.基于條件隨機(jī)場和多序列比對從跨膜螺旋中判別N-端信號肽
  盡管文獻(xiàn)已經(jīng)發(fā)表了很多從蛋白質(zhì)序列出發(fā)預(yù)測信號肽的方法并構(gòu)建了相應(yīng)從在線預(yù)測工具,但是所有這些方法在區(qū)分蛋白質(zhì)的信號肽和N-端跨膜螺旋都表現(xiàn)的能力較弱。如采用上面提到的信號肽預(yù)測方法進(jìn)行全基因組識別研究,必然會得到大量來自N-端跨膜區(qū)域的假陽性預(yù)測

11、結(jié)果。如何盡量降低這類假陽性預(yù)測是一個(gè)亟待解決的重要問題。
  在此研究中,本文提出基于條件隨機(jī)場(CRF)算法并結(jié)合了多序列比對(Alignment)算法來整體完成蛋白質(zhì)信號肽的識別,同時(shí)完成對信號肽和跨膜螺旋區(qū)域的區(qū)分。條件隨機(jī)場(CRF)不僅能建模單氨基酸殘基的信息,而且能建模不同距離的氨基酸殘基對之間的關(guān)聯(lián)信息。采用多序列比對作為補(bǔ)充,能充分利用數(shù)據(jù)集中的同源信息。實(shí)驗(yàn)結(jié)果表明:所提出的方法勝過了SignalP4.0。

12、r>  5.基于蛋白質(zhì)序列信息使用條件隨機(jī)場標(biāo)記鈣蛋白酶底物剪切位點(diǎn)
  依賴于Ca2+的半胱氨酸蛋白酶中的鈣激活蛋白酶家族在許多生物過程中扮演至關(guān)重要的角色,而且同各種病理狀態(tài)密切相關(guān)。被激活的鈣蛋白酶可以有選擇地在特定的剪切位點(diǎn)剪切相關(guān)的底物蛋白,使完整的底物蛋白被分成可以執(zhí)行不同功能的多個(gè)片段。但是在現(xiàn)階段,由于相關(guān)的傳統(tǒng)生物實(shí)驗(yàn)非常費(fèi)時(shí),而且價(jià)格昂貴,導(dǎo)致人類對于鈣激活蛋白酶的功能和他們的底物剪切機(jī)制的認(rèn)知非常有限。計(jì)算預(yù)

13、測的傳統(tǒng)方式是,首先從整個(gè)蛋白質(zhì)序列中分離出包含潛在剪切位點(diǎn)的短的肽段,然后采用兩類分類器去預(yù)測識別。傳統(tǒng)方式的問題在于,由于在訓(xùn)練數(shù)據(jù)中,負(fù)樣本遠(yuǎn)遠(yuǎn)多于正樣本,導(dǎo)致所構(gòu)建的分類器存在顯著地偏向。本質(zhì)看來,識別鈣蛋白酶底物剪切位點(diǎn)是一個(gè)典型的序列標(biāo)記問題,而且決定剪切位點(diǎn)的因素是多方面的,同時(shí)還存在極端類別不平衡問題。
  針對這些問題,本文提出了提取多角度特征,并分別建立條件隨機(jī)場(CRF)模型,采取結(jié)果融合的策略,總體開發(fā)出了

14、LabCaS算法。所提出的LabCaS算法被成功地應(yīng)用于鈣蛋白酶底物剪切位點(diǎn)識別。在構(gòu)建的基準(zhǔn)數(shù)據(jù)集上,采用最嚴(yán)格的留一法測試,得到最優(yōu)的AUC值是0.862。同時(shí),為了加速后基因組時(shí)代的大規(guī)模數(shù)據(jù)分析的進(jìn)程,本文基于LabCaS算法不但進(jìn)行了大規(guī)模的鈣激活蛋白酶底物剪切位點(diǎn)識別分析,而且還進(jìn)行的具體的個(gè)案研究,為生物學(xué)家提供了豐富的計(jì)算分析結(jié)果。
  6.基于偽氨基酸組成和極端學(xué)習(xí)機(jī)識別原核蛋白質(zhì)中的類泛素化位點(diǎn)
  在結(jié)

15、核分枝桿菌中,為了進(jìn)行選擇性的蛋白質(zhì)降解,原核的類泛素化蛋白依靠形成異構(gòu)肽鍵而附著在底物蛋白的特異的賴氨酸殘基K上。作為最重要的一類原核蛋白的翻譯后修飾,原核中的類泛素化在調(diào)控廣泛的生物過程扮演至關(guān)重要的角色。為了全面深入地了解這些原核類泛素化相關(guān)的生物過程,類泛素化位點(diǎn)的識別是首要的步驟。而傳統(tǒng)的實(shí)驗(yàn)室試驗(yàn)方法識別類泛素化位點(diǎn)是相當(dāng)費(fèi)時(shí)費(fèi)力的。類泛素化位點(diǎn)主要發(fā)生在賴氨酸K之上,而且與賴氨酸K附近的其他氨基酸殘基有關(guān)。具體抽象出來,就

16、是識別哪些包含賴氨酸K的肽段是類泛素化位點(diǎn)。
  為了及時(shí)有效地發(fā)現(xiàn)類泛素化位點(diǎn),本文提出對包含賴氨酸K的肽段采取偽氨基酸組成(PseAAC)的編碼策略,這樣就能捕獲肽段內(nèi)的氨基酸之間的相關(guān)信息,采用極端學(xué)習(xí)機(jī)(ELM)構(gòu)建預(yù)測模型,整體形成PupS算法。本文提出了一種基于偽氨基酸組成編碼和極端學(xué)習(xí)機(jī)的新穎計(jì)算預(yù)測器PupS,在所構(gòu)建的訓(xùn)練集上進(jìn)行嚴(yán)格的留一法交叉驗(yàn)證測試,獲得0.6483的AUC值,在所構(gòu)建的獨(dú)立測試集上獲得0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論