蛋白質(zhì)分子模式分析及識(shí)別研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：156 大?。?.31MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩155頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)是生命的物質(zhì)基礎(chǔ)，沒(méi)有蛋白質(zhì)就沒(méi)有生命。氨基酸是組成蛋白質(zhì)的基本單位，氨基酸通過(guò)脫水縮合連成蛋白質(zhì)鏈。蛋白質(zhì)的氨基酸序列是由對(duì)應(yīng)基因所編碼。蛋白質(zhì)序列通過(guò)折疊構(gòu)成一定的空間結(jié)構(gòu)，從而發(fā)揮某一特定功能。蛋白質(zhì)的某些氨基酸殘基可以被翻譯后修飾而發(fā)生化學(xué)結(jié)構(gòu)的變化，進(jìn)而對(duì)蛋白質(zhì)進(jìn)行激活或調(diào)控。蛋白質(zhì)能夠在細(xì)胞中發(fā)揮多種多樣的功能，涵蓋了細(xì)胞生命活動(dòng)的方方面面。蛋白質(zhì)序列、結(jié)構(gòu)、功能的研究對(duì)生命科學(xué)及制藥工程具有重要的意義。
　　隨

2、著高通量技術(shù)的快速進(jìn)步，實(shí)驗(yàn)測(cè)定的蛋白質(zhì)序列數(shù)量呈指數(shù)增長(zhǎng)。但是采用傳統(tǒng)生物實(shí)驗(yàn)的方法決定蛋白質(zhì)序列的結(jié)構(gòu)功能是相當(dāng)?shù)馁M(fèi)時(shí)費(fèi)力。因此，已知序列的蛋白質(zhì)的數(shù)目同已知結(jié)構(gòu)和功能的蛋白質(zhì)的數(shù)目之間的鴻溝有加速擴(kuò)大到趨勢(shì)。采用計(jì)算的方法預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能可以及時(shí)有效地彌補(bǔ)傳統(tǒng)生物實(shí)驗(yàn)的不足。
　　本論文基于先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)，以及蛋白序列特征、預(yù)測(cè)的結(jié)構(gòu)特征、進(jìn)化特征、物理化學(xué)特征等，開(kāi)發(fā)設(shè)計(jì)出了蛋白質(zhì)序列分類(lèi)和位點(diǎn)標(biāo)記的計(jì)算方法，其

3、性能優(yōu)于當(dāng)前已有的計(jì)算預(yù)測(cè)方法。特別地，本文重要的貢獻(xiàn)在于：芋螺毒素分類(lèi)預(yù)測(cè)，蛋白質(zhì)信號(hào)肽分類(lèi)和信號(hào)肽剪切位點(diǎn)識(shí)別，鈣激活蛋白酶底物剪切位點(diǎn)識(shí)別，原核蛋白中類(lèi)泛素化位點(diǎn)發(fā)現(xiàn)。論文主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)如下：
　　1.基于集成特征預(yù)測(cè)芋螺毒素超家族
　　芋螺毒素是二硫化物豐富的無(wú)價(jià)的靶向通道肽，可以靶向神經(jīng)元感受器。在治療老年癡呆癥，帕金森癥，癲癇癥方面，芋螺毒素作為有效的藥物而展示出良好的應(yīng)用前景。因此，為了進(jìn)一步了解芋螺毒素

4、的生物和藥理功能，有必要首先對(duì)芋螺毒素的超家族進(jìn)行計(jì)算預(yù)測(cè)分類(lèi)。
　　芋螺毒素蛋白質(zhì)的超家族類(lèi)別是由多種因素共同決定的，而且可抽象為典型的多類(lèi)分類(lèi)問(wèn)題?；诖颂攸c(diǎn)，本文提出了多特征集成預(yù)測(cè)的思想。首先創(chuàng)建了最新的基準(zhǔn)數(shù)據(jù)集，然后提取芋螺毒素蛋白質(zhì)氨基酸序列的物理化學(xué)屬性特征，并進(jìn)行小波變換之后采用隨機(jī)森林進(jìn)行降維，同時(shí)蛋白質(zhì)序列氨基酸組成特征、蛋白質(zhì)序列的進(jìn)化特征、蛋白質(zhì)序列的二級(jí)結(jié)構(gòu)特征，隨后構(gòu)建了多個(gè)一對(duì)多的支持向量機(jī)模型,最

5、終開(kāi)發(fā)出了新穎的算法PredCSF算法,并將所開(kāi)發(fā)出的PredCSF算法成功應(yīng)用于芋螺毒素超家族分類(lèi)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明：在本文新構(gòu)建的基準(zhǔn)數(shù)據(jù)集上，PredCSF能獲得90.65％的準(zhǔn)確率?；谟舐荻舅氐鞍仔蛄械亩喾N特征，本文提出的方法能對(duì)芋螺毒素超家族進(jìn)行有效的預(yù)測(cè)分類(lèi)，這將極大地促進(jìn)治療慢性疼痛，癲癇癥等疾病的藥物開(kāi)發(fā)。
　　2.基于擴(kuò)散映射降維和子空間分類(lèi)器判別芋螺毒素超家族
　　為了進(jìn)一步改善芋螺毒素超家族分類(lèi)精度，

6、并針對(duì)提取芋螺毒素多因素特征后產(chǎn)生的高維數(shù)據(jù)問(wèn)題，同時(shí)考慮到芋螺毒素超家族分類(lèi)本質(zhì)是多類(lèi)分類(lèi)問(wèn)題。本文提出了基于擴(kuò)散映射進(jìn)行數(shù)據(jù)降維，采用并改進(jìn)本質(zhì)多類(lèi)分類(lèi)器HKNN，最后整體成功地應(yīng)用于對(duì)芋螺毒素超家族的分類(lèi)預(yù)測(cè)。
　　首先，芋螺毒素蛋白質(zhì)序列的物理化學(xué)屬性、進(jìn)化信息、預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息和氨基酸組成等作為特征被提取出來(lái)；其次，為了獲取數(shù)據(jù)幾何描述的有效表示，把馬爾可夫矩陣的特征函數(shù)看作是原數(shù)據(jù)集上的一個(gè)坐標(biāo)系統(tǒng)，基于擴(kuò)散映射進(jìn)行

7、數(shù)據(jù)降維；最后，考慮擴(kuò)散空間中的局部密度信息，改進(jìn)了局部超平面K近鄰子空間分類(lèi)器（HKNN），提出了dHKNN算法進(jìn)行芋螺毒素超家族的預(yù)測(cè)分類(lèi)。在基準(zhǔn)數(shù)據(jù)集上，本文提出的dHKNN通過(guò)嚴(yán)格的留一法交叉驗(yàn)證測(cè)試，取得了91.90%的分類(lèi)精度，顯示出良好的應(yīng)用前景。
　　3.基于特異位置氨基酸傾向性和條件隨機(jī)場(chǎng)預(yù)測(cè)蛋白質(zhì)N-端信號(hào)肽
　　無(wú)論是在原核生物還是真核生物中，絕大部分的分泌性蛋白和許多內(nèi)在膜蛋白的靶向和易位，都必須依靠

8、蛋白質(zhì)的信號(hào)肽。在分子生物學(xué)中，一項(xiàng)重要的任務(wù)就是精確地預(yù)測(cè)識(shí)別蛋白質(zhì)的信號(hào)肽。蛋白質(zhì)的信號(hào)肽通常具有三個(gè)常見(jiàn)的結(jié)構(gòu)域，中間一個(gè)是明顯的疏水區(qū)域，而非信號(hào)肽則沒(méi)有這種明顯的特征。信號(hào)肽剪切位點(diǎn)是由復(fù)雜的序列模式所決定的。
　　首先，針對(duì)蛋白質(zhì)的信號(hào)肽具有疏水結(jié)構(gòu)域特征，本文提出了一種新穎的判別評(píng)分方法，依靠集成疏水性比對(duì)和基于最高平均疏水位置的氨基酸傾向性，該方法成功地完成了信號(hào)肽和非信號(hào)肽的區(qū)分。結(jié)果顯示，對(duì)于三種不同物種，即真

9、核生物，革蘭氏陰性菌，革蘭氏陽(yáng)性菌，在所構(gòu)建的基準(zhǔn)測(cè)試集上進(jìn)行嚴(yán)格的留一法交叉測(cè)試，該方法分別能以96.3%,97.0%和97.2%的準(zhǔn)確率區(qū)分三個(gè)物種的信號(hào)肽和非信號(hào)肽；其次，針對(duì)決定信號(hào)肽剪切位點(diǎn)的復(fù)雜氨基酸序列模式，本文把信號(hào)肽剪切位點(diǎn)的識(shí)別歸結(jié)為典型的序列標(biāo)記問(wèn)題而不是常規(guī)地分類(lèi)問(wèn)題。本文創(chuàng)新性地提出用概率圖模型來(lái)捕獲這些氨基酸序列模式關(guān)系，構(gòu)建條件隨機(jī)場(chǎng)（CRF）模型成功地應(yīng)用于信號(hào)肽剪切位點(diǎn)識(shí)別。實(shí)驗(yàn)結(jié)果證明：本文所提出的基

10、于條件隨機(jī)場(chǎng)（CRF）的方法能分別以80.8%,89.4%,和74.0%的精度識(shí)別三個(gè)物種的信號(hào)肽的剪切位點(diǎn)。
　　4.基于條件隨機(jī)場(chǎng)和多序列比對(duì)從跨膜螺旋中判別N-端信號(hào)肽
　　盡管文獻(xiàn)已經(jīng)發(fā)表了很多從蛋白質(zhì)序列出發(fā)預(yù)測(cè)信號(hào)肽的方法并構(gòu)建了相應(yīng)從在線預(yù)測(cè)工具，但是所有這些方法在區(qū)分蛋白質(zhì)的信號(hào)肽和N-端跨膜螺旋都表現(xiàn)的能力較弱。如采用上面提到的信號(hào)肽預(yù)測(cè)方法進(jìn)行全基因組識(shí)別研究，必然會(huì)得到大量來(lái)自N-端跨膜區(qū)域的假陽(yáng)性預(yù)測(cè)

11、結(jié)果。如何盡量降低這類(lèi)假陽(yáng)性預(yù)測(cè)是一個(gè)亟待解決的重要問(wèn)題。
　　在此研究中，本文提出基于條件隨機(jī)場(chǎng)（CRF）算法并結(jié)合了多序列比對(duì)（Alignment）算法來(lái)整體完成蛋白質(zhì)信號(hào)肽的識(shí)別，同時(shí)完成對(duì)信號(hào)肽和跨膜螺旋區(qū)域的區(qū)分。條件隨機(jī)場(chǎng)（CRF）不僅能建模單氨基酸殘基的信息，而且能建模不同距離的氨基酸殘基對(duì)之間的關(guān)聯(lián)信息。采用多序列比對(duì)作為補(bǔ)充，能充分利用數(shù)據(jù)集中的同源信息。實(shí)驗(yàn)結(jié)果表明：所提出的方法勝過(guò)了SignalP4.0。

12、r>　　5.基于蛋白質(zhì)序列信息使用條件隨機(jī)場(chǎng)標(biāo)記鈣蛋白酶底物剪切位點(diǎn)
　　依賴(lài)于Ca2+的半胱氨酸蛋白酶中的鈣激活蛋白酶家族在許多生物過(guò)程中扮演至關(guān)重要的角色，而且同各種病理狀態(tài)密切相關(guān)。被激活的鈣蛋白酶可以有選擇地在特定的剪切位點(diǎn)剪切相關(guān)的底物蛋白，使完整的底物蛋白被分成可以執(zhí)行不同功能的多個(gè)片段。但是在現(xiàn)階段，由于相關(guān)的傳統(tǒng)生物實(shí)驗(yàn)非常費(fèi)時(shí)，而且價(jià)格昂貴，導(dǎo)致人類(lèi)對(duì)于鈣激活蛋白酶的功能和他們的底物剪切機(jī)制的認(rèn)知非常有限。計(jì)算預(yù)

13、測(cè)的傳統(tǒng)方式是，首先從整個(gè)蛋白質(zhì)序列中分離出包含潛在剪切位點(diǎn)的短的肽段，然后采用兩類(lèi)分類(lèi)器去預(yù)測(cè)識(shí)別。傳統(tǒng)方式的問(wèn)題在于，由于在訓(xùn)練數(shù)據(jù)中，負(fù)樣本遠(yuǎn)遠(yuǎn)多于正樣本，導(dǎo)致所構(gòu)建的分類(lèi)器存在顯著地偏向。本質(zhì)看來(lái)，識(shí)別鈣蛋白酶底物剪切位點(diǎn)是一個(gè)典型的序列標(biāo)記問(wèn)題，而且決定剪切位點(diǎn)的因素是多方面的，同時(shí)還存在極端類(lèi)別不平衡問(wèn)題。
　　針對(duì)這些問(wèn)題，本文提出了提取多角度特征，并分別建立條件隨機(jī)場(chǎng)（CRF）模型，采取結(jié)果融合的策略，總體開(kāi)發(fā)出了

14、LabCaS算法。所提出的LabCaS算法被成功地應(yīng)用于鈣蛋白酶底物剪切位點(diǎn)識(shí)別。在構(gòu)建的基準(zhǔn)數(shù)據(jù)集上，采用最嚴(yán)格的留一法測(cè)試，得到最優(yōu)的AUC值是0.862。同時(shí)，為了加速后基因組時(shí)代的大規(guī)模數(shù)據(jù)分析的進(jìn)程，本文基于LabCaS算法不但進(jìn)行了大規(guī)模的鈣激活蛋白酶底物剪切位點(diǎn)識(shí)別分析，而且還進(jìn)行的具體的個(gè)案研究，為生物學(xué)家提供了豐富的計(jì)算分析結(jié)果。
　　6.基于偽氨基酸組成和極端學(xué)習(xí)機(jī)識(shí)別原核蛋白質(zhì)中的類(lèi)泛素化位點(diǎn)
　　在結(jié)

15、核分枝桿菌中，為了進(jìn)行選擇性的蛋白質(zhì)降解，原核的類(lèi)泛素化蛋白依靠形成異構(gòu)肽鍵而附著在底物蛋白的特異的賴(lài)氨酸殘基K上。作為最重要的一類(lèi)原核蛋白的翻譯后修飾，原核中的類(lèi)泛素化在調(diào)控廣泛的生物過(guò)程扮演至關(guān)重要的角色。為了全面深入地了解這些原核類(lèi)泛素化相關(guān)的生物過(guò)程，類(lèi)泛素化位點(diǎn)的識(shí)別是首要的步驟。而傳統(tǒng)的實(shí)驗(yàn)室試驗(yàn)方法識(shí)別類(lèi)泛素化位點(diǎn)是相當(dāng)費(fèi)時(shí)費(fèi)力的。類(lèi)泛素化位點(diǎn)主要發(fā)生在賴(lài)氨酸K之上，而且與賴(lài)氨酸K附近的其他氨基酸殘基有關(guān)。具體抽象出來(lái)，就

16、是識(shí)別哪些包含賴(lài)氨酸K的肽段是類(lèi)泛素化位點(diǎn)。
　　為了及時(shí)有效地發(fā)現(xiàn)類(lèi)泛素化位點(diǎn)，本文提出對(duì)包含賴(lài)氨酸K的肽段采取偽氨基酸組成（PseAAC）的編碼策略，這樣就能捕獲肽段內(nèi)的氨基酸之間的相關(guān)信息，采用極端學(xué)習(xí)機(jī)（ELM）構(gòu)建預(yù)測(cè)模型，整體形成PupS算法。本文提出了一種基于偽氨基酸組成編碼和極端學(xué)習(xí)機(jī)的新穎計(jì)算預(yù)測(cè)器PupS，在所構(gòu)建的訓(xùn)練集上進(jìn)行嚴(yán)格的留一法交叉驗(yàn)證測(cè)試，獲得0.6483的AUC值，在所構(gòu)建的獨(dú)立測(cè)試集上獲得0.

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

蛋白質(zhì)分子模式分析及識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

蛋白質(zhì)分子模式分析及識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載