基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的蛋白質(zhì)結(jié)構(gòu)特征預(yù)測(cè).pdf_第1頁(yè)
已閱讀1頁(yè),還剩139頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)出現(xiàn)在所有生物中,是一類(lèi)重要的生物大分子,它們?cè)趲缀跛猩镞^(guò)程中起了關(guān)鍵的作用。蛋白質(zhì)由氨基酸構(gòu)成,氨基酸按序連接形成蛋白質(zhì)的初始結(jié)構(gòu)。蛋白質(zhì)二級(jí)結(jié)構(gòu)的基本元素為α螺旋、β折疊層、卷曲螺旋和轉(zhuǎn)角。轉(zhuǎn)角是結(jié)構(gòu)化的基序,基序中兩個(gè)殘基的α原子被幾個(gè)肽鍵(通常是1到5個(gè))分隔,它們之間的距離小于7A°,相應(yīng)的殘基不能形成規(guī)則的二級(jí)結(jié)構(gòu)元素如α螺旋或β折疊層。不同的轉(zhuǎn)角按照兩個(gè)端殘基之間的距離分類(lèi)。終端殘基被α轉(zhuǎn)角中的4個(gè)肽鍵、β轉(zhuǎn)角中

2、的3個(gè)肽鍵、γ轉(zhuǎn)角中的2個(gè)肽鍵、δ轉(zhuǎn)角中1個(gè)肽鍵和π轉(zhuǎn)角中的5個(gè)肽鍵分隔。β轉(zhuǎn)角是在蛋白質(zhì)中發(fā)現(xiàn)的最常見(jiàn)的轉(zhuǎn)角結(jié)構(gòu)形式,因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)中,大約25%的氨基酸在它們當(dāng)中。因?yàn)樯婕暗睫D(zhuǎn)角形式的相互作用大部分是局部的,所以β轉(zhuǎn)角在鏈熵中能勝任初始的繁殖結(jié)構(gòu)卻沒(méi)有大的損失,這使β轉(zhuǎn)角在蛋白質(zhì)折疊中變得很重要。這個(gè)觀點(diǎn)與層次折疊模型是一致的。在層次折疊模型中,某些包含具有高的轉(zhuǎn)角傾向的殘基的轉(zhuǎn)角充當(dāng)了結(jié)構(gòu)形成的活動(dòng)成核點(diǎn),這些成核點(diǎn)源自于角落殘基

3、并向側(cè)邊的β絞絲傳播。β轉(zhuǎn)角在蛋白質(zhì)的折疊反應(yīng)中起來(lái)兩個(gè)不同的作用:它們或者是主動(dòng)折疊和作為起始位點(diǎn)起作用,或者是僅僅在其他區(qū)域發(fā)育完成之后形成的被動(dòng)折疊元素。當(dāng)β折疊作為被動(dòng)折疊起作用時(shí),其他折疊事件如肽鏈坍塌或穩(wěn)定的第三位的相互作用促進(jìn)了結(jié)構(gòu)的形成,而且,轉(zhuǎn)角的形成僅僅是來(lái)自蛋白質(zhì)的其他區(qū)域結(jié)構(gòu)鞏固的結(jié)果。這些不同的作用可能來(lái)自,在形成不同蛋白質(zhì)的原始狀態(tài)的過(guò)程中,各種相互作用的相對(duì)重要性。
  通過(guò)固有的偏向于φ,ψ空間以及

4、側(cè)鏈包裹相互作用和局部環(huán)境,轉(zhuǎn)角能影響蛋白質(zhì)的原始狀態(tài)的的穩(wěn)定性。因?yàn)棣罗D(zhuǎn)角通常發(fā)生在蛋白質(zhì)的暴露面,所有它們很適合參與配體結(jié)合、分子辨識(shí)、蛋白質(zhì)-蛋白質(zhì)相互作用、蛋白質(zhì)-核酸相互作用,因而,調(diào)節(jié)了蛋白質(zhì)功能和分子間的相互作用;另外,它們是頻繁的翻譯后修飾點(diǎn),如被用于調(diào)節(jié)相互作用的磷酸化作用和糖基化。因此,開(kāi)發(fā)精確的β轉(zhuǎn)角測(cè)定方法是很有價(jià)值的。
  x射線晶體學(xué)和核磁共振都越來(lái)越多地運(yùn)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。而結(jié)構(gòu)測(cè)定并不是一個(gè)直線前

5、進(jìn)的過(guò)程,X射線結(jié)晶學(xué)受限于蛋白質(zhì)形成晶體的難度,核磁共振只適用于相對(duì)較小的蛋白質(zhì)分子。兩種方法在時(shí)間、表現(xiàn)形式和蛋白質(zhì)的大小方面受到限制。通過(guò)全基因組序列測(cè)定了大量的蛋白質(zhì)序列,然而確定相應(yīng)的蛋白質(zhì)結(jié)構(gòu)卻要緩慢得多。因而,計(jì)算方法是必要的。目前,有幾種用于β轉(zhuǎn)角測(cè)定的計(jì)算方法,在預(yù)測(cè)質(zhì)量方面有很大的挑戰(zhàn)和改進(jìn)的空間。
  在本文中,我們整合機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)的方法在蛋白質(zhì)二級(jí)結(jié)構(gòu)中預(yù)測(cè)β轉(zhuǎn)角。我們考慮在人工神經(jīng)網(wǎng)絡(luò)中使用統(tǒng)計(jì)空間

6、降維的方法增加其在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)中的有效性,并且產(chǎn)生與目前的其他方法的可比較的結(jié)果。我們也公式化了邏輯回歸模型和使用了核心邏輯回歸預(yù)測(cè)β轉(zhuǎn)角。這兩種技術(shù)通常是不用于蛋白質(zhì)二級(jí)結(jié)構(gòu)和β轉(zhuǎn)角預(yù)測(cè)的研究領(lǐng)域的。最后,我們提供了一個(gè)混合方法,它將支持向量機(jī)和邏輯回歸結(jié)合為一個(gè)強(qiáng)有力的框架,這種方法在蛋白質(zhì)的β轉(zhuǎn)角預(yù)測(cè)中運(yùn)行良好。
  因?yàn)橛?xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)耗時(shí)的過(guò)程,尤其是當(dāng)特征數(shù)很大時(shí)。我們開(kāi)始使用主成分分析,它是一種數(shù)學(xué)過(guò)程,在蛋

7、白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)中將相關(guān)的變量轉(zhuǎn)換為順序的無(wú)關(guān)的蛋白質(zhì)。主成分分析能用于降低共軛梯度算法在預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)時(shí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的計(jì)算費(fèi)用。共軛梯度算法是一種搜索方法,能用于在共軛方向上最小化網(wǎng)絡(luò)輸出錯(cuò)誤。訓(xùn)練神經(jīng)網(wǎng)絡(luò)是為了識(shí)別位于已知的二級(jí)結(jié)構(gòu)中的氨基酸的模式和將這些模式與不在二級(jí)結(jié)構(gòu)中的其他模式區(qū)別開(kāi)來(lái)。神經(jīng)網(wǎng)絡(luò)的輸入層編碼氨基酸序列中的一個(gè)移動(dòng)窗口和預(yù)測(cè)窗口中的中心殘基??赡艿拇翱诘拇笮?,7,9,11,15,17,19和2

8、1。基于二級(jí)結(jié)構(gòu)的統(tǒng)計(jì)相關(guān)性,預(yù)測(cè)點(diǎn)的任意一邊最多有8個(gè)殘基,因此最大的窗口大小設(shè)為17。
  單序列信息作為神經(jīng)網(wǎng)絡(luò)的輸入特征。單序列信息中,每個(gè)窗口位置中的每個(gè)氨基酸被一個(gè)有20個(gè)輸入的向量編碼,每個(gè)輸入對(duì)應(yīng)在那個(gè)位置上的每個(gè)可能的氨基酸類(lèi)型。在每個(gè)向量中,對(duì)應(yīng)在那個(gè)窗口位置上的氨基酸的類(lèi)型的輸入被設(shè)置為1,所有其他輸入被設(shè)置為0。特定位置打分矩陣PSSMs也被考慮為輸入特征。在特定位置打分矩陣中,每行對(duì)應(yīng)一個(gè)氨基酸殘基?;?/p>

9、具體的窗口尺寸的神經(jīng)網(wǎng)絡(luò)的輸入向量形成了對(duì)應(yīng)于在具體窗口位置上的特定的氨基酸的特定位置打分矩陣的行。
  我們嘗試過(guò)大小為17和15的不同滑動(dòng)窗口,以及沿著序列移動(dòng)的13個(gè)氨基酸殘基。選擇窗口大小為15是依據(jù)關(guān)于蛋白質(zhì)二級(jí)結(jié)構(gòu)的最新研究,此研究推斷,提供高精度的最優(yōu)窗口大小為15。選擇窗口大小為17是由于二級(jí)結(jié)構(gòu)的統(tǒng)計(jì)相關(guān)性,即預(yù)測(cè)點(diǎn)任意一邊最多有8個(gè)殘基。選擇窗口大小為13,則是因?yàn)闄z測(cè)當(dāng)選擇的窗口大小小于15時(shí),查看預(yù)測(cè)效果是

10、否會(huì)下降。每一個(gè)窗口中的序列,以使用SCG方法識(shí)別二級(jí)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的輸入的方式,被讀取和使用。神經(jīng)網(wǎng)絡(luò)模型包含3層處理單元:輸入層,輸出層和隱蔽層。輸入層讀取序列,每個(gè)氨基酸殘基一個(gè)單元,并且向在該位點(diǎn)的氨基酸傳遞信息。
  當(dāng)窗口大小為17時(shí),輸入層包含R=17*20個(gè)輸入單元。隱蔽層對(duì)輸出信號(hào)進(jìn)行加權(quán),并發(fā)送到3個(gè)輸出單元,分別表示預(yù)測(cè)的α螺旋、β折疊和循環(huán)或窗口中央次級(jí)氨基二級(jí)結(jié)構(gòu)的卷曲。當(dāng)輸出信號(hào)接近1表示預(yù)測(cè)的

11、氨基酸擁有相應(yīng)的結(jié)構(gòu),弱信號(hào)接近0時(shí)則沒(méi)有預(yù)測(cè)。
  NN的輸出層由3個(gè)單元構(gòu)成,每一個(gè)用于所考慮的結(jié)構(gòu)狀態(tài),這是使用一個(gè)二進(jìn)制編碼的方案。用來(lái)表示氨基酸二級(jí)結(jié)構(gòu)的目標(biāo)矩陣,首先從與滑動(dòng)窗口對(duì)應(yīng)的所有可能子序列的結(jié)構(gòu)分配的數(shù)據(jù)獲取。然后,考慮每個(gè)窗口的中央位置,并使用二進(jìn)制編碼,100α螺旋,010β折疊,001循環(huán),轉(zhuǎn)換相應(yīng)的結(jié)構(gòu)分配。
  使用主成分分析時(shí),被提取的成分?jǐn)?shù)等于被分析的變量數(shù)。因此,有必要確定有多少個(gè)成分是

12、真正有意義和值得保留的。每個(gè)主成分表示原始變量的線性組合,其中第一主成分被定義為變量的所有線性組合之間的最大樣本方差的線性組合。接下來(lái)的主成分,代表了解釋最大樣本方差的線性組合。由于主成分(PCs)之間不相關(guān)并且有序,那么開(kāi)始的少數(shù)主成分能夠說(shuō)明總體方差的最大數(shù)目,或者換句話說(shuō),只有開(kāi)始的少數(shù)成分可以說(shuō)明方差的意義,而以后的成分則只是說(shuō)明不重要的方差。有一些通用的規(guī)則來(lái)選擇保留多少開(kāi)始的主成分。但是,被解釋方差的累積比例(例如95%)應(yīng)

13、該用于決定保留多少開(kāi)始主成分。在數(shù)據(jù)集中,對(duì)變量影響最小的成分將被去除。
  為了預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu),我們?cè)贛ATLAB中編寫(xiě)代碼建立一個(gè)神經(jīng)網(wǎng)絡(luò)。數(shù)據(jù)集中60%用來(lái)訓(xùn)練,20%驗(yàn)證,20%作為測(cè)試。通過(guò)減少數(shù)據(jù)維度的方式,我們比較了不同情況下對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練所需的時(shí)間。此外,我們比較使用PCA減少數(shù)據(jù)維度前后的預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果顯示,在RS126的蛋白質(zhì)序列中,PCA能夠減少訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的時(shí)間,但并不影響預(yù)測(cè)精度。

14、  其次,我們提出了邏輯回歸和核心邏輯回歸方法預(yù)測(cè)β轉(zhuǎn)角。用于評(píng)價(jià)預(yù)測(cè)性能的指標(biāo)包括測(cè)試檢驗(yàn)一致性的指標(biāo)和用于評(píng)價(jià)β轉(zhuǎn)角預(yù)測(cè)的指標(biāo)。具體包括Qtotal(預(yù)測(cè)精確度)、Qpredicted(正確預(yù)測(cè)的概率,指在被預(yù)測(cè)的轉(zhuǎn)角中正確預(yù)測(cè)到的轉(zhuǎn)角的百分率,也稱(chēng)為陽(yáng)性預(yù)測(cè)值)、Qobserved(敏感度或覆蓋率,指觀察到的β轉(zhuǎn)角中被正確預(yù)測(cè)到的β轉(zhuǎn)角的百分率,或者全體被正確預(yù)測(cè)到的陽(yáng)性樣本的分?jǐn)?shù))和MCC(馬修相關(guān)系數(shù))。我們首先將邏輯回歸用于

15、不同的特征集合。然后,我們使用核心邏輯回歸(由于其計(jì)算要求,以前還沒(méi)有被用于預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)和β轉(zhuǎn)角。)。然而,不像支持向量機(jī)和神經(jīng)網(wǎng)絡(luò),核心邏輯回歸基于最大似然參數(shù)(它是額外的預(yù)測(cè)類(lèi)標(biāo)識(shí))產(chǎn)生后驗(yàn)概率。FS-KLR是適合大數(shù)據(jù)集的核心邏輯回歸的快速實(shí)現(xiàn),它能用于有效地在蛋白質(zhì)中預(yù)測(cè)β轉(zhuǎn)角,產(chǎn)生的結(jié)果比目前的其他方法要好。
  我們?cè)贐T426數(shù)據(jù)集上測(cè)試了LR模型。BT426數(shù)據(jù)集包含了426個(gè)非同源的蛋白質(zhì)鏈。一些研究人員已

16、經(jīng)用這個(gè)數(shù)據(jù)集作為性能評(píng)價(jià)的黃金數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括的蛋白質(zhì)鏈的結(jié)構(gòu)由X射線結(jié)晶學(xué)(分辨率小于2.0 A°或更好)確定。每條鏈包含至少一個(gè)β轉(zhuǎn)角區(qū)域。在全部23580個(gè)氨基酸中,24.9%氨基酸被指派在β轉(zhuǎn)角的位置。數(shù)據(jù)集中沒(méi)有序列共享了超過(guò)25%的序列標(biāo)識(shí)。我們首先用PSSM和蛋白質(zhì)物理和化學(xué)數(shù)據(jù)屬性作為特征。查詢(xún)序列程序來(lái)自國(guó)家生物技術(shù)信息中心(NCBI)非冗余序列數(shù)據(jù)庫(kù)的本地拷貝,使用缺省參數(shù),程序運(yùn)行時(shí)進(jìn)行三次迭代。我們使用V

17、B.net完成該任務(wù),其中參數(shù)被傳遞給一個(gè)自動(dòng)運(yùn)行于psiblast程序的本地拷貝的函數(shù)。我們?cè)赑SSM特征矩陣(它隨氨基酸序列移動(dòng))上使用滑動(dòng)窗口大小為7的氨基酸殘基。該窗口大小的選擇與Shepherd等人的一致。它們發(fā)現(xiàn)當(dāng)窗口大小為7或者9時(shí),β轉(zhuǎn)角預(yù)測(cè)為最優(yōu)。使用窗口大小為7時(shí),則有140(7*20)個(gè)參數(shù)(表示PSSM中行的元素),和42(2*21)個(gè)參數(shù)(表示窗口中殘基之間的物化反應(yīng))。用來(lái)表示PSSM和物理和化學(xué)相互作用的變

18、量應(yīng)為獨(dú)立變量,總共140+42=182個(gè)特性,并且需要預(yù)測(cè)的參數(shù)個(gè)數(shù)為183(包含攔截)。數(shù)據(jù)元素的個(gè)數(shù)依賴(lài)于用來(lái)預(yù)測(cè)參數(shù)的序列個(gè)數(shù),但是應(yīng)大于特征的數(shù)目。在這種情況下,數(shù)據(jù)中有足夠的信息評(píng)估最佳擬合數(shù)據(jù)的參數(shù)的唯一值。取得的結(jié)果不是我們所需要的,所以我們?cè)囍褂肔R包的整體效果,程序運(yùn)行如下:
  (i)初始化數(shù)據(jù)集T
  (ii)從數(shù)據(jù)集中采用可替代的方式(其中的一些可能被反復(fù)抽到,而另外一些可能根本就不會(huì)被抽到)隨機(jī)

19、抽取樣本(自舉)
  (iii)使用此子訓(xùn)練數(shù)據(jù)集訓(xùn)練分類(lèi)器
  (iv)重復(fù)以上步驟K次,得到K個(gè)分類(lèi)器
  (v)使用聚類(lèi)方法聚類(lèi)K個(gè)分類(lèi)器
  我們首先采用替代的方法從原數(shù)據(jù)集中建立了100個(gè)隨機(jī)樣本,然后隨機(jī)將數(shù)據(jù)隨機(jī)地劃分到訓(xùn)練集70%和測(cè)試集30%。通過(guò)訓(xùn)練集,采用最大似然估計(jì)(MLE)對(duì)LR參數(shù)進(jìn)行估計(jì)。我們觀測(cè)的最后預(yù)測(cè)值,作為100樣本預(yù)測(cè)的平均值。
  使用LR包的總體效果仍然不是很好,

20、因此我們使用PSSM和預(yù)測(cè)的二級(jí)結(jié)構(gòu)作為特性,代替物理和化學(xué)屬性。但結(jié)果仍然不太好,于是我們使用PSSM和被預(yù)測(cè)的二級(jí)結(jié)構(gòu)作為特征而不是物理和化學(xué)屬性。被預(yù)測(cè)的二級(jí)結(jié)構(gòu)特征來(lái)自PROTEUS,包含三種結(jié)構(gòu)狀態(tài):螺旋、絞股、卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。此外,滑動(dòng)窗口大小為7,殘基被使用在由PSSM和預(yù)測(cè)的二級(jí)結(jié)構(gòu)所組成的矩陣上,并對(duì)中央殘基進(jìn)行了預(yù)測(cè)。當(dāng)使用的窗口大小為7時(shí),有140(7*20)個(gè)參數(shù),表示P

21、SSM行中的元素,有21(3*7)個(gè)參數(shù),表示預(yù)測(cè)二級(jí)結(jié)構(gòu),變量表示PSSM,獨(dú)立變量表示預(yù)測(cè)的二級(jí)結(jié)構(gòu),總共有140+21=161個(gè)特征。需要預(yù)測(cè)的參數(shù)個(gè)數(shù)162(包含攔截)個(gè)。
  使用被預(yù)測(cè)的二級(jí)結(jié)構(gòu)特征和PSSM導(dǎo)致了預(yù)測(cè)性能的大幅度改善。獲得的Qtotal、Qpredicted、Qobserved和MCC分別是80.93%、64.17%、53.19%和0.46。這意味著蛋白質(zhì)物理和化學(xué)屬性不是有效的特征,不能改善二級(jí)結(jié)構(gòu)

22、預(yù)測(cè)的性能,但是用PSSM作為特征對(duì)預(yù)測(cè)β轉(zhuǎn)角非常有效。我們的方法被用于和其他類(lèi)似的方法(如支持向量機(jī)和神經(jīng)網(wǎng)絡(luò))進(jìn)行比較。與其他方法相比,LR方法在解釋能力、顯著性和時(shí)間方面具有優(yōu)勢(shì)。
  除了426個(gè)非同源蛋白質(zhì)的統(tǒng)一數(shù)據(jù)庫(kù)(BT426),547個(gè)蛋白質(zhì)序列數(shù)據(jù)庫(kù)(BT547)和823個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)(BT823)也被用于評(píng)價(jià)我們的方法的性能。這些數(shù)據(jù)集用于訓(xùn)練和測(cè)試COUDES。被用的特征包括PSSMs和二級(jí)結(jié)構(gòu)信息。

23、  針對(duì)二級(jí)結(jié)構(gòu)信息特征,四個(gè)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法被用于所有蛋白質(zhì)鏈。這四個(gè)預(yù)測(cè)方法是PSIPRED、JNET、TRANSEC和PROTEUS。二級(jí)結(jié)構(gòu)被預(yù)測(cè)為三種狀態(tài):螺旋、絞股和卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。二級(jí)結(jié)構(gòu)信息特征按如下方式組織:(1)一個(gè)二進(jìn)制值表示一個(gè)中心殘基的給定二級(jí)結(jié)構(gòu)預(yù)測(cè)方法的預(yù)測(cè)值,例如,如果PSIPRED預(yù)測(cè)中心氨基酸為螺旋,JNET預(yù)測(cè)它為卷曲,TRANSEC預(yù)測(cè)它為螺旋,以及PRO

24、TEUS預(yù)測(cè)它為螺旋,那么二進(jìn)制值為{100001100100},使用該組織的特征總數(shù)為12。(2)可信度值來(lái)自使用四個(gè)預(yù)測(cè)方法的中心殘基??尚哦鹊梅殖?0,得到正規(guī)化的單位區(qū)間,使用該組織的特征總數(shù)為4。(3)一個(gè)二進(jìn)制值表示使用中心和兩個(gè)鄰居殘基的四個(gè)預(yù)測(cè)方法預(yù)測(cè)二級(jí)結(jié)構(gòu)的特定配置。Here we have fourpatterns{1,2,3,4}.有四種模式{1,2,3,4}。如果使用特定方法預(yù)測(cè)的二級(jí)結(jié)構(gòu)為卷曲{001},那

25、么模式1的二級(jí)結(jié)構(gòu)為CCC,模式2、3和4的分別為CCX、XCC和XCX,此處X={E,H}?;谶@個(gè)組織的特征總數(shù)為48(4個(gè)模式*3個(gè)二級(jí)結(jié)構(gòu)*4種預(yù)測(cè)方法)。(4)給定二級(jí)結(jié)構(gòu)中的殘基數(shù)和四個(gè)預(yù)測(cè)方法的窗口尺寸之間的比率,基于該組織的特征數(shù)為12(3個(gè)二級(jí)結(jié)構(gòu)*4個(gè)預(yù)測(cè)方法)?;诙?jí)結(jié)構(gòu)信息的特征總數(shù)為76。使用該組織的動(dòng)機(jī)來(lái)自文獻(xiàn)。被預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息被添加到PSSMs特征中。基于PSSMs和二級(jí)結(jié)構(gòu)信息的特征總數(shù)為216。類(lèi)

26、似文獻(xiàn),基于信息增益和卡方的特征選擇方法被用于將特征數(shù)減少到90個(gè)。
  FS-KLR通過(guò)選擇樣本尺寸m使處理變得稀疏,此處m遠(yuǎn)小于核心矩陣維數(shù)。被選擇的樣本尺寸m來(lái)自特征矩陣,命名為原型向量(PVs)。這些PVs向量可以使用k中心聚類(lèi)方法進(jìn)行篩選。文獻(xiàn)觀察到Nystrom低階近似法嚴(yán)重地依賴(lài)于使用界標(biāo)點(diǎn)編碼樣本集合導(dǎo)致的量化誤差,這是我們使用k中心聚類(lèi)方法的原因。這意味著人們能簡(jiǎn)單地使用來(lái)自k中心(例如k-均值)算法的聚類(lèi),k中

27、心算法能找到量化誤差的局部最小值。使用k中心性聚類(lèi)的PVs選擇方法遇到了問(wèn)題,即它們選擇異常值作為原型。PVs向量數(shù)相當(dāng)小,被選中代表非異常值和異常值數(shù)據(jù)的原型分式不平衡,因而分類(lèi)性能不是最佳的。當(dāng)PVs數(shù)增加時(shí),KLR的性能也上升。因而,考慮移除異常值能導(dǎo)致更稀疏的模型。使用牛頓信任區(qū)域算法的原始空間解決了稀疏KLR問(wèn)題。與其他候選算法相比,該算法產(chǎn)生了最好的性能。每次迭代的收斂速度和代價(jià)在低成本近似方面形成均勢(shì),因?yàn)榕nD步驟將在算法

28、的開(kāi)始被采用以及算法終結(jié)于快速收斂的全牛頓方向步驟。
  當(dāng)m<=n時(shí),從特征矩陣選擇的成分?jǐn)?shù)(m)會(huì)影響預(yù)測(cè)的精度和MCC,相對(duì)大或小的m值產(chǎn)生的性能不好。為了選擇向量的最佳數(shù)量,交叉驗(yàn)證被采用,從相對(duì)較小的m開(kāi)始,并逐漸增加m的值,直到再增加向量時(shí)不會(huì)改進(jìn)分類(lèi)的運(yùn)行效果為止。
  為了進(jìn)一步提高FS-KLR的性能,我們采用狀態(tài)變化規(guī)則。在此規(guī)則中,我們考慮β轉(zhuǎn)角發(fā)生在含有至少有4個(gè)相鄰殘基的基團(tuán)中。通過(guò)對(duì)FS-KLR進(jìn)行

29、預(yù)測(cè)的結(jié)果分析之后,狀態(tài)變化規(guī)則(它使預(yù)測(cè)更像β轉(zhuǎn)角)推導(dǎo)如下:
  1.將分離的非轉(zhuǎn)角預(yù)測(cè)轉(zhuǎn)化為轉(zhuǎn)角;
  2.將分離的轉(zhuǎn)角預(yù)測(cè)轉(zhuǎn)化為非轉(zhuǎn)角預(yù)測(cè);
  3.將與兩個(gè)分離的轉(zhuǎn)角預(yù)測(cè)相鄰的殘基轉(zhuǎn)化為轉(zhuǎn)角;
  4.如果有分離的3個(gè)轉(zhuǎn)角預(yù)測(cè),那么將KLR概率最高的相鄰的非轉(zhuǎn)角預(yù)測(cè)轉(zhuǎn)化為轉(zhuǎn)角。
  以上的規(guī)則必須按順序執(zhí)行。使用這些規(guī)則后,我們能夠得到更好的結(jié)果,其中MCC從0.48增加到0.50
  當(dāng)和

30、目前使用二級(jí)結(jié)構(gòu)信息和PSSMs作為特征的其他方法比較時(shí),使用非冗余數(shù)據(jù)集的經(jīng)驗(yàn)評(píng)價(jià)顯示FS-KLR提供了優(yōu)秀的結(jié)果。我們使用FS-KLR方法在BT426數(shù)據(jù)集上獲得的Qtotal和MCC分別為80.7和0.50。縱觀以前的有關(guān)β轉(zhuǎn)角的研究,基于機(jī)器學(xué)習(xí)方法的預(yù)測(cè)器強(qiáng)調(diào)選擇適合的特征以改善預(yù)測(cè)性能。二級(jí)結(jié)構(gòu)和PSSMs被廣泛用于預(yù)測(cè)并被證明是最有幫助的特征。使用這些特征,F(xiàn)S-KLR獲得了與支持向量就類(lèi)似的結(jié)果。為了設(shè)計(jì)能用于β轉(zhuǎn)角預(yù)測(cè)

31、的方法,有四個(gè)方面需要關(guān)注。這包括:(1)數(shù)據(jù)集的大小;(2)需要處理變長(zhǎng)輸入樣本;(3)需要有概率結(jié)果;(4)需要執(zhí)行多級(jí)分類(lèi)。當(dāng)數(shù)據(jù)集很大(如β轉(zhuǎn)角數(shù)據(jù))時(shí),人們忽略了最后兩個(gè)關(guān)注點(diǎn),而關(guān)注選擇有效處理大數(shù)據(jù)集的分類(lèi)器。因?yàn)橹С窒蛄繖C(jī)方法被設(shè)計(jì)為能處理大規(guī)模數(shù)據(jù)集,因此,這里方法已經(jīng)變成預(yù)測(cè)β轉(zhuǎn)角的首選。然而,支持向量機(jī)不能解決兩個(gè)直接的關(guān)注點(diǎn)。盡管KLR對(duì)最后兩個(gè)關(guān)注點(diǎn)提供了優(yōu)質(zhì)解,但是它不適合大規(guī)模數(shù)據(jù)集,所以不能用于大規(guī)模數(shù)據(jù)

32、集如β轉(zhuǎn)角數(shù)據(jù)的分類(lèi)。因?yàn)樾枰罗D(zhuǎn)角類(lèi)型的多級(jí)分類(lèi),所以最后兩個(gè)關(guān)注點(diǎn)對(duì)β轉(zhuǎn)角分類(lèi)是很重要的。FS-KLR將KLR的應(yīng)用擴(kuò)展到大規(guī)模數(shù)據(jù)集。這種方式能解決前述的所有關(guān)注點(diǎn)。
  最后,我們提出了一種預(yù)測(cè)β轉(zhuǎn)角的混合方法,它整合了支持向量機(jī)和邏輯回歸方法。我們使用特定位置打分指標(biāo)和被預(yù)測(cè)的二級(jí)結(jié)構(gòu)作為特征。PROTEUS用來(lái)預(yù)測(cè)二級(jí)結(jié)構(gòu)的特征??梢允褂玫鞍踪|(zhì)形狀串聯(lián)的譜預(yù)測(cè)服務(wù)者(DSP)預(yù)測(cè)形狀串聯(lián)。除了8種狀態(tài)之外,DSP定義了

33、形狀N,其中φ角和ψ角沒(méi)有定義,或者沒(méi)有確定部分序列的結(jié)構(gòu)。形狀串聯(lián)特征編碼為:S(100000000),R(010000000)..., N(000000001)。
  因?yàn)棣罗D(zhuǎn)角大約占全局蛋白質(zhì)殘基的25%,β轉(zhuǎn)角和非β轉(zhuǎn)角的比例是1∶3。因而用于β轉(zhuǎn)角預(yù)測(cè)的訓(xùn)練集是不平衡的集合。在實(shí)驗(yàn)中,我們發(fā)現(xiàn),如果非β轉(zhuǎn)角集合被適合的聚類(lèi)算法劃分為三個(gè)子集,那么每個(gè)非β轉(zhuǎn)角子集和β轉(zhuǎn)角集合將形成大致平衡的訓(xùn)練集。平衡的訓(xùn)練集更可能被分隔

34、在特征空間中。這是因?yàn)樽蛹蟹铅罗D(zhuǎn)角樣本的分布是集中而緊湊的。換句話說(shuō),β轉(zhuǎn)角集合能被不同的超平面從每個(gè)非β轉(zhuǎn)角聚類(lèi)中分離。這意味著當(dāng)使用每個(gè)非β轉(zhuǎn)角聚類(lèi)與β轉(zhuǎn)角構(gòu)建局部支持向量機(jī)時(shí),有希望獲得好的性能。但是,單獨(dú)使用這些支持向量機(jī)的每一個(gè)卻不一定是一個(gè)好的分類(lèi)器。這暗示,通過(guò)有效地組合這些支持向量機(jī),構(gòu)建一個(gè)比訓(xùn)練全體數(shù)據(jù)的支持向量機(jī)更好的分類(lèi)器是可能的。尤其是一個(gè)局部支持向量機(jī)分類(lèi)器能被構(gòu)建用于每個(gè)子訓(xùn)練集,局部支持向量機(jī)將不會(huì)受全

35、體訓(xùn)練集的異構(gòu)性的影響。為了勝過(guò)訓(xùn)練全體數(shù)據(jù)的支持向量機(jī),我們需要有效地組合這些局部支持向量機(jī)為全局支持向量機(jī),并保留它的局部?jī)?yōu)勢(shì)。多少表決是組合幾個(gè)分類(lèi)器的方法之一,但是,它的主要問(wèn)題是不能給每個(gè)方法加權(quán)。LR模型能整合局部支持向量機(jī)分類(lèi)器并允許我們利用統(tǒng)計(jì)模型論的優(yōu)勢(shì)尋找每個(gè)局部分類(lèi)器的最優(yōu)權(quán)值。使用聚類(lèi)模型的動(dòng)機(jī)來(lái)自Yi Chang的工作。在該文獻(xiàn)中,YiChang使用局部線性支持向量機(jī)分類(lèi)器分類(lèi)被選核定義的特征空間中的數(shù)據(jù)。

36、r>  我們使用混合方法中的k-均值聚類(lèi)算法劃分非β轉(zhuǎn)角為三個(gè)子集,每個(gè)子集結(jié)合β轉(zhuǎn)角類(lèi)以創(chuàng)建一個(gè)子訓(xùn)練集。三個(gè)支持向量機(jī)分類(lèi)器被使用,每個(gè)對(duì)應(yīng)一個(gè)子集。我們用邏輯回歸模型聚合了這些支持向量機(jī)的結(jié)果。這三個(gè)支持向量機(jī)將不會(huì)直接用于預(yù)測(cè),但是它們將用于變量生成器。在訓(xùn)練和預(yù)測(cè)階段,這些模型是不變的,全部樣本進(jìn)入三個(gè)模型。三個(gè)模型的分離超平面樣本的符號(hào)距離被計(jì)算并保存在N*3為向量d中,此處N是實(shí)例數(shù)目。向量d將被用于作為L(zhǎng)R模型的新的特征

37、向量,這將平衡三個(gè)模型的響應(yīng)以及計(jì)算預(yù)測(cè)概率。
  LR預(yù)測(cè)模型的部件是變量,它們應(yīng)該被仔細(xì)選擇以便能準(zhǔn)確預(yù)測(cè)但又不過(guò)度擬合數(shù)據(jù)。在模型選擇中,有兩個(gè)矛盾的目標(biāo)。(1)擬合好數(shù)據(jù)是復(fù)雜的。(2)解釋?xiě)?yīng)該簡(jiǎn)單。為了選擇LR模型,我們首先考慮被評(píng)估系數(shù)的相關(guān)性。如果兩個(gè)變量高度相關(guān),我們?cè)谀P椭胁槐貎蓚€(gè)都需要。單方變量分析被用于識(shí)別重要的變量,在LR模型中一個(gè)變量被擬合一次,然后,擬合被分析。特別地,我們考慮評(píng)估系數(shù),標(biāo)準(zhǔn)誤差、系數(shù)重

38、要性的似然比檢測(cè)。我們利用在單方變量分析中選擇的變量按照如下過(guò)程擬合LR:
  我們使用Wald統(tǒng)計(jì)在LR模型中驗(yàn)證每個(gè)變量的重要性。
  我們比較了每個(gè)變量的系數(shù)和僅包括一個(gè)變量的模型的系數(shù)。
  任一表現(xiàn)為不重要的變量都被評(píng)估,一個(gè)新的模型被擬合。新模型被檢驗(yàn)是否與老模型有重要區(qū)別,如果是,那么被刪除的變量就是重要的。
  刪除、重新擬合和驗(yàn)證過(guò)程被反復(fù)進(jìn)行,直到所有重要變量被包括在模型中。
  我們?cè)?/p>

39、著擬合了線性LR模型,但是發(fā)現(xiàn)預(yù)測(cè)誤差很大,于是,我們考慮用分式多項(xiàng)式進(jìn)行指數(shù)轉(zhuǎn)換。
  每一對(duì)變量之間的一列可能的相互作用被創(chuàng)建。在包括了所有主要影響的模型中,這些相互作用每次添加一個(gè),用似然比檢測(cè)評(píng)價(jià)它的重要性。重要相互作用被添加到主要影響模型中,它的擬合情況用Wald測(cè)試評(píng)估,LR測(cè)試用于相互作用術(shù)語(yǔ),任一非重要相互作用被采用。
  分式多項(xiàng)式被用于使LR模型適合最終的結(jié)果變量(它是β轉(zhuǎn)角/非轉(zhuǎn)角反應(yīng))。在我們的混合模

40、型中,這個(gè)變量依賴(lài)于邏輯回歸模型中三個(gè)支持向量機(jī)分類(lèi)器的結(jié)果。三個(gè)支持向量機(jī)分類(lèi)器的結(jié)果由向量d=(d1,d2,d3)表示。自然開(kāi)始點(diǎn)即直線模型b0+b1d1+b2d2+b3d3或b0+dB(此處B是參數(shù)向量)首先被測(cè)試是否適合。為了改善擬合效果,我們研究了其他模型。我們通過(guò)擬合一階分式多項(xiàng)式尋找非線性關(guān)系。最佳次方轉(zhuǎn)換dpi被發(fā)現(xiàn),指數(shù)p是從候選集合{-2,-1,-0.5,0,0.5,1,2,3}中挑選出來(lái)的,d0指logd。集合包含

41、直線(非轉(zhuǎn)換)p=1。變量di包含非正值,因而我們將其轉(zhuǎn)換為正值。這使對(duì)數(shù)和負(fù)指數(shù)轉(zhuǎn)換變得可用。包含更多的指數(shù)通常僅僅在擬合模型中提供了輕微的改善。尤其在包括大的負(fù)指數(shù)如-3時(shí),會(huì)出問(wèn)題,個(gè)體的極端觀察將對(duì)擬合產(chǎn)生嚴(yán)重影響。一級(jí)分式多項(xiàng)式對(duì)我們的數(shù)據(jù)提供的擬合情況不令人滿(mǎn)意,所以我們考慮二級(jí)分式多項(xiàng)式。我們使用封閉測(cè)試程序,它通過(guò)選擇前面提到的集合中的指數(shù)變換p和q首先確定最佳擬合二級(jí)多項(xiàng)式。因?yàn)閿?shù)學(xué)限制,當(dāng)p=q時(shí),模型中的變量di被

42、寫(xiě)為bjdpi+bkdpilog(di)形式。那些組合中的最佳擬合被定義為最大似然或相當(dāng)于最小偏差。此處用MRP包(它是一組R函數(shù)集合,目的是要分式多項(xiàng)式建?;貧w模型上的連續(xù)變量的影響)查找指數(shù)p和q的組合中的最佳擬合。MFP將序列的封閉測(cè)試選擇程序用于單個(gè)的連續(xù)變量。
  用于β轉(zhuǎn)角預(yù)測(cè)的方法使用不同的PSSMs和PSS組織。一些研究者在PSSMs上使用滑動(dòng)窗口,然后,增加PSS。另外一些研究人員采用PSSMs和PSS。在我們提

43、出的方法中,對(duì)兩種方法都進(jìn)行了測(cè)試。結(jié)果顯示,使用基于PSSMs和PSS的滑動(dòng)窗口的H-SVM-LR方法比僅使用基于PSSMs的滑動(dòng)窗口,然后再增加中心氨基酸的PSS的方法好得多。
  當(dāng)使用PSSMs和PSS作為特征時(shí),混合方法在BT426數(shù)據(jù)集上獲得的MMC是0.56,Qtotal是82.87%。這些值比現(xiàn)存其他最好的方法獲得的相應(yīng)值都要高。我們的方法在數(shù)據(jù)集BT547和BT823上獲得了最高的MCC和Qtotal值。另外,當(dāng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論