肽的定量構(gòu)效關(guān)系研究.pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、從分子結(jié)構(gòu)表征和定量構(gòu)效關(guān)系(quantitative structure-activity relationship, QSAR)建模方法與技術(shù)這兩個關(guān)鍵內(nèi)容出發(fā),對48個苦味二肽、58個血管收縮素轉(zhuǎn)化酶抑制劑、31個血管舒緩激肽促進劑、21個后葉催產(chǎn)素、152個HLA-A*0201限制性CTL表位和34個抗菌肽進行了定量構(gòu)效關(guān)系研究以及建模方法與技術(shù)的比較研究。 分子結(jié)構(gòu)表征是定量構(gòu)效關(guān)系研究的一個關(guān)鍵環(huán)節(jié)。結(jié)構(gòu)描述子能否

2、反映分子與生物活性相關(guān)的結(jié)構(gòu)信息,決定了定量構(gòu)效關(guān)系研究的成敗。文中提出的兩種氨基酸結(jié)構(gòu)描述子矢量VSTV和VHSE均來源于主成分特征提取的思路。其中VSTV(principal component score vector of structural and topological variables)來源于20種天然氨基酸的25種拓撲結(jié)構(gòu)信息,并通過主成分分析而產(chǎn)生。由于VSTV是基于氨基酸的結(jié)構(gòu)和拓撲性質(zhì),因此具有計算方法簡便,不

3、依賴實驗數(shù)據(jù)以及拓展性能好等優(yōu)點。VHSE(principal component score vector of hydrophilicity, steric, and electronic properties)則是來源于20種天然氨基酸的50種物理化學(xué)性質(zhì),通過對其中18個疏水性質(zhì),17個立體性質(zhì)和15個電性性質(zhì)分別進行主成分分析而產(chǎn)生。其中VHSE1、VHSE2代表氨基酸的疏水性特征;VHSE3、VHSE4代表氨基酸的立體特征;

4、VHSE5~VHSE8則代表氨基酸的電性特征。與z標度以及其它氨基酸描述子相比,VHSE具有物化意義明確、信息量大和結(jié)果更易解釋等特點。從上述的6個肽體系的構(gòu)效關(guān)系研究結(jié)果看,VSTV和VHSE能較好地表征肽分子與生物活性相關(guān)的結(jié)構(gòu)信息,并取得了與已有文獻結(jié)果相當(dāng)或更優(yōu)的結(jié)果。 建模方法與技術(shù)是定量構(gòu)效關(guān)系研究的一個重要內(nèi)容。在進行定量構(gòu)效關(guān)系研究的同時,詳細地比較分析了多元線性回歸(multiple linear regre

5、ssion, MLR)、主成分回歸(principal component regression, PCR)、偏最小二乘回歸(partial least squares, PLS)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)和支持向量機(support vector machine, SVM)在線性或非線性體系的應(yīng)用,其間包含了變量篩選和模型驗證方法的研究和討論。研究結(jié)果顯示:經(jīng)典的MLR在滿足相關(guān)條件

6、的前提下,通??梢匀〉幂^好的結(jié)果。PCR和PLS可以較好地解決變量數(shù)較多且存在多重共線性的情況,并且在大多數(shù)情況下PLS結(jié)果要優(yōu)于PCR。當(dāng)結(jié)構(gòu)描述子與生物活性存在非線性的關(guān)系時,BP-ANN是一種較好的選擇。文中由于采用了驗證集對過擬合現(xiàn)象進行了適當(dāng)控制,使得BP-ANN的預(yù)測能力有了較大幅度的提高。SVM作為一種新的機器學(xué)習(xí)方法,在本文的構(gòu)效關(guān)系研究中亦取得了較優(yōu)的結(jié)果,尤其是SVM能較好的解決小樣本、非線性、高維數(shù)和局部最小等實際

7、問題,并且從原理上解決了其它算法常見的過擬合現(xiàn)象,使得SVM在構(gòu)效關(guān)系研究中具有廣闊的應(yīng)用前景。但是作為一種新的學(xué)習(xí)方法,SVM在參數(shù)選擇等問題上還有待進一步研究。 在構(gòu)效關(guān)系研究中,變量篩選是十分重要的一個環(huán)節(jié)。文中采用了多元線性逐步回歸(stepwise multiple regression, SMR)和遺傳算法(genetic algorithms, GA)與偏最小二乘相結(jié)合的算法即GA-PLS進行變量篩選。研究發(fā)現(xiàn)當(dāng)

8、變量數(shù)≤50時,SMR通常可以取得較好的結(jié)果,且與GA-PLS結(jié)果無顯著性差異;而當(dāng)變量數(shù)較多時,GA-PLS為較好的選擇。但是GA-PLS結(jié)果常常存在一定的過擬合現(xiàn)象,因此還需對模型進行必要的外部驗證。 模型驗證是QSAR研究中的必不可少的一步。文中將全部樣本通過D-optimal技術(shù)劃分為訓(xùn)練集和預(yù)測集兩個部分,由訓(xùn)練集樣本建立QSAR模型,通過內(nèi)部和外部雙重驗證來對模型進行質(zhì)量評價。文中采用的內(nèi)部驗證方法有留一法(lea

9、ve one out, LOO)、留組法(leave 1/n out,LNO)、留多法(leave many out, LMO)以及Y隨機排序驗證(Y random permutations test)。在內(nèi)部驗證的基礎(chǔ)上,利用預(yù)測集樣本對模型進行外部預(yù)測能力的評價,同時采用了多種評價函數(shù)以確保所得模型的真實有效性。 以下為PLS對上述6個肽體系建模的主要統(tǒng)計結(jié)果,對于每個肽體系,其R2、Q2和Q2ext依次為:(1)VSTV

10、描述子:①0.816, 0.659, 0.762; ②0.846, 0.797, 0.706; ③0.814, 0.647, 0.745; ④0.746, 0.551, 0.755; ⑤0.703, 0.547, 0.404; ⑥0.782, 0.706, 0.531; (2)VHSE描述子:①0.902, 0.807, 0.847; ②0.798, 0.708, 0.745; ③0.873, 0.758, 0.856; ④0.909,

11、 0.667, 0.968; ⑤0.755, 0.621, 0.665; ⑥0.851, 0.787, 0.480。 從以上結(jié)果中可以看出,VSTV和VHSE兩種描述子在前5個肽體系中取得了較好的建模結(jié)果,而對于第6個體系,由于描述子變量與生物活性之間存在一定的非線性關(guān)系,使得PLS模型的預(yù)測能力相對較低。而采用BP-ANN進行建模時,模型的預(yù)測能力有了較大幅度的提高,相應(yīng)的R2、Q2和Q2ext分別為(1)VSTV描述子:⑥

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論