版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、本論文將支持向量機方法引入到生物、化學及環(huán)境科學等領域,進行高活性藥物的設計以及與環(huán)境污染和生命有關的物質(zhì)重要性質(zhì)的預測。根據(jù)支持向量機方法較好的理論基礎及其在應用方面表現(xiàn)出的良好特性,應用其解決化學、生物、環(huán)境等領域以前其他方法還不能完善解決的問題,建立準確、高效的定量結構性質(zhì)/活性關系模型,不僅能夠從宏觀上快速有效地進行新化合物活性/性質(zhì)的預測,節(jié)約能源,降低環(huán)境污染,而且能夠從分子水平上探討藥物、環(huán)境污染物的作用機理,同時,促進了
2、學科間的交叉,具有很好的應用前景及重要的理論和實際意義。全文分為五章: 第一章,簡述了定量結構性質(zhì)/活性關系的基本原理,實現(xiàn)步驟以及研究現(xiàn)狀,指出當前QSPR/QSAR研究中一些方法的不足,引入支持向量機方法;然后詳細描述了SVM的基本原理并綜述了其在QSPR/QSAR中的應用。 第二章,將SVM應用到生命分析化學領域,主要包括以下幾個方面的研究工作:(1)基于GA-PLS選擇的結構描述符,應用徑向基函數(shù)神經(jīng)網(wǎng)絡(RBF
3、NN)和SVM方法建立了預測35個氨基酸的等電點的定量結構性質(zhì)關系模型。對于測試集,RBFNN和SVM模型預測的均方根誤差分別為0.496和0.282,表明SVM方法在解決非線性問題時表現(xiàn)出比傳統(tǒng)的人工神經(jīng)網(wǎng)絡更好的泛化性,同時所建立的模型可用于氨基酸等電點的預測。(2)應用SVM方法研究了多肽的高效液相色譜和毛細管電泳行為。應用啟發(fā)式方法和SVM方法分別建立了預測75個多肽的高效液相色譜行為的線性模型和非線性模型,非線性的SVM模型的
4、結果優(yōu)于線性模型的結果,對于測試集,預測的相關系數(shù)分別為0.9801,均方根誤差為0.1523。預測值與實驗值是非常一致的。所提出的模型可以從分子水平上識別和提供與肽的容量因子有關的結構特征。另外,應用支持向量機方法和計算得到的結構描述符建立了139個肽的非線性定量結構-淌度關系模型,建立的模型對于訓練集和測試集以及整個數(shù)據(jù)集預測的相關系數(shù)分別為0.925、0.912、0.922。這兩個研究還提供了在QSPR研究中,處理大分子問題的新思
5、路。(3)應用支持向量機方法建立了預測26個取代芳香酸在不同溶劑中的電泳淌度的定量結構-淌度關系(QSMR)模型,所建立的模型對于測試集預測的相關系數(shù)為0.9974,均方根誤差為0.2590。通過分析得到的模型,可以找出影響取代芳香酸在不同的水-醇溶劑中高效毛細管電泳行為的結構因素。(4)結合支持向量機方法和其他機器學習方法輔助診斷乳腺癌。結果表明,SVM在臨床診斷乳腺癌和區(qū)定誤分數(shù)據(jù)方面,是一種準確有效的方法。與其他分類方法相比,SV
6、M給出了最好的分類結果,具有最好的泛化能力。通過主成分分析和SVM模型中的參數(shù)討論,可以得出單層上皮細胞的大小、染色質(zhì),細胞的有絲分裂這三個參數(shù)對于決定乳腺癌的狀態(tài)影響不大,這一點可以降低診斷過程中的工作量。 第三章,通過構效關系分析將SVM方法應用到藥物設計領域,具體內(nèi)容包括:(1)應用支持向量方法建立了一系列新穎的COX-2選擇性抑制劑的強有力的QSAR模型和二元分類模型,從而為藥物篩選和設計提供了一個實用的工具。最優(yōu)的SV
7、M回歸模型對于訓練集和測試集的均方根誤差分別為0.107,0.136。SVM分類模型對于訓練集的準確率為91.2%,對于測試集為88.2%。定量和分類模型的應用為COX-2選擇性抑制劑的開發(fā)研究提供了相對縮小的搜索空間。(2)T-細胞中的AP-1和NF-κB的轉(zhuǎn)錄活化的抑制對于新穎的抗炎藥的開發(fā)是一個非常有吸引力的目標。據(jù)報道,很少有化合物能同時抑制AP-1和NF-κB的轉(zhuǎn)錄活化。在本研究中,應用支持向量機方法建立了一系列新穎的能同時抑
8、制AP-1和NF-κB的抑制劑的定量結構活性關系模型,探討了影響其抑制活性的結構因素,預測結果非常滿意,可以為進一步設計這類抑制劑提供理論基礎。(3)基于一個結構各異的化合物數(shù)據(jù)集和僅僅從分子結構出發(fā)計算得到的結構描述符,應用支持向量機方法建立了文獻未見報道的用于預測藥物吸收行為的模型。從建立的模型,可以得出影響藥物吸收的結構因素主要包括藥物的極性、靜電、氫鍵以及疏水性特征。最優(yōu)的模型對于訓練集和測試集預測的相關系數(shù)R2分別為0.86,
9、0.73。 第四章,應用SVM方法預測了有機污染物的環(huán)境行為。隨著大量的有機污染物在空氣、水和土壤中的廣泛傳播,環(huán)境問題已經(jīng)引起世人的廣泛關注。理解有機污染物在自然界中各個部分的分布對于評價污染物的環(huán)境風險具有重要的意義。然而,不管是在對于人類還是對于環(huán)境的風險評價中,通過實驗上的測定獲得化合物的環(huán)境數(shù)據(jù)不僅非常昂貴而且非常浪費時間。因此,建立理論上的模型來估算化合物的環(huán)境行為,不僅可以降低成本,節(jié)約時間,而且可以從宏觀和微觀兩
10、個方面增強對于有機污染物在自然界中分布機理的理解。在本章中,我們主要研究了兩個問題:(1)應用CODESSA軟件計算的結構描述符并對其進行統(tǒng)計分析得到了結構各異的122個鹵代化合物、烷基苯和酚的生物富集因子的多參數(shù)QSPR方程。啟發(fā)式方法和SVM分別用來建立分子結構和生物富集因子之間的線性和非線性定量關系模型。對于測試集,啟發(fā)式方法和SVM模型預測的相關系數(shù)R2分別為0.933,0.953。通過建立的模型,可以得出影響非離子和難離解的有
11、機化合物生物富集過程的主要結構因素包括化合物極性、非極性作用以及化合物的反應性。所提出的模型可以從分子水平上識別和提供與非離子有機化合物的生物富集過程有關的結構特征,有助于提高我們對有機化合物生物富集機理的認識。(2)應用支持向量機方法和計算得到的揮發(fā)性和半揮發(fā)性化合物的結構描述符以及土壤的特征表面積,空氣的相對濕度建立了用于預測化合物的土壤/空氣吸附常數(shù)的關系模型。建立的模型給出了非常滿意的預測結果,對于整個數(shù)據(jù)集預測的相關系數(shù)R為0
12、.995,均方誤差為0.0057。通過討論模型的結構描述符,我們可以得出影響揮發(fā)性和半揮發(fā)性化合物吸附過程的主要因素包括靜電、氫鍵、立體相互作用以及化合物的反應性。 第五章,引入支持向量機改進算法-最小二乘支持向量機方法,并探討了這一方法的應用。作為傳統(tǒng)的SVM方法的簡化,Suykens和他的合作者提出了一種新的SVM改進算法——最小二乘支持向量機(LSSVM)。LSSVM具有和SVM方法相似的優(yōu)點,但是它與SVM方法相比,還具
13、有一個特別的優(yōu)點,就是它僅僅需要解一個線性方程組(線性規(guī)劃問題),與解非線性方程組相比,它要容易得多,計算上也更加簡單快速。因而,為了改進SVM在實際應用中的不足,引入LSSVM方法來解決生物、化學中的問題,具體研究工作主要包括:(1)首次應用最小二乘支持向量機方法基于軟件CODESSA計算得到的結構描述符預測C60在性質(zhì)各異的溶劑中的溶解度。啟發(fā)式方法用來選擇結構參數(shù)和建立線性模型。線性和非線性模型均給出滿意的結果:對于整個數(shù)據(jù)集,預
14、測的均方根誤差分別為0.126,0.116,預測的相關系數(shù)R2分別為0.892,0.903。這一研究提供了一種新的有效的從分子結構預測C60溶解度的方法。(2)首次應用新穎的最小二乘支持向量機方法以軟件CODESSA計算得到的結構描述符和在不同組織中的水和蛋白質(zhì)的質(zhì)量分數(shù)作為輸入預測有機化合物的組織/血液分配系數(shù)。建立的模型統(tǒng)計上穩(wěn)定,擬合能力強。最優(yōu)的LSSVM模型對于訓練集,測試集和整個數(shù)據(jù)集預測的相關系數(shù)R分別為0.970,0.9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基因表達式編程與支持向量機在疾病診斷和QSAR-QSPR中的應用研究.pdf
- 線性和非線性方法在QSAR-QSPR研究中的應用.pdf
- QSPR-QSAR在化學、藥物化學和環(huán)境科學中的應用研究.pdf
- QSPR-QSAR在藥物、分析化學和環(huán)境科學中的應用.pdf
- 喜樹堿類衍生物抗癌活性的QSAR-QSPR研究.pdf
- 支持向量機在多元校正、QSAR及化學模式識別研究中的應用.pdf
- 部分農(nóng)藥和氟苯衍生物的QSAR-QSPR研究.pdf
- QSAR-QSPR在大數(shù)據(jù)集有機化合物物理化學性質(zhì)預測中的應用研究.pdf
- 支持向量機在藥物代謝和藥物的QSAR模型中的應用.pdf
- 基于核方法的支持向量機在人體動作識別中的應用研究.pdf
- 基于支持向量機的建模方法及其在材料加工中的應用研究.pdf
- 集成支持向量機方法及在信用風險中的應用研究.pdf
- 支持向量機的核方法在人臉識別中的應用研究.pdf
- 支持向量機方法及應用研究.pdf
- 支持向量機方法在乳腺腫塊分類中的應用研究.pdf
- 基于支持向量機的算法及應用研究.pdf
- 支持向量機方法在風電場風速預測中的應用研究.pdf
- 支持向量機在感官評估中的應用研究.pdf
- 支持向量機在認知診斷中的應用研究.pdf
- 支持向量機在FSK解碼中的應用研究.pdf
評論
0/150
提交評論