機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩84頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、20世紀(jì)后期,人類和其他生物物種基因組學(xué)的研究飛速發(fā)展,生物信息的增長(zhǎng)驚人,生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對(duì)復(fù)雜的海量生物信息進(jìn)行儲(chǔ)存、管理、分析和研究,組織這些數(shù)據(jù),以利于儲(chǔ)存、加工和進(jìn)一步利用,有效管理、準(zhǔn)確解讀、充分使用這些信息。 本文的工作就是應(yīng)用機(jī)器學(xué)習(xí)方法來(lái)對(duì)生物信息數(shù)據(jù)進(jìn)行分析,處理。本文的主體工作分為三個(gè)部分: 1.用集成學(xué)習(xí)算

2、法研究蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。蛋白質(zhì)的亞細(xì)胞位置,是蛋白質(zhì)的一個(gè)重要性質(zhì),能夠表明蛋白質(zhì)在細(xì)胞中的功能。預(yù)報(bào)蛋白質(zhì)亞細(xì)胞位置,在基因注釋和藥物設(shè)計(jì)工作中,都扮演了很重要的角色。本文用基于序列氨基酸組成成分進(jìn)行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學(xué)習(xí)算法來(lái)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行建模。在建模過(guò)程中,分別嘗試了用4種不同的弱分類器來(lái)訓(xùn)練樣本,并用基于交叉驗(yàn)證法的建模結(jié)果來(lái)對(duì)建模參數(shù)進(jìn)行優(yōu)化。結(jié)果表明:用AdaB

3、oost隨機(jī)森林算法作為弱分類器時(shí)有最好的建模結(jié)果,交叉驗(yàn)證預(yù)報(bào)正確率為76.51%;Bagging用最近鄰算法作為弱分類器時(shí)有最好的建模結(jié)果74.21%。用獨(dú)立測(cè)試樣本集對(duì)訓(xùn)練好的預(yù)報(bào)模型進(jìn)行驗(yàn)證,AdaBoost與Bagging的最大預(yù)報(bào)正確率分別為80.75%和80.90%,優(yōu)于SVM方法所得結(jié)果(SVM的訓(xùn)練模型交叉驗(yàn)證預(yù)報(bào)正確率為76.46%,獨(dú)立測(cè)試樣本集預(yù)報(bào)正確率為76.98%)。 2.用支持向量機(jī)回歸算法(SVR

4、)對(duì)1-苯基-2氫-四氫三嗪-3-酮同系物進(jìn)行QSAR研究。1-苯基-2氫-四氫三嗪-3-酮同系物可用作5-脂抗氧化酶抑制劑。本工作中用來(lái)自文獻(xiàn)的12個(gè)拓?fù)渲笖?shù)與Hyperchem計(jì)算得到的17個(gè)物理化學(xué)參數(shù)作為初始分子描述符,然后用基于SVR留一交叉驗(yàn)證法進(jìn)行變量篩選,最終得到8個(gè)分子描述符用于建立預(yù)報(bào)模型。該模型的留一交叉驗(yàn)證法的RMSE(最小殘差平方和)為0.2834,作為對(duì)比,多元線性回歸算法(MIR)、偏最小二乘法(PLS)、

5、人工神經(jīng)網(wǎng)絡(luò)(ANN)的RMSE分別為0.4301、0.4379、0.4039;SVM與MLR、PLS、ANN的獨(dú)立測(cè)試集驗(yàn)證結(jié)果的RMSE分別為0.2834、0.3316、0.3470和0.3581。 3.提出了一種基于MVC架構(gòu)的服務(wù)器設(shè)計(jì)途徑,建立了基于已得模型的在線預(yù)報(bào)服務(wù)器。建立生物信息學(xué)預(yù)報(bào)模型的目的是為了提供對(duì)生物信息中的未知對(duì)象進(jìn)行預(yù)報(bào)的工具,使得預(yù)測(cè)結(jié)果能夠?yàn)樗怂?。為了更好的達(dá)到這個(gè)目的,將研究得到的預(yù)報(bào)模

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論