

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、藥物的發(fā)展歷史甚久,中國古代就有神農(nóng)嘗百草的故事以及本草綱目等名著。從人類基因組計劃基本完成的那一刻起,生物數(shù)據(jù)作為一種非物質(zhì)的新型生產(chǎn)資料正在逐漸引發(fā)著生物醫(yī)學(xué)的變革,新藥的研發(fā)邁入了一個全新的階段。近年來“大數(shù)據(jù)”概念受到越來越多的關(guān)注,而隨著生物科技的不斷進(jìn)步,高通量測序技術(shù)得到快速發(fā)展,使得生命科學(xué)研究獲得了強大的數(shù)據(jù)產(chǎn)出能力,海量產(chǎn)出了包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等各種生物學(xué)數(shù)據(jù)。這些數(shù)據(jù)具有“4V”特點:數(shù)據(jù)
2、量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價值(Value)、高速(Velocity)。如果能合理地收集,管理并利用好這樣的生物數(shù)據(jù),從中挖掘有用的生物信息,將對人類疾病的診療送來福音。為了提高新藥研發(fā)的效率,給疾病患者盡早帶來福音,作為新藥研發(fā)的首要步驟,利用機器學(xué)習(xí)的方法挖掘潛在藥物靶標(biāo)已成為生物制藥領(lǐng)域的研究熱門。對此,本文完成了如下幾個方面的研究工作:
(1)基于蛋白質(zhì)序列信息的潛在藥物靶標(biāo)預(yù)測研究。盡管研
3、究者已經(jīng)總結(jié)出了部分藥物靶標(biāo)的特征,但是藥物靶標(biāo)的完整特征仍在摸索階段。而藥靶蛋白質(zhì)的序列信息只依賴于測序技術(shù),相對于各種生物假設(shè)是獨立的。因此利用蛋白質(zhì)的序列信息預(yù)測潛在的藥物靶標(biāo),能夠避免對于藥物靶標(biāo)生物假設(shè)的片面性和盲目性。本文首先從細(xì)胞組件,分子功能以及生物過程三個方面,對載體、轉(zhuǎn)運以及酶三類藥靶蛋白質(zhì)進(jìn)行了對比分析,從而確保了三組已知藥物靶標(biāo)蛋白質(zhì)數(shù)據(jù)可以作為一個正面訓(xùn)練集整體進(jìn)行機器學(xué)習(xí)的可行性。進(jìn)一步采用較為成熟的計算軟件
4、,基于蛋白質(zhì)的序列信息提取了多種物化屬性作為特征集。接著設(shè)計了兩種策略從蛋白質(zhì)樣本的測試集中提取分類器所需要的陰性數(shù)據(jù)集,并使用三種核函數(shù)對訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),比較了三種支持向量機核方法的分類性能。第一種策略的特點是“不放過”測試集中的潛在的藥物靶標(biāo)。第二種策略的特點是對于測試集中潛在的藥物靶標(biāo)“不選錯”,兩種策略各有優(yōu)勢。本文結(jié)果表明在對藥靶蛋白質(zhì)進(jìn)行大批量篩選時,推薦使用第一種策略。而對藥靶蛋白質(zhì)進(jìn)行精選時,推薦使用第二種策略。最后分
5、析了預(yù)測的藥物靶標(biāo)蛋白質(zhì)中具有富集效應(yīng)的通路,并在通路中標(biāo)出了具有研究意義的靶點,這些靶點對于藥物開發(fā)具有一定的研究價值。
(2)基于經(jīng)典貝葉斯分類方法提出了一種新的分類方法BFC(Bayesian Forest Classifier)。首先分析了基于貝葉斯分類方法的分類器的研究現(xiàn)狀,著重介紹了樸素貝葉斯分類器與貝葉斯網(wǎng)絡(luò)分類器的原理,并指出現(xiàn)有方法在處理有限樣本多維特征數(shù)據(jù)方面的不足。然后基于樸素貝葉斯的框架提出了一種新的多
6、樹結(jié)構(gòu)的貝葉斯分類器BFC。BFC利用隱變量分類模型的策略建立協(xié)變量間相互依賴的關(guān)系。首先把協(xié)變量按照他們與分類變量之間的關(guān)系以及變量互相之間的關(guān)系分成四個大組。在協(xié)變量互相之間有關(guān)聯(lián)的組中,再采用樹狀模型又把這些互相關(guān)聯(lián)的協(xié)變量不斷劃分重組為子組塊,從而最終實現(xiàn)協(xié)變量的有效分類。利用細(xì)節(jié)平衡的MCMC采樣步驟時,這種樹組策略在仿真數(shù)據(jù)和實際應(yīng)用中都能夠取得很好的效果。本文進(jìn)一步從理論上證明了算法中所設(shè)計的MCMC采樣的細(xì)致平衡性。最后
7、通過三組仿真實驗以及15組真實基準(zhǔn)數(shù)據(jù)測試了BFC的分類能力,并與11種常用的分類方法細(xì)致的比較研究。新的分類方法不僅可以用在藥物靶標(biāo)的篩選、蛋白質(zhì)調(diào)控關(guān)系的預(yù)測等方面,而且在機器學(xué)習(xí)與模式識別的各個領(lǐng)域都能有廣泛的應(yīng)用。
(3)基于蛋白質(zhì)序列信息以及蛋白質(zhì)互作用網(wǎng)絡(luò)的拓?fù)涮卣鞯臐撛谒幬锇袠?biāo)挖掘研究。本文從三種視角對藥物靶標(biāo)蛋白質(zhì)的拓?fù)鋵傩赃M(jìn)行了分析:藥靶蛋白質(zhì)作為網(wǎng)絡(luò)的中介,藥靶蛋白質(zhì)作為信號源以及藥靶蛋白質(zhì)的群簇特征??偣?/p>
8、比較了網(wǎng)絡(luò)的節(jié)點度、介數(shù)、平均距離、偏心距、聚類系數(shù)、核數(shù)以及社區(qū)性等7個拓?fù)涮卣鳌0l(fā)現(xiàn)藥靶蛋白質(zhì)在6、9、12、18核的子網(wǎng)絡(luò)中具有較高的全局比,在偏心距為7、8、9的位置具有較高的概率密度,與藥靶蛋白質(zhì)相互作用的蛋白質(zhì)也都存在于較高連接度的群簇,對于這些特征的分析有助于從系統(tǒng)的角度進(jìn)一步理解藥物靶標(biāo)的作用機理。本文進(jìn)一步利用網(wǎng)絡(luò)特征從測試蛋白質(zhì)集合中提取陰性訓(xùn)練集,比較了三種分類器(SVM、AdaboostBayes以及BFC)對訓(xùn)
9、練數(shù)據(jù)的分類性能,從測試集中預(yù)測得到了102個潛在的藥物靶標(biāo)。最后對預(yù)測得到的藥靶中富集顯著的通路進(jìn)行了分析,并在通路中標(biāo)出了具有進(jìn)一步實驗價值的相關(guān)靶點。
(4)提出了一種針對信號通路中蛋白質(zhì)間激活與抑制調(diào)控關(guān)系的預(yù)測方法。藥物與靶標(biāo)蛋白質(zhì)相結(jié)合,通過靶標(biāo)蛋白質(zhì)對其他蛋白質(zhì)的相互作用對整個信號通路起到調(diào)節(jié)的作用。因此,對于信號網(wǎng)絡(luò)中蛋白質(zhì)調(diào)控關(guān)系的研究有助于發(fā)現(xiàn)新的藥靶蛋白質(zhì)。本文給出了信號通路研究的數(shù)據(jù)資源,并介紹了基因本
10、體以及蛋白質(zhì)結(jié)構(gòu)域兩組數(shù)據(jù)資源以及其特點。進(jìn)而利用基于富集比值的打分方法以及超幾何分布的統(tǒng)計檢驗方法,提取了具有富集顯著的蛋白質(zhì)結(jié)構(gòu)以及基因本體互作用數(shù)據(jù)作為特征。使用BFC分類方法對信號通路中蛋白質(zhì)調(diào)控關(guān)系進(jìn)行了預(yù)測,并通過已知蛋白質(zhì)調(diào)控關(guān)系的經(jīng)典通路驗證了分類器的預(yù)測能力。最后開發(fā)了信號通路中蛋白質(zhì)激活與抑制調(diào)控關(guān)系預(yù)測器的工作流程。實驗結(jié)果表明,基于富集比值的打分方法能夠有效地挖掘信號通路中蛋白質(zhì)的激活與抑制調(diào)控關(guān)系。蛋白質(zhì)調(diào)控關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機器學(xué)習(xí)方法的藥物不良反應(yīng)預(yù)測.pdf
- 挖掘Internet深層信息的機器學(xué)習(xí)方法的研究.pdf
- 基于核函數(shù)的機器學(xué)習(xí)方法研究.pdf
- 基于機器學(xué)習(xí)方法的視頻標(biāo)注研究.pdf
- 基于機器學(xué)習(xí)方法的藥物不良反應(yīng)預(yù)測及分析.pdf
- 基于稀疏性的機器學(xué)習(xí)方法研究.pdf
- 核機器學(xué)習(xí)方法研究.pdf
- 基于機器學(xué)習(xí)方法的人臉識別研究.pdf
- 基于標(biāo)記分布的機器學(xué)習(xí)方法研究.pdf
- 基于機器學(xué)習(xí)方法的視覺信息標(biāo)注研究.pdf
- 基于機器學(xué)習(xí)方法的生物序列分類研究.pdf
- 基于機器學(xué)習(xí)方法的建筑能耗性能研究.pdf
- 基于機器學(xué)習(xí)的藥物研發(fā)方法研究.pdf
- 基于機器學(xué)習(xí)方法的網(wǎng)絡(luò)流量分類研究.pdf
- 基于機器學(xué)習(xí)方法的核素識別技術(shù)研究.pdf
- 基于語音反演機器學(xué)習(xí)方法的聲道模型研究.pdf
- 基于機器學(xué)習(xí)方法的基因和蛋白預(yù)測研究.pdf
- 基于機器學(xué)習(xí)方法的股票數(shù)據(jù)研究.pdf
- 基于機器學(xué)習(xí)方法的股票數(shù)據(jù)研究
- 基于機器學(xué)習(xí)方法的人臉表情識別研究.pdf
評論
0/150
提交評論