基因本體術(shù)語(yǔ)相似度計(jì)算和擴(kuò)展方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩129頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因本體主要用于描述基因和基因產(chǎn)物的屬性,包括分子功能、生物過(guò)程和細(xì)胞組件三個(gè)方面?;虮倔w的術(shù)語(yǔ)相似度計(jì)算及術(shù)語(yǔ)擴(kuò)展對(duì)基因功能分析、比較和預(yù)測(cè)等生物學(xué)研究熱門(mén)領(lǐng)域具有非常重要的意義?,F(xiàn)有相似度算法只考慮了基因本體中的部分信息或者受基因本體自身不完整性的影響,并不能夠準(zhǔn)確地衡量基因本體術(shù)語(yǔ)之間的相似度以及進(jìn)一步衡量基因之間的相似度。此外,針對(duì)基因本體的不完整性,急需一個(gè)能夠準(zhǔn)確、自動(dòng)地?cái)U(kuò)展基因本體術(shù)語(yǔ)的算法,來(lái)完善基因本體,從而滿足生物

2、數(shù)據(jù)爆炸式增長(zhǎng)帶來(lái)的構(gòu)建和更新本體的需求。本文針對(duì)基因本體的術(shù)語(yǔ)相似度計(jì)算和術(shù)語(yǔ)擴(kuò)展問(wèn)題進(jìn)行深入研究,主要內(nèi)容如下:
 ?。?)基因本體是由領(lǐng)域科學(xué)家通過(guò)收集實(shí)驗(yàn)數(shù)據(jù)、文獻(xiàn)資料等手工構(gòu)建而成,基因本體本身并不完整,只包含已發(fā)現(xiàn)的部分基因功能注釋信息,導(dǎo)致基因本體同分支中術(shù)語(yǔ)相似度計(jì)算的不準(zhǔn)確。針對(duì)這一問(wèn)題,本文提出了基于基因功能網(wǎng)絡(luò)的基因本體同分支術(shù)語(yǔ)相似度算法NETSIM,在考慮基因本體所包含的信息的基礎(chǔ)上,利用基因功能網(wǎng)絡(luò)中包

3、含的基因互作信息來(lái)彌補(bǔ)基因本體不完整性對(duì)術(shù)語(yǔ)相似度計(jì)算造成的影響。為了測(cè)試NETSIM算法的性能并同已有的同類(lèi)算法進(jìn)行比較,本文使用酵母、擬南芥和人類(lèi)代謝反應(yīng)網(wǎng)絡(luò)三個(gè)數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)果表明,與現(xiàn)有的同類(lèi)算法相比,NETSIM算法在具有不同基因本體注釋密度的物種上都具有較高的準(zhǔn)確性和魯棒性。
  (2)基因本體包括分子功能、生物過(guò)程和細(xì)胞組件三個(gè)分支,不同分支術(shù)語(yǔ)之間的的關(guān)聯(lián)關(guān)系不但能夠?yàn)榛蜃⑨屘峁┓浅S杏玫淖C據(jù),而且能夠幫助解

4、釋生物學(xué)現(xiàn)象和提出生物學(xué)假設(shè)。目前的大部分術(shù)語(yǔ)相似度算法解決的是同分支術(shù)語(yǔ)相似度問(wèn)題而忽略了跨分支術(shù)語(yǔ)相似度問(wèn)題。僅有的跨分支術(shù)語(yǔ)相似度算法也只是簡(jiǎn)單地考慮術(shù)語(yǔ)名稱(chēng)之間的文本相似性或術(shù)語(yǔ)注釋基因的重合度,并不能準(zhǔn)確地計(jì)算跨分支術(shù)語(yǔ)之間的相似度。針對(duì)這一問(wèn)題,本文提出了基因本體跨分支術(shù)語(yǔ)相似度算法CroGO,利用具有物種特異性的基因功能網(wǎng)絡(luò)發(fā)現(xiàn)基因本體跨分支術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系,同時(shí)利用向上傳遞的方法衡量跨分支術(shù)語(yǔ)對(duì)的信息量解決了術(shù)語(yǔ)對(duì)層次

5、定位的問(wèn)題。本文在標(biāo)準(zhǔn)數(shù)據(jù)集上比較CroGO和同類(lèi)算法的跨分支相似度計(jì)算結(jié)果。結(jié)果表明CroGO算法的相似度計(jì)算準(zhǔn)確性最高。本文還基于CroGO算法建立了具有物種特異性的酵母和人類(lèi)術(shù)語(yǔ)關(guān)聯(lián)網(wǎng)絡(luò)。富集分析測(cè)試表明,基于CroGO算法建立的網(wǎng)絡(luò)的準(zhǔn)確性和覆蓋率遠(yuǎn)遠(yuǎn)優(yōu)于基于其他方法建立的網(wǎng)絡(luò)。
 ?。?)基于基因本體的術(shù)語(yǔ)相似度,進(jìn)一步計(jì)算基因之間的功能相似度是當(dāng)前基因本體相關(guān)研究的熱點(diǎn)領(lǐng)域,即利用基因本體中包含的豐富信息(包括注釋信息

6、,結(jié)構(gòu)信息,最低公共祖先等)來(lái)比較基因之間的功能相似度。盡管目前已經(jīng)有數(shù)十個(gè)基于基因本體衡量基因功能相似度的算法,但是這些算法一般都僅考慮了基因本體中某一種或幾種類(lèi)型的關(guān)系而忽略了其他有意義的信息,因此只能準(zhǔn)確的衡量部分基因之間的功能相似度。針對(duì)上述問(wèn)題,本文提出了基于多方法整合的基因功能相似度算法InteGO2,旨在全面利用基因本體中包含的各種信息。InteGO2算法能夠自動(dòng)選擇合適的候選方法,然后基于啟發(fā)式搜索方法整合這些候選方法。

7、在基因本體分子功能分支和生物過(guò)程分支中的實(shí)驗(yàn)結(jié)果表明,InteGO2算法的性能顯著優(yōu)于現(xiàn)有的基于基因本體的基因功能相似度算法。同時(shí),InteGO2算法對(duì)于不同輸入的待整合算法集具有較好的魯棒性,逐一去掉所有被整合算法中性能最好的4個(gè)算法,InteGO2算法仍然具有較好的性能;加入一個(gè)基因相似度為隨機(jī)生成的算法,InteGO2算法仍然具有較好的性能。
  (4)目前的基因本體主要依賴(lài)于領(lǐng)域?qū)<沂止?gòu)建,但是由于生物知識(shí)和數(shù)據(jù)的爆炸式

8、增長(zhǎng),領(lǐng)域?qū)<液茈y將其充分轉(zhuǎn)化為基因本體中的術(shù)語(yǔ)和注釋信息。為了提高基因本體術(shù)語(yǔ)擴(kuò)展的效率,迫切需要自動(dòng)化擴(kuò)展基因本體術(shù)語(yǔ)的方法,輔助領(lǐng)域?qū)<覕U(kuò)展基因本體術(shù)語(yǔ)。針對(duì)這一需求,本文提出了基于基因網(wǎng)絡(luò)聚類(lèi)分析的基因本體術(shù)語(yǔ)擴(kuò)展算法GOExtender,該算法能夠通過(guò)整合與分析多個(gè)生物網(wǎng)絡(luò)數(shù)據(jù),從已有基因本體中選取可擴(kuò)展術(shù)語(yǔ),通過(guò)預(yù)測(cè)選取術(shù)語(yǔ)的子孫節(jié)點(diǎn)術(shù)語(yǔ)擴(kuò)展現(xiàn)有基因本體。本文選取了4個(gè)不同版本(2007、2009、2011和2013)的基因

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論