生物信息學(xué)中多標(biāo)號(hào)不平衡分類問(wèn)題的研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多標(biāo)號(hào)不平衡問(wèn)題是機(jī)器學(xué)習(xí)中的一類重要問(wèn)題。許多實(shí)際問(wèn)題如文本分類、生物信息學(xué)中的亞細(xì)胞定位等,都涉及到多標(biāo)號(hào)不平衡問(wèn)題。而傳統(tǒng)的大多數(shù)分類器都是針對(duì)單標(biāo)號(hào)平衡問(wèn)題設(shè)計(jì)的,無(wú)法很好地處理多標(biāo)號(hào)不平衡問(wèn)題。 蛋白質(zhì)亞細(xì)胞定位問(wèn)題是生物信息學(xué)中的一個(gè)重要問(wèn)題。由于蛋白質(zhì)的亞細(xì)胞位置和它的功能密切相關(guān),因此了解蛋白質(zhì)的亞細(xì)胞定位對(duì)了解蛋白質(zhì)的功能是非常有幫助的。但是由于使用傳統(tǒng)的實(shí)驗(yàn)手段進(jìn)行亞細(xì)胞位置的測(cè)定費(fèi)時(shí)費(fèi)力,因此研究用機(jī)器學(xué)習(xí)

2、的方法根據(jù)蛋白質(zhì)氨基酸序列信息進(jìn)行亞細(xì)胞位置預(yù)測(cè)是非常必要的。然而亞細(xì)胞定位是一個(gè)典型的多標(biāo)號(hào)不平衡問(wèn)題,即部分位置的蛋白質(zhì)數(shù)量遠(yuǎn)遠(yuǎn)多于其他位置,且一個(gè)蛋白質(zhì)可能出現(xiàn)在多個(gè)亞細(xì)胞位置。大多數(shù)傳統(tǒng)的學(xué)習(xí)算法都無(wú)法很好的解決該類問(wèn)題,這給解決蛋白質(zhì)亞細(xì)胞定位問(wèn)題帶來(lái)了一定的困難。 本文使用了最小最大模塊化(M3)網(wǎng)絡(luò)來(lái)解決亞細(xì)胞定位問(wèn)題。M3網(wǎng)絡(luò)是一種能夠有效解決大規(guī)模復(fù)雜問(wèn)題的分類器模型。它能夠?qū)?fù)雜問(wèn)題分解成一系列簡(jiǎn)單的容易解決

3、的子問(wèn)題,這些子問(wèn)題相互之間是獨(dú)立的,可以并行處理。在預(yù)測(cè)階段,這些子問(wèn)題的輸出可以通過(guò)兩條基本的規(guī)則合并起來(lái),得到原問(wèn)題的解。實(shí)驗(yàn)表明M3網(wǎng)絡(luò)在解決亞細(xì)胞定位問(wèn)題上比傳統(tǒng)的SVM分類器在分類精度上有了一定的提高。尤其是對(duì)于那些很小的類,傳統(tǒng)的SVM分類器僅能達(dá)到很低的準(zhǔn)確率,而在使用了M3網(wǎng)絡(luò)進(jìn)行模塊分解后,分類的準(zhǔn)確率有了明顯的提高。此外,實(shí)驗(yàn)還表明,M3網(wǎng)絡(luò)在響應(yīng)速度上比傳統(tǒng)的分類器也有了明顯的提高。而且M3網(wǎng)絡(luò)還具有可以并行計(jì)算

4、的特點(diǎn),分解產(chǎn)生的子模塊可以獨(dú)立的并行計(jì)算,大大提高了計(jì)算速度。這個(gè)優(yōu)勢(shì)也是傳統(tǒng)的分類不具備的。 同時(shí)還在M3網(wǎng)絡(luò)的基礎(chǔ)上提出了多種模塊分解策略來(lái)提高M(jìn)3網(wǎng)絡(luò)分類的性能。這些方法包括超平面分解,PCA超平面分解和均等聚類分解。它們的特點(diǎn)是利用了樣本在特征空間分布上的統(tǒng)計(jì)信息,從而有效地降低了子問(wèn)題的復(fù)雜程度。此外,還針對(duì)亞細(xì)胞定位這個(gè)具體問(wèn)題進(jìn)行了研究,分析了其中蛋白質(zhì)來(lái)源物種的分布信息,提出了根據(jù)物種分解的策略。實(shí)驗(yàn)表明,這幾

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論