高維生物數(shù)據(jù)的分類(lèi)與預(yù)測(cè)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩147頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近幾年,隨著生物科學(xué)技術(shù)的飛速發(fā)展,產(chǎn)生出大量的生物數(shù)據(jù)。例如基因芯片技術(shù)大大加速了生物實(shí)驗(yàn)的進(jìn)行,并隨之產(chǎn)生了涉及數(shù)千維特征的基因表達(dá)數(shù)據(jù),如何有效的處理和分析所產(chǎn)生的高維數(shù)據(jù)越來(lái)越引起研究者們的廣泛關(guān)注。對(duì)于蛋白質(zhì)數(shù)據(jù),同樣也面臨這樣的問(wèn)題,為了更好地描述一個(gè)龐大的蛋白質(zhì)信息數(shù)據(jù),需要大量的高維數(shù)據(jù)和信息。但是最初研究人員提出的用來(lái)描述蛋白質(zhì)序列信息的方法比較簡(jiǎn)單,得到的特征所包含的序列信息量很少,所以特征的維數(shù)不是很高,例如氨基酸

2、的組成的特征描述方法。隨著研究的不斷深入,為了更好的描述蛋白質(zhì)序列,表達(dá)方法中考慮了氨基酸的各種物理化學(xué)性質(zhì),即產(chǎn)生了偽氨基酸組成等方法。現(xiàn)今,隨著蛋白質(zhì)信息的增加以及各種蛋白質(zhì)數(shù)據(jù)庫(kù)的建立與完善,利用蛋白質(zhì)數(shù)據(jù)庫(kù)信息以及進(jìn)化信息來(lái)描述蛋白質(zhì)序列的特征表達(dá)方法被提出,典型的方法包括二肽組成、位置特異性分?jǐn)?shù)矩陣(PSSM)、功能域組成、基因本體(Go)等。它們雖然比較全面的表達(dá)了蛋白質(zhì)序列的各種結(jié)構(gòu)和功能信息,但表達(dá)后相應(yīng)特征的維數(shù)也隨之

3、增大,涉及到的特征維數(shù)已從幾十維增加到幾百維、甚至幾千維。隨著維度(特征數(shù))的增加,數(shù)據(jù)之間的冗余性和不相關(guān)性都隨之增大,這樣會(huì)帶來(lái)很多問(wèn)題,例如對(duì)于某些數(shù)據(jù)分析算法,算法的計(jì)算復(fù)雜性會(huì)迅速增加。因此研究者們開(kāi)始考慮有效的降低數(shù)據(jù)的冗余性及計(jì)算復(fù)雜度的理論和方法,維數(shù)約簡(jiǎn)算法即對(duì)高維數(shù)據(jù)降維的方法,是解決該問(wèn)題的一種有效途徑。通過(guò)降維約簡(jiǎn)了大量的冗余信息,但原數(shù)據(jù)中的重要信息被保留了下來(lái)。許多實(shí)驗(yàn)結(jié)果都證明采用降維方法不但使得預(yù)測(cè)系統(tǒng)得

4、到簡(jiǎn)化,同時(shí)還提高了分類(lèi)性能。
   本論文基于線性子空間降維方法來(lái)預(yù)測(cè)蛋白質(zhì)數(shù)據(jù)的類(lèi)別,其有效性通過(guò)模型評(píng)估方法得以驗(yàn)證。但是線性假設(shè)的內(nèi)在不足使得線性降維方法無(wú)法揭示出數(shù)據(jù)集合中所含有的非線性結(jié)構(gòu)性,而現(xiàn)實(shí)中所獲得的真實(shí)數(shù)據(jù)集合更多的是呈現(xiàn)出非線性的結(jié)構(gòu),如本文研究的生物數(shù)據(jù)就是一種復(fù)雜的非線性結(jié)構(gòu)數(shù)據(jù)。故為了彌補(bǔ)線性降維方法的不足,有效的探求數(shù)據(jù)集的內(nèi)在非線性結(jié)構(gòu),線性子空間預(yù)測(cè)方法被推廣到高維特征空間,開(kāi)發(fā)出基于核方法的

5、蛋白質(zhì)數(shù)據(jù)分類(lèi)預(yù)測(cè)算法。但是核函數(shù)不利于人的感知和直接理解,流形學(xué)習(xí)降維算法的提出彌補(bǔ)了它的不足。最近,產(chǎn)生了一種新的降維方法一最大方差映射方法。它結(jié)合了流形學(xué)習(xí)和線性降維方法的優(yōu)點(diǎn),采用該方法預(yù)測(cè)蛋白質(zhì)的類(lèi)別取得了較高的預(yù)測(cè)準(zhǔn)確率。最后針對(duì)經(jīng)典等距離映射(Isomap)降維算法的不足之處,提出了相應(yīng)的改進(jìn)算法MDM-Isomap,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法。通過(guò)人臉識(shí)別實(shí)驗(yàn)進(jìn)一步證明了該改進(jìn)算法的有效性。
 

6、  本文的主要貢獻(xiàn)在于:
   1.本文提出采用線性子空間降維方法來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞位置和四級(jí)結(jié)構(gòu)。首先提取蛋白質(zhì)數(shù)據(jù)的序列特征生成屬性向量。屬性向量的維數(shù)一般都很高,它能全面的描述蛋白質(zhì)序列信息的同時(shí),也帶來(lái)了“維數(shù)災(zāi)難”問(wèn)題,使得蛋白質(zhì)亞細(xì)胞預(yù)測(cè)系統(tǒng)的復(fù)雜度很高。為了解決這一問(wèn)題,我們采用了線性子空間的降維方法從中提取出重要的低維的特征向量,然后在降維后的低維特征向量上再進(jìn)行分類(lèi)預(yù)測(cè),最后預(yù)測(cè)結(jié)果表明采用該方法不但使得生物

7、預(yù)測(cè)系統(tǒng)得到簡(jiǎn)化,還提高了預(yù)測(cè)性能。
   2.考慮到線性降維方法對(duì)數(shù)據(jù)的假設(shè)過(guò)于苛刻,需要滿(mǎn)足線性結(jié)構(gòu),而生物數(shù)據(jù)大多呈現(xiàn)出非線性的結(jié)構(gòu)特點(diǎn),所以這里將所提出的線性子空間方法推廣到高維特征空間,形成基于核方法(非線性降維方法)的蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)算法。經(jīng)實(shí)驗(yàn)證明了這種方法的有效性,預(yù)測(cè)準(zhǔn)確率高于基于線性子空間降維算法的預(yù)測(cè)方法。
   3.充分挖掘流形學(xué)習(xí)算法與線性降維算法的優(yōu)點(diǎn),以將兩種方法的相結(jié)合為切入點(diǎn),本文采

8、用線性與非線性方法相結(jié)合的算法-最大方差映射方法(MVP)來(lái)預(yù)測(cè)膜蛋白的類(lèi)別。它繼承了線性判別分析算法(LDA)的最大化類(lèi)間距離和最小化類(lèi)內(nèi)距離的思想,并在此基礎(chǔ)上考慮了樣本的局部幾何特征,將其延伸為最大化類(lèi)間的幾何特征和最小化類(lèi)內(nèi)的幾何特征。MVP方法的優(yōu)點(diǎn)在于與傳統(tǒng)的線性判別分析算法相比,它考慮了樣本的空間幾何結(jié)構(gòu)信息,與基本的流形學(xué)習(xí)算法相比,它又具備判別能力,對(duì)解決分類(lèi)問(wèn)題的特征降維,尤其是膜蛋白的分類(lèi)預(yù)測(cè)問(wèn)題非常有效。

9、   4.對(duì)比了各種降維算法在蛋白質(zhì)數(shù)據(jù)分類(lèi)預(yù)測(cè)中的結(jié)果,總結(jié)出了各種降維算法的優(yōu)點(diǎn)和缺點(diǎn)。針對(duì)等距離映射算法(Isomap)的鄰域大小難以有效選取的問(wèn)題提出了相應(yīng)的改進(jìn)算法,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法MDM-Isomap。采用這種新的度量算法替代原始的歐式距離度量算法使得選擇的近鄰更加準(zhǔn)確更能反應(yīng)流形的本質(zhì)特點(diǎn)。通過(guò)人臉識(shí)別實(shí)驗(yàn)也證明了這種方法的有效性,預(yù)測(cè)準(zhǔn)確率高于經(jīng)典的Isomap降維方法。
   5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論