1、近幾年,隨著生物科學(xué)技術(shù)的飛速發(fā)展,產(chǎn)生出大量的生物數(shù)據(jù)。例如基因芯片技術(shù)大大加速了生物實(shí)驗(yàn)的進(jìn)行,并隨之產(chǎn)生了涉及數(shù)千維特征的基因表達(dá)數(shù)據(jù),如何有效的處理和分析所產(chǎn)生的高維數(shù)據(jù)越來越引起研究者們的廣泛關(guān)注。對(duì)于蛋白質(zhì)數(shù)據(jù),同樣也面臨這樣的問題,為了更好地描述一個(gè)龐大的蛋白質(zhì)信息數(shù)據(jù),需要大量的高維數(shù)據(jù)和信息。但是最初研究人員提出的用來描述蛋白質(zhì)序列信息的方法比較簡單,得到的特征所包含的序列信息量很少,所以特征的維數(shù)不是很高,例如氨基酸
2、的組成的特征描述方法。隨著研究的不斷深入,為了更好的描述蛋白質(zhì)序列,表達(dá)方法中考慮了氨基酸的各種物理化學(xué)性質(zhì),即產(chǎn)生了偽氨基酸組成等方法?,F(xiàn)今,隨著蛋白質(zhì)信息的增加以及各種蛋白質(zhì)數(shù)據(jù)庫的建立與完善,利用蛋白質(zhì)數(shù)據(jù)庫信息以及進(jìn)化信息來描述蛋白質(zhì)序列的特征表達(dá)方法被提出,典型的方法包括二肽組成、位置特異性分?jǐn)?shù)矩陣(PSSM)、功能域組成、基因本體(Go)等。它們雖然比較全面的表達(dá)了蛋白質(zhì)序列的各種結(jié)構(gòu)和功能信息,但表達(dá)后相應(yīng)特征的維數(shù)也隨之
3、增大,涉及到的特征維數(shù)已從幾十維增加到幾百維、甚至幾千維。隨著維度(特征數(shù))的增加,數(shù)據(jù)之間的冗余性和不相關(guān)性都隨之增大,這樣會(huì)帶來很多問題,例如對(duì)于某些數(shù)據(jù)分析算法,算法的計(jì)算復(fù)雜性會(huì)迅速增加。因此研究者們開始考慮有效的降低數(shù)據(jù)的冗余性及計(jì)算復(fù)雜度的理論和方法,維數(shù)約簡算法即對(duì)高維數(shù)據(jù)降維的方法,是解決該問題的一種有效途徑。通過降維約簡了大量的冗余信息,但原數(shù)據(jù)中的重要信息被保留了下來。許多實(shí)驗(yàn)結(jié)果都證明采用降維方法不但使得預(yù)測系統(tǒng)得
4、到簡化,同時(shí)還提高了分類性能。
本論文基于線性子空間降維方法來預(yù)測蛋白質(zhì)數(shù)據(jù)的類別,其有效性通過模型評(píng)估方法得以驗(yàn)證。但是線性假設(shè)的內(nèi)在不足使得線性降維方法無法揭示出數(shù)據(jù)集合中所含有的非線性結(jié)構(gòu)性,而現(xiàn)實(shí)中所獲得的真實(shí)數(shù)據(jù)集合更多的是呈現(xiàn)出非線性的結(jié)構(gòu),如本文研究的生物數(shù)據(jù)就是一種復(fù)雜的非線性結(jié)構(gòu)數(shù)據(jù)。故為了彌補(bǔ)線性降維方法的不足,有效的探求數(shù)據(jù)集的內(nèi)在非線性結(jié)構(gòu),線性子空間預(yù)測方法被推廣到高維特征空間,開發(fā)出基于核方法的
5、蛋白質(zhì)數(shù)據(jù)分類預(yù)測算法。但是核函數(shù)不利于人的感知和直接理解,流形學(xué)習(xí)降維算法的提出彌補(bǔ)了它的不足。最近,產(chǎn)生了一種新的降維方法一最大方差映射方法。它結(jié)合了流形學(xué)習(xí)和線性降維方法的優(yōu)點(diǎn),采用該方法預(yù)測蛋白質(zhì)的類別取得了較高的預(yù)測準(zhǔn)確率。最后針對(duì)經(jīng)典等距離映射(Isomap)降維算法的不足之處,提出了相應(yīng)的改進(jìn)算法MDM-Isomap,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法。通過人臉識(shí)別實(shí)驗(yàn)進(jìn)一步證明了該改進(jìn)算法的有效性。
6、 本文的主要貢獻(xiàn)在于:
1.本文提出采用線性子空間降維方法來預(yù)測蛋白質(zhì)亞細(xì)胞位置和四級(jí)結(jié)構(gòu)。首先提取蛋白質(zhì)數(shù)據(jù)的序列特征生成屬性向量。屬性向量的維數(shù)一般都很高,它能全面的描述蛋白質(zhì)序列信息的同時(shí),也帶來了“維數(shù)災(zāi)難”問題,使得蛋白質(zhì)亞細(xì)胞預(yù)測系統(tǒng)的復(fù)雜度很高。為了解決這一問題,我們采用了線性子空間的降維方法從中提取出重要的低維的特征向量,然后在降維后的低維特征向量上再進(jìn)行分類預(yù)測,最后預(yù)測結(jié)果表明采用該方法不但使得生物
7、預(yù)測系統(tǒng)得到簡化,還提高了預(yù)測性能。
2.考慮到線性降維方法對(duì)數(shù)據(jù)的假設(shè)過于苛刻,需要滿足線性結(jié)構(gòu),而生物數(shù)據(jù)大多呈現(xiàn)出非線性的結(jié)構(gòu)特點(diǎn),所以這里將所提出的線性子空間方法推廣到高維特征空間,形成基于核方法(非線性降維方法)的蛋白質(zhì)亞細(xì)胞位置預(yù)測算法。經(jīng)實(shí)驗(yàn)證明了這種方法的有效性,預(yù)測準(zhǔn)確率高于基于線性子空間降維算法的預(yù)測方法。
3.充分挖掘流形學(xué)習(xí)算法與線性降維算法的優(yōu)點(diǎn),以將兩種方法的相結(jié)合為切入點(diǎn),本文采
8、用線性與非線性方法相結(jié)合的算法-最大方差映射方法(MVP)來預(yù)測膜蛋白的類別。它繼承了線性判別分析算法(LDA)的最大化類間距離和最小化類內(nèi)距離的思想,并在此基礎(chǔ)上考慮了樣本的局部幾何特征,將其延伸為最大化類間的幾何特征和最小化類內(nèi)的幾何特征。MVP方法的優(yōu)點(diǎn)在于與傳統(tǒng)的線性判別分析算法相比,它考慮了樣本的空間幾何結(jié)構(gòu)信息,與基本的流形學(xué)習(xí)算法相比,它又具備判別能力,對(duì)解決分類問題的特征降維,尤其是膜蛋白的分類預(yù)測問題非常有效。
9、 4.對(duì)比了各種降維算法在蛋白質(zhì)數(shù)據(jù)分類預(yù)測中的結(jié)果,總結(jié)出了各種降維算法的優(yōu)點(diǎn)和缺點(diǎn)。針對(duì)等距離映射算法(Isomap)的鄰域大小難以有效選取的問題提出了相應(yīng)的改進(jìn)算法,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法MDM-Isomap。采用這種新的度量算法替代原始的歐式距離度量算法使得選擇的近鄰更加準(zhǔn)確更能反應(yīng)流形的本質(zhì)特點(diǎn)。通過人臉識(shí)別實(shí)驗(yàn)也證明了這種方法的有效性,預(yù)測準(zhǔn)確率高于經(jīng)典的Isomap降維方法。
5
評(píng)論
0/150
提交評(píng)論