蛋白質(zhì)序列數(shù)據(jù)的分類預(yù)測研究.pdf_第1頁
已閱讀1頁,還剩120頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、序列數(shù)據(jù)是數(shù)據(jù)挖掘問題中一類特殊數(shù)據(jù),廣泛存在于社會生活各個領(lǐng)域,如何從這些復(fù)雜海量序列數(shù)據(jù)庫中挖掘蘊(yùn)含其中的有用信息是數(shù)據(jù)挖掘的新研究課題,具有重要理論意義和實際價值.本論文以蛋白質(zhì)序列數(shù)據(jù)為例進(jìn)行序列數(shù)據(jù)分類研究,亦為生物信息學(xué)中課題. 論文圍繞蛋白質(zhì)序列數(shù)據(jù)的分類預(yù)測這一主題,在綜合眾多序列數(shù)據(jù)分析算法的基礎(chǔ)上,將序列特征分析歸納為兩類主要方法,基于特征提取的方法和基于相似性模型的方法,由此將研究路線分為兩條.一方面基于特

2、征提取方法,分別針對膜蛋白及信號肽序列,根據(jù)序列各自特性提取相應(yīng)特征進(jìn)行分類.另一方面,基于相似性模型,提出基于全序列比對的相似度以預(yù)測信號肽,進(jìn)而嵌入核空間提高預(yù)測穩(wěn)定性,達(dá)到提取序列明確屬性向量的目的,至此實現(xiàn)兩條技術(shù)路線的統(tǒng)一.論文還進(jìn)一步通過線性降維實現(xiàn)冗余及不相關(guān)維數(shù)約簡及可視化.總的來說,本論文集中F蛋白質(zhì)序列的分類預(yù)測研究,著重于以下幾個創(chuàng)新點: (1) 針對不同序列有區(qū)別有目的地提取序列特征生成屬性向量,從而訓(xùn)練

3、分類器并提供對新樣本的預(yù)測.其中對于序列長度相對較長的膜蛋白序列,首先進(jìn)行數(shù)值化編碼生成時間序列,將其作為各樣本以不同時間間隔抽樣的離散信號,從而基于數(shù)字信號處理理論進(jìn)行序列分析,避免了以往算法忽略序列次序信息的缺點.分析發(fā)現(xiàn)借助信號低頻的幅度及相位信息,可以有效提取序列特征并可減少噪聲帶來的影響.實驗結(jié)果表明這種基于頻域的特征提取方法可以有效提取膜蛋白序列特征,以利于分類預(yù)測. (2) 在對序列長度相對小的信號肽序列預(yù)測時,采

4、用滑動窗截斷的方式將不等長序列轉(zhuǎn)換為固定長度的序列片斷,經(jīng)過互信息分析發(fā)現(xiàn)其內(nèi)部各位點間存在復(fù)雜的耦合作用,針對已有算法盲目定義這種耦合作用的情況,提出基于多決策樹方式提取規(guī)則,并借助其識別信號肽及其斷裂點.經(jīng)實驗證明這種處理方式在信號肽預(yù)測問題中可有效提高序列片斷及信號肽剪切點的預(yù)測率. (3) 以相似性作為分類預(yù)測的基石,定義基于全序列比對的相似度預(yù)測信號肽,避免了采用滑動窗所帶來的不平衡樣本等諸多問題.通過分析此相似度的數(shù)

5、學(xué)特性,詳細(xì)證明其為一種度量.另外將其應(yīng)用于信號肽預(yù)測中,在預(yù)測率及穩(wěn)健性方面獲得了良好效果,結(jié)果表明此相似度確實可以表征樣本之間的相似關(guān)系,并為預(yù)測分類提供了良好的信息表示方式.提出的算法已經(jīng)通過interet在網(wǎng)上提供相應(yīng)使用服務(wù),為擴(kuò)大算法的使用范圍提供了快速有效的途徑. (4)探討非正定核的處理方法,在分析基于全序列比對的相似度與歐氏距離偏差基礎(chǔ)上,提出基于全序列比對的非正定核算法,并應(yīng)用于信號肽分類預(yù)測中;另一方面,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論