生物信息學有關(guān)的數(shù)據(jù)結(jié)構(gòu)與智能計算問題.pdf_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著生物技術(shù)的發(fā)展,積累了越來越多的生物數(shù)據(jù),對生物數(shù)據(jù)的存儲分析形成了新的學科:生物信息學。生物信息學的發(fā)展是多種學科交叉的結(jié)果,但是另外一方面對生物數(shù)據(jù)的分析,新算法的開發(fā)對數(shù)學和計算機科學的發(fā)展也起到了一定的推動作用。本文就是對這方面的初步探討。本文分三個部分,第一部分,從生物信息學中的生物序列的比對出發(fā),將序列的突變推廣到信息科學和計算科學中的廣義差錯,并且給出其應(yīng)用:廣義糾錯碼和容錯復雜度。第二部分,使用模糊神經(jīng)網(wǎng)絡(luò)算法分析基

2、因識別的因素問題,第三部分,給出一種新的聚類算法EMR算法,并將其應(yīng)用于蛋白質(zhì)的聚類中。 在數(shù)據(jù)處理問題中,差錯的類型有多種,除了符號的變更外還有數(shù)據(jù)的丟失與插入等情況發(fā)生,我們統(tǒng)稱這種差錯為廣義差錯或突變誤差.在計算機,信息論與生物信息學領(lǐng)域中,對這種廣義差錯都有研究,并分別對這種差錯給以度量的定義,如在計算機與信息論領(lǐng)域稱這種廣義差錯的度量為Levenshtein距離,編輯距離(Editedistance)或Evolutio

3、nary距離等,這些距離有的是等價的,也有是不等價的.在生物信息學中,為尋找序列的突變誤差的發(fā)生的狀況有一系列的比對(Alignment)計算方法與研究,由此可產(chǎn)生Alignment距離與Alignment空間,Alignment距離實際上就是Evolutionary距離.本文首先概述這幾種距離的定義與相互關(guān)系,為研究廣義差錯的數(shù)據(jù)結(jié)構(gòu),我們引進它們的代數(shù)結(jié)構(gòu)理論,并由此對Alignment距離滿足三角形不等式給出它的嚴格證明,本文還討

4、論了最小罰分比對與最大得分比對的關(guān)系問題與廣義糾錯碼的構(gòu)造問題,給出了最優(yōu)比對的不唯一性的例子,最小罰分比對與最大得分比對的不等價性與等價條件。在碼長較小時利用Alignment算法可得到一系列最優(yōu)的廣義糾錯碼。 復雜度理論是計算機科學與密碼學的重要基礎(chǔ),所謂容錯復雜度就是允許數(shù)據(jù)具有差錯時的復雜度,近年來在密碼學研究中受到重視.本文對一般廣義差錯(符號改變、插入與刪除),給出了它們一般的非線性容錯復雜度的定義、計算與應(yīng)用。

5、 在真核生物外顯子與內(nèi)含子的識別中,由DNA序列可以產(chǎn)生多種結(jié)構(gòu)的特征參數(shù),如氨基酸的頻率分布,Z-坐標等,我們稱這些特征參數(shù)為外顯子與內(nèi)含子的識別因素.本文的目的就是分析這些因素,及它們的組合在基因識別中的作用.為此目的,我們采用了人工神經(jīng)網(wǎng)絡(luò)理論中的模糊感知器模型,建立相應(yīng)的特征參數(shù)集與神經(jīng)網(wǎng)絡(luò)訓練與識別模型,并以Burset-Guigo訓練集為訓練數(shù)據(jù),以Hmr,H178,果蠅和擬南芥等數(shù)據(jù)集構(gòu)成混合檢驗集,選擇DNA序列的氨

6、基酸的頻率分布,Z-坐標等為該序列的特征參數(shù),并對這些參數(shù)及它們的不同組合作學習訓練與識別的因素分析,分別在單因素,低因素(因素數(shù)為2,3,4,5),高因素(因素數(shù)大于5)時,得到這些因素在不同組合下識別的精度指標,由此可以看到不同因素組合在基因識別中的作用. 聚類分析是數(shù)據(jù)發(fā)掘理論與統(tǒng)計學中的一個重要領(lǐng)域.常見的聚類分析類型很多,如系統(tǒng)聚類,中心聚類等,這些數(shù)據(jù)的聚類一般是以它們的距離為基礎(chǔ),把距離較近的數(shù)據(jù)歸結(jié)為同一個類,本

7、文提出的分布族的聚類分析問題,是指所討論的數(shù)據(jù)是由一大批數(shù)據(jù)序列組成,由每個序列可確定它的分布結(jié)構(gòu)(如頻率分布,二重數(shù)據(jù)的聯(lián)合頻率分布等),由此就可以產(chǎn)生一分布族,為對分布族進行聚類分析,在本文中我們以Kullback-Leibler熵為不同分布的差異性度量,給出了相應(yīng)的優(yōu)化聚類算法,這種算法與EM算法或K-mean算法思路相似,但又增加一個新的遞歸運算步驟,所以我們稱之為EMR(Expectation-Maximization-Rec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論