基因識別問題及其算法實現_第1頁
已閱讀1頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1基因識別問題及其算法實現基因識別問題及其算法實現一、背景介紹一、背景介紹DNA是生物遺傳信息的載體,其化學名稱為脫氧核糖核酸(Deoxyribonucleicacid,縮寫為DNA)。DNA分子是一種長鏈聚合物,DNA序列由腺嘌呤(AdenineA),鳥嘌呤(GuanineG),胞嘧啶(CytosineC),胸腺嘧啶(ThymineT)這四種核苷酸(nucleotide)符號按一定的順序連接而成。其中帶有遺傳訊息的DNA片段稱為基因(

2、Gene)(見圖1第一行)。其他的DNA序列片段,有些直接以自身構造發(fā)揮作用,有些則參與調控遺傳訊息的表現。在真核生物的DNA序列中,基因通常被劃分為許多間隔的片段(見圖1第二行),其中編碼蛋白質的部分,即編碼序列(CodingSequence)片段,稱為外顯子(Exon),不編碼的部分稱為內含子(Intron)。外顯子在DNA序列剪接(Splicing)后仍然會被保存下來,并可在圖1真核生物DNA序列(基因序列)結構示意圖蛋白質合成過

3、程中被轉錄(tranion)、復制(replication)而合成為蛋白質(見圖2)。DNA序列通過遺傳編碼來儲存信息,指導蛋白質的合成,把遺傳信息準確無誤地傳遞到蛋白質(protein)上去并實現各種生命功能。圖2蛋白質結構示意圖對大量、復雜的基因序列的分析,傳統(tǒng)生物學解決問題的方式是基于分子實驗的方法,其代價高昂。諾貝爾獎獲得者W.吉爾伯特(WalterGilbert,1932—;【美】,第一個制備出混合脫氧核糖核酸的科學家)199

4、1年曾經指出:“現在,基于全部基因序列都將知曉,并以電子可操作的方式駐留在數據庫中,新的生物學研究模式的出發(fā)點應是理論的。一個DNA序列外顯子(Exon)內含子(Intron)DNA序列基因(Gene)蛋白質序列剪接、轉錄、復制基因(Gene)3例如,假設給定的一段DNA序列片段為S=ATCGTACTG,則所生成的四個01序列分別為::;:;[]Aun100001000[]Gun000100001:;:。[]Cun001000100[]

5、Tun010010010這樣產生的四個數字序列又稱為DNA序列的指示序列(indicatSequence)。2.頻譜頻譜3周期性周期性為研究DNA編碼序列(外顯子)的特性,對指示序列分別做離散Fourier變換(DFT)(1)210[[]]011nkNjNbbnUkunekN?????????以此可得到四個長度均為N的復數序列,。計算每個復序列的平[]bUkbI?[]bUk方功率譜,并相加則得到整個DNA序列的功率譜序列:S[]Pk(2

6、)2222[][][][][]011ATGCPkUkUkUkUkkN???????對于同一段DNA序列,其外顯子與內含子序列片段的功率譜通常表現出不同的特性01002003004005006000500010000kP(k)01002003004005006000500010000kP(k)圖3編號為BK006948.2的酵母基因DNA序列的功率譜(因為對稱性,實際這里只給出了功率譜圖因為對稱性,實際這里只給出了功率譜圖的一半的一半)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論