轉(zhuǎn)錄因子結(jié)合位點預測算法的研究與應用.pdf_第1頁
已閱讀1頁,還剩141頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、人類已經(jīng)步入后基因組時代。隨著對基因研究的不斷深入,了解基因表達調(diào)控機制特別是轉(zhuǎn)錄調(diào)控機制的需求就顯得尤為迫切起來。這是因為,基因是細胞生命活動的基礎。在同一生物體內(nèi),每個細胞都有一套完全相同的基因組。但是在不同的條件下,基因的表達水平不盡相同,這種行為限定了細胞中的RNA組成,進而影響到最終所能產(chǎn)生出的全部蛋白質(zhì),從而決定了該細胞的功能。 轉(zhuǎn)錄過程既是DNA翻譯成蛋白質(zhì)的關鍵一步,同時也是調(diào)控基因表達的關鍵階段。轉(zhuǎn)錄調(diào)控通常是

2、在轉(zhuǎn)錄起始步驟實現(xiàn)的。除了啟動子以外,在幾乎所有基因的上游區(qū)域中都還存在著激活基因所需的一段特定的DNA序列(轉(zhuǎn)錄因子結(jié)合位點)。這些序列本身并不執(zhí)行任何功能,只有當其被調(diào)控蛋白(轉(zhuǎn)錄因子)識別、結(jié)合后才能發(fā)揮作用。它們共同控制著基因的轉(zhuǎn)錄。轉(zhuǎn)錄因子與其結(jié)合位點的結(jié)合具有高度的專一性。研究轉(zhuǎn)錄因子就是研究轉(zhuǎn)錄調(diào)控的分子機制,研究一類特定的蛋白質(zhì)分子與DNA序列的結(jié)合特性,研究與DNA結(jié)合的蛋白質(zhì)是如何調(diào)控基因轉(zhuǎn)錄等問題。因此,鑒別出全部

3、與特定轉(zhuǎn)錄因子結(jié)合的DNA序列的特征,有助于對轉(zhuǎn)錄因子性質(zhì)的進一步研究。目前,一些實驗已經(jīng)證實在真核細胞中,特別是在高等生物體內(nèi),在多數(shù)情況下轉(zhuǎn)錄因子并不是獨自發(fā)揮作用,而是與其它轉(zhuǎn)錄因子協(xié)同作用,共同影響靶基因的表達。因此,對多轉(zhuǎn)錄因子協(xié)同DNA結(jié)合位點的研究正在成為一個新的亮點。 利用現(xiàn)代分子生物學實驗技術,例如凝膠阻滯實驗、足跡法等,可以逐一鑒別出與特定轉(zhuǎn)錄因子結(jié)合的DNA序列片段。但是,單純依靠這類技術來對幾百個或上千條

4、潛在的結(jié)合位點進行檢測,科研人員將不得不付出極大的代價。因此,在基因組水平上對潛在的轉(zhuǎn)錄因子結(jié)合位點進行識別、篩選的生物信息學技術已經(jīng)成為一項非常有效的輔助手段。不過在實際使用過程中,過度預測問題的存在已經(jīng)嚴重地制約了這些算法的發(fā)展。 在生物信息學領域中,人工神經(jīng)網(wǎng)絡、隱馬氏模型已經(jīng)成為解決序列分析和模式識別問題的重要工具之一。在文中,我們對轉(zhuǎn)錄因子結(jié)合位點預測算法的發(fā)展歷程進行了回顧;討論了人工神經(jīng)網(wǎng)絡、隱馬氏模型應用于該領域

5、時所具有的優(yōu)點和存在的局限性;最后,在這兩種技術的基礎上,提出了新的更適合解決該問題的算法。同時,對多轉(zhuǎn)錄因子協(xié)同DNA結(jié)合位點預測問題以及過度預測問題的解決進行了有益的嘗試,并取得較令人滿意的結(jié)果。 基于誤差平方和最小化原則(MSSE)的反向轉(zhuǎn)播算法的出現(xiàn)是人工神經(jīng)網(wǎng)絡發(fā)展史上的一個里程碑。在生物序列分析領域中BP算法也是一種經(jīng)典的解決方案,特別是在蛋白質(zhì)二級結(jié)構(gòu)預測方面。人工神經(jīng)網(wǎng)絡學習的目的是要揭示產(chǎn)生樣本的規(guī)律,因而可以

6、使用最大似然方法進行求解。但是只有在目標變量滿足高斯分布的前提下,最大似然函數(shù)才可化為誤差平方和函數(shù)。這就說明了,傳統(tǒng)BP模型不適合解決轉(zhuǎn)錄因子結(jié)合位點預測問題。因此,我們提出了一個以交叉熵為目標函數(shù)的BP神經(jīng)網(wǎng)絡模型——ANN-CE(ArtificialNeuralNetworkusingCrossEntropy)模型,并推導了該目標函數(shù)條件下的BP算法的迭代公式。 隱馬氏模型有著堅實的統(tǒng)計學基礎和有效的學習算法,它甚至可以直

7、接從原始數(shù)據(jù)中構(gòu)造出模型來。目前,剖面隱馬氏模型已成為生物序列分析中應用最為廣泛的模型之一,如在多重序列聯(lián)配方面。但是,隱馬氏模型受其馬爾可夫性質(zhì)的限制,無法表現(xiàn)遠程狀態(tài)之間的相互關系。所以,針對轉(zhuǎn)錄因子結(jié)合位點預測這一特定問題,隱馬氏模型的處理能力稍顯不足。同時,經(jīng)實驗證實的特定轉(zhuǎn)錄因子的DNA結(jié)合位點序列數(shù)據(jù)過少,也影響著任何預測算法的性能。我們提出了一種新的剖面隱馬氏模型算法——BssHMMs(BindingSiteSearchb

8、aesdonHiddenMarkovmodels)算法。該算法通過提取正反兩方面數(shù)據(jù)(轉(zhuǎn)錄因子結(jié)合位點序列和隨機序列)的特征,建立起相應的轉(zhuǎn)錄因子結(jié)合位點預測模型,并利用似然比檢驗尋找出位點中遠程位置之間的相關性信息,從而在一定程度上避免了隱馬氏模型的局限。 在本文的最后部分,我們給出了一個包含266條記錄的轉(zhuǎn)錄因子結(jié)合位點剖面數(shù)據(jù)庫BSDbase,以及兩套預測系統(tǒng)。同時,對多轉(zhuǎn)錄因子協(xié)同DNA結(jié)合位點預測及過度預測問題的解決進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論