轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題的算法研究.pdf_第1頁
已閱讀1頁,還剩114頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、轉(zhuǎn)錄是基因表達(dá)的第一階段,也是基因調(diào)節(jié)的主要階段,通過轉(zhuǎn)錄因子與特異的DNA序列結(jié)合,對(duì)基因的表達(dá)起抑制或增強(qiáng)的作用。識(shí)別DNA序列的中的這些結(jié)合區(qū)域,即轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別,對(duì)了解基因的轉(zhuǎn)錄活性及理解基因表達(dá)有著重要意義,是現(xiàn)今生物信息學(xué)中最為廣泛研究的問題之一。
  轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題的難點(diǎn)在于,與大量長(zhǎng)度幾百或上千堿基的背景噪聲序列相比,長(zhǎng)度為十幾或幾十的模體信號(hào)相對(duì)較短,并且同一轉(zhuǎn)錄因子的模體實(shí)例還有可能部分發(fā)生變異

2、。同時(shí),隨著序列長(zhǎng)度和數(shù)量的增加,解空間大小也會(huì)飛速巨增,計(jì)算開銷往往不切實(shí)際。此外,識(shí)別結(jié)合區(qū)域中的多個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)、尋找特定的共調(diào)控轉(zhuǎn)錄因子結(jié)合位點(diǎn)組合以及在全基因組范圍內(nèi)尋找結(jié)合位點(diǎn),也是此問題所面臨的巨大挑戰(zhàn)。本論文針對(duì)轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題中所使用的數(shù)學(xué)模型、優(yōu)化技術(shù)、高效識(shí)別方法以及與新型生物實(shí)驗(yàn)結(jié)合的進(jìn)一步發(fā)展等問題進(jìn)行了深入的研究,將所提出的方法應(yīng)用于模擬字符串?dāng)?shù)據(jù)、不同物種和組織的啟動(dòng)子序列和全基因組的DNA數(shù)據(jù)

3、進(jìn)行轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別。主要工作可概括如下:
  (1)針對(duì)傳統(tǒng)轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題組合候選解集規(guī)模過大,經(jīng)典的概率求解方法易于陷入局部最優(yōu)解的情況,提出了定位投影求精算法。通過一個(gè)基于位置頻率矩陣的定位投影過程,將數(shù)據(jù)集劃分,聚類為不同的子集。從這些子集中過濾篩選出具有一定信息量和復(fù)雜度若干子集,分別作為期望最大化算法的初始狀態(tài)并進(jìn)行迭代求精。本論文通過對(duì)定位投影過程中閥值的設(shè)定,實(shí)現(xiàn)了對(duì)OOPS、ZOOPS、TCM三種模

4、體實(shí)例不同分布模型的處理。同時(shí),結(jié)合高階馬爾可夫模型作為背景加強(qiáng)模體特異性,使概率模型更加符合真實(shí)生物數(shù)據(jù)。此外,引入了相似函數(shù)對(duì)各子集輸出結(jié)果進(jìn)行評(píng)估,使得定位投影求精算法可以解決多模體識(shí)別問題。實(shí)驗(yàn)結(jié)果表明,該算法可以在多個(gè)真核物種的啟動(dòng)子序列中有效識(shí)別轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
  (2)針對(duì)由轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題衍生得到的(l,d)植入模體搜索問題,傳統(tǒng)算法在效率和準(zhǔn)確度上往往較難達(dá)到良好的平衡,并且難以解決挑戰(zhàn)實(shí)例的情況,提

5、出了一種基于期望最大化的啟發(fā)式聚類算法CEM。通過參照序列的設(shè)定,該算法將數(shù)據(jù)集劃分為不同的子集,并使用改進(jìn)的期望最大化算法來探索子集中最好的局部最優(yōu)解。CEM將精確方法與概率方法相結(jié)合,克服了傳統(tǒng)期望最大化算法陷入不同局部解的缺點(diǎn),可準(zhǔn)確尋找到植入位點(diǎn),對(duì)識(shí)別高退化性模體有較好的性能。模擬數(shù)據(jù)測(cè)試結(jié)果表明,CEM不但能準(zhǔn)確識(shí)別一般實(shí)例中的植入模體信號(hào),對(duì)于挑戰(zhàn)實(shí)例的植入模體信號(hào)識(shí)別也有較高準(zhǔn)確率。此外,真實(shí)數(shù)據(jù)實(shí)驗(yàn)證明該算法可有效應(yīng)用

6、于實(shí)際物種的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題。
  (3)針對(duì)全基因組范圍的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題,提出了一種用于ChIP-seq數(shù)據(jù)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別算法MMFChIP。該算法將精確方法和概率方法相結(jié)合,針對(duì)ChIP-seq的數(shù)據(jù)特點(diǎn),通過對(duì)正負(fù)兩個(gè)輸入集合的比較,選出發(fā)生頻率較高且相似的子序列生成位置頻率矩陣,并結(jié)合模體內(nèi)位置依賴性和高階馬爾可夫進(jìn)行統(tǒng)計(jì)建模,利用錯(cuò)誤發(fā)現(xiàn)率對(duì)預(yù)測(cè)實(shí)例進(jìn)行控制。在輸出時(shí),還利用一個(gè)后處理過程聚類相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論