基于保守結(jié)構(gòu)域比對(duì)在22周人胎肝EST庫中發(fā)現(xiàn)新轉(zhuǎn)錄因子.pdf_第1頁
已閱讀1頁,還剩81頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究目的:肝臟是人體代謝的主要器官,具有分泌膽汁、解毒以及吞噬、防御等重要的生理功能。此外,在4-6月孕齡時(shí),人胎肝還是造血、免疫、肝臟系統(tǒng)干祖細(xì)胞及其基質(zhì)細(xì)胞的來源,其中的造血干細(xì)胞可向各系成熟的血細(xì)胞發(fā)育分化。 復(fù)雜的生命現(xiàn)象在很大程度上是由大量受嚴(yán)格調(diào)控的基因的表達(dá)所決定的。真核細(xì)胞基因表達(dá)調(diào)控的關(guān)鍵步驟是轉(zhuǎn)錄調(diào)控,其機(jī)制十分復(fù)雜,涉及大量的轉(zhuǎn)錄因子和核內(nèi)調(diào)控基因。據(jù)估計(jì)在人類的基因中含有2000-3000種轉(zhuǎn)錄因子(tr

2、anscription factor,TF),而22周的人胎肝(Human Fetal nver aged 22 Weeks,HFL22W)cDNA文庫中已知的轉(zhuǎn)錄因子與轉(zhuǎn)錄調(diào)控因子僅95種<'[1]>,因此胎肝中很可能存在一些尚未發(fā)現(xiàn)的、在生理過程及重要疾病(如腫瘤)的發(fā)生、發(fā)展中扮演重要角色的轉(zhuǎn)錄因子。 近年來,基因組和蛋白質(zhì)組以及生物信息學(xué)的發(fā)展,使高通量地對(duì)轉(zhuǎn)錄因子進(jìn)行篩選、鑒定和功能研究成為可能。這方面的實(shí)驗(yàn)和技術(shù)均以

3、轉(zhuǎn)錄因子的結(jié)構(gòu)特征和作用特點(diǎn)為基礎(chǔ),對(duì)具有特定功能或特定結(jié)構(gòu)域的轉(zhuǎn)錄因子進(jìn)行篩選。本文基于對(duì)轉(zhuǎn)錄因子各家族同源序列及結(jié)構(gòu)域的分析研究,對(duì)HFL22W EST數(shù)據(jù)庫中含有轉(zhuǎn)錄因子保守結(jié)構(gòu)域的序列進(jìn)行總結(jié)歸納和分類,以期能規(guī)?;睾Y選出未知轉(zhuǎn)錄因子。 首先,我們下載TRANSFAC 6.0轉(zhuǎn)錄因子數(shù)據(jù)庫中4218個(gè)轉(zhuǎn)錄因子文件,從中提取轉(zhuǎn)錄因子序列并格式化為FASTA格式數(shù)據(jù)庫一提取轉(zhuǎn)錄因子中各特征性的、保守的結(jié)構(gòu)域的蛋白質(zhì)序列,格

4、式化并送入FASTA格式數(shù)據(jù)庫。TRANSFAC由德國(guó)國(guó)家生物工程研究中心建立并管理,是關(guān)于轉(zhuǎn)錄因子及其在基因組上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles數(shù)據(jù)庫<'[2]>,由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。 本實(shí)驗(yàn)室采用cDNA大規(guī)模測(cè)序策略對(duì)22周齡人胎肝cDNA文庫進(jìn)行大規(guī)模測(cè)序,獲得了20282條EST。經(jīng)過電子延伸、拼接、分類得到2

5、125個(gè)已知基因和2800個(gè)未知基因。我們以ATGpr程序分析這些未知基因序列的ORF并翻譯成蛋白質(zhì)序列。本文采取的策略是用ATGpr預(yù)測(cè)未知基因序列,選其結(jié)果中具有最大可信度(Reliabilitv)或有最大的長(zhǎng)度的兩條ORF,并滿足Reliabilitv>0.12<'[3]>,length>70,有終止密碼子。 我們使用兩種不同的篩選方法:(一)對(duì)轉(zhuǎn)錄因子中各特征性的保守結(jié)構(gòu)域構(gòu)建這些模體的正則表達(dá)式?;谶@些共有模體的正則

6、表達(dá)式對(duì)HFL22W cDNA翻譯蛋白質(zhì)序列庫規(guī)?;乇葘?duì)查找,篩選出含有某類轉(zhuǎn)錄因子特征性結(jié)構(gòu)域的cDNA翻譯蛋白質(zhì)序列作為候選序列。(二)采用MEME軟件分析各類轉(zhuǎn)錄因子的保守結(jié)構(gòu),并根據(jù)分析結(jié)果在HFL22W cDNA翻譯蛋白質(zhì)序列庫中尋找候選序列。 進(jìn)一步分析候選序列,與其它轉(zhuǎn)錄因子結(jié)構(gòu)域進(jìn)行比對(duì)及其它生物信息學(xué)分析,確定其是否可能是一個(gè)新的未知轉(zhuǎn)錄因子。 結(jié)果:按類別對(duì)轉(zhuǎn)錄因子作分析和發(fā)掘,對(duì)找到的轉(zhuǎn)錄因子候選

7、序列作了進(jìn)一步的生物信息學(xué)分析,從類型、數(shù)目、位置、結(jié)構(gòu)、功能等方面對(duì)序列中預(yù)測(cè)的結(jié)構(gòu)域作了綜合分析。 (一)數(shù)據(jù)和數(shù)據(jù)處理 編寫Perl程序從TRANSFAC轉(zhuǎn)錄因子文件中提取所需要的信息,構(gòu)建了全部轉(zhuǎn)錄因子序列和結(jié)構(gòu)域序列的數(shù)據(jù)庫文件。 我們對(duì)2800個(gè)未知基因的序列進(jìn)行了ORF分析和蛋白質(zhì)預(yù)測(cè),并以所預(yù)測(cè)的蛋白質(zhì)序列作為篩選轉(zhuǎn)錄因子的候選序列。編寫了perl程序從ATGpr的輸出結(jié)果中提取了1503條ORF

8、翻譯蛋白序列作為預(yù)測(cè)轉(zhuǎn)錄因子的候選序列集合,其中1010條同時(shí)有最長(zhǎng)ORF長(zhǎng)度和最大可信度,271條有最長(zhǎng)ORF長(zhǎng)度,222條有最大可信度。與轉(zhuǎn)錄因子序列類似,我們構(gòu)建了這些蛋白質(zhì)序列的數(shù)據(jù)庫文件,以FASTA格式文件存儲(chǔ)。 (二)C0002類轉(zhuǎn)錄因子的分析與發(fā)掘 TRANSFAC的C0002類轉(zhuǎn)錄因子是Cys4 zinc finger of nuclear receptor type轉(zhuǎn)錄因子,即具有Cys4型鋅指結(jié)構(gòu)的

9、細(xì)胞核受體型蛋白。這一類轉(zhuǎn)錄因子的共同特征是具有兩個(gè)不同大小、組成和功能的鋅指結(jié)構(gòu)。 我們采用了兩種方法查找C0002類的轉(zhuǎn)錄因子: 1.以鋅指結(jié)構(gòu)域正則表達(dá)式比對(duì)數(shù)據(jù)庫 構(gòu)建鋅指結(jié)構(gòu)域正則表達(dá)式,用程序regexp_FL22W對(duì)上述正則表達(dá)式查找HFL22W蛋白序列庫。結(jié)果匹配到2條蛋白序列(C4992、F0418),并確定了鋅指結(jié)構(gòu)的位置。 2.MEME軟件分析 MEME程序是一套模體分析工具

10、,是基序啟發(fā)的多EM(Multiple EM for MotifElicitation)的縮寫,EM指期望值最大化(Expectation Maximization),是統(tǒng)計(jì)學(xué)中預(yù)測(cè)丟失值或未觀察到的值的方法。MEME的結(jié)果與第一種方法的結(jié)果一致,找到同樣的序列和鋅指結(jié)構(gòu)。 用BLAST比對(duì)其它轉(zhuǎn)錄因子結(jié)構(gòu)域分析了兩條序列。用prosite對(duì)兩條序列作進(jìn)一步生物信息學(xué)分析。 (三)C0001類轉(zhuǎn)錄因子的分析與發(fā)掘

11、 TFⅢA/Krueppel類型轉(zhuǎn)錄因子含Cys2His2型鋅指結(jié)構(gòu)。每個(gè)鋅指結(jié)構(gòu)包含2個(gè)半胱氨酸和2個(gè)組氨酸殘基配位一個(gè)鋅離子,有時(shí)其中一個(gè)組氨酸可以被一個(gè)半胱氨酸取代<'[4]>。鋅離子對(duì)與DNA結(jié)合起重要作用。 同樣以鋅指結(jié)構(gòu)域正則表達(dá)式比對(duì)數(shù)據(jù)庫和以MEME軟件兩種方法分析發(fā)掘轉(zhuǎn)錄因子。 1.用程序regexp_FL22W以正則表達(dá)式查找HFL22W蛋白質(zhì)序列庫,找到17條蛋白質(zhì)序列。這17條序列與其它轉(zhuǎn)錄因子結(jié)

12、構(gòu)域作BLAST比對(duì),有6條序列匹配到與轉(zhuǎn)錄激活或其它功能相關(guān)的轉(zhuǎn)錄因子結(jié)構(gòu)域。 2.以MEME軟件分析 結(jié)果找到16條序列,與第一種方法找到的重復(fù)。 對(duì)6條序列進(jìn)行了SMART結(jié)構(gòu)分析和二級(jí)結(jié)構(gòu)預(yù)測(cè),結(jié)果顯示了與轉(zhuǎn)錄因子及其結(jié)構(gòu)域相關(guān)的提示。 結(jié)論:基于已有的EST數(shù)據(jù)庫和轉(zhuǎn)錄本數(shù)據(jù)庫,使用生物信息學(xué)的分析方法,通過對(duì)轉(zhuǎn)錄因子特有序列的同源性搜索篩選新的轉(zhuǎn)錄因子,具有快速、全面、規(guī)?;葍?yōu)勢(shì),可以為轉(zhuǎn)錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論