生物信息學(xué)第三章_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章 生物信息學(xué)資源與數(shù)據(jù)挖掘工具,§3.1 引言近20年來,有關(guān)分子生物學(xué)的大規(guī)模合作研究項(xiàng)目(如人類基因組計(jì)劃)已在世界范圍內(nèi)開展起來。這些跨單位、跨地區(qū)甚至跨國的科研協(xié)作均需在保證實(shí)驗(yàn)數(shù)據(jù)可靠性和完整性的前提下,及時(shí)實(shí)現(xiàn)信息資源共享。各種分子生物學(xué)數(shù)據(jù)庫業(yè)已建立并仍在不斷發(fā)展之中,它們也已成為相關(guān)研究中的主要數(shù)據(jù)來源和數(shù)據(jù)交換手段?,F(xiàn)階段已建立的分子數(shù)據(jù)庫種類繁多,內(nèi)容廣泛。這些數(shù)據(jù)庫中收錄的信息大致包括:

2、,基因與基因組序列蛋白質(zhì)編碼序列質(zhì)譜與蛋白質(zhì)組資料大分子結(jié)構(gòu)大分子特殊活性及其他特性小分子及結(jié)晶分析等幾方面的數(shù)據(jù)以及參考文獻(xiàn)等還有不少專門管理分子數(shù)據(jù)庫的數(shù)據(jù)庫或索引網(wǎng)站(搜索引擎)。隨著網(wǎng)絡(luò)技術(shù)的普及,分子生物學(xué)信息系統(tǒng)大多數(shù)都實(shí)現(xiàn)了網(wǎng)絡(luò)化。,越來越多的生物學(xué)數(shù)據(jù)庫中的信息量呈爆炸性增長,生物學(xué)文獻(xiàn)是相關(guān)研究的產(chǎn)物,其增長趨勢也是十分驚人的。例如,用“protein”來檢索MEDLINE(通過PubMed的查詢界面)中

3、的文獻(xiàn)(摘要),其數(shù)量增長如圖,PubMed 檢索次數(shù)增長迅速,另一方面,文獻(xiàn)的內(nèi)容和熱點(diǎn)也在不斷變化之中,特別是在交叉學(xué)科領(lǐng)域發(fā)展得更快。例如,Andrade和Bork(2000)對(duì)涉及“genetics”和“disease”的學(xué)術(shù)刊物進(jìn)行了計(jì)量分析,這些均為OMIM(online mendelian inheritance in man, http : //www. ncbi. n1m. nih. gov/omim/)中高引用率的刊

4、物(引用數(shù)每年100篇以上)。,近年來,生物學(xué)資料的快速增長使信息科學(xué)有了用武之地,而復(fù)雜的分子生物信息又對(duì)傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了新的挑戰(zhàn)。基因的完整表達(dá)圖譜,這些基因涉及細(xì)胞周期、孢子形成和營養(yǎng)變化、對(duì)熱擊壓力和氧化壓力的應(yīng)答等,數(shù)據(jù)集則包含2500000個(gè)獨(dú)立的和相關(guān)的信息,當(dāng)然也含有不少的“噪聲”。,這些大規(guī)模、復(fù)雜數(shù)據(jù)的分析工作不可能由人工手算,也很難用傳統(tǒng)的圖像處理技術(shù)和生物統(tǒng)計(jì)方法來完成。因而,一批新的信息處理技術(shù)被引入

5、到這一領(lǐng)域并逐漸發(fā)揮重要作用。這些技術(shù)可統(tǒng)稱為“生物信息學(xué)的數(shù)據(jù)挖掘(data mining)工具”(在1999年底召開的“Data Mining in Bioinformatics”國際學(xué)術(shù)討論會(huì))目前,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(knowledge data discovery, KDD)工具除包括常規(guī)數(shù)據(jù)分析技術(shù)外,還有專家系統(tǒng)(expert system)、機(jī)器學(xué)習(xí)(machine learning)、神經(jīng)網(wǎng)絡(luò)(neural net

6、work)和遺傳算法(genetic algorithm)等。,§3.2 生物信息學(xué)資源,3.2.1基因組信息基因組信息主要來源于各類核苷酸序列數(shù)據(jù)庫。國際上最重要的公共核苷酸序列數(shù)據(jù)庫有3個(gè): GenBank(美國http: //www.ncbi.nlm.nih.gov/) DDBJ(日本http://www.ddbj.nig.ac.jp/)和 EMBL(歐洲http://w

7、ww. embl-heidelberg.de/)。目前,這3個(gè)數(shù)據(jù)庫已建立數(shù)據(jù)交換協(xié)議,每日同時(shí)更新核酸序列資料。對(duì)用戶而言,在任意一個(gè)數(shù)據(jù)庫中查詢數(shù)據(jù)(或向任意一個(gè)數(shù)據(jù)庫投送數(shù)據(jù))基本上是等價(jià)的。這里,我們以GenBank為例,介紹核苷酸序列數(shù)據(jù)庫,3.2.1.1 GenBank的建立與發(fā)展GenBank的全稱為“GenBank Genetic Sequence Data Bank”,由美國衛(wèi)生和人類服務(wù)部(U.S. Depar

8、tment of Health&Human Services)注冊(cè)。該項(xiàng)目在20世紀(jì)80年代初由美國Intelli Genetics(IG)公司和Los Alamos國家實(shí)驗(yàn)室( LANL)共同資助及組織實(shí)施。隨后得到美國國立衛(wèi)生研究院(NIH )、國家醫(yī)學(xué)實(shí)驗(yàn)室(NLM)、農(nóng)業(yè)部(USDA)、國家科學(xué)基金會(huì)(NFS)及能源部(DOE)等機(jī)構(gòu)的持續(xù)資助。目前,GenBank由美國國家生物技術(shù)信息中心(National Center

9、for Biotechnology Information,NCBI)管理運(yùn)行。NCBI-GenBank的主頁,用戶可以直接通過該頁面檢索GenBank數(shù)據(jù)庫。,建立GenBank的主要目標(biāo)是收集世界范圍內(nèi)已發(fā)表的和自行投送的核苷酸序列以及相關(guān)的文獻(xiàn)資料。其主要作用是為大規(guī)模的核苷酸序列數(shù)據(jù)建立檔案,以利于長期保存,為國際分子生物學(xué)及相關(guān)研究提供良好的技術(shù)與知識(shí)平臺(tái)。NCBI-GenBank大致經(jīng)歷了如下幾個(gè)階段:1988-1989年

10、:NCBI處于草創(chuàng)時(shí)期,隸屬于NIH的國家醫(yī)學(xué)圖書館。一批分子生物學(xué)家、數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家與技術(shù)人員開始合作建立新的數(shù)據(jù)模型,開發(fā)檢索工具,以適應(yīng)GenBank數(shù)據(jù)量的快速增長。1990年:開始應(yīng)用BLAST。BLAST是一種快速檢索相似性序列的工具。,1991年:開始應(yīng)用Entrez。Entrez是一個(gè)整合的數(shù)據(jù)查詢系統(tǒng)。1992年:GenBank正式移到NCBI;表達(dá)序列標(biāo)簽(expressed sequence tag, E

11、ST)技術(shù)開始應(yīng)用,NCBI-dbEST數(shù)據(jù)庫系統(tǒng)建立。1993年:開始應(yīng)用Internet和3-D Entrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系統(tǒng),以適應(yīng)形勢的發(fā)展。 1994年:NCBI-GenBank網(wǎng)頁建立。序列標(biāo)簽位點(diǎn)(sequence tagged site, STS是對(duì)由其特定引物序列所界定的一類標(biāo)記的統(tǒng)稱)和電子PCR (e-PCR)技術(shù)開始應(yīng)用(computational procedure that i

12、s used to identify sequence tagged sites(STSs), within DNA sequences. e-PCR looks for potential STSs in DNA sequences by searching for subsequences that closely match the PCR primers)。,1995年:開始應(yīng)用BankIt。BankIt是基于互聯(lián)網(wǎng)的DNA序列

13、投送軟件;開發(fā)整合序列和圖譜的基因組數(shù)據(jù)庫;開始應(yīng)用分類瀏覽器(taxonomy browser),將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年:開始應(yīng)用UniGene數(shù)據(jù)庫(該數(shù)據(jù)庫將GenBank中屬于同一條基因的所有片斷拼接成完整的基因進(jìn)行收錄)和GeneMap' 96系統(tǒng),整合STS圖譜、序列和UniGene簇?cái)?shù)據(jù),為基因組分析提供基礎(chǔ);開始應(yīng)用Sequin軟件,便于大規(guī)模、批量投送序列數(shù)據(jù)。,,1997年:

14、PubMed界面實(shí)現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫的結(jié)合;Entrez Structures數(shù)據(jù)庫、VAST(vector alignment search tool)算法和Cn3D結(jié)構(gòu)瀏覽器開始用于蛋白質(zhì)分析;Gapped BLAST和PSI-BLAST開始用于快速序列相似性檢索;COG(clusters of orthologous group)方法和系統(tǒng)開始用于基因組分析。1998年:建立HTGS(高通量基因組序列

15、)組,以適應(yīng)人類基因組計(jì)劃的進(jìn)程;開始應(yīng)用PHI-BLAST序列檢索工具;已經(jīng)貯存兩千億以上的堿基對(duì),其中超過一半來自人類基因組計(jì)劃。1999年:隨著人類基因組計(jì)劃接近完成,NCBI將重點(diǎn)轉(zhuǎn)移到人類基因組分析。新的應(yīng)用軟件和數(shù)據(jù)庫系統(tǒng)包括LocusLink, RefSeq和OMIM等。,3.2.1.2 GenBank數(shù)據(jù)庫下面介紹GenBank數(shù)據(jù)庫。GenBank是最早的DNA序列數(shù)據(jù)庫。目前GenBank數(shù)據(jù)庫中的數(shù)據(jù)按照每年約

16、60%的速率增長。截止到2005年GenBank數(shù)據(jù)庫中的核酸序列總長度達(dá)560億個(gè)堿基,核酸序列數(shù)超過5200萬條。對(duì)于每個(gè)序列,相關(guān)數(shù)據(jù)包括序列名稱、序列、位點(diǎn)、關(guān)鍵字、來源、生物種類、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點(diǎn)等。隨著分子生物學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)的增長速度將會(huì)不斷提高。,GenBank的數(shù)據(jù)來源主要有兩條途徑。一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國際權(quán)威生物學(xué)刊物都要求作者在文章發(fā)表之前將所測定的序列提交給E

17、MBL、GenBank或DDBJ,得到數(shù)據(jù)庫管理系統(tǒng)所簽發(fā)的登錄注冊(cè)號(hào)。二是從生物醫(yī)學(xué)期刊上收錄已經(jīng)發(fā)表的序列資料。 GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸堿基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。下面介紹序列文件結(jié)構(gòu)M90100,3.2.1.3 GenBank的分類學(xué)檢索分類學(xué)檢索是GenBank兩類檢索方式中的一種(另一種為序列相似性檢索),比較簡

18、單,尤其適用于相關(guān)學(xué)科(如分子生態(tài)學(xué)、分子系統(tǒng)學(xué))。例如,我們要查詢水生植物睡蓮科(Nymphaeaceae)的序列資料,可以在NCBI主頁的查詢框中直接鍵入“Nymphaeaceae”,檢索結(jié)果為所有序列的清單,包括GenBank收錄號(hào)(accession number)、物種拉丁學(xué)名(scientific name)和基因/序列名稱(name of gene or sequence)以及序列完整與否等信息。,例如,我們可以找到查詢流

19、水號(hào)為1的序列,GenBank收錄號(hào)為A627251,物種名稱為白睡蓮(Nymphaea alba),序列為葉綠體全基因組序列。選擇該條目,可以進(jìn)一步獲得該序列的詳細(xì)數(shù)據(jù),包括物種的系統(tǒng)位置、序列作者及地址、論文標(biāo)題/項(xiàng)目名稱、發(fā)表刊物/直接投送、以及序列(本例中序列長度為159930bp)。,3.2.1.4 向GenBank投送序列,GenBank序列投送工具包括Sequin, BankIt和VecScreen(如圖所示)。下面僅以S

20、equin為例,說明序列投送過程中應(yīng)注意的幾個(gè)問題。1. 序列格式常用FASTA格式,如: >eIF4E[organism=Drosophila melanogaster][strain=Oregon R] Drosophila… CGGTTGCTTGGG'I'I'I'I'ATAACATCAGTCAGTGACAGGCATTTCCAGAGTTGCCCTGT… 或

21、蛋白質(zhì)序列 >4E – I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPI'SAAAPAEAKDVKPKEDPQETGEPA… >4E – II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II]

22、 MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGNTATTTAPAG…用于系統(tǒng)發(fā)育研究等的序列,還可用PHYLIP, NEXUS、MACAW和FASTA+GAP、等格式,2.提交步驟采用Sequin的用戶界面。進(jìn)入“Start New Submission”,可逐項(xiàng)選擇或輸入作者信息(Submitting Authors)、格式表單(Sequence Format)、有機(jī)體名稱和序列

23、類型(Organism and Sequences)、基因和蛋白質(zhì)信息(Gene and Protein Information)等。輸入完畢,Sequin將按GenBank的格式顯示你所輸入的信息?!癉isplay Format”容許你選擇圖形或序列形式。在“Annotate”和“Edit”菜單及界面中注釋、更新和修改所投送的序列。欲了解Sequin的其他功能以及或有其他疑問,可參閱網(wǎng)頁上提供的“Sequin Quick Gui

24、de”。,3.2.2 蛋白質(zhì)信息蛋白質(zhì)序列和結(jié)構(gòu)分為三個(gè)層次,相應(yīng)的數(shù)據(jù)庫也可分為3大類,一級(jí),氨基酸序列,AVILDRYFH,一級(jí)數(shù)據(jù)庫,二級(jí),基序,[AS]-[IL]2-X[DE]-R-[FYW2-H,二級(jí)數(shù)據(jù)庫,三級(jí),結(jié)構(gòu)域,AVILDRYFH,a,b,c,結(jié)構(gòu)數(shù)據(jù)庫,,,,,,,,,,,圖3-14 蛋白質(zhì)信息的三個(gè)層次和相應(yīng)的數(shù)據(jù)庫,2.2.2.1蛋白質(zhì)一級(jí)數(shù)據(jù)庫 一級(jí)數(shù)據(jù)庫主要以下列幾個(gè)為代表:PIR(Prote

25、in Information Resource)( http://pir. georgetown. edu/)由于蛋白質(zhì)序列測定技術(shù)先于DNA序列測定技術(shù)問世,蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫的雛形可以追朔到60年代。60年代中期到80年代初,美國國家生物醫(yī)學(xué)研究基金會(huì)(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信

26、息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表,主要用來研究蛋白質(zhì)的進(jìn)化關(guān)系。1984年,“蛋白質(zhì)信息資源”(Protein Information Resource,簡稱PIR)計(jì)劃正式啟動(dòng),蛋白質(zhì)序列數(shù)據(jù)庫PIR也因此而誕生。與核酸序列數(shù)據(jù)庫的國際合作相呼應(yīng),1988年,美國的NBRF、日本的國際蛋白質(zhì)信息數(shù)據(jù)庫(Japanese Internationa

27、l Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)合作成立了國際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序列數(shù)據(jù)庫PIR。PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分四個(gè)不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的

28、序列已經(jīng)驗(yàn)證,注釋最為詳盡;PIR2中包含尚未確定的冗余序列;PIR3中的序列尚未加以檢驗(yàn),也未加注釋; 而PIR4中則包括了其它各種渠道獲得的序列,既未驗(yàn)證,也無注釋。例子,SwissProt另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫則是SwissProt。該數(shù)據(jù)庫由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和

29、管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,,簡稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫外,也是國際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心,SwissProt數(shù)據(jù)庫中的所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SIB和EBI共有70多人的研究隊(duì)伍,專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、

30、注釋、發(fā)布,力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫的每個(gè)條目都有詳細(xì)的注釋,包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫中還包括了與核酸序列數(shù)據(jù)庫EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB以及Prosite、PRINTTS等十多個(gè)二次數(shù)據(jù)庫的交叉引用代碼。特別值得一提的是,ExPAsy專門聘請(qǐng)了由200多位國際知名生物學(xué)家組成的網(wǎng)上專家評(píng)審團(tuán),并將SwissPro

31、t數(shù)據(jù)庫中的蛋白質(zhì)分成200多個(gè)類別,每個(gè)類別由1位或2位評(píng)審專家負(fù)責(zé),通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評(píng)審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評(píng)審蛋白質(zhì)種類。用戶若對(duì)某個(gè)蛋白質(zhì)條目有疑義,可以直接和相應(yīng)的評(píng)審專家取得聯(lián)系。,SwissProt采用了和EMBL核酸序列數(shù)據(jù)庫相同的格式和雙字母標(biāo)識(shí)字。這種雙字母的標(biāo)識(shí)字對(duì)于數(shù)據(jù)庫的管理維護(hù)比較方便,但用戶在使用時(shí)卻不很方便,特別對(duì)數(shù)據(jù)庫格式不很熟悉的用戶,尤為如此。近

32、年來,隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,ExPASy開發(fā)了面向生物學(xué)家的、基于瀏覽器的用戶界面,特別是用可視化方式表示氨基酸特征表,使用戶對(duì)序列特性一目了然,如二硫鍵、跨膜螺旋、二級(jí)結(jié)構(gòu)片段、活性位點(diǎn)等。截止1998年6月,SWISS-PROT數(shù)據(jù)庫包含約7萬條序列,這些序列涵蓋了5千多個(gè)不同種屬,其中大部分來自于幾種主要模式生物,如人、啤酒酵母、大腸桿菌、小鼠、大鼠等。SWISS-PROT數(shù)據(jù)庫的結(jié)構(gòu)與其它蛋白質(zhì)序列數(shù)據(jù)庫不同。給出S

33、WISS-PROT數(shù)據(jù)庫中一個(gè)序列條目的實(shí)例。圖中每一行由兩個(gè)字母起始,用來說明每一行所代表的信息。其中第一行以“ID”開始,最后一行以雙斜杠“//”結(jié)束。ID行表示該序列的名稱是OPSD_SHEEP,共有348個(gè)氨基酸殘基。SWISS-PROT數(shù)據(jù)庫的ID包含一定信息,如本例中“OPSD”表示蛋白質(zhì)名稱縮寫,而“SHEEP”表示該蛋白質(zhì)分子來自于哪個(gè)物種,中間用下劃線分隔。即這一蛋白序列是來源于綿羊的視紫紅質(zhì)(rhodopsin)。,

34、SWISS-PROT采用AC(accession number)作為表示某個(gè)特定序列的代碼,具有唯一性和永久性。在文獻(xiàn)中引用某個(gè)序列時(shí),應(yīng)以AC為準(zhǔn),而不是以序列名稱或ID為準(zhǔn)。本例中,代碼AC為P02700。下面的DT行提供了蛋白質(zhì)序列提交到數(shù)據(jù)庫的時(shí)間,及最近一次修改的時(shí)間等信息。描述行(DE)可以有一行或幾行,提供了對(duì)該蛋白質(zhì)的簡單說明。此例中,說明該蛋白質(zhì)為視紫紅質(zhì)。下面的幾行中提供了有關(guān)該蛋白質(zhì)的基因名(GN)、物種來源

35、(OS)和分類學(xué)位置(OC)等信息。接下來是與該蛋白質(zhì)相關(guān)的基本注釋信息,包括文獻(xiàn)信息、與測序有關(guān)的信息、以及對(duì)該蛋白質(zhì)序列分析得到的與結(jié)構(gòu)或突變相關(guān)的信息等。這些注釋為用戶提供了非常有價(jià)值的信息?;咀⑨屝畔⒑螅钦f明行(CC)。在CC行中按主題進(jìn)行區(qū)分,其中,F(xiàn)UNCTION說明該蛋白質(zhì)的功能,PTM說明翻譯后修飾,TISSUE SPECIFICITY說明組織專一性,SUBCELLULAR LOCATION說明亞細(xì)胞定位,SIM

36、ILARITY,說明了與該蛋白質(zhì)序列具有相似性或相關(guān)的某個(gè)蛋白質(zhì)家族,等等。本例中,由這些注釋信息可以知道視紫紅質(zhì)是一種存在于視桿細(xì)胞中的膜可視蛋白,屬于視蛋白家族和1型G蛋白偶聯(lián)受體(GPCR)超家族。在說明行后的是數(shù)據(jù)庫交叉引用(DR)行,提供了與其它生物信息數(shù)據(jù)庫之間的鏈接,包括一級(jí)序列數(shù)據(jù)庫、序列模塊數(shù)據(jù)庫、特殊數(shù)據(jù)庫等。本例中,該蛋白質(zhì)序列具有與另一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫PIR的鏈接、與GPCR專門數(shù)據(jù)庫的鏈接,以及與蛋白質(zhì)序列

37、模體數(shù)據(jù)庫PROSITE的鏈接和與蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫ProDom的鏈接。在DR行之后,是關(guān)鍵字行(KW)和特征表行(FT)。特征表包括對(duì)該序列特性的進(jìn)一步注釋,包括跨膜螺旋等超二級(jí)結(jié)構(gòu)單元、配體結(jié)合位點(diǎn)、翻譯后修飾位點(diǎn)等。特征表的每一行有一個(gè)關(guān)鍵字(如TRANSMEM)、特征序列的氨基酸殘基位置(如37-61),以及注釋信息的性質(zhì)(如POTENTIAL)等。本例中,視紫紅質(zhì)的跨膜區(qū)域是由計(jì)算機(jī)預(yù)測得到的,尚未得到實(shí)驗(yàn)證據(jù),因此僅用PO

38、TENTIAL表示。,最后一部分是蛋白質(zhì)序列,即SQ行。為減少存儲(chǔ)空間,氨基酸編碼以單字母表示,每行60個(gè)殘基。SWISS-PROT數(shù)據(jù)庫中的序列數(shù)據(jù)與蛋白質(zhì)前體對(duì)應(yīng),如果想要獲得成熟蛋白質(zhì)的序列,可以參考特征表所提供的信息,即根據(jù)特征表所提供的信號(hào)區(qū)(SIGNAL),轉(zhuǎn)運(yùn)區(qū)(TRANSIT)或前肽(PROPEP)等信息來推斷成熟蛋白質(zhì)或多肽序列。此外,CHAIN和PEPTIDE兩個(gè)關(guān)鍵字用來表示成熟蛋白質(zhì)的位置。TrEMBLNRL

39、-3DMIPS (http://www·mips. biochem. mpg·de/): 由德國慕尼黑蛋白質(zhì)序列信息中心建立,為PIR-International的成員之一。序列檢索采用FASTA,結(jié)果存于MIPS數(shù)據(jù)庫中。 在一級(jí)數(shù)據(jù)庫中,還有一類稱為復(fù)合型蛋白質(zhì)序列數(shù)據(jù)庫(composite protein sequence database)。這些數(shù)據(jù)庫的特點(diǎn)是綜合性強(qiáng)、更新快、冗余小,主要代

40、表有:,NRDB NRDB是由NCBI創(chuàng)建的,是NCBI的BLAST搜索程序的默認(rèn)蛋白質(zhì)序列數(shù)據(jù)庫。該數(shù)據(jù)庫由GenPept(由GenBank 編碼序列自動(dòng)翻譯而成數(shù)據(jù)庫)、PDB序列數(shù)據(jù)庫、SWISS-PROT數(shù)據(jù)庫、SPupdate(每周更新的SWISS-PROT數(shù)據(jù)庫)、PIR和GenPeptUpdate(每天更新的GenPept)數(shù)據(jù)庫復(fù)合而成。因此該數(shù)據(jù)庫是一個(gè)較完全的,包含最新信息的數(shù)據(jù)庫。該數(shù)據(jù)庫中已將那些與某一序列完全

41、相同的序列信息剔除, 因此不包含重復(fù)信息。但嚴(yán)格地說,盡管NRDB數(shù)據(jù)庫被稱作非冗余數(shù)據(jù)庫,其仍包含冗余信息。此外,由于該數(shù)據(jù)庫是通過簡單的比較方法生成的,因此會(huì)帶來一些問題,例如,一次數(shù)據(jù)庫中的錯(cuò)誤序列被引入該數(shù)據(jù)庫。,OWL OWL是一個(gè)非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,是由Leeds大學(xué)和Warrington的Daresbury實(shí)驗(yàn)室合作開發(fā)的(Bleasby等,1994)。OWL數(shù)據(jù)庫由四個(gè)主要的一級(jí)序列數(shù)據(jù)庫復(fù)合而成,即SWISS-

42、PROT、PIR、GenBank(由其編碼序列翻譯而成的氨基酸序列)和NRL-3D。在構(gòu)建OWL數(shù)據(jù)庫的過程中,考慮到每個(gè)數(shù)據(jù)庫所包含序列信息的情況,賦予它們不同的優(yōu)先級(jí),SWISS-PROT數(shù)據(jù)庫的優(yōu)先級(jí)最高。在對(duì)數(shù)據(jù)的處理上,不僅刪除與某一序列完全相同的序列條目,也剔除與某一序列相差個(gè)別氨基酸殘基的序列條目。因此,OWL數(shù)據(jù)庫是一個(gè)具有較小冗余度的蛋白質(zhì)序列數(shù)據(jù)庫。盡管如此,與NRDB相同,OWL數(shù)據(jù)庫也會(huì)有一些錯(cuò)誤,即在該數(shù)據(jù)庫

43、中仍然包括來自一次數(shù)據(jù)庫的錯(cuò)誤序列,例如由GenBank中錯(cuò)誤序列翻譯而得的錯(cuò)誤的氨基酸序列。此外,OWL數(shù)據(jù)庫更新較慢。英國的EMBnet國家節(jié)點(diǎn)上提供有針對(duì)于OWL的BLAST搜索服務(wù)。,MIPSX MIPSX是由德國Max-Planck研究所創(chuàng)建的復(fù)合數(shù)據(jù)庫(Mewes等,1998)。MIPSX由以下數(shù)據(jù)庫整合而成:PIR、MIPS一級(jí)序列數(shù)據(jù)庫(MIPSOwn)、MIPS/PIR一級(jí)序列數(shù)據(jù)庫(PIRMOD)、MIPS一級(jí)翻譯

44、序列數(shù)據(jù)庫(MIPSTrn)、MIPS酵母數(shù)據(jù)庫(MIPSH)、NRL-3D、SWISS-PROT、EMTrans(由EMBL翻譯得到的序列)、GBTrans(由GenBank翻譯得到的序列)、Kabat和PseqIP。,SWISS-PROT + TrEMBL EBI將SWISS-PROT和TrEMBL數(shù)據(jù)庫合并,構(gòu)成一個(gè)較全面的并且只有最低限度冗余的數(shù)據(jù)庫(Bairoch和Apweiler,1998)。用戶可以使用EBI網(wǎng)絡(luò)服務(wù)器上

45、的SRS序列檢索系統(tǒng)查詢SWISS-PROT和TrEMBL數(shù)據(jù)庫。與上面所提到的數(shù)據(jù)庫相比,該數(shù)據(jù)庫只有較少的錯(cuò)誤,但它還稱不上是真正的非冗余的數(shù)據(jù)庫。據(jù)1997年年中估計(jì),其中包含了SWISS-PROT 和 TrEMBL中的30%的重復(fù)序列。顯然,為了盡可能地減少錯(cuò)誤率和冗余度,需要進(jìn)行大量工作,包括開發(fā)專門的數(shù)據(jù)庫處理系統(tǒng)等。,3.2.2.2二級(jí)數(shù)據(jù)庫 二級(jí)數(shù)據(jù)庫是建立在一級(jí)數(shù)據(jù)庫基礎(chǔ)上的蛋白質(zhì)信息資源,也稱為蛋白質(zhì)模式數(shù)據(jù)

46、庫(protein pattern database),主要涉及蛋白質(zhì)基序、指紋等方面的信息。圖3-15示出了基序和指紋的基本概念以及建立二級(jí)數(shù)據(jù)庫的3類主要方法,即單基序法(single motif methods)、多基序法(multiple motif methods)和全域?qū)ξ慌帕蟹ǎ╢ulldomain alignment methods)。目前,主要的二級(jí)數(shù)據(jù)庫及其信息來源(一級(jí)數(shù)據(jù)庫)見表3-1??梢园l(fā)現(xiàn),SWISS-P

47、ROT是最基本的蛋白質(zhì)源數(shù)據(jù)庫。,表3-1若干二級(jí)數(shù)據(jù)庫的內(nèi)容與信息來源,*來自SWISS-PROT,1、構(gòu)建二次數(shù)據(jù)庫的方法和意義原則:通過多序列比對(duì),將同源序列收集在一起,以得到保守區(qū)域。這些保守區(qū)域或基序(motifs)通常具有一定生物學(xué)意義,反映了蛋白質(zhì)分子的一些重要結(jié)構(gòu)和功能。定義:進(jìn)行多序列比對(duì)時(shí),由于有多個(gè)親緣關(guān)系不等的序列包括在內(nèi),因此就需要插入一些空位(gap),使比對(duì)序列形成正確匹配。隨著空位的插入,一些具有保守

48、性的匹配區(qū)域形成,這些保守區(qū)域通常有10-20個(gè)氨基酸,并對(duì)應(yīng)著蛋白質(zhì)分子中重要的結(jié)構(gòu)或功能區(qū)域。這些區(qū)域的特性可用來對(duì)蛋白質(zhì)家族的成員進(jìn)行鑒別。這些區(qū)域通常稱為序列模體,或稱序列模塊、序列片段等。意義:序列模體數(shù)據(jù)庫可用于蛋白質(zhì)家族的識(shí)別。以一個(gè)未知的序列作為檢測序列,搜索上述序列模體數(shù)據(jù)庫,來確定該序列是否具有可能的特殊相似序列模式,由此推斷該序列是否屬于一個(gè)已知蛋白質(zhì)家族。如果一個(gè)蛋白質(zhì)家族的結(jié)構(gòu)和功能已知,搜索模體數(shù)據(jù)庫可以快

49、速推斷該檢測序列是否具有該家族的功能。在單一序列模體中,序列信息可以用一個(gè)包含確定和可選殘基的表達(dá)式表示,如C-Y-X2-[DG]-G-X-[ST],這種對(duì)序列模體的描述方式稱做正則表達(dá)式或序列模式。用于描述一組具有保守區(qū)域的序列模體叫序列指紋圖譜,這些序列模體中殘基出現(xiàn)的次數(shù)可以用頻率矩陣表示。由頻率矩陣和打分表可以生成權(quán)重矩陣,由此得到序列模塊(BLOCKS)。利用序列匹配信息和空位信息可以生成序列譜。來自匹配序列譜的概率模型稱做

50、隱馬氏模型(HMMs),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdgnt,,,C-Y-x2-[DG]-G-x-[ST]正則表達(dá)式,插入,,頻率矩陣,,加權(quán)矩陣,,,圖3-15 建立二級(jí)數(shù)據(jù)庫的原理與方法 (a),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdg

51、nt,,,XXXXXXXXXXXXXXX,,,,,,XXXXXXXXXXXXXXX,,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,,,鑒定矩陣(PRINT),,加權(quán)矩陣(BLOCKS),多基序法,圖3-15 建立二級(jí)數(shù)據(jù)庫的原理與方法 (b),)精確的正規(guī)表達(dá)(Prosite,,模糊的正規(guī)表達(dá)(IDENTIFY),全域?qū)ξ慌帕蟹?概形,,隱馬爾可夫模型(P

52、fam),單基序法,序列模體,,,序列指紋圖譜,2. 二次數(shù)據(jù)庫介紹PROSITE: PROSITE數(shù)據(jù)庫是第一個(gè)序列模體數(shù)據(jù)庫,由瑞士生物信息學(xué)研究所維護(hù)。開發(fā)PROTSITE數(shù)據(jù)庫的依據(jù)是:在蛋白質(zhì)家族中,通過多序列對(duì)比方法,可以由若干同源蛋白質(zhì)序列得到保守的序列模體區(qū)域,這些序列模體區(qū)域具有相同的特性,通常具有重要的生物學(xué)功能位點(diǎn),如酶的活性位點(diǎn)、配體或金屬的結(jié)合位點(diǎn)等。因此,PROSITE數(shù)據(jù)庫實(shí)際上是蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)

53、庫,通過搜索序列模體數(shù)據(jù)庫,可以幫助確定一個(gè)新蛋白質(zhì)序列屬于哪一個(gè)蛋白質(zhì)家族,或者該序列可能包含何種結(jié)構(gòu)域或功能位點(diǎn)。PROSITE數(shù)據(jù)庫用正則表達(dá)式(regular expression)表示序列模式,構(gòu)建PROSITE數(shù)據(jù)庫時(shí),采用了多序列比對(duì)和保守區(qū)域人工識(shí)別的方法。首先,通過多序列比對(duì)得到一定的候選序列模體,并把這些序列模體中的信息簡化為具有一定規(guī)則的表達(dá)式,即正則表達(dá)式。并以此為基礎(chǔ),對(duì)SWISS-PROT數(shù)據(jù)庫進(jìn)行搜索,得

54、到的結(jié)果再經(jīng)人工檢驗(yàn)以確定該序列模體匹配程度的優(yōu)劣。,有時(shí),某個(gè)單一的序列模體不能有效地用來確定一個(gè)蛋白質(zhì)家族的特性。在這種情況下,就要使用另外的模體來確定該家族所具有的保守特性。而要想對(duì)一個(gè)蛋白質(zhì)家族的特性進(jìn)行鑒別,就要盡可能地找到該家族所包含的一系列序列模體。(1)PROSITE數(shù)據(jù)庫結(jié)構(gòu)PROSITE數(shù)據(jù)庫實(shí)際上包括兩個(gè)子庫,一個(gè)存放正則表達(dá)式數(shù)據(jù),即PROSITE,另一個(gè)存放文獻(xiàn)摘要等文字說明,即PROSITE-DOC。PR

55、OSITE子庫的格式與SWISS-PROT數(shù)據(jù)庫格式類似,使用“ ID” , “AC”等雙字母識(shí)別字;而PROSITEDOC則以文本文件格式提供了對(duì)蛋白質(zhì)家族特性的描述,并且給出了序列模體所具有的生物學(xué)作用及其相關(guān)的參考書目。,上面提到,PROSITE數(shù)據(jù)庫的結(jié)構(gòu)與SWISS-PROT一樣,每一個(gè)條目都包含了標(biāo)識(shí)符ID和編號(hào)AC,其中ID是該蛋白質(zhì)家族名稱的縮寫,而編號(hào)則以字符和數(shù)字表示,如PS00238。 DE行是對(duì)蛋白質(zhì)家族的簡單描

56、述,PA行是該數(shù)據(jù)條目的核心,列出該蛋白質(zhì)家族的正則表達(dá)式,即序列模式(pattern)。隨后的NR行則給出構(gòu)建該序列模式所用的SWISS-PROT數(shù)據(jù)庫的版本以及技術(shù)細(xì)節(jié),包括具有這種序列模體的蛋白質(zhì)數(shù)目,以及陽性、假陽性、假陰性等參數(shù)。了解這些信息,對(duì)正確使用PROSITE數(shù)據(jù)庫十分重要。若某個(gè)條目具有大量假陽性和假陰性,則表明該序列模式欠佳。圖3.3所示例子中NR行提供的信息知道,這個(gè)模式來自于第46版SWISS-PROT數(shù)據(jù)庫,

57、包含164201個(gè)蛋白序列,有192個(gè)序列與該模式匹配,其中191個(gè)為陽性的,是一個(gè)較好的模式。例子1例子2注釋行(CC)提供了該蛋白質(zhì)家族的分類學(xué)信息,本例中為“真核生物”;給出這一模式在蛋白質(zhì)中出現(xiàn)的次數(shù),本例為2;同時(shí)給出功能位點(diǎn)的簡單說明,例如本例中結(jié)合位點(diǎn)的第5個(gè)殘基。DR行是與SWISS-PROT交叉的鏈接,列出具有該序列,模式的SWISS-PROT標(biāo)識(shí)符ID,其中T表示陽性匹配。P表示部分匹配。若有假陽性或假陰性匹配,則

58、分別用F和N表示,與NR行中給出的信息相對(duì)應(yīng)。3D行則是與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫PDB的交叉鏈接。最后的DO行是與相應(yīng)的PROSITEDOC的鏈接。PROSITEDOC數(shù)據(jù)庫的結(jié)構(gòu)比較簡單,每一條目除采用PDOC后跟數(shù)字,如PDOC00211格式標(biāo)識(shí)外,也列出相應(yīng)的PROSITE數(shù)據(jù)庫ID號(hào),以便交叉引用。其余部分則是對(duì)該蛋白質(zhì)家族的描述,包括序列模式的說明,它們的生物學(xué)意義,并列出參考文獻(xiàn)的出處(圖3.4)。許多數(shù)據(jù)庫查詢系統(tǒng)SRS

59、提供了對(duì)PROSITE數(shù)據(jù)庫的檢索,而瑞士蛋白質(zhì)分析專家系統(tǒng)ExPASy則以表格方式列出查詢結(jié)果。,PRINTSPROSITE數(shù)據(jù)庫的構(gòu)建基于單個(gè)序列模體,而分析序列比對(duì)結(jié)果可以發(fā)現(xiàn),許多蛋白質(zhì)家族的特性是由幾個(gè)保守的序列模體共同確定。利用蛋白質(zhì)分子中所有序列模體鑒別該蛋白質(zhì)家族的特性,則是構(gòu)建PRINTS序列指紋(fingerprint)圖譜數(shù)據(jù)庫的基本出發(fā)點(diǎn)。PRINTS數(shù)據(jù)庫起初由英國倫敦大學(xué)University College

60、 (UCL)的生物化學(xué)和分子生物學(xué)系開發(fā),現(xiàn)在轉(zhuǎn)由曼徹斯特(Manchester)大學(xué)維護(hù)。顯然,利用多個(gè)序列模式共同識(shí)別蛋白質(zhì)家族的特性,比只用單個(gè)序列模式具有更好的識(shí)別率。例如,某個(gè)蛋白質(zhì)序列不能與指紋圖譜中所有序列模體匹配,但卻能與其中的大部分序列模體匹配,則有可能為我們提供一些信息,對(duì)該蛋白質(zhì)分子的特性作出可能的推測。PRINTS數(shù)據(jù)庫列出局部多序列比對(duì)所得結(jié)果,比對(duì)時(shí)不允許有空位的插入,也不考慮不同殘基的權(quán)重。因此,PRIN

61、TS序列指紋圖譜數(shù)據(jù)庫的構(gòu)建方法與PROSITE數(shù)據(jù)庫采用的正則表達(dá)式方法不同。在構(gòu)建序列指紋圖譜過程中,通過多序列比對(duì)得到一組序列模體種子,并對(duì)這些種子進(jìn)行,分析和篩選。然后通過反復(fù)的數(shù)據(jù)庫搜索,找出那些保守的序列模體。最后檢驗(yàn)?zāi)囊粋€(gè)序列與序列指紋圖譜中的所有序列模體匹配,如果存在比最初對(duì)比結(jié)果多得多的匹配,那么這些新增的序列信息就要被添加到序列模體中;然后重新開始搜索數(shù)據(jù)庫,反復(fù)進(jìn)行上述迭代過程,直到?jīng)]有新的序列指紋圖譜產(chǎn)生。最后,

62、結(jié)果被納入到PRINTS數(shù)據(jù)庫中。PRINTS數(shù)據(jù)庫的構(gòu)建,最初基于非冗余蛋白質(zhì)序列數(shù)據(jù)庫OWL,后來則以SWISS-PROT和SP-TrEMBL為主。圖3.5所示是PRINTS數(shù)據(jù)庫中一個(gè)條目,主要包括三方面信息。最上面的部分[圖3.5(a)]給出該序列指紋圖譜的代碼和名稱,通常用該蛋白質(zhì)家族名稱縮寫作代碼,如本例中的OPSIN。PRINTS數(shù)據(jù)庫中的條目有一個(gè)惟一的編號(hào),以PR后跟數(shù)字(如PR00237)的格式表示。此外,給出條目

63、中序列模體個(gè)數(shù),本例中是3。日期行中給出該條目收入數(shù)據(jù)庫和最近更新的時(shí)間。此外,還給出了與其他生物學(xué)數(shù)據(jù)庫的交叉引用,可以使用戶對(duì)該蛋白質(zhì)家族的其他信息有所了解。最后提供相關(guān)參考書目和對(duì)該家族特性的簡要介紹,以及如何構(gòu)建指紋圖譜的方法等。有些條目還提供對(duì)這些保守的序列模體的結(jié)構(gòu)和功能的描述。,第二部分[圖3.5(b)]給出組成該序列指紋圖譜的序列模體的參數(shù),包括用來構(gòu)建該指紋圖譜的序列數(shù)、每個(gè)序列模體的匹配情況等。本例中有73個(gè)序列與指

64、紋圖譜中所有序列模體匹配,有一個(gè)序列與兩個(gè)序列模體匹配。并用表格方式列出有關(guān)信息。本例所列信息表明一個(gè)序列與序列模體1不完全匹配。最后一部分[圖3.5(c)]給出用于生成序列指紋圖譜的種子序列模體,以及通過數(shù)據(jù)庫搜索生成的最終序列模體(為節(jié)省篇幅,圖中沒列出)。每一個(gè)序列模體都用該指紋圖譜條目的代碼標(biāo)識(shí),后跟一個(gè)數(shù)字,表示該序列模體屬于該指紋圖譜的第幾個(gè)。本例中OPSIN指紋圖譜的三個(gè)序列模體分別被命名為OPSIN1,OPSIN2和O

65、PSIN3。同時(shí)給出每個(gè)序列模體的長度和簡單說明,如迭代次數(shù)。作為種子的初始序列模體,迭代數(shù)為1。該部分還列出每個(gè)序列模體和組成該序列模體的序列片段在蛋白質(zhì)序列數(shù)據(jù)庫中的識(shí)別號(hào)ID,本例所示為最初進(jìn)行比對(duì)時(shí)SWISS-PROT數(shù)據(jù)庫中序列條目的識(shí)別號(hào)。同時(shí)列出它們?cè)谠夹蛄兄械臍埢恢?,以及該序列片段與前一個(gè)指紋圖譜間的距離,即序列模體中相隔的氨基酸殘基數(shù)。對(duì)第一個(gè)序列模體來說,該距離值就是該序列模體與N一末端的距離。,與PROSITE

66、不同,PRINTS數(shù)據(jù)庫存放了原始的序列信息。這就意味著可以采用許多不同的打分方法來獲得序列模體,并可以給這些序列模體賦予不同的打分分?jǐn)?shù)值。因此,PRINTS數(shù)據(jù)庫可以用來進(jìn)一步構(gòu)建三次數(shù)據(jù)庫(tertiary database)。PRINTS數(shù)據(jù)庫可以通過DbBrowser生物信息學(xué)網(wǎng)絡(luò)服務(wù)器來查詢,1999年,該數(shù)據(jù)庫從倫敦大學(xué)轉(zhuǎn)到曼徹斯特大學(xué),由曼徹斯特大學(xué)生物信息學(xué)教學(xué)研究小組維護(hù)。PROSITE和PRINTS不僅提供了序列

67、模式信息,而且提供了蛋白質(zhì)家族特性以及有關(guān)結(jié)構(gòu)功能等文獻(xiàn)信息。這些信息對(duì)生物學(xué)家來說非常重要,因?yàn)樗麄儾粌H想找出未知序列是否與已知序列模體匹配,而且需要了解由這些序列模體構(gòu)成的蛋白質(zhì)家族的生物學(xué)意義。而下面幾種序列模塊數(shù)據(jù)庫均由計(jì)算機(jī)程序自動(dòng)生成,因此,很少或沒有提供對(duì)蛋白質(zhì)家族的說明,其中一些則引用了PRINTS和PROSITE數(shù)據(jù)庫的信息。,BLOCKS鑒于利用正則表達(dá)式對(duì)序列模體進(jìn)行識(shí)別存在著一定局限性,有必要采用其他方法提高識(shí)

68、別率,構(gòu)建其他序列模體數(shù)據(jù)庫。BLOCKS數(shù)據(jù)庫就是其中的一個(gè)。它是以PROSITE數(shù)據(jù)庫中蛋白質(zhì)家族為基礎(chǔ)創(chuàng)建的,由美國西雅圖Fred Hutchinson癌癥研究中心(FHCRC)的Henikoff夫婦建立和維護(hù)。該數(shù)據(jù)庫中序列模塊(block)是通過自動(dòng)檢測每個(gè)蛋白質(zhì)家族中高度保守區(qū)域而產(chǎn)生。構(gòu)建該數(shù)據(jù)庫的初始階段,首先找出三個(gè)保守的氨基酸殘基,它們不一定連續(xù)。并以此為基礎(chǔ)對(duì)SWISS-PROT數(shù)據(jù)庫進(jìn)行搜索,找出相似性序列片段,

69、用來構(gòu)建一組無空位的局部多序列比對(duì)模塊,并用兩個(gè)分值作為每個(gè)模塊中各序列片段間相似性程度的指標(biāo)。其中第一個(gè)分值為真陰性占99.5%時(shí)對(duì)應(yīng)的閾值,第二個(gè)是真陽性匹配分值的中值。為比較不同序列模塊的識(shí)別率,將第二個(gè)分值乘以1000再除以第一個(gè)分值,進(jìn)行歸一化處理。這個(gè)歸一化的分值定義稱為強(qiáng)度(strength)。(1)BLOCKS數(shù)據(jù)庫結(jié)構(gòu)圖3.6列出一個(gè)典型的BLOCKS數(shù)據(jù)庫序列模塊條目。該數(shù)據(jù)庫結(jié)構(gòu)與PROSITE數(shù)據(jù)庫一致,即每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論