生物信息學(xué)第三章

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-08-02 格式：ppt 頁數(shù)：156 大?。?7.83MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩155頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章生物信息學(xué)資源與數(shù)據(jù)挖掘工具,§3.1 引言近20年來，有關(guān)分子生物學(xué)的大規(guī)模合作研究項(xiàng)目（如人類基因組計(jì)劃）已在世界范圍內(nèi)開展起來。這些跨單位、跨地區(qū)甚至跨國的科研協(xié)作均需在保證實(shí)驗(yàn)數(shù)據(jù)可靠性和完整性的前提下，及時(shí)實(shí)現(xiàn)信息資源共享。各種分子生物學(xué)數(shù)據(jù)庫業(yè)已建立并仍在不斷發(fā)展之中，它們也已成為相關(guān)研究中的主要數(shù)據(jù)來源和數(shù)據(jù)交換手段。現(xiàn)階段已建立的分子數(shù)據(jù)庫種類繁多，內(nèi)容廣泛。這些數(shù)據(jù)庫中收錄的信息大致包括：

2、,基因與基因組序列蛋白質(zhì)編碼序列質(zhì)譜與蛋白質(zhì)組資料大分子結(jié)構(gòu)大分子特殊活性及其他特性小分子及結(jié)晶分析等幾方面的數(shù)據(jù)以及參考文獻(xiàn)等還有不少專門管理分子數(shù)據(jù)庫的數(shù)據(jù)庫或索引網(wǎng)站（搜索引擎）。隨著網(wǎng)絡(luò)技術(shù)的普及，分子生物學(xué)信息系統(tǒng)大多數(shù)都實(shí)現(xiàn)了網(wǎng)絡(luò)化。,越來越多的生物學(xué)數(shù)據(jù)庫中的信息量呈爆炸性增長,生物學(xué)文獻(xiàn)是相關(guān)研究的產(chǎn)物，其增長趨勢也是十分驚人的。例如，用“protein”來檢索MEDLINE(通過PubMed的查詢界面)中

3、的文獻(xiàn)（摘要），其數(shù)量增長如圖,PubMed 檢索次數(shù)增長迅速,另一方面，文獻(xiàn)的內(nèi)容和熱點(diǎn)也在不斷變化之中，特別是在交叉學(xué)科領(lǐng)域發(fā)展得更快。例如，Andrade和Bork（2000）對(duì)涉及“genetics”和“disease”的學(xué)術(shù)刊物進(jìn)行了計(jì)量分析，這些均為OMIM(online mendelian inheritance in man, http : //www. ncbi. n1m. nih. gov/omim/）中高引用率的刊

4、物（引用數(shù)每年100篇以上）。,近年來，生物學(xué)資料的快速增長使信息科學(xué)有了用武之地，而復(fù)雜的分子生物信息又對(duì)傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了新的挑戰(zhàn)?；虻耐暾磉_(dá)圖譜，這些基因涉及細(xì)胞周期、孢子形成和營養(yǎng)變化、對(duì)熱擊壓力和氧化壓力的應(yīng)答等，數(shù)據(jù)集則包含2500000個(gè)獨(dú)立的和相關(guān)的信息，當(dāng)然也含有不少的“噪聲”。,這些大規(guī)模、復(fù)雜數(shù)據(jù)的分析工作不可能由人工手算，也很難用傳統(tǒng)的圖像處理技術(shù)和生物統(tǒng)計(jì)方法來完成。因而，一批新的信息處理技術(shù)被引入

5、到這一領(lǐng)域并逐漸發(fā)揮重要作用。這些技術(shù)可統(tǒng)稱為“生物信息學(xué)的數(shù)據(jù)挖掘(data mining)工具”(在1999年底召開的“Data Mining in Bioinformatics”國際學(xué)術(shù)討論會(huì))目前，數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(knowledge data discovery, KDD)工具除包括常規(guī)數(shù)據(jù)分析技術(shù)外，還有專家系統(tǒng)(expert system)、機(jī)器學(xué)習(xí)(machine learning)、神經(jīng)網(wǎng)絡(luò)(neural net

6、work)和遺傳算法(genetic algorithm)等。,§3.2 生物信息學(xué)資源,3.2.1基因組信息基因組信息主要來源于各類核苷酸序列數(shù)據(jù)庫。國際上最重要的公共核苷酸序列數(shù)據(jù)庫有3個(gè)： GenBank(美國http: //www.ncbi.nlm.nih.gov/) DDBJ(日本http://www.ddbj.nig.ac.jp/)和 EMBL(歐洲http://w

7、ww. embl-heidelberg.de/)。目前，這3個(gè)數(shù)據(jù)庫已建立數(shù)據(jù)交換協(xié)議，每日同時(shí)更新核酸序列資料。對(duì)用戶而言，在任意一個(gè)數(shù)據(jù)庫中查詢數(shù)據(jù)（或向任意一個(gè)數(shù)據(jù)庫投送數(shù)據(jù)）基本上是等價(jià)的。這里，我們以GenBank為例，介紹核苷酸序列數(shù)據(jù)庫,3.2.1.1 GenBank的建立與發(fā)展GenBank的全稱為“GenBank Genetic Sequence Data Bank”，由美國衛(wèi)生和人類服務(wù)部(U.S. Depar

8、tment of Health＆Human Services)注冊(cè)。該項(xiàng)目在20世紀(jì)80年代初由美國Intelli Genetics(IG)公司和Los Alamos國家實(shí)驗(yàn)室( LANL)共同資助及組織實(shí)施。隨后得到美國國立衛(wèi)生研究院(NIH )、國家醫(yī)學(xué)實(shí)驗(yàn)室(NLM)、農(nóng)業(yè)部(USDA)、國家科學(xué)基金會(huì)(NFS)及能源部(DOE)等機(jī)構(gòu)的持續(xù)資助。目前，GenBank由美國國家生物技術(shù)信息中心(National Center

9、for Biotechnology Information，NCBI)管理運(yùn)行。NCBI-GenBank的主頁，用戶可以直接通過該頁面檢索GenBank數(shù)據(jù)庫。,建立GenBank的主要目標(biāo)是收集世界范圍內(nèi)已發(fā)表的和自行投送的核苷酸序列以及相關(guān)的文獻(xiàn)資料。其主要作用是為大規(guī)模的核苷酸序列數(shù)據(jù)建立檔案，以利于長期保存，為國際分子生物學(xué)及相關(guān)研究提供良好的技術(shù)與知識(shí)平臺(tái)。NCBI-GenBank大致經(jīng)歷了如下幾個(gè)階段：1988-1989年

10、：NCBI處于草創(chuàng)時(shí)期，隸屬于NIH的國家醫(yī)學(xué)圖書館。一批分子生物學(xué)家、數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家與技術(shù)人員開始合作建立新的數(shù)據(jù)模型，開發(fā)檢索工具，以適應(yīng)GenBank數(shù)據(jù)量的快速增長。1990年：開始應(yīng)用BLAST。BLAST是一種快速檢索相似性序列的工具。,1991年：開始應(yīng)用Entrez。Entrez是一個(gè)整合的數(shù)據(jù)查詢系統(tǒng)。1992年：GenBank正式移到NCBI;表達(dá)序列標(biāo)簽(expressed sequence tag, E

11、ST)技術(shù)開始應(yīng)用，NCBI-dbEST數(shù)據(jù)庫系統(tǒng)建立。1993年：開始應(yīng)用Internet和3-D Entrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系統(tǒng)，以適應(yīng)形勢的發(fā)展。 1994年：NCBI-GenBank網(wǎng)頁建立。序列標(biāo)簽位點(diǎn)(sequence tagged site, STS是對(duì)由其特定引物序列所界定的一類標(biāo)記的統(tǒng)稱)和電子PCR (e-PCR)技術(shù)開始應(yīng)用(computational procedure that i

12、s used to identify sequence tagged sites(STSs), within DNA sequences. e-PCR looks for potential STSs in DNA sequences by searching for subsequences that closely match the PCR primers)。,1995年：開始應(yīng)用BankIt。BankIt是基于互聯(lián)網(wǎng)的DNA序列

13、投送軟件；開發(fā)整合序列和圖譜的基因組數(shù)據(jù)庫；開始應(yīng)用分類瀏覽器（taxonomy browser），將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年：開始應(yīng)用UniGene數(shù)據(jù)庫(該數(shù)據(jù)庫將GenBank中屬于同一條基因的所有片斷拼接成完整的基因進(jìn)行收錄)和GeneMap' 96系統(tǒng)，整合STS圖譜、序列和UniGene簇?cái)?shù)據(jù)，為基因組分析提供基礎(chǔ)；開始應(yīng)用Sequin軟件，便于大規(guī)模、批量投送序列數(shù)據(jù)。,,1997年：

14、PubMed界面實(shí)現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫的結(jié)合；Entrez Structures數(shù)據(jù)庫、VAST（vector alignment search tool）算法和Cn3D結(jié)構(gòu)瀏覽器開始用于蛋白質(zhì)分析；Gapped BLAST和PSI-BLAST開始用于快速序列相似性檢索；COG（clusters of orthologous group）方法和系統(tǒng)開始用于基因組分析。1998年：建立HTGS（高通量基因組序列

15、）組，以適應(yīng)人類基因組計(jì)劃的進(jìn)程；開始應(yīng)用PHI-BLAST序列檢索工具；已經(jīng)貯存兩千億以上的堿基對(duì)，其中超過一半來自人類基因組計(jì)劃。1999年：隨著人類基因組計(jì)劃接近完成，NCBI將重點(diǎn)轉(zhuǎn)移到人類基因組分析。新的應(yīng)用軟件和數(shù)據(jù)庫系統(tǒng)包括LocusLink, RefSeq和OMIM等。,3.2.1.2 GenBank數(shù)據(jù)庫下面介紹GenBank數(shù)據(jù)庫。GenBank是最早的DNA序列數(shù)據(jù)庫。目前GenBank數(shù)據(jù)庫中的數(shù)據(jù)按照每年約

16、60％的速率增長。截止到2005年GenBank數(shù)據(jù)庫中的核酸序列總長度達(dá)560億個(gè)堿基，核酸序列數(shù)超過5200萬條。對(duì)于每個(gè)序列，相關(guān)數(shù)據(jù)包括序列名稱、序列、位點(diǎn)、關(guān)鍵字、來源、生物種類、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點(diǎn)等。隨著分子生物學(xué)技術(shù)的不斷發(fā)展，數(shù)據(jù)的增長速度將會(huì)不斷提高。,GenBank的數(shù)據(jù)來源主要有兩條途徑。一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國際權(quán)威生物學(xué)刊物都要求作者在文章發(fā)表之前將所測定的序列提交給E

17、MBL、GenBank或DDBJ，得到數(shù)據(jù)庫管理系統(tǒng)所簽發(fā)的登錄注冊(cè)號(hào)。二是從生物醫(yī)學(xué)期刊上收錄已經(jīng)發(fā)表的序列資料。 GenBank中最常用的是序列文件。序列文件的基本單位是序列條目，包括核苷酸堿基排列順序和注釋兩部分。目前，許多生物信息資源中心通過計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。下面介紹序列文件結(jié)構(gòu)M90100,3.2.1.3 GenBank的分類學(xué)檢索分類學(xué)檢索是GenBank兩類檢索方式中的一種(另一種為序列相似性檢索)，比較簡

18、單，尤其適用于相關(guān)學(xué)科（如分子生態(tài)學(xué)、分子系統(tǒng)學(xué)）。例如，我們要查詢水生植物睡蓮科（Nymphaeaceae)的序列資料,可以在NCBI主頁的查詢框中直接鍵入“Nymphaeaceae”,檢索結(jié)果為所有序列的清單，包括GenBank收錄號(hào)(accession number)、物種拉丁學(xué)名(scientific name)和基因／序列名稱(name of gene or sequence)以及序列完整與否等信息。,例如，我們可以找到查詢流

19、水號(hào)為1的序列，GenBank收錄號(hào)為A627251，物種名稱為白睡蓮(Nymphaea alba)，序列為葉綠體全基因組序列。選擇該條目，可以進(jìn)一步獲得該序列的詳細(xì)數(shù)據(jù)，包括物種的系統(tǒng)位置、序列作者及地址、論文標(biāo)題／項(xiàng)目名稱、發(fā)表刊物／直接投送、以及序列（本例中序列長度為159930bp)。,3.2.1.4 向GenBank投送序列,GenBank序列投送工具包括Sequin, BankIt和VecScreen(如圖所示）。下面僅以S

20、equin為例，說明序列投送過程中應(yīng)注意的幾個(gè)問題。1. 序列格式常用FASTA格式，如：＞eIF4E[organism＝Drosophila melanogaster][strain=Oregon R] Drosophila… CGGTTGCTTGGG'I'I'I'I'ATAACATCAGTCAGTGACAGGCATTTCCAGAGTTGCCCTGT… 或

21、蛋白質(zhì)序列＞4E – I [gene＝eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPI'SAAAPAEAKDVKPKEDPQETGEPA… ＞4E – II [gene＝eIF4E] [protein＝eukaryotic initiation factor 4E-II]

22、 MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGNTATTTAPAG…用于系統(tǒng)發(fā)育研究等的序列，還可用PHYLIP, NEXUS、MACAW和FASTA＋GAP、等格式,2.提交步驟采用Sequin的用戶界面。進(jìn)入“Start New Submission”,可逐項(xiàng)選擇或輸入作者信息(Submitting Authors)、格式表單(Sequence Format)、有機(jī)體名稱和序列

23、類型(Organism and Sequences)、基因和蛋白質(zhì)信息(Gene and Protein Information)等。輸入完畢，Sequin將按GenBank的格式顯示你所輸入的信息。“Display Format”容許你選擇圖形或序列形式。在“Annotate”和“Edit”菜單及界面中注釋、更新和修改所投送的序列。欲了解Sequin的其他功能以及或有其他疑問，可參閱網(wǎng)頁上提供的“Sequin Quick Gui

24、de”。,3.2.2 蛋白質(zhì)信息蛋白質(zhì)序列和結(jié)構(gòu)分為三個(gè)層次，相應(yīng)的數(shù)據(jù)庫也可分為3大類,一級(jí),氨基酸序列,AVILDRYFH,一級(jí)數(shù)據(jù)庫,二級(jí),基序,[AS]-[IL]2-X[DE]-R-[FYW2-H,二級(jí)數(shù)據(jù)庫,三級(jí),結(jié)構(gòu)域,AVILDRYFH,a,b,c,結(jié)構(gòu)數(shù)據(jù)庫,,,,,,,,,,,圖3-14 蛋白質(zhì)信息的三個(gè)層次和相應(yīng)的數(shù)據(jù)庫,2.2.2.1蛋白質(zhì)一級(jí)數(shù)據(jù)庫一級(jí)數(shù)據(jù)庫主要以下列幾個(gè)為代表：PIR(Prote

25、in Information Resource)( http://pir. georgetown. edu/)由于蛋白質(zhì)序列測定技術(shù)先于DNA序列測定技術(shù)問世，蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫的雛形可以追朔到60年代。60年代中期到80年代初，美國國家生物醫(yī)學(xué)研究基金會(huì)(National Biomedical Research Foundation，簡稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信

26、息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表，主要用來研究蛋白質(zhì)的進(jìn)化關(guān)系。1984年，“蛋白質(zhì)信息資源”(Protein Information Resource，簡稱PIR)計(jì)劃正式啟動(dòng)，蛋白質(zhì)序列數(shù)據(jù)庫PIR也因此而誕生。與核酸序列數(shù)據(jù)庫的國際合作相呼應(yīng)，1988年，美國的NBRF、日本的國際蛋白質(zhì)信息數(shù)據(jù)庫(Japanese Internationa

27、l Protein Information Database，簡稱JIPID)和德國的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences，簡稱MIPS)合作成立了國際蛋白質(zhì)信息中心(PIR-International)，共同收集和維護(hù)蛋白質(zhì)序列數(shù)據(jù)庫PIR。PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分四個(gè)不同部分，分別為PIR1、PIR2、PIR3和PIR4。PIR1中的

28、序列已經(jīng)驗(yàn)證，注釋最為詳盡；PIR2中包含尚未確定的冗余序列；PIR3中的序列尚未加以檢驗(yàn)，也未加注釋; 而PIR4中則包括了其它各種渠道獲得的序列，既未驗(yàn)證，也無注釋。例子,SwissProt另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫則是SwissProt。該數(shù)據(jù)庫由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建，目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics，簡稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和

29、管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,，簡稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫外，也是國際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心，SwissProt數(shù)據(jù)庫中的所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SIB和EBI共有70多人的研究隊(duì)伍，專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、

30、注釋、發(fā)布，力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫的每個(gè)條目都有詳細(xì)的注釋，包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫中還包括了與核酸序列數(shù)據(jù)庫EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB以及Prosite、PRINTTS等十多個(gè)二次數(shù)據(jù)庫的交叉引用代碼。特別值得一提的是，ExPAsy專門聘請(qǐng)了由200多位國際知名生物學(xué)家組成的網(wǎng)上專家評(píng)審團(tuán)，并將SwissPro

31、t數(shù)據(jù)庫中的蛋白質(zhì)分成200多個(gè)類別，每個(gè)類別由1位或2位評(píng)審專家負(fù)責(zé)，通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評(píng)審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評(píng)審蛋白質(zhì)種類。用戶若對(duì)某個(gè)蛋白質(zhì)條目有疑義，可以直接和相應(yīng)的評(píng)審專家取得聯(lián)系。,SwissProt采用了和EMBL核酸序列數(shù)據(jù)庫相同的格式和雙字母標(biāo)識(shí)字。這種雙字母的標(biāo)識(shí)字對(duì)于數(shù)據(jù)庫的管理維護(hù)比較方便，但用戶在使用時(shí)卻不很方便，特別對(duì)數(shù)據(jù)庫格式不很熟悉的用戶，尤為如此。近

32、年來，隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的發(fā)展，ExPASy開發(fā)了面向生物學(xué)家的、基于瀏覽器的用戶界面，特別是用可視化方式表示氨基酸特征表，使用戶對(duì)序列特性一目了然，如二硫鍵、跨膜螺旋、二級(jí)結(jié)構(gòu)片段、活性位點(diǎn)等。截止1998年6月，SWISS-PROT數(shù)據(jù)庫包含約7萬條序列，這些序列涵蓋了5千多個(gè)不同種屬，其中大部分來自于幾種主要模式生物，如人、啤酒酵母、大腸桿菌、小鼠、大鼠等。SWISS-PROT數(shù)據(jù)庫的結(jié)構(gòu)與其它蛋白質(zhì)序列數(shù)據(jù)庫不同。給出S

33、WISS-PROT數(shù)據(jù)庫中一個(gè)序列條目的實(shí)例。圖中每一行由兩個(gè)字母起始，用來說明每一行所代表的信息。其中第一行以“ID”開始，最后一行以雙斜杠“//”結(jié)束。ID行表示該序列的名稱是OPSD_SHEEP，共有348個(gè)氨基酸殘基。SWISS-PROT數(shù)據(jù)庫的ID包含一定信息，如本例中“OPSD”表示蛋白質(zhì)名稱縮寫，而“SHEEP”表示該蛋白質(zhì)分子來自于哪個(gè)物種，中間用下劃線分隔。即這一蛋白序列是來源于綿羊的視紫紅質(zhì)(rhodopsin)。,

34、SWISS-PROT采用AC（accession number）作為表示某個(gè)特定序列的代碼，具有唯一性和永久性。在文獻(xiàn)中引用某個(gè)序列時(shí)，應(yīng)以AC為準(zhǔn)，而不是以序列名稱或ID為準(zhǔn)。本例中，代碼AC為P02700。下面的DT行提供了蛋白質(zhì)序列提交到數(shù)據(jù)庫的時(shí)間，及最近一次修改的時(shí)間等信息。描述行（DE）可以有一行或幾行，提供了對(duì)該蛋白質(zhì)的簡單說明。此例中，說明該蛋白質(zhì)為視紫紅質(zhì)。下面的幾行中提供了有關(guān)該蛋白質(zhì)的基因名（GN）、物種來源

35、（OS）和分類學(xué)位置（OC）等信息。接下來是與該蛋白質(zhì)相關(guān)的基本注釋信息，包括文獻(xiàn)信息、與測序有關(guān)的信息、以及對(duì)該蛋白質(zhì)序列分析得到的與結(jié)構(gòu)或突變相關(guān)的信息等。這些注釋為用戶提供了非常有價(jià)值的信息。基本注釋信息后，是說明行(CC)。在CC行中按主題進(jìn)行區(qū)分，其中，F(xiàn)UNCTION說明該蛋白質(zhì)的功能，PTM說明翻譯后修飾，TISSUE SPECIFICITY說明組織專一性，SUBCELLULAR LOCATION說明亞細(xì)胞定位，SIM

36、ILARITY,說明了與該蛋白質(zhì)序列具有相似性或相關(guān)的某個(gè)蛋白質(zhì)家族，等等。本例中，由這些注釋信息可以知道視紫紅質(zhì)是一種存在于視桿細(xì)胞中的膜可視蛋白，屬于視蛋白家族和1型G蛋白偶聯(lián)受體（GPCR）超家族。在說明行后的是數(shù)據(jù)庫交叉引用（DR）行，提供了與其它生物信息數(shù)據(jù)庫之間的鏈接，包括一級(jí)序列數(shù)據(jù)庫、序列模塊數(shù)據(jù)庫、特殊數(shù)據(jù)庫等。本例中，該蛋白質(zhì)序列具有與另一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫PIR的鏈接、與GPCR專門數(shù)據(jù)庫的鏈接，以及與蛋白質(zhì)序列

37、模體數(shù)據(jù)庫PROSITE的鏈接和與蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫ProDom的鏈接。在DR行之后，是關(guān)鍵字行(KW)和特征表行(FT)。特征表包括對(duì)該序列特性的進(jìn)一步注釋，包括跨膜螺旋等超二級(jí)結(jié)構(gòu)單元、配體結(jié)合位點(diǎn)、翻譯后修飾位點(diǎn)等。特征表的每一行有一個(gè)關(guān)鍵字（如TRANSMEM）、特征序列的氨基酸殘基位置（如37-61），以及注釋信息的性質(zhì)（如POTENTIAL）等。本例中，視紫紅質(zhì)的跨膜區(qū)域是由計(jì)算機(jī)預(yù)測得到的，尚未得到實(shí)驗(yàn)證據(jù)，因此僅用PO

38、TENTIAL表示。,最后一部分是蛋白質(zhì)序列，即SQ行。為減少存儲(chǔ)空間，氨基酸編碼以單字母表示，每行60個(gè)殘基。SWISS-PROT數(shù)據(jù)庫中的序列數(shù)據(jù)與蛋白質(zhì)前體對(duì)應(yīng)，如果想要獲得成熟蛋白質(zhì)的序列，可以參考特征表所提供的信息，即根據(jù)特征表所提供的信號(hào)區(qū)（SIGNAL），轉(zhuǎn)運(yùn)區(qū)（TRANSIT）或前肽（PROPEP）等信息來推斷成熟蛋白質(zhì)或多肽序列。此外，CHAIN和PEPTIDE兩個(gè)關(guān)鍵字用來表示成熟蛋白質(zhì)的位置。TrEMBLNRL

39、-3DMIPS (http://www·mips. biochem. mpg·de/)：由德國慕尼黑蛋白質(zhì)序列信息中心建立，為PIR-International的成員之一。序列檢索采用FASTA，結(jié)果存于MIPS數(shù)據(jù)庫中。在一級(jí)數(shù)據(jù)庫中，還有一類稱為復(fù)合型蛋白質(zhì)序列數(shù)據(jù)庫（composite protein sequence database）。這些數(shù)據(jù)庫的特點(diǎn)是綜合性強(qiáng)、更新快、冗余小，主要代

40、表有：,NRDB NRDB是由NCBI創(chuàng)建的，是NCBI的BLAST搜索程序的默認(rèn)蛋白質(zhì)序列數(shù)據(jù)庫。該數(shù)據(jù)庫由GenPept（由GenBank 編碼序列自動(dòng)翻譯而成數(shù)據(jù)庫）、PDB序列數(shù)據(jù)庫、SWISS-PROT數(shù)據(jù)庫、SPupdate（每周更新的SWISS-PROT數(shù)據(jù)庫）、PIR和GenPeptUpdate(每天更新的GenPept)數(shù)據(jù)庫復(fù)合而成。因此該數(shù)據(jù)庫是一個(gè)較完全的，包含最新信息的數(shù)據(jù)庫。該數(shù)據(jù)庫中已將那些與某一序列完全

41、相同的序列信息剔除, 因此不包含重復(fù)信息。但嚴(yán)格地說，盡管NRDB數(shù)據(jù)庫被稱作非冗余數(shù)據(jù)庫，其仍包含冗余信息。此外，由于該數(shù)據(jù)庫是通過簡單的比較方法生成的，因此會(huì)帶來一些問題，例如，一次數(shù)據(jù)庫中的錯(cuò)誤序列被引入該數(shù)據(jù)庫。,OWL OWL是一個(gè)非冗余的蛋白質(zhì)序列數(shù)據(jù)庫，是由Leeds大學(xué)和Warrington的Daresbury實(shí)驗(yàn)室合作開發(fā)的（Bleasby等，1994）。OWL數(shù)據(jù)庫由四個(gè)主要的一級(jí)序列數(shù)據(jù)庫復(fù)合而成，即SWISS-

42、PROT、PIR、GenBank（由其編碼序列翻譯而成的氨基酸序列）和NRL-3D。在構(gòu)建OWL數(shù)據(jù)庫的過程中，考慮到每個(gè)數(shù)據(jù)庫所包含序列信息的情況，賦予它們不同的優(yōu)先級(jí)，SWISS-PROT數(shù)據(jù)庫的優(yōu)先級(jí)最高。在對(duì)數(shù)據(jù)的處理上，不僅刪除與某一序列完全相同的序列條目，也剔除與某一序列相差個(gè)別氨基酸殘基的序列條目。因此，OWL數(shù)據(jù)庫是一個(gè)具有較小冗余度的蛋白質(zhì)序列數(shù)據(jù)庫。盡管如此，與NRDB相同，OWL數(shù)據(jù)庫也會(huì)有一些錯(cuò)誤，即在該數(shù)據(jù)庫

43、中仍然包括來自一次數(shù)據(jù)庫的錯(cuò)誤序列，例如由GenBank中錯(cuò)誤序列翻譯而得的錯(cuò)誤的氨基酸序列。此外，OWL數(shù)據(jù)庫更新較慢。英國的EMBnet國家節(jié)點(diǎn)上提供有針對(duì)于OWL的BLAST搜索服務(wù)。,MIPSX MIPSX是由德國Max-Planck研究所創(chuàng)建的復(fù)合數(shù)據(jù)庫(Mewes等，1998)。MIPSX由以下數(shù)據(jù)庫整合而成：PIR、MIPS一級(jí)序列數(shù)據(jù)庫（MIPSOwn）、MIPS/PIR一級(jí)序列數(shù)據(jù)庫（PIRMOD）、MIPS一級(jí)翻譯

44、序列數(shù)據(jù)庫（MIPSTrn）、MIPS酵母數(shù)據(jù)庫（MIPSH）、NRL-3D、SWISS-PROT、EMTrans（由EMBL翻譯得到的序列）、GBTrans（由GenBank翻譯得到的序列）、Kabat和PseqIP。,SWISS-PROT + TrEMBL EBI將SWISS-PROT和TrEMBL數(shù)據(jù)庫合并，構(gòu)成一個(gè)較全面的并且只有最低限度冗余的數(shù)據(jù)庫（Bairoch和Apweiler，1998）。用戶可以使用EBI網(wǎng)絡(luò)服務(wù)器上

45、的SRS序列檢索系統(tǒng)查詢SWISS-PROT和TrEMBL數(shù)據(jù)庫。與上面所提到的數(shù)據(jù)庫相比，該數(shù)據(jù)庫只有較少的錯(cuò)誤，但它還稱不上是真正的非冗余的數(shù)據(jù)庫。據(jù)1997年年中估計(jì)，其中包含了SWISS-PROT 和 TrEMBL中的30%的重復(fù)序列。顯然，為了盡可能地減少錯(cuò)誤率和冗余度，需要進(jìn)行大量工作，包括開發(fā)專門的數(shù)據(jù)庫處理系統(tǒng)等。,3.2.2.2二級(jí)數(shù)據(jù)庫二級(jí)數(shù)據(jù)庫是建立在一級(jí)數(shù)據(jù)庫基礎(chǔ)上的蛋白質(zhì)信息資源，也稱為蛋白質(zhì)模式數(shù)據(jù)

46、庫（protein pattern database），主要涉及蛋白質(zhì)基序、指紋等方面的信息。圖3-15示出了基序和指紋的基本概念以及建立二級(jí)數(shù)據(jù)庫的3類主要方法，即單基序法（single motif methods）、多基序法（multiple motif methods）和全域?qū)ξ慌帕蟹ǎ╢ulldomain alignment methods）。目前，主要的二級(jí)數(shù)據(jù)庫及其信息來源（一級(jí)數(shù)據(jù)庫）見表3-1。可以發(fā)現(xiàn)，SWISS-P

47、ROT是最基本的蛋白質(zhì)源數(shù)據(jù)庫。,表3-1若干二級(jí)數(shù)據(jù)庫的內(nèi)容與信息來源,*來自SWISS-PROT,1、構(gòu)建二次數(shù)據(jù)庫的方法和意義原則：通過多序列比對(duì)，將同源序列收集在一起，以得到保守區(qū)域。這些保守區(qū)域或基序(motifs)通常具有一定生物學(xué)意義，反映了蛋白質(zhì)分子的一些重要結(jié)構(gòu)和功能。定義：進(jìn)行多序列比對(duì)時(shí)，由于有多個(gè)親緣關(guān)系不等的序列包括在內(nèi)，因此就需要插入一些空位(gap)，使比對(duì)序列形成正確匹配。隨著空位的插入，一些具有保守

48、性的匹配區(qū)域形成，這些保守區(qū)域通常有10-20個(gè)氨基酸，并對(duì)應(yīng)著蛋白質(zhì)分子中重要的結(jié)構(gòu)或功能區(qū)域。這些區(qū)域的特性可用來對(duì)蛋白質(zhì)家族的成員進(jìn)行鑒別。這些區(qū)域通常稱為序列模體，或稱序列模塊、序列片段等。意義：序列模體數(shù)據(jù)庫可用于蛋白質(zhì)家族的識(shí)別。以一個(gè)未知的序列作為檢測序列，搜索上述序列模體數(shù)據(jù)庫，來確定該序列是否具有可能的特殊相似序列模式，由此推斷該序列是否屬于一個(gè)已知蛋白質(zhì)家族。如果一個(gè)蛋白質(zhì)家族的結(jié)構(gòu)和功能已知，搜索模體數(shù)據(jù)庫可以快

49、速推斷該檢測序列是否具有該家族的功能。在單一序列模體中，序列信息可以用一個(gè)包含確定和可選殘基的表達(dá)式表示，如C-Y-X2-[DG]-G-X-[ST]，這種對(duì)序列模體的描述方式稱做正則表達(dá)式或序列模式。用于描述一組具有保守區(qū)域的序列模體叫序列指紋圖譜，這些序列模體中殘基出現(xiàn)的次數(shù)可以用頻率矩陣表示。由頻率矩陣和打分表可以生成權(quán)重矩陣，由此得到序列模塊(BLOCKS)。利用序列匹配信息和空位信息可以生成序列譜。來自匹配序列譜的概率模型稱做

50、隱馬氏模型（HMMs),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdgnt,,,C-Y-x2-[DG]-G-x-[ST]正則表達(dá)式,插入,,頻率矩陣,,加權(quán)矩陣,,,圖3-15 建立二級(jí)數(shù)據(jù)庫的原理與方法 (a),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdg

51、nt,,,XXXXXXXXXXXXXXX,,,,,,XXXXXXXXXXXXXXX,,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,,,鑒定矩陣(PRINT),,加權(quán)矩陣(BLOCKS),多基序法,圖3-15 建立二級(jí)數(shù)據(jù)庫的原理與方法 (b),)精確的正規(guī)表達(dá)(Prosite,,模糊的正規(guī)表達(dá)(IDENTIFY),全域?qū)ξ慌帕蟹?概形,,隱馬爾可夫模型(P

52、fam),單基序法,序列模體,,,序列指紋圖譜,2. 二次數(shù)據(jù)庫介紹PROSITE： PROSITE數(shù)據(jù)庫是第一個(gè)序列模體數(shù)據(jù)庫，由瑞士生物信息學(xué)研究所維護(hù)。開發(fā)PROTSITE數(shù)據(jù)庫的依據(jù)是：在蛋白質(zhì)家族中，通過多序列對(duì)比方法，可以由若干同源蛋白質(zhì)序列得到保守的序列模體區(qū)域，這些序列模體區(qū)域具有相同的特性，通常具有重要的生物學(xué)功能位點(diǎn)，如酶的活性位點(diǎn)、配體或金屬的結(jié)合位點(diǎn)等。因此，PROSITE數(shù)據(jù)庫實(shí)際上是蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)

53、庫，通過搜索序列模體數(shù)據(jù)庫，可以幫助確定一個(gè)新蛋白質(zhì)序列屬于哪一個(gè)蛋白質(zhì)家族，或者該序列可能包含何種結(jié)構(gòu)域或功能位點(diǎn)。PROSITE數(shù)據(jù)庫用正則表達(dá)式(regular expression)表示序列模式，構(gòu)建PROSITE數(shù)據(jù)庫時(shí)，采用了多序列比對(duì)和保守區(qū)域人工識(shí)別的方法。首先，通過多序列比對(duì)得到一定的候選序列模體，并把這些序列模體中的信息簡化為具有一定規(guī)則的表達(dá)式，即正則表達(dá)式。并以此為基礎(chǔ)，對(duì)SWISS-PROT數(shù)據(jù)庫進(jìn)行搜索，得

54、到的結(jié)果再經(jīng)人工檢驗(yàn)以確定該序列模體匹配程度的優(yōu)劣。,有時(shí)，某個(gè)單一的序列模體不能有效地用來確定一個(gè)蛋白質(zhì)家族的特性。在這種情況下，就要使用另外的模體來確定該家族所具有的保守特性。而要想對(duì)一個(gè)蛋白質(zhì)家族的特性進(jìn)行鑒別，就要盡可能地找到該家族所包含的一系列序列模體。（1）PROSITE數(shù)據(jù)庫結(jié)構(gòu)PROSITE數(shù)據(jù)庫實(shí)際上包括兩個(gè)子庫，一個(gè)存放正則表達(dá)式數(shù)據(jù)，即PROSITE，另一個(gè)存放文獻(xiàn)摘要等文字說明，即PROSITE-DOC。PR

55、OSITE子庫的格式與SWISS-PROT數(shù)據(jù)庫格式類似，使用“ ID” , “AC”等雙字母識(shí)別字；而PROSITEDOC則以文本文件格式提供了對(duì)蛋白質(zhì)家族特性的描述，并且給出了序列模體所具有的生物學(xué)作用及其相關(guān)的參考書目。,上面提到，PROSITE數(shù)據(jù)庫的結(jié)構(gòu)與SWISS-PROT一樣，每一個(gè)條目都包含了標(biāo)識(shí)符ID和編號(hào)AC，其中ID是該蛋白質(zhì)家族名稱的縮寫，而編號(hào)則以字符和數(shù)字表示，如PS00238。 DE行是對(duì)蛋白質(zhì)家族的簡單描

56、述，PA行是該數(shù)據(jù)條目的核心，列出該蛋白質(zhì)家族的正則表達(dá)式，即序列模式(pattern)。隨后的NR行則給出構(gòu)建該序列模式所用的SWISS-PROT數(shù)據(jù)庫的版本以及技術(shù)細(xì)節(jié)，包括具有這種序列模體的蛋白質(zhì)數(shù)目，以及陽性、假陽性、假陰性等參數(shù)。了解這些信息，對(duì)正確使用PROSITE數(shù)據(jù)庫十分重要。若某個(gè)條目具有大量假陽性和假陰性，則表明該序列模式欠佳。圖3.3所示例子中NR行提供的信息知道，這個(gè)模式來自于第46版SWISS-PROT數(shù)據(jù)庫，

57、包含164201個(gè)蛋白序列，有192個(gè)序列與該模式匹配，其中191個(gè)為陽性的，是一個(gè)較好的模式。例子1例子2注釋行（CC）提供了該蛋白質(zhì)家族的分類學(xué)信息，本例中為“真核生物”；給出這一模式在蛋白質(zhì)中出現(xiàn)的次數(shù)，本例為2；同時(shí)給出功能位點(diǎn)的簡單說明,例如本例中結(jié)合位點(diǎn)的第5個(gè)殘基。DR行是與SWISS-PROT交叉的鏈接，列出具有該序列,模式的SWISS-PROT標(biāo)識(shí)符ID，其中T表示陽性匹配。P表示部分匹配。若有假陽性或假陰性匹配，則

58、分別用F和N表示，與NR行中給出的信息相對(duì)應(yīng)。3D行則是與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫PDB的交叉鏈接。最后的DO行是與相應(yīng)的PROSITEDOC的鏈接。PROSITEDOC數(shù)據(jù)庫的結(jié)構(gòu)比較簡單，每一條目除采用PDOC后跟數(shù)字，如PDOC00211格式標(biāo)識(shí)外，也列出相應(yīng)的PROSITE數(shù)據(jù)庫ID號(hào)，以便交叉引用。其余部分則是對(duì)該蛋白質(zhì)家族的描述，包括序列模式的說明，它們的生物學(xué)意義，并列出參考文獻(xiàn)的出處（圖3.4）。許多數(shù)據(jù)庫查詢系統(tǒng)SRS

59、提供了對(duì)PROSITE數(shù)據(jù)庫的檢索，而瑞士蛋白質(zhì)分析專家系統(tǒng)ExPASy則以表格方式列出查詢結(jié)果。,PRINTSPROSITE數(shù)據(jù)庫的構(gòu)建基于單個(gè)序列模體，而分析序列比對(duì)結(jié)果可以發(fā)現(xiàn)，許多蛋白質(zhì)家族的特性是由幾個(gè)保守的序列模體共同確定。利用蛋白質(zhì)分子中所有序列模體鑒別該蛋白質(zhì)家族的特性，則是構(gòu)建PRINTS序列指紋(fingerprint)圖譜數(shù)據(jù)庫的基本出發(fā)點(diǎn)。PRINTS數(shù)據(jù)庫起初由英國倫敦大學(xué)University College

60、 (UCL)的生物化學(xué)和分子生物學(xué)系開發(fā)，現(xiàn)在轉(zhuǎn)由曼徹斯特（Manchester）大學(xué)維護(hù)。顯然，利用多個(gè)序列模式共同識(shí)別蛋白質(zhì)家族的特性，比只用單個(gè)序列模式具有更好的識(shí)別率。例如，某個(gè)蛋白質(zhì)序列不能與指紋圖譜中所有序列模體匹配，但卻能與其中的大部分序列模體匹配，則有可能為我們提供一些信息，對(duì)該蛋白質(zhì)分子的特性作出可能的推測。PRINTS數(shù)據(jù)庫列出局部多序列比對(duì)所得結(jié)果，比對(duì)時(shí)不允許有空位的插入，也不考慮不同殘基的權(quán)重。因此，PRIN

61、TS序列指紋圖譜數(shù)據(jù)庫的構(gòu)建方法與PROSITE數(shù)據(jù)庫采用的正則表達(dá)式方法不同。在構(gòu)建序列指紋圖譜過程中，通過多序列比對(duì)得到一組序列模體種子，并對(duì)這些種子進(jìn)行,分析和篩選。然后通過反復(fù)的數(shù)據(jù)庫搜索，找出那些保守的序列模體。最后檢驗(yàn)?zāi)囊粋€(gè)序列與序列指紋圖譜中的所有序列模體匹配，如果存在比最初對(duì)比結(jié)果多得多的匹配，那么這些新增的序列信息就要被添加到序列模體中；然后重新開始搜索數(shù)據(jù)庫，反復(fù)進(jìn)行上述迭代過程，直到?jīng)]有新的序列指紋圖譜產(chǎn)生。最后，

62、結(jié)果被納入到PRINTS數(shù)據(jù)庫中。PRINTS數(shù)據(jù)庫的構(gòu)建，最初基于非冗余蛋白質(zhì)序列數(shù)據(jù)庫OWL，后來則以SWISS-PROT和SP-TrEMBL為主。圖3.5所示是PRINTS數(shù)據(jù)庫中一個(gè)條目，主要包括三方面信息。最上面的部分[圖3.5(a)]給出該序列指紋圖譜的代碼和名稱，通常用該蛋白質(zhì)家族名稱縮寫作代碼，如本例中的OPSIN。PRINTS數(shù)據(jù)庫中的條目有一個(gè)惟一的編號(hào)，以PR后跟數(shù)字（如PR00237）的格式表示。此外，給出條目

63、中序列模體個(gè)數(shù)，本例中是3。日期行中給出該條目收入數(shù)據(jù)庫和最近更新的時(shí)間。此外，還給出了與其他生物學(xué)數(shù)據(jù)庫的交叉引用，可以使用戶對(duì)該蛋白質(zhì)家族的其他信息有所了解。最后提供相關(guān)參考書目和對(duì)該家族特性的簡要介紹，以及如何構(gòu)建指紋圖譜的方法等。有些條目還提供對(duì)這些保守的序列模體的結(jié)構(gòu)和功能的描述。,第二部分[圖3.5(b)]給出組成該序列指紋圖譜的序列模體的參數(shù)，包括用來構(gòu)建該指紋圖譜的序列數(shù)、每個(gè)序列模體的匹配情況等。本例中有73個(gè)序列與指

64、紋圖譜中所有序列模體匹配，有一個(gè)序列與兩個(gè)序列模體匹配。并用表格方式列出有關(guān)信息。本例所列信息表明一個(gè)序列與序列模體1不完全匹配。最后一部分[圖3.5(c)]給出用于生成序列指紋圖譜的種子序列模體，以及通過數(shù)據(jù)庫搜索生成的最終序列模體(為節(jié)省篇幅，圖中沒列出)。每一個(gè)序列模體都用該指紋圖譜條目的代碼標(biāo)識(shí)，后跟一個(gè)數(shù)字，表示該序列模體屬于該指紋圖譜的第幾個(gè)。本例中OPSIN指紋圖譜的三個(gè)序列模體分別被命名為OPSIN1，OPSIN2和O

65、PSIN3。同時(shí)給出每個(gè)序列模體的長度和簡單說明，如迭代次數(shù)。作為種子的初始序列模體，迭代數(shù)為1。該部分還列出每個(gè)序列模體和組成該序列模體的序列片段在蛋白質(zhì)序列數(shù)據(jù)庫中的識(shí)別號(hào)ID，本例所示為最初進(jìn)行比對(duì)時(shí)SWISS-PROT數(shù)據(jù)庫中序列條目的識(shí)別號(hào)。同時(shí)列出它們?cè)谠夹蛄兄械臍埢恢茫约霸撔蛄衅闻c前一個(gè)指紋圖譜間的距離，即序列模體中相隔的氨基酸殘基數(shù)。對(duì)第一個(gè)序列模體來說，該距離值就是該序列模體與N一末端的距離。,與PROSITE

66、不同，PRINTS數(shù)據(jù)庫存放了原始的序列信息。這就意味著可以采用許多不同的打分方法來獲得序列模體，并可以給這些序列模體賦予不同的打分分?jǐn)?shù)值。因此，PRINTS數(shù)據(jù)庫可以用來進(jìn)一步構(gòu)建三次數(shù)據(jù)庫（tertiary database）。PRINTS數(shù)據(jù)庫可以通過DbBrowser生物信息學(xué)網(wǎng)絡(luò)服務(wù)器來查詢，1999年，該數(shù)據(jù)庫從倫敦大學(xué)轉(zhuǎn)到曼徹斯特大學(xué)，由曼徹斯特大學(xué)生物信息學(xué)教學(xué)研究小組維護(hù)。PROSITE和PRINTS不僅提供了序列

67、模式信息，而且提供了蛋白質(zhì)家族特性以及有關(guān)結(jié)構(gòu)功能等文獻(xiàn)信息。這些信息對(duì)生物學(xué)家來說非常重要，因?yàn)樗麄儾粌H想找出未知序列是否與已知序列模體匹配，而且需要了解由這些序列模體構(gòu)成的蛋白質(zhì)家族的生物學(xué)意義。而下面幾種序列模塊數(shù)據(jù)庫均由計(jì)算機(jī)程序自動(dòng)生成，因此，很少或沒有提供對(duì)蛋白質(zhì)家族的說明，其中一些則引用了PRINTS和PROSITE數(shù)據(jù)庫的信息。,BLOCKS鑒于利用正則表達(dá)式對(duì)序列模體進(jìn)行識(shí)別存在著一定局限性，有必要采用其他方法提高識(shí)

68、別率，構(gòu)建其他序列模體數(shù)據(jù)庫。BLOCKS數(shù)據(jù)庫就是其中的一個(gè)。它是以PROSITE數(shù)據(jù)庫中蛋白質(zhì)家族為基礎(chǔ)創(chuàng)建的，由美國西雅圖Fred Hutchinson癌癥研究中心(FHCRC）的Henikoff夫婦建立和維護(hù)。該數(shù)據(jù)庫中序列模塊（block)是通過自動(dòng)檢測每個(gè)蛋白質(zhì)家族中高度保守區(qū)域而產(chǎn)生。構(gòu)建該數(shù)據(jù)庫的初始階段，首先找出三個(gè)保守的氨基酸殘基，它們不一定連續(xù)。并以此為基礎(chǔ)對(duì)SWISS-PROT數(shù)據(jù)庫進(jìn)行搜索，找出相似性序列片段，

69、用來構(gòu)建一組無空位的局部多序列比對(duì)模塊，并用兩個(gè)分值作為每個(gè)模塊中各序列片段間相似性程度的指標(biāo)。其中第一個(gè)分值為真陰性占99.5％時(shí)對(duì)應(yīng)的閾值，第二個(gè)是真陽性匹配分值的中值。為比較不同序列模塊的識(shí)別率，將第二個(gè)分值乘以1000再除以第一個(gè)分值，進(jìn)行歸一化處理。這個(gè)歸一化的分值定義稱為強(qiáng)度（strength）。（1）BLOCKS數(shù)據(jù)庫結(jié)構(gòu)圖3.6列出一個(gè)典型的BLOCKS數(shù)據(jù)庫序列模塊條目。該數(shù)據(jù)庫結(jié)構(gòu)與PROSITE數(shù)據(jù)庫一致，即每

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論

 聯(lián)系客服

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知眾賞文庫，我們立即給予刪除！

備案號(hào): 經(jīng)營許可證編號(hào):浙ICP備20018660號(hào)

/ 156

  0
 分享

復(fù)制分享文檔地址

http://facezit.com/shtml/view-5888712.html

復(fù)制

下載本文檔

生物信息學(xué)第三章

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載