多序列比對(duì)與clustal的使用_第1頁(yè)
已閱讀1頁(yè),還剩62頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多序列比對(duì)與Clustal的使用,以及各類常見的序列分析工具介紹,中山大學(xué)生科院2004年10月,內(nèi)容提要,第一部分:多序列比對(duì)意義、方法、算法Clustal的使用 1.Clustalx 2.Clustalw第二部分:常見的序列分析軟件分類簡(jiǎn)介,第一部分:多序列比對(duì)及Clustal的使用,序列相似性比較和序列同源性分析,序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性

2、,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析: 是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;,多序列比對(duì)的意義,用于描述一組序列之間的相似性關(guān)系,以便了解一個(gè)基因家族

3、的基本特征,尋找motif,保守區(qū)域等。用于描述一個(gè)同源基因之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。其他應(yīng)用,如構(gòu)建profile,打分矩陣等。,同源性分析中常常要通過(guò)多序列比對(duì)來(lái)找出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對(duì)大多都是采用全局比對(duì)的算法。這樣對(duì)于采用計(jì)算機(jī)程序的自動(dòng)多序列比對(duì)是一個(gè)非常復(fù)雜且耗時(shí)的過(guò)程,特別是序列數(shù)目多,且序列長(zhǎng)的情況下。,多序列比對(duì)的方法,多序列比對(duì)的方法,基本上多序列比對(duì)可

4、以分為 1.手工比對(duì)(輔助編輯軟件如bioedit,seaview,Genedoc等) 通過(guò)輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來(lái)改變比對(duì)的狀態(tài)。 2.計(jì)算機(jī)程序自動(dòng)比對(duì) 通過(guò)特定的算法(如同步法,漸進(jìn)法等),由計(jì)算機(jī)程序自動(dòng)搜索最佳的多序列比對(duì)狀態(tài)。,自動(dòng)多序列比對(duì)的算法,1.同步法 將序列兩兩比對(duì)時(shí)的二維動(dòng)態(tài)規(guī)劃矩陣擴(kuò)展到三維矩陣。即用矩陣的維數(shù)來(lái)反映比對(duì)的序列數(shù)目。這種方法的計(jì)算量很大,對(duì)

5、于計(jì)算機(jī)系統(tǒng)的資源要求比較高,一般只有在進(jìn)行少數(shù)的較短的序列的比對(duì)的時(shí)候才會(huì)用到這個(gè)方法。,自動(dòng)多序列比對(duì)的算法,2.步進(jìn)法 最常見的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有進(jìn)化相關(guān)性的這一假設(shè)。,Clustal的漸進(jìn)比對(duì)過(guò)程,在比對(duì)過(guò)程中,先對(duì)所有的序列進(jìn)行兩兩比對(duì)并計(jì)算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進(jìn)行比對(duì),計(jì)算相似性分值。根據(jù)相似性分值繼

6、續(xù)分組比對(duì),直到得到最終比對(duì)結(jié)果。在比對(duì)過(guò)程中,相似性程度較高的序列先進(jìn)行比對(duì)而距離較遠(yuǎn)的序列添加在后面。,多序列比對(duì)工具-clustal,Clustal是一個(gè)單機(jī)版的基于漸進(jìn)比對(duì)的多序列比對(duì)工具,由Higgins D.G. 等開發(fā)。有應(yīng)用于多種操作系統(tǒng)平臺(tái)的版本,包括linux版,DOS版的clustlw,clustalx等。,,Clustal簡(jiǎn)介,CLUSTAL是一種漸進(jìn)的比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣,反應(yīng)序列之間兩

7、兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。,Clustalx的工作界面(多序列比對(duì)模式),Clustalx的工作界面(剖面(profile)比對(duì)模式),Clustal的工作原理,Clustal輸入多個(gè)序列,,快速的序列兩兩比對(duì),計(jì)算序列間的距離,獲得一個(gè)距離矩陣。,,鄰接法(NJ)構(gòu)建一個(gè)樹(引導(dǎo)樹),根據(jù)引導(dǎo)

8、樹,漸進(jìn)比對(duì)多個(gè)序列。,,Clustal的應(yīng)用,1.輸入輸出格式。輸入序列的格式比較靈活,可以是前面介紹過(guò)的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。,2.兩種工作模式。 a.多序列比對(duì)模式。 b.剖面(profile)比對(duì)模式。3.一個(gè)實(shí)際的例

9、子。,Clustal的應(yīng)用,多序列比對(duì)實(shí)例,輸入文件的格式(fasta):>KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGN

10、VSRGDYRGEAVAVKVFNALD……>1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……,第一步:輸入序列文件。,第二步:設(shè)定比對(duì)的一些參數(shù)。,參數(shù)設(shè)定窗口。,第三步:開始序列比對(duì)。,第四步:比對(duì)完成,選擇保存結(jié)果文件的格式,Clustalw的使用(一),Clustalw還提供了命令調(diào)用形式的使用方式,方便于批處理過(guò)程,下面是一個(gè)典型的執(zhí)行多序列比對(duì)的clustalw命令:$ ./clustalw –

11、infile=dna.fa –type=dna –gapopen=10 –gapext=2 –output=gcg –outfile=align.gcg -align,Clustalw的使用(二),在線的clustalw分析,EBI提供的在線clustalw服務(wù)http://www.ebi.ac.uk/clustalw/,,EBI提供的在線Clustalw服務(wù),更為詳細(xì)的教程,可以在這里得到更多關(guān)于clustal的幫助:htt

12、p://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html,實(shí)際操作(練習(xí)),使用clustalx程序,對(duì)給定的多序列,選擇合適的參數(shù),進(jìn)行多序列比對(duì),輸出結(jié)果文件維phylip格式。相同的文件,使用ebi和我們提供的在線服務(wù),進(jìn)行多序列比對(duì)。對(duì)上述計(jì)算機(jī)程序比對(duì)的結(jié)果進(jìn)行手工改動(dòng)(bioedit,seaview),使得多序列比對(duì)結(jié)果跟符合要求。,>SIV MSMSSSNITSG

13、FIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSY

14、VSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVN

15、NNIVRIENSLVRNRRRWSREGPMVMVC>TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPF

16、FFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMG

17、STNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC>WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPA

18、SKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGA

19、MGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ>CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWL

20、RVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFS

21、HAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL>CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATW

22、FTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSN

23、EERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL,練習(xí)序列,第二部分:

24、常見的序列分析軟件分類簡(jiǎn)介,GCGEMBOSS(免費(fèi))Vector NTIDNAstarBioedit(免費(fèi))其他,1.綜合序列分析軟件包,,GCG(商業(yè)軟件),GCG (Genetics Computer Group)是生物信息界最廣為人知的分子序列分析軟件包,最早是在美國(guó)的威斯康辛大學(xué)麥迪遜校區(qū)(University of Wisconsin-Madison)內(nèi)發(fā)展起來(lái)的,后來(lái)獨(dú)立成為一個(gè)商業(yè)公司,期間曾經(jīng)是Oxford

25、 Molecular 的分支機(jī)構(gòu),在2000 年又由Pharmacopeia 所并構(gòu)。,GCG 軟件包包括了超過(guò)130個(gè)獨(dú)立的序列分析程序,大致上可以分成以下12個(gè)類別: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Pub

26、lication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation,除了分析程序以外

27、, GCG 同時(shí)也提供多種生物學(xué)數(shù)據(jù)庫(kù)。核酸相關(guān)的:GenBank(http://www.ncbi.nlm.nih.gov/ ) EMBL (http://www.ebi.ac.uk/) 蛋白質(zhì)相關(guān)的: SWISS-PROT (http://www.expasy.ch/sprot/) PIR (http://www-nbrf.georgetown.edu/pir/) SP-TrEMBL (h

28、ttp://www.expasy.ch/sprot/ ) 使用者可以輸入自己實(shí)驗(yàn)獲得的分子序列, 或者從這些數(shù)據(jù)庫(kù)中來(lái)獲取得到分子序列,再用到GCG的分析程序進(jìn)行分析。,GCG的工作方式(S-C) 安裝在基于Unix系統(tǒng)的服務(wù)器上,目前可以安裝的平臺(tái)(platform)有SGI 的IRIX 操作系統(tǒng),SUN 的Solaris操作系統(tǒng),及Compaq 的Tru64操作系統(tǒng),用戶可以通過(guò)網(wǎng)絡(luò)連接的方法來(lái)使用GCG提

29、供的分析程序以及數(shù)據(jù)庫(kù)。,1.傳統(tǒng)的命令行形式,這種情況要求用戶熟悉程序的命令。2.借助SeqLab的用戶窗口界面,通過(guò)各類表單的操作來(lái)實(shí)現(xiàn)分析任務(wù)。以上兩個(gè)執(zhí)行GCG的方法都是通過(guò)telnet來(lái)實(shí)現(xiàn)的。3. 借助于WWW服務(wù)的SeqWeb,是最為簡(jiǎn)單和方便的使用方式。 雖然命令行的操作需要一些操作,但是對(duì)于熟悉GCG的用戶來(lái)說(shuō),卻是最為快捷和有效的方法,此外這種方法還可以擴(kuò)展到批處理中。,,執(zhí)行

30、GCG程序的方法,EMBOSS(免費(fèi)軟件),EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商業(yè)軟件GCG的擴(kuò)展),由于版權(quán)等原因,EGCG不再發(fā)行,開發(fā)人員在此基礎(chǔ)上開發(fā)出來(lái)公開源代碼的EMBOSS軟件包。http://www.sanger.ac.uk/Software/EMBOSS,,Vector NTI,由Informax公司(現(xiàn)在已經(jīng)歸

31、入Invitrogen公司旗下)開發(fā)的一種高度集成、功能齊全的分子生物學(xué)應(yīng)用軟件,可以對(duì)DNA、蛋白質(zhì)分子進(jìn)行大量分析和操作。,主要功能:1.DNA序列的ORF、Motif、功能區(qū)搜索,限制酶圖譜,蛋白質(zhì)翻譯。2.PCR引物、測(cè)序引物、雜交探針的設(shè)計(jì)和評(píng)價(jià)。3.DNA測(cè)序片斷的拼接4.同源比較和系統(tǒng)發(fā)育樹構(gòu)建5.蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):三維結(jié)構(gòu)、化學(xué)鍵、翻譯后修飾位點(diǎn)、結(jié)構(gòu)域等6.模擬電泳:瓊脂糖、PAGE,,DNAstar,DNA

32、STAR有限公司開發(fā)了Lasergen程序組,可在計(jì)算機(jī)上進(jìn)行DNA和蛋白分析。它們是易于使用且對(duì)用戶友好的軟件,可進(jìn)行分子生物學(xué)中的小規(guī)模序列分析和多序列比較。Lasergen有PC Windows和Macintosh兩種版本。Lasergen的一個(gè)主要功能是它有針對(duì)不同應(yīng)用的7種程序。用戶可根據(jù)自己需要選擇購(gòu)買。,主要功能:1. Editseq,可以從鍵盤、數(shù)據(jù)庫(kù)或數(shù)字序列輸入和編輯。2. PrimerSelect,PCR引物和

33、探針設(shè)計(jì)。3. MapDraw,限制性位點(diǎn)分析和圖譜繪制。 4. MegAlign,多個(gè)和成對(duì)蛋白或DNA序列比對(duì)。5. GeneMan,生物數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)檢索。 6. Protean,蛋白結(jié)構(gòu)分析。7. SeqMan,序列裝配和毗連(序列)群管理。,,Bioedit,是一個(gè)性能優(yōu)良的免費(fèi)的分子生物學(xué)應(yīng)用軟件,可以對(duì)核酸序列和蛋白質(zhì)序列進(jìn)行常規(guī)的分析操作,并提供了很多網(wǎng)絡(luò)程序的分析界面和接口。 http://www

34、.mbio.ncsu.edu/BioEdit/bioedit.html,,2.快速同源性數(shù)據(jù)庫(kù)搜索工具,BlastFastaHMMer,,HMMER,HMMer 是一個(gè)采用隱馬可夫模型 HMMs(Hidden Markov Models)來(lái)識(shí)別不同基因之間的結(jié)構(gòu)相似性程度的工具。可以快速的在數(shù)據(jù)庫(kù)中尋找與特定基因具有一定相似性的基因結(jié)構(gòu)。http://hmmer.wustl.edu/,,3.多序列比對(duì)工具,Clustal基

35、于漸進(jìn)算法的多序列比對(duì)優(yōu)化算法,由Higgins D.G. 等開發(fā)。Clustlw,clustalx等。其他:T_coffee,PHYLIPPAUP*其他:Mega2,MrBayes,tree-puzzle PAML,treeview,4.分子進(jìn)化分析工具,,PHYLIP,Phylip是一個(gè)免費(fèi)的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。 由華盛頓大學(xué)遺傳學(xué)系開發(fā),1980年首次公布,目前的版本是3

36、.6。包含了35個(gè)獨(dú)立的程序,這些獨(dú)立的程序都實(shí)現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺(tái)的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。http://evolution.genetics,washington.edu/phylip.html,,PAUP*,最早是在蘋果機(jī)上開發(fā)的具有菜單界面的進(jìn)化分析軟件,早先版本只有MP法,后續(xù)

37、版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,該軟件不是免費(fèi)軟件,使用者需要向開發(fā)者購(gòu)買。,,5.其他工具,模式識(shí)別:Meme,signalscan, domainFinder等測(cè)序分析與序列拼接:Chromas,Phred+Phrap+cross_match+consed, contigExpress等引物設(shè)計(jì):Oligo,Primer3,Primer Premier5.0等三

38、維分子:PDBviewer,CN3D,RASMOL等,序列分析工具的網(wǎng)絡(luò)資源,生物軟件網(wǎng)http://www.bio-soft.netNCBIhttp://www.ncbi.nlm.nih.govExpasyhttp://www.expasy.org/,,,,,生物軟件網(wǎng),由華北制藥集團(tuán)的談杰創(chuàng)建,是一個(gè)具有豐富生物信息學(xué)資源的站點(diǎn),提供了大量的生物信息學(xué)分析軟件下載。http://www.bio-soft.net,,NC

39、BI,美國(guó)國(guó)立生物技術(shù)信息中心(NCBI) 成立于1988年11月4日。是在NIH的國(guó)立醫(yī)學(xué)圖書館(NLM)的一個(gè)分支。NLM是因?yàn)樗趧?chuàng)立和維護(hù)生物信息學(xué)數(shù)據(jù)庫(kù)方面的經(jīng)驗(yàn)被選擇的,而且這可以建立一個(gè)內(nèi)部的關(guān)于計(jì)算分子生物學(xué)的研究計(jì)劃。NCBI的任務(wù)是發(fā)展新的信息學(xué)技術(shù)來(lái)幫助對(duì)那些控制健康和疾病的基本分子和遺傳過(guò)程的理解。 主要資源包括:數(shù)據(jù)庫(kù)和軟件,以及相關(guān)的教育和培訓(xùn)資源,,http://www.ncbi.nlm.nih

40、.gov,Expasy,由位于瑞士日內(nèi)瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白質(zhì)數(shù)據(jù)庫(kù)之一 ,也是 GCG 最主要的蛋白質(zhì)序列來(lái)源。 Expasy的主 要 有蛋白質(zhì)序列、結(jié)構(gòu)、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多個(gè)數(shù)據(jù)庫(kù) ,還有大量的蛋白質(zhì)序列與結(jié)構(gòu)分析工具以及FTP資源

41、等。 蛋白質(zhì)分析工具主要有蛋白質(zhì)的功能預(yù)測(cè),序列搜索與比對(duì),二級(jí)、三級(jí)和四級(jí)結(jié)構(gòu)的預(yù)測(cè)等等。 http://www.expasy.org/,,操作系統(tǒng) Unix(Linux),Windows, Macintosh編程語(yǔ)言:perl,C,php,VB算法:動(dòng)態(tài)規(guī)劃,啟發(fā)式,各類模型數(shù)據(jù)結(jié)構(gòu):表,棧,樹,圖數(shù)據(jù)庫(kù)Mysql,Oracle,SQL server,Sybase網(wǎng)絡(luò)局域網(wǎng)構(gòu)架與管理,并行

42、化,網(wǎng)絡(luò)應(yīng)用(http,ftp,telnet),計(jì)算機(jī)相關(guān)知識(shí),Linux:是一個(gè)免費(fèi)的可以在PC機(jī)上運(yùn)行的UNIX系統(tǒng).Linux系統(tǒng)具有最新UNIX的全部功能,包括真正的多任務(wù),虛擬存儲(chǔ),共享庫(kù)函數(shù),即時(shí)負(fù)載,優(yōu)越的存儲(chǔ)管理和TCP/IP,UUCP網(wǎng)絡(luò)工具。Linux由于其系統(tǒng)軟件的免費(fèi)獲取,硬件費(fèi)用低廉的特點(diǎn),近年來(lái)發(fā)展迅猛。 常見的Linux發(fā)行版有RedHat,Debian,Mandrake,SuSe等,,Per

43、l強(qiáng)大的正則表達(dá)式(regular expression)以及字符串操作使這個(gè)工作變得簡(jiǎn)單而沒(méi)有其它語(yǔ)言能相比。Perl 非常擅長(zhǎng)于切割,扭轉(zhuǎn),絞,弄平,總結(jié),以及其它的操作文字文件。生物資料大部分是以文字文件存在的,如物種名稱,種屬關(guān)系,基因或序列的注解,評(píng)住,目錄查閱, 就連DNA和蛋白質(zhì)序列本身也是以文字形式出現(xiàn)的。正是因?yàn)檫@樣,在生物資料處理的時(shí)候最多涉及的也是字符操作問(wèn)題。各種不同格式的生物信息資料之間的相互轉(zhuǎn)換是一個(gè)很

44、難解決的問(wèn)題,而perl由于具有方便和強(qiáng)大的字符操作功能,使得它在這方面具有特殊的用途。,,MySQL是一個(gè)免費(fèi)的、多用戶、多線程的小型SQL數(shù)據(jù)庫(kù),是一個(gè)客戶機(jī)/服務(wù)器結(jié)構(gòu)的應(yīng)用,可以運(yùn)行在多種平臺(tái)上,它由一個(gè)服務(wù)器守護(hù)程序mysqld和很多不同的客戶程序和庫(kù)組成。MySQL具有快速、多線程、多用戶和穩(wěn)定等特點(diǎn),對(duì)于中、小型應(yīng)用系統(tǒng)是非常理想的數(shù)據(jù)庫(kù)服務(wù)平臺(tái)。,,動(dòng)態(tài)規(guī)劃(dynamic programming )

45、動(dòng)態(tài)規(guī)劃的實(shí)質(zhì)是分治思想和解決冗余,將問(wèn)題的實(shí)例分解為更小的、相似的子問(wèn)題。動(dòng)態(tài)規(guī)劃的思想在于,如果各個(gè)子問(wèn)題不是獨(dú)立的,不同的子問(wèn)題的個(gè)數(shù)只是多項(xiàng)式量級(jí),如果我們能夠保存已經(jīng)解決的子問(wèn)題的答案,而在需要的時(shí)候再找出已求得的答案,這樣就可以避免大量的重復(fù)計(jì)算。由此而來(lái)的基本思路是,用一個(gè)表記錄所有已解決的子問(wèn)題的答案,不管該問(wèn)題以后是否被用到,只要它被計(jì)算過(guò),就將其結(jié)果填入表中。 動(dòng)態(tài)規(guī)劃算法在生物序列分析中是一個(gè)比

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論