核苷酸配對差異分析與中性檢驗_第1頁
已閱讀1頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十章 古DNA數據分析,主要內容,系統(tǒng)發(fā)育分析遺傳多維尺度分析 主成分分析 群體遺傳學分析,系統(tǒng)發(fā)育分析,系統(tǒng)發(fā)育(phylogeny)是指一群有機體發(fā)生或進化的歷史。系統(tǒng)發(fā)育樹(phylogenetic tree),也稱為譜系發(fā)育樹、譜系樹、系統(tǒng)發(fā)生樹、系統(tǒng)樹)就是描述這一群有機體發(fā)生或進化順序的拓撲結構 。系統(tǒng)發(fā)育分析(phylogenetic analysis)就是指利用現有生物的形態(tài)或分子生物學數據重建(recon

2、struction)系統(tǒng)發(fā)育樹推斷系統(tǒng)發(fā)生的過程。,系統(tǒng)發(fā)育樹,系統(tǒng)發(fā)育樹形式,有根樹(rooted tree)和無根樹(unrooted tree),當n=10時,有根樹的數目是34 459 425、無根樹是2 027 025。,系統(tǒng)發(fā)育樹形式,標度樹和非標度樹,系統(tǒng)發(fā)育樹形式,基因樹和物種樹,圖(a)基因的分歧時間早于物種的分歧時間 (b)基因的分歧時間晚于物種的分歧時間,基因樹與物種樹之間的不同,系統(tǒng)發(fā)生樹的構建,(1)序列比對與

3、排序;(2)系統(tǒng)發(fā)育樹的重建;(3)結果的檢驗。,序列比對與排序,序列比對與排序是構建系統(tǒng)發(fā)育樹、進行系統(tǒng)發(fā)育分析的前提和必要條件。在古DNA研究中,序列比對的目的就是建立起所檢測序列與其他序列的同源關系,提取系統(tǒng)發(fā)育分析數據集。序列比對有各種不同的方法,這些方法都是將同源序列位點上相同或相似殘基(稱匹配位點)與不相似殘基(稱不匹配位點)按一定的記分規(guī)則轉化成序列之間相似性或差異性(距離)數值進行比較。 ClustalX (Cl

4、ustalW) 是進行此項工作的經典程序。,系統(tǒng)發(fā)育樹的重建,在古DNA研究中,主要的系統(tǒng)發(fā)育樹重建方法有3類: 距離法 簡約法 似然法,,距離法,距離法(distance method)首先根據距離模型估算出分類群間的進化距離,然后根據不同的聚類算法,從進化距離最短的開始依次聚類,利用距離值矩陣計算出最優(yōu)樹,或將總的樹枝長度最小化而優(yōu)化出進化樹 。計算個體間遺傳距離的替代模

5、型有很多,最基本的核苷酸序列替代模型是P-距離模型、Jukes—Cantor單參數模型(JC69)、Kimura雙參數模型(K2P,也稱為K80),在此基礎上衍生出其它一系列模型,如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。,P-距離模式最簡單的距離模型,將2個序列間核苷酸差異率作為彼此間的遺傳距離,其計算公式為: 式中nd和n分別為所檢測的兩序列間的核苷酸差異數和配對總數。,P距離,,Jukes

6、-cantor距離模型,Jukes-cantor模型假定任一位點的4種核苷酸A、T、G和C間的替代頻率都是相同的,其遺傳距離為:,,式中P為兩個序列間核苷酸的差異率。,Kimura雙參數距離模型,事實上,在DNA 序列中4種核苷酸的替代頻率是不同的,通常核苷酸轉換的比率要高于顛換,Kimura雙參數模型考慮了轉換和顛換速率的不同,其遺傳距離為:,,式中P 和Q 分別為序列中核苷酸轉換和顛換的比率,群體之間的遺傳距離,對于群體之間的遺傳距

7、離,常用以下公式計算: 其中 dij 是指種群i和j間的平均配對差異(raw mean nucleotide pairwise difference),而d i和 dj則分別為種群i和j內的平均配對差異。,,距離模型的選擇,當序列分歧比較大時,不同距離測度獲的結果差異比較大;但序列分歧比較小時,各種模型所得的數據十分相近。目前古DNA研究的對象多為10萬年內的人、動植物等,其序列分歧度都不是很大,因此無論選擇哪種距離模型,對

8、實驗的分析結果影響都比較小。在古DNA研究中一般選用Kimura雙參數距離模型,在實際應用中,此遺傳距離模型和其它模型相差不大。,距離法常用的聚類算法,算術平均不加權的組對法(unweighted pair group method with arithmatic mean, UPGMA)、FM法(Fitch-Margoliash)、最小進化法(minimum evolution, ME)鄰接法(neighbor-joining

9、, NJ),NJ法,NJ法在系統(tǒng)發(fā)育樹構建中應用最為廣泛,其原理是逐步尋找新的近鄰種類(序列),使最終生成的分子樹的遺傳距離總長度為最小。所謂“近鄰”是指在譜系樹上兩個分類單元只通過一個內部節(jié)點相連。對于古DNA研究來說,通常選用NJ法構樹。,簡約法,簡約法(parsimony methods)中最有影響的是最大簡約法(Maximum Parsimony, MP),該方法源于形態(tài)性狀的研究,運用最相近的生物間性狀變化量最少的演化原理確

10、定最短的進化樹,該樹僅需要最少的進化步驟就能解釋所有DNA序列之間的變異 。構建最簡約譜系樹的位點被稱為簡約信息點(informative site)當無論有多少條序列進行比對后,如果一個位點是信息位點,那么在這個位點上它至少要包含兩種不同的核苷酸,而且每種核苷酸至少在兩個序列中出現。,最大簡約樹的構建,最大簡約法應用于序列數據構建包括以下幾個步驟: ⑴ 確定所有的信息位點, ⑵ 對所有可能的樹型,計算每個信息位點上的

11、發(fā)生核苷酸替代的最低次數,并對所有信息位點的最低替代數目求和, ⑶ 選擇核苷酸替代次數總和最小的樹作為最簡約譜系樹。,一致樹consensus tree,在簡約法中會產生多顆等價的簡約樹是很常見的,大量近源序列組成的數據集有時會產生成百上千棵樹,無法得到準確的系統(tǒng)發(fā)育信息。此時最好的辦法是將所有的譜系樹合成為一個譜系樹,即一致樹。一致樹可分為: 嚴格一致樹(strict consensus tree) 多數一致

12、樹(majority-rule consensus tree),似然法,似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML),這類方法首先要確定一個序列進化模型,例如Kimura雙參數模型等。然后在該模型下尋找可能的系統(tǒng)樹,最后通過比較系統(tǒng)樹的似然函數值,將具有最大似然值的系統(tǒng)樹視為最佳的系統(tǒng)樹。實際上,似然值是從比對的每一個堿基位點衍生出來的。如果以核苷酸替代模型為基礎

13、,最大似然法需要確定每個分支在一定時間間隔內核苷酸發(fā)生特定替代變化的概率。,中介網絡法(median network),mtDNA控制區(qū)序列系統(tǒng)發(fā)育信息位點少,受頻發(fā)突變影響而出現多系或網狀結構,上述這些傳統(tǒng)構樹方法往往最后只使用一棵分子系統(tǒng)樹, 很難反映單倍型序列間的真實系統(tǒng)發(fā)育關系。此外, 這些方法在構建分子系統(tǒng)樹時,不考慮單倍型的頻率及其地理來源的信息。 Bandelt等提出一種新的構樹方法—中介網絡法,可以構建中介網絡圖,該圖

14、包含所有最簡約的樹,而且可顯示序列的信息(如同質性位點的位置、突變熱點以及分辨單倍型類群等),在聚類簇中節(jié)點之間的距離越近,它們的單倍型就越相近。,不同構樹方法的評估和比較,在研究實際問題的過程中,不同譜系構樹方法獲得的結果不盡相同。目前還沒有一種構樹方法可以適合于所有的數據和條件。在構建系統(tǒng)發(fā)育樹時,最好同時使用多種方法構建系統(tǒng)樹,多種方法所獲系統(tǒng)樹的一致,將大大提高結果的可靠性。當然無論使用何種方法重建系統(tǒng)樹,都必須對其分支格局的

15、統(tǒng)計置信度進行檢驗。,系統(tǒng)發(fā)育樹的檢驗,當一個系統(tǒng)樹建成后,確定其可靠性十分重要。因此在構建系統(tǒng)發(fā)育樹之后,應當對所建立的系統(tǒng)樹的準確度加以評估。一個系統(tǒng)樹一般會有兩類誤差:拓撲結構誤差和分支長度誤差。 在檢驗分子系統(tǒng)樹的精確性時一般首先檢驗分支拓撲結構存在的誤差,而分枝長度估計的可靠性可以通過自展法來檢驗。,自展法(bootstrap method),自展法根據從原始數據集中隨機抽樣產生的自展數據集構建多個系統(tǒng)發(fā)育樹,然后檢驗這些譜

16、系樹對一致樹各個支系的支持率。自展法可以對距離構樹方法、最大簡約建樹方法、最大似然構樹方法以及衍生出的其它任何方法進行評估。典型的自展檢驗分析結果是一個數字,這個數字同一個系統(tǒng)發(fā)育進化樹的一個特定分支相關,而這個系統(tǒng)發(fā)育進化樹則給出了支持單源進化分支的自展的重復比例。如果自展值大于70%,那么所得到的系統(tǒng)發(fā)育進化樹能夠反映真實的系統(tǒng)發(fā)生史的可能性要大于95%。,遺傳多維尺度分析,對于親緣關系較近的群體,用構建系統(tǒng)發(fā)育樹的方法分析其

17、遺傳關系有一定的局限性。當親緣關系很近時,不同方法所得到的系統(tǒng)發(fā)育樹在分支上總是或多或少存在差別,而在理論上無法判定哪種譜系更為合理。 多維尺度分析基于對象間的相似性或不相似性,它從原始變量中得到一系列經過簡化的新變量,并以新變量為基礎,對對象進行縮放,用圖形表示對象在多維空間(Muti—dimensionaL space,MDS)中的關系的。,遺傳多維尺度分析,在遺傳多維尺度分析過程中,它以兩個群體間的遺傳距離作為尺度,在多維圖上遺

18、傳距離接近的群體會聚在一起,從而直觀形象的推斷出群體間遺傳距離的遠近。但是,MDS法僅僅以兩兩亞群體間的遺傳距離作為尺度,缺乏對整個群體進化發(fā)育關系的宏觀考慮,同時在數據轉化為一個二維平面或三維空間的尺度問題上也存在一定的局限。因此在分析古DNA數據時,宜將MDS法和構建系統(tǒng)發(fā)育樹這兩種方法結合起來考慮,這樣可以得到更合理的結果。,圖 契丹與7個現代對比人群的多維度分析OM=外蒙古、IM=內蒙古、DAU=達斡爾、N H=北方漢族、U

19、IG=維吾爾、KAZ=哈薩克、UZB=烏茲別克,主成分分析,在多數實際問題中,當我們對同一個體進行多項觀察時,必定涉及多個隨機變量。由于指標較多及指標間有一定的相關性,勢必增加分析問題的復雜性。我們希望有一個或幾個較好的綜合指標(即主成分)來概括信息,而且希望綜合指標互相獨立地各代表某一方面的性質。主成分分析的實質是將樣本的多個指標化為少數的幾個指標的一種多元統(tǒng)計方法。,群體遺傳學分析,群體遺傳學主要研究基因頻率在群體中的變化規(guī)律以及

20、如何保持遺傳多樣性。群體遺傳結構動態(tài)分析主要這主要包括:遺傳多樣性指度分析、核苷酸不配對差異分析、中性檢驗和分子差異性分析以及基因混合度分析等。,群體遺傳多樣性指度分析,遺傳多樣性指度分析主要指: 基因多樣性(gene diversity) 核苷酸多樣性(nucleotide diversity) 平均配對差異數(mean number of pairwise differences)。,,基因多樣性,當一個基

21、因座上有兩個或兩個以上的等位基因存在時,我們就稱該基因座具有基因多態(tài)性(genetic polymorphism)。在群體中一個基因座的基因多樣性計算公式如下:,n 是基因拷貝在樣本中的數目,對于單倍體來說 n 就是樣本的數量,對于二倍體來說 n 是標本數的2倍。K 是等位基因的數目,Pi是第i個等位基因的群體頻率。,核苷酸多樣性,一個不依賴于樣本大小的DNA多態(tài)性的測度是兩個序列間每個位點上核苷酸差異的平均值或核苷酸多態(tài)性,計算公式如

22、下:,,dij是第i個等位基因和第j個等位基因間的核苷酸差異數,L是序列的長度。,平均配對差異數,平均配對差異數指所有序列比對差異數的平均數,計算公式如下 :,n是樣本的數量,其他參數與上面相同。,核苷酸配對差異分析與中性檢驗,一般來說,群體是否經受擴張、瓶頸效應或保持群體大小恒定等會影響到群體間的遺傳距離。因此,當我們分析群體間的親緣關系時,也需考察群體的歷史動態(tài),核苷酸配對差異分布分析和中性檢驗就是兩個有力的檢驗工具。,核苷酸配對差

23、異分布分析,核苷酸配對差異分布分析(Mismatch distribution)是將一個或多個群體的任意兩個序列進行兩兩比較得出的各序列間配對差異的分布情況。通過觀察群體的核苷酸配對差異分布曲線,可以推測群體的歷史動態(tài)。當分布曲線呈現單峰泊松分布時,表明群體在過去經受過擴張或持續(xù)增長。,中性檢驗,通過中性檢驗也可以推斷群體的歷史動態(tài)。在古DNA研究中應用最為廣泛的是Tajima’s 和 Fu’s Fs中性檢驗,當Tajima’s D值

24、和Fu’s Fs值呈現較大的負值,顯著偏離中性突變時,可以作為一個古代群體擴張的證明。,中國古代馬群體擴張,Fu’s Fs負值(-14.21,P=0.0000),分子差異分析,分子差異性分析(analysis of molecular variance, AMOVA) 主要以分子單倍型之間的突變數目為基礎,通過對所研究群體進行不同層次的歸類和劃分,可界定不同的遺傳結構并進行統(tǒng)計學檢驗,從而估計出群體間、群體內以及個體間不同層次所表現的差

25、異占總變異的多少,可以討論不同海拔高度、不同語系、以及地理群體間是否存在相應的遺傳變異,尤其在比較不同群體之間遺傳相關性大小時十分有用。,基因混合度計算,一個生物類群或種群的來源往往是多元的,而祖先類群對新類群形成的貢獻率很可能是不相等的,要定量地刻劃每個祖先類群對新類群的基因貢獻的大小,就須借助基因混合度的計算。在假設兩個祖先人群A,B和混合人群M進化速率相同的情況下,由A人群貢獻給M人群的基因的比例可表示為:M = 1/2 +(f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論