版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章基于距離的系統(tǒng)發(fā)生分析第四章基于距離的系統(tǒng)發(fā)生分析分子系統(tǒng)發(fā)生學(xué)的歷史4.1分子系統(tǒng)發(fā)生分析的優(yōu)點(diǎn)4.2系統(tǒng)發(fā)生樹4.3距離矩陣法4.4最大似然法4.5多重序列比對(duì)4.64.1分子系統(tǒng)發(fā)生學(xué)的歷史
系統(tǒng)發(fā)生學(xué)是研究物種之間的進(jìn)化關(guān)系的,是進(jìn)化生物學(xué)的一個(gè)重要研究領(lǐng)域,系統(tǒng)發(fā)生分析在達(dá)爾文時(shí)代就已經(jīng)開始。從那時(shí)起,科學(xué)家們就開始尋找物種的源頭,分析物種之間的進(jìn)化關(guān)系,給各個(gè)物種分門別類。CharlesDarwin(1809-1882)4.2分子系統(tǒng)發(fā)生分析的優(yōu)點(diǎn)表型分析
①具有一定的局限性②許多生物體沒(méi)有可用來(lái)進(jìn)行比較的易于研究的表型③什么樣的表型特征能用來(lái)比較也不特別明了比較分析分子系統(tǒng)發(fā)生分析基于DNA和蛋白質(zhì)序列的分析,能夠克服表型分析的缺點(diǎn)問(wèn)題,能夠?qū)ι矬w進(jìn)行正確的分組,對(duì)于所得數(shù)據(jù)比較可靠。表性分析:利用生物體的外觀比較來(lái)推斷生物體的基因型,如外形相似即表型相似則認(rèn)為編碼表型的基因也相似;反之,表型不同,基因也不同。4.3系統(tǒng)發(fā)生樹概念
系統(tǒng)發(fā)生樹:三個(gè)或者更多基因或生物體之間進(jìn)化關(guān)系的典型圖示;
大部分系統(tǒng)發(fā)生研究都是圍繞系統(tǒng)發(fā)生樹的概念進(jìn)行的,它不僅表示了數(shù)據(jù)之間的關(guān)系,還體現(xiàn)了他們的分歧時(shí)間和他們共同祖先的特征。
4.3系統(tǒng)發(fā)生樹重建系統(tǒng)發(fā)生樹的術(shù)語(yǔ)4.3.1有根樹和無(wú)根樹4.3.2基因樹和物種樹4.3.3特征和距離數(shù)據(jù)4.3.44.3.1重建系統(tǒng)發(fā)生樹的術(shù)語(yǔ)4.3.1重建系統(tǒng)發(fā)生樹的術(shù)語(yǔ)
5個(gè)物種(Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ)之間的進(jìn)化關(guān)系的系統(tǒng)發(fā)生樹ABCDⅠⅡⅢⅣⅤ系統(tǒng)發(fā)生樹結(jié)構(gòu)的基本信息在計(jì)算機(jī)程序中常用一組嵌套的圓括號(hào)表示,稱為Newick格式,用該格式來(lái)表示上圖中的樹,可寫成(((Ⅰ,Ⅱ)
,(Ⅲ,Ⅳ)),Ⅴ)外部節(jié)點(diǎn)內(nèi)部節(jié)點(diǎn)根節(jié)點(diǎn)4.3.2有根樹和無(wú)根樹ⅠⅡⅢⅣⅤ根時(shí)間ⅠⅡⅢⅣⅤ⑴有根樹⑵無(wú)根樹有根樹種,單一的節(jié)點(diǎn)指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。無(wú)根樹只表明了節(jié)點(diǎn)之間的關(guān)系,而沒(méi)有關(guān)于進(jìn)化發(fā)生方向的信息;4.3.2有根樹和無(wú)根樹描述少量物種之間可能的進(jìn)化關(guān)系的有根樹和無(wú)根樹的數(shù)目物種數(shù)目有根樹數(shù)目無(wú)根樹數(shù)目211331415351051510344594252207025152134580467678757905853580625208200794532637891559375221643095476699771875n個(gè)物種可能的有根系統(tǒng)發(fā)生樹(NR)和無(wú)根系統(tǒng)發(fā)生樹(NU)數(shù)目可用下面的公式計(jì)算得到:
NR=(2n-3)!∕2n-2(n-2)!
NU=(2n-5)!∕2n-3(n-3)!只有一棵樹代表了(基因或物種)的實(shí)際系統(tǒng)發(fā)生關(guān)系!4.3.3基因樹和物種樹區(qū)別:基因樹為基于單個(gè)同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹;物種樹一般從多個(gè)基因數(shù)據(jù)中分析得出。只考慮一個(gè)基因的時(shí)候個(gè)體可能表現(xiàn)出與其他物種的成員關(guān)系更近?;蚍只录3T谖锓N形成前或后發(fā)生。4.3.4特征和距離數(shù)據(jù)用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類:(1)
距離(distances)數(shù)據(jù),常用距離矩陣描述,表示兩個(gè)數(shù)據(jù)集之間所有兩兩差異;(2)
特征(characters)數(shù)據(jù),表示分子所具有的特征。
DNA和蛋白質(zhì)序列數(shù)據(jù)描述離散的特征;一旦建立了確定所有可能狀態(tài)之間相似性的標(biāo)準(zhǔn),特征數(shù)據(jù)就很容易轉(zhuǎn)化成距離數(shù)據(jù);例:4個(gè)物種A、B、C、D建立的矩陣,假設(shè)其兩兩距離如下所示:數(shù)目ABCBdABCdACdBCDdADdBDdCDdAB表示物種A和B之間的距離,dAC表示物種A和C之間的距離,依次類推。UPGMA算法先將兩個(gè)距離最近的物種合成一個(gè)復(fù)合物種組,如上表所示,假設(shè)距離矩陣中的最小值是dAB,所以物種AB首先組合成一組(AB),類聚以后,需要更新距離矩陣,計(jì)算新組(
AB)和物種C和D之間的距離:d(AB)C
=1/2(
dAC+dBC),d(AB)D
=1/2(
dAD+dBD)然后再將新的矩陣中距離最近的物種再次合成一個(gè)復(fù)合物種組,如此反復(fù),直到把所有物種都聚為一類。
例:兩兩矩陣之間的不匹配的核苷酸數(shù)目1020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA物種ABCDB9C811D121510E1518135最小將物種D和E聚成一類,然后再計(jì)算新的距離矩陣
物種BACACDE16.5將物種A和C聚成一類,然后再計(jì)算新的距離矩陣物種ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE))用UPGMA法重建系統(tǒng)發(fā)生樹DE(D,E)ACDE(A,C),(D,E)ACBDE(((A,C),B),(D,E))物種BACAC10DE16.512.54.4.2分支長(zhǎng)度的估計(jì)系統(tǒng)發(fā)生樹的拓?fù)浣Y(jié)構(gòu)除了描述序列之間的關(guān)系,還可以表達(dá)有關(guān)序列的分歧程度的信息。標(biāo)度樹能夠表達(dá)這樣的信息,通常稱為進(jìn)化分支圖,它的分支長(zhǎng)度對(duì)應(yīng)于推斷出的序列獨(dú)立積累替換的時(shí)間。確定進(jìn)化分支圖中每一條分支的相對(duì)長(zhǎng)度,只要利用距離矩陣中的信息進(jìn)行簡(jiǎn)單的計(jì)算。如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點(diǎn)將置于與分叉樹上相對(duì)應(yīng)的兩個(gè)物種距離相等的地方。4.4.2分支長(zhǎng)度的估計(jì)例:A(A,C)(D,E)CDE442.52.56.256.25這個(gè)簡(jiǎn)單的估計(jì)分支長(zhǎng)度的方法使得UPGMA成為能構(gòu)造有根系統(tǒng)發(fā)生樹的少數(shù)幾種方法之一。dDE=5dAC=8
如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點(diǎn)將置于與分叉樹上相對(duì)應(yīng)的兩個(gè)物種距離相等的地方。描述4個(gè)物種的標(biāo)度樹4.4.2分支長(zhǎng)度的估計(jì)當(dāng)不同的家系有不同的進(jìn)化速率時(shí),確定標(biāo)度樹的分支長(zhǎng)度變得略微復(fù)雜些BACχуzdAC=χ
+у
dAB=χ
+zdBC=у
+z對(duì)上面的等式進(jìn)行簡(jiǎn)單的代數(shù)變換,分支長(zhǎng)度就可以用兩兩距離矩陣中的數(shù)值表示:χ=(dAB
+dAC
–dBC)/2у
=(dAC
+dBC
–dAB)/2z
=(dAB
+dBC
–dAC
)/2最簡(jiǎn)單的樹(3個(gè)物種,1個(gè)分支點(diǎn))4.4.3距離變換法距離矩陣法的一個(gè)優(yōu)點(diǎn)是對(duì)于表型數(shù)據(jù)和分子數(shù)據(jù),甚至是兩者的結(jié)合,都很適用。它考慮了具體分析中所有可能獲得的數(shù)據(jù),而在第5章中介紹另一種算法——簡(jiǎn)約法則忽略所謂的非信息位點(diǎn)。UPGMA算法的一個(gè)缺陷是假定所有家系的進(jìn)化速率是相同的,但是相對(duì)速率測(cè)試表明情況并不總是這樣。替換速率的變化對(duì)UPGMA方法來(lái)說(shuō)是很重要的問(wèn)題,極易導(dǎo)致它產(chǎn)生錯(cuò)誤的拓?fù)浣Y(jié)構(gòu)的樹。4.4.3距離變換法除UPGMA法外,其他的一些基于距離矩陣的方法考慮了不同的家系有不同的進(jìn)化速率,其中最簡(jiǎn)單的最早的算法是距離變換法。這種方法充分利用了外群或外部參考物種——先于其他所有被考慮的物種[內(nèi)群或內(nèi)部物種(從它們的共同祖先中分化出來(lái)的那些物種)]。4.4.3距離變換法d’ij=(dij-diD-djD)/2+dD
公式中d’ij是物種i和j之間變換后的距離,dD是外部參考物種與全體內(nèi)部物種之間的平均距離。dD=ΣdiD/(n-1)物種ABCB9C811D121510--四個(gè)物種兩兩進(jìn)化距離(假設(shè)樹可加)-ABCD3623164.4.3距離變換法d’ij=(dij-diD-djD)/2+dD
公式中d’ij是物種i和j之間變換后的距離,dD是外部參考物種與全體內(nèi)部物種之間的平均距離。dD=ΣdiD/(n-1)物種ABCB9C811D121510物種ABB10/3C16/316/3--四個(gè)物種兩兩進(jìn)化距離(假設(shè)樹可加)3個(gè)物種為內(nèi)部物種,D為外部物種時(shí)的距離矩陣-物種ABCB9C811D121510物種ABBCdD=(dAD+dBD+dCD)/3
=(12+15+10)/3=37/3-d’AB=(dAB-dAD-dBD)/2+dD=(9-12-15)/2+37/3=10/3-10/3d’BC=(dBC-dBD-dCD)/2+dD=(11-15-10)/2+37/3=16/3d’AC=(dAC-dAD-dCD)/2+dD=(8-12-10)/2+37/3=16/3--16/316/34.4.4近鄰關(guān)系法近鄰關(guān)系法是由UPGMA法演變出的另一種常用的方法,強(qiáng)調(diào)配對(duì)物種,由此構(gòu)造一棵分支長(zhǎng)度總和最小的樹。任意一棵無(wú)根樹中,僅被一個(gè)內(nèi)部節(jié)點(diǎn)分隔的一對(duì)物種稱為近鄰。DABCabcde四個(gè)物種(A,B,C,D)之間進(jìn)化關(guān)系的通用系統(tǒng)發(fā)生樹上圖中的系統(tǒng)發(fā)生樹的拓?fù)浣Y(jié)構(gòu)給出了一些近鄰間有用的代數(shù)關(guān)系,由于樹是正確的且可加和,則下面的等式成立:
dAC+dBD=
dAD+dBC=
a+b+c+d+2e=dAB+
dCD+
2e下面的不等式也是成立的:
dAB+
dCD<
dAC+dBDdAB+
dCD<
dAD+dBC4.4.4近鄰關(guān)系法例:1977年,S.Sattath和A.Tversky提出了一種用近鄰關(guān)系法構(gòu)建多于4個(gè)物種的樹的方法。他們建立了一個(gè)距離矩陣,用矩陣中的值計(jì)算出針對(duì)前4個(gè)物種的3個(gè)數(shù)值:⑴dAB+dCD⑵dAC+dBD⑶dAD+dBC。取和最小的兩個(gè)配對(duì)打分為1,而其他的4個(gè)配對(duì)打分為0。對(duì)數(shù)據(jù)集中所有可能的4個(gè)物種的組合都重復(fù)以上的步驟,不斷累計(jì)得分。最后得分最高的一對(duì)物種聚為一組,即這兩個(gè)物種是近鄰,就像UPMGA法一樣,得到一個(gè)新的距離矩陣,用新的距離矩陣開始新一輪的打分過(guò)程,直到只剩下3個(gè)物種(此時(shí),樹的拓?fù)浣Y(jié)構(gòu)已經(jīng)明確確定了)。
4.4.5鄰近歸并法鄰近歸并法是對(duì)上面的方法做了一些改動(dòng)。這類算法首先是由一棵星狀樹開始,不管數(shù)目多少,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過(guò)最小化樹的分支長(zhǎng)度和,相繼找到近鄰。計(jì)算分支長(zhǎng)度和公式:
1987年N.Saitou和M.Nei提出
S12=(1/(2(N-2))(∑(d1k+d2k)+(1/2)d12+(1/N-2)(∑dij)))式中樹的1和2的位置可以使其中任何一對(duì)物種,N是距離矩陣中物種的數(shù)目
k是引入外部參考物種,dij是物種i和j之間的距離;
1988年,J.Studier和K.Keppler提出一種快速算法:
Q12=(N-2)d12-
∑d1i-∑d2i
4.5最大似然法最大似然法是另外一類完全基于統(tǒng)計(jì)的系統(tǒng)發(fā)生樹重建方法的代表。該法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。例如,在第3章中我們已經(jīng)知道,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的3倍。在一個(gè)三序列的比對(duì)中,發(fā)現(xiàn)其中有一列為一個(gè)C、一個(gè)T和一個(gè)G,有理由認(rèn)為,C和T所在的序列之間的關(guān)系有可能更接近。最后根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實(shí)情況的系統(tǒng)發(fā)生樹。4.6多重序列比對(duì)在前面第2章提到多重序列比對(duì),在被比對(duì)的序列十分相似并且不涉及很多的插入或刪除事件情況下的序列比對(duì)是最容易的。兩個(gè)以上的序列同時(shí)比對(duì)是兩個(gè)序列比對(duì)的擴(kuò)展。多序列比對(duì)中的最主要的困難是計(jì)算。例如:在多序列比對(duì)中,在一條序列中插入一個(gè)核苷酸意味著在其他每一條序列中加一個(gè)空位,并且能嚴(yán)重的破壞對(duì)空位插入和長(zhǎng)度懲罰的的固定記分。一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GAT 760.5-2008公安信息化標(biāo)準(zhǔn)管理分類與代碼 第5部分:制定修訂方式代碼》專題研究報(bào)告深度
- 2026年深圳中考語(yǔ)文壓縮語(yǔ)段專項(xiàng)試卷(附答案可下載)
- 2026年深圳中考英語(yǔ)期末綜合測(cè)評(píng)試卷(附答案可下載)
- 山東省青島市市北區(qū)2026年九年級(jí)上學(xué)期期末考試物理試題附答案
- 禁毒相關(guān)題目及答案
- 2026年深圳中考數(shù)學(xué)圓的切線專項(xiàng)試卷(附答案可下載)
- 大學(xué)生信息技術(shù)培訓(xùn)課件
- 臨終患者的心理社會(huì)支持
- 第14課《紅燭》(教學(xué)設(shè)計(jì))高二語(yǔ)文+拓展模塊下冊(cè)(高教版2023年版)
- 產(chǎn)科圍手術(shù)期產(chǎn)后焦慮護(hù)理
- 湖北省2024-2025學(xué)年高一上學(xué)期期末聯(lián)考數(shù)學(xué)試卷 含解析
- 農(nóng)業(yè)銀行房貸合同范本
- 成體館加盟協(xié)議書范文范本集
- DB34T 4506-2023 通督調(diào)神針刺療法應(yīng)用指南
- 02-輸電線路各階段設(shè)計(jì)深度要求
- 《認(rèn)識(shí)時(shí)鐘》大班數(shù)學(xué)教案
- T-CI 178-2023 高大邊坡穩(wěn)定安全智能監(jiān)測(cè)預(yù)警技術(shù)規(guī)范
- THHPA 001-2024 盆底康復(fù)管理質(zhì)量評(píng)價(jià)指標(biāo)體系
- 傷口的美容縫合減少瘢痕的形成
- MSOP(測(cè)量標(biāo)準(zhǔn)作業(yè)規(guī)范)測(cè)量SOP
- 顱鼻眶溝通惡性腫瘤的治療及護(hù)理
評(píng)論
0/150
提交評(píng)論