版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章分子進(jìn)化與系統(tǒng)發(fā)育講授:舒坤賢2013.11WhereDoWeComeFrom?WhatAreWe?WhereAreWeGoing?(MuseumofFineArts,Boston)“一個(gè)半世紀(jì)以前,CharlesDarwin可能沒(méi)有意識(shí)到他所給予科學(xué)的是一件從未有過(guò)的強(qiáng)大武器,即他的進(jìn)化理論??茖W(xué)家用這把堅(jiān)利之劍斬?cái)嗔藷o(wú)知、迷信和傲慢,這些束縛人類對(duì)億萬(wàn)年來(lái)的生命的了解的鐐銬。”——《美國(guó)自然博物館成立125周年紀(jì)念??非把訡harlesDarwin(1809-1882)Whoarecloser?OutofAfrica53個(gè)人的線粒體基因組(16,587bp)人類遷移的路線TreeofLife:重建所有生物的進(jìn)化歷史并以系統(tǒng)樹(shù)的形式加以描述。Wehaveadream…第一節(jié)分子進(jìn)化與系統(tǒng)發(fā)育Darwin,Charles(1809-1882)
《TheOriginofSpecies》(1859)化石證據(jù)(最理想的方法:化石!——
然而…零散、不完整)
(Fossil)比較形態(tài)學(xué)證據(jù)
(Comparativemorphology)比較生理學(xué)證據(jù)
(Comparativephysiology)系統(tǒng)學(xué)(Systematics)分類學(xué)(Taxonomy)經(jīng)典的進(jìn)化研究方法比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架?!?/p>
然而,細(xì)節(jié)存在巨多的爭(zhēng)議一、分子水平的進(jìn)化分子水平的進(jìn)化主要是指在生物進(jìn)化過(guò)程中,構(gòu)成生物體的大分子物質(zhì),如蛋白質(zhì)、核酸的演變過(guò)程。分子系統(tǒng)發(fā)育學(xué)MolecularPhylogenetics分子系統(tǒng)學(xué)MolecularSystematicsWhatcanwedoformolecularevolution?序列比較:源于同一祖先DNA/氨基酸序列的兩條DNA/氨基酸序列,考察二者的差異。序列差異:進(jìn)化過(guò)程中分子突變的痕跡。分子進(jìn)化:以累計(jì)在DNA/氨基酸分子上的歷史信息為基礎(chǔ),研究分子水平的生物進(jìn)化過(guò)程和機(jī)制。分子系統(tǒng)學(xué)為生物分類問(wèn)題提供了許多嶄新的見(jiàn)解?;蛲蛔?、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換固定在生物個(gè)體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子系統(tǒng)學(xué)是研究進(jìn)化機(jī)制的一個(gè)重要工具。生物進(jìn)化的分子機(jī)制性狀改變DNA分子的改變核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertionDNA序列的突變
Thr
Tyr
LeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代
ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入
ThrTyr
LeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyr
Cys-缺失
Thr
TyrLeu
LeuACCTATTTGCTGACCTTT
ATGCTG
Thr
PheMet
Leu倒位核苷酸替代的幾種分類轉(zhuǎn)換
(transition)嘌呤嘌呤嘧啶嘧啶顛換
(transvertion)嘌呤嘧啶嘧啶嘌呤ATCG胞嘧啶腺嘌呤胸腺嘧啶鳥(niǎo)嘌呤
在大多數(shù)DNA片段中,轉(zhuǎn)換出現(xiàn)的概率高于顛換出現(xiàn)的概率。DNA序列突變對(duì)氨基酸序列的影響
同義(沉默)替代(synonymous/silentsubstitution)仍然為同義密碼子的核苷酸替代如:TATTAC
TyrTyr
非同義替代(nonsynonymoussubstitution)導(dǎo)致產(chǎn)生非同義密碼子的核苷酸替代如:TATAAT
TyrAsn
無(wú)義突變(nonsensemutation)導(dǎo)致產(chǎn)生終止密碼子的核苷酸突變?nèi)纾篢ATTAA
TyrSTP問(wèn)題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例25%,71%,4%1、分子進(jìn)化的特點(diǎn)1)生物大分子進(jìn)化速率相對(duì)恒定Sandwalk:TheModernMolecularClock-1244×1000-按圖片搜索網(wǎng)頁(yè)制作者:LaurenceA.Moran-...interestedinmolecularclocks(BrohamandPenny,2003;Kumar,2005).也可嘗試查看以下圖片:
圖片可能受版權(quán)保護(hù)。-發(fā)送反饋分子進(jìn)化速率
生物大分子隨時(shí)間的改變主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級(jí)結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進(jìn)化速率大體相同
例子:比較不同物種血紅蛋白氨基酸序列差異人、馬——0.8
10-9/AA.a
人、鯉魚(yú)——0.6
10-9/AA.a分子進(jìn)化速率遠(yuǎn)遠(yuǎn)比表型進(jìn)化速率穩(wěn)定原因?
序列的核苷酸或氨基酸替換是否隨機(jī)過(guò)程?…1965,ZuckerkandlandPauling,MolecularClock,分子鐘根據(jù)分子系統(tǒng)學(xué)研究與古生物學(xué)資料相結(jié)合,建立推論生物進(jìn)化事件發(fā)生的時(shí)間表。
假定分子進(jìn)化速率r恒定,則分子進(jìn)化改變量(替代數(shù)目或替代率)與進(jìn)化時(shí)間成正比。以兩條序列為例:d=2rt其中,t是進(jìn)化時(shí)間,d是這兩條序列每個(gè)位點(diǎn)的替代數(shù)目。分子鐘成立的先決條件:分子進(jìn)化速率恒定。分子鐘成立的證據(jù):A至少某些生物大分子(如珠蛋白)的進(jìn)化速率在相當(dāng)長(zhǎng)的地質(zhì)時(shí)間內(nèi)的相對(duì)穩(wěn)定、均勻;B許多不同物種的多種同源大分子在相當(dāng)長(zhǎng)時(shí)間內(nèi)的平均進(jìn)化速率近似恒定。建立分子鐘的大致步驟a、選擇所要比較的生物大分子種類根據(jù)具體研究目標(biāo)和已掌握的資料,選擇進(jìn)化速率相對(duì)恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。b、選擇所要比較的物種,確定各比較組合及其所代表的進(jìn)化事件c、獲得生物大分子一級(jí)結(jié)構(gòu)的資料d、獲得有關(guān)的代表性進(jìn)化事件發(fā)生的地質(zhì)時(shí)間數(shù)據(jù)e、通過(guò)比較大分子一級(jí)結(jié)構(gòu),選擇合適的數(shù)學(xué)模型,計(jì)算得到進(jìn)化產(chǎn)生的分子差異d,通過(guò)回歸分析等統(tǒng)計(jì)方法得到大分子的進(jìn)化速率r(t)f、由此可以推斷未知進(jìn)化事件的發(fā)生時(shí)間關(guān)于分子鐘的討論和爭(zhēng)議a、對(duì)長(zhǎng)期進(jìn)化而言,不存在以恒定速率替換的生物大分子一級(jí)結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加)b、不存在通用的分子鐘;c、爭(zhēng)議:分子鐘的準(zhǔn)確性中性理論(分子鐘成立的基礎(chǔ))2)生物大分子進(jìn)化的保守性保守性
功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無(wú)明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸
例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進(jìn)化速率是內(nèi)區(qū)進(jìn)化速率的10倍。核苷酸
例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。生物大分子進(jìn)化并非完全隨機(jī)
存在某種制約因素,存在某種機(jī)制……?從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹(shù),進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife;物種分類。TreeofLife:16SrRNA進(jìn)化理論圍繞的三個(gè)主題A進(jìn)化的動(dòng)力是什么?B進(jìn)化是否有一定的方向?C進(jìn)化的速度是否恒定?是漸近的還是跳躍的?分子進(jìn)化理論同樣必須回答上述三個(gè)問(wèn)題。2、分子進(jìn)化的中性學(xué)說(shuō)Darwinian進(jìn)化理論告訴了什么?(1)、遺傳和變異
一切生物都能發(fā)生變異,至少有一部分變異能夠遺傳給后代(2)、自然選擇
繁殖過(guò)剩:任何生物產(chǎn)生的生殖細(xì)胞或后代數(shù)目要遠(yuǎn)遠(yuǎn)多于可能存活的個(gè)體數(shù)目;而在所產(chǎn)生的后代中,那些最具有適應(yīng)環(huán)境條件的有利變異的個(gè)體有較大的生存機(jī)會(huì),并繁殖后代,從而使有利變異可以世代積累,不利變異被淘汰?!斑x擇”不是超自然的上帝的作用。(3)、性狀分歧;種的形成、絕滅;系統(tǒng)樹(shù)
性狀分歧原理——在同一個(gè)種內(nèi),個(gè)體之間在結(jié)構(gòu)、習(xí)性上越是歧異,則在適應(yīng)不同環(huán)境方面愈是有利,因而將會(huì)繁育更多的個(gè)體,分布到更廣的范圍。由此一個(gè)種會(huì)逐漸演變?yōu)槿舾勺兎N、亞種乃至新種。新種的形成、種間的競(jìng)爭(zhēng)、種的絕滅、外界環(huán)境的作用系統(tǒng)樹(shù)——由于性狀分歧和中間類型的絕滅,新種不斷產(chǎn)生、舊種不斷絕滅,種間差異不斷擴(kuò)大,形成時(shí)間、空間上的物種系統(tǒng)樹(shù)。Darwinian進(jìn)化理論的三次修正第一次:“新Darwinian主義”
1900s,Weismann等,消除Lamarck的“獲得性遺傳”學(xué)說(shuō)、Buffon的“環(huán)境直接作用”學(xué)說(shuō),強(qiáng)調(diào)“自然選擇”為進(jìn)化的主要因素;第二次:“現(xiàn)代綜合論(Modernsynthesis)”1930-40s,遺傳學(xué)、生物系統(tǒng)學(xué)、古生物學(xué)的重大貢獻(xiàn):對(duì)“自然選擇”、“物種變異”等概念的新認(rèn)識(shí)。適應(yīng):繁殖的相對(duì)優(yōu)勢(shì)適應(yīng)度:個(gè)體或基因型對(duì)后代或后代基因庫(kù)的相對(duì)貢獻(xiàn)適應(yīng)和選擇:繁殖或基因傳遞的相對(duì)差異
……
消除社會(huì)達(dá)爾文主義的科學(xué)基礎(chǔ)第三次:NOW…
原因:現(xiàn)代分子生物學(xué)、古生物學(xué)的發(fā)展。宏觀(對(duì)生物進(jìn)化實(shí)際過(guò)程的了解):古生物學(xué)揭示生命進(jìn)化的規(guī)律、進(jìn)化速度、進(jìn)化趨勢(shì)、物種的形成和絕滅微觀:現(xiàn)代分子生物學(xué)揭示生物大分子的進(jìn)化規(guī)律和攜帶遺傳信息的物質(zhì)基礎(chǔ)及其復(fù)雜結(jié)構(gòu)新的認(rèn)識(shí):(1)、生物進(jìn)化過(guò)程并非“勻速”、“漸變”的,而是“快速進(jìn)化”與“進(jìn)化停滯”相間;(2)、生物進(jìn)化與分子進(jìn)化都顯示出相當(dāng)大的隨機(jī)性,自然選擇并非總是進(jìn)化的主要因素;(3)、遺傳系統(tǒng)本身具有某種進(jìn)化功能,進(jìn)化過(guò)程中可能存在內(nèi)因的“驅(qū)動(dòng)”和“導(dǎo)向”。
Continuing…Neutraltheoryofmolecularevolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子層次上的“non-Darwinianevolution”“在生物分子層次上的進(jìn)化改變不是由自然選擇作用于有利突變而引起的,而是在連續(xù)的突變壓之下由選擇中性或非常接近中性的突變的隨機(jī)固定造成的。中性突變是指對(duì)當(dāng)前適應(yīng)度無(wú)影響的突變?!敝行酝蛔?、連續(xù)突變壓、隨機(jī)固定否認(rèn)自然選擇在分子進(jìn)化中的作用,認(rèn)為生物大分子的進(jìn)化主要因素是機(jī)會(huì)和突變壓力。分子進(jìn)化中性論的若干依據(jù)分子層次上的大多數(shù)變異是選擇中性的
蛋白質(zhì)和核苷酸分子的進(jìn)化速率高且相對(duì)恒定
突變壓在分子進(jìn)化中的作用得到研究證實(shí)按照群體遺傳學(xué)的數(shù)學(xué)模型,自然選擇的代價(jià)太高
分子進(jìn)化中性論的討論1)、中性論是解釋分子層次的進(jìn)化現(xiàn)象
自然選擇只作用于表型,并不直接作用于分子。衡量尺度的區(qū)別:分子的顯著性改變并不意味著表型的顯著性改變。中性論只涉及生物大分子一級(jí)結(jié)構(gòu)單元的替換,并不包含和解釋分子層次的全部改變(如蛋白質(zhì)三級(jí)結(jié)構(gòu)、功能的改變)2)、分子進(jìn)化的保守性表明選擇仍然起作用
可能之一——負(fù)選擇的存在:任何發(fā)生在重要功能的大分子或大分子保守區(qū)的突變,由于造成適應(yīng)度的下降而被選擇淘汰。(隨機(jī)作用)可能之二——存在某種機(jī)制阻止功能重要的大分子或大分子保守區(qū)的突變產(chǎn)生。(非隨機(jī)作用)3)、選擇中性突變的復(fù)雜調(diào)控系統(tǒng)
中性突變的可能原因:復(fù)雜的調(diào)控機(jī)制。基因表達(dá)受到內(nèi)外因素的制約。決定中性突變的調(diào)控系統(tǒng)受到自然選擇的影響。
4)、選擇在分子的適應(yīng)進(jìn)化中起作用
在分子層次上可能存在兩種進(jìn)化形式:中性進(jìn)化(導(dǎo)致分子多樣性)適應(yīng)進(jìn)化(通過(guò)選擇實(shí)現(xiàn),導(dǎo)致分子適應(yīng))能否打倒的Darwinian進(jìn)化論?3、基因組計(jì)劃與分子進(jìn)化基因組計(jì)劃為許多生物進(jìn)化關(guān)鍵問(wèn)題的研究提供了基礎(chǔ)1)、基因組計(jì)劃產(chǎn)生的大量數(shù)據(jù)為分子進(jìn)化研究提供了新的素材人類基因組計(jì)劃、模式生物基因組計(jì)劃2)、可以從生物大分子層次研究進(jìn)化的機(jī)制進(jìn)化機(jī)制:基因重復(fù)、拷貝?(低等生物->高等生物)多基因家族的一致進(jìn)化?提供有關(guān)重復(fù)基因、DNA缺失插入、基因易位、轉(zhuǎn)座子插入等信息,為分子系統(tǒng)學(xué)研究提供更多的研究對(duì)象。4、研究分子進(jìn)化的意義生命起源諸多生命現(xiàn)象的解釋分子系統(tǒng)發(fā)育樹(shù)構(gòu)建二、系統(tǒng)發(fā)育分析的基本概念基于16S/18S核糖體RNA序列比對(duì)得到的古細(xì)菌系統(tǒng)發(fā)育樹(shù)(Ettema等,2005)1、分子系統(tǒng)發(fā)育樹(shù)的基本概念一般來(lái)說(shuō),系統(tǒng)發(fā)生樹(shù)是一種二叉樹(shù)。所謂樹(shù),實(shí)際上是一個(gè)無(wú)向非循環(huán)圖。系統(tǒng)發(fā)生樹(shù)由一系列節(jié)點(diǎn)(nodes)和分支(branches)組成,其中每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列),而節(jié)點(diǎn)之間的連線代表物種之間的進(jìn)化關(guān)系。樹(shù)的節(jié)點(diǎn)又分為外部節(jié)點(diǎn)(terminalnode)和內(nèi)部節(jié)點(diǎn)(internalnode)。在一般情況下,外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元,而內(nèi)部節(jié)點(diǎn)又稱為分支點(diǎn),它代表了進(jìn)化事件發(fā)生的位置,或代表分類單元進(jìn)化歷程中的祖先。分類單元是一種由研究者選定的基本單位,在同一項(xiàng)研究中,分類單元一般應(yīng)當(dāng)一致。abcdabcd拓?fù)浣Y(jié)構(gòu):有根樹(shù):反映時(shí)間順序無(wú)根樹(shù):反映距離
理論上,一個(gè)DNA序列在物種形成或基因復(fù)制時(shí),分裂成兩個(gè)子序列,因此系統(tǒng)發(fā)育樹(shù)一般是二歧的。一般考慮二歧的樹(shù)結(jié)構(gòu):二歧樹(shù)分支:內(nèi)部分支外部分支節(jié)點(diǎn):內(nèi)部節(jié)點(diǎn)外部節(jié)點(diǎn)2、有根樹(shù)和無(wú)根樹(shù)系統(tǒng)發(fā)育樹(shù):術(shù)語(yǔ)祖先節(jié)點(diǎn)/樹(shù)根內(nèi)部節(jié)點(diǎn)/分歧點(diǎn),該分支可能的祖先結(jié)點(diǎn)分支/世系末端節(jié)點(diǎn)
ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等
物種樹(shù):
代表一個(gè)物種或群體進(jìn)化歷史的系統(tǒng)發(fā)育樹(shù)兩個(gè)物種分歧的時(shí)間:兩個(gè)物種發(fā)生生殖隔離的時(shí)間
基因樹(shù):
由來(lái)自各個(gè)物種的一個(gè)基因構(gòu)建的系統(tǒng)發(fā)育樹(shù)(不完全等同于物種樹(shù)),表示基因分離的時(shí)間。abcdef基因分裂基因分裂基因分裂物種分裂3、基因樹(shù)與物種樹(shù)期望樹(shù):
一個(gè)用無(wú)限長(zhǎng)的序列或每一分支的期望替代數(shù)構(gòu)建的樹(shù)理論上:假設(shè)所研究的序列無(wú)限長(zhǎng),從中隨機(jī)抽樣進(jìn)行統(tǒng)計(jì)分析。實(shí)際情況:所研究的序列是短序列,統(tǒng)計(jì)得到的替代數(shù)目存在大量隨機(jī)誤差?,F(xiàn)實(shí)樹(shù):
建立在實(shí)際替代數(shù)基礎(chǔ)上的樹(shù)重建樹(shù)構(gòu)樹(shù)方法系統(tǒng)發(fā)育樹(shù)的種類:期望樹(shù)、現(xiàn)實(shí)樹(shù)和重建樹(shù)
系統(tǒng)發(fā)生樹(shù)性質(zhì):
(1)如果是一棵有根樹(shù),則樹(shù)根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元;(2)如果找不到可以作為樹(shù)根的單元,則系統(tǒng)發(fā)生樹(shù)是無(wú)根樹(shù);(3)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)的路徑指明進(jìn)化時(shí)間或者進(jìn)化距離。對(duì)于給定的分類單元數(shù),有很多棵可能的系統(tǒng)發(fā)生樹(shù),但是只有一棵樹(shù)是正確的。
系統(tǒng)發(fā)生分析的目標(biāo)
——尋找這棵正確的樹(shù)第二節(jié)
分子系統(tǒng)發(fā)生樹(shù)的構(gòu)建方法建立系統(tǒng)發(fā)生樹(shù)的基本任務(wù):在給定的條件下(包括分類單元、分類單元的特征值或者序列),構(gòu)造一棵最優(yōu)的系統(tǒng)發(fā)生樹(shù)。這里重點(diǎn)討論針對(duì)DNA序列或者蛋白質(zhì)序列構(gòu)建系統(tǒng)發(fā)生樹(shù)。1、特征數(shù)據(jù)(characterdata):表示分子所具有的特征,提供了基因、個(gè)體、群體或物種的信息特征數(shù)據(jù)可分為:
二態(tài)特征——例如:DNA序列上的某個(gè)位置如果是剪切位點(diǎn)多態(tài)特征——例如:某一位置可能的堿基有A、T、G或C2、距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata):常用距離矩陣描述,表示兩個(gè)數(shù)據(jù)集之間所有兩兩差異,涉及的則是成對(duì)基因、個(gè)體、群體或物種的信息。
構(gòu)建系統(tǒng)發(fā)生樹(shù)的分子數(shù)據(jù)
計(jì)算序列之間距離令S(i,j)是序列i和序列j比對(duì)位置得分的加權(quán)和
歸一化的距離:其中Sr(i,j)是序列i和j隨機(jī)化之后的比對(duì)得分的加權(quán)和,Smax(i,j)是可能的最大值令Sr(i,j)=0
為了適合于處理相似性較小的序列,可以進(jìn)一步修改距離計(jì)算公式
分子系統(tǒng)發(fā)生分析過(guò)程
多序列比對(duì)(自動(dòng)比對(duì),手工校正)選擇建樹(shù)方法以及替代模型建立進(jìn)化樹(shù)進(jìn)化樹(shù)評(píng)估系統(tǒng)發(fā)生樹(shù)的構(gòu)建方法分為兩大類:基于距離的構(gòu)建方法
最小二乘法
連鎖聚類方法及非加權(quán)組平均法 距離變換法
鄰近歸并法 基于離散特征的構(gòu)建方法最大簡(jiǎn)約法最大似然法根據(jù)建樹(shù)算法在執(zhí)行過(guò)程中采用的搜索方式,系統(tǒng)發(fā)生樹(shù)的構(gòu)建方法也可以分為以下3類。(1)窮盡搜索方法
即產(chǎn)生所有可能的樹(shù),然后根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)選擇一棵最優(yōu)的樹(shù)。
(2)分支約束方法
即根據(jù)一定的約束條件將搜索空間限制在一定范圍內(nèi),產(chǎn)生可能的樹(shù),然后擇優(yōu)。(3)啟發(fā)式或經(jīng)驗(yàn)性方法
根據(jù)先驗(yàn)知識(shí)或一定的指導(dǎo)性規(guī)則壓縮搜索空間,提高計(jì)算速度。
需要注意的是,系統(tǒng)發(fā)生樹(shù)可能的個(gè)數(shù)隨序列的個(gè)數(shù)急劇增加。假設(shè)要為n個(gè)分類單元建立系統(tǒng)發(fā)生樹(shù),則可能的有根樹(shù)個(gè)數(shù)(NR)和無(wú)根系統(tǒng)發(fā)生樹(shù)個(gè)數(shù)(NU)可用下面的算式計(jì)算得到:分支數(shù)目:有根樹(shù)無(wú)根樹(shù)內(nèi)部分支數(shù)目:有根樹(shù)無(wú)根樹(shù)內(nèi)部節(jié)點(diǎn)數(shù)目:有根樹(shù)無(wú)根樹(shù)abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考慮4個(gè)分類群時(shí),共有15種可能的有根樹(shù)abcdacbdadbc考慮4個(gè)分類群時(shí),共有3種可能的無(wú)根樹(shù)表6.1對(duì)不同的n,可能的有根樹(shù)和無(wú)根樹(shù)數(shù)目數(shù)據(jù)數(shù)目
有根樹(shù)數(shù)目
無(wú)根樹(shù)數(shù)目
21133141535105151034,459,4252,207,02515213,458,046,767,8757,905,853,580,625208,200,794,532,637,891,559,375221,643,095,476,699,771,875從計(jì)算量來(lái)看,窮盡搜索方法只能處理很少的分類單元。當(dāng)分類單元個(gè)數(shù)n大于一定值(如15),幾乎不可能采用窮盡搜索的方式來(lái)求取最優(yōu)樹(shù)。因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解。
構(gòu)建進(jìn)化樹(shù)的一般原則http://www.genome.jp/tools/clustalw/一、基于距離的系統(tǒng)發(fā)生樹(shù)構(gòu)建方法基本思路:給定一種序列之間距離的測(cè)度,在該距離測(cè)度下構(gòu)建一棵系統(tǒng)發(fā)生樹(shù),使得該樹(shù)能夠最好地反映已知序列之間的距離。10條核酸序列的距離矩陣
采用兩兩距離,建立一個(gè)距離矩陣,如下表所示,根據(jù)距離矩陣構(gòu)造系統(tǒng)發(fā)生樹(shù)。如何建立分類群之間的進(jìn)化距離的數(shù)學(xué)模型如何根據(jù)不同的概率統(tǒng)計(jì)模型,由兩條序列的差異值構(gòu)建它們的進(jìn)化距離?進(jìn)一步閱讀:《分子進(jìn)化與系統(tǒng)發(fā)育》(MolecularEvolutionandPhylogentics)MasatoshiNei&SudhirKumar,OxfordUniversityPress,Inc.2000中文譯本:呂寶忠、鐘揚(yáng)、高莉萍等譯,高等教育出版社,2002第二~四章(pp15-63)《氨基酸序列的進(jìn)化演變》《DNA序列的進(jìn)化演變》《同義與非同義的核苷酸替代》1、最小二乘法目標(biāo)是構(gòu)造一棵樹(shù)T,該樹(shù)的葉節(jié)點(diǎn)代表物種,用該樹(shù)預(yù)測(cè)物種之間的距離。通過(guò)優(yōu)化,使下式最小化:
這里,Dij為物種i和j的實(shí)際觀察距離(或序列之間的計(jì)算距離),dij是物種i和j在系統(tǒng)發(fā)生樹(shù)T中的距離,Wij是與物種i和j相關(guān)的權(quán)值。SSQ(T)是樹(shù)T所有預(yù)測(cè)值與實(shí)際觀察值偏差的累加和。權(quán)值Wij一般為1,或
Wij=1/Dij2
例,如果有三個(gè)分類單元,其兩兩距離如下:dab=0.5;dac=0.9;dbc=0.9假設(shè)分類單元a和分類單元b的分歧起始時(shí)間是相同的,根據(jù)分子時(shí)鐘假說(shuō),dau
和dbu
的值應(yīng)該是相等的,進(jìn)一步假設(shè)節(jié)點(diǎn)u到其它節(jié)點(diǎn)的距離相同,則通過(guò)求解方程,得到如圖6.2所示的一棵樹(shù)。
但是,在實(shí)際應(yīng)用中,所要處理的分類單元可能很多,因而,需要求解的線性方程也很多,難以求解,或者方程組的求解過(guò)程存在著不確定性。因此,需要采用數(shù)學(xué)逼近的方法。連鎖聚類屬于一般的聚類分析方法,當(dāng)用來(lái)構(gòu)建系統(tǒng)發(fā)生樹(shù)時(shí),其假定的前提條件是:在進(jìn)化過(guò)程中,核苷酸或氨基酸的替換速率是均等且恒定的,在每一次分歧發(fā)生后,從共同祖節(jié)點(diǎn)到兩個(gè)分類單元間的分支長(zhǎng)度一樣。在構(gòu)建系統(tǒng)發(fā)生樹(shù)時(shí),首先用n個(gè)葉節(jié)點(diǎn)表示n個(gè)分類單元(序列),每個(gè)分類單元自成一類,然后通過(guò)反復(fù)的聚類使所有的分類單元都聚為一類,并將進(jìn)化過(guò)程中的祖先賦予樹(shù)的內(nèi)部節(jié)點(diǎn),最終得到一個(gè)完整的系統(tǒng)發(fā)生樹(shù)。假設(shè)若干條序列是從一個(gè)共同的祖先進(jìn)化而來(lái),則系統(tǒng)發(fā)生樹(shù)將是一個(gè)有根樹(shù),并且從根節(jié)點(diǎn)出發(fā)到所有葉節(jié)點(diǎn)路徑的長(zhǎng)度相同。2、連鎖聚類方法及非加權(quán)分組平均法
選擇距離最小的一對(duì)序列將這兩個(gè)序列合二為一,形成一個(gè)新的對(duì)象(代表這兩個(gè)序列的祖先)重新計(jì)算這個(gè)新的對(duì)象與其它序列的距離。單連鎖聚類:d(x,u)=min(d(y,u),d(z,u)) 最大連鎖聚類:d(x,u)=max(d(y,u),d(z,u))平均連鎖聚類:d(x,u)=1/2(d(y,u)+d(z,u))
其中x代表y和z的合并,u代表任意其它對(duì)象?;舅悸贩羌訖?quán)分組平均法
(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)
在平均連鎖聚類過(guò)程中,一個(gè)新類到其它類之間的距離就是簡(jiǎn)單的原距離平均值。
如果類中分類單元個(gè)數(shù)不一樣,原距離矩陣中各個(gè)距離值對(duì)新距離計(jì)算的貢獻(xiàn)就不一樣,或者說(shuō)是經(jīng)過(guò)“加權(quán)”的,稱這樣的聚類為加權(quán)分組平均。在非加權(quán)分組平均法中,在計(jì)算新分類到其它分類之間的平均距離時(shí)按照各分類中分類單元的數(shù)目進(jìn)行加權(quán)處理。
UPGMA算法的執(zhí)行過(guò)程如下:(1)初始化:使每個(gè)物種自成一類,如果有n個(gè)物種,則開(kāi)始時(shí)共有n個(gè)類,每個(gè)類的大小為1,分別用n個(gè)葉節(jié)點(diǎn)代表每個(gè)類;
(2)執(zhí)行下列循環(huán):l
尋找具有最小距離Dij的兩個(gè)類i、j;建立一個(gè)新的聚類(ij)l
連接i和j形成新節(jié)點(diǎn)(ij),生長(zhǎng)兩個(gè)新的分支,將i和j連接到(ij),分支的長(zhǎng)度為Dij/2;l
計(jì)算新分類到其它類的距離
其中ni、nj、(ni+nj)分別為i類、j類、(ij)類的元素個(gè)數(shù);l
在距離矩陣中刪除與類i和類j相應(yīng)的行和列,為類(ij)加入新的行和列;
重復(fù)循環(huán),直到僅剩一個(gè)類為止。
討論1)、在基因替代速率恒定假設(shè)成立時(shí),UPGMA方法比較適用;2)、UPGMA方法適用于具有較小變異系數(shù)的距離測(cè)度;3)、UPGMA是一種既構(gòu)建拓?fù)浣Y(jié)構(gòu)又計(jì)算分支長(zhǎng)度的方法;4)、UPGMA方法既可以得到有根樹(shù),也可以得到無(wú)根樹(shù)。3、距離變換法
連鎖聚類和UPGMA算法的一個(gè)缺陷是假定所有家系的進(jìn)化速率是相同的,但是,實(shí)際情況并不總是這樣。進(jìn)化速率的變化容易導(dǎo)致連鎖聚類和UPGMA算法產(chǎn)生錯(cuò)誤拓?fù)浣Y(jié)構(gòu)的樹(shù)。表6.3四個(gè)分類單元的距離矩陣
ABCB9
C811
D121510假設(shè)有4個(gè)分類單元A、B、C和D,其系統(tǒng)發(fā)生關(guān)系及各個(gè)分類單元之間的距離如圖6.5所示,距離矩陣見(jiàn)表6.3。如果利用UPGMA進(jìn)行分析,則首先合并A和C,(AC)到B的距離等于9/2+11/2=10,(AC)到D的距離等于12/2+10/2=11;進(jìn)一步合并(AC)和B,((AC)B)到D的距離等于2×11/3+1×15/3=37/3;最終得到圖6.6所示的系統(tǒng)發(fā)生樹(shù),但是,該樹(shù)顯然與真實(shí)樹(shù)有出入。距離變換法(TransformedDistanceMethod)。這種方法充分利用了外群或外部參考物種(outgroup),即先于其它所有被考慮的物種(稱為內(nèi)群或內(nèi)部物種,ingroup)從它們的共同祖先中分化出來(lái)的那些物種。假設(shè)有4個(gè)物種A、B、C和D,其中D是物種A、B和C的外部參考物種,并且已知關(guān)于這四個(gè)物種的距離矩陣。D可作為變換其它物種之間的距離的外部參考,變換式如下:其中d’ij是物種i和j之間的變換后距離,
是外部參考物種與全體內(nèi)部物種之間的平均距離,此例中
=(dAD+dBD+dCD)/3
。鄰近歸并法(NeighborJoining)是另一種快速的聚類方法,該方法是Saitou和Nei于1987年首次提出的。在構(gòu)建系統(tǒng)發(fā)生樹(shù)時(shí),該方法取消了非加權(quán)分組平均法所作的假定,不需要關(guān)于分子鐘的假設(shè),在進(jìn)化分支上,發(fā)生趨異的次數(shù)可以不同。與非加權(quán)分組平均法相比,鄰近歸并法在算法上相對(duì)較復(fù)雜,它跟蹤的是樹(shù)上的節(jié)點(diǎn)而不是分類單元。4、鄰接法(NeighborJoiningMethod)基本思想是:進(jìn)行類的合并時(shí),不僅要求待合并的類是相近的,同時(shí),還要求待合并的類遠(yuǎn)離其它的類。在聚類過(guò)程中,根據(jù)原始距離矩陣,根據(jù)所有節(jié)點(diǎn)間的平均趨異程度,對(duì)每?jī)蓚€(gè)節(jié)點(diǎn)間的距離進(jìn)行調(diào)整,即將每個(gè)分類單元的趨異程度標(biāo)準(zhǔn)化,從而形成一個(gè)新的距離矩陣。重建時(shí),將距離最小的兩個(gè)葉節(jié)點(diǎn)連接起來(lái),合并這兩個(gè)葉節(jié)點(diǎn)所代表的分類,形成一個(gè)新的分類。在樹(shù)中增加一個(gè)父節(jié)點(diǎn),并在距離矩陣中加入新的分類,同時(shí)刪除原來(lái)的兩個(gè)分類。隨后,新增加的父節(jié)點(diǎn)被看成為葉節(jié)點(diǎn),重復(fù)上一次循環(huán)。在每一次循環(huán)過(guò)程中,都有兩個(gè)葉節(jié)點(diǎn)被一個(gè)新的父節(jié)點(diǎn)所取代,兩個(gè)類被合成為一個(gè)新類。整個(gè)循環(huán)直到只剩一個(gè)類為止。從所得到的系統(tǒng)發(fā)生樹(shù)來(lái)看,對(duì)于兩個(gè)聚在一起的分類單元,其所在的葉節(jié)點(diǎn)到父節(jié)點(diǎn)的距離并不一定相同。定義:鄰居(neighbors)無(wú)根樹(shù)中,一個(gè)節(jié)點(diǎn)所連接的兩個(gè)分類群互為鄰居
(1,2);(5,6);(1-2,3);(1-2-3,4)……其中X為連接互為鄰居的類群i,j的內(nèi)部節(jié)點(diǎn),LiX為類群i到X的分支長(zhǎng)度。ACDB123456(1)(2)(3)(4)(1)(2)(2)(6)(7)S:所有分支長(zhǎng)度總和在每一次循環(huán)中,都要在樹(shù)中尋找兩個(gè)分類單元的直接祖先。對(duì)于節(jié)點(diǎn)x,到其它節(jié)點(diǎn)的距離dx按下式進(jìn)行估算:這里dxy是分類x和分類y之間的距離,是動(dòng)態(tài)更新的距離矩陣D中的元素。為了使所有分支長(zhǎng)度的和最?。ɑ蚍Q為最小進(jìn)化原則),選擇dxy-dx-dy最小的一對(duì)節(jié)點(diǎn)x和節(jié)點(diǎn)y進(jìn)行歸并。算法如下:
(1)初始化(與連鎖聚類算法一樣)(2)循環(huán)對(duì)于所有的分類單元x,按公式(6-13)計(jì)算dx;選擇一對(duì)分類單元x和y,使dxy-dx-dy最??;將x和y歸并為新的類(xy),在樹(shù)中添加一個(gè)新的節(jié)點(diǎn),將它與節(jié)點(diǎn)x和y連接,新節(jié)點(diǎn)代表新生成的分類,計(jì)算從x和y到新節(jié)點(diǎn)(xy)的分支長(zhǎng)度;dx,(xy)
=1/2dx,y+1/2(dx-dy),dy,(xy)
=1/2dx,y+1/2(dy-dx)計(jì)算新類(xy)與其它類u的距離;d(xy),u=1/2(dx,u+dy,u-dx,y)刪除聚類x和y,添加新類(xy),更新距離矩陣;如果有兩個(gè)以上的分類存在,則繼續(xù)執(zhí)行循環(huán),否則合并剩余的兩個(gè)類,并且連接這兩個(gè)類。例子已知距離矩陣:
表6.46個(gè)分類單元的距離矩陣
ABCDEB5
C47
D7107
E6965
F811898首先分別用6個(gè)葉節(jié)點(diǎn)代表分類單元,計(jì)算每個(gè)節(jié)點(diǎn)到其它節(jié)點(diǎn)的距離:dA=5+4+7+6+8=30/4=7.5;dB=5+7+10+9+11=42/4=10.5;dC
=4+7+7+6+8=32/4=8;dD
=7+10+7+5+9=36/4=9.5;dE
=6+9+6+5+8=34/4=8.5;dF
=8+11+8+9+8=44/4=11第一次歸并時(shí),選擇使Dxy-dx-dy最小的一對(duì)分類單元x=A和y=B,將這兩個(gè)鄰近的單元?dú)w并,以一個(gè)新節(jié)點(diǎn)(xy)代表,同時(shí)計(jì)算(xy)到x和y所在節(jié)點(diǎn)的距離:
dx,(xy)=Dx,(xy)/2+(dx-dy)/2=5/2+(7.5-10.5)/2=1dy,(xy)=Dx,(xy)/2+(dy-dx)/2=5/2+(10.5-7.5)/2=4進(jìn)一步計(jì)算新類與其它類的距離,更新距離矩陣,重復(fù)循環(huán)。最終結(jié)果見(jiàn)圖6.8。
CommentsNJ法本質(zhì)上是一種尋找最優(yōu)拓?fù)浣Y(jié)構(gòu)的譜系聚類算法。同時(shí)給出系統(tǒng)發(fā)育樹(shù)的拓?fù)浣Y(jié)構(gòu)以及分支的長(zhǎng)度。優(yōu)點(diǎn):1)、可以較快地構(gòu)建系統(tǒng)樹(shù);2)、適用于分析較大的數(shù)據(jù)集;3)、能夠較方便地進(jìn)行自展(Bootstrap)檢驗(yàn)。一般問(wèn)題:給定n個(gè)物種
m個(gè)用以描述物種的特征每個(gè)物種所對(duì)應(yīng)的特征值
構(gòu)建一棵系統(tǒng)發(fā)生樹(shù),使得某個(gè)目標(biāo)函數(shù)最大。二、基于特征的系統(tǒng)發(fā)生樹(shù)構(gòu)建方法輸入一般為n×m的特征矩陣M在構(gòu)建系統(tǒng)發(fā)生樹(shù)假設(shè)特征是相互獨(dú)立的,即一個(gè)特征的變化不影響另一個(gè)特征。另外,還假設(shè)在進(jìn)化過(guò)程中,兩個(gè)物種分叉后獨(dú)立進(jìn)化,互不影響。1、最大簡(jiǎn)約法
(MaximumParsimonyMethod)目標(biāo):構(gòu)造一棵反映分類單元之間最小變化的系統(tǒng)發(fā)生樹(shù)。所謂簡(jiǎn)約就是使代價(jià)最小。對(duì)于系統(tǒng)發(fā)生樹(shù)最直觀的代價(jià)計(jì)算就是沿著各個(gè)分支累加特征變化的數(shù)目。
甲乙丙丁戊
節(jié)點(diǎn)1
節(jié)點(diǎn)3
節(jié)點(diǎn)2
根節(jié)點(diǎn)最大簡(jiǎn)約法的處理過(guò)程:(1)針對(duì)待比較的物種,選擇核酸或蛋白質(zhì)序列。有些分子比其它分子變化慢,適合于進(jìn)行距離分析,例如哺乳類的線粒體DNA、管家蛋白質(zhì)等;(2)比較各個(gè)序列,產(chǎn)生序列的多重比對(duì),確定各個(gè)序列符號(hào)的相對(duì)位置;(3)根據(jù)每個(gè)序列比對(duì)的位置(即多重對(duì)比排列的每一列),確定相應(yīng)的系統(tǒng)發(fā)生樹(shù),該樹(shù)用最少的進(jìn)化動(dòng)作產(chǎn)生序列的差異,最終生成完整的樹(shù)。
對(duì)于一棵系統(tǒng)發(fā)生樹(shù)T
假設(shè)樹(shù)中的節(jié)點(diǎn)用V(T)表示, 樹(shù)的邊用E(T),以u(píng)j、vj分別表示節(jié)點(diǎn)u和v的第j個(gè)特征,則樹(shù)T的代價(jià)為:?jiǎn)翁卣鱂itch算法(Fitch,1971;Hartigan,1973):首先對(duì)于每個(gè)待分析的物種,分配一個(gè)葉節(jié)點(diǎn)v,其值vc取對(duì)應(yīng)物種的特征值。然后執(zhí)行下面兩步:(1)給每個(gè)節(jié)點(diǎn)v賦予一個(gè)集合Sv:如果v是葉節(jié)點(diǎn),則Sv={vc};如果v是內(nèi)部節(jié)點(diǎn),并且u、w是其子節(jié)點(diǎn),如果Su
Sw
,則Sv=Su
Sw;否則S(v)=Su
Sw
。這個(gè)過(guò)程是從葉節(jié)點(diǎn)開(kāi)始,直至處理到根節(jié)點(diǎn)。如果用遞歸算法,則應(yīng)該按后序遍歷方式處理每個(gè)節(jié)點(diǎn)。(2)給定集合Sv,為每個(gè)內(nèi)部節(jié)點(diǎn)v的特征c賦予值vc。如果v有一個(gè)父節(jié)點(diǎn)u滿足uc
Sv,則將uc賦予vc,否則任取一個(gè)t
Sv賦予vc。這個(gè)過(guò)程的執(zhí)行方向剛好與上一個(gè)過(guò)程相反,即從樹(shù)根出發(fā),直至葉節(jié)點(diǎn)為止,最后得到完全標(biāo)定的樹(shù)。應(yīng)按前序遍歷方式依次處理每個(gè)節(jié)點(diǎn)。
MP法評(píng)述MP法適用的問(wèn)題(1)位點(diǎn)不存在回復(fù)突變、平行突變;(2)被分析的序列較長(zhǎng),核苷酸或氨基酸數(shù)目很大;(3)序列的相似度較高;(4)核苷酸或氨基酸替代速率較穩(wěn)定。詳細(xì)內(nèi)容請(qǐng)參考《分子進(jìn)化與系統(tǒng)發(fā)育》(高等教育出版社)ML算法基本思想(Felsenstein,1981;Kishino,1990)以一個(gè)特定的替代模型分析一組給定的核苷酸(或氨基酸)序列數(shù)據(jù),使獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣東廣州市華南理工大學(xué)醫(yī)院合同制人員招聘2人備考題庫(kù)及答案詳解參考
- 2025下半年四川巴中市南江縣考核招聘高中緊缺學(xué)科教師44人備考題庫(kù)及答案詳解(奪冠系列)
- 2026年財(cái)務(wù)比率分析與企業(yè)評(píng)價(jià)方法試題
- 2026新疆和田數(shù)字科技有限責(zé)任公司招聘?jìng)淇碱}庫(kù)帶答案詳解
- 2026河北衡水市第十二中學(xué)招聘教師備考題庫(kù)及一套參考答案詳解
- 2026上半年海南事業(yè)單位聯(lián)考萬(wàn)寧市招聘73人備考題庫(kù)(第1號(hào))及答案詳解(奪冠系列)
- 2025廣東佛山順德區(qū)勒流新球初級(jí)中學(xué)語(yǔ)文物理歷史和地理臨聘教師招聘?jìng)淇碱}庫(kù)及答案詳解(奪冠系列)
- 2026內(nèi)蒙古聚英人力資源服務(wù)有限責(zé)任公司定向招聘內(nèi)勤崗位人員1人備考題庫(kù)帶答案詳解
- 放射影像診斷試題及答案
- 防盜安全知識(shí)試題及答案
- 2019-2020學(xué)年貴州省貴陽(yáng)市八年級(jí)下學(xué)期期末考試物理試卷及答案解析
- 培訓(xùn)機(jī)構(gòu)轉(zhuǎn)課協(xié)議
- 河道治理、拓寬工程 投標(biāo)方案(技術(shù)方案)
- 創(chuàng)客教室建設(shè)方案
- 政治審查表(模板)
- (完整版)南京市房屋租賃合同
- 《最奇妙的蛋》完整版
- SEMI S1-1107原版完整文檔
- 內(nèi)蒙古衛(wèi)生健康委員會(huì)綜合保障中心公開(kāi)招聘8人模擬預(yù)測(cè)(共1000題)筆試備考題庫(kù)及答案解析
- 2023年中級(jí)財(cái)務(wù)會(huì)計(jì)各章作業(yè)練習(xí)題
- 金屬罐三片罐成型方法與罐型
評(píng)論
0/150
提交評(píng)論