版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué),第四章 分子進化分析,哈爾濱醫(yī)科大學(xué) 李霞、張紹軍,生物信息學(xué),第一節(jié) 引言,分子進化開始于20世紀(jì)60年代,近20年來由于分子遺傳學(xué)資料的迅速積累,成為計算生物學(xué)和生物信息學(xué)等新興學(xué)科的重要組成部分。 尤其人類基因組測序后,推動了分子進化的進一步發(fā)展,序列保守性,基因表達和網(wǎng)絡(luò)的進化等研究內(nèi)容不斷的出現(xiàn)在最新的研究中,充實了生物信息學(xué)的研究范圍。,第二節(jié) 系統(tǒng)發(fā)生分析與重建,DNA序列的進化演變比蛋白質(zhì)序列的演變更復(fù)雜,因為有多種多樣的DNA區(qū)域,如蛋白質(zhì)編碼區(qū)、非編碼區(qū)、外顯子、內(nèi)含子、側(cè)翼區(qū)、重復(fù)DNA序列和插入序列等。因此,弄清所研究的DNA類型和功能是十分重要的。即便我們
2、單獨考慮蛋白質(zhì)編碼區(qū),密碼子第一、二和三位的核苷酸替代式樣也不盡相同。何況,某些區(qū)比其他區(qū)更易受到自然選擇的影響,使得DNA的不同區(qū)域呈現(xiàn)不同的進化模式。,一、核苷酸置換模型及氨基酸置換模型,(一)DNA序列進化分析,1.兩個序列間的核苷酸差異 對于一種同源的核酸分子來說,它在親緣關(guān)系越近的生物之間差異就越小,相反差異 就越大,即兩同源分子分歧的時間與它們之間的序列差異成正比。 同一條祖先序列傳衍的兩條后裔序列,它們的核苷酸差異隨時間而增加。一個簡便的描述序列分歧大小的測度是兩條后裔序列中不同核苷酸位點的比例。 以下,我們稱此估計為p距離。,盡管總核苷酸替代能用公式計算,但我們常常也需要知道兩
3、個序列間(即序列和)不同核苷酸對的頻率。在每一序列中,有4種不同核苷酸(A,T,C,G),故兩條序列相應(yīng)位點配對時可有16種不同類型的核苷酸對 。,表5-1 16種不同類型的核苷酸對,如果4種核苷酸間的替代是隨機發(fā)生的,當(dāng)P很小時,Q約為P的2倍。實際上,通常轉(zhuǎn)換比顛換出現(xiàn)更頻繁。因此,P將大于Q/2。當(dāng)序列間的分歧度低時,轉(zhuǎn)換對顛換的比值(R),常稱為轉(zhuǎn)換/顛換比,能用下式估計:,核苷酸替代數(shù)的估計常常建立在以下假設(shè)基礎(chǔ)上,即每個序列的核苷酸頻率處于平衡態(tài),且此頻率不隨時間而變化。當(dāng)每個序列的核苷酸頻率處于平衡時,我們期望表5-1中的 因此,可用 去檢驗核苷酸頻率是否處于平衡態(tài)。,2. 核苷
4、酸替代數(shù)的估計,欲估計核苷酸替代數(shù),必須應(yīng)用核苷酸替代的數(shù)學(xué)模型。為此,許多學(xué)者提出了不同的替代模型,其中一些模型以替代率矩陣的形式列在表中。,核苷酸替代模型,例4.1 人與獼猴的細(xì)胞色素b基因間的核苷酸替代數(shù),動物線粒體DNA中的細(xì)胞色素b基因是高度保守的,因此常被用于研究親緣關(guān)系較遠的動物的進化關(guān)系。下表表示出了人與獼猴的細(xì)胞色素b基因的10種不同類型核苷酸對的數(shù)目,并分別以密碼子第1、2和3位點列出。,人與獼猴的細(xì)胞色素b基因的10種不同類型核苷酸對,(二)氨基酸序列進化分析,1.氨基酸差異和不同氨基酸的比例 蛋白質(zhì)或肽鏈的進化演變研究開始于兩個或多個氨基酸序列的比較。圖4-1顯示了人、
5、馬、牛、袋鼠、蠑螈和鯉魚的血紅蛋白鏈的氨基酸序列。圖中,不同的氨基酸分別用不同的單字母代表。,圖4-1 六種脊椎動物血紅蛋白鏈的氨基酸序列,表4-4,不同脊椎動物血紅蛋白鏈中不同氨基酸的數(shù)目(上對角線),以及不同氨基酸的比例(下對角線),人,馬,牛,袋鼠,蠑螈,鯉魚,人,17,17,26,61,68,馬,0.121,17,29,66,67,牛,0.121,0.121,2,5,63,65,袋鼠,0.186,0.207,0.179,66,71,蠑螈,0.436,0.471,0.450,0.471,74,鯉魚,0.486,0.479,0.464,0.507,0.529,注:計算排除了缺失和插入,使用
6、的氨基酸總數(shù)為140。,在圖中所給出的例子中,刪除所有間隔后可比較的總氨基酸位點數(shù)為140。因此,在此例中。值出現(xiàn)在表中對角線上部,可以很容易地計算出,列于對角線下部。,當(dāng)所比較的物種親緣關(guān)系很遠時(如人和鯉魚),值較大,而當(dāng)親緣關(guān)系較近的物種比較時(如人和馬),值較小。這說明隨著兩個物種的分歧時間增大,氨基酸的替代數(shù)也將增大,但并不嚴(yán)格與分歧時間成比例。,圖4-2 p距離和泊松校正(PC)距離隨分歧時間變化的關(guān)系,2. 泊松校正(PC) 距離,p與t的變化呈現(xiàn)非線性關(guān)系的原因之一是當(dāng)多個氨基酸替代出現(xiàn)在同一位點時,nd偏離實際氨基酸的替代數(shù)將會逐漸增加。更精確估計替代數(shù)的方法之一是運用泊松分
7、布的概念。令r為一個特定位點每年的氨基酸替換率,并且為簡便起見假設(shè)所有位點的r都相同,在時間t年后,每個位點氨基酸替代的平均數(shù)是rt。在一個給定位點氨基酸替代數(shù)k(k=0, 1, 2, 3, )的發(fā)生頻率遵循泊松分布,即,,若已知每個位點的氨基酸替代率按分布的話,每個位點氨基酸替代的觀察值將按負(fù)二項式分布。因此,Uzzell和Corbin研究建議,不同位點的替代率都按分布估計,即 f (r)的分布形狀由a決定,a常稱為形狀參數(shù)或參數(shù),而b則稱為尺度因子。分布是非常柔性的,有多種多樣形狀,由形狀參數(shù)a決定。,當(dāng)r遵循分布時,就有可能估計出平均每個位點的氨基酸替代數(shù)。為此,讓我們考慮在時間t時兩個
8、序列間某一位點上的氨基酸相同的概率,按公式(4.4)計算。然后,對所有位點的q求均值,為,例 血紅蛋白鏈的進化距離和氨基酸替代率的估計,表4-5表示出了6種脊椎動物血紅蛋白鏈成對比較的有差異氨基酸的數(shù)目的比例( )。我們用這些值來估計PC距離( )和 距離( )。,表4-5 解析法估算的PC距離的標(biāo)準(zhǔn)誤(下對角陣) 及自展法估算的PC距離的標(biāo)準(zhǔn)誤(上對角陣),二、系統(tǒng)發(fā)生樹的基本概念及搜索方法,在研究從病毒到人類的各種生物的進化歷史中,DNA或蛋白質(zhì)序列的系統(tǒng)發(fā)育分析已經(jīng)成為一個重要的工具。 由于不同的基因或DNA片段的進化速率存在較大的差異,我們可以通過這些基因或DNA片段來估計幾乎所有水平
9、上的有機體間的進化關(guān)系(例如,界、門、科、屬、種以及種內(nèi)群體)。,(一)系統(tǒng)發(fā)育樹的種類,1.有根樹和無根樹 基因或生物體的系統(tǒng)發(fā)育關(guān)系常常用有根或無根的樹形結(jié)構(gòu)來表示,即有根樹和無根樹。 2. 基因樹和物種樹 當(dāng)一個系統(tǒng)發(fā)育樹由來自各個物種的一個同源基因構(gòu)建時,得到的的樹將不完全等同于物種樹。根據(jù)基因構(gòu)建的樹的分支結(jié)構(gòu)也可能不同于物種樹,我們稱這種樹為基因樹。,3. 期望樹與現(xiàn)實樹,一個用無限長的序列或每一分支的替代數(shù)的期望值構(gòu)建的樹稱為期望樹,建立在實際替代數(shù)基礎(chǔ)上的樹稱為現(xiàn)實樹,由所觀察到的序列數(shù)據(jù)構(gòu)建的樹稱為重建樹。 4. 拓?fù)渚嚯x 兩個不同的樹之間的拓?fù)渚嚯x通??梢杂眯蛄蟹指畹姆椒▉?/p>
10、測量。,(二)基于距離法構(gòu)建系統(tǒng)發(fā)生樹,通常使用的方法分為3大類: (1)距離法 (2)簡約法 (3)似然法,距離方法 距離方法涉及兩個步驟:計算物種對之間的遺傳距離以及從距離矩陣重建一課體統(tǒng)發(fā)育樹。 最小二乘法 最小二乘法(LS)將成對距離矩陣作為給定數(shù)據(jù),通過匹配那些盡可能近的距離來估計一棵樹上的枝長。,設(shè)物種i和j之間的距離為dij,樹上物種i到j(luò)間通路的枝長和為dij。LS方法對所有獨立的i和j對求距離差的平方 的最小值,使得這棵樹與距離之間的擬合盡可能地近。,表4-7,線粒體,DNA,序列的成對距離,1.,人,2.,黑猩猩,3.,大猩猩,4.,猩猩,1.,人,2.,黑猩猩,0.096
11、5,3.,大猩猩,0.1140,0.1180,4.,猩猩,0.1849,0.20,09,0.1947,(三)基于字母特征構(gòu)建進化樹,最大簡約法 達到變化最小數(shù)目的重建稱為最簡約重建 (most parsimonious reconstruction),最大簡約法建樹示意圖,三、分子鐘假說,分子鐘(molecular clock)假說認(rèn)為DNA或蛋白質(zhì)序列的進化速率隨時間或進化譜系保持恒定。 化石數(shù)據(jù)是被用來校定分子鐘的,即將序列間的距離轉(zhuǎn)換成絕對地質(zhì)時間和置換率。,(一)概述,(二)相對速率檢驗,最簡單的分子鐘假設(shè)檢驗是采用第三個物種C(外類群)來檢驗兩個物種A和B是否以相同的速率進化。這一檢
12、驗稱為相對速率檢驗(relative-rate test),其實幾乎所有的分子鐘檢驗比較的都是相對速率而不是絕對速率。 確定靈長類分歧時間。,第三節(jié) 核苷酸和蛋白質(zhì)的適應(yīng)性進化,按照中性理論,我們今天觀察到的遺傳變異無論是種內(nèi)多態(tài)性還是中間分歧,均不取決于自然選擇所驅(qū)動的有利突變的固定,而是取決于那些事實上沒有適合效應(yīng)(即中性的)突變的隨機固定。,一、中性與近中性理論,二、基因的適應(yīng)性進化,Tajima的D檢驗 Tajima的D檢驗的統(tǒng)計顯著性可能與幾種不同的解釋相容,而且難于區(qū)分它們。正如前面所討論的,一個負(fù)D值表明存在凈化選擇或群體中分離的輕微有害突變。然而,負(fù)D值也可能是由群體擴張造成的
13、。,(一)基因適應(yīng)性進化的檢驗方法,2. Fu和Li的D檢驗與Fay和Wu的H檢驗,Fu和Li區(qū)分了內(nèi)部突變和外部突變,即分別在系譜樹內(nèi)枝或外枝上發(fā)生的突變。 Fay和Wu提出了一種類似的主意并構(gòu)建了的估計值,3. McDonald-Kreitman檢驗和選擇強度估計,McDonald和Kreitman檢驗思想采用了泊松隨機場(Poisson random field)理論,現(xiàn)在已被擴展到估計度量自然選擇強度的參數(shù)中。,4. Hudson-Kreitman-Aquade檢驗,Hudson-Kreitman-Aquade檢驗(即HKA檢驗),對種內(nèi)多態(tài)性和種間分歧是同一過程的兩個階段這一中性預(yù)測
14、進行了檢驗。,(二)適應(yīng)性進化的基因,大多數(shù)正選擇基因可分為以下3類。 第一類包括針對病毒、細(xì)菌、真菌和寄生蟲攻擊的防御機制或免疫作用中的宿主基因,以及與破壞宿主防御機制有關(guān)的病毒或病原基因。 第二類主要包括與生殖有關(guān)的蛋白質(zhì)或信息素。 第三類正選擇基因與上述兩類有所重疊,包括基因重復(fù)后獲得新功能的基因。,第四節(jié) 分子進化與生物信息學(xué),基因組學(xué)(genomics)是一門只有10多年歷史的新興學(xué)科,發(fā)展極為迅速,并產(chǎn)生了許多分支學(xué)科。 利用基因組學(xué)研究的方法和成果來研究生物進化,也就是進化基因組學(xué)(evolutionary genomics)所要研究的問題,并且越來越受到進化生物學(xué)研究者的關(guān)注。
15、,一、基因組進化概述,(一)基因組測序計劃,對不同生物基因組結(jié)構(gòu)的異同及其特點進行比較,除了在功能基因組學(xué)的研究上很有意義外,還有可能在一定程度上了解基因組的進化,特別基因組的結(jié)構(gòu)特征與生物復(fù)雜性的關(guān)系。,(二)進化基因組學(xué),為了了解基因組及其發(fā)展變化的本質(zhì),當(dāng)然還要研究與生命起源有關(guān)的最原始的基因和基因組的起源,以及其后的進化模式與過程。這樣,我們就有可能在分子水平上認(rèn)識生物進化的分段途徑。,病毒受自身突變和自然選擇的影響,但病毒基因組的進化速度遠遠超過其他細(xì)胞的基因組。,二、病毒基因組分析,(一)病毒基因組分析,由一個典型的冠狀病毒結(jié)構(gòu),按照一定的順序排列5個或者6個基因。,(二)運用生物
16、信息學(xué)方法研究SARS,SARS流行發(fā)生重構(gòu),三、原核生物基因組比較,1.核苷酸組成 2.尋找基因 3.水平基因轉(zhuǎn)移,(一)基于與人類疾病相關(guān)的細(xì)菌分類 (二)原核基因組分析,四、真核生物基因組進化分析,(一)真核生物與原核生物差異 (二)真核生物基因組個例 虐疾致病體-虐原蟲 (三)人類基因組分析,生物信息學(xué)與分子進化,一、蛋白質(zhì)互作網(wǎng)絡(luò)進化,蛋白質(zhì)互作網(wǎng)絡(luò)進化圖,(一)網(wǎng)絡(luò)中的蛋白質(zhì)個體進化,蛋白質(zhì)互作網(wǎng)絡(luò)對蛋白質(zhì)個體進化性質(zhì)的影響,即蛋白質(zhì)互作是否會減慢蛋白質(zhì)進化速率,是在蛋白質(zhì)個體層面上研究網(wǎng)絡(luò)進化的主要問題。 蛋白連接度同其進化速率之間可能存在較弱的負(fù)相關(guān)關(guān)系 。,(二)網(wǎng)絡(luò)中的蛋白
17、互作對進化,互作的兩個蛋白質(zhì)在進化上是否趨向具有相似的性質(zhì)?在分子水平上是否趨向共進化?這是網(wǎng)絡(luò)中蛋白質(zhì)互作對進化研究要回答的問題。 互作的蛋白質(zhì)傾向于具有更相似的進化速率,且網(wǎng)絡(luò)中的蛋白質(zhì)互作對在表達水平等層次上也可能存在微弱的共進化現(xiàn)象。,(三)網(wǎng)絡(luò)中的模體進化,對于網(wǎng)絡(luò)模體進化的研究主要集中在探討模體是否對其成員蛋白進化具有約束作用。 模體成員蛋白質(zhì)要比非模體成員蛋白質(zhì)在進化上更具有保守性。,(四)網(wǎng)絡(luò)中的模塊進化,蛋白質(zhì)互作網(wǎng)絡(luò)具有層次模塊化特性。功能模塊的最顯著的特點是其往往表現(xiàn)出內(nèi)部更可能在功能和拓?fù)渖匣ハ嗦?lián)系,在蛋白互作網(wǎng)絡(luò)中主要以蛋白質(zhì)復(fù)合物的形式存在。 網(wǎng)絡(luò)的模塊化對蛋白質(zhì)進
18、化可能有約束作用,成員蛋白質(zhì)之間在進化速率,表達水平等方面表現(xiàn)出共進化特性 。,(五)網(wǎng)絡(luò)的整體進化,研究蛋白質(zhì)互作網(wǎng)絡(luò)整體進化的最主要問題是蛋白質(zhì)互作網(wǎng)絡(luò)的起源。 無標(biāo)度和小世界網(wǎng)絡(luò)的進化模型。目前應(yīng)用最為廣泛的是優(yōu)先連接模型和復(fù)制-分歧模型。,優(yōu)先連接模型描述網(wǎng)絡(luò)的生長是通過不斷向網(wǎng)絡(luò)中添加新的節(jié)點來實現(xiàn)的,而新添加的節(jié)點傾向于優(yōu)先與原有網(wǎng)絡(luò)中度高的節(jié)點連接。 在復(fù)制-分歧模型中,網(wǎng)絡(luò)中的初始蛋白質(zhì)被隨機選擇并復(fù)制,且伴隨該蛋白質(zhì)參與的所有互作。,二、轉(zhuǎn)錄因子和miRNA的進化,不考慮轉(zhuǎn)錄因子自身的發(fā)育作用就不能談基因調(diào)控的進化,因為這些作用能夠?qū)φ{(diào)控關(guān)系的進化起作用。,(一) 發(fā)育過程中
19、的轉(zhuǎn)錄因子和miRNA,(二)Trans因子的進化,轉(zhuǎn)錄因子和miRNAs在植物和動物界中的獨立進化。 因為在植物和動物中沒有同源的miRNA,而且,miRNA的生物合成和miRNA調(diào)節(jié)基因表達在植物和動物中也是顯著不同。 miRNA和轉(zhuǎn)錄因子的深度保守。 最有名的例子要數(shù)let-7了,它幾乎在所有bilaterians中都是保守的 。,(三)Cis元件的進化,在植物中,大量的miRNA的靶向關(guān)系是保守的 。 總的來說,高度保守的trans調(diào)控因子和整體上相對比較低的cis調(diào)控位點在調(diào)控機制中是很常見的。 高轉(zhuǎn)換率的結(jié)合位點可能經(jīng)歷了較短的進化 。,(四)進化率的問題,一般我們認(rèn)為抑制子要比激
20、活子進化的更快,這是因為抑制一個基因的方式有很多,但激活的方式卻很少。 轉(zhuǎn)錄因子是可以作為抑制子或增強子的,但miRNA卻只可以作為抑制子,因此可以推斷miRNA的結(jié)合位點應(yīng)該比轉(zhuǎn)錄因子的結(jié)合位點進化的更快。 植物和動物的miRNA結(jié)合位點可能是按照相同的速率進化的。,三、代謝網(wǎng)絡(luò)進化分析,1.模塊傾向于正選擇,因為在已經(jīng)限定好的模塊能維持細(xì)胞的功能,通過模塊的進化變化能夠提升其可進化性; 2. 盡管模塊不能直接通過選擇進化,但模塊之間在進化上還是存在著存在一致性,還能通過其他可以被選擇的性質(zhì)。,(一)代謝網(wǎng)絡(luò)模塊性的進化分析,利用代謝網(wǎng)絡(luò)模塊得分建立其系統(tǒng)發(fā)育樹 圖中是利用模塊得分構(gòu)建的325個細(xì)菌代謝網(wǎng)絡(luò)的系統(tǒng)發(fā)育樹,圖中是Proteobacteria在其分系統(tǒng)中模塊得分的標(biāo)準(zhǔn)差:這幾個層次分別是(i) Salmonella; (ii) Blochmannia; (iii)Enterobacteriaceae; (iv) Gammaproteobacteria; (v)Proteobacteria .隨著模塊內(nèi)部的變異增多,伴隨著從種到科、門、綱的逐漸遞增,利用代謝網(wǎng)絡(luò)模塊得分建立其系統(tǒng)發(fā)育樹,(二)代謝與環(huán)境互作的進化分析,代謝網(wǎng)絡(luò)的功能一般是在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公設(shè)備維修工安全行為競賽考核試卷含答案
- 力學(xué)計量員安全宣傳競賽考核試卷含答案
- 動車組制修師崗前基礎(chǔ)模擬考核試卷含答案
- 水產(chǎn)品加工工安全生產(chǎn)能力評優(yōu)考核試卷含答案
- 2024年鄭州信息工程職業(yè)學(xué)院馬克思主義基本原理概論期末考試題附答案
- 2024年馬鞍山師范高等??茖W(xué)校輔導(dǎo)員招聘考試真題匯編附答案
- 2025年義烏工商職業(yè)技術(shù)學(xué)院單招(計算機)考試參考題庫必考題
- 2024年西林縣事業(yè)單位聯(lián)考招聘考試真題匯編附答案
- 企業(yè)內(nèi)部安全保衛(wèi)管理流程手冊
- 2025國考行測數(shù)量關(guān)系真題(地市)及一套完整答案
- TTSSP 045-2023 油茶果機械化爆蒲及油茶籽干制加工技術(shù)規(guī)程
- 部編版高一語文上冊期末復(fù)習(xí)現(xiàn)代漢語語法知識要點梳理
- GB/T 4074.4-2024繞組線試驗方法第4部分:化學(xué)性能
- 關(guān)于澄清兩個公司無關(guān)聯(lián)關(guān)系的聲明
- JC∕T 940-2022 玻璃纖維增強水泥(GRC)裝飾制品
- 《兒科護理學(xué)》課件-兒童健康評估特點
- 廣東省深圳市南山區(qū)2023-2024學(xué)年六年級上學(xué)期期末科學(xué)試卷
- 臨床研究數(shù)據(jù)清洗與質(zhì)量控制
- 骨科專業(yè)質(zhì)量控制標(biāo)準(zhǔn)
- 1種植業(yè)及養(yǎng)殖業(yè)賬務(wù)處理及科目設(shè)置
- GB/T 32065.3-2015海洋儀器環(huán)境試驗方法第3部分:低溫貯存試驗
評論
0/150
提交評論