多序列對位排列和進化分析_第1頁
多序列對位排列和進化分析_第2頁
多序列對位排列和進化分析_第3頁
多序列對位排列和進化分析_第4頁
多序列對位排列和進化分析_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多序列對位排列和進化分析第1頁,共66頁,2022年,5月20日,23點10分,星期二chicken PLVSS-PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNxenopus ALVSG-PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNhuman LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNmonkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNdog LQVRDVELAGAPGEGGLQPLALEGALQK

2、RGIVEQCCTSICSLYQLENYCNhamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNbovine PQVGALELAGGPGAGG-LEGPPQKRGIVEQCCASVCSLYQLENYCNguinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNBring the greatest number of similar characters into the same column of the alignmentMultiple Sequence Ali

3、gnment (MSA)多序列對位排列第2頁,共66頁,2022年,5月20日,23點10分,星期二Human Hox genes為什么要做MSA?用于描述一組序列之間的相似性關(guān)系,以便了解一個基因家族的基本特征,尋找motif,保守區(qū)域等。用于預(yù)測新序列的二級和三級結(jié)構(gòu),進而推測其生物學(xué)功能。第3頁,共66頁,2022年,5月20日,23點10分,星期二不同種的酵母Gal1和Gal10啟動子區(qū)MSA為什么要做MSA?Nature423, 241-254第4頁,共66頁,2022年,5月20日,23點10分,星期二用于描述同源序列之間的親緣關(guān)系的遠近,應(yīng)用到分子進化分析中。是構(gòu)建分子進化樹的基

4、礎(chǔ)。為什么要做MSA?abcGene treeABCSpecies treeWe often assume that gene trees give us species trees注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)第5頁,共66頁,2022年,5月20日,23點10分,星期二Paralogy(旁系同源/并系同源)& Orthology(直系同源)Orthologs:物種形成過程中源自同一祖先,通常功能保守Paralogs:基因組內(nèi)基因復(fù)制產(chǎn)生,較易發(fā)生功能分化第6頁,共66頁,2022年,5月20日,23點10分,星期二為什么要做MSA?不同物

5、種基因組范圍的MSA能分析基因組結(jié)構(gòu)變異和共線性Nature423, 241-254第7頁,共66頁,2022年,5月20日,23點10分,星期二為什么要做MSA?Contig assembly第8頁,共66頁,2022年,5月20日,23點10分,星期二怎么做MSA?動態(tài)規(guī)劃算法(dynamic programming):MSA改進算法(啟發(fā)式算法): 1. 漸進法(progressive methods):Clustal, T-Coffee, MUSCLE 2. 迭代法(iterative methods):PRRP, DIALIGN 3. 其它算法:Partial Order Algor

6、ithm、profile HMM、 meta-methods (MAFFT)Current Opinion in Structural Biology 2006, 16:368373第9頁,共66頁,2022年,5月20日,23點10分,星期二兩條及三條序列的動態(tài)規(guī)劃算法VSNSSNAASStartVSNSSNAAS五條長度為200-250aa的蛋白質(zhì)序列使用動態(tài)規(guī)劃比對需要運算超過12小時第10頁,共66頁,2022年,5月20日,23點10分,星期二Clustal:目前被最廣泛應(yīng)用的 MSA 方法可在線分析可在本地計算機運行Clustal使用方法序列輸入、輸出格式FASTANBRF/PIR

7、 EMBL/SWISSPROTALNGCG/MSFGCG9/RSFGDEALNNBRF/PIRGCG/MSFPHYLIPNEXUSGDE/FASTAInputOutputsequence 1ATTGCAGTTCGCA sequence 2ATAGCACATCGCAsequence 3ATGCCACTCCGCC第11頁,共66頁,2022年,5月20日,23點10分,星期二兩兩比對構(gòu)建距離矩陣構(gòu)建指導(dǎo)樹(guide tree)將距離最近的兩條序列用動態(tài)規(guī)劃的算法進行比對;“漸進”的加上其他的序列Clustal W/X算法基礎(chǔ)第12頁,共66頁,2022年,5月20日,23點10分,星期二“漸進”

8、比對(Progressive alignment)第13頁,共66頁,2022年,5月20日,23點10分,星期二Clustal在線分析方法(ClustalW)EBI的ClustalW分析網(wǎng)頁 http:/www.ebi.ac.uk/Tools/msa/clustalw2/粘貼或上載序列調(diào)整參數(shù)http:/www.ebi.ac.uk/Tools/msa/clustalw2/help/ 幫助文檔第14頁,共66頁,2022年,5月20日,23點10分,星期二Clustal在線分析方法(ClustalW)第15頁,共66頁,2022年,5月20日,23點10分,星期二自帶Help文件Using C

9、lustalX for multiple sequence alignment by Jarno Tuimala 兩種工作模式: Multiple Alignment Profile AlignmentClustal離線分析方法(ClustalX)下載安裝第16頁,共66頁,2022年,5月20日,23點10分,星期二第一步:輸入序列FileLoad sequences注意:該軟件不能識別中文。因此序列不能位于XP系統(tǒng)的桌面,應(yīng)放于C:或D:等純英文路徑下。第17頁,共66頁,2022年,5月20日,23點10分,星期二第二步:設(shè)定比對參數(shù)第18頁,共66頁,2022年,5月20日,23點10

10、分,星期二第三步:進行序列比對第19頁,共66頁,2022年,5月20日,23點10分,星期二第四步:比對完成,選擇結(jié)果文件的保存格式conserved residuesconservation profile第20頁,共66頁,2022年,5月20日,23點10分,星期二可進一步對排列好的序列進行修飾(1)Boxshade 突出相同或相似位點()在EBI ClustalW結(jié)果網(wǎng)頁復(fù)制序列比對結(jié)果在“Boxshade”網(wǎng)頁粘貼序列,在“Input sequence format”欄目選擇“ALN”,在“Output format”欄目選擇“RTF_new”修飾過的排列結(jié)果在結(jié)果網(wǎng)頁點擊“her

11、e is your output number 1”第21頁,共66頁,2022年,5月20日,23點10分,星期二可進一步對排列好的序列進行修飾(2)ESPript 多種修飾 功能,突出相同或相似位點在ESPript分析網(wǎng)頁“Aligned Sequences”欄上載ALN文件在“Output layout”和“Output file or device”欄選擇修飾后的比對結(jié)果 在EBI ClustalW結(jié)果網(wǎng)頁下載“Alignment file”(ALN文件)第22頁,共66頁,2022年,5月20日,23點10分,星期二GeneDoc/gfx/genedoc File Import 修飾

12、排列結(jié)果選擇輸入文件的格式(如ALN)可進一步對排列好的序列進行修飾(3)第23頁,共66頁,2022年,5月20日,23點10分,星期二 2. 系統(tǒng)發(fā)生分析(Phylogenetic analysis)分析基因或蛋白質(zhì)的進化關(guān)系系統(tǒng)發(fā)生(進化)樹(phylogenetic tree)A tree showing the evolutionary relationships among various biological species or other entities that are believed to have a common ancestor. 第24頁,共66頁,2022年

13、,5月20日,23點10分,星期二經(jīng)典進化生物學(xué):比較:形態(tài)、生理結(jié)構(gòu)、化石分子進化生物學(xué):比較DNA和蛋白質(zhì)序列研究系統(tǒng)發(fā)生的方法第25頁,共66頁,2022年,5月20日,23點10分,星期二Residues that are lined up in different sequences are considered to share a common ancestry (i.e., they are derived from a common ancestral residue). An Alignment is an hypothesis of positional homology

14、 between bases/Amino AcidsEasyonly with substitutionsDifficultalso with indels第26頁,共66頁,2022年,5月20日,23點10分,星期二= (A, (B,C), (D, E) Newick format節(jié)點Node分支BranchABCDE末端節(jié)點 可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等OTU祖先節(jié)點/樹根Root系統(tǒng)發(fā)生樹術(shù)語內(nèi)部節(jié)點/分歧點該分支可能的祖先HTU第27頁,共66頁,2022年,5月20日,23點10分,星期二A clade(進化支) is a group of organisms

15、 that includes an ancestor and all descendents of that ancestor. genetic changeno meaningPhylogramCladogramtimeTaxon ATaxon BTaxon CTaxon D111635Taxon ATaxon BTaxon CTaxon DTaxon ATaxon BTaxon CTaxon DUltrametric tree時間度量樹進化樹分支樹系統(tǒng)發(fā)生樹術(shù)語第28頁,共66頁,2022年,5月20日,23點10分,星期二Scaled branches : the length of t

16、he branch is proportional to the number of changes. The distance between 2 species is the sum of the length of all branches connecting them. 進化樹分支的長度系統(tǒng)發(fā)生樹術(shù)語第29頁,共66頁,2022年,5月20日,23點10分,星期二Rooted tree vs. Unrooted treetwo major ways to root trees:A BCD102352d (A,D) = 10 + 3 + 5 = 18Midpoint = 18 / 2

17、= 9By midpoint or distance有根樹ACBD無根樹系統(tǒng)發(fā)生樹術(shù)語outgroup外群、外圍支第30頁,共66頁,2022年,5月20日,23點10分,星期二系統(tǒng)發(fā)育樹構(gòu)建步驟多序列比對(自動比對、手工校正)選擇建樹方法(替代模型)建立進化樹進化樹評估最大簡約法(maximum parsimony, MP)距離法(distance)最大似然法(maximum likelihood, ML)貝葉斯法(Bayesian inference)統(tǒng)計分析BootstrapLikelihood Ratio Test UPGMA鄰近法(Neighbor-joining, NJ)最小進化法

18、(minimum evolution)第31頁,共66頁,2022年,5月20日,23點10分,星期二距離法距離法又稱距離矩陣法,首先通過各個序列之間的比較,根據(jù)一定的假設(shè)(進化距離模型)推導(dǎo)得出分類群之間的進化距離,構(gòu)建一個進化距離矩陣。進化樹的構(gòu)建則是基于這個矩陣中的進化距離關(guān)系 。CatDogRatDog3Rat45Cow676CatDogRat11224Cow計算序列的距離,建立距離矩陣通過距離矩陣建進化樹第32頁,共66頁,2022年,5月20日,23點10分,星期二Step1. 計算序列的距離,建立距離矩陣Uncorrected“p” distance(=observed perc

19、entsequence difference)Kimura 2-parameter distance(estimate of the true number of substitutions between taxa)對位排列,去除空格(選擇替代模型)第33頁,共66頁,2022年,5月20日,23點10分,星期二由進化距離構(gòu)建進化樹的方法有很多,常見有:1. Unweighted Pair Group Method with Arithmetic mean (UPGMA)2. Neighbor-Joining Method (NJ法/鄰位連接法)3.Minimum Evolution (MP

20、法/最小進化法)Step2. 通過矩陣建樹第34頁,共66頁,2022年,5月20日,23點10分,星期二最大簡約法(MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham)哲學(xué)原則,對所有可能的拓撲結(jié)構(gòu)進行計算,找出所需替代數(shù)最小的那個拓撲結(jié)構(gòu),作為最優(yōu)樹。 最大簡約法 (Maximum Parsimony)Find the tree that explains the observed sequences with a minimal number of substitutions第35頁,共66頁,2022年,5月20日,23點10分,

21、星期二Sequence1TGCSequence2TACSequence3AGGSequence4AAG1 2 3PositionMP法建樹流程If 1 and 2 are grouped a total of four changes are needed. If 1 and 3 are grouped a total of five changes are needed. If 1 and 4 are grouped a total of six changes are needed. Position 1 (1,2): 1 change; (1,3) or (1,4): 2 changes

22、Position 2 (1,3): 1 change; (1,2) or (1,4): 2 changesPosition 3 (1,2): 1 change; (1,3) or (1,4): 2 changes第36頁,共66頁,2022年,5月20日,23點10分,星期二456BESTMP法建樹步驟第37頁,共66頁,2022年,5月20日,23點10分,星期二最大似然法 (Maximum Likelihood)最大似然法(ML) 最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上。其原理為選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓撲結(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的

23、拓撲結(jié)構(gòu)作為最優(yōu)樹。第38頁,共66頁,2022年,5月20日,23點10分,星期二ML法建樹流程CAGATGCCATGC第39頁,共66頁,2022年,5月20日,23點10分,星期二Pick an Evolutionary Model For each position, Generate all possible tree structures Based on the Evolutionary Model, calculate Likelihood of these Trees and Sum them to get the Column Likelihood for each OTU

24、 cluster.Calculate Tree Likelihood by multiplying the likelihood for each positionChoose Tree with Greatest LikelihoodInferring the maximum likelihood tree第40頁,共66頁,2022年,5月20日,23點10分,星期二Holder&Lewis (2003) Nature Reviews Genetics 4, 275-284 Bayesian inference: What is the probability that the model

25、/theory is correct given the observed data? Pr(T|D) Maximum Likelihood: What is the probability of seeing the observed data (D) given a model/theory (T)? Pr(D|T) SpeedNo need for bootstrapping構(gòu)建進化樹的新方法貝葉斯推斷(Bayesian inference)與ML相比,BI的優(yōu)勢:第41頁,共66頁,2022年,5月20日,23點10分,星期二Comparison of MethodsDistanceM

26、aximum parsimonyMaximum likelihoodUses only pairwise distancesUses only shared derived charactersUses all dataMinimizes distance between nearest neighborsMinimizes total distanceMaximizes tree likelihood given specific parameter valuesVery fastSlowVery slowEasily trapped in local optimaAssumptions f

27、ail when evolution is rapidHighly dependent on assumed evolution modelGood for generating tentative tree, or choosing among multiple treesBest option when tractable (30 taxa, homoplasy rare)Good for very small data sets and for testing trees built using other methods第42頁,共66頁,2022年,5月20日,23點10分,星期二B

28、ioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount. p254Choosing a Method for Phylogenetic Prediction Molecular Biology and Evolution 2005 22(3):792-802 第43頁,共66頁,2022年,5月20日,23點10分,星期二A statistical technique that uses intensive random resampling of data to estimate a statis

29、tic whose underlying distribution is unknown.評估進化樹的可靠性自展法(bootstrapping method)從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面的過程,得到多組新的序列對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性第44頁,共66頁,2022年,5月20日,23點10分,星期二The Bootstrap Computational method to estimate the confidence level of a certain phylogenetic tree.rat

30、GAGGCTTATChumanGTGGCTTATCturtleGTGCCCTATGfruitflyCTCGCCTTTGoakATCGCTCTTGduckweedATCCCTCCGG0123456789Samplerathumanturtlefruit flyoakduckweedInferred treeMore replicates (between 100 - 1000)ratGGAAGGGGCThumanGGTTGGGGCTturtleGGTTGGGCCCfruitflyCCTTCCCGCCoakAATTCCCGCTduckweedAATTCCCCCT0011222345Pseudo s

31、ample 1ratCCTTTTAAAThumanCCTTTTAAATturtleCCCCCTAAATfruitflyCCCCCTTTTToakCCTTTCTTTTduckweedCCTTTCCCCG4455567778Pseudo sample 2第45頁,共66頁,2022年,5月20日,23點10分,星期二自展法檢驗流程Bootstrapping doesnt really assess the accuracy of a tree, only indicates the consistency of the data對ML法而言,自展法太耗時,可用aLRT法檢驗進化樹的可靠性Anisi

32、mova&Gascuel (2006) Syst. Biol. 55(4):539-552第46頁,共66頁,2022年,5月20日,23點10分,星期二看圖工具下載“Phylip tree file”(ph文件)TreeView 進化樹編輯打印軟件()輸入比對后的序列(或上載ALN文件)用TreeView軟件打開上述文件可以不同格式展示進化樹(1、2、3)EBI的ClustalW2-phylogeny分析網(wǎng)頁第47頁,共66頁,2022年,5月20日,23點10分,星期二PHYLIP免費的集成進化分析工具PAUP商業(yè)軟件,集成的進化分析工具MEGA免費的圖形化集成進化分析工具,最新版包括了M

33、LPHYML最快的ML建樹工具PAML建樹工具Tree-puzzle 較快的ML建樹工具MrBayes 基于貝葉斯方法的建樹工具分子進化分析軟件更多工具第48頁,共66頁,2022年,5月20日,23點10分,星期二提供最大似然法(ML)、最大簡約法(MP)和距離法三種建樹方法。其中距離法包括鄰接法(NJ)、最小進化法(ME)和UPGMA三種算法。分子進化樹構(gòu)建方法優(yōu)點:圖形界面,集序列查詢、比對、進化樹構(gòu)建為一體,幫助文件詳盡,免費缺點:ML法較慢(如序列較多可考慮用PHYML)最新版本(MEGA6)第49頁,共66頁,2022年,5月20日,23點10分,星期二 OsDR10 OsDR10

34、-O.rufipogonA OsDR10-9311A OsDR10-NipponbareA OsDR10-O.rufipogonB OsDR10-Nackdong OsDR10-9311B OsDR10-NipponbareB OsDR10-O.punctata OsDR10-O.latifolia OsDR10-O.australiensis OsDR10-L.tisserantii OsDR10-L.JX9589879152950.005Phylogenetic analysis of the coding regions of OsDR10 and its homologs from d

35、ifferent species. The tree was constructed by neighbour-joining method. The numbers for interior branches indicate the bootstrap values (%) for 1,000 replications. The scale at the bottom is in units of number of nucleotide substitutions per site. Xiao et al. PLoS ONE 4:e4603 (2009)分析舉例第50頁,共66頁,202

36、2年,5月20日,23點10分,星期二MSA程序可對任何序列進行比對,選擇什么樣的序列進行比對非常重要!用于構(gòu)建進化樹的序列必須是同源序列MSA是構(gòu)建分子進化樹的關(guān)鍵步驟第51頁,共66頁,2022年,5月20日,23點10分,星期二3. 上機操作1. 在基因重組人胰島素面市之前,糖尿病患者所需胰島素主要來自屠宰場的動物胰臟。請分析來源自豬、牛和羊的胰島素哪一種最適于人使用,說明理由。四種蛋白的注冊號分別是AAA59172(人), AAQ00954(豬),AAA30722(牛)和P01318(羊)。2. Keratin是一種微管蛋白,有type I 和 type II兩種類型,在染色體上成簇分布,對上皮細胞的正常結(jié)構(gòu)十分重要。請根據(jù)人類type II keratin 2p(CAD91891)對NCBI Protein Reference Sequences序列數(shù)據(jù)庫的BLASTP檢索結(jié)果(),下載人基因組中E-value1e-50的匹配序列,進行分子進化分析。(1) 任選一種工具,進行多序列比對,并根據(jù)比對結(jié)果列出距離矩陣。(2)任選一種工具,構(gòu)建分子進化樹并對各分支的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論