bioinf05bioinf05_第1頁
bioinf05bioinf05_第2頁
bioinf05bioinf05_第3頁
bioinf05bioinf05_第4頁
bioinf05bioinf05_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息軟件綜合實踐第五章多序列對位排列和進化分析多序列對位排列Multiple Sequence Alignment (MSA)chicken xenopus human monkey dog hamster bovineguinea pigPLVSS-PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCS ALVSG-PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCS LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS LQVRDVELAGAPGE

2、GGLQPLALEGALQKRGIVEQCCTSICS PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICS PQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTN S N N NNESBring the greatest number of similar characters into the same column of the alignmentYCN YCN YCN YCN YCN YCN NYCNYCNLYQLE LFQLE LYQLE LYQLE L

3、YQLE LYQLE LYQLRHQLQ為什么要做MSA?用于描述一組序列之間的相似性關系,以便了解一個基因 的基本特征,尋找motif,保守區(qū)域等。用于預測新序列的二級和三級結構,進而推測其生物學功能。Human Hox genes為什么要做MSA?Nature 423, 241-254不同種的酵母Gal1和Gal10 啟動子區(qū)MSA為什么要做MSA?用于描述同源序列之間的親緣關系的遠近,應用到分子進化分析中。是構建分子進化樹的基礎。AaSpecies treeGene treeBbCcWe often assume that gene trees give us species trees

4、注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)Paralogy(旁系同源/并系同源)& Orthology(直系同源)Orthologs:物種形成過程中源自同一祖先,通常功能保守Paralogs:基因組內基因復制產生,較易發(fā)生功能分化為什么要做MSA?不同物種基因組范圍的MSA能分析基因組結構變異和共線性Nature 423, 241-254為什么要做MSA?Contig assembly怎么做MSA? 動態(tài)規(guī)劃算法(dynamic programming):MSA 改進算法(啟發(fā)式算法):1. 漸進法(progressive methods):Clusta

5、l, T-Coffee,MUSCLE2. 迭代法(iterative methods):PRRP, DIALIGN3. 其它算法:Partial Order Algorithm、profile HMM、meta-methods (MAFFT)/wiki/List_of_sequence_alignment_softwareCurrent Opinion in Structural Biology 2006, 16:368373兩條及三條序列的動態(tài)規(guī)劃算法SAAN SVSNSStartVSN S SNAS A五條長度為200-250aa的蛋白質序列使用

6、動態(tài)規(guī)劃比對需要運算超過12小時Clustal使用方法u Clustal:目前被最廣泛應用的MSA 方法u 可在線分析u 可在本地計算機運行u 序列輸入、輸出格式InputFASTANBRF/PIR EMBL/SWISSPROT ALNGCG/MSF GCG9/RSF GDEOutputALN NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTAsequence 1ATTGCAGTTCGCA sequence 2 ATAGCACATCGCAsequence 3 ATGCCACTCCGCCClustal W/X算法基礎兩 兩 比 對 構建距離矩陣構建指導樹(guide

7、tree)將距離最近的兩條序列用動態(tài)規(guī)劃的算法進行比對;“漸進”的加上其他的序列“漸進”比對(Progressive alignment)粘貼或上載序列u Clustal在線分析方法(ClustalW)EBI的ClustalW分析網(wǎng)頁http:/www.ebi.ac.uk/Tools/msa/clustalw2/幫助文檔 http:/www.ebi.ac.uk/Tools/msa/clustalw2/help/調整參數(shù)u Clustal在線分析方法(ClustalW)u Clustal離線分析方法(ClustalX) 下載安裝自帶Help文件Using ClustalX for multipl

8、e sequence alignmentby Jarno Tuimala兩種工作模式: Multiple Alignment Profile Alignment第一步:輸入序列FileLoad sequences注意:該軟件不能識別中文。因此序列不能位于XP系統(tǒng)的桌面, 應放于C:或D:等純英文路徑下。 第二步:設定比對參數(shù)第三步:進行序列比對第四步:比對完成,選擇結果文件的保存格式conserved residuesconservation profileu 可進一步對排列好的序列進行修飾(1)Boxshade突出相同或相似位點(/softwar

9、e/BOX_form.html)在EBI ClustalW結果網(wǎng)頁復制序列比對結果在“Boxshade”網(wǎng)頁粘貼序列,在“Input sequence format”欄目選擇“ALN”,在“Output format”欄目選擇“RTF_new”在結果網(wǎng)頁點擊“here is your output number 1” 修飾過的排列結果u 可進一步對排列好的序列進行修飾(2)ESPript多種修飾 功能,突出相同或相似位點http:/espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi在EBI ClustalW結果網(wǎng)頁下載“Alignment file”(ALN

10、文件)在ESPript分析網(wǎng)頁“Aligned Sequences”欄上載ALN文件在“Output layout”和“Output file or device”欄選擇 修飾后的比對結果u 可進一步對排列好的序列進行修飾(3)GeneDoc/gfx/genedocFile Import選擇輸入文件的格式(如ALN)修飾排列結果2. 系統(tǒng)發(fā)生分析(Phylogenetic analysis)u 分析基因或蛋白質的進化關系u 系統(tǒng)發(fā)生(進化)樹(phylogenetic tree)A tree showing the evolutionary relatio

11、nships among various biological species or other entities that are believed to have a common ancestor.研究系統(tǒng)發(fā)生的方法經(jīng)典進化生物學:比較:形態(tài)、生理結構、化石分子進化生物學:比較DNA和蛋白質序列An Alignment is an hypothesis of positional homology between bases/Amino AcidsResidues that are lined up in different sequences are considered to sha

12、re a common ancestry (i.e., they are derived from a common ancestral residue).Easyonly with substitutionsDifficultalso with indels系統(tǒng)發(fā)生樹術語末端節(jié)點分支BranchA可以是物種,群體,或者蛋白質、DNA、RNA分子等OTUB節(jié)點NodeCD祖先節(jié)點/ 樹根RootE內部節(jié)點/分歧點該分支可能的祖先HTU= (A, (B,C), (D, E)Newick format系統(tǒng)發(fā)生樹術語A clade(進化支) is a group of organisms thati

13、ncludes an ancestor and all descendents of that ancestor.分支樹Cladogram時間度量樹Ultrametric tree進化樹Phylogram6Taxon BTaxon BTaxon CTaxon BTaxon C11Taxon C31Taxon ATaxon ATaxon A5Taxon DTaxon DTaxon Dgenetic changeno meaningtime系統(tǒng)發(fā)生樹術語進化樹分支的長度Scaled branches : the length of the branch is proportional to the

14、 number of changes.The distance between 2 species is the sum of the length of all branches connecting them.系統(tǒng)發(fā)生樹術語Rooted tree vs. Unrooted tree無根樹AC有根樹DBtwo major ways to root trees:By midpoint or distanced (A,D) = 10 + 3 + 5 = 18Midpoint = 18 / 2 = 9A10C322BD5outgroup外群、外圍支系統(tǒng)發(fā)育樹構建步驟多UPGMA最大簡約法(maxi

15、mum parsimony, MP)鄰近法距離法(distance)最大似然法(Neighbor-joining, NJ)最小進化法(minimum evolution)(maximum likelihood, ML)貝葉斯法(Bayesian inference)統(tǒng)計分析BootstrapLikelihood Ratio Test進化樹評估建立進化樹選擇建樹方法(替代模型)序列比對(自動比對、手工校正) 距離法距離法又稱距離矩陣法,首先通過各個序列之間的比較,根據(jù)一定的假設(進化距離模型)推導得出分類群之間的進化距離,構建一個進化距離矩陣。進化樹的構建則是基于這個矩陣中的進化距離關系 。計算

16、序列的距離,建立距離矩陣Rat通過距離矩陣建進化樹CowCatCatDogRat21 1DogRat34524Cow676DogStep1. 計算序列的距離,建立距離矩陣對位排列, 去除空格(選擇替代模型)Uncorrected “p” distance(=observed percent sequence difference)Kimura 2-parameter distance(estimate of the true number of substitutions between taxa)Step2. 通過矩陣建樹由進化距離構建進化樹的方法有很多,常見有:1. Unweighted

17、Pair Group Method with Arithmetic mean (UPGMA)2. Neighbor-Joining Method (NJ法/鄰位連接法)3.Minimum Evolution (MP法/最小進化法)最大簡約法 (Maximum Parsimony)最大簡約法(MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進化分析中。最大簡約法的理論基礎是奧卡姆(Ockham)哲學原則,對所有可能的拓撲結構進行計算,找出所需替代數(shù)最小的那個拓撲結構,作為最優(yōu)樹。Find the tree that explains the observed sequences with a

18、 minimal number of substitutionsMP法建樹流程PositionT T AAG A GAC C GGSequence1 Sequence2 Sequence3Sequence4If 1 and 2 are grouped a total of four changes are needed.If 1 and 3 are grouped a total of fivechanges are needed.If 1 and 4 are grouped a total of six changes are needed.Position 3(1,2): 1 change

19、;(1,3) or (1,4): 2 changesPosition 2(1,3): 1 change;(1,2) or (1,4): 2 changesPosition 1(1,2): 1 change;(1,3) or (1,4): 2 changes123MP法建樹步驟654BEST 最大似然法 (Maximum Likelihood)最大似然法(ML) 最早應用于對基因頻率數(shù)據(jù)的分析上。其原理為選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓撲結構的似然率都為最大值,然后再挑出其中似然率最大的拓撲結構作為最優(yōu)樹。CCAGATATGCGCML法建樹流程Inferring

20、 the maximum likelihood treePick an Evolutionary ModelFor each position, Generate all possible tree structuresBased on the Evolutionary Model, calculate Likelihood of these Trees and Sum them to get the Column Likelihood for each OTU cluster.Calculate Tree Likelihood by multiplying the likelihood fo

21、r each positionChoose Tree with Greatest Likelihood構建進化樹的新方法貝葉斯推斷(Bayesian inference)Holder&Lewis (2003) Nature Reviews Genetics 4, 275-284Bayesian inference:Maximum Likelihood:What is the probability that the model/theory is correct given the observed data?What is the probability of seeing the obse

22、rved data (D) given a model/theory (T)?Pr(T|D)Pr(D|T)與ML相比,BI的優(yōu)勢: Speed No need for bootstrappingComparison of MethodsDistanceMaximumparsimonyMaximum likelihoodUses only pairwise distancesUses only shared derived charactersUses all dataMinimizes distance between nearest neighborsMinimizes totaldista

23、nceMaximizes tree likelihood given specific parameter valuesVery fastSlowVery slowEasily trapped in local optimaAssumptions fail when evolution is rapidHighly dependent on assumed evolution modelGood for generating tentative tree, or choosing among multiple treesBest option when tractable (30 taxa,

24、homoplasy rare)Good for very small data sets and for testing trees built using other methodsChoosing a Method for Phylogenetic PredictionMolecular Biology and Evolution2005 22(3):792-802Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount./cgi/cont

25、ent/full/2008/5/pdb.ip49p254 評估進化樹的可靠性自展法(bootstrapping method)A statistical technique that uses intensive random resampling of data to estimate a statistic whose underlying distribution is unknown. 從排列的多序列中隨機有放回的抽取某一列, 構成相同長度的新的排列序列 重復上面的過程,得到多組新的序列 對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性The Bootstr

26、ap Computational method to estimate the confidence level of a certain phylogenetic tree.Pseudo sample 10011222345Sample0123456789GAGGCTTATCrat human turtle fruitfly oakduckweedGGAAGGGGCT GGTTGGGGCT GGTTGGGCCC CCTTCCCGCC AATTCCCGCTAATTCCCCCTrathuman turtle fruitfly oakduckweedGTGGCTTATC GTGCCCTATG CT

27、CGCCTTTG ATCGCTCTTGATCCCTCCGGPseudo sample 24455567778CCTTTTAAATCCTTTTAAATrathumanrat human turtle fruit fly oakduckweedturtle fruitfly oakduckweedCCCCCTAAAT CCCCCTTTTT CCTTTCTTTTCCTTTCCCCGMore replicates (between 100 -1000)Inferred tree自展法檢驗流程Bootstrapping doesnt reallyassess the accuracy of a tree

28、,only indicates the consistency othe data對ML法而言,自展法太耗時,可用aLRT法檢驗進化樹的可靠性Anisimova&Gascuel (2006)Syst. Biol. 55(4):539-552u 看圖工具TreeView進化樹編輯打印軟件(在http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html)EBI的ClustalW2-phylogeny分析網(wǎng)頁輸入比對后的序列(或上載ALN文件)下載“Phylip tree file”(ph文件)用TreeView軟件打開上述文件可以不同格式展示進化樹(1、2、

29、3)分子進化分析軟件PHYLIP/phylip.html免費的集成進化分析工具PAUP/商業(yè)軟件,集成的進化分析工具MEGA/免費的圖形化集成進化分析工具,最新版包括了MLPHYMLhttp:/atgc.lirmm.fr/phyml/最快的ML建樹工具PAMLhttp:/abacus.gene.ucl.ac.uk/software/paml.htmlML建樹工具Tree-puzzlehttp:/www.tree-puzz

30、le.de/較快的ML建樹工具MrBayes/基于貝葉斯方法的建樹工具更多工具/phylip/software.htmlu 分子進化樹構建方法/提供最大似然法(ML)、最大簡約法(MP)和距離法三種建樹方法。其中距離法包括鄰接法(NJ)、最小進化法(ME)和UPGMA三種算法。優(yōu)點:圖形界面,集序列查詢、比對、進化樹構建為一體,幫助文件詳盡,免費缺點:ML法較慢(如序列較多可考慮用PHYML)最新版本(MEGA6)Pig gi

31、|218855168|gb|ACL12051.1| FAD24 pr9298Cattle gi|146186885|gb|AAI40653.1| NOC3L100Human gi|18389433|dbj|BAB84194.1| AD24 HMouse gi|18389431|dbj|BAB84193.1| AD24 MChicken gi|118092837|ref|XP 421670.2| PRZebrafish gi|50838808|ref|NP 001002863.10.02OsDR10OsDR10-O.rufipogonA分析舉例87 OsDR10-9311AOsDR10-Nipp

32、onbareAOsDR10-O.rufipogonB91OsDR10-Nackdong OsDR10-9311BOsDR10-NipponbareB5289OsDR10-O.punctataOsDR10-O.latifolia95OsDR10-O.australiensisOsDR10-L.tisserantii95OsDR10-L.JX0.005Phylogenetic analysis of the coding regions of OsDR10 and its homologs from different species. The tree was constructed by ne

33、ighbour-joining method. The numbers for interior branches indicate the bootstrap values (%) for 1,000 replications. The scale at the bottom is in units of number of nucleotide substitutions per site.Xiao et al. PLoS ONE 4:e4603 (2009)MSA是構建分子進化樹的關鍵步驟MSA程序可對任何序列進行比對,選擇什么樣的序列進行比對非常重要!用于構建進化樹的序列必須是同源序列

34、3.上機操作1. 在基因重組人胰島素面市之前,糖尿病患者所需胰島素主要來 自屠宰場的動物胰臟。請分析來源自豬、牛和羊的胰島素哪一種最適于人使用,說明理由。四種蛋白的注冊號分別是AAA59172(人), AAQ00954(豬),AAA30722(牛)和P01318(羊)。2. Keratin是一種微管蛋白,有type I 和 type II兩種類型,在染色體上成簇分布,對上皮細胞的正常結構十分重要。請根據(jù)人類type II keratin 2p(CAD91891)對NCBI Homo sapiens RefSeqprotein序列數(shù)據(jù)庫的BLASTP檢索結果(/Blast.cgi?CMD=Get&RID=HH241 XTA014),下載人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論