mega操作過程-多序列比對、進(jìn)化樹PPT幻燈片.ppt_第1頁
mega操作過程-多序列比對、進(jìn)化樹PPT幻燈片.ppt_第2頁
mega操作過程-多序列比對、進(jìn)化樹PPT幻燈片.ppt_第3頁
mega操作過程-多序列比對、進(jìn)化樹PPT幻燈片.ppt_第4頁
mega操作過程-多序列比對、進(jìn)化樹PPT幻燈片.ppt_第5頁
已閱讀5頁,還剩168頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基礎(chǔ)生物信息學(xué)及應(yīng)用,王興平,1,多序列比對分子進(jìn)化分析系統(tǒng)發(fā)生樹構(gòu)建核酸序列的預(yù)測與鑒定酶切圖譜制作引物設(shè)計,內(nèi)容,2,多序列比對,3,內(nèi)容:多序列比對多序列比對程序及應(yīng)用,4,第一節(jié)、多序列比對(Multiplesequencealignment),概念多序列比對的意義多序列比對的打分函數(shù)多序列比對的方法,5,1、概念,多序列比對(Multiplesequencealignment)alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences.為了便于描述,對多序列比對過程可以給出下面的定義:把多序列比對看作一張二維

2、表,表中每一行代表一個序列,每一列代表一個殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個序列所有殘基的相對位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對齊(下表)。,6,表1多序列比對的定義,表示五個短序列(I-V)的比對結(jié)果。通過插入空位,使5個序列中大多數(shù)相同或相似殘基放入同一列,并保持每個序列殘基順序不變,7,2、多序列比對的意義,用于描述一組序列之間的相似性關(guān)系,以便了解一個分子家族的基本特征,尋找motif,保守區(qū)域等。用于描述一組同源序列之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。序列同源性分析:是將待研究序列加入到一組與之同源

3、,但來自不同物種的序列中進(jìn)行多序列同時比較,以確定該序列與其它序列間的同源性大小。其他應(yīng)用,如構(gòu)建profile,打分矩陣等,8,手工比對在運行經(jīng)過測試并具有比較高的可信度的計算機程序(輔助編輯軟件如bioedit,seaview,Genedoc等)基礎(chǔ)上,結(jié)合實驗結(jié)果或文獻(xiàn)資料,對多序列比對結(jié)果進(jìn)行手工修飾,應(yīng)該說是非常必要的。為了便于進(jìn)行交互式手工比對,通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。計算機程序自動比對通過特定的算法(如窮舉法,啟發(fā)式算法等),由計算機程序自動搜索最佳的多序列比對狀態(tài)。,3、多序列比對的方法,9,窮舉法,窮舉法(exhaustiveali

4、gnmentmethod)將序列兩兩比對時的二維動態(tài)規(guī)劃矩陣擴展到多維矩陣。即用矩陣的維數(shù)來反映比對的序列數(shù)目。這種方法的計算量很大,對于計算機系統(tǒng)的資源要求比較高,一般只有在進(jìn)行少數(shù)的較短的序列的比對的時候才會用到這個方法DCA(Divide-and-ConquerAlignment):aweb-basedprogramthatissemiexhaustivehttp:/bibiserv.techfak.uni-bielefeld.de/dca/,10,啟發(fā)式算法,啟發(fā)式算法(heuristicalgorithms):大多數(shù)實用的多序列比對程序采用啟發(fā)式算法(heuristicalgorit

5、hms),以降低運算復(fù)雜度。隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。用O(m1m2m3mn)表示對n個序列進(jìn)行比對時的算法復(fù)雜性,其中mn是最后一條序列的長度。若序列長度相差不大,則可簡化成O(mn),其中n表示序列的數(shù)目,m表示序列的長度。顯然,隨著序列數(shù)量的增加,序列比對的算法復(fù)雜性按指數(shù)規(guī)律增長。,11,第二節(jié)多序列比對程序及應(yīng)用,ProgressiveAlignmentMethodIterativeAlignmentBlock-BasedAlignmentDNASTARDNAMAN,12,1、ProgressiveAlignmentMethod,Clustal:Clustal,是由F

6、eng和Doolittle于1987年提出的。Clustal程序有許多版本ClustalW(Thompson等,1994)是目前使用最廣泛的多序列比對程序它的PC版本是ClustalX作為程序的一部分,Clustal可以輸出用于構(gòu)建進(jìn)化樹的數(shù)據(jù)。,13,ClustalW程序:ClustalW程序可以自由使用在NCBI/EBI的FTP服務(wù)器上可以找到下載的軟件包。ClustalW程序用選項單逐步指導(dǎo)用戶進(jìn)行操作,用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。ftp:/ftp.ebi.ac.uk/pub/software/EBI的主頁還提供了基于Web的ClustalW服務(wù),用戶可以把序列和各種要求

7、通過表單提交到服務(wù)器上,服務(wù)器把計算的結(jié)果用Email返回用戶(或在線交互使用)。http:/www.ebi.ac.uk/clustalw/,ProgressiveAlignmentMethod,14,ClustalW程序ClustalW對輸入序列的格式比較靈活,可以是FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用ClustalW得到的多序列比對結(jié)果中,所有序列排列在一起,并以特定的符號代表各個位點上殘基的保守性,“*”號表示保

8、守性極高的殘基位點;“.”號代表保守性略低的殘基位點。,ProgressiveAlignmentMethod,15,ClustalW使用輸入地址:http:/www.ebi.ac.uk/clustalw/設(shè)置選項(next),ProgressiveAlignmentMethod,16,ClustalW使用一些選項說明PHYLOGENETICTREE有三個選項TREETYPE:構(gòu)建系統(tǒng)發(fā)育樹的算法,有四個個選擇none、nj(neighbourjoining)、phylip、distCORRECTDIST:決定是否做距離修正。對于小的序列歧異(10),選擇與否不會產(chǎn)生差異;對于大的序列歧異,需做

9、出修正。因為觀察到的距離要比真實的進(jìn)化距離低。IGNOREGAPS:選擇on,序列中的任何空位將被忽視。詳細(xì)說明參見http:/www.ebi.ac.uk/clustalw/clustalw_frame.html,ProgressiveAlignmentMethod,17,ClustalW使用輸入5個16SRNA基因序列AF310602AF308147AF283499AF012090AF447394點擊“RUN”,ProgressiveAlignmentMethod,18,ProgressiveAlignmentMethod,T-Coffee(Tree-basedConsistencyObje

10、ctiveFunctionforalignmentEvaluation):P/software/TCoffee.htmlInprocessingaquery,T-Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved.Adistancematrixisbuilttoderiveaguidetree,whichisthenusedtodirectafullmultiplealignmentusingtheprogre

11、ssiveapproach.OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal,19,ProgressiveAlignmentMethod,PRALINE:web-based:http:/ibivu.cs.vu.nl/programs/pralinewww/FirstbuildprofilesforeachsequenceusingPSI-BLASTdatabasesearching.Eachprofileisthenusedformultiplealignmentusingtheprogres

12、siveapproach.theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores.Perhapsthemostsophisticatedandaccuratealignmentprogramavailable.Extremelyslowcomputation.,20,ProgressiveAlignmentMethod,Db

13、Clustal:http:/igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partialorderalignments):/poa/,21,2、IterativeAlignment,PRRN:web-basedprogramhttp:/prrn.ims.u-tokyo.ac.jp/Usesadoublenestediterativestrategyformultiplealignment.Basedontheideathatanoptimalsolutioncanbefo

14、undbyrepeatedlymodifyingexistingsuboptimalsolutions,22,Block-BasedAlignment,DIALIGN2:awebbasedprogramhttp:/bioweb.pasteur.fr/seqanal/interfaces/dialign2.htmlItplacesemphasisonblock-to-blockcomparisonratherthanresidue-to-residuecomparison.Thesequenceregionsbetweentheblocksareleftunaligned.Theprogramh

15、asbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity.,23,Block-BasedAlignment,Match-Box:web-basedserverhttp:/www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.shtmlAimstoidentifyconservedblocks(orboxes)amongsequences.Theserverrequirestheusertosubmitasetofsequence

16、sintheFASTAformatandtheresultsarereturnedbye-mail.,24,DNASTARDNAMAN,軟件:,25,分子進(jìn)化分析系統(tǒng)發(fā)生樹構(gòu)建,26,本章內(nèi)容:分子進(jìn)化分析介紹系統(tǒng)發(fā)生樹構(gòu)建方法系統(tǒng)發(fā)生樹構(gòu)建實例,27,第一節(jié)分子進(jìn)化分析介紹,基本概念:系統(tǒng)發(fā)生(phylogeny)是指生物形成或進(jìn)化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)研究物種之間的進(jìn)化關(guān)系系統(tǒng)發(fā)生樹(phylogenetictree)表示形式,描述物種之間進(jìn)化關(guān)系,28,分子進(jìn)化研究的目的從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。蛋白和核酸序列通過序列同源性的

17、比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律,分子進(jìn)化分析介紹,29,分子進(jìn)化分析介紹,分子進(jìn)化研究的基礎(chǔ)基本理論:在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論,Molecularclock1965),實際情況:雖然很多時候仍然存在爭議,但是分子進(jìn)化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律,30,分子進(jìn)化分析介紹,直系同源與旁系同源Orthologs(直系同源):Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation;mayor

18、maynotberesponsibleforasimilarfunction.Paralogs(旁系同源):Homologoussequenceswithinasinglespeciesthatarosebygeneduplication.。以上兩個概念代表了兩個不同的進(jìn)化事件。用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實反映進(jìn)化過程。,31,分子進(jìn)化分析介紹,32,分子進(jìn)化分析介紹,系統(tǒng)發(fā)生樹(phylogenetictree):又名進(jìn)化樹(evolutionarytree)已發(fā)展成為多學(xué)科交叉形成的一個邊緣領(lǐng)域。包括生命科學(xué)中的進(jìn)化論、遺傳學(xué)、分類學(xué)、分子生物學(xué)、生物化學(xué)、生物物理學(xué)

19、和生態(tài)學(xué),又包括數(shù)學(xué)中的概率統(tǒng)計、圖論、計算機科學(xué)和群論。聞名國際生物學(xué)界的美國冷泉港定量生物學(xué)會議于1987年特辟出進(jìn)化樹專欄進(jìn)行學(xué)術(shù)討論,標(biāo)志著該領(lǐng)域已成為現(xiàn)代生物學(xué)的前沿之一,迄今仍很活躍。,33,分子進(jìn)化分析介紹,34,分子進(jìn)化分析介紹,系統(tǒng)發(fā)生樹結(jié)構(gòu)Thelinesinthetreearecalledbranches(分支).Atthetipsofthebranchesarepresent-dayspeciesorsequencesknownastaxa(分類,thesingularformistaxon)oroperationaltaxonomicunits(運籌分類單位).The

20、connectingpointwheretwoadjacentbranchesjoiniscalledanode(節(jié)點),whichrepresentsaninferredancestorofextanttaxa.Thebifurcatingpointattheverybottomofthetreeistherootnode(根節(jié)),whichrepresentsthecommonancestorofallmembersofthetree.Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticg

21、roup(單源群).Thebranchingpatterninatreeiscalledtreetopology(拓?fù)浣Y(jié)構(gòu)).,35,分子進(jìn)化分析介紹,有根樹與無根樹樹根代表一組分類的共同祖先,36,分子進(jìn)化分析介紹,如何確定樹根根據(jù)外圍群:Oneistouseanoutgroup(外圍群),whichisasequencethatishomologoustothesequencesunderconsideration,butseparatedfromthosesequencesatanearlyevolutionarytime.根據(jù)中點:Intheabsenceofagoodoutgroup

22、,atreecanberootedusingthemidpointrootingapproach,inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot.,37,Rootedbyoutgroup,分子進(jìn)化分析介紹,38,分子進(jìn)化分析介紹,樹形系統(tǒng)發(fā)生圖(Phylograms):有分支和支長信息分支圖(Cladograms)只有分支信息,無支長信息,39,第二節(jié)系統(tǒng)發(fā)生樹構(gòu)建方法,Molecularphylogenetictreeconstructioncanbedi

23、videdintofivesteps:(1)choosingmolecularmarkers;(2)performingmultiplesequencealignment;(3)choosingamodelofevolution;(4)determiningatreebuildingmethod;(5)assessingtreereliability.,40,41,第三節(jié)系統(tǒng)發(fā)生樹構(gòu)建實例,系統(tǒng)發(fā)生分析常用軟件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView,(7)VOSTORG(8)Fitchprograms(9)Phylo_wi

24、n(10)ARB(11)DAMBE(12)PAL(13)Bionumerics,其它程序見:/phylip/software.html,42,系統(tǒng)發(fā)生樹構(gòu)建實例,Mega3下載地址,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,離散特征數(shù)據(jù)(discretecharacterdata):即所獲得的是2個或更多的離散的值。如:DNA序列某一位置是或者不是剪切位點(二態(tài)特征);序列中某一位置,可能的堿基有A、T、G、C共4種(多態(tài)特征)

25、;相似性和距離數(shù)據(jù)(similarityanddistancedata):是用彼此間的相似性或距離所表示出來的各分類單位間的相互關(guān)系。,65,核酸序列的預(yù)測和鑒定,66,內(nèi)容:序列概率信息的統(tǒng)計模型核酸序列的預(yù)測與鑒定,67,第一節(jié)、序列概率信息的統(tǒng)計模型,Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels.Position-specificscoringmatrices(PSSMs)Prof

26、ilesHiddenMarkovmodels(HMMs).,68,收集已知的功能序列和非功能序列實例(這些序列之間是非相關(guān)的),訓(xùn)練集(trainingset),測試集或控制集(controlset),建立完成識別任務(wù)的模型,檢驗所建模型的正確性,對預(yù)測模型進(jìn)行訓(xùn)練,使之通過學(xué)習(xí)后具有正確處理和辨別能力。,進(jìn)行“功能”與“非功能”的判斷,根據(jù)判斷結(jié)果計算模識別的準(zhǔn)確性。,識別“功能序列”和“非功能序列”的過程,69,多序列比對,相關(guān)序列選取,模型構(gòu)建,模型訓(xùn)練,參數(shù)調(diào)整,應(yīng)用,確立模型ProfileHMM,Hmmcalibrate,ClustalX,Hmmbuild,Hmmt,HiddenMa

27、rkovModel,70,HiddenMarkovModel,應(yīng)用HMMshasmorepredictivepowerthanProfiles.HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation,asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion.,71,HiddenMarkovModel,應(yīng)用OnceanHMMisestablishedbasedonthet

28、rainingsequences,Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel.Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences.HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs.HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedg

29、eneandpromoterprediction,Transmembraneproteinprediction,Proteinfoldrecognition.,72,第二節(jié)核酸序列的預(yù)測與鑒定,本節(jié)內(nèi)容核酸序列預(yù)測概念基因預(yù)測啟動子和調(diào)控元件預(yù)測酶切位點分析與引物設(shè)計,73,1、核酸序列預(yù)測概念,指利用一些計算方式(計算機程序)從基因組序列中發(fā)現(xiàn)基因及其表達(dá)調(diào)控元件的位置和結(jié)構(gòu)的過程。包括:基因預(yù)測(GenePrediction)基因表達(dá)調(diào)控元件預(yù)測(PromoterandRegulatoryElementPrediction),74,StructureofEukaryoticGenes,75

30、,AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCAT

31、GACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCT

32、AGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC,76,第二節(jié)核酸序列的預(yù)測與鑒定,本節(jié)內(nèi)容核酸序列預(yù)測概念基因預(yù)測啟動子和調(diào)控元件預(yù)測酶切位點分析與引物設(shè)計,77,基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理,2、基因預(yù)測,78,概念:GenePrediction:

33、GivenanuncharacterizedDNAsequence,findout:Wheredoesthegenestartsandends?detectionofthelocationofopenreadingframes(ORFs)Whichregionscodeforaprotein?delineationofthestructuresofintronsaswellasexons(eukaryotic),2.1基因預(yù)測的概念及意義,79,基因預(yù)測的概念及意義,意義:ComputationalGeneFinding(GenePrediction)isoneofthemostchallen

34、gingandinterestingproblemsinbioinformaticsatthemoment.ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly.Purebiologicalmeansaretimeconsumingandcostly.FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation(Knowledgeoftheprotein-codingregionsunderpinsfu

35、nctionalgenomics).,80,基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理,2、基因預(yù)測,81,2.2、原核基因識別,原核基因識別任務(wù)的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域。一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼的密碼子序列。,82,原核基因預(yù)測工具介紹ORFFinderHMM-basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder,原核基因識別,83,ORFFinder(OpenReadingFr

36、ameFinder)/gorf/gorf.html,原核基因識別,84,zinc-bindingalcoholdehydrogenase,novicida(弗朗西絲菌),85,86,87,88,89,HMM-basedgenefindingprogramsGeneMark:Trainedonanumberofcompletemicrobialgenomes/GeneMark/,原核基因識別,90,HMM-basedgenefindingprogramsGlimmer(GeneLocat

37、orandInterpolatedMarkovModeler):AUNIX/softlab/glimmer/glimmer.html,原核基因識別,91,HMM-basedgenefindingprogramsFGENESB:Web-basedprogramT,原核基因識別,92,HMM-basedgenefindingprogramsRBSfinder:UNIXprogramPredictedstartsites/pub/software/RBSfinder/,原核基因識別,93,基因預(yù)測的概念及意義原核基因識別真核基因

38、預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理,2、基因預(yù)測,94,WhyisGenePredictionChallenging?Codingdensity:asthecoding/non-codinglengthratiodecreases,exonpredictionbecomesmorecomplex.SomefactsabouthumangenomeCodingregionscompriselessthan3%ofthegenomeThereisageneof2400000bps,only14000bpsareCDS(0.5aredeemedre

39、liable.Thisprogramistrainedforsequencesfromvertebrates,Arabidopsis,andmaize.Ithasbeenusedextensivelyinannotatingthehumangenome.,真核基因預(yù)測方法及其基本原理,129,AbInitioBasedProgramsGRAIL(GeneRecognitionandAssemblyInternetLink):aweb-basedprogram:/public/tools/basedonaneuralnetworkalgorithm.T

40、heprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions,startandstopcodons,poly-Asites,promoters,andCpGislands.Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates.Theprogramiscurrentlytrainedforh

41、uman,mouse,Arabidopsis,Drosophila,andEscherichiacolisequences.,真核基因預(yù)測方法及其基本原理,130,131,132,133,AbInitioBasedProgramsFGENES(FindGenes)Web-basedprogram:,真核基因預(yù)測方法及其基本原理,134,AbInitioBasedProgramsMZEF(MichaelZhangsExonFinder)Webbased:/genefinder/UsesQDAforexonprediction.Hasnotbeenobvio

42、usinactualgeneprediction.,真核基因預(yù)測方法及其基本原理,135,AbInitioBasedProgramsHMMgene:Webbased:www.cbs.dtu.dk/services/HMMgeneHMM-basedprogram.Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures.Ifasequencealreadyhasasubregionidentifie

43、dascodingregion,whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase,theseregionsarelockedascodingregions.AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes.Theprogramisinawayahybridalgorit

44、hmthatusesbothabinitio-basedandhomology-basedcriteria.,真核基因預(yù)測方法及其基本原理,136,真核基因預(yù)測方法及其基本原理,Homology-BasedProgramsHomology-basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved.Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestpr

45、oteinhomologsfoundindatabases,nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery.Thisapproachassumesthatthedatabasesequencesarecorrect.ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags(ESTs)ofthesamespec

46、ies.,137,Homology-BasedPrograms:優(yōu)勢:Withthesupportofexperimentalevidence,thismethodbecomesratherefficientinfindinggenesinanunknowngenomicDNA.不足:Thedrawbackofthisapproachisitsrelianceonthepresenceofhomologsindatabases.Ifthehomologsarenotavailableinthedatabase,themethodcannotbeused.Novelgenesinanewspec

47、iescannotbediscoveredwithoutmatchesinthedatabase.,真核基因預(yù)測方法及其基本原理,138,Homology-BasedProgramsGenomeScanweb-basedserver:/genomescan.htmlCombinesGENSCANpredictionresultswithBLASTXsimilaritysearches.TheuserprovidesgenomicDNAandproteinsequencesfromrelatedspecies.ThegenomicDNAistranslate

48、dinallsixframestocoverallpossibleexons.Thetranslatedexonsarethenusedtocomparewiththeuser-suppliedproteinsequences.Translatedgenomicregionshavinghighsimilarityattheproteinlevelreceivehigherscores.ThesamesequenceisalsopredictedwithaGENSCANalgorithm,whichgivesexonsprobabilityscores.Finalexonsareassigne

49、dbasedoncombinedscoreinformationfrombothanalyses.,真核基因預(yù)測方法及其基本原理,139,Homology-BasedProgramsEST2Genome:web-basedprogram:http:/bioweb.pasteur.fr/seqanal/interfaces/est2genome.htmlTodefineintronexonboundaries.PurelybasedonthesequencealignmentapproachTheprogramcomparesanEST(orcDNA)sequencewithagenomicDN

50、Asequencecontainingthecorrespondinggene.Thealignmentisdoneusingadynamicprogrammingbasedalgorithm.,真核基因預(yù)測方法及其基本原理,140,Homology-BasedProgramsTwinScan/Asimilarity-basedgene-findingserver.PredictexonsHowtoworks:itusesGenScantopredictallpossibleexonsfromthegenomicsequence.Theputat

51、iveexonsareusedforBLASTsearchingtofindclosesthomologs.TheputativeexonsandhomologsfromBLASTsearchingarealignedtoidentifythebestmatch.Onlytheclosestmatchfromagenomedatabaseisusedasatemplateforrefiningthepreviousexonselectionandexonboundaries.,真核基因預(yù)測方法及其基本原理,141,真核基因預(yù)測方法及其基本原理,Consensus-BasedProgramsTh

52、eseprogramsworkbyretainingcommonpredictionsagreedbymostprogramsandremovinginconsistentpredictions.Suchanintegratedapproachmayimprovethespecificitybycorrectingthefalsepositivesandtheproblemofoverprediction.However,sincethisprocedurepunishesnovelpredictions,itmayleadtoloweredsensitivityandmissedpredic

53、tions.Twoexamplesofconsensus-basedprogramsaregivennext.,142,Consensus-BasedProgramsGeneComber:awebserver:www.bioinformatics.ubc.ca/genecomber/index.phpCombinesHMMgeneandGenScanpredictionresults.Theconsistencyofbothpredictionmethodsiscalculated.Ifthetwopredictionsmatch,theexonscoreisreinforced.Ifnot,

54、exonsareproposedbasedonseparatethresholdscores.,真核基因預(yù)測方法及其基本原理,143,Consensus-BasedProgramsDIGIT:webserver:http:/digit.gsc.riken.go.jp/cgi-bin/index.cgiFirst,existinggene-finders(FGENESH,GENSCAN,andHMMgene)areappliedtoanuncharacterizedgenomesequence(inputsequence).Next,DIGITproducesallpossibleexonsfr

55、omtheresultsofgene-finders,andassignsthemtheirreadingframesandscores.Finally,DIGITsearchesasetofexonswhoseadditivescoreismaximizedundertheirreadingframeconstraints.,真核基因預(yù)測方法及其基本原理,144,真核基因預(yù)測方法及其基本原理,PerformanceEvaluationBecauseofextralayersofcomplexityforeukaryoticgeneprediction,thesensitivityandspe

56、cificityhavetobedefinedonthelevelsofnucleotides,exons,andentiregenes.Thesensitivity(Sn)attheexonandgenelevelistheproportionofcorrectlypredictedexonsorgenesamongactualexonsorgenes.Thespecificity(Sp)atthetwolevelsistheproportionofcorrectlypredictedexonsorgenesamongallpredictionsmade.,145,146,真核基因預(yù)測方法及

57、其基本原理,PerformanceEvaluationAtpresent,nosinglesoftwareprogramisabletoproduceconsistentsuperiorresults.Someprogramsmayperformwelloncertaintypesofexons(e.g.,internalorsingleexons)butnotothers(e.g.,initialandterminalexons).SomearesensitivetotheG-Ccontentoftheinputsequencesortothelengthsofintronsandexons

58、.Mostprogramsmakeoverpredictionswhengenescontainlongintrons.Insum,theyallsufferfromtheproblemofgeneratingahighnumberoffalsepositivesandfalsenegatives.Thisisespeciallytrueforabinitiobasedalgorithms.Forcomplexgenomessuchasthehumangenome,mostpopularprogramscanpredictnomorethan40%ofthegenesexactlyright.

59、Drawingconsensusfromresultsbymultiplepredictionprogramsmayenhanceperformancetosomeextent.,147,第二節(jié)核酸序列的預(yù)測與鑒定,本節(jié)內(nèi)容核酸序列預(yù)測概念基因預(yù)測啟動子和調(diào)控元件預(yù)測酶切位點分析與引物設(shè)計,148,PromoterandRegulatoryElementPredictionThecomputationalapproachtoidentifypromotersandregulatoryelementsofgenes.PromotersDNAelementslocatedinthevicinityofgenestartsites(whichshouldnotbeconfusedwiththetranslationstartsites)andserveasbindingsitesforthegenetranscriptionmachinery,consistingofRNApolymerasesandtranscripti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論