BLAST 核酸氨基酸序列相似性比較_第1頁
BLAST 核酸氨基酸序列相似性比較_第2頁
BLAST 核酸氨基酸序列相似性比較_第3頁
BLAST 核酸氨基酸序列相似性比較_第4頁
BLAST 核酸氨基酸序列相似性比較_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、BLAST 核酸/氨基酸序列相似性比較Blast (Basic Local Alignment Search Tool)是一套在蛋白質(zhì)數(shù)據(jù)庫或DNA數(shù)據(jù)庫中進(jìn)行相似性比較的分析工具。BLAST程序能迅速與公開數(shù)據(jù)庫進(jìn)行相似性序列比較。BLAST結(jié)果中的得分是對(duì)一種對(duì)相似性的統(tǒng)計(jì)說明。BLAST 采用一種局部的算法獲得兩個(gè)序列中具有相似性的序列。如果您想進(jìn)一步了解BLAST算法,您可以參考NCBI的BLAST Course ,該頁有BLAST算法的介紹。BLAST的功能BLAST對(duì)一條或多條序列(可以是任何形式的序列)在一個(gè)或多個(gè)核酸或蛋白序列庫中進(jìn)行比對(duì)。BLAST還能發(fā)現(xiàn)具有缺口的

2、能比對(duì)上的序列。BLAST是基于Altschul等人在上發(fā)表的方法(J.Mol.Biol.215:403-410(1990),在序列數(shù)據(jù)庫中對(duì)查詢序列進(jìn)行同源性比對(duì)工作。從最初的BLAST發(fā)展到現(xiàn)在NCBI提供的BLAST2.0,已將有缺口的比對(duì) 序列也考慮在內(nèi)了。BLAST可處理任何數(shù)量的序列,包括蛋白序列和核算序列;也可選擇多個(gè)數(shù)據(jù)庫但數(shù)據(jù)庫必須是同一類型的,即要么都是蛋白數(shù)據(jù)庫要么都是核酸數(shù)據(jù)庫。       所查詢的序列和調(diào)用的數(shù)據(jù)庫則可 以是任何形式的組合,既可以是核酸序列到蛋白庫中作查詢,也可以是蛋白序列到蛋白庫中作查詢,

3、反之亦然。BLAST包含的程序:1、BLASTP是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。2、BLASTX是核酸序列到蛋白庫中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會(huì)被翻譯成可能的六條蛋白),再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)。3、BLASTN是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。 4、TBLASTN是蛋白序列到核酸庫中的一種查詢。與BLASTX相反,它是將庫中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對(duì)。5、TBLASTX是核酸序列到核酸庫中的一種查詢

4、。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列),這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列。通常根據(jù)查詢序列的類型(蛋白或核酸)來決定選用何種BLAST。假如是作核酸核酸查詢,有兩種BLAST供選擇,通常默認(rèn)為BLASTN。如要用TBLASTX也可,但記住此時(shí)不考慮缺口。BLAST適用于本地查詢??梢韵螺d公共數(shù)據(jù)庫,對(duì)于該數(shù)據(jù)庫的更新和維護(hù)是必不可少的。如果要直接到網(wǎng)上查詢也可以(即etlast),但記住如果你認(rèn)為自己的序列很有價(jià)值的話,還是謹(jǐn)慎為宜。如何訪問在線的BLAST功能服務(wù)?您只要通過瀏覽器訪問Blast主頁() 。所有的查詢和分析都通過瀏覽器來

5、完成,就象您在您的本地機(jī)上一樣方便和快捷。 BLAST 采用一種局部的算法獲得兩個(gè)序列中具有相似性的序列。Blast中常用的程序介紹: 1、BLASTP是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。2、BLASTX是核酸序列到蛋白庫中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會(huì)被翻譯成可能的六條蛋白),再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)。3、BLASTN是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。4、TBLASTN是蛋白序列到核酸庫中的一種查詢。與BLASTX相反,它是

6、將庫中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對(duì)。5、TBLASTX是核酸序列到核酸庫中的一種查詢。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列),這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列。NCBI的在線blast:1,進(jìn)入在線blast界面,可以選擇blast特定的物種(如人,小鼠,水稻等),也可以選擇blast所有的核酸或蛋白序列。不同的blast程序上面已經(jīng)有了介紹。這里以常用的核酸庫作為例子。2,粘貼fasta格式的序列。選擇一個(gè)要比對(duì)的數(shù)據(jù)庫。關(guān)于數(shù)據(jù)庫的說明請(qǐng)看NCBI在線blast數(shù)據(jù)庫的簡(jiǎn)要說明。一般的話參數(shù)默認(rèn)。3,blas

7、t參數(shù)的設(shè)置。注意顯示的最大的結(jié)果數(shù)跟E值,E值是比較重要的。篩選的標(biāo)準(zhǔn)。最后會(huì)說明一下。4,注意一下你輸入的序列長度。注意一下比對(duì)的數(shù)據(jù)庫的說明。5,blast結(jié)果的圖形顯示。沒啥好說的。6,blast結(jié)果的描述區(qū)域。注意分值與E值。分值越大越靠前了,E值越小也是這樣。7,blast結(jié)果的詳細(xì)比對(duì)結(jié)果。注意比對(duì)到的序列長度。評(píng)價(jià)一個(gè)blast結(jié)果的標(biāo)準(zhǔn)主要有三項(xiàng),E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上長度的話,就有四個(gè)標(biāo)準(zhǔn)了。如圖中顯示,比對(duì)到的序列長度為1405,看Identities這一值,才匹配到1344bp,而輸入的序列長度也是為1344b

8、p(看上面的圖),就說明比對(duì)到的序列要長一點(diǎn)。由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。有時(shí)也要注意3'端的。附:E值(Expect):表示隨機(jī)匹配的可能性,E值越大,隨機(jī)匹配的可能性也越大。E值接近零或?yàn)榱銜r(shí),具本上就是完全匹配了。一致性(Identities):或相似性。匹配上的堿基數(shù)占總序列長的百分?jǐn)?shù)。缺失或插入(Gaps):插入或缺失。用""來表示。 BlastN/MegaBlast/Discontiguous MegaBlast 的區(qū)別:三者之間的共同之處就是 BlastN/Megablast/D

9、iscontiguous megablast 都是BlastN,就是核酸序列比對(duì)核酸序列的算法。簡(jiǎn)單而言BlastN : 應(yīng)該是出現(xiàn)較早的算法。比對(duì)的速度慢,但允許更短序列的比對(duì)(如短到7個(gè)堿基的序列)。MEGABLAST : 主要用來鑒定一段新的核酸序列,它并不注重比對(duì)各個(gè)堿基的不同和序列片斷的同源性,而只注重被比對(duì)序列是否是數(shù)據(jù)庫未收錄的,是否為新的提交序列或基因。 速度快。同一物種間的。Discontiguous MEGABLAST : 靈敏度(sensitivity)更高,用于更精確的比對(duì)。主要用于跨物種之間的同源比對(duì)。詳細(xì)解釋1,MEGABLAST 常被用于鑒定核酸序列MEGABLA

10、ST is the tool of choice to identify a nucleotide sequence.MegaBLAST也是一種BLASTN程序,不過它主要是用來在非常相似的序列之間(來自同一物種)比對(duì)同源性的。鑒定某一段核酸序列是否存在于數(shù)據(jù)庫,最好的方法是選擇MEGABLAST。如果比對(duì)到的序列在數(shù)據(jù)庫中注釋完整的話,那該序列豐富的注釋可以當(dāng)作新序列的參考。當(dāng)然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成這種事情。但MEGABLAST就是特別設(shè)計(jì)用于非常相似序列之間的比對(duì),可用于尋找查詢序列的最佳匹配的序列。2,Discon

11、tiguous MEGABLAST 更好地用于查找不同物種的相似的核酸序列,而不是與查詢序列相同(identical)物種的。Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query.Discontiguous MEGABLAST,用于跨物種核酸序列快速比對(duì)。它使用非重疊群字段匹配算法(noncontiguous word match)來進(jìn)行核酸比對(duì)。Discontiguous MegaBLAST比blastx等翻譯

12、后比對(duì)要快得多,同時(shí)它在比較編碼區(qū)時(shí)也具有相當(dāng)高的敏感度。但是需要指出的是,核酸與核酸之間的比對(duì)并不是發(fā)現(xiàn)同源蛋白編碼區(qū)域的最佳方法,直接在蛋白水平用Blastp比對(duì)更好。這是因?yàn)槊艽a子的簡(jiǎn)并性。(Lc.注:翻譯得有些拗口,多多見諒!)Discontiguous MEGABLAST詳細(xì)介紹:原文:/blast/producttable.shtml#tab31本文詳細(xì)出處參考:/1009/#more-1009 1,Blastp: 標(biāo)準(zhǔn)的蛋白序列與蛋白序列之間的比對(duì)Standard protein

13、BLAST is designed for protein searches.Blastp用于確定查詢的氨基酸序列在蛋白數(shù)據(jù)庫中找到相似的序列。跟其它的Blast程序一樣,目的是要找到相似的區(qū)域。2,PSI-BLAST : 敏感度更高的蛋白序列與蛋白序列之間的比對(duì)PSI-BLAST is designed for more sensitive protein-protein similarity searches.Position-Specific Iterated (PSI)-BLAST,是一種更加高靈敏的Blastp程序,對(duì)于發(fā)現(xiàn)遠(yuǎn)親物種的相似蛋白或某個(gè)蛋白家族的新成員非常有效。當(dāng)你使用標(biāo)

14、準(zhǔn)的Blastp比對(duì)失敗時(shí),或比對(duì)的結(jié)果僅僅是一些假基因或推測(cè)的基因序列時(shí)("hypothetical protein" or "similar to."),你可以選擇PSI-BLAST重新試試。3,PHI-BLAST : 模式發(fā)現(xiàn)迭代BLASTPHI-BLAST can do a restricted protein pattern search.PHI-BLAST, 模式發(fā)現(xiàn)迭代BLAST, 用蛋白查詢來搜索蛋白數(shù)據(jù)庫的一個(gè)程序。僅僅找出那些查詢序列中含有的特殊模式的對(duì)齊。PHI的語法詳細(xì)介紹看這里: Peptide Sequence Da

15、tabases蛋白序列的數(shù)據(jù)庫nrAll non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF所有非冗余的的GenBank CDS區(qū)的翻譯序列 + 參考序列的蛋白 + PDB數(shù)據(jù)庫 + SwissProt蛋白數(shù)據(jù)庫 + PRF蛋白數(shù)據(jù)庫refseqRefSeq protein sequences from NCBI's Reference Sequence Project.所有NCBI的參考序列swissprotLast maj

16、or release of the SWISS-PROT protein sequence database (no updates).swissprot的蛋白數(shù)據(jù)庫patProteins from the Patent division of GenPept.專利的蛋白數(shù)據(jù)庫pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.PDB數(shù)據(jù)庫monthAll new or revised GenBank CDS translation+PDB+SwissProt+PIR+P

17、RF released in the last 30 days.一個(gè)月內(nèi)新增加的蛋白序列env_nrProtein sequences from environmental samples.來自environmental samples的蛋白序列Nucleotide Sequence Databases核酸數(shù)據(jù)庫 nrAll GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redu

18、ndant".所有GenBank的核酸序列 + 參考序列中的核酸序列+ EMBL +DDBJ +PDB核酸序列(但不包括HTG,EST,GSS等序列)refseq_rnaRNA entries from NCBI's Reference Sequence projectNCBI參考序列中的核酸序列refseq_genomicGenomic entries from NCBI's Reference Sequence projectNCBI參考序列中的基因組序列estDatabase of GenBank + EMBL + DDBJ sequences from EST

19、 Divisions來自GenBank + EMBL + DDBJ 的EST序列est_humanHuman subset of est.人的EST序列est_mouseMouse subset.小鼠的EST序列est_othersNon-Mouse, non-Human subset of est.、除了人與小鼠之外的EST序列g(shù)ssGenome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.htgsUnfinished High Throug

20、hput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are in nr)未發(fā)布的高通量的基因組測(cè)序patNucleotides from the Patent division of GenBank.專利的核酸序列pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data BankPDB核酸序列monthAll new or revised GenBank + EMBL + DDBJ + PD

21、B sequences released in the last 30 days.一個(gè)月內(nèi)新增的核酸序列dbstsDatabase of GenBank+EMBL+DDBJ sequences from STS Divisions .STS數(shù)據(jù)庫chromosomeA database with complete genomes and chromosomes from the NCBI Reference Sequence project.NCBI參考序列計(jì)劃中所有的完整基因組和染色體序列wgsA database for whole genome shotgun sequence entr

22、ies.基因組鳥槍法測(cè)序得到的序列env_ntNucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainageprojects.來自environmental samples的核酸序列。 NCBI中Blast可以用來進(jìn)行序列比對(duì)、檢驗(yàn)引物特異性Blast導(dǎo)航主頁面主體包括三部分BLAST Assembled Genomes選擇你要對(duì)比的物種,點(diǎn)擊物種之后即可進(jìn)入對(duì)比頁面Basic BLAST包含5個(gè)常用的Blast,每一個(gè)都附有簡(jiǎn)單介紹Special

23、ized BLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST根據(jù)需要做出選擇本學(xué)期學(xué)習(xí)了最基本的核苷酸序列的比對(duì)點(diǎn)擊Basic BLAST部分的nucleotide鏈接到一個(gè)新的頁面,打開后的頁面特征:大體上包括三個(gè)部分Enter Query Sequence部分可以讓我們輸入序列,其中的Job Title部分可以為本次工作命一個(gè)名字Choose Search Set部分可以選擇要與目的序列比對(duì)的物種或序列種類。其中的Entrez Query可以對(duì)比對(duì)結(jié)果進(jìn)行適當(dāng)?shù)南拗?。Program Selection部分可以選擇本次對(duì)比的精確度,種內(nèi)種間等等。其次Blast按

24、鈕下面有一個(gè)“Algorithm parameters”算法參數(shù),可設(shè)置參數(shù)。點(diǎn)擊Blast后,出現(xiàn)的頁面大體上包括四個(gè)部分一所詢問和比對(duì)序列的簡(jiǎn)單信息1詢問序列的簡(jiǎn)單信息名稱、描述、分子類型、序列長度2所比對(duì)數(shù)據(jù)庫的名稱、描述和所用程序二Graphic Summaryblast結(jié)果圖形顯示相似度顏色圖(黑、藍(lán)、綠、粉紅、紅,相似度由低到高)三Descriptionsblast結(jié)果描述區(qū)1到其他數(shù)據(jù)庫的鏈接2描述以表格的形式呈現(xiàn)(以匹配分值從大到小排序)(1)Accession下程序比對(duì)的序列名稱,點(diǎn)擊相應(yīng)的可以進(jìn)入更為詳細(xì)的map viewer(2)Descriptions下是對(duì)所比對(duì)序列的

25、簡(jiǎn)單描述接下來是5個(gè)結(jié)果數(shù)值:(3)Max score匹配分值,點(diǎn)擊可進(jìn)入第四部分相應(yīng)序列的blast的詳細(xì)比對(duì)結(jié)果(4)Total score總體分值(5)Query coverage覆蓋率(6)E valueE(Expect)值,表示隨機(jī)匹配的可能性。E值越大,隨機(jī)匹配的可能性也越大。E值接近零或?yàn)榱銜r(shí),具本上就是完全匹配了。(7)Max ident匹配一致性,即匹配上的堿基數(shù)占總序列長的百分?jǐn)?shù)。(8)Links到其他數(shù)據(jù)庫的鏈接。四各序列blast的詳細(xì)比對(duì)結(jié)果數(shù)據(jù)庫中不同序列比對(duì)的詳細(xì)結(jié)果,每一個(gè)結(jié)果大體上包括3部分1.所比對(duì)序列的名稱、簡(jiǎn)單描述、長度。到其他數(shù)據(jù)庫的鏈接。2.比對(duì)結(jié)果

26、的5個(gè)數(shù)值:(1)score打分矩陣計(jì)算出來的值,由搜索算法決定的,值越大說明詢問序列跟目標(biāo)序列匹配程度越大(2)Expect是輸入序列被隨機(jī)搜索出來的概率,該值越小越好。(3)Identities是相似程度,即輸入序列和搜索到序列的匹配率(4)Gaps就是空白,即比對(duì)序列只有一條鏈上有堿基(5)strand=plus/minus即詢問序列和數(shù)據(jù)庫里面序列的互補(bǔ)鏈匹配3輸入序列和庫中對(duì)比到的序列每個(gè)堿基的詳細(xì)對(duì)比 Blast 2 Sequences,在很早前NCBI就有提供這種工具的了。最近在2008年底又重新改版了,改版后的功能更加強(qiáng)大。有許多非常實(shí)用,但你可能不是太清楚的功能。這里大概提一下,具體的詳細(xì)用法,還是要靠你自己慢慢摸索。功能介紹:· 1,兩個(gè)序列之間的比對(duì)(BLAST 2 Sequences),這是最初的功能· 2,BLAST 多個(gè)序列。· 3,BLAST 2 Sequences時(shí),還能用點(diǎn)矩陣圖(Dot Matrix)查看· 4,BLAST 多個(gè)序列時(shí),還能進(jìn)一步做進(jìn)化樹分析。 BLAST主頁:現(xiàn)在在任何一個(gè)Blast界面都可以直接切換到BLAST 2 Sequences,只要把Align two or more sequences的選項(xiàng)勾上就可以了。看下圖。1,2個(gè)序列的比對(duì)下圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論