通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件_第1頁
通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件_第2頁
通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件_第3頁
通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件_第4頁
通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件_第5頁
已閱讀5頁,還剩183頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三節(jié)、核酸的相似性分析第三節(jié)、核酸的相似性分析1內(nèi)容提要一、什么是序列的相似性和同源性?二、Blast介紹(Blast資源和相關(guān)問題)三、Blast的應(yīng)用(網(wǎng)絡(luò)版,單機(jī)版)四、深入了解Blast(改進(jìn)程序,算法基礎(chǔ))五、其他的序列相似性搜索工具(fasta)內(nèi)容提要一、什么是序列的相似性和同源性?2一、什么是序列的相似性和同源性?1、序列的相似性(similarity):

是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80%,或者4/5。這是個(gè)量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。一、什么是序列的相似性和同源性?1、序列的相似性(simil32、序列的同源性(homology):

指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80%都是不科學(xué)的。2、序列的同源性(homology):43、相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測(cè)序列是否同源。正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80%一說。3、相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系5序列相似性比較和序列同源性分析序列相似性比較:就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;序列相似性比較和序列同源性分析序列相似性比較:6二、Blast簡介(一)BLAST是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫搜索程序。BLAST是“局部相似性基本查詢工具”(BasicLocalAlignmentSearchTool)的縮寫。二、Blast簡介(一)BLAST是由美國國立生物技術(shù)信息7

Blast是一個(gè)序列相似性搜索的程序包,其中包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。下表列出了主要的blast程序。Blast簡介(二)Blast是一個(gè)序列相似性搜索的程序包,其中包含了8主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中的序列逐一搜索。tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對(duì)。tblastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對(duì)。主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法blastn9Blast相關(guān)的問題怎么獲得blast服務(wù),怎么使用的問題?為什么使用blast,可以獲得什么樣的信息?其他問題:實(shí)際使用時(shí)選擇哪種方式(網(wǎng)絡(luò),本地化),參數(shù)的選擇,結(jié)果的解釋…Blast相關(guān)的問題怎么獲得blast服務(wù),怎么使用的問題?10Blast資源1)、NCBI主站點(diǎn):

/BLAST/(網(wǎng)絡(luò)版)

/blast/(單機(jī)版)2)、其他站點(diǎn):

/blast/http://nema.cap.ed.ac.uk/ncbi_blast.html/blast/(果蠅)

…Blast資源1)、NCBI主站點(diǎn):11Blast結(jié)果給出的信息

Blast結(jié)果會(huì)列出跟查詢序列相似性比較高,符合限定要求的序列結(jié)果,根據(jù)這些結(jié)果可以獲取以下一些信息。1)、查詢序列可能具有某種功能2)、查詢序列可能是來源于某個(gè)物種3)、查詢序列可能是某種功能基因的同源基因

…這些信息都可以應(yīng)用到后續(xù)分析中。Blast結(jié)果給出的信息Blast結(jié)果會(huì)列出跟查詢序12三、Blast的應(yīng)用

兩種版本的Blast比較(一)網(wǎng)絡(luò)版本包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù),這也是我們最經(jīng)常用到的blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新等優(yōu)點(diǎn)。但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù),同時(shí)也不能自己定義搜索的數(shù)據(jù)庫。三、Blast的應(yīng)用

兩種版本的Blast比較(一)網(wǎng)絡(luò)版13單機(jī)版單機(jī)版的blast可以通過NCBI的ftp站點(diǎn)獲得,有適合不同平臺(tái)的版本(包括linux,dos等)。獲得程序的同時(shí)必須獲取相應(yīng)的數(shù)據(jù)庫才能在本地進(jìn)行blast分析。單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需要耗費(fèi)本地機(jī)的大量資源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定的計(jì)算機(jī)操作水平。兩種版本的Blast比較(二)單機(jī)版兩種版本的Blast比較(二)14本地WEB版的Blast

在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務(wù)器上建立Blast網(wǎng)頁服務(wù)的軟件包(wwwblast)。使用該軟件包,用戶可以建立一個(gè)簡易的進(jìn)行Blast運(yùn)算的網(wǎng)站供實(shí)驗(yàn)室人員使用。用于搜索的數(shù)據(jù)庫同樣可以靈活的定義。本地WEB版的Blast在NCBI的FTP上,在blas15Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù)Score:使用打分矩陣對(duì)匹配的片段進(jìn)行打分,這是對(duì)各對(duì)氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個(gè)氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越小表示隨機(jī)情況下得到該Score值的可能性越低。Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù)Score:使用打分矩16NCBI提供的Blast服務(wù)登陸ncbi的blast主頁核酸序列蛋白序列翻譯序列底下有其他一些針對(duì)特殊數(shù)據(jù)庫的和查看以往的比對(duì)結(jié)果等NCBI提供的Blast服務(wù)登陸ncbi的blast主頁核酸17Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(query)的序列序列范圍(默認(rèn)全部)選擇搜索數(shù)據(jù)庫如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開始搜索Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(que18描述數(shù)據(jù)庫情況nr

極有價(jià)值的GenBank,排除了EST,STS和GSS部分monthnr的字集,每月(30天)更新,搜集了過去30天中的最新序列estGenBank中的EST部分(expressedsequencetags,表達(dá)序列標(biāo)簽)stsGenBank中的STS部分(sequencetaggedsites,序列標(biāo)簽位點(diǎn))htgsGenBank中的HTG部分(highthroughputgenomicsequences,高容量基因組序列)使用BLAST的核苷酸序列數(shù)據(jù)庫描述數(shù)據(jù)庫情況19gss

GSS(genomesurveysequences,基因組測(cè)定序列)。

yeast

酵母的全基因組序列。

ecoli

大腸桿菌的全基因組序列。

mito

脊椎動(dòng)物線粒體的全基因組序列。

Alu-repeats

搜集了靈長類動(dòng)物的Alu重復(fù)序列。

vector

搜集了流行的帶菌體的克隆。

gssGSS(genomesurvey20使用BLAST的蛋白質(zhì)序列數(shù)據(jù)庫數(shù)據(jù)庫描述nr

非冗余數(shù)據(jù)庫(non-redundantdatabase)。Allnon-redundantGenBankCDStranslations+RefSeqProteins+PDB+SwissProt+PIR+PRFmonthnr的子集,每月(30天)更新,搜集了過去30天中的最新序列。SwissprotSwiss-Prot數(shù)據(jù)庫。pdb

擁有三維空間結(jié)構(gòu)的原子坐標(biāo)的氨基酸序列庫。yeast

由酵母基因組中基因編碼的全套蛋白質(zhì)。ecoli

有大腸桿菌基因組中基因編碼的全套蛋白質(zhì)。Drosophilagenome

果蠅

使用BLAST的蛋白質(zhì)序列數(shù)據(jù)庫21一些對(duì)于BLAST很有用的參數(shù)值

參數(shù)名稱BLAST2.0數(shù)據(jù)庫(database)-ddatabase查詢序列文件(querysequencefile)-Ifilename期望閾值E(expectationcutoff)-enumberHSP分值閾值S(HSPscorecutoff)-snumber字串分值閾值T(wordscorecutoff)-fnumber多命中窗口A(multihitwindow)-Anumber一些對(duì)于BLAST很有用的參數(shù)值22Blast任務(wù)提交表單(二)設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種2.設(shè)置各種參數(shù)部分一些過濾選項(xiàng),包括簡單重復(fù)序列,人類基因組中的重復(fù)序列等E值上限窗口大小如果你對(duì)blast的命令行選項(xiàng)熟悉的話,可以在這里加入更多的參數(shù)Blast任務(wù)提交表單(二)設(shè)置搜索的范圍,entrez關(guān)鍵23Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要顯示的選項(xiàng)以及顯示的文件格式顯示數(shù)目Alignment的顯示方式篩選結(jié)果E值范圍其他一些顯示格式參數(shù)點(diǎn)擊開始搜索Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要24提交任務(wù)返回查詢號(hào)(requestid)可以修改顯示結(jié)果格式修改完顯示格式后點(diǎn)擊進(jìn)入結(jié)果界面提交任務(wù)返回查詢號(hào)(requestid)可以修改顯示結(jié)果格25結(jié)果頁面(一)圖形示意結(jié)果結(jié)果頁面(一)圖形示意結(jié)果26結(jié)果頁面(二)目標(biāo)序列描述部分帶有GenBank的鏈接,點(diǎn)擊可以進(jìn)入相應(yīng)的genbank序列匹配情況,分值,e值結(jié)果頁面(二)目標(biāo)序列描述部分帶有GenBank的鏈接,點(diǎn)擊27結(jié)果頁面(三)詳細(xì)的比對(duì)上的序列的排列情況結(jié)果頁面(三)詳細(xì)的比對(duì)上的序列的排列情況28一個(gè)具體的例子(blastp)假設(shè)以下為一未知蛋白序列>query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA

我們通過blast搜索來獲取一些這個(gè)序列的信息。一個(gè)具體的例子(blastp)假設(shè)以下為一未知蛋白序列29具體步驟1.登陸blast主頁

/BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果具體步驟1.登陸blast主頁30分析過程(一)1.登陸ncbi的blast主頁2.選擇程序,因?yàn)椴樵冃蛄惺堑鞍仔蛄锌梢赃x擇blastp,點(diǎn)擊進(jìn)入也可以選擇tblastn作為演示,我們這里選blastp分析過程(一)1.登陸ncbi的blast主頁2.選擇程序,31分析過程(二)3.填入序列(copy+paste)Fasta格式,或者純序列4.選擇搜索區(qū)域,這里我們要搜索整個(gè)序列,不填5.選擇搜索數(shù)據(jù)庫,這里我們選nr(非冗余的蛋白序列庫)。是否搜索保守區(qū)域數(shù)據(jù)庫(cdd),蛋白序列搜索才有。我們選上分析過程(二)3.填入序列(copy+paste)4.選擇搜32分析過程(三)6.限制條件,我們限制在病毒里面找。7.其他選項(xiàng)保持默認(rèn)值打分矩陣分析過程(三)6.限制條件,我們限制在病毒里面找。7.其他選33分析過程(四)8.輸出格式選項(xiàng)保持默認(rèn)值9.點(diǎn)擊開始搜索分析過程(四)8.輸出格式選項(xiàng)保持默認(rèn)值9.點(diǎn)擊開始搜索34分析過程(五)10.查詢序列的一些相關(guān)信息在cdd庫里面找到兩個(gè)保守區(qū)域,點(diǎn)擊可以進(jìn)入分析過程(五)10.查詢序列的一些相關(guān)信息在cdd庫里面找到35分析過程(六)圖形結(jié)果分析過程(六)圖形結(jié)果36分析過程(七)匹配序列列表分析過程(七)匹配序列列表37分析過程(八)具體匹配情況分析過程(八)具體匹配情況38為什么使用單機(jī)版的Blast? 1)、特殊的數(shù)據(jù)庫要求。 2)、涉及序列的隱私與價(jià)值。 3)、批量處理。 4)、其他原因?單機(jī)版的Blast使用(一)為什么使用單機(jī)版的Blast?單機(jī)版的Blast使用(一)39單機(jī)版Blast的基本操作過程 1)、下載單機(jī)版的Blast程序/blast/executables/目錄下,下載對(duì)應(yīng)的操作系統(tǒng)版本。 2)、解壓程序包(blast-2.28-ia32-linux.tar.gz)命令是:$tarzxvfblast-2.28-ia32-linux.tar.gz 單機(jī)版的Blast使用(二)單機(jī)版Blast的基本操作過程單機(jī)版的Blast使用(二)40下載正確的Blast程序包blast:在本地運(yùn)行的blast程序包wwwblast:在本地服務(wù)器建立blast服務(wù)的網(wǎng)站netblast:blast的客戶端程序,直接鏈接至NCBI的BLAST服務(wù)器,使用BLAST服務(wù),不需瀏覽器。下載正確的Blast程序包blast:在本地運(yùn)行的blast41下載正確的Blast程序包

Blast程序包的名字上還包括了該程序包運(yùn)行的硬件和操作系統(tǒng)環(huán)境:硬件環(huán)境(CPU)操作系統(tǒng)sparcpowerPCia32ia64amd64mipsalphalinuxmacoxsolarisirixaixfreebsdwin32hpux下載正確的Blast程序包Blast程序包的名字上還包括了42 3)、獲取Blast數(shù)據(jù)庫

a.直接從ncbi下載

/blast/db/ b.用Blast程序包提供的formatdb工具自己格 式化序列數(shù)據(jù)成數(shù)據(jù)庫。 假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta格式),欲自己做成Blast數(shù)據(jù)庫,典型的命令如下:單機(jī)版的Blast使用(三) 3)、獲取Blast數(shù)據(jù)庫單機(jī)版的Blast使用(三)43核酸序列:$./formatdb–isequence.fa–pF–oT/F–ndb_name蛋白序列:$./formatdb–isequence.fa–pT–oT/F–ndb_name單機(jī)版的Blast使用(四)核酸序列:單機(jī)版的Blast使用(四)444)、執(zhí)行Blast比對(duì) 獲得了單機(jī)版的Blast程序,解壓開以后,如果有了相應(yīng)的數(shù)據(jù)庫(db),那么就可以開始執(zhí)行Blast分析了。 單機(jī)版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一個(gè)程序里面。單機(jī)版的Blast使用(五)4)、執(zhí)行Blast比對(duì)單機(jī)版的Blast使用(五)45以下是一個(gè)典型的blastn分析命令:(待分析序列seq.fa,數(shù)據(jù)庫nt_db)$./blastall–pblastn

–iseq.fa-dnt_db–w7–e10–o

程序名 輸入數(shù)據(jù)庫窗口e值輸出

seq.blastn.out該命令的意思是,對(duì)seq.fa文件中的核酸序列對(duì)nt_db數(shù)據(jù)庫執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出的結(jié)果保存到文件seq.blastn.out中。單機(jī)版的Blast使用(六)以下是一個(gè)典型的blastn分析命令:單機(jī)版的Blast使用465)、Blastall的常用參數(shù)-p程序名應(yīng)該是blastn,blastp,blastx,tblastn,tblastx中的一個(gè)-d數(shù)據(jù)庫名稱,默認(rèn)nr-i查詢序列文件,默認(rèn)stdin-eE值限制,默認(rèn)10-o結(jié)果輸出文件,默認(rèn)stdout-F過濾選項(xiàng),默認(rèn)T-a選擇進(jìn)行運(yùn)算的CPU個(gè)數(shù)單機(jī)版的Blast使用(七)5)、Blastall的常用參數(shù)單機(jī)版的Blast使用(七)47四、深入了解Blast1)、blast22)、Megablast3)、PSI-blast4)、其他(rpsblast,blastclust等)四、深入了解Blast1)、blast248Blast2兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,相互進(jìn)行blast比對(duì)。能快速檢查兩個(gè)序列是否存在相似性片斷或者是否一致。這比起全序列比對(duì)要快很多。Blast2兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,49Megablastmegablast采用了貪婪算法(greedyalgorithm),它連接了多個(gè)查詢序列進(jìn)行一次搜索比對(duì),這樣節(jié)省了很多搜索數(shù)據(jù)庫的時(shí)間。主要針對(duì)核酸序列。是blast經(jīng)過優(yōu)化后,適用于由于測(cè)序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對(duì)。Megablastmegablast采用了貪婪算法(gre50PSI-blast

PositionspecificiterativeBLAST(PSI-BLAST)位點(diǎn)特異的迭代blast搜索,主要針對(duì)蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM(位點(diǎn)特異性打分矩陣),然后再使用該矩陣進(jìn)行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。最終高度保守的區(qū)域就會(huì)得到比較高的分值,而不保守的區(qū)域則分?jǐn)?shù)降低,趨近0。這樣可以提高blast搜索的靈敏度。PSI-blastPositionspecific51BLAST的算法基礎(chǔ)基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量更好的增強(qiáng)點(diǎn)來提高速度。BLAST算法是建立在嚴(yán)格的統(tǒng)計(jì)學(xué)的基礎(chǔ)之上的。它集中于發(fā)現(xiàn)具有較高的相似性的局部比對(duì),且局部比對(duì)中不能含有空位(blast2.0引入了允許插入gap的算法)。由于局部比對(duì)的限制條件,在大多數(shù)情況下比對(duì)會(huì)被分解為若干個(gè)明顯的HSP(High-scoreSequencePairs)。BLAST的算法基礎(chǔ)基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量更好52BLAST的算法流程BLAST的算法流程531)、首先確定一個(gè)終止值S、步長參數(shù)w和一個(gè)閾值T。然后軟件會(huì)在考慮搜索背景性質(zhì)的基礎(chǔ)上計(jì)算出合適的S值。使要比對(duì)的序列中包含一個(gè)分值不小于S的HSP。Blast的算法(一)1)、首先確定一個(gè)終止值S、步長參數(shù)w和一個(gè)閾值T。然后軟件54Blast的算法(二)2)、引入鄰近字串的思想:不需要字串確切地匹配,當(dāng)有一個(gè)字串的分值高于T時(shí),BALST就宣稱找到了一個(gè)選中的字串。為了提高速度,允許較長的字串長度W。W值很少變化,這樣,T值就成為權(quán)衡速度和敏感度的參數(shù)。Blast的算法(二)2)、引入鄰近字串的思想:不需要字串確55Blast的算法(三)3)、一個(gè)字串選中后,程序會(huì)進(jìn)行沒有空位的局部尋優(yōu),比對(duì)的最低分值是S,當(dāng)比對(duì)延伸時(shí)會(huì)遇到一些負(fù)的分值,使得比對(duì)的分值下降,當(dāng)下降的分值小于S時(shí),命中的延伸就會(huì)終止。這樣系統(tǒng)會(huì)減少消耗于毫無指望的選中延伸的時(shí)間,使系統(tǒng)的性能得以改進(jìn)。Blast的算法(三)3)、一個(gè)字串選中后,程序會(huì)進(jìn)行沒有空56在1997年提出了對(duì)BLAST程序的改進(jìn)算法,提高了搜索速度、敏感度和實(shí)用性??商幚黹g隔(gap)的gappedBLAST算法PSI-BLAST算法對(duì)一個(gè)選中字串長度標(biāo)準(zhǔn)的延伸利用profile(表頭文件)的數(shù)據(jù)結(jié)構(gòu)來進(jìn)行搜索Blast的改進(jìn)(一)在1997年提出了對(duì)BLAST程序的改進(jìn)算法,提高了搜索速度57以兩個(gè)步長各為w的字串開始搜索。若兩個(gè)字竄在序列上不重疊,并且位于同一對(duì)角線上,并且距離在A之內(nèi),則將這兩個(gè)字串聯(lián)起來作為搜索的起點(diǎn)。執(zhí)行通常的BLAST算法,使用一種不同的記分方式,根據(jù)高度顯著比對(duì)(HSPs)的最高分值建立一個(gè)最初的profile。Blast的改進(jìn)(二)以兩個(gè)步長各為w的字串開始搜索。Blast的改進(jìn)(二)58根據(jù)該profile反復(fù)利用BLAST算法對(duì)數(shù)據(jù)庫進(jìn)行搜索,這一步實(shí)際上是根據(jù)表頭文件的統(tǒng)計(jì)結(jié)果擴(kuò)展局部比對(duì)。這一過程是反復(fù)進(jìn)行的,直到再?zèng)]有發(fā)現(xiàn)新的有意義的匹配為止。由于在每一輪都會(huì)有新的片段加入,因此在操作過程中profile需要在每一個(gè)循環(huán)結(jié)束之后更新。Blast的改進(jìn)(三)根據(jù)該profile反復(fù)利用BLAST算法對(duì)數(shù)據(jù)庫進(jìn)行搜索,59通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件60數(shù)據(jù)庫搜索工具的sensitivity與selectivitySensitivity:盡可能多地搜索到具有一定相似性的序列的能力。Selectivity:盡可能準(zhǔn)確地搜索到對(duì)研究目的有用的相似性的序列的能力。數(shù)據(jù)庫搜索工具的sensitivity與selectivit61五、其他的序列相似搜索工具

-FASTA

FASTA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FASTA的基本思路是識(shí)別與代查序列相匹配的很短的序列片段,稱為k-tuple。以下鏈接是EBI提供的FASTA服務(wù)。

http://www.ebi.ac.uk/fasta33五、其他的序列相似搜索工具

62幫助信息各個(gè)參數(shù)選項(xiàng)填入搜索序列幫助信息各個(gè)參數(shù)選項(xiàng)填入搜索序列63基本思想是:一個(gè)能夠揭示出真實(shí)的序列關(guān)系的比對(duì)至少包含一個(gè)兩個(gè)序列都擁有的字(片斷),把查詢序列中的所用字編成索引,然后在數(shù)據(jù)庫搜索時(shí)查詢這些索引,以檢索出可能的匹配,這樣那些命中的字很快被鑒定出來。FASTA算法基礎(chǔ)基本思想是:一個(gè)能夠揭示出真實(shí)的序列關(guān)系的比對(duì)至少包含一個(gè)兩641)、確定參數(shù)ktup,在兩個(gè)序列中查找長度為ktup的、相匹配的片段(增強(qiáng)點(diǎn))。為了提高速度,可以通過查詢表格或hash表來完成,然后在表格中搜索與另一條序列相匹配的、長度為ktup的片段。FASTA算法(一)1)、確定參數(shù)ktup,在兩個(gè)序列中查找長度為ktup的、相652)、在同一條對(duì)角線中臨近的增強(qiáng)點(diǎn)成為一個(gè)增強(qiáng)段。每一個(gè)增強(qiáng)點(diǎn)都賦予一個(gè)正的分值,一個(gè)增強(qiáng)段中相鄰的兩個(gè)增強(qiáng)點(diǎn)之間的不匹配區(qū)域賦予一定的負(fù)值。一個(gè)增強(qiáng)段對(duì)應(yīng)于一段相匹配的子序列,分值最高的段被標(biāo)記為init1。FASTA算法(二)2)、在同一條對(duì)角線中臨近的增強(qiáng)點(diǎn)成為一個(gè)增強(qiáng)段。每一個(gè)增強(qiáng)663)、引入indel。把那些沒有重疊(non-overlap)的增強(qiáng)段拼接起來(增強(qiáng)段的分值之和減去空位處罰)。分值最高的區(qū)域記為initn。FASTA算法(三)3)、引入indel。把那些沒有重疊(non-overlap674)、對(duì)最有可能的匹配序列進(jìn)一步評(píng)分:以增強(qiáng)段init1所在的對(duì)角線為中心,劃分出一個(gè)較狹窄的對(duì)角線帶,利用S-W算法,來獲得分值最高的局部比對(duì),記作opt。FASTA算法(四)4)、對(duì)最有可能的匹配序列進(jìn)一步評(píng)分:以增強(qiáng)段init1所在685)、決定采用initn或opt的分值,前者敏感度低但速度快。FASTA對(duì)每一個(gè)檢索到的比對(duì)都提供一個(gè)統(tǒng)計(jì)學(xué)顯著性的評(píng)估,以判斷該比對(duì)的意義。FASTA算法(五)5)、決定采用initn或opt的分值,前者敏感度低但速度快69通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件70注意…FASTA對(duì)DNA序列搜索的結(jié)果要比對(duì)蛋白質(zhì)序列搜索的結(jié)果更敏感。它對(duì)數(shù)據(jù)庫的每一次搜索都只有一個(gè)最佳的比對(duì),一些有意義的比對(duì)可能被錯(cuò)過。

注意…FASTA對(duì)DNA序列搜索的結(jié)果要比對(duì)蛋白質(zhì)序列搜索的71兩個(gè)保守區(qū)域的信息兩個(gè)保守區(qū)域的信息72Dotmatrix

分析Dotmatrix

分析73用Dotmatrix分析基因中的重復(fù)序列用Dotmatrix分析基因中的重復(fù)序列74使用Dotter在斑馬魚序列的contig中定位ddah基因的位置使用Dotter在斑馬魚序列的contig中定位ddah基因75"Adot-matrixprogramwithdynamicthresholdcontrolsuitedforgenomicDNAandproteinsequenceanalysis"ErikL.L.SonnhammerandRichardDurbinGene167(2):GC1-10(1995)http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html"Adot-matrixprogramwithdyn76BLAST比較結(jié)果中的3點(diǎn)說明:1)、蛋白質(zhì)和核酸中都會(huì)包括低復(fù)雜度區(qū)域(LCR—lowcomplexityregions),即這些區(qū)域的組成有某些偏好,比如DNA中的簡單重復(fù)序列(ct)n等。在蛋白質(zhì)中一些殘基過多表現(xiàn)。在進(jìn)行BLAST比較時(shí),將會(huì)把LCR屏蔽掉,防止它們過高評(píng)價(jià)匹配的顯著性。在核酸中用n、在蛋白質(zhì)中用X代替。BLAST比較結(jié)果中的3點(diǎn)說明:77通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件782)、在核酸比較結(jié)果中,上下相同的序列用豎線連接。在蛋白質(zhì)序列比較結(jié)果中,上下相同的序列中間直接列出;如果比對(duì)的氨基酸不同,但結(jié)構(gòu)類似則用“+”號(hào)連接。3)、HSPScore(高分片段配對(duì)分值)越高,EValue(偶然選中這片段的可能性)越小,就越能提供進(jìn)化同源的證據(jù)。2)、在核酸比較結(jié)果中,上下相同的序列用豎線連接。在蛋白質(zhì)79具體匹配情況具體匹配情況80>ProteinIELFFILSSIWLGRFYYVFGFLLIVLVLLVIVCAEVSVVLTYMNLCVEDWRWWWKAFFASGSVAIYVFLLYSINYLVFDLRSLSGPVSAMLYLGYSFLMAFAIMLATGTIGFLTSFSFVHYLFSSKID>Protein81通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件82通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件83通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件84第四節(jié)、核酸的多序列比對(duì)第四節(jié)、核酸的多序列比對(duì)851、ClustwalW簡介和使用——進(jìn)行核酸或蛋白質(zhì)的多序列的比較網(wǎng)址:http://www.ebi.ac.uk/clustalwhttp://www.ddbj.nig.ac.jp/search/clustalw-e.html1、ClustwalW簡介和使用——86通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件87通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件88通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件89通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件90對(duì)ClustalW比較結(jié)果的說明:http://www.ebi.ac.uk/clustalw/help.html“*”

meansthattheresiduesornucleotidesinthatcolumnareidenticalinallsequencesinthealignment.“:”meansthatconservedsubstitutionshavebeenobserved?!?”meansthatsemi-conservedsubstitutionsareobserved.對(duì)ClustalW比較結(jié)果的說明:http://www.e91

ShowColors

Abuttonlabeled'ShowColors'willbedisplayedintheAlignmentsectionofresultspage.Ifyoupressthisbuttonthealignmentwillbeshowincoloraccordingtothetablebelow.AVFPMILWREDSmall(small+hydrophobic(incl.aromatic-Y))DEBLUEAcidicRHKMAGENTABasicSTYHCNGQGREENHydroxyl+Amine+Basic-QOthersGray

ShowColors92

氨基酸分組方法和代表性顏色殘基種類殘基特性顏色Asp(D),Glu(E)酸性紅色

His(H),Arg(R),Lys(K)堿性蘭色Ser(S),Thr(T),Asn(N),Gln(Q)極性綠色

Ala(A),Val(V),Leu(L),Ile(I),Met(M)疏水性,帶支鏈白色Phe(F),Tyr(Y),Trp(W)疏水性,帶苯環(huán)紫色

Pro(P),Gly(G)側(cè)鏈結(jié)構(gòu)特殊棕色Cys(C)能形成二硫鍵黃色

*表中采用的分組方法和用來區(qū)分不同組別的顏色與模型構(gòu)件和三維圖形軟件中所用方法一致氨基酸分組方法和代表性顏色殘基種類殘基特性顏色As93以蛋白質(zhì)多條序列為例,說明操作過程蛋白質(zhì):AAR19268(rice),(其對(duì)應(yīng)的核酸:AY4456727)BAA35162(Hordeum)AAC83374(Avena)AAA84592(rice)以蛋白質(zhì)多條序列為例,說明操作過程94第三節(jié)、核酸的相似性分析第三節(jié)、核酸的相似性分析95內(nèi)容提要一、什么是序列的相似性和同源性?二、Blast介紹(Blast資源和相關(guān)問題)三、Blast的應(yīng)用(網(wǎng)絡(luò)版,單機(jī)版)四、深入了解Blast(改進(jìn)程序,算法基礎(chǔ))五、其他的序列相似性搜索工具(fasta)內(nèi)容提要一、什么是序列的相似性和同源性?96一、什么是序列的相似性和同源性?1、序列的相似性(similarity):

是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80%,或者4/5。這是個(gè)量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。一、什么是序列的相似性和同源性?1、序列的相似性(simil972、序列的同源性(homology):

指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80%都是不科學(xué)的。2、序列的同源性(homology):983、相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)常可以通過序列的相似性來推測(cè)序列是否同源。正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80%一說。3、相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系99序列相似性比較和序列同源性分析序列相似性比較:就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;序列相似性比較和序列同源性分析序列相似性比較:100二、Blast簡介(一)BLAST是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫搜索程序。BLAST是“局部相似性基本查詢工具”(BasicLocalAlignmentSearchTool)的縮寫。二、Blast簡介(一)BLAST是由美國國立生物技術(shù)信息101

Blast是一個(gè)序列相似性搜索的程序包,其中包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。下表列出了主要的blast程序。Blast簡介(二)Blast是一個(gè)序列相似性搜索的程序包,其中包含了102主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中的序列逐一搜索。tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對(duì)。tblastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對(duì)。主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法blastn103Blast相關(guān)的問題怎么獲得blast服務(wù),怎么使用的問題?為什么使用blast,可以獲得什么樣的信息?其他問題:實(shí)際使用時(shí)選擇哪種方式(網(wǎng)絡(luò),本地化),參數(shù)的選擇,結(jié)果的解釋…Blast相關(guān)的問題怎么獲得blast服務(wù),怎么使用的問題?104Blast資源1)、NCBI主站點(diǎn):

/BLAST/(網(wǎng)絡(luò)版)

/blast/(單機(jī)版)2)、其他站點(diǎn):

/blast/http://nema.cap.ed.ac.uk/ncbi_blast.html/blast/(果蠅)

…Blast資源1)、NCBI主站點(diǎn):105Blast結(jié)果給出的信息

Blast結(jié)果會(huì)列出跟查詢序列相似性比較高,符合限定要求的序列結(jié)果,根據(jù)這些結(jié)果可以獲取以下一些信息。1)、查詢序列可能具有某種功能2)、查詢序列可能是來源于某個(gè)物種3)、查詢序列可能是某種功能基因的同源基因

…這些信息都可以應(yīng)用到后續(xù)分析中。Blast結(jié)果給出的信息Blast結(jié)果會(huì)列出跟查詢序106三、Blast的應(yīng)用

兩種版本的Blast比較(一)網(wǎng)絡(luò)版本包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù),這也是我們最經(jīng)常用到的blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新等優(yōu)點(diǎn)。但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù),同時(shí)也不能自己定義搜索的數(shù)據(jù)庫。三、Blast的應(yīng)用

兩種版本的Blast比較(一)網(wǎng)絡(luò)版107單機(jī)版單機(jī)版的blast可以通過NCBI的ftp站點(diǎn)獲得,有適合不同平臺(tái)的版本(包括linux,dos等)。獲得程序的同時(shí)必須獲取相應(yīng)的數(shù)據(jù)庫才能在本地進(jìn)行blast分析。單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需要耗費(fèi)本地機(jī)的大量資源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定的計(jì)算機(jī)操作水平。兩種版本的Blast比較(二)單機(jī)版兩種版本的Blast比較(二)108本地WEB版的Blast

在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務(wù)器上建立Blast網(wǎng)頁服務(wù)的軟件包(wwwblast)。使用該軟件包,用戶可以建立一個(gè)簡易的進(jìn)行Blast運(yùn)算的網(wǎng)站供實(shí)驗(yàn)室人員使用。用于搜索的數(shù)據(jù)庫同樣可以靈活的定義。本地WEB版的Blast在NCBI的FTP上,在blas109Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù)Score:使用打分矩陣對(duì)匹配的片段進(jìn)行打分,這是對(duì)各對(duì)氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個(gè)氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越小表示隨機(jī)情況下得到該Score值的可能性越低。Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù)Score:使用打分矩110NCBI提供的Blast服務(wù)登陸ncbi的blast主頁核酸序列蛋白序列翻譯序列底下有其他一些針對(duì)特殊數(shù)據(jù)庫的和查看以往的比對(duì)結(jié)果等NCBI提供的Blast服務(wù)登陸ncbi的blast主頁核酸111Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(query)的序列序列范圍(默認(rèn)全部)選擇搜索數(shù)據(jù)庫如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開始搜索Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(que112描述數(shù)據(jù)庫情況nr

極有價(jià)值的GenBank,排除了EST,STS和GSS部分monthnr的字集,每月(30天)更新,搜集了過去30天中的最新序列estGenBank中的EST部分(expressedsequencetags,表達(dá)序列標(biāo)簽)stsGenBank中的STS部分(sequencetaggedsites,序列標(biāo)簽位點(diǎn))htgsGenBank中的HTG部分(highthroughputgenomicsequences,高容量基因組序列)使用BLAST的核苷酸序列數(shù)據(jù)庫描述數(shù)據(jù)庫情況113gss

GSS(genomesurveysequences,基因組測(cè)定序列)。

yeast

酵母的全基因組序列。

ecoli

大腸桿菌的全基因組序列。

mito

脊椎動(dòng)物線粒體的全基因組序列。

Alu-repeats

搜集了靈長類動(dòng)物的Alu重復(fù)序列。

vector

搜集了流行的帶菌體的克隆。

gssGSS(genomesurvey114使用BLAST的蛋白質(zhì)序列數(shù)據(jù)庫數(shù)據(jù)庫描述nr

非冗余數(shù)據(jù)庫(non-redundantdatabase)。Allnon-redundantGenBankCDStranslations+RefSeqProteins+PDB+SwissProt+PIR+PRFmonthnr的子集,每月(30天)更新,搜集了過去30天中的最新序列。SwissprotSwiss-Prot數(shù)據(jù)庫。pdb

擁有三維空間結(jié)構(gòu)的原子坐標(biāo)的氨基酸序列庫。yeast

由酵母基因組中基因編碼的全套蛋白質(zhì)。ecoli

有大腸桿菌基因組中基因編碼的全套蛋白質(zhì)。Drosophilagenome

果蠅

使用BLAST的蛋白質(zhì)序列數(shù)據(jù)庫115一些對(duì)于BLAST很有用的參數(shù)值

參數(shù)名稱BLAST2.0數(shù)據(jù)庫(database)-ddatabase查詢序列文件(querysequencefile)-Ifilename期望閾值E(expectationcutoff)-enumberHSP分值閾值S(HSPscorecutoff)-snumber字串分值閾值T(wordscorecutoff)-fnumber多命中窗口A(multihitwindow)-Anumber一些對(duì)于BLAST很有用的參數(shù)值116Blast任務(wù)提交表單(二)設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種2.設(shè)置各種參數(shù)部分一些過濾選項(xiàng),包括簡單重復(fù)序列,人類基因組中的重復(fù)序列等E值上限窗口大小如果你對(duì)blast的命令行選項(xiàng)熟悉的話,可以在這里加入更多的參數(shù)Blast任務(wù)提交表單(二)設(shè)置搜索的范圍,entrez關(guān)鍵117Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要顯示的選項(xiàng)以及顯示的文件格式顯示數(shù)目Alignment的顯示方式篩選結(jié)果E值范圍其他一些顯示格式參數(shù)點(diǎn)擊開始搜索Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要118提交任務(wù)返回查詢號(hào)(requestid)可以修改顯示結(jié)果格式修改完顯示格式后點(diǎn)擊進(jìn)入結(jié)果界面提交任務(wù)返回查詢號(hào)(requestid)可以修改顯示結(jié)果格119結(jié)果頁面(一)圖形示意結(jié)果結(jié)果頁面(一)圖形示意結(jié)果120結(jié)果頁面(二)目標(biāo)序列描述部分帶有GenBank的鏈接,點(diǎn)擊可以進(jìn)入相應(yīng)的genbank序列匹配情況,分值,e值結(jié)果頁面(二)目標(biāo)序列描述部分帶有GenBank的鏈接,點(diǎn)擊121結(jié)果頁面(三)詳細(xì)的比對(duì)上的序列的排列情況結(jié)果頁面(三)詳細(xì)的比對(duì)上的序列的排列情況122一個(gè)具體的例子(blastp)假設(shè)以下為一未知蛋白序列>query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA

我們通過blast搜索來獲取一些這個(gè)序列的信息。一個(gè)具體的例子(blastp)假設(shè)以下為一未知蛋白序列123具體步驟1.登陸blast主頁

/BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果具體步驟1.登陸blast主頁124分析過程(一)1.登陸ncbi的blast主頁2.選擇程序,因?yàn)椴樵冃蛄惺堑鞍仔蛄锌梢赃x擇blastp,點(diǎn)擊進(jìn)入也可以選擇tblastn作為演示,我們這里選blastp分析過程(一)1.登陸ncbi的blast主頁2.選擇程序,125分析過程(二)3.填入序列(copy+paste)Fasta格式,或者純序列4.選擇搜索區(qū)域,這里我們要搜索整個(gè)序列,不填5.選擇搜索數(shù)據(jù)庫,這里我們選nr(非冗余的蛋白序列庫)。是否搜索保守區(qū)域數(shù)據(jù)庫(cdd),蛋白序列搜索才有。我們選上分析過程(二)3.填入序列(copy+paste)4.選擇搜126分析過程(三)6.限制條件,我們限制在病毒里面找。7.其他選項(xiàng)保持默認(rèn)值打分矩陣分析過程(三)6.限制條件,我們限制在病毒里面找。7.其他選127分析過程(四)8.輸出格式選項(xiàng)保持默認(rèn)值9.點(diǎn)擊開始搜索分析過程(四)8.輸出格式選項(xiàng)保持默認(rèn)值9.點(diǎn)擊開始搜索128分析過程(五)10.查詢序列的一些相關(guān)信息在cdd庫里面找到兩個(gè)保守區(qū)域,點(diǎn)擊可以進(jìn)入分析過程(五)10.查詢序列的一些相關(guān)信息在cdd庫里面找到129分析過程(六)圖形結(jié)果分析過程(六)圖形結(jié)果130分析過程(七)匹配序列列表分析過程(七)匹配序列列表131分析過程(八)具體匹配情況分析過程(八)具體匹配情況132為什么使用單機(jī)版的Blast? 1)、特殊的數(shù)據(jù)庫要求。 2)、涉及序列的隱私與價(jià)值。 3)、批量處理。 4)、其他原因?單機(jī)版的Blast使用(一)為什么使用單機(jī)版的Blast?單機(jī)版的Blast使用(一)133單機(jī)版Blast的基本操作過程 1)、下載單機(jī)版的Blast程序/blast/executables/目錄下,下載對(duì)應(yīng)的操作系統(tǒng)版本。 2)、解壓程序包(blast-2.28-ia32-linux.tar.gz)命令是:$tarzxvfblast-2.28-ia32-linux.tar.gz 單機(jī)版的Blast使用(二)單機(jī)版Blast的基本操作過程單機(jī)版的Blast使用(二)134下載正確的Blast程序包blast:在本地運(yùn)行的blast程序包wwwblast:在本地服務(wù)器建立blast服務(wù)的網(wǎng)站netblast:blast的客戶端程序,直接鏈接至NCBI的BLAST服務(wù)器,使用BLAST服務(wù),不需瀏覽器。下載正確的Blast程序包blast:在本地運(yùn)行的blast135下載正確的Blast程序包

Blast程序包的名字上還包括了該程序包運(yùn)行的硬件和操作系統(tǒng)環(huán)境:硬件環(huán)境(CPU)操作系統(tǒng)sparcpowerPCia32ia64amd64mipsalphalinuxmacoxsolarisirixaixfreebsdwin32hpux下載正確的Blast程序包Blast程序包的名字上還包括了136 3)、獲取Blast數(shù)據(jù)庫

a.直接從ncbi下載

/blast/db/ b.用Blast程序包提供的formatdb工具自己格 式化序列數(shù)據(jù)成數(shù)據(jù)庫。 假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta格式),欲自己做成Blast數(shù)據(jù)庫,典型的命令如下:單機(jī)版的Blast使用(三) 3)、獲取Blast數(shù)據(jù)庫單機(jī)版的Blast使用(三)137核酸序列:$./formatdb–isequence.fa–pF–oT/F–ndb_name蛋白序列:$./formatdb–isequence.fa–pT–oT/F–ndb_name單機(jī)版的Blast使用(四)核酸序列:單機(jī)版的Blast使用(四)1384)、執(zhí)行Blast比對(duì) 獲得了單機(jī)版的Blast程序,解壓開以后,如果有了相應(yīng)的數(shù)據(jù)庫(db),那么就可以開始執(zhí)行Blast分析了。 單機(jī)版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一個(gè)程序里面。單機(jī)版的Blast使用(五)4)、執(zhí)行Blast比對(duì)單機(jī)版的Blast使用(五)139以下是一個(gè)典型的blastn分析命令:(待分析序列seq.fa,數(shù)據(jù)庫nt_db)$./blastall–pblastn

–iseq.fa-dnt_db–w7–e10–o

程序名 輸入數(shù)據(jù)庫窗口e值輸出

seq.blastn.out該命令的意思是,對(duì)seq.fa文件中的核酸序列對(duì)nt_db數(shù)據(jù)庫執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出的結(jié)果保存到文件seq.blastn.out中。單機(jī)版的Blast使用(六)以下是一個(gè)典型的blastn分析命令:單機(jī)版的Blast使用1405)、Blastall的常用參數(shù)-p程序名應(yīng)該是blastn,blastp,blastx,tblastn,tblastx中的一個(gè)-d數(shù)據(jù)庫名稱,默認(rèn)nr-i查詢序列文件,默認(rèn)stdin-eE值限制,默認(rèn)10-o結(jié)果輸出文件,默認(rèn)stdout-F過濾選項(xiàng),默認(rèn)T-a選擇進(jìn)行運(yùn)算的CPU個(gè)數(shù)單機(jī)版的Blast使用(七)5)、Blastall的常用參數(shù)單機(jī)版的Blast使用(七)141四、深入了解Blast1)、blast22)、Megablast3)、PSI-blast4)、其他(rpsblast,blastclust等)四、深入了解Blast1)、blast2142Blast2兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,相互進(jìn)行blast比對(duì)。能快速檢查兩個(gè)序列是否存在相似性片斷或者是否一致。這比起全序列比對(duì)要快很多。Blast2兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,143Megablastmegablast采用了貪婪算法(greedyalgorithm),它連接了多個(gè)查詢序列進(jìn)行一次搜索比對(duì),這樣節(jié)省了很多搜索數(shù)據(jù)庫的時(shí)間。主要針對(duì)核酸序列。是blast經(jīng)過優(yōu)化后,適用于由于測(cè)序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對(duì)。Megablastmegablast采用了貪婪算法(gre144PSI-blast

PositionspecificiterativeBLAST(PSI-BLAST)位點(diǎn)特異的迭代blast搜索,主要針對(duì)蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM(位點(diǎn)特異性打分矩陣),然后再使用該矩陣進(jìn)行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。最終高度保守的區(qū)域就會(huì)得到比較高的分值,而不保守的區(qū)域則分?jǐn)?shù)降低,趨近0。這樣可以提高blast搜索的靈敏度。PSI-blastPositionspecific145BLAST的算法基礎(chǔ)基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量更好的增強(qiáng)點(diǎn)來提高速度。BLAST算法是建立在嚴(yán)格的統(tǒng)計(jì)學(xué)的基礎(chǔ)之上的。它集中于發(fā)現(xiàn)具有較高的相似性的局部比對(duì),且局部比對(duì)中不能含有空位(blast2.0引入了允許插入gap的算法)。由于局部比對(duì)的限制條件,在大多數(shù)情況下比對(duì)會(huì)被分解為若干個(gè)明顯的HSP(High-scoreSequencePairs)。BLAST的算法基礎(chǔ)基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量更好146BLAST的算法流程BLAST的算法流程1471)、首先確定一個(gè)終止值S、步長參數(shù)w和一個(gè)閾值T。然后軟件會(huì)在考慮搜索背景性質(zhì)的基礎(chǔ)上計(jì)算出合適的S值。使要比對(duì)的序列中包含一個(gè)分值不小于S的HSP。Blast的算法(一)1)、首先確定一個(gè)終止值S、步長參數(shù)w和一個(gè)閾值T。然后軟件148Blast的算法(二)2)、引入鄰近字串的思想:不需要字串確切地匹配,當(dāng)有一個(gè)字串的分值高于T時(shí),BALST就宣稱找到了一個(gè)選中的字串。為了提高速度,允許較長的字串長度W。W值很少變化,這樣,T值就成為權(quán)衡速度和敏感度的參數(shù)。Blast的算法(二)2)、引入鄰近字串的思想:不需要字串確149Blast的算法(三)3)、一個(gè)字串選中后,程序會(huì)進(jìn)行沒有空位的局部尋優(yōu),比對(duì)的最低分值是S,當(dāng)比對(duì)延伸時(shí)會(huì)遇到一些負(fù)的分值,使得比對(duì)的分值下降,當(dāng)下降的分值小于S時(shí),命中的延伸就會(huì)終止。這樣系統(tǒng)會(huì)減少消耗于毫無指望的選中延伸的時(shí)間,使系統(tǒng)的性能得以改進(jìn)。Blast的算法(三)3)、一個(gè)字串選中后,程序會(huì)進(jìn)行沒有空150在1997年提出了對(duì)BLAST程序的改進(jìn)算法,提高了搜索速度、敏感度和實(shí)用性??商幚黹g隔(gap)的gappedBLAST算法PSI-BLAST算法對(duì)一個(gè)選中字串長度標(biāo)準(zhǔn)的延伸利用profile(表頭文件)的數(shù)據(jù)結(jié)構(gòu)來進(jìn)行搜索Blast的改進(jìn)(一)在1997年提出了對(duì)BLAST程序的改進(jìn)算法,提高了搜索速度151以兩個(gè)步長各為w的字串開始搜索。若兩個(gè)字竄在序列上不重疊,并且位于同一對(duì)角線上,并且距離在A之內(nèi),則將這兩個(gè)字串聯(lián)起來作為搜索的起點(diǎn)。執(zhí)行通常的BLAST算法,使用一種不同的記分方式,根據(jù)高度顯著比對(duì)(HSPs)的最高分值建立一個(gè)最初的profile。Blast的改進(jìn)(二)以兩個(gè)步長各為w的字串開始搜索。Blast的改進(jìn)(二)152根據(jù)該profile反復(fù)利用BLAST算法對(duì)數(shù)據(jù)庫進(jìn)行搜索,這一步實(shí)際上是根據(jù)表頭文件的統(tǒng)計(jì)結(jié)果擴(kuò)展局部比對(duì)。這一過程是反復(fù)進(jìn)行的,直到再?zèng)]有發(fā)現(xiàn)新的有意義的匹配為止。由于在每一輪都會(huì)有新的片段加入,因此在操作過程中profile需要在每一個(gè)循環(huán)結(jié)束之后更新。Blast的改進(jìn)(三)根據(jù)該profile反復(fù)利用BLAST算法對(duì)數(shù)據(jù)庫進(jìn)行搜索,153通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件154數(shù)據(jù)庫搜索工具的sensitivity與selectivitySensitivity:盡可能多地搜索到具有一定相似性的序列的能力。Selectivity:盡可能準(zhǔn)確地搜索到對(duì)研究目的有用的相似性的序列的能力。數(shù)據(jù)庫搜索工具的sensitivity與selectivit155五、其他的序列相似搜索工具

-FASTA

FASTA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FASTA的基本思路是識(shí)別與代查序列相匹配的很短的序列片段,稱為k-tuple。以下鏈接是EBI提供的FASTA服務(wù)。

http://www.ebi.ac.uk/fasta33五、其他的序列相似搜索工具

156幫助信息各個(gè)參數(shù)選項(xiàng)填入搜索序列幫助信息各個(gè)參數(shù)選項(xiàng)填入搜索序列157基本思想是:一個(gè)能夠揭示出真實(shí)的序列關(guān)系的比對(duì)至少包含一個(gè)兩個(gè)序列都擁有的字(片斷),把查詢序列中的所用字編成索引,然后在數(shù)據(jù)庫搜索時(shí)查詢這些索引,以檢索出可能的匹配,這樣那些命中的字很快被鑒定出來。FASTA算法基礎(chǔ)基本思想是:一個(gè)能夠揭示出真實(shí)的序列關(guān)系的比對(duì)至少包含一個(gè)兩1581)、確定參數(shù)ktup,在兩個(gè)序列中查找長度為ktup的、相匹配的片段(增強(qiáng)點(diǎn))。為了提高速度,可以通過查詢表格或hash表來完成,然后在表格中搜索與另一條序列相匹配的、長度為ktup的片段。FASTA算法(一)1)、確定參數(shù)ktup,在兩個(gè)序列中查找長度為ktup的、相1592)、在同一條對(duì)角線中臨近的增強(qiáng)點(diǎn)成為一個(gè)增強(qiáng)段。每一個(gè)增強(qiáng)點(diǎn)都賦予一個(gè)正的分值,一個(gè)增強(qiáng)段中相鄰的兩個(gè)增強(qiáng)點(diǎn)之間的不匹配區(qū)域賦予一定的負(fù)值。一個(gè)增強(qiáng)段對(duì)應(yīng)于一段相匹配的子序列,分值最高的段被標(biāo)記為init1。FASTA算法(二)2)、在同一條對(duì)角線中臨近的增強(qiáng)點(diǎn)成為一個(gè)增強(qiáng)段。每一個(gè)增強(qiáng)1603)、引入indel。把那些沒有重疊(non-overlap)的增強(qiáng)段拼接起來(增強(qiáng)段的分值之和減去空位處罰)。分值最高的區(qū)域記為initn。FASTA算法(三)3)、引入indel。把那些沒有重疊(non-overlap1614)、對(duì)最有可能的匹配序列進(jìn)一步評(píng)分:以增強(qiáng)段init1所在的對(duì)角線為中心,劃分出一個(gè)較狹窄的對(duì)角線帶,利用S-W算法,來獲得分值最高的局部比對(duì),記作opt。FASTA算法(四)4)、對(duì)最有可能的匹配序列進(jìn)一步評(píng)分:以增強(qiáng)段init1所在1625)、決定采用initn或opt的分值,前者敏感度低但速度快。FASTA對(duì)每一個(gè)檢索到的比對(duì)都提供一個(gè)統(tǒng)計(jì)學(xué)顯著性的評(píng)估,以判斷該比對(duì)的意義。FASTA算法(五)5)、決定采用initn或opt的分值,前者敏感度低但速度快163通俗版第二章核酸數(shù)據(jù)庫及核酸序列的分析第三節(jié)核酸序列相似性分析和第四節(jié)核酸的多序列比對(duì)課件164注意…FASTA對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論