版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、關于生物序列的同源性搜索簡介及其應用第一張,PPT共七十三頁,創(chuàng)作于2022年6月2序列數據的保存格式與相關數據庫資源在數據庫中進行序列相似性搜索多序列比對進化樹構建與分子進化分析Motif的尋找與序列的模式識別RNA二級結構,蛋白質二、三級結構的預測基因芯片的數據分析生物信息學常見的應用與軟件第二張,PPT共七十三頁,創(chuàng)作于2022年6月3內容提要1.基本概念 相似性,同源性2.Blast介紹 Blast資源和相關問題3.Blast的應用 網絡版,單機版4.深入了解Blast(改進程序,算法基礎)5.其他的序列相似性搜索工具(fasta)第三張,PPT共七十三頁,創(chuàng)作于2022年6月4生物序
2、列的相似性相似性(similarity): 是指一種很直接的數量關系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關系。當然可進行自身局部比較。第四張,PPT共七十三頁,創(chuàng)作于2022年6月5同源性(homology): 指從一些數據中推斷出的兩個基因或蛋白質序列具而共同祖先的結論,屬于質的判斷。就是說A和B的關系上,只有是同源序列,或者非同源序列兩種關系。而說A和B的同源性為80都是不科學的。生物序列的同源性第五張,PPT共七十三頁,創(chuàng)作于2022年6月6相似性和同源性關系序列的相似性和序列的同源性有一定的關系,一般來說序列間
3、的相似性越高的話,它們是同源序列的可能性就更高,所以經??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因為存在這樣的關系,很多時候對序列的相似性和同源性就沒有做很明顯的區(qū)分,造成經常等價混用兩個名詞。所以有出現A序列和B序列的同源性為80一說。第六張,PPT共七十三頁,創(chuàng)作于2022年6月7序列相似性比較和序列同源性分析序列相似性比較: 就是將待研究序列與DNA或蛋白質序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的
4、序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;第七張,PPT共七十三頁,創(chuàng)作于2022年6月8Blast簡介(一) BLAST 是由美國國立生物技術信息中心(NCBI)開發(fā)的一個基于序列相似性的數據庫搜索程序。 BLAST是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫。第八張,PPT共七十三頁,創(chuàng)作于2022年6月9 Blast 是一個序列相似性搜索的程序包,其中包含了很多個獨立的程序,這些程序是根據查詢的對象和數據庫
5、的不同來定義的。比如說查詢的序列為核酸,查詢數據庫亦為核酸序列數據庫,那么就應該選擇blastn程序。下表列出了主要的blast程序。Blast簡介(二)第九張,PPT共七十三頁,創(chuàng)作于2022年6月10主要的blast程序程序名查詢序列數據庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數據庫中的序列Blastp蛋白質蛋白質蛋白質序列搜索逐一蛋白質數據庫中的序列Blastx核酸蛋白質核酸序列6框翻譯成蛋白質序列后和蛋白質數據庫中的序列逐一搜索。Tblastn蛋白質核酸蛋白質序列和核酸數據庫中的核酸序列6框翻譯后的蛋白質序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質序列,再和核
6、酸數據庫中的核酸序列6框翻譯成的蛋白質序列逐一進行比對。第十張,PPT共七十三頁,創(chuàng)作于2022年6月11Blast相關的問題怎么獲得blast服務,怎么使用的問題?為什么使用blast,可以獲得什么樣的信息?其他問題:實際使用時選擇哪種方式(網絡,本地化),參數的選擇,結果的解釋第十一張,PPT共七十三頁,創(chuàng)作于2022年6月12Blast資源1.NCBI主站點: /BLAST/(網絡版) /blast/ (單機版)2.其他站點: /blast/ http:/nema.cap.ed.ac.uk/ncbi_blast.html /blast/(果蠅) 第十二張,PPT共七十三頁,創(chuàng)作于2022
7、年6月13Blast結果給出的信息 Blast結果會列出跟查詢序列相似性比較高,符合限定要求的序列結果,根據這些結果可以獲取以下一些信息。1.查詢序列可能具有某種功能2.查詢序列可能是來源于某個物種3.查詢序列可能是某種功能基因的同源基因這些信息都可以應用到后續(xù)分析中。第十三張,PPT共七十三頁,創(chuàng)作于2022年6月14兩種版本的Blast比較(一)網絡版本 包括NCBI在內的很多網站都提供了在線的blast服務,這也是我們最經常用到的blast服務。網絡版本的blast服務就有方便,容易操作,數據庫同步更新等優(yōu)點。但是缺點是不利于操作大批量的數據,同時也不能自己定義搜索的數據庫。第十四張,P
8、PT共七十三頁,創(chuàng)作于2022年6月15單機版 單機版的blast可以通過NCBI的ftp站點獲得,有適合不同平臺的版本(包括linux,dos等)。獲得程序的同時必須獲取相應的數據庫才能在本地進行blast分析。單機版的優(yōu)點是可以處理大批的數據,可以自己定義數據庫,但是需要耗費本地機的大量資源,此外操作也沒有網絡版直觀、方便,需要一定的計算機操作水平。兩種版本的Blast比較(二)第十五張,PPT共七十三頁,創(chuàng)作于2022年6月16本地WEB版的Blast 在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務器上建立Blast網頁服務的軟件包(wwwblast)。
9、使用該軟件包,用戶可以建立一個簡易的進行Blast運算的網站供實驗室人員使用。用于搜索的數據庫同樣可以靈活的定義。第十六張,PPT共七十三頁,創(chuàng)作于2022年6月17Blast程序評價序列相似性的兩個數據Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結果,一般來說,匹配片段越長、 相似性越高則Score值越大。E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。第十七張,PPT共七十三頁,創(chuàng)作于2022年6月18NCBI提供的Blast
10、服務登陸ncbi的blast主頁核酸序列蛋白序列翻譯序列底下有其他一些針對特殊數據庫的和查看以往的比對結果等第十八張,PPT共七十三頁,創(chuàng)作于2022年6月19Blast任務提交表單(一)1.序列信息部分填入查詢(query)的序列序列范圍(默認全部)選擇搜索數據庫如果接受其他參數默認設置,點擊開始搜索第十九張,PPT共七十三頁,創(chuàng)作于2022年6月20Blast任務提交表單(二)設置搜索的范圍,entrez關鍵詞,或者選擇特定物種2.設置各種參數部分一些過濾選項,包括簡單重復序列,人類基因組中的重復序列等E值上限窗口大小如果你對blast的命令行選項熟悉的話,可以在這里加入更多的參數第二十張
11、,PPT共七十三頁,創(chuàng)作于2022年6月21Blast任務提交表單(三)3.設置結果輸出顯示格式選擇需要顯示的選項以及顯示的文件格式顯示數目Alignment的顯示方式篩選結果E值范圍其他一些顯示格式參數點擊開始搜索第二十一張,PPT共七十三頁,創(chuàng)作于2022年6月22提交任務返回查詢號(request id)可以修改顯示結果格式修改完顯示格式后點擊進入結果界面第二十二張,PPT共七十三頁,創(chuàng)作于2022年6月23結果頁面(一)圖形示意結果第二十三張,PPT共七十三頁,創(chuàng)作于2022年6月24結果頁面(二)目標序列描述部分帶有genbank的鏈接,點擊可以進入相應的genbank序列匹配情況,
12、分值,e值第二十四張,PPT共七十三頁,創(chuàng)作于2022年6月25結果頁面(三)詳細的比對上的序列的排列情況第二十五張,PPT共七十三頁,創(chuàng)作于2022年6月26一個具體的例子(blastp)假設以下為一未知蛋白序列query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQA
13、SSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA 我們通過blast搜索來獲取一些這個序列的信息。第二十六張,PPT共七十三頁,創(chuàng)作于2022年6月27具體步驟1.登陸
14、blast主頁 /BLAST/2.根據數據類型,選擇合適的程序3.填寫表單信息4.提交任務5.查看和分析結果第二十七張,PPT共七十三頁,創(chuàng)作于2022年6月28分析過程(一)1.登陸ncbi的blast主頁2.選擇程序,因為查詢序列是蛋白序列可以選擇blastp,點擊進入也可以選擇tblastn作為演示,我們這里選blastp第二十八張,PPT共七十三頁,創(chuàng)作于2022年6月29分析過程(二)3.填入序列(copypaste)Fasta格式,或者純序列4.選擇搜索區(qū)域,這里我們要搜索整個序列,不填5.選擇搜索數據庫,這里我們選nr(非冗余的蛋白序列庫)。是否搜索保守區(qū)域數據庫(cdd),蛋白
15、序列搜索才有。我們選上第二十九張,PPT共七十三頁,創(chuàng)作于2022年6月30分析過程(三)6.限制條件,我們限制在病毒里面找。7.其他選項保持默認值打分矩陣第三十張,PPT共七十三頁,創(chuàng)作于2022年6月31分析過程(四)8.輸出格式選項保持默認值9.點擊開始搜索第三十一張,PPT共七十三頁,創(chuàng)作于2022年6月32分析過程(五)10.查詢序列的一些相關信息在cdd庫里面找到兩個保守區(qū)域,點擊可以進入第三十二張,PPT共七十三頁,創(chuàng)作于2022年6月33分析過程(六)圖形結果第三十三張,PPT共七十三頁,創(chuàng)作于2022年6月34分析過程(七)匹配序列列表第三十四張,PPT共七十三頁,創(chuàng)作于20
16、22年6月35分析過程(八)具體匹配情況第三十五張,PPT共七十三頁,創(chuàng)作于2022年6月36為什么使用單機版的Blast?1.特殊的數據庫要求。2.涉及序列的隱私與價值。3.批量處理4.其他原因?單機版的Blast使用(一)第三十六張,PPT共七十三頁,創(chuàng)作于2022年6月37單機版Blast的基本操作過程1.下載單機版的Blast程序/blast/executables/目錄下,下載對應的操作系統(tǒng)版本。2.解壓程序包(blast-2.28-ia32-linux.tar.gz)命令是:$ tar zxvf blast-2.28-ia32-linux.tar.gz單機版的Blast使用(二)第
17、三十七張,PPT共七十三頁,創(chuàng)作于2022年6月38下載正確的Blast程序包blast:在本地運行的blast程序包wwwblast:在本地服務器建立blast服務的網站netblast:blast的客戶端程序,直接鏈接至NCBI的BLAST服務器,使用BLAST服務,不需瀏覽器。第三十八張,PPT共七十三頁,創(chuàng)作于2022年6月39下載正確的Blast程序包 Blast程序包的名字上還包括了該程序包運行的硬件和操作系統(tǒng)環(huán)境:硬件環(huán)境(CPU)操作系統(tǒng)sparcpowerPCia32ia64amd64mipsalphalinuxmacoxsolarisirixaixfreebsdwin32h
18、pux第三十九張,PPT共七十三頁,創(chuàng)作于2022年6月403.獲取Blast數據庫a.直接從ncbi下載/blast/db/b.用Blast程序包提供的formatdb工具自己格式化序列數據成數據庫。假設有一序列數據(sequence.fa,多序列,fasta格式),欲自己做成Blast數據庫,典型的命令如下:單機版的Blast使用(三)第四十張,PPT共七十三頁,創(chuàng)作于2022年6月41核酸序列:$ ./formatdb i sequence.fa p F o T/F n db_name蛋白序列:$ ./formatdb i sequence.fa p T o T/F n db_name單
19、機版的Blast使用(四)第四十一張,PPT共七十三頁,創(chuàng)作于2022年6月424.執(zhí)行Blast比對獲得了單機版的Blast程序,解壓開以后,如果有了相應的數據庫(db),那么就可以開始執(zhí)行Blast分析了。單機版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一個程序里面。單機版的Blast使用(五)第四十二張,PPT共七十三頁,創(chuàng)作于2022年6月43以下是一個典型的blastn分析命令:(待分析序列seq.fa,數據庫nt_db)$./blastall p blastn i seq.fa -d nt_db w 7 e
20、10 o 程序名 輸入 數據庫 窗口 e值 輸出seq.blastn.out 該命令的意思是,對seq.fa文件中的核酸序列對nt_db數據庫執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出的結果保存到文件seq.blastn.out 中。單機版的Blast使用(六)第四十三張,PPT共七十三頁,創(chuàng)作于2022年6月445.Blastall的常用參數-p 程序名應該是blastn,blastp,blastx,tblastn,tblastx中的一個-d 數據庫名稱,默認nr-i 查詢序列文件,默認stdin-e E值限制,默認10-o 結果輸出文件,默認stdout-F 過濾選項,默認T
21、-a 選擇進行運算的CPU個數單機版的Blast使用(七)第四十四張,PPT共七十三頁,創(chuàng)作于2022年6月45進一步深入Blast1.blast22.Megablast3.Psi-blast4.其他(rpsblast,blastclust等)第四十五張,PPT共七十三頁,創(chuàng)作于2022年6月46Blast2 兩個序列的blast比對,給定兩個序列,相互進行blast比對。能快速檢查兩個序列是否存在相似性片斷或者是否一致。這比起全序列比對要快很多。第四十六張,PPT共七十三頁,創(chuàng)作于2022年6月47Megablast megablast采用了貪婪算法(greedy algorithm),它連
22、接了多個查詢序列進行一次搜索比對,這樣節(jié)省了很多搜索數據庫的時間。主要針對核酸序列。是blast經過優(yōu)化后,適用于由于測序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數據的比對。第四十七張,PPT共七十三頁,創(chuàng)作于2022年6月48PSI-blast Position specific iterative BLAST (PSI-BLAST) 位點特異的迭代blast搜索,主要針對蛋白序列。第一次blast搜索后,結果中最相似的序列重新構建PSSM (位點特異性打分矩陣),然后再使用該矩陣進行第二輪blast搜索,再調整矩陣,搜索,如此迭代
23、。 最終高度保守的區(qū)域就會得到比較高的分值,而不保守的區(qū)域則分數降低,趨近0。 這樣可以提高blast搜索的靈敏度。第四十八張,PPT共七十三頁,創(chuàng)作于2022年6月49Blast的算法基礎基本思想是:通過產生數量更少的但質量更好的增強點來提高速度。BALST算法是建立在嚴格的統(tǒng)計學的基礎之上的。它集中于發(fā)現具有較高的相似性的局部比對,且局部比對中不能含有空位(blast2.0引入了允許插入gap的算法)。由于局部比對的限制條件,在大多數情況下比對會被分解為若干個明顯的HSP(High-score Sequence Pairs)。第四十九張,PPT共七十三頁,創(chuàng)作于2022年6月50Blast
24、的算法流程第五十張,PPT共七十三頁,創(chuàng)作于2022年6月51首先確定一個終止值S、步長參數w和一個閾值T。然后軟件會在考慮搜索背景性質的基礎上計算出合適的S值。使要比對的序列中包含一個分值不小于S的HSP。Blast的算法(一)第五十一張,PPT共七十三頁,創(chuàng)作于2022年6月52Blast的算法(二)2. 引入鄰近字串的思想:不需要字串確切地匹配,當有一個字串的分值高于T時,BALST就宣稱找到了一個選中的字串。為了提高速度,允許較長的字串長度W。W值很少變化,這樣,T值就成為權衡速度和敏感度的參數。第五十二張,PPT共七十三頁,創(chuàng)作于2022年6月53Blast的算法(三)一個字串選中后
25、,程序會進行沒有空位的局部尋優(yōu),比對的最低分值是S,當比對延伸時會遇到一些負的分值,使得比對的分值下降,當下降的分值小于S時,命中的延伸就會終止。這樣系統(tǒng)會減少消耗于毫無指望的選中延伸的時間,使系統(tǒng)的性能得以改進。第五十三張,PPT共七十三頁,創(chuàng)作于2022年6月54在1997年提出了對BLAST程序的改進算法,提高了搜索速度、敏感度和實用性。可處理間隔(gap)的gapped BLAST算法PSI-BLAST算法對一個選中字串長度標準的延伸 利用profile(表頭文件)的數據結構來進行搜索Blast的改進(一)第五十四張,PPT共七十三頁,創(chuàng)作于2022年6月55以兩個步長各為w的字串開始
26、搜索 。若兩個字竄在序列上不重疊,并且位于同一對角線上,并且距離在A之內,則將這兩個字串聯起來作為搜索的起點。執(zhí)行通常的BLAST算法,使用一種不同的記分方式,根據高度顯著比對(HSPs)的最高分值建立一個最初的profile。 Blast的改進(二)第五十五張,PPT共七十三頁,創(chuàng)作于2022年6月56根據該profile反復利用BLAST算法對數據庫進行搜索,這一步實際上是根據表頭文件的統(tǒng)計結果擴展局部比對。這一過程是反復進行的,直到再沒有發(fā)現新的有意義的匹配為止。由于在每一輪都會有新的片段加入,因此在操作過程中profile需要在每一個循環(huán)結束之后更新。 Blast的改進(三)第五十六張
27、,PPT共七十三頁,創(chuàng)作于2022年6月57第五十七張,PPT共七十三頁,創(chuàng)作于2022年6月58數據庫搜索工具的sensitivity與selectivitySensitivity:盡可能多地搜索到具有一定相似性的序列的能力。Selectivity:盡可能準確地搜索到對研究目的有用的相似性的序列的能力。第五十八張,PPT共七十三頁,創(chuàng)作于2022年6月59其他的序列相似性搜索工具 fasta FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識別與代查序列相匹配的很短的序列片段,稱為k-tuple。以下鏈接是EBI提供的fasta服務。 http:/www.ebi.ac.uk/fasta33/ 第五十九張,PPT共七十三頁,創(chuàng)作于2022年6月60幫助信息各個參數選項填入搜索序列第六十張,PPT共七十三頁,創(chuàng)作于2022年6月61基本思想是:一個能夠揭示出真實的序列關系的比對至少包含一個兩個序列都擁有的字(片斷),把查詢序列中的所用字編成索引,然后在數據庫搜索時查詢這些索引,以檢索出可能的匹配,這樣那些命中的字很快被鑒定出來。FASTA算法基礎第六十一張,PPT共七十三頁,創(chuàng)作于2022年6月62確定參數ktup,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子玻璃制品鍍膜工崗前安全操作考核試卷含答案
- 木門窗工安全行為競賽考核試卷含答案
- 活性炭活化工操作能力模擬考核試卷含答案
- 電聲器件制造工沖突解決考核試卷含答案
- 溶劑油裝置操作工安全知識宣貫知識考核試卷含答案
- 氯氫處理工操作規(guī)程能力考核試卷含答案
- 井礦鹽制鹽工安全宣傳水平考核試卷含答案
- 松節(jié)油制品工崗前決策判斷考核試卷含答案
- 選礦脫水工崗前安全技能測試考核試卷含答案
- 淡水水生植物繁育工安全演練考核試卷含答案
- 炎德·英才·名校聯考聯合體2026屆高三年級1月聯考語文試卷(含答及解析)
- 麥當勞行業(yè)背景分析報告
- 中國心理行業(yè)分析報告
- 2025至2030中國生物芯片(微陣列和和微流控)行業(yè)運營態(tài)勢與投資前景調查研究報告
- 結核性支氣管狹窄的診治及護理
- 2025年鐵嶺衛(wèi)生職業(yè)學院單招職業(yè)適應性考試模擬測試卷附答案
- 急腹癥的識別與護理
- 凈菜加工工藝流程與質量控制要點
- 2025年新能源電力系統(tǒng)仿真技術及應用研究報告
- 大型商業(yè)綜合體消防安全應急預案
- 《砂漿、混凝土用低碳劑》
評論
0/150
提交評論