山大生物信息學課件06-3序列比較3_第1頁
山大生物信息學課件06-3序列比較3_第2頁
山大生物信息學課件06-3序列比較3_第3頁
山大生物信息學課件06-3序列比較3_第4頁
山大生物信息學課件06-3序列比較3_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生 物 信 息 學序列比較3多序列比對(multiple alignment),對兩條以上的生物序列進行全局比對。多序列比對介紹 多序列比對的主要用途:確認:一個未知的序列是否屬于某個家族建立:系統(tǒng)發(fā)生樹(分子樹),查看物種間或者序列間的關(guān)系模式識別:一些特別保守的序列片段往往對應(yīng)重要的功能區(qū)域,通過多序列比對,可以找到這些保守片段及其序列模式(pattern)已知推未知:把已知有特殊功能的序列片段通過多序列比對做成模型,然后根據(jù)該模型推測未知的序列 片段是否也具有該功能。其他:預(yù)測蛋白質(zhì)/RNA二級結(jié)構(gòu)等等。 多序列比對的用途及算法 多序列比對的算法目前所有的多序列比對工具都不是完美的,它們

2、都使用一種近似的算法。PYMNVI0-1-2-3-4-5-6P-1765432Y-261413121110E-351312131211L-441215141414F-5311141313143條序列 = 3Dseq1seq2seq2seq1seq32條序列 = 2DN條序列 = nD 多序列比對的用途及算法 對要進行多序列比對的序列的幾點要求:太多的序列受不了。不要超過50條。關(guān)系太遠的序列受不了。兩兩之間序列相似度低于30%的一組序列,作多序列比對會有麻煩。關(guān)系太近的序列受不了。兩兩之間序列相似度大于90%的序列,有再多條都等于只有一條。短序列受不了。多序列比對支持一組差不多長的序列,個別很

3、短的序列屬于搗亂分子。有重復(fù)域的序列受不了。如果序列里包含重復(fù)域, 大多數(shù)多序列比對的程序都會出錯,甚至崩潰。 多序列比對的注意事項 序列的名字有幾點建議:名字里不要有“空格”,用“_”代替“空格” 。不要用特殊字符,(比如中文, , #, &, 等) 。名字的長度不要太長。一組序列里,不要有重名的序列。如果不按上述幾點建議命名的話,多序列比對的工具會在不告知你的情況下修改你的序列名稱。 e.g. My Seq 1 My_Seq_1e.g. 我的序列壹 Seq1 e.g. This_is_my_favorite_sequence_about_mouse 多序列比對的注意事項 多序列比對的工具C

4、lustal 最常用的多序列比對工具 TCOFFEE 最新的多序列比對工具之一 MUSCLE 最快的多序列比對工具之一 網(wǎng)站名稱服務(wù)器位置網(wǎng)址鏈接EBIClustal-Omegahttp:/www.ebi.ac.uk/Tools/msa/clustalo/ ExpasyClustal W/software/ClustalW.html Sfi-ClustalClustal O/W2/ (僅下載)EBITcoffeehttp:/www.ebi.ac.uk/Tools/msa/tcoffee/TCOFFEETcoffee/ EBIMusclehttp:/www.ebi.ac.uk/Tools/msa

5、/muscle/MUSCLEMuscle/muscle/(僅下載) 部分提供多序列比對在線使用的網(wǎng)站 在線多序列比對工具 http:/www.ebi.ac.uk/Tools/msa EMBL 多序列比對工具:Clustal Omega多序列比對中各個序列的排列順序:aligned-比對過程中自動創(chuàng)建的順序input-輸入序列的原始順序比對輸出格式人Toll樣受體110胞內(nèi)域 保存比對結(jié)果Red: 疏水的 Blue: 酸性的 Magenta: 堿性的 Green:羥基+胺+堿性 Gray: 其他 *完全保守的一列,即,這一列的殘基完全相同。:這一列的殘基有大致相似的分子大小及相同親疏水性,即這一

6、列殘基或相同或相似。.在進化過程中,殘基的分子大小及親疏水性被一定程度上保留了,但是有替換發(fā)生在不相似的殘基間。完全不保守的一列。序列兩兩之間的一致度列表一致度最高的一對序列這個樹 不是 真正的系統(tǒng)發(fā)生樹!Tcoffee :多序列比對工具,算法上與Clustal系列類似,準確度上比Clustal系列略高,但計算耗時也比Clustal系列略高。 http:/tcoffee.crg.cat T-Coffee 鏡像網(wǎng)站SIBhttp:/tcoffee.vital-it.ch EBIhttp:/www.ebi.ac.uk/Tools/msa/tcoffee CNRSrs-mrs.fr/Tcoffee/

7、tcoffee_cgi/ index.cgi Max-Planckhttp:/toolkit.tuebingen.mpg.de/t_coffee CBSU/t_coffee.aspx EMBnet/Services/MolBio/t-coffee TCOFFEE 多序列比對工具:Expressohttp:/tcoffee.crg.cat給序列加入結(jié)構(gòu)信息的多序列比對。把多個比對工具的結(jié)果整合成一個。專為穿膜蛋白打造的多序列比對。專為遠源序列打造的多序列比對。http:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/

8、tcoffee.crg.cat如果要做比對的序列有結(jié)構(gòu)信息的話(包括未發(fā)表的非PDB里的結(jié)構(gòu)),可以把這些結(jié)構(gòu)的PDB文件上傳。用網(wǎng)頁提供的示例序列指定哪個序列對應(yīng)哪個PDB結(jié)構(gòu)。已上傳的結(jié)構(gòu)會根據(jù)序列信息自動匹配是哪個序列,不需要列出?;蛘咄祩€懶,自動給每條序列通過BLAST搜索從數(shù)據(jù)庫中找到序列水平上相似的結(jié)構(gòu)。要算很久,留個email很必要!Expresso做出的比對結(jié)果TCOFFEE做出的比對結(jié)果多序列比對的保存格式score_html file clustalw_aln file fasta_aln file phylip file 在選擇保存格式之前,需要問自己幾個問題: 大多數(shù)軟

9、件都支持我要選的這個格式嗎? 我的同事們能直接使用我選的這個格式嗎? 這個格式能保存我所需要的所有信息嗎? 這個格式適合我進一步加工嗎?如果比對工具輸出的格式里沒有我想要的哪種,可以通過第三方軟件進行格式轉(zhuǎn)換,比如: 到底保存哪個格式呢?多序列比對的保存格式為了能對多序列比對的結(jié)果進行彩色顯示和手工編輯,人們開發(fā)了多序列比對結(jié)果編輯器。Jalview是一個特別常用的編輯器。 多序列比對的編輯和發(fā)布:Jalview點擊這里下載在線運行完整版Jalview軟件打開后,會自動展示許多示例。之前讓大家保存的Clustal Omega比對結(jié)果保守度比對質(zhì)量共有序列根據(jù)每一列的保守程度分配深淺不同的藍色設(shè)

10、定保守程度閾值,閾值以上的才給賦予不同的藍色,閾值以下白色常見的Clustal系列配色方案將后四條序列的第53列移至第54列:1.選中后四條序列:按住 Ctrl 鍵,選中后四條序列的名字。選中后,序列名字的底色由白變灰。2.移動后四條序列:再次按住 Ctrl 鍵,把鼠標放在第53列的字母上,向右拖動到第54列。再用同樣的方法,把原來的第57列向左拖動回原位。設(shè)置字體換行顯示打開/關(guān)閉注釋行為任意一對序列做雙序列全局比對按照各種規(guī)則排序為選中的一組序列創(chuàng)建系統(tǒng)發(fā)生樹預(yù)測一條蛋白質(zhì)序列的二級結(jié)構(gòu)把序列比對保存成圖片可以發(fā)布漂亮的序列比對了!多序列比對美化工具名稱網(wǎng)址特點JalView JAVA,可

11、嵌入網(wǎng)頁 Boxshade/software/BOX_form.html 擅長黑白作圖ESPripthttp:/espript.ibcp.fr/ESPript/ESPript功能強大,很牛MView 擅長轉(zhuǎn)換成HTML源碼多序列比對的編輯和發(fā)布:Jalview你想要找到序列中重要的位置 !用一句話來描述你究竟想從多序列比對中獲得什么:尋找保守區(qū)域保守區(qū)域序列標識圖(sequence logo)是以圖形的方式依次繪出序列比對中各個位置上出現(xiàn)的殘基。每個位置上殘基的累積可反應(yīng)出該位置上殘基的一致性。每個殘基對應(yīng)圖形字符的大小與殘基在該位置上出現(xiàn)的頻率成正比。 但圖形字符的大小并不等于頻率百分比,而

12、是經(jīng)過簡單統(tǒng)計計算后轉(zhuǎn)化的結(jié)果。一款流行的創(chuàng)建序列標識圖的軟件:WebLogo 3 /序列標識圖:WebLogo對于某一列來說, 每個字母的高度 Height = fi * R ,其中 i=1,20 (f是出現(xiàn)頻率) R = log2(20) (entropy + en) entropy = -fi*log2(fi)en = (20 - 1) /(2 * ln 2 * n)entropy: 熵(熵越大越混亂)en: 小樣本檢驗修正n:序列個數(shù)20:殘基種類,蛋白質(zhì)是20,核酸是4TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKY

13、AKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK VVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVK VIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVK VSKKYVPPLRPIGRGASGIVCAAWNSETGEEVAIK MGADDFELLTMIGKGAFGEVRVVREINTGHVFAMK 序列標識圖:WebLogo/ FASTA格式的多序列比對結(jié)果20-3

14、0這一段有明顯的序列特征,其他地方?jīng)]有。在真核生物和古細菌的轉(zhuǎn)錄啟動子上,有一個特殊的DNA片段,叫做TATA box。這段序列通常是 5-TATAAT-3 或者略有變化。TATA box是RNA聚合酶的結(jié)合位點。利用WebLogo,可以快速、直觀地找到這一結(jié)合位點的位置。在核酸/蛋白質(zhì)序列中存在有特定模式(pattern)的序列片段,這些片段稱為序列的基序(motif)。序列基序與生物功能密切相關(guān)。例如,N-糖基化位點基序(N-glycosylation site motif)總是符合以下特定模式:Asn開始, 然后緊跟除了Pro之外的任何一個氨基酸,再緊跟Ser或者Thr,再緊跟除Pro外

15、的任何一個氨基酸。這個特定模式可通過正則表達式(Regular expression)來表述:NPSTP 其中 N=Asn, P=Pro, S=Ser, T=Thr; X代表除X外的任意氨基酸; XY代表X或者Y。MEME是一款可以自動從一組相關(guān)的DNA或蛋白質(zhì)序列中發(fā)現(xiàn)序列基序的軟件。 / 序列基序:MEME按得分高低,給出排名前三的基序給入一組序列找到的基序在在每條序列中的位置排名前三的基序獲得基序的具體信息提交基序給其他軟件提交基序到其他數(shù)據(jù)庫,針對該基序進行序列相似性搜索。一個蛋白質(zhì)的指紋(Prints)就是一組保守的序列基序,用于刻畫蛋白質(zhì)家族的特征。這些基序由多序列比對結(jié)果獲得,且他們在氨基酸序列上是不相鄰的,但是在三維結(jié)構(gòu)中,他們可能緊密結(jié)合在一起。PRINTS是蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫,存儲了目前已發(fā)現(xiàn)的絕大多數(shù)蛋白質(zhì)家族的指紋圖譜。對于一個陌生的蛋白質(zhì),只要看看它的序列是否符合某個家族的圖譜就可以對它進行分類并預(yù)測它的功能。PRINTS指紋圖譜數(shù)據(jù)庫http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 通過關(guān)鍵詞搜索,直接瀏覽某一蛋白質(zhì)家族的指紋圖譜TRANSFERRIN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論