多序列比對和蛋白質結構預測_第1頁
多序列比對和蛋白質結構預測_第2頁
多序列比對和蛋白質結構預測_第3頁
多序列比對和蛋白質結構預測_第4頁
多序列比對和蛋白質結構預測_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多序列比對和蛋白質結構預測第一頁,共四十八頁,2022年,8月28日

雙序列比對是序列分析的基礎。然而,對于構成基因家族的成組的序列來說,我們要建立多個序列之間的關系,這樣才能揭示整個基因家族的特征。多序列比對在闡明一組相關序列的重要生物學模式方面起著相當重要的作用。第二頁,共四十八頁,2022年,8月28日

多序列比對有時用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關系,以便對一個基因家族的特征有一個簡明扼要的了解。與雙序列比對一樣,多序列比對的方法建立在某個數學或生物學模型之上。因此,正如我們不能對雙序列比對的結果得出“正確或錯誤”的簡單結論一樣,多序列比對的結果也沒有絕對正確和絕對錯誤之分,而只能認為所使用的模型在多大程度上反映了序列之間的相似性關系以及它們的生物學特征。第三頁,共四十八頁,2022年,8月28日

目前,構建多序列比對模型的方法大體可以分為兩大類。第一類是基于氨基酸殘基的相似性,如物化性質、殘基之間的可突變性等。另一類方法則主要利用蛋白質分子的二級結構和三級結構信息,也就是說根據序列的高級結構特征確定比對結果。這兩種方法所得結果可能有很大差別。一般說來,很難斷定哪種方法所得結果一定正確,應該說,它們從不同角度反映蛋白質序列中所包含的生物學信息。第四頁,共四十八頁,2022年,8月28日

基于序列信息和基于結構信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因為這兩種方法都不能完全反映蛋白質分子所攜帶的全部信息。蛋白質序列是經過DNA序列轉錄翻譯得到的。從信息論的角度看,它應該與DNA分子所攜帶的信息更為“接近”。而蛋白質結構除了序列本身帶來的信息外,還包括經過翻譯后加工修飾所增加的結構信息,包括殘基的修飾,分子間的相互作用等,最終形成穩(wěn)定的天然蛋白質結構。因此,這也是對完全基于序列數據比對方法批評的主要原因。

第五頁,共四十八頁,2022年,8月28日

如果能夠利用結構數據,對于序列比對無疑有很大幫助。不幸的是,與大量的序列數據相比,實驗測得的蛋白質三維結構數據實在少得可憐。在大多數情況下,并沒有結構數據可以利用,我們只能依靠序列的相似性和一些生物化學特性建立一個比較滿意的多序列比對模型。第六頁,共四十八頁,2022年,8月28日多序列比對的定義

為了便于描述,對多序列比對過程給出下面的定義。把多序列比對看作一張二維表,表中每一行代表一個序列,每一列代表一個殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個序列所有殘基的相對位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對齊(表1)。

第七頁,共四十八頁,2022年,8月28日1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比對的定義表示五個短序列(I-V)的比對結果。通過插入空位,使5個序列中大多數相同或相似殘基放入同一列,并保持每個序列殘基順序不變第八頁,共四十八頁,2022年,8月28日

我們稱比對前序列中殘基的位置為絕對位置。如序列Ⅰ的第3位的殘基是甘氨酸G,則絕對位置Ⅰ3就是甘氨酸,而不能變成任何其它氨基酸。相應地,我們稱比對后序列中殘基的位置為相對位置。顯然,同一列中所有殘基的相對位置相同,而每個殘基的絕對位置不同,因為它們來自不同的序列。絕對位置是序列本身固有的屬性,或者說是比對前的位置,而相對位置則是經過比對后的位置,也就比對過程賦予它的屬性。第九頁,共四十八頁,2022年,8月28日算法復雜性

多序列比對的計算量相當可觀,因此有必要分析以下技術的復雜性。雙序列比對所需要的計算時間和內存空間與這兩個序列的長度有關,或者說正比于這兩個序列長度的乘積,用O(m1m2)表示。其中m1、m2是指兩條序列的長度。三序列比對則可以理解為將雙序列比對的兩維空間擴展到三維,即在原有二維平面上增加一條坐標軸。這樣算法復雜性就變成了O(m1m2m3),其中m3表示第三條序列的長度。第十頁,共四十八頁,2022年,8月28日

隨著序列數量的增加,算法復雜性也不斷增加。我們用O(m1m2m3…mn)表示對n個序列進行比對時的算法復雜性,其中mn是最后一條序列的長度。若序列長度相差不大,則可簡化成O(mn),其中n表示序列的數目,m表示序列的長度。顯然,隨著序列數量的增加,序列比對的算法復雜性按指數規(guī)律增長。第十一頁,共四十八頁,2022年,8月28日

降低算法復雜性,是研究多序列比對的一個重要方面。為此,產生了不少很有實用意義的多序列比對算法。這些方法的特點是利用啟發(fā)式(heuristics)算法降低算法復雜性,以獲得一個較為滿意但并不一定是最優(yōu)的比對結果,用來找出子序列、構建進化樹、查找保守序列或序列模板,以及進行聚類(clustering)分析等。有的算法將動態(tài)規(guī)劃和啟發(fā)性算法結合起來。例如,對所有的序列進行兩兩比對,將所有的序列與某個特定的序列進行比對,根據某種給定的親源樹進行分組比對,等等。必須指出,上述方法求得的結果通常不是最優(yōu)解,至少需要經過n-1次雙序列比對,其中n為參與比對的序列個數。第十二頁,共四十八頁,2022年,8月28日比對方法1.手工比對方法

手工比對方法在文獻中經??吹健R驗殡y免加入一些主觀因素,手工比對通常被認為有很大的隨意性。其實,即使用計算機程序進行自動比對,所得結果中的片面性也不能予以忽視。在運行經過測試并具有比較高的可信度的計算機程序基礎上,結合實驗結果或文獻資料,對多序列比對結果進行手工修飾,應該說是非常必要的第十三頁,共四十八頁,2022年,8月28日多序列比對的軟件已經有許多,其中一些帶有編輯程序。最好的辦法是將自動比對程序和編輯器整合在一起。為了便于進行交互式手工比對,通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。顏色的選擇十分重要,如果使用不當,看起來不很直觀,就會使比對結果中一些有用的信息丟失。相反,如果選擇得當,就能從序列比對結果中迅速找到某些重要的結構模式和功能位點。第十四頁,共四十八頁,2022年,8月28日

例如,如果用某種顏色表示一組高度保守的殘基,則某個序列的某一位點發(fā)生突變時,則由于顏色不同,就可以很快找出。顏色的選擇可以根據主觀愿望和喜好,但最好和常規(guī)方法一致。用來構筑三維模型的按時氨基酸殘基組件和三維分子圖形軟件所用的顏色分類方法,比較容易為大家接受(表2)。第十五頁,共四十八頁,2022年,8月28日表2氨基酸分組方法和代表性顏色殘基種類殘基特性顏色Asp(D),Glu(E)酸性紅色His(H),Arg(R),Lys(K)堿性蘭色Ser(S),Thr(T),Asn(N),Gln(Q)極性綠色Ala(A),Val(V),Leu(L),Ile(I),Met(M)疏水性,帶支鏈白色Phe(F),Tyr(Y),Trp(W)疏水性,帶苯環(huán)紫色Pro(P),Gly(G)側鏈結構特殊棕色Cys(C)能形成二硫鍵黃色*表中采用的分組方法和用來區(qū)分不同組別的顏色與模型構件和三維圖形軟件中所用方法一致第十六頁,共四十八頁,2022年,8月28日

多序列比對程序的另一個重要用途是定量估計序列間的關系,并由此推斷它們在進化中的親緣關系。可以通過計算完全匹配的殘基數目或計算完全匹配殘基和相似殘基的數目得到這種定量關系。這一方法除了可以大略了解序列間的親緣關系外,也可用來評估比對質量。如果序列的相似性值低于預料值,那么有可能是序列間親緣關系較遠,也可能是比對中有錯誤之處第十七頁,共四十八頁,2022年,8月28日2.同步法

同步法實質是把給定的所有序列同時進行比對,而不是兩兩比對或分組進行比對。其基本思想是將一個二維的動態(tài)規(guī)劃矩陣擴展到三維或多維。矩陣的維數反映了參與比對的序列數。這類方法對于計算機的系統(tǒng)資源要求較高,通常是進行少量的較短的序列的比對第十八頁,共四十八頁,2022年,8月28日

這類方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,1987)。由于對于實際的數據利用多維的動態(tài)規(guī)劃矩陣來進行序列的比對不太現(xiàn)實,因此大多數實用的多序列比對程序采用啟發(fā)式算法,以降低運算復雜度。

Clustal的基本思想是基于相似序列通常具有進化相關性這一假設。比對過程中,先對所有的序列進行兩兩比對并計算它們的相似性分數值,然后根據相似性分數值將它們分成若干組,并在每組之間進行比對,計算相似性分數值。根據相似性分數值繼續(xù)分組比對,直到得到最終比對結果。比對過程中,相似性程度較高的序列先進行比對,而距離較遠的序列添加在后面。作為程序的一部分,Clusal可以輸出用于構建進化樹的數據。3.步進法第十九頁,共四十八頁,2022年,8月28日Clustal程序有許多版本,ClustalW(Thompson等,1994),根據對親緣關系較近的序列間空位情況,確定如何在親緣關系較遠的序列之間插入空位。同樣,相似性較高的序列比對結果中的殘基突變信息,可用于改變某個特殊位置空位罰分值的大小,推測該位點的序列變異性。

Clustal是免費軟件,很容易從互聯(lián)網上下載,和其它軟件一起,廣泛用于序列分析。Clustal所支持的數據格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定義的格式。它的輸出格式可以是Clustal格式,也可以是可用于GDE、Phylip、GCG等軟件的格式第二十頁,共四十八頁,2022年,8月28日多序列比對的數據庫第二十一頁,共四十八頁,2022年,8月28日

多序列比對的意義在于它能夠把不同種屬的相關序列的比對結果按照特定的格式輸出,并且在一定程度上反映它們之間的相似性。多序列比對結果所提供的信息對于提高數據庫搜索靈敏度也具有很大幫助。因此,方便實用的多序列比對數據庫也就應運而生。目前,互聯(lián)網上可用的多序列比對數據庫已經不少。其中一些利用計算機程序將一次數據庫按家族分類;另外一些則是通過手工或自動方法根據基因家族構建二次數據庫。第二十二頁,共四十八頁,2022年,8月28日

例如,Pfam是將一次庫通過自動比對來構建的數據庫,它將大量具有結構相似性的序列歸為一類,比如各種不同種類動物的轉鐵蛋白的基因序列具有一定的相似性,Pfam將這些序列歸為一類命名為TRANSFERRIN,我們可以在Pfam查找TRANSFERRIN來得到原始序列比對信息,開頭是一些注釋信息,然后給出了比對序列的名字,再下是比對結果,以“//”開始,并以“//”結束。對于一個未知的蛋白質序列在該序列庫中查詢,該序列庫會給出匹配的類及得分供你參考。第二十三頁,共四十八頁,2022年,8月28日

可以看看PRINTS數據庫關于TRANSFERRIN的比對信息,PRINTS數據庫在自動比對的基礎上進行了手工編輯,查尋PRINTS數據庫中關于TRANSFERRIN這一類的比對信息,結果可以用模體(motif)形式顯示也可以用點擊鏈接調用JAVAAPPLET進行圖形顯示,下圖是關于TRANSFERRIN序列比對的局部圖形,可見PRINTS數據庫中TRANSFERRIN一類由更多的序列比對形成。第二十四頁,共四十八頁,2022年,8月28日第二十五頁,共四十八頁,2022年,8月28日

一般來說,對于具有較高相似性的一組序列之間的比對,自動比對方法是很有效的。一旦序列的親緣關系變得較遠,所得結果就不那么可信。若要得到比較可靠而又具有明確生物學意義的比對結果,比較有效的方法是對比對結果進行手工編輯和調整。這對于構建二次數據庫是非常重要的信息。在選擇現(xiàn)有的序列模式或序列模體公開數據庫構建自己的數據庫系統(tǒng)時,對這些現(xiàn)有數據庫的可靠性必須采取謹慎的態(tài)度第二十六頁,共四十八頁,2022年,8月28日蛋白質的結構與功能預測第二十七頁,共四十八頁,2022年,8月28日

蛋白質結構與功能的研究已有相當長的歷史,由于其復雜性,對其結構與功能的預測不論是方法論還是基礎理論方面均較復雜。統(tǒng)計學方法曾被成功地應用于蛋白質二級結構預測中,如Chou和Fasman提出的經驗參數法便是最突出的例子。該方法統(tǒng)計分析了各種氨基酸的二級結構分布特征,得出相應參數(Pа,Pβ和Pt)并用于預測。下面簡要介紹蛋白質結構與功能預測的生物信息學途徑第二十八頁,共四十八頁,2022年,8月28日蛋白質功能預測一、根據序列預測功能的一般過程

如果序列重疊群(contig)包含有蛋白質編碼區(qū),則接下來的分析任務是確定表達產物——蛋白質的功能。蛋白質的許多特性可直接從序列上分析獲得,如疏水性,它可以用于預測序列是否跨膜螺旋(transmenbranehelix)或是前導序列(leadersequence)。但是,總的來說,我們根據序列預測蛋白質功能的唯一方法是通過數據庫搜尋,比較該蛋白是否與已知功能的蛋白質相似。有2條主要途徑可以進行上述的比較分析:第二十九頁,共四十八頁,2022年,8月28日①比較未知蛋白序列與已知蛋白質序列的相似性;②查找未知蛋白中是否包含與特定蛋白質家族或功能域有關的亞序列或保守區(qū)段。第三十頁,共四十八頁,2022年,8月28日圖1根據序列預測蛋白質功能的技術路線第三十一頁,共四十八頁,2022年,8月28日二、通過比對數據庫相似序列確定功能

具有相似序列的蛋白質具有相似的功能。因此,最可靠的確定蛋白質功能的方法是進行數據庫的相似性搜索。一個顯著的匹配應至少有25%的相同序列和超過80個氨基酸的區(qū)段。第三十二頁,共四十八頁,2022年,8月28日

已有不少種類的數據庫搜索工具,它們或者搜索速度慢,但靈敏;或者快速,但不靈敏??焖偎阉鞴ぞ?如BLASTP)很容易發(fā)現(xiàn)匹配良好的序列,所以沒有必要再運行更花時的工具(如FASTA、BLITZ);只有在諸如BLASTP不能發(fā)現(xiàn)顯著的匹配序列時,這些工具才被使用。所以,一般的策略是首先進行BLAST檢索,如果不能提供相關結果,運行FASTA;如果FASTA也不能得到有關蛋白質功能的線索,最后可選用完全根據Smith-Waterman算法設計的搜索程序,例如BLITZ()。

BLITZ不做近似估計(BLAST和FASTA根據Smith-Waterman算法做近似估計),所以很花時,但非常靈敏。通常諸如BLITZ的程序能夠發(fā)現(xiàn)超過幾百個殘基但序列相同比率低于20~25%的匹配,這些匹配可能達到顯著,但會被那些應用近似估計的程序錯過第三十三頁,共四十八頁,2022年,8月28日

還應注意計分矩陣(scoringmatrix)的重要性。選用不同的計分矩陣有不少重要原因:首先,選用的矩陣必須與匹配水平相一致,例如,PAM250應用于遠距離匹配(<25%相同比率),PAM40應用于不很相近的蛋白質序列,而BLOSUM62是一個通用矩陣;第二,使用不同矩陣,可以發(fā)現(xiàn)始終出現(xiàn)的匹配序列,這是一條減少誤差的辦法。除了選用不同的計分矩陣,同樣可以考慮選用不同的數據庫。通常可以使用的數據庫是無冗余蛋白序列數據庫SWISS-PROT和PDB。其它一些數據庫也可以試試,如可用BLASTP搜索復合蛋白質序列庫OWL(www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html)第三十四頁,共四十八頁,2022年,8月28日三、序列特性:疏水性、跨膜螺旋等

許多功能可直接從蛋白質序列預測出來。例如,疏水性信息可被用于跨膜螺旋的預測。還有不少小的模序(motif)是細胞用于特定細胞區(qū)室(cellcompartment)蛋白質的定向。網上有大量數據資源幫助我們利用這些特性預測蛋白質功能。第三十五頁,共四十八頁,2022年,8月28日疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序創(chuàng)建并演示。這是一個很有用的工具,它能計算超過50種蛋白質的特性。程序的輸入即可通過輸入框將序列粘貼進去,也可輸入SWISS-PROT的記錄號。僅一項需要額外設定的參數是輸入框的寬度,該參數將指示系統(tǒng)每次運行計算和顯示的殘基數,其缺省值為9。如果想考慮跨膜螺旋特性,該參數設置應為20,因為一個跨膜螺旋通常有20個氨基酸長度第三十六頁,共四十八頁,2022年,8月28日

有多種方法可以預測序列的跨膜螺旋。最簡單的方法是通過查找包含有20個疏水殘基的區(qū)段,一些更復雜、更準確的算法不僅可以預測跨膜螺旋的位置,還能確定其在膜上的方向。這些方法都依賴于一系列已知跨膜螺旋特性的研究結果。TMbase是一個自然發(fā)生的跨膜螺旋數據庫(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相關的一些程序:TMPRED(http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm(www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP(http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT()。

這些程序將使用了不同的統(tǒng)計模型,總體上,預測準確率在80~95%左右??缒ぢ菪强梢愿鶕蛄袛祿容^準確預測的蛋白質特性之一第三十七頁,共四十八頁,2022年,8月28日

預測前導序列或特殊區(qū)室靶蛋白信號的程序:SignalP(http://www.cbs.dtu.dk/services/SignalP)和PSORT(http://psort.nibbac.jp/form.html)。另一個可從序列中確定的功能模序是卷曲(coil)螺旋。在這一結構中,二個螺旋由于疏水作用而纏繞在一起形成非常穩(wěn)定的結構。相關的2個程序:COILS(http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil(/cgi-bin/score)第三十八頁,共四十八頁,2022年,8月28日四、通過比對模序數據庫等確定功能第三十九頁,共四十八頁,2022年,8月28日蛋白質結構預測一般情況下,蛋白質的結構分為4個層次:初級結構——蛋白質序列;二級結構——а-螺旋和β-折疊片(β-sheets)模式;三級結構——殘基在空間的布局;四級結構——蛋白質之間的互作。一、蛋白質結構及其數據庫第四十頁,共四十八頁,2022年,8月28日

近年來,另一個介于二級和三級結構之間的蛋白質結構層次——所謂蛋白質折疊(fold)已被證明非常有用?!癴old”描述的是二級結構元素的混合組合方式。根據序列或多序列列線預測蛋白質二級結構的技術已相對比較成熟,但三級結構的預測則相當困難。往往對于三級結構預測,只能通過與已知結構蛋白序列同源性比對來完成。已有不少相關數據庫被建立起來用于蛋白質結構預測。這一方法已是目前進行三級結構預測的最準確方法。但是這一方法并不總是奏效,因為大約有80%的已知蛋白質序列找不到與之相似的已知結構的蛋白質序列。近年來,一些新方法被提出,這些方法可以不通過相似性比對來預測序列結構。

第四十一頁,共四十八頁,2022年,8月28日二、二級結構預測

已有大量有關根據序列預測蛋白質二級結構的文獻資料,這些資料可大致分為二類:一是有關根據單一序列預測二級結構;二是有關根據多序列列線預測二級結構。第四十二頁,共四十八頁,2022年,8月28日

直到最近為止,二級結構預測才不被認為具有很高的隨機性。大多數預測算法均是依據單一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有約60%的預測準確率,而對于一些特定的結構,如那些富含β-折疊片的結構,這些算法難以預測成功。預測失敗的原因主要是單一序列所提供的信息只是殘基的順序而沒有其空間分布的信息。兩個方面的研究進展改變了這一狀況:一是認識到多序列列線可被用于改進預測能力。多序列列線可被視為誘變遺傳學試驗中的自然突變狀況,其對序列上單一位點變異的分析的確提供了該位點在蛋白質三級結構中的信息;二是神經網絡已開始被用于根據序列預測結構。目前已有這樣一個共識,即在有大量、高質量的多序列列線結果的情況下,蛋白質二級結構的預測將非常準確——通常準確率比以單一序列預測提高10%。第四十三頁,共四十八頁,2022年,8月28日

一些文獻表明,一些程序(諸如PHD)預測的準確率達到了目前最高水平。PHD()提供了從二級結構預測到折疊(fold)識別等一系列功能。第四十四頁,共四十八頁,2022年,8月28日三、三級結構預測

比對數據庫中已知結構的序列是預測未知序列三級結構的主要方法。多種途徑可進行以上這種比對。最容易是使用BLASTP程序比對NRL-3D或SCOP數據庫中的序列。如果發(fā)現(xiàn)超過100個堿基長度且有遠高于40%序列相同率的匹配序列,則未知序列蛋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論