版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、蛋白質(zhì)序列數(shù)據(jù)庫我們可以根據(jù)基因組序列預(yù)測新基因,預(yù)測編碼區(qū)域,并推測其產(chǎn)物(即蛋白質(zhì))的序列。因此,隨著基因組序列的不斷增長,蛋白質(zhì)序列也在不斷增加。PIR歷史上,蛋白質(zhì)數(shù)據(jù)庫的出現(xiàn)先于核酸數(shù)據(jù)庫。在1960年左右,Dayhoff和其同事們搜集了當(dāng)時所有已知的氨基酸序列,編著了蛋白質(zhì)序列與結(jié)構(gòu)圖冊。從這本圖冊中的數(shù)據(jù),演化為后來的蛋白質(zhì)信息資源數(shù)據(jù)庫PIR(Protein Information Resource)。PIR是由美國生物醫(yī)學(xué)基金會NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是幫助研究者鑒別和解釋蛋白質(zhì)序列信
2、息,研究分子進化、功能基因組,進行生物信息學(xué)分析。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進行了分類。PIR提供一個蛋白質(zhì)序列數(shù)據(jù)庫、相關(guān)數(shù)據(jù)庫和輔助工具的集成系統(tǒng),用戶可以迅速查找、比較蛋白質(zhì)序列,得到與蛋白質(zhì)相關(guān)的眾多信息。目前,PIR已經(jīng)成為一個集成的生物信息數(shù)據(jù)源,支持基因組研究和蛋白質(zhì)組研究。至2004年,PIR 有近30萬個蛋白質(zhì)的登錄數(shù)據(jù)項,包括來自不同生物體的蛋白質(zhì)序列。除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:(1)蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源;(2)關(guān)于原始數(shù)據(jù)的
3、參考文獻;(3)蛋白質(zhì)功能和蛋白質(zhì)的一般特征,包括基因表達、翻譯后處理、活化等;(4)序列中相關(guān)的位點、功能區(qū)域。對于數(shù)據(jù)庫中的每一個登錄項,有與其它數(shù)據(jù)庫的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等數(shù)據(jù)庫的索引。PIR中一個具體的登錄項如圖4.4所示。PIR提供三種類型的檢索服務(wù)。一是基于文本的交互式查詢,用戶通過關(guān)鍵字進行數(shù)據(jù)查詢。二是標準的序列相似性搜索,包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。目前,PIR包括三個子數(shù)據(jù)庫,分別是蛋白質(zhì)序列數(shù)據(jù)庫PIR-PSD、蛋白質(zhì)分
4、類數(shù)據(jù)庫iProClass以及非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫PIR-NREF。SWISS-PROTSWISS-PROT是由Geneva大學(xué)和歐洲生物信息學(xué)研究所(EBI)于1986年聯(lián)合建立的,它是目前國際上權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫。SWISS-PROT 中的蛋白質(zhì)序列是經(jīng)過注釋的。SWISS-PROT中的數(shù)據(jù)來源于不同源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。2004年3月的SWISS-PROT 43.0 版本有序列登錄項,包含摘自篇參考文獻的個氨基酸。與其它蛋白質(zhì)序列數(shù)據(jù)庫相比較,SWI
5、SS-PROT有三個明顯的特點:(1)注釋 在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。對于數(shù)據(jù)庫中的每一個序列登錄項,核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻、分類信息(蛋白質(zhì)生物來源的描述)等,而注釋包括: 蛋白質(zhì)的功能描述; 翻譯后修飾; 域和功能位點,如鈣結(jié)合區(qū)域、ATP結(jié)合位點等; 蛋白質(zhì)的二級結(jié)構(gòu); 蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等; 與其它蛋白質(zhì)的相似性; 由于缺乏該蛋白質(zhì)而引起的疾??; 序列的矛盾、變化等。(2)最小冗余對于給定的蛋白質(zhì),許多數(shù)據(jù)庫根據(jù)不同的文獻報道設(shè)置分立的登錄項,而在SWISS-PROT中,盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同
6、來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接SWISS-PROT目前已經(jīng)建立了與其它30多個相關(guān)數(shù)據(jù)庫的交叉索引,即對于每一個SWISS-PROT的登錄項,有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息。例如,根據(jù)到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的索引,用戶不僅可以得到某個蛋白質(zhì)的序列,還可以進一步得到其結(jié)構(gòu)?,F(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫的索引,到PROSITE模式數(shù)據(jù)庫的索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等。與前面介紹的核酸序列數(shù)據(jù)庫EMBL類似,每一個SWISS-PROT的條目用外在的ASCII文件表示,兩者主要差別在于特征表的不同。
7、用戶可以通過網(wǎng)絡(luò)將蛋白質(zhì)序列數(shù)據(jù)提交給SWISS-PROT,或者對蛋白質(zhì)數(shù)據(jù)進行修改。SWISS-PROT提供序列序列查詢及相似蛋白質(zhì)序列搜索工具TrEMBL大多數(shù)蛋白質(zhì)序列不是直接由實驗得到,而是通過DNA序列映射而得到的。TrEMBL是一個計算機注釋的蛋白質(zhì)數(shù)據(jù)庫,作為SWISS-PROT數(shù)據(jù)庫的補充。該數(shù)據(jù)庫主要包含從EMBL/ Genbank/DDBJ核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且,這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分,分別是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMain
8、ing TrEMBL)。SP-TrEMBL包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列都已被賦予SWISS-PROT的 登錄號。這部分數(shù)據(jù)可以看成是SWISS-PROT數(shù)據(jù)庫的預(yù)備隊。REM-TrEMBL包括所有不準備放入SWISS-PROT的數(shù)據(jù),因此這部分數(shù)據(jù)都沒有登錄號。如人工合成的蛋白質(zhì)序列、申請專利的序列、偽基因?qū)?yīng)的蛋白質(zhì)序列等。TrEMBL(16.0版,2001年3月)根據(jù)EMBL的核酸數(shù)據(jù)庫(65.0版)建立,共有條序列,包括個氨基酸。為了減少冗余,若根據(jù)核酸編碼序列翻譯的蛋白質(zhì)序列已經(jīng)出現(xiàn)在SWISS-PROT,則將對應(yīng)的序列刪除。TrEMBL數(shù)
9、據(jù)庫的26.0版(2004年3月)擁有條蛋白質(zhì)序列,總氨基酸長度達到。 目前,歐洲生物信息學(xué)研究所EBI 將上述3個蛋白質(zhì)數(shù)據(jù)庫(即PIR 、SWISS-PROT和TrEMBL)統(tǒng)一起來,建立了一個蛋白質(zhì)數(shù)據(jù)倉庫UniProt(Universal Protein Resource, http:/www.ebi.ac.uk/uniprot/index.html)。 UniProt包含3個部分:(1)UniProt Knowledgebase(UniProt),這是蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)數(shù)
10、據(jù)庫,該數(shù)據(jù)庫將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中,以便提高搜索速度;目前,根據(jù)序列相似程度形成3個子庫,即UniRef100、UniRef90和UniRef50;(3)UniProt Archive(UniParc),是一個資源庫,記錄所有蛋白質(zhì)序列的歷史。用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP 下載數(shù)據(jù)。生物大分子結(jié)構(gòu)數(shù)據(jù)庫在生物學(xué)研究中,分子的結(jié)構(gòu)是最重要的數(shù)據(jù),它提供很多信息,包括生物分子的功能、作用機制、進化歷史等。目前,國際上最主要的生物大分子結(jié)構(gòu)數(shù)據(jù)庫是PDB。PDB目前,國際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫是美國Brookhaven實驗
11、室的大分子結(jié)構(gòu)數(shù)據(jù)庫PDB(/pdb/home/home.do)。PDB中含有通過實驗(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu),其中主要是蛋白質(zhì)的三維結(jié)構(gòu),還包括核酸、糖類、蛋白質(zhì)與核酸復(fù)合物的三維結(jié)構(gòu)。截止2004年5月,PDB數(shù)據(jù)庫已含有約25000個結(jié)構(gòu),其中90%是蛋白質(zhì)的結(jié)構(gòu)。對于每一個結(jié)構(gòu),包含名稱、參考文獻、序列、一級結(jié)構(gòu)、二級結(jié)構(gòu)和原子坐標等信息。PDB中的每條記錄有兩種序列信息,一種是顯式序列信息(explicit sequence),一種是隱式序列信息(implicit sequence)。在PDB文件中,以關(guān)鍵字SE
12、QRES作為顯式序列標記,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。對于氨基酸殘基,采用三字符的表示方式,這一點與其它序列數(shù)據(jù)庫不一樣。PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個原子的名稱和原子的三維坐標。在實際應(yīng)用中,PDB數(shù)據(jù)庫應(yīng)與結(jié)構(gòu)模型顯示軟件結(jié)合起來。因為PDB的主要信息是三維結(jié)構(gòu),如果直接將三維結(jié)構(gòu)信息以文本的形式返回給用戶,用戶將難以分析這些結(jié)構(gòu)信息,實用的方法是,通過分子模型化軟件,以圖形方式顯示三維結(jié)構(gòu)。這樣的軟件在Internet網(wǎng)上有許多,如RasMol、ChemView等,這些軟件能夠以各種各樣的模型顯示生物大分子的三維結(jié)構(gòu),如結(jié)構(gòu)骨架模型、棒狀模型、球棒模型、空間填充
13、模型、帶狀模型等。此外,在PDB中還說明蛋白質(zhì)某些特定部位的二級結(jié)構(gòu)類型,如a螺旋和b折疊。MMDB分子模型MMDB(Molecular Modeling Database)是美國生物技術(shù)信息中心(NCBI)所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個部分,數(shù)據(jù)庫的內(nèi)容包括來自于實驗的生物大分子結(jié)構(gòu)數(shù)據(jù)。該數(shù)據(jù)庫實際上是生物大分子PDB的一個編輯版本,僅僅剔除PDB中理論計算的模型結(jié)構(gòu)。MMDB 的3W地址為/Structure/MMDB/mmdb.shtml。與PDB相比,對于數(shù)據(jù)庫中的每一個生物大分子結(jié)構(gòu),MMDB具有許多附加的信息,
14、如分子的生物學(xué)功能、產(chǎn)生功能的機制、分子的進化歷史等,同時,還包括生物大分子之間關(guān)系的信息。此外,系統(tǒng)還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。MMDB采用ASN.1的記錄格式,而非PDB格式。其它生物分子數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP具有相似結(jié)構(gòu)的蛋白質(zhì)很可能具有共同的祖先。幾乎對于任何一個蛋白質(zhì)都能找到與其它一些具有相似結(jié)構(gòu)的蛋白質(zhì),其中的一些蛋白質(zhì)擁有一個共同的進化原始結(jié)構(gòu)。這種關(guān)系對于了解蛋白質(zhì)的進化和發(fā)展是非常關(guān)鍵的,同樣對于分析基因組序列數(shù)據(jù)也是非常重要的。為了分析蛋白質(zhì)序列與結(jié)構(gòu)之間的關(guān)系,認識不同折疊結(jié)構(gòu)的進化過程,需要研究蛋白質(zhì)結(jié)構(gòu)分類的方法,并建立結(jié)構(gòu)分
15、類數(shù)據(jù)庫。SCOP數(shù)據(jù)庫 (Structural Classification of Proteins,http:/scop.mrc-lmb.cam.ac.uk/scop/)就是一個蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫。SCOP 的目標是提供關(guān)于已知結(jié)構(gòu)蛋白質(zhì)之間的結(jié)構(gòu)和進化關(guān)系的信息,所涉及的蛋白質(zhì)包括結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進化關(guān)系信息外,對于每一個蛋白質(zhì)還包括下述信息:到PDB的鏈接,序列,參考文獻,結(jié)構(gòu)的圖像等。從目前的技術(shù)來看,很難借助于自動的序列和結(jié)構(gòu)比較工具發(fā)現(xiàn)蛋白質(zhì)之間的結(jié)構(gòu)和進化關(guān)系,因此,SCOP的結(jié)構(gòu)分類主要是通過人工來完成的,通過圖形顯示器觀察和
16、比較蛋白質(zhì)結(jié)構(gòu),并借助于一些軟件工具進行分析,如同源序列搜索工具??梢园唇Y(jié)構(gòu)和進化關(guān)系對蛋白質(zhì)分類,分類結(jié)果是一個具有層次結(jié)構(gòu)的樹,其主要的層次是家族、超家族和折疊,這些層次之間的界限在一定程度上是人為的。進化分類是保守的,只要對進化關(guān)系存在疑問,就在家族或超家族層次上建立一個新的分類。這樣,有些研究人員傾向于著重研究分類樹的高層,在這些層次上,結(jié)構(gòu)相似的蛋白質(zhì)聚類在一起。具有明顯進化關(guān)系的蛋白質(zhì)聚集到一個家族中,這意味著兩個蛋白質(zhì)之間的等同氨基酸殘基數(shù)超過30%。然而,在某些情況下,雖然兩個蛋白質(zhì)序列不相似,但它們具有相似的結(jié)構(gòu)和相似的功能,表明屬于同一個家族。例如,許多球蛋白雖然序列相同部
17、分只達到15%,但確實形成一個家族。超家族中的成員具有遠源進化關(guān)系,具有共同的進化源。有些蛋白質(zhì),它們序列之間的相似性較低,序列等同部分短,但是結(jié)構(gòu)和功能特征顯示可能有一個共同的進化源,對于這些蛋白質(zhì)將它們放入一個超家族中。屬于同一個折疊類的蛋白質(zhì)具有相似的折疊結(jié)構(gòu)。如果兩個蛋白質(zhì)具有相同的主要二級結(jié)構(gòu),并具有相同的拓撲連接,那么,這些蛋白質(zhì)就具有共同的折疊。具有相同折疊的不同蛋白質(zhì),通常有不同大小和不同構(gòu)象的外周二級結(jié)構(gòu)元素及轉(zhuǎn)向區(qū)域。在某些情況下,這些不同的外周區(qū)域可能構(gòu)成完整結(jié)構(gòu)的一半。按照相同折疊放入同一個折疊分類中的蛋白質(zhì)可能沒有共同的進化源,結(jié)構(gòu)相似性可能緣由蛋白質(zhì)傾向于形成一定堆
18、積和一定拓撲結(jié)構(gòu)的物理和化學(xué)特性。 SCOP首先從總體上將蛋白質(zhì)進行分類,例如全a型,全b型,以平行折疊為主的a/b型,以反平行折疊為主的a+b型,詳見圖4.7。然后,再將屬于同一結(jié)構(gòu)類型的蛋白質(zhì)按照折疊、超家族、家族層次組織起來。例如,SCOP 1.65版本有46456個全a型蛋白質(zhì),該結(jié)構(gòu)類型下有179個折疊類(見圖4.7)。在這179個折疊類中的第一個超家族是類球蛋白;類球蛋白又包含4個家族,其中第一個家族又包含5個結(jié)構(gòu)域;每個結(jié)構(gòu)域下面有很多蛋白質(zhì)成員。 蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫DSSPDSSP(Database of Secondary Structure of Protein,http
19、:/swift.cmbi.ru.nl/gv/start/index.html) 是一個二級結(jié)構(gòu)推導(dǎo)數(shù)據(jù)庫。對生物大分子數(shù)據(jù)庫PDB中的任何一個蛋白質(zhì),根據(jù)其三維結(jié)構(gòu)推導(dǎo)出對應(yīng)的二級結(jié)構(gòu)。因此,DSSP是一個二級數(shù)據(jù)庫(相對于原始數(shù)據(jù)庫)。這個數(shù)據(jù)庫對研究蛋白質(zhì)序列與蛋白質(zhì)二級結(jié)構(gòu)及空間結(jié)構(gòu)的關(guān)系非常有用。The DSSP program was designed by Wolfgang Kabsch and Chris Sander to standardize secondary structure assignment. DSSP is a database of secondary st
20、ructure assignments (and much more) for all protein entries in the Protein Data Bank (PDB). DSSP is also the program that calculates DSSP entries from PDB entries. DSSP does not predict secondary structure. 除了二級結(jié)構(gòu)以外,DSSP還包括蛋白質(zhì)的幾何特征及溶劑可及表面。DSSP還包括一個實用程序,該程序根據(jù)給定的蛋白質(zhì)的三維結(jié)構(gòu),計算一個蛋白質(zhì)所對應(yīng)的二級結(jié)構(gòu)。DSSP 二級結(jié)構(gòu)區(qū)分得比較
21、細致,共分7種二級結(jié)構(gòu),其編碼含義如下:H代表a螺旋,E代表b折疊,G和I分別代表3-螺旋和p螺旋,B代表孤立的b橋,T 代表氫鍵轉(zhuǎn)折,S代表彎曲。圖4.8是一個具體的蛋白質(zhì)二級結(jié)構(gòu)實例,其中上面一行代表蛋白質(zhì)序列,下面一行是對于各個氨基酸殘基所處二級結(jié)構(gòu)的注釋。蛋白質(zhì)同源序列比對數(shù)據(jù)庫HSSPHSSP(Homelogy-Derived Secondary Structure of Protein) 是一個蛋白質(zhì)同源序列比對數(shù)據(jù)庫(http:/swift.cmbi.ru.nl/gv/hssp/ ),它也是一個二級數(shù)據(jù)庫。對于一個蛋白質(zhì),HSSP組合三維結(jié)構(gòu)數(shù)據(jù)和序列數(shù)據(jù),其數(shù)據(jù)來源于PDB,或
22、來源于其它蛋白質(zhì)序列數(shù)據(jù)庫,如SWISS-PROT。對于PDB中的每一個蛋白質(zhì),HSSP將與其同源的所有蛋白質(zhì)序列進行比對,從而將相似序列的蛋白質(zhì)聚集成結(jié)構(gòu)同源的家族。如果家族成員中有一個已知三維結(jié)構(gòu),則可以推測家族其它成員的三維結(jié)構(gòu)、二級結(jié)構(gòu)或者折疊。所以,HSSP不僅是蛋白質(zhì)家族序列比對數(shù)據(jù)庫,同時該數(shù)據(jù)庫隱含了二級結(jié)構(gòu)和空間結(jié)構(gòu)信息,這覆蓋了SWISS-PROT中27%的蛋白質(zhì)。HSSP有助于分析蛋白質(zhì)的保守區(qū)域,確定有意義的序列模式,研究蛋白質(zhì)的進化關(guān)系,研究蛋白的折疊,也有助于蛋白質(zhì)的分子設(shè)計。對于PDB中的每一個蛋白質(zhì),HSSP含有下述信息:蛋白質(zhì)序列,推導(dǎo)的二級結(jié)構(gòu),從SWISS
23、-PROT選出的一系列同源序列的比對,序列統(tǒng)計特征圖。此外,針對蛋白質(zhì)多重序列比對的每一個位置,說明序列的變異性。序列模式數(shù)據(jù)庫PROSITEPROSITE (/)是由瑞士生物信息學(xué)研究所建立的一個蛋白質(zhì)家族和保守區(qū)域數(shù)據(jù)庫,也是國際上第一個序列模式數(shù)據(jù)庫。該數(shù)據(jù)庫包含重要的生物功能位點、序列模式以及可幫助識別蛋白質(zhì)家族的統(tǒng)計特征,可以利用這些信息確定一條新序列究竟應(yīng)該歸屬哪個已知的蛋白質(zhì)家族。PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等。除了序列模式之外,
24、PROSITE還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計特征,能更敏感地發(fā)現(xiàn)一個序列是否具有相應(yīng)的特征。PROSITE提供這方面的分析工具。自然界雖然有眾多的蛋白質(zhì),但是,對于大部分蛋白質(zhì),都可以根據(jù)序列的相似性將它們分配到不同的組中,從而形成為數(shù)不多的家族。屬于同一家族的蛋白質(zhì)一般起源于共同的祖先,具有相似的功能。但是,在有些情況下,某個蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要,在進化過程保留了與功能密切相關(guān)的保守區(qū)域,形成特定的序列模式。在研究蛋白質(zhì)家族時可以發(fā)現(xiàn),有些區(qū)域的序列在進化過程中比較保守,變化不大,這些區(qū)域通常對于蛋白質(zhì)的結(jié)構(gòu)和功能是非常關(guān)鍵的。分析一個家族中的蛋
25、白質(zhì)序列,可以發(fā)現(xiàn)家族或保守區(qū)域的特征,通過這樣的特征,可以將家族成員與其它不相關(guān)的蛋白質(zhì)區(qū)分開來??梢酝ㄟ^PROSITE的搜索找到一條蛋白質(zhì)序列中隱含的序列模式。 PROSITE 目前包含1千多個蛋白質(zhì)家族或保守區(qū)域的模式或特征,同時,對于每一種模式都伴有蛋白質(zhì)結(jié)構(gòu)和功能的信息。 蛋白質(zhì)指紋數(shù)據(jù)庫PRINTS 另一個與蛋白質(zhì)序列模式相關(guān)的數(shù)據(jù)庫是蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫PRINTS(http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php)。一個蛋白質(zhì)指紋就是一組保守的序列模式,用于刻畫蛋白質(zhì)家族的特征。這些序列模式在蛋白質(zhì)的一
26、維多肽鏈上是不相鄰的,但是,在三維空間中,它們可能緊密地結(jié)合在一起。與PROSITE的單個序列模式相比,利用蛋白質(zhì)指紋可以更加靈活和合理地研究蛋白質(zhì)結(jié)構(gòu)與功能。人類遺傳數(shù)據(jù)庫OMIMOMIM (Online Mendelian Inheritance in Man)是關(guān)于人類基因和遺傳疾病的分類數(shù)據(jù)庫,由約翰霍普金斯大學(xué)開發(fā)。該數(shù)據(jù)庫收集了已知的人類基因及由于這些基因突變或者缺失而導(dǎo)致的遺傳疾病。OMIM主要的服務(wù)對象是醫(yī)師、遺傳疾病研究人員、生物醫(yī)學(xué)專業(yè)高年級學(xué)生。在OMIM中,可以按照基因搜索數(shù)據(jù)庫,也可以按照遺傳疾病搜索數(shù)據(jù)庫。OMIM的網(wǎng)絡(luò)服務(wù)器位于NCBI,每條記錄引用的參考資料都有
27、到Entrez系統(tǒng)的鏈接。OMIM網(wǎng)址是:80/entrez/query.fcgi?db=OMIM。OMIM的使用非常方便。查詢程序根據(jù)輸入到檢索窗口的一個或幾個詞執(zhí)行簡單的查詢,返回含有該詞的文檔的列表,用戶可以在列表中選擇一個或更多的記錄查看其OMIM數(shù)據(jù)的全文。記錄含有各種信息,如基因符號、病變的名稱、對病變的描述(包括臨床的,生物化學(xué)的,細胞遺傳學(xué)的特征)、遺傳模式上的細節(jié)(包括圖譜信息)、臨床的說明等,還有參考文獻。用戶也可以選擇特定的染色體,瀏覽染色體上相關(guān)的基因及病變信息。基因啟動子數(shù)據(jù)庫EPD EPD(http:/www.ep
28、d.isb-sib.ch/ )是真核基因啟動子數(shù)據(jù)庫,提供從EMBL中得到的真核基因的啟動子序列,目標是幫助實驗研究人員、生物信息學(xué)研究人員分析真核基因的轉(zhuǎn)錄信號?,F(xiàn)有1500多個啟動子序列數(shù)據(jù),按照層次式方式組織數(shù)據(jù)。關(guān)于啟動子的描述信息直接摘自科學(xué)文獻,因而相對獨立于EMBL。轉(zhuǎn)錄調(diào)控區(qū)域數(shù)據(jù)庫TRRD 轉(zhuǎn)錄調(diào)控區(qū)域數(shù)據(jù)庫TRRD是由俄羅斯科學(xué)院細胞和遺傳學(xué)研究所建立的。TRRD是一個關(guān)于基因調(diào)控信息的集成數(shù)據(jù)庫,該數(shù)據(jù)庫搜集真核生物基因轉(zhuǎn)錄調(diào)控區(qū)域結(jié)構(gòu)和功能的信息。每一個TRRD的條目對應(yīng)于一個基因,包含特定基因各種結(jié)構(gòu)和功能特性,如:轉(zhuǎn)錄因子結(jié)合位點(或者順式作用元件)、啟動子、影響基
29、因轉(zhuǎn)錄水平的增強子和靜默子、5-端和3-端擴展的轉(zhuǎn)錄調(diào)控區(qū)域、基因表達調(diào)控模式、完整的基因表達調(diào)控系統(tǒng)等。TRRD6.0包括七個相關(guān)的數(shù)據(jù)表:(1)基因描述表TRRDGENES,包含所有TRRD庫基因的基本信息和調(diào)控單元信息,它是TRRD最主要的表,設(shè)有與其它表的鏈接;(2)控制區(qū)域表TRRDLCR,包含控制區(qū)域的定位;(3)調(diào)控區(qū)域表TRRDUNITS,包含啟動子、增強子、靜默子等;(4)轉(zhuǎn)錄因子結(jié)合位點表TRRDSITES,包括調(diào)控因子結(jié)合位點的詳細信息;(5)轉(zhuǎn)錄因子表TRRDFACTORS,包括TRRD中與各個位點結(jié)合的調(diào)控因子的具體信息;(6)表達模式表TRRDEXP,包括對基因表達
30、模式的具體描述;(7)實驗來源表TRRDBIB,包括TRRD中所有注釋涉及的參考文獻。TRRD6.0有關(guān)于1167個基因的信息,包括5537個轉(zhuǎn)錄因子結(jié)合位點,1714個調(diào)控區(qū)域,5335個基因表達模式。TRRD主頁提供了對這幾個數(shù)據(jù)表的檢索服務(wù),同時提供可視化工具,其地址為http:/wwwmgs.bionet.nsc.ru/trrd/。轉(zhuǎn)錄因子數(shù)據(jù)庫TRANSFAC TRANSFAC (/)是一個真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫,數(shù)據(jù)搜集的對象從酵母到人類。TRANSFAC包括6類數(shù)據(jù):SITE類數(shù)據(jù)是關(guān)于真核基因的不同調(diào)控
31、位點信息,GENE類數(shù)據(jù)描述具有多個調(diào)控位點的基因信息,F(xiàn)ACTOR類數(shù)據(jù)描述結(jié)合于這些位點的蛋白質(zhì)因子信息,CELL類數(shù)據(jù)則說明蛋白質(zhì)因子的細胞來源,CLASS類數(shù)據(jù)包含轉(zhuǎn)錄因子分類的基本信息,MATRIX數(shù)據(jù)以矩陣的形式定量描述結(jié)合位點核苷酸的統(tǒng)計分布。 此外,還有幾個與TRANSFAC密切相關(guān)的擴展庫:PATHODB庫收集了轉(zhuǎn)錄區(qū)域中可能導(dǎo)致病態(tài)的突變數(shù)據(jù);S/MART DB收集了蛋白質(zhì)結(jié)合位點的特征信息及作用于這些位點的蛋白質(zhì)信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號傳遞的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個器官、細胞類型、生理系統(tǒng)和發(fā)育時期的表達狀況。基因本
32、體數(shù)據(jù)庫GO 基因本體數(shù)據(jù)庫GO(Gene Ontology, /)是由基因本體學(xué)聯(lián)盟開發(fā)的,其目標是建立關(guān)于基因和蛋白質(zhì)描述以及知識的標準詞匯,為今后實現(xiàn)各種與基因相關(guān)數(shù)據(jù)的統(tǒng)一、進行數(shù)據(jù)轉(zhuǎn)換、開展數(shù)據(jù)挖掘提供一個標準。GO一共有3個結(jié)構(gòu)化的網(wǎng)絡(luò),用于描述基因的產(chǎn)物,對基因進行注釋。這3個網(wǎng)絡(luò)分別從生物過程、細胞成分和分子功能對基因進行分類、定義和注釋。 生物、醫(yī)學(xué)文獻數(shù)據(jù)庫PubMed PubMed(/)是NCBI維護的生物學(xué)、醫(yī)學(xué)文獻引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLI
33、NE等文獻數(shù)據(jù)庫的引用查詢和對大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對PubMed進行方便的查詢檢索。目錄數(shù)據(jù)庫DBCatDBCat(biogen.fr/services/dbcat/)是一個生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,或數(shù)據(jù)庫的數(shù)據(jù)庫。它收集了500多個生物信息學(xué)數(shù)據(jù)庫的信息,并根據(jù)它們的應(yīng)用領(lǐng)域?qū)@些數(shù)據(jù)庫進行分類,包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻著作等基本類型,見表4.1。從該數(shù)據(jù)庫出發(fā),可以迅速找到生物信息學(xué)其它重要的數(shù)據(jù)庫。DBCat數(shù)據(jù)庫可以免費下載或在網(wǎng)絡(luò)上檢索查詢。 表4.1 DBCat中分類數(shù)據(jù)庫個數(shù)數(shù)據(jù)對
34、象 數(shù)據(jù)庫個數(shù) DNA 87 RNA 29 蛋白質(zhì) 94 基因組 58 圖譜 29 蛋白質(zhì)結(jié)構(gòu) 18 文獻 43 其它 153 除以上介紹的數(shù)據(jù)庫之外,還有很多專門生物信息數(shù)據(jù)庫,涉及生物學(xué)研究的各個領(lǐng)域。在實際應(yīng)用中,可以根據(jù)需要檢索不同的數(shù)據(jù)庫。至于數(shù)據(jù)庫的網(wǎng)址,可以通過公共的網(wǎng)站搜索系統(tǒng)查找,也可以通過專門的生物信息目錄數(shù)據(jù)庫(如DBCat)進行查找。另外,還可以根據(jù)數(shù)據(jù)庫中的Internet鏈接,直接找到相關(guān)的數(shù)據(jù)庫。國內(nèi)也有一部分公共數(shù)據(jù)庫的鏡像站點和自己開發(fā)的有特色的數(shù)據(jù)庫,如設(shè)立在北京大學(xué)分子生物信息學(xué)中心(/)的歐洲分子生物學(xué)網(wǎng)絡(luò)
35、EMBNet的中國節(jié)點和亞太生物信息學(xué)網(wǎng)絡(luò)(APBioNet)中國節(jié)點。 PHD-蛋白質(zhì)結(jié)構(gòu)預(yù)測(PHD-PredictProtein)PHD-PredictProtein服務(wù)主要是預(yù)測 蛋白質(zhì)的二級結(jié)構(gòu)(Secondary structure) 殘基可溶性( Residue solvent accessibility) 及跨膜螺旋區(qū)定位(Location of transmembrane helices) 另外有三個可選項: 折疊方式識別 (Fold recognition) 跨膜螺旋區(qū)蛋白的拓撲學(xué)預(yù)測(prediction of topology for helical transmemb
36、rane proteins) 預(yù)測精確性評估(evaluation of prediction accuracy) PredictProtein蛋白質(zhì)結(jié)構(gòu)預(yù)測工作原理1 一級結(jié)構(gòu)分析 將預(yù)測序列與SWISS-PROT庫中的蛋白質(zhì)相比,篩選序列相似性序列; 用MaxHom方法作多序列的一致性分析(multiple sequence alignment)。將此多序列一級性分析結(jié)果可用PHD方法作神經(jīng)網(wǎng)絡(luò)預(yù)測(neural network predictions),然后再作預(yù)測精確性的評估分析。 PHD預(yù)測方法有以下幾個水平:PHDsec:二級結(jié)構(gòu)預(yù)測(secondary structrue pre
37、diction)有三種結(jié)構(gòu)類如螺旋(helix),片狀 (strand)及其它精確性。PHDacc:可溶性(solvent accessibility)預(yù)測,實際性與理論性相關(guān)性0.5.PHDhtm:跨膜螺旋區(qū)預(yù)測及拓撲學(xué),精確度分剖為89%和86%2 基于預(yù)測線程的折疊識別(Fold recognition by prediction-based threading)二級結(jié)構(gòu)及可溶性預(yù)測是將蛋白主序列與PDB庫的序列作序陣一致性(alignment)分析,并探查較遠的同源性,當(dāng)然,結(jié)果可能不十分可靠。預(yù)測線程最低分(firsthit)僅30%準確度,當(dāng)z-scores得分超過3.0時,較為可
38、靠(精確度60%)3 預(yù)測準確度估計各個殘基各個節(jié)段的預(yù)測得分都將返回給查詢者:如三種狀態(tài)整體準確性(overall three-state accuracy),單狀態(tài)準確性(singe state accuracy),相關(guān)系數(shù)(correlation coefficeents),信息熵值( information entropy), 部分節(jié)段一致性( fractional segment overlap),以及整個二級結(jié)構(gòu)內(nèi)容及結(jié)構(gòu)分類的準確度。二、使用方法 email 將序列發(fā)送到PredictProteinEMBL-Heidelberg.DE 有問題時與Predict-HelpEMBL-Heidelberg.DE聯(lián)系 Web 主頁:http:/www.embl-heidelbery,de/predictprotein/ptrdictprotein.html 互動式查詢(interactive request):http:/www.embl-heideberg.de/predictprotein/ppDoPred.html 問題相關(guān)頁:http:/www.embl-heidelberg
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年林業(yè)應(yīng)對氣候變化崗位試題含答案
- 互聯(lián)網(wǎng)金融合規(guī)培訓(xùn)課件
- 健身行業(yè)安全與健康指導(dǎo)手冊(標準版)
- 2026年劇本殺運營公司員工入職培訓(xùn)管理制度
- 2026年劇本殺運營公司劇本結(jié)局演繹規(guī)范管理制度
- 智能圖像識別在2025年跨境數(shù)字內(nèi)容審核平臺的應(yīng)用可行性研究
- 產(chǎn)后健康評估與隨訪管理
- 2025年太陽能光伏板回收十年技術(shù)報告
- 交通輔警面試題目及答案
- 2026年柔性顯示材料創(chuàng)新應(yīng)用報告
- 2024-2025學(xué)年江蘇省南京市玄武區(qū)八年級上學(xué)期期末語文試題及答案
- 專升本語文教學(xué)課件
- 別人買房子給我合同范本
- 電力通信培訓(xùn)課件
- 中建三局2024年項目經(jīng)理思維導(dǎo)圖
- 基層黨建知識測試題及答案
- DG-TJ08-2021-2025 干混砌筑砂漿抗壓強度現(xiàn)場檢測技術(shù)標準
- 鼻竇炎的護理講課課件
- 腸系膜脂膜炎CT診斷
- 體外膜肺氧合技術(shù)ECMO培訓(xùn)課件
- 老年醫(yī)院重點??平ㄔO(shè)方案
評論
0/150
提交評論