生物分子信息數據庫

上傳人：o*** IP屬地：貴州上傳時間：2020-10-06 格式：DOC 頁數：29 大?。?22.50KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、第4章生物分子數據庫國際上已建立起許多公共生物分子數據庫，包括基因組圖譜數據庫、核酸序列數據庫、蛋白質序列數據庫、生物大分子結構數據庫等。這些數據庫由專門的機構建立和維護，他們負責收集、組織、管理和發(fā)布生物分子數據，并提供數據檢索和分析工具，向生物學研究人員提供大量有用的信息，最大限度地滿足他們研究和應用的需要，為他們的研究服務。4.1 引言建立生物分子數據庫的動因是由于生物分子數據的高速增長，而另一方面也是為了滿足分子生物學及相關領域研究人員迅速獲得最新實驗數據的要求。生物分子信息分析已經成為分子生物學研究必備的一種方法。如果說理論分析和算法模擬是生物信息學實驗方法的話，那么來自于具體實驗

2、的原始數據和來自于數據庫的數據則是生物信息學的實驗材料。數據庫及其相關的分析軟件是生物信息學研究和應用的重要基礎，也是分子生物學研究必備的工具。從數據庫使用的角度來看，公共生物分子數據庫應滿足以下5個方面的主要需求：（1）時間性對于新發(fā)表的數據，應該能夠在很短的時間內（幾個小時至幾天）通過國際互連網訪問。（2）注釋對于每一個基本數據（如序列），應附加一致的、深層次的輔助說明信息。（3）支撐數據在有些情況下，數據庫使用者需要得到原始的實驗數據，因而要提供訪問原始數據的方法。數據庫中應包含原始數據，或者能夠通過交叉索引訪問實驗數據庫中的原始數據。（4）數據質量必須保證數據庫中數據的

3、質量，數據庫管理機構應對數據來源進行檢查，并且關注數據庫用戶和專家提出的意見。（5）集成性三種基本生物分子數據庫（核酸序列、蛋白質序列、蛋白質結構）的集成對于用戶來說是非常重要的。對于數據庫中的每一個數據對象，必須與其它數據庫中的相關數據聯(lián)系起來，這樣可以從某些分子數據出發(fā)得到一系列的相關信息。例如，從某個核酸序列出發(fā)，通過交叉索引，可進一步得到對應的基因、蛋白質序列、蛋白質結構，甚至得到蛋白質功能的信息。分子生物學研究領域雖各有重點，但是研究對象之間存在著密切的聯(lián)系，比如DNA序列與蛋白質序列之間的聯(lián)系，基因調控信息與基因表達數據之間的聯(lián)系。因而實驗數據之間就必然存在著關聯(lián)，一個方面的相

4、關數據可能會影響或促進另一個方面的研究工作?，F有的各類數據庫已經成為分子生物學各方面交叉研究的橋梁。生物分子數據庫目前的發(fā)展狀況有幾個明顯的特征：（1）生物分子數據庫最突出的特征就是數據庫的更新速度不斷加快，數據量呈指數增長趨勢。例如，核酸序列數據的年增長幅度為100%。（2）數據庫使用頻率增長更快。人們越來越感到生物分子數據的重要性，也認識到它們的價值，因此各種數據庫的使用人員在不斷增加。據統(tǒng)計，數據庫的平均使用頻率每年增長幅度接近于500%。（3）數據庫的復雜程度不斷增加。數據庫中除了基本數據之外，還包括大量的注釋、鏈接、參考文獻等信息，例如，在SWISS-PROT數據庫中，注釋項

5、涉及蛋白質的功能、結構域和活性位點、二級結構、四級結構、翻譯后修飾、與其他蛋白質的相似性、與該蛋白質關聯(lián)的疾病、序列變化等。（4）數據庫網絡化。幾乎所有的數據庫都可以在國際互聯(lián)網上訪問，并且公共數據庫之間相互鏈接，使用戶可以迅速得到大量的相關生物分子信息。有的系統(tǒng)則將多個生物分子數據庫整合在一起，形成集成的數據庫系統(tǒng)。（5）面向應用。首先，各個數據庫服務器除了提供數據之外，還提供許多分析工具，如核酸數據庫提供的序列搜索、基因識別程序等，生物大分子結構數據庫提供的結構比較程序、結構模擬程序等。此外，還在原始數據庫的基礎上開發(fā)了許多面向特殊應用的二級數據庫，如蛋白質分類數據庫、蛋白質二級結構數

6、據庫等。（6）先進的軟硬件配置。從計算機硬件方面來看，許多數據庫服務器已從工作站升級到大型服務器，使數據庫能夠高效地管理數據和為用戶服務，并在專門的硬件（如并行機）上運行服務程序。而在系統(tǒng)軟件方面，使用大型數據庫管理系統(tǒng)，面向對象的數據庫管理方法正在逐步取代舊的模式，數據庫服務廣泛采用服務器客戶式結構。一般而言，生物分子數據庫可以分為一級數據庫和二級數據庫。一級數據庫中的數據直接來源于實驗獲得的原始數據，只經過簡單的歸類整理和注釋；二級數據庫是對原始生物分子數據進行整理、分類的結果，是在一級數據庫、實驗數據和理論分析的基礎上針對特定的應用目標而建立的。與蛋白質相關的二級數據庫比較多。4.2

7、核酸序列數據庫DNA測序技術迅速發(fā)展，使得人類已知的DNA核酸序列不斷增長。本節(jié)著重介紹與核酸相關的序列數據庫。4.2.1 GenBank / EMBL-Bank / DDBJ核酸序列是了解生物體結構、功能、發(fā)育和進化的出發(fā)點。國際上權威的核酸序列數據庫有三個，分別是美國生物技術信息中心（NCBI）的GenBank (/Web/Genbank/index.html)，歐洲分子生物學實驗室的EMBL-Bank（簡稱EMBL，http:/www.ebi.ac.uk/embl/index.html)，日本遺傳研究所的DDBJ (http:/www.

8、ddbj.nig.ac.jp/）。三個組織相互合作，各數據庫中的數據基本一致，僅在數據格式上有所差別，對于特定的查詢，三個數據庫的響應結果一樣。這三個數據庫是綜合性的DNA和RNA序列數據庫，其數據來源于眾多的研究機構和核酸測序小組，來源于科學文獻。用戶可以通過各種方式將核酸序列數據提交給這三個數據庫系統(tǒng)。數據庫中的每條記錄代表一個單獨、連續(xù)、附有注釋的DNA或RNA片段。由于DNA測序能力的極大提高，DNA序列增長的速度也非常快，圖4.1是GenBank數據庫中近幾年數據量的統(tǒng)計，這張圖反映出DNA序列數據迅速增長的趨勢。堿基數（單位：百萬）序列數（單位：百萬）圖4.1 核酸序列數據的增長趨

9、勢（取自/Genbank/genbankstats.html）下面著重介紹EMBL數據庫。EMBL是最早的DNA序列數據庫，于1982年建立。目前EMBL數據庫中的數據按照每年約60%的速率增長。截止2000年3月底，EMBL數據庫中的核酸序列總長度達70億個堿基，覆蓋2/3的人類基因組序列。對于每個序列，相關數據包括序列名稱、序列、位點、關鍵字、來源、生物種、參考文獻、注釋、序列中具有重要生物學意義的位點等。而到2004年2月，數據庫中的核酸序列數超過3000萬條，總的數據量近400億bp。隨著分子生物學技術的不斷發(fā)展，數據的增長速度將會不

10、斷地提高。EMBL的數據來源主要有兩條途徑。一是由序列發(fā)現者直接提交。幾乎所有的國際權威生物學刊物都要求作者在文章發(fā)表之前將所測定的序列提交給EMBL、GenBank或DDBJ，得到數據庫管理系統(tǒng)所簽發(fā)的登錄注冊號。二是從生物醫(yī)學期刊上收錄已經發(fā)表的序列資料。EMBL核酸數據庫由關系數據庫管理系統(tǒng)ORACLE來維護，在DEC alpha VMS系統(tǒng)下運行，數據庫中的每一個序列數據被賦予一個登錄號，它是一個永久性的唯一標識。EMBL的序列數據用外在的ASCII文本文件來表示（見圖4.2），而每一個文件分都為文件頭和文件體兩大部分。文件頭由一系列的信息描述行所組成，描述信息有序列的標識符、序列的功

11、能、種屬、參考文獻等。每一行的起始位置有一個標志，該標志由兩個字母組成，標志后面是相關的正文信息。“ID”為序列的標識符行，包括登錄號、類型、分子的長度；“AC”為登錄號行，如圖4.2所表示的序列登錄號為AB；“SV”為序列版本行，其數據的形式為“登錄號.版本號”，例如，AB.1表示序列的登錄號為AB，并且該序列數據是第一版本；“XX”為分隔符號行；“DT”為創(chuàng)建和更新日期行；“DE”為序列描述行；“KW”為關鍵字行；“OG”行描述非核序列的亞細胞定位，表明該序列來自于線粒體、葉綠體等；“OS”行描述生物體種屬；“OC”行描述生物體分類信息；“RN”、“RP”、“RA”、“RT”、“RL”、

12、“RC”分別描述參考文獻的編號、頁碼、作者、題目、參考文獻出處和注解；“RX”行是到其他文獻數據庫的鏈接，如“MEDLINE；”表示對應參考文獻在MEDLINE數據庫的標示號為；“DR”行是到其他生物信息數據庫的鏈接，如到基因組數據庫、蛋白質序列數據庫、蛋白質結構數據庫的鏈接，通過這些鏈接可以找到更多與本序列相關的數據；“FH” 為特征表開始符號；“FT”為特征表行。FT行具體的信息有：序列的長度，序列來自于何種生物體、何種組織，在染色體上的定位，蛋白質編碼序列片段在整個序列中的位置，外顯子和內含子的位置，與基因對應的蛋白質序列等。FT行主要有三項：（1）Feature Key，它是描述特征的

13、關鍵字，如“source”、“CDS”等；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述關于一個特征的輔助信息。文件頭實際上對應于一個序列的注釋（annotation）。文件體由序列本身所組成，由“SQ”標志的行開始。序列結束的標記是“/”?？蒲泄ぷ髡呖梢詫⑿掳l(fā)現的核酸序列數據提交給EMBL。但是，為保證每一條序列數據都有較高的質量，在提交數據之間必須利用EMBL 提供的工具進行檢查與核實。如果必要，數據庫管理人員可以直接與序列的提交者討論，澄清有關問題。早期提交數據的方式是編輯電子表格，用任何正文編輯工具編輯固定格式的提交表格。編輯任務比較復雜，也容易出

14、錯，特別是對于沒有經驗的用戶。另外，由于沒有實時的數據校驗，用戶當時不能得到錯誤信息的反饋。后來利用Authorin程序提交數據。Authorin是歐洲生物信息學研究所（EBI）提供的一個交互的序列輸入程序，用以幫助用戶填寫提交表格，該程序可在Macintosh和IBM兼容機上運行。Authorin與用戶交互，并進行數據有效性的檢查。它最后根據用戶的輸入形成一個特定格式的文本文件，作為結果提交給EMBL。目前主要利用基于WWW網絡環(huán)境的序列提交系統(tǒng)WEBIN，這是一種基于Internet網3W服務器的序列數據提交系統(tǒng)，它使用戶提交序列數據的過程更直接、容易、簡便。該系統(tǒng)具有序列檢查、更新和恢復

15、等功能。對于用戶端的要求是安裝3W瀏覽器。這個系統(tǒng)具有很大的優(yōu)點。首先，與單機輸入程序相比，用戶不必每次從EBI取回高版本的程序，用戶總是使用服務器上最新版本的序列輸入程序。第二，如果用戶機器上已經安裝了標準的3W客戶端程序，則用戶不必再花時間、精力和磁盤空間去安裝單機輸入程序。第三，由于直接和數據庫所在的服務器相連，用戶可以直接使用數據庫資源，如查看數據庫中已有的序列，查看期刊、作者等信息，以避免重復工作。ID AB standard; mRNA; HUM; 937 BP.XXAC AB;XXSV AB.1XXDT 07-OCT-1997 (Rel. 52, Created)DT 07-OC

16、T-1997 (Rel. 52, Last updated, Version 1)XXDE Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complete cds.XXKW phosphatidic acid phosphatase 2a.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae

17、; Homo.XXRN 1RP 1-937RA Kai M.;RT ;RL Submitted (05-FEB-1997) to the EMBL/GenBank/DDBJ databases.RL Masahiro Kai, Sapporo Medical University, Department of Biochemistry;RL South-1, West-17, Chuo-ku, Sapporo 060, Japan (E-mail:kaisapmed.ac.jp,RL Tel:011-611-2111)XXRN 2RX MEDLINE; .RX PUBMED; .RA Kai

18、M., Wada I., Imai S., Sakane F., Kanoh H.;RT Cloning and characterization of two human isozymes of Mg2+ independentRT phosphatidic acid phosphatases;RL J. Biol. Chem. 272(39):24572-24578(1997).XXDR GDB; GDB:.DR GOA; O14494.DR TrEMBL; O14494; O14494.XXFH Key Location/QualifiersFHFT source 1.937FT /db

19、_xref=taxon:9606FT /mol_type=mRNAFT /organism=Homo sapiensFT /cell_line=HepG2FT CDS 48.902FT /codon_start=1FT /db_xref=GOA:O14494FT /db_xref=TrEMBL:O14494FT /note=similar to DDBJ Accession Number D84376 : mouseFT PAP-2FT /transl_table=1FT /product=phosphatidic acid phosphatase 2aFT /protein_id=BAA22

20、593.1FT /translation=MFDKTRLPYVALDVLCVLLAGLPFAILTSRHTPFQRGVFCNDESIFT KYPYKEDTIPYALLGGIIIPFSIIVIILGETLSVYCNLLHSNSFIRNNYIATIYKAIGTFT FLFGAAASQSLTDIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEGFT RLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYKFT HHWSDVLTGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTT

21、LHETPTTGNHYPSNFT HQPXXSQ Sequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other; accgcagctc agtccatcgc ccttgccggg cagcccgggc agagaccatg ttcgacaaga 60 cgcggctgcc gtacgtggcc ctcgatgtgc tctgcgtgtt gctggctgga ttgccttttg 120 caattcttac ttcaaggcat acccccttcc aacgaggagt attctgtaat gatgagtcca 180 tcaagtaccc t

22、tacaaagaa gacaccatac cttatgcgtt attaggtgga ataatcattc 240 cattcagtat tatcgttatt attcttggag aaaccctgtc tgtttactgt aaccttttgc 300 actcaaattc ctttatcagg aataactaca tagccactat ttacaaagcc attggaacct 360 ttttatttgg tgcagctgct agtcagtccc tgactgacat tgccaagtat tcaataggca 420 gactgcggcc tcacttcttg gatgtttgtg

23、 atccagattg gtcaaaaatc aactgcagcg 480 atggttacat tgaatactac atatgtcgag ggaatgcaga aagagttaag gaaggcaggt 540 tgtccttcta ttcaggccac tcttcgtttt ccatgtactg catgctgttt gtggcacttt 600 atcttcaagc caggatgaag ggagactggg caagactctt acgccccaca ctgcaatttg 660 gtcttgttgc cgtatccatt tatgtgggcc tttctcgagt ttctgatt

24、at aaacaccact 720 ggagcgatgt gttgactgga ctcattcagg gagctctggt tgcaatatta gttgctgtat 780 atgtatcgga tttcttcaaa gaaagaactt cttttaaaga aagaaaagag gaggactctc 840 atacaactct gcatgaaaca ccaacaactg ggaatcacta tccgagcaat caccagcctt 900 gaaaggcagc agggtgccca ggtgaagctg gcctgtt 937/圖4.2 EMBL核酸數據庫每個條目的文件格式早期用戶

25、主要通過發(fā)行的CD-ROM使用EMBL。EMBL數據庫隨時更新，但CD-ROM每隔三個月發(fā)布一個最新的版本。CD-ROM上包含了所有的數據，包括序列數據、相關的索引文件以及信息檢索程序。后來用戶可以通過ftp服務器訪問EMBL，下載相關的數據及各種程序。隨著Internet的不斷發(fā)展，現在用戶主要通過互聯(lián)網訪問EMBL，直接利用本地計算機上的3W瀏覽器查詢EMBL的有關數據，并將所需要的數據取回。查詢時，用戶根據自己的要求，按照服務程序的提示填寫查詢條件，并將查詢條件通過Internet發(fā)送給EMBL的服務器。服務程序根據用戶的查詢條件搜索數據庫，然后將滿足查詢條件的有關核酸序列數據傳送給用戶

26、。EMBL數據庫服務器提供序列查詢和序列搜索服務。最簡單的查詢就是通過序列的登錄號（如X58929）或序列名稱（如SCARGC）直接查詢。雖然這種方式需要用戶事先知道登錄項的標識，但這確實是從數據庫取得序列的最快方式。當然，也可以通過其它渠道查詢，如通過物種、序列功能等進行查詢。如果找到所查詢的序列，則服務器將查詢結果以HTML文件返回給用戶。如果數據庫中該序列有到MEDLINE的交叉索引，則系統(tǒng)同時返回與包含參考文獻摘要等信息的MEDLINE鏈接。如果該序列有到其它數據庫的交叉索引，也返回相應的鏈接。例如，登錄號為J00231的核酸序列具有這樣一個交叉索引行：DRSWISS-PROT：P0

27、1860；GC3_HUMAN表示該核酸序列有一個到數據庫SWISS-PROT的交叉索引，鏈接到其P01860文件。這時，用戶只要點擊返回的超文本鏈接，就可以進一步訪問SWISS-PROT數據庫中的相關數據。EMBL 服務器支持用戶使用程序FastA或BLAST 進行核酸序列搜索，它們根據給定的目標序列在數據庫中搜索其同源序列。目前EMBL主要通過SRS服務器提供核酸序列查詢服務，詳見4.7.2。GenBank是國際上最著名的核酸數據庫。GenBank數據庫140.0版（2004年2月）含有3000多萬條序列，總長度接近400億對堿基。其序列數據組織方式采用ASCII文本文件，主要存放核酸序列數

28、據，同時還有一些輔助文件，存放于序列相關的輔助信息，如作者名、基因名、關鍵字、參考文獻、其他數據庫鏈接等。4.2.2 基因組數據庫隨著核酸測序技術的迅速發(fā)展，人類已經得到一部分生物的全基因組數據，如人、小鼠、大鼠等。這些數據對于我們認識基因組信息組織的奧秘、了解生物體的生長發(fā)育的規(guī)律是非常重要的。國際上有專門的組織收集和管理這些數據。NCBI基因組數據庫Entrez Gonomes （/entrez/query.fcgi?db=Genome）所收集的基因組數據量非常大，至2004年，該數據庫包括1000多個病毒基因組、100多個微生物基因組以

29、及部分真核生物基因組。該數據庫還提供了一個基因組數據瀏覽工具Map Viewer，利用這個工具，用戶可以很方便地得到所需要的數據。例如，通過Map Viewer瀏覽人基因組的24條染色體和線粒體，下載基因組序列，查看染色體或線粒體上的基因。GDB(/）是一個比出現比較早的基因組數據庫。GDB于1990年建立于美國Johns Hopkins 大學，該數據庫中的內容主要是人類基因組計劃所得到的圖譜數據。建立GDB數據庫的目的是為科學家提供一部關于人類基因組的百科全書。GDB包含對下述三種對象的描述：（1）人類基因組區(qū)域，包括基因、克隆、PCR標記物、斷點、細胞遺傳

30、學標記、易碎位點、EST、綜合區(qū)域、contigs、重復等；（2）人類基因組圖譜，包含細胞遺傳學圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜，所有這些圖譜都可以被直觀地顯示出來；（3）人類基因組中的變化，包括基因突變和基因多態(tài)性，加上等位基因頻率數據。目前國際上有一些專門的模式生物基因組數據庫，這些數據庫側重于收集某種生物基因組的相關數據。如酵母基因組數據庫SGD（/）、小鼠基因組信息學數據庫MGI（/）、果蠅基因組數據庫FlyBase（http:/flybase.bio.

31、/）、線蟲基因組數據庫WormBase（/）等。Ensembl (/）是一個綜合基因組數據庫，它是由EMBL-EBI和Sanger研究所共同開發(fā)的一個系統(tǒng)。Ensembl產生并維護關于各種后生動物基因組的自動注釋，如人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段，并將序列片段組裝成單個長序列，進而分析這些經過組裝的DNA序列，搜索其中的基因，發(fā)現生物學家或醫(yī)學工作者感興趣的特征。Ensembl包括所有公開的基因組DNA序列，通過注釋形成的

32、關于序列的特征?；蚓褪且环N特征，基因或者是通過實驗發(fā)現的，或者是通過Ensembl的程序預測的。Ensembl所用的基因預測程序為GenScan。其他的特征包括單核苷酸多態(tài)性（SNP）、重復序列與其它序列高度相似（或同源）的序列。此外，Ensembl 數據庫還提供疾病、細胞等方面的信息，并且提供數據搜索、數據下載、統(tǒng)計分析等服務，詳見圖4.3。Ensembl提供多種查詢方式，如用BLAST進行相似序列的搜索，通過序列號進行查詢，通過基因名稱查詢，以及通過遺傳疾病查詢。另一種更直觀的方式是顯示各染色體，用戶可以在染色體水平上選擇感興趣的位點，然后逐層放大，從而瀏覽整個基因組，分析DNA序列，分

33、析基因。圖4.3 Ensembl 數據庫結構圖4.2.3 表達序列標記數據庫dbESTEST（Expressed Sequence Tags）方法已被證明是識別轉錄序列的最有效方法。在1990以前，關于人類基因序列的數據主要來自于對單個基因的研究，EST數據的出現是生物信息學發(fā)展歷史上的一塊里程碑。EST序列大約覆蓋了人類基因的90%。EST序列中含有大量的基因信息，利用這些信息可以發(fā)現新的基因，闡明基因的功能。dbEST (/dbEST/）是GenBank的一個部分，該數據庫包括不同生物的EST序列數據及其它相關信息，主要是從大量不同組織和

34、器官得到的短mRNA片段。截止2004年4月，該數據庫含有2000萬個登錄項，其中人的EST序列超過500萬條，小鼠的EST序列400萬條，大鼠的EST序列也超過50萬條。通過WEB頁面或者通過email可以查詢有關EST的數據和相關報道，也可以通過FTP下載dbEST數據庫。EST數據庫的主要作用是通過搜索比較，給實驗新得到的一條cDNA序列或基因組序列賦予公認的功能。通過對EST數據庫的逆向分析，能識別與疾病相聯(lián)系的基因。4.2.4 序列標記位點數據庫dbSTSSTS（Sequence Tagged Sites）是序列標記位點。dbSTS（http:/www.ncbi.nlm.nih.go

35、v/dbSTS/）是NCBI的一個數據源，也是GenBank的一個部分，包含基因組短標記序列（STS）的組成和定位信息?？梢酝ㄟ^BLAST搜索STS序列，或者直接通過FTP 下載序列。4.2.5 面向基因聚類數據庫UniGeneUniGene( /UniGene/)數據庫將GenBank中的序列進行自動分類，形成面向基因群的非冗余集合。每個UniGene群包含代表一個唯一基因的多個序列，附有該基因相關的信息，如基因表達的組織類型、定位圖譜。除了基因的序列之外，還包括大量的EST序列。UniGene既可以作為發(fā)現新基因的數據源，也可以作為生物學

36、研究人員進行大規(guī)模表達分析的輔助工具。需要指出的是，自動分類的過程還有待于進一步發(fā)展和完善。目前，UniGene中包括人類、大鼠、小鼠、牛等生物的相關數據，因為這些生物有大量的EST數據。4.3 蛋白質序列數據庫我們可以根據基因組序列預測新基因，預測編碼區(qū)域，并推測其產物（即蛋白質）的序列。因此，隨著基因組序列的不斷增長，蛋白質序列也在不斷增加。本節(jié)著重介紹與蛋白質序列相關的序列數據庫。4.3.1 PIR歷史上，蛋白質數據庫的出現先于核酸數據庫。在1960年左右，Dayhoff和其同事們搜集了當時所有已知的氨基酸序列，編著了蛋白質序列與結構圖冊。從這本圖冊中的數據，演化為后來的蛋白質信息資源數

37、據庫PIR（Protein Information Resource）。PIR(/pir/）是由美國生物醫(yī)學基金會NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是幫助研究者鑒別和解釋蛋白質序列信息，研究分子進化、功能基因組，進行生物信息學分析。它是一個全面的、經過注釋的、非冗余的蛋白質序列數據庫。所有序列數據都經過整理，超過99%的序列已按蛋白質家族分類，一半以上還按蛋白質超家族進行了分類。PIR提供一個蛋白質序列數據庫、相關數據庫和輔助工具的集成系統(tǒng)，用戶可以迅速查

38、找、比較蛋白質序列，得到與蛋白質相關的眾多信息。目前，PIR已經成為一個集成的生物信息數據源，支持基因組研究和蛋白質組研究。至2004年，PIR 有近30萬個蛋白質的登錄數據項，包括來自不同生物體的蛋白質序列。除了蛋白質序列數據之外，PIR還包含以下信息：（1）蛋白質名稱、蛋白質的分類、蛋白質的來源；（2）關于原始數據的參考文獻；（3）蛋白質功能和蛋白質的一般特征，包括基因表達、翻譯后處理、活化等；（4）序列中相關的位點、功能區(qū)域。對于數據庫中的每一個登錄項，有與其它數據庫的交叉索引，包括到GenBank、EMBL、DDBJ、GDB、MELINE等數據庫的索引。PIR中一個具體的登錄項

39、如圖4.4所示。PIR提供三種類型的檢索服務。一是基于文本的交互式查詢，用戶通過關鍵字進行數據查詢。二是標準的序列相似性搜索，包括BLAST、FastA等。三是結合序列相似性、注釋信息和蛋白質家族信息的高級搜索，包括按注釋分類的相似性搜索、結構域搜索等。目前，PIR包括三個子數據庫，分別是蛋白質序列數據庫PIR-PSD、蛋白質分類數據庫iProClass以及非冗余的蛋白質參考資料數據庫PIR-NREF。4.3.2 SWISS-PROTSWISS-PROT (http:/www.ebi.ac.uk/swissprot/）是由Geneva大學和歐洲生物信息學研究所（EBI）于1986年聯(lián)合建立的，

40、它是目前國際上權威的蛋白質序列數據庫。SWISS-PROT 中的蛋白質序列是經過注釋的。SWISS-PROT中的數據來源于不同源地：（1）從核酸數據庫經過翻譯推導而來；（2）從蛋白質數據庫PIR挑選出合適的數據；（3）從科學文獻中摘錄；（4）研究人員直接提交的蛋白質序列數據。2004年3月的SWISS-PROT 43.0 版本有序列登錄項，包含摘自篇參考文獻的個氨基酸。與其它蛋白質序列數據庫相比較，SWISS-PROT有三個明顯的特點：（1）注釋ENTRY G00016 #type fragmentTITLE FGF-receptor - common marmoset (fragment)

41、ORGANISM #formal_name Callithrix jacchus #common_name common marmosetDATE 13-Mar-1997 #sequence_revision 13-Mar-1997 #text_change 18-Jul-1997ACCESSIONS G00016REFERENCE H00018 #authors Einspanier, R. #submission submitted to the EMBL Data Library, December 1995 #accession G00016 #status preliminary;

42、translated from GB/EMBL/DDBJ #molecule_type mRNA #residues 1-157 #label EIN #cross-references EMBL:Z68149; NID:gCLASSIFICATION #superfamily basic fibroblast growth factor receptor 1; immunoglobulin homology; protein kinase homologyFEATURES 1-157 #domain protein kinase homology (fragment) #label KINS

43、UMMARY #length 157SEQUENCE 5 10 15 20 25 30 1/E M E V M K M I G K H K N I I N L L G A C T Q D G P L Y V I 31 V E Y A S K G N L R E Y L R A R R P P G M E Y S Y D I N R V 61 P E E Q M T F K D L V S C T Y Q L A R A M E Y L A S Q K C I 91 H R D L A A R N V L V T E N N V M K I A D F G L A R D I N N 121 I

44、 D Y Y K K T T N G R L P V K W M A P E A L F D R V Y T H Q 151 S D V W S F G/Associated Alignments:DA0934 protein kinase homologyDA1564 immunoglobulin homology - C2 typeDA1565 immunoglobulin homology - V-type, Ig V regionsFA1349 basic fibroblast growth factor receptor 1 - 555.0 1.0M06341 basic fibro

45、blast growth factor receptor 1 - 524.0 1.0Related Links (Superfamily classification and Alignment):Protein Classification for Entry=G00016 at MIPS, Germany.ProClass for Entry=G00016 at Univ. of Texas, USA.圖4.4 PIR文件實例在SWISS-PROT中，數據分為核心數據和注釋兩大類。對于數據庫中的每一個序列登錄項，核心數據包括：序列數據、參考文獻、分類信息（蛋白質生物來源的描述）等，而注釋包

46、括：蛋白質的功能描述；翻譯后修飾；域和功能位點，如鈣結合區(qū)域、ATP結合位點等；蛋白質的二級結構；蛋白質的四級結構，如同構二聚體、異構三聚體等；與其它蛋白質的相似性；由于缺乏該蛋白質而引起的疾??；序列的矛盾、變化等。（2）最小冗余對于給定的蛋白質，許多數據庫根據不同的文獻報道設置分立的登錄項，而在SWISS-PROT中，盡量將相關的數據歸并，降低數據庫的冗余程度。如果不同來源的原始數據有矛盾，則在相應序列特征表中加以注釋。（3）與其它數據庫的連接SWISS-PROT目前已經建立了與其它30多個相關數據庫的交叉索引，即對于每一個SWISS-PROT的登錄項，有許多指向其它數據庫相關

47、數據的指針，這便于用戶迅速得到相關的信息。例如，根據到蛋白質結構數據庫的索引，用戶不僅可以得到某個蛋白質的序列，還可以進一步得到其結構?，F有的交叉索引有：到EMBL核酸序列數據庫的索引，到PROSITE模式數據庫的索引，到生物大分子結構數據庫PDB的索引等。與前面介紹的核酸序列數據庫EMBL類似，每一個SWISS-PROT的條目用外在的ASCII文件表示，兩者主要差別在于特征表的不同。該數據庫用UNIX系統(tǒng)維護，今后將可能移植到關系數據庫管理系統(tǒng)的環(huán)境下。用戶可以通過網絡將蛋白質序列數據提交給SWISS-PROT，或者對蛋白質數據進行修改。SWISS-PROT提供序列序列查詢及相似蛋白質序列搜

48、索工具4.3.3 TrEMBL大多數蛋白質序列不是直接由實驗得到，而是通過DNA序列映射而得到的。TrEMBL (http:/www.ebi.ac.uk/trembl/index.html)是一個計算機注釋的蛋白質數據庫，作為SWISS-PROT數據庫的補充。該數據庫主要包含從EMBL/ Genbank/DDBJ核酸數據庫中根據編碼序列(CDS)翻譯而得到的蛋白質序列，并且，這些序列尚未集成到SWISS-PROT數據庫中。TrEMBL有兩個部分，分別是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。SP-TrEMBL包含最

49、終將要集成到SWISS-PROT的數據，所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號。這部分數據可以看成是SWISS-PROT數據庫的預備隊。REM-TrEMBL包括所有不準備放入SWISS-PROT的數據，因此這部分數據都沒有登錄號。如人工合成的蛋白質序列、申請專利的序列、偽基因對應的蛋白質序列等。TrEMBL（16.0版，2001年3月)根據EMBL的核酸數據庫（65.0版）建立，共有條序列，包括個氨基酸。為了減少冗余，若根據核酸編碼序列翻譯的蛋白質序列已經出現在SWISS-PROT，則將對應的序列刪除。TrEMBL數據庫的26.0版（2004年3月）擁有條蛋白質序

50、列，總氨基酸長度達到。目前，歐洲生物信息學研究所EBI 將上述3個蛋白質數據庫（即PIR 、SWISS-PROT和TrEMBL）統(tǒng)一起來，建立了一個蛋白質數據倉庫UniProt（Universal Protein Resource， http:/www.ebi.ac.uk/uniprot/index.html）。 UniProt包含3個部分：（1）UniProt Knowledgebase（UniProt），這是蛋白質序列、功能、分類、交叉引用等信息存取中心；（2）UniProt Non-redundant Reference（UniRef）數據庫，該數據庫將密切相關的蛋白質序列組合到一條記錄

51、中，以便提高搜索速度；目前，根據序列相似程度形成3個子庫，即UniRef100、UniRef90和UniRef50；（3）UniProt Archive（UniParc），是一個資源庫，記錄所有蛋白質序列的歷史。用戶可以通過文本查詢數據庫，可以利用BLAST程序搜索數據庫，也可以直接通過FTP 下載數據。 4.4 生物大分子結構數據庫在生物學研究中，分子的結構是最重要的數據，它提供很多信息，包括生物分子的功能、作用機制、進化歷史等。目前，國際上最主要的生物大分子結構數據庫是PDB。4.4.1 PDB目前，國際上著名的生物大分子結構數據庫是美國Brookhaven實驗室的大分子結構數據庫PDB(

52、Protein Data Bank, /pdb/）。PDB中含有通過實驗（X射線晶體衍射，核磁共振NMR）測定的生物大分子的三維結構，其中主要是蛋白質的三維結構，還包括核酸、糖類、蛋白質與核酸復合物的三維結構。截止2004年5月，PDB數據庫已含有約25000個結構，其中90%是蛋白質的結構。對于每一個結構，包含名稱、參考文獻、序列、一級結構、二級結構和原子坐標等信息。PDB中的每條記錄有兩種序列信息，一種是顯式序列信息（explicit sequence），一種是隱式序列信息(implicit sequence)。在PDB文件中，以關鍵字SEQRES作為顯式序列標記，以該關鍵字打頭的每一行都是關于序列的信息。

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物分子信息數據庫

文檔簡介

溫馨提示

最新文檔

評論

生物分子信息數據庫

文檔簡介

溫馨提示

最新文檔

評論

相關文檔