版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué)數(shù)據(jù)庫 核酸序列數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 基因組數(shù)據(jù)庫 生物信息學(xué)數(shù)據(jù)庫的分類,1,生物信息學(xué)數(shù)據(jù)庫 歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL http:/www.embl-heidelberg.de 美國生物技術(shù)信息中心的GenBank /Genbank/ 日本國立遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html 核酸序列數(shù)據(jù)庫,2,GenBank數(shù)據(jù)庫結(jié)構(gòu),作用:了解序列數(shù)據(jù)庫的格式,有助于更好地提高數(shù)據(jù)庫檢索的效率和準(zhǔn)確性。 DDBJ數(shù)據(jù)庫的內(nèi)容和格式與GenBan
2、k相同,此處不作詳細(xì)介紹。 分別介紹EMBL和GenBank的數(shù)據(jù)庫結(jié)構(gòu),3,GenBank數(shù)據(jù)庫數(shù)據(jù)注釋 (/genbank/ ),GenBank庫包含所有已知的核酸序列和蛋白質(zhì)序列, 以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。 NCBI可提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)。 數(shù)據(jù)庫 序列文件:注釋內(nèi)容文章 索引文件:檢索目錄文摘,4,GenBank數(shù)據(jù)庫結(jié)構(gòu),完整的 GenBank數(shù)據(jù)庫包括序列文件,索引文件以及其它有關(guān)文件。 索引文件是根據(jù)數(shù)據(jù)庫中作者、參考文獻(xiàn)等建立的,用于數(shù)據(jù)庫查詢。 GenPept是由GenBank中的核酸序列翻譯
3、而得到的蛋白質(zhì)序列數(shù)據(jù)庫 數(shù)據(jù)格式為FastA。,5,GenBank數(shù)據(jù)庫結(jié)構(gòu),GenBank中最常用的是序列文件。 序列文件的基本單位:是序列條目,包括核苷酸堿基排列順序和注釋兩部分。 生物信息資源中心通過計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。 注釋條目:文章的格式,(/genbank/,6,Genbank,7,Genbank 查找頁面,8,D31716,描述部分,9,CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of whic
4、h can be determined by comparative analysis. Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different functions.,CD s編碼序列,含終止密碼子 polyA_signal 多聚A信號(hào),10,D31716,特性表,序列本身,關(guān)鍵字,CDs are recurring units in polype
5、ptide chains,11,D31716,序列本身,12,13,序列結(jié)束,4859 bp,14,D31716,15,GenBank數(shù)據(jù)記錄,16,GenBank數(shù)據(jù)記錄,17,GenBank數(shù)據(jù)庫結(jié)構(gòu),GenBank序列文件由單個(gè)的序列條目組成。 序列條目由字段組成,每個(gè)字段由關(guān)鍵字起始,后面為該字段的具體說明。 字段分若干次子字段,以次關(guān)鍵字或特性表說明符開始。 每個(gè)序列條目以雙斜杠“/”作結(jié)束標(biāo)記,18,GenBank數(shù)據(jù)庫結(jié)構(gòu),序列條目的格式非常重要,關(guān)鍵字從第一列開始,次關(guān)鍵字從第三列開始,特性表說明符從第五列開始。 每個(gè)字段可占一行,也可以占若干行。 若一行中寫不下時(shí),繼續(xù)行以空
6、格開始,19,GenBank數(shù)據(jù)庫,物種:GenBank 庫里的數(shù)據(jù)按來源于大約100,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列) 記錄:每條GenBank數(shù)據(jù)記錄包含對(duì)序列的簡要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,及序列本身,20,GenBank數(shù)據(jù)庫,序列特征表:包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等 分類:所有數(shù)據(jù)記錄被劃分為如細(xì)菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被分成若干文件,21,注釋內(nèi)容,序列條目關(guān)鍵字: LO
7、CUS (代碼), DEFINITION (說明), ACCESSION(編號(hào)), NID符(核酸標(biāo)識(shí)), KEYWORDS (關(guān)鍵詞), SOURCE (數(shù)據(jù)來源), REFERENCE (文獻(xiàn)), FEATURES (特性表), BASE COUNT (堿基組成) ORIGIN (堿基排列順序)。 新版的核酸序列數(shù)據(jù)庫將引入新的關(guān)鍵詞SV (序列版本號(hào)),用“編號(hào).版本號(hào)”表示,并取代關(guān)鍵詞NID,22,LOCUS,LOCUS (代碼):是該序列條目的標(biāo)記,或者說標(biāo)識(shí)符, 蘊(yùn)涵這個(gè)序列的功能:如HUMCYCLOX表示人的環(huán)氧化酶。 序列長度 類型 種屬來源 錄入日期等 說明字段是有關(guān)這一序
8、列的簡單描述,23,ACCESSION,ACCESSION (編號(hào)):具有唯一性和永久性,在文獻(xiàn)中引用這個(gè)序列時(shí),應(yīng)該以此編號(hào)為準(zhǔn)。,24,KEYWORDS,KEYWORDS (關(guān)鍵詞)字段:由該序列的提交者提供,包括 該序列的基因產(chǎn)物 其它相關(guān)信息,25,SOURCE,SOURCE (數(shù)據(jù)來源)字段:說明該序列是從什么生物體、什么組織得到的 次關(guān)鍵字ORGANISM (種屬):指出該生物體的分類學(xué)地位,26,REFERENCE,REFERENCE(文獻(xiàn))字段:說明該序列中的相關(guān)文獻(xiàn),包括 AUTHORS (作者), TITLE (題目)及 JOURNAL(雜志名)等, 以次關(guān)鍵詞列出。 ME
9、DLINE的代碼:該代碼實(shí)際上是個(gè)超文本鏈接,點(diǎn)擊它可以直接調(diào)用上述文獻(xiàn)摘要。 一個(gè)序列可有多篇文獻(xiàn),以不同序號(hào)表示,并給出該序列中哪一部分與文獻(xiàn)有關(guān)。,27,FEATURES,FEATURES (特性表):具有特定的格式,用來詳細(xì)描述序列特性。 特性表中帶有/db-xref/標(biāo)志的字符可以連接到其它數(shù)據(jù)庫,如分類數(shù)據(jù)庫(taxon 9606), 以及蛋白質(zhì)序列數(shù)據(jù)庫(PID:g181254)。 序列中各部分的位置都在表中標(biāo)明,5非編碼區(qū),編碼區(qū),3非編碼區(qū),多聚腺苷酸重復(fù)區(qū)域等。 翻譯所得信號(hào)肽以及最終蛋白質(zhì)產(chǎn)物 堿基含量字段,給出序列中的堿組成,28,ORIGIN,ORIGIN行是序列的引
10、導(dǎo)行 下面便是堿基序列 以雙斜杠行“/”結(jié)束。,29,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式,FASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGC
11、AGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTC
12、AAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT (該序列沒有完全列出),30,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(1),FASTA格式:將一個(gè)DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或氨基酸字符串。 大于號(hào)()表示一個(gè)新文件的開始 結(jié)束用(/) FASTA格式并沒有什么特殊的要求。,31,FASTA格式序列的提交,32,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(1),FASTA格式特點(diǎn): 只存儲(chǔ)了最少量的信息 它將所存儲(chǔ)的信息轉(zhuǎn)化為簡單的字符串 人和計(jì)算機(jī)對(duì)其存儲(chǔ)的信息都具有極大的可
13、讀性 FASTA格式在許多分子生物學(xué)軟件包中得到廣泛應(yīng)用。,33,GenBank數(shù)據(jù)庫數(shù)據(jù)庫格式(2),GenBank純文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的數(shù)據(jù)庫,它們是怎樣交換數(shù)據(jù)的呢?,34,GBFF文件格式,GBFF是GenBank數(shù)據(jù)庫的基本信息單位, 是最為廣泛使用的生物信息學(xué)序列格式之一。,35,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial
14、 cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 502
15、8) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T
16、., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996)
17、Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1.5028 /organism=Saccharomyces cerevisiae /db_xref=taxon:4932 /chromosome=IX /map=9 CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id=AAA98665.1 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIAD
18、MRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2 CDS 687.3158 /gene=AXL2 /note=plasma membrane glycoprotein /codon_start=1 /function=required for axial budding pattern of S.cerevisiae /product=Axl2p /protein_id=AAA98666.1 /db_xref=GI:1293615 /translation=MTQLQISLLLTATISLLHLVV
19、ATPYEAYPIGKQYPPVARVNESF (有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEML BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct (有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttc
20、tc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc /,36,GBFF格式,按域(Field)可以劃分為三個(gè)部分 頭部包含整個(gè)記錄的信息(描述符); 第二部分包含了注釋這一記錄的特性; 第三部分是核苷酸序列本身。 所有序列數(shù)據(jù)庫記錄都在最后一行以“/”結(jié)尾。,37,GBFF格式頭部Locus行,所有的GBFF都起始于LOCUS行: -+-+-+-+-+- 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,3
21、8,GBFF格式頭部Locus行,1、LOCUS行: 第一項(xiàng)是LOCUS名稱: 最初這一名稱是用來表示本記錄描述的基因座,以方便檢索相似序列: 前三個(gè)字母代表特定物種的名稱 第四、第五個(gè)字母代表如基因產(chǎn)物等特定的類別名稱。 如HUMHBB(人-珠蛋白基因區(qū)域)。,39,GBFF格式頭部Locus行,LOCUS這種“十字符”命名方式已經(jīng)無法滿足基因在基因座中所包含的信息。 LOCUS名稱目前唯一的作用是它在數(shù)據(jù)庫中是獨(dú)一無二的,已不在具有任何實(shí)際意義。 僅使用檢索號(hào)碼(acession number)以滿足對(duì)LOCUS名稱的要求 1 10 20 30 40 50 60 LOCUS SCU4984
22、5 5028 bp DNA PLN 21-JUN-1999,40,GBFF格式頭部Locus行,第二項(xiàng)是序列長度。 GenBank對(duì)提交的序列長度沒有上限要求。 根據(jù)國際序列數(shù)據(jù)庫合作計(jì)劃的協(xié)議,為方便不同的軟件處理序列,規(guī)定單條數(shù)據(jù)庫記錄的長度不能超過350kb。 GenBank已經(jīng)很少接受長度低于50bp的序列。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,41,GBFF格式頭部Locus行,第三項(xiàng)表明序列的分子類型:其序列必須是一種單一的分子類型。 包括:基因組DNA、RNA、RNA前體、mRNA(cDNA
23、)、tRNA等。 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,42,GBFF格式頭部Locus行,第四項(xiàng)是GenBank分類碼:由三個(gè)字母組成, 分類碼將GenBank數(shù)據(jù)庫分為17個(gè)分支 1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,43,GenBank分類碼(GenBank Division),44,GBFF格式頭部Locus行,第五項(xiàng)是最后修訂日期。 某些時(shí)候,它也是數(shù)據(jù)第一次被公開的日期。 這項(xiàng)簡單的信息并無法對(duì)此做出判斷。
24、1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,45,GBFF格式頭部DEFINITION行,2、DEFINITION行: 主要對(duì)GenBank記錄中所含的生物學(xué)意義做出總結(jié)。 它的說明內(nèi)容包括來源物種、基因/蛋白質(zhì)名稱; -+-+-+-+-+- 1 10 20 30 40 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cd
25、s.,46,GBFF格式頭部DEFINITION行,如果序列是非編碼區(qū),則包含對(duì)序列功能的簡單描述;如果序列是一段編碼區(qū),則標(biāo)明該序列是部分序列(partial cds)還是全序列(complete cds)。 -+-+-+-+-+- 1 10 20 30 40 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.,47,GBFF格式頭部-ACCESSION行,3、檢索號(hào)(ACCESSION): 是
26、序列記錄的唯一指針。 檢索號(hào)通常由一個(gè)字母加5個(gè)數(shù)字(U12345)或者由兩個(gè)字母加6個(gè)數(shù)字(AF123456)組成。 -+-+-+-+-+- 1 10 20 30 40 50 60 ACCESSION U49845 Dear GenBank Submitter: Thank you for your direct submission of sequence data to GenBank. We have provided a GenBank accession number for your nucleotide sequence: bankit660463 AY795899 We st
27、rongly recommend that this GenBank accession number appears in any publication that reports or discusses these data, as it gives the community a unique label with which they may retrieve your data from our on-line servers.,48,GBFF格式頭部-ACCESSION行,檢索號(hào)在數(shù)據(jù)庫中是唯一而且不變的,即使數(shù)據(jù)的提交者改變數(shù)據(jù)的內(nèi)容。 在 ACCESSION行中可能出現(xiàn)多個(gè)檢
28、索號(hào),可能是因?yàn)閿?shù)據(jù)提交者提交了一條與原記錄相關(guān)的新記錄,或者新提交的記錄覆蓋了原有的舊記錄。 第一個(gè)檢索號(hào)為主檢索號(hào),而其余的統(tǒng)稱為二級(jí)檢索號(hào)。,49,GBFF格式頭部VERSION行,4、版本號(hào)行:它的格式是:檢索號(hào).版本號(hào)。 版本號(hào)于99年2月由三大數(shù)據(jù)庫采納使用。主要用于識(shí)別數(shù)據(jù)庫中一條單一的特定核苷酸序列。 在數(shù)據(jù)庫中,如果某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變,它的版本號(hào)都將增加,而它的檢索號(hào)保持不變 如由U12345.1變?yōu)閁12345.2。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:12936
29、13,50,GBFF格式頭部VERSION行,版本號(hào)系統(tǒng)與跟在其后的GI(GenInfo Identifier)號(hào)系統(tǒng)是平行運(yùn)行 當(dāng)一條序列改變后,它將被賦予一個(gè)新的GI號(hào),同時(shí)它的版本號(hào)將增加。 當(dāng)依據(jù)核酸序列的內(nèi)部序列進(jìn)行蛋白質(zhì)翻譯時(shí),蛋白質(zhì)的翻譯發(fā)生任何變換,核酸序列都將被賦予一個(gè)新的GI號(hào)。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 VERSION U49845.1 GI:1293613,51,GBFF格式頭部KEYWORDS行,5、關(guān)鍵詞行:是用來描述序列的。如果該行中沒有任何內(nèi)容,那么就只包含一個(gè)“.”。 由于沒有對(duì)照詞匯表,所以NCBI
30、GenBank拒絕接受關(guān)鍵詞,它只存在于舊的記錄中。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 KEYWORDS .,52,GBFF格式頭部 SOURCE行,6、序列來源行:沒有做特殊的規(guī)定,它通常包含序列來源生物的簡稱,有些時(shí)候也包含分子類型。 Organism:以NCBI的分類數(shù)據(jù)庫為依據(jù),指明物種的正式科學(xué)名稱。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae Eukaryota(真核); Fungi(
31、真菌); Ascomycota(子囊菌門); Hemiascomycetes(半子囊菌綱); Saccharomycetales; Saccharomycetaceae; Saccharomyces.,53,GBFF格式頭部REFERENCE行,7、參考文獻(xiàn)行:將與該數(shù)據(jù)有關(guān)的參考文獻(xiàn)均收錄在內(nèi),將最先發(fā)表的文獻(xiàn)列于第一位。 如果序列數(shù)據(jù)沒有被文獻(xiàn)報(bào)道,該行將顯示 “in press”或“unpublished” 如所引用文獻(xiàn)存在于MEDLINE數(shù)據(jù)庫中,將出現(xiàn)一個(gè)MEDLINE單一指針(unique identifier,UID)以便檢索。 -+-+-+-+-+-+-+- 1 10 20 3
32、0 40 50 60 70 79 REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709,54
33、,GBFF格式頭部REFERENCE行,如果序列是直接提交而未經(jīng)發(fā)表的,就將在標(biāo)題(TITLE)中注明“直接提交(Direct Submission)” 在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作單位。 -+-+-+-+-+-+-+- 1 10 20 30 40 50 60 70 79 REFERENCE 1 (bases 1 to 1939) AUTHORS Yi,CAO., Dairong,QIAO., Qinghua,HE. and Shunji,HE. TITLE Cloning and expression studies of a cDNA encoding
34、 UDP- glucose dehydrogenase from Dunaliella salina JOURNAL Unpublished,55,GBFF格式中部,特性表(FEATURES): 它描述基因和基因的產(chǎn)物,以及與序列相關(guān)的生物學(xué)特性。 特性表提供一個(gè)參考詞匯表以對(duì)合法的特性進(jìn)行注釋 這些特性包括該序列是否執(zhí)行一個(gè)生物學(xué)功能; 它是否與一個(gè)生物學(xué)功能的表達(dá)相關(guān); 它是否與其它分子相互作用; 它是否影響一條序列的復(fù)制; 它是否與其它序列的重組相關(guān); 它是否是一條已識(shí)別的重復(fù)序列; 它是否有二級(jí)或三級(jí)結(jié)構(gòu); 它是否存在變異或者它是否被修訂過。,56,GBFF格式中部,特性表格式:按表單
35、的方式設(shè)計(jì)的,包含三個(gè)部分: 第一,特性關(guān)鍵詞(Feature key); 第二,特性位置(Location); 第三,限定詞(Qualifiers)。 FEATURES Location/Qualifiers source 1.5028 /organism=“Saccharomyces cerevisiae”釀酒酵母 /mol_type=genomic DNA基因組DNA /db_xref=taxon:4932分類學(xué) /chromosome=IX染色體 /map=9,57,GBFF格式中部FEATURES,第一,特性關(guān)鍵詞(Feature key),是一個(gè)簡要說明功能組的關(guān)鍵詞,允許加入新的
36、或未定義的特性; 第二,特性位置(Location),指明在特性表中的什么地方找到相關(guān)特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需經(jīng)過怎樣的處理才能得到相應(yīng)的特性; 第三,限定詞(Qualifiers),相關(guān)特性的輔助信息,限定詞使用一組標(biāo)準(zhǔn)化的對(duì)照詞匯表以利于計(jì)算機(jī)從中提取信息。,58,GBFF格式中部FEATURES,例1 Key Location/Qualifiers CDS 23.400 /product=alcohol dehydrogenase /gene=adhI 特性表含義: 該編碼序列(CDS)起始于第23堿基,終止于
37、第400堿基 產(chǎn)物是乙醇脫氫酶 基因名稱是“adhI”。,59,GBFF格式中部FEATURES,例2 Key Location/Qualifiers CDS join(544.589,688.1032) /product=T-cell receptor beta-chain 特性表含義: 它表示記錄中所存儲(chǔ)的序列為部分編碼序列, 表達(dá)產(chǎn)物“T-細(xì)胞受體beta鏈”由序列內(nèi)兩個(gè)片段結(jié)合生成 指明兩個(gè)片段在序列中所處的位置。,60,GBFF格式中部特性表關(guān)鍵詞,1、特性表的關(guān)鍵詞:以樹型結(jié)構(gòu)生成 misc_feature 生物學(xué)特性無法用特性表關(guān)鍵詞描述的序列 misc_difference 序
38、列特性無法用特性表關(guān)鍵詞描述的序列 conflict 同一序列在不同的研究中在位點(diǎn)或區(qū)域上有差異 unsure 序列不能確定的區(qū)域 old_sequence 該序列對(duì)以前的版本做過修訂 variation 包含穩(wěn)定突變的序列 modified_base 修飾過的核苷酸 gene 已識(shí)別為基因或已命名的序列區(qū)域 misc_signal 無法用信號(hào)特性關(guān)鍵詞描述的信號(hào)序列 promoter 轉(zhuǎn)錄起始區(qū) CAAT_signal 真核啟動(dòng)子上游的CAAT盒,與RNA結(jié)合相關(guān) TATA_signal 真核啟動(dòng)子的TATA盒 -35_signal 原核啟動(dòng)子中的-35框 -10_signal 原核啟動(dòng)子P
39、ribow盒 GC_signal 真核啟動(dòng)子的GC盒 RBS 核糖體結(jié)合位點(diǎn) polyA_signal RNA轉(zhuǎn)錄本的剪切識(shí)別位點(diǎn) enhancer 增強(qiáng)子 attenuator 與轉(zhuǎn)錄終止有關(guān)的序列 terminator 轉(zhuǎn)錄終止序列 rep_origin 雙鏈DNA復(fù)制起始區(qū),61,GBFF格式中部特性表關(guān)鍵詞,misc_RNA 無法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物 prim_transcript 初始轉(zhuǎn)錄本 precursor_RNA 前體RNA mRNA 信使RNA 5clip 前體轉(zhuǎn)錄本中被剪切掉的5端序列 3clip 前體轉(zhuǎn)錄本中被剪切掉的3端序列 5UTR 5非翻譯區(qū) 3U
40、TR 3非翻譯區(qū) exon 外顯子 CDS 蛋白質(zhì)編碼序列 sig_peptide 編碼信號(hào)肽的序列 transit_peptide 轉(zhuǎn)運(yùn)蛋白編碼序列 mat_peptide 編碼成熟肽的序列 intron 內(nèi)含子 polyA_site RNA轉(zhuǎn)錄本的多聚腺苷酸化位點(diǎn) rRNA 核糖體RNA tRNA 轉(zhuǎn)運(yùn)RNA scRNA 小細(xì)胞質(zhì)RNA snRNA 小核RNA snoRNA 加工和修飾rRNA的小核RNA,62,GBFF格式中部特性表關(guān)鍵詞,immunoglobulin_related C_region 免疫相關(guān)蛋白上的穩(wěn)定區(qū) D_segment 碼免疫球蛋白重鏈的可變區(qū)基因之一 J_se
41、gment 編碼免疫球蛋白輕鏈和重鏈的可變區(qū)基因之一 N_region 插入重排免疫球蛋白片段間的核苷酸 S_region 免疫球蛋白重鏈的開關(guān)區(qū) V_region 免疫球蛋白輕鏈和重鏈的可變區(qū),和T細(xì)胞受體,和鏈;編碼可變的氨基末端部分;可由V_segment, D_segment, N_region和J_segment組成 V_segment 免疫球蛋白輕鏈和重鏈的可變區(qū)段,和T 細(xì)胞受體,和鏈;編碼大多數(shù)可變區(qū)(v_region) 和前導(dǎo)肽的最后幾個(gè)氨基酸 repeat_region 基因組中所包含的重復(fù)序列,63,GBFF格式中部特性表關(guān)鍵詞,repeat_unit 單個(gè)的重復(fù)元件 L
42、TR 長末端重復(fù)序列 Satellite 衛(wèi)星重復(fù)序列 misc_binding 無法描述的核酸序列結(jié)合位點(diǎn) primer_bind 復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點(diǎn) protein_bind 蛋白質(zhì)結(jié)合區(qū) STS 測序標(biāo)簽位點(diǎn) misc_recomb 無法用重組特性關(guān)鍵詞描述的重組事件 iDNA 通過重組所消除的DNA misc_structure 無法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級(jí)結(jié)構(gòu)或構(gòu)型 stem_loop 發(fā)夾結(jié)構(gòu) D-loop 線粒體中DNA中的取代環(huán),64,GBFF格式中部Location,2、特性位置(Location):用來描述在序列中的什么區(qū)域能夠找到相關(guān)的特性,位置特性可以包含C
43、omplement、Join、Order等三個(gè)操作符(Operator)。 467 指明序列中的單個(gè)堿基 340.565 指明包括起始和中止堿基在內(nèi)的一段連續(xù)序列 D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.,101,序列文件格式例子(GenBank),L
44、OCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEFINITION Rat mRNA for obese. ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA. ORGANISM Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarc
45、opterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (bases 1 to 539) AUTHORS Murakami,T. and Shima,K. TITLE Cloning of rat obese cDNA and its expression in obese rats JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) STANDARD full automati
46、c COMMENT Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495.,102,序列文件格式例子(GenBank),NCBI gi: 995614 FEATURES Location/Qualifiers source 1
47、.539 /organism=Rattus norvegicus /strain=OLETF, LETO and Zucker /dev_stage=differentiated /sequenced_mol=cDNA to mRNA /tissue_type=adipose CDS 30.533 /partial /note=NCBI gi: 995615 /codon_start=1 /product=obese /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND ISHTQSVSARQRVTGLDFIPGLHPILSLSKM
48、DQTLAVYQQILTSLPSQNVLQIAHDLE NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ LDLSPEC BASE COUNT 121 a 167 c 133 g 118 t ORIGIN 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 121 ccaaaaccct catcaagacc
49、attgtcacca ggatcaatga catttcacac acgcagtcgg 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 361 tggccttctc caagagctgc tccctgccgc agacccgtg
50、g cctgcagaag ccagagagcc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc /,103,序列文件格式例子(GCG),LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95 DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus n
51、orvegicus; Norway rat ORGANISM Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus REFERENCE 1 AUTHORS Murakami, T. /organism=Rattus norvegicus; /strain=OLETF, LETO and Zucker; /dev_stage=
52、differentiated; /sequenced_mol=cDNA to mRNA; /tissue_type=adipose BASE COUNT 121 A 167 C 133 G 118 T 0 OTHER ORIGIN ? RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 . 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA 241 GTTTGTCCAA GATGGACCAG A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 某著名企業(yè)人力資源咨詢項(xiàng)目建議書某著名企業(yè)0528
- 《GB-T 28062-2011柑桔黃龍病菌實(shí)時(shí)熒光PCR檢測方法》專題研究報(bào)告
- 《GBT 33604-2017 電力系統(tǒng)簡單服務(wù)接口規(guī)范》專題研究報(bào)告
- 《GBT 21683-2008木工機(jī)床 萬能磨刀機(jī) 術(shù)語》專題研究報(bào)告
- 《GBT 15076.8-2008鉭鈮化學(xué)分析方法 碳量和硫量的測定》專題研究報(bào)告深度
- 《GB 18447.4-2008拖拉機(jī) 安全要求 第4部分:皮帶傳動(dòng)輪式拖拉機(jī)》專題研究報(bào)告
- 道路基礎(chǔ)知識(shí)
- 2025-2026年湘教版九年級(jí)語文上冊期末題庫試題附答案
- 道路交通安全培訓(xùn)課件
- 2025-2026年蘇教版初二歷史上冊期末題庫完整參考答案
- 6.1.3化學(xué)反應(yīng)速率與反應(yīng)限度(第3課時(shí) 化學(xué)反應(yīng)的限度) 課件 高中化學(xué)新蘇教版必修第二冊(2022-2023學(xué)年)
- 2026屆北京市清華大學(xué)附中數(shù)學(xué)高二上期末調(diào)研模擬試題含解析
- 2026年馬年德育實(shí)踐作業(yè)(圖文版)
- 醫(yī)院實(shí)習(xí)生安全培訓(xùn)課課件
- 四川省成都市武侯區(qū)西川中學(xué)2024-2025學(xué)年八上期末數(shù)學(xué)試卷(解析版)
- 2026年《必背60題》抖音本地生活BD經(jīng)理高頻面試題包含詳細(xì)解答
- 土方回填工程質(zhì)量控制施工方案
- 2025年湖南城建職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 2026貴州大數(shù)據(jù)產(chǎn)業(yè)集團(tuán)有限公司第一次社會(huì)招聘考試題庫新版
- 珠海高新區(qū)2025年下半年公開招聘公辦中學(xué)事業(yè)編制教師備考題庫及答案詳解一套
- 2024人教版七年級(jí)數(shù)學(xué)上冊全冊教案
評(píng)論
0/150
提交評(píng)論