生物信息學(xué)之?dāng)?shù)據(jù)庫及在線分析工具_(dá)第1頁
生物信息學(xué)之?dāng)?shù)據(jù)庫及在線分析工具_(dá)第2頁
生物信息學(xué)之?dāng)?shù)據(jù)庫及在線分析工具_(dá)第3頁
生物信息學(xué)之?dāng)?shù)據(jù)庫及在線分析工具_(dá)第4頁
生物信息學(xué)之?dāng)?shù)據(jù)庫及在線分析工具_(dá)第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余58頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué) 數(shù)據(jù)庫及在線分析工具 SeeQZIFF,一、數(shù)據(jù)庫(Database),用于收集、整理、儲存、加工、發(fā)布和檢索數(shù)據(jù)的系統(tǒng)。,生物類的數(shù)據(jù)庫種類很多(序列、結(jié)構(gòu)、生物分子互作、其他),投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫中,數(shù)據(jù)庫記錄通常包括兩部分,原始數(shù)據(jù) 對這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋,一個(gè)數(shù)據(jù)庫通常鏈接了多個(gè)相關(guān)數(shù)據(jù)庫,核苷酸數(shù)據(jù)庫水稻抗病相關(guān)基因OsDR8 DQ176424,(一)數(shù)據(jù)庫工具,建立純文本數(shù)據(jù)庫,GenBank 數(shù)據(jù)庫、EMBL 核苷酸數(shù)據(jù)庫,數(shù)據(jù)庫工具,SQL(結(jié)構(gòu)化查詢語言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫語言 能夠快速靈活存儲記錄文件和

2、圖像 下載網(wǎng)址 ,Access,SQL,Oracle,AceDB 數(shù)據(jù)庫工具,AceDB:A C. elegans DataBase(線蟲數(shù)據(jù)庫) 被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具 數(shù)據(jù)形式豐富,新陳代謝途徑,(二)各種生物數(shù)據(jù)庫,1、核苷酸數(shù)據(jù)庫,DNA、mRNA、tRNA、rRNA序列 RNA序列以cDNA序列的形式收集 核苷酸序列直接來源于實(shí)驗(yàn)數(shù)據(jù) 大量氨基酸序列,主要是非實(shí)驗(yàn)來源數(shù)據(jù) coding sequence (CDS),EXON,INTRON,CDS (coding sequence),ORF (open reading frame),數(shù)據(jù)庫種類很多,三大核苷酸數(shù)據(jù)庫,G

3、enBank、EMBL核苷酸數(shù)據(jù)庫、DDBJ,(1)GenBank /,美國NCBI的數(shù)據(jù)庫,有部分蛋白質(zhì)序列 數(shù)據(jù)每天更新,每年發(fā)行六版release /genbank/gbrel.txt Release 172(2009.6.15),106,073,709 entries 105,277,306,080 bases,來源于260,000多個(gè)物種 大約12的序列來源于人(Homo sapiens),Growth of GenBank,Locus name(位點(diǎn)名) Accession number

4、(注冊號或登陸號) GI(GenInfo identifier) NID(Nucleotide ID),每個(gè)序列有一個(gè)flatfile 每條序列有三個(gè)專有的編號或標(biāo)識(identifier),LOCUS line,Sample record /Sitemap/samplerecord.html,The divisions of GenBank,The divisions of GenBank,(2)dbEST (Database of Expressed Sequence Tags) /db

5、EST/index.html,GenBank的二級數(shù)據(jù)庫 5 端或3 端的cDNA 序列(EST) 200-500 bp “Single-pass read” sequence GenBank 中60以上的序列是 EST,(3)UniGene 數(shù)據(jù)庫 /UniGene/,NCBI 的另一個(gè)核苷酸數(shù)據(jù)庫 來源于同一基因的非重復(fù) EST 組成基因序列群,人、大鼠、小鼠、斑馬魚、牛、蛙等 擬南芥、水稻、小麥、大麥、玉米等 共計(jì)100多個(gè)物種,UniGene主頁輸入關(guān)鍵詞檢索,(4)dbSTS (Database of Sequence Tagged

6、 Sites) /dbSTS/index.html,GenBank的二級數(shù)據(jù)庫 UniSTS 短序列(200-500 bp),僅在基因組中出現(xiàn)一次 已定位于染色體上 如何找到一個(gè)STS 檢索:GenBank主頁選擇UniSTS后輸入關(guān)鍵詞,檢索到的條目,每一條目詳細(xì)內(nèi)容,點(diǎn)擊“mv”查看染色體定位,(5)dbGSS (Database of Genome Survey Sequences) /dbGSS/index.html,GenBank的二級數(shù)據(jù)庫 基因組短序列 cosmid / BAC

7、 / YAC 外源插入片段的末端序列 Alu PCR 序列,(6)HTG (High-Throughput Genomic Sequences) /HTGS/,GenBank 的二級數(shù)據(jù)庫 尚未完成測序的重疊群( 2 kb)的序列 新序列的增加速度很快,Phase 0,Phase 1,Phase 2,Phase 3,逐步克隆法clone-by-clone reliable but slow, and the mapping step can be especially time-consuming,鳥槍法shotgun potentially

8、 very fast, but it can be extremely difficult to put together so many tiny pieces of sequence all at once.,水稻基因組全基因組大?。?30Mb;每個(gè)Reads 讀長450bp;故覆蓋每個(gè)水稻基因組所需反應(yīng):100萬;覆蓋水稻基因組8X,需要800萬反應(yīng); 每個(gè)反應(yīng)的測序成本為19元,800萬反應(yīng)總共需15200萬人民幣; 人力費(fèi)800萬人民幣。,中國水稻基因組計(jì)劃的經(jīng)費(fèi)預(yù)算,(7)基因組數(shù)據(jù)庫 /sites/entrez?db=genom

9、e,NCBI 的另一個(gè)數(shù)據(jù)庫 測序完成和正在測序物種基因組序列、遺傳圖、物理圖等 序列收集在GenBank 已經(jīng)完成測序的基因組(截止2009年2月) Genome ProjectStatistics,(8)dbSNP (Database of Single Nucleotide Polymorphisms) 單核苷酸多態(tài)性數(shù)據(jù)庫 /sites/entrez?db=snp,NCBI的數(shù)據(jù)庫,創(chuàng)建于1998.9 約每300 bp 有一個(gè)SNP 數(shù)據(jù)種類,SNP Insertion/deletion (Indel) Deletion/insert

10、ion/substitution (DIS),發(fā)現(xiàn)致病基因、進(jìn)化分析,dbSNP主頁輸入關(guān)鍵詞,檢索到的條目,每一條目詳細(xì)內(nèi)容,標(biāo)準(zhǔn)堿基多意代碼,(9)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Database,EBI (European Bioinformatics Institute) 管理 主要是歐洲國家產(chǎn)生的 DNA 和 RNA 序列 序列數(shù)據(jù)文檔格式與 GenBank 不同,數(shù)據(jù)庫主頁http:/www.ebi.ac.uk/embl輸入關(guān)鍵詞,檢索到的條目,每一條目詳細(xì)內(nèi)容,(10)DDBJ (D

11、NA Data Bank of Japan),主要是日本產(chǎn)生的 DNA 和 RNA 序列,數(shù)據(jù)庫主頁http:/www.ddbj.nig.ac.jp/Welcome-e.html輸入關(guān)鍵詞,檢索到的條目,每一條目詳細(xì)內(nèi)容,發(fā)表文章要提供 Accession number,(11)EPD (Eukaryotic Promoter Database) http:/www.epd.isb-sib.ch/,由Weizmann Institute of Science in Rehovot (Israel) 開創(chuàng) 4809條真核生物啟動(dòng)子序列(2009.2) 人類基因組中的啟動(dòng)子大約19萬個(gè) 同一個(gè)基因

12、具有多個(gè)啟動(dòng)子,2、蛋白質(zhì)數(shù)據(jù)庫,(1)SWISS-PROT,由 EBI 和瑞士創(chuàng)辦 有詳細(xì)注釋的序列,數(shù)據(jù)來源于實(shí)驗(yàn) 與44個(gè)數(shù)據(jù)庫相互參照(cross-reference),數(shù)據(jù)庫主頁http:/www.ebi.ac.uk/swissprot/點(diǎn)擊SRS,在查詢網(wǎng)頁輸入關(guān)鍵詞,檢索到的條目,(2)TrEMBL (Translation of EMBL),EBI 的數(shù)據(jù)庫 提交到 EMBL 核苷酸數(shù)據(jù)庫中所有CDS 的氨基酸序列,SWISS-PROT 和 TrEMBL數(shù)據(jù)庫合并 UniProt (Universal Protein Resource) http:/www.uniprot.or

13、g,檢索方法與檢索SWISS-PROT相同 查詢結(jié)果和數(shù)據(jù)格式,(3)PIR (Protein Information Resource) ,由National Biomedical Research Foundation 創(chuàng)辦 蛋白質(zhì)家族分類 蛋白質(zhì)整合信息,(4)PRF (Protein Research Foundation) http:/www.prf.or.jp/en/os.html,由日本的 Protein Research Foundation 創(chuàng)辦 已發(fā)表在雜志上的蛋白質(zhì)序列 修飾位點(diǎn)、SS鍵等 兩月更新一次,(6)Prosite

14、 /prosite,蛋白質(zhì)家族 結(jié)構(gòu)域,3、結(jié)構(gòu)數(shù)據(jù)庫,(1)PDB (Protein Data Bank) ,由 Brookhaven National Laboratories 創(chuàng)辦,蛋白質(zhì) 核酸 其它,57, 103 個(gè)結(jié)構(gòu)圖(2009.2),可通過 BLAST 系統(tǒng)檢索,X 射線衍射圖、 核磁共振(NMR) 光譜圖和電鏡圖(文字和三維結(jié)構(gòu)圖),(2)SWISS-3D IMAGE http:/www.expasy.ch/sw3d/,蛋白質(zhì)的平面和立體圖,來源于實(shí)驗(yàn)結(jié)果 理論模型,4、酶和代謝數(shù)據(jù)庫,(1)KEGG

15、 (Kyoto Encyclopedia of Genes and Genomes),各種代謝、遺傳等路徑圖 可檢索參于各種路徑的基因,KEGG主頁http:/www.genome.ad.jp/kegg/點(diǎn)擊“PATHWAY”,“PATHWAY”網(wǎng)頁點(diǎn)擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis),檢索Genetic Information Processing,KEGG主頁點(diǎn)擊“PATHWAY”,“PATHWAY”網(wǎng)頁點(diǎn)擊任何遺傳信息路徑,如 Protein export 路徑,可以查看參加這一路徑蛋白質(zhì)的信息,檢索Environmental

16、Information Processing,KEGG主頁點(diǎn)擊“PATHWAY”,“PATHWAY”網(wǎng)頁點(diǎn)擊任何Environmental Information Processing 路徑,如 MAPK signaling pathway 路徑,可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質(zhì)信息,檢索Cellular Processes,KEGG主頁點(diǎn)擊“PATHWAY”,“PATHWAY”網(wǎng)頁點(diǎn)擊任何Cellular Processes 路徑,如 Cell cycle 路徑,可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質(zhì)信息,(2)PKR (Protein Kina

17、se Resource) /pkr/Welcome.do,多種檢索內(nèi)容,已知蛋白激酶的序列比較 蛋白激酶分類 蛋白激酶的三維結(jié)構(gòu) 其它參考資料,5、物種分類數(shù)據(jù)庫,物種分類,界(Kingdom) 門(Phylum) 綱(Class) 目(Order) 科(Family) 屬(Genus) 種(Species),每一分類等級下可加設(shè)亞級(Sub-),如亞門、亞綱、亞科等。 每一分類等級上可加設(shè)總級(Super-),如總綱、總目、總科等。,動(dòng)物界(Animal) 脊索動(dòng)物門(Chordata) 脊椎動(dòng)物亞門(Vertebrata) 哺乳綱(

18、Mammalia) 嚙齒目(Rodentia) 鼠科(Muridae) 小家鼠屬(Mus) 小家鼠種(musculus),舉例:,Mouse:Mus musculus Human:Homo sapiens Arabidopsis:Arabidopsis thaliana,Taxonomy /Taxonomy/taxonomyhome.html,擬南芥系譜(lineage) 各個(gè)物種的系譜樹,在NCBI Entrez Taxonomy Homepage網(wǎng)頁點(diǎn)擊“tree”,在“tree”網(wǎng)頁點(diǎn)擊任一物種名,如“Eukaryota”,真核生物的系

19、譜(lineage),6、文獻(xiàn)數(shù)據(jù)庫,各種雜志、書刊上發(fā)表的文章 大多數(shù)有摘要,(1)PubMed /PubMed/,美國國家醫(yī)學(xué)圖書館的數(shù)據(jù)庫 醫(yī)學(xué) 分子生物學(xué) 基礎(chǔ)生物學(xué) 5300多種刊物,來源于70多個(gè)國家 刊物年限:1948年至今,(2)OMIM (Online Mendelian Inheritance in Man),NCBI 的數(shù)據(jù)庫 人類基因 遺傳疾病 每天更新數(shù)據(jù) 條目,/sites/entrez?db=OMIM,(3)Agricola http:/agricola.nal

20、./,美國農(nóng)部農(nóng)業(yè)圖書館的數(shù)據(jù)庫 農(nóng)業(yè)類刊物,7、向數(shù)據(jù)庫提交和修改核苷酸和蛋白質(zhì)序列,提交:Submission 修改:Update,數(shù)據(jù)庫中的數(shù)據(jù)由大家無償提供,共同享用,Growth of Sequence and 3D Structure Databases,Signed by 256 researchers,(1)向 GenBank提交或修改核苷酸序列,用 BankIt 功能提交序列,網(wǎng)上直接提交,簡單方便 提交后立刻得到臨時(shí)編號 一周內(nèi)得到 Accession number,用Update 功能修改 GenBank 中的序列和相關(guān)信息,修改一次,version 的編

21、號就進(jìn)一位,用 Sequin 方法提交序列,可下載的電子表格 自動(dòng)確定 CDS、ORF 和查找重復(fù)序列,(2)向 SWISS-PROT 提交或修改蛋白質(zhì)序列,網(wǎng)上直接操作 只接收用蛋白質(zhì)直接測序的序列 由核苷酸序列翻譯得到的蛋白質(zhì)序列 將進(jìn)入TrEMBL,(三)上機(jī)操作,熟悉各種數(shù)據(jù)庫 重點(diǎn)了解 GenBank 和 SWISS-PROT 的各種功能和適用范圍,Xa26 nucleic acid sequence (DQ426646,6000 bp): ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA ,Xa26 amino acid sequence (ABD84047,1103 aa): MALVRLPVWIFVAALLIASSSTVPCAS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論