生物信息學(xué)課件.ppt_第1頁
生物信息學(xué)課件.ppt_第2頁
生物信息學(xué)課件.ppt_第3頁
生物信息學(xué)課件.ppt_第4頁
生物信息學(xué)課件.ppt_第5頁
免費預(yù)覽已結(jié)束,剩余41頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué),生物信息數(shù)據(jù)庫,Bioinfo-databases,生物信息數(shù)據(jù)庫,生物信息數(shù)據(jù)庫檢索(Retrieval),生物信息數(shù)據(jù)庫概況,數(shù)據(jù)庫是存儲在某種介質(zhì)上的相關(guān)數(shù)據(jù)有組織的集合 數(shù)據(jù)庫包含的基本對象稱為條目(entry),其由一系列字段構(gòu)成,每一字段代表一類數(shù)據(jù) 數(shù)據(jù)庫的特征: 可檢索; 定時更新; 數(shù)據(jù)庫間可交叉鏈接和引用,生物信息數(shù)據(jù)庫概況,據(jù)2008年核酸研究(Nucleic acid research, molecular biology database collection)最新統(tǒng)計,全球共有1078個主要分子生物學(xué)數(shù)據(jù)庫,涵蓋了生物學(xué)研究的諸多領(lǐng)域,數(shù)據(jù)庫數(shù)量和種類激

2、增,有向?qū)iT化、專業(yè)化發(fā)展的趨勢,生物信息數(shù)據(jù)庫概況,核酸研究將生物信息數(shù)據(jù)庫主要劃分為14大類,http:/www.3.oup.co.uk/nar/database/c/,生物信息數(shù)據(jù)庫的類型,初級數(shù)據(jù)庫 收錄、存儲生物信息學(xué)的基本數(shù)據(jù)資源,如核酸(蛋白質(zhì))序列、蛋白質(zhì)空間結(jié)構(gòu)及基因組信息。 次級數(shù)據(jù)庫 在初級庫資源基礎(chǔ)上進(jìn)行整理和標(biāo)注,為特定專業(yè)領(lǐng)域服務(wù)的派生數(shù)據(jù)庫,如表達(dá)序列標(biāo)記、微列陣(基因芯片)、代謝和信號途徑、遺傳疾病數(shù)據(jù)庫、免疫數(shù)據(jù)庫等等。 系統(tǒng)生物學(xué)數(shù)據(jù)庫 發(fā)展方向:構(gòu)建包含完整生物信息的細(xì)胞、組織數(shù)據(jù)(模擬)系統(tǒng),在更高層次上分析和解釋生命的基本規(guī)律。,Primary dat

3、abase,Derivative database,Database for systems biology,初級數(shù)據(jù)庫,核酸序列數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫 基因組數(shù)據(jù)庫,核酸序列初級數(shù)據(jù)庫,以核苷酸順序及注釋信息為基本內(nèi)容的數(shù)據(jù)庫 世界三大核酸數(shù)據(jù)庫 GenBank in USA ( ) EMBL in Europe ( http:/www.ebi.ac.uk/embl ) DDBJ in Japan ( http:/www.ddbj.nig.ac.jp ) 1998年,GenBank, EMBL, DDBJ共

4、同成立國際核酸序列數(shù)據(jù)庫協(xié)會(INSDC, ),實現(xiàn)了全球范圍內(nèi)的核酸序列的同步更新和交換互享。,蛋白質(zhì)序列初級數(shù)據(jù)庫,以蛋白質(zhì)氨基酸順序及注釋信息為基本內(nèi)容的數(shù)據(jù)庫 世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (1) PIR-PSD (Protein information resource-protein sequence database) founded by NBRF of USA (美國國家醫(yī)學(xué)研究基金會) in 1984 ( / ) 1988年,日本國際蛋白質(zhì)信息庫(JIPID)和德國慕尼黑蛋白質(zhì)序列信息中心(

5、MIPS)加入PIR,合作成立了國際蛋白質(zhì)信息中心(PIR-International)。PIR為較全面和權(quán)威注釋的蛋白質(zhì)數(shù)據(jù)庫,具有非冗余、高質(zhì)量注釋和分類全面等特點。,蛋白質(zhì)序列初級數(shù)據(jù)庫,世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (2) SwissProt 1986年始創(chuàng)于瑞士日內(nèi)瓦大學(xué) ,現(xiàn)由瑞士生物信息學(xué)研究所(SIB)和歐洲生物信息學(xué)研究所(EBI)共同管理和維護(hù)。 ( http:/www.expasy.ch/sprot/ ) SwissProt數(shù)據(jù)庫的特點:所有序列條目經(jīng)過專家核實,可靠性與可信度高;注釋詳細(xì),包括蛋白質(zhì)的功能、序列及結(jié)構(gòu)域的結(jié)構(gòu)、翻譯后修飾及其位點、突變體等,蛋白質(zhì)序列初級數(shù)據(jù)

6、庫,世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (3) TrEMBL (translation of EMBL) 建立于1996年,是從EMBL中的cDNA序列翻譯得到的蛋白質(zhì)數(shù)據(jù)庫。相似的還有GenPept (GenBank)數(shù)據(jù)庫。 TrEMBL、GenPept數(shù)據(jù)庫的特點:序列條目來自核酸序列庫的翻譯,即時性強;但未經(jīng)專家的注釋、分析和核實,因而錯誤率和冗余度都較高。,蛋白質(zhì)序列初級數(shù)據(jù)庫,全球統(tǒng)一的蛋白質(zhì)序列與功能數(shù)據(jù)庫 UniProt (Universal Protein Resource, 通用蛋白質(zhì)資源) ( / ) 2002年,PIR、SIB、EBI合并

7、了分屬其下的PIR-PSD、Swiss-Prot和TrEMBL數(shù)據(jù)庫,形成了統(tǒng)一的蛋白質(zhì)數(shù)據(jù)庫UniProt 截止2008年8月,UniProt共收錄蛋白質(zhì)序列 6,462,751個,生物大分子結(jié)構(gòu)初級數(shù)據(jù)庫,以生物大分子各原子空間信息為基本內(nèi)容的數(shù)據(jù)庫 給定序列的蛋白質(zhì)如何折疊為穩(wěn)定、具一定生物功能的三維結(jié)構(gòu)? 信息來源:對蛋白質(zhì)晶體的X射線衍射、核磁共振及冷凍電鏡分析 主要數(shù)據(jù)庫:美國Brookhaven國家實驗室的PDB (Protein Data Bank, 1971年成立) 聯(lián)合MSD-EBI、PDBj,于2003年組建全球共享的worldwide PDB (wwPDB) ( htt

8、p:// ) 截止2008年8月,共收錄蛋白質(zhì)結(jié)構(gòu)52684個,Research Collaboratory for Structural Bioinformatics,/pdb,基因組數(shù)據(jù)庫,包含某一物種全基因組序列的專門數(shù)據(jù)庫 人類基因組數(shù)據(jù)庫 GDB Human genome database ( / ) 擬南芥基因組數(shù)據(jù)庫 TAIR arabidopsis genome database ( / ) 水稻基因組數(shù)據(jù)庫 RGP rice gen

9、ome database ( http:/rgp.dna.affrc.go.jp ) ,次級數(shù)據(jù)庫,通過對初級庫數(shù)據(jù)進(jìn)行分析整理歸納,對序列或結(jié)構(gòu)進(jìn)行功能標(biāo)注,形成的具有特殊生物學(xué)意義和專門用途的數(shù)據(jù)庫,也叫派生庫(derivative database ) 如: 1、核酸序列數(shù)據(jù)庫派生的GenBank的RefSeq、Unigene、EST、STS庫等; 2、蛋白質(zhì)序列、結(jié)構(gòu)數(shù)據(jù)庫派生庫,包括蛋白家族、結(jié)構(gòu)域和功能位點等信息,如ProSite、Pfam、SCOP等,現(xiàn)已整合為統(tǒng)一的InterPro數(shù)據(jù)庫( http:/www.ebi.ac.uk/interpro/ );,GenBank,Nat

10、ional Center for Biotechnology Information (NCBI) National Library of Medicine National Institutes of Health /,GenBank,/,全球著名的生物信息綜合數(shù)據(jù)庫 GenBank(1982年成立)包含所有已知的核苷酸及蛋白質(zhì)序列以及與之相關(guān)的生物學(xué)信息和參考文獻(xiàn),現(xiàn)由美國生物技術(shù)信息中心(NCBI,成立于1988年)管理維護(hù),是世界上的權(quán)威序列數(shù)據(jù)庫。 數(shù)據(jù)庫序列的來源為作者直接遞交或

11、間接查尋文獻(xiàn)所得,并與世界上其他公開發(fā)行的數(shù)據(jù)庫,如EMBL,DDBJ交換每日更新的數(shù)據(jù)。,GenBank,GenBank 核酸數(shù)據(jù)庫的增長(1982-2008),截止2008年2月,GenBank 共收錄核酸序列近8300萬條,約860億堿基對,來自26萬余種生物,GenBank,/ Home page,生物信息數(shù)據(jù)庫的存儲,信息的存儲指對一定范圍內(nèi)的信息進(jìn)行篩選、描述、加工,使之有序化,形成可方便調(diào)用的信息集合。 數(shù)據(jù)庫中的信息均以字符串文本形式存儲 存儲格式(storage format):除序列或結(jié)構(gòu)的基本信息外,還包括對相關(guān)信息的注

12、釋和分析。 格式類型: 序列信息格式:FASTA格式、GenBank格式、EMBL格式 結(jié)構(gòu)信息格式:PDB格式,核酸序列中的標(biāo)準(zhǔn)符號,*其中A C G T U N - 為常用符號,蛋白質(zhì)序列中的標(biāo)準(zhǔn)符號,FASTA 格式,標(biāo)題行:文件的第一行,以大于號“”開始,不換行。內(nèi)容可自定義,包括基本信息和簡單注釋; 序列行:文件第二行起至結(jié)束,中間不得有空格。 FASTA為最簡單的序列(核酸或蛋白質(zhì))格式,GenBank 格式,GenBank 格式注釋信息豐富全面,屬文本文件,包括4部分: 頭部:含名稱、定義、識別碼、物種來源等基本信息; 引文區(qū):含相關(guān)文獻(xiàn)信息。 序列特征表:含序列的編碼區(qū)、非編碼

13、區(qū)、功能域、修飾或突變位點、翻譯序列等眾多注釋信息 序列區(qū):序列本身,GenBank 格式,Locus 行信息: Locus name; Sequence length; Type of Molecule: DNA, mRNA, cDNA Taxonomy:PRI primate(靈長類) 、ROD rodent(嚙齒類)、 MAM - other mammalian (其它哺乳類)、VRT - other vertebrate(脊椎動物)、INV invertebrate sequences、PLN - plant, fungal, and algal; BCT - bacterial; V

14、RL - viral, PHG - bacteriophage, SYN - synthetic; UNA - unannotated; EST - expressed sequence tags Date: 上傳或最近修改時間,GenBank 格式,GenBank 格式,GenBank 格式,/,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,PDB 格式,PDB 格式文件為蛋白質(zhì)或核酸空間結(jié)構(gòu)數(shù)據(jù)文件,包含

15、: 頭區(qū):含名稱、分子類別、物種來源、文獻(xiàn)索引等基本信息; 主區(qū):含氨基酸及所有原子的順序、空間坐標(biāo)(X、Y、Z軸)、相互間連接鍵,所屬肽鏈編碼等復(fù)雜信息。 PDB 文件可讀性較差,需借助相關(guān)軟件(Rasmol、DeepView、VMD)轉(zhuǎn)換為三維圖象,以便分析研究。,生物信息數(shù)據(jù)庫的檢索,采用一定的方法與策略,從數(shù)據(jù)庫中查找所需信息 (Retrieval or search of bioinfo-database) 檢索的實質(zhì):將用戶的檢索標(biāo)識與信息存儲標(biāo)識進(jìn)行比對,當(dāng)兩者匹配時,該信息被輸出到結(jié)果中。匹配可以是完全匹配或部分匹配。 檢索的關(guān)鍵:如何從海量生物學(xué)數(shù)據(jù)中高效地淘汰無關(guān)信息,并全

16、面地獲取有價值的信息。,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,Entrez為基于萬維網(wǎng)的NCBI數(shù)據(jù)庫檢索系統(tǒng),運用布爾算符,可在NCBI所有數(shù)據(jù)庫中進(jìn)行文本搜索。,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,Entrez 應(yīng)用舉例,檢索主題:小鼠(mouse)轉(zhuǎn)錄因子(TF) -E2F mRNA的核酸序列 檢索過程:NCBI主頁All Databases在Search對話框輸入關(guān)鍵詞”E2F”,點”Go”輸出檢索結(jié)果。,Entrez 應(yīng)用舉例,輸出相關(guān)序列3784條,有待進(jìn)一步篩選:限制物種來源(小鼠 Mus musculus)、限制分子為mRNA (排

17、除未經(jīng)實驗驗證的預(yù)測序列)。,Entrez 應(yīng)用舉例,最后命中168條,從中選中NM_148952,以待詳細(xì)分析。,Entrez 應(yīng)用舉例,NM_148952: 小鼠E2F轉(zhuǎn)錄因子-4。,Entrez 應(yīng)用舉例,圖形序列顯示NM_148952。,Entrez 應(yīng)用舉例,E2F4 蛋白序列 NP_683754。,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,命題:E2F空間結(jié)構(gòu)及與DNA相互作用分析 檢索:從RCSB-PDB數(shù)據(jù)庫中獲得相關(guān) PDB文件,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,命中:16個相關(guān) PDB文件 可選擇下載、在線閱讀文件或圖象動態(tài)顯示,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,選中:文件”1CF7”進(jìn)一步分析 可下載PDB文件用分析軟件(Rasmol等) 顯示 在線閱讀 在線顯示 (JavaApplet工具),數(shù)據(jù)庫檢索練習(xí),檢索適當(dāng)?shù)纳镄畔?shù)據(jù)庫,以獲取人類細(xì)胞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論