下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué),生物信息數(shù)據(jù)庫,Bioinfo-databases,生物信息數(shù)據(jù)庫,生物信息數(shù)據(jù)庫檢索(Retrieval),生物信息數(shù)據(jù)庫概況,數(shù)據(jù)庫是存儲在某種介質(zhì)上的相關(guān)數(shù)據(jù)有組織的集合 數(shù)據(jù)庫包含的基本對象稱為條目(entry),其由一系列字段構(gòu)成,每一字段代表一類數(shù)據(jù) 數(shù)據(jù)庫的特征: 可檢索; 定時更新; 數(shù)據(jù)庫間可交叉鏈接和引用,生物信息數(shù)據(jù)庫概況,據(jù)2008年核酸研究(Nucleic acid research, molecular biology database collection)最新統(tǒng)計,全球共有1078個主要分子生物學(xué)數(shù)據(jù)庫,涵蓋了生物學(xué)研究的諸多領(lǐng)域,數(shù)據(jù)庫數(shù)量和種類激
2、增,有向?qū)iT化、專業(yè)化發(fā)展的趨勢,生物信息數(shù)據(jù)庫概況,核酸研究將生物信息數(shù)據(jù)庫主要劃分為14大類,http:/www.3.oup.co.uk/nar/database/c/,生物信息數(shù)據(jù)庫的類型,初級數(shù)據(jù)庫 收錄、存儲生物信息學(xué)的基本數(shù)據(jù)資源,如核酸(蛋白質(zhì))序列、蛋白質(zhì)空間結(jié)構(gòu)及基因組信息。 次級數(shù)據(jù)庫 在初級庫資源基礎(chǔ)上進(jìn)行整理和標(biāo)注,為特定專業(yè)領(lǐng)域服務(wù)的派生數(shù)據(jù)庫,如表達(dá)序列標(biāo)記、微列陣(基因芯片)、代謝和信號途徑、遺傳疾病數(shù)據(jù)庫、免疫數(shù)據(jù)庫等等。 系統(tǒng)生物學(xué)數(shù)據(jù)庫 發(fā)展方向:構(gòu)建包含完整生物信息的細(xì)胞、組織數(shù)據(jù)(模擬)系統(tǒng),在更高層次上分析和解釋生命的基本規(guī)律。,Primary dat
3、abase,Derivative database,Database for systems biology,初級數(shù)據(jù)庫,核酸序列數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫 基因組數(shù)據(jù)庫,核酸序列初級數(shù)據(jù)庫,以核苷酸順序及注釋信息為基本內(nèi)容的數(shù)據(jù)庫 世界三大核酸數(shù)據(jù)庫 GenBank in USA ( ) EMBL in Europe ( http:/www.ebi.ac.uk/embl ) DDBJ in Japan ( http:/www.ddbj.nig.ac.jp ) 1998年,GenBank, EMBL, DDBJ共
4、同成立國際核酸序列數(shù)據(jù)庫協(xié)會(INSDC, ),實現(xiàn)了全球范圍內(nèi)的核酸序列的同步更新和交換互享。,蛋白質(zhì)序列初級數(shù)據(jù)庫,以蛋白質(zhì)氨基酸順序及注釋信息為基本內(nèi)容的數(shù)據(jù)庫 世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (1) PIR-PSD (Protein information resource-protein sequence database) founded by NBRF of USA (美國國家醫(yī)學(xué)研究基金會) in 1984 ( / ) 1988年,日本國際蛋白質(zhì)信息庫(JIPID)和德國慕尼黑蛋白質(zhì)序列信息中心(
5、MIPS)加入PIR,合作成立了國際蛋白質(zhì)信息中心(PIR-International)。PIR為較全面和權(quán)威注釋的蛋白質(zhì)數(shù)據(jù)庫,具有非冗余、高質(zhì)量注釋和分類全面等特點。,蛋白質(zhì)序列初級數(shù)據(jù)庫,世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (2) SwissProt 1986年始創(chuàng)于瑞士日內(nèi)瓦大學(xué) ,現(xiàn)由瑞士生物信息學(xué)研究所(SIB)和歐洲生物信息學(xué)研究所(EBI)共同管理和維護(hù)。 ( http:/www.expasy.ch/sprot/ ) SwissProt數(shù)據(jù)庫的特點:所有序列條目經(jīng)過專家核實,可靠性與可信度高;注釋詳細(xì),包括蛋白質(zhì)的功能、序列及結(jié)構(gòu)域的結(jié)構(gòu)、翻譯后修飾及其位點、突變體等,蛋白質(zhì)序列初級數(shù)據(jù)
6、庫,世界主要蛋白質(zhì)序列數(shù)據(jù)庫 (3) TrEMBL (translation of EMBL) 建立于1996年,是從EMBL中的cDNA序列翻譯得到的蛋白質(zhì)數(shù)據(jù)庫。相似的還有GenPept (GenBank)數(shù)據(jù)庫。 TrEMBL、GenPept數(shù)據(jù)庫的特點:序列條目來自核酸序列庫的翻譯,即時性強;但未經(jīng)專家的注釋、分析和核實,因而錯誤率和冗余度都較高。,蛋白質(zhì)序列初級數(shù)據(jù)庫,全球統(tǒng)一的蛋白質(zhì)序列與功能數(shù)據(jù)庫 UniProt (Universal Protein Resource, 通用蛋白質(zhì)資源) ( / ) 2002年,PIR、SIB、EBI合并
7、了分屬其下的PIR-PSD、Swiss-Prot和TrEMBL數(shù)據(jù)庫,形成了統(tǒng)一的蛋白質(zhì)數(shù)據(jù)庫UniProt 截止2008年8月,UniProt共收錄蛋白質(zhì)序列 6,462,751個,生物大分子結(jié)構(gòu)初級數(shù)據(jù)庫,以生物大分子各原子空間信息為基本內(nèi)容的數(shù)據(jù)庫 給定序列的蛋白質(zhì)如何折疊為穩(wěn)定、具一定生物功能的三維結(jié)構(gòu)? 信息來源:對蛋白質(zhì)晶體的X射線衍射、核磁共振及冷凍電鏡分析 主要數(shù)據(jù)庫:美國Brookhaven國家實驗室的PDB (Protein Data Bank, 1971年成立) 聯(lián)合MSD-EBI、PDBj,于2003年組建全球共享的worldwide PDB (wwPDB) ( htt
8、p:// ) 截止2008年8月,共收錄蛋白質(zhì)結(jié)構(gòu)52684個,Research Collaboratory for Structural Bioinformatics,/pdb,基因組數(shù)據(jù)庫,包含某一物種全基因組序列的專門數(shù)據(jù)庫 人類基因組數(shù)據(jù)庫 GDB Human genome database ( / ) 擬南芥基因組數(shù)據(jù)庫 TAIR arabidopsis genome database ( / ) 水稻基因組數(shù)據(jù)庫 RGP rice gen
9、ome database ( http:/rgp.dna.affrc.go.jp ) ,次級數(shù)據(jù)庫,通過對初級庫數(shù)據(jù)進(jìn)行分析整理歸納,對序列或結(jié)構(gòu)進(jìn)行功能標(biāo)注,形成的具有特殊生物學(xué)意義和專門用途的數(shù)據(jù)庫,也叫派生庫(derivative database ) 如: 1、核酸序列數(shù)據(jù)庫派生的GenBank的RefSeq、Unigene、EST、STS庫等; 2、蛋白質(zhì)序列、結(jié)構(gòu)數(shù)據(jù)庫派生庫,包括蛋白家族、結(jié)構(gòu)域和功能位點等信息,如ProSite、Pfam、SCOP等,現(xiàn)已整合為統(tǒng)一的InterPro數(shù)據(jù)庫( http:/www.ebi.ac.uk/interpro/ );,GenBank,Nat
10、ional Center for Biotechnology Information (NCBI) National Library of Medicine National Institutes of Health /,GenBank,/,全球著名的生物信息綜合數(shù)據(jù)庫 GenBank(1982年成立)包含所有已知的核苷酸及蛋白質(zhì)序列以及與之相關(guān)的生物學(xué)信息和參考文獻(xiàn),現(xiàn)由美國生物技術(shù)信息中心(NCBI,成立于1988年)管理維護(hù),是世界上的權(quán)威序列數(shù)據(jù)庫。 數(shù)據(jù)庫序列的來源為作者直接遞交或
11、間接查尋文獻(xiàn)所得,并與世界上其他公開發(fā)行的數(shù)據(jù)庫,如EMBL,DDBJ交換每日更新的數(shù)據(jù)。,GenBank,GenBank 核酸數(shù)據(jù)庫的增長(1982-2008),截止2008年2月,GenBank 共收錄核酸序列近8300萬條,約860億堿基對,來自26萬余種生物,GenBank,/ Home page,生物信息數(shù)據(jù)庫的存儲,信息的存儲指對一定范圍內(nèi)的信息進(jìn)行篩選、描述、加工,使之有序化,形成可方便調(diào)用的信息集合。 數(shù)據(jù)庫中的信息均以字符串文本形式存儲 存儲格式(storage format):除序列或結(jié)構(gòu)的基本信息外,還包括對相關(guān)信息的注
12、釋和分析。 格式類型: 序列信息格式:FASTA格式、GenBank格式、EMBL格式 結(jié)構(gòu)信息格式:PDB格式,核酸序列中的標(biāo)準(zhǔn)符號,*其中A C G T U N - 為常用符號,蛋白質(zhì)序列中的標(biāo)準(zhǔn)符號,FASTA 格式,標(biāo)題行:文件的第一行,以大于號“”開始,不換行。內(nèi)容可自定義,包括基本信息和簡單注釋; 序列行:文件第二行起至結(jié)束,中間不得有空格。 FASTA為最簡單的序列(核酸或蛋白質(zhì))格式,GenBank 格式,GenBank 格式注釋信息豐富全面,屬文本文件,包括4部分: 頭部:含名稱、定義、識別碼、物種來源等基本信息; 引文區(qū):含相關(guān)文獻(xiàn)信息。 序列特征表:含序列的編碼區(qū)、非編碼
13、區(qū)、功能域、修飾或突變位點、翻譯序列等眾多注釋信息 序列區(qū):序列本身,GenBank 格式,Locus 行信息: Locus name; Sequence length; Type of Molecule: DNA, mRNA, cDNA Taxonomy:PRI primate(靈長類) 、ROD rodent(嚙齒類)、 MAM - other mammalian (其它哺乳類)、VRT - other vertebrate(脊椎動物)、INV invertebrate sequences、PLN - plant, fungal, and algal; BCT - bacterial; V
14、RL - viral, PHG - bacteriophage, SYN - synthetic; UNA - unannotated; EST - expressed sequence tags Date: 上傳或最近修改時間,GenBank 格式,GenBank 格式,GenBank 格式,/,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,EMBL 格式,EMBL 格式與GenBank 格式類似,其條目用兩字母縮寫,PDB 格式,PDB 格式文件為蛋白質(zhì)或核酸空間結(jié)構(gòu)數(shù)據(jù)文件,包含
15、: 頭區(qū):含名稱、分子類別、物種來源、文獻(xiàn)索引等基本信息; 主區(qū):含氨基酸及所有原子的順序、空間坐標(biāo)(X、Y、Z軸)、相互間連接鍵,所屬肽鏈編碼等復(fù)雜信息。 PDB 文件可讀性較差,需借助相關(guān)軟件(Rasmol、DeepView、VMD)轉(zhuǎn)換為三維圖象,以便分析研究。,生物信息數(shù)據(jù)庫的檢索,采用一定的方法與策略,從數(shù)據(jù)庫中查找所需信息 (Retrieval or search of bioinfo-database) 檢索的實質(zhì):將用戶的檢索標(biāo)識與信息存儲標(biāo)識進(jìn)行比對,當(dāng)兩者匹配時,該信息被輸出到結(jié)果中。匹配可以是完全匹配或部分匹配。 檢索的關(guān)鍵:如何從海量生物學(xué)數(shù)據(jù)中高效地淘汰無關(guān)信息,并全
16、面地獲取有價值的信息。,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,Entrez為基于萬維網(wǎng)的NCBI數(shù)據(jù)庫檢索系統(tǒng),運用布爾算符,可在NCBI所有數(shù)據(jù)庫中進(jìn)行文本搜索。,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,NCBI 數(shù)據(jù)庫檢索系統(tǒng) Entrez,Entrez 應(yīng)用舉例,檢索主題:小鼠(mouse)轉(zhuǎn)錄因子(TF) -E2F mRNA的核酸序列 檢索過程:NCBI主頁All Databases在Search對話框輸入關(guān)鍵詞”E2F”,點”Go”輸出檢索結(jié)果。,Entrez 應(yīng)用舉例,輸出相關(guān)序列3784條,有待進(jìn)一步篩選:限制物種來源(小鼠 Mus musculus)、限制分子為mRNA (排
17、除未經(jīng)實驗驗證的預(yù)測序列)。,Entrez 應(yīng)用舉例,最后命中168條,從中選中NM_148952,以待詳細(xì)分析。,Entrez 應(yīng)用舉例,NM_148952: 小鼠E2F轉(zhuǎn)錄因子-4。,Entrez 應(yīng)用舉例,圖形序列顯示NM_148952。,Entrez 應(yīng)用舉例,E2F4 蛋白序列 NP_683754。,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,命題:E2F空間結(jié)構(gòu)及與DNA相互作用分析 檢索:從RCSB-PDB數(shù)據(jù)庫中獲得相關(guān) PDB文件,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,命中:16個相關(guān) PDB文件 可選擇下載、在線閱讀文件或圖象動態(tài)顯示,大分子結(jié)構(gòu)數(shù)據(jù)庫檢索舉例,選中:文件”1CF7”進(jìn)一步分析 可下載PDB文件用分析軟件(Rasmol等) 顯示 在線閱讀 在線顯示 (JavaApplet工具),數(shù)據(jù)庫檢索練習(xí),檢索適當(dāng)?shù)纳镄畔?shù)據(jù)庫,以獲取人類細(xì)胞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計量宣貫培訓(xùn)制度
- 行政人事部的制度
- 養(yǎng)老機構(gòu)院部制度
- 2025年高1上學(xué)期-地理期末模擬卷(新高考通15+4)含答案
- 2026中國航空工業(yè)集團(tuán)有限公司華東審計中心崗位招聘18人參考考試試題附答案解析
- 2026四川宜賓翠屏產(chǎn)業(yè)創(chuàng)新發(fā)展有限公司第一批員工招聘2人參考考試試題附答案解析
- 2026上半年昭通學(xué)院招聘碩士研究生26人參考考試題庫附答案解析
- 2026廣東深圳市龍崗區(qū)婦幼保健院招聘142人(2026年第一批次)備考考試題庫附答案解析
- 2026江蘇蘇州大學(xué)科研助理崗位招聘7人參考考試題庫附答案解析
- 2026廣東中山市公安局橫欄分局輔警招聘9人參考考試題庫附答案解析
- 2026貴州省省、市兩級機關(guān)遴選公務(wù)員357人考試備考題庫及答案解析
- 兒童心律失常診療指南(2025年版)
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘備考題庫必考題
- 2026年基金從業(yè)資格證考試題庫500道含答案(完整版)
- 2025年中國礦產(chǎn)資源集團(tuán)所屬單位招聘筆試參考題庫附帶答案詳解(3卷)
- DB32/T+4396-2022《勘察設(shè)計企業(yè)質(zhì)量管理標(biāo)準(zhǔn)》-(高清正版)
- 臺州市街頭鎮(zhèn)張家桐村調(diào)研報告
- 壓力排水管道安裝技術(shù)交底
- 電梯檢驗安全導(dǎo)則
- 糖代謝紊亂生物化學(xué)檢驗
- 科技基礎(chǔ)性工作專項項目科學(xué)數(shù)據(jù)匯交方案編制
評論
0/150
提交評論