版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
生物信息學(xué)的應(yīng)用目前一頁\總數(shù)一百三十九頁\編于十九點(diǎn)生物信息學(xué)(Bioinformatics)生物分子數(shù)據(jù)計(jì)算機(jī)計(jì)算+目前二頁\總數(shù)一百三十九頁\編于十九點(diǎn)概念(廣義)生物體系和過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)
目前三頁\總數(shù)一百三十九頁\編于十九點(diǎn)概念(狹義)生物分子數(shù)據(jù)深層次生物學(xué)知識(shí)分子生物信息學(xué)MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用目前四頁\總數(shù)一百三十九頁\編于十九點(diǎn)生物信息學(xué)主要研究兩種信息載體DNA分子蛋白質(zhì)分子目前五頁\總數(shù)一百三十九頁\編于十九點(diǎn)生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息目前六頁\總數(shù)一百三十九頁\編于十九點(diǎn)
第一節(jié)生物信息學(xué)與基因組學(xué)一、生物信息學(xué)概述(一)生物信息學(xué)發(fā)展簡史生物信息學(xué)發(fā)展的3個(gè)階段:前基因組時(shí)代基因組時(shí)代后基因組時(shí)代生物信息學(xué)的發(fā)展脈絡(luò):
1956年,在美國田納西州蓋特林堡(Gatlinburg)召開的首次“生物學(xué)中的信息理論研討會(huì)”上,孕育了生物信息學(xué)的概念.1987年,佛羅里達(dá)州立大學(xué)32歲的林華安()博士首創(chuàng)“Bioinformatics”一詞,被譽(yù)為“世界生物信息之父”。目前七頁\總數(shù)一百三十九頁\編于十九點(diǎn)1990年,林華安博士發(fā)起第一屆國際Bioinformatics學(xué)術(shù)會(huì)議。1990年10月,被譽(yù)為生命科學(xué)“阿波羅登月計(jì)劃”的國際人類基因組計(jì)劃(HGP)啟動(dòng)。1995年,美國人類基因組計(jì)劃第一個(gè)五年總結(jié)報(bào)告中給出生物信息學(xué)一個(gè)較為完整的定義。2000年6月26日,美、英、日、德、法、中等六國科學(xué)家共同努力,完成人類基因組工作草圖,這是人類科學(xué)史上又一個(gè)里程碑式的事件。
2003年4月14日,國際人類基因組測序組隆重宣布:美、英、日、德、法和中國科學(xué)家歷經(jīng)13年共同努力,人類基因組序列圖(“完成圖”)提前繪制成功。人類邁入“后基因組時(shí)代”(Post-genomicEra)。目前八頁\總數(shù)一百三十九頁\編于十九點(diǎn)(二)生物信息學(xué)的主要研究內(nèi)容1.生物信息的收集、存儲(chǔ)、管理與提供2.基因組序列信息的提取和分析3.功能基因組相關(guān)信息分析4.基因表達(dá)數(shù)據(jù)的分析與處理5.蛋白質(zhì)結(jié)構(gòu)預(yù)測目前九頁\總數(shù)一百三十九頁\編于十九點(diǎn)基因組數(shù)據(jù)庫
蛋白質(zhì)序列數(shù)據(jù)庫
蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫
DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子數(shù)據(jù)的收集與管理目前十頁\總數(shù)一百三十九頁\編于十九點(diǎn)2、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個(gè)基本操作就是比對(Alignment),即將兩個(gè)序列的各個(gè)字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進(jìn)行對比排列,其結(jié)果是兩個(gè)序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個(gè)序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。目前十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)發(fā)現(xiàn)同源分子目前十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)3、基因組序列分析遺傳語言分析——天書基因組結(jié)構(gòu)分析基因識(shí)別基因功能注釋基因調(diào)控信息分析基因組比較目前十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)4、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點(diǎn)和重點(diǎn)目前對基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能
目前十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)基因芯片目前十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)二維電泳圖目前十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)5、蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級(jí)結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測蛋白質(zhì)折疊目前十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)二級(jí)結(jié)構(gòu)預(yù)測在一定程度上二級(jí)結(jié)構(gòu)的預(yù)測可以歸結(jié)為模式識(shí)別問題
在二級(jí)結(jié)構(gòu)預(yù)測方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計(jì)方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動(dòng)力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測準(zhǔn)確率超過70%的第一個(gè)軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)目前十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是同源模型法該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)運(yùn)用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測工作目前十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)(三)生物信息學(xué)研究現(xiàn)狀與展望
1.國外生物信息學(xué)研究現(xiàn)狀2.我國生物信息學(xué)研究現(xiàn)狀3.我國生物信息學(xué)研究目標(biāo)
實(shí)現(xiàn)基因組數(shù)據(jù)、蛋白質(zhì)組和結(jié)構(gòu)基因組數(shù)據(jù)、天然及合成化合物數(shù)據(jù)的計(jì)算機(jī)處理、分析和可視化,以及生物實(shí)驗(yàn)和生物分子的模擬設(shè)計(jì),解析蛋白質(zhì)三維結(jié)構(gòu)和蛋白質(zhì)組的時(shí)空表達(dá)關(guān)系等目前二十頁\總數(shù)一百三十九頁\編于十九點(diǎn)蛋白質(zhì)研究為生物信息學(xué)提供了極為豐富的研究數(shù)據(jù),極大地推動(dòng)了生物信息學(xué)的發(fā)展。生物信息學(xué)在蛋白質(zhì)的序列分析、結(jié)構(gòu)預(yù)測、功能預(yù)測、分子設(shè)計(jì)等方面具有重要應(yīng)用。二、生物信息學(xué)與蛋白質(zhì)
目前二十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)
序列比對是生物信息學(xué)的基礎(chǔ),通過比較兩個(gè)或多個(gè)蛋白質(zhì)序列的相似區(qū)域和保守性位點(diǎn),確定相互間具有共同功能的序列模式和分子進(jìn)化關(guān)系,進(jìn)一步分析其結(jié)構(gòu)和功能。把未知結(jié)構(gòu)的蛋白質(zhì)序列與已知具有三維結(jié)構(gòu)的蛋白質(zhì)序列進(jìn)行序列比對,有助于進(jìn)一步了解該未知結(jié)構(gòu)蛋白質(zhì)的空間折疊信息(一)蛋白質(zhì)序列分析目前二十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)(二)蛋白質(zhì)結(jié)構(gòu)預(yù)測
蛋白質(zhì)結(jié)構(gòu)預(yù)測內(nèi)容二級(jí)結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測方法
理論分析方法:是在理論計(jì)算的基礎(chǔ)上進(jìn)行結(jié)構(gòu)預(yù)測。統(tǒng)計(jì)分析方法:是在對已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,建立由序列到結(jié)構(gòu)的映射模型,對未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸序列預(yù)測其結(jié)構(gòu)。目前二十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)
是否未知蛋白序列與已知功能的蛋白質(zhì)相似確定跨膜螺旋、卷曲螺旋和前導(dǎo)序列未知序列是否包含保守序列模體查對PROSITE數(shù)據(jù)庫庫查對BLOCKS和PRINTS數(shù)據(jù)庫整理所有肯定的結(jié)果并核對一致性預(yù)測蛋白質(zhì)功能蛋白質(zhì)功能預(yù)測流程圖(三)蛋白質(zhì)功能預(yù)測(引自HPDB蛋白質(zhì)數(shù)據(jù)庫()目前二十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)(四)蛋白質(zhì)分子設(shè)計(jì)蛋白質(zhì)分子設(shè)計(jì)類型:按照被改造部位的多少可以分為“小改”、“中改”和“大改”三種。
“小改”:即通過對目標(biāo)蛋白質(zhì)進(jìn)行定位突變或化學(xué)修飾改變其結(jié)構(gòu)和功能?!爸懈摹保杭赐ㄟ^對來源于不同蛋白質(zhì)的結(jié)構(gòu)域進(jìn)行拼接和組裝,從而較大程度的改變其結(jié)構(gòu)和功能?!按蟾摹保杭赐耆珡念^設(shè)計(jì)出一種具有特異結(jié)構(gòu)與功能的全新蛋白質(zhì)。目前二十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)常用的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(NucleotideSequenceDatabases)RNA序列數(shù)據(jù)庫(RNAsequencedatabases)蛋白質(zhì)序列數(shù)據(jù)庫(Proteinsequencedatabases)結(jié)構(gòu)數(shù)據(jù)庫(StructureDatabases)基因組數(shù)據(jù)庫(GenomicsDatabases(non-vertebrate))代謝酶相關(guān)產(chǎn)物(MetabolicandSignalingPathways)人類和其他脊椎動(dòng)物基因組(HumanandotherVertebrateGenomes)人類基因和疾?。℉umanGenesandDiseases)芯片和其他基因表達(dá)數(shù)據(jù)庫(MicroarrayDataandotherGeneExpressionDatabases);蛋白組資源(ProteomicsResources);其他分子生物學(xué)數(shù)據(jù)庫(OtherMolecularBiologyDatabases)細(xì)胞器官數(shù)據(jù)庫(Organelledatabases);植物數(shù)據(jù)庫(Plantdatabases);免疫學(xué)數(shù)據(jù)庫(Immunologicaldatabases)第二節(jié)常用數(shù)據(jù)庫目前二十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)生物信息學(xué)數(shù)據(jù)庫類型一次數(shù)據(jù)庫:數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),僅對原始數(shù)據(jù)進(jìn)行簡單的歸類整理和注釋。如Genbank、EMBL和DDBJ等核酸序列數(shù)據(jù)庫;SWISS-PROT、PIR等蛋白質(zhì)序列數(shù)據(jù)庫;PDB等蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。二次數(shù)據(jù)庫:針對不同的研究內(nèi)容和需要在一次數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上對相關(guān)生物學(xué)知識(shí)和信息進(jìn)行進(jìn)一步分析和整理。如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等。目前二十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-2生物信息學(xué)數(shù)據(jù)庫相互關(guān)系生物信息學(xué)數(shù)據(jù)庫相互關(guān)系目前二十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)常用數(shù)據(jù)庫類型名稱網(wǎng)址核酸序列一次數(shù)據(jù)庫Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因組一次數(shù)據(jù)庫GDB/蛋白質(zhì)序列一次數(shù)據(jù)庫SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/復(fù)合數(shù)據(jù)庫NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/
二次數(shù)據(jù)庫PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/目前二十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)結(jié)構(gòu)一次數(shù)據(jù)庫PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/
二次數(shù)據(jù)庫DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/
結(jié)構(gòu)分類SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/分類二次數(shù)據(jù)庫ProtoMap蛋白質(zhì)組
蛋白質(zhì)組
氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白質(zhì)間功能關(guān)系Predictome/蛋白質(zhì)組分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二維凝膠電泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白質(zhì)定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白質(zhì)組BioknowledgeLibrnary/pages/index.php?id=home/目前三十頁\總數(shù)一百三十九頁\編于十九點(diǎn)
一、核酸數(shù)據(jù)庫
(一)核酸序列數(shù)據(jù)庫目前,國際上主要有Genbank、EMBL、DDBJ三大核酸序列數(shù)據(jù)庫,三大核酸數(shù)據(jù)庫之間每天相互交換數(shù)據(jù),保持?jǐn)?shù)據(jù)同步更新。目前三十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)1.Genbank
Genbank由美國國立生物技術(shù)信息中心(NCBI)建立維護(hù),其主頁如圖6-3所示。目前三十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)Genbank數(shù)據(jù)直接來源測序工作者提交的序列、測序中心提交的大量EST序列、其它測序數(shù)據(jù)以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)。Genbank內(nèi)容所有已知的核酸序列和蛋白質(zhì)序列,還包括對序列的簡要描述、科學(xué)命名、物種分類名稱、參考文獻(xiàn)、序列特征表等輔助信息。Genbank對數(shù)據(jù)記錄的處理劃分為細(xì)菌類、病毒類、靈長類、嚙齒類,EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類。目前三十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)(1)Genbank數(shù)據(jù)檢索
通過NCBI首頁“Search”選項(xiàng)中的“gene”或“Nucleotide”等選項(xiàng),在檢索窗口輸入檢索詞進(jìn)行直接檢索;利用NCBI網(wǎng)站的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)Entrez提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能進(jìn)行精細(xì)檢索圖6-4NCBI-Entrzgene檢索界面目前三十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)目前三十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)Entrez綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)將核酸序列、蛋白質(zhì)序列、基因圖譜、蛋白質(zhì)結(jié)構(gòu)等數(shù)據(jù)庫整合在一起。而且可以通過其生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫(MEDLINE),獲取序列相關(guān)的文獻(xiàn)信息??梢岳肊ntrezcross-database數(shù)據(jù)庫進(jìn)行綜合信息檢索(圖6-5)。圖6-5NCBI-Entrezcross-database檢索界面目前三十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)美國國家生物技術(shù)信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine目前三十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)PubMed:
biomedicalliteraturecitationsandabstracts
是一個(gè)醫(yī)學(xué)文獻(xiàn)網(wǎng)絡(luò)搜索界面
BLAST(BasicLocalAlignmentsearchTool)
是DNA或氨基酸序列比對分析的重要軟件目前三十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)
OMIM:
onlineMendelianInheritanceinMan人類孟德爾遺傳數(shù)據(jù)庫在線
Books:
onlinebooks目前三十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)
TaxBrowser:Taxonomybrowser分類瀏覽器Structure:該目錄下最重要的資源是分子模型數(shù)據(jù)庫MMDB及Cn3D生物大分子三維模型查看軟件
目前四十頁\總數(shù)一百三十九頁\編于十九點(diǎn)EMBL和GenBank數(shù)據(jù)庫識(shí)別標(biāo)志EMBL識(shí)別標(biāo)志GenBank識(shí)別標(biāo)志含義IDLOCUS標(biāo)識(shí)字符串及短描述字XX為閱讀清晰而加的空行ACACCESSION唯一的提取號(hào)SVVERSION序列版本號(hào)DTDATE建立日期DEDEFINITION簡單的描述KWKEYWORDS關(guān)鍵字OSSOURCE來源生物體OCORGANISM生物體分類譜系RNREFERENCE引文編號(hào)RCREMARK引文注釋RP其他注釋RXMEDLINEMEDLINE引文代碼目前四十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)RAAUTHORS引文作者RTTITLE引文題目RLJOURNAL引文出處CCCOMMENT評注DR相關(guān)數(shù)據(jù)庫交叉引用號(hào)FHFEATURES特性表頭FT特征表SQEMBL序列開始,后跟長度、字母數(shù)BASECOUNTGeneBank堿基數(shù)ORIGINGeneBank序列開始標(biāo)志,為空行////序列結(jié)束標(biāo)志目前四十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)GenBank核酸數(shù)據(jù)庫實(shí)例
以人畜共患的病源菌鼠傷寒沙門氏菌(Salmonellatyphimurium)H1相抗原基因H-1-i為例,簡要說明GenBank核酸數(shù)據(jù)庫的數(shù)據(jù)格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof
Salmonella
typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列標(biāo)識(shí)簡單描述序列編號(hào)版本號(hào)關(guān)鍵詞物種來源物種分類引文編號(hào)引文作者引文標(biāo)題引文出處目前四十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella
typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"評注特征表編碼區(qū)目前四十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列目前四十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//
記錄結(jié)束目前四十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)
少量序列利用BankIt提交,大量序列利用Sequin程序進(jìn)行提交。NCBI網(wǎng)站提供數(shù)據(jù)查詢、序列相似性搜索等服務(wù),從其FTP服務(wù)器上可免費(fèi)下載Genbank數(shù)據(jù)。NCBI網(wǎng)址:http:///BankIt網(wǎng)址:http:///Sequin網(wǎng)址:http:///Sequin/Genebank網(wǎng)址:Entrezgene網(wǎng)址:
Entrezcross-database網(wǎng)址:(2)向Genbank提交序列數(shù)據(jù)目前四十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)EMBL核酸序列數(shù)據(jù)庫創(chuàng)建于1982年,由歐洲生物信息學(xué)研究所(EBI)管理維護(hù)。使用序列提取系統(tǒng)(SRS)進(jìn)行查詢檢索,利用基于網(wǎng)絡(luò)的WEBIN工具,或利用Sequin軟件向EMBL核酸序列數(shù)據(jù)庫提交序列。
EMBL網(wǎng)址:http:///SRS的網(wǎng)址:http:///WEBIN網(wǎng)址:/Sequin網(wǎng)址:2.EMBL核酸序列數(shù)據(jù)庫
目前四十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)DDBJ核酸序列數(shù)據(jù)庫創(chuàng)建于1986年,由日本國家遺傳學(xué)研究所負(fù)責(zé)維護(hù)和管理。使用SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析,利用Sequin軟件向該數(shù)據(jù)庫提交序列。為方便檢索DDBJ主頁可進(jìn)行日文和英文互換。DDBJ的日文版網(wǎng)址:/DDBJ的英文版網(wǎng)址:/3.DDBJ數(shù)據(jù)庫目前四十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)
(二)基因組數(shù)據(jù)庫GDB
基因組數(shù)據(jù)庫(GDB)創(chuàng)建于1990年,是一個(gè)專門匯集人類基因組數(shù)據(jù)的數(shù)據(jù)庫,以對象模型來保存數(shù)據(jù),提供基于網(wǎng)絡(luò)的數(shù)據(jù)對象檢索服務(wù),可搜索各種類型的對象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:http:///目前五十頁\總數(shù)一百三十九頁\編于十九點(diǎn)(一)蛋白質(zhì)序列數(shù)據(jù)庫常用的蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。
1.SWISS-PROTSWISS-PROT數(shù)據(jù)庫提供蛋白質(zhì)序列查詢及相似蛋白質(zhì)序列搜索等服務(wù)。
二、蛋白質(zhì)數(shù)據(jù)庫目前五十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-6Swiss-Prot數(shù)據(jù)庫網(wǎng)站主頁目前五十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)SWISS-PROT數(shù)據(jù)庫內(nèi)容
核心數(shù)據(jù):包括蛋白質(zhì)序列、引用文獻(xiàn)、分類信息等。注釋:包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、與其它蛋白質(zhì)的相似性等。SWISS-PROT將廣泛收集的相關(guān)數(shù)據(jù)進(jìn)行合并,且與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(PDB)等其他數(shù)據(jù)庫交互索引。通過SWISS-PROT數(shù)據(jù)庫可以得到某蛋白質(zhì)的序列,再通過交互引用從PDB數(shù)據(jù)庫得到其結(jié)構(gòu)。SWISS-PROT數(shù)據(jù)由數(shù)據(jù)行排列組成,數(shù)據(jù)格式與EMBL數(shù)據(jù)庫數(shù)據(jù)格式基本相同(見表6-3)。目前五十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)表6-3SWISS-PORT數(shù)據(jù)庫的行識(shí)別標(biāo)志及含義中止符號(hào)Terminationline//序列標(biāo)頭SequenceheaderSQ特征表FeaturetabledataFT關(guān)鍵詞KeywordsKW交叉引用數(shù)據(jù)庫Databasecross-referenceDR評注或注釋CommentsornotesCC引文出處ReferencelocationRL引文標(biāo)題ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相關(guān)內(nèi)容ReferencecommentsRC引文位置ReferencepositionRP引文序號(hào)ReferencenumberRN物種分類OrganismclassificationOC來源細(xì)胞器OrganelleOG來源物種OrganismspeciesOS基因名稱Genename(s)GN描述DescriptionDE登錄日期或最后更新日期DateDT序列編號(hào)AccessionNumberAC標(biāo)識(shí)號(hào)IdentificationID含義全稱縮寫目前五十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i基因編碼的鞭毛蛋白FLIC_SALTY為例介紹SWISS-PORT數(shù)據(jù)庫的數(shù)據(jù)格式。目前五十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)IDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-2007,sequenceversion4.DT24-JUL-2007,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列標(biāo)識(shí)序列編號(hào)登錄日期描述基因名稱來源物種物種分類物種分類號(hào)引文序號(hào)引文位置交叉引用引文作者引文標(biāo)題引文出處SWISS-PROT數(shù)據(jù)庫條目實(shí)例目前五十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)RN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相關(guān)內(nèi)容評注功能其他特性
相似性交叉引用數(shù)據(jù)庫EMBL核酸序列數(shù)據(jù)庫PIR蛋白序列數(shù)據(jù)庫
PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫目前五十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)PE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498關(guān)鍵詞特征表不同來源數(shù)據(jù)庫的沖突位點(diǎn)二級(jí)結(jié)構(gòu)信息目前五十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)SQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列標(biāo)頭蛋白質(zhì)序列記錄結(jié)束目前五十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)2.PIR
PIR的子數(shù)據(jù)庫:蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)蛋白質(zhì)分類數(shù)據(jù)庫(iProClass)非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫(PIR-NREF)PIR數(shù)據(jù)庫按照數(shù)據(jù)性質(zhì)和注釋層次分四個(gè)部分:PIR1序列已經(jīng)驗(yàn)證,注釋最為詳盡;PIR2為尚未確定的冗余序列;PIR3序列既未檢驗(yàn),也未注釋;PIR4序列來自其它渠道,既未驗(yàn)證,也無注釋。美國國家生物醫(yī)學(xué)研究基金會(huì)與國際蛋白質(zhì)信息中心(PIR-International)共同維護(hù)。PIR是第一個(gè)蛋白質(zhì)分類和功能注釋數(shù)據(jù)庫目前六十頁\總數(shù)一百三十九頁\編于十九點(diǎn)
PIR作用:提供基于文本的交互式檢索、序列相似性搜索以及結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)檢索。PIR網(wǎng)址:http:///目前六十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)3.TrEMBL是一個(gè)經(jīng)計(jì)算機(jī)注釋的蛋白質(zhì)數(shù)據(jù)庫,采用SWISS-PROT數(shù)據(jù)庫格式。主要包含從EMBL/Genbank/DDBJ三大核酸數(shù)據(jù)庫中根據(jù)編碼序列翻譯的、尚未集成到SWISS-PROT數(shù)據(jù)庫中的蛋白質(zhì)序列。TrEMBL為SWISS-PROT數(shù)據(jù)庫及時(shí)提供補(bǔ)充。TrEMBL網(wǎng)址:http:///目前六十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)4.UniProtUniProt將SWISS-PROT、PIR、TrEMBL三個(gè)數(shù)據(jù)庫合并。通過文本檢索、序列相似檢索以及UniProtFtp網(wǎng)站可獲得蛋白質(zhì)序列。如圖6-7所示圖6-7UniProt網(wǎng)站主頁目前六十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)UniProt包含UniProtKB、UniRef和UniParc3個(gè)部分:(1)UniProtKB數(shù)據(jù)庫(UniProtKnowledgebase):蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniRef數(shù)據(jù)庫(UniProtReferenceClusters):為提高檢索的速度,將緊密相關(guān)的蛋白質(zhì)序列合并到同一條記錄中。目前,根據(jù)序列相似程度可將UniRef數(shù)據(jù)庫分為UniRef100、UniRef90和UniRef503個(gè)子庫(3)UniParc(UniProtArchive):儲(chǔ)存大量蛋白質(zhì)研究的歷史信息。目前六十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)利用UniProt可方便的進(jìn)行蛋白質(zhì)序列的交互檢索,SalmonellatyphimuriumH-1項(xiàng)鞭毛蛋白P06176的UniProt檢索截圖如下。UniProt網(wǎng)址:http://目前六十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-8核心數(shù)據(jù)目前六十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-9核心數(shù)據(jù)(續(xù))、引用文獻(xiàn)與評注目前六十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-10交互檢索與關(guān)鍵詞目前六十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-11特征表與序列信息目前六十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)5.GenPept數(shù)據(jù)庫GenPept數(shù)據(jù)庫特點(diǎn)由Genebank數(shù)據(jù)庫的核酸序列經(jīng)翻譯后產(chǎn)生。GenPept數(shù)據(jù)量大,隨核酸數(shù)據(jù)庫的更新而更新,但未經(jīng)實(shí)驗(yàn)證實(shí),也未有詳細(xì)注釋。
GenPept蛋白質(zhì)數(shù)據(jù)庫實(shí)例以鼠傷寒沙門氏菌S.typhimuriumH-1-i基因編碼的鞭毛蛋白為例進(jìn)行GenPept數(shù)據(jù)庫檢索。目前七十頁\總數(shù)一百三十九頁\編于十九點(diǎn)GenPept蛋白質(zhì)數(shù)據(jù)庫實(shí)例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof
SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……序列標(biāo)識(shí)簡單描述序列編號(hào)版本號(hào)關(guān)鍵詞物種來源物種分類引文編號(hào)引文作者引文標(biāo)題引文出處評注目前七十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)FEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"
Protein1..490/name="phase-1flagellarfilamentprotein"Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;pfam00669"/db_xref="CDD:64529"Region191..>256/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;pfam08884"/db_xref="CDD:72304"特征表目前七十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)
Region397..468/region_name="Flagellin_C"……/db_xref="CDD:64558"CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白質(zhì)序列記錄結(jié)束GenPept的網(wǎng)址是:ftp:///目前七十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)國際上主要的蛋白質(zhì)序列數(shù)據(jù)庫的種類和特點(diǎn)
名稱維護(hù)單位注釋冗余度數(shù)據(jù)量更新PIRNCBI、JIPID、MIPS部分完善較大較大較慢SWISSPROTEBI、SIB完善小不大較慢NRL-3DNCBI完善小小較慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大較快OWLHGMP一般小大較慢(引自《生物信息學(xué)》,趙國屏等編著,科學(xué)出版社,2002)目前七十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)(二)蛋白質(zhì)序列二次數(shù)據(jù)庫
1.PROSITEPROSITE是蛋白質(zhì)家族保守區(qū)域和功能位點(diǎn)數(shù)據(jù)庫,也是第一個(gè)蛋白質(zhì)序列二次數(shù)據(jù)庫,收錄蛋白質(zhì)家族中同源序列多重比對所確定的保守性區(qū)域:如酶活性位點(diǎn)、配體結(jié)合位點(diǎn)、金屬離子結(jié)合位點(diǎn)、其它蛋白質(zhì)結(jié)合位點(diǎn)等已知具有重要生物學(xué)功能蛋白質(zhì)位點(diǎn)和序列模式。PROSITE數(shù)據(jù)庫組成包含Prosite(數(shù)據(jù)文件)和PrositeDoc(說明文件)兩個(gè)文件數(shù)據(jù)庫。PROSITE數(shù)據(jù)庫主頁如圖6-12所示。目前七十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-12PROSITE數(shù)據(jù)庫主頁目前七十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)PROSITE數(shù)據(jù)庫作用:可確定一段新蛋白質(zhì)序列中包含的功能位點(diǎn)以及其歸屬的蛋白質(zhì)家族。PROSITE的網(wǎng)址:http:///或http:///PROSITE的中國鏡像網(wǎng)址是:http:///目前七十七頁\總數(shù)一百三十九頁\編于十九點(diǎn)2.PRINTSPRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫將多個(gè)保守的序列模式作為識(shí)別蛋白質(zhì)家族的特征,與PROSITE數(shù)據(jù)庫的單個(gè)序列模式相比,PRINTS具有更好的識(shí)別率。PRINTS網(wǎng)址:http:///目前七十八頁\總數(shù)一百三十九頁\編于十九點(diǎn)3.BLOCKS序列模塊(block):是通過序列比對得到的若干蛋白質(zhì)序列中具有較高相似性的序列片段。BLOCKS由通過自動(dòng)檢測PROSITE數(shù)據(jù)庫和PRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫中蛋白質(zhì)家族高度保守區(qū)域產(chǎn)生的序列模塊組成。BLOCKS的網(wǎng)址:http:///目前七十九頁\總數(shù)一百三十九頁\編于十九點(diǎn)(三)蛋白結(jié)構(gòu)數(shù)據(jù)庫
1.PDBPDB(ProteinDataBank)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫是國際上最完整的蛋白質(zhì)、核酸、糖類、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫。PDB主頁,如圖6-13所示。其數(shù)據(jù)庫增長曲線,如圖6-14所示。目前八十頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-13PDB數(shù)據(jù)庫主頁目前八十一頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-14結(jié)構(gòu)數(shù)據(jù)庫增長曲線截圖紅色圖:總結(jié)構(gòu)數(shù)藍(lán)色圖:新增結(jié)構(gòu)數(shù)(引自http://=molType-protein&seqid=100)目前八十二頁\總數(shù)一百三十九頁\編于十九點(diǎn)PDB數(shù)據(jù)庫作用提供序列詳細(xì)信息、原子坐標(biāo)、三維結(jié)構(gòu)、交叉檢索等與結(jié)構(gòu)相關(guān)的信息。PDB數(shù)據(jù)庫實(shí)例以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶體結(jié)構(gòu)為例,圖示PDB數(shù)據(jù)庫格式(框6-4)和網(wǎng)頁格式(圖6-15)。三維結(jié)構(gòu)的動(dòng)態(tài)展示(如圖6-16所示)。PDB的地址:http://目前八十三頁\總數(shù)一百三十九頁\編于十九點(diǎn)框6-4PDB格式實(shí)例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.
……標(biāo)頭題目化合物名稱來源關(guān)鍵詞作者發(fā)布日期相關(guān)文獻(xiàn)注釋目前八十四頁\總數(shù)一百三十九頁\編于十九點(diǎn)SEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLYILESERILEALAGLNTHRTHRGLU……FORMUL2HOH*354(H2O)HELIX11ILEA57ALAA99143HELIX22SERA104THRA129126……SHEET1A2ASNA141GLNA1460SHEET2A2THRA154LEUA159-1OILEA155NILEA145……CRYST151.75036.440118.35090.0091.1590.00P12112ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE10.0193240.0000000.0003880.00000SCALE20.0000000.0274420.0000000.00000SCALE30.0000000.0000000.0084510.00000ATOM1NASNA56-49.795-3.667-4.3511.0030.60NATOM2CAASNA56-48.833-2.701-3.7261.0029.93C……TER2881ARGA450HETATM2882OHOH50129.624-1.33516.6881.0011.99OHETATM2883OHOH502-35.019-3.209-7.0051.0010.33O……END
氨基酸序列分子式α-螺旋β-折疊原子坐標(biāo)配體原子坐標(biāo)記錄結(jié)束目前八十五頁\總數(shù)一百三十九頁\編于十九點(diǎn)圖6-15PDB數(shù)據(jù)庫網(wǎng)頁格式實(shí)例目前八十六頁\總數(shù)一百三十九頁\編于十九點(diǎn)a.主鏈結(jié)構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軌道有公共交通服務(wù)的條款制度
- 2026湖南長沙市開福區(qū)青竹湖湘一健翎學(xué)校春季教師招聘8人備考考試試題附答案解析
- 2026中國科學(xué)院力學(xué)研究所高速流動(dòng)失穩(wěn)與混合科研團(tuán)隊(duì)招聘科研財(cái)務(wù)助理人員1人參考考試題庫附答案解析
- 2026河北廊坊師范學(xué)院選聘26人備考考試題庫附答案解析
- 六年級(jí)語文上冊vj語文園地 含“口語交際”十三
- 2026年度上半年伊春湯旺縣公安局公開招聘警務(wù)輔助人員20人參考考試題庫附答案解析
- 2026甘肅金昌市機(jī)關(guān)事務(wù)管理局補(bǔ)招臨聘駕駛員3人備考考試題庫附答案解析
- 2026青海果洛州瑪多縣學(xué)前教育教師招聘12人備考考試題庫附答案解析
- 2026年濟(jì)寧梁山縣事業(yè)單位公開招聘初級(jí)綜合類崗位人員(34人)備考考試試題附答案解析
- 2026上半年黑龍江七臺(tái)河市事業(yè)單位招聘132人參考考試試題附答案解析
- 2026西藏自治區(qū)教育考試院招聘非編工作人員11人筆試備考試題及答案解析
- 炎癥因子風(fēng)暴與神經(jīng)遞質(zhì)紊亂的干細(xì)胞干預(yù)策略
- 欄桿安裝施工方案要點(diǎn)
- 2026年及未來5年中國點(diǎn)膠機(jī)行業(yè)市場深度分析及發(fā)展前景預(yù)測報(bào)告
- 2025四足機(jī)器人場景應(yīng)用發(fā)展藍(lán)皮書簡版
- 2026年1月浙江省高考(首考)英語試題(含答案)+聽力音頻+聽力材料
- 中國大型SUV市場數(shù)據(jù)洞察報(bào)告-
- 太陽能路燈施工組織設(shè)計(jì)
- XRD儀器使用實(shí)操手冊大全
- 司法鑒定機(jī)構(gòu)工作流程及質(zhì)量控制
- 江門流態(tài)固化土施工方案
評論
0/150
提交評論