生物信息學(xué)課件_第1頁(yè)
生物信息學(xué)課件_第2頁(yè)
生物信息學(xué)課件_第3頁(yè)
生物信息學(xué)課件_第4頁(yè)
生物信息學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Xinyang

Normal

university第二章DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫(kù)王磊第一節(jié)生物學(xué)基礎(chǔ)Cell:basicunitoflivingsystemsThecentraldogmaofmolecularbiologyGeneticcode:connectionbetweenRNA/DNAandaminoacidCharlesDarwin(1809-1882)wasanEnglishnaturalistandauthor.HisOriginofSpecies(1859)andDecentofMen(1871)exertedastrongimpactinthehistoryofWesternthought.

Inhisbooks,Darwinhypothesizedthatoverthemillenniamanhadevolvedfromlowerformsoflife.Humanswerespecial,notbecauseGodhadcreatedtheminHisimage,butbecausetheyhadsuccessfullyadaptedtochangingenvironmentalconditionsSurvivalofthefittestisthefactorprincipleofthesurvivaloftheformsofplantandanimallifebestfittedforexistingconditions,whilerelatedbutlessfitformseextinctGregorJohannMendel(1822-1884)Between1856and1863Mendelcultivatedandtestedsome29,000

pea

plants

oneinfourpeaplantshad

purebred

recessive

alleles,twooutoffourwere

hybrid

andoneoutoffourwerepurebred

dominant.

Mendel'sLawsofInheritance.1865年奧地利布?。˙runn)基督教修道院的修士GregorJohannMendel,根據(jù)他8年植物雜交實(shí)驗(yàn)的結(jié)果,2月8日在當(dāng)?shù)氐目茖W(xué)協(xié)會(huì)上宣讀題為“植物雜交實(shí)驗(yàn)”的論文,1866年正式發(fā)表在該協(xié)會(huì)的會(huì)刊上。

孟德爾臨終前說:“等著瞧吧,我的時(shí)代總有一天要來臨”

孟德爾定律的二次發(fā)現(xiàn)荷蘭阿姆斯特丹大學(xué)的教授deVries

進(jìn)行了見月草雜交試驗(yàn),發(fā)現(xiàn)F2的分離比為3:1。1900,3,26日其論文“雜種分離法則”發(fā)表在《德國(guó)植物學(xué)會(huì)雜志》(18)83-90;和法國(guó)科學(xué)院的《紀(jì)事錄》(130)845-847。

德國(guó)土賓根大學(xué)的教授Correns,C.E于1900,4,21日閱讀狄夫瑞斯法文版的論文,發(fā)現(xiàn)其結(jié)論和自己的實(shí)驗(yàn)結(jié)果相同,他撰寫了“雜種后代表現(xiàn)方式的孟德爾法則”一文,1900,4,24日發(fā)表在《德國(guó)植物學(xué)會(huì)雜志》(18)158-168。這對(duì)重新發(fā)現(xiàn)孟德爾法則起了重要的作用。奧地利維也納農(nóng)業(yè)大學(xué)的講師Tschermak也作了豌豆雜交試驗(yàn),發(fā)現(xiàn)了分離現(xiàn)象,撰寫了“關(guān)于豌豆的人工雜交”,于1900,6,24日也發(fā)表在《德國(guó)植物學(xué)會(huì)雜志》(18)232-239.三個(gè)人的工作都發(fā)表在《德國(guó)植物學(xué)會(huì)雜志》,都證實(shí)了孟德爾法則,ThomasHuntMorgan(1866-1945)1933NobelPrizeWildtype(red-eyed,w+)DrosophilaeyecolormutationMutant(White-eyed,w)1.發(fā)現(xiàn)了染色體是基因的載體,確立了伴性遺傳規(guī)律2.發(fā)現(xiàn)位于同一染色體上的基因之間的連鎖、交換和不分開等現(xiàn)象3.他創(chuàng)立的基因理論實(shí)現(xiàn)了遺傳學(xué)上的第一次理論綜合

假如你們問我怎么會(huì)有這些發(fā)現(xiàn)……我的回答是:一靠勤奮,……二靠明智地使用各種假說——我所說的“明智”,指的是愿意放棄任何假說,除非能為它們找到可靠的證據(jù),三靠實(shí)驗(yàn)材料得當(dāng),……最后還靠少開些遺傳學(xué)大會(huì)。

托馬斯·亨特·摩爾根在國(guó)際遺傳學(xué)大會(huì)上的主席致辭1962年Nobelprize出生:1916年6月8日

出生地點(diǎn):英國(guó)的北安普敦

1937年他從倫敦大學(xué)畢業(yè)后繼續(xù)攻讀博士學(xué)位F.CrickJ.Watson出生:1928年6月8日

出生地點(diǎn):Chicago

1950年印第安納大學(xué)動(dòng)物學(xué)博士倫敦國(guó)王學(xué)院WilkinsandFranklin劍橋大學(xué)卡文迪實(shí)驗(yàn)室WatsonandCrick(Lawrencebragg)第二節(jié)數(shù)據(jù)庫(kù)二、數(shù)據(jù)庫(kù)(Database)用于收集、整理、儲(chǔ)存、加工、發(fā)布和檢索數(shù)據(jù)的系統(tǒng)。生物類的數(shù)據(jù)庫(kù)種類很多(序列、結(jié)構(gòu)、生物分子互作、其他)投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫(kù)中

數(shù)據(jù)庫(kù)記錄通常包括兩部分

原始數(shù)據(jù)

對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋

一個(gè)數(shù)據(jù)庫(kù)通常鏈接了多個(gè)相關(guān)數(shù)據(jù)庫(kù)

核苷酸數(shù)據(jù)庫(kù)-水稻抗病相關(guān)基因OsDR8

DQ176424Taxonomy數(shù)據(jù)庫(kù)Pubmed數(shù)據(jù)庫(kù)NCBI-Protein數(shù)據(jù)庫(kù)(一)數(shù)據(jù)庫(kù)工具

建立純文本數(shù)據(jù)庫(kù)GenBank數(shù)據(jù)庫(kù)、EMBL核苷酸數(shù)據(jù)庫(kù)

MySQL數(shù)據(jù)庫(kù)工具

SQL(結(jié)構(gòu)化查詢語(yǔ)言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫(kù)語(yǔ)言能夠快速靈活存儲(chǔ)記錄文件和圖像下載網(wǎng)址

AceDB數(shù)據(jù)庫(kù)工具AceDB:AC.elegansDataBase(線蟲數(shù)據(jù)庫(kù))被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具數(shù)據(jù)形式豐富

遺傳圖譜G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011新陳代謝途徑物理圖譜1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(二)各種生物數(shù)據(jù)庫(kù)1、核苷酸數(shù)據(jù)庫(kù)DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集

核苷酸序列直接來源于實(shí)驗(yàn)數(shù)據(jù)

大量氨基酸序列

主要是非實(shí)驗(yàn)來源數(shù)據(jù)codingsequence(CDS)

數(shù)據(jù)庫(kù)種類很多GenBank、EMBL核苷酸數(shù)據(jù)庫(kù)、DDBJ信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫(kù)之間的序列數(shù)據(jù)交換收集了專利的核苷酸序列UnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)

三大核苷酸數(shù)據(jù)庫(kù)(1)GenBank

美國(guó)NCBI的數(shù)據(jù)庫(kù),有部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年發(fā)行(release)六版Release164(2008.12.15)98,868,465entries99,116,431,942basepairs來源于260,000多個(gè)物種大約12%的序列來源于人(Homosapiens)國(guó)際核苷酸序列數(shù)據(jù)庫(kù)合作協(xié)議(InternationalNucleotideSequenceDatabaseCollaboration)收集的核苷酸來源InAugust2005,theINSDCannouncedtheDNAsequencedatabaseexceeded100gigabases.Locusname(位點(diǎn)名)Accessionnumber(注冊(cè)號(hào)或登陸號(hào))GI(GenInfoidentifier) NID(NucleotideID)

每個(gè)序列有一個(gè)flatfile

每條序列有三個(gè)專有的編號(hào)或標(biāo)識(shí)(identifier)LOCUSlineSamplerecord

ThedivisionsofGenBank分支縮寫分支全稱

PRI靈長(zhǎng)類序列(primatesequences)ROD嚙齒類序列(rodentsequences)MAM其它哺乳類序列(othermammaliansequences)VRT其它脊椎動(dòng)物序列(othervertebratesequences)INV無(wú)脊椎動(dòng)物序列(invertebratesequences)PLN植物、真菌和海藻類序列(plant,fungal,andalgalsequences)BCT細(xì)菌序列(bacterialsequences)VRL病毒序列(viralsequences)PHG噬菌體序列(bacteriophagesequences)SYN合成序列(syntheticsequences)(2)dbEST(DatabaseofExpressedSequenceTags)

GenBank的二級(jí)數(shù)據(jù)庫(kù)

5’端或3’端的cDNA序列(EST)200-500bp

‘Single-passread’sequenceGenBank中60%以上的序列是EST(3)UniGene數(shù)據(jù)庫(kù)

NCBI的另一個(gè)核苷酸數(shù)據(jù)庫(kù)來源于同一基因的非重復(fù)EST組成基因序列群人、大鼠、小鼠、斑馬魚、牛、蛙等擬南芥、水稻、小麥、大麥、玉米等共計(jì)80多個(gè)物種UniGene主頁(yè)輸入關(guān)鍵詞檢索(4)dbSTS(DatabaseofSequenceTaggedSites)

GenBank的二級(jí)數(shù)據(jù)庫(kù)

UniSTS短序列(200-500bp),僅在基因組中出現(xiàn)一次已定位于染色體上

如何找到一個(gè)STS

檢索:GenBank主頁(yè)選擇UniSTS后輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容點(diǎn)擊“mv”查看染色體定位(5)dbGSS(DatabaseofGenomeSurveySequences)

GenBank的二級(jí)數(shù)據(jù)庫(kù)基因組短序列

cosmid/BAC/YAC外源插入片段的末端序列

AluPCR序列cosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011(6)HTG(High-ThroughputGenomicSequences)

GenBank的二級(jí)數(shù)據(jù)庫(kù)尚未完成測(cè)序的重疊群(>2kb)的序列

新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming鳥槍法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因組全基因組大?。?30Mb;

每個(gè)Reads讀長(zhǎng)450bp;

故覆蓋每個(gè)水稻基因組所需反應(yīng):100萬(wàn);

覆蓋水稻基因組8X,需要800萬(wàn)反應(yīng);

每個(gè)反應(yīng)的測(cè)序成本為19元,800萬(wàn)反應(yīng)總共需15200萬(wàn)人民幣;

人力費(fèi)800萬(wàn)人民幣。

中國(guó)水稻基因組計(jì)劃的經(jīng)費(fèi)預(yù)算(7)基因組數(shù)據(jù)庫(kù)

NCBI的另一個(gè)數(shù)據(jù)庫(kù)測(cè)序完成和正在測(cè)序物種基因組序列、遺傳圖、物理圖等序列收集在GenBank已經(jīng)完成測(cè)序的基因組(截止2009年2月)

GenomeProject——Statistics(8)dbSNP(DatabaseofSingleNucleotidePolymorphisms)

單核苷酸多態(tài)性數(shù)據(jù)庫(kù)

NCBI的數(shù)據(jù)庫(kù),創(chuàng)建于1998.9約每300bp有一個(gè)SNP

數(shù)據(jù)種類SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)

發(fā)現(xiàn)致病基因、進(jìn)化分析…dbSNP主頁(yè)輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標(biāo)準(zhǔn)堿基多意代碼

(9)EMBL(EuropeanMolecularBiologyLaboratory)

NucleotideSequenceDatabaseEBI(EuropeanBioinformaticsInstitute)管理主要是歐洲國(guó)家產(chǎn)生的DNA和RNA序列序列數(shù)據(jù)文檔格式與GenBank不同數(shù)據(jù)庫(kù)主頁(yè)輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容(11)EPD(EukaryoticPromoterDatabase)

由WeizmannInstituteofScienceinRehovot(Israel)開創(chuàng)4809條真核生物啟動(dòng)子序列(2009.2)人類基因組中的啟動(dòng)子大約19萬(wàn)個(gè)同一個(gè)基因具有多個(gè)啟動(dòng)子2、蛋白質(zhì)數(shù)據(jù)庫(kù)(1)SWISS-PROT由EBI和瑞士創(chuàng)辦有詳細(xì)注釋的序列,數(shù)據(jù)來源于實(shí)驗(yàn)與44個(gè)數(shù)據(jù)庫(kù)相互參照(cross-reference)數(shù)據(jù)庫(kù)主頁(yè)點(diǎn)擊Access在DatabaseAccess網(wǎng)頁(yè)選擇數(shù)據(jù)庫(kù)、輸入關(guān)鍵詞檢索到的條目(2)TrEMBL(TranslationofEMBL)

EBI的數(shù)據(jù)庫(kù)提交到EMBL核苷酸數(shù)據(jù)庫(kù)中所有CDS的氨基酸序列UniProt(UniversalProteinResource)

合并了SWISS-PROT和TrEMBL數(shù)據(jù)庫(kù)

檢索方法與檢索SWISS-PROT相同

數(shù)據(jù)格式(3)PIR(ProteinInformationResource)

由NationalBiomedicalResearchFoundation創(chuàng)辦蛋白質(zhì)家族分類

蛋白質(zhì)整合信息(4)PRF(ProteinResearchFoundation)

由日本的ProteinResearchFoundation創(chuàng)辦已發(fā)表在雜志上的蛋白質(zhì)序列修飾位點(diǎn)、S-S鍵等兩月更新一次(6)Prosite

蛋白質(zhì)家族

結(jié)構(gòu)域(7)SMART

3、結(jié)構(gòu)數(shù)據(jù)庫(kù)(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories創(chuàng)辦

蛋白質(zhì)

核酸

其它55,941個(gè)結(jié)構(gòu)圖(2009.2)

可通過BLAST系統(tǒng)檢索X射線衍射圖、核磁共振(NMR)

光譜圖和電鏡圖(文字和三維結(jié)構(gòu)圖)(2)SWISS-3DIMAGE

蛋白質(zhì)的平面和立體圖

來源于實(shí)驗(yàn)結(jié)果

理論模型(3)預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)

4、酶和代謝數(shù)據(jù)庫(kù)(1)KEGG(KyotoEncyclopediaofGenesandGenomes)

各種代謝、遺傳等路徑圖

可檢索參于各種路徑的基因KEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)

檢索GeneticInformationProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何遺傳信息路徑,如

Proteinexport路徑可以查看參加這一路徑蛋白質(zhì)的信息

檢索EnvironmentalInformationProcessingKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何EnvironmentalInformationProcessing路徑,如

MAPKsignalingpathway路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息

檢索CelluarProcessesKEGG主頁(yè)點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁(yè)點(diǎn)擊任何CellularProcesses路徑,如

Cellcycle路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息(2)PKR(ProteinKinaseResource)

多種檢索內(nèi)容

已知蛋白激酶的序列比較

蛋白激酶分類

蛋白激酶的三維結(jié)構(gòu)

其它參考資料5、物種分類數(shù)據(jù)庫(kù)

物種分類界(Kingdom)

門(Phylum)綱(Class)

目(Order)

科(Family)

屬(Genus)

種(Species)

每一分類等級(jí)下可加設(shè)亞級(jí)(Sub-),如亞門、亞綱、亞科等。

每一分類等級(jí)上可加設(shè)總級(jí)(Super-),如總綱、總目、總科等。動(dòng)物界(Animal)脊索動(dòng)物門(Chordata)

脊椎動(dòng)物亞門(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)

鼠科(Muridae)

小家鼠屬(Mus)小家鼠種(musculus)

舉例:Mouse:MusmusculusHuman:HomosapiensArabidopsis:Arabidopsisthaliana

Taxonomy

擬南芥系譜(lineage)各個(gè)物種的系譜樹在NCBIEntrezTaxonomyHomepage網(wǎng)頁(yè)點(diǎn)擊“tree”在“tree”網(wǎng)頁(yè)點(diǎn)擊任一物種名,如“Eukaryota”真核生物的系譜樹(lineage)6、文獻(xiàn)數(shù)據(jù)庫(kù)

各種雜志、書刊上發(fā)表的文章

大多數(shù)有摘要(1)PubMed

美國(guó)國(guó)家醫(yī)學(xué)圖書館的數(shù)據(jù)庫(kù)

醫(yī)學(xué)

分子生物學(xué)

基礎(chǔ)生物學(xué)4800多種刊物,來源于70多個(gè)國(guó)家

刊物年限:60年代中期至今(2)OMIM(OnlineMendelianInheritanceinMan)NCBI的數(shù)據(jù)庫(kù)人類基因遺傳疾病

每天更新數(shù)據(jù)

條目

(3)Agricola

美國(guó)農(nóng)部農(nóng)業(yè)圖書館的數(shù)據(jù)庫(kù)

農(nóng)業(yè)類刊物7、向數(shù)據(jù)庫(kù)提交和修改核苷酸和蛋白質(zhì)序列提交:Submission修改:Update數(shù)據(jù)庫(kù)中的數(shù)據(jù)由大家無(wú)償提供,共同享用Signedby256researchers(1)向GenBank提交或修改核苷酸序列

BankIt

功能提交序列網(wǎng)上直接提交,簡(jiǎn)單方便提交后立刻得到臨時(shí)編號(hào)一周內(nèi)得到Accessionnumber用Update

功能修改

GenBank中的序列和相關(guān)信息

修改一次,version的編號(hào)就進(jìn)一位

用Sequin方法提交序列

可下載的電子表格

自動(dòng)確定CDS、ORF和查找重復(fù)序列(2)向

SWISS-PROT

提交或修改蛋白質(zhì)序列

網(wǎng)上直接操作

只接收用蛋白質(zhì)直接測(cè)序的序列

由核苷酸序列翻譯得到的蛋白質(zhì)序列

將進(jìn)入TrEMBL第三節(jié)上機(jī)操作

熟悉各種數(shù)據(jù)庫(kù)

例如NCBI、genebank、pfam、SMART.

重點(diǎn)了解GenBank和SWISS-PROT

的各種功能和適用范圍Xa26nucleicacidsequence(DQ426646,6000bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAA…Xa26aminoacidsequence(ABD84047,1103aa):…MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPFCRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…AdamZemla

FourgeneticsignaturesoftheSARSvirus–showninyellow,blue,lightgreen,anddarkgreen–aremappedontoa3-Dproteinmodeloft

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論