版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三章第三章 核酸序列獲取核酸序列獲取比對及結(jié)構(gòu)預(yù)測比對及結(jié)構(gòu)預(yù)測醫(yī)學(xué)科學(xué)實(shí)驗(yàn)中心 尹富強(qiáng)2本章內(nèi)容本章內(nèi)容 第一節(jié)第一節(jié) 核酸數(shù)據(jù)的獲取核酸數(shù)據(jù)的獲取 第二節(jié)第二節(jié) 序列比對序列比對 第三節(jié)第三節(jié) 序列特征分析序列特征分析3實(shí)驗(yàn)實(shí)驗(yàn)生物學(xué)生物學(xué)生物信生物信息學(xué)息學(xué)理論理論生物學(xué)生物學(xué)456基因組學(xué)其他組學(xué)生物信息學(xué)基礎(chǔ)紐帶78核酸核酸脫氧核糖核酸脫氧核糖核酸(DNA)核糖核酸核糖核酸(RNA) 功能:功能:是細(xì)胞內(nèi)攜帶遺傳信息的物質(zhì),在是細(xì)胞內(nèi)攜帶遺傳信息的物質(zhì),在生物體的遺傳、變異和蛋白質(zhì)的生物合成中具生物體的遺傳、變異和蛋白質(zhì)的生物合成中具有極其重要的作用。有極其重要的作用。核酸:遺傳信
2、息攜帶著核酸:遺傳信息攜帶著9真核生物真核生物:DNA RNA:DNA RNA原核生物原核生物:DNA RNA:DNA RNA大多數(shù)病毒大多數(shù)病毒:DNA:DNA極少數(shù)病毒極少數(shù)病毒:RNA:RNA遺傳物質(zhì)是遺傳物質(zhì)是DNADNA遺傳物質(zhì)是遺傳物質(zhì)是RNARNA 細(xì)胞生物細(xì)胞生物非細(xì)胞生物非細(xì)胞生物HIV、SARS病毒、流感病毒、病毒、流感病毒、煙草花葉病毒、車前草病毒等煙草花葉病毒、車前草病毒等10Biology Neil Campbell,Version 4,199611核酸組成核酸組成12DNARNA堿堿基基腺嘌呤腺嘌呤(adennine,A)鳥嘌呤鳥嘌呤(guanine,G)胞嘧啶胞嘧
3、啶(cytosine,C)胸腺嘧啶胸腺嘧啶(thymine,T)腺嘌呤腺嘌呤鳥嘌呤鳥嘌呤胞嘧啶胞嘧啶尿嘧啶尿嘧啶(Uracil,U) 戊戊糖糖脫氧核糖脫氧核糖核糖核糖磷磷酸酸磷酸磷酸磷酸磷酸核苷酸的基本組成單位核苷酸的基本組成單位1314基因不同基因不同核酸序列核酸序列A, G, C, T 不同不同15第一節(jié)第一節(jié) 核酸數(shù)據(jù)的獲取核酸數(shù)據(jù)的獲取16實(shí)驗(yàn)手段獲取核酸序列實(shí)驗(yàn)手段獲取核酸序列17 先把基因組打碎成先把基因組打碎成200300kb的片段并制成的片段并制成BAC文文庫,再選擇一些庫,再選擇一些BAC進(jìn)一步打碎成進(jìn)一步打碎成3kb左右的小片段,左右的小片段,測序并拼接測序并拼接(BAC克
4、隆的覆蓋率不應(yīng)低于克隆的覆蓋率不應(yīng)低于3倍倍),。 把基因組直接打碎成把基因組直接打碎成3kb左右的小片段,測序并拼接。左右的小片段,測序并拼接。18 已形成了一條世界第六、亞洲最大的基因組測序已形成了一條世界第六、亞洲最大的基因組測序技術(shù)平臺,共有技術(shù)平臺,共有MegaBACE測序儀測序儀104臺,臺,ABI3730測序儀測序儀2臺,臺,ABI377測序儀測序儀11臺,滿負(fù)荷臺,滿負(fù)荷運(yùn)轉(zhuǎn)日產(chǎn)可達(dá)運(yùn)轉(zhuǎn)日產(chǎn)可達(dá)50Mb,是一個低投入、高產(chǎn)出,高是一個低投入、高產(chǎn)出,高度自動化的測序平臺。度自動化的測序平臺。 中國基因組測序情況中國基因組測序情況19我國測序能力的“三級跳” 人類基因組計(jì)劃1%項(xiàng)
5、目的finishing (1999年) 中-丹合作的家豬基因組計(jì)劃 (2000年) 水稻工作框架圖的繪制和公布 (2001年) 標(biāo)志著我國已掌握了國際先進(jìn)的測序技術(shù),具有相當(dāng)?shù)臏y序能力。 測序能力和質(zhì)量已達(dá)到國際一流水平 ,以獨(dú)立承擔(dān)大規(guī)模的基因組測序項(xiàng)目 我國已經(jīng)成為繼美國之后世界上第二個具有獨(dú)立完成大規(guī)模的全基因組測序和組裝分析能力的國家20通過生物信息學(xué)手段通過生物信息學(xué)手段獲取核酸序列獲取核酸序列212223242526以以NCBINCBI數(shù)據(jù)庫為例數(shù)據(jù)庫為例 學(xué)習(xí)如何獲取核酸序列及序列相關(guān)信息學(xué)習(xí)如何獲取核酸序列及序列相關(guān)信息/ht
6、tp://genbank/NCBI GenBank 27什么時(shí)候需要利用生物 信息學(xué)獲取序列信息 基因克?。≒CR,RACE) 表達(dá)檢測 (RT-qPCR,RT-PCR) 基因表達(dá)調(diào)控 (基因過表達(dá)或沉默表達(dá)) 原核表達(dá)蛋白 序列同源性分析28CCL212930313233CCL2134當(dāng)前可查103條基因組相關(guān)基因99條可查看SNP11條基因定義染色體定位基因組參考序列號選擇物種35363738394041424344基因基本信息的總結(jié)基因基本信息的總結(jié)45基因基本信息的總結(jié)基因基本信息的總結(jié)基因與染色體、基因組相關(guān)信息基因與染色體、基因組相關(guān)信息46
7、基因相關(guān)參考文獻(xiàn)基因相關(guān)參考文獻(xiàn)基因功能相關(guān)參考文獻(xiàn)47表型變異和艾滋病相關(guān)48相關(guān)通路和其他基因的互做49基因基本信息基因基本信息同源性同源性基因本體注釋(基因本體注釋(GO 分類)分類)50Gene Ontology(GO分類)分類) Gene Ontology包含了包含了基因參與的生物過程基因參與的生物過程,所處的,所處的細(xì)細(xì)胞位置胞位置,發(fā)揮的分子功能發(fā)揮的分子功能三方面功能信息,并將概念三方面功能信息,并將概念粗細(xì)不同的功能概念組織成粗細(xì)不同的功能概念組織成DAG(有向無環(huán)圖)的結(jié)(有向無環(huán)圖)的結(jié)構(gòu)。構(gòu)。 Gene Ontology是一個使用有控制的詞匯表和嚴(yán)格定義是一個使用有控制
8、的詞匯表和嚴(yán)格定義的概念關(guān)系,以有向無環(huán)圖的形式統(tǒng)一表示各物種的的概念關(guān)系,以有向無環(huán)圖的形式統(tǒng)一表示各物種的基因功能分類體系,從而基因功能分類體系,從而較全面地概括了基因的功能較全面地概括了基因的功能信息信息。 在基因表達(dá)譜分析中,在基因表達(dá)譜分析中,GO常用于常用于提供基因功能分類標(biāo)提供基因功能分類標(biāo)簽和基因功能研究的背景簽和基因功能研究的背景知識。利用知識。利用GO的知識體系和的知識體系和結(jié)構(gòu)特點(diǎn),旨在發(fā)掘與基因差異表達(dá)現(xiàn)象關(guān)聯(lián)的單個結(jié)構(gòu)特點(diǎn),旨在發(fā)掘與基因差異表達(dá)現(xiàn)象關(guān)聯(lián)的單個特征基因功能類或多個特征功能類的組合。特征基因功能類或多個特征功能類的組合。5152基因編碼蛋白的基本信息基因
9、編碼蛋白的基本信息53參考序列信息參考序列信息mRNA和編碼蛋白序列信息和編碼蛋白序列信息基因組相關(guān)序列信息基因組相關(guān)序列信息5455CCL21CCL21核酸序列核酸序列CCL21 mRNA登錄號登錄號CCL21 編碼蛋白編碼蛋白CCL21登錄號登錄號56什么是登錄號(什么是登錄號(accession number)?An accession number is label that used to identify a sequence. It is a string of letters and/or numbers that corresponds to a molecular sequ
10、ence. ExamplesX02775GenBank genomic DNA sequenceNT_030059Genomic contigRs7079946dbSNP (single nucleotide polymorphism)N91759.1An expressed sequence tag (1 of 170)NM_006744RefSeq DNA sequence (from a transcript)NP_007635RefSeq proteinAAC02945GenBank proteinQ28369SwissProt protein1KT7Protein Data Bank
11、 structure recordproteinDNARNA57NCBIs important RefSeq project: best representative sequencesRefSeq (accessible via the main page of NCBI)provides an expertly curated accession number thatcorresponds to the most stable, agreed-upon “reference”version of a sequence. RefSeq identifiers include the fol
12、lowing formats:Complete genomeNC_#Complete chromosomeNC_#Genomic contigNT_#mRNA (DNA format)NM_# e.g. NM_006744ProteinNP_# e.g. NP_00673558CCL21CCL21核酸序列核酸序列CCL21 mRNA登錄號登錄號CCL21 編碼蛋白編碼蛋白CCL21登錄號登錄號59基基因因序序列列信信息息基基因因相相關(guān)關(guān)信信息息60Genbank格式注解格式注解61LOCUS條目名稱(標(biāo)識符)DEFINITION序列的定義,說明ACCESSION序列編號,具有唯一性和永久性VE
13、RSION版本KEYWORDS由序列提交者提供,包括序列的基因產(chǎn)物及相關(guān)信息SOURSE序列來源,說明序列的來源物種,來源組織等REFERENCE和序列相關(guān)的文獻(xiàn),包括題目,作者等信息FEATURES具有特定格式,包含大量的信息和內(nèi)容,用來詳細(xì)描述序列特性及相關(guān)內(nèi)容BASE COUNT堿基組成ORIGIN堿基序列,并以 / 作為序列條目結(jié)束的標(biāo)記序列文件的主要結(jié)構(gòu):6263FEATURES具有特定格式,包含大量的信息和內(nèi)容,用來詳細(xì)描述序列特性及相關(guān)內(nèi)容64GenBank記錄中特性表中的主要關(guān)鍵詞:關(guān)鍵詞解 釋關(guān)鍵詞解 釋misc_feature生物學(xué)特性無法用特性表關(guān)鍵詞描述的序列promo
14、ter轉(zhuǎn)錄起始區(qū)misc_difference序列特性無法用特性表關(guān)鍵詞描述的序列CAAT_signal真核啟動子上游的CAAT盒,與RNA結(jié)合相關(guān)conflict同一序列在不同研究中在位點(diǎn)或區(qū)域上有差異TATA_signal真核啟動子的TATA盒unsure序列不能確定的區(qū)域-35_signal原核啟動子中的-35框old_sequence該序列對以前的版本做過修訂-10_signal原核啟動子的Pribow盒variation包含穩(wěn)定突變的序列GC_signal真核啟動子的GC盒modified_base修飾過的核苷酸RBS核糖體結(jié)合位點(diǎn)gene已識別為基因或已命名的序列區(qū)域polyA_s
15、ignalRNA轉(zhuǎn)錄本的剪切識別位點(diǎn)misc_signal無法用信號特性關(guān)鍵詞描述的信號序列enhancer增強(qiáng)子65關(guān)鍵詞解 釋關(guān)鍵詞解 釋attenuator與轉(zhuǎn)錄終止有關(guān)的序列CDS蛋白質(zhì)編碼序列terminator轉(zhuǎn)錄終止序列sig_peptide編碼信號肽的序列rep_origin雙鏈DNA復(fù)制起始區(qū)transit_peptide轉(zhuǎn)運(yùn)蛋白編碼序列misc_RNA無法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物mat_peptide編碼成熟肽的序列prim_transcript初始轉(zhuǎn)錄本intron內(nèi)含子precursor_RNA前體RNApolyA_siteRNA轉(zhuǎn)錄本的多聚腺苷酸化位點(diǎn)m
16、RNA信使RNArRNA核糖體RNA5clip前體轉(zhuǎn)錄本中被剪切掉的5端序列tRNA轉(zhuǎn)運(yùn)RNA3 clip前體轉(zhuǎn)錄本中被剪切掉的3端序列scRNA小細(xì)胞質(zhì)RNA5UTR5非翻譯區(qū)snRNA小核RNA3UTRexon3非翻譯區(qū)外顯子snoRNA加工和修飾rRNA的小核RNA66關(guān)鍵詞解 釋關(guān)鍵詞解 釋immunoglobulin_relatedrepeat_unit單個的重復(fù)元件C_region免疫相關(guān)蛋白上的不變區(qū)LTR長末端重復(fù)序列D_segment免疫球蛋白重鏈的可變區(qū),T細(xì)胞受體鏈Satellite衛(wèi)星重復(fù)序列J_ segment免疫球蛋白重鏈、輕鏈以及T細(xì)胞、的結(jié)合鏈misc_bind
17、ing無法描述的核酸序列結(jié)合位點(diǎn)N_ region插入重排免疫球蛋白片段間的核苷酸primer_bind復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點(diǎn)S_ region免疫球蛋白重鏈的開關(guān)區(qū)protein_bind蛋白質(zhì)結(jié)合區(qū)V_ region編碼免疫球蛋白的可變區(qū)N末端的序列STS測序標(biāo)簽位點(diǎn)V_ segment編碼免疫球蛋白的可變區(qū)的序列misc_recomb無法用重組特性關(guān)鍵詞描述的重組事件repeat_region基因組中所包含的重復(fù)序列iDNA通過重組所消除的DNA67關(guān)鍵詞解 釋關(guān)鍵詞解 釋misc_structure無法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級結(jié)構(gòu)或構(gòu)型stem_loop發(fā)夾結(jié)構(gòu)D_loop線粒
18、體中DNA中的取代環(huán)GenBank記錄中特性表中的限定詞記錄中特性表中的限定詞:限定詞含 義限定詞含 義/allele=給定基因的等位基因/codon_start=相對于序列第一個堿基,編碼序列密碼子的偏移量/bound_moiety=嵌合范圍/country=DNA樣本的來源國/cell_type=獲得序列的細(xì)胞類型/db_xref=其他數(shù)據(jù)庫信息的交叉索引號/citation=已被引用的參考文獻(xiàn)數(shù)/direction=DNA復(fù)制方向/clone_lib=獲得序列的克隆文庫/environmental_sample=序列直接從環(huán)境材料中獲得而沒有指明來源物種68限定詞含 義限定詞含 義/ex
19、ception=指明DNA序列未按通常的生物學(xué)規(guī)律翻譯,如RNA編輯/PCR_conditi-ons=描述PCR的反應(yīng)條件/frequency=在種群中發(fā)生變異的頻率/pop_variant=獲得序列的群體變異種名稱/germline如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于未重排DNA/product=序列編碼產(chǎn)物的名稱/insertion_seq=序列來源于某種插入元件/anticodon=tRNA反義密碼子的位置及它所編碼的氨基酸/isolate=序列來源的生物個體/cell_line=獲得序列的細(xì)胞系/lab_host=為擴(kuò)增序列來源物種所用的實(shí)驗(yàn)室宿主/chromos
20、ome=獲得序列的染色體/macronuclear指明DNA來源于染色體分化的大核期/clone=獲得序列的克隆子/note=評論及附加信息/codon=指出與參考密碼子不同的密碼子/organelle=獲得序列的細(xì)胞器/EC_number=序列產(chǎn)物的酶學(xué)編號69限定詞含 義限定詞含 義/cons_splice=區(qū)分內(nèi)含子剪切位點(diǎn)和“5-GT.AG-3”剪切位點(diǎn)/map=相關(guān)特性在基因圖譜上的位置/cultivar=所獲序列植物的栽培變種/mod_base=被修飾堿基的簡寫/dev_stage=序列來源于某種生物的特定發(fā)育階段/number=從53注明遺傳元件的順序/evidence=序列特性
21、來源于實(shí)驗(yàn)還是推理/organism=提供測序用遺傳物質(zhì)的物種的科學(xué)名稱/focus指出在記錄中的來源特性在其他物種中還有不同的來源特性/phenotype=序列特性所導(dǎo)致的表型/function=序列所代表的功能/plasmid=獲得序列的質(zhì)粒名稱/haplotype=序列來源于某種物種的單倍體/protein_id=蛋白質(zhì)的檢索號/isolation_sou-rce=描述序列來源物種的生理、環(huán)境和地理信息/proviral整合在基因組中的前病毒/label=序列特性的俗名/rearranged如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于重排DNA70限定詞含 義限定詞含 義/
22、rpt_family=重復(fù)序列/transposon=轉(zhuǎn)座子/rpt_unit=指明重復(fù)區(qū)域的重復(fù)元件構(gòu)成/variety=獲得序列的生物變種/serotype=同一物種的不同血清學(xué)特征/pseudo假基因/sex=獲得序列的物種性別/replace=表明特性間的間隔序列已被替換/specimen_vou-cher=指明來源物種保存于什么地方/rpt_type=重復(fù)序列的組織方式/strain=獲得序列的菌珠/sequenced_m-ol=獲得序列的分子類型/sub_species=獲得序列的來源物種的亞種/serovar=同一原核生物的血清學(xué)特征/tissue_lib=獲得序列組織庫/spe
23、cific_host= 獲得序列的天然宿主/transgenic指明物種的來源特性是否是轉(zhuǎn)基因受體/standard-name=特性的通用名稱/transl_except=標(biāo)明序列中未按指定密碼子表翻譯的氨基酸的位置/sub_clone=獲得序列的亞克隆71限定詞含 義限定詞含 義/sub_strain=獲得序列的來源微生物亞種/tissue_type=獲得序列組織類型/translation=按通用或指定的密碼子表翻譯的氨基酸序列/transl_table=描述在翻譯中與通用密碼表不同的密碼表/usedin=表明該特性在其他檢索中也被使用/virion病毒顆粒72.73FASTA格式格式FA
24、STA格式第一行是描述行,第一個字符必須是格式第一行是描述行,第一個字符必須是“”字符。字符。隨后的行是序列本身,每行序列不超過隨后的行是序列本身,每行序列不超過80個字符。個字符。序列由標(biāo)準(zhǔn)的序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表。氨基酸和核酸代碼代表。 ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16, reference assemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGA
25、GTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG7475成功提取成功提取CCL21 mRNACCL21 mRNA全長序列全長序列76.77編碼序列編碼序列78成功提取成功提取CCL21 mRNACCL21 mRNA編碼序列編碼序列79第二節(jié)第二節(jié) 序列比對序列比對80什么時(shí)候需要進(jìn)行序列比對 已知某基因的部分核酸序列 已知某基因編碼的蛋白序列獲取基因的全長序列(包括5端和3端
26、非編碼序列的獲得) 已知某基因的cDNA序列 已知某基因的同源序列和 相似序列(兩個序列以上)序列同源性相似性分析,保守序列的分析,及聚類分析的需要等 克隆序列測序后的驗(yàn)證確認(rèn)序列的準(zhǔn)確性 已有一個或多個已知或未知序列81序列比較序列比較 序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進(jìn)行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述 多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。 82相似性相似性(similar
27、ity): 是指一種很直接的數(shù)量關(guān)系數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。序列的相似性83同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于于質(zhì)的判斷質(zhì)的判斷。就是說。就是說A和和B的關(guān)系上,只的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)有是同源序列,或者非同源序列兩種關(guān)系。而說系。而說A和和B的同源性為的同源性為80都是不科都是不科學(xué)的。學(xué)的。生物序列的同源性生物序列的同
28、源性84相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序序列間的相似性越高的話,它們是同源序列的可能性就更高列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。85數(shù)據(jù)庫的搜索 在分子生物學(xué)研究中,對于新測定的堿基序列或由此翻譯得到的氨基酸序列,需要通過數(shù)據(jù)庫搜索,找出具有一定相似性的同源序列,以推測該未知序列可能屬于哪個基因家族,具有哪些生物學(xué)功能。對于氨基酸序列來說,有可能找到已
29、知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫搜索與數(shù)據(jù)庫查詢一樣,是生物信息學(xué)研究中的一個重要工具.86序列比對搜索和雙序列比對序列比對搜索和雙序列比對87NCBI主站點(diǎn):主站點(diǎn): /BLAST/ 對一般用戶來說,目前常用的辦法是通對一般用戶來說,目前常用的辦法是通過過NCBI國際著名生物信息中心的國際著名生物信息中心的BLAST服務(wù)器進(jìn)行搜索。服務(wù)器進(jìn)行搜索。序列比對神器序列比對神器-BLAST88BLAST簡介簡介 BLAST 是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序。 BLAST是“
30、局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫。89BLAST簡介簡介Blast 是一個序列相似性搜索的程序包,其中包含了很多個獨(dú)立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。90NCBIBLAST9192主要的主要的BLAST程序程序程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列Blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫
31、中的序列逐一搜索。Tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對。93數(shù)據(jù)庫簡述nrmonthdbestdbstshtgsyeastE.colipdbkabatvectormitoalugss非冗余的GenBankEMBLDDBJPDB序列,除了EST、STS、GSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的GenbankEMBLDDBJPDB的EST部分非冗余的GenbankEMBLDDBJPDB的STS部分0,1,
32、2階段的高產(chǎn)量基因組序列(3階段完成的HTG序列在nr庫里)酵母的全基因組序列大腸桿菌的全基因組序列由三維結(jié)構(gòu)庫來的核酸序列Kabat的免疫學(xué)相關(guān)序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復(fù)序列翻譯而來,用來遮蔽查詢序列中的重復(fù)片段,基因組勘測序列(Genome Survey Sequence) BLAST的核酸數(shù)據(jù)庫 94NCBIBLAST9596BLAST搜索格式搜索格式(1)FASTA格式格式FASTA格式第一行是描述行,第一個字符必須是格式第一行是描述行,第一個字符必須是“”字符。字符。隨后的行是序列本身,每行序列不超過隨后的行是序列本身,每行序列不超過80個
33、字符。個字符。序列由標(biāo)準(zhǔn)的序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表。氨基酸和核酸代碼代表。 ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16, reference assemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACA
34、CGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG97BLAST搜索格式搜索格式(2)單純序列數(shù)據(jù)輸入格式)單純序列數(shù)據(jù)輸入格式GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG
35、(3)標(biāo)識符格式)標(biāo)識符格式 NC_00001698GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG99結(jié)果頁面結(jié)果頁面100結(jié)果頁面結(jié)果頁面101結(jié)果頁面結(jié)果頁面102結(jié)果頁面結(jié)果頁面103結(jié)果頁面結(jié)果頁面104BLAST程序評價(jià)序列相似性的兩個數(shù)據(jù)Score:使用打分矩陣對匹配的片段進(jìn)行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長
36、、 Score值越大,則相似性越高值越大,則相似性越高 。E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越接近零,越不可能找到其它的匹配序列,其背后的含義就是E值越小,則匹配度越好值越小,則匹配度越好。105E值值(E-Value)P值值(P-Value) BLAST程序中使用了E值而非P值,這主要是從直觀和便于理解的角度考慮。比如E值等于5和10,比P值等于0.993和0.99995更直觀。但是當(dāng)?shù)钱?dāng)E111AATTCCGG222CCGGAATT333GGCCTTAA115116117118119120第三節(jié)第三節(jié)
37、 序列特征分析序列特征分析121什么是基因?什么是基因?基因基因是遺傳信息的物理和功能單位,包含產(chǎn)生一條多肽鏈或功能RNA所必需的全部核苷酸序列。 堿基成對出現(xiàn)堿基成對出現(xiàn): -ATCGGCC-: -ATCGGCC- -TAGCCGG- -TAGCCGG-122基因基因 基因組基因組 任何一條染色體上都帶有許多基任何一條染色體上都帶有許多基因,一條高等生物的染色體上可因,一條高等生物的染色體上可能帶有成千上萬個基因,一個細(xì)能帶有成千上萬個基因,一個細(xì)胞中的全部基因序列及其間隔序胞中的全部基因序列及其間隔序列統(tǒng)稱為列統(tǒng)稱為genomes(基因組)。)。 基因組有兩層意義:基因組有兩層意義:遺傳物
38、質(zhì)遺傳物質(zhì)和和遺傳信息遺傳信息。 要揭開生命的奧秘,就需要從要揭開生命的奧秘,就需要從整體水平整體水平研究基因的存在、基因研究基因的存在、基因的結(jié)構(gòu)與功能、基因之間的相互的結(jié)構(gòu)與功能、基因之間的相互關(guān)系。關(guān)系。 123堿基堿基 + + 脫氧核糖脫氧核糖 + + 磷酸磷酸脫氧核苷酸脫氧核苷酸DNA染色體染色體A,T,C,G構(gòu)成構(gòu)成形形 成成雙雙 鏈鏈蛋蛋白白質(zhì)質(zhì)+基因基因基因就是位于基因就是位于DNA上的上的有效遺傳效應(yīng)的片段有效遺傳效應(yīng)的片段基因基因1 + 基因基因2 + 基因基因3 +-124p基因是一種相對獨(dú)立的遺傳信息單位,這些基因是一種相對獨(dú)立的遺傳信息單位,這些信息單位可以通過各種方
39、式在生物個體之間信息單位可以通過各種方式在生物個體之間進(jìn)行重新組合,并向后代傳遞;進(jìn)行重新組合,并向后代傳遞;p基因是基因是一段一段DNADNA分子分子,遺傳信息貯存在,遺傳信息貯存在DNADNA序序列之中;列之中;p基因的信息內(nèi)容通過相應(yīng)的形式表現(xiàn)出來,基因的信息內(nèi)容通過相應(yīng)的形式表現(xiàn)出來,即指導(dǎo)合成蛋白質(zhì)或即指導(dǎo)合成蛋白質(zhì)或RNARNA,進(jìn)而產(chǎn)生生理功,進(jìn)而產(chǎn)生生理功能,或影響其他基因的表達(dá)。能,或影響其他基因的表達(dá)。 基因具有幾個重要的特征125中心中心法則(法則(The The C Central entral D Dogmaogma) 基因表達(dá)中的信息流基因表達(dá)中的信息流基因功能區(qū)域
40、基因功能區(qū)域 基因按其功能可分為基因按其功能可分為結(jié)構(gòu)基因和和調(diào)控基因: 結(jié)構(gòu)基因結(jié)構(gòu)基因可被轉(zhuǎn)錄形成可被轉(zhuǎn)錄形成mRNAmRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;,并進(jìn)而轉(zhuǎn)譯成多肽鏈; 調(diào)控基因調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。 在在DNADNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框(Open Reading (Open Reading Frame,ORFFrame,ORF) )。 結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的結(jié)構(gòu)基因多
41、含有插入序列,除了細(xì)菌和病毒的DNADNA中中ORFORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因?yàn)榛驗(yàn)閿嗔鸦?,即其編碼序列在,即其編碼序列在DNADNA分子上是不連續(xù)分子上是不連續(xù)的,或被插入序列隔開。的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體斷裂基因被轉(zhuǎn)錄成前體mRNAmRNA,經(jīng)過剪切過程,切除其中非編碼序列經(jīng)過剪切過程,切除其中非編碼序列( (即內(nèi)含子即內(nèi)含子) ),再,再將編碼序列將編碼序列( (即外顯子即外顯子) )連接形成成熟連接形成成熟mRNAmRNA,并翻譯成,并翻譯成蛋白質(zhì)蛋白質(zhì)。127基因的不連續(xù)性基因的不連續(xù)性In
42、tron 和和Exon: 大多數(shù)真核生物蛋大多數(shù)真核生物蛋白質(zhì)基因的編碼順白質(zhì)基因的編碼順序序(Exon)都被或長都被或長或短的非編碼順序或短的非編碼順序(Intron)隔開隔開128129基因序列特征分析主要內(nèi)容基因序列特征分析主要內(nèi)容1301311.1 1.1 遮蔽重復(fù)序列遮蔽重復(fù)序列 在進(jìn)行任何真核生物序列的基因分析之前在進(jìn)行任何真核生物序列的基因分析之前,最好把重復(fù)序列找出來并從序列中除去。最好把重復(fù)序列找出來并從序列中除去。1321.2 1.2 根據(jù)開放讀碼框預(yù)測基因根據(jù)開放讀碼框預(yù)測基因A A 起始密碼子起始密碼子 ATGATG 第一個第一個ATG的確定則依據(jù)的確定則依據(jù)Kozak
43、規(guī)則規(guī)則; Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,所謂所謂Kozak規(guī)則,即第一個規(guī)則,即第一個ATG側(cè)翼序列的堿側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律基分布所滿足的統(tǒng)計(jì)規(guī)律.133 若將第一個若將第一個ATG中的堿中的堿基基A,T,G分別分別標(biāo)為標(biāo)為1, 2, 3位,則位,則Kozak規(guī)則規(guī)則可描述如下:可描述如下:(1)第第4位的偏好堿基為位的偏好堿基為G;(2)ATG的的5端約端約15bp范圍的側(cè)翼序列內(nèi)不含范圍的側(cè)翼序列內(nèi)不含堿基堿基T;(3)在在-3,-6和和-9位置位置,G是偏好堿基;是偏好堿基;(4)除除-3,-6和和-9位,在整個側(cè)翼序列區(qū),位,在整
44、個側(cè)翼序列區(qū),C是偏是偏好堿基。好堿基。134B B 終止密碼子終止密碼子 終止密碼子終止密碼子: TAA, TAG,TGA GC% = 50% 終止密碼子每終止密碼子每 64 bp出現(xiàn)一次;出現(xiàn)一次; GC% 50% 終止密碼子每終止密碼子每100200 bp 出出現(xiàn)一次;現(xiàn)一次; 由于多數(shù)基因由于多數(shù)基因 ORF 均多于均多于50個密碼子,因個密碼子,因此最可能的選擇應(yīng)該是此最可能的選擇應(yīng)該是 ORF 不少于不少于100 個密個密碼子。碼子。135C 3C 3端的確認(rèn)端的確認(rèn) 3端的確認(rèn)主要根據(jù)端的確認(rèn)主要根據(jù)Poly(A)尾序列尾序列,若測試若測試Contig不含不含Poly(A)序列,
45、則根據(jù)序列,則根據(jù)加尾信號序列加尾信號序列“AATAAA”和和BLAST同源性比較結(jié)果共同判斷。同源性比較結(jié)果共同判斷。136開放讀碼框常用軟件開放讀碼框常用軟件ORF finder :(/gorf/orfig.cgi )137138139140Homo sapiens chemokine (C-C motif) ligand 21 (CCL21), mRNANCBI Reference Sequence: NM_002989.3ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCA
46、CCTCACCCTCAGC TCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTT CTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCC AAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCC AGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTG CA
47、GCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACA GGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGAC CCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAA GCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTG CCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自考管理學(xué)原理考試題及答案
- 交通信號燈維修與維護(hù)手冊(標(biāo)準(zhǔn)版)
- 餐飲衛(wèi)生管理與檢查手冊
- 中醫(yī)院特色??平ㄔO(shè)方案
- 餐飲服務(wù)行業(yè)衛(wèi)生與安全操作手冊(標(biāo)準(zhǔn)版)
- 兒童醫(yī)院配套交通規(guī)劃方案
- 小學(xué)陽臺花園布置方案
- 兒童醫(yī)院兒童心理活動空間建設(shè)方案
- 企業(yè)內(nèi)部報(bào)告制度手冊
- 企業(yè)環(huán)保設(shè)施運(yùn)營與維護(hù)手冊(標(biāo)準(zhǔn)版)
- 2026河北石家莊技師學(xué)院選聘事業(yè)單位工作人員36人備考考試試題附答案解析
- 云南省2026年普通高中學(xué)業(yè)水平選擇性考試調(diào)研測試歷史試題(含答案詳解)
- GB 4053.3-2025固定式金屬梯及平臺安全要求第3部分:工業(yè)防護(hù)欄桿及平臺
- 2025年下屬輔導(dǎo)技巧課件2025年
- 企業(yè)法治建設(shè)培訓(xùn)課件
- 2026中央廣播電視總臺招聘124人參考筆試題庫及答案解析
- 眼科護(hù)理與疼痛管理
- 2026年中國聚苯乙烯行業(yè)市場深度分析及發(fā)展前景預(yù)測報(bào)告
- 43-麥肯錫-美的集團(tuán)績效管理模塊最佳實(shí)踐分享
- 航空發(fā)動機(jī)的熱管理技術(shù)
- 電商平臺一件代發(fā)合作協(xié)議
評論
0/150
提交評論