版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基 因 組 注 釋,1,PPT學(xué)習(xí)交流,基因組測序相關(guān)技術(shù)發(fā)展,2,PPT學(xué)習(xí)交流,2 weeks $1,000,0.01,0.10,1.00,10.00,100.00,1,000.00,10,000.00,100,000.00,$M,Throughput(Gb),Cost of per Human Genome,Innovation of NGS throughput,3Gb,6Gb,20-30Gb,0,20,40,60,80,100,120,240,2007,2008,2009,2010,1990,2001,2012,2007,2010,0.001,Moores Law,更低的價格使得基于
2、測序的科研和臨床應(yīng)用越來越被接受,13 years $3,000,000,000,200Gb-300Gb,測序技術(shù)的發(fā)展帶來測序價格的下降,3,PPT學(xué)習(xí)交流,Illumina / Solexa/GIIx Genetic Analyzer 5095GB / run Illumina / Solexa/HiSeq 200GB / run,Roche / 454 Genome Sequencer FLX 500 Mb / run,Applied Biosystems SOLiD4 100GB / run Applied Biosystems SOLiD/HQ 300GB / run,成熟的二代測序
3、技術(shù)平臺,4,PPT學(xué)習(xí)交流,高通量測序服務(wù),未知基因組測序(De novo genome sequencing) 基因組重測序(Whole genome resequencing),5,PPT學(xué)習(xí)交流,高通量測序服務(wù),外顯子捕獲測序(Target exome capture) 全基因組甲基化測序(DNA methylation sequencing),6,PPT學(xué)習(xí)交流,高通量測序服務(wù),轉(zhuǎn)錄組測序 (RNA-seq sequencing) microRNA測序(microRNA sequencing),7,PPT學(xué)習(xí)交流,高通量測序服務(wù),元基因組測序 (meta-genome sequenc
4、ing) 未知病毒檢測(Unknown virus detecting),8,PPT學(xué)習(xí)交流,兩種測序策略:,基于BAC的方法: 先把基因組打碎成200300kb的片段并制成BAC文庫,再選擇一些BAC進(jìn)一步打碎成3kb左右的小片段,測序并拼接。 全基因組鳥槍法: 把基因組直接打碎成3kb左右的小片段,測序并拼接。,9,PPT學(xué)習(xí)交流,基于BAC的方法,全基因組DNA 隨機(jī)打成大片段 選擇并克隆 大片段排序,選擇 再打碎,克隆,測序,拼接,10,PPT學(xué)習(xí)交流,全基因組鳥槍法,基因組DNA 隨機(jī)打碎 測序并拼接,11,PPT學(xué)習(xí)交流,拼接軟件的新需求,能充分利用正反向測序的配對信息, 避免重復(fù)
5、序列造成的錯誤拼接 能處理數(shù)以百萬甚至千萬計(jì)的數(shù)據(jù) 程序并行化 高效率比對 能逐步拼接,12,PPT學(xué)習(xí)交流,基因組注釋,Sequence,GENESCAN,ORF Finder,GENEMARK,Gene Prediction,Transcription Regulatory Region,Predicted Gene Or Gene,13,PPT學(xué)習(xí)交流,原核( Prokaryote)基因,14,PPT學(xué)習(xí)交流,基因組注釋,Sequence,GENESCAN,ORF Finder,GENEMARK,Gene Prediction,Transcription Regulatory Regio
6、n,Predicted Gene Or Gene,15,PPT學(xué)習(xí)交流,開放閱讀框 ORF (Open Reading Frame),一段序列 從起始密碼子(start codon)開始, 到終止密碼子(stop codon)結(jié)束,而且其中不包含其它終止密碼子。,16,PPT學(xué)習(xí)交流,微生物基因發(fā)現(xiàn)要解決的問題,微生物基因組中 80%-90% 的序列參與編碼 主要問題:如果有兩個或更多重疊的閱讀框,哪一個是基因(假定只可能有一個) 最可靠的方法 同源搜索 (使用 BLAST 或 FASTA等) 主要困難:在無已知同源性信息的情況下尋找基因,17,PPT學(xué)習(xí)交流,預(yù)測軟件 GetORF,WebA
7、ccess Application(Download Emboss),18,PPT學(xué)習(xí)交流,19,PPT學(xué)習(xí)交流,20,PPT學(xué)習(xí)交流,GETORF:Advanced Options,i. Code to use:選擇不同的codon usage table,包含有: (1)Standard (2)Standard (with alternative initiation codons) (3)Vertebrate Mitochondrial (4)Yeast Mitochondrial (5)Mold, Protozoan, Coelenterate Mitochondrial and My
8、coplasma/Spiroplasma (6)Invertebrate Mitochondrial(7)Ciliate Macronuclear and Dasycladacean(8)Echinoderm Mitochondrial(9)Euplotid Nuclear(10)Bacterial(11)Alternative Yeast Nuclear(12)Ascidian Mitochondrial(13)Flatworm Mitochondrial(14)Blepharisma Macronuclear(15)Chlorophycean Mitochondrial(16)Tremat
9、ode Mitochondrial(17)Scenedesmus obliquus(18)Thraustochytrium Mitochondrial,21,PPT學(xué)習(xí)交流,GETORF:Advanced Options,ii.最小的開放閱讀框由多少個核甘酸組成,預(yù)設(shè)值為30,也就是10個氨基酸。 iii.Type of output:可選擇不同的輸入結(jié)果,包含有:(1)Translation of regions between STOP codons(2)Translation of regions between START and STOP codons(3)Nucleic seque
10、nces between STOP codons(4)Nucleic sequences between START and STOP codons(5)Nucleotides flanking START codons(6)Nucleotides flanking initial STOP codons(7)Nucleotides flanking ending STOP codons,22,PPT學(xué)習(xí)交流,fasta gcg phylip embl swiss ncbi nbrf genbank ig codata strider acedb staden text fitch msf c
11、lustal phylip phylip3 asn1,23,PPT學(xué)習(xí)交流,Metagenomics Community Genomics Environmental Genomics,Who is there ? diversity & abundance What they are doing? Metabolic & interaction Why they are there? Ecological relations,Species complexity,Acid mine drainage,1 100 1000 10000,Sea water,Human gut,Soil,The
12、cultivation-independent analysis of the collective genomes of microbial populations obtained directly from the environment,24,PPT學(xué)習(xí)交流,The Complexity of Metagenomics,A,A,B,C,D,A,Isolated genome single source of DNA,Metagenome multiple source of DNA,X,25,PPT學(xué)習(xí)交流,Genome Annotation, Metagenomics ?,Huge
13、Multiple organisms Fragmental,Huge Partial ORFs Wrong ORFs,Q: Solution ?A: Clustering. Protein families Novel families ORF validation,Huge Multiple organisms Uneven coverage,26,PPT學(xué)習(xí)交流,真核生物的基因的完整結(jié)構(gòu)及它的表達(dá)過程,27,PPT學(xué)習(xí)交流,基 因 識 別,找出在一段DNA序列中,是否存在ORF, 亦及“基因”。 判明基因的結(jié)構(gòu), 包括起止位置, 外顯子/內(nèi)含子邊界, 啟動子, polyA區(qū)域, 非轉(zhuǎn)譯區(qū)(
14、UTR)等。 預(yù)測真基因和“假基因”( pseudogene)及可能的剪切位點(diǎn)。,28,PPT學(xué)習(xí)交流,基于同源性的基因預(yù)測法 “從頭開始”(Ab initio)預(yù)測法 綜合使用以上兩種方法: 如TwinScan 其它方法: 如數(shù)字信號處理,Z曲線, 等,基因預(yù)測方法分類,29,PPT學(xué)習(xí)交流,基于序列相似性的基因預(yù)測,將基因組序列與EST(expressed sequence tag,表達(dá)序列標(biāo)記) 或cDNA等相比較(用Sim4等方法), 從而找出與 mRNA相對應(yīng)的區(qū)域。 將基因組序列與蛋白質(zhì)數(shù)據(jù)庫相比較(用 BLASTX等方法),從而找出可能的編碼區(qū)。 將預(yù)測得到的多肽與蛋白質(zhì)數(shù)據(jù)庫相
15、比較 將基因組序列與同源性相近物種的基因組相比較, 找出保守區(qū)域。,30,PPT學(xué)習(xí)交流,優(yōu)點(diǎn): 基于已有的生物學(xué)數(shù)據(jù), 因此結(jié)果更有生物學(xué)意義 缺點(diǎn): 受限于已有的生物學(xué)數(shù)據(jù) 數(shù)據(jù)庫可能存在的誤差 對于相似程度應(yīng)如何定義,基于同源性的基因預(yù)測法優(yōu)缺點(diǎn),31,PPT學(xué)習(xí)交流,同源搜索 Homology Search,a. 序列局部相似比較。試圖發(fā)現(xiàn)有生物意義保守序列,而不一定要全局相似。可以由局部相似得出兩序列可能有相同功能或功能相關(guān)。 b. 比較得到的是相似性,并非同源性,我們必須根據(jù)相似性結(jié)合其他證據(jù)做出判斷。,32,PPT學(xué)習(xí)交流,Blast Web: Application:,33,P
16、PT學(xué)習(xí)交流,如何正確看待比較結(jié)果,BLAST找出的結(jié)果僅僅是表示兩條序列之間有局部相似,與同源性關(guān)系不大,認(rèn)定功能相同或相關(guān)也不是充分的。一定要結(jié)合其他的分析結(jié)果判斷。 BLAST結(jié)果中相似部分需要認(rèn)真仔細(xì)觀察??纯聪嗨频牟糠质巧锷瞎δ苤匾谋J夭糠?,還是一些無關(guān)緊要的重復(fù)序列 結(jié)合已知的信息(比如該蛋白不可能有某種功能和可能有某種功能),注意在比較中排在后面的是否與其他已知信息相符的記錄 統(tǒng)計(jì)上有意義與生物上有意義是有差別的,34,PPT學(xué)習(xí)交流,同樣或相似的功能蛋白或基因,35,PPT學(xué)習(xí)交流,與已知的功能相關(guān)之蛋白基因,廣州形象大使首日報名超過500 母女一塊競逐,36,PPT學(xué)習(xí)交
17、流,也有出問題的時候,雖然很相似,但可能沒有什么關(guān)系,37,PPT學(xué)習(xí)交流,38,PPT學(xué)習(xí)交流,注意一,Blast No Hits 并不是表明找不到同源 accaggttacccggttaaccttacccagatttac | | | | | accaggtaaccaggttaactttactcagatttac 默認(rèn)WordSize=11,如果找不到11個完全匹配的就無法延伸出Hits 可以修改WordSize,但是wordsize越小會導(dǎo)致搜索速度慢找到無用的匹配也會增多,解決方案: PatternHunter, ssearch(fasta),39,PPT學(xué)習(xí)交流,注意二:,通過同源比對進(jìn)
18、行蛋白功能注釋: Gene Duplication引入的同源比對判斷誤差,并不是匹配分?jǐn)?shù)最高的就是功能類似,解決方案:需要引入物種進(jìn)化樹輔助判斷,40,PPT學(xué)習(xí)交流,隱馬科夫模型(Hidden Markov Model, HMM)* 人工神經(jīng)網(wǎng)絡(luò)(Neural Network) 動態(tài)規(guī)劃法 決策樹 語言學(xué)方法 線性判別法,“從頭開始”基因預(yù)測法:,41,PPT學(xué)習(xí)交流,GENE Prediction,GENESCAN GENEMARK FGENESH,42,PPT學(xué)習(xí)交流,GeneScan,43,PPT學(xué)習(xí)交流,GeneScan,44,PPT學(xué)習(xí)交流,GeneScan,45,PPT學(xué)習(xí)交流,GeneMark,46,PPT學(xué)習(xí)交流,GeneMark,47,PPT學(xué)習(xí)交流,GeneMark,48,PPT學(xué)習(xí)交流,FGENESH,49,PPT學(xué)習(xí)交流,FGENESH,50,PPT學(xué)習(xí)交流,FGENESH,51,PPT學(xué)習(xí)交流,52,PPT學(xué)習(xí)交流,53,PPT學(xué)習(xí)交流,54,PPT學(xué)習(xí)交流,UCSC Genome Browser,55,PPT學(xué)習(xí)交流,Sequence and Analysis of Rice Chromosome 4,56,PPT學(xué)習(xí)交流,57,PPT學(xué)習(xí)交流,General structural features of rice chromosome 4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年翠屏區(qū)敘戎社會工作服務(wù)中心招聘工作人員大??蛇M(jìn)五險一金備考題庫及一套答案詳解
- 2026年黔西市水西中學(xué)招聘各學(xué)科教師備考題庫及參考答案詳解1套
- 2026年西華大學(xué)美術(shù)與設(shè)計(jì)學(xué)院碩士教師招聘備考題庫及答案詳解1套
- 2026年月份編外招聘備考題庫及一套答案詳解
- 塔里木大學(xué)2026專任教師公開招聘備考題庫及完整答案詳解一套
- 中學(xué)學(xué)生社團(tuán)活動檔案管理制度
- 2026年玉環(huán)市流動人口服務(wù)中心招聘流動人口專管員備考題庫及完整答案詳解1套
- 2026年英德市浛洸醫(yī)院(英德市醫(yī)療衛(wèi)生共同體浛洸分院)合同聘用制人員招聘備考題庫及1套參考答案詳解
- 中誠建川(涼山)電力有限公司公開招聘20名工作人員備考題庫及答案詳解1套
- 養(yǎng)老院老人康復(fù)設(shè)施維修人員晉升制度
- 2026年國家電網(wǎng)招聘之電網(wǎng)計(jì)算機(jī)考試題庫500道有答案
- 年味課件教學(xué)課件
- 中國臨床腫瘤學(xué)會(csco)胃癌診療指南2025
- 廣東省廣州市2025年上學(xué)期八年級數(shù)學(xué)期末考試試卷附答案
- 手機(jī)鋪貨協(xié)議書
- 2025年新能源停車場建設(shè)項(xiàng)目可行性研究報告
- 2025年物業(yè)管理中心工作總結(jié)及2026年工作計(jì)劃
- 馬路切割承包協(xié)議書
- 學(xué)??剌z保學(xué)工作流程及四書一表一單
- 塔吊拆除應(yīng)急預(yù)案
- 20052-2024電力變壓器能效限定值及能效等級
評論
0/150
提交評論