基因組注釋詳解課件_第1頁
基因組注釋詳解課件_第2頁
基因組注釋詳解課件_第3頁
基因組注釋詳解課件_第4頁
基因組注釋詳解課件_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基 因 組 注 釋,1,PPT學(xué)習(xí)交流,基因組測序相關(guān)技術(shù)發(fā)展,2,PPT學(xué)習(xí)交流,2 weeks $1,000,0.01,0.10,1.00,10.00,100.00,1,000.00,10,000.00,100,000.00,$M,Throughput(Gb),Cost of per Human Genome,Innovation of NGS throughput,3Gb,6Gb,20-30Gb,0,20,40,60,80,100,120,240,2007,2008,2009,2010,1990,2001,2012,2007,2010,0.001,Moores Law,更低的價格使得基于

2、測序的科研和臨床應(yīng)用越來越被接受,13 years $3,000,000,000,200Gb-300Gb,測序技術(shù)的發(fā)展帶來測序價格的下降,3,PPT學(xué)習(xí)交流,Illumina / Solexa/GIIx Genetic Analyzer 5095GB / run Illumina / Solexa/HiSeq 200GB / run,Roche / 454 Genome Sequencer FLX 500 Mb / run,Applied Biosystems SOLiD4 100GB / run Applied Biosystems SOLiD/HQ 300GB / run,成熟的二代測序

3、技術(shù)平臺,4,PPT學(xué)習(xí)交流,高通量測序服務(wù),未知基因組測序(De novo genome sequencing) 基因組重測序(Whole genome resequencing),5,PPT學(xué)習(xí)交流,高通量測序服務(wù),外顯子捕獲測序(Target exome capture) 全基因組甲基化測序(DNA methylation sequencing),6,PPT學(xué)習(xí)交流,高通量測序服務(wù),轉(zhuǎn)錄組測序 (RNA-seq sequencing) microRNA測序(microRNA sequencing),7,PPT學(xué)習(xí)交流,高通量測序服務(wù),元基因組測序 (meta-genome sequenc

4、ing) 未知病毒檢測(Unknown virus detecting),8,PPT學(xué)習(xí)交流,兩種測序策略:,基于BAC的方法: 先把基因組打碎成200300kb的片段并制成BAC文庫,再選擇一些BAC進(jìn)一步打碎成3kb左右的小片段,測序并拼接。 全基因組鳥槍法: 把基因組直接打碎成3kb左右的小片段,測序并拼接。,9,PPT學(xué)習(xí)交流,基于BAC的方法,全基因組DNA 隨機(jī)打成大片段 選擇并克隆 大片段排序,選擇 再打碎,克隆,測序,拼接,10,PPT學(xué)習(xí)交流,全基因組鳥槍法,基因組DNA 隨機(jī)打碎 測序并拼接,11,PPT學(xué)習(xí)交流,拼接軟件的新需求,能充分利用正反向測序的配對信息, 避免重復(fù)

5、序列造成的錯誤拼接 能處理數(shù)以百萬甚至千萬計(jì)的數(shù)據(jù) 程序并行化 高效率比對 能逐步拼接,12,PPT學(xué)習(xí)交流,基因組注釋,Sequence,GENESCAN,ORF Finder,GENEMARK,Gene Prediction,Transcription Regulatory Region,Predicted Gene Or Gene,13,PPT學(xué)習(xí)交流,原核( Prokaryote)基因,14,PPT學(xué)習(xí)交流,基因組注釋,Sequence,GENESCAN,ORF Finder,GENEMARK,Gene Prediction,Transcription Regulatory Regio

6、n,Predicted Gene Or Gene,15,PPT學(xué)習(xí)交流,開放閱讀框 ORF (Open Reading Frame),一段序列 從起始密碼子(start codon)開始, 到終止密碼子(stop codon)結(jié)束,而且其中不包含其它終止密碼子。,16,PPT學(xué)習(xí)交流,微生物基因發(fā)現(xiàn)要解決的問題,微生物基因組中 80%-90% 的序列參與編碼 主要問題:如果有兩個或更多重疊的閱讀框,哪一個是基因(假定只可能有一個) 最可靠的方法 同源搜索 (使用 BLAST 或 FASTA等) 主要困難:在無已知同源性信息的情況下尋找基因,17,PPT學(xué)習(xí)交流,預(yù)測軟件 GetORF,WebA

7、ccess Application(Download Emboss),18,PPT學(xué)習(xí)交流,19,PPT學(xué)習(xí)交流,20,PPT學(xué)習(xí)交流,GETORF:Advanced Options,i. Code to use:選擇不同的codon usage table,包含有: (1)Standard (2)Standard (with alternative initiation codons) (3)Vertebrate Mitochondrial (4)Yeast Mitochondrial (5)Mold, Protozoan, Coelenterate Mitochondrial and My

8、coplasma/Spiroplasma (6)Invertebrate Mitochondrial(7)Ciliate Macronuclear and Dasycladacean(8)Echinoderm Mitochondrial(9)Euplotid Nuclear(10)Bacterial(11)Alternative Yeast Nuclear(12)Ascidian Mitochondrial(13)Flatworm Mitochondrial(14)Blepharisma Macronuclear(15)Chlorophycean Mitochondrial(16)Tremat

9、ode Mitochondrial(17)Scenedesmus obliquus(18)Thraustochytrium Mitochondrial,21,PPT學(xué)習(xí)交流,GETORF:Advanced Options,ii.最小的開放閱讀框由多少個核甘酸組成,預(yù)設(shè)值為30,也就是10個氨基酸。 iii.Type of output:可選擇不同的輸入結(jié)果,包含有:(1)Translation of regions between STOP codons(2)Translation of regions between START and STOP codons(3)Nucleic seque

10、nces between STOP codons(4)Nucleic sequences between START and STOP codons(5)Nucleotides flanking START codons(6)Nucleotides flanking initial STOP codons(7)Nucleotides flanking ending STOP codons,22,PPT學(xué)習(xí)交流,fasta gcg phylip embl swiss ncbi nbrf genbank ig codata strider acedb staden text fitch msf c

11、lustal phylip phylip3 asn1,23,PPT學(xué)習(xí)交流,Metagenomics Community Genomics Environmental Genomics,Who is there ? diversity & abundance What they are doing? Metabolic & interaction Why they are there? Ecological relations,Species complexity,Acid mine drainage,1 100 1000 10000,Sea water,Human gut,Soil,The

12、cultivation-independent analysis of the collective genomes of microbial populations obtained directly from the environment,24,PPT學(xué)習(xí)交流,The Complexity of Metagenomics,A,A,B,C,D,A,Isolated genome single source of DNA,Metagenome multiple source of DNA,X,25,PPT學(xué)習(xí)交流,Genome Annotation, Metagenomics ?,Huge

13、Multiple organisms Fragmental,Huge Partial ORFs Wrong ORFs,Q: Solution ?A: Clustering. Protein families Novel families ORF validation,Huge Multiple organisms Uneven coverage,26,PPT學(xué)習(xí)交流,真核生物的基因的完整結(jié)構(gòu)及它的表達(dá)過程,27,PPT學(xué)習(xí)交流,基 因 識 別,找出在一段DNA序列中,是否存在ORF, 亦及“基因”。 判明基因的結(jié)構(gòu), 包括起止位置, 外顯子/內(nèi)含子邊界, 啟動子, polyA區(qū)域, 非轉(zhuǎn)譯區(qū)(

14、UTR)等。 預(yù)測真基因和“假基因”( pseudogene)及可能的剪切位點(diǎn)。,28,PPT學(xué)習(xí)交流,基于同源性的基因預(yù)測法 “從頭開始”(Ab initio)預(yù)測法 綜合使用以上兩種方法: 如TwinScan 其它方法: 如數(shù)字信號處理,Z曲線, 等,基因預(yù)測方法分類,29,PPT學(xué)習(xí)交流,基于序列相似性的基因預(yù)測,將基因組序列與EST(expressed sequence tag,表達(dá)序列標(biāo)記) 或cDNA等相比較(用Sim4等方法), 從而找出與 mRNA相對應(yīng)的區(qū)域。 將基因組序列與蛋白質(zhì)數(shù)據(jù)庫相比較(用 BLASTX等方法),從而找出可能的編碼區(qū)。 將預(yù)測得到的多肽與蛋白質(zhì)數(shù)據(jù)庫相

15、比較 將基因組序列與同源性相近物種的基因組相比較, 找出保守區(qū)域。,30,PPT學(xué)習(xí)交流,優(yōu)點(diǎn): 基于已有的生物學(xué)數(shù)據(jù), 因此結(jié)果更有生物學(xué)意義 缺點(diǎn): 受限于已有的生物學(xué)數(shù)據(jù) 數(shù)據(jù)庫可能存在的誤差 對于相似程度應(yīng)如何定義,基于同源性的基因預(yù)測法優(yōu)缺點(diǎn),31,PPT學(xué)習(xí)交流,同源搜索 Homology Search,a. 序列局部相似比較。試圖發(fā)現(xiàn)有生物意義保守序列,而不一定要全局相似。可以由局部相似得出兩序列可能有相同功能或功能相關(guān)。 b. 比較得到的是相似性,并非同源性,我們必須根據(jù)相似性結(jié)合其他證據(jù)做出判斷。,32,PPT學(xué)習(xí)交流,Blast Web: Application:,33,P

16、PT學(xué)習(xí)交流,如何正確看待比較結(jié)果,BLAST找出的結(jié)果僅僅是表示兩條序列之間有局部相似,與同源性關(guān)系不大,認(rèn)定功能相同或相關(guān)也不是充分的。一定要結(jié)合其他的分析結(jié)果判斷。 BLAST結(jié)果中相似部分需要認(rèn)真仔細(xì)觀察??纯聪嗨频牟糠质巧锷瞎δ苤匾谋J夭糠?,還是一些無關(guān)緊要的重復(fù)序列 結(jié)合已知的信息(比如該蛋白不可能有某種功能和可能有某種功能),注意在比較中排在后面的是否與其他已知信息相符的記錄 統(tǒng)計(jì)上有意義與生物上有意義是有差別的,34,PPT學(xué)習(xí)交流,同樣或相似的功能蛋白或基因,35,PPT學(xué)習(xí)交流,與已知的功能相關(guān)之蛋白基因,廣州形象大使首日報名超過500 母女一塊競逐,36,PPT學(xué)習(xí)交

17、流,也有出問題的時候,雖然很相似,但可能沒有什么關(guān)系,37,PPT學(xué)習(xí)交流,38,PPT學(xué)習(xí)交流,注意一,Blast No Hits 并不是表明找不到同源 accaggttacccggttaaccttacccagatttac | | | | | accaggtaaccaggttaactttactcagatttac 默認(rèn)WordSize=11,如果找不到11個完全匹配的就無法延伸出Hits 可以修改WordSize,但是wordsize越小會導(dǎo)致搜索速度慢找到無用的匹配也會增多,解決方案: PatternHunter, ssearch(fasta),39,PPT學(xué)習(xí)交流,注意二:,通過同源比對進(jìn)

18、行蛋白功能注釋: Gene Duplication引入的同源比對判斷誤差,并不是匹配分?jǐn)?shù)最高的就是功能類似,解決方案:需要引入物種進(jìn)化樹輔助判斷,40,PPT學(xué)習(xí)交流,隱馬科夫模型(Hidden Markov Model, HMM)* 人工神經(jīng)網(wǎng)絡(luò)(Neural Network) 動態(tài)規(guī)劃法 決策樹 語言學(xué)方法 線性判別法,“從頭開始”基因預(yù)測法:,41,PPT學(xué)習(xí)交流,GENE Prediction,GENESCAN GENEMARK FGENESH,42,PPT學(xué)習(xí)交流,GeneScan,43,PPT學(xué)習(xí)交流,GeneScan,44,PPT學(xué)習(xí)交流,GeneScan,45,PPT學(xué)習(xí)交流,GeneMark,46,PPT學(xué)習(xí)交流,GeneMark,47,PPT學(xué)習(xí)交流,GeneMark,48,PPT學(xué)習(xí)交流,FGENESH,49,PPT學(xué)習(xí)交流,FGENESH,50,PPT學(xué)習(xí)交流,FGENESH,51,PPT學(xué)習(xí)交流,52,PPT學(xué)習(xí)交流,53,PPT學(xué)習(xí)交流,54,PPT學(xué)習(xí)交流,UCSC Genome Browser,55,PPT學(xué)習(xí)交流,Sequence and Analysis of Rice Chromosome 4,56,PPT學(xué)習(xí)交流,57,PPT學(xué)習(xí)交流,General structural features of rice chromosome 4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論