版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué), 2015.09.30,高通量測序技術(shù)及數(shù)據(jù)分析介紹,高通量測序技術(shù)及數(shù)據(jù)分析介紹,背景介紹 第一代測序技術(shù) 第二代(高通量)測序技術(shù) 基因芯片與高通量測序的比較 高通量測序技術(shù)的應(yīng)用 高通量測序數(shù)據(jù)分析概覽 高通量測序數(shù)據(jù)質(zhì)量評估與過濾 基因組測序 rna-seq chip-seq ucsc genome bioinformatics,背景介紹,背景介紹,第一代測序技術(shù) sanger測序法 鏈終止法 雙脫氧終止法 1975年,transcription,frederick sanger 弗雷德里克桑格 1918年8月13日2013年11月19日 1958年 諾貝爾化學(xué)獎 1980
2、年 諾貝爾化學(xué)獎,背景介紹,第二代測序技術(shù) 邊合成邊測序 2005年左右 sequencing by synthesis 代表性測序技術(shù) illumina/solexa roche/454 abi/solid polonator heliscope 參考文獻(xiàn) metzker, m.l. (2010). sequencing technologies - the next generation. nat rev genet 11, 31-46.,illumina hiseq 2500,背景介紹,高通量測序文庫構(gòu)建 單末端測序,single-end 首先將dna樣本進行片段化處理形成200-500
3、bp的片段,引物序列連接到dna片段的一端,然后末端加上接頭,將片段固定在flowcell上生成dna簇,上機測序單端讀取序列。 雙末端測序,paired-end 在構(gòu)建待測dna文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后,去除第一輪測序的模板鏈,引導(dǎo)互補鏈在原位置再生和擴增,以達(dá)到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序。,背景介紹,以illumina為例簡單介紹測序原理,illumina hiseq 2500,cbot,背景介紹,高通量測序數(shù)據(jù)格式 fasta 序列文件的第一行是由大于符號()打頭的任意文字說明,主要為標(biāo)記序列用。從第二行開始是序列本身,標(biāo)準(zhǔn)核
4、苷酸符號,通常核苷酸符號大小寫均可 fastq 第一行由開始,后面跟著序列的描述信息,這點跟fasta格式是一樣的;第二行是序列;第三行由+開始,后面也可以跟著序列的描述信息;第四行是第二行序列的質(zhì)量評價(quality values),字符數(shù)跟第二行的序列是相等的。,背景介紹,高通量測序數(shù)據(jù)格式 fastq,q =-10 log10(p) or q =-10 log10p/(1-p) (p:堿基錯誤率) 字符的ascii值 - 64 = 質(zhì)量值 or 字符的ascii值 - 33 = 質(zhì)量值 ncbi/sanger or illumina 1.8 and later. using a phr
5、ed scale encoded using ascii 33 to 93. this is the standard for fastq formats except for the early illumina data formats (this changed with version 1.8 of the illumina pipeline). illumina pipeline 1.2 and earlier. using a solexa/illumina scale (-5 to 40) using ascii 59 to 104. the workbench automati
6、cally converts these quality scores to the phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). illumina pipeline 1.3 and 1.4. using a phred scale using ascii 64 to 104. illumina pipel
7、ine 1.5 to 1.7. using a phred scale using ascii 64 to 104. values 0 () and 1 (a) are not used anymore. value 2 (b) has special meaning and is used as a trim clipping. this means that when selecting illumina pipeline 1.5 and later, the reads are trimmed when a b is encountered in the input file if th
8、e trim reads option is checked. 36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35,基因芯片與高通量測序的比較,芯片與測序比較,基因芯片 約20年的歷史,技術(shù)比較成熟,成本相對較低 原理 探針,互補配對的原則 靶序列用熒光標(biāo)記 通過熒光強度間接反映靶序列的數(shù)量 應(yīng)用 檢測已知基因的表達(dá)水平 檢測snp位點的基因型 檢測cnv,芯片與測序比較,高通量測序 約10年的歷史,發(fā)展快速,成本逐步減少
9、 原理 邊合成邊測序 堿基用熒光基團標(biāo)記 直接測定堿基序列 應(yīng)用 全基因組測序 轉(zhuǎn)錄組測序 (small rna seq, rna-seq),可以檢測已知基因的表達(dá)水平,可以發(fā)現(xiàn)全新的轉(zhuǎn)錄本 chip-seq clip-seq, ,芯片與測序比較,用高通量測序技術(shù)和基因芯片技術(shù)檢測基因表達(dá),malone, j.h., and oliver, b. (2011). microarrays, deep sequencing and the true measure of the transcriptome. bmc biol 9, 34.,高通量測序技術(shù)的應(yīng)用,測序應(yīng)用,高通量測序數(shù)據(jù)分析概覽,測
10、序應(yīng)用,quality assessment,raw data,fastqc; fastx_quality_stats,remove adaptor / linker,fastx_trimmer,fastx_clipper,split according to barcode,fastx_barcode_splitter.pl fastx_trimmer,quality control,fastq_quality_trimmer fastq_quality_filter,further analysis,高通量測序數(shù)據(jù)質(zhì)量評估與過濾,fastqc fastx-toolkit,測序應(yīng)用,全基因組
11、de novo測序 第一期:基因組調(diào)研圖 整體測序深度不低于20倍覆蓋度。進行初步的數(shù)據(jù)分析,對基因組大小,gc含量等做出初步評估,確定框架圖梯度文庫構(gòu)建具體策略 第二期:基因組框架圖 基因組覆蓋度達(dá)到90% 以上,基因區(qū)覆蓋度達(dá)到95% 以上,單堿基的錯誤率達(dá)到1萬分之一以內(nèi),整體測序覆蓋深度不低于60倍覆蓋度。同時對框架圖進行基本基因注釋和功能注釋,和簡單的比較基因組學(xué)分析。 第三期:基因組精細(xì)圖 基因組覆蓋度達(dá)到95% 以上,基因區(qū)覆蓋度達(dá)到98% 以上,單堿基的錯誤率達(dá)到10萬分之一以內(nèi),整體基因組覆蓋度不低于100倍,scaffold n50大小不低于300kb,對基因組精細(xì)圖進行詳
12、細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。,全基因組de novo測序數(shù)據(jù)拼接組裝算法流程,de bruijn graph (德布魯因圖),測序應(yīng)用,全基因組重測序(外顯子組測序)算法流程 發(fā)現(xiàn)遺傳變異(snp,indel等),測序應(yīng)用,測序應(yīng)用,轉(zhuǎn)錄組測序 small rna seq 檢測small rna(主要是mirna)的表達(dá)水平 發(fā)現(xiàn)新的small rna rna-seq poly(a) 檢測蛋白質(zhì)編碼基因的可變剪切體及表達(dá)水平 total rna(except rrna) 檢測mrna及l(fā)ong noncoding rna的表達(dá)水平 發(fā)現(xiàn)新的long nonco
13、ding rna 數(shù)據(jù)分析工具 bowtie (http:/bowtie- tophat (/software/tophat/index.shtml) cufflinks (/),測序應(yīng)用,rna-seq數(shù)據(jù)分析工具 bowtie bowtie is an ultrafast, memory-efficient short read aligner geared toward quickly aligning large sets of short dna sequences (reads) to lar
14、ge genomes. tophat tophatis a fast splice junction mapper for rna-seq reads. cufflinks cufflinksassembles transcripts, estimates their abundances, and tests fordifferential expression andregulationin rna-seq samples.,cole trapnell: tophat(2009), cufflinks(2010) phd steven salzberg, university of mar
15、yland lior pachter, university of california,berkeley postdoc join rinns lab, the broad institute,測序應(yīng)用,overview of tophat,測序應(yīng)用,splicing junctions,exon skippingorcassette exon,mutually exclusive exons,alternative donor site,alternative acceptor site,intron retention,測序應(yīng)用,tophat: discovering splice ju
16、nctions tophat v1.0.7 earlier seed-and-extend alignment tophat v1.0.7 and later suppose s is a read of length l that crosses a splice junction splits s into n segments, n=floor(l/k), (k=25bp) maps the segments s1,sn with bowtie to the genome segments si, si+1 that both align to the genome, but not a
17、djacently a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.,測序應(yīng)用,tophat: discovering splice junctions tophat v1.0.7 and later a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.,si-1,si+1,si,si,m bp,k-m bp,m=
18、1,24,m=12,測序應(yīng)用,overview of cufflinks,測序應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 偏序關(guān)系與偏序集合 partial order and partially ordered set 偏序關(guān)系 偏序(亦稱半序)關(guān)系是定義在集合上的一種序結(jié)構(gòu),是集合上滿足一定條件的二元關(guān)系。 直觀的說,偏序指集合中僅有部分成員之間可以排序。 全序關(guān)系 在集合a中,存在偏序關(guān)系“” ,如果對于任意aa,ba, 有a b或b a,即a中的每對元素都滿足關(guān)系“”,則集合a上的偏序“” 是全序的或線性次序的。直觀來說,全序指集合中全體成員之間都可以進行比較,可以排出所有元素的順序。 偏序集
19、合 指配備了偏序關(guān)系的集合,測序應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 偏序關(guān)系 非嚴(yán)格偏序,自反偏序 給定集合s,“”是s上的二元關(guān)系,若“”滿足: 自反性:as,有aa; 反對稱性:a,bs,ab且ba,則a=b; 傳遞性:a,b,cs,ab且bc,則ac; 則稱“”是s上的非嚴(yán)格偏序或自反偏序 嚴(yán)格偏序,反自反偏序 給定集合s,“”是s上的二元關(guān)系,若“”滿足: 反自反性:as,有aa; 非對稱性:a,bs,ab ba; 傳遞性:a,b,cs,ab且bc,則ac; 則稱“”是s上的嚴(yán)格偏序或反自反偏序。,測序應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 偏序集合 鏈 偏序集合的子集,滿足其中任意兩個元
20、素可比 反鏈 偏序集合的子集,滿足其中任意兩個元素不可比 鏈劃分 將偏序集合拆分成很多子集稱作劃分。 子集全為鏈的劃分叫做鏈劃分 子集全為反鏈的劃分叫反鏈劃分。 偏序集合的兩個對偶定理 定理1 令(s,)是一個有限偏序集,并令r是其最大鏈的大小。則s可以被劃分成r個但不能再少的反鏈。 定理2 (dilworth定理) 令(s,)是一個有限偏序集,并令m是反鏈的最大的大小。則s可以被劃分成m個但不能再少的鏈。,測序應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 二分圖 指頂點可以分成兩個不相交的集使得在同一個集內(nèi)的頂點不相鄰(沒有共同邊)的圖。 設(shè)g=(v,e)是一個無向圖,如果頂點v可分割為兩個互不相交的
21、子集(u,v),并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個頂點i和j分別屬于這兩個不同的頂點集(i in u,j in v),則稱圖g為一個二分圖。,測序應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 二分圖 最大匹配 給定一個二分圖g,在g的一個子圖m中,m的邊集中的任意兩條邊都不依附于同一個頂點,則稱m是一個匹配. 選擇這樣的邊數(shù)最大的子集稱為圖的最大匹配(maximal matching) 最小點覆蓋 給定一個二分圖g,在g的一個子圖n中,n的點集中的點與所有的邊都有關(guān)聯(lián)(把所有的邊都覆蓋),則稱n是一個點覆蓋 選擇這樣的點數(shù)最小的子集稱為圖的最小點覆蓋(minimum vertex cover),測序
22、應(yīng)用,轉(zhuǎn)錄本拼接算法中涉及到的概念 二分圖 最大匹配 最小點覆蓋 knig定理:最大匹配數(shù)等于最小點覆蓋數(shù),測序應(yīng)用,轉(zhuǎn)錄本拼接 definition transcript primary transcript genomic location transcriptome transcription loci the genomic location of a transcript tgg does not overlap the genomic location of any transcript u where uhg and hg. transcription locus is not
23、biological.,測序應(yīng)用,轉(zhuǎn)錄本拼接 cufflinks is designed to aim for the following: (1) every fragment is consistent with at least one assembled transcript. (2) every transcript is tiled by reads. (3) the number of transcripts is the smallest required to satisfy requirement (1).,測序應(yīng)用,轉(zhuǎn)錄本拼接 a partial order on fra
24、gment alignments,x1 and y1 are compatible,x2 and y2 are incompatible,y3 is nested in x3,x4 is uncertain, because y4 and y5 are incompatible with each other.,測序應(yīng)用,轉(zhuǎn)錄本拼接 assembling a parsimonious set of transcripts,assemble a set of transcripts,find a minimum partition p into chains,find a maximum antichain,find a maximum matching in bipartite graph,find a minimum vertex cover,knigs theorem,dilworth theorem,hopcroft-karp algorithm,測序應(yīng)用,轉(zhuǎn)錄本表達(dá)量的表示方法 rpkm (reads per kilobase of transcript per million mapped reads),實例:假設(shè)一個物種的基因組上只有兩個基因,基因g1的外顯子長8 kb,基因g2的外顯子長2 kb。對該物種的一個樣本做rna-seq,共得到23 millions 的r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來五年醫(yī)療監(jiān)護儀行業(yè)市場營銷創(chuàng)新戰(zhàn)略制定與實施分析研究報告
- 未來五年拉幅定形機企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報告
- 2025年播音主持專業(yè)理論考試形式試題及真題
- 公司防火培訓(xùn)課件
- 公司道德教育培訓(xùn)課件
- 電影導(dǎo)演情緒調(diào)節(jié)技巧提升
- 商務(wù)禮儀培訓(xùn)課件
- 2025年下半年全國教師資格統(tǒng)考幼兒園《保教知識與能力》真題及解析
- 空客A320培訓(xùn)課件
- 新聞記者培訓(xùn)
- 鉆井公司冬季安全培訓(xùn)內(nèi)容課件
- 瓶裝礦泉水代工協(xié)議書
- 2026年浙江高考數(shù)學(xué)考試卷含答案
- 炎德·英才·名校聯(lián)考聯(lián)合體2026屆高三年級1月聯(lián)考生物試卷(含答及解析)
- 2025年7月新疆普通高中學(xué)業(yè)水平考試化學(xué)試卷(含答案及解析)
- 2025中國遠(yuǎn)洋海運集團內(nèi)部招聘中遠(yuǎn)海運能源運輸股份有限公司招聘筆試參考題庫附帶答案詳解(3卷)
- 2026年工程材料企業(yè)物資采購人員考試大綱
- 硅素行業(yè)分析報告
- 2025內(nèi)蒙古鄂爾多斯市委政法委所屬事業(yè)單位引進高層次人才3人模擬筆試試題及答案解析
- 跆拳道訓(xùn)練服裝要求規(guī)范
- 《物流安全培訓(xùn)》課件
評論
0/150
提交評論