第二代測序數(shù)據(jù)分析原理_第1頁
第二代測序數(shù)據(jù)分析原理_第2頁
第二代測序數(shù)據(jù)分析原理_第3頁
第二代測序數(shù)據(jù)分析原理_第4頁
第二代測序數(shù)據(jù)分析原理_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第二代測序數(shù)據(jù)分析原理徐汪節(jié)當前第1頁\共有66頁\編于星期三\9點三代DNA測序技術之比較第一代測序技術:Sanger測序法第二代測序技術:454測序……

第三代測序技術:?直接測序法:?2023/5/292當前第2頁\共有66頁\編于星期三\9點第一代測序技術:

Sanger測序法

——簡便、快速2023/5/293當前第3頁\共有66頁\編于星期三\9點逐漸被遺忘的測序技術:

Maxam-Gilbert的DNA化學降解法

2023/5/294當前第4頁\共有66頁\編于星期三\9點Sanger測序的局限通過幾十年的改進,第1代測序儀的讀長可以超過1000bp,原始數(shù)據(jù)的準確率可以高達99.999%,測定每千堿基序列的成本是0.5美元,每天的數(shù)據(jù)通量可以達到60萬堿基。但是,不管怎么改進,第1代測序技術在速度和成本方面都已達到了極限(因為對電泳分離技術的依賴,使其難以進一步提升分析的速度和提高并行化程度,并且難以通過微型化降低測序成本)。在此種情況下,第二代測序技術(Next-generationsequencing)應運而生。2023/5/295當前第5頁\共有66頁\編于星期三\9點概要主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當前第6頁\共有66頁\編于星期三\9點第二代測序技術454測序IlluminaSOLIDPolonatorCompleteGenomics……2023/5/297當前第7頁\共有66頁\編于星期三\9點4542023/5/298當前第8頁\共有66頁\編于星期三\9點SOLID2023/5/299當前第9頁\共有66頁\編于星期三\9點Illumina2023/5/2910當前第10頁\共有66頁\編于星期三\9點其他PolonatorCompleteGenomics……2023/5/2911當前第11頁\共有66頁\編于星期三\9點2023/5/2912當前第12頁\共有66頁\編于星期三\9點第二代測序技術的共同點1將目標DNA剪切為小片段2單個小片段DNA分子結(jié)合到固相表面3單分子獨立擴增4每次只復制一個堿基(A,C,T,G)并檢測信號5高分辨率的成像系統(tǒng)。2023/5/2913當前第13頁\共有66頁\編于星期三\9點第二代測序技術的局限與第一代測序儀相比,以合成測序為基礎的下一代測序平臺速度顯著提高,成本明顯降低。每臺設備每天產(chǎn)出千兆堿基的序列不足為奇。但是,除了羅氏的454平臺之外,讀長短成了下一代測序平臺的致命傷,這主要是由于DNA簇中存在的光學信號移相造成的。而應運而生的單分子測序技術是解決這一問題的一種方法。2023/5/2914當前第14頁\共有66頁\編于星期三\9點第三代測序技術:單分子測序HelicosBiosciencesVisiGenPacificBiosciencesMobiousNexusI……2023/5/2915當前第15頁\共有66頁\編于星期三\9點2023/5/2916當前第16頁\共有66頁\編于星期三\9點直接測序法在所有上述三代測序技術中,序列都是在熒光或者化學發(fā)光物質(zhì)的協(xié)助下,通過讀取DNA聚合酶或DNA連接酶將堿基連接到DNA鏈上過程中釋放出的光學信號而間接確定的。除了需要昂貴的光學監(jiān)測系統(tǒng),還要記錄、存儲并分析大量的光學圖像,這都使儀器的復雜性和成本增加。依賴生物化學反應讀取堿基序列更增加了試劑、耗材的使用,在目前測序成本中比例相當大。直接讀取序列信息,不使用化學試劑,對于進一步降低測序成本是非??扇〉?。為了實現(xiàn)這樣的目標,目前就有很多人在研究納米物理技術。在全球,許多公司和組織,如Agilent,DNAElectronics,IBM,NabSys,OxfordNanoporeTechnologies,Sequenom等都在進行納米孔測序的開發(fā),不同的只是采用的方法或策略。2023/5/2917當前第17頁\共有66頁\編于星期三\9點2023/5/2918當前第18頁\共有66頁\編于星期三\9點2023/5/2919當前第19頁\共有66頁\編于星期三\9點SecondgenerationsequenceRoche454MetagenomicsDenovosequencingRNA-seqillumiaSolexaDenovosequencingRe-sequencingRNA-seq(ChromatinImmunoprecipitation,ChIP)Meth-seqABISOLiDRe-sequencingChIP-seq

RNA-seq當前第20頁\共有66頁\編于星期三\9點ExperimentsDNA-seq:denovo,resequencingRNA-seq:mRNA,ncRNA,smRNA...ChIP-seq:ChromatinImmunoPrecipitationMethyl-seq:methylatedDNA(epigenome)當前第21頁\共有66頁\編于星期三\9點主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當前第22頁\共有66頁\編于星期三\9點SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.Theresultofconnectiingnon-overlappingcontigesbyusingpir-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%odtheassembled當前第23頁\共有66頁\編于星期三\9點當前第24頁\共有66頁\編于星期三\9點當前第25頁\共有66頁\編于星期三\9點當前第26頁\共有66頁\編于星期三\9點 全基因組denove分析工具當前第27頁\共有66頁\編于星期三\9點分析所需工具BowtiesoftwareSAMtoolsTopHatsoftareCufflinkssoftwareCummeRbundsoftware當前第28頁\共有66頁\編于星期三\9點外顯子組分析工具當前第29頁\共有66頁\編于星期三\9點主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當前第30頁\共有66頁\編于星期三\9點常規(guī)分析TranscriptsquantificationSplicingsitesdiscoveryandquantificationGenediscoverySNP/INDELdetectionAllelespecificexpression當前第31頁\共有66頁\編于星期三\9點當前第32頁\共有66頁\編于星期三\9點當前第33頁\共有66頁\編于星期三\9點當前第34頁\共有66頁\編于星期三\9點UniGene拼接目的:將預處理后reads進行拼接,得到拼接結(jié)果。

原理:應用deBruijngraphpath算法對reads進行denovo拼接;對上一步的拼接結(jié)果,再用HamiltonPath算法拼接。

結(jié)果:UniGene序列,UniGene統(tǒng)計信息,序列長度分布圖當前第35頁\共有66頁\編于星期三\9點當前第36頁\共有66頁\編于星期三\9點3.數(shù)據(jù)庫注釋目的:對拼接得到的UniGene進行功能注釋

原理:通過blast+算法將拼接得到的UniGene序列與數(shù)據(jù)庫進行比對

結(jié)果:比對結(jié)果表格,物種分布統(tǒng)計和Evalue分布統(tǒng)計

當前第37頁\共有66頁\編于星期三\9點當前第38頁\共有66頁\編于星期三\9點UniGene表達分析目的:UniGene定量分析。

原理:以UniGene為reference,分別將每個樣本的reads進行referencemapping,從而得到每個樣本在每個UniGenes中的一個reads覆蓋度,然后應用RPKM/FPKM標準化公式對富集片段的數(shù)量進行歸一化。

RPKM:ReadsPerKilobaseofexonmodelperMillionmappedreads,公式下:當前第39頁\共有66頁\編于星期三\9點UniGene表達分布圖,1X,5X分別為FPKM=1,F(xiàn)PKM=5分界點,可以大體觀察到低表達,中表達以及高表達的比例關系當前第40頁\共有66頁\編于星期三\9點UniGene樣本間表達相關性散點圖當前第41頁\共有66頁\編于星期三\9點樣本間表達差異程度的MA圖,可以體現(xiàn)差異表達總體偏差當前第42頁\共有66頁\編于星期三\9點UniGene表達差異分析目的:對定量結(jié)果進行統(tǒng)計檢驗分析,找出差異表達UniGene

原理:雙層過濾篩選差異基因

FC值篩選:采用Fold-change(FC),表達差異倍數(shù)進行第一層此的差異基因篩選

FDR檢驗:一般采用卡方檢驗中的fisher精確檢驗進行p值檢驗,采用BenjaminiFDR(Falsediscoveryratio)校驗方法對p值進行假陽性檢驗,即,通過FDR顯著性參數(shù)進行第二層次的差異基因篩選。

當前第43頁\共有66頁\編于星期三\9點組間差異基因上調(diào)與下調(diào)個數(shù)統(tǒng)計,可以通過此圖觀察上調(diào)與下調(diào)的一個總體趨勢當前第44頁\共有66頁\編于星期三\9點差異基因火山圖,可以觀察到差異基因總體分布當前第45頁\共有66頁\編于星期三\9點GO功能分類

目的:利用數(shù)據(jù)庫注釋信息將UniGene進行GO功能分類。

原理:利用數(shù)據(jù)庫的注釋結(jié)果,應用blast2GO算法進行GO功能分類,得到所有序列在GeneOntology的三大類:molecularfunction,cellularcomponent,biologicalprocess的各個層次所占數(shù)目,一般取到14層。

結(jié)果:MF,BP,CC三大分類結(jié)果文件以及UniGene2GO關系列表,三大類別中第二層次上的柱狀分布圖和餅圖,GO功能的層次分布圖。

當前第46頁\共有66頁\編于星期三\9點當前第47頁\共有66頁\編于星期三\9點當前第48頁\共有66頁\編于星期三\9點當前第49頁\共有66頁\編于星期三\9點當前第50頁\共有66頁\編于星期三\9點KEGG代謝通路分析目的:對拼接得到UniGene進行KEGGpathway映射。

原理:應用KEGGKAAS在線pathway比對分析工具對拼接得到的UniGene進行KEGG映射分析。

結(jié)果:標記的Pathway通路圖。當前第51頁\共有66頁\編于星期三\9點當前第52頁\共有66頁\編于星期三\9點IPApathwayanalysis

(/)當前第53頁\共有66頁\編于星期三\9點COG注釋目的:對拼接得到UniGene進行COG功能分類。

原理:利用blast+算法將拼接得到的UniGene與CDD庫中的COG/KOG庫進行比對,進行COG功能分類預測,將其映射到COG分類中。

結(jié)果:COG分類分布情況圖。當前第54頁\共有66頁\編于星期三\9點當前第55頁\共有66頁\編于星期三\9點SSR重復序列注釋目的:對拼接得到UniGene進行SSR簡單重復序列的查找。

原理:篩選標準:單核苷酸重復的次數(shù)在10次或10次以上,二核苷酸重復的次數(shù)在6次或6次以上,三至六核苷酸重復的次數(shù)在5次或5次以上。同時,也篩選中間被少數(shù)堿基(間隔小于100或等于100)打斷的不完全重復的SSR。

結(jié)果:重復序列的信息文件以及統(tǒng)計文件。

當前第56頁\共有66頁\編于星期三\9點LncRNA預測目的:對拼接得到的UniGene進行LncRNA(LongnoncodingRNA)預測。

原理:通過以下過程對UniGene進行過濾,最終得到候選LncRNA序列。

1)Unigenelength>200bp;

2)UnigeneORF(OpenReadingFrame)length<300;

3)將滿足長度條件的UniGene與多個近源物種進行進化分析,得到序列的保守性和進化特性;

4)根據(jù)上述的特性和已知數(shù)據(jù)庫中coding、noncoding區(qū)域的特性建立編碼篩選模型;

5)將符合noncoding模型的UniGene與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論