版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Bioinformatics多樣本混合測序的編碼設(shè)計和解碼算法孫嘯
生物電子學(xué)國家重點(diǎn)實驗室東南大學(xué)
2017.04.23長沙1BioinformaticsDNA測序技術(shù)快速發(fā)展2全球首批NovaSeq進(jìn)駐南京2017.03.30Bioinformatics多樣本混合測序3充分利用測序通量——同時測序多個樣本關(guān)鍵問題區(qū)分不同樣本——編碼(1)Barcoding(顯性編碼)(2)Overlappooling(隱性編碼)NatRevGenet.2014,15(11):749-63Bioinformatics多樣本混合測序4Barcoding(顯性編碼)readBarcode樣本標(biāo)記NatMethods.2008,5(3):235-7.關(guān)注的問題編碼的數(shù)量編碼的容錯和糾錯能力Bioinformatics多樣本重疊混合測序5Overlappooling(隱性編碼)GenomeRes.200919:1243-1253GenomeRes.200919:1254-1261NatureBiotechnology,2009.以樣本的混合模式作為編碼提高測序效率編碼設(shè)計復(fù)雜,解碼困難多樣本混合測序?qū)嶒炘O(shè)計及數(shù)據(jù)解碼CaoCC,SunX.QuantitativeBiology,2016,
4(1):36–46.重疊混合測序編碼解碼6OverlappingPoolSequencing重疊混合7混合池1混合池2混合池3樣本混合模式樣本之間重疊混合樣本混合矩陣一個混合池測序多個樣本一個樣本在多個池中測序重疊混合測序的編碼與解碼
篩選稀有變異攜帶者8問題:保證準(zhǔn)確解碼辨別測序誤差與突變辨別多個陽性樣本重疊混合測序的優(yōu)化設(shè)計測序深度模型分組重疊混合模型OptimalsequencingdepthsofcoverageforpooledsequencingofdiploidsamplesDatarequirementfordifferentnumberofblocks9重疊混合測序的優(yōu)化設(shè)計測序深度模型分組重疊混合模型優(yōu)化選擇代價模型:文庫+數(shù)據(jù)+混合
根據(jù)代價選擇最優(yōu)設(shè)計CaoCC,SunX.GeneticEpidemiology.201310重疊混合測序的優(yōu)化設(shè)計優(yōu)化選擇樣本混合方案利用群試?yán)碚撨M(jìn)行解碼單獨(dú)測序成本大幅降低篩選稀有突變攜帶者的測序成本CaoCC,SunX.GeneticEpidemiology.2013在不同混合樣本數(shù)目下的測序代價11STD設(shè)計參數(shù):n=200,d=2基于定量群試的重疊混合測序設(shè)計及解碼前面只用到每個混合池的陽性樣本定性檢測結(jié)果攜帶突變的測序片段個數(shù)能夠反映攜帶者的比例定量群試:利用覆蓋變異位點(diǎn)測序片段個數(shù)信息1號2號3號4號5號6號7號8號I號II號III號IV號V號12基于定量群試的重疊混合測序設(shè)計及解碼樣本混合設(shè)計定義PI指標(biāo)評價樣本混合設(shè)計PI為陽性混合池數(shù)目比陽性樣本數(shù)目
與不確定屬性的陰性樣本數(shù)目之和還高的概率值
PI能夠反映識別稀有突變攜帶者的可能性大小根據(jù)PI選擇隨機(jī)設(shè)計的最優(yōu)設(shè)計參數(shù)
解碼:識別突變攜帶者貝葉斯解碼算法A:樣本混合模式O:測序結(jié)果13基于定量群試的重疊混合測序設(shè)計及解碼與普通群試相比,該方法能夠容許檢測更多的稀有變異攜帶者CaoCC,SunX.BMCBioinformatics.2014Leastsequencingdatathroughputrequiredtoachievea95%correctdecodingrate.Only36poolswereallowedtoidentifyheterozygousvariantcarriersamong100diploidsamples.Performanceofoverlappingpoolsequencingusingrandomk-setpooldesign14正確解碼前提下的數(shù)據(jù)通量需求面向單倍型的混合測序解碼從混合測序結(jié)果中準(zhǔn)確估計單倍型頻率,并判斷稀有單倍型攜帶者Ehapp—新算法CaoCC,SunX.Bioinformatics.2015.15面向單倍型的混合測序解碼Ehapp在較短的測序讀長下具有較大的優(yōu)勢應(yīng)用重疊混合測序篩選稀有單倍型攜帶者CaoCC,SunX.Bioinformatics.2015.16基于重疊混合的單倍型測序方法研究動機(jī):嘗試將重疊混合測序方法應(yīng)用于單倍型測序,解決存在的問題,以期提高單倍型構(gòu)建性能17Bioinformatics單倍型測序18單倍型測序的主要方法
物理分割克隆測序稀釋基因組DNAGlusmanetal.GenomeMedicine2014,6:73NatureBiotechnology,29:38–39(2011)單倍型測序基于克隆或稀釋的單倍型測序
基因組片段混合在各個池子中
每個池中局部單倍型盡量不重疊NatRevGenet.2015Jun;16(6):344-58.基于重疊混合的單倍型測序方法待解決兩個問題
克隆重疊問題
錯誤連接問題解決問題的思路準(zhǔn)確識別覆蓋每個allele的克隆提高單倍體構(gòu)建的準(zhǔn)確性Chimericfragments…A…A…C……A…T…G……G…T…G……A…A…G…20Bioinformatics基于重疊混合的單倍型測序方法21
多次混合——將克隆看成為重疊混合測序的樣本Someotheroverlappingpools利用不同的Overlap信息解碼根據(jù)不同混合池中的不同覆蓋判斷重疊部分的歸屬解決問題的基本策略核心準(zhǔn)確識別SNP位點(diǎn)以及覆蓋每個allele的所有克隆進(jìn)而確定每個克隆上各個allele及其順序前提:覆蓋某allele的克隆個數(shù)相對于整個克隆文庫來說是稀有的SNP位置重疊混合測序解碼SNP集覆蓋SNP的克隆集形成局部單倍型并組裝22基于重疊混合的單倍型測序方法稀釋到多個混合池構(gòu)建測序文庫并測序比對&檢測SNP重構(gòu)局部單倍型連接局部單倍體構(gòu)建個體克隆文庫完整單倍體基因組23解碼方法Figure1.Illustrationofallelesassignment.(A)Fiveclonesarepooledintothreepools,whichmeanspool#1containsclones1,4and5;pool#2containsclones2and4;andpool#3containsclones3and5.(B)Thesequencingresults.Forexample,allele2issequencedthree,twoandonetimesinpools#1,#2and#3,respectively.(C)AccordingtoMandY,thevectorxforeveryallelecouldbesolvedandthefiveclonescouldbereconstructedaccordingly,asshownin(C).Forexample,thesequencingresultofallele2is(3,2,1)T,equalingthedot-productofthevectorMwiththetargetvectorxof(1,1,0,1,1)T,whichmeansallele2iscontainedinclone1,clone2,clone4andclone5,butnotinclone3.DecodingAlgorithmAllelesassignmentM:poolingmatrixY:countofallelejintheithpoolx:either1or0,indicatingiftheclonecontainsthealleleLiCetal.NucleicAcidsRes.201624實驗設(shè)計25Experimentaldesign(分組設(shè)計)HapMapsampleNA12878:producedtwohaplotypesequencesThelengthoftheclonesfollowedaPoissondistribution,wheretheaveragelengthwasapproximately140kb.130110clonesweregenerated,with6×clonecoverage.實驗結(jié)果LiCetal.NucleicAcidsRes.2016Thecorrectdecodingratefordifferentcombinationsofvariousk(thepercentofclonesthatarepooledineachpool),t(thenumberofpools)anddtvalues(thedatathroughputforeachpool).Thecolorandsizeofthecircledenotethecorrectdecodingrateforeachscenario解碼正確率隨混合池個數(shù)及數(shù)據(jù)通量的變化選擇最優(yōu)的混合測序參數(shù),以獲得最高的解碼正確率26實驗結(jié)果LiCetal.NucleicAcidsRes.201627在1號染色體上,221,009個同時被來自于兩個同源染色體的克隆所覆蓋的變異位點(diǎn)中有220,734(99.9%)個被準(zhǔn)確的恢復(fù)。Table2.Thestatisticsoftheassembledhaplotypesforchromosome1準(zhǔn)確地識別變異位點(diǎn)構(gòu)建的單倍體更長實驗結(jié)果Thenumberofallelesineachreconstructedclonesequencethatsupporteachhaplotypeinthediploidindividual.LiCetal.Nuc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)產(chǎn)品碳足跡數(shù)據(jù)質(zhì)量控制計劃(QCP)
- 我國可轉(zhuǎn)債融資市場效應(yīng)的多維度剖析與實證研究
- 我國危險化學(xué)品道路運(yùn)輸安全評價:體系構(gòu)建與實踐探索
- 公務(wù)用車管理制度
- 我國制造業(yè)上市公司投資效率測度方法的比較與選擇:理論、實踐與啟示
- 懸索橋抗風(fēng)設(shè)計與施工方案
- 2026年視頻號產(chǎn)品推廣服務(wù)協(xié)議
- 2026年時間管理軟件開發(fā)服務(wù)協(xié)議
- 哈利波特魔法石電影關(guān)鍵英文臺詞
- 2024年度市場調(diào)研問卷設(shè)計指南
- 浸沒光刻機(jī)照明系統(tǒng)光學(xué)元件應(yīng)力雙折射的多維探究與優(yōu)化策略
- DBJ50T-100-2022 建筑邊坡工程施工質(zhì)量驗收標(biāo)準(zhǔn)
- 《透水混凝土路面應(yīng)用技術(shù)規(guī)程》DB33∕T 1153-2018
- DL∕T 1802-2018 水電廠自動發(fā)電控制及自動電壓控制技術(shù)規(guī)范
- FZ∕T 73037-2019 針織運(yùn)動襪行業(yè)標(biāo)準(zhǔn)
- 電外科設(shè)備安全使用
- (完整版)四年級上冊數(shù)學(xué)豎式計算題100題直接打印版
- 新生兒疫苗接種的注意事項與應(yīng)對措施
- 青島生建z28-75滾絲機(jī)說明書
- DEFORM在汽車零件冷鍛工藝中的應(yīng)用
- 廣州市自來水公司招聘試題
評論
0/150
提交評論