高通量測序技術(shù)及實用數(shù)據(jù)分析_第1頁
高通量測序技術(shù)及實用數(shù)據(jù)分析_第2頁
高通量測序技術(shù)及實用數(shù)據(jù)分析_第3頁
高通量測序技術(shù)及實用數(shù)據(jù)分析_第4頁
高通量測序技術(shù)及實用數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)Bioinformatics

高通量測序及數(shù)據(jù)分析第一節(jié)測序技術(shù)及其發(fā)展(基因組/DNA)測序經(jīng)歷了三代技術(shù)的發(fā)展第一代測序:Sanger測序第二代測序:高通量測序第三代測序:單分子測序含有A,T,C三種脫氧核苷酸,G雙脫氧核苷酸,依次類推Sanger雙脫氧鏈終止法測序:用雙脫氧核苷酸(ddGTP,ddATP,ddTTP,ddCTP)作為鏈終止試劑(雙脫氧核苷酸在脫氧核糖上沒有聚合酶延伸鏈所需要的3-OH基團,所以可被用作鏈終止試劑)通過聚合酶的引物延伸產(chǎn)生一系列大小不同的分子后再進行分離的方法。第一代測序:Sanger測序測序引物與單鏈DNA模板分子結(jié)合后,DNA聚合酶用dNTP延伸引物。延伸反應(yīng)分四組進行,每一組分別用四種ddNTP(雙脫氧核苷酸)中的一種來進行終止,再用PAGE分析四組樣品。從得到的PAGE膠上可以讀出我們需要的序列。具有共同的起始點,但終止在不同的的核苷酸上基于第一代測序技術(shù)進行全基因組測序主要依靠“鳥槍法”。將目的基因組DNA隨機打斷成小片段,然后分別對這些大小不同的小片段進行測序,再將這些小片段利用重疊關(guān)系連接起來,從而形成一致序列,達到全基因組測序的目的。分級鳥槍法測序和全基因組鳥槍法測序是采用鳥槍法進行基因組測序的2種主要方法。其中分級鳥槍法需要構(gòu)建物理圖譜。全基因組鳥槍法不需要構(gòu)建物理圖譜,直接將全基因組隨機打斷成小片段進行測序,操作過程相對簡單很多,但是在生成一致序列時依賴強大的計算能力?;赟anger測序的基因組測序技術(shù):

第二代測序:高通量測序(NGS)高通量測序/第二代測序(Next-generationsequencing,NGS)一次性對幾百萬到幾億條DNA分子進行并行測序,又稱大規(guī)模平行測序

。高通量測序可對一個物種的轉(zhuǎn)錄組和基因組進行深入、細(xì)致、全貌的分析,所以又被稱為深度測序。

常見的高通量測序測序平臺焦磷酸測序技術(shù):引物與模板DNA退火后,在dna聚合酶(DNApolymerase)、ATP硫酸化酶(ATPsulfurytase)、熒光素酶(1uciferase)和三磷酸腺苷雙磷酸酶(Apyrase)4種酶的協(xié)同作用下,將引物上每一個dNTP的聚合與一次熒光信號的釋放偶聯(lián)起來,通過檢測熒光的釋放和強度,達到實時測定DNA序列的目的。Hiseq2000/Hiseq1000(HIseq2500/Hiseq1500)平臺簡介:原理:基于DNA單分子簇邊合成邊測序技術(shù),以及專有的可逆終止化學(xué)反應(yīng)的原理。將基因組DNA的隨機片段附著到光學(xué)透明的玻璃表面(即Flowcell),這些DNA片段經(jīng)過延伸和橋式擴增后,在Flowcell上形成數(shù)以億計的簇(Cluster),每個Cluster是具有數(shù)千份相同模版DNA的單分子簇。然后利用帶熒光基團的四種特殊脫氧核糖核苷酸,通過可逆性終止的SBS(邊合成邊測序)技術(shù),將捕獲的不同光信號轉(zhuǎn)化為特定的峰值即可獲得待測DNA序列的堿基順序,據(jù)此對待測的模板DNA進行測序。SBS:加入的dNTP要么通過酶促級聯(lián)反應(yīng)催化底物發(fā)出特定熒光信號,要么在合成互補鏈時釋放出相應(yīng)的熒光信號。目前單次運行可產(chǎn)生600/300Gb的數(shù)據(jù)量,測序長度可達到雙端150~250bp。SOLiD測序技術(shù):與合成測序不同,SOLiD是通過連接反應(yīng)進行測序,即以不同熒光標(biāo)記的dNTP進行多次連接反應(yīng),而非聚合反應(yīng)。與454測序技術(shù)類似,SOLiD測序技術(shù)采用的也是乳液PCR對待測DNA片段進行擴增。在乳液PCR擴增結(jié)束后,模板變性,然后將帶有模板的磁珠富集。磁珠上的模板經(jīng)過3’末端修飾后,可以共價結(jié)合在特定玻片上。每張?zhí)囟ǖ牟F梢匀菁{更多和高密度的磁珠是SOLiD系統(tǒng)最大的特點,因此SOLiD技術(shù)可以實現(xiàn)更高的通量。SOLiD測序反應(yīng)就在SOLiD玻片表面進行。每個磁珠經(jīng)測序后得到一條序列。IonTorrent測序技術(shù):使用半導(dǎo)體技術(shù)將生化反應(yīng)與電流強度直接聯(lián)系。在聚合酶反應(yīng)時,每聚合一個堿基會釋放出相應(yīng)的質(zhì)子,引起周圍環(huán)境PH的變化,將PH變化轉(zhuǎn)化為電流的變化,最終記錄電流信號,獲得測序序列。讀長約200bp,根據(jù)芯片不同可以一次產(chǎn)生10M-20G的數(shù)據(jù)。不同于第二代測序依賴于DNA模板與固體表面相結(jié)合然后邊合成邊測序,第三代分子測序,不需要進行PCR擴增。早在2008年,HelicoBioScience公司的Harris等在Science上報道了他們開發(fā)的TIRM(totalinternalreflectionmicroscopy)測序技術(shù)。BioScienceCorporation的HeliScope單分子測序儀(HeliScopeSingleMolecularSequencer);PacificBiosciences公司的單分子實時DNA測序技術(shù)[SingleMoleculeRealime(SMRT)DNAsequencingtechnology];

OxfordNanoporeTechnologiesLtd公司的納米孔單分子測序技術(shù)。技術(shù)優(yōu)點:速度快,測序速度是化學(xué)法測序的2萬倍;讀長長,三代測序一個讀長可測幾千個堿基(二代測序可以測到上百個堿基);直接測RNA的序列;直接測甲基化的DNA序列。目前該技術(shù)主要缺陷是測序錯誤率高且標(biāo)記核苷酸的成本高。第三代測序:單分子測序Single

(RL)Pairend

(PE)Matepair

(MP)NGSLibraryTypeNGS數(shù)據(jù)格式1)fasta格式2)fastq格式:Illumina以及NCBI等常用網(wǎng)站的數(shù)據(jù)格式是FASTQ,包含序列信息和測序質(zhì)量打分信息。4)把序列拼接到參考序列上產(chǎn)生的數(shù)據(jù)格式為SAM格式或者BAM格式。下圖為SAM格式的數(shù)據(jù):3)SOLiD平臺的數(shù)據(jù)一般分為兩個獨立的文件:一個為CSFASTA文件一個為QUAL文件。其中QUAL文件包含質(zhì)量評估信息。CSFASTA不同于FASTA的地方在于,序列的堿基位于不同的顏色區(qū)間,而且用0-3這幾個數(shù)字表示兩個相連的堿基。NGS應(yīng)用范圍基因組測序平臺選擇:1)

ExperimentPurpose

(re-sequencing/denovo)2)GenomeSize3)GenomecomplexityNGS測序流程及數(shù)據(jù)分析NGS測序平臺:NGS測序文庫:PE、MPNGS特點:高通量:(>600Gb/run)讀長短:(35~1000bp/reads)成本低:(<0.01$/Mb)NGS數(shù)據(jù)格式:fasta、fastqNGS應(yīng)用范圍:genome、chromatin、transcriptome高通量測序/第二代測序(Nextgenerationsequencing,NGS)

高通量測序數(shù)據(jù)分析流程Genomeassembly基因組組裝就是利用高覆蓋度的reads之間的交疊關(guān)系,重新構(gòu)建待測基因組序列的過程。123Importantconceptinassembly

?contigContiguoussequenceofDNAcreatedbyassemblingoverlappingsequencedfragmentsofachromosome(whethernaturalorartificial,asinBACs)?ScaffoldAseriesofcontigsthatareintherightorderbutarenotnecessarilyconnectedinonecontinuousstretchofsequenceGenomeAssembly基于貪婪策略的啟發(fā)式算法(greadyheuristics)給定初始contig(reads),按照給定的標(biāo)準(zhǔn),基于reads之間交疊關(guān)系,逐堿基擴展,達到延長contig的目的常用的標(biāo)準(zhǔn)有:選擇具有最長的交疊、選擇具有共性最高的堿基等給定的標(biāo)準(zhǔn)需要在長度和準(zhǔn)確度之間尋求平衡:標(biāo)準(zhǔn) contig長度準(zhǔn)確度標(biāo)準(zhǔn) contig長度準(zhǔn)確度該方法比較直觀,相對簡單初始read在候選擴展相差不大時,貪心方法導(dǎo)致拼接中斷需要大量內(nèi)存存儲計算需要的數(shù)據(jù),不能有效處理大數(shù)據(jù)量的計算。不能處理基因組中的重復(fù)序列貪婪算法的局限:software:SSAKE,SHARCG,VCAKE,PE-Assembler,etcOverlap-Layout-Consensus(OLC)算法交疊-排列-共有序列OLC算法的基本思想是基于多序列比對獲得共有(一致)序列,主要由3步來完成:Overlap階段:所有序列(reads)兩兩比對(all-versus-allcomparison),搜索序列間的交疊部分,生成的交疊信息用于構(gòu)建交疊圖;Layout階段:OLC拼接的核心步驟。將所有Reads進行排列,確定它們之間的相對位置,將每個序列片段作為節(jié)點構(gòu)建交疊圖,通過對交疊圖分析,尋找對應(yīng)于待測基因組片段的路徑集合,即尋找形成的contig;Consensus階段:將包含在contig上的Reads進行多序列比對,構(gòu)建共有序列,即最終的congtig。software:ARACHNE,PHRAP,CAP,TIGR,CELERAetc基于deBruijn圖的算法(簡稱DBG算法)在短序列拼接時,deBruijn算法得到廣泛應(yīng)用該拼接技術(shù)和OLC算法有很多相似性,主要區(qū)別在于構(gòu)建算法圖的策略不同主要步驟為:a.將序列分解為多個長度為K的子序列(k-mer);b.通過k-mer構(gòu)建deBruijn圖;c.尋找歐拉路徑。每一個k-mer作為圖中一個節(jié)點,兩個k-mer如果在同一read中相鄰,則形成一個邊。長度為K的子序列都將轉(zhuǎn)化為圖中的一個節(jié)點。拼接問題等價的轉(zhuǎn)化為在deBruijn圖中尋找經(jīng)過每一個節(jié)點且僅一次的的路徑(歐拉路徑)。氣泡結(jié)構(gòu)K-mers使用固定K值,不能有效的處理重復(fù)序列覆蓋區(qū)域AAGACTCCGACTGGGACTAGACTCCGACTGGGACTTGACTCCGACTGGGACTTTK=18K=3氣泡結(jié)構(gòu)的解決辦法:使用迭代算法:先用小k值,保證較好的連通性再逐步增加k值,用于去除重復(fù)序列氣泡結(jié)構(gòu)software:SOAPdenovo、Velvet、ALLPATHS、ABySS、etc主要組裝軟件的比較Velvet進行基因組組裝由歐洲生物信息中心(EMBL-EBI)開發(fā),在Linux系統(tǒng)下運行的從頭(denovo)基因組組裝軟件。主要用于拼接測序讀長較短的序列,如Solexa和Solid測序序列。支持各種來源的測序數(shù)據(jù),包括Hiseq的shortreads和454的longreads。能夠處理多種格式的數(shù)據(jù),如fasta、fastq、fasta.gz、fastq.gz、sam、bam。輸出結(jié)果為簡潔的contig,同時描繪覆蓋結(jié)果的直方圖、詳細(xì)圖等,借助第三方軟件可以進行圖形化展示。test@ubuntu:~$sudoapt-getinstallvelvet#軟件安裝

#輸入密碼#安裝成功test@ubuntu:~$velveth-h#測試是否安裝成功#支持reads類型的數(shù)目#支持最大的k值#用法介紹#版本號Vleveth用法:vlevethoutput_directoryhash_length[[-file_format][-read_type]filename]1.Velveth進行數(shù)據(jù)格式化

將用戶指定的數(shù)據(jù)用給定的K-mer長度值格式化。2.Velvetg實現(xiàn)基因組組裝

對格式化的數(shù)據(jù)進行組裝。velveth./velvet_output31./test1.fa./test2.fa#將test1.fa和test2.fa兩個文件用長度為31的k-mer值進行格式化,結(jié)果放在velvet_output文件夾下output_directory:輸出文件所在路徑的名字(即創(chuàng)建一個文件夾存放結(jié)果

文件)hash_length:也叫k-merlength,默認(rèn)為31bp,值越大,內(nèi)存需求越大filename:標(biāo)準(zhǔn)輸入文件名Velvet分兩步運行(Velveth+Velvetg):Vlevetg用法:velvetginput_directory

–ins_length<integer>–exp_cov<floatingpoint>(…otherparameters…)input_directory:與vleveth的output_directory保持一致-ins_length<integer>:twopairedendreads之間的插入長度-exp_cov<floatingpoint>:期望覆蓋率velvetg./velvet_output-ins_length150-exp_cov30.5 #對velvet_output文件夾下的文件進行計算,其中插入長度是150,期望覆蓋度是30.5test@ubuntu:~$mkdirbiosoft#創(chuàng)建文件夾biosoft拷貝velvet_data文件夾到biosoft文件件下3.test@ubuntu:~$cdbiosoft#切換路徑到biosoft下4.test@ubuntu:~/biosoft$velveth./velvet_output31./velvet_data/test_long.fa4.test@ubuntu:~/biosoft/$velvetg./velvet_output長度2倍于kmer的contigs初始的debruijn圖最終的debruijn圖運行記錄文件debruijn圖統(tǒng)計文件不同數(shù)據(jù)量及k-mer值對velvet組裝的影響基因結(jié)構(gòu)預(yù)測(GenePredict)

原核生物與真核生物基因結(jié)構(gòu)預(yù)測涉及問題不同釀酒酵母:基因組70%由基因組成,約5%的基因含有內(nèi)含子(1個)果蠅:基因組25%由基因組成,80%的基因含有內(nèi)含子(1~4個)哺乳動物和高等植物:1%~3%的基因組由基因組成,90%以上的基因含有內(nèi)含子(1~12個)原核生物:基因密度高,大部分基因不含內(nèi)含子真核生物:基因密度低,大部分基因包含內(nèi)含子,且不同物種差異大基因結(jié)構(gòu)預(yù)測方法統(tǒng)計分析(從頭預(yù)測)方法多信息融合的混合方法序列相似性分析方法基于序列保守性原理,通過搜索比較待分析序列與數(shù)據(jù)庫中已知序列的相似性來進行預(yù)測。預(yù)測效果取決于數(shù)據(jù)庫中是否存在待分析序列的同源序列。Software:PROCRUSTES,etc在認(rèn)識基因結(jié)構(gòu)特征的基礎(chǔ)上建立其統(tǒng)計學(xué)模型,只依據(jù)待分析基因組序列的本身進行基因結(jié)構(gòu)預(yù)測(即從頭預(yù)測)Software:Genemark,Genscan,etc大量產(chǎn)生的DNA序列,EST序列以及蛋白質(zhì)數(shù)據(jù)促進了基于多信息融合的混合方法的發(fā)展將序列相似性分析融合到基因結(jié)構(gòu)從頭預(yù)測系統(tǒng)中,既保留了從頭預(yù)測的特點,又利用了序列相似性的信息,極大改善了預(yù)測效果

Software:Augustus,GlimmerHMM,etc

http://bioinf.uni-greifswald.de/augustus/基因功能注釋(GeneFunctionAnnotation)

基因功能注釋包括預(yù)測基因中的模序(motif)和結(jié)構(gòu)域、編碼蛋白質(zhì)的功能和所在的生物學(xué)通路等。目前普遍采用比對方法對全基因組測序的基因功能進行注釋(Blast)進行基因功能注釋常用的五個數(shù)據(jù)庫:Nr蛋白數(shù)據(jù)庫Uniprot蛋白質(zhì)序列數(shù)據(jù)庫Interpro蛋白質(zhì)家族數(shù)據(jù)庫GO基因功能注釋數(shù)據(jù)庫KEGG代謝通路數(shù)據(jù)庫GeneOntology(GO,基因本體論),將一個基因(基因產(chǎn)物)按照三個部分描述:分子功能(MolecularFunction),生物過程(biologicalprocess)和細(xì)胞組成(cellularcomponent),無物種相關(guān)性。三個獨立的ontology下面又可以獨立出不同的亞層次,層層向下構(gòu)成一個樹型分支結(jié)構(gòu)。分子功能:描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性生物過程:描述所屬的生物學(xué)途徑,如糖酵解、有絲分裂、嘌呤代謝等細(xì)胞組成:描述基因產(chǎn)物位于何種細(xì)胞器或大分子復(fù)合物中,如核仁、端粒和識別起始的復(fù)合物等Metabolicpathwayandnetwork

Metabolicpathwayisaseriesofconsecutivemetabolicreactionsthatformapathway.Glycolysiswasthefirstpathwaythatwascharactarized.Metabolicpathwaysoftenoverlap.Itismoreaccuratetoconsiderthesetofallmetabolicreactionsasametabolicnetwork.Globalandoverviewmapsofametabolicnetwork.(http://www.genome.jp/kegg/pathway.html)1):與Nr/Uniprot蛋白質(zhì)序列數(shù)據(jù)庫比對,獲得序列的初步信息。

2):與KEGG數(shù)據(jù)庫比對,預(yù)測蛋白質(zhì)可能具有的生物學(xué)通路信息。

3):與Interpro數(shù)據(jù)庫比對將獲得蛋白質(zhì)的保守性序列,模序和結(jié)構(gòu)域等。

4):預(yù)測蛋白質(zhì)的功能。Interpro進一步建立了與GO的交互系統(tǒng):Interpro2GO。該系統(tǒng)記錄了每個蛋白質(zhì)家族與GO中的功能節(jié)點的對應(yīng)關(guān)系,我們通過此系統(tǒng)便能預(yù)測蛋白質(zhì)執(zhí)行的生物學(xué)功能?;蚬δ茏⑨屩饕獌?nèi)容:60轉(zhuǎn)錄組測序(RNA-seq)簡介目的1、獲取基因的表達豐度信息2、獲取基因的結(jié)構(gòu)信息,如5’utr、3’utr、可變剪切位置信息等3、獲取不同條件下相同轉(zhuǎn)錄本的表達豐度差異信息意義獲取不同條件下不同基因表達的信息,并據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論