版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京大學(xué)生科院/CLS生物信息平臺(tái)RNA-Seq測(cè)序數(shù)據(jù)分析服務(wù)流程(試運(yùn)行.3平臺(tái)聯(lián)系人:李程(文檔撰寫(xiě):張超TableofContents1.測(cè)序質(zhì)量評(píng)定(31.1測(cè)序數(shù)據(jù)過(guò)濾(31.2質(zhì)量值分布(31.3GC含量分布(42.參考序列比對(duì)(43.基因體現(xiàn)水平(63.1基因體現(xiàn)水平定量(63.2基因體現(xiàn)水平分步(63.3生物學(xué)重復(fù)有關(guān)性分析(63.4樣本間層次聚類(lèi)及PCA分析(74.差別基因分析(74.1基因體現(xiàn)原則化(74.2差別基因列表(84.3差別基因可視化(84.4差別基因聚類(lèi)(95.差別體現(xiàn)基因功效分析(105.1GO富集分析(105.2信號(hào)通路富集分析(105.3癌基因功效注釋(116.基因構(gòu)造差別分析(116.1可變剪切分析(117.SNP分析(127.1SNP檢測(cè)(127.2SNP篩選(127.3GO/KEGG富集(121.測(cè)序質(zhì)量評(píng)定通過(guò)測(cè)序的數(shù)據(jù)進(jìn)行進(jìn)行質(zhì)控,確保數(shù)據(jù)質(zhì)量適合下游分析。這里我們使用fastqc和RNA-SeQC來(lái)對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)定。1.1測(cè)序數(shù)據(jù)過(guò)濾測(cè)序得到的原始下機(jī)數(shù)據(jù)往往有許多問(wèn)題,不能直接使用,普通會(huì)通過(guò)下列過(guò)濾,盡量確保測(cè)序數(shù)據(jù)的質(zhì)量。a.去除帶測(cè)序接頭的測(cè)序序列(reads;b.去除低質(zhì)量的reads1.2質(zhì)量值分布按照現(xiàn)有的測(cè)序技術(shù)(illumina平臺(tái)單堿基的錯(cuò)誤率應(yīng)控制在1%下列,即質(zhì)量值在20以上。橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為單堿基質(zhì)量值質(zhì)量值與錯(cuò)誤率的關(guān)系:Q=-10log10(e;其中Qphred為測(cè)序堿基質(zhì)量值,e為測(cè)phred序錯(cuò)誤率。1.3GC含量分布對(duì)于RNA測(cè)序,鑒于序列通過(guò)超聲隨機(jī)打斷,因此理論上每個(gè)測(cè)序循環(huán)上的C、G及A、T含量應(yīng)分布相等,并且CG-content對(duì)于每個(gè)物種應(yīng)大致相似。橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為多個(gè)堿基的不同比例2.參考序列比對(duì)對(duì)于通過(guò)質(zhì)量控制的數(shù)據(jù),能夠進(jìn)行后續(xù)分析。首先需要將cleanreads比對(duì)到參考基因組上。由于測(cè)序時(shí)reads是隨機(jī)的,只有這些reads的堿基信息和質(zhì)量信息,沒(méi)有其在基因組上的位置信息,比對(duì)這一步就是給全部reads一種在基因組上位置的信息。在RNA測(cè)序中,其實(shí)測(cè)的是cDNA的序列,由于內(nèi)含子的存在,因此會(huì)較常出現(xiàn)一條read跨內(nèi)含子的狀況,tophat2能夠較好的解決這種狀況,因此我們選用tophat2來(lái)做比對(duì)。比對(duì)率間接反映了測(cè)序的質(zhì)量和建庫(kù)的質(zhì)量,若比對(duì)率低,很可能建庫(kù)時(shí)混入了其它物種的序列,造成無(wú)法比對(duì)到研究的物種參考基因組上。reads比對(duì)到基因上的位置統(tǒng)計(jì):SampleIntragenicRateExonicRateIntronicRateIntergenicRateSplitReadsExpressionProfilingEfficiencyTranscriptsDetectedGenesDetected1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434(1Sample:樣本名(2IntragenicRate:比對(duì)到基因內(nèi)的reads比例(3ExonicRate:比對(duì)到外顯子的reads比例(4IntronicRate:比對(duì)到內(nèi)含子的reads比例(5IntergenicRate:比對(duì)到基因間區(qū)的reads比例(6SplitReads:比對(duì)到兩外顯子交接處的reads數(shù)(7ExpressionProfilingEfficiency:比對(duì)到外顯子上的reads占總體的比例(8TranscriptsDetected:比對(duì)上reads數(shù)不不大于5的轉(zhuǎn)錄本數(shù)(9GenesDetected:比對(duì)上reads數(shù)不不大于5的基因數(shù)3.基因體現(xiàn)水平3.1基因體現(xiàn)水平定量在RNA-seq分析中,我們能夠通過(guò)定位到基因組區(qū)域或基因外顯子區(qū)的reads的計(jì)數(shù)來(lái)預(yù)計(jì)基因的體現(xiàn)水平。Reads計(jì)數(shù)除了與基因的真實(shí)體現(xiàn)水平成正比外,還與基因的長(zhǎng)度和測(cè)序深度成正有關(guān)。為了使不同基因、不同實(shí)驗(yàn)間預(yù)計(jì)的基因體現(xiàn)水平含有可比性,人們引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百萬(wàn)reads中來(lái)自某一基因每千堿基長(zhǎng)度的reads數(shù)目。RPKM同時(shí)考慮了測(cè)序深度和基因長(zhǎng)度對(duì)reads計(jì)數(shù)的影響,是現(xiàn)在最為慣用的基因體現(xiàn)水平估算辦法(Mortazavietal.,。Gene_IDSample1Sample2Sample3Sample4Sample5Sample6ENSG49.3246.9448.9122.5120.6022.95ENSG35.9234.5833.6932.8035.6532.73ENSG1.340.941.192.062.132.26ENSG1.191.201.223.003.333.06(1Gene_ID:Ensembl基因ID(2Othercolumns:各樣本中該基因的體現(xiàn)水平(RPKM3.2基因體現(xiàn)水平分步每個(gè)樣本全部基因的RPKM盒形圖能夠展示出不同實(shí)驗(yàn)條件下基因體現(xiàn)水平的分布狀況。圖3.2.1不同條件下的基因體現(xiàn)水平分布圖3.3生物學(xué)重復(fù)有關(guān)性分析生物學(xué)重復(fù)重要有兩個(gè)用途:一種是證明所涉及的生物學(xué)實(shí)驗(yàn)可重復(fù)性強(qiáng)、差別小,另一種用于預(yù)計(jì)生物學(xué)變異進(jìn)行差別基因檢測(cè)。樣品間基因體現(xiàn)水平有關(guān)性是檢查實(shí)驗(yàn)可靠性和樣本選擇與否合理的重要指標(biāo)。有關(guān)系數(shù)越靠近1,表明樣品之間體現(xiàn)模式的相似度越高。圖3.3.1生物學(xué)重復(fù)散點(diǎn)圖3.4樣本間層次聚類(lèi)及PCA分析當(dāng)樣本數(shù)目較多時(shí),能夠運(yùn)用基因的體現(xiàn)量進(jìn)行樣本間聚類(lèi)分析及PCA分析,對(duì)樣本間關(guān)系進(jìn)行探究或者對(duì)實(shí)驗(yàn)設(shè)計(jì)進(jìn)行驗(yàn)證。樣本聚類(lèi)距離或者PCA距離越近,闡明樣本越相似。4.差別基因分析4.1基因體現(xiàn)原則化對(duì)于有生物學(xué)重復(fù)的樣品,我們采用DESeq2提出的scalingfactor的辦法對(duì)原始的readcount進(jìn)行原則化(normalization。以消除非生物學(xué)引發(fā)的readcount的差別(最重要消除各個(gè)文庫(kù)測(cè)序數(shù)據(jù)量不同帶來(lái)的差別。對(duì)于原則化的成果,我們采用MA-plot或box-plot來(lái)評(píng)價(jià)。圖4.1.1MA-plot橫坐標(biāo)為體現(xiàn)量,縱坐標(biāo)為log后的體現(xiàn)差別倍數(shù)基于大部分基因都是非差別體現(xiàn)的,因此大多點(diǎn)應(yīng)在logfoldchange=0左右,并且不隨體現(xiàn)量的變化而變化。4.2差別基因列表對(duì)于有生物學(xué)重復(fù)的的樣品,我們采用DESeq2來(lái)分析差別體現(xiàn)基因。該辦法基于負(fù)二項(xiàng)分布模型(Kij~NB(μij,σij2來(lái)檢測(cè)差別體現(xiàn)基因。GenebaseMeanlog2FoldChangepvaluepadjFBgn000037031324.379200-1.5.6393206e-1762.9843284e-172FBgn003391317544.483454-1.6.3177309e-901.3373372e-87(1Gene:基因ID(2baseMean:全部樣本矯正后的平均reads數(shù)(3log2FoldChange:log2后的體現(xiàn)量差別(4pvalue:統(tǒng)計(jì)學(xué)差別明顯性檢查指標(biāo)(5padj:校正后的pvalue。padj越小,表達(dá)基因體現(xiàn)差別越明顯4.3差別基因可視化用火山圖能夠推斷差別基因的整體分布狀況。圖4.3.1明顯性差別體現(xiàn)基因用紅色點(diǎn)表達(dá);橫坐標(biāo)表達(dá)基因在不同樣本中的體現(xiàn)倍數(shù)變化;縱坐標(biāo)表達(dá)統(tǒng)計(jì)學(xué)上基因體現(xiàn)量變化差別的明顯性對(duì)于特定基因在不同實(shí)驗(yàn)中的體現(xiàn)狀況,和此基因的不同轉(zhuǎn)錄本在不同實(shí)驗(yàn)中的體現(xiàn)狀況。圖4.3.2左圖為regucalcin基因在兩個(gè)樣本中的體現(xiàn)差別狀況;右圖為此基因在不同轉(zhuǎn)錄本中的體現(xiàn)差別狀況4.4差別基因聚類(lèi)聚類(lèi)分析用于判斷差別基因在不同實(shí)驗(yàn)條件下的體現(xiàn)模式。通過(guò)將體現(xiàn)模式相似或相近的基因聚集成類(lèi),從而識(shí)別未知基因的功效或已知基因的未知功效。5.差別體現(xiàn)基因功效分析5.1GO富集分析GeneOntology(簡(jiǎn)稱(chēng)GO,。研究差別基因在GeneOntology中的分布狀況將闡明差別基因富集的生物學(xué)功效。5.2信號(hào)通路富集分析在生物體內(nèi),不同基因互相協(xié)調(diào)實(shí)現(xiàn)其生物學(xué)功效,通過(guò)Pathway明顯性富集能擬定差別體現(xiàn)基因參加的最重要信號(hào)通路。KEGG(KyotoEncyclopediaofGenesandGenomes,(Kanehisa,。Pathway明顯性富集分析以KEGGPathway為單位,應(yīng)用統(tǒng)計(jì)檢查找出差別體現(xiàn)基因中明顯性富集的Pathway。5.3癌基因功效注釋原癌基因(Proto-oncogene是參加細(xì)胞生長(zhǎng)、細(xì)胞分裂和細(xì)胞分化的正?;?,當(dāng)其發(fā)生突變后(如基因序列被變化就會(huì)變成致癌基因(Oncogene。普通在腫瘤或惡性細(xì)胞系中某些特異性癌基因會(huì)上調(diào)體現(xiàn),通過(guò)理解癌基因在實(shí)驗(yàn)不同組的體現(xiàn)狀況有助于進(jìn)一步認(rèn)識(shí)疾病的發(fā)病機(jī)理。Cosmic(,有較高的權(quán)威性及可信度,通過(guò)與數(shù)據(jù)庫(kù)進(jìn)行比對(duì),可對(duì)差別體現(xiàn)基因中的癌基因部分進(jìn)行鑒別和注釋。6.基因構(gòu)造差別分析6.1可變剪切分析對(duì)于RNA-seq,除了gene水平的差別分析外,還能夠進(jìn)行exon水平的差別分析。不用的exon體現(xiàn),表明了有著不同的剪切方式。這時(shí)能夠使用Bioconductor的DEXSeq軟件包。該分析能夠給出每個(gè)基因在不同的實(shí)驗(yàn)條件下,外顯子的使用狀況。比如上圖的10號(hào)外顯子在control和knockdown兩組中的體現(xiàn)差別較大,另外顯子的體現(xiàn)量狀況,也反映到了在兩組中此基因的剪切形式有差別。7.SNP分析7.1SNP檢測(cè)SNP全稱(chēng)SingleNucleotidePolymorphisms,是指在基因組上由單個(gè)核苷酸變異形成的遺傳標(biāo)記,其數(shù)量諸多,多態(tài)性豐富。普通而言,SNP是指變異頻率不不大于1%的單核苷酸變異。對(duì)RNA-seq的SNP分析可能得到基因在上的SNP位點(diǎn)和RNA編輯位點(diǎn)。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職花卉(鑒別技巧)試題及答案
- 2025年大學(xué)大二(口腔醫(yī)學(xué)技術(shù))義齒修復(fù)工藝綜合測(cè)試題
- 2025年高職物理教育(物理教學(xué)方法)試題及答案
- 2025年高職物流管理(倉(cāng)儲(chǔ)配送優(yōu)化)試題及答案
- 新建1個(gè)7萬(wàn)噸級(jí)散糧卸船泊位項(xiàng)目可行性研究報(bào)告模板立項(xiàng)申批備案
- 狗狗職業(yè)發(fā)展規(guī)劃演講稿
- 社群營(yíng)銷(xiāo)介紹宣傳
- 2026廣西桂林航天工業(yè)學(xué)院招聘高層次人才10人備考題庫(kù)完整參考答案詳解
- 2026新疆昆東經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)管委會(huì)招聘19人備考題庫(kù)及答案詳解(新)
- 2025國(guó)家電投集團(tuán)數(shù)字科技有限公司招聘10人備考題庫(kù)(第三批)有答案詳解
- GB/T 43824-2024村鎮(zhèn)供水工程技術(shù)規(guī)范
- 心力衰竭藥物治療的經(jīng)濟(jì)評(píng)估與成本效益分析
- 道路綠化養(yǎng)護(hù)投標(biāo)方案(技術(shù)方案)
- QA出貨檢驗(yàn)日?qǐng)?bào)表
- 校服采購(gòu)?fù)稑?biāo)方案
- 中外建筑史課件
- 母嬰保健-助產(chǎn)技術(shù)理論考核試題題庫(kù)及答案
- dd5e人物卡可填充格式角色卡夜版
- ??怂箍禉C(jī)器操作說(shuō)明書(shū)
- GB/T 6003.1-1997金屬絲編織網(wǎng)試驗(yàn)篩
- GB/T 24207-2009洗油酚含量的測(cè)定方法
評(píng)論
0/150
提交評(píng)論