版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、高通量測序錯誤總結生信分析部分1) Q20/Q30CIPHER GENE每個位點的堿基質量(Per base sequence quality)ao妁.o.i堿基質量分數(shù)與錯誤率是衡量測序質量的重要指標,質量值越高代表堿基被測錯的概率越小。Q30代表堿基的正確判別率是 99.9% ,錯誤率為0.1%。同時我們也可以 理解為1000個堿基里有1個堿基是錯誤的。Q20代表該位點堿基的正確判別率是 99% , 錯誤率為1%。對于整個數(shù)據(jù)來說,我們可以認為 100個堿基里可能有一個是錯誤的, 在堿基質量模塊報告的坐標圖中,背景顏色沿y-軸將坐標圖分為3個區(qū):最上面的綠色是堿基質量很好的區(qū), Q值在30
2、以上。中間的橘色是堿基質量在一些分析中可以接 受的區(qū),Q值在20-30之間。最下面紅色的是堿基質量很差的區(qū)。在一些生信分析中,比如以檢查差異表達為目的的 RNA-seq分析,一般要求堿基質量在 Q在Q20以上就 可以了。但以檢查變異為目的的數(shù)據(jù)分析中,一般要求堿基質量要在Q30以上。一般來說,測序質量分數(shù)的分布有兩個特點: 1.測序質量分數(shù)會隨著測序循環(huán)的進行而降低。2.有時每條序列前幾個堿基的位置測序錯誤率較高,質量值相對較低在圖中這個例子里,左邊的數(shù)據(jù)堿基質量很好,而右邊的數(shù)據(jù)堿基質量就比較差,需要 做剪切(trimming ),根據(jù)生信分析的目的不同,要將質量低于Q20或者低于Q30的堿
3、基剪切掉。2)序列的平均質量序列的 F均質 ft (per sequence quality score)這個是堿基序列平均質量報告圖。橫坐標為序列平均堿基質量值,縱坐標代表序列數(shù)量。通過序列的平均質量報告,我們可以查看是否存在整條序列所有的堿基質量都普遍過低的情況。一般來說,當絕大部分堿基序列的平均質量值的峰值大于30 ,可以判斷序列質量較好。如這里左邊的圖,我們可以判斷樣品里沒有顯著數(shù)量的低質量序列。但如果曲線如右邊的圖所示,在質量較低的坐標位置出現(xiàn)另外一個或者多個峰,說明測序數(shù)據(jù)中有一部分序列質量較差,需要過濾掉。3) GC含量分布GC含量分布(per sequence GC conte
4、5$次厘睡Blue: Throrftical distrhbyh&nRed: GC couni per r»a司價,3徵序列.蒞罌林 由河桑藕.佗南弓央呼司這個是GC含量分布報告圖。GC含量分布檢查是檢測每一條序列的 GC含量。將樣品序列的GC含量和理論的GC含量分布圖進行比較,用來檢測樣品數(shù)據(jù)是否有污染等問題。理論上,GC含量大致是正態(tài)分布,正態(tài)分布曲線的峰值對應基因組的 GC量。如果樣品的GC含量分布圖不是正態(tài)分布,如右圖出現(xiàn)兩個或者多個峰值,表明測序數(shù)據(jù)里可能有其他來源的 DNA序列污染,或者有接頭序列的二聚體污染。這種情況下,需要進一步確認這些污染序列的來源,然后將污
5、染清除。4)序列堿基含量序列堿基含量(per base sequence content堿基含量模塊是統(tǒng)計在序列中的每一個位置,四種不同堿基占總堿基數(shù)的比例。它 的目的是檢測有無 AT、GC分離的現(xiàn)象,而這種現(xiàn)象可能是測序或建庫的系統(tǒng)誤差所帶來的,并且會影響后續(xù)的生信分析。理論上,在隨機的DNA文庫中,G和C含量以及A和T含量在每個測序循環(huán)上應分別相等,而且整個測序過程穩(wěn)定不變。 所以堿基含量的四條線應該是基本平行的水平線(圖A)。而現(xiàn)實中,由于建庫 PCR擴增時PCR引物的最初幾個堿基不能很好地和模板DNA結合,常常會導致測序結果序列開始的大約前10個堿基位置,堿基含量有較大的波動。這種波動
6、存屬于技術誤差(圖 B)。如果在整個測序過程中,四條堿基含量線都出現(xiàn)波動,可能是樣品庫里有過多的接頭序列的二聚體(圖C, D)。在建庫過程中,如果加入的接頭序列過量,兩個接頭序列可能會連在一起,中間沒有要測序的插入序列,形成接頭序列二聚體。這些二聚體可以利用 adapter trimmer 軟件去除。過量出現(xiàn)的序列(over-representedC f CIPHER GENE5)過量由現(xiàn)的序列sequences)音看二”行污條廳劃Ewpm» I fug j alHMlHimw'-i9KHKMMI里BMrilJi 4 IBM 1H. IMEBt HMkl- I IdMiP
7、39;MiNIWIi!整n-uaoMifmDUManniKm .3t,M.NLVQHriMMi,vZ- W IQ 1 Hffi wt |l«|i|gMfllHBMsRMmaBWWnMavr mjpII4feih ItiiHlIi I.K i.*mm E|ta| PD Pi ijbi | - M4 -tfta kl*ti . IMlJlflLlILMhiJ El ks-rad AM E * # . utBl Mi *11!El Lwa tawd M KB Bnw 工 一 mb* M4iMFil PH” 13 mi-m*»d PT» ft Kk過量序列模塊是查看數(shù)據(jù)是
8、否有污染的另一種方法。如果某個序列的數(shù)量占全部序列的0.1% 以上,F(xiàn)ASTQC 就定義該序列為 over-represented 。這些 over-represented 序 列通常標示著污染序列的存在。這種污染如果是建庫測序中的接頭序列, fastqc可以檢 測并標示出可能的來源(possible source )。但如果污染是由于其他來源的 DNA ,比 如其他生物的DNA , FASTQC就沒法判斷污染序列的來源。這就需要生信分析人員利用其他方法找出污染源。比如將大量出現(xiàn)的序列和 NCBI的DNA數(shù)據(jù)庫進行blast ,看看污染序列是否來自其他物種。6)過量由現(xiàn)的 KmerGIPHEH
9、官麟 WM0I過量出現(xiàn)的kmer (k,mer content)檢查是否有接頭序列,還可以查看 k-mer含量。如果有些k-mer過量出現(xiàn),很有可能有序列污染。過量出現(xiàn)的 k-mer可能會有三種情況:序列5 '端,序列中間,或者序列3 '端。5'端過量出現(xiàn)的k-mer是建庫PCR擴增時PCR引物無法和DNA模板很好地結合導致的,是技術誤差。出現(xiàn)在中間的k-mer比較少見,可能是接頭序列拼接到測序序列中間導致的。3'-端出現(xiàn)過量k-mer往往標示著接頭序列的污染7)接頭序列含量接頭序列含量(adapter content)Q、aiPHEAGCNC J序叫中的位置子
10、“J P :U1J對接頭序列污染的查看還有一個更直觀的模塊,就是接頭序列含量。這里的兩個例子中,左圖沒有顯著的接頭序列污染,右圖的接頭序列污染就比較顯著原始數(shù)據(jù)有效清理結果廠;CIPHER GENEL "7 宙消降低而里跌基泊"芟Li / '差8)去除 duplication 序列去除重復序列濯臚e旺 來源:PCR擴增的不均一 后來:選成等位留用頻率的定義攵框因吧識別不勝確 去除原理:將所有比對到完全相同位置的序列對減少至一對 常用軟件: picar-tools MarkDuplicate視序列重復序列是怎么來的呢?在全基因組或全外顯子組測序的建庫過程中,需要進行多
11、輪的PCR擴增。由于擴增引物和不同模板結合力的差異,有些地方的序列擴增產物大于1 <這些重復序列的存在會造成等位基因頻率的定義以及基因型識別不準確。去除重復序列的原理是將所有比對到完全相同位置的序列對減少至一對。一般用 picardtools 軟件里 的Markduplcate功能去除重復序列。、CIPHER SEMEReported Quality Empirical Quality9)堿基質量分數(shù)重新校正堿基質量分數(shù)重新校正 原因;測序儀報告撇M成腦 時的出現(xiàn)的系統(tǒng)誤差(systematic error) 校正方法:利用機瞄學習的 方法建立誤差模型,然后根 相建立的模理調整喊基質量
12、分數(shù) 常用軟件;GATK recallbration對原始比對結果的另一個質量控制是對堿基的質量分數(shù)進行校正。為什么要對堿基質量進行校正呢?這是因為由于各種系統(tǒng)誤差,測序儀報告的堿基質量不精確,比實際質量分數(shù)偏高或者偏低。 系統(tǒng)誤差和隨機誤差不同,不像隨機誤差,它其實是一種error。這可能來自于測序反應中的物理化學原因,也可能是測序儀本身存在的缺陷造成。堿基質量分數(shù)校正的原理是: 利用機器學習的方法建立誤差模型,根據(jù)建立的模型對堿基分 數(shù)進行調整。調整后更精確的堿基質量分數(shù)能夠提高后續(xù)變異識別的準確率,減少假陽 性和假陰性的變異識別。堿基質量的校正一般使用GATK的recalibration
13、 功能。需要說明的一點是:堿基質量分數(shù)校正不能糾正堿基。也就是說,我們無法通過這個方法確 定一個低質量的A是否應該為T。但可以告訴變異識別軟件,它可以在多大程度上信任這個堿基A是正確的。二、實驗分析部分測序錯誤主要有三大類,分別來自樣品制備、 文庫制備,以及測序和成像。參考文獻:The roleof replicates for error mitigation in next-generationsequencing1 )來源于樣品制備的測序錯誤1 .用戶錯誤;例如,貼錯標簽。雖然這是個低級錯誤, 但肯定不會沒犯過。 在芯片分析中, 貼錯標簽和樣品搞混可都是真事,有文獻可查。2 . DNA或
14、RNA的降解;例如,組織自溶,福爾馬林固定石蠟包埋( FFPE組織制備過程中 的核酸降解和交聯(lián)(甲醛固定樣品會隨機產生C-T轉化,導致肺癌T790M假陽性增多)。3 .異源序列的污染;例如,那些支原體和異種移植的宿主。4 . DNA起始量低。早在2005年人們就發(fā)現(xiàn),在 PCR過程中,DNA起始量低的模板會以序列依賴的方式產生虛假的突變,主要是從G轉變?yōu)锳o2)來源于文庫制備的測序錯誤1 .用戶錯誤;例如,一個樣品的DNA殘留到下一個,之前反應的污染。2 . PCR擴增錯誤。這個同上面第4點。3 .引物偏向;例如,結合偏向,甲基化偏向,錯配導致的偏向,非特異性結合和引物二聚體的形成,發(fā)夾結構和
15、干擾環(huán),熔解溫度太高或太低引入的偏向。4 .短捕獲偏向,在高通量RNA測序的poly(A)富集過程中引入。5 .獨家突變;例如,那些由重復區(qū)域或獨家變異的錯配而引入的突變。6 .機器故障;例如,PCR循環(huán)溫度不正確。7 .嵌合讀取。8 .條形碼和/或接頭錯誤;例如,接頭污染,缺乏條形碼多樣性和不兼容的條形碼。3)來源于測序和成像的測序錯誤1 .用戶錯誤;例如,流動槽過載引起的簇crosstalko2 .移相;例如,不完整的延伸以及多個核甘酸而不是單個核甘酸的添加。3 .“Dea漩光基團,受損的核甘酸以及重疊信號。4 .序列背景;例如,富含GC,同源和低復雜度的區(qū)域,及均聚物。5 .機器故障;例
16、如,激光器、硬盤、軟件和流體系統(tǒng)出故障。6 .鏈的偏向。三、小知識1 .為什么堿基質量在序列的 5'-端要差一些?答:這是由 NGS的測序特點造成的。 NGS使用的是pyrosequencing (sequencing by synthesis)的方法。 在這個方法里,用來合成的 4個堿基的混合物里 A, C, T, G四個 堿基分別帶有綠色, 藍色,紅色和黑色的熒光標記。 而且每個堿基上面都有一個 blocker cap,使得每輪反應只能有一個堿基被加入到每個分子中。然后把沒有加入分子的游離 堿基全部洗去后,對每個分子進行熒光檢測來確定新加入的堿基是什么。在下一輪開始 之前,這個bl
17、ocker cap要去被掉才可以加入下一個堿基。如果某個序列的blocker cap沒有能有效地去除,在下一個反應中就沒有新的堿基加入,那這個序列的熒光和其他的 序列是不一樣的,這樣總體的熒光強度就被消弱,堿基識別的可信度就被降低。這種錯 誤發(fā)生的概率很低,但隨著測序長度的增加,這種錯誤的總數(shù)就越來越多,對熒光的影 響就越來越大,測序的錯誤率就越來越大。2 .什么是接頭序列?為什么會有接頭序列污染?為什么要清除接頭序列?答:在構建高通量測序的 DNA文庫時,需要在待測的 DNA片段兩頭分別連一段人工 合成的DNA序列。這兩段人工合成的序列被稱為接頭序列。接頭序列里一般包含三個 重要組成部分:區(qū)
18、分樣品的barcode序歹U, PCR primer序列和測序引物結合的序列。在一般情況下,待測的插入序列在5'-接頭序列下游,5-段的接頭序列不會出現(xiàn)在測序結果序列里。但當插入測序列過短時,測序反應會超過待測序列而測到3 '-端的接頭序列,從而造成接頭序列的污染。當reads中有接頭序列,會導致比對錯誤和非比對的序列書面增加。所以要清楚接頭序列。3 .測序深度不均一性是測序建庫技術操作的問題,還是每個人的個體化差異導致不均一的現(xiàn)象?答:不均一的原因個體 DNA和測序應該都有,看不同的情況。比如我們曾經分析過一 個WES,在一個本應該檢測到變異的基因,我們無論如何檢測不到??梢?/p>
19、化發(fā)現(xiàn)該區(qū)域 內沒有reads。而查看這段基因序列,發(fā)現(xiàn)是 100%的G。而對測序儀來說,如果 G含 量超過80%,就很難成功測序。而如果個體某段DNA含有比較多的SNP,捕獲探針就無法很好和 DNA雜交,而不能有效的捕獲。4 .測序是否越深越好?NGS屬于“深度測序”,可以1次并行對幾十萬甚至上百萬條DNA分子進行序列測定,從而實現(xiàn)每個位點被覆蓋幾十次甚至上百次。通過計算測序得到的堿基總量與測 序區(qū)域大小的比值,可以獲得測序的平均深度,是評價測序質量的重要指標之一。測序 深度的增加使得目標區(qū)域覆蓋的讀長增多,獲得區(qū)域的序列信息更為精確。然而,測序 深度的增加意味著測序成本的提高。因此,在測序
20、之前需對數(shù)據(jù)精確度和成本進行綜合 考慮,根據(jù)臨床應用需求選擇合理的測序深度。測序深度的選擇主要基于以下 4個方面的考慮:首先,常規(guī)的測序項目采用普遍被接受或推薦的測序深度。正常組織全基因組測序 建議的測序深度為10X30X。有研究表明,30X的測序深度可以覆蓋 80%的全基因 組信息,基本滿足常規(guī)的全基因組測序需求。正常組織全外顯子測序的測序深度為 100X200X。轉錄組測序雖不以深度來衡量,但對測序讀長數(shù)有明確的要求,一般為 百萬數(shù)量級。常規(guī)的染色質免疫共沉淀測序則需要100X左右。這些測序深度都經過多方驗證,基本能滿足不同測序目的的數(shù)據(jù)需求。其次,特殊目的的測序項目可通過檢索文獻數(shù)據(jù)庫,
21、選擇與相關研究類似的測序深 度,如在開展循環(huán)腫瘤 DNA ( circulating tumor DNA , ctDNA )檢測時,可參考 CAPP-Seq方法中的測序深度(10 000X以上),以保證可以覆蓋低頻率的ctDNA突變信息。開展高深度的腫瘤基因組測序,可選擇 60X100X的測序深度。再次,根據(jù)已有的測序項目進行深度優(yōu)化,如根據(jù)已知現(xiàn)有Panel檢測項目靶向區(qū)域各堿基的深度分布情況,90%以上的堿基覆蓋深度 0.2 (均值歸一化結果),要實 現(xiàn)平均測序深度在10X以上的深度測序,其實際測序深度則要達到 50X (10/0.2=50 ), 類似的策略可參閱illumina技術手冊(
22、?)。這種優(yōu)化策略對于新檢測項目的研發(fā)有重 要的幫助。最后,根據(jù)測序目的選擇測序深度。 例如我們開展的遺傳乳腺癌高危人群篩查項目, 采用靶向捕獲測序檢測血液樣本中的胚系突變,由于胚系突變頻率理論值為0%、50%和100% ,此時采取較低的深度(200X )就可獲得該突變信息。但在腫瘤體細胞的突 變檢測中,由于腫瘤組織樣本中腫瘤細胞的異質性和樣本純度等原因,可能存在低頻率的體細胞突變(5%、1%,甚至更低),為了獲得這些突變信息,我們在腫瘤用藥指導 檢測項目中采取深度測序,保證 1 000X以上的測序數(shù)據(jù)。值得強調的是,測序深度的增加往往意味著建庫階段PCR擴增次數(shù)的增加,會導致重復讀長的增多,
23、這些冗余數(shù)據(jù)不僅增加了數(shù)據(jù)處理的計算量,同時會對變異檢測產 生干擾??傊?,測序深度不是隨意指定的,在檢測項目的建立過程中,必須根據(jù)項目需 求選取合適的測序深度。同時,在開展的檢測項目中,必須對測序數(shù)據(jù)進行質量評估, 判斷其是否達到預期的測序深度, 深度不夠則必須補測,若差異太大,則必須重新測序。5 .靶向測序是否真的完全覆蓋靶向區(qū)域?靶向測序是通過捕獲或擴增的手段抓取基因組特定區(qū)域的片段進行NGS ,這個特定區(qū)域既可以是單個或多個基因,也可以是全外顯子組甚至全基因組。必須注意的是, 由于現(xiàn)有的測序技術很難捕獲高 GC區(qū)域、短重復片段等基因組區(qū)域,全外顯子組測序 和全基因組測序并不能完全覆蓋全外
24、顯子組或全基因組區(qū)域,最好的全基因組測序覆蓋度可達97% o Illumina 公司的外顯子組捕獲技術(TruSeq Exome )可實現(xiàn)99.45%的 RefSeq、98.83% 的一致性編碼序列 (consensus coding sequence , CCDS)、99.68% 的Ensembl、99.68%的GENCODE v19 的覆蓋度。此外,不同的全基因組或外顯子組 捕獲體系,如 NimbleGen 、Agilent、Illumina TruSeq 和 Illumina Nextera 的捕獲效 率/覆蓋度也存在差異。在測序過程中,由于試劑差異、人員操作、儀器維護等因素,實際的捕獲
25、效率和覆 蓋度也會與期望值存在偏差,可能會捕獲到非目標區(qū)域序列,也可能漏捕目標區(qū)域序列。非目標區(qū)域序列對于靶向測序沒有意義,而脫靶序列會導致測序信息缺失。因此,對于 任何檢測項目,每一次測序必須給出靶向區(qū)域的覆蓋度統(tǒng)計,這是衡量測序質量的重要 指標之一。當覆蓋度過低時,則需補測數(shù)據(jù)或對樣本重測。值得強調的是,靶向區(qū)域內堿基覆蓋深度的分布并不是均勻的,在靶向區(qū)域的5 /端和3 /端,其測序深度較低,甚至只有 1個或幾個讀長覆蓋,這種低深度的序列信息 不能提供可靠的信息用于后續(xù)分析。因此,在實際操作中,評估測序的覆蓋度往往結合 測序深度,如 靶向區(qū)域內10X以上的覆蓋率。6 .不要忽視重復讀長帶來
26、的數(shù)據(jù)損失測序深度和覆蓋度是大家比較關注和容易接受的質控指標,但測序數(shù)據(jù)中的重復率(即重復讀長在所有讀長中的比例)常被忽視。重復讀長出現(xiàn)的類型有2種:1種是文庫構建前PCR擴增的原因導致的完全一樣的讀長;另 1種是比對到參考基因組上同一 位置不同的讀長,該現(xiàn)象可能是由測序錯誤、比對錯誤、等位基因等原因導致的,即使 讀長序列不一致,但也被認為是重復讀長。第1種重復讀長去除比較簡單,可以根據(jù)序列是否一致來判斷。常用的數(shù)據(jù)質控軟件FastQC就是根據(jù)該原理來估計數(shù)據(jù)中的重復 率。第2種重復讀長來源復雜,是否去除難以判斷,如同一基因不同拷貝的片段,其中 1個拷貝發(fā)生突變,其他拷貝無突變,此時去掉重復讀
27、長則會丟掉該變異信息。目前, 在broad研究所推薦的流程(GATK Best Practice )中,建議去除重復讀長,否則獲 得的突變頻率可能會存在偏移,見下圖。非真實的突變頻率會對腫瘤異質性、克隆演化 等研究數(shù)據(jù)產生重要影響。況向區(qū)域導修拓因鞭向區(qū)域大今與他草因限率F01為變等唐鵬岡幅率=33%去除重復讀長導致的突變頻率偏倚在實際數(shù)據(jù)分析中,Samtools、PICARD等軟件常用來統(tǒng)計數(shù)據(jù)的重復率和去除 重復讀長。一般情況下,靶向捕獲測序的重復率在20%以下,如果低于 如,說明數(shù)據(jù)質量較好;若重復率過高(達 40%或60%),去除重復讀長后位點的實際測序深度 會大大減少,過低的測序深度難以保證突變位點的準確信息。在我們的測序實踐中,擴 增子測序的平均重復率要高于捕獲測序的重復率:擴增子測序的重復率通常為 20%50% ,而捕獲測序的平均重復率為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年劇本殺運營公司服務質量追溯管理制度
- 2026年劇本殺運營公司財務報表編制與報送管理制度
- 2026年機器人集成公司證照年檢管理制度
- 會議紀要撰寫制度規(guī)范
- 船員監(jiān)控室值班制度規(guī)范
- 財務管理不規(guī)范約談制度
- 隔離區(qū)用電制度規(guī)范要求
- 安檢倉庫巡視制度規(guī)范
- 電池租賃制度及流程規(guī)范
- 2026年教師資格之小學教育學教育心理學考試題庫500道帶答案(完整版)
- 2023年廣東交通職業(yè)技術學院招聘考試真題
- 廣東省大灣區(qū)2023-2024學年高一上學期期末生物試題【含答案解析】
- 《合理利用網絡》(優(yōu)質課件)
- 中深度鎮(zhèn)靜紅外線全身熱療方法課件
- 第四單元地理信息技術的應用課件 【高效課堂+精研精講】高中地理魯教版(2019)必修第一冊
- 魯科版高中化學必修一教案全冊
- 提高隧道初支平整度合格率
- 2023年版測量結果的計量溯源性要求
- 建筑能耗與碳排放研究報告
- GB 29415-2013耐火電纜槽盒
- 中國古代經濟試題
評論
0/150
提交評論