(高清版)GBT 43584.2-2023 生物技術 大規(guī)模并行測序 第2部分:測序數(shù)據(jù)的質量評估_第1頁
(高清版)GBT 43584.2-2023 生物技術 大規(guī)模并行測序 第2部分:測序數(shù)據(jù)的質量評估_第2頁
(高清版)GBT 43584.2-2023 生物技術 大規(guī)模并行測序 第2部分:測序數(shù)據(jù)的質量評估_第3頁
(高清版)GBT 43584.2-2023 生物技術 大規(guī)模并行測序 第2部分:測序數(shù)據(jù)的質量評估_第4頁
(高清版)GBT 43584.2-2023 生物技術 大規(guī)模并行測序 第2部分:測序數(shù)據(jù)的質量評估_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

CCSA40生物技術大規(guī)模并行測序第2部分:測序數(shù)據(jù)的質量評估Part2:Qualityevaluationofsequencingdata2023-12-28發(fā)布2023-12-28實施國家標準化管理委員會IGB/T43584.2—2023/ISO20397-2:2021 12規(guī)范性引用文件 3術語和定義 4原始數(shù)據(jù) 54.1通則 54.2原始數(shù)據(jù)文件 54.3原始數(shù)據(jù)的質量評估 54.4原始數(shù)據(jù)預處理 75序列比對與定位 75.1通則 75.2序列比對與定位文件格式 75.3序列比對和定位的質量控制 85.4比對后處理 96變異識別 9 96.2變異識別的數(shù)據(jù)文件 96.3變異識別的質量指標 6.4假陽性變異處理 6.5序列注釋 7驗證 7.1通則 7.2質量指標驗證 8文件 附錄A(資料性)特定MPS平臺示例的質量指標 附錄B(資料性)按應用劃分的覆蓋范圍和推薦讀序 附錄C(資料性)序列比對和定位軟件 參考文獻 Ⅲ本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。本文件是GB/T43584《生物技術大規(guī)模并行測序》的第2部分。GB/T43584已經發(fā)布了以下部分:—第2部分:測序數(shù)據(jù)的質量評估。本文件等同采用ISO20397-2:2021《生物技術大規(guī)模并行測序第2部分:測序數(shù)據(jù)的質量評請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由全國生化檢測標準化技術委員會(SAC/TC387)提出并歸口。本文件起草單位:中國測試技術研究院生物研究所、江漢大學、中國測試技術研究院、深圳華大生命科學研究院、河北省食品檢驗研究院、成都醫(yī)學院、深圳華漢基因生命科技有限公司、浙江貝蘭伯生物技術有限公司、深檢集團(深圳)醫(yī)學檢驗實驗室。大規(guī)模并行測序(MPS)是一種利用大規(guī)模并行處理進行核酸測序的高通量分析方法,該方法可在相對較短時間內對不同生物體的全基因組、轉錄組和特定靶核酸進行研究。MPS已用于許多生命科學領域,可對數(shù)百萬乃至數(shù)千萬個核苷酸堿基進行測定和高通量分析。生物體內脫氧核糖核酸和核糖核酸聚合物的生物變異為準確測定序列帶來了挑戰(zhàn)。通過MPS測定,序列質量取決于許多因素,包括但不限于樣品質量、文庫制備、平臺選擇及測序數(shù)據(jù)質量。GB/T43584擬由以下部分構成:——第1部分:核酸和文庫制備。第1部分主要提供基礎研究,目的在于規(guī)定了測序和數(shù)據(jù)生成前文庫制備和文庫質量評估的一般準則和注意事項?!?部分:測序數(shù)據(jù)的質量評估。第2部分基于第1部分開展具體操作和數(shù)據(jù)質量控制并為第3部分提供研究基礎。——第3部分:宏基因組學的總體要求和指南。第3部分包含第1部分、第2部分,規(guī)定了宏基因組學從樣品制備、生成和分析測序數(shù)據(jù)的準則。測序數(shù)據(jù)分析在數(shù)據(jù)存儲、計算時間和變異檢測準確性等多個領域均對生物信息學提出較大的挑戰(zhàn)。與測序數(shù)據(jù)相關的主要挑戰(zhàn)之一是監(jiān)測數(shù)據(jù)處理流程各個階段的質量控制指標,此點易被忽視。了解數(shù)據(jù)質量對下游序列分析至關重要。核酸測序數(shù)據(jù)處理與分析的質量控制可分為三個階段:原始數(shù)據(jù)、比對和變異識別。本文件提供了MPS測序數(shù)據(jù)質量評估的注意事項,以及針對不同的MPS平臺提供具體建議。1生物技術大規(guī)模并行測序第2部分:測序數(shù)據(jù)的質量評估本文件明確了對大規(guī)模并行測序數(shù)據(jù)進行質量評估的整體要求和建議。涵蓋了原始數(shù)據(jù)生成后的本文件提供了大規(guī)模并行測序(MPS)數(shù)據(jù)驗證和存檔的一般指南。本文件不適用于與從頭組裝相關的任何處理。2規(guī)范性引用文件本文件沒有規(guī)范性引用文件。3術語和定義下列術語和定義適用于本文件。接頭序列adaptersequence接頭adapter一種已知序列的人工寡核苷酸,可連接到核酸片段的3'端或5'端。注:它提供引物位點以及對測序插入序列片段所需的其他必要序列。完全確定的有限序列指令,通過它可以從輸入變量的值計算輸出變量的值。堿基識別basecalling將大規(guī)模并行測序原始電信號轉化為核苷酸序列的計算過程。注:堿基識別的應用和算法的性能由讀序和共有序列準確性來確定。生物信息學流程bioinformaticspipeline對程序、腳本或軟件的整合和順序執(zhí)行,在數(shù)據(jù)處理過程中,原始數(shù)據(jù)或一個程序的輸出作為下一個步驟的輸入。示例:堿基質量剪切程序的輸出能作為從頭組裝程序的輸入。捕獲效率captureefficiency所測得目標區(qū)域序列占所有測序序列或參考序列的百分比。覆蓋度coverage覆蓋深度coveragedepth在一次測序中,每個指定位置的堿基被測序的次數(shù)。2注:覆蓋特定位置的讀序數(shù)目。多次測序產生的基因組序列總長占覆蓋目標區(qū)域的百分比。每個單元中簇的數(shù)量。注1:簇密度適用于有擴增步驟的MPS(3.30)平臺。注2:在某些測序平臺上,每個單測序簇的密度來自于單分子。注3:簇密度通常以K/mm2表示。一種高準確度的測序模式,指一定大小的插入片段在滾環(huán)擴增反應中多次測序。注:在這種模式下,使用多個通道對同一分子進行測序,實現(xiàn)更高準確度。覆蓋范圍coveragerange多次測序得到的覆蓋整個基因組的深度范圍??截悢?shù)變異copynumbervariation;CNV拷貝數(shù)變異體copynumbervariant一個生物體的基因組中一個或多個DNA片段的拷貝數(shù)的變異。注:拷貝數(shù)變異(CNVs)是指長度至少為1kb片段的插入、缺失、倒位和重復。脫氧核糖核酸deoxyribonucleicacid;DNA脫氧核糖核苷酸的聚合物,以雙鏈(dsDNA)或單鏈(ssDNA)形式出現(xiàn)。與參考序列相比,核酸序列中一個(或多個)堿基對的缺失。一個文庫中每個相同序列的重復數(shù)。注:重復水平通常以圖表形式顯示序列的相對數(shù)量。鳥嘌呤和胞嘧啶在一個或多個核酸序列所有堿基中所占的比率。注:多核苷酸中鳥嘌呤和胞嘧啶的含量,通常以總含氮堿基的摩爾分數(shù)(或百分比)表示。總含氮堿基包括一次或多次MPS過程中所產生的核苷酸堿基總數(shù)?;騡ene位于染色體上編碼特定功能產物(RNA或蛋白質)的一段核苷酸(DNA或RNA)序列。注1:基因是遺傳信息的基本單位。注2:基因由經細胞內剪接后重新排列的非連續(xù)性核酸片段組成。3注3:基因包括或是含基因表達元件在內的操縱子的一部分。基因組DNA中插入(3.18)或/和缺失(3.13)的核苷酸片段。注:插入/缺失突變長度小于1kb。核酸序列中加入一個(或多個)核苷酸堿基對。對核酸分子中核苷酸堿基(腺嘌呤、鳥嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶)排列順序和組分的測定。注:序列通常用5'端到3'端表示。序列比對sequencealignment根據(jù)相似區(qū)域排列核酸序列。注:序列比對可能不需要參考基因組/參考靶標核酸區(qū)域,目的或許不是產生組裝基因組。原始數(shù)據(jù)rawdata由測序儀產生的原始測序數(shù)據(jù),未經任何軟件預過濾與分析的數(shù)據(jù)。以雙鏈或單鏈形式存在的核糖核苷酸聚合物。注:信使RNA(mRNA)的核苷酸序列所攜帶的遺傳信息能指導細胞中蛋白質的合成。核糖核苷酸ribonucleotide以核糖為戊糖組成部分的核苷酸,是構成RNA的基本單位。注:核糖核苷酸包括腺嘌呤核糖核苷酸(AMP)、鳥腺嘌呤核糖核苷酸(GMP)、胞嘧啶核糖核苷酸(CMP)或尿嘧啶核糖核苷酸(UMP)。序列讀序sequenceread由測序儀產生的核苷酸序列。注:一個讀序是指對應于單個核酸片段的所有(或部分)核酸堿基對(或堿基對概率)的推斷序列。讀序指MPS實驗中獲得的所有序列。序列類型,取決于實驗設計和實施的序列讀取方式。參考序列referencesequence用于讀序定位時的比對核酸序列,或作為基因和序列變異注釋時的基礎核酸序列。4多路分解demultiplexing多重復合過程的反向計算,將兩個或多個樣本混合,讓MPS儀器單次測序運行即可對所有樣品進行測序。注1:樣品混合之前需標記條形碼/索引。注2:多路分解是一種計算算法,能夠根據(jù)條形碼將一組讀序進行分離。定位mapping將核酸序列與現(xiàn)有基礎(參考)序列進行比較并構建一個共有序列的過程。配對讀序matepairreads通過將樣本片段化(大于或等于2kb)獲得的長核酸序列末端的成對讀序。大規(guī)模并行測序massivelyparallelsequencing;MPS基于多個DNA模板獨立聚合延伸的測序技術。注:大規(guī)模并行測序技術一次運行能同時讀取數(shù)百萬或數(shù)十億的DNA分子模板。通過從一個DNA片段兩個末端測序獲得的讀序。注:在雙端測序中,儀器同時對插入片段(200bps~800bps范圍內)的兩端進行測序。質量值qualityscore堿基質量值phredqualityscore衡量給定核苷酸堿基的測序質量注1:Q值定義見公式(1):式中:p——堿基識別錯誤率。注2:質量值為20代表錯誤率為1/100,相應的準確率為99/100。注3:質量值越高,出錯的概率越小。較低的質量值會導致大部分讀取無效。低質量值也能表示假陽性變異,導致結論不準確。運行run測序儀從啟動到獲得原始數(shù)據(jù)的單次循環(huán)過程。對DNA、RNA或蛋白質序列的結構或功能方面的信息加以解釋、評價或說明的過程。注:序列注釋視為將數(shù)據(jù)元分配給序列的過程。單端讀序single-endread通過從DNA片段的一端讀取到另一端而獲得的序列。5單核苷酸變異singlenucleotidevariant;SNV一個核酸分子中單個核苷酸的變異。1kb及以上范圍的DNA片段發(fā)生倒位、平衡易位和基因組失衡等結構變化。和易位(平衡或失衡)。從發(fā)夾接頭之間讀取到的片段。去除低質量或被污染序列,同時保留大規(guī)模并行測序讀取的高質量序列的過程。變異variation序列中一個或多個核酸堿基與預期堿基之間的差異。準確識別數(shù)據(jù)序列與參考序列之間差異的過程。零模波導zeromodewaveguide;ZMW把光能量定向限制于小于光波長尺度的區(qū)域范圍的光波導。注:聚合酶被固定在ZMW的底部,通過判別熒光信號來識別結合到核酸鏈上的核苷酸分子的類別。4原始數(shù)據(jù)4.1通則序列中每個核苷酸宜匹配一個數(shù)值(堿基質量值),該值與堿基識別過程準確度相關(如適用)。4.2原始數(shù)據(jù)文件序列讀序文件宜使用儀器特定的軟件或流程生成。每次測序實驗中應實時監(jiān)測并記錄物理參序列讀序文件宜設定適當?shù)奈募袷?,包含每個序列讀序的編碼、相應的標識符以及每個核苷酸的堿基質量值。注:FASTQ格式(或可轉換為FASTQ格式)可作為MPS數(shù)據(jù)集質量分析的標準格式。FASTQ作為一種可跨平臺交換的文件格式已被廣泛接受。生物信息學流程中宜采用適當?shù)能浖y序生成的輸出文件和相關質量指標進行分析。4.3原始數(shù)據(jù)的質量評估質量控制指標可能因MPS平臺、文庫制備方法和分析目的差異而有所不同。6序列結果宜由專業(yè)人員解讀。解讀應考慮讀序重復數(shù)量的統(tǒng)計可靠性,以達到符合預期目的的質量水平。使用處理讀序工具時,宜考慮質量評定結果和原始讀序的修剪。4.3.2基本統(tǒng)計信息試驗應記錄基本統(tǒng)計信息,包括但不限于:a)平臺類型;b)讀序類型;c)建庫試劑盒;d)讀序長度;e)讀序數(shù)量;g)總序列長度。評估原始數(shù)據(jù)的質量控制指標可參考以下指標,但不限于以下指標:a)序列長度分布;b)每個序列GC含量;c)質量值:1)單堿基序列質量,2)序列質量統(tǒng)計,注1:低質量值預示了變異識別假陽性的增加。d)堿基比例分布;e)信噪比的可接受度;f)序列重復水平;g)高于閾值水平;h)簇密度;i)全外顯子組測序或全基因組測序或擴增子測序的轉換/轉換比;j)接頭比例/接頭序列污染程度;k)污染物(定性、定量);1)錯誤率;注2:包括均聚物錯誤:一個單核苷酸連續(xù)多次出現(xiàn)在序列中堿基識別的錯誤量。注3:在計算基因組學中,k-mers指核酸序列中長度為k的所有可能的子序列。高于閾值的k-mers有利于分析可能由重復序列導致的潛在基因組錯配。注4:尚不明確的堿基數(shù)量/百分比。o)重復延伸和重復序列;p)循環(huán)測序過程中的核苷酸分布。74.4原始數(shù)據(jù)預處理原始數(shù)據(jù)預處理可包括但不限于以下計算步驟(如適用):a)去除/修剪低質量的序列/堿基;b)多路分解;c)去除接頭/引物和污染物;d)校正錯誤;e)過濾重復讀序;f)修剪讀序至固定長度;g)識別CCS讀序。當使用CCS數(shù)據(jù)庫時,在進行下游分析前宜先獲得并過濾CCS讀序。5序列比對與定位5.1通則宜根據(jù)應用程序選擇序列比對和定位策略。示例:RNA的拼接定位和RNA測序的非拼接定位策略。比對/定位軟件及工具均可用于比對。評估比對質量可通過采用合適的比對視圖以及比對文件中所提供的信息。不同宜用序列的序列比對及定位軟件見附件C。定位宜使用參考基因組/參考目標核酸區(qū)域,根據(jù)實驗設計合理篩選。注1:考慮因素包括參考基因組/目標區(qū)域參考序列的版本、生物體中不同株系以及掩蔽、軟掩蔽或非掩蔽基因組的選用。注2:開源的序列比對和定位軟件可網(wǎng)上下載。5.2序列比對與定位文件格式比對通常以下列文件格式保存。a)序列比對格式(Sequencealignmentformat,SAM)。注1:SAM是一種以制表符為分隔符的文本格式,包括頭文件、比對兩部分。每條比對線包含11個必要比對信息,如定位的位置、校正器特定信息的可選字段變化數(shù)。b)二進制比對格式(Binaryalignmentformat,BAM)。注2:為一種精簡格式,類似于二進制的SAM格式。CRAM)。注3:CRAM是一種測序讀序文件格式,其是基于參考序列數(shù)據(jù)庫,提供壓縮模式的有損/無損運行包。d)基因組動態(tài)圖像專家組格式(Movingpicturesexpertsgroupforgenomics,MPEG-G)。注4:MPEG-G是一種基于基因組收錄數(shù)據(jù)的表示格式,由單個序列讀序或成對序列讀序組成的數(shù)據(jù)結構及其相關測序和比對信息;其包含詳細的定位和比對數(shù)據(jù)庫、單個或成對讀序標識符(讀序名字)及質量值。訪問單元結構是獨立訪問和檢查編碼基因組信息的單元,能聚集和編碼基因組收錄數(shù)據(jù)。注5:MPEG-G按照ISO/IEC23092系列標準執(zhí)行。比對文件宜包含比對過程中各個讀序的位置、方向及質量等信息。依賴所屬應用程序,算法和工具可適用于比對文件。85.3序列比對和定位的質量控制5.3.1基本比對數(shù)據(jù)獲得并記錄基本比對或定位數(shù)據(jù)。基本比對或定位數(shù)據(jù)因實驗設計和讀序類型的不同而存在差異。單端讀序的定位統(tǒng)計信息具體包括:a)讀序總數(shù)是指定位到參考序列或基因組的讀序數(shù)。b)未定位讀序是指未定位到參考序列或基因組的讀序。c)定位讀序是指比對到參考序列或基因組的讀序。d)唯一定位讀序是指與參考序列或基因組一次即可精確比對的讀序。注1:定位的唯一性試具體情況而定。基于一組定位參數(shù)的唯一定位讀序可能是另一組定位參數(shù)的多靶標讀序。e)多靶標定位讀序是指在參考序列或基因組上具有多個可能的對應位置的讀序。注2:多靶標取決于定位環(huán)境。雙端讀序的定位統(tǒng)計信息具體包括:a)配對總數(shù)是指定位到參考序列或基因組的雙端讀序數(shù)。b)定位配對是指兩端均被定位的讀序。c)部分定位配對是指配對端中只有一端配對被定位的讀序。d)非定位配對是指未能定位到參考序列或基因組的讀序。e)不適當?shù)亩ㄎ慌鋵κ侵钙渲幸欢伺鋵Π捶穷A期方向定位的成對讀序。注1:也被稱為無序定位配對。f)適當?shù)亩ㄎ慌鋵κ侵竷啥伺鋵搭A期方向定位的成對讀序。注2:也被稱為有序定位配對。比對到目標參考序列的子讀序長度,不包括接頭序列。以下質量控制參數(shù)適用于不同應用中:a)比對率;注1:低質量定位可能由非特異性擴增、非靶標DNA污染或其他原因導致。b)片段長度,或待測序的DNA/RNA的長度;c)雙端讀序插入片段尺寸是指所測得DNA/RNA接頭之間的長度;注2:插入片段尺寸分布的峰值用于質量評估。d)僅基于擴增子測序的重復水平;e)預期覆蓋度包括覆蓋深度、寬度和范圍;注3:附件B提供了適用于不同應用的覆蓋范圍清單。f)AT/GC偏差;9注4:能通過GC含量與測序深度/覆蓋度的百分比進行評估。g)定位質量值;h)捕捉效率;注5:捕獲效率是外顯子組測序或其他基于目標捕獲測序最重要的質量控制參數(shù)。i)平均深度或中位深度,在該深度測序基因組所覆蓋的百分比;j)無需定位配對的數(shù)量;k)高質量讀序比對;1)錯配率;m)共有序列準確性;注6:共有序列準確性是基于多個測序讀序及子讀序同時比對獲得的精確性。n)環(huán)化共有序列準確性;注7:環(huán)化共有序列準確性是基于多個測序通道圍繞單一環(huán)狀模板分子獲得的精確性,常被用于CCS中。o)子讀序準確性。注8:堿基識別的定位準確性。5.3.3序列比對和定位質量評估方法基于評分方式評估序列比對質量。注:評分矩陣的選擇取決于具體應用程序。5.4比對后處理比對后處理包括但不限于:a)局部再比對插入/缺失附近序列或基于每個堿基比對的計算;b)去除重復項;c)再校正堿基質量值;d)根據(jù)堿基質量修剪讀序平均長度。6變異識別6.1通則6.1.1序列變異主要有四種類型(單核苷酸變異、插入/缺失、拷貝數(shù)變異和結構變異),為達到靈敏、特異性識別的目的,不同類型的序列變異應采用不同的算法。6.1.2軟件工具包的范圍及所需驗證類型取決于分析設計。6.2變異識別的數(shù)據(jù)文件6.2.1變異識別應使用適當?shù)囊?guī)范進行注釋。說明書應包含元信息、標題行和數(shù)據(jù)行,每條數(shù)據(jù)行包含基因位置信息和每個位置中樣品的基因型信息。示例1:被識別的變異體使用變異識別格式(VCF)進行注釋。示例2:存在說明和存儲變異識別的替代規(guī)范:a)基因組的VCF條例;b)序列本體基因組變異格式1.10版;c)人類基因組變異學會,人類基因組變異學會(HumanGenomeVariationSociety,HGVS)簡易版d)全球基因組學和健康聯(lián)盟(GlobalAllianceforGenomicsandHealth,GA4GH)文件格式。6.2.2變異文件應包括所使用的規(guī)范和版本。6.2.3變異識別宜配置為輸出,參考序列、變異體、未識別序列以及目標區(qū)域內本地信息。6.3變異識別的質量指標質量控制指標宜包括但不限于(如適用):a)變異位置的讀序覆蓋深度閾值;b)變異體的質量值;c)鏈偏好性;d)等位基因讀序百分比;e)與變異識別的準確性和靈敏度有關的其他指標,包括但不限于:1)變異體總數(shù),2)假陽性數(shù)量,3)假陰性數(shù)量,4)等位基因和基因型錯配數(shù),5)轉換/轉換比率,6)雜合/純合子比率;f)樣品交叉污染分析。6.4假陽性變異處理假陽性變異宜基于序列比對和變異識別相關的質量控制指標,在原始變異文件中標記或濾除。6.5序列注釋對變異體進行注釋,以確定其生物學意義,并實現(xiàn)功能優(yōu)化和下游解釋。7驗證7.1通則7.1.1提供基于MPS檢測的實驗室宜進行“內部”生物信息學流程驗證。7.1.2在驗證過程中應確定試驗的性能要求,同時每次樣品檢測,需使用同一個規(guī)范來監(jiān)測試驗性能。7.1.3在驗證過程中應評估特定的質量控制和質量保證參數(shù),確定最佳性能。7.1.4實驗室應建立監(jiān)測所有質量指標的標準和方法,宜形成相應的程序文件并定期驗證,以確保最佳分析能力。部分平臺推薦的質量指標及具體值見附錄A。7.1.5實驗室應制定具體措施,以確保生物信息學流程中生成的數(shù)據(jù)文件的完整性,并對未經授權或意外更改的數(shù)據(jù)文件提供警報或禁止使用。7.1.6當對生物信息學流程中的步驟進行重大更改時,均需進行補充驗證。7.2質量指標驗證7.2.1分析驗證應在分析目的明確并形成文件的基礎上進行。測量目的應明確且有證明文件。7.2.2實驗室應在驗證過程中為試驗建立可接受的原始堿基識別質量值閾值。7.2.3宜建立去除低質量堿基的預處理方法,降低假陽性發(fā)生率。7.2.4驗證過程中宜確定試驗所包含的基因組中GC偏倚程度。7.2.5應在驗證計劃中確定比對質量參數(shù),并宜證明該試驗僅評估比對所指向的區(qū)域。若適用,宜建立將讀序過濾至非目標區(qū)域的步驟。7.2.6應定義覆蓋范圍,使其在利益范圍內達到足夠的靈敏度和特異性。7.2.7根據(jù)測序目的,每個實驗室應在標準試驗條件下,建立特定區(qū)域覆蓋特征的最低標準。對于均質樣本,需確認序列,可接受較低深度。在一個區(qū)域的不同識別過程中,或1%的混合樣本中的稀有序列,均需進行深度測序。7.2.8在驗證階段應確定目標區(qū)域所需的覆蓋度(覆蓋范圍)。不同應用的推薦范圍見附錄B。7.2.9宜為每次試驗建立最大重復率的可接受參數(shù)。7.2.10宜建立分析流水線濾除重復讀序,以增加可用測序數(shù)據(jù)的數(shù)量,防止等位基因發(fā)生偏倚。7.2.11各實驗室應保證對鏈偏好性的限值,并制定可替換試驗的具體標準。7.2.12質量指標可參考具有良好特性、具有可靠參考序列的相關標準進行驗證,以保證校正及變異識別的準確性。7.2.13推薦采用Sanger測序法驗證重要的結合區(qū)域。8文件8.1實驗室應記錄所有MPS結果分析、注釋和報告的算法、軟件和數(shù)據(jù)庫。在整個生物信息學流程中,應記錄所有版本信息,并對所有結果進行追溯。8.2實驗室應記錄任何與默認配置不同的定制項目,或宜說明哪些參數(shù)是自定義的。8.3若適用,宜確定參考序列、版本號和詳細信息。8.4實驗室宜記錄最佳性能的質量控制參數(shù)。示例:在主要步驟中,實驗室將確定可接受的標準,如通過儀器指定質量過濾器的讀序。8.5實驗室宜記錄將較大變量數(shù)據(jù)集縮減為候選基因或變量列表的生物信息學過程。8.6宜將符合規(guī)定要求的證據(jù)形成文件。(資料性)特定MPS平臺示例的質量指標以下平臺是核酸測序常用的MPS平臺。用于質量評估的指標示例如表A.1所示。注:以全人類基因組序列為例,為每個質量指標提供特定的值。表A.1特定MPS平臺的質量指標平臺名稱原始文件的格式讀序長度質量值冗余率簇密度接頭比例60000000~BGI/MGIMGISEQ-2000本信息僅為方便使用本文檔的用戶而提供,并不構成ISO對產品名稱的認可。6本信息僅為方便使用本文檔的用戶而提供,并不構成ISO對產品名稱的認可。本信息是為了方便用戶使用文件,并不構成ISO對產品名稱的認可。d本信息僅為方便使用本文檔的用戶而提供,并不構成ISO對產品名稱的認可。本信息僅為方便使用本文檔的用戶而提供,并不構成ISO對產品名稱的認可。采用波段作為測量單位。B采用ZMWs(零模波導)進行測量。(資料性)按應用劃分的覆蓋范圍和推薦讀序表B.1應用程序的覆蓋度和推薦讀序應用推薦范圍推薦讀序全基因組測序純合的單核苷酸變異-等位基因相同的基因中單核苷酸的變化雜合子單核苷酸變異-單核苷酸在等位基因彼此不同的基因中發(fā)生變化核苷酸被插入或缺失的基因組突變拷貝數(shù)變異-一個基因之間拷貝數(shù)的變異1×~8×全外顯子組測序純合子單核苷酸變異100×(3×本地閱讀覆蓋范圍)'雜合子單核苷酸變異100×(13×本地閱讀覆蓋范圍)“有針對性的測序插入/缺失無推薦 目標區(qū)域的單核苷酸變異/結構變異1000倍~10000倍 RNA測序-轉錄組測序16SrRNA基因最低每個樣品100差異表達譜-跨多個基因的基因表達的定量測量,以檢查不同水平10000000~25000000選擇性修剪-從mRNA轉錄產物中鑒定不同修剪變異體500000~1000000(針對短讀序平臺)2000000~3000000(針對長讀序平臺)等位基因特異性表達-受特定等位基因影響的轉錄組表達50000000~100000000(microRNA)測序差異表達-小RNA表達檢測樣本中不同水平的表達定量測量~1000000~2000000發(fā)現(xiàn)新的小RNA~5000000~8000000注1:結果能通過互補的蛋白質組學實驗進行驗證。注2:人體樣本的推薦覆蓋度。15×表示本地相同的覆蓋率,而不是整體的平均覆蓋率。此處數(shù)字代表個例。b100×是整個外顯子組測序的總平均覆蓋率。3×表示檢測SNP的本地覆蓋率。100×是整個外顯子組測序的總平均覆蓋率。13×表示檢測SNP的本地覆蓋率。此處數(shù)字代表個例。(資料性)序列比對和定位軟件表C.1序列比對和定位軟件功能描述軟件/工具比對或定位Blast,Blat,SOAP,BWA,Bowtie2等RNA測序分析中剪接的評估Bowtie2,BWA,HISAT2,STAR等可視化比對視圖BamView,IntergrativeGenmomicViewer注1:軟件定期更新,高度依賴/與平臺、應用程序和序列數(shù)據(jù)相關。2020年6月,顯示表中示例有效。注2:本表所列軟件的例子均為可用的合適軟件。此信息是為了方便本文檔的用戶而提供的,并不構成ISO對這些產品的認可。aminationproceduresfordetectionandidentificationofmicrobialpathogensLaboratoryqualitypracticeguide[2]ISO/TS20428Healthinformatics—Dataelementsandtheirmetadatafordescribingstructuredclinicalgenomicsequenceinformationinelectronichealthrecords[3]ISO22174:2005Microbiologyoffoodandanimalfeedingstuffs—Polymerasechainreaction(PCR)forthedetectionoffood-bornepathogensGeneralrequirementsanddefinitionsforthedetectionoffood-bornepathogens—Generalrequirementsanddefinitions[4]ISO/IEC23092-1:2020Informationtechnology—Genomicinformationrepresentation—Part1:Transportandstorageofgenomicinformation[5]ISO/IEC23092-2:2020Informationtechnology—Genomicinformationrepresentation—Part2:Codingofgenomicinformation[6]ISO/IEC23092-3:2020Informationtechnology—Genomicinformationrepresentation—Part3:Metadataandapplicationprogramminginterfaces(APIs)[7]ISO/IEC23092-4:2020Informationtechnology—Genomicinformationrepresentation—Part4:Referencesoftware[8]ISO/IEC23092-5:2020,Informationtechnology—Genomicinformationrepresentation—[9]ISO/IEC23092-61Informationtechnology—Genomicinformationrepresentation—Part6:Codingofgenomicannotations[10]IEC60050-351:2013Internationalelectrotechnicalvocanology[11]ArduiS.,etal.Singlemoleculereal-time(SMRT)sequencingcomesofage:applicatandutilitiesformedicaldiagnostics.Nucleicacidsresearch.[Online].March2018,46(5):2159-2168[viewed2019-09-15].Availableat:/nar/article/46/5/2159/4833218[12]AzizN,etal.CollegeofAmericanPathologiestsLaboratoryStanSequencingClinicalTests.ArchPatholLabMed[Online].April2015,139(4):481-493[viewed2018-4-10].Availableat:/pubmed/25152313[13]CarverT.,etal.Bamview:viewingmappedreadalignmentdatainthecontextoftheref-erencsequence.Bioinformatics.[Online].March2010,26(5):676-677[viewed2019-01-15]Availableat:/pmc/articles/PMC2828118/[14]DunnenJ.T.,etal.HGVSrecommendationsforthedescriptionofsequencevariants:2016update.March2nd2016.[online].Humanmutation.[viewedMay1st2020]Availablefrom:/doi/full/10.1002/humu.22981[15]DaehwanK.,etal.Graph-basedgenomealignmentandgenotypingwithHSAT-genotype.NatureBiotechnology.August2nd2019.[online].Springer.[viewedMaylst2020]Availablefrom:/articles/s41587-019-0201-4[16]DobinA.,etal.STAR:UltrafastuniversalRNA-seqaligner.25thOct.2012[online]Bioinfor-matics.[viewedMay1st2020]Availablefrom:/bioinformatics/[17]LiH.,DurbinR.,Fastandaccurateshortreadaltransform.May18th2009.[online]Bioinformatics.[viewedMaylst2020].Available/bioinformatics/article/25/14/1754/225615[18]EuropeanNucleotideArchive(ENA)CRAM.[online].EMBL-EBI2019[viewed2019-01-15]Availableat:https://www.ebi.ac.uk/ena/software/cram-toolkit[19]Github.SMA/BAMandrelatedspeMay27st2020]Availablefrom:https://samtools.github.io/hts-specs/[viewedMay1st2020].Availablefrom:/The-Sequence-Ontology/Specifications/blob/master/gvf.mdAvailablefrom:/site/gvcftools/home/about-gvcf/gvef-conventionsIl-lumina.Anintroductiontonextgenerationsequencingtechnology.[online].Illumina.[viewed2018-4-15].Availableat:/content/dam/illumina-marketing/documents/prod-ucts/illuminasequencingintroduction.pdf[22]JenningsL.J.,etal.GuidelinesforValidationofNcologyPanels.JournalofMolecularDiagnostics[Online].May2017,19(3):341-365[viewed2018-4-15].Availableat:/article/S1525-1578(17)30025-9/fulltext[23]KuczynskiJ,etal.Directsequencingofthehumanmicrobiomereadilyrevealscommunitydifferences.Genomebiology11.5(2010):210.[24]KuczynskiJ,etal.Microbialcommunityresemblancemethodsdifferintectbiologicallyrelevantpatterns.Naturemethods7.10(2010):813.Methods.[Online].March2012,9(4)[viewed

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論