付費(fèi)下載
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于參考序列的生物DNA測(cè)序數(shù)據(jù)壓縮技術(shù)研究摘要:隨著生物測(cè)序技術(shù)的不斷發(fā)展,大量DNA短讀片段產(chǎn)生。在相關(guān)計(jì)算機(jī)專家、生物學(xué)家對(duì)該領(lǐng)域研究的過(guò)程中,這些數(shù) 據(jù)的管理與分析處于重要地位。文章分析了基于高通量測(cè)序技術(shù)下的兩種測(cè)序數(shù)據(jù)的壓縮方法。最后得出結(jié)論:基于參考序 列的壓縮方法壓縮比較高。關(guān)鍵詞:測(cè)序技術(shù):敬據(jù)壓縮:參考序列:DNA測(cè)序教據(jù)Research on biological DNA sequencing data compression technology based on reference sequenceAbstract: With the continuous devel
2、opment of biological sequencing technology, a large number of short-read DNA fragments are produced. In the process of related computer experts and biologists researching this field, the management and analysis of these data are in an important position. The article analyzes two compression methods
3、of sequencing data based on high-throughput sequencing technology. Finally, it is concluded that the compression method based on the reference sequence has a higher compression ratio. Keywords: sequencing technology; data compression; reference sequence; DNA sequencing data0引言1990年,人類基因組計(jì)劃取得了決定性成功,我
4、國(guó)也 與1999年加入此計(jì)劃。生物信息學(xué)是近些年迅速興起的邊 緣學(xué)科,主要以計(jì)算機(jī)為工具對(duì)生物信息進(jìn)行存儲(chǔ)、檢索和 分析。DNA測(cè)序數(shù)據(jù)包含了極其重要的生物學(xué)信息,它所 蘊(yùn)含的生命科學(xué)仍然值得科學(xué)家進(jìn)行深度挖掘。隨著基因測(cè) 序項(xiàng)目的展開,以及DNA測(cè)序技術(shù)成本越來(lái)越低和測(cè)序平 臺(tái)的不斷普及,每天都在產(chǎn)生海量的DNA測(cè)序數(shù)據(jù)。如何 解決這些龐大的數(shù)據(jù)量,已經(jīng)成為當(dāng)前學(xué)術(shù)界研究的熱點(diǎn)話 題,而最有效、最直接的方式便是數(shù)據(jù)壓縮。圖1數(shù)據(jù)壓縮一般步驟圖2基于參考序列的DNA壓縮技術(shù)原理圖DNA測(cè)序數(shù)據(jù)與其他待壓縮數(shù)據(jù)有所區(qū)別,DNA數(shù) 據(jù)有其固定的特點(diǎn),對(duì)其進(jìn)行壓縮時(shí)需要無(wú)損壓縮。自 從1993年Gr
5、umbach等提出針對(duì)DNA序列的壓縮方法 BioCompress,就意味著對(duì)DNA序列壓縮的研究正式開 始。在此背景下,越來(lái)越多的學(xué)者加大了對(duì)該領(lǐng)域的研究 力度,提出了具有代表性的壓縮方法,例如統(tǒng)計(jì)法、替代圖1數(shù)據(jù)壓縮一般步驟圖2基于參考序列的DNA壓縮技術(shù)原理圖DNA測(cè)序數(shù)據(jù)與其他待壓縮數(shù)據(jù)有所區(qū)別,DNA數(shù) 據(jù)有其固定的特點(diǎn),對(duì)其進(jìn)行壓縮時(shí)需要無(wú)損壓縮。自 從1993年Grumbach等提出針對(duì)DNA序列的壓縮方法 BioCompress,就意味著對(duì)DNA序列壓縮的研究正式開 始。在此背景下,越來(lái)越多的學(xué)者加大了對(duì)該領(lǐng)域的研究 力度,提出了具有代表性的壓縮方法,例如統(tǒng)計(jì)法、替代1相關(guān)概念
6、1 DNA序列DNA屬于高分子聚合物的一種,脫氧核苷酸是DNA 的基本單位。每個(gè)脫氧核苷酸都是由一個(gè)堿基(Base)、一 個(gè)磷酸分子(P)以及一個(gè)脫氧核糖(S)構(gòu)成的。DNA分 子中僅有4種堿基存在,它們分別是:腺嘌吟(A)、鳥嘌 吟(G),胞嘧啶(C)、胸腺嘧啶(T)。脫氧核苷酸主要 是通過(guò)化學(xué)鍵相互連接成線性排列成有方向的多聚核苷酸長(zhǎng) 鏈。這就是DNA的一級(jí)結(jié)構(gòu),可簡(jiǎn)單地按正方向順序來(lái)書 寫的堿基序列來(lái)表示。1.2高通量DNA測(cè)序相關(guān)的數(shù)據(jù)格式在DNA測(cè)序技術(shù)快速發(fā)展的背景下,所形成的DNA 序列數(shù)據(jù)越來(lái)越龐大,進(jìn)而在存儲(chǔ)、分析、管理以及傳輸方 面面臨著更多的問題。因此,出現(xiàn)了專業(yè)的數(shù)據(jù)格
7、式,主要 有SAM/BAM格式、FASTQ格式以及FASTA格式。FASTA 格式數(shù)據(jù)通常由DNA序列的測(cè)序過(guò)后的拼接、組裝等技術(shù) 產(chǎn)生。SAM格式文件主要應(yīng)用 于測(cè)序序列的短讀匹配到參考 基因組上的結(jié)果。BAM格式文 件是SAM格式文件的二進(jìn)制形 式,BAM格式文件的存儲(chǔ)空間 消耗更小。1.3數(shù)據(jù)壓縮基礎(chǔ)所謂數(shù)據(jù)壓縮,可將其理 解為在任何信息都不丟失的情 況下,來(lái)對(duì)消息中的冗余進(jìn)行 去除,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)空間 的減少,這對(duì)于實(shí)現(xiàn)存儲(chǔ)、傳 輸及處理效率的提升有著重要的意義。現(xiàn)階段,主要可將數(shù) 據(jù)壓縮劃分為無(wú)損壓縮、有損壓縮兩個(gè)分支。其中,有損壓 縮的根本目標(biāo)是促進(jìn)壓縮率的提升,進(jìn)而可以存在部分
8、精度 的損失。無(wú)損數(shù)據(jù)壓縮,則在一個(gè)壓縮/還原周期之后,得 到一個(gè)精確無(wú)差的原始輸入數(shù)據(jù)流的副本。DNA序列數(shù)據(jù) 蘊(yùn)含著大量人類未知的生物學(xué)信息,因此只能夠運(yùn)用無(wú)損壓 縮技術(shù)來(lái)對(duì)數(shù)據(jù)壓縮。其中,圖1為數(shù)據(jù)壓縮的一般步驟, 其主要是由建模、編碼兩個(gè)階段構(gòu)成的。在無(wú)損壓縮模型方面,是由字典模型、統(tǒng)計(jì)模型兩個(gè)類 別構(gòu)成的。其中,統(tǒng)計(jì)模型的原理是按照順序?qū)⒆址x入, 然后對(duì)字符出現(xiàn)的概率進(jìn)行計(jì)算,在此基礎(chǔ)上來(lái)分配變長(zhǎng) 碼,最終達(dá)到壓縮的目標(biāo),其中較為常用的方法有算術(shù)編碼、 Hufiman編碼等。而字典模型的原理則是在讀入字符的過(guò)程 中,運(yùn)用字典將一連串的字符編碼為一個(gè)標(biāo)識(shí),較為常用的 技術(shù)有LZ77、
9、LZ78等,其壓縮效果與建模過(guò)程有著密切的 關(guān)系。(1)統(tǒng)計(jì)模型。在運(yùn)用統(tǒng)計(jì)模型的過(guò)程中,第一步需 要對(duì)可預(yù)測(cè)輸入數(shù)據(jù)流中符號(hào)的概率進(jìn)行考慮,然后按照得 到的概率須脫離均勻分布。根據(jù)壓縮環(huán)節(jié)是否需要進(jìn)行更新, 可將統(tǒng)計(jì)模型劃分為自適應(yīng)模型、靜態(tài)模型兩種。其中,在 自適應(yīng)模型中,編碼器與解碼器需采用相同的模型,同時(shí)無(wú) 須從編碼器傳遞統(tǒng)計(jì)表。靜態(tài)模型則是指在壓縮前,來(lái)對(duì)輸 入流進(jìn)行掃描后形成統(tǒng)計(jì)表,在編碼期間信源符號(hào)的概率是 一直不變的。與靜態(tài)模型相比,自適應(yīng)模型能夠更好地適應(yīng) 變化的數(shù)據(jù),從而得到較高的壓縮比。(2)字典模型。字典模型是由自適應(yīng)字典模型、靜態(tài) 字典模型構(gòu)成的。其中,前者能夠很好地
10、處理各種類型的問題,因此當(dāng)前所運(yùn)用的字典模型基本上都屬于自適應(yīng)的;后 者在壓縮期間需與壓縮后的數(shù)據(jù)共同存儲(chǔ),所占用的空間 較大。2高通量DNA測(cè)序數(shù)據(jù)壓縮方法近年來(lái),隨著多國(guó)政府啟動(dòng)個(gè)人基因組計(jì)劃的啟動(dòng),基 因測(cè)序技術(shù)逐漸普遍應(yīng)用于各大領(lǐng)域,比如說(shuō)精準(zhǔn)醫(yī)學(xué)、法 醫(yī)生物學(xué)、生物系統(tǒng)學(xué),DNA序列已經(jīng)成為不可或缺的知 識(shí)?,F(xiàn)階段,高通量DNA測(cè)序方法中所運(yùn)用到的平臺(tái)主要 有:Applied Biosystems SOLiD 測(cè)序儀、Roche454 測(cè)序儀、 Illumina測(cè)序系統(tǒng)、PacBio RSII單分子測(cè)序和Ion PGM以 及Proton半導(dǎo)體測(cè)序儀。在DNA測(cè)序進(jìn)行期間,得到可靠 的
11、數(shù)據(jù)是非常重要的,那么最直接、最有效的方法便是將短 讀對(duì)目標(biāo)序列處于幾十倍的覆蓋率,意味著在此背景下所形 成的數(shù)據(jù)量是相對(duì)龐大的。針對(duì)于下一代測(cè)序來(lái)說(shuō),根據(jù)短 讀組裝、拼接模式的差異,具體可將其劃分為從頭測(cè)序、重 測(cè)序兩個(gè)類型,下面來(lái)對(duì)其做出詳細(xì)的介紹。2. 1重測(cè)序DNA序列壓縮重測(cè)序主要是對(duì)已完成測(cè)序物種的不同個(gè)體而開展的測(cè) 序。當(dāng)前,因?yàn)槭艿饺祟悊魏怂岫鄳B(tài)研究、設(shè)計(jì)標(biāo)記以及疾 病研究等相關(guān)因素的影響,為了能夠得到準(zhǔn)確的結(jié)果,則需 對(duì)同一物種的不同個(gè)體開展測(cè)序。當(dāng)然,假如已經(jīng)取得了該 物種某個(gè)個(gè)體的完整基因組序列,則可運(yùn)用下一代測(cè)序技術(shù), 將已知序列作為參考樣本,進(jìn)而形成大量DNA短讀高度
12、覆 蓋目標(biāo)基因組,最后借助映射來(lái)得到目標(biāo)基因組數(shù)據(jù)。重測(cè)序數(shù)據(jù)壓縮一般情況下也被稱之為基于參考序列壓 縮,重點(diǎn)是根據(jù)記錄參考序列和短讀間的差異信息,來(lái)實(shí)現(xiàn) 對(duì)數(shù)據(jù)與信息的壓縮。眾所周知,自然中同源物種基因組間 的相似性是非常高的,因此重測(cè)序數(shù)據(jù)壓縮所得到的壓縮比 是很高的水平。舉例來(lái)說(shuō),任何兩個(gè)人的基因組的相似性都 超過(guò)了 99%,假如已經(jīng)獲得了參考基因組,那么只需要對(duì)1% 的差異信息進(jìn)行存儲(chǔ)即可。2.2從頭測(cè)序數(shù)據(jù)壓縮從頭測(cè)序與重測(cè)序間存在著較大的差異,最明顯的便是 前者直接對(duì)待測(cè)個(gè)體開展測(cè)序,然后對(duì)形成的短讀進(jìn)行拼 接、組裝?,F(xiàn)階段,下一代測(cè)序短讀拼接算法也是非常多的, 其中較為常用的有O
13、LC算法、DeBruijin圖算法和基于OLC 或DeBruijin圖的貪婪算法。由于從頭測(cè)序壓縮與參考序列 沒有關(guān)聯(lián),因此有著較好的自完備性。但是需注意的是,拼 接技術(shù)的好壞直接會(huì)影響到其壓縮結(jié)果。總的來(lái)說(shuō),在已知 參考序列的情況下,則采用重測(cè)序壓縮方法的效果更好。3基于參考序列的生物DNA測(cè)序數(shù)據(jù)壓縮技術(shù)近些年,實(shí)施的基因組計(jì)劃等相關(guān)項(xiàng)目,借助下一代 測(cè)序技術(shù)形成了大量的DNA測(cè)序數(shù)據(jù)。而在DNA研究未 來(lái)發(fā)展的進(jìn)程中,對(duì)DNA測(cè)序數(shù)據(jù)的傳輸、存儲(chǔ)的處理 情況則處于重要的地位,那么則需要發(fā)揮出基于參考序列 的DNA測(cè)序數(shù)據(jù)壓縮技術(shù)。其中,圖2為基于參考序列的 DNA壓縮技術(shù)原理。在對(duì)壓縮參
14、考樣本進(jìn)行選擇時(shí),有必要選擇合理的、恰 當(dāng)?shù)膮⒖夹蛄?。一般情況下,會(huì)選用擁有高度相似性的同源 物種序列。然后,根據(jù)基于生物學(xué)特性的映射過(guò)程,來(lái)對(duì)短 讀與參考基因組的匹配位置、匹配類型、差異位置、差異類型、 差異內(nèi)容以及短讀長(zhǎng)度進(jìn)行確定,其中,匹配位置是指距參 考基因組起始點(diǎn)的位置。匹配類型是由4個(gè)類別構(gòu)成的,1、2、3、4分別代表直接重復(fù)、鏡像重復(fù)、配對(duì)重復(fù)、互補(bǔ)回文; 差異位置是指相對(duì)短讀首字符位置;差異類型由3個(gè)類別構(gòu) 成,1、2、3分別代表插入、刪除、替換;差異內(nèi)容中的1、 2、3、4則分別對(duì)應(yīng)A、G、C、T;短讀長(zhǎng)度則是指可變或 固定長(zhǎng)度。最后,需運(yùn)用高效編碼來(lái)對(duì)映射結(jié)果執(zhí)行壓縮??偟?/p>
15、來(lái)說(shuō),短讀映射在基于參考的NDA數(shù)據(jù)壓縮中處 于核心地位,其根本目標(biāo)是來(lái)對(duì)短讀和參考序列間的差異信息進(jìn)行尋找?,F(xiàn)階段,基于BTW的映射算法、基于哈希表 的SFE算法是非常常見的。另外,在壓縮映射結(jié)果方面, 運(yùn)用較多的方法有Huffman、Gamma以及Delta等。一般情 況下,差異位置、匹配位置會(huì)選擇相對(duì)位置,這對(duì)于促進(jìn)壓 縮性能的提升有著重要的意義。與此同時(shí),由于DNA數(shù)據(jù) 具有近似重復(fù)、精確重復(fù)的特征,這對(duì)于提升壓縮率也有著 積極作用。伴隨著基于參考序列的DNA數(shù)據(jù)壓縮方法的增多, 所取得的成果也越來(lái)越顯著?,F(xiàn)階段運(yùn)用最多的算法有 GRS、BWB以及DNAzip等,主要原因是以上幾種方法在 壓縮比方面有著明顯的優(yōu)勢(shì),但是面臨著兩個(gè)待解決的問 題:其一,在解壓縮的過(guò)程中,需要將參考序列作為參考指 標(biāo),因此事先應(yīng)將其存儲(chǔ)在本地;其二,這些算法對(duì)參考基 因數(shù)據(jù)有著非常強(qiáng)的依賴性,同時(shí)現(xiàn)階段并不是所有的物種 都有相關(guān)的參考序列??偟膩?lái)說(shuō),在算法壓縮數(shù)據(jù)使用期間, 會(huì)受到參考序列的影響。4結(jié)語(yǔ)在DNS測(cè)序數(shù)據(jù)不斷發(fā)展的進(jìn)程中,現(xiàn)階段已經(jīng)成為 生物醫(yī)學(xué)領(lǐng)域數(shù)量增加最快、應(yīng)用最廣的數(shù)據(jù),對(duì)這些數(shù)據(jù) 的管理、分析及以及應(yīng)用給生物信息學(xué)帶來(lái)了前所未有的挑 戰(zhàn)。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 老年終末期認(rèn)知照護(hù)隱私保護(hù)策略
- 老年精準(zhǔn)用藥中西相互作用:個(gè)體化調(diào)整
- 名人經(jīng)歷介紹
- 統(tǒng)整與升華:基于“中華英雄譜”主題的跨學(xué)科歷史備考深度教學(xué)
- 生理學(xué)核心概念:生理功能與毒理醫(yī)學(xué)課件
- 彈藥技術(shù)檢查
- 《2026年》紀(jì)檢監(jiān)察室崗位高頻面試題包含詳細(xì)解答
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)自駕旅游行業(yè)發(fā)展運(yùn)行現(xiàn)狀及投資潛力預(yù)測(cè)報(bào)告
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)??谑蟹康禺a(chǎn)行業(yè)市場(chǎng)深度研究及投資策略研究報(bào)告
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)商業(yè)保險(xiǎn)行業(yè)市場(chǎng)全景分析及投資前景展望報(bào)告
- 2025年6月29日貴州省政府辦公廳遴選筆試真題及答案解析
- 管培生培訓(xùn)課件
- 送貨方案模板(3篇)
- 2025年湖南省中考數(shù)學(xué)真題試卷及答案解析
- 學(xué)前教育論文格式模板
- DB32/T 3518-2019西蘭花速凍技術(shù)規(guī)程
- 架空輸電線路建設(shè)關(guān)鍵環(huán)節(jié)的質(zhì)量控制與驗(yàn)收標(biāo)準(zhǔn)
- 裝修敲打搬運(yùn)合同協(xié)議書
- 《世界經(jīng)濟(jì)史學(xué)》課件
- 重生之我在古代當(dāng)皇帝-高二上學(xué)期自律主題班會(huì)課件
- 膀胱切開取石術(shù)護(hù)理查房
評(píng)論
0/150
提交評(píng)論