分布式數(shù)據(jù)庫或成為新增量_第1頁
分布式數(shù)據(jù)庫或成為新增量_第2頁
分布式數(shù)據(jù)庫或成為新增量_第3頁
分布式數(shù)據(jù)庫或成為新增量_第4頁
分布式數(shù)據(jù)庫或成為新增量_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、正文目錄 HYPERLINK l _TOC_250023 數(shù)據(jù)庫行業(yè):行業(yè)螺旋上升,分布式數(shù)據(jù)庫時代到來 3 HYPERLINK l _TOC_250022 數(shù)據(jù)庫發(fā)展需要關(guān)注增量市場,分布式數(shù)據(jù)庫或成新機遇 3 HYPERLINK l _TOC_250021 數(shù)據(jù)庫發(fā)展歷程復(fù)盤:計算載體變革往往催生新興數(shù)據(jù)庫龍頭 5 HYPERLINK l _TOC_250020 進入戰(zhàn)國時代,云計算場景推動分布式數(shù)據(jù)庫時代到來 8 HYPERLINK l _TOC_250019 分布式數(shù)據(jù)庫滿足云計算場景的需求 8 HYPERLINK l _TOC_250018 Snowflake、Databricks

2、引領(lǐng)數(shù)據(jù)湖興起 10 HYPERLINK l _TOC_250017 Snowflake:提供數(shù)據(jù)倉庫、數(shù)據(jù)湖等多種產(chǎn)品 10 HYPERLINK l _TOC_250016 Databricks:Lakehouse 概念,幫助客戶構(gòu)建統(tǒng)一分析平臺 13 HYPERLINK l _TOC_250015 數(shù)據(jù)庫六大評判維度 14 HYPERLINK l _TOC_250014 品牌基因:品牌定位和創(chuàng)始團隊背景 14 HYPERLINK l _TOC_250013 商業(yè)模式:基礎(chǔ)軟件需要企業(yè)級服務(wù),開源具有兩面性 14 HYPERLINK l _TOC_250012 內(nèi)核基礎(chǔ):原廠自研能力關(guān)鍵,掌

3、控核心代碼或成重要競爭力 15 HYPERLINK l _TOC_250011 技術(shù)架構(gòu):不同數(shù)據(jù)庫適用于不同場景 16 HYPERLINK l _TOC_250010 落地情況:中標(biāo)客戶行業(yè)&應(yīng)用場景 18 HYPERLINK l _TOC_250009 公開的人才體系:自營培訓(xùn)認(rèn)證體系、企業(yè)技術(shù)級社區(qū) 19 HYPERLINK l _TOC_250008 國內(nèi)數(shù)據(jù)庫市場:新興與傳統(tǒng)廠商并存 21 HYPERLINK l _TOC_250007 人大金倉:背靠 CETC 中國電子科技集團,老牌數(shù)據(jù)庫 21 HYPERLINK l _TOC_250006 武漢達夢:背靠中國電子,主攻混合型數(shù)據(jù)

4、庫 HTAP 22 HYPERLINK l _TOC_250005 巨杉數(shù)據(jù)庫:自研金融級分布式數(shù)據(jù)庫獨立廠商 23 HYPERLINK l _TOC_250004 PingCAP TiDB:開源分布式關(guān)系型數(shù)據(jù)庫 26 HYPERLINK l _TOC_250003 阿里 Oceanbase:金融級分布式關(guān)系數(shù)據(jù)庫 27 HYPERLINK l _TOC_250002 華為 GaussDB:AI 原生,支持異構(gòu)計算 29 HYPERLINK l _TOC_250001 總結(jié):分布式數(shù)據(jù)庫或誕生新龍頭,關(guān)注六大評判維度 31 HYPERLINK l _TOC_250000 風(fēng)險提示 32數(shù)據(jù)庫

5、行業(yè):行業(yè)螺旋上升,分布式數(shù)據(jù)庫時代到來數(shù)據(jù)庫發(fā)展需要關(guān)注增量市場,分布式數(shù)據(jù)庫或成新機遇數(shù)據(jù)庫的發(fā)展與計算載體緊密相關(guān)。數(shù)據(jù)庫是計算機行業(yè)的基礎(chǔ)核心軟件,所有應(yīng)用軟件的運行和數(shù)據(jù)處理都要與其進行數(shù)據(jù)交互。數(shù)據(jù)庫的開發(fā)難度,不僅體現(xiàn)在與其他基礎(chǔ)器件的適配,更在于如何實現(xiàn)對數(shù)據(jù)高效、穩(wěn)定、持續(xù)的管理。從數(shù)據(jù)庫的發(fā)展歷程來看,計算架構(gòu)的變化,計算載體的變化、計算場景的變化,以及計算數(shù)據(jù)格式的變化都對數(shù)據(jù)庫的發(fā)展帶來的一定的影響?;蛘哒f,在以上計算環(huán)境變化下,其需要的數(shù)據(jù)庫類型也發(fā)生了變化。從計算載體來看,數(shù)據(jù)的計算從原來的大型機、到小型機、個人電腦 PC、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、云計算,以及未來更多終

6、端的物聯(lián)網(wǎng)智能終端。計算的載體更加多樣化。從計算場景來看,數(shù)據(jù)計算也從單獨的單機計算,到互聯(lián)網(wǎng)多群體交互的聯(lián)網(wǎng)計算和云計算,以及萬物互聯(lián)的高并發(fā)、低時延的物聯(lián)網(wǎng)計算。從計算架構(gòu)來看,傳統(tǒng)的 IT 架構(gòu)也正逐步向云架構(gòu)遷移。我們也經(jīng)歷了從 C-S 架構(gòu)到 B-S架構(gòu),而目前的云原生、分布式計算架構(gòu)正對傳統(tǒng)計算架構(gòu)帶來深刻變革。而新的計算架構(gòu)也對計算的基礎(chǔ)軟件(操作系統(tǒng)、數(shù)據(jù)庫、芯片等)提出更高的需求。圖表1: 計算的變化資料來源:華泰研究在以上計算環(huán)境的變化下,我們看到,聯(lián)網(wǎng)的數(shù)據(jù)也在發(fā)生深刻變化。數(shù)據(jù)的大小。目前聯(lián)網(wǎng)數(shù)據(jù)量也在高速增長。通信技術(shù)的發(fā)展帶動從 2G 到 3G、4G、5G的演進,每

7、代通信技術(shù)之間,聯(lián)網(wǎng)的數(shù)據(jù)規(guī)模也呈現(xiàn)(幾個)數(shù)量級的增加。對大容量、高性能計算提出更高要求。數(shù)據(jù)的類型。計算場景的演變,我們對數(shù)據(jù)的定義也在發(fā)生變化。圖片、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)成為增量數(shù)據(jù)的主要類型。聯(lián)網(wǎng)的數(shù)據(jù)類型也逐步從原來的結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)演變,這就對計算的并發(fā)性提出了更高的要求。數(shù)據(jù)的快慢。對數(shù)據(jù)的高速計算是計算機一直以來的追求。但原有的 IT 架構(gòu)下,計算速度的提升存在一定的物理條件限制。經(jīng)典的 IT 架構(gòu)已經(jīng)存在了幾十年的歷史,當(dāng)時的 IT 架構(gòu)并沒有完全考慮到目前計算場景的變化。因此,新的計算場景下,對數(shù)據(jù)高速計算的追求,需要我們從底層基礎(chǔ)軟件的變革開始。我們看到無論芯

8、片、操作系統(tǒng)還是數(shù)據(jù)庫,都在經(jīng)歷深刻變革。圖表2: 數(shù)據(jù)的變化資料來源:華泰研究在以上計算和數(shù)據(jù)多個維度變化的情況下,我們認(rèn)為,數(shù)據(jù)庫行業(yè)也正在經(jīng)歷歷史演進的深刻變革。在傳統(tǒng)計算環(huán)境和數(shù)據(jù)類型方面,傳統(tǒng)數(shù)據(jù)庫依然發(fā)揮比較重要的作用。但在面向未來新的計算場景方面,我們需要的可能是新型的數(shù)據(jù)庫產(chǎn)品。這種新型數(shù)據(jù)庫,是計算架構(gòu)遷移、計算載體演進以及計算環(huán)境變化之后的產(chǎn)物;同時,也是數(shù)據(jù)規(guī)模大幅增加,數(shù)據(jù)結(jié)構(gòu)變化之后所需要的產(chǎn)品。圖表3: 數(shù)據(jù)庫發(fā)展資料來源:華泰研究全球關(guān)系型數(shù)據(jù)庫市場增速漸趨平穩(wěn)。數(shù)據(jù)庫是對數(shù)據(jù)的管理,數(shù)據(jù)庫誕生于上世紀(jì) 60 年代,傳統(tǒng)的數(shù)據(jù)庫產(chǎn)品面臨的是以事務(wù)型、交易處理為主的

9、任務(wù),事務(wù)支持性能較好的關(guān)系型數(shù)據(jù)庫如 Oracle、DB2 迅速興起。而近年來,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫市場增長漸趨平穩(wěn),據(jù)Gartner,2018 年全球數(shù)據(jù)庫管理系統(tǒng)(DBMS)市場規(guī)模達 461 億美元,同比增長 18.4%,增速達到近十年峰值。但關(guān)系型數(shù)據(jù)庫市場增長漸趨平緩,據(jù) T4.ai 預(yù)測,全球關(guān)系型數(shù)據(jù)庫市場規(guī)模 2018-2022E CAGR 為 6%,較 2012-2017 的 11%或?qū)⒂兴陆?。?shù)據(jù)量上升催生分析需求,數(shù)據(jù)庫市場新機遇顯現(xiàn)。隨著智能移動手機的普及及云計算的興起,全球數(shù)據(jù)產(chǎn)生量不斷上升,從 2010 年的 1.2ZB 上升至 2018 年的 33ZB。未來幾年

10、內(nèi)隨著各類智能物聯(lián)設(shè)備的推廣以及云計算的進一步應(yīng)用,數(shù)據(jù)量有望進一步上升。隨著數(shù)據(jù)量上升,大數(shù)據(jù)分析的需求逐步顯現(xiàn),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在高并發(fā)、分析等方面存在一定的劣勢,應(yīng)運而生的分布式數(shù)據(jù)庫能夠較好的滿足大數(shù)據(jù)分析的需求,或形成數(shù)據(jù)庫市場新的增量。圖表4: 全球數(shù)據(jù)庫市場規(guī)模圖表5: 全球數(shù)據(jù)產(chǎn)生量億美元數(shù)據(jù)庫市場規(guī)模10004611711,2001,0008006004002000ZB18016014012010080604020016344332212347916全球數(shù)據(jù)產(chǎn)生量2010201120122013201420152016201720182020E2025E2007201820

11、24E資料來源:Gartner、華泰研究資料來源:IDC、華泰研究圖表6: 數(shù)據(jù)庫演進資料來源:華泰研究數(shù)據(jù)庫發(fā)展歷程復(fù)盤:計算載體變革往往催生新興數(shù)據(jù)庫龍頭階段一:大型機到小型機時代促成了 Oracle 的興起上世紀(jì) 90 年代小型機興起促成 Oracle 興起。上世紀(jì) 80 年代到 90 年代,IBM PC 兼容機的出現(xiàn)使新興中小廠商能夠提供價格更低,并且同樣能兼容多種第三方軟件的計算機產(chǎn)品, IBM PC 兼容機市場份額也因此迅速增長,推動了計算機在美國家庭內(nèi)普及。此后, Windows3.0 于 1990 年推出,提供了較為成熟的圖形界面操作系統(tǒng),推動了計算機的普及。這一階段內(nèi),Ora

12、cle 數(shù)據(jù)庫等產(chǎn)品最終戰(zhàn)勝了主機數(shù)據(jù)庫占領(lǐng)了這一新增市場,從收入規(guī)模變化看,1990-2000 年 Oracle 營業(yè)收入高速增長,期間 CAGR 達到 27.3%。圖表7: 90 年代美國計算機銷售快速增長160140120100806040201978070%美國GDP物量指數(shù):計算機最終銷售變化率60%50%40%30%20%10%2002200420062008201020122014201620180%19801982198419861988199019921994199619982000資料來源:Wind、華泰研究圖表8: 90 年代 Oracle 營業(yè)收入規(guī)模高速增長億美元營業(yè)

13、收入同比450400350300250200150100501990199119921993199419951996199719981999200020012002200320042005200620072008200920102011201220132014201520162017201820192020060%50%40%30%20%10%0%-10%-20%資料來源:公司年報、華泰研究技術(shù)積累幫助 Oracle 開拓小型機市場?;A(chǔ)軟件從產(chǎn)品誕生到走向成熟往往需要十年左右的時間。以 Oracle 為例,公司于上世紀(jì) 80 年代初開始產(chǎn)品化,一直處于技術(shù)與商業(yè)的積累過程。直到 1992 年

14、,公司推出旗艦產(chǎn)品 Oracle7,迅速把握小型機發(fā)展帶來的市場機遇,在與 IBM DB2 for LUW、Informix、Sybase 等著名數(shù)據(jù)庫廠商的一系列競爭后,一躍成為行業(yè)的霸主。圖表9: Oracle 主要數(shù)據(jù)庫產(chǎn)品(2010 前)時間數(shù)據(jù)庫產(chǎn)品特點1979Oracle2商業(yè) SQL 實現(xiàn)1985Oracle5多版本讀取一致性1988Oracle6分布式 SQL&事務(wù)處理1992Oracle7旗艦產(chǎn)品,數(shù)據(jù)庫倉庫優(yōu)化1997Oracle8新增對象關(guān)系1998Oracle8i全方位 JAVA 支持;為互聯(lián)網(wǎng)開發(fā)設(shè)計2001Oracle9iRAC、OLAP2003Oracle10g自

15、我管理數(shù)據(jù)庫2007Oracle11g數(shù)據(jù)庫保險庫資料來源:公司官網(wǎng)、華泰研究階段二:小型機到分布式時代,AWS 興起分布式架構(gòu)時代,AWS 等數(shù)據(jù)庫興起。隨著數(shù)據(jù)量的增長,傳統(tǒng)數(shù)據(jù)庫面臨挑戰(zhàn),分布式數(shù)據(jù)庫的訪問模式從過去單一標(biāo)準(zhǔn)化的 SQL,向包括 SQL 在內(nèi)的多種訪問模式轉(zhuǎn)化,催生了分布式數(shù)據(jù)庫的發(fā)展。2005 年起,人們開始了針對分布式數(shù)據(jù)庫的探索,以 HBase、 Cassadra、MongoDB 為代表的 NoSQL 數(shù)據(jù)庫快速發(fā)展。此類數(shù)據(jù)庫通過提供 KV 接口、簡化存儲模型等方式實現(xiàn)容量水平擴展,但對業(yè)務(wù)的支撐有所減弱。2012 年左右隨著 Google 關(guān)于 Spanner

16、和 F1 論文的發(fā)表,以 Aurora、Spanner 為代表的分布式數(shù)據(jù)庫迅速發(fā)展。分布式數(shù)據(jù)庫結(jié)合了非關(guān)系型數(shù)據(jù)庫的存儲管理能力、關(guān)系數(shù)據(jù)庫的 ACID 特性和 SQL 便利性。從結(jié)果看,分布式技術(shù)歷經(jīng)十年左右的發(fā)展,如今逐步被大量企業(yè)接受,而在這一階段內(nèi),AWS aurora 等新興數(shù)據(jù)庫逐步興起。國產(chǎn)分布式數(shù)據(jù)庫 2011 年陸續(xù)起步。自 2011 年起,以 Oceanbase、巨杉數(shù)據(jù)庫、TiDB為代表的國產(chǎn)分布式數(shù)據(jù)庫相繼誕生。三者發(fā)展路徑及商業(yè)化時間有所區(qū)別,其中 Oceanbase 誕生于 2011 年,最初主要用于阿里集團內(nèi)部,在 2017 年首次實現(xiàn)商用;巨杉數(shù)據(jù)庫誕生于

17、2011 年,于 2013 年正式發(fā)布商用版本,并持續(xù)服務(wù)于金融銀行行業(yè);TiDB于 2015 年發(fā)布,重點經(jīng)營開源策略。圖表10: 分布式數(shù)據(jù)庫發(fā)展歷程資料來源:各公司官網(wǎng)、華泰研究AWS 發(fā)展全新的技術(shù)體系,把握分布式數(shù)據(jù)庫浪潮。AWS 數(shù)據(jù)庫平臺可以視為一個大型數(shù)據(jù)服務(wù)資源池,在底層共享統(tǒng)一的存儲與計算資源,在上層則提供了 Aurora、RDS、 DynamoDB、Neptune 等數(shù)據(jù)庫服務(wù)實例,從而實現(xiàn)對更多業(yè)務(wù)場景和服務(wù)模式的覆蓋。通過全新的技術(shù)體系,亞馬遜 AWS 滿足了多樣化的計算需求,2013-2020 年收入 CAGR達到 46.7%。并且憑借云計算業(yè)務(wù)的快速擴張,獲得了領(lǐng)

18、先的市場地位。截至 2019 年,據(jù) Canalys,AWS 在云基礎(chǔ)設(shè)施市場份額達到 32.3%,具有一定的優(yōu)勢。圖表11: AWS 收入及占亞馬遜總收入比圖表12: 2019 年全球云基礎(chǔ)設(shè)施市場份額元AWS增速占比億美50040030020010080%70%60%50%40%30%20%Others 40%Alibaba Cloud 5%AWS 32%02013 2014 2015 2016 2017 2018 2019 202010%0%Google Cloud6%Microsoft Azure 17%資料來源:公司年報、華泰研究資料來源:Canalys、華泰研究圖表13: AWS

19、數(shù)據(jù)庫技術(shù)體系資料來源:AWS 官網(wǎng)、華泰研究進入戰(zhàn)國時代,云計算場景推動分布式數(shù)據(jù)庫時代到來分布式數(shù)據(jù)庫滿足云計算場景的需求計算場景不斷變化,云成為重要的計算場景。不同的計算場景對數(shù)據(jù)庫有不同的要求,隨著數(shù)據(jù)量的不斷增長,傳統(tǒng)的終端計算場景難以滿足大量的數(shù)據(jù)處理需求。而云計算將計算與存儲資源彈性、動態(tài)分配,邊緣計算通過邊緣節(jié)點提升了計算的效率,實現(xiàn)了高效的數(shù)據(jù)處理,云端、邊緣端的計算場景重要性逐步提升。據(jù) Gartner,全球云計算市場規(guī)模由 2011 年的 910 億美元增長到 2019 年的 1880 億美元,期間 CAGR 達到 9.5%。圖表14: 全球云計算市場規(guī)模十億美元3601

20、8891400350全球云計算市場規(guī)模300250200150100500201120192023E資料來源:Gartner、華泰研究分布式數(shù)據(jù)庫能夠較好滿足云計算場景的需求。分布式數(shù)據(jù)庫將數(shù)據(jù)庫進行資源池化管理,具備多模式、多租戶、HTAP、彈性擴張、高可用等特性,與云計算、分布式應(yīng)用開發(fā)模式相匹配。分布式數(shù)據(jù)庫包括底層數(shù)據(jù)庫資源池化管理、多模式兩大重要特點。底層數(shù)據(jù)庫資源池化管理:指以資源池的方式,上層應(yīng)用中所有模塊在底層數(shù)據(jù)庫資源池中創(chuàng)建獨立的數(shù)據(jù)庫實例,服務(wù)于自身業(yè)務(wù)。每一個數(shù)據(jù)庫實例可以提供完全不同的兼容 MySQL、PostgreSQL、MongoDB、S3 等接口,也可以將所使用

21、的底層物理資源擴展到多個服務(wù)器中做到自由伸縮,同時也能夠保障不同實例之間的數(shù)據(jù)可以根據(jù)策略做到物理或邏輯層面的相互隔離。在這種體系架構(gòu)中,應(yīng)用程序依然能保持獨立的微服務(wù)形態(tài)?!岸嗄J健碧匦裕褐竿惶追植际郊軜?gòu)底座同時支撐上層超過一種數(shù)據(jù)訪問接口,訪問方式包括但不限于 SQL 引擎、類似 JSON 的半結(jié)構(gòu)化數(shù)據(jù)、S3 的非結(jié)構(gòu)化數(shù)據(jù)、KV 鍵值對存儲、圖數(shù)據(jù)庫接口、時序型數(shù)據(jù)接口等。通過此種方式,可以對存儲于不同的物理服務(wù)器、不同格式的數(shù)據(jù)進行數(shù)據(jù)結(jié)構(gòu)與算法的優(yōu)化,從而形成“數(shù)據(jù)服務(wù)平臺”,突破數(shù)據(jù)庫類型的限制,對上層不同類型的應(yīng)用同時提供多種類型的數(shù)據(jù)服務(wù)。圖表15: 云原生概念變遷資料來源

22、:云原生計算基金會、華泰研究分布式數(shù)據(jù)庫滿足云原生需求,或?qū)⒊蔀樾碌脑鲩L點:從云原生概念變遷看,云原生使用微服務(wù)、容器等技術(shù),目的在于提供更加敏捷的服務(wù)支持,協(xié)助業(yè)務(wù)更易于實現(xiàn)擴展及持續(xù)交互。分布式數(shù)據(jù)庫通常是基于一個數(shù)據(jù)集合,這些數(shù)據(jù)分布在由計算機網(wǎng)絡(luò)連接起來的若干節(jié)點上,每個節(jié)點可以管理本地的數(shù)據(jù)應(yīng)用,也可以參與全局?jǐn)?shù)據(jù)應(yīng)用,同時這些數(shù)據(jù)在邏輯上形成一個整體,由統(tǒng)一的數(shù)據(jù)庫管理系統(tǒng)進行管理。從架構(gòu)上看,分布式數(shù)據(jù)庫提供了靈活的數(shù)據(jù)服務(wù)支持,實際上是一種“云原生”的架構(gòu)體現(xiàn)。圖表16: 全球數(shù)據(jù)庫市場規(guī)模(分類別)億美元20192024E8007006005004003002001000數(shù)據(jù)

23、庫云數(shù)據(jù)庫操作型云操作型數(shù)據(jù)倉庫云數(shù)據(jù)倉庫資料來源:IDC、華泰研究大數(shù)據(jù)向分布式數(shù)據(jù)庫傾斜,或形成新增量。以 Hadoop 為代表的第一代大數(shù)據(jù)系統(tǒng)框架對大數(shù)據(jù)技術(shù)的落地起了重要的作用。Hadoop 起源于 2004 年,并于 2006 年成為一套獨立完整的軟件。Hadoop 主要包括文件系統(tǒng) HDFS 及計算系統(tǒng) MapReduce,采用計算存儲一體化的方式,將巨大的數(shù)據(jù)集分派到由普通計算機組成的集群中的多個節(jié)點進行存儲,并能對數(shù)據(jù)進行索引和跟蹤。但隨著數(shù)據(jù)量和分析需求的復(fù)雜性的進一步增加,Hadoop 中 “Map+Reduce 模型不適合描述復(fù)雜的數(shù)據(jù)處理過程”、“查詢效率較低”、“時

24、刻在線處理導(dǎo)致使用成本高”等問題逐步顯現(xiàn),分布式數(shù)據(jù)庫或成為大數(shù)據(jù)領(lǐng)域的新選擇。圖表17: Hadoop 生態(tài)模型資料來源:Hadoop 官網(wǎng)、華泰研究Snowflake、Databricks 引領(lǐng)數(shù)據(jù)湖興起數(shù)據(jù)倉庫性能較強,數(shù)據(jù)湖更具靈活性。數(shù)據(jù)倉庫與數(shù)據(jù)湖側(cè)重點有所區(qū)別,數(shù)據(jù)倉庫關(guān)注的是數(shù)據(jù)使用效率和數(shù)據(jù)管理,為企業(yè)各級別、業(yè)務(wù)線的決策制定提供統(tǒng)一的數(shù)據(jù)支持,其數(shù)據(jù)主要來源于業(yè)務(wù)系統(tǒng),存儲格式以結(jié)構(gòu)化為主,并且歷經(jīng)加工清洗,數(shù)據(jù)形態(tài)顯得更加范式化、模型化,因此數(shù)據(jù)的靈活度較低。相比之下,數(shù)據(jù)湖則是以原生格式(或者經(jīng)過粗加工后)進行積累和沉淀,格式豐富多樣,有結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化類型,

25、強調(diào)數(shù)據(jù)的原始性、靈活性和可用性。相比數(shù)據(jù)倉庫,數(shù)據(jù)湖所儲存的數(shù)據(jù)類型更加豐富,同時開放存儲讓上層引擎靈活度增加,引擎可隨意讀寫數(shù)據(jù)湖中數(shù)據(jù),兼容的寬松性強。但另一方面,數(shù)據(jù)湖中文件系統(tǒng)直接訪問使得很多更高階的功能很難實現(xiàn),如細粒度權(quán)限管理、讀寫接口升級等。圖表18: 數(shù)據(jù)湖 vs 數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)倉庫靈活性啟動成本低,靈活性強啟動成本高,需專業(yè)學(xué)習(xí),靈活性較差數(shù)據(jù)類型數(shù)據(jù)類型豐富數(shù)據(jù)類型單一計算存儲計算存儲分離提升穩(wěn)定性傳統(tǒng)架構(gòu)不分離引擎引擎結(jié)構(gòu)豐富針對少量場景的高度優(yōu)化引擎功能成熟度數(shù)據(jù)追蹤等相關(guān)功能成熟度不高能實現(xiàn)細粒度權(quán)限管理、讀寫接口升級等功能安全安全組件效果參差不齊統(tǒng)一身份認(rèn)證,

26、安全性高規(guī)模單集群的最大規(guī)模有限多集群的最大規(guī)模大資料來源:Databricks 官網(wǎng)、Snowflake 官網(wǎng)、華泰研究Snowflake:提供數(shù)據(jù)倉庫、數(shù)據(jù)湖等多種產(chǎn)品Snowflake 滿足并發(fā)性、可擴展性、易用性、平臺中立性的需求。公司完全基于公有云,提供包括數(shù)據(jù)倉庫(Data Warehouse)、數(shù)據(jù)湖(Data Lake)在內(nèi)的多種產(chǎn)品,支持非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)可視化和分析。公司意在打造綜合性的云數(shù)據(jù)平臺,其數(shù)據(jù)庫可在三大公有云 AWS、Azure 和 Google Cloud Platform 上部署,對于企業(yè)多云異構(gòu)的復(fù)雜環(huán)境有適用性、中立性,同時亦提供數(shù)據(jù)交換功能,解決了過去

27、用戶面臨著投入高、靈活度低等問題,可吸引中小型客戶。據(jù)公司財報,截至 2020 年 7 月,公司有 3117 個企業(yè)客戶,同比增長超 100%,截至 2021 財年 Q3,公司的數(shù)據(jù)提供商已經(jīng)突破 100 家。圖表19: Snowflake 數(shù)據(jù)湖產(chǎn)品 vs 數(shù)據(jù)倉庫產(chǎn)品數(shù)據(jù)湖數(shù)據(jù)倉庫查詢即時且?guī)缀鯚o限數(shù)量的并發(fā)查詢;使用外部表可以直接查詢數(shù)據(jù)湖中的數(shù)據(jù);數(shù)據(jù)管道支持實時擴展和可擴展的數(shù)據(jù)轉(zhuǎn)換,并輕松地將數(shù)據(jù)載回數(shù)據(jù)湖;支持 Snowpipe 和 StreamsTasks 自動提取數(shù)據(jù)并實現(xiàn)連續(xù)數(shù)據(jù)管道的數(shù)據(jù)變更捕獲;ANSI SQL 有效地轉(zhuǎn)換數(shù)據(jù); 外部功能和存儲過程擴展管道;使用分區(qū)自動

28、刷新功能從數(shù)據(jù)湖自動注冊新文件;將外部表與 Apache Hive Metastore 同步完全兼容 ANSI SQL,具有對半結(jié)構(gòu)化數(shù)據(jù)本機支持;支持 SQL 及 BI 和機器學(xué)習(xí)工具查詢半結(jié)構(gòu)化數(shù)據(jù); 支持幾乎無限數(shù)量的并發(fā)用戶和查詢;支持通過 Snowflake Data Marketplace 和私人數(shù)據(jù)交換訪問共享的數(shù)據(jù)并將其提供給客戶和合作伙伴;跨主要公共云的單一體驗;跨云數(shù)據(jù)復(fù)制可實現(xiàn)無縫的全局?jǐn)?shù)據(jù)訪問彈性實時放大或縮小以優(yōu)化管道性能;使用各種數(shù)據(jù)類型和不同的接收樣式構(gòu)建彈性的數(shù)據(jù)管道;只需幾秒鐘,即可配置大小從極小到 6XL 的計算集群,以滿足需求;選擇多集群計算資源以實現(xiàn)高并

29、發(fā);存儲向所有數(shù)據(jù)用戶提供數(shù)據(jù)的一個副本(一個真實的來源) 單一的,受管理的且可立即查詢的數(shù)據(jù)源;存儲多類型數(shù)據(jù),包括 JSON 和 XML;具有 2-3 倍壓縮的低成本云存儲;數(shù)據(jù)的單個副本可隨時隨地使用;分析支持與 Snowsight 數(shù)據(jù)探索,內(nèi)置的可視化界面針對流行的 BI 和 Analytics 工具優(yōu)化了直接連接器;通過Snowsight 的內(nèi)置可視化 UI Snowsight 訪問圖表和 SQL 分析;支持 BI 和分析,專用計算資源;對地理空間數(shù)據(jù)和分析的本地支持安全細粒度的訪問控制,例如列級屏蔽和行級過濾;實時,安全的數(shù)據(jù)共享資料來源:Snowflake 官網(wǎng)、華泰研究圖表2

30、0: Hadoop vs snowflake權(quán)限管理;靜態(tài)和傳輸中的自動數(shù)據(jù)加密;動態(tài)數(shù)據(jù)屏蔽和令牌化;利用功能實現(xiàn) GDPR 和 CCPA 的合規(guī)性;SOC2 類型 2,ISO 27001,PCI,HIPAA,F(xiàn)edRAMP 等的認(rèn)證hadoopsnowflake表現(xiàn)可將不同類型數(shù)據(jù)存儲在分布式環(huán)境中,使用MapReduce 進行批處理,使用 Apache Spark 進行流處理虛擬倉庫提供了隔離的工作負(fù)載和容量,可根據(jù)需求對工作負(fù)載進行分離或分類以及查詢處理易用性存在部署、配置和維護成本;較為復(fù)雜,需要精通Linux零維護數(shù)據(jù)庫,由 Snowflake 團隊完全管理成本開源項目,無需許可費

31、,但部署、配置、維護費用較高無需部署,需要支付存儲空間使用費用、查詢數(shù)據(jù)花費數(shù)據(jù)處理批量處理在一段時間內(nèi)收集的大型靜態(tài)數(shù)據(jù)集,但無法用于運行交互式作業(yè)或分析支持批處理和流處理;虛擬倉庫支持低延遲查詢?nèi)轂?zāi)HDFS 分布式結(jié)構(gòu)保障容災(zāi)能力具備容災(zāi)能力和內(nèi)置多數(shù)據(jù)中心安全服務(wù)級別的授權(quán);支持加密、傳統(tǒng)的文件權(quán)限、ACL通過網(wǎng)絡(luò)動態(tài)加密,在磁盤上靜態(tài)加密,支持基于角色的授權(quán),單點登錄的兩因素和聯(lián)合身份驗證彈性只能增加集群大小,且需要停機,難以彈性伸縮可在幾毫秒內(nèi)完成擴展或縮小存儲與計算存儲計算一體存儲與計算完全分開資料來源:Snowflake 官網(wǎng)、Hadoop 官網(wǎng)、華泰研究數(shù)據(jù)倉庫滿足多種使用場景

32、需求。其中彈性數(shù)據(jù)倉庫的系統(tǒng)會隨著負(fù)載變化自動擴展或收縮,根據(jù)需要向主機復(fù)制數(shù)據(jù),且并不限制處理請求的數(shù)量,從而實現(xiàn)數(shù)據(jù)服務(wù)彈性。數(shù)據(jù)倉庫采取 Shared-nothing 架構(gòu),在節(jié)點之間不共享任何數(shù)據(jù),此外 Snowflake 基于 Multi-cluster, shared data 的概念,將存儲和計算分離,解決了升級擴容時需要重新分配節(jié)點資源等痛點。在數(shù)據(jù)支持方面,Snowfalke 支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的組合使用,可以接收 JSON、XML 或 Avro 格式的數(shù)據(jù),并且支持嵌套和重復(fù)數(shù)據(jù)類型,從而滿足傳統(tǒng)數(shù)據(jù)庫、Hadoop 等半結(jié)構(gòu)化使用場景的使用需求。圖表21: Snow

33、flake 數(shù)據(jù)倉庫架構(gòu)資料來源:Snowflake 官網(wǎng)、華泰研究Snowflake 數(shù)據(jù)湖產(chǎn)品強調(diào)查詢性能、數(shù)據(jù)管道集成可擴展、安全等。利用內(nèi)置數(shù)據(jù)治理和安全性的同時實現(xiàn)快速的數(shù)據(jù)訪問,具備較好的查詢性能,并且對數(shù)據(jù)轉(zhuǎn)換進行了良好的支持,通過云的模式為客戶省去運維成本。在查詢性能方面,支持即時和幾乎無限的可擴展性和并發(fā)性;此外,通過集成和可擴展的數(shù)據(jù)管道,實現(xiàn)簡化數(shù)據(jù)管道開發(fā)以優(yōu)化性能。依靠管道實時可靠地擴展來處理繁重的數(shù)據(jù)工作量和可擴展的數(shù)據(jù)轉(zhuǎn)換;在安全方面,則提供了安全的數(shù)據(jù)協(xié)作功能。圖表22: Snowflake 數(shù)據(jù)湖資料來源:Snowflake 官網(wǎng)、華泰研究Snowflake

34、服務(wù)各行業(yè)客戶。以 hookit 為例,據(jù)公司官網(wǎng),Snowflake 為 hookit 構(gòu)建具有可擴展性的多集群共享數(shù)據(jù)架構(gòu)數(shù)據(jù)庫,提高了 Hookit 的運營效率。查詢效率提高 30 倍,每天可自動評估社交帖子 5 億條,數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)成本降低 40%,消除了 88的內(nèi)部支持請求,提升了客戶的運行效率,使客戶能夠?qū)W⒂诋a(chǎn)品創(chuàng)新。圖表23: Snowflake 客戶資料來源:Snowflake 官網(wǎng)、華泰研究Databricks:Lakehouse 概念,幫助客戶構(gòu)建統(tǒng)一分析平臺Databricks 推出 Lakehouse 概念。Lakehouse 是由“Data Lakes”與“Dat

35、a Warehouses”融合而成。普通的數(shù)據(jù)湖在數(shù)據(jù)質(zhì)量、一致性/隔離性、混合處理追加讀取等方面不如數(shù)據(jù)倉庫。Lakehouse 兼容了數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢,在數(shù)據(jù)湖的低成本存儲上實現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)和管理功能。Lakehouse 功能包括事務(wù)支持、模式執(zhí)行和治理、BI 支持、存儲與計算分離、開放性、支持多種數(shù)據(jù)類型、各種工作負(fù)載、端到端流。圖表24: Lakehouse資料來源:Databricks 官網(wǎng)、華泰研究為客戶提供統(tǒng)一分析平臺提升效率:構(gòu)建統(tǒng)一分析平臺,簡化跨功能團隊的分析工作流程,使用單一平臺查詢、調(diào)試和探索流式處理和批次數(shù)據(jù),以及構(gòu)建和部署 ML 模型。打造交互式工作空間

36、,促進與共享筆記本環(huán)境的合作,使數(shù)據(jù)科學(xué)家能夠快速實時在模型上進行重復(fù)。同時簡化管理,使公司無需人工干預(yù)即可完全自動化作業(yè)調(diào)度、監(jiān)控和集群管理。以RB 為例,Databricks 為 RB 提供了一個統(tǒng)一的數(shù)據(jù)分析平臺,該平臺在數(shù)據(jù)科學(xué)和工程領(lǐng)域營造了可擴展的協(xié)作環(huán)境,使數(shù)據(jù)團隊能夠更快地進行創(chuàng)新,并為業(yè)務(wù)提供 ML 驅(qū)動的見解。據(jù)公司官網(wǎng),該方案使得公司業(yè)務(wù)可支持量提高 10 倍,數(shù)據(jù)從 80TB 壓縮到 2TB,降低了運營成本,24*7 個任務(wù)的數(shù)據(jù)管道性能提高 2 倍。圖表25: Databricks 客戶資料來源:Databricks 官網(wǎng)、華泰研究數(shù)據(jù)庫六大評判維度綜合前文數(shù)據(jù)庫行業(yè)

37、的發(fā)展歷程,我們總結(jié)了數(shù)據(jù)庫的幾個評判維度,主要包括品牌基因、商業(yè)模式、內(nèi)核基礎(chǔ)、技術(shù)架構(gòu)、商業(yè)落地、人才體系。品牌基因:品牌定位和創(chuàng)始團隊背景關(guān)注品牌基因。包含品牌的背景,商用首發(fā)時間,資金背景,創(chuàng)始團隊背景、廠商主營業(yè)務(wù)等。品牌基因反映出數(shù)據(jù)庫的品牌特性,商用首發(fā)時間較早的數(shù)據(jù)庫廠商往往在傳統(tǒng)數(shù)據(jù)庫領(lǐng)域具有較為深厚的積累,近年來新誕生的勢力包括獨立創(chuàng)新品牌和大廠的數(shù)據(jù)庫產(chǎn)品。從創(chuàng)始團隊背景看,則反映出數(shù)據(jù)庫產(chǎn)品的技術(shù)背景,當(dāng)前國產(chǎn)數(shù)據(jù)庫創(chuàng)始團隊多來自國內(nèi)頂尖院校、海外數(shù)據(jù)庫廠商或國內(nèi)互聯(lián)網(wǎng)大企業(yè)內(nèi)部培育。此外,由于大數(shù)據(jù)時代數(shù)據(jù)庫的作用日益重要,在傳統(tǒng)的數(shù)據(jù)庫廠商之外,金融服務(wù)廠商、ICT

38、 等主營業(yè)務(wù)非數(shù)據(jù)庫的廠商也推出了自己的數(shù)據(jù)庫產(chǎn)品。主營業(yè)務(wù)非數(shù)據(jù)庫的廠商基于特定場景延伸出的數(shù)據(jù)庫產(chǎn)品針對特定的行業(yè)可能存在一定的競爭優(yōu)勢。但與此同時,相比獨立數(shù)據(jù)庫廠商,此類廠商的發(fā)展路徑及方向可能會受到母公司策略方向的制約。圖表26: 數(shù)據(jù)庫品牌基因?qū)Ρ菿ingbase達夢數(shù)據(jù)庫GBase巨杉數(shù)據(jù)庫TiDBOceanbaseGaussDB(openGauss)商用首發(fā)1999200020062013201520172019品牌類型傳統(tǒng)品牌傳統(tǒng)品牌傳統(tǒng)品牌獨立創(chuàng)新品牌獨立創(chuàng)新品牌大廠子產(chǎn)品大廠子產(chǎn)品創(chuàng)始團隊背靠 CETC 中國電子科技集團中國電子信息 創(chuàng)始人曾美國信息產(chǎn)業(yè)集團(CEC) 行

39、業(yè)工作十年歸國創(chuàng)業(yè)創(chuàng)始團隊來自原 DB2創(chuàng)業(yè)團隊,創(chuàng)始人 互聯(lián)網(wǎng)企業(yè)內(nèi)部孵華為內(nèi)部曾任豌豆莢,京東 化,雙 11 等創(chuàng)始團隊來自人大信旗下基礎(chǔ)軟件北美實驗室及華為存資深系統(tǒng)架構(gòu)師息學(xué)院企業(yè)儲團隊資金背景國資國資民營創(chuàng)業(yè)創(chuàng)業(yè)母公司子產(chǎn)品母公司子產(chǎn)品廠商人大金倉武漢達夢南大通用巨杉數(shù)據(jù)庫PingCAP螞蟻金服華為主營業(yè)務(wù)數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫金融服務(wù)ICT資料來源:人大金倉官網(wǎng)、達夢數(shù)據(jù)庫官網(wǎng)、南大通用官網(wǎng)、巨杉數(shù)據(jù)庫官網(wǎng)、TiDB 官網(wǎng)、Oceanbase 官網(wǎng)、華為官網(wǎng)、華泰研究商業(yè)模式:基礎(chǔ)軟件需要企業(yè)級服務(wù),開源具有兩面性數(shù)據(jù)庫是基礎(chǔ)軟件,穩(wěn)定性較為重要。基礎(chǔ)軟件指操作系統(tǒng)、數(shù)據(jù)庫

40、、中間件等服務(wù)于軟件開發(fā)者的,最底層的軟件。此類軟件直接調(diào)度 CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等硬件設(shè)備,因此穩(wěn)定性較為重要。數(shù)據(jù)庫在 IT 架構(gòu)中扮演著承上啟下的角色,向下對接操作系統(tǒng),需要直接調(diào)度各類硬件,分布式數(shù)據(jù)庫還需要協(xié)調(diào)多臺服務(wù)器形成整體的可管理集群,深度參 與跨節(jié)點事務(wù)控制及網(wǎng)絡(luò)優(yōu)化以獲得最佳性能;向上則需要支撐大量不同形態(tài)的上層應(yīng)用。與應(yīng)用軟件相比,數(shù)據(jù)庫作為基礎(chǔ)軟件更加注重穩(wěn)定性。圖表27: 數(shù)據(jù)庫在 IT 架構(gòu)中的位置資料來源:華泰研究開源具備兩面性,企業(yè)級服務(wù)廠商具備穩(wěn)定性優(yōu)勢。開源將二次修改使用源代碼的權(quán)利公開,有助于快速的積累用戶,當(dāng)客戶將包含開源產(chǎn)品的內(nèi)容通過閉源方式銷售時

41、則需要支付費用,廠商實現(xiàn)用戶資源變現(xiàn)。但相比企業(yè)級服務(wù),開源往往通過技術(shù)社區(qū)的方式維系,缺乏法律合約關(guān)系,開發(fā)者響應(yīng)速度難以保障,并且在社區(qū)參與者過多的情況下維護難度也有所提升。相比之下,企業(yè)級服務(wù)具有穩(wěn)定性的優(yōu)勢。因此對于數(shù)據(jù)庫等重視穩(wěn)定性的基礎(chǔ)軟件,企業(yè)級服務(wù)產(chǎn)品具備一定的優(yōu)勢?;A(chǔ)軟件應(yīng)用軟件圖表28: 基礎(chǔ)軟件 VS 應(yīng)用軟件代表數(shù)據(jù)庫、操作系統(tǒng)、中間件辦公軟件、ERP 等服務(wù)對象開發(fā)者使用者關(guān)注點協(xié)調(diào)調(diào)度各類硬件,支撐上層應(yīng)用業(yè)務(wù)流程與真實事件及使用需求的關(guān)系需求穩(wěn)定性,服務(wù)能力開發(fā)能力,快速迭代適應(yīng)發(fā)展迭代方式需要進行嚴(yán)格的穩(wěn)定性、性能、功能測試;通過多個 快速迭代,甚至通過 AB

42、 測試發(fā)布探索需求版本穩(wěn)步推進資料來源:華泰研究圖表29: 各開源產(chǎn)品協(xié)議調(diào)整情況時間事件2018 年 10 月 MongoDB 調(diào)整開源協(xié)議,明確要求托管 MongoDB 實例的云計算公司要么獲取商業(yè)許可證要么向社區(qū)開源其服務(wù)代碼2018 年 11 月 Neo4j 3.5 版本開始,企業(yè)版將僅在商業(yè)許可下提供,不再開源2018 年 9 月Redis 調(diào)整開源協(xié)議,限制了 Redis 涵蓋軟件的銷售2020 年 12 月 CentOS 宣告未來將不再作為紅帽 RHEL 下游的 rebuild 分支,調(diào)整為作為 RHEL 的上游開發(fā)分支2021 年 1 月Elasticsearch 將其軟件堆棧

43、的核心由 Apache 2 改為一種限制性更強的許可協(xié)議 ( SSPL 與 Elastic License)資料來源:MongoDB 官網(wǎng)、Neo4j 官網(wǎng)、Redis 官網(wǎng)、CentOS 官網(wǎng)、華泰研究開源或閉源模式均需導(dǎo)向企業(yè)級服務(wù)。開源具有兩面性,通過將二次修改使用源代碼的權(quán)利公開,打造開發(fā)者生態(tài),有助于快速的積累用戶。但開源和閉源并非不會改變,同一家數(shù)據(jù)庫廠商可能在不同的階段選擇開源或閉源,此外,在同一時期,也可能同時發(fā)布開源、閉源的不同版本產(chǎn)品。如 Oceanbase、GaussDB 均經(jīng)歷過開源與閉源的切換。但一般來說開源版本往往較低,企業(yè)級服務(wù)需要最新,最穩(wěn)定的性能,因此閉源模式

44、的產(chǎn)品較為適合。內(nèi)核基礎(chǔ):原廠自研能力關(guān)鍵,掌控核心代碼或成重要競爭力企業(yè)級原廠服務(wù)有助于從源頭解決問題。企業(yè)級服務(wù)包括企業(yè)級原廠服務(wù)及第三方支持服務(wù)。企業(yè)級原廠服務(wù)指掌握每一行核心代碼,可以從源頭解決軟件核心問題的廠商,企業(yè)通過購買其產(chǎn)品及服務(wù),可以獲得系統(tǒng)故障過后第一手的服務(wù)承諾。而第三方支持服務(wù),如同數(shù)據(jù)庫行業(yè)中各類運維服務(wù)商,在成熟的市場體系下可以協(xié)助客戶以更低的成本獲取常規(guī)服務(wù)支持,但由于第三方支持服務(wù)商往往不具備產(chǎn)品的核心研發(fā)能力,因此往往作為服務(wù)輔助。圖表30: 企業(yè)級原廠服務(wù) VS 第三方支持服務(wù)資料來源:華泰研究企業(yè)級原廠服務(wù)掌握迭代控制權(quán),有助于持續(xù)發(fā)展。開源社區(qū)及第三方廠

45、商雖然擁有更改源代碼的能力,但其更改存在不被主流社區(qū)接納,最終與主社區(qū)脫節(jié)的風(fēng)險,因此穩(wěn)定性上存在一定隱患。相比之下,企業(yè)級原廠服務(wù)掌握迭代控制權(quán),有助于持續(xù)發(fā)展。在分布式數(shù)據(jù)庫的廠商選擇上同樣如此,具有全面掌握所有核心代碼主導(dǎo)權(quán)的廠商所提供的企業(yè) 級原廠服務(wù)能形成更加有力的技術(shù)支持。國內(nèi)商業(yè)閉源的分布式數(shù)據(jù)庫廠商大多為主研發(fā),具備企業(yè)級服務(wù)基因。圖表31: 企業(yè)級原廠服務(wù) VS 開源數(shù)據(jù)庫資料來源:華泰研究關(guān)注是否為完全自研可控。數(shù)據(jù)庫內(nèi)核是否自研關(guān)系到數(shù)據(jù)庫廠商是否完全能掌握迭代控制權(quán),目前國產(chǎn)數(shù)據(jù)庫多采取具備自主知識產(chǎn)權(quán)的自研內(nèi)核。選取具備自研內(nèi)核的數(shù)據(jù)庫產(chǎn)品有助于提升產(chǎn)品升級迭代的穩(wěn)定

46、性和可控性,對于重視穩(wěn)定性的基礎(chǔ)軟件領(lǐng)域,自研可控是重要的考慮因素。數(shù)據(jù)庫內(nèi)核圖表32: 數(shù)據(jù)庫內(nèi)核自研情況Kingbase自研達夢數(shù)據(jù)庫自研GBase自研+Informix 商用代碼巨杉數(shù)據(jù)庫自研TiDB自研+RocksDBOceanbase自研GaussDB(openGauss)自研+PostgreSQL 開源資料來源:人大金倉官網(wǎng)、達夢數(shù)據(jù)庫官網(wǎng)、巨杉數(shù)據(jù)庫官網(wǎng)、TiDB 官網(wǎng)、Oceanbase 官網(wǎng)、GaussDB 官網(wǎng)、華泰研究技術(shù)架構(gòu):不同數(shù)據(jù)庫適用于不同場景關(guān)系型數(shù)據(jù)庫 vs 非關(guān)系型數(shù)據(jù)庫。根據(jù)數(shù)據(jù)存儲結(jié)構(gòu)區(qū)分,可以分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫,其中非關(guān)系型數(shù)據(jù)庫根據(jù)存儲

47、方式又可以分為鍵值數(shù)據(jù)庫、列數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫等。非關(guān)系型數(shù)據(jù)庫在讀寫性能、擴展性上具有一定的優(yōu)勢,因此較適應(yīng)大數(shù)據(jù)、高并發(fā)等場景,而關(guān)系型數(shù)據(jù)庫具備強一致性,遵循 ACID 原則,因此在事務(wù)支持中具備優(yōu)勢。非關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫圖表33: 關(guān)系型數(shù)據(jù)庫 vs 非關(guān)系型數(shù)據(jù)庫代表Oracle 、Mysql,SqlServer、Aurora、DB2MongoDB、Redis、Memcache存儲方式表格,便于查詢數(shù)據(jù)集,包括鍵值對、圖結(jié)構(gòu)或者文檔等存儲結(jié)構(gòu)結(jié)構(gòu)化方法,可靠性高,但修改困難動態(tài)結(jié)構(gòu)按照最小關(guān)系表的形式進行存儲,避免重復(fù),但管存儲規(guī)范理較為復(fù)雜平面數(shù)據(jù)集,利于讀寫擴展方

48、式縱向擴展(提升計算機性能)分布式,橫向拓展(添加更多服務(wù)器)查詢方式結(jié)構(gòu)化查詢語言 SQL非結(jié)構(gòu)化查詢語言 UnQL事務(wù)性ACID 原則(原子性、一致性、隔離性、持久性) BASE(基本可用、軟狀態(tài)、最終一致性)讀寫性能性能較低,需要解析適用于大數(shù)據(jù)場景資料來源:華泰研究圖表34: 非關(guān)系型數(shù)據(jù)庫分類非關(guān)系型數(shù)據(jù)庫類別代表優(yōu)點缺點鍵值數(shù)據(jù)庫Redis、DynamoDB 、Memcached能夠進行數(shù)據(jù)的快速查詢需要存儲數(shù)據(jù)之間的關(guān)系列數(shù)據(jù)庫Hbase 、Cassandra快速查詢,擴展性強數(shù)據(jù)庫的功能有局限性文檔數(shù)據(jù)庫MongoDB、AWS DocumentDB、CouchDB對數(shù)據(jù)結(jié)構(gòu)要求

49、不特別的嚴(yán)格查詢性差,缺少一種統(tǒng)一查詢語言圖形數(shù)據(jù)庫Neo4J 、InfoGrid、Neptune方便的利用圖結(jié)構(gòu)相關(guān)算法進行計算必須進行整個圖的計算,對數(shù)據(jù)模型有一定要求時間序列數(shù)據(jù)庫Timestream、Prometheus、Influxdb、持續(xù)高并發(fā)寫入分析功能較弱opentsdb資料來源:華泰研究集中式數(shù)據(jù)庫 vs 分布式數(shù)據(jù)庫。根據(jù)系統(tǒng)架構(gòu)分,可以分為集中式數(shù)據(jù)庫、分布式數(shù)據(jù)庫。分布式數(shù)據(jù)庫在可擴展性、高并發(fā)支持方面具有優(yōu)勢,集中式數(shù)據(jù)庫在事務(wù)性支持上遵循 ACID 原則,在事務(wù)支持上具備優(yōu)勢。從優(yōu)劣勢看,分布式數(shù)據(jù)庫的優(yōu)劣勢與非關(guān)系型數(shù)據(jù)庫類似,而近年來,分布式數(shù)據(jù)庫不斷發(fā)展,在

50、提供高彈性、支持高并發(fā)的同時,與關(guān)系型數(shù)據(jù)庫強事務(wù)性支持的特性進一步結(jié)合。分布式數(shù)據(jù)庫集中式數(shù)據(jù)庫圖表35: 集中式數(shù)據(jù)庫 vs 分布式數(shù)據(jù)庫可擴展性有限,支持縱向擴展支持橫向擴展性能、數(shù)據(jù)量提升方式只針對單機,導(dǎo)致其并發(fā)訪問量成本高且瓶頸明顯存儲集群,支持更高并發(fā)訪問自治性集中式控制局部 DBMS 自治性無法進行非結(jié)構(gòu)化大數(shù)據(jù)處理,硬件兼容能兼容性力較差可支持非結(jié)構(gòu)化大數(shù)據(jù)處理堅固性較低個別節(jié)點發(fā)生故障仍可降低級別使用成本需要高配置硬件,成本較高成本相對較低事務(wù)性遵循 ACID遵循 CAP、BASE;少數(shù)產(chǎn)品提供 ACID 能力資料來源:華泰研究磁盤數(shù)據(jù)庫 vs 內(nèi)存數(shù)據(jù)庫。根據(jù)存儲設(shè)備分,

51、可以分為磁盤數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫。內(nèi)存數(shù)據(jù)庫指將數(shù)據(jù)放在內(nèi)存中直接操作的數(shù)據(jù)庫,具備讀寫速度快的優(yōu)勢。相比之下,磁盤數(shù)據(jù)庫在容量大小、數(shù)據(jù)安全性能方面具有一定的優(yōu)勢。從內(nèi)存數(shù)據(jù)庫及磁盤數(shù)據(jù)庫的特點看,內(nèi)存數(shù)據(jù)庫適用于對讀寫要求較高,快速開發(fā)的場景。圖表36: 內(nèi)存數(shù)據(jù)庫 vs 磁盤數(shù)據(jù)庫內(nèi)存數(shù)據(jù)庫磁盤數(shù)據(jù)庫處理速度內(nèi)存讀寫較快,處理速度較快受系統(tǒng)調(diào)用等影響,數(shù)據(jù)量大時容易出問題容量大小受物理內(nèi)存限制較大數(shù)據(jù)存儲不需要連續(xù)存放連續(xù)存放緩沖管理不需要需要索引結(jié)構(gòu)哈希、AVI 樹、T 樹、B 樹B 樹、B+樹、哈希并發(fā)控制大粒度鎖細粒度鎖加鎖、解鎖、死鎖檢測查詢優(yōu)化基于處理器代價及 Cache 代價基

52、于 I/O 代價安全性內(nèi)存本身有掉電丟失的缺陷,需要采取保護機制較好資料來源:華泰研究數(shù)據(jù)庫技術(shù)架構(gòu)評判要點與計算場景、數(shù)據(jù)類型相關(guān)。計算場景的變化、數(shù)據(jù)結(jié)構(gòu)的豐富等,催生出不同的數(shù)據(jù)庫需求??v觀數(shù)據(jù)庫的發(fā)展歷程,我們總結(jié)出了以下幾個評判數(shù)據(jù)庫技術(shù)架構(gòu)的要點,不同的場景對每個維度的側(cè)重有所不同。查詢:隨著數(shù)據(jù)類型的豐富,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫難以滿足需求,新興的非關(guān)系型數(shù)據(jù)庫增加了針對多種非結(jié)構(gòu)化數(shù)據(jù)類型的查詢方法,數(shù)據(jù)庫查詢方式?jīng)Q定了其適用的數(shù)據(jù)類型。在數(shù)據(jù)類型日益豐富的今天,查詢方法是評判數(shù)據(jù)庫的重要維度。容量大小&彈性:隨著數(shù)據(jù)量的不斷提升,容量大小和彈性的重要性逐步上升。容量大小:內(nèi)存數(shù)據(jù)

53、庫受限于物理內(nèi)存大小,相較于磁盤數(shù)據(jù)庫容量上存在劣勢,因此使用場景也相應(yīng)受到限制;彈性:分布式數(shù)據(jù)庫支持通過添加服務(wù)器的橫向擴展方式,使數(shù)據(jù)庫獲得了更高的性能,而傳統(tǒng)的集中式關(guān)系型數(shù)據(jù)庫支持提升處理器性能的方式縱向擴展,相比之下彈性較弱。面對高并發(fā)的分析型、大數(shù)據(jù)類任務(wù),分布式數(shù)據(jù)庫就體現(xiàn)出一定的優(yōu)勢。事務(wù)支持:事務(wù)支持要求具備一致性原則,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在事務(wù)支持方面遵循了 ACID 原則,包括原子性、一致性、隔離性、持久性,從而實現(xiàn)較好的事務(wù)支持。非關(guān)系型數(shù)據(jù)庫在事務(wù)支持方面僅能遵循大部分 BASE 原則,即基本可用、軟狀態(tài)、最終一致性,在事務(wù)支持上相對較弱。安全性:數(shù)據(jù)安全性是評判數(shù)據(jù)

54、庫的重要維度之一,隨著云計算、大數(shù)據(jù)等新技術(shù)在數(shù)據(jù)庫領(lǐng)域逐步應(yīng)用,安全性的概念也不斷延伸,不僅包括容災(zāi)能力,還包括數(shù)據(jù)安全、數(shù)據(jù)協(xié)同的權(quán)限管控等方面。成本:成本包括硬件成本、軟件成本、運維成本等,云數(shù)據(jù)庫通過云模式降低了運維成本及硬件采購成本。此外,隨著分析場景的豐富,在評判數(shù)據(jù)庫成本時應(yīng)該采取動態(tài)的視角,考慮包括彈性擴容成本、后續(xù)運維成本在內(nèi)的各項成本。落地情況:中標(biāo)客戶行業(yè)&應(yīng)用場景關(guān)注數(shù)據(jù)庫的落地情況。不同行業(yè)對數(shù)據(jù)庫的需求有所區(qū)別,處理事務(wù)的復(fù)雜性、對安全穩(wěn)定的要求、付費意愿均會產(chǎn)生不同。一般來說,金融、電信類場景由于處理量大,宕機代價較高,因此對于安全、穩(wěn)定性有較強的訴求,能夠首先在

55、金融、電信類場景落地通常意味著在性能、安全等方面達到了較高的標(biāo)準(zhǔn);因此金融、電信等領(lǐng)域落地情況可以大致作為數(shù)據(jù)庫安全、穩(wěn)定性的篩選維度之一;此外金融、電信、互聯(lián)網(wǎng)類場景往往具備高并發(fā)特征,需要不斷擴展,并且往往能夠積累下大量數(shù)據(jù),為分析打下了良好的基礎(chǔ),適合分布式數(shù)據(jù)庫,因此分布式數(shù)據(jù)庫的選擇可以重點關(guān)注以上行業(yè)的案例。在此之外,能夠積極向其他場景延伸則體現(xiàn)出數(shù)據(jù)庫產(chǎn)品的延伸性,有助于不斷打開新的市場空間。從國內(nèi)分布式數(shù)據(jù)庫當(dāng)前的落地情況看,金融、黨政、電信也是目前主要的落地場景,除此之外,互聯(lián)網(wǎng)、電力能源、教育也是重要的落地場景。圖表37: 代表客戶及覆蓋行業(yè)金融黨政電信其他kingbase

56、北京市政務(wù)云中國電信山東分公司電力、國防、能源等達夢建設(shè)銀行等國家工商總局等中國聯(lián)通國土、住建、鐵路、航空、教育、電力等Gbase中國銀行等廣東省稅務(wù)局中國移動能源、氣象局等巨杉民生銀行等廣州市人民政府中國移動電力能源、互聯(lián)網(wǎng)等TiDB浙商銀行等吉林祥云中移物聯(lián)網(wǎng)泛互聯(lián)網(wǎng)oceanbase中國人保等-浙江移動-opengauss工商銀行等陜西財政廳浙江移動互聯(lián)網(wǎng)、汽車等注:本表所示客戶均為來自表中提及的各個數(shù)據(jù)庫官網(wǎng)的公開案例資料來源:各公司官網(wǎng)、華泰研究公開的人才體系:自營培訓(xùn)認(rèn)證體系、企業(yè)技術(shù)級社區(qū)公開人才體系體現(xiàn)生態(tài)建設(shè)成效。公開的人才體系包含自營社區(qū)、培訓(xùn)認(rèn)證等部分。數(shù)據(jù)庫廠商推出培訓(xùn)

57、認(rèn)證,系統(tǒng)的培養(yǎng)廠商數(shù)據(jù)庫人才,在提升數(shù)據(jù)庫人才水平的同時培養(yǎng)了使用者的使用習(xí)慣,有助于生態(tài)的建設(shè)。另一方面,通過自營社區(qū)論壇,能夠提供開發(fā)者交流的空間,有助于使用者拓展技術(shù)前沿視野,在提升使用者水平的同時,促進技術(shù)生態(tài)發(fā)展,一定程度上社區(qū)論壇的活躍度能夠反映數(shù)據(jù)庫的生態(tài)建設(shè)成效。圖表38: 國產(chǎn)數(shù)據(jù)庫廠商公開人才體系自營社區(qū)情況培訓(xùn)認(rèn)證情況kingbase金倉社區(qū)貼子數(shù) 4000+金倉學(xué)院包括三類培訓(xùn),2020 年培訓(xùn) 3200+,KCA學(xué)習(xí)人數(shù) 5 萬+達夢達夢服務(wù)社區(qū)BBS 注冊人數(shù)3 萬,帖子達夢大學(xué)包含四個等級,認(rèn)證學(xué)員數(shù)千人4000+GbaseGbase 社區(qū)帖子數(shù)量 2 萬+Gb

58、ase 學(xué)院包含三個等級,巨杉企業(yè)級社區(qū)注冊5 萬人巨杉大學(xué)認(rèn)證工程師1 萬人,注冊學(xué)員2 萬人TiDBTiDB 社區(qū)6000+主題基于開源社區(qū)GitHub Star:27K/兩個級別認(rèn)證/PingcapuniversityOceanbaseOceanbase 社區(qū)100+博客oceanbase 學(xué)院已推出兩級認(rèn)證,截至 2020 年 12 月其中 OBCA 已認(rèn)證 5000+人opengauss-基于開源社區(qū)GitHub Star:208注:數(shù)據(jù)截至 2021 年 3 月資料來源:人大金倉官網(wǎng)、達夢官網(wǎng)、GBase 官網(wǎng)、巨杉數(shù)據(jù)庫官網(wǎng)、TiDB 官網(wǎng)、Oceanbase 官網(wǎng)、華為官網(wǎng)、華

59、泰研究圖表39: 商用首發(fā)及行業(yè)重要協(xié)議發(fā)布時間對比資料來源:人大金倉官網(wǎng)、達夢官網(wǎng)、GBase 官網(wǎng)、巨杉數(shù)據(jù)庫官網(wǎng)、TiDB 官網(wǎng)、Oceanbase 官網(wǎng)、華為官網(wǎng)、華泰研究數(shù)據(jù)庫產(chǎn)品Kingbase達夢數(shù)據(jù)庫GBase巨杉數(shù)據(jù)庫TiDBOceanbaseOpenGauss商用首發(fā)1999200020062013201520172019品牌類別傳統(tǒng)品牌傳統(tǒng)品牌傳統(tǒng)品牌獨立創(chuàng)新品牌獨立創(chuàng)新品牌大廠子產(chǎn)品大廠子產(chǎn)品創(chuàng)始團隊背靠 CETC 中國電子科技集團創(chuàng)始團隊來自人大數(shù)據(jù)庫研究專家中國電子信息產(chǎn)業(yè)集團(CEC)旗下基礎(chǔ)軟件企業(yè)創(chuàng)始人曾美國信息行業(yè)工作十年歸國創(chuàng)業(yè)創(chuàng)始團隊來自原 DB2 北美

60、實驗室及華為存儲團隊創(chuàng)業(yè)團隊,創(chuàng)始人曾任豌豆莢,京東資深系統(tǒng)架構(gòu)師互聯(lián)網(wǎng)企業(yè)內(nèi)部孵化,雙 11 等華為內(nèi)部廠商人大金倉武漢達夢南大通用巨杉數(shù)據(jù)庫PingCAP螞蟻金服華為主業(yè)務(wù)數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫金融服務(wù)ICT商業(yè)模式商業(yè)閉源商業(yè)閉源商業(yè)閉源商業(yè)閉源開源+商業(yè)服務(wù)開源+商業(yè)服務(wù)開源+商業(yè)服務(wù)資金背景國資國資民營創(chuàng)業(yè)創(chuàng)業(yè)母公司子產(chǎn)品母公司子產(chǎn)品融資-D 輪D 輪-內(nèi)核基礎(chǔ)自研自研自研+Informax 商用代碼自研自研自研自研+PostgreSQL開源技術(shù)架構(gòu)集中式集中式集中式原生分布式原生分布式原生分布式原生分布式技術(shù)特色支撐 6 級災(zāi)難恢復(fù)能 完整的 SQL 特性支力等級要求持支持

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論