版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖倉一體一文讀懂?dāng)?shù)據(jù)庫行業(yè)正走向分水嶺。過去幾年,全球數(shù)據(jù)庫行業(yè)發(fā)展迅猛。2020年,Gartner首次把數(shù)據(jù)庫領(lǐng)域的魔力象限重新定義為CloudDBMS,把云數(shù)據(jù)庫作為唯一的評價方向;2021年,Gartner魔力象限又發(fā)生了兩個關(guān)鍵的變化:1、Snowflake和Databricks兩個云端數(shù)據(jù)倉庫進(jìn)入領(lǐng)導(dǎo)者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等數(shù)據(jù)庫新勢力首次進(jìn)入榜單。某種程度上,這種變化的背后,暗示著全球數(shù)據(jù)庫已經(jīng)進(jìn)入發(fā)展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經(jīng)常隔空喊話,前者是云端數(shù)倉的代表玩家,去年繼續(xù)保持了1倍以上的業(yè)務(wù)增長;后者因推出“湖倉一體”,估值一路飆升至360億美金,兩者之爭,其實是數(shù)據(jù)庫新舊架構(gòu)之爭。數(shù)據(jù)湖、數(shù)據(jù)倉、湖倉一體發(fā)展歷程(來源:Databricks官方)隨著企業(yè)數(shù)字化駛?cè)肷钏畢^(qū),對于數(shù)據(jù)使用場景也呈現(xiàn)多元化的趨勢,過去容易被企業(yè)忽略的數(shù)據(jù),開始從幕后走到臺前,如何為眾多場景選擇一款合適的數(shù)據(jù)庫產(chǎn)品,已經(jīng)成了很多CIO和管理者的一道必答題。但有一點可以確定的是,過去的數(shù)據(jù)庫已難以匹配眼下日益增長的數(shù)據(jù)復(fù)雜度需求,基于擴展性和可用性劃分,分布式架構(gòu)突破單機、共享、集群架構(gòu)下的數(shù)據(jù)庫局限,近些年發(fā)展態(tài)勢迅猛。為此,這篇文章我們將主要分析:1、數(shù)據(jù)倉、數(shù)據(jù)湖、湖倉一體究竟是什么?2、架構(gòu)演進(jìn),為什么說湖倉一體代表了未來?3、現(xiàn)在是布局湖倉一體的好時機嗎?01:數(shù)據(jù)湖+數(shù)據(jù)倉≠湖倉一體在湖倉一體出現(xiàn)之前,數(shù)據(jù)倉庫和數(shù)據(jù)湖是被人們討論最多的話題。
正式切入主題前,先跟大家科普一個概念,即大數(shù)據(jù)的工作流程是怎樣的?這里就要涉及到兩個相對陌生的名詞:數(shù)據(jù)的結(jié)構(gòu)化程度和數(shù)據(jù)的信息密度。前者描述的是數(shù)據(jù)本身的規(guī)范性,后者描述的是單位存儲體積內(nèi)、包含的信息量的大小。
一般來說,人們獲取到的原始數(shù)據(jù)大多是非結(jié)構(gòu)化的,且信息密度比較低,通過對數(shù)據(jù)進(jìn)行清洗、分析、挖掘等操作,可以排除無用數(shù)據(jù)、找到數(shù)據(jù)中的關(guān)聯(lián)性,在這個過程中,數(shù)據(jù)的結(jié)構(gòu)化程度、信息密度也隨之提升,最后一步,就是把優(yōu)化過后的數(shù)據(jù)加以利用,變成真正的生產(chǎn)資料。
簡而言之,大數(shù)據(jù)處理的過程其實是一個提升數(shù)據(jù)結(jié)構(gòu)化程度和信息密度的過程。在這個過程中,數(shù)據(jù)的特征一直在發(fā)生變化,不同的數(shù)據(jù),適合的存儲介質(zhì)也有所不同,所以才有了一度火熱的數(shù)據(jù)倉庫和數(shù)據(jù)湖之爭。
我們先來聊聊數(shù)據(jù)倉庫,它誕生于1990年,是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,主要用于支持管理決策和信息的全局共享。簡單點說,數(shù)據(jù)倉庫就像是一個大型圖書館,里面的數(shù)據(jù)需要按照規(guī)范放好,你可以按照類別找到想要的信息。
就目前來說,對數(shù)據(jù)倉庫的主流定義是位于多個數(shù)據(jù)庫上的大容量存儲庫,它的作用在于存儲大量的結(jié)構(gòu)化數(shù)據(jù),為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持,雖然存取過程相對比較繁瑣,對于數(shù)據(jù)類型有一定限制,但在那個年代,數(shù)據(jù)倉庫的功能性已經(jīng)夠用了,所以在2011年前后,市場還是數(shù)據(jù)倉庫的天下。
到了互聯(lián)網(wǎng)時代,數(shù)據(jù)量呈現(xiàn)“井噴式”爆發(fā),數(shù)據(jù)類型也變得異構(gòu)化。受數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的限制,傳統(tǒng)數(shù)據(jù)倉庫無法支撐起互聯(lián)網(wǎng)時代的商業(yè)智能,隨著Hadoop與對象存儲的技術(shù)成熟,數(shù)據(jù)湖的概念應(yīng)用而生,在2011年由JamesDixon提出。
相比于數(shù)據(jù)倉庫,數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施。它就像一個大型倉庫,可以存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù),數(shù)據(jù)湖通常更大,存儲成本也更為廉價。但它的問題也很明顯,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,一旦沒有被治理好,就會變成數(shù)據(jù)沼澤。
從產(chǎn)品形態(tài)上來說,數(shù)據(jù)倉庫一般是獨立標(biāo)準(zhǔn)化產(chǎn)品,數(shù)據(jù)湖更像是一種架構(gòu)指導(dǎo),需要配合著系列周邊工具,來實現(xiàn)業(yè)務(wù)需要。換句話說,數(shù)據(jù)湖的靈活性,對于前期開發(fā)和前期部署是友好的;數(shù)據(jù)倉庫的規(guī)范性,對于大數(shù)據(jù)后期運行和公司長期發(fā)展是友好的,那么,有沒有那么一種可能,有沒有一種新架構(gòu),能兼具數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)點呢?
于是,湖倉一體誕生了。
依據(jù)DataBricks公司對Lakehouse的定義,湖倉一體是一種結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫優(yōu)勢的新范式,在用于數(shù)據(jù)湖的低成本存儲上,實現(xiàn)與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。湖倉一體是一種更開放的新型架構(gòu),有人把它做了一個比喻,就類似于在湖邊搭建了很多小房子,有的負(fù)責(zé)數(shù)據(jù)分析,有的運轉(zhuǎn)機器學(xué)習(xí),有的來檢索音視頻等,至于那些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松獲取。
就湖倉一體發(fā)展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將數(shù)據(jù)湖和數(shù)據(jù)倉庫互相打通,現(xiàn)在的湖倉一體,雖然仍處于發(fā)展的初期階段,但它已經(jīng)不只是一個純粹的技術(shù)概念,而是被賦予了更多與廠商產(chǎn)品層面相關(guān)的含義和價值。
這里需要注意的是,“湖倉一體”并不等同于“數(shù)據(jù)湖”+“數(shù)據(jù)倉”,這是一個極大的誤區(qū),現(xiàn)在很多公司經(jīng)常會同時搭建數(shù)倉、數(shù)據(jù)湖兩種存儲架構(gòu),一個大的數(shù)倉拖著多個小的數(shù)據(jù)湖,這并不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同于數(shù)據(jù)湖和數(shù)據(jù)倉簡單打通,反而數(shù)據(jù)在這兩種存儲中會有極大冗余度。02:為什么說湖倉一體是未來?
回歸開篇的核心問題:湖倉一體憑什么能代表未來?
關(guān)于這個問題,我們其實可以換一個問法,即在數(shù)據(jù)智能時代,湖倉一體會不會成為企業(yè)構(gòu)建大數(shù)據(jù)棧的必選項?
就技術(shù)維度和應(yīng)用趨勢來看,這個問題的答案幾乎是肯定的,對于高速增長的企業(yè)來說,選擇湖倉一體架構(gòu)來替代傳統(tǒng)的獨立倉和獨立湖,已經(jīng)成為不可逆轉(zhuǎn)的趨勢。
一個具有說服力的例證是,現(xiàn)階段,國內(nèi)外各大云廠商均陸續(xù)推出了自己的“湖倉一體”技術(shù)方案,比如亞馬遜云科技的RedshiftSpectrum、微軟的AzureDatabricks、華為云的FusionInsight、滴普科技的FastData等,這些玩家有云計算的老牌龍頭,也有數(shù)據(jù)智能領(lǐng)域的新勢力。
事實上,架構(gòu)的演進(jìn)是由業(yè)務(wù)直接驅(qū)動的,如果業(yè)務(wù)側(cè)提出了更高的性能要求,那么在大數(shù)據(jù)架構(gòu)建設(shè)的過程中,就需要數(shù)據(jù)庫架構(gòu)建設(shè)上進(jìn)行技術(shù)升級。
以國內(nèi)數(shù)字化企業(yè)服務(wù)領(lǐng)域成長最快的獨角獸滴普科技為例,依托新一代湖倉一體、流批一體的數(shù)據(jù)分析基礎(chǔ)平臺FastData,基于對先進(jìn)制造、生物醫(yī)藥、消費流通等行業(yè)的深度洞察,滴普科技從實際場景切入,為客戶提供了一站式的數(shù)字化解決方案。
滴普方面認(rèn)為,“在數(shù)據(jù)分析領(lǐng)域,湖倉一體是未來。它可以更好地應(yīng)對AI時代數(shù)據(jù)分析的需求,在存儲形態(tài)、計算引擎、數(shù)據(jù)處理和分析、開放性以及面向AI的演進(jìn)等方面,要領(lǐng)先于過去的分析型數(shù)據(jù)庫?!币訟I應(yīng)用層面為例,湖倉一體架構(gòu)天然適合AI類的分析(包括音視頻非結(jié)構(gòu)化數(shù)據(jù)存儲,兼容AI計算框架,具有模型開發(fā)和機器學(xué)習(xí)全生命周期的平臺化能力),也更適合大規(guī)模機器學(xué)習(xí)時代。
這一點,和趨勢不謀而合。
就在前不久,Gartner發(fā)布了湖倉一體的未來應(yīng)用場景預(yù)測:湖倉一體架構(gòu)需要支持三類實時場景,第一類是實時持續(xù)智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數(shù)據(jù)消費者,這同樣是未來湖倉一體架構(gòu)需要持續(xù)演進(jìn)的方向。03:現(xiàn)在是布局湖倉一體的好時機嗎?
從市場發(fā)展走向來看,“湖倉一體”架構(gòu)是基于技術(shù)發(fā)展進(jìn)程的必經(jīng)之路。
但由于這個新型開放架構(gòu)仍處于發(fā)展早期,國內(nèi)外企業(yè)數(shù)字化水平和市場認(rèn)知的不同,造成了解決方案也存在著較大的差異。在業(yè)內(nèi)投資人看來,“雖然美國的企業(yè)服務(wù)市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標(biāo)Databricks的滴普科技為例,美國企業(yè)服務(wù)市場往往賣產(chǎn)品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定制化?!?/p>
在此前與滴普科技的合作中,百麗國際就已經(jīng)完成了統(tǒng)一數(shù)倉的搭建,實現(xiàn)了多個業(yè)務(wù)線的數(shù)據(jù)采集和各個業(yè)務(wù)域的數(shù)據(jù)建設(shè)。在保證前端數(shù)據(jù)正常運行、“熱切換”底層應(yīng)用的前提下,滴普科技和百麗國際緊密協(xié)作,在短短幾個月時間里將多個數(shù)倉整合為統(tǒng)一數(shù)倉,有效統(tǒng)一了業(yè)務(wù)口徑,大幅縮減了開發(fā)運維工作量,整個業(yè)務(wù)價值鏈也形成了閉環(huán)。
這也是“湖倉一體”的能力價值所在:隨著數(shù)據(jù)結(jié)構(gòu)的逐漸多樣性,3D圖紙、直播視頻、會議視頻、音頻等數(shù)據(jù)資料越來越多,為深度挖掘數(shù)據(jù)價值,依托于領(lǐng)先的湖倉一體技術(shù)架構(gòu),百麗國際可先將海量的多模數(shù)據(jù)存儲入湖,在未來算力允許時,及挖掘深度的業(yè)務(wù)分析場景后,從數(shù)據(jù)湖中抓取數(shù)據(jù)分析。
舉個簡單的例子,某個設(shè)計師想要設(shè)計一款鞋子,一般會從歷史數(shù)據(jù)中找有效信息參考,設(shè)計師也許只需要一張貨品照片,就能像瀏覽電影般,了解到該商品多年來全生命周期的銷售業(yè)績、品牌故事、競品分析等數(shù)據(jù),賦能生產(chǎn)及業(yè)務(wù)決策,實現(xiàn)數(shù)據(jù)價值的最大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 烤漆作業(yè)標(biāo)準(zhǔn)指南
- 2026年泉州輕工職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案詳解一套
- 《正常人體功能》課件-體溫
- 勞務(wù)派遣人員工資支付擔(dān)保協(xié)議
- 中藥材行業(yè)中藥提取技術(shù)員崗位招聘考試試卷及答案
- 2026年小學(xué)生心理健康教育工作計劃
- 2025年固體分散載體材料項目合作計劃書
- 2025年放射性污染防治合作協(xié)議書
- 術(shù)后虛弱的飲食調(diào)養(yǎng)
- 遼寧省2025秋九年級英語全冊Unit3Couldyoupleasetellmewheretherestroomsare課時3SectionA(GrammarFocus-4c)課件新版人教新目標(biāo)版
- 企業(yè)保護水環(huán)境活動方案
- 事故汽車修復(fù)技術(shù)規(guī)范標(biāo)準(zhǔn)詳
- 江蘇省無錫市2023-2024學(xué)年高一下學(xué)期期末考試物理試題(解析版)
- 胃癌術(shù)后常見并發(fā)癥
- JJF 2173-2024 高錳酸鹽指數(shù)分析儀校準(zhǔn)規(guī)范
- C語言編程方法與思想知到課后答案智慧樹章節(jié)測試答案2025年春北京航空航天大學(xué)
- 2025至2030年救生衣項目投資價值分析報告
- 《逸仙電商經(jīng)營管理模式分析》2000字
- 裝飾裝修工程質(zhì)量評估報告
- 護理三基試題匯編1000題(含答案)
- 隧道工程施工總結(jié)范文
評論
0/150
提交評論