《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》_第1頁
《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》_第2頁
《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》_第3頁
《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》_第4頁
《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)倉庫數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)對(duì)比》在大數(shù)據(jù)時(shí)代,AI項(xiàng)目的落地需要具備數(shù)據(jù)、算法、場景、計(jì)算力四個(gè)基本元素。計(jì)算力只是核心的基礎(chǔ),還需要結(jié)合不同的業(yè)務(wù)場景與算法相互結(jié)合,沉淀出一個(gè)完整的智能化平臺(tái)。數(shù)據(jù)中臺(tái)就是以云計(jì)算為數(shù)據(jù)智能提供的基礎(chǔ)計(jì)算力為前提,與大數(shù)據(jù)平臺(tái)提供的數(shù)據(jù)資產(chǎn)能力與技術(shù)能力相互結(jié)合,形成數(shù)據(jù)處理的能力框架賦能業(yè)務(wù),為企業(yè)做到數(shù)字化、智能化運(yùn)營。有人對(duì)數(shù)據(jù)中臺(tái)的理解存在誤區(qū),一直只是在強(qiáng)調(diào)技術(shù)的作用,強(qiáng)調(diào)技術(shù)對(duì)于業(yè)務(wù)的推動(dòng)作用。但在商業(yè)領(lǐng)域落地的層面上,更多時(shí)候技術(shù)的發(fā)展和演進(jìn)都是需要跟著業(yè)務(wù)走。技術(shù)的發(fā)展和進(jìn)步需要基于業(yè)務(wù)方的需求與數(shù)據(jù)場景應(yīng)用化的探索來反向推動(dòng)。數(shù)據(jù)中臺(tái)出現(xiàn)的意義在于降本增效,是用來賦能企業(yè)沉淀業(yè)務(wù)能力,提升業(yè)務(wù)效率,最終完成數(shù)字化轉(zhuǎn)型。數(shù)據(jù)中臺(tái)本身絕對(duì)是不可復(fù)制的。幾乎所有企業(yè)的戰(zhàn)略目標(biāo)都是不一樣的。如果有人說能把中臺(tái)賣給你,對(duì)于中臺(tái)的解讀只講技術(shù),不講業(yè)務(wù),只講產(chǎn)品,不講業(yè)務(wù),不以結(jié)合企業(yè)業(yè)務(wù)目標(biāo)來解決效率和匹配度為目的的都有耍流氓嫌疑。數(shù)據(jù)中臺(tái)的使命和愿景是讓數(shù)據(jù)成為如水和電一般的資源,隨需獲取,敏捷自助,與業(yè)務(wù)更多連接,使用更低成本,通過更高效率的方式讓數(shù)據(jù)極大發(fā)揮價(jià)值,推動(dòng)業(yè)務(wù)創(chuàng)新與變革。數(shù)據(jù)中臺(tái)的出現(xiàn)意義在于降本增效,賦能企業(yè)沉淀業(yè)務(wù)能力,提升業(yè)務(wù)效率,最終完成數(shù)字化轉(zhuǎn)型。數(shù)據(jù)中臺(tái)的使命和愿景是讓數(shù)據(jù)成為如水和電一般的資源,隨需獲取,敏捷自助,與業(yè)務(wù)更多連接,使用更低成本,通過更高效率的方式讓數(shù)據(jù)極大發(fā)揮價(jià)值,推動(dòng)業(yè)務(wù)創(chuàng)新與變革。的提出,是企業(yè)數(shù)據(jù)處理發(fā)展的三個(gè)重要階段。數(shù)據(jù)倉庫主要處理OLAP需求,數(shù)據(jù)平臺(tái)則是為了支持海量數(shù)據(jù)處理而誕生,而數(shù)據(jù)中臺(tái)則是為了更好地賦能業(yè)務(wù),打通各個(gè)業(yè)務(wù)線的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲(chǔ)和計(jì)算。在數(shù)據(jù)倉庫階段,數(shù)據(jù)倉庫并不是要取代數(shù)據(jù)庫,而是為了更好的做數(shù)據(jù)分析和報(bào)表需求分析。隨著數(shù)據(jù)量的逐步上升,原來的技術(shù)架構(gòu)越來越不能支持海量數(shù)據(jù)處理,數(shù)據(jù)平臺(tái)應(yīng)運(yùn)而生。通過整合分布式的計(jì)算框架,建立計(jì)算集群,搭建大數(shù)據(jù)平臺(tái),使得平臺(tái)具有數(shù)據(jù)互聯(lián)互通、支持多數(shù)據(jù)集實(shí)時(shí)同步、支持?jǐn)?shù)據(jù)資源管理等能力,解決大數(shù)據(jù)存儲(chǔ)與計(jì)算問題,提升數(shù)據(jù)分析效率以及用戶畫像系統(tǒng)/推薦/搜索/廣告系統(tǒng)的運(yùn)用落地。在數(shù)據(jù)平臺(tái)階段,企業(yè)業(yè)務(wù)系統(tǒng)過多,彼此數(shù)據(jù)沒有打通,需要先從各個(gè)系統(tǒng)尋找到相應(yīng)的數(shù)據(jù),然后提取數(shù)據(jù)進(jìn)行整合打通,才能做數(shù)據(jù)分析。這個(gè)過程中人為進(jìn)行整合出錯(cuò)率高,分析效果不及時(shí),導(dǎo)致整體的效率低下。業(yè)務(wù)系統(tǒng)壓力大,做數(shù)據(jù)分析計(jì)算消耗資源很大,需要通過將數(shù)據(jù)抽取出來,經(jīng)過獨(dú)立服務(wù)器來處理數(shù)據(jù)查詢、分析任務(wù),來釋放業(yè)務(wù)系統(tǒng)的壓力。同時(shí),歷史數(shù)據(jù)的積累嚴(yán)重,數(shù)據(jù)沒有得到使用,原始數(shù)據(jù)系統(tǒng)不能承受更大數(shù)據(jù)量的處理時(shí),數(shù)據(jù)處理效率嚴(yán)重下降。在數(shù)據(jù)中臺(tái)階段,數(shù)據(jù)量的指數(shù)級(jí)增長,為了更好的賦能業(yè)務(wù),企業(yè)啟動(dòng)中臺(tái)戰(zhàn)略,打通各個(gè)業(yè)務(wù)線的數(shù)據(jù),整合匯集數(shù)據(jù),在底層通過技術(shù)手段解決數(shù)據(jù)統(tǒng)一存儲(chǔ)和統(tǒng)一計(jì)算問題。通過數(shù)據(jù)服務(wù)化的DataAPI的方式,打通數(shù)據(jù)平臺(tái)和前臺(tái)的業(yè)務(wù)層對(duì)接,結(jié)合算法,把前臺(tái)業(yè)務(wù)的分析需求和交易需求直接對(duì)接到中臺(tái)來,通過數(shù)據(jù)中臺(tái)處理和邏輯運(yùn)算,然后在反向賦能業(yè)務(wù),真正做到意義上的『一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化』。數(shù)據(jù)倉庫是一個(gè)為企業(yè)提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合,旨在為業(yè)務(wù)智能提供指導(dǎo),并監(jiān)視時(shí)間、成本、質(zhì)量以及控制等方面。數(shù)據(jù)倉庫是一個(gè)相對(duì)具體的功能概念,是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。數(shù)據(jù)平臺(tái)是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺(tái),變成一個(gè)集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、查詢檢索、分析挖掘等、應(yīng)用接口等為一體的平臺(tái),為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集。數(shù)據(jù)平臺(tái)的優(yōu)勢在于可以提供高級(jí)分析功能和數(shù)據(jù)資源管理中心,支持?jǐn)?shù)據(jù)資源管理,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合管控,提供完善的大數(shù)據(jù)分析基礎(chǔ)運(yùn)行環(huán)境,提供統(tǒng)一二次開發(fā)接口等。數(shù)據(jù)中臺(tái)是全域級(jí)、可復(fù)用的數(shù)據(jù)資產(chǎn)中心與數(shù)據(jù)能力中心,可以提供干凈、透明、智慧的數(shù)據(jù)資產(chǎn)與高效、易用的數(shù)據(jù)能力,使得業(yè)務(wù)能夠數(shù)字化運(yùn)營,為業(yè)務(wù)提供服務(wù)的方式主要是提供數(shù)據(jù)服務(wù)能力。數(shù)據(jù)中臺(tái)具有一個(gè)全局的元數(shù)據(jù)管理系統(tǒng),管理的方式同樣是以表為主,粒度到字段級(jí)別。數(shù)據(jù)中臺(tái)這個(gè)元信息包含了各個(gè)子存儲(chǔ)的元信息,以數(shù)據(jù)中臺(tái)需要的形態(tài)進(jìn)行組織,變成數(shù)據(jù)資產(chǎn)管理中心,通過數(shù)據(jù)地圖來進(jìn)行承載,就像互聯(lián)管道一樣做數(shù)據(jù)分發(fā)中轉(zhuǎn)管理,可以很好的找到我們要的數(shù)據(jù)以及對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)和處理、分析,進(jìn)一步加速企業(yè)從數(shù)字化轉(zhuǎn)型為業(yè)務(wù)價(jià)值的過程。數(shù)據(jù)倉庫的優(yōu)勢在于具有元數(shù)據(jù),通過表的方式很好的規(guī)整了數(shù)據(jù)。數(shù)據(jù)需要加工,數(shù)倉是通過分層的模式,每往上走一層,數(shù)據(jù)信息損耗會(huì)逐漸增加。數(shù)據(jù)平臺(tái)的優(yōu)勢在于可以提供高級(jí)分析功能和數(shù)據(jù)資源管理中心,主要有數(shù)據(jù)互聯(lián)互通,支持多數(shù)據(jù)集實(shí)時(shí)同步。數(shù)據(jù)中臺(tái)的優(yōu)勢在于提供干凈、透明、智慧的數(shù)據(jù)資產(chǎn)與高效、易用的數(shù)據(jù)能力,使得業(yè)務(wù)能夠數(shù)字化運(yùn)營。存儲(chǔ)系統(tǒng):我們使用基于Hadoop分布式文件系統(tǒng)的存儲(chǔ)系統(tǒng)來存儲(chǔ)采集層的數(shù)據(jù),并加入Kafka來防止數(shù)據(jù)丟失。離線計(jì)算:離線計(jì)算是針對(duì)實(shí)時(shí)性要求不高的部分,我們通常會(huì)將計(jì)算結(jié)果保存在Hive中。實(shí)時(shí)計(jì)算:我們使用SparkStreaming和Storm來消費(fèi)Kafka中收集的日志數(shù)據(jù),并通過實(shí)時(shí)計(jì)算將結(jié)果保存在Redis中。機(jī)器學(xué)習(xí):我們使用SparkMLlib提供的機(jī)器學(xué)習(xí)算法。共享層:我們將通過離線和實(shí)時(shí)計(jì)算的數(shù)據(jù)分析與計(jì)算后的結(jié)果存儲(chǔ)在數(shù)據(jù)共享層中,主要用于數(shù)據(jù)分發(fā)和調(diào)度中心。我們使用Kylin作為OLAP引擎來進(jìn)行多維度分析。數(shù)據(jù)應(yīng)用:我們的數(shù)據(jù)應(yīng)用包括報(bào)表展示、數(shù)據(jù)分析、即席查詢和數(shù)據(jù)挖掘。任務(wù)調(diào)度與監(jiān)控:我們通過任務(wù)調(diào)度和監(jiān)控來保證數(shù)據(jù)平臺(tái)的穩(wěn)定性和高效性。采集層:我們使用基于Hadoop分布式文件系統(tǒng)的存儲(chǔ)系統(tǒng)來存儲(chǔ)采集層的數(shù)據(jù)。對(duì)于結(jié)構(gòu)化數(shù)據(jù),我們將能夠序列化的數(shù)據(jù)直接存放到HDFS中,而不能序列化的數(shù)據(jù)則通過數(shù)據(jù)整理后存放在分布式數(shù)據(jù)庫環(huán)境中,再經(jīng)過序列化后和不能序列化的數(shù)據(jù)一樣直接存放到HDFS中。對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),我們直接將各種日志數(shù)據(jù)和點(diǎn)擊流、數(shù)據(jù)接口中的數(shù)據(jù)等存放到HDFS中。數(shù)據(jù)層:我們將相關(guān)業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)和有一定格式關(guān)系的半結(jié)構(gòu)化數(shù)據(jù)存放在HadoopHive數(shù)據(jù)倉庫中,并按照特定的業(yè)務(wù)主題域進(jìn)行數(shù)據(jù)集市的構(gòu)建。同時(shí),我們也將相關(guān)業(yè)務(wù)中半結(jié)構(gòu)化的數(shù)據(jù)直接存放在HDFS分布式文件系統(tǒng)中。計(jì)算層:我們的計(jì)算層包括離線計(jì)算和實(shí)時(shí)計(jì)算。應(yīng)用層:我們的應(yīng)用層包括可視化數(shù)據(jù)分析報(bào)表和特定場景下的搜索、推薦和廣告等應(yīng)用。數(shù)據(jù)能力中心:為了保證快速、高效、高質(zhì)量數(shù)據(jù)接入,我們建立了統(tǒng)一的數(shù)據(jù)質(zhì)量管理平臺(tái)和數(shù)據(jù)能力中心。我們通過數(shù)據(jù)采集和接入來按照業(yè)態(tài)接入內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),并將數(shù)據(jù)抽取到計(jì)算平臺(tái),構(gòu)建“數(shù)據(jù)共享中心”,構(gòu)建OneData體系。4、數(shù)據(jù)共享中心在上層構(gòu)建了“數(shù)據(jù)唯一中心”的架構(gòu),以業(yè)務(wù)/自然對(duì)象和萃取標(biāo)簽為基礎(chǔ),構(gòu)建了OneID體系,打通了消費(fèi)者數(shù)據(jù)體系、企業(yè)數(shù)據(jù)體系、內(nèi)容數(shù)據(jù)體系等,實(shí)現(xiàn)了數(shù)據(jù)的共享和整合。5、經(jīng)過深度加工后,數(shù)據(jù)得到了干凈、透明、智慧的賦能產(chǎn)品和業(yè)務(wù)線。通過統(tǒng)一的數(shù)據(jù)服務(wù)中間件“OneService”,提供統(tǒng)一的數(shù)據(jù)服務(wù),實(shí)現(xiàn)了“一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化”的目標(biāo)。在數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的概念層面上,它們的技術(shù)能力都是基于數(shù)據(jù)倉庫發(fā)展而來,處理的對(duì)象都是海量數(shù)據(jù),服務(wù)目的和商業(yè)價(jià)值也相似。數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)都提供OpenAPI服務(wù)。但是,數(shù)據(jù)中臺(tái)是業(yè)務(wù)應(yīng)用,不代表某種技術(shù),必須結(jié)合企業(yè)的各個(gè)數(shù)據(jù)業(yè)務(wù)場景。相對(duì)來說,數(shù)據(jù)平臺(tái)是靜態(tài)的,不帶有業(yè)務(wù)特征性質(zhì),主要匯集其他人的能力,整合成平臺(tái)的能力。數(shù)據(jù)中臺(tái)是動(dòng)態(tài)變化的,需要通過數(shù)據(jù)驅(qū)動(dòng)的方式來滋養(yǎng)業(yè)務(wù),不斷訓(xùn)練調(diào)整業(yè)務(wù)模型和業(yè)務(wù)算法提供的能力,提供給其他系統(tǒng)和平臺(tái)集成的能力。在數(shù)據(jù)層面上,數(shù)據(jù)倉庫的數(shù)據(jù)來源主要是RDBMS,存儲(chǔ)的數(shù)據(jù)格式以結(jié)構(gòu)化數(shù)據(jù)為主,這些數(shù)據(jù)并非企業(yè)全量數(shù)據(jù),而是根據(jù)企業(yè)業(yè)務(wù)需求做針對(duì)性整合、抽取。數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的數(shù)據(jù)來源期望是全域級(jí)的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。在目標(biāo)層面上,數(shù)據(jù)倉庫主要用來做報(bào)表分析,目的性單一,只是針對(duì)相關(guān)分析報(bào)表用到基礎(chǔ)數(shù)據(jù),進(jìn)行抽取、整合、數(shù)據(jù)清洗和分析。數(shù)據(jù)平臺(tái)的建立是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題以及計(jì)算和性能等問題。匯集整合打通數(shù)據(jù),數(shù)據(jù)清洗后,當(dāng)業(yè)務(wù)提出需求的時(shí)候,把業(yè)務(wù)方需要的若干個(gè)小數(shù)據(jù)集單獨(dú)提取出來,以數(shù)據(jù)集的形式提供給業(yè)務(wù)方去使用。,數(shù)據(jù)中臺(tái)可以為企業(yè)提供數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等一系列數(shù)據(jù)服務(wù),幫助企業(yè)更好地理解和利用數(shù)據(jù)。同時(shí),數(shù)據(jù)中臺(tái)還可以為企業(yè)提供數(shù)據(jù)共享、數(shù)據(jù)交換等服務(wù),促進(jìn)企業(yè)內(nèi)部各部門之間的協(xié)作和信息共享。數(shù)據(jù)中臺(tái)是企業(yè)數(shù)字化轉(zhuǎn)型的重要組成部分,它可以幫助企業(yè)更好地管理和利用數(shù)據(jù)資源,提高企業(yè)的數(shù)據(jù)智能化水平。數(shù)據(jù)中臺(tái)的建設(shè)需要企業(yè)進(jìn)行全面的規(guī)劃和設(shè)計(jì),包括數(shù)據(jù)清洗、主題域建立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論