數(shù)倉建設(shè)規(guī)劃核心問題_第1頁
數(shù)倉建設(shè)規(guī)劃核心問題_第2頁
數(shù)倉建設(shè)規(guī)劃核心問題_第3頁
數(shù)倉建設(shè)規(guī)劃核心問題_第4頁
數(shù)倉建設(shè)規(guī)劃核心問題_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)倉建設(shè)規(guī)劃核心問題小A進入一家網(wǎng)約車出現(xiàn)服務(wù)公司,負(fù)責(zé)公司數(shù)倉建設(shè),試用期主要一項OKR是制定數(shù)據(jù)倉庫建設(shè)規(guī)劃;因此小A本著從問題出發(fā)為原點,先對公司數(shù)倉現(xiàn)狀進行一輪深入了解,理清存在問題,然后在以不忘初心原則提出解決問題方案。相信很多數(shù)據(jù)建設(shè)者在公司發(fā)展某個階段時都會遇到類似小A公司問題,也在思考或已經(jīng)在執(zhí)行落地解決這些問題方案,希望通過小A案例可以給大家一些啟發(fā)。下面先看看小A公司數(shù)倉現(xiàn)狀與問題

01數(shù)據(jù)倉庫現(xiàn)狀小A公司創(chuàng)建時間比較短,才剛過完兩周歲生日沒多久;業(yè)務(wù)增長速度快,數(shù)據(jù)迅速增加,同時取數(shù)需求激增與數(shù)據(jù)應(yīng)用場景對數(shù)據(jù)質(zhì)量、響應(yīng)速度、數(shù)據(jù)時效性與穩(wěn)定要求越來越高;但技術(shù)能力滯后業(yè)務(wù)增長,如實時數(shù)倉技術(shù)能力、高可用穩(wěn)定保障能力、流程規(guī)范缺少等,這些能力嚴(yán)重滯后業(yè)務(wù)發(fā)展,甚至有些還是停留在公司創(chuàng)建初期casebycase階段。小A根據(jù)數(shù)據(jù)在數(shù)倉流向(以下圖),從上游的業(yè)務(wù)系統(tǒng)測到數(shù)倉內(nèi)部最后到下游數(shù)據(jù)應(yīng)用梳理數(shù)據(jù)倉庫建設(shè)存在問題。業(yè)務(wù)系統(tǒng)側(cè)【上游】數(shù)據(jù)倉庫首先需要對業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)與埋點數(shù)據(jù)進行歸集;數(shù)倉與上游業(yè)務(wù)系統(tǒng)對接主要存在以下問題:缺失業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型清單與變更同步:沒有對已歸集到數(shù)倉業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型記錄,業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型發(fā)送變更也沒有對數(shù)倉知會,更多是出現(xiàn)問題后或者是數(shù)據(jù)使用者事后告知數(shù)倉。缺少統(tǒng)一枚舉值編碼與變更同步:業(yè)務(wù)系統(tǒng)沒有統(tǒng)一枚舉值編碼,如訂單狀態(tài)有:下單、接單、成單,沒有統(tǒng)一對這些枚舉值進行管理;如果后面對訂單狀態(tài)再增加一個:取消單狀態(tài),這種變更也沒有對數(shù)倉進行知會。業(yè)務(wù)部門搭建各自小數(shù)倉:有些部門繞過數(shù)倉直接接入上游數(shù)據(jù)源,搭建各自的小數(shù)倉,從而導(dǎo)致數(shù)據(jù)孤島、重復(fù)計算、口徑不一致。存在業(yè)務(wù)盲區(qū):有些業(yè)務(wù)需要專業(yè)知識背景如:財務(wù);有些業(yè)務(wù)規(guī)則保密級別高,無法對非業(yè)務(wù)相關(guān)員公開業(yè)務(wù)邏輯,如風(fēng)控;因此無法系統(tǒng)梳理這些業(yè)務(wù)實體與實體之間關(guān)系,提煉指標(biāo),共享數(shù)據(jù)。數(shù)倉內(nèi)部公司創(chuàng)建初期,數(shù)據(jù)量比較小、數(shù)據(jù)需求也不多、數(shù)據(jù)應(yīng)用場景也比較單一更多是為了滿足一下簡單報表,因此數(shù)倉主要是以接單方式驅(qū)動工作,來一個需求做一個,casebycase,主要是為了快速響應(yīng)需求。但隨著業(yè)務(wù)迅速增加,數(shù)據(jù)量暴漲,數(shù)據(jù)應(yīng)用場景多樣化,慢慢暴露出以下問題:流程規(guī)范缺少:沒有流程與規(guī)范指引數(shù)據(jù)開發(fā)者根據(jù)流程對數(shù)據(jù)進行規(guī)范化建設(shè),導(dǎo)致數(shù)據(jù)分層分類不清晰,數(shù)據(jù)混亂;命名不規(guī)范,同義不同名,同名不同義;數(shù)據(jù)重復(fù)建設(shè),冗余數(shù)據(jù)多。沒有體系化技術(shù)設(shè)計:無論是離線或?qū)崟r數(shù)據(jù)采集、處理與分發(fā)都缺少體系化設(shè)計與搭建,更多是在前期casebycase上面修修補補;例如在離線與實時對同一數(shù)據(jù)源進行采集;無差別對所有數(shù)據(jù)源每次全量抽取與DWD到DWS層無差別全量計算;T+1與每小時批處理煙囪開發(fā),同一寬表離線與實時煙囪開發(fā)、重復(fù)計算與存儲;對不同應(yīng)用場景無差別使用相同存儲與計算等等;影響無互相隔離:數(shù)倉數(shù)據(jù)存儲與計算,沒有與數(shù)據(jù)應(yīng)用服務(wù)存儲與技術(shù)隔離,存在互相之間資源搶占與問題被放大情況;同時也存在數(shù)倉底層模型設(shè)計很難兼容數(shù)據(jù)應(yīng)用層模型設(shè)計需求數(shù)據(jù)應(yīng)用測【下游】數(shù)倉需要為不同數(shù)據(jù)應(yīng)用場景(風(fēng)控、C端、業(yè)務(wù)運營等)提供數(shù)據(jù),不同數(shù)據(jù)應(yīng)用需求是不一致的,存在很多差異;同時數(shù)據(jù)在不同應(yīng)用場景價值也是不一樣的。因此需要清楚了解下游數(shù)據(jù)應(yīng)用場景與存在問題才可以更好服務(wù)數(shù)據(jù)應(yīng)用方,下游主要存在以下問題:對數(shù)據(jù)應(yīng)用場景不了解:對下游數(shù)據(jù)需求應(yīng)用場景不了解或者沒有深入了解,沒有針對不同場景評估技術(shù)選型,簡單粗暴使用一招打天下,對不同場景使用一套計算與存儲。不知道數(shù)據(jù)被哪些應(yīng)用訪問:沒有對下游應(yīng)用對數(shù)據(jù)使用監(jiān)控與記錄,無法對數(shù)據(jù)使用情況與價值進行量化沒有量化數(shù)據(jù)需求優(yōu)先級:對下游數(shù)據(jù)需求沒有優(yōu)先級評估機制,沒有量化數(shù)據(jù)需求優(yōu)先級沒有自助取數(shù)工具:下游沒有取數(shù)能力,導(dǎo)致大部分的取數(shù)工作還是依賴數(shù)據(jù)開發(fā)來完成。數(shù)據(jù)開發(fā)大部分的時間都被臨時取數(shù)的需求占據(jù),根本無法專注在數(shù)倉模型的構(gòu)建和集市層數(shù)據(jù)的建設(shè),最終形成了一個惡性循環(huán),一方面是數(shù)據(jù)不完善,另一方面是數(shù)據(jù)開發(fā)忙于各種臨時取數(shù)需求。數(shù)據(jù)接入方式多樣,接入效率低:每個數(shù)據(jù)應(yīng)用都要根據(jù)不同的中間存儲,開發(fā)對應(yīng)的代碼,如果涉及多個中間存儲,還需要開發(fā)多套代碼,數(shù)據(jù)接入效率很低。數(shù)據(jù)質(zhì)量問題:數(shù)據(jù)經(jīng)常因為BUG導(dǎo)致計算結(jié)果錯誤,最終導(dǎo)致錯誤的商業(yè)決策。

02如何解決問題業(yè)務(wù)系統(tǒng)側(cè)【上游】與業(yè)務(wù)系統(tǒng)側(cè)協(xié)同需要跨部門溝通與合作,因此需要溝通流程與標(biāo)準(zhǔn),讓雙方聚焦在公共目標(biāo);同時也要維護好你好我好的共存關(guān)系。主要是針對事前、事中、事后提出解決方案。事前:與上游建立知會機制與協(xié)同流程,及時同步業(yè)務(wù)與模型變更;接管ODS層,控制源頭,ODS是業(yè)務(wù)數(shù)據(jù)進入數(shù)倉的第一站,是所有數(shù)據(jù)加工的源頭,控制住源頭,才能從根本上防止一個重復(fù)的數(shù)據(jù)體系的出現(xiàn)。事中:通過技術(shù)手段捕捉上游元數(shù)據(jù)與字典值變更,從而方便以后問題追蹤與影響分析事后:通過事后復(fù)盤優(yōu)化流程與迭代技術(shù)數(shù)倉內(nèi)部數(shù)倉內(nèi)部主要是要從技術(shù)體系、流程規(guī)范與數(shù)據(jù)架構(gòu)等幾個維度去解決這些問題。制定流程與規(guī)范數(shù)據(jù)開發(fā)流程:數(shù)據(jù)開發(fā)規(guī)范:數(shù)倉規(guī)范主要包括以下內(nèi)容:1.基礎(chǔ)字典【詞根】詞根是企業(yè)最細(xì)粒度業(yè)務(wù)術(shù)語,是維度和指標(biāo)管理的基礎(chǔ),通過詞根可以用來統(tǒng)一表名、字段名、主題域名;建立和維護可收斂的詞根庫,業(yè)務(wù)域、主題域我們都可以用詞根的方式枚舉清楚,不斷完善,粒度也是同樣的,主要的是時間粒度、日、月、年、周等,使用詞根定義好簡稱,數(shù)倉開發(fā)的字段命名也可以使用詞根進行組合;劃分為普通詞根與專有詞根普通詞根:描述事物的最小單元體,如:交易-trade。專有詞根:具備約定成俗或行業(yè)專屬的描述體,如:美元-USD。詞根示例如下:2.基礎(chǔ)規(guī)范數(shù)據(jù)域:數(shù)據(jù)縱向分域,如下圖數(shù)據(jù)層級:數(shù)據(jù)橫向分層,如下圖3.命名規(guī)范對模型命名標(biāo)準(zhǔn)化,規(guī)范各層(ODS、DWD、DWS、DM)命名,后期可以考慮借助類似以下命名規(guī)范工具提供效率與把控能力。4.規(guī)范性評估從以下幾個角度去衡量規(guī)范度

03體系化架構(gòu)設(shè)計從橫向采集、處理、增值、分發(fā)與縱向離線、實時體系化進行技術(shù)架構(gòu)設(shè)計一致性維度一致性維度的意思是兩個維度如果有關(guān)系,要么就是完全一樣的,要么就是一個維度在數(shù)學(xué)意義上是另一個維度的子集。例如,如果建立月維度話,月維度的各種描述必須與日期維度中的完全一致,最常用的做法就是在日期維度上建立視圖生成月維度。這樣月維度就可以是日期維度的子集,在后續(xù)鉆取等操作時可以保持一致。如果維度表中的數(shù)據(jù)量較大,出于效率的考慮,應(yīng)該建立物化視圖或者實際的物理表。這樣,維度保持一致后,事實就可以保存在各個數(shù)據(jù)集市中。雖然在物理上是獨立的,但在邏輯上由一致性維度使所有的數(shù)據(jù)集市是聯(lián)系在一起,隨時可以進行交叉探察等操作,也就組成了數(shù)據(jù)倉庫。一致性事實在建立多個數(shù)據(jù)集市時,完成一致性維度的工作就已經(jīng)完成了一致性的80%-90%的工作量。余下的工作就是建立一致性事實。一致性事實和一致性維度有些不同,一致性維度是由專人維護在后臺(BackRoom),發(fā)生修改時同步復(fù)制到每個數(shù)據(jù)集市,而事實表一般不會在多個數(shù)據(jù)集市間復(fù)制。需要查詢多個數(shù)據(jù)集市中的事實時,一般通過交叉探查(drillacross)來實現(xiàn)。為了能在多個數(shù)據(jù)集市間進行交叉探查,一致性事實主要需要保證兩點。第一個是KPI的定義及計算方法要一致,第二個是事實的單位要一致性。如果業(yè)務(wù)要求或事實上就不能保持一致的話,建議不同單位的事實分開建立字段保存。這樣,一致性維度將多個數(shù)據(jù)集市結(jié)合在一起,一致性事實保證不同數(shù)據(jù)集市間的事實數(shù)據(jù)可以交叉探查。數(shù)據(jù)應(yīng)用側(cè)【下游】針對數(shù)據(jù)應(yīng)用側(cè)解決思路主要是提高取數(shù)效率,減少數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)和接口復(fù)用,具體如下。提高數(shù)據(jù)質(zhì)量要想提升數(shù)據(jù)質(zhì)量,最重要的就是“早發(fā)現(xiàn),早恢復(fù)”:早發(fā)現(xiàn),是要能夠先于數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)的問題,盡可能在出現(xiàn)問題的源頭發(fā)現(xiàn)問題,這樣就為“早恢復(fù)”爭取到了大量的時間。主要方法是在數(shù)據(jù)產(chǎn)出任務(wù)運行結(jié)束后,啟動稽核校驗任務(wù)對數(shù)據(jù)結(jié)果進行掃描計算,判斷是否符合規(guī)則(完整性規(guī)則、一致性規(guī)則、準(zhǔn)確性規(guī)則)預(yù)期。早恢復(fù),就是要縮短故障恢復(fù)的時間,降低故障對數(shù)據(jù)產(chǎn)出的影響。主要方法是基于數(shù)據(jù)血緣關(guān)系,建立全鏈路數(shù)據(jù)質(zhì)量監(jiān)控。對鏈路中每個表增加稽核校驗規(guī)則之后,當(dāng)其中任何一個節(jié)點產(chǎn)出的數(shù)據(jù)出現(xiàn)異常時,你能夠第一時間發(fā)現(xiàn),并立即修復(fù),做到早發(fā)現(xiàn)、早修復(fù)。建設(shè)可視化的取數(shù)平臺靠別人取數(shù),會存在大量的溝通和協(xié)作的成本,同時因為公共集市層數(shù)據(jù)不完善,導(dǎo)致無法基于現(xiàn)有的數(shù)據(jù),直接完成取數(shù),需要數(shù)據(jù)開發(fā)加工新的數(shù)據(jù),所以耗時會非常的長,一般需要一周時間。高昂的取數(shù)成本,壓制了取數(shù)的需求,也導(dǎo)致

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論