數(shù)據(jù)專家如何落地數(shù)據(jù)體系_第1頁
數(shù)據(jù)專家如何落地數(shù)據(jù)體系_第2頁
數(shù)據(jù)專家如何落地數(shù)據(jù)體系_第3頁
數(shù)據(jù)專家如何落地數(shù)據(jù)體系_第4頁
數(shù)據(jù)專家如何落地數(shù)據(jù)體系_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)中臺:數(shù)據(jù)體系數(shù)據(jù)體系按照貼源數(shù)據(jù)、統(tǒng)一數(shù)倉、標簽數(shù)據(jù)、應(yīng)用數(shù)據(jù)的標準統(tǒng)一建設(shè)考慮數(shù)據(jù)的一致性和可

復(fù)用性數(shù)據(jù)體系標簽數(shù)據(jù)層建設(shè)統(tǒng)一數(shù)倉層建設(shè)貼源數(shù)據(jù)層建設(shè)應(yīng)用數(shù)據(jù)層建設(shè)盡量保持數(shù)據(jù)的原始狀

態(tài),同時經(jīng)過簡單的處

理為后續(xù)工

作提供準備數(shù)據(jù)體系貼源數(shù)據(jù)層建設(shè)目標是把全

域數(shù)據(jù)匯聚

到數(shù)據(jù)中臺ETL與ELT的選擇貼源數(shù)據(jù)三

種類別貼源數(shù)據(jù)表

設(shè)計二ETL

與ELT

的選擇存儲成本降低,沒有必

要過度處理數(shù)據(jù),反而會導(dǎo)致原始數(shù)據(jù)丟失可以先裝載保存,再進

行處理大數(shù)據(jù)時代在抽取過程中進行清洗會消耗大量二貼源數(shù)據(jù)三種類別結(jié)構(gòu)化數(shù)據(jù),直接從業(yè)務(wù)系統(tǒng)數(shù)

據(jù)庫抽取非結(jié)構(gòu)化數(shù)據(jù),多媒體,

一般保留在文件系統(tǒng)中,數(shù)據(jù)量龐大、價值密度低,通常不保留這些文件,而是這些文件的描述半結(jié)構(gòu)化,通常是文本數(shù)據(jù),日

志等,抽取到貼源數(shù)據(jù)的同時做

結(jié)構(gòu)化處理,為后續(xù)使用做準備CB貼源數(shù)據(jù)表設(shè)計原則◆盡量保持和業(yè)務(wù)系統(tǒng)一致,結(jié)構(gòu)幾乎不需要修改2字段名增量同步表名半結(jié)構(gòu)化數(shù)據(jù)設(shè)計規(guī)范0103040◆前綴+系統(tǒng)業(yè)務(wù)表名◆如:

ODS_

業(yè)務(wù)/系統(tǒng)名稱_業(yè)務(wù)系統(tǒng)表名設(shè)計規(guī)范表名◆與業(yè)務(wù)系統(tǒng)保持一致,ODS

層不做字段命名歸一◆字段類型和業(yè)務(wù)系統(tǒng)盡可能保持一致◆若數(shù)據(jù)中臺沒有與業(yè)務(wù)系統(tǒng)對應(yīng)的數(shù)據(jù)類型則用一個可兼容的數(shù)據(jù)類型設(shè)計規(guī)范字段名◆對于數(shù)據(jù)量大的業(yè)務(wù)數(shù)據(jù),需要采用增量同步時,要同時建立增量表和全

量表◆增量表利用后綴進行標識◆增量數(shù)據(jù)通過數(shù)據(jù)加工任務(wù)合并生成全量表設(shè)計規(guī)范增量同步◆存儲原始數(shù)據(jù)◆同時存儲結(jié)構(gòu)化處理后的數(shù)據(jù)設(shè)計規(guī)范半結(jié)構(gòu)化數(shù)據(jù)貼源數(shù)據(jù)表設(shè)計實現(xiàn)貼源數(shù)據(jù)是業(yè)務(wù)系統(tǒng)數(shù)據(jù),這些數(shù)

據(jù)是系統(tǒng)方便流程操作產(chǎn)生的,更

貼近系統(tǒng)而非業(yè)務(wù),不利用業(yè)務(wù)理

解和數(shù)據(jù)分析數(shù)據(jù)體系統(tǒng)一數(shù)倉層建設(shè)相關(guān)概念(以維度建模為基礎(chǔ))數(shù)據(jù)域劃分事實表設(shè)計維度表設(shè)計指標設(shè)計03010206數(shù)據(jù)體系統(tǒng)一數(shù)倉層建設(shè)◆模型落地數(shù)據(jù)冗余新增維度時,需要進行預(yù)處理,通常會造成大量的數(shù)據(jù)冗余

如新增一個維度時,老數(shù)據(jù)因為

當時沒有采集這個維度的數(shù)據(jù),需要定義一個值填進去可擴展性好可在不改變數(shù)據(jù)粒度的情況下新

增維度,無需重新裝載數(shù)據(jù),不

影響曾經(jīng)的應(yīng)用性能好可預(yù)測的標準框架可以生成強大的假設(shè)條件模型簡單,只有維度、事實兩種類型數(shù)

據(jù)特點如修車類

型業(yè)務(wù)過程同

其他修飾詞

計算方法

原孑指標源生指標建設(shè)過程業(yè)務(wù)板塊模型設(shè)計數(shù)據(jù)域業(yè)務(wù)過程修飾詞原子指標建設(shè)過程派生指標計算方法維度表事實表粒度一致性指標定義效業(yè)務(wù)過程原子脂標

意郵型詞

其他修詞活生指示計算方法板塊建設(shè)過程業(yè)務(wù)板塊各個業(yè)務(wù)域◆基于維度建模構(gòu)建一致性的維度和事實◆

設(shè)計一套表命名規(guī)范建設(shè)過程模型設(shè)計建設(shè)過程數(shù)據(jù)域◆

數(shù)倉的頂層劃分,根據(jù)業(yè)務(wù)進行抽象◆一個數(shù)據(jù)域?qū)?yīng)一個宏觀業(yè)務(wù)領(lǐng)域的分析◆不輕,能涵蓋其業(yè)務(wù)域內(nèi)所有需求◆新業(yè)務(wù)加入時可以無影響的分配到已有的數(shù)據(jù)域,當所有分類都不合適的

時候才新建業(yè)務(wù)域◆企業(yè)經(jīng)營活動中一種不可拆分的行為事件◆下訂單、轉(zhuǎn)賬、賬號注冊等建設(shè)過程業(yè)務(wù)過程◆除了統(tǒng)計維度外對指標進行限定抽象的業(yè)務(wù)場景詞語◆如日志中有修飾詞PC

、APP

端◆修飾詞是為了方便理解和管理建設(shè)過程修飾詞◆不可拆分,是對某一業(yè)務(wù)事件行為的度量,有明確的業(yè)務(wù)含義◆有明確的字段名、數(shù)據(jù)類型、算法說明、數(shù)據(jù)域和業(yè)務(wù)過程◆一般采用“動作+度量”的方式命名,如支付金額、注冊用戶數(shù)建設(shè)過程原子指標◆對原子指標業(yè)務(wù)統(tǒng)計范圍的圈定◆派生指標=一個原子指標+多個修飾詞+時間修飾詞◆如:最近1天北京買家支付總金額建設(shè)過程派生指標數(shù)學計算方式◆匯總、平均、最值等建設(shè)過程計算方法◆維度是觀察事物的角度◆提供某一業(yè)務(wù)過程中涉及到的用于過濾和分類事實的描述性屬性◆維度表是統(tǒng)一設(shè)計的,在使用時可以在公共維度表中獲取相關(guān)維度屬性建設(shè)過程維度表◆是業(yè)務(wù)過程的度量,通常以數(shù)量值表示◆事實表不跨越數(shù)據(jù)域◆明細事實表◆匯總事實表建設(shè)過程事實表◆用于確定事實表中的一行具體代表什么◆每個維度和事實都必須和定義的粒度保持一致◆原子粒度的事實必須保留建設(shè)過程粒度◆指標歸屬到具體數(shù)據(jù)域◆確保全局一致性建設(shè)過程一致性指標定義階段一:數(shù)業(yè)務(wù)調(diào)研摸清業(yè)務(wù)涵蓋的領(lǐng)域據(jù)調(diào)研和業(yè)務(wù)線業(yè)務(wù)線細分的業(yè)務(wù)模數(shù)據(jù)調(diào)研塊、業(yè)務(wù)模塊具體流調(diào)研全部數(shù)據(jù)目錄信息程梳理數(shù)據(jù)流和業(yè)務(wù)過程的業(yè)務(wù)流程、業(yè)務(wù)邊界、關(guān)聯(lián)關(guān)系專業(yè)數(shù)據(jù)將業(yè)務(wù)過程拆解為一個個不可分割的行為事件如下單、支付、

收貨、退款業(yè)務(wù)過程拆分03將特征相似的業(yè)務(wù)過程分為一類每個業(yè)務(wù)只能歸屬一個類別業(yè)務(wù)過程

分類02階段二:業(yè)務(wù)分類抽取全部業(yè)務(wù)過

程數(shù)據(jù)域劃分階段三:數(shù)據(jù)域定義數(shù)據(jù)域?qū)倜?,附上英文全稱和簡稱根據(jù)業(yè)務(wù)分類規(guī)律,總結(jié)出數(shù)據(jù)域定義01呈:會員的注冊呈;商品的發(fā)在呈:商品眼光、呈:下單、支付、呈:積分的獲耶呈:活動設(shè)置、錄、退出、凍潔、注架、下架、屬生變夏

、收藏、點擊,滑動

者、確認收貨.退貨

費、匯入、失改等

、開始、結(jié)束.預(yù)警數(shù)據(jù)域劃分階段四:總線矩陣構(gòu)建定義二維矩陣,記錄數(shù)據(jù)域下的業(yè)務(wù)過程與維

度信息呈;評論、回復(fù)、三主、訂閱、取關(guān)注指標設(shè)計核心是一致性描述原子指標、修飾詞、時間周期和派生指標的含義、類型、命名、算法等,是建模的基礎(chǔ)派生指標的生成渠道,APP支付發(fā)型會員等級*飾詞

其中

中|d)m)維度表設(shè)計是維度建模的基礎(chǔ),直接決定了模

型的好壞維度表設(shè)計設(shè)計的核心是確定維度屬性,用于設(shè)置查詢約束條件、分組、標簽生成等∩1維度表包含了事實表所記錄的業(yè)務(wù)過程的上下文和環(huán)境,除了5W還包

含很多屬性描述字段∩1每個維度表有單一的主

鍵列維度表設(shè)計內(nèi)容維度表設(shè)計特點02

有大量細粒度文本

屬性通常有多個屬性比較寬,是扁平型

非規(guī)范表01維度表設(shè)計應(yīng)盡量包括一些有意義的文字描述,

方便下游使用維度表設(shè)計維度盡量豐富,減少后續(xù)使用關(guān)

聯(lián)確定主維表定義維度屬性選擇維度梳理關(guān)聯(lián)維表設(shè)計方法01030204◆在企業(yè)級數(shù)倉中保證維度的唯一性◆通常在業(yè)務(wù)報表、業(yè)務(wù)人員需求中尋找需要的維度設(shè)計方法選擇維度◆通常直接從業(yè)務(wù)系統(tǒng)同步過來◆是分析時最基礎(chǔ)、最頻繁的維度屬性集合設(shè)計方法確定主維表尋找統(tǒng)一業(yè)務(wù)或不同業(yè)務(wù)系統(tǒng)中表間的關(guān)聯(lián)性,選擇其生成關(guān)聯(lián)維

度設(shè)計方法梳理關(guān)聯(lián)維表◆盡量生成更豐富、通用的維度屬性◆維護和描述緯度屬性與層次關(guān)聯(lián)關(guān)系設(shè)計方法定義維度屬性事實表設(shè)計數(shù)倉的主要產(chǎn)物事實表設(shè)計主鍵+外鍵+事實度量二kimbal

維度建模理論事實表的設(shè)計步驟周期快照事實表事務(wù)事實

表累計快照

事實表0402◆描述業(yè)務(wù)事實,

一條記錄一個事件◆增量更新,記錄后不再修改◆粒度較細,支持詳細地分析kimball

維度建模理論事務(wù)事實表◆以規(guī)律性、可預(yù)見的時間間隔內(nèi)的聚集事實值或狀態(tài)度量,產(chǎn)生快照◆周期結(jié)束后才會產(chǎn)生一行新的記錄,不再更改,增量更新◆粒度較粗,維度較少◆是事實加工之后產(chǎn)生的新事實,

一般事實會比事務(wù)事實表多kimball

維度建模理論周期快照事實表◆覆蓋一個事務(wù)的整個生命周期的所有關(guān)鍵事件◆通常有多個日期字段來記錄關(guān)鍵事件時間點◆通常使用全量刷新的方式更新數(shù)據(jù)◆常用于追蹤某個業(yè)務(wù)的生命周期及其狀態(tài)轉(zhuǎn)換kimball

維度建模理論累計快照事實表◆確定業(yè)務(wù)過程◆定義粒度◆確定維度◆確定事實◆冗余維度屬性kimball

維度建模理論事實表的設(shè)計步驟04代碼發(fā)布,質(zhì)量監(jiān)控與

報警03代碼邏輯測

試開發(fā)生成表的數(shù)據(jù)的邏輯代碼按照命名規(guī)

范創(chuàng)建維表

和事實表模型落地01

02運維05消費者個人'物”標簽圖

7

-

簽對象方制數(shù)據(jù)體系標簽數(shù)據(jù)層建設(shè)概述一些概念確定對象對象ID

打通標簽類目設(shè)計標簽設(shè)計主中制總庫

量好評率年齡消費力捕情制數(shù)據(jù)體系標簽數(shù)據(jù)層建設(shè)◆;標簽融合表設(shè)計概述面向?qū)ο蠼?,將跨業(yè)務(wù)、數(shù)據(jù)域的對象數(shù)據(jù)在同一個力度基礎(chǔ)上組織起來關(guān)聯(lián)到對象上統(tǒng)計標簽業(yè)務(wù)中的原子指標+修飾詞+計算,生成統(tǒng)計

標簽屬性標簽對象自身屬性算法標簽對象在多個業(yè)務(wù)過程的中的表現(xiàn),通過某種算

法計算出的規(guī)律性特征標簽類別0350%0225%75%01無論維度還是事實,

一切都是標簽概述對象標簽表概述;型標簽表的設(shè)計過程業(yè)務(wù)過程原子指標計算方法毫規(guī)律特性算法標簽標簽類目標簽的分類方式用于管理和查找標簽通常采用多級類目標簽利用原始數(shù)據(jù)加工產(chǎn)生、務(wù)理解和使用的數(shù)據(jù)一些概念對象標識各種id等對象確定對象描述現(xiàn)實世界的三大類對象:人、

物、關(guān)系確定對象人具有主動性,常是關(guān)系的發(fā)出者確定對象物具有智慧的“物”

如人工智能,也會

歸到“人”一類被動,常事關(guān)系的

接受者0102事實關(guān)系產(chǎn)生可量化的事實度量一種虛擬對象,是實體對象之間的聯(lián)系歸屬關(guān)系只是一種歸屬屬性關(guān)系對于個體數(shù)量龐大、業(yè)務(wù)種類多的情況,打通ID計算量極大,通常使用ID-Mapping

技術(shù),用算法替代野蠻計算ID

打通的前提是必須有ID

與其他ID之間的兩兩映射關(guān)系,否則完全孤立的ID無法進行打通解決同一個體在不同業(yè)務(wù)中標識

ID不同的情況算法打通的對象具有一定誤差,

使用時要考慮置信度通常采用設(shè)置超級ID的方式來打

通對象ID

打通④5標簽類目設(shè)計圖書管理學方法,建立多級目錄體系根目錄人、物、關(guān)系分類原則盡量按照對數(shù)據(jù)的理解、使用、價值等業(yè)務(wù)角度去理解,對非技術(shù)人員

更友好標簽體系的核心就是標簽類目的設(shè)計,

類目設(shè)計完成后填入標簽即可單個物品

物品集合

個人

個人團體商品

消費者

消費消費力期費比兩食演對作承庫

作X

W?品

單提

寒“

搖晶

ID年齡*標簽設(shè)計前提條件必須是具有數(shù)據(jù)可行性的(有數(shù)可

)

必須是對業(yè)務(wù)有價值的2二概念區(qū)分標簽類

目多掛問

題標簽根

目錄標簽標簽值◆是標簽所屬于的對象,常是模糊、寬泛的名詞或動詞,如會員、酒店、報修◆物理層面對應(yīng)于某表中的主鍵概念區(qū)分標簽根目錄◆對對象的拆分、對象的角度、層面或過程,如社交關(guān)系、從屬關(guān)系等◆物理層面對應(yīng)某,多的表按主鍵關(guān)聯(lián)就組成主鍵對象的大寬表概念區(qū)分標簽類目◆對象具體某個屬性、信息物理層面對應(yīng)表中某個字段概念區(qū)分標簽◆對象具體某個屬性、信息的具體取值,如男女、白領(lǐng)◆物理層面對應(yīng)具體某個字段值字典概念區(qū)分標簽值◆一個標簽歸類在多個類目下,稱為多掛◆多掛會導(dǎo)致冗余問題,有時也可以便于業(yè)務(wù)理解,視情況選擇是否要多掛◆多掛通常是個別現(xiàn)象,大量有多屬性的標簽最好新建一個類目概念區(qū)分多掛問題標簽設(shè)計內(nèi)容偏技術(shù)表名、字段名、負責人、完成時間

等偏業(yè)務(wù)標簽類目、標簽名、標簽加工類型、

標簽邏輯、值字典、取值類型、示

例、更新周期、安全等級,等9,300

Million單擊此處添加標題單擊此處輸入你的正文,文字是您思想

的提煉,為了最終演示發(fā)布的良好效果,

請盡量言簡意賅的闡述觀點;根據(jù)需要

可酌情增減文字,以便觀者可以準確理

解您所傳達的信息。標簽是一個獨立的字段,不存在互相依賴才能生效的“組合標簽”

,

每個具體對象某標簽的標簽值,只

能有一個人、物、關(guān)系這三種對象的標簽,有些可以互相轉(zhuǎn)化,如“身份證號”

是身份證(物)的標簽,“擁有的

身份證號”才是人的標簽標簽融合表中,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論