某企業(yè)數(shù)據(jù)智能管理治理平臺設計建設技術方案_第1頁
某企業(yè)數(shù)據(jù)智能管理治理平臺設計建設技術方案_第2頁
某企業(yè)數(shù)據(jù)智能管理治理平臺設計建設技術方案_第3頁
某企業(yè)數(shù)據(jù)智能管理治理平臺設計建設技術方案_第4頁
某企業(yè)數(shù)據(jù)智能管理治理平臺設計建設技術方案_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目編號:

某企業(yè)數(shù)據(jù)智能管理治理平臺設計

1.1總體建設方案概述.......................................................3

1.1.1數(shù)據(jù)治理論述.....................................................5

1.1.2數(shù)據(jù)治理;耀.....................................................8

1.13基礎庫治理步驟...................................................9

1.1.4治理過程產(chǎn)出.......................................12

1.2平臺建設總體設計.....................................................12

1.2.1平臺削理念....................................................13

1.2.2平臺架構謝十....................................................14

1.23平臺技術特點....................................................15

1.3數(shù)據(jù)治理建設方案...............................................16

1.3.1數(shù)據(jù)標準WS......................................................................................................................16

1.3.2元數(shù)據(jù)管理......................................................20

1.33數(shù)據(jù)質量管理....................................................25

1.3.4數(shù)據(jù)集成管理....................................................30

1.4數(shù)據(jù)管理建設方案.....................................................31

1.4.1數(shù)據(jù)資產(chǎn)??....................................................31

1.4.2數(shù)據(jù)異常宣里....................................................44

1.43數(shù)據(jù)架構徵里....................................................47

144數(shù)據(jù)開發(fā)管理....................................................48

1.5數(shù)據(jù)智能建設方案.....................................................54

1.5.1數(shù)據(jù)血緣........................................................54

1.5.2智能標簽........................................................56

1.5.3數(shù)據(jù)探索........................................................58

1.5.4畫像分析........................................................59

1.1總體建設方案概述

數(shù)據(jù)管理平臺涵蓋了數(shù)據(jù)的全局治理和過程管控,是數(shù)據(jù)可用的前提,只有

確保數(shù)據(jù)的標準化、規(guī)范化,可信可用,才能進一步通過數(shù)據(jù)運營、數(shù)據(jù)應用幫

助大數(shù)據(jù)中心實現(xiàn)數(shù)據(jù)資產(chǎn)管理,發(fā)現(xiàn)內部數(shù)據(jù)問題、發(fā)掘數(shù)據(jù)價值,進而實現(xiàn)

數(shù)據(jù)資產(chǎn)的盤活和有效利用。

數(shù)據(jù)管理平臺基于元模型驅動模式,構建一體化的數(shù)據(jù)資產(chǎn)管控,實現(xiàn)全流

程、全生命周期和全景式的〃三全"治理,確保每一份數(shù)據(jù)資產(chǎn)皆可靠、可信、

可用。

通過對數(shù)據(jù)、應用、系統(tǒng)綜合管理,構建標準化、流程化、自動化、一體化

的數(shù)據(jù)管理體系。

數(shù)據(jù)治理將分散、多樣化的數(shù)據(jù)通過匯集、標準化、清洗等操作對數(shù)據(jù)的質

量進行全面的提升和監(jiān)控,形成城市大數(shù)據(jù)的管理和控制機制,并提供一站式數(shù)

據(jù)治理體系,持續(xù)不斷的挖掘和提升數(shù)據(jù)的應用價值。從功能角度,數(shù)據(jù)治理系

統(tǒng)包括數(shù)據(jù)標準管理、數(shù)據(jù)目錄管理、數(shù)據(jù)質量管理、數(shù)據(jù)集成、工作流、數(shù)據(jù)

地圖/數(shù)據(jù)血緣、數(shù)據(jù)管理數(shù)據(jù)安全、多租戶、元數(shù)據(jù)管理、系統(tǒng)安全等功能。

制定相關標準規(guī)范及管理制度,通過相應平臺工具匯聚區(qū)內各單位公共數(shù)據(jù)

及市級落地數(shù)據(jù)資源,形成區(qū)級數(shù)據(jù)池,同時經(jīng)過數(shù)據(jù)清洗、轉換、融合、治理

后高質量的公共數(shù)據(jù)資源,形成區(qū)級綜合數(shù)據(jù)平臺。

數(shù)據(jù)治理系統(tǒng)通過對數(shù)據(jù)全生命周期、端到端的全鏈路透明化管控,實現(xiàn)〃數(shù)

據(jù)模型標準化、數(shù)據(jù)關系脈絡化、數(shù)據(jù)加工可視化、數(shù)據(jù)質量度量化〃,實現(xiàn)數(shù)

據(jù)資產(chǎn)的統(tǒng)一管理及全業(yè)務流程的實時監(jiān)控,有效解決數(shù)據(jù)資源不可知、數(shù)據(jù)質

量不可控、數(shù)據(jù)關系不可聯(lián)、數(shù)據(jù)脈絡不清晰的痛點問題。

數(shù)據(jù)治理就是將數(shù)據(jù)轉化為資產(chǎn)的手段和方法,采用的數(shù)據(jù)治理子系統(tǒng)和工

具,以分布式存儲和運算為基礎,通過人工智能和機器學習技術,輔之以適量的

人工訓練和專家反饋不斷優(yōu)化數(shù)據(jù)理解和數(shù)據(jù)關聯(lián)。數(shù)據(jù)治理子系統(tǒng)給圍繞閔行

區(qū)大數(shù)據(jù)資源平臺的應用建設目標,包含數(shù)據(jù)地圖、數(shù)據(jù)質量、智能監(jiān)控、數(shù)據(jù)

保護傘以及安全衛(wèi)士,提供全面的數(shù)據(jù)治理能力,提供數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)

據(jù)標準化、數(shù)據(jù)轉換、數(shù)據(jù)關聯(lián)、數(shù)據(jù)比對等方面服務。在數(shù)據(jù)打通過程中,同

時做好數(shù)據(jù)質量管理,主要包括四個方面數(shù)據(jù)缺失補缺、數(shù)據(jù)重復去重、數(shù)據(jù)錯

誤糾正、數(shù)據(jù)不可用補救。

數(shù)據(jù)治理子系統(tǒng)通過標準API接口、用戶自主上傳與自主數(shù)據(jù)抽取技術將

用戶內部數(shù)據(jù)直接導入數(shù)據(jù)池,利用全局數(shù)據(jù)處理技術在數(shù)據(jù)池中解決大量數(shù)據(jù)

的集成處理,將數(shù)據(jù)統(tǒng)一整合、集成,最終形成可以提供高質量數(shù)據(jù)的數(shù)據(jù)集成

平臺,提供規(guī)則、無錯漏、清潔、有價值、易使用的集成數(shù)據(jù)環(huán)境。

z-----------------在線服務一予------------------------

/^<[x

(深度學習知識圖譜

數(shù)81特征.tj行業(yè)知識昨?新

事令數(shù)據(jù)湖+人工智能*濟

帚三方崢一-O?@O->但5分析

收據(jù)送解U郵關聯(lián)數(shù)據(jù)II合數(shù)據(jù)安全

IIJ

L----------§§希------------

內部數(shù)據(jù)(含*g)專家少員參與

>數(shù)據(jù)治理流程圖

數(shù)據(jù)治理子系統(tǒng)西寺現(xiàn)有的絕大多數(shù)數(shù)據(jù)格式的導入和識別。通過結合人工

智能技術,數(shù)據(jù)治理系統(tǒng)能夠將數(shù)據(jù)自動識別并抽取存入數(shù)據(jù)湖中,與傳統(tǒng)ETL

不同的是,數(shù)據(jù)治理系統(tǒng)的全局數(shù)據(jù)處理技術在應對多系統(tǒng)、多部門、多環(huán)節(jié)、

多數(shù)據(jù)、多表單的便用場景時更加科學。全局數(shù)據(jù)處理能夠避免在全局數(shù)據(jù)匯總

前的信息流失,最大程度的在完成數(shù)據(jù)集成的同時保持數(shù)據(jù)的高保真、高還原。

1.1.1數(shù)據(jù)治理論述

大數(shù)據(jù)治理工作從數(shù)據(jù)匯聚開始,到最終服務業(yè)務,主要包括以下幾個階段:

大數(shù)據(jù)治理方法論

>

全息檔塞關系中心軌跡中心

離線數(shù)據(jù)實時數(shù)據(jù)I二人一檔.飛機火生13

同伙關系伴隨軌跡

數(shù)據(jù)管理I-II

?器史.,3”?受工產(chǎn)

?kI?0A?

?e?ss?';B4

7*模型治理

基礎政據(jù).數(shù)據(jù)治九斐合收期

資源虎?I.I資源展

IDMapping

為了無法計算的價值ICDWSE

第一階段:數(shù)據(jù)匯聚,融合管理

從政務辦公網(wǎng)、感知網(wǎng)、社會協(xié)同單位收集各類數(shù)據(jù),形成大數(shù)據(jù)中心的數(shù)

據(jù)基礎,并對匯集的原始數(shù)據(jù)開展基于數(shù)據(jù)管理視角和業(yè)務應用視角的治理及應

用工作。

基于數(shù)據(jù)管理視角,對業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)進行集中采集和管理,從站

位全局服務閔行區(qū)大數(shù)據(jù)創(chuàng)新應用的角度梳理大數(shù)據(jù)資產(chǎn),構建數(shù)據(jù)資源目錄和

數(shù)據(jù)資產(chǎn)管理應用,達到數(shù)據(jù)資源的規(guī)范化和可視化;匯聚后的原始數(shù)據(jù)仍處于

零散、不可直接使用的狀態(tài),為數(shù)據(jù)使用者提供一站式的集成開發(fā)環(huán)境,從而滿

足數(shù)據(jù)資源平臺下,數(shù)據(jù)開發(fā)者進行ETL開發(fā)、數(shù)據(jù)挖掘算法開發(fā)、數(shù)據(jù)主題

庫建設等需求;對數(shù)據(jù)融合處理的全過程通過質量管理工具進行管理監(jiān)測,保障

數(shù)據(jù)質量;因政府數(shù)據(jù)的機密性、高敏感性等特點,需對數(shù)據(jù)資源層中各數(shù)據(jù)項

進行安全上的分類分級,確保數(shù)據(jù)使用合理、安全可控。

基于業(yè)務應用視角,對匯聚的基礎數(shù)據(jù)開展模型治理,通過數(shù)據(jù)清洗加工、

基于業(yè)務背景及要求的處理加工、以及面向應用專題場景的開發(fā),依次構建整合

數(shù)據(jù)資源層、主題數(shù)據(jù)資源層、應用數(shù)據(jù)資源層,形成指標口徑一致、統(tǒng)存統(tǒng)用

的大數(shù)據(jù)資源層。

第二階段:基于數(shù)據(jù),提煉抽象信息,形成知識

因政務大數(shù)據(jù)涉及的來源廣泛、數(shù)據(jù)采集背景及方法多樣甚至特殊、復雜,

導致因不同的匯集場景等因素,各個實體對象往往存在多個ID,需要對ID間關

系做計算,通過IDM叩ping,建立ID和實體人/物間的關系,從而串聯(lián)起實體

人/物的屬性/行為信息。數(shù)據(jù)中的各種人/物、事件、活動軌跡也不是孤立存在

的,需要對各個部份的數(shù)據(jù)做動態(tài)關系識別、軌跡匹配等操作,形成統(tǒng)一的關系

庫、軌跡庫等。

基于業(yè)務需求引導和對數(shù)據(jù)資源信息的價值梳理,對數(shù)據(jù)進行進一步提煉加

工和算法計算,將數(shù)據(jù)標簽化,基于"四大庫"構建全息檔案等標簽庫,支撐專

題應用庫建設,并通過標簽中心產(chǎn)品對用戶及開發(fā)者開放。

第三階段:構建應用,服務業(yè)務

按照業(yè)務場景需求,將基礎庫、主題庫和專題庫等進一步組合利用,可構建

起各類業(yè)務創(chuàng)新應用,如監(jiān)控大屏、全息畫像、預警中心等應用。通過數(shù)據(jù)服務

平臺,可以把數(shù)據(jù)和標簽在線服務化提供給開發(fā)者和用戶。

1.1.2數(shù)據(jù)治理流程

部門管理員中心管理員(實施人員)

2同步生產(chǎn)庫數(shù)據(jù)結

構到前置庫

3采集前置庫元數(shù)據(jù)A4標準化前置庫數(shù)據(jù)

1)標準錄入

數(shù)據(jù)治理平臺會包含部分5大庫數(shù)據(jù)標準,行標、部門標準等需由實施人員

從客戶處采集后錄入系統(tǒng)

2)同步數(shù)據(jù)結構

由于數(shù)據(jù)治理過程需采集數(shù)據(jù)元并標準化,故需先將生產(chǎn)庫需橋接庫表的數(shù)

據(jù)結構錄入前置庫

3)元數(shù)據(jù)采集

將數(shù)據(jù)結構采集入數(shù)據(jù)治理平臺

4)標準化

實施人員為采集來的元數(shù)據(jù)掛接數(shù)據(jù)標準,標準化其元數(shù)據(jù)格式屬性、值域

5)落標及數(shù)據(jù)橋接

部門管理員根據(jù)標準化的字段屬性,將生產(chǎn)庫數(shù)據(jù)橋接到前置庫

6)質檢及整改

中心管理員對前置庫數(shù)據(jù)進行質量檢查及整改

7)數(shù)據(jù)集成

中心管理員將質檢后數(shù)據(jù)集成到治理庫

8)邏輯質檢

中心管理員對治理庫的數(shù)據(jù)根據(jù)業(yè)務需求進行邏輯層質量檢查

9)資源掛載

部門管理人員對已完成數(shù)據(jù)治理的治理庫數(shù)據(jù)進行資源掛載

1.1.3基礎庫治理步驟

針對于基礎庫的治理主要流程如下:

eH幽一AT個性化元

>基礎庫準備

基礎物理庫以及基礎庫元數(shù)據(jù)通過產(chǎn)品初始化腳本創(chuàng)建。默認基礎庫模型中

的字段約束,包括字段類型,長度,規(guī)則等參考基礎庫基礎目錄技術規(guī)范,例如

人口庫:

>數(shù)據(jù)集成

以人口庫為例,將前置庫中的部分數(shù)據(jù)和人口數(shù)據(jù)元進行關聯(lián)。

以人口基本信息表單(T_RK_BaseInfo)和人口擴展信息(T_RK_Summary)

為目標,主要驗證:

多個表的數(shù)據(jù)合并:

戶籍人口和流動人口匯集到人口庫基本信息表。

默認字段賦值;

人口基本信息表中的rowguid、personguid需要uuid賦值。

一張表到多張表;

戶籍人口和流動人口匯集到人口庫擴展信息表,并且擴展信息表的

personguid需要與基本信息的personguid一致。

規(guī)則過濾;

自動過濾不滿足身份證校驗的數(shù)據(jù);

自動過濾不滿足代碼項的數(shù)據(jù),其中不滿足部門代碼項的、滿足部門代碼項

但是人口庫中沒有對應的代碼項的數(shù)據(jù)都需要過濾。

代碼項轉換;

性別和名族代碼項,部門代碼項實際值與人口庫代碼項的值不一致的,通過

顯示值進行匹配后自動轉換成人口庫的值。

其他來源的字段更新。

人口基本信息表的死亡標識狀態(tài)由民政局的死亡信息目錄進行更新。需要滿

足條件的才會進行更新。

>溯源分析

通過可視化圖形,展現(xiàn)人口庫和公安、民政等部門的溯源關系。

1.1.4治理過程產(chǎn)出

通過數(shù)據(jù)治理工作后,形成的數(shù)據(jù)治理成果物。

《數(shù)據(jù)標準規(guī)則清生》V--------標準確理、錄入

《數(shù)空調講很告》V--------元數(shù)據(jù)梳理、采集

3g:ra_L1R第十、

《數(shù)憲治理實施瞼收用<--------治理報告

例》一__-

1.2平臺建設總體設計

本項目建設數(shù)據(jù)智能管理平臺適用于分析型系統(tǒng)數(shù)據(jù)處理的各個過程,負責

數(shù)據(jù)的加工處理以及加工處理過程數(shù)據(jù)標準、元數(shù)據(jù)和數(shù)據(jù)質量的管理。平臺可

以提供數(shù)據(jù)輸入、數(shù)據(jù)加工、數(shù)據(jù)輸出和貫穿數(shù)據(jù)處理各個過程的全流程、全生

命周期的數(shù)據(jù)處理、數(shù)據(jù)治理和數(shù)據(jù)管控的一體化建設。

整個平臺對數(shù)據(jù)進行治理、管理與應用的過程分為以下三個核心環(huán)節(jié):

>采集/集成環(huán)節(jié)

提供更多渠道、更復雜數(shù)據(jù)源的采集,包括業(yè)務系統(tǒng)數(shù)據(jù)ETL,外部文件、

第三方接口抽取,實時消息采集等。

>加工/計算環(huán)節(jié)

提供隨時變化的數(shù)據(jù)加工,包括批量數(shù)據(jù)加工,實時交互計算,機器學習等。

>決策/探索環(huán)節(jié)

支持用戶個性化需求、自主數(shù)據(jù)探索,提供固定主題的報表、指標,臨時報

表需求、自助取數(shù),數(shù)據(jù)探索、數(shù)據(jù)實驗等功能。

1.2.1平臺設計理念

本項目建設數(shù)據(jù)智能管理平臺的總體設計理念如下:

>數(shù)據(jù)模型標準化

通過平臺將數(shù)據(jù)模型的要求嚴格落地,杜絕不滿足標準的數(shù)據(jù)模型出現(xiàn)在系

統(tǒng)中。

>數(shù)據(jù)治理產(chǎn)品化

數(shù)據(jù)治理的成果和內容,必須通過切實可行的IT手段落實到系統(tǒng)來嚴格執(zhí)

>數(shù)據(jù)處理工廠化

數(shù)據(jù)處理工作,必須實現(xiàn)工廠化的建謝口管理,以〃極速、低成本、高質量”

要求來響應業(yè)務部門的個性化數(shù)據(jù)需求。

>數(shù)據(jù)運營全員化

體現(xiàn)"平臺化、開放性”的思想,提高數(shù)據(jù)開放的可視化,實現(xiàn)人人參與數(shù)

據(jù)治理、數(shù)據(jù)建設和數(shù)據(jù)運維

>數(shù)據(jù)安全可控化

體現(xiàn)安全的重要性、必要性,保障系統(tǒng)數(shù)據(jù)安全和數(shù)據(jù)服務開放過程中數(shù)據(jù)

的安全可控。

1.2.2平臺架構設計

1.2.2.1總體架構設計

平臺采用工廠化的數(shù)據(jù)處理和管理模式,通過數(shù)據(jù)生產(chǎn)計劃、數(shù)據(jù)生產(chǎn)執(zhí)行

和數(shù)據(jù)生產(chǎn)管理三大子模塊,保障數(shù)據(jù)處理全過程透明可控,實現(xiàn)工具化、流程

化和自動化的開發(fā)、運維、管理,提升數(shù)據(jù)開發(fā)、生產(chǎn)的效率,保持系統(tǒng)健康、

持續(xù)、穩(wěn)定的發(fā)展。

?數(shù)據(jù)生產(chǎn)計劃模塊:主要功能為:需求設計、設計確認等。

?數(shù)據(jù)處理執(zhí)行模塊:負責數(shù)據(jù)處理計劃的執(zhí)行、數(shù)據(jù)的生產(chǎn)和數(shù)據(jù)

質量控制等工作。

?數(shù)據(jù)處理管理模塊:負責軟件開發(fā)和數(shù)據(jù)規(guī)范的管控。

技術架構設計

為實現(xiàn)工廠化的數(shù)據(jù)處理和管理,本項目數(shù)據(jù)智能管理平臺采用基于元數(shù)據(jù)

驅動的開發(fā)模式,保障元數(shù)據(jù)與實際系統(tǒng)情況的一致性,通過元數(shù)據(jù)準確描述系

統(tǒng),指導系統(tǒng)建設。技術架構圖如下:

W

*

*

2

*

呼>

?提供數(shù)據(jù)對象設計功能

?提供元數(shù)據(jù)獲取和管理功能

?提供數(shù)據(jù)質量管理功能

?提供對象化接口模塊

?提供與各類底層平臺對接功能

?提供可視化的標準IDE環(huán)境

?提供基于元數(shù)據(jù)血緣圖的調度功能

1.2.3平臺技術特點

>MetadataBeforeCoding

業(yè)務元數(shù)據(jù)和技術元數(shù)據(jù)的強制性前向獲取機制,杜絕元數(shù)據(jù)的后期補錄,

建設保證業(yè)務元數(shù)據(jù)/技術元數(shù)據(jù)/技術實現(xiàn)這三者一致性的技術機制

>BusinessDrivenDesign

以最大化業(yè)務需求吻合度為目標,所有數(shù)據(jù)對象的設計和實現(xiàn),都必須以業(yè)

務需求為驅動,在最大程度上保證數(shù)據(jù)對象與業(yè)務需求的一致性。

>ObjectOrientedArchitecture

將數(shù)據(jù)、業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)、數(shù)據(jù)加工、數(shù)據(jù)質量檢查等與數(shù)據(jù)相關

的內容統(tǒng)一作為數(shù)據(jù)對象管理起來,且該數(shù)據(jù)對象是系統(tǒng)的最小管理單元。

>TCUPrinciple

數(shù)據(jù)對象必須遵循TCU(TakeCareofYourself)的設計原則,所有與數(shù)

據(jù)有關的工作全部在對應的數(shù)據(jù)對象內部完成,確保數(shù)據(jù)對象之間只有數(shù)據(jù)加工

過程的上下游關系。

1.3數(shù)據(jù)治理建設方案

1?3.1數(shù)據(jù)標準管理

數(shù)據(jù)標準規(guī)范了業(yè)務術語,元數(shù)據(jù),參考數(shù)據(jù),基礎數(shù)據(jù),指標數(shù)據(jù)的規(guī)范

定義、獲取原則、管理要求等。包括設計基礎類和分析類數(shù)據(jù)標準,制定數(shù)據(jù)

標準管理制度和流程,明確數(shù)據(jù)標準管理組織和職責,以明確的組織、職責、流

程設計為前提,調動業(yè)務部門、技術部門和系統(tǒng)技術團隊共同參與數(shù)據(jù)標準設計,

建立全局數(shù)據(jù)標準流程,制定總體落地計劃,推動數(shù)據(jù)標準落地執(zhí)行,增強內部

對數(shù)據(jù)標準的理解,指導信息化建設中對數(shù)據(jù)標準的參照。

13.1.1數(shù)據(jù)標準管理規(guī)范

數(shù)據(jù)標準管理體系主要包含數(shù)據(jù)標準管理、落地實施機制、及數(shù)據(jù)標準管理

平臺維護三部分。

平臺通過對數(shù)據(jù)標準管理、落地實施機制、及數(shù)據(jù)標準管理平臺維護三部分

進行數(shù)據(jù)資源管理,制定數(shù)據(jù)標準管理制度和流程,明確數(shù)據(jù)標準管理組織和職

責,以明確的組織、職責、流程設計。落地實施機制從規(guī)范推廣、技術平臺支撐

兩方面保障;數(shù)據(jù)標準平臺維護主要包括建設數(shù)據(jù)標準技術平臺,支撐數(shù)據(jù)標準

日常管理工作兩方面。

>數(shù)據(jù)標準管理機制設計

設計基礎類和分析類數(shù)據(jù)標準,制定數(shù)據(jù)標準管理制度和流程,明確數(shù)據(jù)標

準管理組織和職責,以明確的組織、職責、流程設計為前提,調動業(yè)務部門、技

術部門和系統(tǒng)技術團隊共同參與數(shù)據(jù)標準設計,建立企業(yè)級數(shù)據(jù)標準流程,制定

總體落地計劃,推動數(shù)據(jù)標準落地執(zhí)行,增強對數(shù)據(jù)標準的理解,指導信息化建

設中對數(shù)據(jù)標準的參照。

>數(shù)據(jù)標準分類規(guī)范

數(shù)據(jù)標準是對數(shù)據(jù)的名稱、含義、結構、取值等{言息的統(tǒng)一定義,達成對數(shù)

據(jù)的業(yè)務理解、技術實現(xiàn)的一致性。

基于數(shù)據(jù)模型理論將數(shù)據(jù)標準延伸至5個分類,涵蓋技術、業(yè)務多個視角。

業(yè)務術語:從一致性、通用性等方面統(tǒng)一業(yè)務術語定義。

數(shù)據(jù)項標準:用來描述實體的某種屬性,包含數(shù)據(jù)項的名稱、編號、別名、

簡述、數(shù)據(jù)項的長度、類型、數(shù)據(jù)項的取值范圍。

參考數(shù)據(jù)標準:浜別參考數(shù)據(jù),并建立參考數(shù)據(jù)的統(tǒng)一標準樣例,使參考數(shù)

據(jù)可在不同系統(tǒng)中被使用而保持統(tǒng)一標準值。

主數(shù)據(jù)標準:主數(shù)據(jù)編碼是應用系統(tǒng)中的重要數(shù)據(jù)類型之一,通常用來描述

業(yè)務操作的具體對象及其特征,注重唯一性,特征一致性,穩(wěn)定性及有效性。

唯一性:在一個系統(tǒng),一個平臺甚至整個范圍內同一主數(shù)據(jù)編碼要求具有唯

一的識別標志(代碼,名稱,特征描述等),用以明確區(qū)分業(yè)務對象,業(yè)務范圍

和業(yè)務的具體細節(jié)

特征一致性:主數(shù)據(jù)在不同系統(tǒng)中,均按統(tǒng)一標準出現(xiàn)

穩(wěn)定性:主數(shù)據(jù)相對穩(wěn)定,本身屬性不會隨交易過程而被修改

有效性:貫穿該業(yè)務對象的全生命周期過程,只要該業(yè)務對象存在,則比數(shù)

據(jù)不會喪失有效性

指標數(shù)據(jù)標準:需要收集指標的管理信息、業(yè)務定義、以及維度定義,需要

兼顧通用性和個性化,個性化方面支持各使用部門個性化定制

>數(shù)據(jù)標準設計規(guī)范

以分析型應用建設和操作型應用集成為導向,兩套方法結合,建立數(shù)據(jù)標準

設計體系

分析型應用建設導向:以分析應用指標范圍為依據(jù),重點結合業(yè)務戰(zhàn)略及管

理要求,自上而下追溯數(shù)據(jù)源,聚焦數(shù)據(jù)標準范圍。

操作型應用集成導向:自上而下的原則,基G實際業(yè)務流程及操作,重點識

別跨業(yè)務、跨流程的集成點及關鍵步驟,分析提煉共享數(shù)據(jù),完成業(yè)務流程和應

用共享的數(shù)據(jù)映射,刪除冗余、非重點數(shù)據(jù),精簡數(shù)據(jù)標準建設范圍。

13.1.2數(shù)據(jù)元管理

數(shù)據(jù)元管理主要包括數(shù)據(jù)元新增、數(shù)據(jù)元導入、數(shù)據(jù)元發(fā)布、數(shù)據(jù)元修改、

數(shù)據(jù)元刪除、數(shù)據(jù)元停用、數(shù)據(jù)元檢索等功能。同時支持數(shù)據(jù)元版本管理及版本

之間的差異核對功能以及支持基于基礎庫、主題庫的元數(shù)據(jù)快速創(chuàng)建標準數(shù)據(jù)元,

并建立和相關元數(shù)據(jù)的關聯(lián)關系。

1.3.13標準代碼配置

標準代碼配置支持代碼的分類、標準代碼項的新增、導入、導出功能,提供

了標準代碼維護的能力;可關聯(lián)到國標、地標代碼字典,為數(shù)據(jù)的規(guī)范性提供了

更加詳細的描述,為后續(xù)的數(shù)據(jù)質量、數(shù)據(jù)標準等工作提供支撐。

標準數(shù)據(jù)元具有唯一的編碼(標準代碼),按照實際的業(yè)務領域進行分類之

后,可以形成帶有業(yè)務領域特征的相關編碼,比如"FR00001"代表法人相關

的數(shù)據(jù)元標準代碼。

可關聯(lián)到國標、地標

代碼字典

13.1.4常用規(guī)則配置

數(shù)據(jù)元的值有部分需要滿足固定格式的標準,治理過程中需要通過固定的值

組成規(guī)則來規(guī)范數(shù)據(jù)源值的格式,例如身份證、電話號碼、電子郵箱等格式。包

括通用規(guī)則及各部門根據(jù)自身需求實際制定的規(guī)則,常用規(guī)則配置會針對公共數(shù)

據(jù)的特性內置部分常用的規(guī)則,同時提供了規(guī)則的配置修改能力。

1?3.2元數(shù)據(jù)管理

按照數(shù)據(jù)整合的層次結構、主題域劃分,需要實現(xiàn)各層的各種對象,如表、

存儲過程、索引、數(shù)據(jù)鏈、函數(shù)和包等的管理。清晰的表示各層次結構之間的數(shù)

據(jù)流程、各對象之間的關系,以及向外提供的各類數(shù)據(jù)服務的信息。

13.2.1元數(shù)據(jù)管理目標

元數(shù)據(jù)建設以服務項目管控需要為出發(fā)點,立足于項目建設實際,通過合理

規(guī)劃和全面分析,以項目中的關鍵點和問題點作為優(yōu)先和重點突破方向,實現(xiàn)元

數(shù)據(jù)的逐步演進和完善。

13.2.2元數(shù)據(jù)管理內容

元數(shù)據(jù)內容涉及到整個大數(shù)據(jù)資源平臺的各個數(shù)據(jù)環(huán)節(jié),包括數(shù)據(jù)采集、逐

層加工稽核,數(shù)據(jù)服務到最終應用展現(xiàn)的處理,元數(shù)據(jù)管理貫穿了整個流程,并

與各環(huán)節(jié)實現(xiàn)有效互動。

元數(shù)據(jù)管理分類

按照元數(shù)據(jù)的定義分類,綜合價值分析系統(tǒng)元數(shù)據(jù)管理分為業(yè)務元數(shù)據(jù)、技

術元數(shù)據(jù)、管理元數(shù)據(jù)三類。其中:

(1)業(yè)務元數(shù)據(jù)

?使用者的業(yè)務術語所表達的數(shù)據(jù)模型、對象名和屬性名;

?訪問數(shù)據(jù)的原則和數(shù)據(jù)來源;

?系統(tǒng)所提供的分析方法及公式、報表信息;

?對業(yè)務元數(shù)據(jù)來源的管理和差異性對比;

(2)技術元數(shù)據(jù)

?系統(tǒng)結構的描述(各個主題的定義,星型模式或雪花型模式的描述定義

等);

?整合數(shù)據(jù)層的機構單位的數(shù)據(jù)模型描述(以描述關系表及其關聯(lián)關系為

形式);

?對數(shù)據(jù)稽核規(guī)則的定義、匯總數(shù)據(jù)層模型描述與裝載描述(包括維度、

層次、度量以及相應事實表、概要表的抽取規(guī)則);

(3)管理元數(shù)據(jù)

系統(tǒng)內部用戶的數(shù)據(jù)處理操作規(guī)則,包括抽取、轉換、加載、匯總等各類操

作的用戶權限、操作時間窗管理、異常處理規(guī)則等;

外部訪問用戶(主要針對該系統(tǒng)對外提供的數(shù)據(jù)服務)的操作規(guī)則和方式,

包括所提供的數(shù)據(jù)服務接口、數(shù)據(jù)訪問方式、操作;

各類用戶的操作記錄日志,包括操作用戶、登錄方式、操作對象、持續(xù)時間、

操作類型等相關信息。

13.2.4元數(shù)據(jù)管理組織

為了保障元數(shù)據(jù)管理目標的順利達成,需要從組織架構層面建立專業(yè)的元數(shù)

據(jù)管控組織予以保障,確保元數(shù)據(jù)管控要求得以落實、制度得以執(zhí)行。

13.2.5元數(shù)據(jù)管理流程

元數(shù)據(jù)維護管理流程是以需求提出作為開始,經(jīng)歷規(guī)劃設計、開發(fā)實施、需

求驗收等項目階段的元數(shù)據(jù)建立和校驗,最后實現(xiàn)元數(shù)據(jù)的發(fā)布和運維管理。在

這些階段中,元數(shù)據(jù)管控組負責元數(shù)據(jù)信息的全生命周期流程的管理和監(jiān)控。

元數(shù)據(jù)管理功能

元數(shù)據(jù)管理包括元數(shù)據(jù)基礎數(shù)據(jù)管理和元數(shù)據(jù)應用,由元數(shù)據(jù)自動獲取、元

數(shù)據(jù)檢索、數(shù)據(jù)模型管理、元數(shù)據(jù)管理、血緣關系等功能組成等。

灶格式文件導出訪問實時API網(wǎng)用

層WEBSERVICE

技術元數(shù)摑,一倉庫像市元數(shù)苴

業(yè)業(yè)務木語/描述/規(guī)則管職責:斕

務理

層元業(yè)務指標元數(shù)據(jù)管理要求數(shù)據(jù)源接口元數(shù)據(jù)門戶朝元數(shù)據(jù)

數(shù)

維度數(shù)熨數(shù)熨操作日志數(shù)據(jù)封裝元數(shù)據(jù)數(shù)據(jù)質限元數(shù)據(jù)

&

元數(shù)據(jù)元數(shù)據(jù)

自動獲取篦理外部文件導入

自動獲取SQLMP本自動解析手工聯(lián)取手工錄入

>元數(shù)據(jù)管理功能架構

>元數(shù)據(jù)自動獲取

對元數(shù)據(jù)獲取數(shù)據(jù)源以及這些數(shù)據(jù)源之間的關系進行集中登記管理,并形成

自動獲取數(shù)據(jù)源的全局視圖,實現(xiàn)元數(shù)據(jù)自動獲取數(shù)據(jù)信息。

要實現(xiàn)兀數(shù)據(jù)的自動獲取,需要在集成的兀數(shù)據(jù)平臺中配置自動獲取策略和

調度時間等,使元數(shù)據(jù)能夠按預設的調度策略觸發(fā)相應的元數(shù)據(jù)自動獲取過程,

滿足元數(shù)據(jù)自動獲取的時效性。

調度策略包括時間周期觸發(fā)、事件觸發(fā)兩種方式。例如,在每周星期一凌晨

00:00到01:00之間觸發(fā)數(shù)據(jù)資源平臺元數(shù)據(jù)的自動獲取過程,或者在數(shù)據(jù)處理

程序更新后12小時內觸發(fā)相應的映射關系元數(shù)據(jù)自動獲取過程。

>元數(shù)據(jù)維護

包括元數(shù)據(jù)的定義、變更及版本管理,對主機信息、數(shù)據(jù)庫信息、用戶信息、

數(shù)據(jù)對象信息、業(yè)務規(guī)則信息、加工邏輯等進行維護和管控。

>元數(shù)據(jù)掃描

支持以手動或定時的方式掃描指定的數(shù)據(jù)庫資源,并提取和解析相關的信息

在比較掃描數(shù)據(jù)和原有數(shù)據(jù)的差異后自動將差異數(shù)據(jù)維護到指定的元數(shù)據(jù)目錄。

>元數(shù)據(jù)檢索

在元數(shù)據(jù)管理首頁用戶通過輸入關鍵字后,系統(tǒng)采用全文檢索的方式迅速查

找和關鍵字匹配的權限范圍內的元數(shù)據(jù)信息,并將信息返回給用戶。用戶能夠通

過展示的路徑信息快速定位到元數(shù)據(jù)組織樹上的節(jié)點。

>元數(shù)據(jù)版本

版本管理分為元數(shù)據(jù)對象版本管理與基線版本管理兩種類型。

元數(shù)據(jù)對象版本:對元數(shù)據(jù)的每次提交形成版本(上一版本形成歷史版本),

提供歷史版本間,歷史版本與當前版本對比功能;

基線版本,對某一階段產(chǎn)生的元數(shù)據(jù)對象形成數(shù)據(jù)集,提供不同階段產(chǎn)生的

數(shù)據(jù)集的版本比較

>權限管理及查詢

統(tǒng)一實現(xiàn)數(shù)據(jù)庫的訪問和操作管控,對用戶進行角色權限、對象權限、數(shù)據(jù)

權限等方面的管控和查詢;

>元數(shù)據(jù)的導入/導出

在系統(tǒng)層面實現(xiàn)元數(shù)據(jù)的導入/導出功能,以保證數(shù)據(jù)模型、數(shù)據(jù)對象能夠

靈活的遷移,支持模型間的檢查和比對,以便于數(shù)據(jù)模型的維護和擴展。

1.3.3數(shù)據(jù)質量管理

數(shù)據(jù)質量管理主要包含對數(shù)據(jù)完整性、準確性、鮮活性、權威性的分析和管

理,并對數(shù)據(jù)進行跟蹤、處理和解決,實現(xiàn)對數(shù)據(jù)質量的全程管理,提高數(shù)據(jù)的

能夠提供規(guī)則配置、質量監(jiān)控、問題處理等功能,及時發(fā)現(xiàn)并分析數(shù)據(jù)質量

問題,不斷改善數(shù)據(jù)的使用質量,從而提升數(shù)據(jù)的可用性,挖掘數(shù)據(jù)更大的價值。

質量模型配置

數(shù)據(jù)質量分析的基本單元,一個質量模型由可以由一套實體表、一套規(guī)則以

及多套質檢方案組成,用戶在定義質檢方案時,可以根據(jù)業(yè)務需要選擇實體表和

規(guī)則,方案與方案之間相互獨立,互不干擾。通過執(zhí)行模型下的質檢方案,可以

得到用戶關心的數(shù)據(jù)質量分析結果,如問題數(shù)據(jù)明細信息、數(shù)據(jù)質量分析結果等。

基仁等元

13.3.2質量規(guī)則管理

數(shù)據(jù)質量規(guī)則是數(shù)據(jù)質量審核的邏輯校驗標準,是數(shù)據(jù)質量監(jiān)控管理的基礎。

系統(tǒng)支持多種規(guī)則類型,提供了全方位的視角來為用戶解析數(shù)據(jù)質量。一套

規(guī)則能在多套方案中復用,在保證多角度準確數(shù)據(jù)質量分析的前提下,大大減少

了用戶投入的精力與時間,為用戶提供了一種靈活而全面的數(shù)據(jù)質量分析方式。

系統(tǒng)包括以下質量規(guī)則:

>空值檢查

空值檢查用于檢查關鍵字段非空

A值域檢查

值域檢查用于檢查關鍵字段的取值范圍,支持數(shù)值型、字符型、日期型字段

檢查

>規(guī)范檢查

規(guī)范檢查用于檢查指標值的格式是否規(guī)范,支持身份證、手機號碼、郵箱、

日期等多種數(shù)據(jù)類型的檢測,支持自定義正則表達式

>邏輯檢查

邏輯檢查用于檢查指標之間是否滿足一定的邏輯關系

>重復數(shù)據(jù)檢查

重復數(shù)據(jù)檢查用于檢查表內是否有重復數(shù)據(jù)。

規(guī)則算法:groupby重復依據(jù)字段,count(l)>l的算重復

>及時性檢查

及時性檢查,用于檢查數(shù)據(jù)的及時性,衡量數(shù)據(jù)抽取或數(shù)據(jù)上報是否及時。

規(guī)則算法:算出上報時間字段的值,如果沒寫上報時間表達式,則最佳上報

時間都是以下一期的第一天做為參照依據(jù),再將上報時間與最佳上報時間做為比

較,看是否在允許誤差最大天數(shù)范圍內

>缺失記錄檢查

記錄缺失檢查用于判斷記錄是否完整,是否缺少數(shù)據(jù)行。根據(jù)比照表字段檢

查目標字段是否缺少數(shù)據(jù),檢查實體表字段與比照字段的數(shù)據(jù)量、數(shù)值是否完全

一致。

規(guī)則算法:對檢查表字段和比照字段進行groupby并求count,根據(jù)兩個

字段groupby的結果來outerjoin,count不相等或檢查字段值和比照字歿值

有一個為空時,此行結果都算錯

>引用完整性檢查

引用完整性檢查用于判斷實體表中的數(shù)據(jù)是否完全存在于比照表中。實體表

檢查字段中的數(shù)據(jù)必須全部存在于比照表的比照字段中。

規(guī)則算法:實體表的檢查字段關聯(lián)distinct后的比照表的字段,關聯(lián)后,如

果比照字段為空,則檢查字段的值非來源于比照表,則該規(guī)則對應結果為false

13.3.3方案配置調度

依據(jù)質量規(guī)則執(zhí)行的實際治理需求,通過圖形化界面配置多種質檢規(guī)則組成

可執(zhí)行方案,依據(jù)執(zhí)行規(guī)則管控平臺自動執(zhí)行質量規(guī)則檢查。質量規(guī)則執(zhí)行觸發(fā)

方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式,并且在控制

臺可以查看質檢方案執(zhí)行歷史,對數(shù)據(jù)質檢全流程進行管控。

I規(guī)則顏分類說明I

fflWRASAWW則咬掰ttttSQU湎

艇錄百麻第財姓隊艇的1*5

否不在封潛忌uUct?fromAubblwhoefWd1icnul

表含義E*

儂乂了帆

/PWdl.Wd2.fW3.count(,)fromA.utte1

filSMT能■舔膜寺19諼,炳一

groupbyfie<d1,fieid2.fieW3

個MBR喬漢

having<oumH>1

selecttength^tm;fromA.UHe1

is也即*e張assas總限

wherelength僧嗤?閨<>10

三蟲的統(tǒng)被近獐*藻,淚

京ie<ect*fromwhereWdlnothfl,.X))

C?5180.

select*fromAtaWelwherefledlnotE(

18槌班錐晤1鱷猊頻創(chuàng)汽selectcodefromftS#

)

S'ffEsns18梯切陪1S石賓緲江Wselect*fromAlabawherefieW1<0

>界面配置

通過圖形化界面配置多種質檢規(guī)則組成可執(zhí)行方案,通過界面進行數(shù)據(jù)傳參。

>觸發(fā)方式

質量規(guī)則執(zhí)行觸發(fā)方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等

執(zhí)行方式。

>全流程管控

固定時間監(jiān)控業(yè)務系統(tǒng)運行的各類數(shù)據(jù),及時發(fā)現(xiàn)并整改數(shù)據(jù)異常,完善系統(tǒng)運

行機制。

13.3.4質檢結果查看

基于質檢方案執(zhí)行過程,反饋每次質檢產(chǎn)生的異常數(shù)據(jù),根據(jù)問題數(shù)據(jù)所配

置的規(guī)則提供問題詳情、比對及整改重檢的能力。結合實際可執(zhí)行和可實現(xiàn)的原

則,分析系統(tǒng)存在的數(shù)據(jù)質量問題:

>分析與檢測

著重于在數(shù)據(jù)的定義基礎上,利用數(shù)據(jù)的邏輯和業(yè)務規(guī)則度數(shù)據(jù)質量進行檢

測和分析。

>整改與重建

著重與在數(shù)據(jù)的分析和檢測基礎上,利用起結果對數(shù)據(jù),特別是源數(shù)據(jù)的數(shù)

據(jù)管理提出整改意見,重建數(shù)據(jù)質量的管理能力。

具體系統(tǒng)方案如下:

13.3.5質檢分析報告

基于質檢方案及質檢結果,對每次質檢的檢查數(shù)、問題數(shù)、整改數(shù)等進行統(tǒng)

計,形成統(tǒng)計圖。支持按日、按月統(tǒng)計及柱狀圖、折線圖。

1.3.4數(shù)據(jù)集成管理

數(shù)據(jù)集成主要在數(shù)據(jù)治理平臺承擔數(shù)據(jù)管道作用,通過數(shù)據(jù)集成現(xiàn)實不通業(yè)

務數(shù)據(jù)的匯聚、數(shù)據(jù)中心基礎庫的清洗等流程,通過在線簡單靈活的可視化頁面

針對不同的數(shù)據(jù)匯聚、清洗流程進行配置建立,平臺直接對接調度底層的數(shù)據(jù)傳

輸工具進行數(shù)據(jù)管道的打通;實現(xiàn)了數(shù)據(jù)集成建模與數(shù)據(jù)集成匯聚快速、高效流

轉的全過程。

13.4.1數(shù)據(jù)建模配置

提供數(shù)據(jù)集成中數(shù)據(jù)單元集模型配置,數(shù)據(jù)模型即為數(shù)據(jù)集成中的數(shù)據(jù)單元

集。

13.4.2集成方案管理

根據(jù)實際數(shù)據(jù)集成需求,系統(tǒng)提供了統(tǒng)一的集成方案配置,集成方案可以通

過構建的數(shù)據(jù)模型實現(xiàn)多維度的數(shù)據(jù)匯聚、清洗等數(shù)據(jù)處理流程,解決了公共數(shù)

據(jù)中大量的數(shù)據(jù)梳理處理工作,大大減少了人工對數(shù)據(jù)對比、校準、映射等繁雜

的工作,同時實現(xiàn)數(shù)據(jù)在前置庫、基礎庫等之間的快速匯聚能力。

支持數(shù)據(jù)匯聚(來源表全表到目標表)、更新(基于目標表主鍵從不同來源

獲取所需字段)及全量、增量功能。同時,數(shù)據(jù)集成過程中,支持不同元數(shù)據(jù)代

碼項之間的映射轉換功能,基本的數(shù)據(jù)格式驗證以及任務調度配置。

1.3.43數(shù)據(jù)來源統(tǒng)計

用于統(tǒng)計集成模型中所有數(shù)據(jù)的來源方向以及各庫表、各字段的精確來源,

并且提供基于領域的快速篩選

1.4數(shù)據(jù)管理建設方案

1.41數(shù)據(jù)資產(chǎn)管理

數(shù)據(jù)資產(chǎn)管理平臺主要負責對數(shù)據(jù)資產(chǎn)進行統(tǒng)一注冊和管理,實現(xiàn)數(shù)據(jù)資產(chǎn)

體系化管控。主要包括數(shù)據(jù)資產(chǎn)注冊管理、數(shù)據(jù)資產(chǎn)分類管理、數(shù)據(jù)資產(chǎn)查詢、

數(shù)據(jù)地圖、數(shù)據(jù)資產(chǎn)分析、數(shù)據(jù)資產(chǎn)版本管理、數(shù)據(jù)資產(chǎn)變更管理、資產(chǎn)運行審

計管理、資產(chǎn)統(tǒng)計分析,接口管理、數(shù)據(jù)質量等功能。

數(shù)據(jù)資產(chǎn)注冊管理

平臺提供數(shù)據(jù)源管理、數(shù)據(jù)資產(chǎn)注冊管理、數(shù)據(jù)資產(chǎn)注冊審核、生成數(shù)據(jù)庫

管理等功能。提供采集器、在線維護、自動注冊接口等方式來注冊數(shù)據(jù)資產(chǎn)。

>數(shù)據(jù)源管理

平臺提供對數(shù)據(jù)源注冊管理的功能,主要是對數(shù)據(jù)提供者所在數(shù)據(jù)庫、

Hadoop庫的注冊管理。

1)數(shù)據(jù)庫注冊管理,主要負責數(shù)據(jù)庫基本信息的注冊配置,包含但不限于

以下內容:

?數(shù)據(jù)庫類型

?數(shù)據(jù)庫版本

?數(shù)據(jù)庫服務IP

?數(shù)據(jù)庫服務端口

?數(shù)據(jù)庫SID

?數(shù)據(jù)庫表空間

2)Hadoop庫注冊管理,主要負責Hive庫基本信息、HDFS文件信息的

注冊配置,包含但不限于以下內容:

?HIVE數(shù)據(jù)庫服務IP

?HIVE數(shù)據(jù)庫服務端口

?HDFS文件系統(tǒng)服務IP

?HDFS文件系統(tǒng)服務端口

>數(shù)據(jù)資產(chǎn)注冊管理

平臺提供對數(shù)據(jù)資產(chǎn)注冊管理的功能,主要包括對表、視圖、序列、文

件、ETL過程、Hadoop等進行注冊管理。

1)業(yè)務系統(tǒng)信息收集與資產(chǎn)注冊,包含但不限于以下內容:

?業(yè)務系統(tǒng)名稱

?業(yè)務系統(tǒng)描述

?業(yè)務系統(tǒng)服務IP

?業(yè)務系統(tǒng)服務端口

2)數(shù)據(jù)庫信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?數(shù)據(jù)庫類型

?數(shù)據(jù)庫版本

?數(shù)據(jù)庫服務IP

?數(shù)據(jù)庫服務端口

?數(shù)據(jù)庫SID

?數(shù)據(jù)庫表空間

3)表結構信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?表名稱

?表中文名稱

?業(yè)務信息描述

?表結構定義

?表數(shù)據(jù)處理邏娼

4)視圖信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?視圖名稱

?視圖中文名稱

?業(yè)務信息描述

?視圖結構定義

5)字段信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?字段名稱

?字段中文名稱

?字段詳細描述

?字段類型定義

6)指標信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?指標名稱

?指標中文名稱

?指標業(yè)務描述

?指標統(tǒng)計口徑

?指標統(tǒng)計周期

7)報表信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?報表名稱

?報表中文名稱

?報表業(yè)務描述

?報表格式

?報表統(tǒng)計周期

8)hadoop平臺信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?Hadoop集群名稱

?Hadoop集群描述

?Hadoop集群主節(jié)點IP

?Hadoop集群從節(jié)點IP

9)hadoophive庫表信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?Hive數(shù)據(jù)庫服務IP

?Hive數(shù)據(jù)庫服務端口

?Hive表名稱

?Hive表中文名稱

?Hive表業(yè)務描述信息

?Hive表結構定義

10)ETL過程信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?ETL作業(yè)名稱

?ETL作業(yè)業(yè)務描述信息

?ETL過程處理邏輯

?ETL作業(yè)運行周期

?ETL來源表名稱

?ETL來源文件路徑

?ETL目標表名稱

?ETL目標文件路徑

11)文件接口信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?接口文件名稱

?接口文件業(yè)務描述信息

?接口文件路徑

?接口文件大小

?接口內容與表字段映射關系

12)OLAP信息采集與資產(chǎn)注冊;

13)webservice接口信息采集與資產(chǎn)注冊,包含但不限于以下內容:

?webservice接口名稱

?webservice接口描述

?webservice接口負責人

>數(shù)據(jù)資產(chǎn)注冊審核

平臺提供對數(shù)據(jù)資產(chǎn)注冊的審核功能,通過在平臺中定義數(shù)據(jù)資產(chǎn)的相

關命名規(guī)范,可實現(xiàn)對數(shù)據(jù)資產(chǎn)的自動審核,主要包括對表/視圖、文件等數(shù)據(jù)

資產(chǎn)進行審核分析。當數(shù)據(jù)資產(chǎn)命名不符合規(guī)范時,平臺會提示錯誤信息,并阻

止資產(chǎn)的注冊操作,當數(shù)據(jù)資產(chǎn)命名審核通過后,交由相應的審核人進行審核,

保障數(shù)據(jù)資產(chǎn)的完整和規(guī)范性。

IXP.9

*???*

bawycrsx

科”機a化

sxwQWA_GRP_AR£A_riCOMEqTMIW@SH,D

3,:;:

rniM及

uHltfil

.sat?c?*9中文名除字收mMRS”?值?長字展改發(fā)ffW

.作業(yè)比乂GROUP.?7ARCMIRho

rtMMJg

GRP_AREA_OBW

flmrUoB

CRP_0<ST_O?MWT

富體企幺

U?<6YARCK?A

CTFER.rer.io7ARCMAR

黛sew淵陽

-ZSttS------------------------------------OFER.

|力總尹M㈤.ST依T_D7E

ttty*心SY9Y.WAJD£瑜,”

t?W0用3TmT/CC.FEE

k重?世EI?_CRP_AREA_O

its雷”用EIO.ACC.FEE

emenCn£ATE_DATEDATE

晟西今年IH?啥_YEAR_NtWSUM.LWT

工術SOL

"Iutyn??vuWM5,KM

XOfQ0+。QCttHKtfiimciM

13mor?

■收■博引IC和SMIW量不?日

”我開f評收不開。㈱射豪中孑?4時*)?臭顫NXbF£K>AD3E

收【不稈含版射¥粒?文?電含加向力-英文WIU用包含MEtatLST依JDATE

A生成數(shù)據(jù)庫管理

平臺可基于數(shù)據(jù)資產(chǎn)(表),通過在平臺中指定生成表的數(shù)據(jù)庫及表空

間寄言息后自動生成相應數(shù)據(jù)庫的建表腳本并在數(shù)據(jù)庫中生成數(shù)據(jù)表,如下圖所

示:

表結構(tableEntity)

y啟用實體定義

SHGRP,DWA_GRP_PROD_INFO_FEE_@yy)^WM@DB2▼、賴―從庫中讀取

MySQL

訪高級設矍!

DB2

實體定義根據(jù)數(shù)據(jù)庫類型自動生成相應的建表腳本Hive

x##aaOracle

中文名稱字段說明可為空字段名i據(jù)類型主用£

集團標識▲

?GROUPJD_______________V_A_R__C_HARB

用戶標識VUSERJD\iRCH-R匚

集團產(chǎn)3月秀標識?GROUP_PROD_ITEM_DBIGINTJE

策劃標識OFFERJDBIGINT□

策劃實例標識,OFFERJNSTJDVARCHAR

II—

瞇單費用項編碼“ITEM.CODEBIGINT□

客戶揚理標識MANAGERJDBIGINT▼

n--?

4?

createtableSHGRP.DWA_GRP_PROD_INFO_FEE_201512(

GROUPJDVARCHAR(50).

USER_6VARCHAR(20).

GROUP_PRODJTEM_IDBIGINT,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論