版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
EasyData網易數帆是網易旗下ToB企業(yè)服務品牌,定位于數字化轉型技術與服務提供商,依托網易20余年互聯網技術積累,推出三大數字生產力模型,幫助企業(yè)發(fā)展軟件生產力、數據生產力、智慧生產力,沉淀企業(yè)數字資產,為企業(yè)數字化轉型提質增效。目前,網易數帆已服務工商銀行、興業(yè)銀行、華泰證券、東北證券、中信證券、平安產險、格力、OPPO、一汽解放、吉利集團、華能集團、南方電網、浙江電信、德邦快遞、九州通、名創(chuàng)優(yōu)品、科沃斯、溫氏集團等300余家行業(yè)頭部企業(yè)。網易數帆旗下大數據產品線基于十多年數據技術積淀,以全面的技術及產品服務企業(yè)“看數”、“管數”、“用數”等業(yè)務場景,盤活企業(yè)數據生產力,助力企業(yè)人人用數據,時時用數據,推動企業(yè)數據生產力躍遷,全面釋放數據價值。 打造領先數據生產力著力各行業(yè)實踐深耕屢次獲評Gartner數據分析代表廠商、數據中臺領域標桿廠商、CloudABI領域標桿廠商200+40+擁有大數據技術授權專利40余項 數據服務榮譽資質數據開發(fā)治理平臺EasyDataEasyData是網易數帆基于數據生產力方法論打造的一站式數據開發(fā)治理平臺,在業(yè)內首先提出并實現開發(fā)治理一體化。強調可持續(xù)集成、可持續(xù)交付、可持續(xù)部署的DataOps數據開發(fā)能力,提供數據集成、數據開發(fā)、任務運維等產品。結合包括元數據管理、數據標準、指標系統(tǒng)、數據建模等在內的DataFusion數據治理能力,聚焦企業(yè)數字化轉型,深挖數據價值,提升企業(yè)數 數據產品數據產品數據門戶決策引擎可視化報表數據門戶決策引擎可視化報表數據大屏標準發(fā)布數據標準數據元數據字典數據分類指標關聯指標系統(tǒng)原子派生標準發(fā)布數據標準數據元數據字典數據分類指標關聯指標系統(tǒng)原子派生版本管理指標字典數據質量中心稽核監(jiān)控質量報告強弱規(guī)則質量工單數據治理360價值分析成本分析量化ROI數據下線安全中心數據脫敏安全登記敏感識別權限申請數據目錄數據目錄數據檢索資產門戶數據血緣數據資產地圖元數據采集云數據注冊元數據掃描元數據發(fā)布模型設計中心維度建模量化評估規(guī)范設計發(fā)布審核數據服務API發(fā)布服務編排服務權限服務監(jiān)控數據開發(fā)離線開發(fā)實時開發(fā)任務運維中心離線開發(fā)實時開發(fā)任務運維中心數據傳輸大數據基礎平臺NDH 基于DataOps的數據開發(fā)底座數據開發(fā)基于DataOps打造的開發(fā)流水線,將數據開發(fā)劃分成編碼、編排、測試、代碼審查、發(fā)布審核、部署上線六個階段,通過不斷的持續(xù)集成、持續(xù)交付、持續(xù)部署,滿足敏捷交付的情況下,確保數據的高質量的03構建業(yè)界首個面向數據中臺的模型設計度量標準,讓企業(yè)更好地了解自身中臺的搭建情況,避免煙囪式地開發(fā)02構建“物理分散,邏輯統(tǒng)一”的數據中臺體系,解決企業(yè)數據孤島問題,將企業(yè)散落在各個子數據系統(tǒng)中的數 04 05元數據管理系統(tǒng)可對業(yè)務元數據、技術元數據、管理元數據進行統(tǒng)一的采集、注冊和發(fā)布。同時,將元數據和標準、質量、安全、模型等子產品進行打通,豐富元數07一站式自助數據服務功能,通過可視化配置方式生成API,降低使用人員門檻;通過權限、熔斷、限流等技術保障數據安全的同時,能夠使不同應用可以共享API,解決了API開發(fā)效率低、交付周期長、復用性差 06基于ROI模型的數據價值分析,沉淀企業(yè)資產通過對存儲和計算資源的深入盤點,幫助企業(yè)了解當前資產的利用情況以及資源成本;通過數據資產的360,從6個維度了解資產的健康程度,關注資產每日的健康變化?;赗OI的數據資產實踐,能夠幫助企業(yè)發(fā)現有 08與有數BI全鏈路協同,數據中臺業(yè)務價值最指標/模型“端到端”統(tǒng)一,開箱即用,消除數據二義性,提高看數用數、數據輔助決策的效率和質量;通過數據中臺實現BI產品的數據智能緩存,高峰期秒級看報人人數據開發(fā)基于數據生產力方法論DataOps,EasyData強調可持續(xù)集成、可持續(xù)交付、可持續(xù)部署,融合了數據集成、數據開發(fā)、數據測試、任務運維一整套數據研發(fā)體系,旨在幫助數據開發(fā)人員能夠在保證0用于多種異構數據源之間的數據交換,可實現各部門業(yè)務數據在應用層面的互聯互通和信息共享。數據傳輸采用分布式的架構, 數據來源關系型數據庫NoSQL大數據存儲半結構化存儲消息隊列本地文件EXCEL/CSV/TXT/LOG渠道策略渠道策略并發(fā)流量控制臟流量控制數據脫敏數據去向數據去向關系型數據庫NoSQL大數據存儲半結構化存儲消息隊列來源表結構變更策略特殊字符替換 數據傳輸使用插件化擴展機制,對新的數據源具備強大的擴展能力,目前已支持涵蓋關系型據存儲、半結構化存儲、NoSQL、消息隊列類型的20+種數據源的讀寫任意組合。針對增量抽取、分庫分表、整庫同步、數據脫敏等經典場景均提供了解決方案,通過簡單的界用戶使用數據、配置相關的傳輸任務都需要獲取相應的權限后才能操作。開發(fā)與生產環(huán)境隔數據傳輸底層采用Spark計算框架,可以充分利用集群資源橫向擴展并行度,輕松面對海量數據場景。 使用前VS使用后基于Sqoop的離線同步任務,存在開發(fā)新數據源難度高、任務配置需要添加的參數多、難以封裝等問題基于spark的數據同步任務相較于Sqoop資源消耗更少,運行同樣數量的任務,只需要耗時一半的時間,提升50%。此外,離線傳輸使用spark作為底層計算引分庫分表批量抽取場景:企業(yè)各地分公司的業(yè)務數據照公司的統(tǒng)一格式存儲在各自獨立的業(yè)務系統(tǒng),并定入總公司指定的數據庫用于后續(xù)經營分析。各分公司務數據庫的數據特征為:數據源類型相同、ip不同、庫表名稱符合特定規(guī)律、表結構一致。在此場景下,如果抽取各分公司表結構相同的業(yè)務表時,需要重復創(chuàng)建個僅數據源名稱不同的傳輸任務,極大影響了開發(fā)人針對此類場景抽象出了模板任務的產品化解決方案,參數表示實體信息,構建模板任務,只需配置一次即作為EasyData的基礎模塊,提供高效穩(wěn)定的數據實時同步能力?;贔linkCDC插件二次開發(fā),能夠實時捕獲數據變更,并將復雜的配置邏輯封裝為簡單直白的向導式操作界面,降低開發(fā)成本,支持單表對單表、多表對單表、多表對多表的實時同步應用 數據來源關系型數據庫MySQLOracleSQLServerPostgreSQLDB2消息隊列KafkaReadChangeLog通道策略通道策略并發(fā)流量控制字段映射臟數據處理自定義表達式轉化來源表結構變更感知數據去向數據去向關系型數據庫MySQLOracleSQLServer消息隊列Kafka數據湖ArcticvIceberg 基于FlinkCDC插件二次開發(fā),支持豐富數據源的實時同步實時數據傳輸基于FlinkCDC插件二次開發(fā),使用插件化擴展機制,對新的數據源具備強大的擴展能力,目深度集成多種Offset策略,通過參數配置可實現基于時間或文件選擇不同位點進行采集,靈活多變。源端實現采集、解析源表DDL,自動與目標Kafka的邏輯表自動進行字段映射與匹配,省去手動配置的繁支持全量初始化采集方式,無需額外配置任務持全量初始化采集方式,先采集歷史全量數據之后自動開始采集增量數 使用前VS使用后大量原始數據堆積在業(yè)務系統(tǒng)底層,不同數據庫類型采采用FlinkCDC插件在整個Flink引擎下實現對主流數據庫的采集,統(tǒng)一插件設計框架,參數配置簡單易懂。平臺封裝圖形化界面,降低上手門檻,實現統(tǒng)一運維管同樣的CRM、ERP系統(tǒng)數據分布在不同數據中心,同部分業(yè)務表每天都會產生大量新數據和歷史變更數據,每天需要同步更新后數據,且表不存在數據過濾索引。如果每天使用離線傳輸全量同步存在兩個問題:1.耗時長,2.對源庫性能壓力大。實時傳輸基于FlinkCDC插件進行二次開發(fā),能夠實時捕作為EasyData的基礎模塊,離線開發(fā)提供大規(guī)模數據存儲與計算能力,可選擇搭載其它產品完成數據集成、數據研發(fā)、數據 開發(fā)模式ProjrctFlowJob數據同步SQLAIMRScriptSparkMySQLVerticaGreenplumOracle選擇節(jié)點嵌套流虛擬節(jié)點ES線上模式多版本管理報警配置依賴配置報警配置依賴配置調度配置多版本管理上線檢測上線審批上線檢測上線審批影響監(jiān)測強制測試RDMSHadoopHTAPRDMSHadoopHTAPMPP 支持多種數據源類型的SQL,可通過Mysql、GP、Oracle、Vertica等邏輯數據湖節(jié)點為邏輯入湖數據提供開發(fā)和調度,同時支持spark、hive、script、數據傳輸等多種任務類型。支持多模型的調度設置,支持周期、crontab、以及自定義交易日歷的調度模式;支持任務、節(jié)點之間的跨流依賴,支持任務串行、并行、自依賴等調度實例并發(fā)邏輯結合DataOps方法論打造大數據場景的CI/CDDevOps,提供數據測試、配置檢查、自助分析、影響審 使用前VS使用后在數據開發(fā)過程中,節(jié)點參數、任務參數、運行參數要進行參數配置,如果對每個任務進行單獨的參數尤其當這些參數是公共參數時,一旦修改參數,則需復修改每個任務上的參數,大大影響了開發(fā)效率,且離線開發(fā)平臺提供了參數組解決這一問題,用數前可前往參數組管理頁面新建并添加參數配置,進可在任務開發(fā)、調度設置過程中引用這些參數。此外數組還支持數據傳輸、質量中心等其它產品模塊,大任務開發(fā)過程中,需要梳理任務上下游的關系,并對依賴關系的任務進行依賴配置。實際開發(fā)中,任務數模較大,依賴關系錯綜復雜,一旦任務依賴配置缺失任務依賴智能推薦功能,基于SQL解析以及任務血緣識別任務間的依賴關系并在配置依賴過程中自動推薦給用戶,避免了任務依賴漏配或者錯配,提升了開發(fā)人員開發(fā)數據架構平臺去支持海量的、多來源的、多種類的數據存儲,同時還需支持對數據進行快速加工和分析。數據湖是一種很好的選擇,但是結合實際情況,考慮成本和安全等),離線開發(fā)提供了邏輯數據湖的技術,采用Connect模式,在邏輯層面將數據加以整合,但物理層面分散在原有系統(tǒng)之中,實現在一個平臺進行數據開發(fā)。適用于企業(yè)內部業(yè)務及數據系統(tǒng)架構復雜、技術棧不統(tǒng)一、歷史數據遷移成本較高的場景,最大限度保障客戶歷史數據資產,減一般來說,用戶的業(yè)務活動每天都會產生大量的業(yè)務數但是在某些特定的行業(yè)領域,例如金融、券商的交易只會在交易日產生,在這種情況下使用傳統(tǒng)的按天調式,需要對非交易日下的加工邏輯進行特殊處理,造離線開發(fā)引入調度日歷的設計,用戶可根據自設置調度日,系統(tǒng)預置滬深交易日、港股通交易日、通交易日、深港股通交易日和深股通交易日等模板,實時開發(fā)是一款由元數據驅動的湖倉一體產品,最低支持亞秒級數據延遲,在保留開源Flink靈活拓展能力的基礎上,實現一體化、平臺化,顯著降低用戶使用與日常運維的門檻和成本,實現業(yè)務技術完成閉環(huán),還原真實 豐富Metric曲線Flink豐富Metric曲線FlinkWebUI日志篩選/關鍵詞檢索CheckPoint續(xù)跑操作行為審計自定義告警多級項目管理多級項目管理功能/數據權限控制數倉表快捷引用FlinkSQL/Jar任務跨集群/隊列提交數倉表快捷引用FlinkSQL/Jar任務跨集群/隊列提交自定義文件/函數依賴本地數據調試在線數據捕獲流表管理一鍵版本回滾自定義業(yè)務指標多集群管理動態(tài)隊列切換多引擎管理間隔輪詢分區(qū)寫入正則表名匹配間隔輪詢分區(qū)寫入正則表名匹配全量初始化數據有序自定啟停策略任務導入導出KafkaHiveRDBMSArcticElasticSearchKafkaHiveRDBMSArcticElasticSearch…… 提供語法自動補全、語法高亮、代碼格式化等基礎開發(fā)輔助和智能語法檢查。同時具備本地調通過手動注冊流表與數據庫獲取兩種渠道獲取元數據,接入統(tǒng)一元數據中心,并提供權限管保留Flink開源框架的拓展能力,支持自定義插件拓展,用戶可依據框架標準開發(fā)Jar包,直接上傳至平臺進行引用,拓寬使用場景;多引擎內核可選,支持Flink1.10,1.12,1.14等多個主100%真實數據模擬,邏輯驗證不再復雜支持基于不同offset策略對數據源端采集線上數據作為數據樣本,支持用戶對樣本數據進行二次編輯以滿足更豐富的調試場景;支持通過在線采集、本地上傳、選擇樣本集三種方式獲取調試數據,通過對SQL的調以業(yè)務為價值導向,擺脫“偽監(jiān)控”除了提供基礎運維指標外,為避免輸入輸出QPS等參數看似正常運行,但是實際業(yè)務出錯的“偽監(jiān)控”尷尬局面。通過基于Grafana自定義業(yè)務指標和豐富告警渠道支持,以實際業(yè)務場景為核心打造真正具有業(yè)圍繞實時業(yè)務的真實場景需求,支持QPS輸入輸出、數據反壓、自定義業(yè)務指標等告警規(guī)則配置,通過多連續(xù)周期與自定義周期長度提升告警精準度,還可設置告警間隔與告警 使用前VS使用后采用Java開發(fā)上手門檻高,參數配置復雜看不懂,任務遲遲跑不起來;轉移至SQL開發(fā)后,歷史Java任務遷移成本高,引擎版本不兼容,但是已經上線的業(yè)務不能停對SQL任務進行圖形化封裝,提供語法校驗、數據調試功能輔助研發(fā)進行任務開發(fā)過程;多引擎版本內核更新快速,可支持多主流引擎版本;歷史Jar任務可直接選擇對應引擎內核托管至平臺,既能維持業(yè)務運行也能統(tǒng)一上游數據表結構發(fā)生變化,無法快速確認會影響到哪些任務,只能逐個任務排查,效率低下,往往出現大量任支持查看血緣關系,通過CP/SP進行任務恢復針對性采用CP/SP進行任務狀態(tài)恢復。離線任務的運維平臺,致力于提供高效、智能、功能強大的運維能力,輔 運維大盤運維大盤實例概覽資源概覽任務概覽應用概覽實例概覽資源概覽任務概覽應用概覽基線概覽移動端運維實例運維周期/重跑/補數據實例重跑重跑下游智能診斷運行日志實例血緣監(jiān)控告警規(guī)劃管理告警記錄事件管理資源運維資源列表資源詳情自動運維任務運維任務運維周期/手動任務任務血緣補數據臟數據管理操作日志任務治理智能基線智能基線基線管理基線預警基線甘特圖非關鍵路徑分析值班組值班響應大盤概覽任務運維任務有分級任務有監(jiān)控任務有報警報警處理有方法運維效果有評估運維效果有評估 采用基線方式批量監(jiān)控任務實例,能夠快速定位當前基線上任務延遲時間最長的問題,將基線上異常實例當任務實例出現大規(guī)模延遲產出時,為了保障核心任務優(yōu)先運行,可將任務加入到加速任務池當中,將資支持通過任務血緣進行任務異常定位、影響分析、價值評估,幫助運維人員快速理清任務依賴關系,提高當源頭數據出現異常時,例如源頭數據丟失、計算邏輯錯誤、依賴缺失導致提前執(zhí)行等,為了防止臟數據向下游擴散,可通過凍結池將異常任務及其下游進行凍結。凍結期間可對異常數據進行修復,修復完成后支持對任務運行失敗的原因進行分析,包括代碼錯誤、參數配置錯誤、資源不足、權限問題、數據質量校驗不通過等,提供報錯日志分析、錯誤原因歸類、診斷建議、診斷效果反饋、知識庫管理等功能,快速提 使用前VS使用后對于業(yè)務場景復雜、業(yè)務鏈路長、數據需求多的情況,如何高效可靠地進行任務運維管理,同時保障成千上萬的調度任務能夠每日正常按時產出,還能在出現異常數據時提前預警處理,就需要一套體系化、智能化的運維任務運維中心提出基線運維,根據任務特點將任務掛載到不同的基線上進行任務的分類管理。通過基線的預警能力,前期感知任務調度異常,降低故障率。通過關鍵路徑及報警功能快速定位延遲或出錯任務,提升運維效率。此外,結合凍結池功能,很好地解決了源頭任務異常恢復慢等問題,重大事故解決時長縮短到0.5天。上游數據表結構發(fā)生變化,無法快速確認會影響到哪些任務,只能逐個任務排查,效率低下,往往出現大量任自動識別下游相關節(jié)點統(tǒng)一凍結,故障排除依次解凍,數據治理數據治理是數據生產力方法論中緊扣業(yè)務價值的環(huán)節(jié),EasyData對數據開發(fā)的內容結果進行持續(xù)化運營動作,并結合產品層面數據標準建立、業(yè)務指標定義、元數據模型設計、數據質量校驗稽核、安全中數據治理數據治理是數據生產力方法論中緊扣業(yè)務價值的環(huán)節(jié),EasyData對數據開發(fā)的內容結果進行持續(xù)化運營動作,并結合產品層面數據標準建立、業(yè)務指標定義、元數據模型設計、數據質量校驗稽核、安全中心權限管理等能力,使底層數據可無縫服務上層企業(yè)業(yè)務需求,實現人0○000000數據治理360在數據治理中作為“標桿”進行衡量,通過導入行業(yè)標準與挖掘企業(yè)已有數據標準,實現標準的管理、執(zhí)行、反饋、優(yōu)化全環(huán)節(jié)管控,幫助企業(yè)在數據使用的過程中建立一套貼合業(yè)務場景訴求的數據標準,并通過與數據質量、模型設計、元數據等模塊打通 標準概覽標準概覽標準資產統(tǒng)計標準流程統(tǒng)計標準化統(tǒng)計標準資產統(tǒng)計標準流程統(tǒng)計標準化統(tǒng)計標準發(fā)布提交發(fā)布標準發(fā)布提交發(fā)布發(fā)布歷史差異比對標準應用詞根翻譯標準推薦質量規(guī)則關聯安全規(guī)則關聯模型關聯標準定義數據元原始字典標準字典詞根數據項分類資源目錄數據元原始字典標準字典詞根數據項分類資源目錄原始字典對標相似標準檢測版本管理版本比對標準導入標準導出流程管理流程管理提交申請我的申請撤回申請狀態(tài)變更審核標準發(fā)布審核標準配置標準配置數據元注冊模版配置數據元注冊模版配置數據字典注冊模版配置 除默認配置外,支持用戶基于系統(tǒng)現有屬性對數據標準定義過程中的數據元數據標準構建統(tǒng)一表名規(guī)范、字段命名規(guī)范、格式、類型、值域等規(guī)范,構建模型時引用統(tǒng)根據數據元掛載情況自動生成字段映射關系,根據原始字典及標準字典映射關系,生成對應腳本 使用前VS使用后數據標準與模型設計未打通。在企業(yè)中雖然有一套對數據標準的定義,但是很多時候都只落于文檔層面,在實際開發(fā)過程中無法保證所有開發(fā)人員都能夠按照規(guī)定進將數據標準與模型設計進行關聯,用戶在進行模型設計過程中可以直接引用已經定義好的數據元模型,不但提當數據標準和質量稽核規(guī)則未打通時,企業(yè)核心表的稽核規(guī)則覆蓋率往往只有10%。其次,開發(fā)人員對于相同字段稽核規(guī)則存在不一致、閾值設置不一致的情況,從而導致數據開發(fā)質量差、BUG多。打通標準和質量,保障質量稽核規(guī)則統(tǒng)一,提升開發(fā)質量式,可直接作用于質量稽核規(guī)則,無需開發(fā)人員挨個配 流程管理申請注冊申請治理流程管理申請注冊申請治理申請確權申請變更安全等級申請發(fā)布申請下線指標定義復合指標派生指標衍生原子指標衍生詞修飾詞指標域指標目錄指標血緣版本管理操作歷史原子指標項目配置項目配置治理流程配置口徑隱藏配置注冊模版配置審批配置治理流程配置口徑隱藏配置注冊模版配置審批配置指標組織配置編碼規(guī)則配置 嚴格定義指標規(guī)范,規(guī)避指標二義性,助力數據模規(guī)劃-數據開發(fā)-業(yè)務應用”矩陣化能力覆蓋;提供靈活的模板配置能力,支持配置字段是否啟用、是否必填、是否可搜索、是否在列表里展示從“創(chuàng)建-評審-開發(fā)”全流程覆蓋并提供審批支持,實現關鍵節(jié)點審批流程支持,讓圍繞指標本身及上下 使用前VS使用后業(yè)務部門不清楚系統(tǒng)中已經存在哪些指標,也不清楚去哪里找數,只能根據自身業(yè)務需要提出指標需求。指標開發(fā)人員不清楚系統(tǒng)中現有哪些應用或數倉模型、不清楚模型的計算口徑、不敢用,只能豎井式開發(fā),導致效通過指標中心結合指標管理制度實現指標增、刪、改、查線上化操作,并實現指標與模型等上層應用的綁定關指標僅停留在開發(fā)階段,沒有完整的生命周期管理,且不同用戶對指標治理流程的訴求不一致,無法發(fā)布為真一般指標按照指標域或業(yè)務過程進行組織,對于數據開發(fā)人員是比較友好的,但是對于數據管理者而言,可能更關注與指標的權屬部門等信息,因此缺乏針對不同用源目錄或指標系統(tǒng)自定義的資源目錄,為用戶提供靈活數據治理中的橋梁環(huán)節(jié),通過企業(yè)數倉的標準化建??蓪祿藴逝c指標口徑落實到具體的業(yè)務開發(fā)過程,實 流程管理流程管理新建工單提交工單克隆工單關閉工單我的申請我的審批模型評估分層表數量統(tǒng)計各層復用統(tǒng)計跨層依賴統(tǒng)計分層表數量統(tǒng)計各層復用統(tǒng)計跨層依賴統(tǒng)計不合理命名表清單模型設計維度新建表度量模型導出標準化建模模型導入維度新建表度量模型導出標準化建模模型導入修改表物化配置模型規(guī)范主題域配置字典集配置分層配置主題域配置字典集配置分層配置表設計規(guī)則配置模型配置多數據源配置多數據源配置擴展信息配置 遵循數倉建設技術標準劃分不同表分層,并結合業(yè)務實際劃分不同主題域,使數據的業(yè)務含義企業(yè)已存在的外部數據源的數倉,支持統(tǒng)一抓取進行管理,新建業(yè)務系統(tǒng)的數據表設計也可 使用前VS使用后模型開發(fā)過程中存在超過50%的任務直接讀原始數據導致查詢速度慢,同時大量模型跨層引用導致模型構建混構建業(yè)界首個面向數據中臺的模型設計度量標準,提出跨層引用率、查詢覆蓋率、模型引用系數等指標幫助企業(yè)了解模型建設情況,完成模型治理,從而提升模型開客戶在數字化轉型過程中,需要將散落到各個子數據系統(tǒng)的數據孤島統(tǒng)一管控起來,完成統(tǒng)一的數倉搭建和主題域建設。而在實際過程中,客戶需要通過邏輯數據湖的方式對數據進行統(tǒng)一的管控,如何對邏輯入湖的數據解決數據孤島問題,外部數據系統(tǒng)統(tǒng)一管理模型設計中心支持外部數據源的數倉建設,當前支持MySQL、Greenplum、Oracle、Vertica等,用戶無數據治理中的驗證環(huán)節(jié),通過事前定義監(jiān)控規(guī)則、事中監(jiān)控數據的生產過程、事后評估和問題追溯,實現數據質量問題發(fā)現的“全面化、自動化、在線化”,從而將業(yè)務規(guī)范落實到數據開發(fā)的每一環(huán)節(jié),為企業(yè) 關聯開發(fā)任務質量工單定義通知機制進行運行和調度相關配置事中持續(xù)測量監(jiān)控數據質量獨立調度關聯開發(fā)任務質量工單定義通知機制進行運行和調度相關配置事中持續(xù)測量監(jiān)控數據質量獨立調度報警處理事后質量量化分析問題追溯執(zhí)行質量計分績效評估質量趨勢質量問題分析處理質量大屏執(zhí)行實例執(zhí)行趨勢質量報告質量評分事前事前定義數據質量需求校驗維度完整性及時性準確性自定義SQL規(guī)劃數據標準/元數據推薦規(guī)則校驗對象HIVEVerticaGreenplum定義數據期望值定義數據錯誤業(yè)務規(guī)劃定義可接受閾值定義數據質量指標自定義規(guī)劃模版智能算法規(guī)則模版規(guī)則規(guī)則模版管理數據探查數據比對有效性一致性唯一性MySQLOracleSQLServer 支持對數據源類型為Hive、MySQL、Vertica、Greenplum的數據源任務進行單表質量監(jiān)控任務和多表則、根據元數據推薦規(guī)則、模板規(guī)則、自定義SQL規(guī)則;同時具備多數據源類型SQL語言精準解析,輔助數據質量中心通過事前定義數據的監(jiān)控規(guī)則、事中監(jiān)管數據的生成過程,把控高質量的數據。讓企業(yè)擁有準確且業(yè)務有序的數據確保商業(yè)決策不會遭受“壞”或“ 使用前VS使用后數據質量出現問題,缺乏及時報警響應機制,往往是先發(fā)現后治理,再進行任務返工,耗時耗力影響數據產出針對數據質量的完整性、準確性、一致性等問題,提前預設監(jiān)控卡點,通過形態(tài)探查、數據比對、質量監(jiān)控任質量模塊相對獨立,質量稽核規(guī)則制定依賴于開發(fā)人員,在配置時容易造成稽核規(guī)則遺漏、同一字段閾值設及改進形成數據質量閉環(huán)管理,確保質量稽核規(guī)則一致質量問題發(fā)生后需要知道具體哪些數據發(fā)生問題;對于表質量情況,不同角色的用戶關注的細節(jié)點不同;同時與分析功能。支持查看項目數據質量大盤,了解表質量依托數據等級、用戶等級相匹配的數據使用策略,更智能便捷的數據脫敏和數據加密應用能力,幫助用戶快速構建基于數據內容的安全能力,滿足企業(yè)各種場景的數據安全需求,采用系統(tǒng)預制的各種參 用戶管理用戶認證單點登陸訪問控制用戶管理用戶認證單點登陸訪問控制身份認真訪問規(guī)則配置鑒權處理資產保護措施鑒權范圍操作鑒權鑒權范圍操作鑒權數據鑒權權限管理權限申請我的權限權限轉移權限回收安全分授權范圍授權對象管理:角色成員數據類權限:HIVE表目錄資料類權限:隊列功能類權限:菜單、頁面、空間、URL子產品資源敏感類型定義數據安全等級脫敏規(guī)則配置數據靜態(tài)脫敏敏感數據識別數據加密數據水印數據回收站敏感類型定義數據安全等級脫敏規(guī)則配置數據靜態(tài)脫敏敏感數據識別數據加密數據水印數據回收站數據動態(tài)脫敏凍結目錄風險行為告警敏感數據訪問告警操作審計風險行為告警敏感數據訪問告警操作審計風險規(guī)則配置 提供靈活的審批流程自定義方案,可根據庫、表、目錄范圍、數據安全等可根據企業(yè)行業(yè)特性自定義敏感數據分級分類,支持自定義脫敏算法,可對敏感數據進行 使用前VS使用后針對存儲著大量敏感用戶數據的企業(yè),如果數據泄露將安全中心構建數據保護模塊,支持根據行業(yè)特性自定義敏感數據分級分類,系統(tǒng)內置4個安全等級可靈活配置;支持敏感數據識別功能,識別敏感字段及字段安全等級,結合靜態(tài)脫敏和動態(tài)脫敏完成數據脫敏工作,保障只有管理員視角、缺乏用戶視角的權限管理,容易導致對于所有子產品無法進行操作審計,一旦發(fā)生風險行基于元數據提供各類數據檢索、數據血緣、數據資產目錄、元數據采集和管理、元數據詳情查看等功能,旨在幫助用戶更加方 資產目錄表詳情我的數據配置管理資產目錄表詳情我的數據配置管理數據資產全景熱門檢索數據熱門資產目錄導航熱門讀寫數據熱門檢索數據熱門資產目錄導航熱門讀寫數據資產統(tǒng)計全局檢索表標簽指標表標簽指標......我收藏的我訂閱的我瀏覽的我負責的我有權限的表/字段血緣分區(qū)/字段信息數據預覽我收藏的我訂閱的我瀏覽的我負責的我有權限的表/字段血緣分區(qū)/字段信息數據預覽數據質量報告產出信息使用說明知識問答評價&打賞數據探查數據熱度ETL數據庫業(yè)務系統(tǒng)文件文件錄入手工錄入文件錄入手工錄入定時&手工采集業(yè)務元數據管理元數據業(yè)務元數據管理元數據技術元數據元數據查詢元數據目錄版本管理訂閱通知元數據查詢元數據目錄版本管理訂閱通知全生命周期分級分類影響分析完整度分析血緣分析對比分析影響分析完整度分析血緣分析對比分析元數據服務 支持表元數據信息、字段信息、DDL變更、血緣信息的展示。和模型設計相結合,可通過主題域和分層方式展示表方便查詢。支持表的收藏訂閱,已關注的 使用前VS使用后對于企業(yè)來說數據的負責人是誰、數據的安全性如何、數據的質量如何、數據是給誰用的、誰更改了數據等等,這些問題都需要元數據管理進行解決。元數據的缺元數據管理解決的核心問題就是如何保證元數據質量。產品采用科學的元數據管理方式,將元數據分為業(yè)務元數據、技術元數據、管理元數據,并通過元數據管理系統(tǒng)進行采集、注冊以及發(fā)布。同時將元數據和標準、質量、安全、模型等子產品進行打通來豐富元數據內容,隨著業(yè)務的快速發(fā)展,海量數據日漸堆積,用戶找數猶如大海撈針,數據無規(guī)則、亂序平鋪,用戶不知道想要由于企業(yè)業(yè)務千變萬化、上下游依賴關系復雜,實際數據生產鏈路之間往往也存在著錯綜復雜的血緣依賴關系。但由于數據鏈路不清晰,導致某節(jié)點變更后無法評估下游影響范圍,或者下游數據異常,無法追溯上游形全鏈路的數據血緣以可視化DAG圖的方式,供用戶快速數據治理360數據治理界的360,可以定量評估數據資產的成本、價值、質量、安全和規(guī)范。助力企業(yè)優(yōu)化數據成本,賦能業(yè)務,節(jié)約資源。 電子商務制造物流服務新聞傳媒金融證券電子商務制造物流服務新聞傳媒金融證券農業(yè)無用數據表閉環(huán)BI報表分析計算任務分析無用數據表閉環(huán)無用數據表閉環(huán)無用數據表閉環(huán)無用數據表閉環(huán)BI報表分析計算任務分析無用數據表閉環(huán)無用數據表閉環(huán)無用數據表閉環(huán)無用數據表閉環(huán)數據目錄管理無用數據表閉環(huán)數據成本計算規(guī)則掃碼存儲健康掃描計算成本分析存儲成本分析治理項掃描治理優(yōu)化建議表負責人質量數據質量表質量稽核任務完成、失敗、及時和異常稽核監(jiān)控覆蓋率統(tǒng)一任務、表和質量負責人數據成本計算規(guī)則掃碼存儲健康掃描計算成本分析存儲成本分析治理項掃描治理優(yōu)化建議表負責人質量數據質量表質量稽核任務完成、失敗、及時和異?;吮O(jiān)控覆蓋率統(tǒng)一任務、表和質量負責人模型標準質量標準數據標準任務開發(fā)規(guī)范指標標準元數據標準制定BI使用分析被BI報表使用生成APIAPI治理數據資產地圖檢索熱度離線開發(fā)引用熱度自助分析讀取熱度價值規(guī)則掃描數據價值表的應用網易數帆數據資產管理360平臺治理白名單待我治理待處理工單我已治理數據治理工作臺治理白名單待我治理待處理工單我已治理健康分待治理項數據安全庫權限隊列權限功能權限權限閑置庫權限隊列權限功能權限表權限下載敏感數據風險行為下載敏感數據其他子產品定義的高危行為解密白名單專題治理工具數據表小文件發(fā)現和治理數據表表備份數據備份和恢復表備份目錄生命周期管理端到端數據血緣權限安全管理與BI端到端數據血緣權限安全管理與BI系統(tǒng)連通審計日志元數據分析服務 健康診斷360,全方位了解數據健康度從存儲、計算、價值、規(guī)范、安全、質量6個維度監(jiān)控數據資產健康情況并給出待治理項優(yōu)化建議,幫助企業(yè)360度全方位了解數據。 使用前VS使用后企業(yè)數據中臺建設過程中,業(yè)務方以業(yè)務需求為主導,將數據接入平臺后,只開發(fā)不治理,遺留下大量的歷史數據和無用的存儲表與計算任務。業(yè)務線持續(xù)發(fā)展后,計算和存儲成本增長迅速,企業(yè)面臨實際成本支出遠遠大于真實資源預算的情況。數據團隊一方面需要滿足快速發(fā)展的業(yè)務需求,另一方面又需要盡量控制成本增長,符合部門合理的預算范圍之內,此時亟需工具型產統(tǒng)計存儲和計算成本,了解資產使用情況,沉淀高價值結合多業(yè)務線的治理痛點,建設了數據治理360平6個方面總計26條評分規(guī)則對企業(yè)數據資產進行健康打分,同時圍繞上述6個維度給出治理項優(yōu)化建議,幫助企數據服務一站式自助數據服務平臺,提供快速將數據表生成數據API的能力,致力于豐富、便捷、高效的產品功能,旨在打造讓API開發(fā)零門檻的企業(yè)級API產品。00○0 權限安全管理細粒度化的權限管理機制數據開發(fā)和管理平臺權限安全管理細粒度化的權限管理機制數據開發(fā)和管理平臺項目、成員和角色等的統(tǒng)一配置開發(fā)人才可靠、負責的技術人才API集市注冊API源API格式服務編排對API進行復雜的業(yè)務邏輯處理API在線升級版本歷史管理Token注冊API源API格式服務編排對API進行復雜的業(yè)務邏輯處理API在線升級版本歷史管理Token鑒權API調用APP鑒權數據緩存訪問控制流量控制報警策略策略管理行列權限UDF功能UDFStudio函數入參上傳ja包前置處理常量入參查詢性能資源組隔離腳本模式新建API腳本模式向導模式結構化豐富的數據源類型結構化非結構化監(jiān)控和報警服務網關管理網關管理RPC其他網關類型RPC其他網關類型KONG服務部署服務部署虛擬機云原生虛擬機云原生物理機元數據中心數據源表登記,提供精準的血緣鏈路 平臺秉承“配置即服務”的理念,數據開發(fā)工程師不再需要重復寫代碼開發(fā)數據接口,行簡單配置,平臺便可自動生成和發(fā)布數據API;數據使用者可以通過API集市查看發(fā)布的API調用說明并申請API使用權,極大改善了數據交付過程中的效率、質量、安全問題。多重管控,解決API服務安全問題共享API服務;同時資源組相互隔離,API調用互不影響,為API穩(wěn)定使用提供保障;API調用和傳輸支持加密,讓API的使用更加安全。 使用前VS使用后API開發(fā)效率低,無法有效支撐快速發(fā)展的業(yè)務數據團隊承接業(yè)務方需求,需要將數據倉庫中海量數據通過接口化方式交付給數據使用方,但開發(fā)和維護API的鏈路長,投入成本高,數據滯后;API對接不同的業(yè)務方,呈現煙囪式開發(fā),API復用率極低,加大開發(fā)人員的工作負擔,開發(fā)和交付API平均時間需要幾天甚至幾周進行排期,急需工具型產品的支持以實現快速按小時級交付數據服務API的需求??梢暬渲媒档烷_發(fā)難度,多種功能輔助,保障API服務安全,提升API使用效率通過指標中心結合指標管理制度實現指標增、刪、改、查線上化操作,并實現指標與模型等上層應用的綁定關安全管控缺失,API調用存在數據泄露的風險對于臨時性搭建的API服務,缺乏安全管控,在通過API進行數據調用過程中,存在數據泄露的風險,通過API的數據傳輸方式變得不可信、不敢用,降低數據開發(fā)工多重管控策略,解決API服務安全問題數保障API的穩(wěn)定調用;通過黑白名單訪問策略,保證僅授權或被禁止的IP地址實現調用或無法調用API的數據的需求;通過報警策略,時刻監(jiān)控重要性API的調用狀態(tài),滿足應用方平穩(wěn)順利的數據使用;通過控制行/列級權限,實現API開放的靈活性和安全性,讓開放出去的數據單個API使用場景受限,二次加工增加工作復雜度單個API無法解決復雜的業(yè)務場景,比如需要對某個API的輸出結果進行處理后作為另一個API的輸入結果,或者通過條件判斷來動態(tài)的調用數據結果,業(yè)務方往往在調用API后還需要對其進行二次加工處理,增加了工作服務編排能力,實現API之間的串并行等復雜邏輯處理,提高API使用效率數據服務通過提供服務編排能力,支持在畫布中拖拽API節(jié)點、python節(jié)點、條件判斷節(jié)點和UDF節(jié)點,實現將API參數進行復雜的邏輯處理,滿足業(yè)務多種數據使用需求,由原本調用API后進行二次開發(fā)轉變?yōu)橹恍枰{用服務編排API,極大的提高了數據開發(fā)效率,簡化了業(yè)務方在傳統(tǒng)API開發(fā)過程中,數據團隊更多的關注于將數據表構建為API開放給業(yè)務人員使用,但業(yè)務發(fā)展迅速,變更頻繁,API迭代速度快,重構成本高,已開放出去的API是否還在使用,使用效果如何無從得知,增加了API的維護成本,無法對API進行治理。構建全方位API血緣鏈路,提供API調用詳情,讓API的數據服務通過構建數據表、API和應用的血緣鏈路信息,支持從任一視角查看上下游關系,同時提供API自創(chuàng)建后被調用的統(tǒng)計信息以及從未調用過的API列表,針對性的對API進行治理,結合API血緣信息,讓API治理有依據有抓手,讓API數據應用價值最大化。案例實踐及榮譽資質數據開發(fā)及治理平臺EasyData目前已支撐金融、零售、制造、交通物流、運營商等多行業(yè)客戶的大數據業(yè)務,在技術先進性、性能000通過打通數據質量和數據標準工具,根據數據標準直接生產數據質量稽核規(guī)則應用在模型上。東北證券生通過打通數據質量和數據標準工具,根據數據標準直接生產數據質量稽核規(guī)則應用在模型上。東北證券生成數據質量稽核規(guī)則2890項。通過打通數據安全和數據標準工具,根據數據標準中定義的數據敏感等級,生成數據脫敏規(guī)則直接應用在模型上。東北證券生成脫敏規(guī)則1323項。發(fā)布6項數據虛擬入湖標準,浙江電信完成86個核心系統(tǒng)的接入,沉淀數據資產4144項。通過數據服務,實現數據出口的統(tǒng)一管控,浙江電信發(fā)布數據服務API300+。 東北證券股份有限公司作為一家綜合類券商,業(yè)務遍及全國,現已在各地設立了36家經紀業(yè)務區(qū)域分公司、102家證券營業(yè)部證券營業(yè)部和3家分公司。東北證券借助數據開發(fā)治理平臺EasyData,實現了“數據開發(fā)與治理的一體化”,從數據生產源頭出發(fā),遵循“先設計,后開發(fā),先標準,后建模”的理念,確保開發(fā)出來的數據就是遵循規(guī)范和標準的,實現了數據的長效治理,解決了多年數據治理難落地,效果差的難題。通過數據資產消費平臺,一線業(yè)務人員可以輕松實現數據資產,找得到、看得懂、信得過!通過打通數據標準和數據建模工具,在模型設計過程中就可以直接完成數據標準的落標。東北證券注冊元數據2814項。中國電信是國有特大型通信骨干企業(yè),連續(xù)多年入選“”世界500強企業(yè)“,中國電信股份有限公司浙江分公司是中國電信首批在海外上市的省級公司之一。浙江電信與網易數帆強強聯手,依托EasyData構建了邏輯數據湖,將數據中臺構建在跨平臺的邏輯聚合層之上,實現了多平臺的統(tǒng)一管理。與此同時,發(fā)布了數據入湖標準,實現了數據“入湖有標準,出湖可管控”的目標。將物理分散的Vertica、CDH、NDH等不同平臺上的數據構建邏輯統(tǒng)一的數據中臺。數倉任務運行從不完整同步耗時8小時,縮短到完整同步2小時,效率提升75%以上。提供門店銷量預測算法促使銷售人數倉任務運行從不完整同步耗時8小時,縮短到完整同步2小時,效率提升75%以上。提供門店銷量預測算法促使銷售人員業(yè)績達成,基于藥品推薦轉化算法的業(yè)務創(chuàng)新收入占比達8.5%。消息實時觸達運維人員企業(yè)微信,快速響應故障,工作效率提升。通過平臺建設促進數字技術與業(yè)務深度融合,數據思維觸達公司每個實現所有測試過程可視化、透明化,不良產品測試時長從4小時縮短到10分鐘內。原先需要4天完成的數據開發(fā)任務,2天就能快速解決,開發(fā)效率提升50%。九州通醫(yī)藥集團股份有限公司發(fā)軔于1985年,是一家以西藥、中藥和醫(yī)療器械批發(fā)、物流配送、零售連鎖為核心的股份制企業(yè)。集成打通數十個系統(tǒng),開發(fā)超過220個數據模型和20個業(yè)務場景,解決企業(yè)數據割裂和信息缺失問題。中國南方電網有限公司超高壓輸電公司作為南方電網骨干網
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工現場動火作業(yè)前必須執(zhí)行什么制度
- 文保單位動土制度
- 教育引導廣大律師自覺遵守擁護中國制度
- 建立醫(yī)療安全事件報告制度和預警制度
- 【答案】《巖石學》《中國地質大學(武漢)》章節(jié)作業(yè)慕課答案
- 定西職業(yè)技術學院《企業(yè)電子產品設計與制造》2023-2024學年第二學期期末試卷
- 西安石油大學《地球化學》2023-2024學年第二學期期末試卷
- 江西新能源科技職業(yè)學院《預防醫(yī)學與公共衛(wèi)生規(guī)培》2023-2024學年第二學期期末試卷
- 山東鋁業(yè)職業(yè)學院《綜合交通規(guī)劃與設計》2023-2024學年第二學期期末試卷
- 嘉興職業(yè)技術學院《電氣工程專業(yè)英語》2023-2024學年第二學期期末試卷
- 裝修工程施工質量檢查標準
- 供銷大集:中國供銷商貿流通集團有限公司擬對威海集采集配商貿物流有限責任公司增資擴股所涉及的威海集采集配商貿物流有限責任公司股東全部權益價值資產評估報告
- 干細胞臨床研究:知情同意的倫理審查要點
- 檢測實驗室安全管理與操作規(guī)程
- 2025云南保山電力股份有限公司招聘(100人)筆試歷年參考題庫附帶答案詳解
- (新教材)2026年人教版八年級下冊數學 21.1 四邊形及多邊形 課件
- 教師職業(yè)行為規(guī)范手冊
- 急性胸痛患者的快速識別與護理配合
- 法律研究與實踐
- 單招第四大類考試試題及答案
- 《建設工程總承包計價規(guī)范》
評論
0/150
提交評論