版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
建設(shè)方案建設(shè)方案2023年數(shù)據(jù)中臺項目第2章元數(shù)據(jù)中心呢?"1.系統(tǒng)、全面地查詢元數(shù)據(jù)信息在日常業(yè)務(wù)過程中,數(shù)據(jù)部門常常需要修復(fù)一些問題(數(shù)據(jù)的一致性、時效性等)。但數(shù)據(jù)從被采集到最終被應(yīng)用涉及采集、存儲、加工、查詢、可視化等鏈路,如果不能較準(zhǔn)確地定位問題,那么從0部1門可以快速定位問題所在,從而縮短解決問題所需的時間元數(shù)據(jù)中心是數(shù)據(jù)中臺最基礎(chǔ)的系統(tǒng)(圖2-1),其他系統(tǒng)都需要近期讀取的表更多>近期讀取的表更多>的QQ近期瀏覽的表近期瀏覽的表更多>更多>熱門瀏覽的表更多>2.2元數(shù)據(jù)中心的核心功能下下全網(wǎng)商品爬蟲數(shù)據(jù)下一步21采集器有以下兩種采集計劃。(1)場景采集:根據(jù)實際的業(yè)務(wù)場景,在業(yè)務(wù)需要時才進行采集。(2)周期采集:按照時間周期,如月采集,在每月的特定時間進行采集,還有周采集、天采集、時采集等。周期采集設(shè)置如圖2-3所示。數(shù)據(jù)管理就是管理數(shù)據(jù)中臺所有的元數(shù)據(jù),元數(shù)據(jù)即描述數(shù)據(jù)的數(shù)據(jù)。這個概念其實不難理解,我們舉一個電影的例子來說明:要判斷一部電影是否熱門,我們可以用一些指標(biāo)來描述它,如購票人數(shù)、退票人數(shù)、上座率、排片率等。這些都是描述電影本身的數(shù)據(jù)。但除等.等__ __字段 _ 訂單總量數(shù)據(jù)屬性主要是關(guān)于數(shù)據(jù)本身的描述,就好比我們描述用戶,我們會用年齡、性別、身高等屬性來描述用戶,這些屬性可以勾勒出用戶的基礎(chǔ)印象。我們也可以用一些基礎(chǔ)的數(shù)據(jù)來描述數(shù)據(jù)屬性。這些數(shù)據(jù)有幾種類型:基礎(chǔ)信息、標(biāo)簽信息、業(yè)務(wù)信息、技術(shù)信息、權(quán)限信息。以圖2-4中的SKU每日匯總表(dwsgoodssku1d)為例?;A(chǔ)信息如圖2-5所示。有多少訪問熱度所屬主題域、分層、是否分區(qū)幾時創(chuàng)建的生命周期多久永久標(biāo)簽信息如圖2-6所示.根據(jù)不同權(quán)限設(shè)置標(biāo)簽按照數(shù)據(jù)的價值設(shè)置標(biāo)簽按照主題、分層、指標(biāo)等設(shè)置標(biāo)簽標(biāo)簽的維護是靠基于元數(shù)據(jù)中心的各個數(shù)據(jù)中臺支撐產(chǎn)品下沉無表名注釋信息記錄每日交易的明細記錄表的產(chǎn)出任務(wù)每個表有哪些字段每個字段的信息含義、類型、熱度等每個分區(qū)的信息記錄數(shù)、存儲量等變更日志信息類型、粒度、時間等產(chǎn)出日志的信息節(jié)點、執(zhí)行時間等收2)指標(biāo)波動分析完全。更好的解決方法是,通過Spark/Hive/Flink本身提供的有3個.在這3個時機中,時機(1)因為沒有執(zhí)行代碼,所以無法保證數(shù)三數(shù)據(jù)血緣變更記錄產(chǎn)出信息數(shù)據(jù)血緣變更記錄產(chǎn)出信息分區(qū)信息AA3555外香pce6in特特特香7in種竹外香81香9否第3章數(shù)據(jù)指標(biāo)中心(1)我們要把用戶的盤子做大,對應(yīng)的指標(biāo)就是已注冊用戶數(shù)。(2)我們要統(tǒng)計今天的銷售額,對應(yīng)的指標(biāo)就是總支付金額。(3)我們要衡量一次活動的效果,對應(yīng)的指標(biāo)就是下單率。應(yīng)的指標(biāo)劃歸到對應(yīng)的主題域中即可,如表3-1所示。表3-1派指生標(biāo)統(tǒng)周計派指生標(biāo)統(tǒng)周計期聚粒合度限維量度原指子標(biāo)數(shù)據(jù)指標(biāo)中心數(shù)據(jù)指標(biāo)中心序盾工地操新建原子指標(biāo)姓標(biāo)B度更多3.2.3定義原子指標(biāo)與派生指標(biāo)的生產(chǎn)邏輯前文提到過"將指標(biāo)的組成部分解耦拆分開來,并在邏輯表中進行規(guī)范的定義",這個解耦和定義的過程就是把一個派生指標(biāo)拆解成派生指標(biāo)的過程,如圖3-2所示。本周商城黃金會員下單金額會員維度,求和(下單金額)(1)統(tǒng)計周期是這個原子指標(biāo)進行統(tǒng)計運算的時間范圍,在這里多作更更更性多多E指標(biāo)命名規(guī)范有3個重點。(3)無指定業(yè)務(wù)范圍的指標(biāo)默認(rèn)為平臺指標(biāo),不需要帶與“平臺”業(yè)務(wù)名稱,如商城-近30天支付人數(shù)。(4)無指定時間周期的指標(biāo)默認(rèn)為“近1天”(但需要保存小時粒果限定了時間范圍,就需要加上時間周期,如近7天注冊人數(shù)。完整的指標(biāo)命名規(guī)范為商城(業(yè)務(wù)板塊)+用戶(實體)+近7天(統(tǒng)計周期)+新增((業(yè)務(wù)動作)+子單(類型)+單日(間隔周期)+平均(統(tǒng)計運算規(guī)則)+支付金額(原子指標(biāo)),如商城-用戶近7天新增子當(dāng)指標(biāo)主體為實體(名詞),如游客、用戶、商品等時,則只需當(dāng)指標(biāo)為業(yè)務(wù)動作(動詞),如點擊、支付、下單等時,則除將個不同的統(tǒng)計口徑,如下單次數(shù)、下單筆數(shù)、下單人數(shù)等.誰開發(fā)?后續(xù)由誰來維護?..(1)一級指標(biāo),即原子指標(biāo)與小部分全平臺的核心指標(biāo),在從各全部(54)交互域(23)建用戶域(14)活動(10)用戶域(16)口填23)交易域(23)會員域(23)好性D商城支付成功的注冊用戶數(shù),第4章數(shù)倉模型中心4.1數(shù)倉模型中心概述4.2數(shù)倉模型中心的設(shè)計思路 下單、支付、發(fā)貨、退款、確認(rèn)收貨注冊、登錄、退出全部(54)用戶域(14)活動域(10)交互域(23)會員域(23)用戶域(16)商品域(23)交易域(23)商品維度,以及針對收件地址進行分析的地域維度,如表4-2所示。商品商品ID、商品名稱、交易價格、類目ID、類目名稱、品類ID、品區(qū)域ID、區(qū)域名稱、城市Code、城市名稱、省份Code、省份名儲方式、組織方式和操作方式等內(nèi)容,如圖4-4所示。全部(54)用戶域(14)活動域(10)交互域(23)會員域(23)用戶域(16)商品域(23)交易域(23)例,我們構(gòu)建的總線矩陣如表4-3所示。品牌IDYYYYYYYYYYYYYYYYNYYYYYYNYYYY模板化管理。這個數(shù)據(jù)產(chǎn)品構(gòu)建在元數(shù)據(jù)中心之上,可以通過DWD層是數(shù)據(jù)中臺的重點建設(shè)對象,所以我們需要花費大量的層的表,就說明越多的任務(wù)是跳過DWD層去加工數(shù)據(jù)的,而且這些率表這幾個表調(diào)用和加工,那么這個訂單明細表的調(diào)用熱度就是4.第5章數(shù)據(jù)資產(chǎn)中心在月度報告會議.上,首席技術(shù)官讓大家聊聊在當(dāng)前企業(yè)數(shù)據(jù)化5.1數(shù)據(jù)資產(chǎn)中心概述數(shù)據(jù)資產(chǎn)中心XX5數(shù)據(jù)在數(shù)倉中進行清洗、加工、整合和建模等一系列運算后,再通過同步工具或者服務(wù)接口,被接入數(shù)據(jù)產(chǎn)品中,供使用者使用。在整個流程中,先有數(shù)據(jù)加工,才有數(shù)倉模型和數(shù)倉代碼的建設(shè)。因此,保障數(shù)據(jù)加工過程中的質(zhì)量是保障離線數(shù)倉整體數(shù)據(jù)質(zhì)量的重要環(huán)1.數(shù)據(jù)關(guān)鍵節(jié)點監(jiān)控規(guī)則在數(shù)據(jù)的加工過程中,往往會有各種意想不到的問題導(dǎo)致產(chǎn)出出現(xiàn)異常,而且由于數(shù)據(jù)加工是鏈條狀的,一個節(jié)點出現(xiàn)異常會導(dǎo)致整個鏈條出現(xiàn)問題,因此我們需要在數(shù)據(jù)的關(guān)鍵加工節(jié)點上,對每個產(chǎn)強規(guī)則弱規(guī)則一旦觸發(fā)報警系統(tǒng),就會阻斷任務(wù)的執(zhí)只觸發(fā)報警系統(tǒng),提示風(fēng)險,但不阻斷任務(wù)的執(zhí)行,限制下游任務(wù)的觸發(fā),并且在故障未被行。這些風(fēng)險會以短信或郵件的形式通知到相關(guān)開發(fā)認(rèn)領(lǐng)時,需要不斷地進行電話循環(huán)報警。主人員,由開發(fā)人員來進一步判斷風(fēng)險的嚴(yán)重程度。主要針對資產(chǎn)等級較高的(如A1、A2)數(shù)據(jù),要針對A3及以上資產(chǎn)等級的數(shù)據(jù),以及與偏行為分析以及與支付、交易相關(guān)的數(shù)據(jù)相關(guān)的數(shù)據(jù)5.2.3數(shù)據(jù)資產(chǎn)成本治理n針對上述描述的3種數(shù)據(jù),我們需要設(shè)計對應(yīng)的策略。置相關(guān)的自動下架任務(wù),如超過30天沒有訪問記錄,或訪問記錄低則考慮是否有剔除與合并的可能,盡量降低表的成本.消耗.性能高消耗主要考慮數(shù)據(jù)是否發(fā)生了傾斜,因為資源分配是按高低中是高低低是低中高否低高高否果。我們先統(tǒng)計高峰期的時長,再計算每秒消耗1個CU(1CU=4GB以被下架的表的存儲容量,乘以1GB內(nèi)存的價格,就可以得出數(shù)據(jù)資產(chǎn)優(yōu)化的相關(guān)功能界面如圖5-6所示。第6章數(shù)據(jù)服務(wù)中心6.1數(shù)據(jù)服務(wù)中心概述6.2數(shù)據(jù)服務(wù)中心的設(shè)計思路6.2.3按主題歸類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年醫(yī)院化學(xué)發(fā)光分析儀采購合同
- 2026年醫(yī)院古醫(yī)療調(diào)解模型館共建合同
- 2026年eVTOL起降場設(shè)計合同
- 2025年智能配送機器人項目可行性研究報告
- 2025年數(shù)字化用戶體驗優(yōu)化項目可行性研究報告
- 2025年數(shù)字化轉(zhuǎn)型解決方案實施項目可行性研究報告
- 爬架分包合同范本
- 義賣慈善協(xié)議書
- 老人請保姆協(xié)議書
- 2025年電動船舶研發(fā)與應(yīng)用項目可行性研究報告
- 酒類進貨合同范本
- 2026年教師資格之中學(xué)綜合素質(zhì)考試題庫500道及答案【真題匯編】
- TCEC5023-2020電力建設(shè)工程起重施工技術(shù)規(guī)范報批稿1
- 2025秋國開《人力資源管理理論與實務(wù)》形考任務(wù)1234參考答案
- 2026年5G網(wǎng)絡(luò)升級培訓(xùn)課件
- 2026云南昆明鐵道職業(yè)技術(shù)學(xué)院校園招聘4人考試筆試參考題庫及答案解析
- 2025安徽宣城寧國市面向社會招聘社區(qū)工作者25人(公共基礎(chǔ)知識)綜合能力測試題附答案解析
- 模板工程技術(shù)交底
- 廣東省廣州市越秀區(qū)2024-2025學(xué)年上學(xué)期期末考試九年級數(shù)學(xué)試題
- 2025年區(qū)域經(jīng)濟一體化發(fā)展模式可行性研究報告及總結(jié)分析
- 醫(yī)療器械全生命周期有效性管理策略
評論
0/150
提交評論