DB5120T 19.4-2023 數(shù)據(jù)資源體系技術(shù)指南 第4部分:數(shù)據(jù)倉庫建設(shè)指南  _第1頁
DB5120T 19.4-2023 數(shù)據(jù)資源體系技術(shù)指南 第4部分:數(shù)據(jù)倉庫建設(shè)指南  _第2頁
DB5120T 19.4-2023 數(shù)據(jù)資源體系技術(shù)指南 第4部分:數(shù)據(jù)倉庫建設(shè)指南  _第3頁
DB5120T 19.4-2023 數(shù)據(jù)資源體系技術(shù)指南 第4部分:數(shù)據(jù)倉庫建設(shè)指南  _第4頁
DB5120T 19.4-2023 數(shù)據(jù)資源體系技術(shù)指南 第4部分:數(shù)據(jù)倉庫建設(shè)指南  _第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240.01CCSL70DB5120資陽市市場監(jiān)督管理局發(fā)布IDB5120/T19.4—2023 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 2 26命名規(guī)范 47開發(fā)規(guī)范 7參考文獻 DB5120/T19.4—2023本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利,本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。本文件由資陽市政務(wù)服務(wù)和大數(shù)據(jù)管理局提出并歸口。本文件由資陽市市場監(jiān)督管理局批準并發(fā)布。本文件起草單位:資陽市大數(shù)據(jù)服務(wù)中心、資陽數(shù)智科技有限公司。本文件主要起草人:劉桄序、戢培全、邵柏華、袁嘉、劉光乾、楊建康、張亞琴、李愛民、劉西北、鄭雪梅、鄧森林、彭國林、陳杜宇、楊通、李強、夏榮、張潤澤、任良華、冷耀、陳熙。本文件為首次發(fā)布。1DB5120/T19.4—2023數(shù)據(jù)資源體系技術(shù)指南第4部分:數(shù)據(jù)倉庫建設(shè)指南本文件規(guī)定了資陽市域數(shù)據(jù)倉庫建設(shè)相關(guān)術(shù)語和定義、縮略語、綜述、命名規(guī)范、開發(fā)規(guī)范等工作規(guī)范。本文件適用于資陽市域的數(shù)據(jù)倉庫建設(shè)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.1信息技術(shù)詞匯第1部份:基本術(shù)語GB/T11457信息技術(shù)軟件工程術(shù)語GB/T18492信息技術(shù)系統(tǒng)及軟件完整性級別GB/T20270信息安全技術(shù)網(wǎng)絡(luò)基礎(chǔ)安全技術(shù)要求GB/T20271信息安全技術(shù)信息系統(tǒng)通用安全技術(shù)要求GB/T22032系統(tǒng)工程系統(tǒng)生存周期過程GB/T21062.3政務(wù)信息資源交換體系第3部分:數(shù)據(jù)接口規(guī)范GB/T25000系統(tǒng)與軟件工程(所有部分)GB/T28452信息安全技術(shù)應(yīng)用軟件系統(tǒng)通用安全技術(shù)要求GB/T29264信息技術(shù)服務(wù)分類與代碼GB/T29765信息安全技術(shù)數(shù)據(jù)備份與恢復(fù)產(chǎn)品技術(shù)要求與測試評價方法GB/T35295信息技術(shù)大數(shù)據(jù)術(shù)語GB/T36625.3智慧城市數(shù)據(jù)融合第3部分:數(shù)據(jù)采集規(guī)范GB/T38667信息技術(shù)大數(shù)據(jù)數(shù)據(jù)分類指南GB/T40094.2電子商務(wù)數(shù)據(jù)交易第2部分:數(shù)據(jù)描述規(guī)范GB/T40094.3電子商務(wù)數(shù)據(jù)交易第3部分:數(shù)據(jù)接口規(guī)范行GB/T42450信息技術(shù)大數(shù)據(jù)數(shù)據(jù)資源規(guī)劃DB51/T3056政務(wù)數(shù)據(jù)數(shù)據(jù)分類分級指南3術(shù)語和定義GB/T5271.1、GB/T11457、GB/T18492、GB/T20270、GB/T20271、GB/T21062.3、GB/T25000、GB/T28452、GB/T29264、GB/T29765、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T40094.3、GB/T42450、DB51/T3056界定的以及下列術(shù)語和定義適用于本文件。3.1數(shù)據(jù)倉庫datawarehouse數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。2DB5120/T19.4—20233.2貼源層operationaldatastore數(shù)據(jù)準備區(qū),與數(shù)據(jù)源的數(shù)據(jù)同構(gòu),是數(shù)據(jù)倉庫層加工數(shù)據(jù)的來源,主要目的是簡化后續(xù)數(shù)據(jù)加工處理的工作。3.3標準層standarddata貼源層的數(shù)據(jù)進行清洗、轉(zhuǎn)化后的數(shù)據(jù),為后續(xù)數(shù)據(jù)加工提供標準數(shù)據(jù)。3.4明細層datawarehousedetail保存通過標準層標準化之后的所有歷史數(shù)據(jù),為后續(xù)數(shù)據(jù)加工提供統(tǒng)一的、標準的數(shù)據(jù)視圖。3.5匯聚層datawarehousesummary按主題對明細層數(shù)據(jù)進行綜合、歸類。3.6集市層datamart在匯聚層的基礎(chǔ)上,滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成的面向決策分析需求的數(shù)據(jù)立方(一個全局數(shù)據(jù)表與其多個重要字段的索引組成的一個類似于立方體的數(shù)據(jù)組織結(jié)構(gòu))。4縮略語下列縮略語適用于本文件。ODS:貼源層(OperationalDataStore)STD:標準層(STandardDat)DWD:明細層(DataWarehouseDetail)DWS:匯聚層(DataWarehouseSummary)DM:集市層(DataMart)5綜述本文件的擬制是為了規(guī)范數(shù)據(jù)倉庫的建設(shè)過程,降低開發(fā)難度,保障開發(fā)質(zhì)量,避免因開發(fā)不規(guī)范文檔導(dǎo)致的重復(fù)開發(fā)及返工等問題。5.2原則數(shù)據(jù)倉庫建設(shè)的基本原則主要有三條:a)統(tǒng)一性:為了保持開發(fā)風格一致,使得各類命名、各類規(guī)則、各類數(shù)據(jù)格式、開發(fā)過程階段、問題處理方式等保持統(tǒng)一,數(shù)據(jù)倉庫的建設(shè)需符合“統(tǒng)一性”原則。3DB5120/T19.4—2023b)明確性:為了保證開發(fā)內(nèi)容的可理解和易運維,數(shù)據(jù)倉庫的建設(shè)需符合“明確性”的原則,命名明確、代碼明確、規(guī)則明確、處理流程明確、各類分層明確等。c)可擴展性:為了保障后續(xù)數(shù)據(jù)倉庫在各個維度的易擴展能力,需要遵循“可擴展性”原則,要求在模型設(shè)計、字段設(shè)計、代碼設(shè)計等階段關(guān)注此原則。。5.3數(shù)據(jù)架構(gòu)(數(shù)據(jù)采集過程與采集規(guī)范一致),如圖1所示圖1數(shù)據(jù)架構(gòu)5.4分區(qū)選取原則5.4.1表分區(qū)原則:a)有數(shù)據(jù)更新的表需要做分區(qū),若表數(shù)據(jù)量少則每個分區(qū)存當前全量數(shù)據(jù),數(shù)據(jù)量大則每個分區(qū)放增量數(shù)據(jù);b)分區(qū)列盡量選擇能夠讓數(shù)據(jù)均勻分布的列,避免數(shù)據(jù)傾斜;c)有必要時可以選擇多級分區(qū)(如:地區(qū)/年/月/日);d)需要頻繁查詢且數(shù)據(jù)量較大的表。5.4.2表不分區(qū)原則:a)數(shù)據(jù)幾乎不更新的表不需要做分區(qū),如字典表;b)數(shù)據(jù)量少于100萬條。。5.5任務(wù)調(diào)度任務(wù)調(diào)度是配置任務(wù)的運行周期,主要基于數(shù)據(jù)資源中心數(shù)據(jù)開發(fā)平臺或其他大數(shù)據(jù)平臺的工作流配置。主要包括以下屬性:a)調(diào)度周期:工作流調(diào)度頻率,支持分鐘/小時/天/周/月/年。b)起止時間:調(diào)度將在有效日期內(nèi)生效并自動調(diào)度,每次調(diào)度生成工作流實例。c)依賴上一周期:工作流的本次運行需要依賴上一周期的運行結(jié)果。如果上一周期運行失敗,則需要手動將上一周期的工作流實例修復(fù)并重跑成功,才能繼續(xù)進行下一周期。d)補數(shù)據(jù):若設(shè)置的調(diào)度起始時間早于當前時間一個調(diào)度周期及以上,則缺失的調(diào)度周期會被立刻執(zhí)行,實現(xiàn)補數(shù)據(jù)的目的。例如:如果調(diào)度起始時間早于當前時間2個小時,調(diào)度周期1個小時,會把之前2個小時的2個工作流實例也生成運行。4DB5120/T19.4—2023e)調(diào)度依賴:即只有指定的上游工作流實例已按依賴策略執(zhí)行成功,才會調(diào)度執(zhí)行本工作流實例。如果添加了多個上游工作流,則需要所有上游工作流同時滿足。。6命名規(guī)范6.1模型層命名命名要求如表1所示。表1模型層命名分層名英文全稱中文名層次定義實現(xiàn)功能:業(yè)務(wù)源系統(tǒng)數(shù)據(jù)接入到此層,此層數(shù)據(jù)不做任何加工,禁實現(xiàn)功能:該層為標準數(shù)據(jù)層,主要是ODS層的數(shù)據(jù)進行清洗、轉(zhuǎn)化后,導(dǎo)入到這一層,為DWD層提供標準數(shù)據(jù),并把清洗后的臟數(shù)據(jù)保實現(xiàn)功能:該層為數(shù)據(jù)明細層,主要按主題對數(shù)據(jù)進行綜合、歸類。保留通過STD層標準經(jīng)之后的所有歷史數(shù)據(jù),為DWS、DM層提供統(tǒng)一實現(xiàn)功能:該層為數(shù)據(jù)匯聚層,主要從DWD層的數(shù)據(jù)進行粗粒度聚合匯總;按業(yè)務(wù)需求對事實進行拉寬形成寬表,共性匯總加工。此次支實現(xiàn)功能:該層為數(shù)據(jù)集市層,根據(jù)應(yīng)用要求,生成相關(guān)結(jié)果數(shù)據(jù),6.2數(shù)據(jù)表命名6.2.1ODS層實體/表名命名形式:ods_{數(shù)源單位簡稱的拼音首字母}_{業(yè)務(wù)系統(tǒng)拼音首字母}_{數(shù)源單位原有表名稱},如表2所示。表2ODS層表名模型事實表名稱模型事實表描述命名規(guī)則:a)使用英文小寫字母,單詞之間用下劃線分開。5DB5120/T19.4—2023b)ODS表會根據(jù)情況進行分區(qū),但表名稱不體現(xiàn)分區(qū)情況,因為ODS表名稱需要與源業(yè)務(wù)系統(tǒng)名稱保持一致。c)日期分區(qū)字段名稱為dt,具體取值格式參見:6.2.6章節(jié)d)添加數(shù)據(jù)加載日期字段load_time,數(shù)據(jù)類型為String,值格式為:YYYY-MM-DD6.2.2STD層實體/表名命名形式:std_{數(shù)源單位簡稱的拼音首字母}_{業(yè)務(wù)系統(tǒng)拼音首字母}_{根據(jù)真實表名稱提取中文首字母},如表3所示。表3STD層表名模型事實表名稱模型事實表描述std_sgaj_jzpt_czrkxxstd_市公安局_警綜平臺_常駐人口信息std_sscjgj_frxxpt_fddbrstd_市市場監(jiān)管局_法人信息平臺_法定代表人命名規(guī)則:使用英文小寫字母,單詞之間用下劃線分開。6.2.3DWD層實體/表名命名形式:dwd_{一級類目}_<二級類目>[_數(shù)據(jù)描述]_{拉鏈標識},如表4所示。表4DWD層表名模型事實表名稱模型事實表描述dwd_jbxx_djxx_jtyjsyjbxxbdwd_基本信息_登記信息_交通域駕駛員基本信息表dwd_jbxx_djxx_jtyjsyjbxxb_hisdwd_基本信息_登記信息_交通域駕駛員基本信息表歷史拉鏈表dwd_jbxx_djxx_jtykklldwd_基本信息_登記信息_交通域卡口流量命名規(guī)則:a)使用英文小寫字母,單詞之間用下劃線分開。b)一級類目、二級類目、數(shù)據(jù)描述均采用中文首字母。c)如果是歷史拉鏈表則在表名稱加“_his”后綴。6.2.4DM層實體/表名命名形式:dm_<模型名稱縮寫>_<數(shù)據(jù)內(nèi)容描述>,如表5所示。表5DM層表名模型事實表名稱模型事實表描述dm_alarm交通域失衡預(yù)警次數(shù)日表dm_index交通域失衡指數(shù)日表命名規(guī)則,如表6所示:(1)使用英文小寫字母,單詞之間用下劃線分開;(2)模型名稱縮寫、數(shù)據(jù)內(nèi)容描述均采用中文首字母。表6DM命名規(guī)則模型名稱對應(yīng)縮寫區(qū)域人口分布qyrkfb各地區(qū)各年齡分性別人口分布gdqgnlfxbrkfb各少數(shù)民族人口分布gssmzrkfb各地市分受教育程度人口數(shù)量gdsfsjycdrksl分地區(qū)新生兒性別分布fdqxsexbfb6DB5120/T19.4—2023表6(續(xù))DM命名規(guī)則模型名稱對應(yīng)縮寫各地市歷年出生、死亡人口統(tǒng)計gdslncsswrktj遷移人口分布情況qyrkfbqk三次產(chǎn)業(yè)分性別遷入人口sccyfxbqrrk各地市城鎮(zhèn)化率趨勢gdsczhlqs分年齡不同文化程度不同性別婚姻情況fnlbtwhcdbtxbhyqk各地區(qū)近年離婚率趨勢gdqjnlhlqs各地區(qū)養(yǎng)老保險參保人數(shù)gdqtlbxcbrs6.2.5臨時表命名規(guī)范臨時表指數(shù)據(jù)加工處理過程中,用于臨時存儲的過渡表。命名形式:tmp_<模型層表命名規(guī)范>_[XX]a)以tmp打頭,中間為該事實表的名稱,b)以XX結(jié)尾,XX為從01~99的數(shù)字。6.2.6分區(qū)字段命名及取值規(guī)范針對表需要分區(qū)的情況,所有的一級分區(qū)字段名稱都為“dt”,如果需要有二級分區(qū),則添加相應(yīng)的二級分區(qū)字段,dt分區(qū)的具體的分區(qū)周期,可從模型的命名規(guī)范中得知,每種分區(qū)的取值規(guī)范如表7所示。表7分區(qū)取值規(guī)范分區(qū)周期取值規(guī)范備注日數(shù)據(jù)格式:YYYY-MM-DD,如:2021-03-12周數(shù)據(jù)格式:YYYYWW00,YYYY表示某年,WW表示為某年的第幾周,00為數(shù)字的零;月數(shù)據(jù)格式:YYYYMM,如202103年數(shù)據(jù)格式:YYYY,如20216.3節(jié)點命名,如表8所示。表8節(jié)點命名規(guī)范節(jié)點、資源類型命名規(guī)范示例備注數(shù)據(jù)集成節(jié)點etl_{節(jié)點含義}etl_開始根節(jié)點啟動任務(wù)SparkSQL節(jié)點sql_{節(jié)點含義}sql_用水量異常統(tǒng)計Mlab節(jié)點mlab_{節(jié)點含義}mlab_用水量異常統(tǒng)計數(shù)據(jù)清洗節(jié)點clean_{節(jié)點含義}clean_用水量異常統(tǒng)計PhoenixSQL節(jié)點ph_{節(jié)點含義}ph_異常分析數(shù)據(jù)直通節(jié)點Hbase_{節(jié)點含義}hbase_日異常分析SubWorkflow節(jié)點sub_{工作流名稱}sub_指標系統(tǒng)并發(fā)節(jié)點并發(fā)并發(fā)使用默認名稱不需要更改結(jié)合結(jié)合結(jié)合使用默認名稱不需要更改python資源{腳本名稱}.pyGetLinkDailyVolume.py用英文字母,首字母大寫{腳本名稱}.jarGetLinkDailyVolume.jar用英文字母,首字母大寫6.4工作流命名,如表9所示。7DB5120/T19.4—2023表9工作流命名規(guī)范節(jié)點、資源類型命名規(guī)范示例備注DataBridge轉(zhuǎn)換任務(wù)名}_{all/inr}zh_ods_gat_jdcdjxx_allall為全量inr為增量DataBridge作業(yè)管理周期}zy_ods_gat_jdcdjxx_all_dd:天w:周m:月y:年DataRiver標準層清洗周期}_{all/inr}bz_std_gat_jdcdjxx_d_allall為全量inr為增量,itg為integration,inr為incrementd:天w:周m:月y:年DataRiver明細層周期}_{all/inr}mx_dwd_jbxx_d_all天w:周m:月y:年DataRiver匯聚層周期}_{all/inr}hj_dws_jbxx_czrkdall天w:周m:月y:年DataRiver集市層周期}_{all/inr}js_dm_nlrk_inrd:天w:周m:月y:年DataRiver工作調(diào)度流程dd_{業(yè)務(wù)流程含義}_{運行周期}dd_kk_flow_sd_dd:天w:周m:月y:年DataRiver或DataStudio工作流job_{工作流含義}_{all/inr}job_kk_flow_sd_allall為全量inr為增量7開發(fā)規(guī)范7.1統(tǒng)一數(shù)據(jù)格式在STD層實施過程中,需要將各源系統(tǒng)的數(shù)據(jù)格式進行統(tǒng)一,如表10所示,主要需統(tǒng)一的數(shù)據(jù)格表10數(shù)據(jù)格式標準化格式類型統(tǒng)一格式示例YYYYMMDD,默認為1900010120190612YYYYMMDDHHMMSS,默認為1900010100000020190905120000年份YYYY,默認為19002019年月YYYYMM,默認為19000120190905時間(分)YYYYMMHHMM默認為190001010000201909051200身份證18位字符,合規(guī)性判斷,15位身份證通過數(shù)據(jù)加工系統(tǒng)統(tǒng)一轉(zhuǎn)化字符串去除頭尾空格;去除回車;全角轉(zhuǎn)半角Trim(‘數(shù)夢工8DB5120/T19.4—2023表10(續(xù))數(shù)據(jù)格式標準化格式類型統(tǒng)一格式示例整型默認為0(可根據(jù)具體業(yè)務(wù)類型調(diào)整去除空格字符、換行回車雙精度默認保留4位小數(shù)位(可根據(jù)具體業(yè)務(wù)調(diào)整)主鍵去重去空值域清洗對于數(shù)值類型進行檢查以查看它們是否位于可接受的范圍內(nèi),假如默認值為空,則不做數(shù)據(jù)轉(zhuǎn)換,否則需要賦為默認值數(shù)值清洗對于數(shù)值類型進行檢查以查看它們是否位于可接受的范圍內(nèi),假如默認值為空,則不做數(shù)據(jù)轉(zhuǎn)換,否則需要賦為默認值強制轉(zhuǎn)換對該字段進行強制轉(zhuǎn)換為默認值,如:密碼字段轉(zhuǎn)為"0"空格清洗判斷字段是否都為空格,假如默認值為空,則不做數(shù)據(jù)轉(zhuǎn)換,否則需要賦為默認值7.2統(tǒng)一數(shù)據(jù)維度應(yīng)合并來自不同數(shù)據(jù)源的數(shù)據(jù),每個維度進行標準化、統(tǒng)一化,在數(shù)據(jù)倉庫中為每個維度建立一致性的標準,記錄在維度表中,并通過元數(shù)據(jù)與數(shù)據(jù)映射組合的方式進行描述,方便后續(xù)的數(shù)據(jù)交叉探查等工作。應(yīng)為每個維度建立標準化的編碼方式,以及數(shù)據(jù)格式。在建立標準化的編碼方式后,將各源系統(tǒng)中數(shù)據(jù)中的維度數(shù)據(jù)進行關(guān)聯(lián)轉(zhuǎn)換,將不同數(shù)據(jù)源標識同一事物的不同屬性值進行統(tǒng)一。對于不同系統(tǒng)的不同維度,創(chuàng)建維度的映射關(guān)系表,將其映射到標準化后的維度上。7.3處理重復(fù)數(shù)據(jù)常見的重復(fù)場景及處理方式如表11所示表11重復(fù)數(shù)據(jù)處理方式重復(fù)場景處理方式每日全量入庫使用數(shù)據(jù)加工系統(tǒng)中去重的功能;大部分字段一樣,但僅某些時間字段不一致,通常為后續(xù)添加的操作時間字段取最新操作時間;業(yè)務(wù)主鍵一致的情況下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論