《智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范》_第1頁
《智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范》_第2頁
《智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范》_第3頁
《智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范》_第4頁
《智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范》_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240

CCSL70

T/CASME

中國中小商業(yè)企業(yè)協會團體標準

T/CASMEXXX—2024

智慧電子商務園區(qū)大數據平臺數據接入質

量規(guī)范

Dataaccessqualityspecificationforbigdataplatforminsmarte-

commercepark

(征求意見稿)

2024-XX-XX發(fā)布2024-XX-XX實施

中國中小商業(yè)企業(yè)協會發(fā)布

T/CASMEXXX—2024

前言

本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定

起草。

請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。

本文件由中移物聯網有限公司提出。

本文件由中國中小商業(yè)企業(yè)協會歸口。

本文件起草單位:中移物聯網有限公司、XXX。

本文件主要起草人:XXX。

II

T/CASMEXXX—2024

智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范

1范圍

本文件規(guī)定了智慧電子商務園區(qū)大數據平臺(以下簡稱“大數據平臺”)的數據質量評價維度、數

據接入質量技術要求、數據質量評價方法和安全要求。

本文件適用于智慧電子商務園區(qū)接入大數據平臺過程中的數據質量保障工作。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.1信息技術詞匯第1部分:基本術語

GB/T24662電子商務產品核心元數據

GB/T24663電子商務企業(yè)核心元數據

GB/T36318—2018電子商務平臺數據開放總體要求

GB/T36344信息技術數據質量評價指標

GB/T37973信息安全技術大數據安全管理指南

3術語和定義

GB/T5271.1和GB/T36344界定的術語和定義適用于本文件。

4概述

大數據平臺支持結構化數據、半結構化數據和非結構化數據等異構數據源采集數據,實現各類離線

數據、實時數據的采集與接入。針對大數據平臺的數據接入,執(zhí)行相應的質量評價標準,保證數據質量,

為智慧電子商務園區(qū)提供優(yōu)質的數據服務。

5數據質量評價維度

指標框架

數據質量的評價主要包括八個維度:完整性、規(guī)范性、一致性、準確性、唯一性、關聯性、時效性

和可訪問性,數據質量評價指標框架見圖1。

1

T/CASMEXXX—2024

數據質量評價指標框架

完規(guī)一準唯關時可

整范致確一聯效訪

性問

性性性

圖1數據質量評價指標框架

指標說明

5.2.1完整性

按數據規(guī)則要求,數據信息不應存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可

能是數據中某個字段信息的記錄缺失。不完整的數據所能借鑒的價值會大大降低。完整性評價指標見表

1。

表1完整性評價指標

指標名稱指標描述計算方法

計算公式:?=?/?

按照業(yè)務規(guī)則要求,數據集中應被賦值的數據元素的賦式中:

數據元素完整性

值程度。A=被賦值的數據集中元素的個數;

B=預期被賦值的數據集中元素的個數

計算公式:?=?/?

按照業(yè)務規(guī)則要求,數據集中應被賦值的數據記錄的賦式中:

數據記錄完整性

值程度。A=被賦值的數據集中元素的個數;

B=預期被賦值的數據集中元素的個數

5.2.2規(guī)范性

5.2.2.1數據應符合數據標準、數據模型、業(yè)務規(guī)則、元數據或權威參考數據,規(guī)范性評價指標見表

2。

5.2.2.2電子商務園區(qū)企業(yè)核心元數據應符合GB/T24663的規(guī)定,產品核心元數據應符合GB/T24662

的規(guī)定。

表2規(guī)范性評價指標

指標名稱指標描述計算方法

數據符合數據標準的度量

注1:評價數據質量時需要收集數據在命名、創(chuàng)建、定計算公式:?=?/?

義、更新和歸檔時遵循的標準,包括國際標準、國家標式中:

數據標準準、行業(yè)標準、地方標準或相關規(guī)定等。A=滿足數據標準要求的數據集中元素的

注2:和數據歸檔一樣甚至更重要,在一個完整的數據個數;

規(guī)則中,舊數據的銷毀一般也有一個比較詳細且具有可B=被評價的數據集中元素個數

行性的規(guī)定。

2

T/CASMEXXX—2024

表2規(guī)范性評價指標(續(xù))

指標名稱指標描述計算方法

數據符合數據模型的度量計算公式:?=?/?

注1:數據模型是一種直觀描述組織數據結構的手段,式中:

數據模型是數據表達的規(guī)范。A=滿足數據模型要求的數據集中元素的

注2:評價數據質量時需要檢查是否存在清晰且可理解個數;

的數據模型定義以及這些數據的組織形式。B=被評價的數據集中元素個數

計算公式:?=?/?

數據符合元數據定義的度量

式中:

注:元數據標注、描述或刻畫其他數據、以使檢索或

元數據A=滿足元數據定義的數據集中元素的個

使用數據更容易。評價數據質量時需要檢查是否提供可

數;

解讀的元數據文檔。

B=被評價的數據集中元素個數

數據符合業(yè)務規(guī)則的度量

計算公式:?=?/?

注1:業(yè)務規(guī)則是一種權威性原則或業(yè)務方針,用來描

式中:

述業(yè)務交互,并建立行動和數據行為結果及完整性的規(guī)

業(yè)務規(guī)則A=滿足業(yè)務規(guī)則的數據集中元素的個

則。

數;

注2:評價數據質量時需要檢查是否存在良好歸檔的業(yè)

B=被評價的數據集中元素個數

務規(guī)則。

計算公式:?=?/?

參考數據是系統(tǒng)、應用軟件、數據庫、流程、報告及交式中:

權威參考數據易記錄和主記錄用來參考的數值集合和分類表A=滿足參考數據規(guī)則的數據集中元素的

注:評價數據質量時需要收集參考數據列表。個數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

安全規(guī)則是安全和隱私方面的規(guī)則,包括數據權限管

安全規(guī)則A=滿足安全規(guī)范的數據集中元素的個

理數據脫敏處理等

數;

B=被評價的數據集中元素個數

5.2.3一致性

數據與其他特定上下文中使用的數據應無矛盾,即數據是否遵循了統(tǒng)一的規(guī)范,數據集合是否保持

了統(tǒng)一的格式。數據質量的一致性主要體現在數據記錄的規(guī)范和數據是否符合邏輯。一致性評價指標見

3。

表3-致性評價指標

指標名稱指標描述計算方法

計算公式:?=?/?

同一數據在不同位置存儲或被不同應用或用戶使用式中:

相同數據一致性時,數據的一致性,數據發(fā)生變化時,存儲在不同位A=滿足一致性要求的數據集中元素的個

置的數據的同一數據被同步修改數;

B=被評價的數據集中元素個數

3

T/CASMEXXX—2024

表3-致性評價指標(續(xù))

指標名稱指標描述計算方法

計算公式:?=?/?

式中:

關聯數據一致性根據一致性約束規(guī)則檢查關聯數據的一致性A=滿足一致性要求的數據集中元素的個

數;

B=被評價的數據集中元素個數

5.2.4準確性

數據應準確表示所描述的真實實體(實際對象)真實值,即指數據記錄的信息不應存在異?;蝈e誤。

準確性評價指標見表4。

表4準確性評價指標

指標名稱指標描述計算方法

計算公式:?=?/?

式中:

數據內容正確性數據內容是否是預期數據A=滿足數據正確性要求的數據集中元素

的個數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

數據格式包含(數據類型、數據范圍、數據長度、精

數據格式合規(guī)性A=滿足一滿足格式要求的數據集中元素

度等)是否滿足預期要求

的個數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

數據重復率特定字段、記錄、文件或數據集意外重復的度量

A=重復數據集中元素的個數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

數據唯一性特定字段、記錄、文件或數據集唯一性的度量A=滿足唯一性要求的數據集中元素的個

數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

臟數據出現率正確字段、記錄、文件或數據集之外無效數據的度量A=有臟數據出現的數據集中元素的個

數;

B=被評價的數據集中元素個數

5.2.5唯一性

4

T/CASMEXXX—2024

應度量哪些數據是重復數據或者數據的哪些屬性是重復的。

5.2.6關聯性

應度量哪些關聯的數據缺失或者未建立索引,關聯性評價因素如下:

——查找到的信息和主題不完全一致,但確是其中某一方面的闡述;

——查找到的信息集合多數在用戶需要的檢索主題內;

——提供的信息主題與用戶檢索主題相匹配;

——查找到的信息多數與用戶需要的信息無關;

——信息應和用戶需求有相關性。

5.2.7時效性

時效性評價指標見表5。

表5時效性評價指標

指標名稱指標描述計算方法

計算公式:?=?/?

式中:

基于日期范圍內的記錄數或頻率分布符合業(yè)務需求的程

基于時間段的正確性A=有臟數據出現的數據集中元素的個

數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

基于時間戳的記錄數、頻率分布或延時時間符合業(yè)務需

基于時間點的及時性A=有臟數據出現的數據集中元素的個

求的程度

數;

B=被評價的數據集中元素個數

計算公式:?=?/?

式中:

時序性數據集中同一實體的數據元素之間的相對時序關系A=有臟數據出現的數據集中元素的個

數;

B=被評價的數據集中元素個數

5.2.8可訪問性

可訪問性評價指標見表6。

表6可訪問性評價指標

指標名稱指標描述計算方法

計算公式:?=?/?

式中:

可訪問數據在需要時的可獲取性A=滿足可訪問性要求的數據集中元素的

個數;

B=被評價的數據集中元素個數

5

T/CASMEXXX—2024

表6可訪問性評價指標(續(xù))

指標名稱指標描述計算方法

計算公式:?=?/?

式中:

可用性數據在設定有效生存周期內的可使用性A=滿足可用性要求的數據集中元素的個

數;

B=被評價的數據集中元素個數

6數據接入質量技術要求

總則

大數據平臺為了保障數據質量,應從四個層面進行數據質量控制,數據標準體系質量控制、數據采

集質量控制、數據存儲質量控制、數據使用質量控制進行全流程數據質量管控。

數據標準體系質量控制

6.2.1標準制定

6.2.1.1數據標準的制定按照數據標準管理的業(yè)務分類和定義規(guī)范指導要求,基于電子商務數據管控

需求,進行數據標準規(guī)范的制定,要求大數據平臺按照該標準規(guī)范進行統(tǒng)一的數據管理。

6.2.1.2數據標準制定包括數據標準的編制、審核、發(fā)布。數據標準化管理組織將數據標準以正式發(fā)

文的方式在內部進行發(fā)布,并在發(fā)布后將數據標準、版本說明保存?zhèn)浒?。最終將發(fā)布的數據標準更新至

數據標準管理模塊中。

6.2.2標準執(zhí)行

數據標準執(zhí)行的流程步驟描述如下:

——數據標準制定發(fā)布后,將數據標準錄入到數據標準管理模塊;

——數據標準管理執(zhí)行者按照發(fā)布的數據標準,制定和發(fā)布數據標準接口;

——數據標準管理模塊將標準要求提供給數據質量管理,根據已錄入系統(tǒng)的數據標準形成稽查規(guī)

則,對數據標準管理執(zhí)行者制定和發(fā)布的數據標準接口中的內容進行相關的標準核監(jiān)控;

——將標準稽核結果發(fā)送給數據標準管理模塊,并反饋給數據標準管理決策者和數據標準管理執(zhí)

行者。

6.2.3標準維護

數據標準維護流程描述如下:

——對執(zhí)行的相關數據標準進行變更請求的申請,組織該數據標準相關執(zhí)行層和各數據運維者進

行討論和變更需求匯總;

——由數據標準管理組織協調機構進行標準變更的審核;

——討論審議數據標準項的變更內容,并形成標準變更需求審批表提交給數據標準管理決策層進

行審批;

——決策層將審批結果反饋給標準管理組織協調者,并由其進行數據標準發(fā)布及版本維護。

6.2.4標準監(jiān)控

6

T/CASMEXXX—2024

數據標準監(jiān)控實現對數據標準執(zhí)行過程的監(jiān)控,包括對數據標準的執(zhí)行、效果、問題進行監(jiān)控管理,

為后期數據標準維護管理提供依據。數據標準的監(jiān)控通過數據標準管理和元數據管理、數據質量管理協

司實現落地。

數據采集質量控制

6.3.1數據采集

6.3.1.1數據采集活動的目標是獲得數據,數據采集方式包括但不限于:

——網絡數據采集:通過網絡爬蟲或公開API等方式獲取數據;

——從其他組織獲取:通過線上或線下等方式從組織外獲取數據;

——通過傳感器獲取:傳感器包括溫度傳感器、電視、汽車、攝像頭等公共和個人的智能設備;

——系統(tǒng)數據:組織內部的系統(tǒng)在運行過程中采集和產生的業(yè)務數據,以及各種系統(tǒng)、程序和服

務運行產生的大量運維和日志數據等。

6.3.1.2數據采集活動主要操作包括但不限于:發(fā)現數據源、傳輸數據、生成數據、緩存數據、創(chuàng)建

元數據、數據轉換、數據完整性驗證等。

6.3.2質量控制

6.3.2.1待采集數據字段長度、精度、類型等應優(yōu)先遵循國家標準、行業(yè)標準的約定。

6.3.2.2采集過程支持元數據的保留,包含技術元數據和業(yè)務元數據。

6.3.2.3支持對元數據的監(jiān)控,控制數據庫和表結構的異常修改,保證數據質量。

6.3.2.4支持采集階段初步數據檢核。

數據存儲質量控制

6.4.1一般要求

6.4.1.1數據存儲指將數據靜態(tài)保存在大數據平臺,存儲的數據包括采集的數據、分析和處理的結果

數據等。存儲系統(tǒng)可以是關系數據庫、非關系數據庫等,應支持對不同類型和格式的數據存儲,且提供

多種數據訪問接口,如文件系統(tǒng)接口、數據庫接口等。直到數據被徹底刪除之前,存儲的數據均應由大

數據平臺提供恰當的安全保護。

6.4.1.2數據存儲活動的主要操作包括但不限于:數據編解碼、數據加解密、冷熱數據分級存儲、數

據歸檔持久存儲、數據備份、數據更新、數據訪問等。

6.4.2檢核要求

大數據平臺在數據存儲階段需通過多種檢核規(guī)則及任務調度方式對數據進行檢核,數據存儲階段

要求如下:

——保證數據完整性、規(guī)范性、準確性、唯一性、關聯性;

——檢核規(guī)則包含空值校驗、值域校驗、格式校驗、長度校驗、精度校驗、唯一性約束校驗主外

鍵校驗;

——自定義檢核規(guī)則指根據具體業(yè)務場景,用戶可以通過自定義SQL語句的方式完成對數據質量

的檢核;

——支持檢核任務的創(chuàng)建,檢核規(guī)則的設定;

——支持檢核任務的創(chuàng)建和檢核任務調度方式的設定;

——支持對數據質量報告的查看的下載;

——支持數據的全生命周期管理;

7

T/CASMEXXX—2024

——支持對元數據的版本管理。

6.4.3檢核流程

質量檢核流程如下:

——接入待檢核數據源;

——創(chuàng)建檢核方案;

——關聯檢核方案,創(chuàng)建檢核任務;

——配置檢核任務的調度方式,可通過定時器實現自動調度,亦可通過人為實現手工調度;

——任務被調度后是查看任務執(zhí)行日志;

——生成數據質量報告并提供下載,基于質量報告可實現異常數據發(fā)現并處理。

數據使用質量控制

6.5.1要求

數據使用要求如下:

——支持對數據進行監(jiān)控,明確數據的來源和去向;

——支持數據地圖、血緣分析、影響分析等方式的數據展現;

——支持對數據資產的安全性管控;

——支持對操作日志以及用戶登錄、退出的日志審計;

——支持數據質量報告分析的查看及下載;

——支持問題數據的告警;

——支持對問題數據進行整改分析;

——在數據采集和數據存儲基礎上,實現血緣分析、數據地圖、影響分析、版本管理、質量報

告、問題數據整改分析、數據告警、質量評分;

——使用階段支持數據及功能的權限控制;

——支持系統(tǒng)審計,包含操作日志審計和登錄登出日志審計。

6.5.2使用

大數據平臺數據使用應符合GB/T36318—2018中5.1.3的規(guī)定。

7數據質量評價方法

重復值分析法

在非冗余的情況下,將每條數據記錄中的部分數據項或者所有數據項的取值,與所有的數據記錄進

行逐一比對,識別重復記錄。

缺失值分析法

對每條數據記錄的所有數據項進行逐一檢查,識別數據記錄的數據項是否為空。

值域分析法

將數據項的取值與字段的取值區(qū)間進行比對,識別是否超出取值區(qū)間。

邏輯關系分析法

8

T/CASMEXXX—2024

通過對數據記錄中相關數據項取值的內在邏輯關系進行分析,識別違背邏輯關系的數據記錄。

詞組比對分析法

將數據記錄目標數據項的取值與目標敏感詞、常見錯詞等詞庫內容進行比對,識別與詞庫相同的數

據記錄。

實驗觀察法

設置某些條件,通過控制行為過程,觀察符合條件的結果是否出現。

經驗分析法

對比驗證數據取值與日常生產生活中產生的經驗取值,證實或證偽數據內容。經驗分析法常與邏輯

關系分析法、詞組比對分析法聯合使用。

8安全要求

大數據平臺進行數據采集、數據處理、數據存儲等的安全要求應符合GB/T37973的規(guī)定。

9

T/CASMEXXX—2024

目次

前言.................................................................................II

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術語和定義.........................................................................1

4概述...............................................................................1

5數據質量評價維度...................................................................1

指標框架.......................................................................1

指標說明.......................................................................2

6數據接入質量技術要求...............................................................6

總則...........................................................................6

數據標準體系質量控制...........................................................6

數據采集質量控制...............................................................7

數據存儲質量控制...............................................................7

數據使用質量控制...............................................................8

7數據質量評價方法...................................................................8

重復值分析法...................................................................8

缺失值分析法...................................................................8

值域分析法.....................................................................8

邏輯關系分析法.................................................................8

詞組比對分析法.................................................................9

實驗觀察法.....................................................................9

經驗分析法.....................................................................9

8安全要求...........................................................................9

I

T/CASMEXXX—2024

智慧電子商務園區(qū)大數據平臺數據接入質量規(guī)范

1范圍

本文件規(guī)定了智慧電子商務園區(qū)大數據平臺(以下簡稱“大數據平臺”)的數據質量評價維度、數

據接入質量技術要求、數據質量評價方法和安全要求。

本文件適用于智慧電子商務園區(qū)接入大數據平臺過程中的數據質量保障工作。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.1信息技術詞匯第1部分:基本術語

GB/T24662電子商務產品核心元數據

GB/T24663電子商務企業(yè)核心元數據

GB/T36318—2018電子商務平臺數據開放總體要求

GB/T36344信息技術數據質量評價指標

GB/T37973信息安全技術大數據安全管理指南

3術語和定義

GB/T5271.1和GB/T36344界定的術語和定義適用于本文件。

4概述

大數據平臺支持結構化數據、半結構化數據和非結構化數據等異構數據源采集數據,實現各類離線

數據、實時數據的采集與接入。針對大數據平臺的數據接入,執(zhí)行相應的質量評價標準,保證數據質量,

為智慧電子商務園區(qū)提供優(yōu)質的數據服務。

5數據質量評價維度

指標框架

數據質量的評價主要包括八個維度:完整性、規(guī)范性、一致性、準確性、唯一性、關聯性、時效性

和可訪問性,數據質量評價指標框架見圖1。

1

T/CASMEXXX—2024

數據質量評價指標框架

完規(guī)一準唯關時可

整范

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論