版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS25.040.40
CCSL70
21
遼寧省地方標準
DB21/T3893—2023
工業(yè)數(shù)據(jù)流通數(shù)據(jù)清洗規(guī)范
2023-12-30發(fā)布2024-01-30實施
遼寧省市場監(jiān)督管理局發(fā)布
DB21/T3893—2023
目次
前言.................................................................................III
1范圍................................................................................1
2規(guī)范性引用文件......................................................................1
3術(shù)語和定義..........................................................................1
4縮略語..............................................................................2
5清洗目的............................................................................2
6清洗范圍............................................................................2
7過程要求............................................................................3
7.1清洗流程........................................................................3
7.2數(shù)據(jù)抽取........................................................................3
7.3定義規(guī)則........................................................................3
7.4數(shù)據(jù)過濾........................................................................4
7.5數(shù)據(jù)校驗........................................................................4
7.6錯誤標識........................................................................4
7.7修正處理........................................................................5
7.8數(shù)據(jù)轉(zhuǎn)換........................................................................6
7.9結(jié)果檢驗........................................................................6
7.10數(shù)據(jù)加載.......................................................................8
8環(huán)境要求............................................................................8
8.1數(shù)據(jù)脫敏........................................................................8
8.2數(shù)據(jù)安全.......................................................................10
8.3人員能力.......................................................................10
9質(zhì)量要求...........................................................................10
參考文獻..............................................................................12
I
DB21/T3893—2023
前言
本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起
草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。
本文件由遼寧省工業(yè)和信息化廳提出并歸口。
本文件起草單位:沈陽華睿博信息技術(shù)有限公司、國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心遼寧分中
心、遼寧艾特斯智能交通技術(shù)有限公司、遼寧職業(yè)學院、東北大學、上海數(shù)據(jù)交易所、遼寧省大數(shù)據(jù)管
理中心、北京賽迪時代信息產(chǎn)業(yè)股份有限公司、遼寧省先進裝備制造業(yè)基地建設(shè)工程中心。
本文件主要起草人:邵華、李凱、黃書鵬、王宇飛、宋憲輝、王義剛、申翔宇、譚振華、楊成實、
張翔宇、魏國偉、劉洋。
本文件發(fā)布實施后,任何單位和個人如有問題和意見建議,均可以通過來電和來函等方式進行反饋,
我們將及時答復并認真處理,根據(jù)實際情況依法進行評估及復審。
歸口管理部門通信地址:沈陽市遼寧省沈陽市皇姑區(qū)北陵大街45-2號。
歸口管理部門聯(lián)系電話
文件起草單位通訊地址:遼寧省沈陽市和平區(qū)青年大街386號華陽國際大廈2396。
文件起草單位聯(lián)系電話
III
DB21/T3893—2023
工業(yè)數(shù)據(jù)流通數(shù)據(jù)清洗規(guī)范
1范圍
本文件規(guī)定了工業(yè)數(shù)據(jù)清洗的過程要求、環(huán)境要求和質(zhì)量要求。
本文件適用于數(shù)據(jù)流通中的工業(yè)數(shù)據(jù)清洗。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文
件。
GB/T22239-2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求
GB/T35274-2017信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求
GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語
GB/T37973-2019信息安全技術(shù)大數(shù)據(jù)安全管理指南
GB/T39477-2020信息安全技術(shù)政務(wù)信息共享數(shù)據(jù)安全技術(shù)要求
GB/T42128-2022智能制造工業(yè)數(shù)據(jù)分類原則
DA/T82-2019基于文檔型非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)清洗datacleaning
運用一定方法識別并修正數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量的過程。
3.2
工業(yè)數(shù)據(jù)industrialdata
在工業(yè)領(lǐng)域中,涉及企業(yè)的所有生產(chǎn)活動和服務(wù)所產(chǎn)生的數(shù)據(jù)。
[來源:GB/T42128-2022,3.1.1]
3.3
結(jié)構(gòu)化數(shù)據(jù)structureddata
一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用關(guān)
系模型予以有效描述。
[來源:GB/T35295-2017,2.2.13]
3.4
非結(jié)構(gòu)化數(shù)據(jù)unstructureddata
不具有預定義模型或未以預定義方式組織的數(shù)據(jù)。
[來源:GB/T35295-2017,2.1.25]
1
DB21/T3893—2023
3.5
半結(jié)構(gòu)化數(shù)據(jù)semi-structureddata
具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進二維表的數(shù)據(jù)。
示例:XML文檔內(nèi)容,每項都被一對標記封起來,如<title></title>,表面上看是結(jié)構(gòu)化數(shù)據(jù),但<title></title>之間
的數(shù)據(jù)卻是千變?nèi)f化,這是典型的半結(jié)構(gòu)化數(shù)據(jù)。
[來源:DA/T82-2019,2.8]
3.6
表結(jié)構(gòu)tablestructure
為主體層內(nèi)容提供表示語義的一種存儲范例。
[來源:GB/T35295-2017,2.2.14]
3.7
敏感數(shù)據(jù)sensitivedata
由權(quán)威機構(gòu)確定的受保護的信息數(shù)據(jù)。
注:敏感信息數(shù)據(jù)的泄露、修改、破壞或丟失會對人或事產(chǎn)生可預知的損害。
[來源:GB/T35295-2017,2.2.14]
4縮略語
下列縮略語適用于本文件。
ETL:數(shù)據(jù)的抽取、轉(zhuǎn)換、加載(ExtractTransformLoad)
5清洗目的
工業(yè)數(shù)據(jù)涉及到各種傳感器、監(jiān)測設(shè)備和生產(chǎn)設(shè)備,具有多樣性和異構(gòu)性,由于傳感器和設(shè)備的不穩(wěn)
定性、及環(huán)境變化等因素影響,工業(yè)數(shù)據(jù)中存在大量錯誤數(shù)據(jù)、缺失數(shù)據(jù)和異常數(shù)據(jù)。
工業(yè)數(shù)據(jù)清洗目的是清除或修正錯誤數(shù)據(jù)、缺失數(shù)據(jù)、異常數(shù)據(jù)或其他有問題的數(shù)據(jù),提高工業(yè)數(shù)據(jù)
在建模分析、應(yīng)用開發(fā)、資源調(diào)度和監(jiān)測管理等方面的應(yīng)用價值,保障流通的工業(yè)數(shù)據(jù)質(zhì)量。
6清洗范圍
清洗范圍涵蓋工業(yè)領(lǐng)域產(chǎn)品和服務(wù)全生命周期產(chǎn)生和應(yīng)用的數(shù)據(jù),包括但不限于工業(yè)企業(yè)在研發(fā)設(shè)計、
生產(chǎn)制造、供應(yīng)鏈物流、營銷、運維、管理及金融等環(huán)節(jié)中生成和使用的數(shù)據(jù),以及工業(yè)互聯(lián)網(wǎng)平臺企業(yè)
在設(shè)備接入、平臺運行、工業(yè)應(yīng)用程序使用等過程中生成和使用的數(shù)據(jù)。各類型數(shù)據(jù)說明如下:
a)研發(fā)設(shè)計數(shù)據(jù):包括研發(fā)設(shè)計數(shù)據(jù)、開發(fā)測試數(shù)據(jù)等;
b)生產(chǎn)制造數(shù)據(jù):包括控制信息、工況狀態(tài)、工藝參數(shù)、系統(tǒng)日志、生產(chǎn)質(zhì)量數(shù)據(jù)、生產(chǎn)實績數(shù)據(jù)
等;
c)供應(yīng)鏈物流數(shù)據(jù):包括供需計劃數(shù)據(jù)、倉儲物流數(shù)據(jù)等;
d)營銷數(shù)據(jù):包括投標次數(shù)、訂單數(shù)量、交易金融、客戶異議數(shù)據(jù)等;
e)運維數(shù)據(jù):包括產(chǎn)品運行狀況數(shù)據(jù)、產(chǎn)品售后服務(wù)數(shù)據(jù)等;
f)管理數(shù)據(jù):包括客戶基本信息、業(yè)務(wù)合作數(shù)據(jù)、人事財務(wù)數(shù)據(jù)、系統(tǒng)設(shè)備資產(chǎn)信息、產(chǎn)品基本信
息、項目進度數(shù)據(jù)、業(yè)務(wù)統(tǒng)計數(shù)據(jù)(如資源量數(shù)據(jù)、能耗監(jiān)測數(shù)據(jù)等);
g)金融數(shù)據(jù):包括信貸數(shù)據(jù)、融資租賃數(shù)據(jù)、征信數(shù)據(jù)等;
2
DB21/T3893—2023
h)平臺運營數(shù)據(jù):接入的設(shè)備數(shù)據(jù)、工業(yè)模型數(shù)據(jù)、工業(yè)應(yīng)用程序數(shù)據(jù)、平臺運行數(shù)據(jù)等。
7過程要求
7.1清洗流程
工業(yè)數(shù)據(jù)清洗流程包括數(shù)據(jù)抽取、定義規(guī)則、數(shù)據(jù)過濾、數(shù)據(jù)校驗、錯誤標識、修正處理、數(shù)據(jù)轉(zhuǎn)換、
結(jié)果檢驗及數(shù)據(jù)加載等環(huán)節(jié)。工業(yè)數(shù)據(jù)清洗可采取ETL流程。工業(yè)數(shù)據(jù)清洗ETL流程圖見圖1。
圖1工業(yè)數(shù)據(jù)清洗ETL流程圖
7.2數(shù)據(jù)抽取
數(shù)據(jù)抽取應(yīng)符合以下要求:
a)應(yīng)具備全量抽取和增量抽取兩種方式;
b)數(shù)據(jù)抽取來源應(yīng)能支撐抽取操作,使用生產(chǎn)庫,或通過前置庫等方式進行抽??;
c)應(yīng)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等不同類型數(shù)據(jù)的抽??;
d)數(shù)據(jù)抽取目的地的存儲容量應(yīng)能支持數(shù)據(jù)抽取來源的數(shù)據(jù)總量,數(shù)據(jù)抽取目的地的表結(jié)構(gòu)應(yīng)與數(shù)
據(jù)抽取來源的表結(jié)構(gòu)保持一致;
e)增量抽取應(yīng)確定增量更新的方式,抽取的數(shù)據(jù)應(yīng)有字段可區(qū)分,如更新時間等。
7.3定義規(guī)則
3
DB21/T3893—2023
應(yīng)分析抽取目標數(shù)據(jù)的范圍、體量、類型、內(nèi)容、關(guān)系、質(zhì)量等信息,全面認識數(shù)據(jù)情況。數(shù)據(jù)清洗
針對的對象主要有缺失值、異常值、重復值和無用值,針對不同對象的不同形式,結(jié)合應(yīng)用需求,確定數(shù)
據(jù)清洗目標和規(guī)則,從而得到期望的數(shù)據(jù)。
針對不同的清洗對象,清洗規(guī)則包括:
a)缺失值清洗:按照缺失比例和缺失字段重要性,制定清洗策略;
b)異常值清洗:針對取值錯誤、格式錯誤和邏輯錯誤制定不同的清洗策略;
c)重復值:重復數(shù)據(jù)可以去重或作出標記;
d)無用值:無用數(shù)據(jù)字段可以直接進行刪除。但在進行該過程的時候,要注意備份原始數(shù)據(jù)。
7.4數(shù)據(jù)過濾
數(shù)據(jù)過濾應(yīng)包括以下操作:
a)將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);
b)對噪聲數(shù)據(jù)進行刪除;
c)對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則的數(shù)據(jù)進行刪除;
d)過濾刪除掉的數(shù)據(jù)應(yīng)存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用。
7.5數(shù)據(jù)校驗
7.5.1基本要求
應(yīng)對工業(yè)數(shù)據(jù)進行非空校驗、長度校驗、數(shù)據(jù)量校驗、數(shù)據(jù)類型和值校驗。當不滿足校驗要求時,應(yīng)
進行數(shù)據(jù)錯誤標識;當滿足校驗要求時,直接進行數(shù)據(jù)轉(zhuǎn)換。
7.5.2非空校驗
應(yīng)在字段為非空的情況下,對該字段數(shù)據(jù)進行校驗,數(shù)據(jù)不能為空值。
7.5.3長度校驗
數(shù)據(jù)長度應(yīng)滿足轉(zhuǎn)換要求的字段長度。
7.5.4數(shù)據(jù)量校驗
過濾后的數(shù)據(jù)總量應(yīng)與原始抽取的數(shù)據(jù)總量吻合。
7.5.5數(shù)據(jù)類型和值校驗
數(shù)據(jù)類型和值應(yīng)能支持后續(xù)數(shù)據(jù)轉(zhuǎn)換過程,如后續(xù)根據(jù)定義規(guī)則需要將時間字符串數(shù)據(jù)轉(zhuǎn)換成時間類
型時,還需檢驗時間字符串類型的數(shù)據(jù)是否符合時間格式。
7.6錯誤標識
7.6.1錯誤類型
工業(yè)數(shù)據(jù)的錯誤類型包括但不限于:
a)殘缺數(shù)據(jù):缺一些記錄,或一條記錄里缺一些值(空值),或兩者都缺;
b)錯誤數(shù)據(jù):數(shù)據(jù)沒有嚴格按照規(guī)范記錄,包括格式內(nèi)容錯誤、邏輯錯誤、不合規(guī)等;
c)重復數(shù)據(jù):相同的記錄出現(xiàn)多條或多條記錄代表同一實體。
7.6.2識別方法
4
DB21/T3893—2023
可采用統(tǒng)計學方法、數(shù)據(jù)挖掘、基于聚類的方法、基于距離的方法、基于分類的方法、基于關(guān)聯(lián)規(guī)則
的方法、業(yè)務(wù)區(qū)分等方式分析數(shù)據(jù),從而識別出數(shù)據(jù)的錯誤類型。
7.6.3標識步驟
錯誤標識步驟如下:
a)按7.6.2推薦的識別方法,分析篩選出工業(yè)數(shù)據(jù)資源中存在的數(shù)據(jù)問題;
b)按7.6.1給出的錯誤類型,對數(shù)據(jù)問題進行分類,標識錯誤。
7.7修正處理
7.7.1殘缺數(shù)據(jù)處理
7.7.1.1處理策略
殘缺數(shù)據(jù)按照字段缺失率和字段重要性,分別制定處理策略。殘缺數(shù)據(jù)處理策略制定應(yīng)滿足以下內(nèi)容:
a)重要性高、缺失率低:通過計算進行填充;通過經(jīng)驗或業(yè)務(wù)知識估計;
b)重要性高、缺失率高:嘗試從其他渠道取數(shù)補全;使用其他字段通過計算獲??;去除字段并在結(jié)
果中標明;
c)重要性低、缺失率低:不做處理或簡單填充;
d)重要性低、缺失率高:去除該字段。
7.7.1.2去除字段處理
數(shù)據(jù)中如有多余字段,應(yīng)備份當前數(shù)據(jù),直接刪除掉不需要的字段。
7.7.1.3填充缺失內(nèi)容處理
應(yīng)采用以下方式填充缺失內(nèi)容:
a)同指標的計算結(jié)果填充:通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)系,采取一定的列項拆分、列計算等
方式得到缺失內(nèi)容;
b)同一指標的計算結(jié)果填充:采取均值、中位數(shù)、眾數(shù)等方式進行填充;
c)重新獲?。寒斎笔矢咔曳浅V匾臄?shù)據(jù)項,應(yīng)采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進行關(guān)聯(lián)對比填
充。
7.7.1.4取數(shù)補全處理
應(yīng)通過線下收集、業(yè)務(wù)知識或經(jīng)驗推測補全缺失值。
7.7.2錯誤數(shù)據(jù)處理
7.7.2.1格式內(nèi)容問題處理
格式內(nèi)容問題數(shù)據(jù)處理應(yīng)采用以下方法:
a)全、半角處理:通過正則表達式將全、半角符號按照事先定義的規(guī)則進行全、半角符號統(tǒng)一;
b)有不該存在的字符:以半自動校驗結(jié)合半人工方式來找出存在的問題,自動去除不需要的字符,
將數(shù)據(jù)自動化統(tǒng)一或人工修正為正確字符;
c)內(nèi)容與字段不匹配:詳細識別問題類型,如人工填寫錯誤、前端沒有校驗、導入數(shù)據(jù)時部分或全
部存在列沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,不能直接刪除,應(yīng)按照清洗規(guī)則,采取加入更多
數(shù)據(jù)源進行數(shù)據(jù)關(guān)聯(lián),找到匹配的相應(yīng)字段進行填補。
7.7.2.2邏輯問題處理
5
DB21/T3893—2023
邏輯問題數(shù)據(jù)處理應(yīng)采用以下方法:
a)了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接去掉一些使用簡單邏輯推理即可發(fā)現(xiàn)問題的數(shù)
據(jù);
b)對于不重要的不合理數(shù)據(jù)應(yīng)過濾,形成錯誤數(shù)據(jù)集由數(shù)源部門進行確認是否可刪除;
c)通過字段間相互驗證的方法修正矛盾內(nèi)容,如根據(jù)字段的數(shù)據(jù)來源,判定哪個字段提供的信息更
可靠,去除或重構(gòu)不可靠字段;
d)通過分箱、聚類、回歸等方法識別離群值(異常值),按照經(jīng)驗和業(yè)務(wù)流程判斷其合理性,若合
理,則保留該數(shù)值;若不合理,對重要性較高而無法重新采集的數(shù)值,按缺失數(shù)據(jù)處理,對重要
性較低的數(shù)值,可直接刪除;
e)對于復雜邏輯數(shù)據(jù)問題應(yīng)咨詢了解該數(shù)據(jù)的產(chǎn)生原因,按照協(xié)商的清洗加工規(guī)則進行處理。
7.7.2.3不合規(guī)問題處理
不合規(guī)問題數(shù)據(jù)處理應(yīng)采用以下方法:
a)設(shè)定判定規(guī)則:設(shè)定強制合規(guī)條件,對于不在規(guī)則范圍內(nèi)的數(shù)據(jù),應(yīng)強制設(shè)置最大值及最小值,
或剔除、判斷為無效字段;
b)設(shè)定警告規(guī)則:對于不在規(guī)則范圍內(nèi)的數(shù)據(jù),應(yīng)進行警告及人工處理。
7.7.3重復數(shù)據(jù)處理
重復數(shù)據(jù)處理步驟如下:
a)通過元數(shù)據(jù)血緣關(guān)系查詢到重復數(shù)據(jù)的各個來源;
b)通過數(shù)據(jù)主鍵或?qū)ふ蚁嚓P(guān)信息識別重復數(shù)據(jù)的含義,不是相同含義的數(shù)據(jù)不能界定為重復數(shù)據(jù)進
行去重處理,應(yīng)分別保留;
c)查詢到確定的重復數(shù)據(jù),根據(jù)權(quán)威性和應(yīng)用場合,選擇最恰當渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)
保真度和完整性的情況下進行合并處理。
7.8數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換應(yīng)符合以下要求:
a)數(shù)據(jù)轉(zhuǎn)換應(yīng)在數(shù)據(jù)校驗通過后開始;
b)數(shù)據(jù)轉(zhuǎn)換開始前應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致;
c)應(yīng)實現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突進行轉(zhuǎn)換;
示例1:統(tǒng)一時間日期數(shù)據(jù)格式。
1)將各類日期統(tǒng)一轉(zhuǎn)換為八位的字符日期,如YYYYMMDD。
2)將各類時間統(tǒng)一轉(zhuǎn)換為六位的字符時間,如HHMMSS。
3)將各類時序數(shù)據(jù)的時間日期統(tǒng)一轉(zhuǎn)換為十四位的字符時間日期,如YYYYMMDDHHMMSS。
示例2:統(tǒng)一分類數(shù)據(jù)取值代碼。
1)將人員性別數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為國際性別信息代碼。
2)將組織地址數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為行政區(qū)劃代碼。
3)將組織名稱統(tǒng)一轉(zhuǎn)換為統(tǒng)一社會信用代碼。
d)轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu)應(yīng)與目標數(shù)據(jù)庫的結(jié)構(gòu)相兼容;
e)數(shù)據(jù)向目標移動時,將其從源數(shù)據(jù)中移除,或數(shù)據(jù)復制到多個目標中;
f)轉(zhuǎn)換失敗應(yīng)立即停止,開始查找問題;
g)長時間未轉(zhuǎn)換結(jié)束,需仔細核查數(shù)據(jù)量、規(guī)則和字段是否一致,如有問題應(yīng)立即停止;
h)應(yīng)在解決查找到的問題后再開始數(shù)據(jù)轉(zhuǎn)換。
7.9結(jié)果檢驗
6
DB21/T3893—2023
7.9.1檢驗內(nèi)容
檢驗內(nèi)容應(yīng)包括:
a)主鍵重復:檢驗多個業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時,主鍵的唯一性;
b)非法代碼、非法值:檢查個別字段出現(xiàn)的異常信息,包括非法代碼、代碼與數(shù)據(jù)標準不一致、取
值錯誤、格式錯誤、多余字符、亂碼等;
c)數(shù)據(jù)格式:檢驗表中屬性值的格式是否正確,衡量其準確性,如時間格式、幣種格式、業(yè)務(wù)部門
格式、物料格式等;
d)記錄數(shù):檢驗各個系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù)或檢驗數(shù)據(jù)表中每日數(shù)據(jù)量的波動;
e)業(yè)務(wù)約束:應(yīng)從業(yè)務(wù)的角度檢驗數(shù)據(jù)的正確性、一致性、有效性等,如出(入)庫日期、客戶(供
應(yīng)商)基本信息、設(shè)備運行信息等;
f)標準約束:對照系統(tǒng)數(shù)據(jù)應(yīng)符合的標準進行校驗。
7.9.2結(jié)果要求
7.9.2.1規(guī)范性
數(shù)據(jù)的質(zhì)量及存儲標準應(yīng)統(tǒng)一,源數(shù)據(jù)應(yīng)在源頭或備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集
內(nèi)不應(yīng)有重復值。
7.9.2.2完整性
數(shù)據(jù)集合中應(yīng)包含足夠的數(shù)據(jù)來響應(yīng)各種查詢和支持各種計算。數(shù)據(jù)完整性體現(xiàn)在以下方面:
a)元數(shù)據(jù)的完整性,例如:唯一性約束完整性、參照完整性等;
b)數(shù)據(jù)條目完整性,例如:數(shù)據(jù)記錄丟失或不可用會影響數(shù)據(jù)的完整性等;
c)數(shù)據(jù)屬性完整性,例如:數(shù)據(jù)屬性空值情況等。
7.9.2.3準確性
數(shù)據(jù)所指內(nèi)容對數(shù)據(jù)所指對象的反應(yīng)、表現(xiàn)應(yīng)準確,數(shù)據(jù)形式對數(shù)據(jù)內(nèi)容的表述、表達應(yīng)準確。
7.9.2.4一致性
數(shù)據(jù)一致性應(yīng)符合以下要求:
a)同一個數(shù)據(jù)在同一時刻在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)只有一個值;
b)數(shù)據(jù)字段內(nèi)數(shù)據(jù)應(yīng)與字段描述一致;
c)最終結(jié)果數(shù)據(jù)的統(tǒng)計量應(yīng)與預測一致;
d)數(shù)據(jù)項應(yīng)在取值范圍、單位、精度等方面保持一致。
7.9.2.5時效性
不同類型的應(yīng)用對數(shù)據(jù)的時間特性有不同的要求,數(shù)據(jù)的時間特性應(yīng)滿足業(yè)務(wù)應(yīng)用的要求,數(shù)據(jù)記錄
應(yīng)根據(jù)時間特性及時更新。
7.9.2.6可訪問性
數(shù)據(jù)來源穩(wěn)定,數(shù)據(jù)結(jié)果應(yīng)支撐后續(xù)業(yè)務(wù)。
7.9.3檢驗步驟
結(jié)果檢驗應(yīng)包括以下步驟:
a)按7.9.1規(guī)定檢驗清洗加工后的數(shù)據(jù)資源情況;
7
DB21/T3893—2023
b)按7.9.2要求核對數(shù)據(jù)資源達標情況;
c)當數(shù)據(jù)資源未達到7.9.2要求,應(yīng)返回再次進行數(shù)據(jù)轉(zhuǎn)換;
d)當數(shù)據(jù)資源達到7.9.2要求,應(yīng)進行數(shù)據(jù)加載或結(jié)束數(shù)據(jù)清洗。
7.10數(shù)據(jù)加載
數(shù)據(jù)加載應(yīng)滿足以下要求:
a)數(shù)據(jù)價值方式應(yīng)匹配數(shù)據(jù)抽取方式,包含全量加載、增量加載,如海量數(shù)據(jù)、數(shù)據(jù)變化比較規(guī)律、
變化數(shù)據(jù)相對總量較小、業(yè)務(wù)系統(tǒng)能直接提供增量數(shù)據(jù)時,宜使用增量加載;
b)數(shù)據(jù)加載環(huán)境應(yīng)能支撐相應(yīng)數(shù)據(jù);
c)數(shù)據(jù)加載工具具有高效的加載性能,應(yīng)能至少滿足業(yè)務(wù)需求;
d)數(shù)據(jù)加載策略應(yīng)考慮數(shù)據(jù)加載周期和數(shù)據(jù)追加策略;
e)數(shù)據(jù)加載應(yīng)記錄日志,并按相關(guān)規(guī)定留存日志文件;
f)數(shù)據(jù)加載過程可根據(jù)實際操作情況,在定義規(guī)則過程前進行。
8環(huán)境要求
8.1數(shù)據(jù)脫敏
8.1.1脫敏流程
應(yīng)在保證敏感信息不被泄露的環(huán)境下進行工業(yè)數(shù)據(jù)清洗,工業(yè)數(shù)據(jù)脫敏工作流程包括發(fā)現(xiàn)敏感數(shù)據(jù)、
標識敏感數(shù)據(jù)、確定脫敏方法、定義脫敏規(guī)則、執(zhí)行脫敏操作和評估脫敏效果等環(huán)節(jié)。
8.1.2發(fā)現(xiàn)敏感數(shù)據(jù)
基于工業(yè)數(shù)據(jù)分類分級制度,在完整的數(shù)據(jù)范圍內(nèi)查找并發(fā)現(xiàn)敏感數(shù)據(jù),并明確敏感數(shù)據(jù)結(jié)構(gòu)化或非
結(jié)構(gòu)化的數(shù)據(jù)表現(xiàn)形態(tài),如敏感數(shù)據(jù)固定的字段格式。
在發(fā)現(xiàn)敏感數(shù)據(jù)過程中,應(yīng)滿足以下內(nèi)容:
a)定義數(shù)據(jù)脫敏工作執(zhí)行的范圍,應(yīng)在該范圍內(nèi)執(zhí)行敏感數(shù)據(jù)的發(fā)現(xiàn)工作;
b)應(yīng)通過對數(shù)據(jù)表名稱、字段名稱、數(shù)據(jù)記錄內(nèi)容、數(shù)據(jù)表備注、數(shù)據(jù)文件內(nèi)容等直接匹配或正則
表達式匹配發(fā)現(xiàn)敏感數(shù)據(jù);
c)宜考慮數(shù)據(jù)引用的完整性,如保證數(shù)據(jù)庫的引用完整性約束;
d)數(shù)據(jù)發(fā)現(xiàn)手段應(yīng)支持主流的數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)、文件系統(tǒng),同時應(yīng)支持云計算環(huán)境下的
主流新型存儲系統(tǒng);
e)宜利用自動識別工具執(zhí)行數(shù)據(jù)發(fā)現(xiàn)工作,并降低該過程對生產(chǎn)系統(tǒng)的影響;
f)數(shù)據(jù)發(fā)現(xiàn)工具應(yīng)具有擴展機制,可根據(jù)業(yè)務(wù)需要自定義敏感數(shù)據(jù)的發(fā)現(xiàn)邏輯;
g)應(yīng)固化常用的敏感數(shù)據(jù)發(fā)現(xiàn)規(guī)則,例如身份證號、手機號等敏感數(shù)據(jù)的發(fā)現(xiàn)規(guī)則,避免重復定義
數(shù)據(jù)發(fā)現(xiàn)規(guī)則。
8.1.3標識敏感數(shù)據(jù)
在發(fā)現(xiàn)敏感數(shù)據(jù)后,應(yīng)對敏感數(shù)據(jù)進行標識,包括標識敏感數(shù)據(jù)的位置、敏感數(shù)據(jù)的格式等信息。敏
感數(shù)據(jù)的標識方法應(yīng)確保敏感數(shù)據(jù)標識信息能夠隨敏感數(shù)據(jù)一起流動,并不易于刪除和篡改,從而可以對
敏感數(shù)據(jù)的訪問、傳輸和處理進行跟蹤和監(jiān)督,以確保敏感數(shù)據(jù)的安全合規(guī)性。
在標識敏感數(shù)據(jù)時,應(yīng)滿足以下內(nèi)容:
a)應(yīng)盡早在數(shù)據(jù)的收集階段就對敏感數(shù)據(jù)進行識別和標識,這樣便于在數(shù)據(jù)的整個生命周期階段對
敏感數(shù)據(jù)進行有效管理;
8
DB21/T3893—2023
b)敏感數(shù)據(jù)的標識方法應(yīng)考慮便捷性和安全性,使得標識后的數(shù)據(jù)很容易被識別,同時,要確保敏
感數(shù)據(jù)標識信息不容易被惡意攻擊者刪除和篡改;
c)敏感數(shù)據(jù)的標識方法應(yīng)支持靜態(tài)數(shù)據(jù)的敏感標識及動態(tài)流數(shù)據(jù)的敏感標識。
8.1.4確定脫敏方法
可選的數(shù)據(jù)脫敏方法包括靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。不同的數(shù)據(jù)脫敏方法對數(shù)據(jù)源的影響不同,
脫敏的時效性也不一樣。脫敏方法確定后,可選擇對應(yīng)的數(shù)據(jù)脫敏工具。
在確定數(shù)據(jù)脫敏方案時,應(yīng)滿足以下內(nèi)容:
a)靜態(tài)數(shù)據(jù)脫敏方法是對原始數(shù)據(jù)進行一次脫敏,脫敏后的結(jié)果數(shù)據(jù)可以多次使用,適合使用場景
比較單一的場合;
b)動態(tài)數(shù)據(jù)脫敏方法是在敏感數(shù)據(jù)顯示時,針對不同用戶需求,對顯示數(shù)據(jù)進行屏蔽處理的數(shù)據(jù)脫
敏方式,它要求系統(tǒng)有安全措施確保用戶不能夠繞過數(shù)據(jù)脫敏層次直接接觸敏感數(shù)據(jù)。動態(tài)數(shù)據(jù)
脫敏適合用戶需求不確定、使用場景復雜的情形。
8.1.5定義脫敏規(guī)則
在敏感數(shù)據(jù)生命周期識別的基礎(chǔ)上,應(yīng)明確存在數(shù)據(jù)脫敏需求的業(yè)務(wù)場景,并結(jié)合行業(yè)法規(guī)的要求和
業(yè)務(wù)場景的需求,制定相應(yīng)業(yè)務(wù)場景下有效的數(shù)據(jù)脫敏規(guī)則。
在定義脫敏規(guī)則過程中,應(yīng)滿足以下內(nèi)容:
a)應(yīng)遵循的個人隱私保護、數(shù)據(jù)安全保護等關(guān)鍵領(lǐng)域的國內(nèi)外法規(guī)、行業(yè)監(jiān)管規(guī)范或標準,以此作
為數(shù)據(jù)脫敏規(guī)則必須遵循的原則;
b)對已識別出的敏感數(shù)據(jù)執(zhí)行全生命周期(產(chǎn)生、采集、使用、交換、銷毀)流程的梳理,應(yīng)明確
在全生命周期各階段,用戶對數(shù)據(jù)的訪問需求和當前的權(quán)限設(shè)置情況,分析整理出存在數(shù)據(jù)脫敏
需求的業(yè)務(wù)場景。例如,在梳理過程中,會發(fā)現(xiàn)存在對敏感數(shù)據(jù)的訪問需求和訪問權(quán)限不匹配的
情況(用戶僅需獲取敏感數(shù)據(jù)中部分內(nèi)容即可,但卻擁有對敏感數(shù)據(jù)內(nèi)容全部的訪權(quán)限),因此
該業(yè)務(wù)場景存在敏感數(shù)據(jù)的脫敏需求;
c)分析存在數(shù)據(jù)脫敏需求的業(yè)務(wù)場景,在“最小夠用”的原則下明確待脫敏的數(shù)據(jù)內(nèi)容、符合業(yè)務(wù)
需求的脫敏方式,以及該業(yè)務(wù)的服務(wù)水平方面的要求,以便于脫敏規(guī)則的制定;
d)數(shù)據(jù)脫敏工具應(yīng)提供擴展機制,從而讓用戶可根據(jù)需求自定義脫敏的方法;
e)通過數(shù)據(jù)脫敏工具選擇數(shù)據(jù)脫敏方法時,脫敏工具中應(yīng)對各類方法的使用進行詳細的說明,說明
應(yīng)包括但不限于規(guī)則的實現(xiàn)原理、數(shù)據(jù)引用完整性影響、數(shù)據(jù)語義完整性影響、數(shù)據(jù)分布頻率影
響、約束和限制等,以支撐脫敏工具的使用者在選擇脫敏方式時做出正確的選擇;
f)應(yīng)固化常用的敏感數(shù)據(jù)脫敏規(guī)則,例如身份證號、手機號等的常用脫敏規(guī)則,避免數(shù)據(jù)脫敏項目
實施過程中重復定義數(shù)據(jù)脫敏規(guī)則。
8.1.6執(zhí)行脫敏操作
數(shù)據(jù)脫敏操作可包括條數(shù)據(jù)脫敏和塊數(shù)據(jù)脫敏。條數(shù)據(jù)脫敏是對單條數(shù)據(jù)根據(jù)脫敏規(guī)則實施脫敏,塊
數(shù)據(jù)脫敏是對聚合數(shù)據(jù)實施脫敏。在日常的脫敏工作中,監(jiān)控分析數(shù)據(jù)脫敏過程的穩(wěn)定性、以及對業(yè)務(wù)的
影響性,同時對脫敏工作開展定期的安全審計,已發(fā)現(xiàn)脫敏工作中存在的安全風險。
在執(zhí)行脫敏操作過程中,應(yīng)滿足以下內(nèi)容:
a)支持從數(shù)據(jù)源克隆數(shù)據(jù)到新環(huán)境(例如從生產(chǎn)環(huán)境、備份庫克隆數(shù)據(jù)到新環(huán)境),并在新環(huán)境中
進行脫敏過程的執(zhí)行,也支持在數(shù)據(jù)源端直接進行脫敏;
b)對脫敏任務(wù)的管理,宜考慮采用自動化管理的方式提升任務(wù)管理效率,例如定時、條件設(shè)置的方
式觸發(fā)脫敏任務(wù)的執(zhí)行;
c)執(zhí)行對脫敏任務(wù)的運行監(jiān)控,宜考慮任務(wù)執(zhí)行的穩(wěn)定性以及脫敏任務(wù)對業(yè)務(wù)的影響;
9
DB21/T3893—2023
d)設(shè)置專人定期對數(shù)據(jù)脫敏的相關(guān)日志記錄進行安全審計,發(fā)布審計報告,并跟進審計中發(fā)現(xiàn)的例
外和異常,審計應(yīng)重點關(guān)注高權(quán)限賬號的操作日志和脫敏工作的記錄日志。
8.1.7評估脫敏效果
通過收集、整理數(shù)據(jù)脫敏工作執(zhí)行的數(shù)據(jù),例如相關(guān)監(jiān)控數(shù)據(jù)、審計數(shù)據(jù),對數(shù)據(jù)脫敏的前期工作開
展情況進行反饋,從而優(yōu)化相關(guān)規(guī)程,明確數(shù)據(jù)脫敏過程中應(yīng)滿足的內(nèi)容。
在評估脫敏效果過程中,應(yīng)滿足以下內(nèi)容:
a)利用測試工具評估脫敏后數(shù)據(jù)對應(yīng)用系統(tǒng)的功能、性能影響,從而明確對整體業(yè)務(wù)服務(wù)水平的影
響,測試負載宜盡量保證與生產(chǎn)環(huán)境一致,宜盡量提供從生產(chǎn)環(huán)境克隆數(shù)據(jù)訪問負載到脫敏系統(tǒng)
進行回放測試的功能;
b)應(yīng)根據(jù)組織業(yè)務(wù)發(fā)展的情況和脫敏工作執(zhí)行的反饋,優(yōu)化數(shù)據(jù)脫敏工作開展的規(guī)程。
8.2數(shù)據(jù)安全
應(yīng)在與互聯(lián)網(wǎng)隔絕的安全環(huán)境下清洗工業(yè)數(shù)據(jù),環(huán)境應(yīng)支持數(shù)據(jù)可存儲、可轉(zhuǎn)化,工業(yè)數(shù)據(jù)清洗應(yīng)符
合GB/T22239-2019、GB/T35274-2017和GB/T37973-2019的相關(guān)要求,確保工業(yè)數(shù)據(jù)的保密性和完整性。
8.3人員能力
工業(yè)數(shù)據(jù)清洗人員應(yīng)經(jīng)過相應(yīng)的技術(shù)和安全培訓,具有數(shù)據(jù)清洗的能力,取得相關(guān)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管
理認證資格,并能按照數(shù)據(jù)安全管理相關(guān)制度完成工業(yè)數(shù)據(jù)清洗工作。
9質(zhì)量要求
清洗后的工業(yè)數(shù)據(jù)應(yīng)符合數(shù)據(jù)流通的質(zhì)量管理要求,工業(yè)數(shù)據(jù)質(zhì)量特性包括:規(guī)范性、完整性、準確
性、一致性、時效性及可訪問性。各質(zhì)量特性的說明如下:
a)規(guī)范性:數(shù)據(jù)符合數(shù)據(jù)標準、數(shù)據(jù)模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年新能源行業(yè)創(chuàng)新報告及儲能技術(shù)應(yīng)用報告
- 保險業(yè)監(jiān)管報表制度
- 護理高級職稱晉升科研能力提升
- 企業(yè)有關(guān)離職的制度
- 交易經(jīng)紀制度
- 兩參一改三結(jié)合制度
- 2026年溫州市甌海區(qū)司法局招聘編外人員的備考題庫帶答案詳解
- 吐魯番市托克遜縣公安局2025年面向社會公開招聘第二批警務(wù)輔助人員備考題庫及完整答案詳解一套
- 北京市水利規(guī)劃設(shè)計研究院2026年校園招聘備考題庫及參考答案詳解一套
- 2026中國三坐標測量機行業(yè)前景動態(tài)及投資潛力預測報告
- JJG 272-2024 空盒氣壓表和空盒氣壓計檢定規(guī)程
- 醫(yī)療機構(gòu)抗菌藥物臨床應(yīng)用分級管理目錄(2024年版)
- 無人機培訓計劃表
- 我和我的祖國混聲四部合唱簡譜
- (正式版)JTT 1218.6-2024 城市軌道交通運營設(shè)備維修與更新技術(shù)規(guī)范 第6部分:站臺門
- 2023年美國專利法中文
- 電氣防火防爆培訓課件
- 彝族文化和幼兒園課程結(jié)合的研究獲獎科研報告
- 空調(diào)安裝免責協(xié)議
- 湖北省襄樊市樊城區(qū)2023-2024學年數(shù)學四年級第一學期期末質(zhì)量檢測試題含答案
- 新北師大版八年級數(shù)學下冊導學案(全冊)
評論
0/150
提交評論