DB52∕T 1540.3-2020 政務(wù)數(shù)據(jù) 第3部分:數(shù)據(jù)清洗加工規(guī)范_第1頁
DB52∕T 1540.3-2020 政務(wù)數(shù)據(jù) 第3部分:數(shù)據(jù)清洗加工規(guī)范_第2頁
DB52∕T 1540.3-2020 政務(wù)數(shù)據(jù) 第3部分:數(shù)據(jù)清洗加工規(guī)范_第3頁
DB52∕T 1540.3-2020 政務(wù)數(shù)據(jù) 第3部分:數(shù)據(jù)清洗加工規(guī)范_第4頁
DB52∕T 1540.3-2020 政務(wù)數(shù)據(jù) 第3部分:數(shù)據(jù)清洗加工規(guī)范_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.020

CCSL70

DB52

貴州省地方標(biāo)準(zhǔn)

DB52/T1540.3—2020

政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范

Governmentdata——Part3:Datacleaningandprocessingspecification

2020-11-20發(fā)布2020-12-20實(shí)施

貴州省市場監(jiān)督管理局發(fā)布

DB52/T1540.3—2020

目次

前言................................................................................II

1范圍..............................................................................1

2規(guī)范性引用文件....................................................................1

3術(shù)語和定義........................................................................1

4縮略語............................................................................2

5環(huán)境要求..........................................................................2

6過程要求..........................................................................3

附錄A(資料性)典型業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則表.............................................10

I

DB52/T1540.3—2020

前言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

本文件是DB52/T1540的第3部分。DB52/T1540已經(jīng)發(fā)布了以下部分:

——第3部分:數(shù)據(jù)清洗加工規(guī)范。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。

本文件由貴州省大數(shù)據(jù)發(fā)展管理局提出。

本文件由貴州省大數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)歸口。

本文件起草單位:貴州省機(jī)械電子產(chǎn)品質(zhì)量檢驗(yàn)檢測院、貴州中軟云上數(shù)據(jù)技術(shù)服務(wù)有限公司、云

上貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司、信通達(dá)智能科技有限公司。

本文件主要起草人:徐凱琳、宿睿智、陳鳳杰、朱永龍、鄭如順、楊建雄、田野、黃明峰、劉軍、

秦曉東、韋超、羅森、常丹丹、安小敏、駱進(jìn)、邵建平、劉彥嘉、孫瑾。

II

DB52/T1540.3—2020

政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范

1范圍

本文件規(guī)定了政務(wù)數(shù)據(jù)清洗加工的術(shù)語和定義、縮略語、環(huán)境要求和過程要求。

本文件適用于政務(wù)數(shù)據(jù)的清洗加工。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

DB52/T1126—2016政府?dāng)?shù)據(jù)數(shù)據(jù)脫敏工作指南

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

數(shù)據(jù)清洗加工datacleaningandprocessing

運(yùn)用一定方法修正識(shí)別到的數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量的過程。

3.2

政務(wù)數(shù)據(jù)governmentdata

各級政務(wù)部門及其技術(shù)支撐單位在履行職責(zé)過程中依法采集、生成、存儲(chǔ)、管理的各類數(shù)據(jù)資源。

注:根據(jù)可傳播范圍,政務(wù)數(shù)據(jù)一般包括可共享政務(wù)數(shù)據(jù)、可開放公共數(shù)據(jù)及不宜開放共享政務(wù)數(shù)據(jù)。

[來源:GB/T38664.1—2020,3.1]

3.3

噪聲數(shù)據(jù)noisydata

無意義數(shù)據(jù),或所有難以被機(jī)器正確理解和翻譯的數(shù)據(jù)。

3.4

結(jié)構(gòu)化數(shù)據(jù)structureddata

一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個(gè)記錄的結(jié)構(gòu)都是一致的并且可以使用

關(guān)系模型予以有效描述。

[來源:GB/T35295—2017,2.2.13]

1

DB52/T1540.3—2020

3.5

非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。

[來源:GB/T35295—2017,2.1.25]

3.6

半結(jié)構(gòu)化數(shù)據(jù)semi-structureddata

具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進(jìn)二維表的數(shù)據(jù)。

示例:XML文檔內(nèi)容,每項(xiàng)都被一對標(biāo)記封起來,如<title></title>,表面上看是結(jié)構(gòu)化數(shù)據(jù),但<title></title>

之間的數(shù)據(jù)卻是千變?nèi)f化,這是典型的半結(jié)構(gòu)化數(shù)據(jù)。

[來源:DA/T82—2019,2.8]

3.7

表結(jié)構(gòu)tablestructure

為主體層內(nèi)容提供表示語義的一種存儲(chǔ)范例。

[來源:GB/T35295—2017,2.2.14]

4縮略語

下列縮略語適用于本文件。

ETL:數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(ExtractTransformLoad)

ELT:數(shù)據(jù)的抽取、加載和轉(zhuǎn)換(ExtractLoadTransform)

5環(huán)境要求

5.1敏感數(shù)據(jù)脫敏處理應(yīng)按DB52/T1126—2016的規(guī)定進(jìn)行,并在保證數(shù)據(jù)安全不被泄露的環(huán)境下進(jìn)

行清洗加工。

5.2應(yīng)在與互聯(lián)網(wǎng)隔絕的安全環(huán)境下處理政務(wù)數(shù)據(jù),環(huán)境支持?jǐn)?shù)據(jù)可存儲(chǔ)、可轉(zhuǎn)化,數(shù)據(jù)清洗加工工

作應(yīng)符合貴州省“一云一網(wǎng)一平臺(tái)”安全技術(shù)的相關(guān)規(guī)定,并確保數(shù)據(jù)的機(jī)密性和完整性。

5.3數(shù)據(jù)清洗加工人員應(yīng)經(jīng)過相應(yīng)的技術(shù)和安全培訓(xùn),具有數(shù)據(jù)清洗加工的能力,并能按照數(shù)據(jù)安全

處理相關(guān)制度完成清洗加工過程。

2

DB52/T1540.3—2020

6過程要求

6.1清洗加工流程

6.1.1數(shù)據(jù)清洗加工ETL流程見圖1。

圖1數(shù)據(jù)清洗加工ETL流程

3

DB52/T1540.3—2020

6.1.2對于海量數(shù)據(jù),宜使用數(shù)據(jù)清洗加工ELT流程見圖2。

圖2數(shù)據(jù)清洗加工ELT流程

6.2數(shù)據(jù)抽取

6.2.1應(yīng)具備全量抽取和增量抽取兩種方式。

6.2.2抽取來源應(yīng)能支撐抽取操作,使用生產(chǎn)庫,或通過前置庫等方式進(jìn)行抽取。

6.2.3應(yīng)支持結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等不同類型數(shù)據(jù)的抽取。

6.2.4抽取目的地的存儲(chǔ)容量應(yīng)能支持抽取來源的數(shù)據(jù)總量,數(shù)據(jù)抽取目的地的表結(jié)構(gòu)應(yīng)與抽取來源

的表結(jié)構(gòu)保持一致。

6.2.5增量抽?。ǜ拢?yīng)確定增量更新的方式,抽取的數(shù)據(jù)應(yīng)有字段可區(qū)分,如更新時(shí)間等。

4

DB52/T1540.3—2020

6.3定義規(guī)則

6.3.1應(yīng)分析抽取目標(biāo)數(shù)據(jù)的范圍、體量、類型、內(nèi)容、關(guān)系、質(zhì)量等信息,全面認(rèn)識(shí)數(shù)據(jù)情況。

6.3.2以需求為導(dǎo)向、應(yīng)用為目標(biāo),考慮目標(biāo)數(shù)據(jù)資源特點(diǎn)和工作復(fù)雜程度,結(jié)合業(yè)務(wù)要求或用戶和

其他相關(guān)方的需求、期望,確定切實(shí)可操作的數(shù)據(jù)清洗加工目標(biāo)及規(guī)則。

6.4數(shù)據(jù)過濾

數(shù)據(jù)過濾包括以下操作:

a)將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);

b)對噪聲數(shù)據(jù)進(jìn)行刪除;

c)對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則的數(shù)據(jù)進(jìn)行刪除;

d)過濾刪除掉的數(shù)據(jù)應(yīng)存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用。

6.5數(shù)據(jù)檢核

6.5.1檢核要求

6.5.1.1非空檢核

應(yīng)在字段為非空的情況下,對該字段數(shù)據(jù)進(jìn)行檢核,數(shù)據(jù)不能為空值。

6.5.1.2長度檢核

數(shù)據(jù)長度應(yīng)滿足轉(zhuǎn)換要求的字段長度。

6.5.1.3數(shù)據(jù)量檢核

過濾后的數(shù)據(jù)總量應(yīng)與原始抽取的數(shù)據(jù)總量吻合。

6.5.1.4數(shù)據(jù)類型和值檢核

數(shù)據(jù)類型和值應(yīng)能支持后續(xù)數(shù)據(jù)轉(zhuǎn)換過程,如后續(xù)根據(jù)定義規(guī)則需要將時(shí)間字符串?dāng)?shù)據(jù)轉(zhuǎn)換成時(shí)間

類型時(shí),還需檢驗(yàn)時(shí)間字符串類型的數(shù)據(jù),應(yīng)符合時(shí)間格式。

6.5.2檢核步驟

數(shù)據(jù)檢核步驟如下:

a)按6.5.1規(guī)定檢核數(shù)據(jù)資源是否滿足要求;

b)當(dāng)不滿足檢核要求時(shí),應(yīng)進(jìn)行數(shù)據(jù)錯(cuò)誤標(biāo)識(shí);

c)當(dāng)滿足檢核要求時(shí),直接進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

6.6錯(cuò)誤標(biāo)識(shí)

6.6.1錯(cuò)誤類型

常見數(shù)據(jù)的錯(cuò)誤類型如下:

a)殘缺數(shù)據(jù):缺一些記錄,或一條記錄里缺一些值(空值),或兩者都缺;

b)錯(cuò)誤數(shù)據(jù):數(shù)據(jù)沒有嚴(yán)格按照規(guī)范記錄,包括格式內(nèi)容錯(cuò)誤、邏輯錯(cuò)誤、不合規(guī)等;

c)重復(fù)數(shù)據(jù):相同的記錄出現(xiàn)多條或多條記錄代表同一實(shí)體。

5

DB52/T1540.3—2020

6.6.2識(shí)別方法

可采用統(tǒng)計(jì)學(xué)方法、數(shù)據(jù)挖掘、基于聚類的方法、基于距離的方法、基于分類的方法、基于關(guān)聯(lián)規(guī)

則的方法、業(yè)務(wù)區(qū)分等方式分析數(shù)據(jù),從而識(shí)別出數(shù)據(jù)的錯(cuò)誤類型。

6.6.3標(biāo)識(shí)步驟

錯(cuò)誤標(biāo)識(shí)步驟如下:

a)按6.6.2推薦的方法,分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問題;

b)按6.6.1的類型,對數(shù)據(jù)問題進(jìn)行分類,標(biāo)識(shí)錯(cuò)誤。

6.7修正處理

6.7.1殘缺數(shù)據(jù)處理

6.7.1.1處理策略

按照字段缺失比例和字段重要性,分別制定策略。殘缺數(shù)據(jù)處理策略制定參考圖見圖3。

重要性

特征:重要性高,缺失率低特征:重要性高,缺失率高

策略:1.通過計(jì)算進(jìn)行填充策略:1.嘗試去其他渠道取數(shù)補(bǔ)全

2.通過經(jīng)驗(yàn)或業(yè)務(wù)知識(shí)估計(jì)2.使用其他字段通過計(jì)算獲取

3.去除字段,并在結(jié)果中表明

低高失

特征:重要性低,缺失率低特征:重要性低,缺失率高率

策略:不做處理或簡單填充策略:去除該字段

圖3殘缺數(shù)據(jù)處理策略制定參考圖

6.7.1.2去除字段

備份當(dāng)前數(shù)據(jù),直接刪掉不需要的字段。

6.7.1.3填充缺失內(nèi)容

按以下方式填充缺失內(nèi)容:

a)不同指標(biāo)的計(jì)算結(jié)果填充:通過數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)之間的邏輯聯(lián)系,采取一定的列拆分、列計(jì)算

等方式得到缺失內(nèi)容,如年齡字段缺失,但具有公民身份證號,可從公民身份證號提取年齡數(shù)

據(jù);

b)同一指標(biāo)的計(jì)算結(jié)果填充:采取均值、中位數(shù)、眾數(shù)等方式進(jìn)行填充,如時(shí)間序列缺失,可使

用前后的均值填充;

6

DB52/T1540.3—2020

c)重新獲?。寒?dāng)缺失率高且非常重要的數(shù)據(jù)項(xiàng),應(yīng)采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行關(guān)聯(lián)對比

填充。

6.7.1.4取數(shù)補(bǔ)全

以線下收集、業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測補(bǔ)全缺失值。

6.7.2錯(cuò)誤數(shù)據(jù)處理

6.7.2.1格式內(nèi)容問題

格式內(nèi)容問題數(shù)據(jù)處理采用以下方法:

a)全、半角處理:通過正則表達(dá)式將全、半角符號按照事先定義的規(guī)則進(jìn)行全、半角符號統(tǒng)一;

b)有不該存在的字符:以半自動(dòng)校驗(yàn)結(jié)合半人工方式來找出存在的問題,自動(dòng)去除不需要的字符,

將數(shù)據(jù)自動(dòng)化統(tǒng)一或人工修正為正確字符;

c)內(nèi)容與字段不匹配:詳細(xì)識(shí)別問題類型,如人工填寫錯(cuò)誤、前端沒有校驗(yàn)、導(dǎo)入數(shù)據(jù)時(shí)部分或

全部存在列沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,不能直接刪除,應(yīng)按照清洗規(guī)則,采取加入

更多數(shù)據(jù)源進(jìn)行數(shù)據(jù)關(guān)聯(lián),找到匹配的相應(yīng)字段進(jìn)行填補(bǔ)。

6.7.2.2邏輯問題

邏輯問題數(shù)據(jù)處理采用以下方法:

a)了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接去掉一些使用簡單邏輯推理即可發(fā)現(xiàn)問題的

數(shù)據(jù);

b)對于不重要的不合理數(shù)據(jù)宜直接刪除,對于重要的不合理值宜進(jìn)行人工干預(yù)或引入更多數(shù)據(jù)源

進(jìn)行關(guān)聯(lián)識(shí)別;

c)通過字段間相互驗(yàn)證的方法修正矛盾內(nèi)容,如根據(jù)字段的數(shù)據(jù)來源,判定哪個(gè)字段提供的信息

更可靠,去除或重構(gòu)不可靠字段;

d)通過分箱、聚類、回歸等方法識(shí)別離群值(異常值),按照經(jīng)驗(yàn)和業(yè)務(wù)流程判斷其合理性,若

合理,則保留該數(shù)值;若不合理,對重要性較高而無法重新采集的數(shù)值,按缺失數(shù)據(jù)處理,對

重要性較低的數(shù)值,可直接刪除;

e)對于復(fù)雜邏輯數(shù)據(jù)問題應(yīng)咨詢了解該數(shù)據(jù)的產(chǎn)生原因,按照協(xié)商的清洗加工規(guī)則進(jìn)行處理。

6.7.2.3不合規(guī)問題

不合規(guī)問題數(shù)據(jù)處理采用以下方法:

a)設(shè)定判定規(guī)則:設(shè)定強(qiáng)制合規(guī)條件,不在規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)置最大值及最小值,剔除或判

斷為無效字段;

b)設(shè)定警告規(guī)則:不在規(guī)則范圍內(nèi)的,進(jìn)行警告及人工處理。

6.7.3重復(fù)數(shù)據(jù)

重復(fù)問題處理步驟如下:

a)通過元數(shù)據(jù)血緣關(guān)系查詢到重復(fù)數(shù)據(jù)的各個(gè)來源;

b)通過數(shù)據(jù)主鍵或?qū)ふ蚁嚓P(guān)信息識(shí)別重復(fù)數(shù)據(jù)的含義,不是相同含義的數(shù)據(jù)不能界定為重復(fù)數(shù)據(jù)

進(jìn)行去重處理,應(yīng)分別保留;

c)查詢到確定的重復(fù)數(shù)據(jù),根據(jù)權(quán)威性和應(yīng)用場合,選擇最恰當(dāng)渠道來源的數(shù)據(jù),或在不影響

數(shù)據(jù)保真度和完整性的情況下進(jìn)行合并處理。

7

DB52/T1540.3—2020

6.8數(shù)據(jù)轉(zhuǎn)換

6.8.1應(yīng)在數(shù)據(jù)檢驗(yàn)通過后開始。

6.8.2開始前應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。

6.8.3應(yīng)實(shí)現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突進(jìn)行轉(zhuǎn)換,典型業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則見附錄A。

6.8.4轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu)應(yīng)與目標(biāo)數(shù)據(jù)庫的結(jié)構(gòu)相兼容。

6.8.5數(shù)據(jù)向目標(biāo)移動(dòng)時(shí),將其從源數(shù)據(jù)中移除,或數(shù)據(jù)復(fù)制到多個(gè)目標(biāo)中。

6.8.6轉(zhuǎn)換失敗應(yīng)立即停止,開始查找問題。

6.8.7長時(shí)間未轉(zhuǎn)換結(jié)束,需仔細(xì)核查數(shù)據(jù)量、規(guī)則和字段是否一致,如有問題應(yīng)立即停止。

6.8.8轉(zhuǎn)換中查找到問題,應(yīng)解決問題后再開始數(shù)據(jù)轉(zhuǎn)換。

6.9結(jié)果檢驗(yàn)

6.9.1檢驗(yàn)內(nèi)容

6.9.1.1主鍵重復(fù)

檢驗(yàn)多個(gè)業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時(shí),主鍵的唯一性。

6.9.1.2非法代碼、非法值

檢查個(gè)別字段出現(xiàn)的異常信息,包括非法代碼、代碼與數(shù)據(jù)標(biāo)準(zhǔn)不一致、取值錯(cuò)誤、格式錯(cuò)誤、多

余字符、亂碼等。

6.9.1.3數(shù)據(jù)格式

檢驗(yàn)表中屬性值的格式正確衡量其準(zhǔn)確性,如時(shí)間格式、幣種格式、多余字符、亂碼。

6.9.1.4記錄數(shù)

檢驗(yàn)各個(gè)系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù)檢核或數(shù)據(jù)表中每日數(shù)據(jù)量的波動(dòng)。

6.9.1.5業(yè)務(wù)約束

應(yīng)從業(yè)務(wù)的角度考慮數(shù)據(jù)的正確性、一致性、有效性等,如建檔日期、入學(xué)日期、民族信息等。

6.9.1.6標(biāo)準(zhǔn)約束

對照系統(tǒng)數(shù)據(jù)應(yīng)符合的標(biāo)準(zhǔn)進(jìn)行核對。

6.9.2結(jié)果要求

6.9.2.1規(guī)范性

數(shù)據(jù)的質(zhì)量及存儲(chǔ)標(biāo)準(zhǔn)應(yīng)統(tǒng)一,源數(shù)據(jù)應(yīng)在源頭或備份表中能找到。

6.9.2.2重復(fù)性

數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。

6.9.2.3準(zhǔn)確性

數(shù)據(jù)所指內(nèi)容對數(shù)據(jù)所指對象的反應(yīng)、表現(xiàn)應(yīng)準(zhǔn)確,數(shù)據(jù)形式對數(shù)據(jù)內(nèi)容的表述、表達(dá)應(yīng)準(zhǔn)確。

8

DB52/T1540.3—2020

6.9.2.4完整性

數(shù)據(jù)集合中應(yīng)包含足夠的數(shù)據(jù)來響應(yīng)各種查詢和支持各種計(jì)算。

6.9.2.5一致性

數(shù)據(jù)的一致性應(yīng)符合以下要求:

a)同一個(gè)數(shù)據(jù)在同一時(shí)刻在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)只有一個(gè)值;

b)數(shù)據(jù)字段內(nèi)數(shù)據(jù)應(yīng)與字段描述一致;

c)最終結(jié)果數(shù)據(jù)的統(tǒng)計(jì)量應(yīng)與預(yù)測一致。

6.9.2.6時(shí)效性

不同類型的應(yīng)用對數(shù)據(jù)的時(shí)間特性有不同的要求,數(shù)據(jù)的時(shí)間特性應(yīng)滿足業(yè)務(wù)應(yīng)用的要求,數(shù)據(jù)記

錄應(yīng)根據(jù)時(shí)間特性及時(shí)更新。

6.9.2.7穩(wěn)定性

數(shù)據(jù)來源穩(wěn)定,數(shù)據(jù)結(jié)果能支撐后續(xù)業(yè)務(wù)。

6.9.3檢驗(yàn)步驟

結(jié)果檢驗(yàn)包括以下步驟:

a)按6.9.1規(guī)定檢驗(yàn)清洗加工后的數(shù)據(jù)資源情況;

b)按6.9.2要求核對數(shù)據(jù)資源達(dá)標(biāo)情況;

c)當(dāng)數(shù)據(jù)資源未達(dá)到6.9.2要求,應(yīng)返回再次進(jìn)行數(shù)據(jù)轉(zhuǎn)換;

d)當(dāng)數(shù)據(jù)資源達(dá)到6.9.2要求,應(yīng)進(jìn)行數(shù)據(jù)加載或結(jié)束清洗加工。

6.10數(shù)據(jù)加載

6.10.1方式應(yīng)匹配數(shù)據(jù)抽取方式,包含全量加載、增量加載,如海量數(shù)據(jù)、數(shù)據(jù)變化比較規(guī)律、變化

數(shù)據(jù)相對總量較小、業(yè)務(wù)系統(tǒng)能直接提供增量數(shù)據(jù)時(shí),宜使用增量加載。

6.10.2環(huán)境應(yīng)能支撐相應(yīng)數(shù)據(jù)。

6.10.3工具應(yīng)具有高效的加載性能。

6.10.4策略應(yīng)考慮加載周期和數(shù)據(jù)追加策略兩方面內(nèi)容。

6.10.5加載應(yīng)記錄日志。

6.10.6加載過程可根據(jù)實(shí)際操作情況至定義規(guī)則過程前進(jìn)行。

9

DB52/T1540.3—2020

AA

附錄A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論