版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.020
CCSL70
DB52
貴州省地方標準
DB52/T1540.4—2021
政務數(shù)據(jù)第4部分:數(shù)據(jù)質量評估規(guī)范
Governmentdata—part4:dataqualityassessmentspecification
2021-08-18發(fā)布2021-12-01實施
貴州省市場監(jiān)督管理局發(fā)布
DB52/T1540.4—2021
目次
前言................................................................................II
1范圍..............................................................................1
2規(guī)范性引用文件....................................................................1
3術語和定義........................................................................1
4評估指標..........................................................................2
5評估方法..........................................................................4
6評估流程..........................................................................5
7評估結果應用......................................................................6
附錄A(資料性)評估指標分值........................................................7
參考文獻.............................................................................8
I
DB52/T1540.4—2021
前言
本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起
草。
本文件是DB52/T1540的第4部分。DB52/T1540已經(jīng)發(fā)布了以下部分:
第1部分:術語;
第2部分:元數(shù)據(jù)管理規(guī)范;
第3部分:數(shù)據(jù)清洗加工規(guī)范;
第4部分:數(shù)據(jù)質量評估規(guī)范;
第5部分:共享交換基本要求;
第6部分:安全技術規(guī)范。
請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。
本文件由貴州省大數(shù)據(jù)發(fā)展管理局提出。
本文件由貴州省大數(shù)據(jù)標準化技術委員會(GZ/TC17)歸口。
本文件起草單位:貴州省機械電子產(chǎn)品質量檢驗檢測院、貴州中軟云上數(shù)據(jù)技術服務有限公司、貴
州省信息中心、貴州省量子信息和大數(shù)據(jù)應用技術研究院、云上貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司、重慶昱
普生科技發(fā)展有限公司。
本文件主要起草人:韋超、劉彥嘉、韓朱旸、蔣開明、徐明春、田野、楊鵬、唐昶、張洋、姚茂峰、
關艷梅、楊建國、陳馳、雷偉、陸瑩、鄭如順、黃明峰、劉軍、韓朱旸、譚璐、王仕品、黃小梅、鐘凱
馨、潘偉杰、邵建平、譚敏、王珂。
II
DB52/T1540.4—2021
政務數(shù)據(jù)第4部分:數(shù)據(jù)質量評估規(guī)范
1范圍
本文件規(guī)定了政務數(shù)據(jù)質量評估的指標、方法、流程和結果應用等要求。
本文件適用于政務數(shù)據(jù)質量評估工作。
2規(guī)范性引用文件
本文件沒有規(guī)范性引用文件。
3術語和定義
下列術語和定義適用于本文件。
3.1
數(shù)據(jù)data
對事實、概念或指令的一種形式化表示,適用于以人工或自動方式進行通信、解釋或處理。
[來源:GB/T35295-2017,2.2.1]
3.2
政務部門governmentdepartment
各級地方黨委、人大、政府、政協(xié)、法院、檢察院及其直屬各部門(單位),以及法律法規(guī)授權具
有行政職能的事業(yè)單位和社會組織。
3.3
政務數(shù)據(jù)governmentdata
政務部門及其技術支撐單位在履行職責過程中依法采集、生成、存儲、管理的各類數(shù)據(jù)資源。
[來源:GB/T38664.1—2020,3.1]
3.4
數(shù)據(jù)質量dataquality
在指定條件下使用時,數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。
[來源:GB/T25000.12—2017,4.3]
1
DB52/T1540.4—2021
4評估指標
4.1指標框架
數(shù)據(jù)質量評估指標框架見圖1。評估指標包括以下內容:
a)內容質量:包括數(shù)據(jù)規(guī)范性、準確性、完整性和可用性;
b)過程質量:包括數(shù)據(jù)處理過程的處理效果、一致性;
c)效用質量:包括數(shù)據(jù)可訪問性、時效性。
圖1數(shù)據(jù)質量評估指標框架圖
4.2指標說明
數(shù)據(jù)質量評估指標說明見表1。
2
DB52/T1540.4—2021
表1數(shù)據(jù)質量評估指標說明
一級指二級指
三級指標指標描述
標標
命名規(guī)范性數(shù)據(jù)庫、數(shù)據(jù)集、數(shù)據(jù)元的命名方式符合相關命名規(guī)范的情況。
元數(shù)據(jù)規(guī)范性元數(shù)據(jù)描述符合相關規(guī)范的情況。
規(guī)范性
參考數(shù)據(jù)規(guī)范性參考數(shù)據(jù)符合既有格式及規(guī)范的情況。
數(shù)據(jù)權限規(guī)范性是否基于相關法律法規(guī)制定數(shù)據(jù)安全權限的規(guī)范性文件。
敏感字段脫敏占比已脫敏字段占全部字段的比例。
數(shù)據(jù)格式(數(shù)據(jù)類型、數(shù)據(jù)范圍、數(shù)據(jù)長度、精度、編碼等)
是否滿足預期要求,如手機號、身份證號、性別、統(tǒng)一社會信
數(shù)據(jù)格式合規(guī)性
用代碼等。具體體現(xiàn)為滿足格式要求的數(shù)據(jù)集字段數(shù)占總數(shù)據(jù)
集的字段總數(shù)的比例。
準確性
內容數(shù)據(jù)重復率特定字段、記錄、文件或數(shù)據(jù)集中存在重復數(shù)據(jù)的比例。
質量特定數(shù)據(jù)字段、記錄、文件或數(shù)據(jù)集唯一標識的程度,具體體
數(shù)據(jù)唯一性
現(xiàn)為滿足唯一性的數(shù)據(jù)集個數(shù)與總數(shù)據(jù)集個數(shù)的比例。
臟數(shù)據(jù)出現(xiàn)率臟數(shù)據(jù)出現(xiàn)率低于閾值的數(shù)據(jù)集的比例。
數(shù)據(jù)元素空值率數(shù)據(jù)元符合數(shù)據(jù)元管理要求,不存在值為空的現(xiàn)象。
完整性數(shù)據(jù)記錄空值率數(shù)據(jù)記錄內容中存在空值的情況。
數(shù)據(jù)記錄缺失率(融合應用時)數(shù)據(jù)記錄內容覆蓋所有數(shù)據(jù),不存在缺失現(xiàn)象。
數(shù)據(jù)字段可用性數(shù)據(jù)字段值有效、可用的比例。
依賴字段可用性存在依賴關系的字段同時非空的比例。
可用性數(shù)據(jù)集由多個字段組成,根據(jù)字段的可用率計算整個數(shù)據(jù)集的
數(shù)據(jù)集可用性
可用率。
數(shù)據(jù)接口可用性數(shù)據(jù)接口調用能夠準確、正常的返回請求的比例。
處理效數(shù)據(jù)合格率校驗后符合數(shù)據(jù)定義和規(guī)則的數(shù)據(jù)與總體數(shù)據(jù)的比例。
果清洗保留率清洗后的數(shù)據(jù)量占清洗前數(shù)據(jù)總量的比例。
過程
同一數(shù)據(jù)在不同位置存儲或被不同應用或用戶使用時,數(shù)據(jù)的
質量相同數(shù)據(jù)一致性
一致性一致情況。
關聯(lián)數(shù)據(jù)一致性符合基礎數(shù)據(jù)元組合的數(shù)據(jù)集的比例。
數(shù)據(jù)字段可訪問率可訪問的數(shù)據(jù)字段的數(shù)量與總數(shù)的比例。
可訪問
數(shù)據(jù)集可訪問率可訪問的數(shù)據(jù)集的數(shù)量與數(shù)據(jù)集總數(shù)的比例。
性
效用數(shù)據(jù)接口有效性可訪問接口正確性。
質量時段數(shù)據(jù)正確性日期范圍的記錄或者頻率分布符合業(yè)務需求的情況。
時效性時點數(shù)據(jù)正確性特定時點的記錄數(shù)、頻率分布或延遲時間符合業(yè)務需求的情況。
數(shù)據(jù)時序正確性數(shù)據(jù)時序的正確性。
3
DB52/T1540.4—2021
5評估方法
5.1檢核方法
數(shù)據(jù)質量評估按照評估指標對數(shù)據(jù)質量進行檢核,檢核方法包括:
a)系統(tǒng)檢核:使用數(shù)據(jù)質量管理系統(tǒng)等數(shù)據(jù)質量工具實現(xiàn)自動檢核,如自定義SQL語句檢核;
b)人工檢核:根據(jù)評估指標,結合個人專業(yè)判斷進行數(shù)據(jù)檢核,如資料對比、經(jīng)驗判斷等。
5.2檢核方式
5.2.1全量檢核
對涉及的所有數(shù)據(jù)進行逐一檢核數(shù)據(jù)質量。
5.2.2增量檢核
對涉及的數(shù)據(jù),在特定的范圍和時間段內新增的數(shù)據(jù)進行逐一檢核數(shù)據(jù)質量。
5.2.3抽樣檢核
按照抽樣方案,對抽取的數(shù)據(jù)進行逐一檢核數(shù)據(jù)質量。
5.3分值設計
評估指標分值設計用絕對權數(shù)表示,絕對權數(shù)等同于各指標滿分分值。各層級評估指標分值設計見
附錄A。
5.4結果計算
評估對象的最終評估總得分按公式(1)進行計算。一級指標得分按公式(2)計算,二級指標得分
按公式(3)進行計算。
3
PFi......................................(1)
i1
n
FSiij.......................................(2)
ja
m
STijijk.......................................(3)
kb
式中:
P——評估對象最終總得分;
i——第i個一級指標;
Fi——第i個一級指標實際得分;
j——第j個二級指標;
a——分解于第i個一級指標的起始二級指標序號;
n——分解于第i個一級指標的結尾二級指標序號;
Sij——第j個二級指標(分解于第i個一級指標)實際得分;
4
DB52/T1540.4—2021
k——第k個二級指標;
b——分解于第j個一級指標的起始二級指標序號;
m——分解于第j個一級指標的結尾二級指標序號;
Tijk——第k個三級指標(分解于第j個二級指標)實際得分。
6評估流程
6.1流程圖
數(shù)據(jù)質量評估流程見圖2,包括評估準備、指標選擇、規(guī)則確定、評估實施、結果核驗、報告編制。
圖2數(shù)據(jù)質量評估流程圖
6.2評估準備
評估前應了解具體業(yè)務對特定政務數(shù)據(jù)的需求,確定評估目的、對象及范圍、評估方式,編制數(shù)據(jù)
質量評估方案。
6.3指標選擇
根據(jù)明確的評估目的,按照第3章規(guī)定選擇合適的評估指標,并確定評估指標分值。
6.4規(guī)則確定
根據(jù)選定的評估指標、評估對象確定數(shù)據(jù)質量檢核規(guī)則。
6.5評估實施
6.5.1自評估
按照數(shù)據(jù)質量評估方案確定的評估指標對評估對象進行自評估。
6.5.2質量檢核
按照數(shù)據(jù)質量檢核規(guī)則對數(shù)據(jù)進行數(shù)據(jù)質量檢核。
5
DB52/T1540.4—2021
6.6結果核驗
結合自評估情況,對檢核結果進行核驗,根據(jù)不同數(shù)據(jù)使用場景和業(yè)務需求對數(shù)據(jù)質量評估得分進
行分級評價,確定數(shù)據(jù)質量好壞。
6.7報告編制
根據(jù)評估結果編制評估分析報告,內容宜包括但不限于:評估對象及范圍、評估指標、計分規(guī)則、
評估檢核方法、評估實施過程、質量問題。
7評估結果應用
7.1數(shù)據(jù)質量評估報告反映的數(shù)據(jù)質量問題,及時反饋數(shù)據(jù)提供方、數(shù)據(jù)處理方和數(shù)據(jù)使用方的相關
部門及人員進行處理。
7.2跟蹤數(shù)據(jù)質量問題的處理,形成數(shù)據(jù)質量問題的閉環(huán)處置。
7.3通過數(shù)據(jù)質量問題及其相關處理經(jīng)驗的匯總、分析,逐步積累形成包含數(shù)據(jù)質量檢核規(guī)則、質量
問題描述、針對性解決方案的數(shù)據(jù)質量知識庫。
6
DB52/T1540.4—2021
AA
附錄A
(資料性)
評估指標分值
評估指標分值見表A.1。
表A.1評估指標分值
一級指標一級指標分值二級指標二級指標分值三級指標三級指標分值
1.1.1命名規(guī)范性4
1.1.2元數(shù)據(jù)規(guī)范性4
1.1規(guī)范性201.1.3參考數(shù)據(jù)規(guī)范性4
1.1.4數(shù)據(jù)權限規(guī)范性4
1.1.5敏感字段脫敏占比4
1.2.1數(shù)據(jù)格式合規(guī)性4
1.2.2數(shù)據(jù)重復率4
1.2準確性15
1.2.3數(shù)據(jù)唯一性4
1內容質量56
1.2.4臟數(shù)據(jù)出現(xiàn)率3
1.3.1數(shù)據(jù)元素空值率3
1.3完整性91.3.2數(shù)據(jù)記錄空值率3
1.3.3數(shù)據(jù)記錄缺失率3
1.4.1數(shù)據(jù)字段可用性3
1.4.2依賴字段可用性3
1.4可用性12
1.4.3數(shù)據(jù)集可用性3
1.4.4數(shù)據(jù)接口可用性3
2.1.1數(shù)據(jù)合格率5
2.1處理效果10
2.1.2清洗保留率5
2過程質量20
2.2.1相同數(shù)據(jù)一致性5
2.2一致性10
2.2.2關聯(lián)數(shù)據(jù)一致性5
3.1.1數(shù)據(jù)字段可訪問率4
3.1可訪問性123.1.2數(shù)據(jù)集可訪問率4
3.1.3數(shù)據(jù)接口有效性4
3效用質量24
3.2.1時段數(shù)據(jù)正確性4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年太湖創(chuàng)意職業(yè)技術學院單招職業(yè)傾向性測試題庫及參考答案詳解1套
- 2026年吐魯番職業(yè)技術學院單招職業(yè)適應性測試題庫及參考答案詳解
- 2026年長沙南方職業(yè)學院單招職業(yè)適應性考試題庫及答案詳解一套
- 2026年江蘇省泰州市單招職業(yè)傾向性測試題庫及完整答案詳解1套
- 2026年西安電力機械制造公司機電學院單招職業(yè)傾向性考試題庫及答案詳解一套
- 2026年江西工業(yè)職業(yè)技術學院單招職業(yè)技能考試題庫及答案詳解一套
- 2026年錦州師范高等專科學校單招職業(yè)技能考試題庫及參考答案詳解1套
- 2026年黑龍江藝術職業(yè)學院單招職業(yè)傾向性測試題庫及參考答案詳解
- 2026年遼寧建筑職業(yè)學院單招職業(yè)技能測試題庫及答案詳解1套
- 2026年吉林電子信息職業(yè)技術學院單招職業(yè)技能測試題庫及參考答案詳解1套
- 2025年公共衛(wèi)生執(zhí)業(yè)醫(yī)師考試試題及答案
- 運輸行業(yè)車輛維護保養(yǎng)操作規(guī)程
- 加油站安全生產(chǎn)責任制考核記錄
- 110kv變電站事故應急預案
- 缺藥登記制度
- 擋土墻施工質量通病、原因分析及應對措施
- 涂裝線基礎培訓課件
- 法院聘用書記員試題(+答案)
- 河南省南陽市宛城區(qū)2024-2025學年八年級上學期期末數(shù)學試題(含答案)
- 中移鐵通裝維年終總結
- 儀表人員安全教育培訓課件
評論
0/150
提交評論