(高清版)DB4208∕T 60-2024 《荊門城市大數(shù)據(jù)清洗規(guī)范》_第1頁
(高清版)DB4208∕T 60-2024 《荊門城市大數(shù)據(jù)清洗規(guī)范》_第2頁
(高清版)DB4208∕T 60-2024 《荊門城市大數(shù)據(jù)清洗規(guī)范》_第3頁
(高清版)DB4208∕T 60-2024 《荊門城市大數(shù)據(jù)清洗規(guī)范》_第4頁
(高清版)DB4208∕T 60-2024 《荊門城市大數(shù)據(jù)清洗規(guī)范》_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

代替DB4208/T60-2017荊門城市大數(shù)據(jù)清洗規(guī)范2024-03-01實(shí)施荊門市市場監(jiān)督管理局發(fā)布IDB4208/T60—2024 I引言 12規(guī)范性引用文件 1 1 3 3 4 5 54.3.2數(shù)據(jù)類型 54.3.3數(shù)據(jù)質(zhì)量 54.3.4數(shù)據(jù)存儲 65技術(shù)規(guī)范 75.1數(shù)據(jù)清洗策略 75.1.1全人工方式 75.1.2全自動方式 75.1.3實(shí)時人機(jī)交互方式 75.1.4異步人機(jī)交互方式 75.2清洗規(guī)則庫和清洗算法庫 75.2.1清洗規(guī)則庫 75.2.2清洗算法庫 95.3數(shù)據(jù)清洗實(shí)施步驟 95.3.1數(shù)據(jù)預(yù)處理 95.3.2數(shù)據(jù)有效性檢查 5.4數(shù)據(jù)清洗結(jié)果 附錄A(資料性附錄)數(shù)據(jù)清洗實(shí)例 A.1數(shù)據(jù)表的結(jié)構(gòu) A.2數(shù)據(jù)表清洗過程 Ⅱ本本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別這些專利的責(zé)任。本文件代替DB4208/T60-2017,與DB4208/T60-2017相比,除文件編號按照新要求更新外,主要技術(shù)參數(shù)未發(fā)生變化。本文件由荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)提出。本文件由荊門市行政審批局歸口。本文件起草單位:荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)。本文件主要起草人:胡玉榮、羅傳軍、肖立剛、楊金龍、劉波、田原、陸焱、王婭紛、熊士杰、陳永鋒、李祥琴、游明坤、賴旭、武永成、董尚燕、張牧、吳際林、劉珊艷、余建國、方靖、莊小林。本文件于2017年5月首次發(fā)布。本文件實(shí)施應(yīng)用中的疑問,可咨詢荊門市行政審批局,聯(lián)系電話:(0724)2376309,郵箱:690882384@;對本標(biāo)準(zhǔn)的有關(guān)修改意見建議請反饋至荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心),聯(lián)系電話:(0724)2376119,郵箱:282685564@I據(jù)交易、技術(shù)產(chǎn)品、安全保密等關(guān)鍵共性標(biāo)準(zhǔn)的制定和實(shí)施。”享的總體框架和技術(shù)規(guī)范,涉及數(shù)據(jù)處理的整個流程:首先進(jìn)行數(shù)據(jù)采集,然后通過數(shù)據(jù)整合(包括數(shù)據(jù)清洗和數(shù)據(jù)比對),將整合成功的數(shù)據(jù)裝載到公共基礎(chǔ)信息庫,根據(jù)需要提供數(shù)據(jù)共享。五個標(biāo)準(zhǔn)規(guī)范的制定是荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)和全市信息行業(yè)人員的共同1本文件規(guī)定了荊門城市大數(shù)據(jù)中心數(shù)據(jù)清洗過程中應(yīng)遵循的原則和要求。本文件適用于荊門市大數(shù)據(jù)中心建設(shè)過程中數(shù)據(jù)清洗的技術(shù)要求和規(guī)范。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T25069信息安全技術(shù)術(shù)語DB4208/T58荊門城市大數(shù)據(jù)術(shù)語GB/T25069和DB420800/T58確立的以及下列術(shù)語和定義適用于本文件。為了便于使用,以下重復(fù)列出了上述標(biāo)準(zhǔn)中的某些術(shù)語和定義,未標(biāo)明引業(yè)務(wù)領(lǐng)域進(jìn)行分類,一旦新的數(shù)據(jù)進(jìn)入,則舊的數(shù)主要用于信息資源的存儲和管理,可包括中心匯聚庫、部門數(shù)據(jù)庫、公共基礎(chǔ)信息庫等。2在某一系統(tǒng)或構(gòu)件中,各文檔或各部分之間統(tǒng)一的、標(biāo)準(zhǔn)化的和無矛數(shù)據(jù)存儲和處理的規(guī)定和限制。3在數(shù)據(jù)集內(nèi)發(fā)現(xiàn)臟數(shù)據(jù),并對臟數(shù)據(jù)進(jìn)行修補(bǔ)或移除以提高數(shù)據(jù)質(zhì)量的過程。在進(jìn)行主要的數(shù)據(jù)處理之前對數(shù)據(jù)進(jìn)行的一些初步的、基核驗(yàn)數(shù)據(jù)是否滿足有關(guān)約束條件的操作,其目的是提高業(yè)務(wù)數(shù)據(jù)的質(zhì)量。對數(shù)據(jù)文件進(jìn)行維度唯一性檢查,可用于檢測一批結(jié)構(gòu)化數(shù)據(jù)中的某些維度在表范圍內(nèi)是否重復(fù)。a)數(shù)據(jù)清洗管理方對采集的數(shù)據(jù)依據(jù)質(zhì)量標(biāo)準(zhǔn)、業(yè)務(wù)要求等制定數(shù)據(jù)清洗規(guī)則;b)數(shù)據(jù)清洗管理方將制定好的數(shù)據(jù)清洗規(guī)則在大數(shù)據(jù)中心進(jìn)行配置;則的數(shù)據(jù)保存至部門數(shù)據(jù)庫;將不符合規(guī)則的數(shù)據(jù),形成問題記錄;d)主管部門組織協(xié)調(diào)數(shù)據(jù)提供方對反饋來的問題記錄進(jìn)行判斷確認(rèn);若數(shù)據(jù)提供方判斷并無問e)對數(shù)據(jù)清洗過程的每個操作進(jìn)行日志備案,并將備案內(nèi)容保存至日志數(shù)據(jù)庫。4數(shù)據(jù)提供方主管部門數(shù)據(jù)管理方大數(shù)據(jù)中心/中心管理方開始規(guī)則庫—配置--問題記錄(有問題一形成依據(jù)一無問題一入庫形成↓保存→保存→部門結(jié)束數(shù)據(jù)清洗操作日志中心5a)來自數(shù)據(jù)提供方的業(yè)務(wù)數(shù)據(jù)經(jīng)數(shù)據(jù)采集處理,形成具有不b)結(jié)合配置的清洗規(guī)則庫及清洗算法庫,對中心匯聚庫中各數(shù)據(jù)進(jìn)行清洗操作,包括數(shù)據(jù)預(yù)處c)清洗后,將正確數(shù)據(jù)保存到部門數(shù)據(jù)庫,錯誤數(shù)據(jù)及原因保存到錯誤數(shù)據(jù)庫。同時將錯誤數(shù)d)對清洗操作過程及被操作數(shù)據(jù)進(jìn)行日志備案,保存到日志數(shù)據(jù)庫。供方業(yè)務(wù)系統(tǒng)的數(shù)據(jù)相比,不僅可消除數(shù)據(jù)錯誤,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),而且可累積數(shù)據(jù)變化結(jié)果,在一起的數(shù)據(jù),如HTML文檔、電子郵件等。數(shù)據(jù)質(zhì)量是保證數(shù)據(jù)應(yīng)用的基礎(chǔ),評估數(shù)據(jù)是否達(dá)到預(yù)期設(shè)定的質(zhì)量要求可從以下指標(biāo)進(jìn)行:輸、存儲和使用數(shù)據(jù)過程中,確保不遭受未授權(quán)方式的更改或破壞;b)一致性:評價數(shù)據(jù)是否遵循了保證上下一致;61新增數(shù)據(jù)、變更數(shù)據(jù)、實(shí)時數(shù)據(jù)存儲。2數(shù)據(jù)有效性檢查,數(shù)據(jù)重復(fù)性檢查。3數(shù)據(jù)預(yù)處理,數(shù)據(jù)有效性檢查。4數(shù)據(jù)處理周期控制。每月、每季、每年等周期性數(shù)據(jù),可根據(jù)數(shù)據(jù)的業(yè)務(wù)更新時間,如周一、每月一號、每季一號、每年一號等形成周期性的統(tǒng)一數(shù)據(jù)片。各數(shù)據(jù)片形成完整、連續(xù)的數(shù)據(jù)存儲次序,永久a)中心匯聚庫與業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的結(jié)構(gòu)基本相同,區(qū)別在于其可提供數(shù)據(jù)變化的歷史。中心匯聚庫中每張數(shù)據(jù)表可增加一個表示數(shù)據(jù)時間點(diǎn)的日期類型字段(如批次號),保存數(shù)據(jù)的變化情況,便于數(shù)據(jù)的分析,如表2所示;字段名說明1批次號(PCH)b)部門數(shù)據(jù)庫用于存儲清洗后的正確數(shù)據(jù),為實(shí)現(xiàn)數(shù)據(jù)的累計(jì)存儲,有效提高數(shù)據(jù)質(zhì)量,對最終人庫的數(shù)據(jù)表可增加3個字段,如表3所示。數(shù)據(jù)入庫處理方式為:1)新增數(shù)據(jù):對數(shù)據(jù)清洗后的新增數(shù)據(jù),可直接保存到部門數(shù)據(jù)庫,START_DATE字段為入庫的時間,END_DATE默認(rèn)有效期為2099年,數(shù)據(jù)版本初始值為1;2)變更數(shù)據(jù):對已存在相同業(yè)務(wù)主鍵的信息數(shù)據(jù)(如同一個人的教育信息),但部分業(yè)務(wù)字段數(shù)據(jù)發(fā)生變化(如學(xué)歷、就讀學(xué)校、就讀時間等)??芍苯有略龅讲块T數(shù)據(jù)庫,數(shù)據(jù)版年。同時將該信息記錄上一版本的END_DATE也修改7字段名說明1數(shù)據(jù)最初入庫的時間。2數(shù)據(jù)入庫后的有效期截止時間。3數(shù)據(jù)版本。小數(shù)據(jù)量的數(shù)據(jù)源。既減少人工成本,也降低清洗程序的復(fù)雜度,但在程序運(yùn)行過程中需要人的實(shí)時參與。通過相應(yīng)領(lǐng)域的專家手工處理數(shù)據(jù)清洗報(bào)告中清洗程序不能自動處理的情況,既能節(jié)約人力成本,清洗工具的清洗效果和可擴(kuò)展性。清洗規(guī)則庫用于存放數(shù)據(jù)清洗規(guī)則。清洗規(guī)則可依據(jù)相關(guān)質(zhì)量標(biāo)準(zhǔn)、編碼要求、業(yè)務(wù)要求等制定,不同類型的問題需要設(shè)計(jì)不同的清洗規(guī)則。清a)業(yè)務(wù)規(guī)則:指符合業(yè)務(wù)邏輯的數(shù)值范圍、有效值集合等。業(yè)務(wù)規(guī)則b)重復(fù)記錄識別規(guī)則:用于判定d)不完整記錄識別規(guī)則:用于指定不完整記錄的數(shù)據(jù)條件,如記錄中字段值缺失比率的閾值;8f)殘缺數(shù)據(jù)識別規(guī)則:用于檢g)噪聲數(shù)據(jù)識別規(guī)則:用于檢查識別噪聲數(shù)據(jù)。b)支持規(guī)則的保存和重用,已定義d)規(guī)則文件可采用XML等格式保存在自定義規(guī)則中;a)規(guī)則語言方式:規(guī)則語言一般采用IF-THEN規(guī)則,用于業(yè)務(wù)規(guī)則、警告規(guī)則等清洗規(guī)則;b)創(chuàng)建規(guī)則數(shù)據(jù)表方式:用于重復(fù)識別規(guī)則、不完整記錄識別規(guī)則、錯誤識別規(guī)則等清洗規(guī)則,清洗規(guī)則配置注意如下事項(xiàng),見表4所示。1數(shù)據(jù)清洗任務(wù)運(yùn)行周期宜定時執(zhí)行,盡量不使用簡單周期運(yùn)行。2清洗任務(wù)運(yùn)行的周期<數(shù)據(jù)采集周期的90%。3數(shù)據(jù)清洗應(yīng)報(bào)出清洗掉的錯誤數(shù)據(jù)及原因。4保存每次清洗任務(wù)執(zhí)行的結(jié)果。如總數(shù)據(jù)量、清洗數(shù)據(jù)量、新增數(shù)據(jù)量、重復(fù)數(shù)據(jù)量等。5數(shù)據(jù)清洗任務(wù)可在中心匯聚庫上運(yùn)行,與公共基礎(chǔ)信息庫分開,保證系統(tǒng)性能。進(jìn)行標(biāo)準(zhǔn)化處理,然后存入數(shù)據(jù)庫。9為滿足數(shù)據(jù)后續(xù)處理的基本要求,首先需要按照配置規(guī)則對采集后的數(shù)據(jù)進(jìn)行格式方確認(rèn)并給出解決方案。解決方案可參考采用下面殘缺數(shù)據(jù)和噪聲數(shù)據(jù)處理方法。a)數(shù)據(jù)格式異常:如時間、日期、全半角、大小寫、數(shù)值等數(shù)據(jù)格式不規(guī)范統(tǒng)一。通常與輸入有關(guān),在數(shù)據(jù)多來源時也有可能產(chǎn)生,將其處理成統(tǒng)一格式;b)數(shù)據(jù)內(nèi)容異常:去除數(shù)據(jù)內(nèi)容中多余字符。如公民身份號碼存在無效字符;部門統(tǒng)一社會信用代碼存在前空格、中間空格和后空格等。a)直接刪除法:將數(shù)據(jù)集中包含殘缺數(shù)據(jù)的記錄全部刪除??赡墚a(chǎn)生新的噪聲數(shù)據(jù),產(chǎn)生錯誤結(jié)果。該方法成本太大,效率差,適用于特殊的業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)(也可以稱為“孤立點(diǎn)”);一個屬性值包含了多個組成成分的嵌入值等。噪聲數(shù)據(jù)可采用的處理a)分箱法:通過考察周圍的值來平滑存儲數(shù)據(jù)的值。即將存據(jù)值來局部平滑存儲數(shù)據(jù)的值。可采用箱平均值、箱中值、箱邊界值等方法平滑;b)回歸法:利用擬合函數(shù)(如回歸函數(shù))找出適合數(shù)據(jù)的數(shù)學(xué)方程式來平滑數(shù)據(jù)。如線性回歸要b)數(shù)據(jù)表應(yīng)包含關(guān)鍵字段且滿足字段相應(yīng)約束條件。如人口信息應(yīng)有姓名、公民身份號碼等。說明1包括數(shù)據(jù)項(xiàng)的中英文名稱、數(shù)據(jù)類型等。2數(shù)據(jù)庫中字段約束,如非空、字段長度等。3業(yè)務(wù)系統(tǒng)中處理流程較多,可能會產(chǎn)生一些無效的數(shù)據(jù)項(xiàng)。4根據(jù)樣例數(shù)據(jù)整理錯誤數(shù)據(jù)情況。5整理每類信息的業(yè)務(wù)主鍵,方便判斷數(shù)據(jù)是否重復(fù)。6數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)規(guī)范對于數(shù)據(jù)項(xiàng)存在相應(yīng)的業(yè)務(wù)要求和標(biāo)準(zhǔn)規(guī)范的梳理相應(yīng)數(shù)據(jù)項(xiàng)規(guī)則。78對于一些錯誤數(shù)據(jù),通過簡單規(guī)則處理可以得到正確數(shù)據(jù)的情況。分解函數(shù)等實(shí)現(xiàn)對各表進(jìn)行有效性檢查,可采用的方法有排序法、融合法、效識別出相同的記錄,導(dǎo)致數(shù)據(jù)集內(nèi)存在多條重復(fù)數(shù)據(jù)。重復(fù)的主華人民共和國”被縮略為“中國”;位地址分別錄入為荊門市象山大33號和荊門市象山大道33號;c)數(shù)據(jù)集有多個數(shù)據(jù)來源:同一條數(shù)據(jù)有可能會同時存在于部統(tǒng)中都會有自己相應(yīng)的主鍵,在系統(tǒng)數(shù)據(jù)集成或交換時,造成數(shù)據(jù)集內(nèi)的記錄重復(fù)。中數(shù)據(jù)是否為同一信息;c)重復(fù)數(shù)據(jù)清洗:根據(jù)配置的清洗規(guī)則,對重復(fù)數(shù)據(jù)進(jìn)行方案可參考采用下面的重復(fù)數(shù)據(jù)清洗策略。a)手工處理策略:手工選擇一條最新、最合理的記錄保留,刪除其余記錄。該策略實(shí)現(xiàn)簡單,但清洗成本較高、效率較低,適合于對記錄準(zhǔn)確度要求比較高的情況;b)隨機(jī)處理策略:隨機(jī)選擇一條記錄c)關(guān)鍵字段策略:由領(lǐng)域?qū)<掖_定某個或某幾個字段為記錄的關(guān)鍵字段,系統(tǒng)保留關(guān)鍵字段值d)最新處理策略:最新記錄更有可能代表該組重復(fù)記錄所要表達(dá)的信息。若記錄集內(nèi)的記錄有e)完整處理策略:選擇屬性數(shù)據(jù)相對完整或重新組合屬性數(shù)據(jù)更加完整的一條記錄予以保留,刪除其余記錄。該策略準(zhǔn)確性較高,但可能需要人工參與。數(shù)據(jù)清洗過程中可能產(chǎn)生3種數(shù)據(jù),即正確數(shù)據(jù)、錯誤數(shù)據(jù)、錯誤數(shù)據(jù)的錯誤原因。根據(jù)清洗結(jié)果a)部門數(shù)據(jù)庫:存儲數(shù)據(jù)清洗后符合清洗規(guī)則的正確數(shù)據(jù),便于后續(xù)操作;經(jīng)數(shù)據(jù)提供方確認(rèn),若有問題則給出解決方案,若確認(rèn)無問題,做出已修復(fù)標(biāo)示;c)清洗日志數(shù)據(jù)庫:可用于記錄數(shù)據(jù)清洗過程中數(shù)據(jù)操作和被操作的數(shù)據(jù),便于之后的排錯調(diào)試、數(shù)據(jù)備份恢復(fù)、信息持久化等。另外,也可查看數(shù)據(jù)清洗日志,檢查數(shù)據(jù)清洗的正確性,為修正清洗錯誤提供參考。(資料性附錄)附錄中以荊門市典型部門(荊門市機(jī)構(gòu)編制委員會辦公室)提供的各類數(shù)據(jù)表為例,如表A.1所示。漢字表名數(shù)據(jù)周期1每日2荊門市直機(jī)構(gòu)基本情況統(tǒng)計(jì)表_事業(yè)每日3每日4荊門市直機(jī)構(gòu)基本情況統(tǒng)計(jì)表_行政每日5每日6每日7每日表A.2為荊門市機(jī)構(gòu)編制委員會辦公室的事業(yè)單位情況統(tǒng)計(jì)表的表結(jié)構(gòu)。中文字段名英文字段名1統(tǒng)一社會信用代碼23456789宗旨和業(yè)務(wù)范圍67表A.3為新增、重復(fù)和注銷單位情況表的表結(jié)構(gòu)。表A.3新增、重復(fù)和注銷單位情況表中文字段名英文字段名123456789郵政編碼65變動時間7A.2數(shù)據(jù)表清洗過程A.2.1數(shù)據(jù)預(yù)處理為滿足數(shù)據(jù)后續(xù)處理的基本要求,采集來的數(shù)據(jù)需進(jìn)行格式內(nèi)容異常等數(shù)據(jù)預(yù)處理。表A.4和表A.5均為數(shù)據(jù)預(yù)處理過程。表A.4事業(yè)單位情況統(tǒng)計(jì)表預(yù)處理數(shù)據(jù)項(xiàng)1統(tǒng)一社會信用代碼(credit_code)名稱去空格處理,包括前空格、中間空格和后空格。2證書號(cert_no)名稱去空格處理,包括前空格、中間空格和后空格。3法定代表人(legalp_name)名稱去空格處理,包括前空格、中間空格和后空格。表A.5新增、重復(fù)和注銷單位情況表預(yù)處理數(shù)據(jù)項(xiàng)1表號(table_no)名稱去空格處理,包括前空格、中間空格和后空格。2文號(cert_no)名稱去空格處理,包括前空格、中間空格和后空格。3登記機(jī)關(guān)代碼(reg_org_code)名稱去空格處理,包括前空格、中間空格和后空格。4登記機(jī)關(guān)級別代碼(reg_org_level_code)名稱去空格處理,包括前空格、中間空格和后空格。5登記機(jī)關(guān)行政區(qū)劃代碼(reg_org_adm_code)名稱去空格處理,包括前空格、中間空格和后空格。6部門統(tǒng)一社會信用代碼(dept_credit_code)名稱去空格處理,包括前空格、中間空格和后空格。A.2.2數(shù)據(jù)有效性檢查通過分析樣例數(shù)據(jù),依據(jù)數(shù)據(jù)業(yè)務(wù)要求及標(biāo)準(zhǔn)規(guī)范等,梳理出清洗規(guī)則進(jìn)行數(shù)據(jù)有效性檢查。表A.6和表A.7均為數(shù)據(jù)有效性檢查過程。表A.6事業(yè)單位情況統(tǒng)計(jì)表有效性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論