城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南_第1頁
城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南_第2頁
城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南_第3頁
城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南_第4頁
城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

城市智能體數(shù)據(jù)治理技術(shù)設(shè)計(jì)指南范圍本標(biāo)準(zhǔn)規(guī)定了城市智能體的大數(shù)據(jù)平臺(tái)中數(shù)據(jù)治理技術(shù)的設(shè)計(jì)流程規(guī)范。本標(biāo)準(zhǔn)適用于指導(dǎo)城市智能體大數(shù)據(jù)平臺(tái)關(guān)于數(shù)據(jù)治理設(shè)計(jì)單位以及城市智能體建設(shè)部門在城市智能體中數(shù)據(jù)治理的技術(shù)設(shè)計(jì)工作。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T34960.5-2018《信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范》GB/T34960.1-2017《信息技術(shù)服務(wù)治理第1部分:通用要求》

術(shù)語與定義城市智能體需要補(bǔ)充需要補(bǔ)充城市智能體將視聯(lián)網(wǎng)、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等信息化渠道構(gòu)建成城市感知體系,以云計(jì)算為基礎(chǔ),人工智能技術(shù)為手段,將各行業(yè)領(lǐng)域的數(shù)據(jù)進(jìn)行匯集和共享,向各類業(yè)務(wù)場(chǎng)景提供數(shù)據(jù)、算力和技術(shù)能力支撐,為城市經(jīng)濟(jì)、社會(huì)、城市數(shù)字化轉(zhuǎn)型等提供支持的智慧城市巨系統(tǒng)。數(shù)據(jù)治理數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合。數(shù)據(jù)治理技術(shù)設(shè)計(jì)目標(biāo)以規(guī)范數(shù)據(jù)的生成以及使用,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量,最大化數(shù)據(jù)價(jià)值為目的,通過數(shù)據(jù)治理提升核心能力掌控,提升系統(tǒng)開發(fā)和維護(hù)的質(zhì)量,減少系統(tǒng)建設(shè)、實(shí)施及運(yùn)維等各方面成本的過程。技術(shù)設(shè)計(jì)總體要求數(shù)據(jù)治理技術(shù)設(shè)計(jì)應(yīng)能夠發(fā)現(xiàn)問題數(shù)據(jù)、清洗轉(zhuǎn)換數(shù)據(jù),實(shí)現(xiàn)達(dá)到規(guī)范數(shù)據(jù)的生成、持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量、最大化數(shù)據(jù)價(jià)值。數(shù)據(jù)治理功能設(shè)計(jì)要求數(shù)據(jù)治理的功能設(shè)計(jì)要求包括但不局限于數(shù)據(jù)規(guī)整、數(shù)據(jù)建模、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理以及數(shù)據(jù)資源管理。數(shù)據(jù)規(guī)整要求通過數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗、關(guān)聯(lián)整合等技術(shù)手段,對(duì)問題數(shù)據(jù),包括但不局限于數(shù)據(jù)標(biāo)準(zhǔn)不一致、數(shù)據(jù)格式雜亂、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)缺失等,進(jìn)行有效的數(shù)據(jù)整理。數(shù)據(jù)規(guī)整規(guī)則應(yīng)包括但不局限于以下規(guī)則:a)字典轉(zhuǎn)換規(guī)則應(yīng)將表述含義一致但表現(xiàn)、存儲(chǔ)形式不一樣的代碼進(jìn)行規(guī)范統(tǒng)一映射到標(biāo)準(zhǔn)編碼上,將非標(biāo)準(zhǔn)的字典數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換。b)常規(guī)規(guī)整規(guī)則應(yīng)根據(jù)業(yè)務(wù)需要,完成常規(guī)數(shù)據(jù)的規(guī)整。主要包括但不局限于格式轉(zhuǎn)換規(guī)則、內(nèi)容轉(zhuǎn)換規(guī)則、增加列規(guī)則、字典轉(zhuǎn)換規(guī)則和鏈接規(guī)則。表1格式轉(zhuǎn)換規(guī)則規(guī)則名稱規(guī)則描述身份證號(hào)轉(zhuǎn)換15位到18位的身份證號(hào)碼的轉(zhuǎn)換,小寫x轉(zhuǎn)大寫X去空格去除字段中的空格,可選去全部空格、去前后空格半角轉(zhuǎn)全角字段值中全部半角轉(zhuǎn)換全角全角轉(zhuǎn)半角字段值中全部全角轉(zhuǎn)換半角大寫轉(zhuǎn)小寫字段值轉(zhuǎn)大寫小寫轉(zhuǎn)大寫字段值轉(zhuǎn)小寫表2內(nèi)容轉(zhuǎn)換規(guī)則規(guī)則名稱規(guī)則描述字符串替換將字段中的值統(tǒng)一全部替換為另外一個(gè)值。例如:將原字段日期中值“1997年元月”全部替換為“1997年1月”。從關(guān)聯(lián)字段截取從某個(gè)關(guān)聯(lián)字段中截取部分?jǐn)?shù)據(jù)填充到字段中,補(bǔ)充字段值,包括但不局限于全部填充和字段值為空時(shí)填充兩種。例如:字段出生日期中值為空時(shí),從關(guān)聯(lián)字段身份證號(hào)中截取7-14位數(shù)據(jù)填充到出生日期中。身份證信息提取從身份證號(hào)中按照提取數(shù)據(jù),通過配置截取數(shù)據(jù)的位置區(qū)間,將截取后的數(shù)據(jù)值填充到其他字段中。默認(rèn)值填充字段值應(yīng)填充為一個(gè)默認(rèn)值,包括但不局限于全部填充和數(shù)據(jù)為空時(shí)填充日期轉(zhuǎn)字符串日期格式字段值應(yīng)轉(zhuǎn)換為字符串類字段。例如:yy/MM/ddHH:mm:ss;yy-MM-ddHH:mm:ss;yyMMddHHmmss;yyMMddHHmm;yyMMdd。數(shù)據(jù)拆分將原字段值按照拆分規(guī)則拆分成多個(gè)新增字段,原字段應(yīng)保持不變,拆分規(guī)則包括但不局限于按照固定的分隔符拆分和按照數(shù)據(jù)位置區(qū)間拆分兩類。例如:原經(jīng)緯度字段數(shù)據(jù)為[東經(jīng)30,北緯40],配置按照分隔符“,”拆分為2個(gè)字段經(jīng)度和緯度,最終得到新增字段經(jīng)度,數(shù)據(jù)[東經(jīng)30],新增字段緯度,數(shù)據(jù)[北緯40],原經(jīng)緯度字段不變??罩堤幚懋?dāng)字段值為空時(shí),應(yīng)配置填充的數(shù)據(jù),分為統(tǒng)一默認(rèn)值填充和從關(guān)聯(lián)字段獲取填充兩類。表3增加列規(guī)則規(guī)則名稱規(guī)則描述增加序列數(shù)據(jù)處理過程中應(yīng)增加uuid列,列名可以定義增加常量數(shù)據(jù)處理過程中應(yīng)增加常量列,常量值和列名可以定義增加哈希值數(shù)據(jù)處理過程中應(yīng)增加一列記錄其他指定列的值的hash,應(yīng)支持MD5,SHA-1,SHA-256表4字典轉(zhuǎn)換規(guī)則規(guī)則名稱規(guī)則描述字典轉(zhuǎn)換將字段值按照配置的標(biāo)準(zhǔn)字典進(jìn)行標(biāo)準(zhǔn)轉(zhuǎn)換。例如:將性別字段值轉(zhuǎn)換為標(biāo)準(zhǔn)字典中性別字典字段值表5連接規(guī)則規(guī)則名稱規(guī)則描述合并規(guī)則合并表數(shù)據(jù),將第一張表中字段及數(shù)據(jù)合并到第二張表中,應(yīng)支持重復(fù)字段的映射配置關(guān)聯(lián)規(guī)則關(guān)聯(lián)表數(shù)據(jù),將兩張表通過關(guān)聯(lián)字段進(jìn)行關(guān)聯(lián)配置,選擇關(guān)聯(lián)后的字段信息傳輸?shù)较乱欢螖?shù)據(jù)流中c)規(guī)整任務(wù)設(shè)計(jì)要求規(guī)整任務(wù)設(shè)計(jì)應(yīng)讓數(shù)據(jù)規(guī)整人員通過簡(jiǎn)單流程化、圖形化的操作完成數(shù)據(jù)清洗、轉(zhuǎn)換、抽取的操作。規(guī)整任務(wù)設(shè)計(jì)能力包括但不局限于配置輸入、配置輸出、配置規(guī)則組件等。數(shù)據(jù)建模要求根據(jù)業(yè)務(wù)要求應(yīng)具備對(duì)數(shù)據(jù)的建模功能,應(yīng)支持按照業(yè)務(wù)領(lǐng)域?qū)熘械臄?shù)據(jù)進(jìn)行整合、配置模型中數(shù)據(jù)計(jì)算規(guī)則。數(shù)據(jù)質(zhì)量設(shè)計(jì)要求數(shù)據(jù)質(zhì)量能力設(shè)計(jì),應(yīng)包含但不局限于數(shù)據(jù)常規(guī)檢查、數(shù)據(jù)質(zhì)量任務(wù)設(shè)計(jì)、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)增量監(jiān)控以及數(shù)據(jù)一致性監(jiān)控。a)數(shù)據(jù)常規(guī)檢查:根據(jù)業(yè)務(wù)需要初始化常用的清洗轉(zhuǎn)換規(guī)則,系統(tǒng)中的規(guī)則是由系統(tǒng)初始化得出,一般不提供增刪改操作。常規(guī)檢查規(guī)則包括但不局限于下表中的內(nèi)容。表6常規(guī)檢查規(guī)則規(guī)則類型檢查規(guī)則名稱檢查規(guī)則描述基礎(chǔ)類檢查組件空值檢查字段值為空檢查全角檢查字段值全角檢查半角檢查字段值半角檢查日期格式檢查1.8位字符型日期檢查(例如:YYYY-MM-DD);

2.6位字符型時(shí)間檢查(例如:YY/MM/DD);

3.14位字符型日期檢查(例如:YYYY-MM-DDHH:MM:SS)數(shù)據(jù)格式檢查1.不是漢字報(bào)錯(cuò)

2.不是數(shù)字報(bào)錯(cuò)

3.不是字母報(bào)錯(cuò)值域檢查字段代碼值域不在字典中錯(cuò)誤字符長(zhǎng)度檢查字段長(zhǎng)度不屬于定義的范圍則報(bào)錯(cuò),包括日期類數(shù)據(jù)數(shù)值范圍檢查字段數(shù)值不在定義的范圍內(nèi)則報(bào)錯(cuò),包括數(shù)據(jù)時(shí)間數(shù)值大小校驗(yàn)檢查對(duì)兩個(gè)字段的值進(jìn)行大小比較,不滿足數(shù)字大小范圍內(nèi)的報(bào)錯(cuò)多字段空值檢查多個(gè)字段同時(shí)為空時(shí),業(yè)務(wù)上認(rèn)為錯(cuò)誤,報(bào)錯(cuò)多字段有值核查多個(gè)字段同時(shí)有值時(shí),業(yè)務(wù)上認(rèn)為錯(cuò)誤,報(bào)錯(cuò)業(yè)務(wù)類檢查組件身份證合法性檢查1.身份證字段長(zhǎng)度核查,不是15或18位的報(bào)錯(cuò);

2.身份證字段第18位校驗(yàn)碼不對(duì);身份證號(hào)校驗(yàn)碼算法(不符合校驗(yàn)碼算法的報(bào)錯(cuò))

3.身份證字段第一位為0的報(bào)錯(cuò);

4.身份證字段尾碼(第15位到17位)為“000”的報(bào)錯(cuò)

5.身份證號(hào)碼中的出生日期碼(第7-14位)不合法報(bào)錯(cuò);

不合法:出生日期大于當(dāng)前系統(tǒng)日期;出生日期小于1900年;日期格式不合法;

6.身份證號(hào)碼中地址碼前兩位所屬的省級(jí)行政區(qū)劃不存在;身份證號(hào)碼與性別檢查1.身份證號(hào)第15或17位為奇數(shù),則性別不為男的報(bào)錯(cuò);

2.身份證號(hào)第15或17位為偶數(shù),則性別不為女的報(bào)錯(cuò)身份證號(hào)碼與出生日期檢查身份證號(hào)碼中的出生日期碼(第7-14位)與出生日期不一致報(bào)錯(cuò)身份證有效期檢查1.一代身份證,即“簽發(fā)日期”+“有效期”得到的失效日期與當(dāng)前日期比較;

2.二代身份證,即“公民有效期限截止日期”與當(dāng)前日期比較;

3.臨時(shí)身份證,包括:一代臨時(shí)期限為1或2年、二代臨時(shí)期限為3個(gè)月(計(jì)算方法同上)身份證號(hào)重復(fù)檢查身份證號(hào)碼相同,姓名不同的被稱為重證號(hào)。該檢查主要涉及公民身份證號(hào)碼、姓名字段姓名合法性檢查1.姓名長(zhǎng)度不足2個(gè)漢字;

2.姓名的漢字中有空格;

3.姓名中有不是漢字的非法字符(除?外)少數(shù)民族姓名間隔符應(yīng)用“?”(GB13000編碼為00B7.表示,未編碼冷僻字應(yīng)用“▌”(GB13000編碼為258C)表示出生日期合法性檢查1.不足8位或大于系統(tǒng)日期;

2.出生日期小于1900年;

3.日期格式不合法“性別”與“與戶主關(guān)系”檢查根據(jù)“性別”字典、“戶主關(guān)系”字典映射表進(jìn)行關(guān)聯(lián)性檢查郵箱檢查email要有@符號(hào)和“.com”,@符號(hào)前后為英文或數(shù)字手機(jī)號(hào)檢查手機(jī)號(hào)碼不等于11位應(yīng)報(bào)錯(cuò),手機(jī)號(hào)碼前兩位不所屬范圍:13、14、15、16、17、18、19內(nèi)應(yīng)報(bào)錯(cuò)網(wǎng)址檢查網(wǎng)址URL校驗(yàn),http或https等郵政編碼檢查郵政編碼不等于6位報(bào)錯(cuò)IP地址檢查IP4和IP6地址檢查,0~255值,用“.”分開4個(gè)值QQ號(hào)檢查QQ號(hào)碼小于10000報(bào)錯(cuò)b)數(shù)據(jù)質(zhì)量任務(wù)設(shè)計(jì):數(shù)據(jù)質(zhì)量任務(wù)設(shè)計(jì)應(yīng)讓數(shù)據(jù)質(zhì)量配置人員通過簡(jiǎn)單流程化、圖形化的操作完成數(shù)據(jù)質(zhì)量任務(wù)配置,進(jìn)行數(shù)據(jù)質(zhì)量檢查。c)數(shù)據(jù)增量監(jiān)控:應(yīng)針對(duì)單表的業(yè)務(wù)數(shù)據(jù)在規(guī)定時(shí)間內(nèi)數(shù)據(jù)變化的監(jiān)控,包含但不局限于數(shù)據(jù)有無增量監(jiān)控、數(shù)據(jù)增量異常監(jiān)控兩類,應(yīng)通過作業(yè)調(diào)度的方式實(shí)現(xiàn)對(duì)其數(shù)據(jù)增量的監(jiān)控,并在監(jiān)控后產(chǎn)生數(shù)據(jù)增量監(jiān)控報(bào)告。d)數(shù)據(jù)一致性監(jiān)控:為保障采集的各源系統(tǒng)的實(shí)體數(shù)據(jù)的一致性,應(yīng)要求獲取的維表和各源系統(tǒng)維表業(yè)務(wù)字段數(shù)據(jù)保持一致,包括但不局限于數(shù)據(jù)條數(shù)一致和數(shù)據(jù)內(nèi)容一致兩個(gè)方面,以確保實(shí)體數(shù)據(jù)的數(shù)據(jù)質(zhì)量。數(shù)據(jù)標(biāo)準(zhǔn)管理要求數(shù)據(jù)標(biāo)準(zhǔn)管理是數(shù)據(jù)資產(chǎn)管理的基礎(chǔ)性工作,提供統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)定義,是衡量數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)和管理水平的評(píng)估依據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)管理包括但不局限于標(biāo)準(zhǔn)文檔庫管理、限定詞同義詞術(shù)語等信息庫管理、標(biāo)準(zhǔn)字典管理和數(shù)據(jù)源字典管理。a)標(biāo)準(zhǔn)文檔庫管理:包括但不局限于包括國(guó)標(biāo)、部標(biāo)、行標(biāo)的數(shù)據(jù)元錄入、查詢、編輯、狀態(tài)管理;標(biāo)準(zhǔn)文檔收錄、查閱、狀態(tài)管理。b)限定詞、同義詞、術(shù)語等信息庫管理:包括但不局限于收錄、查閱、關(guān)聯(lián)顯示、狀態(tài)管理。c)標(biāo)準(zhǔn)字典管理:用于編輯已有的標(biāo)準(zhǔn)字典信息,同時(shí)應(yīng)支持在各類標(biāo)準(zhǔn)字典分類下新增標(biāo)準(zhǔn)字典表及字典項(xiàng),擴(kuò)充標(biāo)準(zhǔn)字典庫,用于后期對(duì)業(yè)務(wù)數(shù)據(jù)的標(biāo)準(zhǔn)化管理。數(shù)據(jù)標(biāo)準(zhǔn)包括不局限于國(guó)標(biāo)、部標(biāo)、行標(biāo)等。d)數(shù)據(jù)源字典管理:用于管理和維護(hù)各業(yè)務(wù)系統(tǒng)未進(jìn)行標(biāo)準(zhǔn)化之前的字典。元數(shù)據(jù)管理要求元數(shù)據(jù)是描述信息資源特征的數(shù)據(jù),它從信息內(nèi)容、載體形態(tài)、信息資源集合及其組織體系、管理與服務(wù)機(jī)制以及過程與系統(tǒng)等方面去描述信息資源的特征和屬性。元數(shù)據(jù)管理對(duì)數(shù)據(jù)存儲(chǔ)、計(jì)算過程中涉及的數(shù)據(jù)源、數(shù)據(jù)庫、表、維度等進(jìn)行記錄和管理。元數(shù)據(jù)管理包括但不局限于數(shù)據(jù)源管理、元模型管理、元數(shù)據(jù)注冊(cè)和元數(shù)據(jù)分析。a)數(shù)據(jù)源管理:用于管理各類異構(gòu)數(shù)據(jù)庫的連接信息,以便同步各應(yīng)用系統(tǒng)的元數(shù)據(jù)信息。倉庫應(yīng)支持包括但不局限于達(dá)夢(mèng)、人大金倉、Gbase、Oracle、MySQL、Swift、Hive、Hbase、ES、Kafka等多種數(shù)據(jù)庫類型,同時(shí)應(yīng)支持包括但不局限于ETL-接入任務(wù)、ETL-規(guī)整任務(wù)、ETL-作業(yè)等ETL數(shù)據(jù)源。b)元模型管理:用于獲取不同數(shù)據(jù)庫類型的元模型信息,并展示出各類異構(gòu)數(shù)據(jù)庫的所有元模型及屬性信息,包括但不局限于技術(shù)元模型以及ETL操作元模型。c)元數(shù)據(jù)注冊(cè):主要是在數(shù)據(jù)源下依托元模型進(jìn)行元數(shù)據(jù)注冊(cè),包括但不局限于表、視圖、索引、字段、列族、消息、ETL等各類元模型下元數(shù)據(jù)。d)元數(shù)據(jù)分析:應(yīng)支持按數(shù)據(jù)源查看已注冊(cè)的所有元數(shù)據(jù)以及元數(shù)據(jù)的血緣影響關(guān)系,并在此基礎(chǔ)上支撐創(chuàng)建DDL表功能,新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論