(高清版)DB4208∕T 59-2024 《荊門城市大數(shù)據(jù)采集規(guī)范》_第1頁
(高清版)DB4208∕T 59-2024 《荊門城市大數(shù)據(jù)采集規(guī)范》_第2頁
(高清版)DB4208∕T 59-2024 《荊門城市大數(shù)據(jù)采集規(guī)范》_第3頁
(高清版)DB4208∕T 59-2024 《荊門城市大數(shù)據(jù)采集規(guī)范》_第4頁
(高清版)DB4208∕T 59-2024 《荊門城市大數(shù)據(jù)采集規(guī)范》_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

代替DB4208/T59-2017荊門城市大數(shù)據(jù)采集規(guī)范2024-02-01發(fā)布2024-03-01實施荊門市市場監(jiān)督管理局發(fā)布I前言 I I 12規(guī)范性引用文件 13術(shù)語和定義 14總體架構(gòu) 54.1數(shù)據(jù)采集工作流程 54.2數(shù)據(jù)采集處理架構(gòu) 64.2.1數(shù)據(jù)采集系 64.2.2消息服務(wù) 64.2.3數(shù)據(jù)交換管理中 74.2.4任務(wù)系統(tǒng) 74.2.5運行與監(jiān)控 74.3數(shù)據(jù)采集網(wǎng)絡(luò)架構(gòu) 74.3.1數(shù)據(jù)采集邏輯架構(gòu) 74.3.2數(shù)據(jù)采集物理部署 74.4采集過程數(shù)據(jù)分析 84.4.1數(shù)據(jù)類型 84.4.2數(shù)據(jù)質(zhì)量 84.4.3數(shù)據(jù)存儲 95技術(shù)規(guī)范 95.1數(shù)據(jù)采集方案選擇 95.1.1數(shù)據(jù)庫接入方式 5.1.3API接人方式 15.1.4網(wǎng)頁接入方式 5.1.5流式接入方式 5.1.6消息接入方式 5.2數(shù)據(jù)采集周期 5.3數(shù)據(jù)采集更新機制 5.3.1全量抽取 5.3.2增量抽取 5.4數(shù)據(jù)采集實施 5.4.1數(shù)據(jù)采集實施流程 5.4.2任務(wù)分解 5.4.3數(shù)據(jù)采集監(jiān)控 Ⅲ本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。本文件代替DB4208/T59-2017,與DB4208/T59-2017相比,除文件編號按照新要求更新外,主要技術(shù)參數(shù)未發(fā)生變化。本文件由荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)提出。本文件由荊門市行政審批局歸口。本文件起草單位:荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)。本文件主要起草人:胡玉榮、羅傳軍、肖立剛、楊金龍、劉波、田原、陸焱、王婭紛、熊士杰、陳永鋒、李祥琴、游明坤、賴旭、武永成、董尚燕、張牧、吳際林、劉珊艷、余建國、方靖、莊小林。本文件于2017年5月首次發(fā)布。本文件實施應(yīng)用中的疑問,可咨詢荊門市行政審批局,聯(lián)系電話:(0724)2376309,郵箱:690882384@;對本標準的有關(guān)修改意見建議請反饋至荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心),聯(lián)系電話:(0724)2376119,郵箱:282685564@據(jù)交易、技術(shù)產(chǎn)品、安全保密等關(guān)鍵共性標準的制定和實施?!毕淼目傮w框架和技術(shù)規(guī)范,涉及數(shù)據(jù)處理的整個流程:首先進行數(shù)據(jù)采集,然后通過數(shù)據(jù)整合(包括數(shù)據(jù)清洗和數(shù)據(jù)比對),將整合成功的數(shù)據(jù)裝載到公共基礎(chǔ)信息庫,根據(jù)需要提供數(shù)據(jù)共享。五個標準規(guī)范的制定是荊門市電子政務(wù)信息中心(荊門市大數(shù)據(jù)中心)和全市信息行業(yè)人員的共同1凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.17信息技術(shù)詞匯第17部分:數(shù)據(jù)庫GB/T17532術(shù)語工作計算機應(yīng)用詞匯GB/T22239信息安全技術(shù)信息系統(tǒng)安全等級保護基本要求GB/T25647電子政務(wù)術(shù)語GB/T29262信息技術(shù)面向服務(wù)的體系結(jié)構(gòu)(SOA)術(shù)語DB4208/T58荊門城市大數(shù)據(jù)術(shù)語關(guān)于數(shù)據(jù)和數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和數(shù)據(jù)易變性的數(shù)據(jù)。通過計算機網(wǎng)絡(luò)將物理上分散的存儲資源構(gòu)成一個虛擬的存儲設(shè)備,集中管理數(shù)據(jù)的一種存儲方2方式。準的過程。和數(shù)據(jù)。像、文本等。介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間,一般是自描述的,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混合在一起的數(shù)據(jù),如3全稱ExtractTransformationLoad,用來描述從數(shù)據(jù)源抽取(extract)所需的數(shù)據(jù),經(jīng)過預(yù)處理后,按照預(yù)先定義的數(shù)據(jù)倉庫模型進行轉(zhuǎn)換(tra為應(yīng)用系統(tǒng)提供的,實現(xiàn)消息通信功能的運數(shù)據(jù)交換平臺中與數(shù)據(jù)提供方進行信息交換共享4全稱ApplicationProgram使用數(shù)字簽名技術(shù)產(chǎn)生的數(shù)據(jù),簽名的對象包括了原始文件信息、簽名參數(shù)、簽名時間等信息。TSA(時間戳機構(gòu))對此對象進行數(shù)字簽名產(chǎn)生時間戳,以證明原始文件在簽名時間之前已經(jīng)存在。5從數(shù)據(jù)源中進行數(shù)據(jù)采集的過程,包括全量抽取和增量抽取。一種應(yīng)用編程接口或Web應(yīng)用編程接口,通過標準的規(guī)約進行定義、并通過標準進行訪問和使用。4總體架構(gòu)4.1數(shù)據(jù)采集工作流程數(shù)據(jù)采集工作流程見圖1所示。任務(wù)任務(wù)入庫圖1數(shù)據(jù)采集工作流程6a)主管部門向數(shù)據(jù)提供方和中心管理方發(fā)送數(shù)據(jù)采集通知,統(tǒng)籌協(xié)調(diào)數(shù)據(jù)采集前所涉及工作安b)中心管理方對已確定的待采集數(shù)據(jù)做好采集實施準備;匯聚,數(shù)據(jù)采集處理架構(gòu)見圖2所示。數(shù)據(jù)受工作業(yè)務(wù)、信息化程度和安全性等多種因素的限制,形態(tài)數(shù)據(jù)交換管理中心任務(wù)并發(fā)出消務(wù)運行與控L據(jù)數(shù)據(jù)采數(shù)據(jù)采數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)采集數(shù)據(jù)采集據(jù)采集數(shù)據(jù)提供方業(yè)務(wù)數(shù)據(jù)(數(shù)據(jù)庫、文件、接口、消息等)臺NH成???,數(shù)據(jù)流監(jiān)控及與消息服務(wù)的通信,中心匯聚處理。7處理及對外調(diào)用接口等功能組成。2)共享庫:存儲從數(shù)據(jù)提供方推送來的前置機1前置機2前置機n前置庫前置庫前置庫8數(shù)據(jù)采集物理部署見圖4所示。數(shù)數(shù)據(jù)大數(shù)據(jù)中心煎機數(shù)據(jù)煎機數(shù)抿據(jù)3圖4數(shù)據(jù)采集體系物理部署4.4采集過程數(shù)據(jù)分析待采集的數(shù)據(jù)主要來源于數(shù)據(jù)提供方和互聯(lián)網(wǎng)上的社會輿情數(shù)據(jù),基本覆蓋擁有人口、法人、建筑物、地理、宏觀經(jīng)濟等五大庫相關(guān)政務(wù)數(shù)據(jù)資源的單位。根據(jù)業(yè)務(wù)的需要,可對數(shù)據(jù)來源進行擴充。數(shù)據(jù)來源具有獨立性,擴展的類別不會影響已建設(shè)的數(shù)據(jù)分類存儲和處理。數(shù)據(jù)提供方已確定的待采集數(shù)據(jù)以多種形式和類型存在,可分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。從目前采集的數(shù)據(jù)分析,主要涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體說明如下:a)結(jié)構(gòu)化數(shù)據(jù):可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù),如Oracle、MySQL、DB2、SQLServer等數(shù)據(jù)庫的數(shù)據(jù);b)非結(jié)構(gòu)化數(shù)據(jù):不方便用二維表結(jié)構(gòu)表現(xiàn)的數(shù)據(jù),如文本、圖片、XML、網(wǎng)頁、報表、圖像、音頻、視頻信息等;c)半結(jié)構(gòu)化數(shù)據(jù):介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),數(shù)據(jù)字段數(shù)目不定,可根據(jù)實際需要進行增減,如HTML文檔、電子郵件等。4.4.2數(shù)據(jù)質(zhì)量在數(shù)據(jù)采集過程,為保證數(shù)據(jù)質(zhì)量,宜遵循如下原則:a)完整性:數(shù)據(jù)不存在缺失,并保留歷史數(shù)據(jù)等狀況;b)一致性:數(shù)據(jù)遵循統(tǒng)一的規(guī)范,統(tǒng)一編碼,數(shù)據(jù)集合保持統(tǒng)一的格式。同一指標在系統(tǒng)不同應(yīng)用中應(yīng)保證數(shù)據(jù)的一致性,同一指標數(shù)據(jù)在不同維度和不同顆粒度下應(yīng)保證上下一致;c)準確性:數(shù)據(jù)記錄不存在異?;蝈e誤;d)及時性:數(shù)據(jù)從開始到完成采集的延遲時間短。實時數(shù)據(jù)的采集,在網(wǎng)絡(luò)狀況良好的情況下,數(shù)據(jù)交換平臺宜在5秒內(nèi)完成采集;e)保密性:對待采集的數(shù)據(jù)進行加密,保證數(shù)據(jù)不被非法用戶訪問,只被擁有權(quán)限的用戶訪問。94.4.3數(shù)據(jù)存儲數(shù)據(jù)采集過程,涉及前置庫和中心匯聚庫的數(shù)據(jù)存儲。前置庫存儲在前置機上,用于存放通過數(shù)據(jù)采集系統(tǒng)抽取后準備入庫到中心匯聚庫的數(shù)據(jù)或從大數(shù)據(jù)中心推送來的數(shù)據(jù)。前置庫中表和字段的創(chuàng)建,既可按數(shù)據(jù)來源分類進行手動增加,也可以通過Oracle或MySQL直接進行導(dǎo)入。根據(jù)數(shù)據(jù)來源的獨立性,中心匯聚庫的數(shù)據(jù)按數(shù)據(jù)提供方進行獨立的分類存儲和處理,從互聯(lián)網(wǎng)這一特定的數(shù)據(jù)來源獲取的社會輿情數(shù)據(jù)也作為一個單獨的類別進行存儲。中心匯聚庫作為數(shù)據(jù)緩沖層,存儲的數(shù)據(jù)均是最新數(shù)據(jù)。一旦有新的數(shù)據(jù)進入,舊的數(shù)據(jù)就會被置換,始終保持從數(shù)據(jù)采集系統(tǒng)采集來的最新數(shù)據(jù),并采用數(shù)據(jù)片批次置換機制進行存儲。中心匯聚庫的數(shù)據(jù),宜按照如下要求:a)在數(shù)據(jù)采集前,需先按數(shù)據(jù)提供方進行分類,再進行表和字段的創(chuàng)建,可以手動增加,也可以通過Oracle或MySQL直接進行導(dǎo)人;b)若前置庫和中心匯聚庫的數(shù)據(jù)庫表結(jié)構(gòu)存在差異,系統(tǒng)需對表字段和內(nèi)容進行轉(zhuǎn)換。若兩者對同一屬性的表示方式不一致,系統(tǒng)需提供數(shù)據(jù)內(nèi)容轉(zhuǎn)換。1技術(shù)規(guī)范數(shù)據(jù)采集是實現(xiàn)信息資源共享的前提和基礎(chǔ),在采集數(shù)據(jù)過程應(yīng)遵循“一數(shù)一源”的原則。1.1數(shù)據(jù)采集方案選擇通過前期調(diào)研和梳理,確定數(shù)據(jù)提供方的待采集數(shù)據(jù)形態(tài)和提供方式。根據(jù)實際情況,確定數(shù)據(jù)采集實施方案并簽定相應(yīng)保密協(xié)議。數(shù)據(jù)提供方接人數(shù)據(jù)的方案可包括:數(shù)據(jù)庫接人方式、文件接入方式、API接入方式、網(wǎng)頁接入方式和消息接入方式。1.1.1數(shù)據(jù)庫接入方式采用前置庫與數(shù)據(jù)交換平臺進行連接的方式。在此方式下,數(shù)據(jù)提供方的應(yīng)用系統(tǒng)通過前置庫中轉(zhuǎn),與大數(shù)據(jù)中心進行信息交換,數(shù)據(jù)庫接入方式的業(yè)務(wù)流程見圖5所示。數(shù)據(jù)庫接入方式適用于滿足如下條件的數(shù)據(jù)采集:a)信息化程度高、保密性強。可在數(shù)據(jù)提供方的應(yīng)用系統(tǒng)與數(shù)據(jù)交換平臺間進行物理或邏輯隔離,如公安局,宜采用物理隔離;b)配置前置機。在數(shù)據(jù)提供方或大數(shù)據(jù)中心配置連接政務(wù)內(nèi)、外網(wǎng)的前置機,并在前置機上安裝數(shù)據(jù)庫管理系統(tǒng)和交換節(jié)點軟件?!溄邮〔捎梦募问脚c數(shù)據(jù)交換平臺進行數(shù)據(jù)交換的方式。在此方式下,數(shù)據(jù)提供方將數(shù)據(jù)保存為xml、據(jù)量大的數(shù)據(jù)文件,建議盡量選擇數(shù)據(jù)庫接人方式,文件接入方式的業(yè)務(wù)流程見圖6所示。文件接入方式適用于滿足如下條件的數(shù)據(jù)采集:a)有數(shù)據(jù)但沒有系統(tǒng)或相關(guān)數(shù)據(jù)沒有進入數(shù)據(jù)庫或數(shù)據(jù)采集周期性較長的情況(如按月、按季、按年報送);2)HTTP方式:大數(shù)據(jù)中心提供相應(yīng)的文件交換可以對上傳文件進行檢查和控制。文件上傳系統(tǒng)應(yīng)提供文件上傳權(quán)限管理、數(shù)據(jù)驗證、上傳結(jié)果查詢功能。解析成功開始包含未驗證文件包括下載文件解析解析失敗根據(jù)類型解析析記錄不包括存儲本地不能解析記錄結(jié)束圖6文件接入方式的業(yè)務(wù)流程1.1.3API接入方式根據(jù)數(shù)據(jù)提供方提供的RestfulAPI或Webservice接口快速接入數(shù)據(jù)交換平臺,并由服務(wù)總線統(tǒng)一對外提供服務(wù)的對接方式,API接入方式的業(yè)務(wù)流程見圖7所示。在此接入方式下,數(shù)據(jù)提供方需要提供適用于數(shù)據(jù)量大的數(shù)據(jù)采集。API接入方式適用于滿足如下條件的數(shù)據(jù)采集:a)信息交換頻繁,與數(shù)據(jù)提供方業(yè)務(wù)處理緊密聯(lián)系的應(yīng)用系統(tǒng);b)需要直接在線提供數(shù)據(jù)。有封裝規(guī)范的RestfulAPI或Webservice調(diào)用接口,并提供詳細的服務(wù)描述信息。開始開始保存結(jié)束照一定規(guī)則和篩選標準進行數(shù)據(jù)歸類,形成數(shù)據(jù)庫文件。網(wǎng)頁接人方式的業(yè)務(wù)流程見圖8所示。網(wǎng)頁接開始開始創(chuàng)建網(wǎng)頁基礎(chǔ)信息輸入系統(tǒng)信息輸入待采集頁面信息保存結(jié)束DB4208/T59—2024c)配置連接政務(wù)外網(wǎng)的前置機,在前置機上安裝交換消息處理軟件(消息中間件)。a)數(shù)據(jù)一次采集:一次性將所有待采集數(shù)據(jù)(如一個完整的數(shù)據(jù)表)全部采集到中心匯聚庫;b)數(shù)據(jù)實時采集:采集響應(yīng)時間要保證實時性、低延遲,可按秒、分進行數(shù)據(jù)片采集;據(jù)采集,可按每周、每月、每季、每年等時間周期進行數(shù)據(jù)片采集。b)將確定的待采集數(shù)據(jù)的表或視圖原封不動的從數(shù)據(jù)庫中抽取出來,并轉(zhuǎn)換成ETL工具可識別的格式,全量導(dǎo)人到中心匯聚庫的目標表。用于抽取自上一輪次抽取后數(shù)據(jù)庫表發(fā)生變化的數(shù)據(jù)。捕獲變化的數(shù)據(jù)可采用的方式有:觸發(fā)器、b)源表的數(shù)據(jù)發(fā)生變化,相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入臨時表;c)抽取線程從臨時表抽取數(shù)據(jù)。b)更新或修改表數(shù)據(jù)時,修改時間戳字段值;全表比對進行增量抽取,逐條比較源表和目標表的記錄,將新增和修改的記錄讀取出來??刹捎胊)在表中增加版本號列來存儲數(shù)據(jù)行變化,每次變化都將版本號列的數(shù)據(jù)增加1;b)使用參考表記錄每次采集數(shù)據(jù)時對應(yīng)的版本;d)采集完后將參考表對應(yīng)版本號更新為與源表一致的版本號。b)掃描日志文件查看數(shù)據(jù)庫表的變化情況進行實時采集。a)前置庫用戶、角色權(quán)限等的分配、表空間的劃分以采集方案采集配置采集調(diào)度啟啟動數(shù)據(jù)采集中心匯聚庫前置庫采集方案選擇采集配置管理采集調(diào)度大數(shù)據(jù)中心方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論