大數(shù)據(jù)歸集文件_第1頁
大數(shù)據(jù)歸集文件_第2頁
大數(shù)據(jù)歸集文件_第3頁
大數(shù)據(jù)歸集文件_第4頁
大數(shù)據(jù)歸集文件_第5頁
已閱讀5頁,還剩137頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1服務方案

1.1服務方案

1.1.1服務內容清單

我方按照以下清單提供服務:

序號服務內容單位數(shù)量

—*數(shù)據(jù)實施服務

1業(yè)務對象梳理項1

數(shù)據(jù)調研服務

2精細化業(yè)務梳理項1

3一級數(shù)據(jù)目錄梳理項1

4數(shù)據(jù)目錄梳理數(shù)據(jù)子目錄梳理項1

5數(shù)據(jù)元目錄梳理項1

6數(shù)據(jù)采集服務標準化接入部門數(shù)據(jù)項1

7數(shù)據(jù)清洗項1

數(shù)據(jù)治理服務

8數(shù)據(jù)加工項1

數(shù)據(jù)開發(fā)服務

1同步任務項1

2任務開發(fā)接口任務項1

3數(shù)據(jù)校驗任務項1

4數(shù)據(jù)清洗任務項1

5數(shù)據(jù)轉換任務項1

6SQL語句任務項1

7SQL模板任務項1

8可配置FTP任務項1

9任務視圖可視化配置任務間依賴項1

10文件采集不同文件類型采集項1

11任務標簽管理對任務標簽的管理項1

12組合規(guī)則管理對組合規(guī)則配置管理項1

13SQL模版管理配置SQL模版任務項1

數(shù)據(jù)運維管理服務

1任務相關信息數(shù)據(jù)監(jiān)測項1

2運維監(jiān)測任務運行監(jiān)測項1

3數(shù)據(jù)質量檢測項1

4補數(shù)據(jù)項1

5調整調度狀態(tài)項1

任務調度

6查看任務視圖項1

7撤銷任務項1

8運行日志項1

9任務記錄啟動備注項1

10結果比對項1

11文件采集記錄對文件采集管理記錄項1

查看接口的信息及其調用

12接口訪問記錄項1

記錄

共享接口、任務執(zhí)行器監(jiān)

13系統(tǒng)監(jiān)控記錄項1

配置數(shù)據(jù)任務、存儲閾

14告警規(guī)則管理值、平臺生成接口等告警項1

規(guī)則

四數(shù)據(jù)資源弓錄

1資源目錄創(chuàng)建項1

資源目錄管理

2資源目錄變更項1

3發(fā)布狀態(tài)管理項1

4接口目錄管理賬號配置管理項1

5接口停用管理項1

6數(shù)據(jù)資源訂閱申請訂閱數(shù)據(jù)資源項1

7相應接口訂閱申請訂閱數(shù)據(jù)資源接口項1

8訂閱審核資源訂閱申請的審核項1

五數(shù)據(jù)管理

對不同數(shù)據(jù)源的管理和維

1數(shù)據(jù)源管理項1

2分類樹項1

3元數(shù)據(jù)管理分類管理項1

4表管理項1

5表類別管理對表類別進行增刪改查項1

6數(shù)據(jù)資源監(jiān)控數(shù)據(jù)庫的相應監(jiān)控信息項1

7數(shù)據(jù)報告數(shù)據(jù)量、數(shù)據(jù)異常情況項1

對數(shù)據(jù)源歸屬的物理存儲

8存儲容量管理項1

進行管理

八數(shù)據(jù)資源中心庫建設

1數(shù)據(jù)原始庫個1

2基礎支撐庫個1

3人口庫個1

4法人庫個1

5宏觀經(jīng)濟庫個1

6公共信用庫個1

7空間地理庫個1

8電子證照庫個1

本次項目數(shù)據(jù)歸集的目標主要有以下內容:

(1)在用業(yè)務系統(tǒng)梳理。各單位應做好本單位內所有在用業(yè)務系統(tǒng)梳理,

包含國家、省、市統(tǒng)建的業(yè)務系統(tǒng),以及本單位內部自建業(yè)務系統(tǒng)。

(2)數(shù)據(jù)資源目錄梳理。各單位應做好本單位內自建系統(tǒng)的數(shù)據(jù)資源目錄

梳理,包含相關線下文檔數(shù)據(jù)目錄梳理。

(3)數(shù)據(jù)共享需求梳理。各單位根據(jù)實際業(yè)務情況,提出本單位對其他單

位數(shù)據(jù)共享的需求,并報縣數(shù)據(jù)資源管理局。

(4)數(shù)據(jù)歸集。各單位應根據(jù)縣數(shù)據(jù)資源局《數(shù)據(jù)共享任務清單》,做好本

單位內數(shù)據(jù)歸集以及相應系統(tǒng)的對接工作。

1.1.2數(shù)據(jù)調研與普查

建立實施組織

為確保責任到人、任務落地,采用“全縣統(tǒng)籌、分類分組、集中攻關、強化

對接”模式,在縣數(shù)據(jù)資源局統(tǒng)一部署下,各有關單位要建立本單位數(shù)據(jù)歸集共

享工作專班,安排專人落實工作。

綜合協(xié)調組:由縣數(shù)據(jù)資源局主要負責人擔任組長,成員包括項目負責人及

技術公司負責人。

技術保障組:由技術公司業(yè)務人員擔任,縣數(shù)據(jù)資源局配合其開展工作。

下發(fā)任務通知

縣數(shù)據(jù)資源局下發(fā)有關工作通知,各相關單位在規(guī)定時間內反饋《信息化系

統(tǒng)評估清單確認表》和《數(shù)據(jù)資源調研表》,并指派實施對接的聯(lián)絡員。待收到

技術保障組回復后,安排調研計劃。

信息化系統(tǒng)評估清單確認表

摸清部門現(xiàn)有業(yè)務系統(tǒng)使用情況。主要包括:系統(tǒng)名稱、級別(國家、省、

市、縣)、資金投入(萬元)等。

具體內容需填寫《信息化系統(tǒng)評估清單確認表》。

填表要求與說明:

A.所有項均為必填項。

B.需填報本單位所有在用的業(yè)務相關的系統(tǒng)、網(wǎng)站等,無論該系統(tǒng)、網(wǎng)站

是否本單位自建。

C.業(yè)務系統(tǒng)名稱:要求填寫完整業(yè)務系統(tǒng)名稱,一般在項目建設相關文檔

中會提及。

《信息化系統(tǒng)評估清單確認表》初步設計與樣例如下:

系所屬業(yè)務科負使建完.資是開所數(shù)是歸歸數(shù)

統(tǒng)部門空責用設成金否發(fā)、在據(jù)否集集據(jù)

名人范年年投在維護網(wǎng)內歸方周庫

稱/圍度度入用廠商絡容集式期設

聯(lián)(((/聯(lián)類基(((計

系所萬是系方型本是推n文

方屬元/式(信/送/檔

式層)否政息否/周(

級)務()抽/請

外系取年早

中網(wǎng)統(tǒng)))做

央/功準

/政用備

省務),

/內歸

I'U網(wǎng)集

//時

縣互需

)聯(lián)提

網(wǎng)供

/)

網(wǎng)

)

懷縣城執(zhí)法督鄭縣222是城云政事否推日提

寧管局察股建003科技務件送供

智(數(shù)字好111(中外數(shù)數(shù)

慧化城管46888國)網(wǎng)據(jù)據(jù)

城指揮中12*有限部庫

管心)318公司件文

系98數(shù)檔

統(tǒng)據(jù)

數(shù)據(jù)資源調研表

分為政務數(shù)據(jù)目錄編制表、社會數(shù)據(jù)目錄編制表、外部數(shù)據(jù)需求3個表單。

數(shù)據(jù)資源填寫工作內容:

A.梳理本部門的數(shù)據(jù)資源清單,按照數(shù)據(jù)資源的類別分別填入《政務數(shù)據(jù)

目錄編制表》、《社會數(shù)據(jù)目錄編制表》,其中《政務數(shù)據(jù)目錄編制表》中優(yōu)先填

寫數(shù)據(jù)資源部分,標灰色的事項清單信息可后續(xù)補充提供。

B.梳理本部門對其他部門的數(shù)據(jù)資源需求,填入《外部數(shù)據(jù)需求》

補充說明:

政務數(shù)據(jù)資源與社會數(shù)據(jù)資源區(qū)別,政務數(shù)據(jù)資源是指行政許可、行政確認、

行政給付、行政征收、行政獎勵、行政裁決、其他行政權力和公共服務職責中產(chǎn)

生或者獲取的,以一定形式記錄、保存的各類數(shù)據(jù)資源。社會數(shù)據(jù)資源是指本行

業(yè)部門內的社會組織,以及從事供水、供電、供氣、供熱、公共交通、電信、郵

政等公共服務的企事業(yè)單位依法產(chǎn)生或獲取的數(shù)據(jù),“互聯(lián)網(wǎng)+社會服務”中的

教育、醫(yī)療健康、養(yǎng)老、體育、文化、旅游等領域數(shù)據(jù)。

具體內容需填寫《數(shù)據(jù)度源調研表》。

數(shù)據(jù)調研服務

對本期需要接入的系統(tǒng),涉及的業(yè)務對象和業(yè)務范疇進行梳理,包括業(yè)務

對象梳理和精細化業(yè)務梳理兩部分內容。

(1)業(yè)務對象梳理

對本期接入的各個數(shù)據(jù)系統(tǒng)按照管理業(yè)務、基本對象、子對象、公用屬

性、對象屬性等維度進行詳細梳理,為數(shù)據(jù)規(guī)范叱提供支撐。

(2)精細化業(yè)務梳理

對本期接入的各個數(shù)據(jù)系統(tǒng)按照管理業(yè)務、業(yè)務大類、業(yè)務數(shù)據(jù)對應系統(tǒng)

等維度進行詳細梳理,為數(shù)據(jù)規(guī)范化提供支撐。

調研的內容包括數(shù)據(jù)和業(yè)務流程兩部分。業(yè)務部門的數(shù)據(jù)都與其業(yè)務密切

相關,在調研報告的輸出中,需要詳細闡述被調研部門的業(yè)務現(xiàn)狀。

調研內容如下表:

序號數(shù)據(jù)調研內容數(shù)據(jù)調研說明

系統(tǒng)數(shù)據(jù)是指存儲在信息系統(tǒng)數(shù)據(jù)庫中的數(shù)

1數(shù)據(jù)存在方式據(jù),手工數(shù)據(jù)是指工作人員在日常工作中用

Excel表格制作的數(shù)據(jù)。

數(shù)據(jù)調研的內容按數(shù)據(jù)的類型還可以分為結

2數(shù)據(jù)的類型

構化數(shù)據(jù)和非結構化數(shù)據(jù)。

多個部門之間(或部門內部之間)的人口數(shù)據(jù)

3數(shù)據(jù)之間梳理的關聯(lián)關系,數(shù)據(jù)之間的重復與否;多個部門

之間在一項業(yè)務中存在協(xié)同關聯(lián)的

調研的內容還可以包括了解被調研部門對其

4數(shù)據(jù)需求

他部門數(shù)據(jù)的需求。

比對三定方案、權責清單等詳細了解被調研部

5業(yè)務現(xiàn)狀

門得業(yè)務現(xiàn)狀。

1.126數(shù)據(jù)目錄服務

根據(jù)調研結果,梳理數(shù)據(jù)目錄,包括一級數(shù)據(jù)目錄、數(shù)據(jù)子目錄梳理和數(shù)

據(jù)元目錄梳理。

數(shù)據(jù)資源目錄梳理從兩個維度進行梳理:

1、縱向整理是把分散在下級處室的數(shù)據(jù)資源匯總成總體數(shù)據(jù)資源目錄,這

個過程是從下到上、逐級進行的;

2、橫向整理是從內容上整理,先整理業(yè)務,再整理數(shù)據(jù)。對業(yè)務信息進行

分類匯總融合等處理,對數(shù)據(jù)進行合并同類項、確定責任方等處理。

一級數(shù)據(jù)目錄梳理。將業(yè)務事項、業(yè)務子項根據(jù)數(shù)據(jù)目錄梳理模板梳理成

數(shù)據(jù)目錄列表。

數(shù)據(jù)子目錄梳理。將業(yè)務和資源調查表中業(yè)務子項和資源子項先從各處室

業(yè)務和資源調查情況進行匯總,再梳理成數(shù)據(jù)子目錄列表。

數(shù)據(jù)元目錄梳理。將業(yè)務和資源調查表中中文名稱、共享類型、數(shù)據(jù)類名

稱、字段名稱、定義、值域、備注等調查的資源先從各處室業(yè)務和資源調查情

況進行匯總,再梳理成數(shù)據(jù)元目錄列表

1.1.3數(shù)據(jù)歸集

數(shù)據(jù)歸集范圍

本項目的數(shù)據(jù)歸集范圍為各部門的核心業(yè)務數(shù)據(jù)匯聚。包括國家、省、市主

管部門留在懷寧縣的所有數(shù)據(jù),含100%的政務數(shù)據(jù)資源和60%的社會數(shù)據(jù)資源。

數(shù)據(jù)共享需求梳理

各單位根據(jù)實際業(yè)務情況,提出本單位對其他單位數(shù)據(jù)共享的需求,按照

《外部數(shù)據(jù)需求》填寫,并報縣數(shù)據(jù)資源局。

本項任務在任務下發(fā)后部門即可開展梳理工作。

(1)數(shù)據(jù)共享工作總則

?數(shù)據(jù)共享工作嚴格按照先申請后使用的模式進行。

?數(shù)據(jù)共享申請要求有理有據(jù),明確數(shù)據(jù)使用范圍及場景。

?數(shù)據(jù)使用嚴格按照申請時提出使用范圍及場景進行使用,不允許擅自

挪作他用。

(2)數(shù)據(jù)共享申請流程規(guī)范

所有數(shù)據(jù)共享申請統(tǒng)一在后續(xù)發(fā)布的數(shù)據(jù)資源門戶中進行線上申請,用請

流程如下:

部門根據(jù)實際工作

需要產(chǎn)生對其他部

門數(shù)據(jù)的需求

需求部門

提出需求申請

填報相應需求單

數(shù)據(jù)資源局審核

數(shù)據(jù)歸集路徑

(1)縣級部門數(shù)據(jù)歸集設計

縣級部門系統(tǒng)由于所屬網(wǎng)絡不同,在數(shù)據(jù)歸集時有同網(wǎng)歸集和跨網(wǎng)歸集兩種

方式。

1)同網(wǎng)歸集。由縣數(shù)據(jù)資源局工作專班將共享數(shù)據(jù)抽取至大數(shù)據(jù)平臺。

2)跨網(wǎng)歸集。如果縣級部門系統(tǒng)建在專網(wǎng)(如公安網(wǎng)、衛(wèi)健專網(wǎng)等)內,則

由數(shù)源部門按照數(shù)據(jù)交換程序,將數(shù)據(jù)推送至前置機,再由縣數(shù)據(jù)資源局工作專

班將共享數(shù)據(jù)從前置機抽取至大數(shù)據(jù)平價。

(2)市級數(shù)據(jù)歸集設計

通過大數(shù)據(jù)平臺的共享交換功能,把懷寧縣歸集數(shù)據(jù)上傳至安慶市,完成市

級歸集。

(3)來自社會公眾的第三方數(shù)據(jù)結構化數(shù)據(jù)

1)通過接口調取或者離線批量數(shù)據(jù)直接導入的方式對第三方數(shù)據(jù)進行匯聚。

2)匯聚的數(shù)據(jù)進行校驗、清洗、比對、轉換、整合后進入到數(shù)據(jù)資源池中。

前置數(shù)據(jù)庫歸集步驟

各委辦局單位提供數(shù)據(jù)目前有成熟的業(yè)務系統(tǒng),有固定的數(shù)據(jù)庫系統(tǒng)支

撐,此類數(shù)據(jù)共享方式應選擇備份庫共享模式。

(1)匯聚工作步驟

與部門相關業(yè)務人員或者第三方開發(fā)單位確認部門歸集前置機數(shù)據(jù)庫類

型、數(shù)據(jù)庫名稱、用戶名及密碼。

與部門確認核實每張表的數(shù)據(jù)更新頻率,根據(jù)數(shù)據(jù)更新頻率,配置全量數(shù)

據(jù)交換還是增量數(shù)據(jù)交換。

核對部門前置庫歸集表中英文字段注釋是否齊全,核實表中字段是否屬于

數(shù)據(jù)字典,如果是數(shù)據(jù)字典,需要部門提供數(shù)據(jù)字典項,補充數(shù)據(jù)字典項。

核對部門前置庫歸集表英文表名稱是否有對應的中文名稱,與第三方單位

確認并進行補充。

各部門前置庫數(shù)據(jù)庫類型存在種類多樣的數(shù)據(jù)庫類型,如數(shù)據(jù)庫類型為

Oracle>MySQL、SQLServerDB2等,需要進行不同類型的數(shù)據(jù)庫轉換。作。

以上工作準備完成之后,開始進行部門前置庫表數(shù)據(jù)到中心庫數(shù)據(jù)歸集實

施交換工作。

數(shù)據(jù)交換歸集完成提交部門數(shù)據(jù)歸集清單。

離線文件規(guī)范步驟

各委辦局提供的數(shù)據(jù)多年來是以電子表格的形式或者紙質登記存檔,無固

定的數(shù)據(jù)庫系統(tǒng),此類數(shù)據(jù)共享方式可選擇手動傳輸離線文件匯聚模式。具體

實施過程如下:

整理離線數(shù)據(jù)文件過程中,需注意的事項如下:

不能合并行或列(即:不要出現(xiàn)合并的單元格)。必須確保一行為一條數(shù)

據(jù),一列對應一個數(shù)據(jù)項。

第一行必須為數(shù)據(jù)項表頭。第一行不能為空,或者非此數(shù)據(jù)目錄表頭的其

他信息。

同一列數(shù)據(jù)類型要相同,例如:“日期”列不能出現(xiàn)“自定義”、“文

本”、“日期”等多種類型,建議統(tǒng)一用“文本”類型。

對應的數(shù)據(jù)項值為一長串數(shù)字時,請統(tǒng)一使用“文本”類型,例如“旅游

編號”、“身份證號”等。

每個數(shù)據(jù)值的單元格中,不要出現(xiàn)多余的空吁,以及超鏈接之類的無效信

息。

(3)離線文件報送工具

在進行數(shù)據(jù)文件報送前,各委辦局需先檢測數(shù)據(jù)管理員使用的計算機能否正

常訪問離線文件報送服務器。離線文件可通過數(shù)據(jù)交換平臺直接上報。

數(shù)據(jù)采集服務

1.1.3.6.1數(shù)據(jù)采集服務流程

數(shù)據(jù)采集服務是將數(shù)據(jù)集市所需要的業(yè)務數(shù)據(jù)從城管'業(yè)務應用系統(tǒng)中采集

出來并建立原始庫的過程。數(shù)據(jù)采集的方式通常有以全量/增量方式從各類主流

數(shù)據(jù)庫(包括但不限于Oracle、SQLServer、MySQL等)、各類文件(txt、

excel、csv等)采集的結構化數(shù)據(jù);通過標準化接口(Restful)采集的數(shù)

據(jù);通過前置機方式采集的數(shù)據(jù)。對不同應用系統(tǒng),可以采用不同采集方式;

甚至對同一應用系統(tǒng)中不同的業(yè)務數(shù)據(jù),也可以采用不同采集方式。

數(shù)據(jù)采集流程如下圖所示:

數(shù)據(jù)采集流程圖

1)數(shù)據(jù)資源中心確定需要從生產(chǎn)庫中采集的數(shù)據(jù)。

2)在確定需要進行采集的數(shù)據(jù)后,通過判斷將要采集數(shù)據(jù)類型來配置相應

的數(shù)據(jù)采集方式,其中結構化數(shù)據(jù)采用數(shù)據(jù)庫直接采集方式,非結構化數(shù)據(jù)采

用文件采集方式,單機數(shù)據(jù)和紙質文檔數(shù)據(jù)采用手工輸入方式。

3)啟動采集仟務,根據(jù)配置好的采集規(guī)則,實現(xiàn)對數(shù)據(jù)的采集。采集杯務

可作為模板保存,方便其他同類任務復用;用戶也可自定義任務標簽,對采集

任務分類管理,降低采集任務的維護成本。

4)獲取采集數(shù)據(jù),并將采集完成的數(shù)據(jù)存入到數(shù)據(jù)資源中心的內部數(shù)據(jù)采

集庫。

5)在數(shù)據(jù)運維中記錄整個數(shù)據(jù)采集的過程信息。

1.1.3.6.2數(shù)據(jù)采集方式

系統(tǒng)需支持多種形式的數(shù)據(jù)采集方式如:全量采集、增量采集、接口采

集、文件采集(包括但不限于Oracle、SQLServer、MySQL等);

支持對同一應用系統(tǒng)中不同的業(yè)務數(shù)據(jù),也支持采用不同采集方式。

1.1.3.6.3數(shù)據(jù)原始庫

原始庫提供業(yè)務系統(tǒng)數(shù)據(jù)的存儲,屏蔽對業(yè)務系統(tǒng)的干擾。原始庫是生產(chǎn)

系統(tǒng)數(shù)據(jù)源的直接拷貝,由ETL過程對數(shù)據(jù)源進行直接抽取,在格式和數(shù)據(jù)定

義上不作任何改變。與生產(chǎn)系統(tǒng)數(shù)據(jù)的唯一不同是,基礎層數(shù)據(jù)具有時間戳。

特點如下:

1)對數(shù)據(jù)源作統(tǒng)一的一次性獲取,數(shù)據(jù)中心其他部分都依賴于基礎層的

數(shù)據(jù),不再重復進行抽取,也不在生產(chǎn)系統(tǒng)上作運算,減小生產(chǎn)系統(tǒng)的壓力。

2)在生產(chǎn)系統(tǒng)數(shù)據(jù)已經(jīng)刷新的情況下,保存一定量的生產(chǎn)系統(tǒng)的歷史數(shù)

據(jù),以便在一次抽取過程中運算出錯的情況下可以進行同溯。

數(shù)據(jù)治理服務

數(shù)據(jù)治理服務主要實現(xiàn)對數(shù)據(jù)歸集庫數(shù)據(jù)的清洗、轉換、翻譯、校驗、夫

重、合并處理,并將相關的表合并成標準表和寬表,將雜亂的數(shù)據(jù)變?yōu)橛行颉?/p>

干凈和高質,提升數(shù)據(jù)價值,為主題庫的創(chuàng)建和數(shù)據(jù)分析應用提供基礎。

數(shù)據(jù)治理業(yè)務流程如下圖所示。

數(shù)據(jù)處理流程圖

-:.II.

數(shù)據(jù)處理業(yè)務流程說明如下:

1)數(shù)據(jù)資源中心從采集庫選擇需要進行處理的數(shù)據(jù)。

2)對待處理數(shù)據(jù),根據(jù)數(shù)據(jù)標準設置校驗規(guī)則,隨后對待處理數(shù)據(jù)進行數(shù)

據(jù)校驗,確認數(shù)據(jù)的完整性和有效性,記錄數(shù)據(jù)校驗的結果,并確認數(shù)據(jù)校驗

異常的原因。

3)對校驗完成后的數(shù)據(jù),根據(jù)數(shù)據(jù)標準設置清洗規(guī)則,隨后對數(shù)據(jù)進行清

洗,記錄數(shù)據(jù)清洗結果。

4)對清洗完成后的數(shù)據(jù),根據(jù)數(shù)據(jù)標準設置比對規(guī)則,隨后對數(shù)據(jù)進行比

對,記錄數(shù)據(jù)比對結果,并確認數(shù)據(jù)比對異常的原因。

5)對比對完成后的數(shù)據(jù),根據(jù)數(shù)據(jù)標準設置轉換規(guī)則,隨后對數(shù)據(jù)進行轉

換,記錄數(shù)據(jù)轉換結果。

6)對完成處理的數(shù)據(jù)根據(jù)數(shù)據(jù)的類型存入到數(shù)據(jù)處理庫。

7)在處理庫中選擇處理完畢的數(shù)據(jù)進行整合后,加載存入資源庫,形成數(shù)

據(jù)資源中心的資源庫,并以此為基礎更新數(shù)據(jù)目錄信息。

.1數(shù)據(jù)清洗

數(shù)據(jù)清洗主要對接入的各種不同數(shù)據(jù)源進行清洗操作,包括對冗余數(shù)據(jù)、

錯誤數(shù)據(jù)、缺失數(shù)據(jù)進行清洗操作。

(1)缺失值清洗

確定缺失值的范圍:對每個字段都計算其缺失值比例,然后按照缺失比例

和字段重要性,分別決定除不需要的字段還是填充。填充方法:以業(yè)務知識或

經(jīng)驗推測填充缺失值;以同一字段的計算結果(均值、中位數(shù)、眾數(shù)等)填充

缺失值;以不同字段的計算結果填充缺失值,如用身份證號碼來計算年齡。

(2)格式內容清洗

格式不一致,如日期、全半角等顯示格式不一致,要統(tǒng)一成統(tǒng)一的格式。

如將日期格式:yyyy-MM-ddHH:mm:ss全半角,轉換為半角。

(3)邏輯錯誤清洗

主要是去掉一些使用簡單邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù)。如年齡填

寫了200等,需要去除不合理值。

(4)錯誤數(shù)據(jù)

主要是在已有內容中有不該存在的字符,如身份證號里有數(shù)字和X以外的

字符,以半自動半人工的方式找出問題,去掉不需要的字符。

.2數(shù)據(jù)加工

數(shù)據(jù)加工主要是在數(shù)據(jù)清洗后,根據(jù)實際的業(yè)務需求,對數(shù)據(jù)字段進行處

理的過程,包括字段映射、字段拆分、字段合并、字段補充、行列轉換、數(shù)據(jù)

取值轉換等工作。

(1)代碼翻譯

有些數(shù)據(jù)表存儲的是代碼信息,如性別存儲的是M,F,在實際頁面顯示的

時候,需要轉換成對應的中文名稱,就需要對字段進行代碼翻譯,規(guī)則如下:

>只針木原始代碼字段存儲的是代碼的情況

>原始代碼字段去掉

>增加走應代碼翻譯字段:原始代碼字段名稱_CNAME

(2)數(shù)據(jù)合并

對于一些有多主鍵的表,為了關聯(lián)方便快捷,需要對多個字段合并成一個

字段;其他業(yè)務需要的情況,需要將多個字段合并成一個字段。按照業(yè)務需求

對描述相同對象的信息數(shù)據(jù)進行合并。

(3)字段拆分

根據(jù)實際業(yè)務需要,將一個字段值的部分內容拆分成單獨的字段。包括:

>日期拆成年、年月、年季、年月日等

>編號中拆巴有意義的字段,如身份證號,可以拆出行政區(qū)劃,出生日

期等

>字段值本身由多部分組成,可以拆出各自內容,如存儲時字段的每一

位代表一個意思,在實際應用時需要進行拆分。

(4)字段轉換

一些字段不滿足業(yè)務需要,可以采用相關函數(shù)對其進行處理后形成新的字段,

以滿足后續(xù)的數(shù)據(jù)分析需要。

1.1.4數(shù)據(jù)資源目錄編目

數(shù)據(jù)資源目錄的編制

在數(shù)據(jù)歸集完成后,根據(jù)數(shù)據(jù)歸集的結果,編制相應的數(shù)據(jù)資源目錄。

1.142數(shù)據(jù)資源目錄的報送

各責任部門應按要求,在對信息資源目錄進行復核、審查后,及時報送本級政

務信息資源共享主管部門。報送的信息資源目錄為目錄編制工具導出的統(tǒng)一格式

文件,或者et、xls、xlsx等電子表格文件。

1.1.4.3數(shù)據(jù)資源目錄的審核匯總

在審核匯總過程中,如發(fā)現(xiàn)信息資源目錄不符合要求,則退回責任部門整改;

如發(fā)現(xiàn)有重復采集的數(shù)據(jù)內容,縣數(shù)據(jù)資源局工作專班與各部門協(xié)商,明確該數(shù)

據(jù)內容的第一采集部門,并將相關信息更新至本級政務信息資源目錄。

1.1.4.4數(shù)據(jù)資源目錄的管理維護

數(shù)據(jù)資源管理局工作專班為各責任部門接入提供技術支持,承擔資源目錄的

注冊登記、發(fā)布查詢、維護更新等日常管理工作。

1.145數(shù)據(jù)目錄更新

各責任部門應對本單位發(fā)布的資源目錄進行及時更新維護。

1.146數(shù)據(jù)目錄編制發(fā)布

資源目錄編制發(fā)布流程包括:前期準備、目錄編制與報送、目錄匯總與管理、

目錄更新、目錄詳細設計、目錄發(fā)布、目錄生成等七個過程。

1.1.5數(shù)據(jù)庫建設

幫助工作專班完成人口、法人、公共信用、宏觀經(jīng)濟、空間地理和電子證照

6大基礎信息資源庫建設,為實現(xiàn)數(shù)字政府提供有力的數(shù)據(jù)支撐。

數(shù)據(jù)原始庫

數(shù)據(jù)原始庫存放全量數(shù)據(jù),原始庫的數(shù)據(jù)格式為DB數(shù)據(jù)。原始庫中存放數(shù)

據(jù)的原始形態(tài),確保數(shù)據(jù)源的統(tǒng)一性,為數(shù)據(jù)的全生命周期融合與數(shù)據(jù)質量追

溯提供可靠保障。

基礎支撐庫

基礎支撐庫是存儲所有的基礎數(shù)據(jù)。基礎數(shù)據(jù)是指相對穩(wěn)定,更新周期較

長的數(shù)據(jù)?;A數(shù)據(jù)在各個業(yè)務系統(tǒng)被使用,需保持一致性和統(tǒng)一性。

1.1.5,3基礎信息資源庫

以人口庫為例,初步設計如下。

通過人口信息資源庫的建設,實現(xiàn)信息數(shù)據(jù)的快速傳遞、完整收集、充分共

享,規(guī)范信息數(shù)據(jù)的采集和管理工作,從而促進各部門人口相關業(yè)務工作的規(guī)范

化建設,實現(xiàn)全縣人口基礎信息“統(tǒng)一建設、分類管理、綜合開發(fā)、全面服務”

的整體目標。

依托電子政務網(wǎng)絡,以資源整合和信息共享為基礎,形成規(guī)范的數(shù)據(jù)采集和

維護更新機制,建設人口信息基礎庫。

以公安人口信息為基礎,匯集教育、民政、人社、衛(wèi)生、計生、房管和公積

金管理中心等有關部門和金融系統(tǒng)相關信息資源,建立覆蓋全員人口、以公民身

份號碼為唯一標識,具有基礎性、基準性、權威性、全面性的人口信息資源庫;

構建統(tǒng)一的人口信息共享服務平臺,依法為政務部門、社會機構和公民個人提供

人口信息服務;準確掌握人口底數(shù),為進一步提高政府監(jiān)管能力和工作效率、制

定宏觀政策、完善社會信用體系、建立健全實有人口動態(tài)管理機制、提高社會管

理創(chuàng)新水平提供信息支持。

(1)人口庫模型設計思路

人口模型是人口單位基礎庫建設的核心,人口數(shù)據(jù)建模過程是將人口相關業(yè)

務數(shù)據(jù)進行抽象、轉換、標準化的過程,能夠很好的實現(xiàn)對數(shù)據(jù)的整理、管理并

加以利用。

(2)人口庫模型基本元素

人口基礎信息是指公民最基礎的,相對變化頻率較小,使用范圍最為廣泛的

信息。在公共數(shù)據(jù)信息基礎再進行抽取合并,提取人口基礎信息包括姓名、身份

證號、性別、出生日期、籍貫、戶籍地址、民族、國籍、政治面貌、血型、宗教

信仰、婚姻狀況十二項基本元素作為人口庫的核心基礎信息。

?姓名:人員代號,如公安登記的姓名、主主,教育登記的監(jiān)護人等。

?身份證號碼:人員唯一標識,辦理戶口、婚姻、教育、社保等業(yè)務登記

的身份證號碼。

?性別:人員性別,系統(tǒng)中登記的男、女、未知性別相關的業(yè)務字段;

?出生日期:人員的出生日期,系統(tǒng)中登記的出生時間、出生日期、出生

年月W務信息。

?籍貫:人員籍貫,指的是曾祖父及以上父系祖先的長久居住地或出生地。

?戶籍地址:人員的戶籍地址,是戶口本上登記的地址,不是現(xiàn)居住的實

際地址。

?民族:人員民族,主要是公安、教育、民政登記的漢族、回族等人員民

族信息。

?國籍:人員的國籍,即屬于某個國家的身份,如常住人口登記的國籍。

?政治面貌:人員的政治面貌,如中共黨員、共青團員、預備黨員等人員

政治身份。

?血型:人員的血型,主要是衛(wèi)計委、教育、公安登記的人員血型字段。

?宗教信仰:人員信奉某種特定的宗教,主要是有公安人口信息中登記的

宗教信仰。

?婚姻狀況:人員的婚姻情況,主要是公安、民政、衛(wèi)計委登記的婚姻狀

況、婚姻狀態(tài)。

在數(shù)據(jù)存儲上,利用公民身份證號碼關鍵屬性,人口基礎信息與公共屬性信

息、業(yè)務共享信息實現(xiàn)數(shù)據(jù)關聯(lián),從而實現(xiàn)人口基礎庫數(shù)據(jù)的在邏輯上集中、物

理上分散的存儲方式,降低數(shù)據(jù)物理集中存儲造成的負荷。

在數(shù)據(jù)共享使用上,人口基礎信息提供的是人口六項基本信息,可以快速的

查詢定位對象,而后利用公民身份證號碼與人口基礎信息、業(yè)務共享信息進行關

聯(lián),可以有效快速的獲取人口相關的信息數(shù)據(jù)。

(3)業(yè)務共享屬性整合

人口是一個內容復雜、綜合多種社會關系的社會實體,具有性別和年齡及

自然構成,多種社會構成和社會關系、經(jīng)濟構成和經(jīng)濟關系。人口的出生、死

亡、婚配,處于家庭關系、民族關系、經(jīng)濟關系、政治關系及社會關系之中,

一切社會活動、社會關系、社會現(xiàn)象和社會問題都同人口發(fā)展過程相關。在研

究人口發(fā)展的過程主要使用人口生命周期規(guī)律展示,從生到逝各階段涉及到的

政府服務管理內容,建立居民全生命周期的服務與管理體系一“生命樹”,如

下圖所示:

人口庫生命確

人口庫生命樹

生命樹中涉及到公安、民政、計生、教育、人社、工商、住建、社區(qū)等眾

多政府部門,建立了眾多業(yè)務系統(tǒng),針對人的不同階段、不同需求提供不同服

務,產(chǎn)生了人的大量對象屬性,這些屬性存在于各個部門的業(yè)務系統(tǒng)中,無法

互聯(lián)互通,造成了信息孤島。人口基礎庫的建立匯集了各部門的相關業(yè)務數(shù)

據(jù),形成業(yè)務共享信息,主要數(shù)據(jù)包括:

?公安

公安部門主要負責維護社會治安秩序、公共安全秩序、保護公民合法權益

等工作,涉及司法、治安強制、治安行政管理、以及特定人員的教育和保護等

諸多領域,產(chǎn)生大量的人口業(yè)務信息,主要包括常駐人口信息、、流動人口信

息、戶籍信息、戶口遷移信息、居民身份證信息、暫住證信息、重點人口信息

等業(yè)務數(shù)據(jù)。

?民政

民政部門主要負責優(yōu)撫安置、救災救濟、社區(qū)建設、社會福利、社會事

務、老齡工作等業(yè)務,產(chǎn)生的人生相關業(yè)務信息主要包括結婚登記信息、離婚

登記信息、低保信息、社會救助信息、高齡津貼信息、“三屬”優(yōu)撫信息、殯

葬信息等業(yè)務數(shù)據(jù)。

?衛(wèi)計

衛(wèi)計委主要負責計劃生育、衛(wèi)生醫(yī)療等業(yè)務,在業(yè)務運行中產(chǎn)生人口相關

業(yè)務信息主要包括出生醫(yī)學證明信息、政策外生育人員信息、育齡婦女信息、

死亡醫(yī)學證明信息、親緣關系信息等業(yè)務數(shù)據(jù)。

?人社

人社部門主要負責人力資源和社會保障方面業(yè)務,產(chǎn)生的人口相關數(shù)據(jù)包

括從業(yè)信息、退休人員信息、社會保險信息、醫(yī)保信息、離職信息、職業(yè)資質

證信息等業(yè)務數(shù)據(jù)。

?教育

教育部門主要負責社會的教育資源規(guī)劃及教育業(yè)務,主要產(chǎn)生的人口相關

數(shù)據(jù)包括學歷/學位信息、學籍信息等人口數(shù)據(jù)。

?其他相關部門

其他政府相關部門也存在大量的是人口數(shù)據(jù),包括房管局、公積金管理中心、

司法局、法院等部門。

(4)業(yè)務共享屬性治理

各政府業(yè)務部門匯集的業(yè)務共享信息中,各部門的業(yè)務共享信息存在數(shù)據(jù)

交叉,通過清洗、整合、關聯(lián)、轉換等處理后形成規(guī)范的人口基礎數(shù)據(jù)庫,以

保證人口數(shù)據(jù)的完整性、鮮活性、準確性。同時,明確人的各種關聯(lián)關系,例

如:人-房關系、家庭關系、人-單位關系等。

根據(jù)人口基礎信息的來源和維護方式不同,在人口基礎庫公共屬性信息抽

取方面存在三種模式:

?單一權威數(shù)據(jù)來源模式

單一部門提供來源和維護,其他部門協(xié)助職能部門補充、核準;例如:人

口基本信息、戶籍地址、居民身份證照片和簽發(fā)信息等是由公安部分提供信息

來源和數(shù)據(jù)維護,人口和計劃生育、勞動和社會保障、民政、衛(wèi)生等各部門提

供補充和核準;學歷和學位信息由教育部門提供信息來源和維護。

?多個權威數(shù)據(jù)來源模式

多個職能部門共同維護某個數(shù)據(jù)的一類情況。例如婚姻狀況信息,由民政

部門提供結婚和協(xié)議離婚方面信息,法院提供判決離婚方面的信息,公安提供

喪偶方面的信息,三部門共同承擔對婚姻狀況信息的維護和更新。

?無權威數(shù)據(jù)來源模式

某些相關數(shù)據(jù)尚無權威部門進行維護,但是存在多個數(shù)據(jù)來源的情況。例

如:地址信息,公安、民政、人社、教育、房產(chǎn)等各類部門均在記錄人口的地

址信息,但是都不能夠保障數(shù)據(jù)的準確性和實效性,此時就需要匯集各單位數(shù)

據(jù),根據(jù)數(shù)據(jù)的鮮活性和可信程度從而確定準確的地址信息。

利用以卜的抽取模型建立人口公共屬性信息,涉及人口公共的皿務信息.

主要包括:

>出生信息:包括公安部門提供的出生登記信息、衛(wèi)生部門提供的出生醫(yī)

學證明信息、計生部門提供的政策外生育信息等。

人員擴展信息:主要包括公安部門提供的戶類型、居住類型、居住地

址、家庭人員數(shù)、死亡時間、死亡地點、死亡原因等信息,由衛(wèi)計委提

供的身高、體重信息。

弱勢人群信息:主要由民政部門提供的留守兒童、臨時救助、老年人、

低保、五保、失獨人員、優(yōu)撫對象信息,由殘聯(lián)提供的殘疾人信息,構

成弱勢人群標簽信息。

特殊人群信息:主要由公安提供的刑釋解教、社區(qū)矯正、吸毒人員、邪

教人員等信息,由信訪局提供的信訪人員,由衛(wèi)計委提供的傳染性疾病

人員,構成特殊人群標簽信息。

戶籍信息:由公安部門提供的戶籍登記、戶籍遷入、戶籍遷出、死亡注

銷等信息。

證照信息:由公安、民政、人社、干.計、教育、司法等相關業(yè)務部門提

供的各類人口證件信息,如居民身份證、暫住證、工作居住證等。如公

安部門提供的居民身份證信息包括身身份證有效期起始日期、身份證有

效期截止日期、簽發(fā)機關等信息。

照片信息:由公安、民政、衛(wèi)計、人社等部門在'業(yè)務運行過程中采集的

人員照片信息。

財產(chǎn)信息:由公安提供的車輛信息,由房管局提供的房產(chǎn)信息、由人社

提供的社保信息、由公積金管理中心提供的公積金信息,及其他業(yè)務部

門提供的有關個人財產(chǎn)的相關信息。

通信方式:由公安、人社、衛(wèi)計、教育等部門在業(yè)務登記過程中記錄的

聯(lián)系方式信息,包括手機號、固定電話、電報掛號、傳真、QQ號、微

信號等相關聯(lián)系方式。

健康信息:由衛(wèi)計委提供的相關住院信息、診斷信息、體檢報告、電子

病歷等相關的個人健康狀況信息。

教育經(jīng)歷:由教育部門以及相關培訓機構提供的教育經(jīng)歷、培訓經(jīng)歷信

息,主要包括學籍、學歷、學位、畢業(yè)學校、專業(yè)、畢業(yè)時間等反映公

民受教育情況的信息。

>專業(yè)技能:由相關的職業(yè)、專業(yè)技能培訓機構和技能證書頒發(fā)機構提供

的專業(yè)技能信息。包括公民的從業(yè)狀況、從業(yè)記錄及其變化情況。主要

由公安部門、人社部門、民政部門和計生部門等提供。

>人際關系:由公安、衛(wèi)計部門提供的家庭關系、親緣關系信息,以及人

員在社會中進行住宿登記、網(wǎng)吧登記、機場登記等相關記錄形成的社會

關系信息,構成人際關系信息。

>獎懲信息:由公安、工會、交管、法院等部門提供的表彰信息、處罰信

息、刑罰信息等相關獎懲信息。

>死亡信息:死亡信息包括各部門提供的死亡信息,主要有公安提供的死

亡注銷戶口信息、人口計生委提供的死亡信息、人社部門提供的死亡信

息、民政部門提供的殯葬信息、衛(wèi)生部門提供的死亡醫(yī)學證明信息等。

(5)人口庫建模過程

人口模型是人口信息基礎庫建設的核心,人口數(shù)據(jù)建模過程是將人口相關

業(yè)務數(shù)據(jù)進行抽象、轉換、標準化的過程,能夠很好的實現(xiàn)對數(shù)據(jù)的整理、管

理并加以利用。人口模型的建設過程主要包括業(yè)務數(shù)據(jù)庫、主數(shù)據(jù)庫管理、人

口數(shù)據(jù)模型三個部分。

?業(yè)務數(shù)據(jù)庫是根據(jù)人口在社會運行過程中發(fā)生相關業(yè)務數(shù)據(jù),記錄人口

從生到逝過程中的仝部業(yè)務數(shù)據(jù)。

?主數(shù)據(jù)管理是利用數(shù)據(jù)處理引擎進行數(shù)據(jù)建模的過程,在數(shù)據(jù)建模過程

中制定數(shù)據(jù)建模的標準,從而根據(jù)標準進行數(shù)據(jù)清洗、轉換、關聯(lián)的過程。

?人口數(shù)據(jù)模型是數(shù)據(jù)建模后的結論,建立以人口基本信息為核心的人口

數(shù)據(jù)模型。

民務

政數(shù)

業(yè)據(jù)

業(yè)

務其業(yè)

數(shù)他務

部數(shù)

據(jù)門據(jù)

H

3

--

--

--

--

--

--

-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論