大數據平臺方案設計_第1頁
大數據平臺方案設計_第2頁
大數據平臺方案設計_第3頁
大數據平臺方案設計_第4頁
大數據平臺方案設計_第5頁
已閱讀5頁,還剩149頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據平臺方案設計

1.1需求分析

1.1.1采購范圍與基本要求

建設XX高新區(qū)開發(fā)區(qū)智慧園區(qū)的人口庫(12萬居民)、法人庫(1200家企業(yè))、

地理信息庫(已建設區(qū)域35平方公里的3維電子地圖、未建設區(qū)域80平方公里的航

拍電子地圖)、視頻庫(1000個攝像點)、大數據處理平臺、數據管理服務平臺。

1.1.2建設內容要求

人口庫

人口庫的基本信息以公安部門戶籍和暫住人口信息為基礎,整合人社、計生、

民政、教育等多個部門信息資源,建設統(tǒng)一規(guī)范的人口庫和人口信息服務平臺。

(1)人口庫的內容目錄

序號信息目錄(一級)信息目錄(二級)可能的信息源單位

1人員信息(常駐)

2人員信息(暫?。?/p>

人口基本信息公安局

3戶籍成員信息

4死亡信息

5駕駛人員信息

6人員車輛信息機動車信息公安局(交警系統(tǒng))

7電動車信息

8房主信息

社居民區(qū)服務信息房管局、村(居)委會

9房屋變動信息

10黨員信息

11培養(yǎng)黨員信息

組織人社局、

社區(qū)黨建信息

12黨員流入信息村(居)委會

13黨員流出信息

14準生證信息

15婚前檢查信息

16孕前檢查信息

社居民區(qū)服務信息社會發(fā)展局

17婚育證信息

18節(jié)育手術信息

19計生處罰信息

20衛(wèi)生信息社區(qū)衛(wèi)生服務機構信息社會發(fā)展局

1

序號信息目錄(一級)信息目錄(二級)可能的信息源單位

21醫(yī)療機構信息

22醫(yī)療資源信息

23衛(wèi)生許可信息

24社會組織信息

25區(qū)域地名信息社會發(fā)展局

民政信息

26最低保障收入人員信息

27精準扶貧對象信息村居管理委員會

28單位信息

社?;拘畔?/p>

29參保人員信息

30退休待遇信息

養(yǎng)老保險信息

31轉移人員信息

32失業(yè)信息失業(yè)登記和失業(yè)保險信息

城鎮(zhèn)職工基本醫(yī)療保險賬戶信

33

息組織人社局

34醫(yī)療信息門慢信息

定點醫(yī)療機構和定點零售藥店

35

信息

36傷殘認定信息

37工傷信息勞動能力鑒定信息

38工傷待遇信息

(2)人口信息服務平臺功能需求

數據庫層:能夠安全存儲人口庫的內容目錄中列出的信息內容,對居民、企業(yè)、

政府提供安全的人口信息服務,為人口大數據分析提供基本數據源。

應用支撐層:包括門戶框架、數據庫維護、報表組件、數據挖掘等,用于為應

用層提供應用支撐。數據挖掘提供常見的數據分析/挖掘工具、通用算法,利用大數

據平臺的計算能力進行分析,對人口庫數據進行數據挖掘與發(fā)現,提供有價值的分

析結果。

應用層:包括人口信息服務、人口專題分析、公共服務等。

法人庫

法人庫以工商部門的企業(yè)信息為基礎,整合各參建部門系統(tǒng)中的法人信息,如

機構代碼、機構名稱、機構類型、經濟行業(yè)、業(yè)務經營范圍、機構地址、法定代表

人等字段信息,建成標識統(tǒng)一、結構科學、查詢快捷、動態(tài)管理的法人信息庫。制

定與交換平臺對應的相關標準、制度和規(guī)范管理體系,實現工商局、地稅局、國稅

局、質量技術監(jiān)督局等法人數據相關業(yè)務部門之間的網絡互聯和業(yè)務數據的實時交

2

換與應用。

(1)法人庫的內容目錄

序號信息目錄(一級)信息目錄(二級)可能的信息源單位

1股東(投資者)信息

2企業(yè)基本信息法人信息工商質監(jiān)局,企業(yè)

3地址與聯系信息

4工商登記信息

5工商變更信息

工商注冊信息工商質監(jiān)局

6工商注銷信息

7工商吊銷信息

8稅務登記信息

9稅務注銷信息

稅務信息稅務局

10稅務登記驗換證信息

11企業(yè)發(fā)票信息

12組織架構

13發(fā)展戰(zhàn)略

14品牌

15產品與服務信息

16人力資源信息

17高端技術和設備

企業(yè)經營信息企業(yè)

18財務報表

19資質信息

20信用信息

21榮譽信息

22文化

23違規(guī)處罰等不良信息

(2)法人信息服務平臺功能需求

數據庫層:能夠安全存儲法人庫的內容目錄中列出的信息內容,對居民、企業(yè)、

政府提供安全的法人信息服務,為法人大數據分析提供基本數據源。

應用支撐層:包括門戶框架、數據庫維護、統(tǒng)計與報表組件、數據挖掘等,用

于為應用層提供應用支撐。數據挖掘提供常見的數據分析/挖掘工具、通用算法,利

用大數據平臺的計算能力進行分析,對法人庫數據進行數據挖掘與發(fā)現,提供有價

值的分析結果。

應用層:包括法人信息服務、法人專題分析、公共服務等。

地理信息庫

以國土資源部空間地理數據框架作為基礎,采用分布式存儲并行計算的技術思

3

路統(tǒng)一搭建地理信息庫,再與智慧園區(qū)建設涉及的各類專題圖層進行融合、關聯,

實現統(tǒng)一共享,逐漸形成XX高新區(qū)權威、豐富的地理信息數據庫。要求根據不同信

息資源類別,提供數據庫表結構設計。

地理信息庫維護文件主要提供地圖基本操作、地圖測量、圖層控制、空間分析

等信息服務功能。

地理信息庫配置一套高性能GIS工具軟件,基于高性能云GIS平臺搭建,實現

空間數據的統(tǒng)一管理,完成空間數據檢查、轉換、入庫、管理、制圖顯示、服務發(fā)

布等一系列空間數據分析處理功能。

(1)地理信息庫的內容目錄

序號信息目錄(一級)信息目錄(二級)可能的信息源單位

三維電子地圖:已建設區(qū)域30平方公里國土資源部、中標單位

1電子地圖數據

航拍電子地圖:未建設區(qū)域60平方公里測量

國土資源部、中標單位

2地理實體數據建筑、道路、水系、綠地、農田等

測量

已建設區(qū)域30平方公里,分等級實現重點城區(qū)

3三維模型數據中標單位測量、建設

精細三維模型數據和其它地區(qū)簡易模型數據

路燈、交通燈、屏顯、導示牌、標志性行道樹、

4城市部件數據城管等部門

線纜、地下管網等

5規(guī)劃數據規(guī)劃用地數據規(guī)劃局

6POI數據企業(yè)(項目)數據規(guī)劃局、辦公室等

(2)地理信息庫管理平臺功能需求

數據處理:格式轉換、坐標轉換、屬性編輯、數據裁切。

數據質檢:矢量數據檢查、柵格數據檢查、三維模型數據檢查、元數據檢查。

入庫更新:矢量數據入庫、影像數據入庫、三維模型數據入庫、元數據入庫。

數據輸出:矢量數據提取、柵格數據提取。

查詢?yōu)g覽:地圖瀏覽、數據加載、SQL查詢、空間查詢、數據對比瀏覽、元數據

查詢。

歷史數據管理:歷史版本數據比較、版本數據提取。

系統(tǒng)管理:權限管理、日志管理、備份恢復。

視頻庫

(D視頻庫的內容目錄

序號信息目錄(一級)信息目錄(二級)可能的信息源單位

4

視頻目錄視頻監(jiān)控系統(tǒng)

1視頻

視頻文件數字攝像裝置

2視頻特征視頻特征文件

(2)視頻庫管理平臺功能需求

與視頻監(jiān)控系統(tǒng)的接口、視頻入庫、視頻目錄管理、視頻文件管理、視頻特征

文件生成、視頻檢索、視頻異常發(fā)現等。

大數據處理平臺

(1)大數據基礎平臺

提供基礎管控、基礎服務的大數據基礎支撐功能。大數據基礎平臺要充分利用

目前先進的大數據處理技術,保證系統(tǒng)技術的前瞻性和先進性。大數據基礎平臺要

求提供海量數據的采集、存儲、計算、接口服務能力;需要滿足海量、異構的大數

據的存儲、共享、開放及分析挖掘方面的要求;需要采用主流的大數據的技術架構,

全面滿足結構化數據、半構化數據及非結構化數據的存儲、處理及計算要求;提供

多種數據采集工具,支持多種格式數據采集;提供接口服務,供二次開發(fā)應用等。

大數據基礎平臺要求能夠管理大數據中心集群的物理服務器資源,控制分布式

程序運行,隱藏下層故障恢復和數據冗余等細節(jié),為大數據處理平臺提供統(tǒng)一的管

理、監(jiān)控、維護等日常管理功能。主要包括:資源管理、安全管理、運維管理、集

群部署及監(jiān)控、任務調度等功能,同時配備友好的管理界面。

①數據采集要求

大數據處理平臺數據主要來自數據資源中心,包括基礎庫(人口庫、法人庫、地

理信息庫、視頻庫)數據、主題庫(業(yè)務數據庫)數據和互聯網數據,同時也支持其他

外部系統(tǒng)數據來源。數據采集系統(tǒng)要求提供多種數據采集工具,支持多種格式數據

采集。對于結構化數據、非結構化數據以及網絡數據采用不同的采集工具進行數據

導入。支持多種數據采集方式,比如ETL、FTP、文件導入導出、關系數據庫數據等。

②分布式存儲要求

平臺能夠根據結構化數據和非結構數據的不同特點,分別提供數據倉庫和分布

式列式數據庫存儲服務,底層支撐技術支持分布式文件系統(tǒng),所有的數據可以形成

多份副本均勻分布存儲在各個服務節(jié)點的存儲上,保證數據可靠性和提高讀寫效率。

③大數據計算引擎要求

離線計算引擎(Mapreduce):離線分布式計算作為一個海量結構化數據離線處

5

理與分析服務,著力于實時性要求不高的海量數據(TB/PB級別)離線處理。支持并

行化、容錯、數據分布、負載均衡。離線計算引擎需要具有PB級的存儲處理能力和

計算吞吐能力,支持多應用多實例并發(fā)同時計算并隔離應用數據和程序的能力。

支持Mapreduce等批量數據分布式計算框架。

支持分布式內存計算框架。

支持作業(yè)查詢預處理調度算法,可根據業(yè)務屬性對指定的多個隊列按照優(yōu)先級

的配置進行任務的提交。

具備高可靠性,支持主控節(jié)點雙機,避免單點故障不可恢復。

具備高度可擴展,可動態(tài)增加/削減計算節(jié)點,真正實現彈性計算。

支持離線計算組件界面配置化,可以對配置進行查看和修改,并立刻生效。

支持離線計算組件性能指標界面可視化,通過界面實時監(jiān)控組件性能指標。

支持多租戶權限管理能力,支持不同用戶之間的資源隔離。

支持多應用多實例并發(fā)同時計算并隔離應用數據和程序的能力。

內存計算引擎(Spark):基于內存的迭代計算框架,適用于需要多次操作特定

數據集的應用場合。由于中間輸出和結果可以保存在內存中,從而不再需要讀寫分

布式文件系統(tǒng),能更好地適用于數據挖掘與機器學習等需要迭代的算法。

支持作業(yè)查詢預處理調度算法,可以根據業(yè)務屬性對指定的多個隊列按照優(yōu)先

級的配置進行任務的提交。

支持審計日志可查詢,在管理運維的界面中可以進行內存計算引擎日志的查詢。

支持相關存儲目錄規(guī)整,對內存計算引擎的數據目錄進行規(guī)整,修改默認配置,

并提供界面上的修改配置的地方。

支持配置界面化,能夠在管理運維界面上對內存計算引擎的配置進行查看和修

改,并能夠同步到前臺立刻生效。

支持通過界面展示性能指標,能夠在界面上查看內存計算引擎的性能指標數據。

支持onYarn等方式,在管理運維界面上安裝服務,可以在安裝的時候,選擇

OnYarn等的方式安裝。

支持內存計算引擎的Master的HA等,可以對內存計算引擎的master角色進行

HA等部署,以保證該節(jié)點的高可用性。

實時計算引擎(例如sparkstreaming、Storm):實時分布式計算需要提供大吞

6

吐量的實時流式數據處理。要求保證高可靠性的前提下讓數據處理更加實時,具備

低延時、容錯和分布計算特性。采用分布式計算框架提供實時計算服務,可按需擴

容。支持高并發(fā)低延時的數據處理。

計算引擎:支持SPARKSTREAMING等實時計算框架、STORM分布式流式計算框架

兩種計算框架功能。

支持對流數據的處理,數據可以建立關聯處理。

高效處理數據:支持消息的分流、合流、聚合的消息處理。

數據按業(yè)務分析,可支持不同的應用接入,并對應不同的應用輸出計算結果。

事件監(jiān)測:對數據處理低延時,滿足事件監(jiān)控等實時性要求很高的場景。

具備高可靠性,支持主控節(jié)點雙機,具備自動容錯能力,避免單點故障不可恢

復。

支持實時計算組件界面配置化,可以對配置進行查看和修改,配置修改立刻生

效。

支持實時計算組件性能指標界面可視化,通過界面實時監(jiān)控實時計算組件性能

指標。

④全文搜索引擎(例如solr)

提供豐富的查詢語言,同時實現可配置、可擴展并對查詢性能進行優(yōu)化,提供

一個完善的功能管理界面??梢詫崿F集中式的配置信息、自動容錯、查詢時自動負

載均衡、自動分發(fā)的索引和索引分片和事務日志等多種特色功能。

可以對搜索引擎集合進行快照,可以周期、定時創(chuàng)建集合快照,對索引數據進

行備份。

提供搜索引擎數據切換自動化工具,一鍵式操作實現搜索引擎數據從一個集群

切換到另外一個集群,安全可靠。

提供搜索引擎節(jié)點擴容數據重分布自動化工具,搜索引擎節(jié)點擴容后數據均勻

的重分布到新增節(jié)點上,負載均勻的分擔到各節(jié)點上。

支持搜索引擎服務自動拉起功能,提高可靠性。除管理平臺界面手工停止服務

之外的異常服務停止后都會自動拉起,保證服務連續(xù)可用。

⑤資源管理(例如yarn)

資源管理要求能夠實現調度和分配集群的內存和計算等資源給上層應用和服務,

7

能夠管理運行在集群節(jié)點上的任務的生命周期和資源使用,提供靜態(tài)資源池和動態(tài)

資源池功能。在多用戶運行環(huán)境中,能夠支持計算額度和訪問控制,作業(yè)優(yōu)先級和

資源搶占,達到在保障公平的前提下,有效地共享集群資源。支持VIP隊列管理,

支持根據業(yè)務需要指定作業(yè)在指定的計算節(jié)點上運行,隔離重點任務和普通任務,

保障重點任務的物理資源。要求給出詳細的設計方案。資源管理能夠面向海量數據

處理和大規(guī)模計算類型的復雜應用提供統(tǒng)一的資源管理和調度。提供通用的并行計

算框架,要求兼容批量分布式計算、內存分布式計算、流式計算等多種編程模式。

具備高可擴展性,支持作業(yè)定點調度,支持優(yōu)先級高的作業(yè)優(yōu)先分配到資源。能夠

自動檢測故障和系統(tǒng)熱點,重試失敗任務,保證作業(yè)穩(wěn)定可靠運行完成。

支持作業(yè)定點調度,指定作業(yè)在哪些主機上運行,隔離重點任務和普通任務。

支持隊列增加優(yōu)先級屬性,優(yōu)先級高的作業(yè)優(yōu)先分配到資源。

支持白名單功能,限制客戶端向集群的resourcemanager提交作業(yè)。

支持提交權限,限制無權用戶提交作業(yè)并運行。

支持隊列屬性修改圖形化,在圖形化界面中配置新增、修改、刪除隊列屬性。

支持隊列屬性增加“最大作業(yè)提交數”屬性,在圖形化界面中新增“最大作業(yè)

提交數”屬性可配置

⑥分布式協(xié)作服務(例如Zookeeper)

分布式協(xié)作服務提供分布式、高可用的協(xié)作服務,可以用來構建分布式應用。

它能為分布式文件系統(tǒng)、分布式列式數據庫、離線計算、資源管理與調度、數據倉

庫等大數據組件提供重要的功能支撐。在分布式應用中,通常需要分布式協(xié)作服務

來提供可靠的、可擴展的、分布式的、可配置的協(xié)調機制來統(tǒng)一各系統(tǒng)的狀態(tài)。

幫助系統(tǒng)避免單點故障,建立可靠的應用程序。

提供分布式協(xié)作服務和維護配置信息。

⑦安全管理

安全管理能夠提供以用戶為單位的身份認證和授權,能夠對集群數據資源和服

務進行訪問控制,包括系統(tǒng)用戶、應用用戶的身份和權限管理,日志管理等。

⑧運維管理

主機管理:可以對已經添加的主機及其運行狀態(tài)進行查詢,可以對單臺主機進

行全面監(jiān)控。通過在已添加主機安裝代理,支持通過代理訪問計算集群提供相關組

8

件服務和操作。要求給出詳細的設計方案。

服務管理:對大數據平臺包含的各個組件服務提供的管理界面,可對各組件運

行狀態(tài)進行監(jiān)控,可執(zhí)行啟、停操作;除手動停止服務外,系統(tǒng)監(jiān)測到服務異常終

止時可以自動拉起服務,并可以根據需要打開或關閉自動拉起開關。可對具體角色

實例進行管理。為避免應用之間在申請組件服務時相互干擾,提升應用的健壯性和

可靠性,應支持相同組件的服務既共享物理資源,又相互獨立。要求給出詳細的設

計方案。

告警管理:告警管理功能包括告警查看、閥值設置。監(jiān)控系統(tǒng)各類異常,在管

理界面上實時呈現。支持集群內不同節(jié)點差異化告警閾值設置。

系統(tǒng)管理:包括系統(tǒng)配置、巡檢、備份。其中,系統(tǒng)配置包含版本設置和SNMP

設置。巡檢功能需要支持自動巡檢和手動巡檢兩種方式。提供備份功能,包含快照

和集群間備份。支持服務日志級別動態(tài)調整,支持組件配置項快速查找功能,并且

用戶可以根據需要新增自定義組件配置項。

⑨展現界面設計

詳細展示大數據平臺的運行情況。界面展示內容包括主頁界面、集群界面、主

機管理界面、告警管理界面、安裝界面、系統(tǒng)管理界面、日志界面、安全界面等。

主頁界面:可以整體查看集群的整體運行狀況,包括主機、服務等資源的數量、

在線情況;運行負載情況;以及告警信息。

集群界面:包含服務管理、靜態(tài)資源池、動態(tài)資源池等;其中,服務管理界面

提供對大數據平臺各組件運行狀態(tài)進行監(jiān)控,可執(zhí)行啟、停操作;靜態(tài)資源池界面

和動態(tài)資源池界面可對根據服務狀態(tài)對資源進行靜態(tài)和動態(tài)調整。

主機界面:可以查詢已添加的主機及其運行狀態(tài),也可對單臺主機進行全面監(jiān)

控。

告警界面:主要包含告警查看和閥值設置。

安裝界面:包括安裝集群、安裝主機、安裝服務、機架管理、升級服務、升級

主機。

系統(tǒng)管理界面:包含巡檢報告、開關設置、版本設置等內容。

日志界面:分為操作日志、系統(tǒng)日志、安全日志??梢园凑詹樵儣l件對日志進

行查詢操作,并可對日志可以進行分類、刪除、過濾、導出。

9

安全界面:包含部門管理、用戶管理、角色管理等。

⑩集群部署及監(jiān)控

集群部署與監(jiān)控能夠提供整個云操作系統(tǒng)以及上層應用服務的部署、配置管理

以及服務的自檢和自舉。

集群部署:支持自動化的安裝部署,使用工具進行自動安裝,簡單快捷。主要

功能包括:集群安裝、主機安裝、服務安裝、服務升級、主機升級、機架管理。

運行監(jiān)控:可以整體查看大數據集群的整體運行狀況。包括主機、服務等資源

的數量、在線情況;運行負載情況;以及告警信息。同時監(jiān)控大數據平臺各組件運

行狀態(tài)、硬件資源占用情況(硬盤、CPU、內存等)等,如果被監(jiān)控對象出現異常情

況,監(jiān)控系統(tǒng)就會在相關管理告警頁面發(fā)出告警通知。

(2)大數據多維分析查詢系統(tǒng)

①總體要求

大數據多維查詢系統(tǒng)要求提供超大數據規(guī)模數據查詢,支持PB級數據量。針對

海量數據可以進行任意維度的密集計算與檢索,支持建立OLAPCube,提供MOLAP能

力。支持高并發(fā)、低延時的在線數據應用系統(tǒng),能夠提供高并發(fā)的實時計算查詢服

務,對于百億行級別的數據可在亞秒級時間返回查詢結果。大數據多維查詢系統(tǒng)主

要面向傳統(tǒng)架構中OLAP(聯機分析處理)數據訪問場景,利用多維分析技術,針對

特定分析主題,設計多種可能的觀察方式,設計相應的分析主題結構,使用戶在多

維模型基礎上進行快速、穩(wěn)定、交互式訪問,以達到復雜分析和數據預測的作用,

實現實時聯機分析處理的效果,面向高并發(fā)、海量、低延時的業(yè)務場景。

②創(chuàng)建數據模型

系統(tǒng)能夠根據維度和指標的要求,從現有的數據表中選擇可對應維度或指標的

字段,將這些字段的信息分別保存在維度表和度量表中。支持層級維度、聯合維度、

可推導維度等維度降維優(yōu)化技術。根據業(yè)務的聚合需求,支持定義度量的聚合形式,

包括SUM、MIN、MAX、COUNT、COUNT_DISTINCT等。可定義分區(qū)類型、分區(qū)列和開始

日期等,以支持采用增量構建方式對Cube進行構建。

③分析查詢處理

系統(tǒng)能夠根據維度指標定義及關聯關系,提供多維數據的分析查詢處理,在查

詢過程中能夠分別根據上鉆、下鉆、切片、切塊、旋轉、TOPN等操作進行相應的處

10

理。

支持web頁面向導式模型構建及任務監(jiān)控。支持ANSISQL查詢標準,對外提供

標準的ODBC、JDBC驅動及RESTAPI接口。

(3)大數據智能分析系統(tǒng)

①總體要求

大數據智能分析系統(tǒng)提供各類數據的融合與共享服務,要求集成豐富的數據挖

掘算法,能夠對海量數據提供高效的分析和計算。數據分析挖掘引擎支持并行化統(tǒng)

計算法和機器學習基礎算法庫,支持的并行化基礎算法,能夠處理大數據集。

②算法庫

大數據智能分析平臺,需集成豐富的機器學習、數據挖掘算法,包括但不限于

分類、預測與回歸、聚類、降維、推薦/協(xié)同過濾、相似度等算法,支持對海量數據

進行高效的分析和計算,支持圖計算和圖挖掘,支持用戶擴展算法庫。

聚類分析:集成常用的聚類分析算法對數據進行抽象的分組分類。

分類分析:在設定好的分類之中,對數據進行歸類。

關聯分析:集成常用關聯分析算法,對數據之間的關聯關系進行分析,得出不

同數據之間的關聯關系。

回歸分析:集成常用回歸分析算法。

特征分析:集成常用特征分析算法,挖掘數據潛在的特征。

圖挖掘:基于圖和圖并行計算框架提供圖挖掘工具,主要包含:連通圖、最短

路徑、三角關系計數、社區(qū)關系。

③智能分析系統(tǒng)

數據準備:通過對業(yè)務需求分析,搜索所有與業(yè)務對象有關的內部和外部數據

信息,從中選擇出適用于數據挖掘應用的數據,并進行數據預處理。數據預處理可

以加快分析過程,提高分析結果的精度,針對不同的數據類型缺失值的處理各不相

同,需要結合業(yè)務場景。

數據探索:通過統(tǒng)計分析和關聯分析等手段,能夠深入挖掘多源多維數據之間

的關聯性,從不同的維度分析數據,加深對數據的理解,提取可能對業(yè)務結果相關

的影響因子,探索發(fā)掘數據的內在規(guī)律特征,為分析模型對業(yè)務進行定量與定性的

結合分析。

11

數據構建:根據數據源類型、業(yè)務要求建立對應的數據模型。通過分類、聚類、

關聯、回歸、特征分析等機器學習算法和分析方法,對海量多樣化數據進行進行模

型構建和數據分析挖掘。數據模型的設計包括設計和準備數據源,數據的處理,選

取和設計數據算法。數據模型的建立是一個預定義、評估、優(yōu)化的過程。

模型評估:利用評估算法對模型進行評估,評估數據分析結果的合理性、合法

性,評價模型的優(yōu)劣。根據分析結果及時調整和優(yōu)化數據模型,如果結果不符合預

期,需要調整參數進行機器學習,重新估算。

可視化智能分析工具:要求提供可視化智能分析工具,加速數據分析模型設計。

可視化智能分析套件為數據分析提供直觀的圖形化用戶界面,用于設計分析流程。

實現完整的建模步驟,從數據加載、匯集、到轉化和準備階段,再到數據分析和產

生預測階段。

數據管理服務平臺

數據管理服務平臺是一個管理、展現平臺,主要包括:數據治理與監(jiān)控系統(tǒng)、

數據服務集成管理系統(tǒng)和大數據展現門戶等。

(1)數據治理與監(jiān)控系統(tǒng)

數據治理與監(jiān)控系統(tǒng)是一個數據治理和數據監(jiān)控的綜合管理系統(tǒng),對數據資源

中心和大數據處理平臺兩大部分數據進行治理和管控。數據治理按照數據全生命周

期來管理,要求包含:數據源管理、數據質量管理、數據地圖管理、數據血緣管理、

數據安全管理和元數據管理等;數據監(jiān)控與數據治理相輔相成,實現對數據資源的

全程監(jiān)控,包括:全局數據監(jiān)控、部門數據監(jiān)控、數據存儲使用監(jiān)控和數據異常監(jiān)

控等內容。

①數據標準管理

術語標準管理:包括限定詞、同義詞、術語等信息庫的管理。

元數據管理:元數據記錄了數據源的結構信息,有了元數據才能對數據源進行

各種操作,元數據管理需要提供對各數據源的元數據進行注冊,加載,查看等功能。

數據源管理:數據源管理包括:基礎環(huán)境的管理、標準編碼管理等。

基礎環(huán)境管理:基礎環(huán)境配置管理用于進行一些基礎信息的配置,包括:源、

目標數據源的配置、標準數據庫表結構配置及其編碼表的配置等。

②標準編碼表管理

12

用于對數據中心數據涉及的編碼表及其編碼項進行定義。

③數據處理管理

提供完善的數據處理功能,如數據清洗、數據比對、數據加載、數據轉換、數

據共享等功能。

④數據規(guī)則與質量管理

數據質量監(jiān)控是根據預設的規(guī)則來檢測數據中的質量問題,檢測規(guī)則可自主配

置,也可以自主編寫規(guī)則表達式。數據質量監(jiān)控與系統(tǒng)調度關聯使用,發(fā)現臟數據,

避免錯誤的數據流入下游應用。

⑤數據地圖

數據全局視圖:展示從外部源到內部庫,到輸出數據庫的數據整體流向,展示

類別數目、庫數目、表數目、分別統(tǒng)計庫、表、字段、作業(yè)、任務等數量。從表數

目和數據存儲量的角度展示數據庫中按月度變化的動態(tài)信息,以直觀的圖形化進行

動態(tài)展示。并且可以區(qū)分不同部門進行統(tǒng)計。

數據動態(tài)分布:從表數目和數據存儲量的角度展示數據倉庫中按月度變化的動

態(tài)信息,以直觀的圖形化進行動態(tài)展示。并且可以區(qū)分不同部門或者租戶進行統(tǒng)計。

數據血緣:數據血緣以歷史事實的方式記錄每項數據的來源,處理過程,應用

對接情況等,記錄了數據表在治理過程中的全鏈血緣關系。數據血緣就是通過對數

據處理的全過程追蹤,找到以某個數據對象為起點的所有與該對象相關的元數據和

它們之間關系的一種技術手段。

(2)數據服務集成管理系統(tǒng)

搭建基于企業(yè)服務總線(ESB)的服務集成管理系統(tǒng),構建數據服務的統(tǒng)一通信

通道,即使在協(xié)議不同、格式不同、標準不同的情況下,服務與對接服務之間都可

以實現交互通信,傳遞消息,以便實現服務集成管理目標,從而實現各類數據服務

的統(tǒng)一管理,面向政府用于、企業(yè)、公眾、開發(fā)者,提供便捷的數據服務。具體包

括:

①服務注冊與發(fā)布

提供服務定義、注冊、審核和發(fā)布功能,發(fā)布前可以對服務的配置參數進行審

核與修改,配置通道,發(fā)布后,自動生成/更新對應服務的配置文件(如WSDL),連

同服務參數配置,更新至服務目錄中;提供對注冊/發(fā)布服務的連通性測試;

②服務生命周期管理

13

提供服務的注冊、變更、下線的申請、審核、復核功能,檢查和確認服務狀態(tài)

以執(zhí)行變更、下線;根據服務優(yōu)化管理中的服務拓撲分析,調整服務層級分類或整

合服務,以實現優(yōu)化;提供服務版本的管理;

③流程管理

支持服務申請、服務變更、服務下線等服務生命周期管理中相關流程的管理功

能;

④服務目錄管理

提供服務目錄的瀏覽和檢索;提供服務目錄/服務定義/服務狀態(tài)的查詢和管理,

包括權限的過濾和管理;

⑤接入系統(tǒng)管理

設置和管理服務請求方和接入請求系統(tǒng)的映射關系;設置和管理服務提供方和

接入服務系統(tǒng)的映射關系;設置和管理服務請求方、服務提供方在服務治理系統(tǒng)的

用戶映射關系;

⑥接口數據管理

提供數據字典的定義和管理,提供服務方法接口和數據字典字段的映射關系設

置。

(3)大數據展現門戶

大數據展現門戶是智慧園區(qū)大數據中心對外服務窗口,門戶包括兩個方面:政

務數據資源門戶(內部數據門戶)和公眾數據門戶(外部數據門戶)。

政務數據資源門戶作為大數據管理部門信息發(fā)布和資源服務的總管理入口,為

各級政府部門提供信息資源展示、在線信息服務、信息檢索、系統(tǒng)集成訪問等功能。

另外,針對系統(tǒng)管理員、各級領導、政務用戶的不同應用需求,提供個性化工作臺。

公眾數據門戶提供政務部門可公開各類數據的下載與服務,為企業(yè)和個人開展

政務信息資源的社會化開發(fā)利用提供數據支撐,推動信息資源增值服務業(yè)的發(fā)展以

及相關數據分析與研究工作的開展。

①政務數據資源門戶

門戶基本管理:政務數據資源門戶主要是提供政務大數據中心數據成果的展示

和應用訪問入口的應用集成。提供單點登錄、訪問權限管理,后臺內容管理等功能。

在線查詢服務:針對政務數據中心,開發(fā)高效率的在線查詢服務。人口信息、法

14

人信息、宏觀經濟、信用信息等面向政府部門提供信息服務,空間地理信息服務包

括地圖基本操作、地圖測量、圖層控制、空間分析以及相關數據融合等信息服務功

能。

信息資源綜合展示:能通過可視化的方式展示區(qū)域內信息資源的全景,即:部

門信息資源的分布情況,需求情況、使用情況,需要按照不同視角進行呈現,要求

包含但不限于:資產總體視圖、組織機構視角、服務對象視角、信息資源視角、協(xié)

同主題視角。

用戶交流模塊:為用戶提供交流的手段,每個授權用戶都可以在交流板塊上提

出問題、見解或者是進行討論,針對交流的問題可以選擇是否公開。

用戶幫助模塊:為用戶提供平臺功能及其操作方法的介紹和幫助說明,使各級

用戶盡快掌握使用方法。

②公眾數據門戶

為了實現政務數據對社會的開放,帶動大數據產業(yè)發(fā)展,利用政務大數據促進

信息產業(yè)創(chuàng)業(yè)創(chuàng)新,建設數據對外開放的門戶,實現政務大數據的對外開放。針對

公眾數據門戶將要充分利用政府門戶網站,在現有的門戶網站上開辟一個政務數據

開放的入口,點擊后即可進入公眾數據門戶。公眾數據門戶的主要功能有:資源目

錄、數據開放接口、APP應用、互動交流等。

資源目錄:社會公眾可以通過資源目錄查找到需要的數據,找到相應數據的獲

取方式,數據可以是通過下載方式獲取也可以通過數據接口的方式獲取,無論哪種

方式都需要用戶注冊認證后才可以獲取。用戶可以通過數據資源主題的方式查找,

也可以用戶數據來源各部門的方式查找。

數據開放接口:用戶可以通過此功能查找到可以調用的數據接口,并可以查找

到數據接口的調用方式、說明文檔、代碼示例等相關內容,通過功能應用開發(fā)人員

可以方便的通過數據接口獲取所需要的數據。

互動交流:互動交流功能是網站用戶與網站管理人員進行互動交流的模塊,在

這里網站管理人員可以將網站的使用說明和一些常遇到的問題及解決方法公布出來,

網站管理人員也可以在此公布調查問卷,征求普通用戶的意見。同時,普通用戶也

可以在這里提出自己的疑問,讓管理人員進行解答。

15

1.2設計方案

1.2.1總體平臺設計

1.2.1.1總體架構

智慧園區(qū)大數據平臺的核心是建立面向宏觀經濟發(fā)展、社會公共服務的數據庫

和數據服務??傮w架構由支撐體系(標準規(guī)范支撐體系、管理運行維護支撐體系、

安全支撐體系)、網絡系統(tǒng)、信息共享平臺軟硬件系統(tǒng)環(huán)境、數據庫體系(中心交換

庫、基礎數據庫、主題庫、發(fā)布庫、宏觀經濟數據庫管理系統(tǒng)、元數據庫系統(tǒng))、應

用系統(tǒng)(數據交換處理系統(tǒng)、應用支撐系統(tǒng)、數據綜合分析系統(tǒng))組成。

黨政領導機構項目共建單位發(fā)改委社會公眾

祠數據綜合分析系統(tǒng)應用支撐系統(tǒng)

a孤

應用系統(tǒng)

w數據交換處理系統(tǒng)心

觥?

為?

M履

」,「「「信息!'”「一?訓"I;;;斗

標準規(guī)范支撐體系

圖大數據平臺總體架構圖

信息共享平臺通過網絡收集統(tǒng)計系統(tǒng)和各共建部門的信息資源,并有效地將這

些信息資源進行分類整理,實現跨部門、跨行業(yè)的宏觀經濟管理信息共享,并向用

戶提供數據服務;

數據庫體系:由元數據控制,實現數據的交換、存儲和發(fā)布,整合共建單位現

有信息資源,構建主題庫和發(fā)布庫,為數據服務提供支持。

16

1.2.1.2體系結構圖

智慧園區(qū)公共基礎數據庫信息共享平臺劃分為工作(生產)區(qū)、發(fā)布(共享)

區(qū)和互聯網信息發(fā)布區(qū)。在工作(生產)區(qū)構建宏觀經濟數據的采集、整合、處理

和存儲系統(tǒng);在發(fā)布(共享)區(qū)構建宏觀經濟數據的發(fā)布與共享、存儲與備份和專

網門戶系統(tǒng)等環(huán)境支撐系統(tǒng);在互聯網信息發(fā)布區(qū)構建互聯網門戶系統(tǒng),為社會公

眾提供宏觀經濟信息服務。如下圖表所示:

互1網發(fā)布區(qū)宏觀輝敗據共8x宏觀輝數好生產:工作)X-----國家發(fā)it同

外M門戶行同門尸―同門戶

信息共享平臺信且共享平臺

外科網用.政

0

政務及成計岸付W岸

儕從發(fā)布w埋氟

公眾互動Aft

致界揮體條數據軍體系

K它功?

式筆數鬃庫

兀數據??PC

發(fā)茹岸即I數據川父晨輝

外同為索祥

發(fā)布輝

圖園區(qū)大數據平臺體系結構圖

1.2.1.3總體流程圖

智慧園區(qū)大數據平臺采用在線填報、數據庫對接和基于消息的數據交換三種采

集方式,集中采集、整合、存儲各共建部門指標數據。中心交換數據庫存儲各共建

部門交換來的原貌數據,基礎數據庫是對原貌數據進行審核轉換和加工而成,是主

題數據庫和發(fā)布庫構成的基礎。元數據庫對數據的采集交換、整合、存儲、分析和

發(fā)布全過程進行定義和約束。專網和互聯網的用戶可通過門戶系統(tǒng),分別對發(fā)布(共

享)區(qū)和互聯網信息發(fā)布區(qū)的數據進行訪問。

智慧園區(qū)大數據平臺總體流程圖如下:

17

悔用支撐梟統(tǒng)

”服務調用

使用

圖園區(qū)大數據平臺總體流程圖

1.2.2人口基礎數據庫設計

在沒有數據標準的情況下,人口基礎數據庫數據中心對同一個數據字段可以從

多個數據來源采集數據。如:婚姻狀態(tài)字段可以從計生部門和公安部門采集。對于

同一個數據字段,中心對于該數據字段保存多個來源的版本。人口基礎數據管理系

統(tǒng)提供工具、服務來展現數據的不一致性,數據管理員根據工作制度,對數據字段

進行電話等多種手段核實字段的真實數值。中心通過數據交換系統(tǒng)以數據服務的方

式從各業(yè)務部門采集數據,保存到公共數據緩存庫,使用人口基礎數據管理維護系

統(tǒng)進行數據比對、沖突檢查、數據審核、數據轉換。當數據達到一致性、完整性要

求時,數據將由公共數據緩存庫轉存到人口基礎數據發(fā)布庫中,并通過數據交換系

18

統(tǒng)以訂閱/發(fā)布的方式提供給各業(yè)務部門使用。

人口基礎數據管理系統(tǒng)維護一個面向對象的公共數據模型,公共數據模型是公

共數據標準規(guī)范的實現。公共數據維護系統(tǒng)控制著公共數據的輸入和輸出,為數據

質量把關。人口基礎信息綜合查詢系統(tǒng)采用B/S結構,客戶端采用瀏覽器,用戶界

面是實現不同功能的網頁。

綜合查詢系統(tǒng)的操作頁面要求易于使用,使用戶能夠方便快捷的對網頁提供的

各項功能進行操作。采用菜單樹的方式展開系統(tǒng)的功能。

人口基礎信息綜合查詢系統(tǒng)可以有針對性地,按照用戶授權的不同,為不同用

戶提供不同層次的人口資源公共查詢服務。

人口基礎信息功能如下圖所示。

人口基礎信息庫系統(tǒng)

統(tǒng)

統(tǒng)

人口基礎數據庫管理應用系統(tǒng)功能模塊列表:

編號一級模塊二級模塊三模塊

1系統(tǒng)帳戶管理

用戶角色管理

2角色信息管理

3公安帳戶管理

4社保帳戶管理

5部門帳戶管理衛(wèi)生帳戶管理

系統(tǒng)管理

6計生帳戶管理

7民政帳戶管理

8系統(tǒng)日志管理

9系統(tǒng)監(jiān)控管理系統(tǒng)網絡布局

10部門交換頻率

11接收處理接收數據查看接收公安數據

19

編號一級模塊二級模塊三模塊

12接收社保數據

13接收衛(wèi)生數據

14接收計生數據

15接收民政信息

16清洗規(guī)則管理

清洗比對管理

17比對規(guī)則管理

18清洗結果查看

19清洗比對結果比對結果查看

20手工比對歷史

21手工比對信息

手工比對管理

22手工比對歷史

23反饋信息查看反饋信息列表

24申請查看授權

數據授權管理

25查看授權申請

26授權管理數據交換申請

27數據交換申請交換申請列表

28交換審批列表

29人口信息服務人口信息查詢

30信息服務人口碼表信息人口碼表信息

31人口共享指標可共享指標

32人口性別統(tǒng)計

33人口年齡統(tǒng)計

基礎信息統(tǒng)計

34人口文化程度

35人口民族統(tǒng)計

統(tǒng)計分析

36地區(qū)分布統(tǒng)計地區(qū)人口統(tǒng)計

37社保人員情況

人員參保分析

38參合人員情況

39計劃生育分析地區(qū)育齡分布

20

編號一級模塊二級模塊三模塊

40育齡婦女比例

1.2.2.1數據接收服務

接收數據的查詢是針對各部門交換匯總的信息,進行以部門為單位的信息查詢。

通過查詢工作,可以了解各部門實際提交的信息情況,并實現信息詳查和統(tǒng)計工作。

系統(tǒng)提供了按部門查詢的查詢方式。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論