集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案_第1頁
集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案_第2頁
集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案_第3頁
集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案_第4頁
集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

集團大數(shù)據(jù)平臺建設(shè)項目系統(tǒng)架構(gòu)設(shè)計方案

1.1總體設(shè)計目標

建立集團的企業(yè)級數(shù)據(jù)中心,實現(xiàn)集團數(shù)據(jù)資源(結(jié)構(gòu)

化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的歸集、整理、加工和分析,

并利用大數(shù)據(jù)相關(guān)技術(shù)及數(shù)據(jù)分析挖掘工具,建立數(shù)據(jù)應(yīng)用

模型,為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、流程優(yōu)

化、服務(wù)支撐以及風險管控等服務(wù),有效地挖掘數(shù)據(jù)的價值,

實現(xiàn)集團數(shù)據(jù)資源的"共享、共用、共贏"。

1.2總體設(shè)計原則

(-)標準化:本系統(tǒng)采用的技術(shù)架構(gòu)均遵循網(wǎng)絡(luò)協(xié)議

和傳輸標準的要求,相關(guān)開源及原創(chuàng)技術(shù)均符合國際技術(shù)

組織條款規(guī)范。提供文檔標準化,滿足GB8567-1988、

GB/T11457-89的行業(yè)標準;

(-)可擴展性:由于用戶以后的需求會不斷發(fā)展,使

用人數(shù)將隨之擴大,業(yè)務(wù)壓力不斷上升,只要橫向擴展增

加服務(wù)器臺數(shù),不用添加其它附加設(shè)備,以保證用戶的原

投資被利用。

(=)可用性和可靠性:我們的方案在充分考慮用戶實

際情況的基礎(chǔ)上,選用F5作為負載均衡器,采用了

Weblogic作為Web應(yīng)用容器,操作系統(tǒng)采用紅旗版

Linux,從而減少了其它因素造成的故障。

(四)易用性:該系統(tǒng)使用界面良好,用戶無需安裝客

戶端軟件,只需通過IE瀏覽器就可進行實時操作,同時

系統(tǒng)架構(gòu)設(shè)計優(yōu)良,可以很方便進行系統(tǒng)升級。

(五)開發(fā)式結(jié)構(gòu):該系統(tǒng)內(nèi)置"數(shù)據(jù)交換適配平臺〃

可以與第三方系統(tǒng)相融合,可以讀取第三方系統(tǒng)的相關(guān)數(shù)

據(jù),可以為第三方系統(tǒng)提供其需要的相關(guān)數(shù)據(jù),提供標準

的WebService接口,具有開放式結(jié)構(gòu)。

(六)完善和可靠性:具有設(shè)計獨到的功能使用及數(shù)據(jù)

訪問權(quán)限控制,保證統(tǒng)一、規(guī)范管理,支持3DES和RSA

加密技術(shù),使數(shù)據(jù)存儲和傳輸安全牢不可破。系統(tǒng)具有錯

誤故障日志記錄功能,便于快速診斷定位問題。

(七)實時性:該系統(tǒng)支持負載均衡技術(shù),及時響應(yīng)多

人實時并發(fā)操作。

(八)先進性:基于統(tǒng)一的整體架構(gòu),采用先進的、成

熟的、可靠的技術(shù)與軟硬件平臺,保證數(shù)據(jù)倉庫系統(tǒng)易擴

展、易升級、易操作、易維護等特性。

(九)高效性:線性擴展的TDH的數(shù)據(jù)倉庫平臺,保

證了ETL時間的窗口以及查詢效率,數(shù)據(jù)抽取的特殊性,

通常在夜間業(yè)務(wù)稀少的情況下進行數(shù)據(jù)抽取,減少了對其

他系統(tǒng)的影響。

(十)正確性:數(shù)據(jù)質(zhì)量貫穿數(shù)據(jù)倉庫系統(tǒng)建設(shè)的每個

環(huán)節(jié),數(shù)據(jù)倉庫系統(tǒng)通過合理的數(shù)據(jù)質(zhì)量管理方法論保證

數(shù)據(jù)質(zhì)量。

13案例分析建議

1.3.1中國聯(lián)通大數(shù)據(jù)平臺

聯(lián)通集團公司按照工信部的的要求(見《工業(yè)和信息化

部、國務(wù)院國有資產(chǎn)監(jiān)督管理委員會關(guān)于開展基礎(chǔ)電信企業(yè)

網(wǎng)絡(luò)與信息安全責任考核有關(guān)工作的指導(dǎo)意見》和《工業(yè)和

信息化部辦公廳關(guān)于印發(fā)〈2013年省級基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)

與信息安全工作考核要點與評分標準〉的通知》),于2013

年啟動IDC/ISP日志留存系統(tǒng)的建設(shè),其中集團側(cè)的集中留

存系統(tǒng)軟件由聯(lián)通研究院負責開發(fā)。為了滿足海量數(shù)據(jù)條件

下的處理效率的要求,集團側(cè)集中留存系統(tǒng)軟件除研究院自

主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲部分計劃進行外包,通

過軟件技術(shù)服務(wù),來進行系統(tǒng)優(yōu)化和維護支撐。

項目概述

目前,聯(lián)通集團公司全國IDC出口的訪問日志預(yù)計兩個

月產(chǎn)生的數(shù)據(jù)量約20PB至30PB每秒寫入大概6千萬至7

千萬條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Teradata和Or

acle已經(jīng)不能滿足快速讀寫的性能要求了。同時為了實現(xiàn)快

速檢索以及分析處理的性能要求,需要引入分布式大數(shù)據(jù)平

臺,利用分布式文件存儲系統(tǒng),提高數(shù)據(jù)的存儲入庫能力,

利用Hadoop/HBase架構(gòu)克服磁盤I/O瓶頸導(dǎo)致的數(shù)據(jù)讀

寫延遲;基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進行快速存儲和檢

索以及分析處理,同樣要求數(shù)據(jù)處理平臺具備快速讀寫的高

性能。

中國聯(lián)通公司全國IDC日至留存項目對分布式集群的要

求非常高:

(1)日志數(shù)據(jù)量非常大,存儲的總?cè)罩緮?shù)據(jù)量將達到

20PB-30PBo

(2)要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫入量將

達到6千萬至七千萬條,未來還會增長更多,每秒的

數(shù)據(jù)寫入量為上百GB

(3)數(shù)據(jù)訪問的性能要求非常高,對日志的分析需要分鐘

級、甚至秒級返回結(jié)果。

(4)數(shù)據(jù)計算量大,日常日志掃描任務(wù)就需要掃描上百TB,

甚至上PB的數(shù)據(jù)。

(5)集群的擴展性要求非常高,能夠靈活擴展至上千個節(jié)

點的集群。

根據(jù)此次中國聯(lián)通的需求,以及項目的特點和技術(shù)要求,

推薦采用商用的、成熟的、基于星環(huán)TranswarpDataHu

b的企業(yè)級大數(shù)據(jù)平臺套件,構(gòu)建中國聯(lián)通IDC日志留存平

臺的基礎(chǔ)大數(shù)據(jù)平臺,用于滿足海量日志的高速存儲、計算、

分析、挖掘的需求。

13.1.2項目實施情況

星環(huán)科技通過協(xié)助聯(lián)通集團搭建基于星環(huán)TranswarpD

ataHub的大數(shù)據(jù)平臺,成功為聯(lián)通集團搭建了信息安全管

理系統(tǒng)大數(shù)據(jù)存儲處理子系統(tǒng)項目所采用的平臺系統(tǒng)。分布

式大數(shù)據(jù)平臺采用Hadoop/HBase架構(gòu),能夠支持對聯(lián)通

IDC出口流量詳單的存儲和快速檢索和分析處理。

系統(tǒng)拓撲:

圖4-1聯(lián)通大數(shù)據(jù)平臺技術(shù)架構(gòu)

整個集群由FTP集群和Hadoop集群組成,其中:

FTP集群:

>由129臺服務(wù)器組成,hostname對應(yīng)為idcis

p-ftp-001~idcisp-ftp-129

>功能:主要存放從各大機房傳輸過來的數(shù)據(jù),放

到對應(yīng)目錄下由SuperListen進程進行監(jiān)控,并將數(shù)

據(jù)統(tǒng)一傳輸?shù)紿adoop集群的HDFS上

Hadoop集群:

>組成:Zookeeper11臺,NameNode2臺,

ResourceManager1臺,hamster5臺,DataN

ode921臺

>功能:安裝了tdh相關(guān)的組件Hadoop.Hype

,存儲從服務(wù)器傳輸過來的數(shù)據(jù),

rbasexInceptorftp

并定時導(dǎo)入到Hyperbase中,供上層應(yīng)用或程序的調(diào)

用快速返回查詢結(jié)果,同時也可以通過inceptor進行

統(tǒng)計分析,暫時保存的數(shù)據(jù)是2+1月

每天存儲Hyperbase中的數(shù)據(jù)大概10T左右,存儲的是

2+1月,除了存儲在Hyperbase中的數(shù)據(jù),HDFS也會有

原始數(shù)據(jù)的備份,現(xiàn)在空間占用大概在65%左右。

TranswarpDataHub平臺部署拓撲圖:

滿配1152臺服務(wù)器,共需72個32口千兆交換機+18個48口萬兆交換機

4個上行萬兆口24個上行萬兆口

2links32個卜."千兆口24個卜力萬兆口

24機柜

24機柜-6

24機柜I24個TOR交換N?

任意兩臺服務(wù)器之間可有2Gbps帶寬

圖4-2聯(lián)通大數(shù)據(jù)平臺網(wǎng)絡(luò)拓撲

實際部署星環(huán)的Hadoop集群,存儲能力達到全國IDC

出口訪問日志兩個月的存儲能力,約為20PB,總帶寬

16764G,每G每秒生成話單4000條計算,每秒新寫入數(shù)

據(jù)為67056000條訪問日志。

入庫方式:

>傳統(tǒng)的APIput方式平均每秒每臺機器只能入庫約2

萬條數(shù)據(jù),900臺機器的極限是1.8千萬條/秒。遠遠低于數(shù)

據(jù)灌入速度。

>Bulkload是唯一的選擇:定制化的Bulkload入庫效

率約為單節(jié)點每秒12萬,900臺機器的入庫能力超過10.8

千萬條/秒

>數(shù)據(jù)通過通過FTP服務(wù)器集群中部署HDFS寫入

Agent方式直接由ftp集群直接上傳到HDFS中。

注:之前IP溯源Bulkload對三張表(一張內(nèi)容表+2張

索引表)的入庫效率為4萬條/秒/節(jié)點。此次為了最大限度

的利用Bulkload的效率,一方面去除了2張索引表,另一

方面也優(yōu)化了已有Bulkload代碼。

優(yōu)化內(nèi)容:

>數(shù)據(jù)入庫時負載均衡,優(yōu)化rowkey中日期時間,避

免數(shù)據(jù)寫熱點。

A8位UUID尾綴避免同一時間點上的數(shù)據(jù)相互覆蓋。

>Rowkey上優(yōu)化時間排序,加速讀過程,保證數(shù)據(jù)從

最近到最遠排序。

>保留60天歷史數(shù)據(jù),每天各建一張表,提升每張表的

可管理性

>建表時預(yù)設(shè)15000個Region,提升Bulkload入庫效

率。

>不建索引表,改用定制化的API滿足查詢需求,進一

步增大入庫帶寬。

根據(jù)中國聯(lián)通對IDC出口的流量詳單的存儲與快速檢

索、分析的處理的要求,星環(huán)科技為聯(lián)通集團提供了如下技

術(shù)組件與模塊:

表4-1組件列表

組件名稱組件功能支持運行的應(yīng)

TDH平臺組件服務(wù),提供

Transwarp對SQL99,SQL2003的日志統(tǒng)計與分

Inceptor完整支持,同時支持析

OraclePL/SQL,快速開發(fā)

TDH平臺組件服務(wù),提供

針對存儲的日

Transwarp對海量日志數(shù)據(jù)的快速存

志數(shù)據(jù)的快速

Hyperbase儲與高并發(fā)訪問,提供高

檢索

效的索引功能

TDH平臺組件服務(wù),分布對局吞吐量的

Transwarp

式基礎(chǔ)平臺日志數(shù)據(jù)進行

Hadoop

快速的存儲

TDH平臺組件服務(wù),TDH管理功能

Transwarp管理工具,圖形化、自動

Manager化安裝、部署、配置、監(jiān)

控、報警

聯(lián)通集團搭建的信息安全管理系統(tǒng)大數(shù)據(jù)存儲處理子系

統(tǒng),所采用的硬件設(shè)備如下表所示:

表4-2節(jié)點配置表

服務(wù)器推薦配置及說明

節(jié)點數(shù)量目前已經(jīng)超過900個節(jié)點

CPU兩路8核處理器2*E5-2620

內(nèi)存64GBECCDDR3

10個2TB的SATA硬盤,15000RPM,

不使用RAID;

硬盤

2個300G的SAS硬盤,

15000RPM,RAID1,作為系統(tǒng)盤

網(wǎng)絡(luò)雙電口萬兆(lOGbps)以太網(wǎng)卡

星環(huán)科技作為大數(shù)據(jù)平臺技術(shù)提供商,集團側(cè)集中留存

系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲部

分計劃進行外包,通過軟件技術(shù)服務(wù),來進行系統(tǒng)優(yōu)化和維

護支撐。

表4-3項目概況

項目各個階段實施進度以及人員參與情

集概詳應(yīng)系上

架試

群要細用統(tǒng)線

所設(shè)運

部設(shè)設(shè)開測運

屬編計行

號人員署計計發(fā)試行

20202020202020

14.15151515.15.15.201

12.1.1.13~68~5.1

2020201

2020202015.15.15.

14.1515156810

12.1.1.3

聯(lián)系統(tǒng)設(shè)計

1VVVVVV

通師

研開發(fā)工程

2VVVVVVV

究師1

院開發(fā)工程

3VVVVVVV

參師2

開發(fā)工程

人4VVVVVVV

師3

星1架構(gòu)師VVVV

環(huán)實施工程

2VVVVVVVV

科師

運維工程

人3VVVVVVVV

服1項目經(jīng)理VVVVVV

務(wù)開發(fā)工程

2VVVVVV

外師1

包開發(fā)工程

3VVVVVV

公師2

開發(fā)工程

人4VVVVVV

師3

項目成果

項目所搭建的星環(huán)TranswarpDataHub平臺,克服在

海量數(shù)據(jù)的條件下,因磁盤I/O性能帶來的數(shù)據(jù)處理瓶頸,

分布式大數(shù)據(jù)平臺采用Hadoop/HBase架構(gòu),項目成果如

下:

搭建了超過900個節(jié)點的星環(huán)TranswarpDataHub集

群,滿足約20000T(20PB)至30000T(30PB)的數(shù)據(jù)存

儲能力以及每秒寫入大概6千萬至7千萬條數(shù)據(jù)的讀寫性

能。

經(jīng)測算,數(shù)據(jù)平臺的性能為:

>高速數(shù)據(jù)插入吞吐量遠高于單節(jié)點30MB/S;

>單節(jié)點在索引上檢索性能不低于1W條/秒;

>提供數(shù)據(jù)據(jù)高并發(fā)查詢,單節(jié)點SQL并發(fā)度不低于3

000次/秒;

>提供SQL對數(shù)據(jù)的高速統(tǒng)計分析,線性掃描性能單節(jié)

點不低于

80MB/So

通過Hyperbase對外提供的SQL接口,上層應(yīng)用通過S

QL進行數(shù)據(jù)訪問和查詢,極大的降低了對開發(fā)人員專業(yè)技

能的要求,降低了系統(tǒng)維護成本,同時提高了應(yīng)用開發(fā)效率。

通過Hyperbase集成的ElasticSearch功能,應(yīng)用層可

以通過全文索引進行日志數(shù)據(jù)的檢索,根據(jù)關(guān)鍵字的檢索響

應(yīng)時間在20ms以內(nèi),整個集群可以承載的基于關(guān)鍵詞的檢

索并發(fā)度遠高于100萬/秒。

對海量IDC出口訪問日志的分析性能極為高效,日掃描

數(shù)據(jù)量超過

100TBo

入庫效率單節(jié)點每秒12萬條日志,集群總體入庫能力目

前超過10.8千萬條/秒。每天Hyperbase新增存儲日志量

超過

50TBo

項目意義

基于星環(huán)TranswarpDataHub搭建的中國聯(lián)通IDC日

志留存大數(shù)據(jù)平臺,目前已經(jīng)部署了900多個x86服務(wù)器節(jié)

點,是目前國內(nèi)非互聯(lián)網(wǎng)公司范圍內(nèi)規(guī)模最大的單一客戶、

單一集群的企業(yè)級大數(shù)據(jù)平臺,從全球的非互聯(lián)網(wǎng)行業(yè)看,

如此大的部署規(guī)模也不常見,是國內(nèi)集團級、總部級客戶中

非常成功的落地項目,充分證明星環(huán)科技TranswarpData

Hub大數(shù)據(jù)平臺可以為企業(yè)級客戶提供成熟的、穩(wěn)定的的大

規(guī)模部署方案,中國聯(lián)通IDC日志留存大數(shù)據(jù)平臺為集團大

數(shù)據(jù)平臺的建設(shè)提供了寶貴的經(jīng)驗,可以幫助集團搭成功建

起高效、穩(wěn)定的、充分滿足集團需求以及符合集團特色的大

數(shù)據(jù)平臺。

1.3.2恒豐銀行大數(shù)據(jù)平臺

恒豐銀行股份有限公司是12家全國性股份制商業(yè)銀行之

-,其前身為1987年經(jīng)國務(wù)院同意、中國人民銀行批準成

立的煙臺住房儲蓄銀行。2003年經(jīng)中國人民銀行批準,正

式改制為恒豐銀行股份有限公司,成為全國性股份制商業(yè)銀

行。

目前,恒豐銀行在全國設(shè)有14家一級分行,2家總行直

管行,共256家分支機構(gòu)另外還發(fā)起設(shè)立了5家村鎮(zhèn)銀行。

截至2015年末,恒豐銀行資產(chǎn)規(guī)模達到1.05萬億元,

全年凈利潤同比增長14%,凈資產(chǎn)收益率ROE超過15%,

新增分支機構(gòu)74家,與上年相比實現(xiàn)翻番,創(chuàng)歷年新高。

在英國《銀行家》雜志發(fā)布的“2015年全球銀行1000

強〃排名中,恒豐銀行位列第"0位。

恒豐銀行較好的實現(xiàn)了盈利與穩(wěn)健發(fā)展的平衡。盈利能

力方面,恒豐銀行在香港中文大學發(fā)布的《亞洲銀行競爭力

研究報告》中位列亞洲銀行業(yè)第5位;穩(wěn)健發(fā)展能力方面,

恒豐銀行在中國銀行業(yè)協(xié)會發(fā)布的"商業(yè)銀行穩(wěn)健發(fā)展能力

'陀螺(GYROSCOPE)評價體系'"中,在綜合能力排名

中位列全國性商業(yè)銀行第7位,全國性股份制商業(yè)銀行前三。

13.2.1項目概述

隨著利率市場化進程加快、互聯(lián)網(wǎng)金融業(yè)態(tài)的發(fā)展,傳

統(tǒng)銀行與實體經(jīng)濟的業(yè)務(wù)橫向聯(lián)系與深度融合進展迅速,業(yè)

務(wù)數(shù)據(jù)的內(nèi)容不斷豐富,建立在數(shù)據(jù)處理技術(shù)之上業(yè)務(wù)洞察

能力也需要不斷提升。

恒豐銀行處于業(yè)務(wù)發(fā)展的新階段,新業(yè)務(wù)模式的創(chuàng)新離

不開數(shù)據(jù)的支持,也對數(shù)據(jù)信息服務(wù)的總體能力提出了新的

要求?;诖髷?shù)據(jù)平臺技術(shù),整合現(xiàn)有行內(nèi)數(shù)據(jù),接入行外

數(shù)據(jù),搭建處理能力更強,更易于擴展,性能更高的統(tǒng)一數(shù)

據(jù)平臺。不僅可以很好的滿足高計算、高存儲、高負載的要

求,更能夠?qū)A康臄?shù)據(jù)進行數(shù)據(jù)存儲、清洗、加工、建模

等,把先前無法利用的數(shù)據(jù)充分利用,提升對數(shù)據(jù)的認識,

抓住機遇為恒豐銀行數(shù)據(jù)平臺建設(shè)做好最基礎(chǔ)、最扎實的工

作。

根據(jù)恒豐銀行的實際應(yīng)用需要,分別搭建基于大數(shù)據(jù)平

臺的企業(yè)數(shù)據(jù)倉庫和歷史數(shù)據(jù)分析探索平臺,滿足海量數(shù)據(jù)

的低成本高效存儲、加工、使用,完成企業(yè)數(shù)據(jù)倉庫應(yīng)用的

遷移和優(yōu)化重構(gòu),滿足移動互聯(lián)渠道場景的高并發(fā)低延時數(shù)

據(jù)服務(wù)需求,協(xié)助業(yè)務(wù)數(shù)據(jù)分析團隊自主的數(shù)據(jù)探索和業(yè)務(wù)

建模。

恒豐銀行傳統(tǒng)數(shù)據(jù)倉庫是建立在IOE體系之下,支持

TB級別數(shù)據(jù)存儲并提供復(fù)雜數(shù)據(jù)查詢功能的數(shù)據(jù)管理體系。

傳統(tǒng)數(shù)據(jù)倉庫建設(shè)多年,已接入數(shù)據(jù)源30多個,配套監(jiān)管

數(shù)據(jù)集市、數(shù)據(jù)分析集市,風險數(shù)據(jù)集市三個數(shù)據(jù)集市,負

責十幾個管理應(yīng)用和監(jiān)管系統(tǒng)的數(shù)據(jù)需求,下游建有銀行管

理類系統(tǒng)如綜合經(jīng)營分析系統(tǒng)(管理駕駛艙)、自定義查詢

平臺等,并為各分行提供數(shù)據(jù)下發(fā)服務(wù)。

隨著恒豐銀行業(yè)務(wù)發(fā)展,與外部機構(gòu)的跨界合作的展開,

歷史數(shù)據(jù)越來越多,半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)也越來越多,

數(shù)據(jù)的統(tǒng)一存儲和處理已面臨硬件成本壓力。

充分發(fā)揮大數(shù)據(jù)平臺的技術(shù)優(yōu)勢,確保系統(tǒng)平穩(wěn)安全運

行,恒豐銀行基于星環(huán)科技TranswarpDataHub大數(shù)據(jù)技

術(shù)構(gòu)建全新的IT信息系統(tǒng)架構(gòu),為各數(shù)據(jù)應(yīng)用系統(tǒng)提供功能

完善、穩(wěn)定可靠的大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)平臺,更好的支持各

類型海量業(yè)務(wù)數(shù)據(jù)的存儲、加工、使用和數(shù)據(jù)價值提煉。

基于星環(huán)科技TranswarpDataHub平臺,恒豐銀行將

原有的基于Oracle的數(shù)據(jù)倉庫平臺平滑遷移至星環(huán)大數(shù)據(jù)

平臺,提升數(shù)據(jù)倉庫的批處理能力,同時也建設(shè)歷史數(shù)據(jù)探

索的能力,基于大數(shù)據(jù)架構(gòu),完成了符合恒豐銀行現(xiàn)狀的開

創(chuàng)型應(yīng)用,例如:準實時系統(tǒng)日志分析應(yīng)用、客戶實時風險

監(jiān)測、基于互聯(lián)網(wǎng)點擊流數(shù)據(jù)的用戶體驗優(yōu)化與客戶行為分

析、客戶標簽化畫像應(yīng)用等。

源數(shù)據(jù)層工具層基于星環(huán)TDH的數(shù)據(jù)倉庫/數(shù)據(jù)集市平臺應(yīng)用層業(yè)務(wù)層

核心系統(tǒng)

總賬系統(tǒng)

卡系統(tǒng)

數(shù)據(jù)卸載平臺oa

國際結(jié)算系統(tǒng)

票據(jù)系統(tǒng)文

信貸系統(tǒng)交

區(qū)

支付系統(tǒng)因定報表

統(tǒng)一調(diào)度監(jiān)控平臺

監(jiān)管集市

數(shù)據(jù)標求管理平臺客戶風陵反洗錢

EAST1104

指標管理平臺

康效考核風險集市

aw

數(shù)據(jù)倉庫數(shù)據(jù)

圖4-3恒豐銀行大平臺架構(gòu)

恒豐銀行搭建的基于星環(huán)科技TranswarpDataHub的

大數(shù)據(jù)平臺承載了恒豐銀行分布在全國的數(shù)千萬用戶數(shù)據(jù),

服務(wù)于全國用戶與行內(nèi)業(yè)務(wù)人員,數(shù)據(jù)總存儲量達到幾十

TBO

根據(jù)恒豐銀行的項目建設(shè)的需求,我們推薦恒豐銀行采

用基于星環(huán)TranswarpDataHub大數(shù)據(jù)平臺來構(gòu)建新一代

數(shù)字銀行平臺,滿足恒豐銀行數(shù)據(jù)倉庫的遷移、數(shù)據(jù)集市的

搭建,同時協(xié)助恒豐銀行構(gòu)建客戶360度視圖應(yīng)用,準實時

日志和精準營銷等應(yīng)用。

技術(shù)組件和相關(guān)方案如下所示:

(l)TranswarpHadoop,完成海量數(shù)據(jù)的存儲。

(2)TranswarpInceptor,完成傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫SQL

應(yīng)用的語義解析和編譯,使得基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的

應(yīng)用可以直接遷移至星環(huán)大數(shù)據(jù)平臺,在Transwarp

DataHub平臺實現(xiàn)企業(yè)級數(shù)據(jù)倉庫的核心組件。

(3)TranswarpHyperbase,完成銀行海量歷史交易明細

數(shù)據(jù)的存儲,支持高并發(fā)的快速查詢。

(4)TranswarpDiscover,完成客戶畫像,風險預(yù)警等分

析挖掘任務(wù)。

(5)TranswarpStream,完成實時日志的采集與報警。

1.322項目實施情況

星環(huán)科技協(xié)助恒豐銀行搭建了行內(nèi)統(tǒng)一基于

TranswarpDataHub的數(shù)據(jù)平臺,一期工作完成將原有

Oracle數(shù)據(jù)倉庫中的全量數(shù)據(jù)進行遷移,同時在大數(shù)據(jù)平臺

完成了數(shù)據(jù)批處理、數(shù)據(jù)建模、數(shù)據(jù)集市等工作。

數(shù)據(jù)移植說明:

數(shù)據(jù)倉庫原有數(shù)據(jù)全部移植到新的大數(shù)據(jù)平臺之上,并

對數(shù)據(jù)結(jié)構(gòu)進行重構(gòu)。數(shù)據(jù)移植的基本流程如下圖所示:

圖4-4恒豐銀行大平臺數(shù)據(jù)移植流程

除Sqoop數(shù)據(jù)抽取階段,剩下的主要的數(shù)據(jù)處理階段

放在大數(shù)據(jù)平臺上實現(xiàn),避免了對原數(shù)據(jù)倉庫正常運行的影

響。

數(shù)據(jù)倉庫日終ETL體系流程說明:

(1)每日業(yè)務(wù)系統(tǒng)日終完成后會生成相關(guān)數(shù)據(jù)文件提供

給數(shù)據(jù)平臺,數(shù)據(jù)平臺獲取文件并加載文件數(shù)據(jù)。

⑵對每個業(yè)務(wù)系統(tǒng)提供的數(shù)據(jù)文件,數(shù)據(jù)平臺必須對文

件進行合法性校驗。合法則加載文本,不合法通知

業(yè)務(wù)系統(tǒng)人員對數(shù)據(jù)文本的導(dǎo)出進行調(diào)整。

(3)ODM構(gòu)建文本的映射外表,通過PL/SQL存儲過程

將ODM數(shù)據(jù)備份到HDM層。

(4)部分原數(shù)據(jù)倉庫的基礎(chǔ)整合模型保留在FDM層,通

過PL/SQL還原原倉庫數(shù)據(jù)處理程序,并逐步將

FDM層數(shù)據(jù)轉(zhuǎn)移到CDM層公共模型中。

⑸ODM層數(shù)據(jù)每日經(jīng)過清洗、加工、整合后放在CDM

層公共數(shù)據(jù)模型層,在公共模型層之上構(gòu)建DSI服

務(wù)接口,向外部集市或應(yīng)用提供數(shù)據(jù)服務(wù)。

(6)集市回流數(shù)據(jù)依照ODM-->HDM的處理方法進行

數(shù)據(jù)的備份。

如圖所示:

圖4-5恒豐銀行大數(shù)據(jù)平臺數(shù)據(jù)同步流程

(1)每日在線數(shù)據(jù)平臺處理數(shù)據(jù)經(jīng)過處理后羥數(shù)據(jù)復(fù)制

將數(shù)據(jù)同步到歷史數(shù)據(jù)平臺。

(2)校驗成功后的文本同步到歷史數(shù)據(jù)平臺進行歸檔。

⑶歷史數(shù)據(jù)平臺的數(shù)據(jù)與在線數(shù)據(jù)平臺保持一致,存期

延長。

(4)歷史數(shù)據(jù)平臺之上建立歷史數(shù)據(jù)查詢模型提供歷史

數(shù)據(jù)查詢服務(wù)。

圖4-6恒豐銀行大數(shù)據(jù)平臺數(shù)據(jù)模型轉(zhuǎn)換

為完整支持恒豐銀行數(shù)據(jù)倉庫項目的建設(shè),星環(huán)科技為

恒豐銀行提供了如下技術(shù)組件與模塊:

表4-4組件列表

支持運行的應(yīng)

組件名稱組件功能

TranswarpTDH平臺組件服務(wù),提供數(shù)據(jù)倉庫、數(shù)

Inceptor對SQL99,SQL2003的據(jù)集市、批處

完整支持,同時支持理、ETL

OraclePL/SQL,為原有應(yīng)

用平滑遷移提供基礎(chǔ)

TDH平臺組件服務(wù),提供歷史數(shù)據(jù)存儲

Transwarp

對海量歷史數(shù)據(jù)的快速存與查詢、數(shù)據(jù)

Hyperbase

儲與高并發(fā)訪問集市

TDH平臺組件服務(wù),對海

Transwarp客戶畫像、風

量數(shù)據(jù)進行快速的分析和

Discover險監(jiān)測

挖掘

實時交易預(yù)

TranswarpTDH平臺組件服務(wù),對實

警、實時點擊

Stream時數(shù)據(jù)進行計算

流分析

TDH平臺組件服務(wù),分布影像存儲、日

Transwarp

式基礎(chǔ)平臺志存儲、點擊

Hadoop

流數(shù)據(jù)存儲

TDH平臺組件服務(wù),TDH管理功能

Transwarp管理工具,圖形化、自動

Manager化安裝、部署、配置、監(jiān)

控、報警

經(jīng)過恒豐銀行的測試確認,從性能的角度出發(fā),恒豐銀

行采用如下硬件設(shè)備:

表4-5硬件配置列表

服務(wù)器推薦配置及說明

節(jié)點數(shù)

一期16個節(jié)點,未來規(guī)劃150節(jié)點

CPU兩路8核處理器2*E5-2650v3

內(nèi)存256GBECCDDRS

10個600GB的SAS硬盤,15000RPM,

不使用RAID;

硬盤

2個300G的SAS硬盤,

15000RPM,RAID1,作為系統(tǒng)盤

網(wǎng)絡(luò)雙電口萬兆(lOGbps)以太網(wǎng)卡

固態(tài)硬

800GB

星環(huán)科技作為大數(shù)據(jù)平臺技術(shù)提供商,在恒豐銀行大數(shù)

據(jù)平臺建設(shè)項目中,為客戶提供了強大平臺技術(shù)支持,同時

與應(yīng)用廠商進行緊密的配合,確保了項目一期建設(shè)的順利上

線。

表4-6項目實施概況

所項目各個階段實施進度以及人員參與情況

編角屬需架概詳應(yīng)用試上

號系統(tǒng)

色公求構(gòu)要細開發(fā)/運線

測試

司分設(shè)設(shè)設(shè)遷移行運

析計計計行

20202020201

201201

15.15.15.15.20155.1

5.105.1

7~7~7?7?.8~1~

2~

202020202015201

201至

15.15.15.15..105.1

5.11今

77881

1構(gòu)VVVV

師星

實環(huán)

施科

2工技VVVVVV

3應(yīng)VVVVVVVV

經(jīng)

4施VVVVVV

師1

5工VVVVVV

師2

6工VVVVVV

師3

7工VVVVVV

師4

物理拓撲圖:

大數(shù)據(jù)平臺(企業(yè)級數(shù)據(jù)倉大數(shù)據(jù)平臺(歷史數(shù)據(jù)+業(yè)務(wù)

外部服務(wù)器

大數(shù)據(jù)1大數(shù)據(jù)8大數(shù)據(jù)1大數(shù)據(jù)8

圖4-7恒豐銀行大數(shù)據(jù)平臺網(wǎng)絡(luò)拓撲

性能指標:

>日終批處理時間

數(shù)據(jù)平臺每日幾千個數(shù)據(jù)處理作業(yè),日終時間窗口控

制在3個小時到4個小時之間。日終掃描數(shù)據(jù)量達10TB,

按照業(yè)務(wù)系統(tǒng)供數(shù)最晚時間1:30計算,在凌晨5點左

右全部完成數(shù)據(jù)處理作業(yè),個別作業(yè)錯誤不影響整體進

度。

>最大并發(fā)查詢用戶

1000個用戶同時使用數(shù)據(jù)平臺查詢數(shù)據(jù),簡單查

詢響應(yīng)時間在100毫秒以內(nèi),關(guān)聯(lián)統(tǒng)計查詢在200毫米

以內(nèi),復(fù)雜的統(tǒng)計分析應(yīng)用響應(yīng)時間在分鐘級。

1.323項目成果

恒豐銀行所搭建的基于星環(huán)科技TranswarpDataHub

的大數(shù)據(jù)平臺是國內(nèi)第一個完全采用Hadoop來搭建金融

機構(gòu)企業(yè)級數(shù)據(jù)倉庫平臺的成功案例。在短短半年的時間

內(nèi),就將原有Oracle數(shù)據(jù)倉庫的復(fù)雜數(shù)據(jù)處理過程,以及

金融機構(gòu)的模型,遷移至星環(huán)TranswarpDataHub平臺,

同時在數(shù)據(jù)倉庫上面,建設(shè)了客戶關(guān)系管理集市和審計集

市,同時存儲了恒豐銀行多年來全部數(shù)據(jù),接入了30幾個

業(yè)務(wù)系統(tǒng),批處理性能比原有Oracle數(shù)據(jù)庫平臺提升5倍

以上,歷史數(shù)據(jù)查詢的性能比原來提升幾十倍,90%的歷史

查詢應(yīng)用都可以在200毫秒內(nèi)返回結(jié)果,而總體投資僅占原

有平臺的1/30

統(tǒng)

調(diào)

數(shù)

據(jù)

數(shù)

據(jù)

非結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)

基于星環(huán)科技TranswarpDataHub的恒豐銀行數(shù)據(jù)倉庫架構(gòu)

圖4-8恒豐銀行大數(shù)據(jù)平臺數(shù)倉架構(gòu)

本項目充分證明,星環(huán)科技TranswarpDataHub大數(shù)

據(jù)平臺,能夠全面支撐企業(yè)級數(shù)據(jù)倉庫的搭建。

1.324項目意義

恒豐銀行大數(shù)據(jù)平臺的一期建設(shè)完成了將傳統(tǒng)基于

Oracle的數(shù)據(jù)倉庫遷移至星環(huán)大數(shù)據(jù)平臺,并在基于星環(huán)

TranswarpDataHub大數(shù)據(jù)平臺的數(shù)據(jù)倉庫上搭建了基于

三范式模型的數(shù)據(jù)集市,充分證明了星環(huán)TranswarpData

Hub平臺能夠支持企業(yè)在大數(shù)據(jù)平臺建設(shè)數(shù)據(jù)倉庫、數(shù)據(jù)集

市的應(yīng)用,同時如果已有數(shù)據(jù)倉庫平臺,也可以短期內(nèi)快速

完成數(shù)據(jù)倉庫的遷移。

恒豐銀行基于TranswarpDataHub大數(shù)據(jù)平臺的數(shù)據(jù)

倉庫項目,是大數(shù)據(jù)技術(shù)在行業(yè)復(fù)雜應(yīng)用落地項目中的重要

里程碑,充分證明星環(huán)TranswarpDataHub平臺能夠支持

企業(yè)最重要也最復(fù)雜的數(shù)據(jù)倉庫應(yīng)用。

全球著名大數(shù)據(jù)調(diào)研機構(gòu)Gartner在近期的大數(shù)據(jù)市場

調(diào)研報告中,已經(jīng)將星環(huán)TranswarpDataHub平臺列入數(shù)

據(jù)倉庫魔力象限,并在技術(shù)成熟度,技術(shù)領(lǐng)先度的維度中,

排名全球大數(shù)據(jù)廠商第一名。

.Oracle

Teradata

Microsoft

?IBM

AmazonWebServices

SAP

HPE

lOlOdata.

Infobright.

MarkLogic

.Cloudera

Exasol.

MapRTechnologies

Actian.

I[?Transwarp]星環(huán)科技

HoftonwocksI?

MongoDB?

■Pivotal

.MemSQL

3

1

m

0

1

A

i

n

面<

AsofFebruary2016

圖4-9Gartner數(shù)據(jù)倉庫魔力象限

因此,恒豐銀行基于大數(shù)據(jù)平臺的數(shù)據(jù)倉庫建設(shè)經(jīng)驗,

可以為此次集團大數(shù)據(jù)平臺建設(shè)提供寶貴的經(jīng)驗。目前從全

球大數(shù)據(jù)廠商來看,除星環(huán)科技外,還沒有其他廠商能夠在

金融、銀行這樣的高端行業(yè),擁有完全通過大數(shù)據(jù)技術(shù)實現(xiàn)

企業(yè)數(shù)據(jù)倉庫的成功案例。

在恒豐銀行項目中,星環(huán)科技已經(jīng)積累了大量的基于大

數(shù)據(jù)平臺建設(shè)傳統(tǒng)數(shù)據(jù)倉庫理論基礎(chǔ)和實踐經(jīng)驗,同時在產(chǎn)

品的性能和功能上也充分的得到了驗證,尤其星環(huán)

TranswarpInceptor組件,能夠快速協(xié)助集團將傳統(tǒng)基于

Teradata數(shù)據(jù)倉庫平臺的應(yīng)用快速的遷移至星環(huán)大數(shù)據(jù)平

臺,從而極大降低了項目風險。

采用星環(huán)TranswarpDataHub平臺構(gòu)建集團大數(shù)據(jù)平

臺,是集團的正確選擇。

1.3.3華通CDN運營商海量日志采集分析系統(tǒng)

浙江華通云數(shù)據(jù)科技有限公司是一家致力于云基礎(chǔ)設(shè)

施、云網(wǎng)絡(luò)(CDN、VPN)以及各類云應(yīng)用建設(shè)和服務(wù)企業(yè)。

通過云數(shù)據(jù)中心、覆蓋全國主要城市的CDN網(wǎng)絡(luò),為通信

運營商、服務(wù)提供商、互聯(lián)網(wǎng)企業(yè)及終端用戶提供云應(yīng)用和

服務(wù)。依托豐富的網(wǎng)絡(luò)資源和云資源優(yōu)勢,打造成為全國性

的云應(yīng)用服務(wù)中心。

項目概述

華通CDN運營商需要構(gòu)建了全國性的CDN平臺,針對

CDN服務(wù)過程中產(chǎn)生的海量日志數(shù)據(jù)進行流式采集和分析,

并將海量日志的處理及分析結(jié)果輸出給使用者。

華通CDN運營商已經(jīng)在全國部署了上千臺服務(wù)器,日志

采集系統(tǒng)需要滿足上數(shù)百個節(jié)點、每秒上千萬次的日志數(shù)據(jù)

實時采集能力;日志從采集、分析到提供給第三方的延時不

超過5分鐘;日志存儲集群支持2PB的數(shù)據(jù)存儲;支持將采

集的數(shù)據(jù)實時匯聚并寫入日志管理分析平臺進行后續(xù)的統(tǒng)

計分析;實現(xiàn)針對命中率、時延、可用性、流量等指標的統(tǒng)

計功能。

13.3.2項目實施情況

星環(huán)科技根據(jù)華通CDN日志采集和分析系統(tǒng)的需求,在

前端600多個CDN服務(wù)器節(jié)點上,部署了600多個代理服

務(wù)器,用來實時采集日志數(shù)據(jù),搭建了100個節(jié)點的X86

服務(wù)器來部署星環(huán)TranswarpDataHub平臺,用

TranswarpHadoop來采集日志數(shù)據(jù),并通過Transwarp

Inceptor進行分析,快速得到分析結(jié)果。

SQL

heatmap

淘寶文件訪問接口Inceptor

CDN

ICactwS?rwrHTTP

11ylChannelServerService

—廣通92877只懸電

IChannelS?rver

—Transwarp

個快速追整縫存策略提高命中主

圖4?10華通CDN日志采集和分析系統(tǒng)架構(gòu)

數(shù)據(jù)采集完成緩存服務(wù)器日志數(shù)據(jù)從節(jié)點到中心的數(shù)

據(jù)采集匯聚,在每個節(jié)點內(nèi)部署日志采集Agent,通過UDP

方式采集服務(wù)器syslog日志,節(jié)點Agent將采集的數(shù)據(jù)通

過流式傳輸?shù)姆绞桨l(fā)送至中心匯聚服務(wù)器,中心匯聚服務(wù)器

將匯聚的日志數(shù)據(jù)寫入數(shù)據(jù)存儲分析平臺,系統(tǒng)部署600+

Agent,20個匯聚服務(wù)器,平臺采用TranswarpDataHub

方案構(gòu)建,支持峰值928w/sec的數(shù)據(jù)寫入和分析,將數(shù)據(jù)

進行清洗整理后,進行實時壓縮處理,輸出至第三方系統(tǒng)。

平臺依賴于TranswarpInceptor對采集的日志流數(shù)據(jù)進行

實時的統(tǒng)計分析,為業(yè)務(wù)質(zhì)量監(jiān)控和后續(xù)服務(wù)的優(yōu)化提供數(shù)

據(jù)支撐。

單扇區(qū)網(wǎng)絡(luò)部署圖

圖4-11華通CDN日志采集平臺物理部署

單臺日志采集服務(wù)器每條處理的日志數(shù)為10萬條,按

照服務(wù)器最多的A類節(jié)點其峰值每秒產(chǎn)生4萬條日志計算一

個拉遠節(jié)點每天所需存儲的日志數(shù)為,代理服務(wù)器本地配置

8T的存儲空間至少可滿足1周的日志存儲。

按照流式處理的峰值計算,1秒內(nèi)完成所有日志的傳輸,

單條日志0.2K的情況下單個拉遠節(jié)點日志傳輸對上行帶寬

的要求。

星環(huán)科技為華通CDN海量日志采集與分析系統(tǒng)提供了

如下技術(shù)組件與模塊:

表4-7組件列表

支持運行的應(yīng)

組件名稱組件功能二

TDH平臺組件服務(wù),用于對

Transwarp海量日志數(shù)據(jù)進行實時、高日志分析,點

Inceptor效的分析,并通過標準的擊叩中率報告

SQL完成各種分析報告

TDH平臺組件服務(wù),對實時

Transwarp

日志數(shù)據(jù)進行采集,提供分實時日志米集

Flume

布式的采集方式

TDH平臺組件服務(wù),分布式日志存儲

Transwarp基礎(chǔ)平臺,用十存儲海量的

Hadoop日志數(shù)據(jù),提供極高的吞吐

TDH平臺組件服務(wù),TDH管管理功能

Transwarp理工具,圖形化、自動化安

Manager裝、部署、配置、監(jiān)控、報

華通CDN海量日志采集與分析系統(tǒng),采用如下硬件設(shè)

備:

表4-8硬件配置列表

服務(wù)器推薦配置及說明

節(jié)點數(shù)量100個節(jié)點

CPU兩路6核處理器2*E5-2620

內(nèi)存64GBECCDDR3

硬盤10個2TB的SATA硬盤,7200RPM,不

使用RAID;

2個300G的SAS硬盤,

15000RPM,RAID1,作為系統(tǒng)盤

網(wǎng)絡(luò)雙電口萬兆(lOGbps)以太網(wǎng)卡

星環(huán)科技作為大數(shù)據(jù)平臺技術(shù)提供商,在華通CDN日志

采集和分析系統(tǒng)項目建設(shè)中,為客戶提供了強大平臺技術(shù)支

持,確保了項目一期建設(shè)的順利上線。

表4-8項目實施概況

項目各個階段實施進度以及人員參與情況

而?=!='架概詳應(yīng)系

試上線

求構(gòu)要細用統(tǒng)

分設(shè)設(shè)設(shè)開測

行運行

所析計計計發(fā)試

編屬20

角色

號20

公13.201201201201201

14.

司103.13.13.13.14.2201

1~

~20~20~21-22~2~204.3?

20

0101301301301414.至今

14.

3.1.10.11.12.13

2

0

架構(gòu)星

1VVVV

師環(huán)

實施科

2工程技VVVVVV

項目

3VVVVVVVV

經(jīng)理

開發(fā)

4工程VVVVVVV

師1

開發(fā)應(yīng)

5工程用VVVVVV

師2廠

測試商

6工程VVVVV

師3

運維

7工程VVVV

師4

性能指標

cacheServer->syslogNG(udp)->FlumeAgent

在邊緣節(jié)點,采集速度為2萬條/秒(非峰值處理能力,

而是日志服務(wù)器峰值為2萬條/秒,在超級節(jié)點,采集速度

為14萬條/秒

一入庫:FlumeAgent->TDHHDFS

-存儲:TDHHDFS->Hyperbase

E5-2650雙核,峰值導(dǎo)入速度單機平均20萬條/秒

每間隔5分鐘對采集日志進行實時分析。

項目成果

基于星環(huán)科技TranswarpDataHub大數(shù)據(jù)平臺,完整

搭建了一套可以支撐華通數(shù)百臺服務(wù)器的實時日志收集與

分析,從日志采集、分析,到提供給第三方準確的數(shù)據(jù)報告

不超過5分鐘,極大的提高了華通CDN服務(wù)器的的用戶點

擊命中率才是高20%以上為華通每年多帶來數(shù)百萬的利潤。

項目意義

華通大數(shù)據(jù)平臺項目,是國內(nèi)比較早大數(shù)據(jù)平臺項目,

平臺從13年至今一直穩(wěn)定運行數(shù)據(jù)平臺版本從Transwarp

DataHub2.0升級到3.0、4.0,版本的升級對現(xiàn)有數(shù)據(jù)和

服務(wù)沒有任何影響,但是功能和性能得到極大的提高,充分

證明星環(huán)TranswarpDataHub平臺是成熟、穩(wěn)定的商業(yè)平

臺,能夠長期穩(wěn)定的承載企業(yè)高負載應(yīng)用,并且版本之間向

下兼容。

華通大數(shù)據(jù)平臺長期的管理、運維、升級等經(jīng)驗,也為

集團提供了寶貴的經(jīng)驗,為集團建設(shè)穩(wěn)定、統(tǒng)一的大數(shù)據(jù)平

臺提供了保障。

1.3.4案例總結(jié)

中國聯(lián)通大數(shù)據(jù)平臺、恒豐銀行大數(shù)據(jù)平臺、華通CDN

運營商日志采集與分析平臺,3個項目從高并發(fā)、高吞吐、

高容量、高復(fù)雜度、高穩(wěn)定性、高擴展性、高可維護性等多

個不同的維度為集團建設(shè)企業(yè)級大數(shù)據(jù)平臺提供了寶貴的

經(jīng)驗,也充分證明了基于星環(huán)TranswarpDataHub大數(shù)據(jù)

平臺可以幫助集團建設(shè)企業(yè)級大規(guī)模數(shù)據(jù)平臺提供堅實的

技術(shù)基礎(chǔ)。

星環(huán)科技全國上百個成功案例證明:基于星環(huán)

TranswarpDataHub大數(shù)據(jù)平臺構(gòu)建集團大數(shù)據(jù)平臺、數(shù)

據(jù)倉庫平臺是成熟、可靠的技術(shù)方案,是最正確的選擇。

1.4系統(tǒng)總體架構(gòu)設(shè)計

1.4.1總體技術(shù)框架

大數(shù)據(jù)平臺是一個可擴展的數(shù)據(jù)平臺,全面整合集團業(yè)務(wù)

數(shù)據(jù),建立從業(yè)務(wù)層到管理層再到?jīng)Q策層的集團數(shù)據(jù)智能分

析體系,使經(jīng)營者能夠及時掌握全面的經(jīng)營狀況,迅速做出

科學決策。

4-12總體總體結(jié)構(gòu)圖

參見上圖,集團大數(shù)據(jù)平臺主要分成六大部分:

1、用新技術(shù)建設(shè)集團大數(shù)據(jù)平臺,在平臺上構(gòu)建集團

企業(yè)級的數(shù)據(jù)倉庫;

2、建立統(tǒng)一的數(shù)據(jù)采集加工平臺,供大數(shù)據(jù)平臺從各

業(yè)務(wù)系統(tǒng)及外部環(huán)境采集、加工、清洗、爬取數(shù)據(jù);

3、數(shù)據(jù)管控平臺,為大數(shù)據(jù)平臺提供主數(shù)據(jù)管理、元

數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標準管理、數(shù)據(jù)安全管

理等服務(wù);

4、企業(yè)級數(shù)據(jù)分析平臺,主要用于經(jīng)營分析和決策支

持;

5、數(shù)據(jù)可視化展現(xiàn)平臺,包括:可視化交互查詢、圖

表展示、移動展示、地圖展示、管理駕駛艙等;

6、數(shù)據(jù)分析與挖掘平臺,包括:并行化算法模型庫、

數(shù)據(jù)分析挖掘工具等。

用戶終端接入

剖)II

Web瀏覽器移雌瑞APP郵件席信/微信同螳大屏

通信網(wǎng)絡(luò)

郵政綜合網(wǎng)Internet寬芾接入移動互聯(lián)網(wǎng)WiFi無線局域網(wǎng)

統(tǒng)

數(shù)基礎(chǔ)功能服務(wù)&應(yīng)用擴展服務(wù)

據(jù)

運營四蜘管理決策支持、風險懿、流程優(yōu)化系

內(nèi)容管理、數(shù)據(jù)分析、元數(shù)據(jù)管理服務(wù)支撐、交叉營銷、『包新統(tǒng)

準應(yīng)用支撐平臺&大數(shù)據(jù)分布式計算和存儲服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論