版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
軟件項目開發(fā)與設(shè)計大數(shù)據(jù)平臺工程技術(shù)方案建議
1.1概述
1.1.1項目整體概述
隨著信息化程度的加深,以及移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的崛
起,人們產(chǎn)生的數(shù)據(jù)急劇膨脹,傳統(tǒng)的數(shù)據(jù)處理技術(shù)難以支
撐數(shù)據(jù)大量的增長和處理能力。經(jīng)過近幾年的發(fā)展,大數(shù)據(jù)
技術(shù)逐步成熟,可以幫助企業(yè)整合更多的數(shù)據(jù),從海量數(shù)據(jù)
中挖掘出隱藏價值。大數(shù)據(jù)已經(jīng)從“概念”走向“價值”,
逐步進入實施驗證階段。人們越來越期望能實現(xiàn)海量數(shù)據(jù)的
處理,從數(shù)據(jù)中發(fā)現(xiàn)價值。
**平臺是為監(jiān)控基站告警信息、管理基站用戶設(shè)備和運
行情況、合理調(diào)度各地市維護人員、準確掌握基站備用電源
各階段數(shù)據(jù)、保障用戶設(shè)備在線及減少維護成本、并且支持
內(nèi)部用戶和外部用戶的自動派單功能而建設(shè)的IT服務(wù)平臺。
該平臺包括以每個行業(yè)用戶為單位的智能推送點播應(yīng)答/
報表智能推送、基站資源/電源數(shù)據(jù)的業(yè)務(wù)建模分析、天氣環(huán)
保等相關(guān)數(shù)據(jù)、對內(nèi)外自動派單、轄區(qū)郵政運維狀態(tài)的大屏
展示等主要功能模塊。**郵政服務(wù)平臺對前述功能的支撐,
提供基站備用電池的監(jiān)控管理,進行斷電保障、使用效能等
方面的應(yīng)用分析,為備電時長提供修正依據(jù)。
**公司已深刻認識到數(shù)據(jù)戰(zhàn)略對企業(yè)運營以及企業(yè)未來
發(fā)展方向的重要性?;拘袠I(yè)的本質(zhì)是郵政信息管理管理與
挖掘,核心是數(shù)據(jù),載體是平臺,關(guān)鍵是用戶體驗,發(fā)展趨
勢是互聯(lián)網(wǎng)與**的深度融合,要提升大數(shù)據(jù)處理基站數(shù)據(jù)貢
獻度。因此,要深化互聯(lián)網(wǎng)思維理念,穩(wěn)步推進互聯(lián)網(wǎng)金融
產(chǎn)品和服務(wù)模式創(chuàng)新,積極利用移動互聯(lián)網(wǎng)、大數(shù)據(jù)等新技
術(shù)新手段,沉著應(yīng)對沖擊和挑戰(zhàn),實現(xiàn)傳統(tǒng)基站與互聯(lián)網(wǎng)融
合發(fā)展。做好海量異構(gòu)數(shù)據(jù)的專業(yè)化整合集成、關(guān)聯(lián)共享、
安全防護和維護管理,深度挖掘數(shù)據(jù)內(nèi)含的巨大價值,探索
**業(yè)務(wù)創(chuàng)新,實現(xiàn)數(shù)據(jù)資源的綜合應(yīng)用、深度應(yīng)用,已成為
提升企業(yè)核心競爭力,實現(xiàn)企業(yè)信息化可持續(xù)發(fā)展的關(guān)鍵途
徑。以大數(shù)據(jù)項目建設(shè)作為契機,凝聚中國**優(yōu)勢力量,全
面梳理數(shù)據(jù)資源,完善數(shù)據(jù)體系架構(gòu),自主掌握大數(shù)據(jù)分析
郵政信息關(guān)鍵技術(shù),加速大數(shù)據(jù)郵政信息資源的開發(fā)利用,
將數(shù)據(jù)決策化貫穿到經(jīng)營管理全流程,建設(shè)智慧基站,提升
核心競爭力。
(一)對XX運行設(shè)備的集中監(jiān)測管理
提供基站監(jiān)控告警、合理調(diào)度;提供基站備用電池的監(jiān)
控管理、進行斷電保障等。。
(二)開發(fā)大數(shù)據(jù)資源,支撐全行經(jīng)營管理創(chuàng)新
構(gòu)建基站大數(shù)據(jù)平臺,實現(xiàn)更廣泛的半結(jié)構(gòu)化、非結(jié)構(gòu)
化數(shù)據(jù)集中采集、存儲、加工、分析和應(yīng)用,極大地豐富中
國**的信息資源,同現(xiàn)有的企業(yè)級數(shù)據(jù)倉庫和歷史數(shù)據(jù)存儲
系統(tǒng)一起,形成基礎(chǔ)數(shù)據(jù)體系,提供支撐經(jīng)營管理的各類數(shù)
據(jù)應(yīng)用。
(三)對XX整體設(shè)備運行周期內(nèi)的統(tǒng)計分析
建設(shè)XX基站離線數(shù)據(jù)分析、實時數(shù)據(jù)/流數(shù)據(jù)分析集群和
各類數(shù)據(jù)分析集群,提供高性能可擴展的分布式計算引擎,
通過數(shù)據(jù)挖掘、計量分析和機器學習等手段,對豐富的基站
大數(shù)據(jù)資源進行開發(fā)使用,并將數(shù)據(jù)決策化過程結(jié)合到風
控、營銷、營運等經(jīng)營管理活動。
(四)對內(nèi)部和外部運維人員系統(tǒng)派單管理
結(jié)合基站大數(shù)據(jù)項目的落地實施,建立起一支基站大數(shù)
據(jù)技術(shù)和分析人員隊伍,具備自主運營和開發(fā)基站大數(shù)據(jù)分
析的能力,以更好推動業(yè)務(wù)創(chuàng)新,提升中國**核心競爭力。
(五)郵政信息服務(wù)平臺及后臺分權(quán)分域管理能力
通過統(tǒng)一權(quán)限管理,從后臺分權(quán)分域進行信息化建設(shè)。
另外可視化角度進行操作,方便查看和管理。
(六)支持在微信、PC端不同入口下業(yè)務(wù)處理及系統(tǒng)間
數(shù)據(jù)交互
實現(xiàn)同一數(shù)據(jù)存儲中心,確保微信、PC端與系統(tǒng)服務(wù)器
之間的數(shù)據(jù)交互能力。提升在微信、PC端業(yè)務(wù)處理中的用
戶體驗度。
近年來,中國**大力發(fā)展面向用戶的新一代核心業(yè)務(wù)系
統(tǒng),信息系統(tǒng)建設(shè)日趨完備,提升用戶體驗和風險管控能力、
滿足監(jiān)管各項要求的同時,形成并儲存了龐大的可用數(shù)據(jù)資
源。
大數(shù)據(jù)技術(shù)在通信基站行業(yè)的應(yīng)用范圍包括:業(yè)務(wù)信息
稽核、查詢、分析、預(yù)警等、用戶洞察、營銷支撐、風險管
控和營運優(yōu)化等領(lǐng)域。
?基本業(yè)務(wù)功能
滿足業(yè)務(wù)部門在監(jiān)控基站告警信息管理、智能推送點播
應(yīng)答/報表智能推送管理、基站資源/電源數(shù)據(jù)的業(yè)務(wù)建模分
析管理、重點業(yè)務(wù)、重點基站管理的需要,為各級領(lǐng)導(dǎo)、職
能部門及專業(yè)人員管理提供支撐。
?用戶洞察
分析用戶的各種數(shù)據(jù),包括電話語音、網(wǎng)絡(luò)的監(jiān)控錄像、
點播應(yīng)答信息、基站資源、電源數(shù)據(jù)以及相關(guān)的基站數(shù)據(jù)信
息,從而實現(xiàn)對用戶進行分類和服務(wù)。對現(xiàn)有基站數(shù)據(jù)系統(tǒng)
中的用戶分層的數(shù)據(jù)要素進行延伸。
?營銷支撐
實時營銷:是根據(jù)用戶的使用平臺的實時狀態(tài)來進行營
銷,如用戶點播時段內(nèi)容等信息來有針對地進行營銷。
事件式營銷:將改變工作方式的事件視為營銷機會,如
換人工服務(wù)變成智能提醒或者操作、改變工作方式等。
?風險管控
信用評級:運用時間、故障概率、區(qū)域、設(shè)備質(zhì)量等多
個維度對基站綜合評級,運用大量的指標構(gòu)建多重模型,以
識別基站故障信用風險。
?營運優(yōu)化
改善用戶體驗:運用大數(shù)據(jù)能夠處理海量基站信息數(shù)據(jù)
的能力,將傳統(tǒng)數(shù)據(jù)統(tǒng)計分析等業(yè)務(wù)切換到數(shù)據(jù)處理能力更
強的平臺,來解決查詢歷史數(shù)據(jù)的困難,提升用戶體驗。
降低運營成本:運用綜合分析結(jié)果,優(yōu)化**運輸資源的
配置,降低企業(yè)運營成本,提升整體競爭力。
1.1.2平臺建設(shè)原則
平臺是大數(shù)據(jù)的基礎(chǔ)實施,其建設(shè)、設(shè)計和系統(tǒng)實現(xiàn)過
程中,應(yīng)遵循如下指導(dǎo)原則:
?經(jīng)濟性:基于現(xiàn)有場景分析,對三到五年內(nèi)的數(shù)據(jù)
量進行合理評估,確定大數(shù)據(jù)平臺規(guī)模,后續(xù)根據(jù)實際情況
再逐步優(yōu)化擴容。
?可擴展性:架構(gòu)設(shè)計與功能劃分模塊化,考慮各接
口的開放性、可擴展性,便于系統(tǒng)的快速擴展與維護,便于
第三方系統(tǒng)的快速接入。
?可靠性:系統(tǒng)采用的系統(tǒng)結(jié)構(gòu)、技術(shù)措施、開發(fā)手
段都應(yīng)建立在已經(jīng)相當成熟的應(yīng)用基礎(chǔ)上,在技術(shù)服務(wù)和維
護響應(yīng)上同用戶積極配合,確保系統(tǒng)的可靠;對數(shù)據(jù)指標要
保證完整性,準確性。
?安全性:針對系統(tǒng)級、應(yīng)用級、網(wǎng)絡(luò)級,均提供合
理的安全手段和措施,為系統(tǒng)提供全方位的安全實施方案,
確保企業(yè)內(nèi)部信息的安全。大數(shù)據(jù)技術(shù)必須自主可控。
?先進性:涵蓋結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存
儲和分析的特點。借鑒互聯(lián)網(wǎng)大數(shù)據(jù)存儲及分析的實踐,使
平臺具有良好的先進性和彈性。支撐當前及未來數(shù)據(jù)應(yīng)用需
求,引入對應(yīng)大數(shù)據(jù)相關(guān)技術(shù)。
?平臺性:歸納整理大數(shù)據(jù)需求,形成統(tǒng)一的大數(shù)據(jù)
存儲服務(wù)和大數(shù)據(jù)分析服務(wù)。利用多租戶,實現(xiàn)計算負荷和
數(shù)據(jù)訪問負荷隔離。多集群統(tǒng)一管理。
?分層解耦:大數(shù)據(jù)平臺提供開放的、標準的接口,
實現(xiàn)與各應(yīng)用產(chǎn)品的無縫對接。
1.2系統(tǒng)技術(shù)架構(gòu)
1.2.1數(shù)據(jù)來源說明
數(shù)據(jù)來源主要有應(yīng)用系統(tǒng)數(shù)據(jù)源(如ERP、CRM等),具
體數(shù)據(jù)包括基站設(shè)備、維護人員、備用電池等數(shù)據(jù)。絕大部
分數(shù)據(jù)可以加載到mysql數(shù)據(jù)庫中。
經(jīng)過數(shù)據(jù)源及其質(zhì)量分析后,分別從各業(yè)務(wù)應(yīng)用系統(tǒng)及一
些外部數(shù)據(jù)源中獲取數(shù)據(jù)。然后將系統(tǒng)從源系統(tǒng)采集業(yè)務(wù)源
數(shù)據(jù)進行數(shù)據(jù)校驗、清洗、計算、匯總、分類。
對于**郵政外部數(shù)據(jù)源,需要綜合考慮數(shù)據(jù)獲取的方式、
頻率、內(nèi)容等多方面因素,可以適當考慮選擇開源的工具。
如網(wǎng)頁數(shù)據(jù),可以參考使用數(shù)據(jù)網(wǎng)頁爬取器把互聯(lián)網(wǎng)上有價
值的網(wǎng)頁都抓取下來。
1.2.2系統(tǒng)架構(gòu)設(shè)計
對于用戶提出郵政大數(shù)據(jù)平臺主要分成六大部分,因為從
功能上有部分的重疊,我們建議在系統(tǒng)解決放案在結(jié)構(gòu)上分
為數(shù)據(jù)獲取層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層(含數(shù)據(jù)集市、經(jīng)
營分析、決策支持、數(shù)據(jù)分析與挖掘)、數(shù)據(jù)管控以及數(shù)據(jù)
可視化層五個層次架構(gòu)。如下圖所示:
數(shù)據(jù)可視化
圖表展示肯理員駕駛艙可視化交互地圖展示移動展示大屏展示
數(shù)據(jù)倉庫
經(jīng)營分析與決策支持
數(shù)據(jù)集市
數(shù)據(jù)分析與臃量收系統(tǒng)功能歷史報表OLAP即席查詢
中
國結(jié)構(gòu)化窈理
郵數(shù)磔市耳繆2合財務(wù)M麗稗其它
政
系統(tǒng)數(shù)據(jù)管控平臺
大ClouderaHadoop
SAPHANA內(nèi)存計埼
熱
數(shù)HBASEHIVESPARK
高并發(fā)處理
數(shù)
據(jù)實時常詢枇彩淅交互式Voc?
據(jù)
后臺^實時分析
平
臺MAPREDUCETfARN
結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)實時數(shù)據(jù)
HDFS文件系統(tǒng)
數(shù)據(jù)標度管理
采集加工DataServices清洗爬取
數(shù)據(jù)安全管遑
各業(yè)務(wù)18
三?三匚亙□受k號酷外部數(shù)據(jù)
上圖中每個層次的主要功能和使用的產(chǎn)品如下:
■數(shù)據(jù)獲取層:通過ETL工具一SAPDataServices將
原有業(yè)務(wù)系統(tǒng)或者功能性平臺的數(shù)據(jù)抽取到大數(shù)據(jù)
平臺。
■數(shù)據(jù)存儲層:由Hadoop廠商Cloudera的CDH和SAP
HANA共同構(gòu)成,其中CDH用于存儲全量數(shù)據(jù)。在
HadoopHDFS存儲之上,運用HABSE、HIVE、
SPARK等組件,滿足用戶不同分析場景的需求,這
些組件將通過數(shù)據(jù)分析層調(diào)用?;趦?nèi)存的關(guān)系型
數(shù)據(jù)庫一HANA作為熱數(shù)據(jù)管理,主要用于實時和
大規(guī)模、高并發(fā)的復(fù)雜分析場景。
?數(shù)據(jù)分析層:數(shù)據(jù)分析層構(gòu)建在數(shù)據(jù)存儲層之上,
主要利用Hadoop生態(tài)系統(tǒng)的組件以及HANA提供
的數(shù)據(jù)分析能力實現(xiàn)郵政業(yè)務(wù)分析場景,如量收系
統(tǒng)等。數(shù)據(jù)分析層即包含用戶的業(yè)務(wù)應(yīng)用也包含具
體的分析類型,如實時查詢、數(shù)據(jù)挖掘等。
?數(shù)據(jù)管控:在用戶原有的主數(shù)據(jù)、元數(shù)據(jù)平臺上進
行擴展,與大數(shù)據(jù)平臺進行對接,并通過建立數(shù)據(jù)
安全管理策略、梳理數(shù)據(jù)標準等方式逐步完善大數(shù)
據(jù)平臺的數(shù)據(jù)管控功能。
?數(shù)據(jù)可視化層:本方案均采用業(yè)界主流的通用產(chǎn)品,
如ClouderaCDH>HANA等,這些產(chǎn)品支持通用的
數(shù)據(jù)標準以及應(yīng)用接口,為了降低成本、減少工作
量,推薦用戶利用原有Cognos軟件,通過開發(fā)部分
前端界面滿足大數(shù)據(jù)平臺對分析結(jié)果展現(xiàn)的要求。
1.2.3故障派單設(shè)計
郵政網(wǎng)點或服務(wù)基站的設(shè)備故障自動派單是通過平臺監(jiān)
控,對指定故障種類的故障自動生成系統(tǒng)維護工單或者問題
工單,提交相關(guān)運維負責人或者接口人,并發(fā)送相關(guān)通知;
相應(yīng)的接口人對系統(tǒng)自動派發(fā)的工單進行判斷并進行后續(xù)
處理,處理后直接關(guān)閉工單即可;自動派單功能支持派發(fā)人
對工單的轉(zhuǎn)派和回退處理,并填寫相關(guān)處理意見。
總體業(yè)務(wù)流程圖如下:
1.2.4系統(tǒng)硬件和軟件配置方案
1.2.4.1軟件配置方案
產(chǎn)品名稱產(chǎn)品功能描述用途單數(shù)
位量
ClouderaCloudera一個提供全面**大數(shù)據(jù)平臺
Hadoop發(fā)的數(shù)據(jù)存儲和處理引擎核心數(shù)據(jù)存儲
行版的發(fā)行版。它包括了:與處理引擎
HDFS、HBASE、Spark、
YARN、MapReduce、
Hive等處理引擎以及工
具組件
SAPHANASAP基于內(nèi)存的數(shù)據(jù)庫實時數(shù)據(jù)分析
企業(yè)版引擎,并集成了數(shù)據(jù)集成(可用于大規(guī)
工具,高級數(shù)據(jù)分析、數(shù)模交互式查
據(jù)挖掘等功能詢)
SAPHANA構(gòu)建在HANA之上基于實現(xiàn)HANA與
VoraSpark/Hadoop的內(nèi)存查Spark之間的
詢引擎聯(lián)邦數(shù)據(jù)處理
1.2.4.2硬件配置方案
>Hadoop部分
Hadoop集群服務(wù)器按照節(jié)點承擔的任務(wù)分為管理節(jié)點和
工作節(jié)點。管理節(jié)點上一般部署各組件的管理角色,工作節(jié)
點一般部署有各角色的存儲、容器或計算角色。
中國**的大數(shù)據(jù)平臺屬于在線分析業(yè)務(wù)集群:在線分析業(yè)
務(wù)一般基于Spark等MPPSQL引擎,復(fù)雜的SQL計算對內(nèi)
存容量有較高要求,因此需要配置128G甚至更多的內(nèi)存。
管理節(jié)點工作節(jié)點
處理器兩路Intel?至強處理兩路Intel?至強處理
器,可選用E5-2630處器,可選用E5-2650處理
理器器
內(nèi)核數(shù)6核/CPU(或者可選用86核/CPU(或者可選
核/CPU),主頻2.3GHz用8核/CPU),主頻
或以上2.0GHz或以上
內(nèi)存64GBECCDDR3128GB-256GBECC
DDR3
硬盤2個2TB的SAS硬盤(3.512個4TB的SAS硬盤
寸),7200RPM,RAID1(3.5寸),7200RPM,不
使用RAID
網(wǎng)絡(luò)至少兩個lGbE以太網(wǎng)至少兩個lGbE以太
電口,推薦使用光口提網(wǎng)電口,推薦使用光口提
高性能。高性能。
可以兩個網(wǎng)口鏈路聚合可以兩個網(wǎng)口鏈路聚
提供更高帶寬。合提供更高帶寬。
硬件尺1U或2U2U
寸
接入交48口千兆交換機,要求全千兆,可堆疊
換機
聚合交4口SFP+萬兆光纖核心交換機,一般用于50節(jié)點
換機(可以上大規(guī)模集群
選)
1.3關(guān)鍵技術(shù)
1.3.1大數(shù)據(jù)平臺的核心數(shù)據(jù)存儲與處理
分布式文件系統(tǒng)一HDFS
HDFS(HadoopDistributedFileSystem),是一個分布式
文件系統(tǒng)。它具有高容錯性的特點,可以被廣泛的部署于廉
價的PC之上。它以流式訪問模式訪問應(yīng)用程序的數(shù)據(jù),這
大大提高了整個系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類
型、海量的數(shù)據(jù)存儲要求,因而非常適用于日志詳單類非結(jié)
構(gòu)化數(shù)據(jù)的存儲。
HDFS架構(gòu)采用主從架構(gòu)(master/slave)。一個典型的
HDFS集群包含一個NameNode節(jié)點和多個DataNode節(jié)點。
NameNode節(jié)點負責整個HDFS文件系統(tǒng)中的文件的元數(shù)據(jù)
保管和管理,集群中通常只有一臺機器上運行NameNode實
例,DataNode節(jié)點保存文件中的數(shù)據(jù),集群中的機器分別運
行一個DataNode實例。在HDFS中,NameNode節(jié)點被稱為
名字節(jié)點,DataNode節(jié)點被稱為數(shù)據(jù)節(jié)點,DataNode節(jié)點
通過心跳機制與NameNode節(jié)點進行定時的通信。
HDFS可以實現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。HDFS針
對的使用場景是數(shù)據(jù)讀寫具有“一次寫,多次讀”的特征,
而數(shù)據(jù)“寫”操作是順序?qū)?,也就是在文件?chuàng)建時的寫入或
者在現(xiàn)有文件之后的添加操作。HDFS保證一個文件在一個
時刻只被一個調(diào)用者執(zhí)行寫操作,而可以被多個調(diào)用者執(zhí)行
讀操作。其主要特性如下:
?靈活:統(tǒng)一的存儲可以存放結(jié)構(gòu)化,半結(jié)構(gòu)化及非結(jié)構(gòu)
化數(shù)據(jù)
?可擴展:根據(jù)業(yè)務(wù)需要增加PC服務(wù)器實現(xiàn)存儲擴容
?容錯:數(shù)據(jù)有多個副本以保障數(shù)據(jù)的可靠性
?開放:基于開源的存儲格式,避免廠商鎖定
分布式數(shù)據(jù)庫-HBase
HBase是一個高可靠性、高性能、面向列、可伸縮的分布
式存儲系統(tǒng),它利用HadoopHDFS作為其文件存儲系統(tǒng),
利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),利用
Zookeeper作為協(xié)同服務(wù)。HBase不是一個關(guān)系型數(shù)據(jù)庫,
其設(shè)計目標是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的
理論和實現(xiàn)上的局限性。HBase從一開始就是為Terabyte
到Petabyte級別的海量數(shù)據(jù)存儲和高速讀寫而設(shè)計,這些數(shù)
據(jù)要求能夠被分布在數(shù)千臺普通服務(wù)器上,并且能夠被大量
并發(fā)用戶高速訪問。
存儲在HBase中的表的典型特征:
?大表(BigTable):一個表可以有上億行,上百萬列
?面向列:面向列(族)的存儲、檢索與權(quán)限控制
?稀疏:表中為空(null)的列不占用存儲空間
>SQL-on-HBase的支持
ClouderaCDH企業(yè)版支持SQLonHBase特性,支持對數(shù)
據(jù)表建立LocalIndex和GlobalIndex,執(zhí)行速度遠遠超過原
生HBaseAPI,同時提供完善的SQL接口供用戶端使用。
>HBase對象存儲
ClouderaCDH支持HBase的大對象存儲(LOB)功能,
將HBase進化為文檔數(shù)據(jù)庫,特別適合存儲單個大小數(shù)十K
至數(shù)十M的非結(jié)構(gòu)化文檔,即使對于十億級別的LOB文檔
數(shù)據(jù)表仍能做到毫秒級增刪改查操作,同時支持所有HBase
原生特性,與上層HBase應(yīng)用100%兼容。
集群協(xié)調(diào)服務(wù)Zookeeper
ZooKeeper是一個分布式的,開放源碼的分布式應(yīng)用程序
協(xié)調(diào)服務(wù),是Google的Chubby一個開源的實現(xiàn),是Hadoop
和Hbase的重要組件。它是一個為分布式應(yīng)用提供一致性服
務(wù)的軟件,提供的功能包括:配置維護、名字服務(wù)、分布式
同步、組服務(wù)等。ZooKeeper的目標就是封裝好復(fù)雜易出錯
的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系
統(tǒng)提供給用戶。ZooKeeper包含一個簡單的原語集,提供Java
和C的接口。
分布式批處理引擎-MapReduce
MapReduce是Hadoop的核心,是Google提出的一個軟
件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念
“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,
都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的
特性。
當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一
組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(化簡)
函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵
組。
Update
JobStatus
JobTracker
ssigns
HDFS
RPCRead
MapBlocks
Data
Reduce
Datanode
Datanode
Write
Reduce]1jOutput
、\**\—^RPCReadDatanodefiles
?|…°M
HDFS
Datanode
Blocks
SplitsLocalWnte
MapReduce是用于并行處理大數(shù)據(jù)集的軟件框架。
MapReduce的根源是函數(shù)性編程中的imp和reduce函
數(shù)。Map函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個鍵/值對列表,
輸入域中的每個元素對應(yīng)一個鍵/值對。Reduce函數(shù)接受
Map函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。
M叩Reduce起到了將大事務(wù)分散到不同設(shè)備處理的能力,這
樣原本必須用單臺較強服務(wù)器才能運行的任務(wù),在分布式環(huán)
境下也能完成了。
數(shù)據(jù)倉庫組件-Hive
Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供
了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),
這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模
數(shù)據(jù)的機制。Hive定義了簡單的類SQL查詢語言,稱為
HQL,它允許熟悉SQL的用戶查詢數(shù)據(jù)。同時,這個語言
也允許熟悉MapReduce開發(fā)者的開發(fā)自定義的mapper和
reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜
的分析工作。
Hive體系結(jié)構(gòu):
?用戶接口:用戶接口主要有三個:CLLClient和WUL
其中最常用的是CLLCli啟動的時候,會同時啟動一
個Hive副本。Client是Hive的用戶端,用戶連接
至HiveServero在啟動Client模式的時候,需要指
出HiveServer所在節(jié)點,并且在該節(jié)點啟動Hive
ServeroWUI是通過瀏覽器訪問Hive。
?元數(shù)據(jù)存儲:Hive將元數(shù)據(jù)存儲在數(shù)據(jù)庫中,如
mysql、derby。Hive中的元數(shù)據(jù)包括表的名字,表的列
和分區(qū)及其屬性,表的屬性(是否為外部表等),表的
數(shù)據(jù)所在目錄等。
分布式內(nèi)存計算框架-ApacheSpark
ApacheSpark是一個開源的,通用的分布式集群計算引
擎。Spark發(fā)展歷程:
ClouderaSpark是一個開源的,并行數(shù)據(jù)處理框架,能夠
幫助用戶簡單的開發(fā)快速,統(tǒng)一的大數(shù)據(jù)應(yīng)用,對數(shù)據(jù)進行,
協(xié)處理,流式處理,交互式分析等等。Spark具有如下特點:
?快速:數(shù)據(jù)處理能力,比Mapreduce快10-100倍。
?易用:可以通過Java,Scala,Python,簡單快速的編寫
并行的應(yīng)用處理大數(shù)據(jù)量,Spark提供了超過80種高層
的操作符來幫助用戶組件并行程序。
?普遍性:Spark提供了眾多高層的工具,例如Spark
SQL,MLib,GraphX,SparkStreaming,可以在一個應(yīng)
用中,方便的將這些工具進行組合。
?與Hadoop集成:Spark能夠直接運行于Hadoop2.0以
上的集群,并且能夠直接讀取現(xiàn)存的Hadoop數(shù)據(jù)。尤
其,Spark和CDH緊密結(jié)合,可以通過ClouderaManager
部署安裝Spark,并有效管理監(jiān)控Spark集群。
Spark提供了一個快速的計算,寫入,以及交互式查詢的
框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢。Spark
使用in-memory的計算方式,通過這種方式來避免一個
M叩reduce工作流中的多個任務(wù)對同一個數(shù)據(jù)集進行計算時
的10瓶頸。Spark利用Scala語言實現(xiàn),Scala能夠使得處理
分布式數(shù)據(jù)集時,能夠像處理本地化數(shù)據(jù)一樣。
除了交互式的數(shù)據(jù)分析,Spark還能夠支持交互式的數(shù)
據(jù)挖掘,由于Spark是基于內(nèi)存的計算,很方便處理迭代計
算,而數(shù)據(jù)挖掘的問題通常都是對同一份數(shù)據(jù)進行迭代計
算。除此之外,Spark能夠運行于安裝Hadoop2.0Yarn的
集群。之所以Spark能夠在保留Mapreduce容錯性,數(shù)據(jù)本
地化,可擴展性等特性的同時,能夠保證性能的高效,并且
避免繁忙的磁盤IO,主要原因是因為Spark創(chuàng)建了一種叫做
RDD(ResilientDistributedDataset)的內(nèi)存抽象結(jié)構(gòu)。
原有的分布式內(nèi)存抽象,例如key-valuestore以及數(shù)據(jù)
庫,支持對于可變狀態(tài)的細粒度更新,這一點要求集群需要
對數(shù)據(jù)或者日志的更新進行備份來保障容錯性。這樣就會給
數(shù)據(jù)密集型的工作流帶來大量的IO開銷。而對于RDD來說,
它只有一套受限制的接口,僅僅支持粗粒度的更新,例如
map,join等等。通過這種方式,Spark只需要簡單的記錄建
立數(shù)據(jù)的轉(zhuǎn)換操作的日志,而不是完整的數(shù)據(jù)集,就能夠提
供容錯性。這種數(shù)據(jù)的轉(zhuǎn)換鏈記錄就是數(shù)據(jù)集的溯源。由于
并行程序,通常是對一個大數(shù)據(jù)集應(yīng)用相同的計算過程,因
此之前提到的粗粒度的更新限制并沒有想象總的大。事實
上,Spark論文中天闡述了RDD完全可以作為多種不同計算
框架,例如Mapreduce,Pregel等的編程模型。
并且,Spark同時提供了操作允許用戶顯示的將數(shù)據(jù)轉(zhuǎn)
換過程持久化到硬盤。對于數(shù)據(jù)本地化,是通過允許用戶能
夠基于每條記錄的鍵值,控制數(shù)據(jù)分區(qū)實現(xiàn)的。(采用這種
方式的一個明顯好處是,能夠保證兩份需要進行關(guān)聯(lián)的數(shù)據(jù)
將會被同樣的方式進行哈希)。如果內(nèi)存的使用超過了物理
限制,Spark將會把這些比較大的分區(qū)寫入到硬盤,由此來
保證可擴展性。
Spark首先是一個批處理的引擎,下圖給出了一個
Spark批處理的例子,闡述了多個RDD以及操作如何被分組
到不同的轉(zhuǎn)換步驟。
1.3.2基于內(nèi)存計算的關(guān)系型數(shù)據(jù)庫一SAPHANA
1.3.2.1大數(shù)據(jù)量存儲特性
SAPHANA是一個基于行存儲和列存儲,以及對象存儲
的最先進的數(shù)據(jù)庫技術(shù)的混合應(yīng)用,這樣設(shè)計的主要目的是
用來充分挖掘和使用現(xiàn)代多核CPU架構(gòu)設(shè)計所帶來的并發(fā)
處理能力,毫無疑問,企業(yè)應(yīng)用程序能從中受益頗多,SAP
內(nèi)存數(shù)據(jù)庫是整個HANA應(yīng)用的核心組件。
HANA單機服務(wù)器目前支持最大12TB內(nèi)存的單臺服務(wù)
器,當用戶需要分析更多的數(shù)據(jù)時,使用多臺服務(wù)器橫向擴
展的方式,目前測試通過的集群達到100臺總共100TB的內(nèi)
存,支持的原始數(shù)據(jù)量達到PB級別,而且因為HANA采用
的是Sharenothing的體系架構(gòu),理論上是集群沒有上限,所
以HANA對于大數(shù)據(jù)的存儲支持將會非常好,企業(yè)可以根據(jù)
自身的數(shù)據(jù)量將HANA整體可用容量做到按需擴展。
基于列式數(shù)據(jù)庫的天然優(yōu)勢,HANA具有極高的數(shù)據(jù)壓縮
比,取決于用戶實際數(shù)據(jù)的不同,HANA數(shù)據(jù)表具有高達
7-20倍的壓縮率。而且列式存儲基本上可以不用在數(shù)據(jù)庫表
上建索引,這樣可以去掉很大的索引空間。HANA通過先進
的數(shù)據(jù)壓縮功能和列式去索引化特點,可以很好的做到對大
數(shù)據(jù)的有效地存儲。
1.3.2.2性能特性
SAPHANA使用的是內(nèi)存計算技術(shù),數(shù)據(jù)的主要的存儲
和運算都在內(nèi)存中完成,去掉了一直困擾數(shù)據(jù)庫性能的I/O
問題,所以相對傳統(tǒng)的磁盤數(shù)據(jù)庫,天然具備高效計算的優(yōu)
勢。HANA數(shù)據(jù)庫提供靈活的存儲方式,可以針對不同業(yè)務(wù)
符合的類型,采用最適合的存儲方式,例如,在OLTP場景
采用行式存儲,在OLAP場景采用列式存儲。在數(shù)據(jù)倉庫系
統(tǒng)中使用列存儲方式,數(shù)據(jù)列可以按查詢的需要被任意檢
索,避免行式數(shù)據(jù)庫必須一次讀取表中所有列帶來的無謂開
銷。
HANA數(shù)據(jù)庫引擎可以利用服務(wù)器多核處理器的特點,并
行執(zhí)行查詢語句。同樣,在多臺服務(wù)器架構(gòu)下,HANA可以
將查詢語句在多個服務(wù)器上同時運行,以提高系統(tǒng)整體利用
率,加速業(yè)務(wù)響應(yīng)。
1.3.2.3負載均衡特性
SAPHANA在多機運行的情況下,采用的是分布式計算
的理論,有著比較經(jīng)典的MapReduce的特點,可以將大數(shù)
據(jù)塊以非常智能的算法拆分成小數(shù)據(jù)塊,分布在不同的機器
上進行負載均衡,充分發(fā)揮多機和多核的特點,并行計算來
達到一個很好的計算性能。
目前,SAPHANA的研發(fā)過程中和硬件合作伙伴保存了
非常緊密的協(xié)作,整體的體系架構(gòu)基于IntelX處理器平臺支
持多服務(wù)器、多處理器的高效并行處理。首先在底層開發(fā)中,
Intel為SAP提供專門的開發(fā)包,讓HANA的應(yīng)用能夠最高
效、充分的利用多處理器的并發(fā)能力。HANA在應(yīng)用層的架
構(gòu)設(shè)計上也能夠?qū)?shù)據(jù)處理和運算拆分并部署到多個處理
器。例如計算引擎可以將數(shù)據(jù)模型拆解,將一些SQL腳本拆
分成可以并行執(zhí)行的步驟。這些操作將遞交給數(shù)據(jù)庫優(yōu)化器
來決定最佳的訪問行存儲和列存儲的方案。
高可靠性
SAPHANA支持帶有failover節(jié)點的高可用性解決方案。
當集群中有一臺機器節(jié)點因為硬件故障或其他原因不能工
作的時候,系統(tǒng)中的主節(jié)點會監(jiān)測到故障節(jié)點發(fā)生的位置并
指定另一臺備用(Standby)節(jié)點來接替故障節(jié)點的工作,來達
到集群系統(tǒng)的穩(wěn)定運行。如下圖所示,節(jié)點A,B,C都為
系統(tǒng)中的工作節(jié)點,而A節(jié)點充當了主節(jié)點的功能,三個節(jié)
點都是共享的數(shù)據(jù)區(qū),只有工作節(jié)點A和B有自己的數(shù)據(jù)區(qū),
當B節(jié)點出現(xiàn)故障的時候,主節(jié)點A會監(jiān)測到B節(jié)點的故
障,然后啟用C節(jié)點來工作并接替B節(jié)點的數(shù)據(jù)區(qū),來達到
系統(tǒng)的穩(wěn)定運行的目的。
當然,目前在HANA的集群系統(tǒng)中,可以有多個主節(jié)點,
所以如果在下圖場景中如果A節(jié)點出現(xiàn)故障的時候,B節(jié)點
也可以接替主節(jié)點的功能并完成如下一系列的系統(tǒng)的調(diào)度
工作,最終使整個系統(tǒng)能一直穩(wěn)定地處于運行狀態(tài),給企業(yè)
提供一個企業(yè)級的應(yīng)用和服務(wù)。
目前SAPHANA已認證通過的節(jié)點有56個(每臺機器最
多1TB內(nèi)存),測試通過的節(jié)點達到100個,這樣通過大比
率的數(shù)據(jù)壓縮比,HANA能支撐的原始數(shù)據(jù)量將會非常大。
而且目前SAPHANA中的工作節(jié)點和備節(jié)點的數(shù)量是可以
自由調(diào)配的,這樣可以不滿足不同的企業(yè)對高性能的需求。
1.3.2.5可擴展性
SAPHANA支持縱向和橫向的擴展,靈活的滿足由于數(shù)
據(jù)量,并發(fā)用戶數(shù)查詢負荷增加帶來的擴展性需求。
在服務(wù)器硬件配置不能滿足業(yè)務(wù)需要的情況下,可以通過
增加服務(wù)器CPU,內(nèi)存的方式實現(xiàn)縱向擴展。
在單臺服務(wù)器硬件無法繼續(xù)擴展的情況下,可以通過多臺
服務(wù)器組成一個大的服務(wù)器集群的方式,實現(xiàn)系統(tǒng)橫向擴
展。
1.4技術(shù)方案優(yōu)勢
1.4.1方案整體優(yōu)勢
全球領(lǐng)先的技術(shù)產(chǎn)品
Cloudera成立于2008年,由來自如于Google、Yahoo>
Oracle和Facebook的技術(shù)高管聯(lián)手創(chuàng)立。Cloudera是全球第
一個企業(yè)級ApacheHadoop產(chǎn)品和服務(wù)提供商,無論在產(chǎn)品、
專業(yè)服務(wù)、技術(shù)支持和培訓方面都處于明顯的業(yè)界領(lǐng)袖地
位。Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)
系統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢
獻量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,
Cloudera對Hadoop開放社區(qū)的代碼貢獻度高達40%以上,
是無可爭議的Hadoop開源領(lǐng)導(dǎo)廠商。
CDH(ClouderaDistributedHadoop)是Cloudera基于
ApacheHadoop的發(fā)行版本版本。除了提供Hadoop的核心
組件以外,CDH是唯一一個提供全面的數(shù)據(jù)存儲和處理引擎
的發(fā)行版。
在整個商業(yè)化的Hadoop領(lǐng)域,Cloudera無論是從產(chǎn)品的
更新速度、技術(shù)支持、周邊生態(tài)系統(tǒng)等方面都由于其它
Hadoop產(chǎn)品。選擇ClouderaCDH對**項目最終能夠成功提
供了極大的保障。
SAPHANA是一個內(nèi)存數(shù)據(jù)庫,將數(shù)據(jù)處理、分析數(shù)據(jù)
處理以及業(yè)務(wù)邏輯處理功能組合至內(nèi)存中,突破了傳統(tǒng)關(guān)系
型數(shù)據(jù)庫諸多性能限制,同時通過高度可擴展的MPP架構(gòu),
HANA可以輕松支持大數(shù)據(jù)場景。
TheForresterWave:《2015年第三季度大數(shù)據(jù)預(yù)測分析解
決方案》報告中,SAP被評為該領(lǐng)域的領(lǐng)軍企業(yè)。此次評
選活動中,SAP憑借強大的架構(gòu)和戰(zhàn)略被譽為市場領(lǐng)導(dǎo)者。
據(jù)相關(guān)消息稱,SAP將SAPHANA內(nèi)存計算平臺作為產(chǎn)品
的核心平臺,這使其在眾多競爭對手中脫穎而出、拔得頭籌
Forrester研究中的亮點
?“SAP內(nèi)存數(shù)據(jù)庫技術(shù)開始得到市場的認可-
NoelYuhanna,Forrester
?SAPHANA平臺在策略和現(xiàn)階段能力的評分都得
到了最高
■SAP是唯一一個在遠見得到滿分的公司
■SAP是唯一一個在數(shù)據(jù)管理和交易能力方面得到
滿分的公司
?SAP還在其他方面得到了滿分,其中包括執(zhí)行,
市場表現(xiàn),合作伙伴,分析能力等
Strong
ChallengersContendersPerformersLeaders
Forrester2015年第三季度內(nèi)存計算平臺內(nèi)存wave報告
在平臺集成工具方面,除了可以利用Cloudera的Sqoop外,
與HANA集成到一起的還包括了SAPBusinessobjectsData
Services工具,DataServices是當今市場上效率和擴展性最高
的數(shù)據(jù)集成平臺之一。它使企業(yè)能夠方便地、隨時隨地抽取、
清洗、轉(zhuǎn)換和裝載數(shù)據(jù)。DataServices有利于確保BI最終用
戶總是能掌握及時、準確、可靠的信息。
Hadoop與關(guān)系型數(shù)據(jù)庫的完美結(jié)合
隨著**原有數(shù)據(jù)倉庫數(shù)據(jù)的格式也越來越多越來越復(fù)雜。
單一依靠傳統(tǒng)數(shù)據(jù)庫很將趨于瓶頸。而綜合使用Hadoop生
態(tài)系統(tǒng)組件產(chǎn)品能夠很好的解決這一問題。其底層的分布式
文件系統(tǒng)具有高拓展性,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提
交計算效率,同時可以存儲各種格式的數(shù)據(jù)。同時其還支持
多種計算框架,既可以進行離線計算也可以進行在線實時計
算。
Hadoop生態(tài)系統(tǒng)環(huán)境提供了一系列組件支持大數(shù)據(jù)平臺
應(yīng)用場景,其中,數(shù)據(jù)存儲方面主要提供三種存儲和應(yīng)用方
式,即Hbase,Hive,Sparko其中三者都是基于底層的hdfs
分布式文件系統(tǒng)。hive重點是sql-batch查詢,海量數(shù)據(jù)的統(tǒng)
計類查詢分析,而Spark的重點是ad-hoc和交互式查詢。hive
和Spark都可以看作是基于OLAP模式的。而Hbase庫是支
撐業(yè)務(wù)的CRUD操作,各種業(yè)務(wù)操作下的處理和查詢。
Hadoop在大數(shù)據(jù)平臺場景的優(yōu)勢是在超大規(guī)模數(shù)據(jù)集
里,Hadoop及其生態(tài)組件非常適用于批量操作(如數(shù)據(jù)處理、
匯總等)、明細查詢(利用Hbase)>OLAP查詢(在并發(fā)不
高的情況下)、統(tǒng)計分析(如各種業(yè)務(wù)指標的計算)。但是,
通過對**業(yè)務(wù)的了解,無論在**郵政服務(wù)信息平臺還是在綜
合分析平臺中都存在著大量大規(guī)模復(fù)雜的實時查詢需求,而
這些場景恰恰是傳統(tǒng)關(guān)系型數(shù)據(jù)庫擅長的。結(jié)合數(shù)據(jù)倉庫業(yè)
務(wù)遷移的需求,我們認為應(yīng)該綜合利用Hadoop與關(guān)系型數(shù)
據(jù)庫的技術(shù),發(fā)揮二者優(yōu)勢。在關(guān)系型數(shù)據(jù)庫中,我們推薦
使用基于最新內(nèi)存計算技術(shù)的產(chǎn)品一SAPHANA。
SAPHANA是一個軟硬件結(jié)合體,提供高性能的數(shù)據(jù)查
詢功能,用戶可以直接對大量實時業(yè)務(wù)數(shù)據(jù)進行查詢和分
析,而不需要對業(yè)務(wù)數(shù)據(jù)進行建模、聚合等。
為了解決HANA中存儲數(shù)據(jù)有限的問題,我們弓I入了SAP
HANAVora,SAPHANAVora是一款全新的內(nèi)存查詢引擎,
通過利用并延展ApacheSpark運行框架,在Hadoop上提供
更豐富的交互式分析功能。
SAPHANAVora運用在**大數(shù)據(jù)平臺主要的優(yōu)勢在于:
SAPHANAVora橫跨Hadoop、SAPHANA>Spark等多個平
臺,將成為HANA與Hadoop的橋梁,把HANA的分析能力
搬到Hadoop上,而不再需要在Hadoop和HANA之間不停
地移動數(shù)據(jù)?;贛ap-Reduce模式的Hadoop擅長數(shù)據(jù)批處
理,但不是特別符合即時查詢的場景。通過聯(lián)機分析處理
(OLAP)方法,SAPHANAVora可以幫助開源框架更好地
理解商業(yè)語言,將SAP在內(nèi)存計算上的經(jīng)驗帶給Hadoop生
態(tài)圈。借助SAPHANAVora,SAP將在Hadoop領(lǐng)域拓展新
生態(tài)。而SAP大數(shù)據(jù)生態(tài)圈的擴大也將為合作伙伴帶來新的
發(fā)展機會,幫助他們打造更具競爭力的差異化解決方案。
更高的性能
Hadoop性能提升
Hadoop使用專門為分布式計算設(shè)計的文件系統(tǒng)HDFS,
計算的時候只需要將計算代碼推送到存儲節(jié)點上,即可在存
儲節(jié)點上完成數(shù)據(jù)本地化計算,Hadoop中的集群存儲節(jié)點
也是計算節(jié)點。通過在架構(gòu)方面的精心設(shè)計以及利用適合的
工具滿足各個業(yè)務(wù)場景,Hadoop的部署能夠取得非常好的性
能
?高性能:具有和目前領(lǐng)先的MPP數(shù)據(jù)庫有匹配的性能,
比Apahcehive/Stinger快10T00倍
?Spark提供了一個快速的計算,寫入,以及交互式查詢
的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢。
Spark使用in-memory的計算方式,通過這種方式來避
免一個Mapreduce工作流中的多個任務(wù)對同一個數(shù)據(jù)
集進行計算時的10瓶頸。Spark利用Scala語言實現(xiàn),
Scala能夠使得處理分布式數(shù)據(jù)集時,能夠像處理本地
化數(shù)據(jù)一樣。
HANA的高性能
HANA代表著下一代企業(yè)級運算,這一點在數(shù)據(jù)庫技術(shù)
上尤為突出。它是針對實時分析和應(yīng)用的現(xiàn)代數(shù)據(jù)平臺。它
能讓組織實時分析大量而又冗雜的數(shù)據(jù),同時在真正意義上
實時避免延時和減少OLTP和OLAP之間的層次交流。
HANA的優(yōu)勢在于它是一套緊密集成的系統(tǒng),實現(xiàn)了不同組
成部份之間的良好交互和系統(tǒng)整合優(yōu)化。無論向上還是向外
擴展,HANA對所有部份,如OLTP,OLAP(業(yè)務(wù)以及存儲業(yè)
務(wù)),文字,計劃和純應(yīng)用開發(fā)都能實現(xiàn)良好的承接。通過
HANA,簡易的部署不再是夢想,沒有主機動物園(虛擬主
機),沒有內(nèi)部同步,沒有物化聚集,更沒有一堆的引擎!
SAPHANA能向外擴展無限的內(nèi)核/節(jié)點,并減少硬件開
銷。HANA是建立在新架構(gòu)典范上的純內(nèi)存數(shù)據(jù)庫??紤]到
所有的數(shù)據(jù)庫都是在內(nèi)存中,所以HANA不緩存數(shù)據(jù)。具備
世界級的查詢優(yōu)化器,能輕易實現(xiàn)大規(guī)模并行查詢的操作,
包括運算符內(nèi)部和運算符之間的并行查詢(interand
intra-operatorparallelism)。
SAPHANA將所有數(shù)據(jù)以整體形式存儲在列中。另外還
采取了發(fā)展中的向量運算處理器(CPUdevelopmentsin
vectoroperations)這類英特爾最新的優(yōu)勢技術(shù)進行了優(yōu)化。
SAPHANA的前瞻性架構(gòu)(next-generationarchitecture)和
芯片級創(chuàng)新(chiplevelinnovations)使它遠遠超越了市場上
的任何競爭對手。
**公司早在2012年就運用SAPHANA技術(shù)進行了一系
列性能測試,當時基于**郵政服務(wù)信息平臺中的網(wǎng)運和報刊
中出現(xiàn)性能瓶頸的報表在SAPHANA中進行了加速,在兩個
場景中HANA的運算能力較目前正在使用的Teradata以及
Oracle查詢性能分別提升了400多倍和千倍以上。此測試結(jié)
果得到了**相關(guān)技術(shù)負責人的高度認可。
1.4.1.4系統(tǒng)的開放性
傳統(tǒng)單一軟件供應(yīng)商、單一硬件平臺的組合方式以不再
適用于大型國有化集團的大數(shù)據(jù)平臺。大數(shù)據(jù)平臺在設(shè)計時
應(yīng)充分考慮到平臺的開放性與可移植性。
Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)
系統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢
獻量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,
是無可爭議的Hadoop開源領(lǐng)導(dǎo)廠商。
Cloudera的CDH是100%的開源解決方案,并且完全和
Hadoop開源社區(qū)保持一致,CDH可以算是Hadoop領(lǐng)域事實
上的標準版,其他任何國內(nèi)外廠商的Hadoop發(fā)行版就算要
增加一些私有特性,首先也需要保證和CDH的100%兼容,
因此用戶使用CDH不會擔心被特定廠商綁架,隨時擁有自
由選擇的能力。
SAPHANA作為通用的關(guān)系型數(shù)據(jù)庫軟件產(chǎn)品,具有很
強的硬件兼容能力,能夠搭建在業(yè)界主流十余家主流廠商的
PC服務(wù)器平臺之上。而且,為了保證系統(tǒng)的性能,SAP與
這些硬件廠商采用聯(lián)合認證的模式,推薦使用固定的配置以
為用戶提供更高的品質(zhì)。
1.4.1.5豐富的用戶案例
作為開源Hadoop技術(shù),以及內(nèi)存技術(shù)的最主流品牌,
ClouderaCDH與SAPHANA在國內(nèi)外都有著廣泛的大型用
戶案例。
Cloudera在國內(nèi)大型企業(yè)的項目案例包括:銀聯(lián)大數(shù)據(jù)平
臺、湖南移動CDR平臺、北京聯(lián)通CDR平臺、上海電信等。
SAPHANA從2011年發(fā)布以來在全球范圍內(nèi)積累了上萬
家用戶,僅在中國就有近千家用戶在使用SAPHANA,其中
不乏大型企業(yè)的數(shù)據(jù)倉庫系統(tǒng)和大數(shù)據(jù)平臺:如中國石油、
中石化、華能集團、海關(guān)總署、中國核工業(yè)集團公司、聯(lián)想、
福建電力等。
值口Aptargroup/Zubx*YPS<i>MEOnidlstniun'<MSIG
MOKIARAINBOW“MUKA'&也心
BMDnGIVAICONKg.Monen*
B^*~,JABIL-CHEMCHINA
.,j—■■,—■R—m—?>一ITERGO
UICRNHUxtataMS
j,J?W"ri.一..Wl1""IBCM^RK9gHMu
FaC乜'rtfood,V9rtzan,\ITImBstueiHANIELa?
1tMm,ff------JX”provimi
,一==adidas.皿.^fLi—6J:TRO'MW
DEEB""'
萬cszaOBi2篇”,mexichem
G囪KARSTADT.de
以jpernoeitASLSI-jow>c$c第力Q
?/MTTBUI?CO.ITO
什
HunlerDouglas^GOLDCORP騏一回駟煙9
voest<iioineTRIM、F
人MiMitNiiCnpcntin
Kubota停壬LTA&'.】3ABHIJe=T
帆盛Pan也
G33?EKIWueVo^coSfornio
Tram^luQBD■「1?足TAnnsMixraus-
TRr^ergy史南節(jié)..PUIG
。JOHNDEERE巨o-fCOMHra瞰”“
,
MICROS,AAW1AV/V,ILf.r*wf*—*■"/fConce-9"'~儂空3E^
ESSAR1"3cCODdDGi中
Agrium@A'i”?ma(J<M?YKXXUNNOCSEUIChuaghwT?<?conFERROUS
1.4.2產(chǎn)品優(yōu)勢
領(lǐng)先的Hadoop品牌一ClouderaCDH
>完全開源開放,避免被私有閉源平臺綁架
Cloudera自2008年成立以來,專注于Hadoop全球生態(tài)系
統(tǒng)的建設(shè),主導(dǎo)了最多Hadoop模塊的開發(fā)工作,代碼貢獻
量,bug修復(fù)數(shù)量,Hadoopcommitter數(shù)量穩(wěn)居全球首位,
是無可爭議的Hadoop開源領(lǐng)導(dǎo)廠商。
Cloudera的CDH是100%的開源解決方案,并且完全和
Hadoop開源社區(qū)保持一致,CDH可以算是Hadoop領(lǐng)域事實
上的標準版,其他任何國內(nèi)外廠商的Hadoop發(fā)行版就算要
增加一些私有特性,首先也需要保證和CDH的100%兼容,
因此用戶使用CDH不會擔心被特定廠商綁架,隨時擁有自
由選擇的能力。
>業(yè)內(nèi)最完整的Hadoop堆棧
ClouderaCDH企業(yè)版包括分布式存儲、數(shù)據(jù)庫、SQL引
擎、機器學習引擎、全文檢索、實時流處理、分布式數(shù)據(jù)總
線服務(wù)、ETL工作流引擎、內(nèi)存計算引擎、元數(shù)據(jù)生命周期
管理、統(tǒng)一多層次安全模塊、平臺管理、云平臺自動部署等
企業(yè)級Hadoop軟件模塊,在企業(yè)級解決方案完整性方面已
超越其他Hadoop廠商,向傳統(tǒng)數(shù)據(jù)庫巨頭看齊。
ClouderaCDH采用周期性更新升級的方式,以最快的速
度整合開源社區(qū)的最新成果,一般最新的開源Hadoop版本
發(fā)布后,CDH會在2至3個月內(nèi)提供新版本整合,這一速度
超過全球絕大多數(shù)Hadoop廠商。
>業(yè)內(nèi)最廣泛的合作伙伴生態(tài)圈
Cloudera作為Hadoop生態(tài)環(huán)境的領(lǐng)導(dǎo)者,擁有業(yè)內(nèi)最廣
泛的生態(tài)環(huán)境支持,大多第三方工具首先會提供對CDH的
兼容,然后才會擴展到其他Hadoop發(fā)行版,CDH與各個主
流的數(shù)據(jù)庫廠商,包括Oracle,TeraData,IBM,MongoDB
等,各個主流的ETL工具,Informatica,Pentahoo,各種可
視化工具,如Tableau,ZoomData等都具有官方的雙向全面
認證支持,這種官方認證支持意味著這些軟件的新功能都能
保證和CDH兼容,如果只是單方面宣稱支持Tableau等工具,
不能保證100%的兼容性。
數(shù)百家與ClQudera官方互相認證的第三方合作伙伴
informatica攆+ableau-
Access,ingest,transform,andQuicklyconnecttoHadoopforEnablingnewbusiness
cleansealldataonHadoopad-hocvisualizationsofyourinsightsfromenterprise
withavisualdevelopmentdatatofindpatternsand
environmentoutliers
DEVOLUTION
§sasIK.ANALYTICS
RunleadinganalyticalsystemsDeliverRpoweredadvanced
nativelyonHadooptogetpredictiveanalyticstoHadoop
insightsfromalldataforbetterdatamodeling
>國內(nèi)外最多商業(yè)部署案例
Cloudera擁有超過1000家大型用戶和1000多家合作伙
伴,業(yè)務(wù)遍及全球,大部分用戶都是全球500強的大型企業(yè),
同時CDH也是目前全球最流行的Hadoop發(fā)行版,具有最廣
泛的影響力和各行各業(yè)廣泛的實施案例。
Cloudera在國內(nèi)也擁有許多大型的實施案例,包括農(nóng)行,
中國銀聯(lián),廣東移動,招商銀行等利用CDH部署了數(shù)百個
節(jié)點的大型集群,Cloudera中國團隊的前身為IntelHadoop
中國團隊,在國內(nèi)擁有豐富的Hadoop項目實施經(jīng)驗。
AllstateEQfjiFAxMorganStanleyFICOOS
金融Experianstripeepsilon
AlcatelLucent中etaMyMOKIA
電1口Q)*?******■"QMortwocAMGM/rvQUALCOMMAMDn
卓越的實時計算引擎一SAPHANA
中國**大數(shù)據(jù)平臺主要運用Hadoop技術(shù)以及外圍的組
件實現(xiàn)企業(yè)內(nèi)部信息的分析、預(yù)測和挖掘等功能,但對于兼
具大規(guī)模并發(fā)、復(fù)雜的實時分析場景,Hadoop方案效率并不
能滿足用戶需求,這種場景下,我們建議使用基于內(nèi)存計算
技術(shù)的關(guān)系型數(shù)據(jù)庫一SAPHANAo
SAPHANA平臺實現(xiàn)了數(shù)據(jù)處理中新的業(yè)務(wù)途徑。事實
上,它遠遠超過了數(shù)據(jù)庫的傳統(tǒng)定義,并且其性質(zhì)遠不只是
內(nèi)存中磁盤數(shù)據(jù)結(jié)構(gòu)上的本地緩存。SAPHANA概念圖如下
圖所示:
AnyAppsSAPBusinessSuite
AnyAppServerandBWABAPAppServer
SQLMDXRJSONOpenConnectivity
SupportsanyDevice
SAPHANA平臺集成了數(shù)據(jù)庫、數(shù)據(jù)處理、應(yīng)用平臺功能,并且提
供預(yù)測分析、計劃、文本處理、地理空間信息處理和業(yè)務(wù)分析函數(shù)庫,
幫助企業(yè)和機構(gòu)實時營運業(yè)務(wù)
SAPHANA,首先也是最重要的是,它集成了一個完整的
數(shù)據(jù)庫管理系統(tǒng)(DBMS):使用標準的SQL接口、事務(wù)的
隔離和恢復(fù)(ACID[原子性,一致性,隔離性,耐久性D性
能和高可用性。SAPHANA支持ANSISQL92。使用Open
SQL的SAP應(yīng)用程序可以在SAPHANA平臺上運行,而不
用改變。HANA的開放性使得其比較適合于大數(shù)據(jù)平臺場
景。
>純內(nèi)存計算
內(nèi)存作為主存儲,不再僅作為數(shù)據(jù)庫的緩存。與Hadoop
的Spark將中間結(jié)果集緩存至內(nèi)存不同,HANA的數(shù)據(jù)全部
存儲在內(nèi)存中,完全不受磁盤交換的限制。另外HANA所有
的計算基于內(nèi)存中的明細數(shù)據(jù),不需要再存放冗余的匯總數(shù)
據(jù),數(shù)據(jù)庫性能較傳統(tǒng)數(shù)據(jù)庫有本質(zhì)提升。
而且HANA采用的是基于內(nèi)存計算的關(guān)系型數(shù)據(jù)庫技術(shù),
其在大規(guī)模并發(fā)查詢和復(fù)雜的分析計算時性能方面較開源
技術(shù)有一定優(yōu)勢??梢耘cHadoop產(chǎn)品結(jié)合使用,發(fā)揮各自
優(yōu)勢。
>并行數(shù)據(jù)流計算模型
為了直接利用大規(guī)模并行多核處理器,SAPHANA對SQL
的處理指令進行管理,使之成為一個優(yōu)化的模型,從而允許
并行執(zhí)行,并極大地擴展了內(nèi)核的數(shù)量。這種優(yōu)化包括分區(qū)
中的數(shù)據(jù)部分,在這些分區(qū)中計算可以并行執(zhí)行。SAPHANA
支持不同主機上的分布。為了由多個主機并行處理,大表可
能進行分區(qū)。
下圖總結(jié)了英特爾團隊與SAP合作執(zhí)行的規(guī)模測試結(jié)果o
測試表明了規(guī)模是接近線性的。使用雙核的處理時間為16.8
秒,使用32內(nèi)核提高到了1.4秒。超線程增加了一個額外的
20%的改善。
在64核的SAPHANA?on4SNelialem-EX(2.26GHz)聯(lián)接TPC-H數(shù)據(jù)集(120.000.000.000條記錄)
1248163264
線程數(shù)
>應(yīng)用邏輯擴展
特定應(yīng)用程序的邏輯延伸了并行數(shù)據(jù)流的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025貴州遵義市桐梓縣招聘公益性崗位人員19人(第三批)參考考試題庫及答案解析
- 2025年銅川市殯葬管理處招聘參考筆試題庫及答案解析
- 2025四川宜賓市南溪區(qū)事業(yè)單位考核招聘高層次和急需緊缺專業(yè)人才42人備考考試試題及答案解析
- 2025年山東勞動職業(yè)技術(shù)學院公開招聘人員(8人)模擬筆試試題及答案解析
- 2025廣東深圳市眼科醫(yī)院招聘6人備考筆試題庫及答案解析
- 2025貴州貴陽市公安機關(guān)招聘第三批警務(wù)輔助人員274人模擬筆試試題及答案解析
- 2026年度遼寧省公安機關(guān)特殊職位考試錄用公務(wù)員91人參考筆試題庫及答案解析
- 2025西藏阿里地區(qū)民政局招聘1人備考考試題庫及答案解析
- 2025年臺州臨海市公辦中小學公開招聘編外聘用人員38人備考筆試題庫及答案解析
- 2026廣東東莞市公安局招聘普通聘員162人參考筆試題庫及答案解析
- 2025年高中政治教師資格證面試試題及答案解析歸總(結(jié)構(gòu)化+試講)
- 《社會創(chuàng)業(yè):理論與實踐》課件(上)
- 全柴修車知識培訓課件
- 四川會考物理試卷真題及答案
- 醫(yī)療器械安裝方案及操作規(guī)范
- 金屬粉塵(如鋁粉、銅粉)爆炸應(yīng)急預(yù)案(若涉及)
- 重慶煙花炮竹安全培訓課件
- 人文關(guān)懷面試題庫及答案
- 幼兒園中班數(shù)學《小動物乘火車》課件
- 【數(shù)學】2025年高考數(shù)學試題分類匯編-概率與統(tǒng)計(選擇題)
- DB37T 1914-2024 液氨存儲與裝卸作業(yè)安全技術(shù)規(guī)范
評論
0/150
提交評論