版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、H3C大數(shù)據(jù)產品技術白皮書杭州華三通信技術有限公司2020年10月目 錄1H3C大數(shù)據(jù)產品介紹11.1產品簡介11.2產品架構11.2.1 數(shù)據(jù)處理21.2.2 數(shù)據(jù)分層31.3產品技術特點4先進的混合計算架構4高性價比的分布式集群4云化ETL4數(shù)據(jù)分層和分級存儲5數(shù)據(jù)分析挖掘5數(shù)據(jù)服務接口5可視化運維管理51.4產品功能簡介6管理平面功能:6業(yè)務平面功能:62DataEngine HDP核心技術83DataEngine MPP Cluster核心技術83.1MPP + Shared Nothing架構83.2核心組件93.3高可用103.4高性能擴展能力103.5高性能數(shù)據(jù)加載113.6OL
2、AP函數(shù)123.7行列混合存儲1220 / 23文檔可自由編輯1 H3C大數(shù)據(jù)產品介紹1.1 產品簡介H3C大數(shù)據(jù)平臺采用開源社區(qū)Apache Hadoop2.0和MPP分布式數(shù)據(jù)庫混合計算框架為用戶提供一套完整的大數(shù)據(jù)平臺解決方案,具備高性能、高可用、高擴展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性價比的通用計算存儲能力。H3C大數(shù)據(jù)平臺提供數(shù)據(jù)采集轉換、計算存儲、分析挖掘、共享交換以及可視化等全系列功能,并廣泛地用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)幫助用戶構建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內在價值。1.2 產品架構H3C大數(shù)據(jù)平臺包含4個部分:第一部分是運維管理,包括:安裝部署、配置管
3、理、主機管理、用戶管理、服務管理、監(jiān)控告警和安全管理等。第二部分是數(shù)據(jù)ETL,即獲取、轉換、加載,包括:關系數(shù)據(jù)庫連接Sqoop、日志采集Flume、ETL工具 Kettle。第三部分是數(shù)據(jù)計算。MPP采用分析型分布式數(shù)據(jù)庫,存儲高價值密度的結構化數(shù)據(jù);Hadoop存儲非結構化/半結構化數(shù)據(jù)和低價值密度結構化數(shù)據(jù)。計算結果都存到數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中的數(shù)據(jù)可直接用于分析和展示。數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的且隨時間不斷變化的數(shù)據(jù)集合,用以支持經營管理中的決策制定過程。第四部分數(shù)據(jù)服務,包括:機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、數(shù)據(jù)可視化、即席分析、SQL和API,為應用層提供服務和中間件調用。第
4、1章1.11.21.2.1 數(shù)據(jù)處理對于大數(shù)據(jù)管理平臺,應該建立一套標準化、規(guī)范化的數(shù)據(jù)處理流程,例如:如何采集內部和外部數(shù)據(jù)、結構化和非結構化數(shù)據(jù);如何清洗采集來的臟數(shù)據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進行打通;如何對非結構化的數(shù)據(jù)進行結構化加工;如何在結構化數(shù)據(jù)的基礎上進行商業(yè)建模和數(shù)據(jù)挖掘等等。大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構建了一條完整的大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無章的數(shù)據(jù)加工成結構化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應用來拼裝調用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產的能力。1.2.2 數(shù)據(jù)分層l ODS層:數(shù)據(jù)來源于各生產系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進行編碼
5、替換和數(shù)據(jù)清洗轉換,不做關聯(lián)操作。未來也可用于準實時數(shù)據(jù)查詢。l 輕度匯總層:主題域內部基于明細層數(shù)據(jù),進行多維度的、用戶級的匯總l 明細數(shù)據(jù)層:主題域內部進行拆分、關聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進行的拆分及合并。l 信息子層:報表數(shù)據(jù)、多維數(shù)據(jù)、指標庫等數(shù)據(jù)來源于匯總層。匯總層:主題域之間進行關聯(lián)、匯總計算。匯總數(shù)據(jù)服務于信息子層,目的是為了節(jié)約信息子層數(shù)據(jù)計算成本和計算時間。l 應用層:應用系統(tǒng)的私有數(shù)據(jù),應用的業(yè)務數(shù)據(jù)。精細化營銷做為大數(shù)據(jù)平臺的一個上層應用,由大數(shù)據(jù)平臺提供數(shù)據(jù)支撐。1.3 產品技術特點第1章1.1先進的混合計算架構 采用Hadoop和MPP融合技術架構,
6、對半結構化和非結構化數(shù)據(jù)支持并行計算和低成本存儲,提供低時延、高并發(fā)的查詢和分析功能;對結構化數(shù)據(jù)采用MPP分布式列存儲,支持分布式計算、智能索引等功能,實現(xiàn)高性能結構化數(shù)據(jù)分析處理。集成MapReduce、Spark、Storm、Tez等多種計算框架,利用YARN資源管理做統(tǒng)一管理,可在同一份數(shù)據(jù)集上運行多種計算。離線計算、內存計算和流式計算并存,能滿足高吞吐、大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。高性價比的分布式集群 基于x86服務器本地的計算與存儲資源,計算集群可以動態(tài)調整,從數(shù)臺到數(shù)千臺之間彈性擴展,按需構建應用,減少總體成本;同時,在設計時充分考慮了硬件設備的不可靠因素,在
7、軟件層面提供計算和存儲的高可靠保證,具備較強的容錯性。 云化ETL 將不同業(yè)務系統(tǒng)中分散、零亂、標準不統(tǒng)一的各種源數(shù)據(jù)中的數(shù)據(jù)進行匯聚。支持從DBMS、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)生產系統(tǒng)等各種數(shù)據(jù)源中提取數(shù)據(jù)。各類數(shù)據(jù)經過抽取、清洗和轉化后,實現(xiàn)多對多地加載到包含但不限于大數(shù)據(jù)集群和各類關系型數(shù)據(jù)庫中。該過程由一個統(tǒng)一的操作接口封裝,經過無代碼的可視化配置后,可實現(xiàn)自動化地、分布式地執(zhí)行整個ETL作業(yè)流程。數(shù)據(jù)分層和分級存儲 把數(shù)據(jù)按照不同階段分為ODS(Operational Data Store)數(shù)據(jù)、輕度匯總數(shù)據(jù)、信息子層數(shù)據(jù)和應用數(shù)據(jù),分別存儲在Hadoop平臺、MPP分布式數(shù)據(jù)庫和數(shù)據(jù)倉庫
8、,滿足不同階段的計算需求;按照在線數(shù)據(jù)、歷史數(shù)據(jù)等來管理數(shù)據(jù)生命周期,滿足在線數(shù)據(jù)的高性能存儲的需求;將核心模型數(shù)據(jù)通過改造融入到數(shù)據(jù)倉庫的核心模型中,減少數(shù)據(jù)冗余,提升數(shù)據(jù)質量;將數(shù)據(jù)倉庫中的歷史數(shù)據(jù)遷移到低成本分布式數(shù)據(jù)庫,減輕數(shù)據(jù)倉庫的計算與存儲壓力并支撐深度數(shù)據(jù)分析。數(shù)據(jù)分析挖掘 支持R語言,集成機器學習算法庫Mahout和Spark MLlib,包含聚類分析、分類算法、頻度關聯(lián)分析和推薦系統(tǒng)在內的常用機器學習算法。滿足批處理統(tǒng)計分析、在線數(shù)據(jù)檢索、R語言數(shù)據(jù)挖掘、實時流處理、全文搜索等全方位需求??蓭椭髽I(yè)建立高速可擴展的數(shù)據(jù)倉庫和數(shù)據(jù)集市,結合多種報表工具提供交互式數(shù)據(jù)分析、即時報
9、表和BI可視化展示能力。數(shù)據(jù)服務接口 提供交互式SQL和可編程API,提取數(shù)據(jù)存儲計算平臺的數(shù)據(jù)處理結果,屏蔽底層細節(jié),為上層應用提供數(shù)據(jù)服務。主要包括SQL接口、MapReduce/Spark/Storm計算接口等多種可編程API、全文實時搜索接口、業(yè)務定向接口、關聯(lián)查詢接口,滿足數(shù)據(jù)查詢、可視化BI展示、數(shù)據(jù)交換、數(shù)據(jù)分析、目錄服務、綜合查詢等業(yè)務應用的需要??梢暬\維管理 提供Web圖形化界面實現(xiàn)運集群的管理和監(jiān)控,集群的節(jié)點、主機和服務的運行狀態(tài)都能在界面上顯示,操作友好,功能豐富。提供集群快速安裝部署、機架展示、用戶權限管理、主機與服務管理、監(jiān)控及告警通知等多方面支持,在可管理性方面
10、優(yōu)勢顯著。服務分類服務名稱服務功能說明系統(tǒng)服務YARN一種全新的通用的Hadoop資源管理器,為集群在利用率和資源統(tǒng)一管理等方面帶來了巨大便利??墒筂apReduce、Spark、Storm等共存。ZooKeeper分布式應用程序協(xié)調服務,保證集群的一致性。提供的功能包括:配置維護、名字服務、分布式同步、組服務等。Slider將已存在服務部署在YARN集群上,而不用修改已存在服務。Oozie提供Hadoop作業(yè)工作流管理功能,可管理MR、Hive、Pig、Sqoop和HDFS 等任務。Kafka一種低時延高吞吐量的分布式發(fā)布/訂閱消息系統(tǒng),同時滿足在線和離線處理海量消息數(shù)據(jù)派發(fā)。Kerbero
11、s一個基于共享密鑰對稱加密的安全網(wǎng)絡認證系統(tǒng),可防止對集群的惡意使用和篡改,保障Hadoop集群的安全可靠。計算服務MapReduce批處理框架,將一個大任務分成多個獨立的小任務,最后匯總各個小任務的結果。用戶只需關注上層應用的邏輯,完全不用關注底層分布式細節(jié),大大提升了分布式應用開發(fā)的效率和質量。主要用于離線計算和計算密集型應用。Spark迭代計算框架,基于內存計算。性能比MR快10-100倍,通用性好,支持批處理、流處理、SQL查詢、機器學習、圖計算等。Storm流處理框架,具有效率高、能保證每條消息都能被處理和實踐應用很多等優(yōu)點。TezMapReduce程序性能優(yōu)化器。將MR程序轉化為有
12、向無環(huán)圖,大大提升性能。存儲服務HDFSHadoop分布式文件系統(tǒng),具有高容錯性,可以部署在廉價的機器上。提供高吞吐量來訪問應用程序的數(shù)據(jù),適合存儲超大數(shù)據(jù)集。HBase分布式、面向列數(shù)據(jù)庫,利用HDFS作為持久化數(shù)據(jù)存儲,使用Zookeeper作為協(xié)同服務組件。具有容量巨大、面向列存儲和權限控制、稀疏性、高可用和高性能等特點。數(shù)據(jù)處理SqoopHadoop和關系型數(shù)據(jù)庫之間進行批量數(shù)據(jù)轉移的工具。Flume一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。Hive基于Hadoop的數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,采用HiveQL作為查詢語言。將HiveQ
13、L轉換為MapReduce任務,從而完成海量數(shù)據(jù)的查詢和分析。Pig基于Hadoop的數(shù)據(jù)流處理引擎,將類SQL的數(shù)據(jù)分析請求轉換為Map/Reduce任務。Mahout機器學習算法庫,3個主要應用場景是協(xié)作篩選、集群和分類,可使用MR、Scala、Spark來提交Mahout接口。數(shù)據(jù)即服務提供機器學習Mahout、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、R語言、交互式SQL(SQL on Hadoop)、可編程API等功能,滿足上次應用開發(fā)需求。MPP分布式數(shù)據(jù)庫H3C MPP關系型數(shù)據(jù)庫集群,良好的SQL語言支持。高性能、高容錯、高可用。1.4 產品功能簡介服務名稱服務功能說明安裝部署提供定制部署、Zero
14、部署和虛機部署等多種集群部署方式,滿足用戶不用應用場景需求。提供Web圖形化界面和快速向導,引導用戶快捷高效地建立集群。機架管理實現(xiàn)HDFS副本存放策略的可視化管理。配置管理實現(xiàn)集群各項服務配置參數(shù)的歷史快照功能,記錄配置變更,方便性能調優(yōu)。用戶和組管理支持單用戶和用戶組管理,便捷的用戶和組的增刪操作,提供不同級別的訪問權限控制;主機管理實時監(jiān)控主機各項硬件資源(CPU、內存、磁盤、網(wǎng)絡等)及其上承載的服務的運行狀態(tài)。執(zhí)行主機級別操作如停止、運行主機上的服務等。服務管理對集群的各項服務做集中式管理,提供啟動服務、停止服務、修改屬性和設定運行參數(shù)等功能。實現(xiàn)集群各項服務運行狀態(tài)(基本信息、告警、
15、運行健康狀態(tài))實時監(jiān)控。監(jiān)控和告警監(jiān)控集群運行的健康狀態(tài),在特定的情況下發(fā)出信息,幫助識別和定位問題原因。可自定義告警的監(jiān)控間隔和閾值、觸發(fā)條件、告警通知方式。版本管理實現(xiàn)HDP Stack可用服務和軟件版本的管理功能。多租戶支持多租戶訪問集群資源。安全管理支持本地、LDAP和Kerberos多種身份認證方式,實現(xiàn)訪問權限控制。支持對文件、目錄、表、列、行等細粒度的訪問控制,可防止對集群的惡意使用和篡改,保證集群的可安全可靠。數(shù)據(jù)管理實現(xiàn)數(shù)據(jù)的壓縮、備份、交換及數(shù)據(jù)ETL的管理。管理平面功能:業(yè)務平面功能:2 DataEngine HDP核心技術DataEngine HDP基于X86服務器本地
16、的計算與存儲資源提供了分布式并行計算和低成本存儲,提供低時延、高并發(fā)的查詢功能,集群可以擴展到上千臺服務器。H3C通過對Hadoop開源組件的封裝和增強,對外提供數(shù)據(jù)分布式計算存儲、數(shù)據(jù)分析能力。l 資源管理YARN:改進的YARN統(tǒng)一資源管理,在同一物理主機/虛擬主機和數(shù)據(jù)集上運行多種計算框架,包括離線計算、內存計算和實時計算。l 分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強的容錯性,可在x86平臺上運行,減少總體成本,可擴展,能構建大規(guī)模的應用。l 數(shù)據(jù)庫HBase:HBase是一種構建在HDFS(Hadoop Distributed File System)之上的分布式、面向列的存儲系
17、統(tǒng),它具有高可靠、高性能、面向列和可伸縮的特性。HBase適合于存儲大表數(shù)據(jù)(表的規(guī)??梢赃_到數(shù)十億行以及數(shù)百萬列),并且對大表數(shù)據(jù)的讀、寫訪問可以達到實時級別。l 離線計算: MapReduce是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段進行處理,適合數(shù)據(jù)密集型計算場景。l 內存計算: Spark是一種內存計算框架,它將數(shù)據(jù)盡可能放到內存中以提高迭代應用和交互式應用的計算效率。l 實時計算: Storm擅長流式計算、實時分析,比如廣告點擊計算、它在實時性要遠遠好于MapReduce計算框架。第2章3 DataEngine MPP Cluster核心技術3.1 MPP +
18、Shared Nothing架構DataEngine MPP Cluster采用完全并行的 MPP + Shared Nothing 的分布式扁平架構,這種架構中的每一個節(jié)點(node)都是獨立的、自給的、節(jié)點之間對等,而且整個系統(tǒng)中不存在單點瓶頸,具有非常強的擴展性。圖 31 Shared Nothing + MPP 架構示意圖3.2 核心組件DataEngine MPP Cluster產品總共包含三大核心組件,即GCluster、GCware和GNode。GCWare用于各節(jié)點GCluster實例間共享信息,GCluster負責集群調度,每個GNode就是最基本的存儲和計算單元。GClus
19、ter:GCluster負責SQL的解析、SQL優(yōu)化、分布式執(zhí)行計劃生成、執(zhí)行調度。GCWare:GCWare用于各節(jié)點GCluster實例間共享信息(包括集群結構,節(jié)點狀態(tài),節(jié)點資源狀態(tài)等信息),以及控制多副本數(shù)據(jù)操作時,提供可操作節(jié)點,并在多副本操作中,控制各節(jié)點數(shù)據(jù)一致性狀態(tài)。GCWare對于集群的管理工作是以節(jié)點為基本單位的。GNode:GNode是GCluster中最基本的存儲和計算單元。GNode是由GCWare管理的一個8a實例,每個GCluster節(jié)點上有一個GNode實例運行。GNode負責集群數(shù)據(jù)在節(jié)點上的實際存儲,并從GCluster接收和執(zhí)行經分解的SQL執(zhí)行計劃,執(zhí)行
20、結果返回給GCluster。數(shù)據(jù)加載時,GNode直接從集群加載服務接收數(shù)據(jù),寫入本地存儲空間。GCMonit:GCMonit用于定期監(jiān)測DataEngine MPP Cluster服務程序的運行狀態(tài), 一旦發(fā)現(xiàn)某個服務程序的進程狀態(tài)發(fā)生變化,就會根據(jù)配置文件中的內容來執(zhí)行相應的命令。GCMonit進程監(jiān)控程序為集群中的每個組件提供各自的啟停腳本,提供的總腳本可以一次性啟停所有模塊的服務。3.3 高可用DataEngine MPP Cluster通過SafeGroup組內冗余機制來保證集群的高可用特性:1) 每個SafeGroup可提供1個或2個副本數(shù)據(jù)冗余;2) SafeGroup 內數(shù)據(jù)副本自動同步;3) 復制引擎自動管理數(shù)據(jù)同步;圖 32 SafeGroup高可用性管理示意圖3.4 高性能擴展能力DataEngine MPP Cluster具備高性能擴展能力:1) 通過SafeGroup 動態(tài)擴展集群節(jié)點;2) 每個節(jié)點可以處理10TB有效數(shù)據(jù),同時提供計算和存儲能力;3) GCware 負責新節(jié)點的數(shù)據(jù)同步。圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國醫(yī)藥外包服務市場供需狀況與投資規(guī)劃研究報告
- 2025-2030全球與中國應用服務器行業(yè)發(fā)展現(xiàn)狀及趨勢預測分析研究報告
- 2026年浙江盛達鐵塔有限公司招聘備考題庫及完整答案詳解1套
- 中共珠海市委黨校2026年公開招聘教師備考題庫及參考答案詳解1套
- 2025至2030礦業(yè)自動化裝備市場趨勢與風險投資機會研究報告
- 2026年長沙市公安局巡特警支隊公開招聘普通雇員備考題庫帶答案詳解
- 建筑工程安全課件
- 2026年昭通市公安局招聘輔警備考題庫有答案詳解
- 2025-2030中國啤酒行業(yè)深度發(fā)展研究與“”企業(yè)投資戰(zhàn)略規(guī)劃報告
- 2026年雁塔區(qū)華育小天使幼兒園招聘5人備考題庫及完整答案詳解一套
- 12D101-5 110KV及以下電纜敷設
- 直腸陰道瘺診療指南的更新
- 普通國省道養(yǎng)護工程(線預防養(yǎng)護)設計說明
- DL-T5434-2021電力建設工程監(jiān)理規(guī)范
- FZT 43046-2017 錦綸彈力絲織物
- 居住權協(xié)議書
- 病案管理考核標準表格2022版
- 中國家庭金融調查報告
- 頂板安全生產責任制
- SWITCH塞爾達傳說曠野之息-1.6金手指127項修改使用說明教程
- 華北電力大學我的理想大學成品模板兩篇
評論
0/150
提交評論