大數(shù)據(jù)整體解決方案_第1頁
大數(shù)據(jù)整體解決方案_第2頁
大數(shù)據(jù)整體解決方案_第3頁
大數(shù)據(jù)整體解決方案_第4頁
大數(shù)據(jù)整體解決方案_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)整體解決方案目錄大數(shù)據(jù)基本介紹企業(yè)大數(shù)據(jù)建設(shè)數(shù)據(jù)庫技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案互聯(lián)網(wǎng)工廠:生產(chǎn)型企業(yè)向服務(wù)型企業(yè)轉(zhuǎn)型1.售前:精準(zhǔn)廣告投放、熱力圖、產(chǎn)品定制2.售中:生產(chǎn)過程可視化3.售后:運(yùn)行數(shù)據(jù)分析,高效服務(wù)大數(shù)據(jù)時代Volume-巨量全球在2010年正式進(jìn)入ZB時代,IDC預(yù)計(jì)到2020年全球?qū)⒖偣矒碛?0ZB的數(shù)據(jù)量。Variety-多樣性如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻、能力提出了更高的要求。Value-價(jià)值密度一部數(shù)小時的視頻,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何迅速“提純”是大數(shù)據(jù)亟待解決的難題。Velocity-速度大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是

2、ZB時代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。專業(yè)咨詢公司IDC對大數(shù)據(jù)特征的定義-4V大數(shù)據(jù)的基本特征產(chǎn)業(yè)機(jī)遇應(yīng)用新焦點(diǎn)增長新引擎競爭新動力技術(shù)變革Gartner將“大數(shù)據(jù)”技術(shù)列入對眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一企業(yè)影響數(shù)據(jù)資產(chǎn)化決策智能化商業(yè)價(jià)值輔助決策發(fā)掘信息優(yōu)化流程大數(shù)據(jù)的價(jià)值0102030405數(shù)據(jù)來源錯綜復(fù)雜數(shù)據(jù)挖掘模型建立數(shù)據(jù)開放與隱私權(quán)衡大數(shù)據(jù)管理與決策大數(shù)據(jù)人才缺口現(xiàn)如今幾乎任何規(guī)模企業(yè),每時每刻也都在產(chǎn)生大量的數(shù)據(jù),但這些數(shù)據(jù)如何歸集、提煉始終是一個困擾。關(guān)于大數(shù)據(jù)分析,人們鼓吹其神奇價(jià)值的喧囂聲浪很高,卻鮮見其實(shí)際運(yùn)用得法的模式和方法

3、。造成這種窘境的原因主要有以下兩點(diǎn):一是對于大數(shù)據(jù)分析的價(jià)值邏輯尚缺乏足夠深刻的洞察;其次便是大數(shù)據(jù)分析中的某些重大要件或技術(shù)還不成熟。我國一些部門擁有大量數(shù)據(jù)但寧愿自己不用也不愿提供給有關(guān)部門共享,導(dǎo)致信息不完整或重復(fù)投資.在今時今日的商業(yè)世界中,高管的決策依然更多地依賴個人經(jīng)驗(yàn)和直覺,而不是基于數(shù)據(jù)。大數(shù)據(jù)建設(shè)的每個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂智慧、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)產(chǎn)業(yè)鏈目錄大數(shù)據(jù)基本介紹企業(yè)大數(shù)據(jù)建設(shè)數(shù)據(jù)庫技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案數(shù)據(jù)倉庫全文庫關(guān)聯(lián)庫專題庫基礎(chǔ)數(shù)據(jù)應(yīng)用數(shù)據(jù)配置數(shù)據(jù)數(shù)據(jù)質(zhì)量檢測數(shù)據(jù)資源監(jiān)控?cái)?shù)據(jù)資源目錄數(shù)據(jù)價(jià)值評價(jià)企

4、業(yè)數(shù)據(jù)交易咨詢報(bào)告交易數(shù)據(jù)分析服務(wù)數(shù)據(jù)變現(xiàn)結(jié)構(gòu)化庫全文庫音視頻庫元數(shù)據(jù)庫數(shù)據(jù)字典數(shù)據(jù)安全管理Hadoop/SparkMPP分布式數(shù)據(jù)庫數(shù)據(jù)標(biāo)準(zhǔn)管理企業(yè)級數(shù)據(jù)運(yùn)營大數(shù)據(jù)平臺大數(shù)據(jù)人才建設(shè)企業(yè)大數(shù)據(jù)架構(gòu)數(shù)據(jù)管理企業(yè)大數(shù)據(jù)建設(shè)目的:(1)大規(guī)模歷史數(shù)據(jù)可靠存儲、安全訪問、高效查詢平臺;(2)大數(shù)據(jù)價(jià)值挖掘應(yīng)用。企業(yè)大數(shù)據(jù)建設(shè)三步:(1)技術(shù)升級;(2)數(shù)據(jù)整合;(3)數(shù)據(jù)變現(xiàn)。大數(shù)據(jù)建設(shè)步驟建議數(shù)據(jù)變現(xiàn)數(shù)據(jù)整合技術(shù)升級第一階段第二階段第三階段MPP分布式數(shù)據(jù)庫Hadoop結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)高價(jià)值密度數(shù)據(jù)低價(jià)值密度數(shù)據(jù)大數(shù)據(jù)應(yīng)用用MPP處理PB級別的、高質(zhì)量的結(jié)構(gòu)化

5、數(shù)據(jù),同時為應(yīng)用提供豐富的SQL支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這架構(gòu)可同時滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求。大數(shù)據(jù)應(yīng)用第一階段:技術(shù)升級第二階段:數(shù)據(jù)整合企業(yè)數(shù)據(jù)外企業(yè)數(shù)據(jù)數(shù)據(jù)源互聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)倉庫全文庫關(guān)聯(lián)庫專題庫數(shù)據(jù)管理基礎(chǔ)數(shù)據(jù)應(yīng)用數(shù)據(jù)配置數(shù)據(jù)數(shù)據(jù)質(zhì)量檢測數(shù)據(jù)資源監(jiān)控?cái)?shù)據(jù)資源目錄數(shù)據(jù)價(jià)值評價(jià)結(jié)構(gòu)化庫全文庫音視頻庫元數(shù)據(jù)庫數(shù)據(jù)字典數(shù)據(jù)安全管理數(shù)據(jù)標(biāo)準(zhǔn)管理第三階段:數(shù)據(jù)變現(xiàn)企業(yè)數(shù)據(jù)交易咨詢報(bào)告交易數(shù)據(jù)分析服務(wù)數(shù)據(jù)變現(xiàn)企業(yè)數(shù)據(jù)交易。企業(yè)內(nèi)部數(shù)據(jù)和數(shù)據(jù)分析結(jié)果很多時候是其他企業(yè)的業(yè)務(wù)基礎(chǔ),企業(yè)把內(nèi)部數(shù)據(jù)和分析結(jié)果經(jīng)過加工、脫敏等處理后,作為商品通過大數(shù)據(jù)交易平臺

6、(如貴陽大數(shù)據(jù)交易所)提供給第三方機(jī)構(gòu)使用,變現(xiàn)數(shù)據(jù)價(jià)值。咨詢報(bào)告交易。由專業(yè)的研究員對數(shù)據(jù)加以分析、挖掘,找出行業(yè)的定量特點(diǎn)進(jìn)而得出定性結(jié)論,這些咨詢報(bào)告面向社會銷售。數(shù)據(jù)分析服務(wù)。用戶利用企業(yè)的大數(shù)據(jù)平臺提供的豐富算法和模型,進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘和結(jié)果輸出等,數(shù)據(jù)集由系統(tǒng)統(tǒng)一進(jìn)行管理,區(qū)分私有和公有數(shù)據(jù),可以保證私有數(shù)據(jù)只供持有者使用。目錄大數(shù)據(jù)基本介紹企業(yè)大數(shù)據(jù)建設(shè)數(shù)據(jù)庫技術(shù)基礎(chǔ)數(shù)據(jù)類型及行業(yè)分布MPP分布式數(shù)據(jù)庫Hadoop分布式計(jì)算數(shù)據(jù)庫技術(shù)對比大數(shù)據(jù)解決方案結(jié)構(gòu)化數(shù)據(jù):即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),特點(diǎn):結(jié)構(gòu)固定、數(shù)據(jù)定長.半結(jié)構(gòu)化數(shù)據(jù)

7、:就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù),如:HTML、XML。它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。用XML格式來組織并保存到CLOB字段中,XML可能是最適合存儲半結(jié)構(gòu)化的數(shù)據(jù)了。將不同類別的信息保存在XML的不同的節(jié)點(diǎn)中就可以了。非結(jié)構(gòu)化數(shù)據(jù):像圖片、聲音、視頻等等。這類信息我們通常無法直接知道他的內(nèi)容,數(shù)據(jù)庫也只能將它保存在一個BLOB字段中,對以后檢索非常麻煩。一般的做法是,建立一個包含三個字段的表(編號 number、內(nèi)容描述 varchar(1024)、內(nèi)容 blob)。引用通過編號,檢索通過內(nèi)容描述。現(xiàn)在還有很多非結(jié)構(gòu)化數(shù)據(jù)的處理工具,市面上常見的內(nèi)容管理器就是其中的

8、一種。數(shù)據(jù)類型大數(shù)據(jù),4個V文件報(bào)表郵件納稅分析決策支持預(yù)測結(jié)構(gòu)化+半結(jié)構(gòu)化公安網(wǎng)監(jiān)國安技偵輿情監(jiān)控銀監(jiān)會稽查食品溯源環(huán)保監(jiān)測結(jié)構(gòu)化+半結(jié)構(gòu)化音視頻地震勘探氣象云圖衛(wèi)星遙感雷達(dá)數(shù)據(jù)物聯(lián)網(wǎng)非結(jié)構(gòu)為主行業(yè)大數(shù)據(jù)的體量與互聯(lián)網(wǎng)大數(shù)據(jù)的體量相當(dāng),在一個數(shù)量級上行業(yè)大數(shù)據(jù)的價(jià)值密度高于互聯(lián)網(wǎng)數(shù)據(jù)行業(yè)大數(shù)據(jù)為數(shù)據(jù)庫廠商帶來的商業(yè)機(jī)會和商業(yè)價(jià)值高于互聯(lián)網(wǎng)大數(shù)據(jù)。行業(yè)大數(shù)據(jù),ZB級互聯(lián)網(wǎng)大數(shù)據(jù)經(jīng)營類管理類監(jiān)管類專業(yè)類電信信令電信話單金融細(xì)賬金融票據(jù)電力調(diào)度智能電網(wǎng)經(jīng)營分析結(jié)構(gòu)化為主10%結(jié)構(gòu)化30%半結(jié)構(gòu)化60%非結(jié)構(gòu)化價(jià)值密度結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化行業(yè)與互聯(lián)網(wǎng)數(shù)據(jù)目錄大數(shù)據(jù)基本介紹數(shù)據(jù)庫技術(shù)基礎(chǔ)數(shù)據(jù)類型及行

9、業(yè)分布MPP分布式數(shù)據(jù)庫Hadoop分布式計(jì)算數(shù)據(jù)庫技術(shù)對比大數(shù)據(jù)解決方案memoryCPUCPUdisksmemoryCPUCPUmemoryCPUCPUInterconnection NetworkShared storage:SAN,NAS數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫Shared Disk架構(gòu)disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network數(shù)據(jù)數(shù)據(jù)分布策略Hash,Range,RandomMPP架構(gòu)橫向擴(kuò)展最多192個節(jié)點(diǎn)MPP數(shù)據(jù)庫Shared Nothing架構(gòu)MPP Cluster大規(guī)模

10、并行計(jì)算統(tǒng)一接口層收到上層發(fā)送的查詢請求,根據(jù)指定的集群節(jié)點(diǎn)或經(jīng)過負(fù)載均衡后選出的集群節(jié)點(diǎn),將SQL發(fā)送至指定節(jié)點(diǎn)的GCluster層。收到請求的節(jié)點(diǎn)GCluster層負(fù)責(zé)對SQL進(jìn)行詞法、語法檢查,進(jìn)行查詢優(yōu)化,生成分布式執(zhí)行計(jì)劃,將生成的分布式執(zhí)行計(jì)劃發(fā)送至集群相關(guān)節(jié)點(diǎn)的GNode層進(jìn)行執(zhí)行。GCWare層對各節(jié)點(diǎn)當(dāng)前狀態(tài)進(jìn)行監(jiān)控,保證分布式查詢計(jì)劃可以正確執(zhí)行。集群各節(jié)點(diǎn)GNode層對執(zhí)行計(jì)劃進(jìn)行解析和執(zhí)行。涉及到數(shù)據(jù)在不同節(jié)點(diǎn)間的搬運(yùn)、結(jié)果匯總等操作通過GCluster層進(jìn)行統(tǒng)一調(diào)度,GCWare層在各節(jié)點(diǎn)執(zhí)行過程中對節(jié)點(diǎn)狀態(tài)進(jìn)行監(jiān)控,各節(jié)點(diǎn)將最終執(zhí)行結(jié)果發(fā)送至SQL發(fā)起節(jié)點(diǎn)進(jìn)行匯總,

11、再通過統(tǒng)一接口層返回給上層應(yīng)用。高可用性SafeGroupMPP ClusterdatabaseT1p2T1p1T1p3node1T1p2T1p1T1p3node3T1p2T1p1T1p3node2數(shù)據(jù)2個副本Replicator/復(fù)制引擎一個safegroup動態(tài)擴(kuò)展能力GBase Clusterdatabase 通過Safegroup 動態(tài)擴(kuò)展集群節(jié)點(diǎn) 可以實(shí)際擴(kuò)展到64x3個節(jié)點(diǎn) 每個節(jié)點(diǎn)可以處理10-20TB有效數(shù)據(jù) 每個節(jié)點(diǎn)同時提供計(jì)算和存儲能力 Gcware 負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步目錄大數(shù)據(jù)基本介紹數(shù)據(jù)庫技術(shù)基礎(chǔ)數(shù)據(jù)類型及行業(yè)分布MPP分布式數(shù)據(jù)庫Hadoop分布式計(jì)算數(shù)據(jù)庫技術(shù)對比

12、大數(shù)據(jù)解決方案實(shí)時計(jì)算內(nèi)存計(jì)算分布式文件系統(tǒng)HDFS批處理MapReduce數(shù)據(jù)庫HBaseHivePig內(nèi)存計(jì)算SparkSharkStreaming消息隊(duì)列Kafka流處理Storm資源管理YARN離線計(jì)算Hadoop基于X86服務(wù)器本地的計(jì)算與存儲資源提供了分布式并行計(jì)算和低成本存儲,提供低時延、高并發(fā)的查詢功能,集群可以擴(kuò)展到上千臺服務(wù)器。資源管理YARN:改進(jìn)的YARN統(tǒng)一資源管理,在同一物理主機(jī)/虛擬主機(jī)和數(shù)據(jù)集上運(yùn)行多種計(jì)算框架,包括離線計(jì)算、內(nèi)存計(jì)算和實(shí)時計(jì)算。分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強(qiáng)的容錯性,可在x86平臺上運(yùn)行,減少總體成本,可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用

13、離線計(jì)算: MapReduce是一種離線計(jì)算框架,將一個算法抽象成Map和Reduce兩個階段進(jìn)行處理,適合數(shù)據(jù)密集型計(jì)算場景。內(nèi)存計(jì)算:MapReduce計(jì)算框架不適合迭代計(jì)算和交互式計(jì)算,MapReduce是一種磁盤計(jì)算框架,而Spark則是一種內(nèi)存計(jì)算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計(jì)算效率。實(shí)時計(jì)算:MapReduce也不適合進(jìn)行流式計(jì)算、實(shí)時分析,比如廣告點(diǎn)擊計(jì)算等,而Storm則更擅長這種計(jì)算、它在實(shí)時性要遠(yuǎn)遠(yuǎn)好于MapReduce計(jì)算框架。 Hadoop分布式計(jì)算HDFS分布式文件系統(tǒng)HDFS設(shè)計(jì)理念大規(guī)模數(shù)據(jù)集橫向線性擴(kuò)展硬件錯誤是常態(tài)復(fù)本冗余機(jī)制流式

14、數(shù)據(jù)訪問批量讀而非隨機(jī)讀Master/Slave主從架構(gòu)namenodedatanodeHDFS數(shù)據(jù)塊和副本復(fù)本考量數(shù)量布局可靠性、寫入帶寬、讀取帶寬折中默認(rèn)復(fù)本數(shù)3默認(rèn)布局第1個放在客戶端所在節(jié)點(diǎn)第2個不同機(jī)架第3個與第2個同一機(jī)架很好的穩(wěn)定性、負(fù)載均衡,較好的寫入帶寬、讀取性能,塊均勻分布批處理Map/Reduce一個并行計(jì)算的框架提供并行計(jì)算能力,隨著節(jié)點(diǎn)數(shù)增加近似線性遞增分而治之的思想兩個核心操作map和reduceMap操作就是把一組數(shù)據(jù)一對一的映射為另一組數(shù)據(jù)reduce操作就是整合全文每個單詞出現(xiàn)的次數(shù)Hadoop Map/ReduceHadoop MapReduce為批處理而設(shè)

15、計(jì)以磁盤為中心的計(jì)算框架數(shù)據(jù)每次都需要從HDFS文件系統(tǒng)中讀出計(jì)算的中間結(jié)果都被寫入磁盤任務(wù)中間結(jié)果必須經(jīng)過磁盤不適合交互式或者迭代式計(jì)算復(fù)雜運(yùn)算極為耗時MapReduce的調(diào)度框架為長時間任務(wù)設(shè)計(jì)MapReduce的調(diào)度框架為長時間任務(wù)設(shè)計(jì)啟動開銷過大沒有索引,全數(shù)據(jù)掃描內(nèi)存計(jì)算SparkSpark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HD

16、FS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法Spark特點(diǎn)中間結(jié)果內(nèi)存存儲合并任務(wù)流不是Hadoop的一個變種(e.g., Tez, HaLoop, etc)全新的,高速的,類似Map/Reduce的分布式計(jì)算引擎支持將數(shù)據(jù)緩存在內(nèi)存中,為迭代式查詢優(yōu)化iter. 1iter. 2. . .InputHDFSreadHDFSwriteHDFSreadHDFSwriteiter. 1iter. 2. . .Input通用DAG執(zhí)行和調(diào)度,支持延遲計(jì)算和高效優(yōu)化輕量級的調(diào)度框架和多線程計(jì)算模型,極低的調(diào)度和啟動開銷比Hadoop快10 x100 x兼容

17、Hadoop存儲API可以讀寫存儲在HDFS或HBase上的數(shù)據(jù)支持其他數(shù)據(jù)源,需要實(shí)現(xiàn)Hadoop InputFormat實(shí)時計(jì)算StormStorm可用來實(shí)時處理新數(shù)據(jù)和更新數(shù)據(jù)庫,兼具容錯性和可擴(kuò)展性。即Storm可以用來處理源源不斷流進(jìn)來的消息,處理之后將結(jié)果寫入到某個存儲中去。Storm可用來并行處理密集查詢。Storm的拓?fù)浣Y(jié)構(gòu)是一個等待調(diào)用信息的分布函數(shù),當(dāng)它收到一條調(diào)用信息后,會對查詢進(jìn)行計(jì)算,并返回查詢結(jié)果。舉個例子Distributed RPC可以做并行搜索或者處理大集合的數(shù)據(jù)。信息流處理分布式遠(yuǎn)程程序調(diào)用Storm可進(jìn)行連續(xù)查詢并把結(jié)果即時反饋給客戶端。比如把Twitte

18、r上的熱門話題發(fā)送到瀏覽器中。連續(xù)計(jì)算目錄大數(shù)據(jù)基本介紹數(shù)據(jù)庫技術(shù)基礎(chǔ)數(shù)據(jù)類型及行業(yè)分布MPP分布式數(shù)據(jù)庫Hadoop分布式計(jì)算數(shù)據(jù)庫技術(shù)對比大數(shù)據(jù)解決方案OldSQL一種架構(gòu)支持多類應(yīng)用 (One Size Fits All)分析 互聯(lián)網(wǎng)事務(wù)M. Stonebraker多種架構(gòu)支持多類應(yīng)用OldSQL 事務(wù)NoSQL 互聯(lián)網(wǎng)NewSQL 分析大數(shù)據(jù)時代架構(gòu)多元化 基于Stonebraker教授的論文。傳統(tǒng)數(shù)據(jù)庫的基本架構(gòu)是30年前以事務(wù)處理為主要應(yīng)用設(shè)計(jì)的。大數(shù)據(jù)的主要應(yīng)用是分析類的,應(yīng)采用新的技術(shù)架構(gòu)。行業(yè)的技術(shù)大思路應(yīng)該由“一種架構(gòu)支持所有應(yīng)用”轉(zhuǎn)變成“多種架構(gòu)支持多類應(yīng)用”。數(shù)據(jù)庫行業(yè)

19、出現(xiàn)三個互為補(bǔ)充的三大陣營,OldSQL、NewSQL和NoSQL。 (斯教授主創(chuàng)的數(shù)據(jù)庫產(chǎn)品Ingres、Informix、PostgreSQL和Vertica)大數(shù)據(jù)引發(fā)處理架構(gòu)變革OldSQLNewSQLNoSQL市場定位交易型:實(shí)時,面向應(yīng)用,關(guān)注熱數(shù)據(jù)關(guān)系型交易型:實(shí)時,面向應(yīng)用,關(guān)注熱數(shù)據(jù)關(guān)系型分析型:非實(shí)時,面向統(tǒng)計(jì)分析,關(guān)注全部數(shù)據(jù)關(guān)系型分析型:非實(shí)時,面向統(tǒng)計(jì)分析,關(guān)注全部數(shù)據(jù)非關(guān)系型代表產(chǎn)品Oracle、Sybase、SQLServer引跑DBOneGbase-8A、EMC Greenplum、HP VerticalHBase數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)

20、,半結(jié)構(gòu)化數(shù)據(jù)SQL標(biāo)準(zhǔn)SQL、PL/SQL標(biāo)準(zhǔn)SQL、PL/SQL標(biāo)準(zhǔn)SQL、PL/SQL30%OLTP事務(wù)處理增/刪/改/查ACID:原子性、一致性、隔離性、持久性實(shí)體完整性、參照完整性、域完整性增/刪/改/查ACID:原子性、一致性、隔離性、持久性實(shí)體完整性、參照完整性、域完整性適合:增/查刪/改效率低ACID:原子性、一致性、隔離性、持久性實(shí)體完整性、參照完整性、域完整性增/查,刪/改效率低弱一致性存儲SMP共享存儲和總線,行存儲Share-nothing本地存儲,行存儲Share-nothing本地存儲,列存儲Share-nothing本地存儲,列存儲擴(kuò)展性Scale-up縱向擴(kuò)展,

21、如Oracle RACScale-out橫向擴(kuò)展,數(shù)據(jù)量P級以上Scale-out橫向擴(kuò)展,數(shù)據(jù)量P級以上Scale-out橫向擴(kuò)展,數(shù)據(jù)量P級以上性能1性能提升10倍查詢分析類性能提升10-100倍(P級數(shù)據(jù)秒級響應(yīng))查詢分析類性能提升10-100倍(P級數(shù)據(jù)秒級響應(yīng))價(jià)格2025萬/CPU20-30萬/節(jié)點(diǎn)10-15萬/節(jié)點(diǎn)8-10萬/節(jié)點(diǎn)OldSQL vs. NewSQL vs. NoSQL列存儲區(qū)別傳統(tǒng)行存數(shù)據(jù)庫,數(shù)據(jù)在磁盤中按照列的方式迚行組織和物理存儲。行存儲架構(gòu)和列存儲架構(gòu)的數(shù)據(jù)庫分別適用二不同的應(yīng)用,具備各自的優(yōu)劣勢,如下圖所示。列存儲架構(gòu)對查詢、統(tǒng)計(jì)和分析類操作具備天然的優(yōu)勢

22、。只需要將涉及到的列寫入內(nèi)存,大量降低I/O。以列為單位進(jìn)行壓縮,由二數(shù)據(jù)類型的一致性,方便進(jìn)行壓縮,實(shí)現(xiàn)高壓縮比。在數(shù)據(jù)包內(nèi)自勱建立索引,實(shí)現(xiàn)數(shù)據(jù)即索引。行存儲架構(gòu)癿優(yōu)勢在于事務(wù)操作,即對數(shù)據(jù)庫進(jìn)行增刪改操作,若沒有索引,其查詢需要使用大量的I/O,并且建立索引和物化規(guī)圖需要花費(fèi)大量的時間和資源。列存儲 vs 行存儲能夠按照數(shù)據(jù)類型和數(shù)據(jù)分布規(guī)律自動選擇最優(yōu)壓縮算法,并設(shè)置了庫級,表級,列級壓縮選項(xiàng),靈活平衡性能不壓縮比的關(guān)系,而且壓縮與解壓縮過程對用戶是透明。壓縮比可達(dá)到1:5 至1:20 甚至更優(yōu),遠(yuǎn)遠(yuǎn)高于行存儲。節(jié)省50%-90%的存儲空間,大大降低數(shù)據(jù)處理能耗。內(nèi)置數(shù)十種不同等級的壓

23、縮算法,上圖展示了一種對數(shù)值型數(shù)據(jù)的壓縮算法。壓縮態(tài)下對I/O 要求大大降低,數(shù)據(jù)加載和查詢性能明顯提升。列存儲數(shù)據(jù)壓縮粗粒度索引,每個數(shù)據(jù)包在加載數(shù)據(jù)時自動建立,包含過濾信息和統(tǒng)計(jì)信息,在數(shù)據(jù)查詢時只需要解包就能得到統(tǒng)計(jì)值,可進(jìn)一步降低I/O,對復(fù)雜查詢癿優(yōu)化效果明顯。表中的所有列自動建立。不需用戶手工建立和維護(hù)。索引本身占空間很少,擴(kuò)展性很好,建立索引后無膨脹。建立索引的速度快,后續(xù)的數(shù)據(jù)包建立索引的速度不會受到前面數(shù)據(jù)包的影響。列存儲智能索引DCDCDCDCDCDCDCDCDCDCDCDC列1DCDCDCDCDCDCDCDCDCDCDCDC列2DCDCDCDCDCDCDCDCDCDCDC

24、DC列3DCDCDCDCDCDCDCDCDCDCDCDC列n最大值,最小值,平均值索引:數(shù)據(jù)包統(tǒng)計(jì)信息最大值,最小值,平均值最大值,最小值,平均值最大值,最小值,平均值列存儲結(jié)構(gòu)NewSQL事務(wù)型 引跑DBOne行存標(biāo)準(zhǔn)SQL,PL/SQL適合:增刪改查NoSQL分析型HBase列存SQL30%適合:增加和查詢NewSQL分析型南大Gbase/HP Vertical/GP列存/壓縮/索引適合:增加和查詢標(biāo)準(zhǔn)SQL去IOEX86本地存儲Scale out數(shù)據(jù)庫小結(jié)目錄大數(shù)據(jù)基本介紹企業(yè)大數(shù)據(jù)建設(shè)數(shù)據(jù)庫技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案DataEngine大數(shù)據(jù)架構(gòu)兼容性好:基于開源Hadoop分布式計(jì)算框架

25、,提供開放、兼容的大數(shù)據(jù)計(jì)算能力;硬件無關(guān):支持物理機(jī)布署、虛擬機(jī)布署;支持獨(dú)立布署、云平臺布署;安裝便捷:支持一鍵式快速布署,幾分鐘即可完成集群創(chuàng)建;擴(kuò)展性強(qiáng):集群數(shù)量從幾臺到上千臺,并支持在線橫向擴(kuò)展;方便運(yùn)維:支持圖形化管理工具,運(yùn)維管理簡單易用;兼容SQL:100兼容標(biāo)準(zhǔn)SQL92,包括Hadoop和MPPLinux操作系統(tǒng)X86服務(wù)器集群資源管理YARN任務(wù)調(diào)度Oozie安全管理Kerberos文件系統(tǒng)HDFS集群安裝布署消息隊(duì)列Kafka數(shù)據(jù)管理可視化數(shù)據(jù)挖掘離線計(jì)算MapReduceMPP數(shù)據(jù)庫HBase數(shù)據(jù)庫統(tǒng)一用戶管理自助服務(wù)Hive數(shù)據(jù)倉庫同步系統(tǒng)ZooKeeper內(nèi)存計(jì)算

26、Spark流計(jì)算Storm數(shù)據(jù)交換全文檢索工作流管理集群監(jiān)控管理大數(shù)據(jù)應(yīng)用DataEngine大數(shù)據(jù)平臺統(tǒng)一安全管理SQL即席查詢DataEngine : Hadoop+40原生Hadoop是一套分布式計(jì)算框架,可以處理低價(jià)值密度半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),不能處理高價(jià)值密度的關(guān)系型結(jié)構(gòu)化數(shù)據(jù)。原生Hadoop是一個開源生態(tài)圈,商用化需要經(jīng)過二次開發(fā),提高穩(wěn)定性、可靠性、安全性、易用性等,提供數(shù)據(jù)從ETL采集到可視化BI展示的端到端解決方案。隨著Hadoop的發(fā)展,用戶對Hadoop有了更高的期待,對云與大數(shù)據(jù)融合、大數(shù)據(jù)與安全融合、網(wǎng)絡(luò)對大數(shù)據(jù)支撐等提出了新的要求。開放兼容MPP數(shù)據(jù)庫自動安裝混合架構(gòu)云平臺融合多業(yè)務(wù)高可靠因此,H3C在Hadoop基礎(chǔ)上進(jìn)行了大量優(yōu)化,并與H3C其他產(chǎn)品線高度融合,提供端到端的大數(shù)據(jù)解決方案?;陂_源Hadoop架構(gòu)增強(qiáng)開發(fā),可以快速集成開源社區(qū)優(yōu)秀組件;提供標(biāo)準(zhǔn)API,兼容標(biāo)準(zhǔn)SQL,便于大數(shù)據(jù)應(yīng)用開發(fā)、數(shù)據(jù)分析挖掘,為ISV提供良好開發(fā)接口;提供

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論