Hadoop生態(tài)系統(tǒng)概述以及版本演化培訓課件_第1頁
Hadoop生態(tài)系統(tǒng)概述以及版本演化培訓課件_第2頁
Hadoop生態(tài)系統(tǒng)概述以及版本演化培訓課件_第3頁
Hadoop生態(tài)系統(tǒng)概述以及版本演化培訓課件_第4頁
Hadoop生態(tài)系統(tǒng)概述以及版本演化培訓課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Hadoop生態(tài)系統(tǒng)概述以及版本演化2議程Hadoop生態(tài)系統(tǒng)特點Hadoop介紹Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)版本衍化總結(jié)Hadoop生態(tài)系統(tǒng) 特點源代碼開源(免費)社區(qū)活躍、參與者眾多涉及分布式存儲和計算的方方面面已得到企業(yè)界驗證Hadoop

1.0與2.0Hadoop生態(tài)系統(tǒng)特點Hadoop介紹Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)版本衍化總結(jié)4議程1.

Hadoop生態(tài)系統(tǒng)特點Hadoop介紹Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)版本衍化總結(jié)5Hadoop介紹 概述分布式存儲系統(tǒng)HDFS(Hadoop

Distributed

File

System)分布式存儲系統(tǒng)提供了高可靠性、高擴展性和高吞吐率的數(shù)據(jù)存儲服務(wù)資源管理系統(tǒng)YARN(Yet

Another

Resource

Negotiator)負責集群資源的統(tǒng)一管理和調(diào)度分布式計算框架MapReduce分布式計算框架具有易于編程、高容錯性和高擴展性等優(yōu)點Hadoop介紹 概述MapReduce(分布式計算層)YARN(集群資源管理層)HDFS(分布式存儲層)Hadoop構(gòu)成HDFS(分布式文件系統(tǒng))源自于Google的GFS論文發(fā)表于2003年10月HDFS是GFS克隆版HDFS特點良好的擴展性高容錯性適合PB級以上海量數(shù)據(jù)的存儲Hadoop構(gòu)成HDFS(分布式文件系統(tǒng))基本原理將文件切分成等大的數(shù)據(jù)塊,存儲到多臺機器上將數(shù)據(jù)切分、容錯、負載均衡等功能透明化可將HDFS看成一個容量巨大、具有高容錯性的磁盤應(yīng)用場景海量數(shù)據(jù)的可靠性存儲數(shù)據(jù)歸檔Hadoop構(gòu)成HDFS(分布式文件系統(tǒng))Hadoop構(gòu)成YARN(資源管理系統(tǒng))YARN是什么Hadoop

2.0新增系統(tǒng)負責集群的資源管理和調(diào)度使得多種計算框架可以運行在一個集群中YARN的特點良好的擴展性、高可用性對多種類型的應(yīng)用程序進行統(tǒng)一管理和調(diào)度自帶了多種多用戶調(diào)度器,適合共享集群環(huán)境Hadoop構(gòu)成YARN(資源管理系統(tǒng))Hadoop構(gòu)成YARN(資源管理系統(tǒng))Hadoop構(gòu)成YARN(資源管理系統(tǒng))Hadoop構(gòu)成MapReduce(分布式計算框架)源自于Google的MapReduce論文發(fā)表于2004年12月Hadoop

MapReduce是Google

MapReduce克隆版MapReduce特點良好的擴展性高容錯性適合PB級以上海量數(shù)據(jù)的離線處理Hadoop構(gòu)成MapReduce(分布式計算框架)Hadoop構(gòu)成MapReduce(分布式計算框架)Hadoop構(gòu)成MapReduce(分布式計算框架)目錄1.

Hadoop生態(tài)系統(tǒng)特點Hadoop介紹Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)版本衍化總結(jié)19Hadoop生態(tài)系統(tǒng) 1.0時代MapReduce(分布式計算框架)HDFS(分布式存儲系統(tǒng))Hive(數(shù)據(jù)倉庫)Pig(工作流引擎)Mahout(數(shù)據(jù)挖掘庫)Oozie(作業(yè)流調(diào)度系統(tǒng))Hbase(分布式數(shù)據(jù)庫)Zookeeper(分布式協(xié)調(diào)服務(wù))Sqoop(數(shù)據(jù)庫TEL工具)Flume(日志收集)Ambari(安裝部署工具)Hadoop生態(tài)系統(tǒng) 2.0時代YARN(分布式計算框架)HDFS(分布式存儲系統(tǒng))HivePigOozie(作業(yè)流調(diào)度系統(tǒng))Hbase(分布式數(shù)據(jù)庫)Zookeeper(分布式協(xié)調(diào)服務(wù))Sqoop(數(shù)據(jù)庫TEL工具)Flume(日志收集)Ambari(安裝部署工具)MapReduce(離線計算)Tez(DAG計算)Hive2Pig2Spark(內(nèi)存計算)Shark……Hadoop構(gòu)成Hive(基于MR的數(shù)據(jù)倉庫)由facebook開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計問題;ETL(Extraction-Transformation-Loading)工具構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫;數(shù)據(jù)計算使用MR,數(shù)據(jù)存儲使用HDFSHive

定義了一種類

SQL

查詢語言——HQL;類似SQL,但不完全相同通常用于進行離線數(shù)據(jù)處理(采用MapReduce);可認為是一個HQL MR的語言翻譯器。Hadoop構(gòu)成Hive(基于MR的數(shù)據(jù)倉庫)日志分析統(tǒng)計網(wǎng)站一個時間段內(nèi)的pv、uv多維度數(shù)據(jù)分析大部分互聯(lián)網(wǎng)公司使用Hive進行日志分析,包括百度、淘寶等其他場景海量結(jié)構(gòu)化數(shù)據(jù)離線分析低成本進行數(shù)據(jù)分析(不直接編寫MR)Hadoop構(gòu)成HiveHadoop構(gòu)成 Pig由yahoo!開源,設(shè)計動機是提供一種基于MapReduce的ad-hoc數(shù)據(jù)分析工具構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫定義了一種數(shù)據(jù)流語言——Pig

Latin通常用于進行離線分析Hadoop實例wordcount問題WordCountMapReduce程序WordCountMapReduce程序WordCountHive語句SELECTword,

COUNT(*)FROM

docLATERALVIEWexplode(split(text,''))

lTableas

wordGROUPBY

word;WordCountPig語句--

加載數(shù)據(jù)input=load‘/input/data’as

(line:chararray);--

將字符串分割成單詞words=foreachinputgenerateflatten(TOKENIZE(line))as

word;--

對單詞進行分組grpd=groupwordsby

word;--

統(tǒng)計每組中單詞數(shù)量cntd=foreachgrpdgenerategroup,COUNT(words);--

打印結(jié)果dump

cntd;Hadoop構(gòu)成Pig與Hive對比Hadoop構(gòu)成Mahout(數(shù)據(jù)挖掘庫)基于Hadoop的機器學習和數(shù)據(jù)挖掘的分布式計算框架實現(xiàn)了三大類算法推薦(Recommendation)聚類(Clustering)分類(Classification)RegressionRecommendersVector

SimilarityNon-MRAlgorithmsExamplesSee

/confluence/display/MAHOUT/AlgorithmsClassificationClusteringDimensionReductionFreq.PatternMiningEvolutionHadoop構(gòu)成Mahout實現(xiàn)的算法Mahout介紹聚類算法CanopyClusteringK-MeansFuzzy

K-Means模糊K-MeansExpectation

MaximizationEM算法Mean

Shift均值漂移Hierarchical

Clustering層次聚類DirichletProcess

Clustering狄里克雷過程聚類LatentDirichlet

AllocationLDASpectralClustering譜聚類Minhash

ClusteringTopDown

Clustering自上而下聚類Mahout介紹分類算法LogisticRegression邏輯回歸Bayesian貝葉斯分類算法SupportVector

Machines支持向量機Perceptronand

Winnow感知器算法Neural

Network神經(jīng)網(wǎng)絡(luò)Random

Forests隨機森林RestrictedBoltzmann

Machines有限波爾茲曼機OnlinePassive

AggressiveBoostingHiddenMarkov

Models隱式馬爾科夫鏈Mahout介紹其他算法Pattern

MiningParallelFP

GrowthRegressionLocallyWeighted

LinearRegressionDimension

ReductionSVDStochasticSVDwith

PCAPCAIndependentComponent

AnalysisGaussianDiscriminative

AnalysisEvolution

AlgorithmsGenetic

AlgorithmsRecommendersNon-distributed

recommenders(“Taste”)Distributed

Item-BasedCollaboration

FilteringCollaborationFilteringusing

aparallelmatrix

factorizationSlopeOneHadoop構(gòu)成HBase(分布式數(shù)據(jù)庫)源自Google的Bigtable論文發(fā)表于2006年11月HBase是Google

Bigtable克隆版HBase特點高可靠性高性能面向列良好的擴展性Hadoop構(gòu)成HBase數(shù)據(jù)模型Hadoop構(gòu)成HBase數(shù)據(jù)模型Table:表類似于傳統(tǒng)傳統(tǒng)數(shù)據(jù)庫中的表Column

Family:列簇Table在水平方向有一個或者多個Column

Family組成一個Column

Family中可以由任意多個Column組成Row

Key:

行鍵Table的主鍵Table中的記錄按照RowKey排序Timestamp:

時間戳每行數(shù)據(jù)均對應(yīng)一個時間戳版本號Hadoop構(gòu)成HBase架構(gòu)Hadoop構(gòu)成Zookeeper(分布式協(xié)作服務(wù))源自Google的Chubby論文發(fā)表于2006年11月Zookeeper是Chubby克隆版納解決分布式環(huán)境下數(shù)據(jù)管理問題統(tǒng)一命名狀態(tài)同步集群管理配置同步Hadoop構(gòu)成Zookeeper應(yīng)用HDFSYARNStormHBaseFlumeDubbo(阿里巴巴)Metaq(阿里巴巴)Hadoop構(gòu)成Sqoop(數(shù)據(jù)同步工具)連接Hadoop與傳統(tǒng)數(shù)據(jù)庫之間的橋梁支持多種數(shù)據(jù)庫,包括MySQL、DB2等插拔式,用戶可根據(jù)需要支持新的數(shù)據(jù)庫本質(zhì)上是一個MapReduce程序充分利用了MR分布式并行的特點充分利用MR容錯性Hadoop構(gòu)成Sqoop(數(shù)據(jù)同步工具)Hadoop構(gòu)成Flume(日志收集工具)Cloudera開源的日志收集系統(tǒng)Flume特點分布式高可靠性高容錯性易于定制與擴展Hadoop構(gòu)成Flume(日志收集工具)Hadoop構(gòu)成Oozie(作業(yè)流調(diào)度系統(tǒng))目前計算框架和作業(yè)類型繁多:MapReduce

Java、Streaming、HQL、Pig等如何對這些框架和作業(yè)進行統(tǒng)一管理和調(diào)度:不同作業(yè)之間存在依賴關(guān)系(DAG);周期性作業(yè)定時執(zhí)行的作業(yè)作業(yè)執(zhí)行狀態(tài)監(jiān)控與報警(發(fā)郵件、短信等)多種解決方案

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論