《云計(jì)算與大數(shù)據(jù)》-第10章分布式數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)挖掘_第1頁(yè)
《云計(jì)算與大數(shù)據(jù)》-第10章分布式數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)挖掘_第2頁(yè)
《云計(jì)算與大數(shù)據(jù)》-第10章分布式數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)挖掘_第3頁(yè)
《云計(jì)算與大數(shù)據(jù)》-第10章分布式數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)挖掘_第4頁(yè)
《云計(jì)算與大數(shù)據(jù)》-第10章分布式數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

10.1分布式數(shù)據(jù)庫(kù)HBase10.2分布式數(shù)據(jù)倉(cāng)庫(kù)Hive1《云計(jì)算與大數(shù)據(jù)》第二版課件重點(diǎn)

Hbase

概念與結(jié)構(gòu)Hive體系結(jié)構(gòu)難點(diǎn)

Hbase

結(jié)構(gòu)、協(xié)同過(guò)濾10.1.1

HBase簡(jiǎn)介HBase

是Hadoop

的子項(xiàng)目,它是一個(gè)面向列的分布式數(shù)據(jù)庫(kù)。它建立在HDFS

之上,是能提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。10.1分布式數(shù)據(jù)庫(kù)Hbase《云計(jì)算與大數(shù)據(jù)》第二版課件·HBase

存儲(chǔ)的數(shù)據(jù)介于映射(key/value)和關(guān)系型數(shù)據(jù)之間。能通過(guò)主鍵(row

key)和主鍵的range

來(lái)檢索數(shù)據(jù)。主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)?!对朴?jì)算與大數(shù)據(jù)》第二版課件HBase的特征:-線性及模塊可擴(kuò)展性;-嚴(yán)格一致讀寫;一可配置的表自動(dòng)分割策略;-RegionServer

自動(dòng)故障恢復(fù);一便利地備份MapReduce作業(yè)的基類;《云計(jì)算與大數(shù)據(jù)》第二版課件HBase

中表一般有如下的特點(diǎn):一大:

一個(gè)表可以有上億行,上百萬(wàn)列一面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。一稀疏:對(duì)于為空(null)

的列,并不占用存儲(chǔ)空間?!对朴?jì)算與大數(shù)據(jù)》第二版課件10.1.2

Hbase體系結(jié)構(gòu)HBase

的服務(wù)器體系結(jié)構(gòu)遵從主從服務(wù)器架構(gòu),由HRegion

服務(wù)器

(HRegion

Server)

群和HBaseMaster服務(wù)器(HBaseMaster

Server)

構(gòu)成?!对朴?jì)算與大數(shù)據(jù)》第二版課件HBase

Master服務(wù)器負(fù)責(zé)管理所有的HRegion

服務(wù)器。而HBase中的所有服務(wù)器都是通過(guò)ZooKeeper

來(lái)進(jìn)行協(xié)調(diào)并處理HBase

服務(wù)器運(yùn)行期間可能遇到的錯(cuò)誤。HBaseMaster

服務(wù)器本身并不存儲(chǔ)HBase

中的任何數(shù)據(jù),HBase邏輯上的表可能被劃分成多個(gè)HRegion,

然后存儲(chǔ)到HRegion服務(wù)器群中?!对朴?jì)算與大數(shù)據(jù)》第二版課件《云計(jì)算與大數(shù)據(jù)》第二版課件HRegionServerHRegionStoreStoreFileHFileLStore

(MemStoreStoreFileHFileStoreMemStoreStoreFileHFileLMemStoreStoreFileHFileLMemStoreStoreFileHFileHRegionserver廣HRegionStoreDFSClient

DFSClientStoreFileHFileHadoopHbaseHMasterClientHLogHLog1、

HRegion當(dāng)表的大小超過(guò)設(shè)置值時(shí),HBase會(huì)自動(dòng)將表劃分到不同的區(qū)域,每個(gè)區(qū)域包含所有行的一個(gè)子集。從物理上來(lái)說(shuō),一

張表是被拆分成了多塊,每一塊就是一個(gè)HRegion,用表名+開(kāi)始/結(jié)束主鍵來(lái)區(qū)分每一個(gè)HRegion

。

個(gè)HRegion會(huì)保存一個(gè)表中某段連續(xù)的數(shù)據(jù)。10《云計(jì)算與大數(shù)據(jù)》第二版課件2、HRegion

服務(wù)器HRegion

服務(wù)器主要負(fù)責(zé)響應(yīng)用戶I/O

請(qǐng)求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是HBase

中最核心的模塊。所有的數(shù)據(jù)庫(kù)數(shù)據(jù)一般是保存在Hadoop

分布式文件系統(tǒng)上

面的,用戶通過(guò)一系列HRegion

服務(wù)器來(lái)獲取這些數(shù)據(jù),一臺(tái)機(jī)器上面一般只運(yùn)行一個(gè)HRegion

服務(wù)器。11《云計(jì)算與大數(shù)據(jù)》第二版課件2、HRegion

服務(wù)器·HRegion

服務(wù)器包含兩部分:

HLog

部分和HRegion部分。其中HLog

存儲(chǔ)數(shù)據(jù)日志。HRegion

部分由很多的HRegion組成,存儲(chǔ)的是實(shí)際的數(shù)據(jù)。12《云計(jì)算與大數(shù)據(jù)》第二版課件每一個(gè)HRegion

又由許多Store

組成,每一個(gè)Store

存儲(chǔ)實(shí)際上是一個(gè)列族(ColumnFamily)

下的數(shù)據(jù)。此外,在每一個(gè)Store

中包含一塊MemStore

。MemStore

駐留在內(nèi)存中,數(shù)據(jù)到來(lái)時(shí)首先更新到MemStore

中,當(dāng)達(dá)到閾值之后再更新到對(duì)應(yīng)的StoreFile

(

名HFile)中。每一個(gè)HStore

集合包含了多個(gè)HStoreFile,HStoreFile

負(fù)責(zé)的是實(shí)際的數(shù)據(jù)存儲(chǔ),為HBase中最小的存儲(chǔ)單元。13《云計(jì)算與大數(shù)據(jù)》第二版課件3、HBase

Master服務(wù)器·

臺(tái)HRegion服務(wù)器都會(huì)和HMaster服務(wù)器通信,HMaster的主要任務(wù)就是要告訴每臺(tái)HRegion服務(wù)器它要維護(hù)哪些HRegion?!?/p>

當(dāng)一臺(tái)新的HRegion

服務(wù)器登錄到HMaster

服務(wù)器時(shí),HMaster會(huì)告訴它先等待分配數(shù)據(jù)。而當(dāng)一臺(tái)HRegion死機(jī)時(shí),HMaster會(huì)把它負(fù)責(zé)的HRegion標(biāo)記為未分配,然

后再把它們分配到其他HRegion

服務(wù)器中。14《云計(jì)算與大數(shù)據(jù)》第二版課件HBase通過(guò)Zookeeper

來(lái)保證系統(tǒng)中總有一個(gè)Master在運(yùn)行。HMaster

在功能上主要負(fù)責(zé)Table和HRegion的管理工作。15《云計(jì)算與大數(shù)據(jù)》第二版課件4、ZooKeeperZooKeeper

存儲(chǔ)的是HBase中Root

表和Meta

表的位置。此

,ZooKeeper

還負(fù)責(zé)監(jiān)控各個(gè)機(jī)器的狀態(tài)。當(dāng)某臺(tái)機(jī)器發(fā)生故障時(shí),

ZooKeeper

會(huì)第一個(gè)感知,并通知HBase

Master進(jìn)行相應(yīng)的處理。當(dāng)HBase

Master發(fā)生故障時(shí),Zookeeper

負(fù)責(zé)HBaseMaster的恢復(fù)工作。16《云計(jì)算與大數(shù)據(jù)》第二版課件10.1.3

Hbase數(shù)據(jù)模型1、物理模型·HBase是一個(gè)類似GoogleBigtable的分布式數(shù)據(jù)庫(kù),它是一個(gè)稀疏的長(zhǎng)期存儲(chǔ)的(存儲(chǔ)在硬盤上)、多維度的、排序的映射表,這張表的索引是行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳,HBase中的數(shù)據(jù)都是字符串,沒(méi)有類型。17《云計(jì)算與大數(shù)據(jù)》第二版課件·

用戶在表格中存儲(chǔ)數(shù)據(jù),每一行都有一個(gè)可排序的

主鍵和任意多的列。由于是稀疏存儲(chǔ),同一張里面

的每一行數(shù)據(jù)都可以有截然不同的列?!?/p>

列名字的格式是"<family>:<qualifier>",

都是由字符串組成的,每一張表有一個(gè)列族集合,這個(gè)集合是固定不變的,只能通過(guò)改變表結(jié)構(gòu)來(lái)改變。但是qulifier值相對(duì)于每一行來(lái)說(shuō)都是可以改變的。18《云計(jì)算與大數(shù)據(jù)》第二版課件2、概念視圖可以將一個(gè)表想象成一個(gè)大的映射關(guān)系,通過(guò)行健、行健+時(shí)間戳或行鍵+列(列族:列修飾符),就可以定位特定數(shù)據(jù),HBase是稀疏存儲(chǔ)數(shù)據(jù)的,因此某些列可

以是空白的。19《云計(jì)算與大數(shù)據(jù)》第二版課件Row

KeyTime

StampColumn

Family:c1Column

Family:c2列值列值r1t7c1:1value1-1/1t6c1:2value1-1/2t5c1:3value1-1/3t4c2:1value1-2/1t3c2:2value1-2/2r2t2c1:1value2-1/1t1c2:1value2-1/1《云計(jì)算與大數(shù)據(jù)》第二版課件203、物理視圖雖然從概念視圖來(lái)看每個(gè)表格是由很多行組成的,但是在物理存儲(chǔ)上面,它是按照列來(lái)保存的。Row

KeyTime

StampColumn

Family

c1列值r1t7c1:1value1-1/1t6c1:2value1-1/2t5c1:3value1-1/3Row

KeyTime

StampColumn

Family

c2列值r1t4c2:1value1-2/1t3c2:2value1-2/2《云計(jì)算與大數(shù)據(jù)》第二版課件21●單機(jī)模式●偽分布式●完全分布式10.1.4

Hbase的基本操作HBase三種部署模式《云計(jì)算與大數(shù)據(jù)》第二版課件22Hive

是建立在Hadoop

上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),

這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在

Hadoop

中的大規(guī)模數(shù)據(jù)的機(jī)制。10.2分布式數(shù)據(jù)倉(cāng)庫(kù)Hive10.2.1

Hive簡(jiǎn)介《云計(jì)算與大數(shù)據(jù)》第二版課件23Hive的設(shè)計(jì)特點(diǎn)如下:一支持不同的存儲(chǔ)類型。一可將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中,減少了在查詢過(guò)程中執(zhí)行語(yǔ)義檢查的時(shí)間。-可以直接使用存儲(chǔ)在Hadoop

文件系統(tǒng)中的數(shù)據(jù)。-

內(nèi)置大量用戶函數(shù)UDF來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具。一

采用類SQL

的查詢方式,可將SQL

查詢轉(zhuǎn)換為

MapReduce

的job在Hadoop

集群上執(zhí)行?!对朴?jì)算與大數(shù)據(jù)》第二版課件2410.2.2

Hive體系結(jié)構(gòu)命令行接口JDBC/ODBC

網(wǎng)絡(luò)接口Thift

Server《云計(jì)算與大數(shù)據(jù)》第二版課件JobTrackerNameNodeDataNode&TaskTrackerHadoop元數(shù)據(jù)○Hive驅(qū)動(dòng)

(編譯器

,優(yōu)化器

,執(zhí)

)25《云計(jì)算與大數(shù)據(jù)》第二版課件2

Client用戶接口類型命令行接口網(wǎng)絡(luò)接口326(2)元數(shù)據(jù)存儲(chǔ)Hive

將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如MySQL、Derby。Hive中的元數(shù)據(jù)包括表的名字、表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在目錄等。《云計(jì)算與大數(shù)據(jù)》第二版課件27(3)解釋器、編譯器、優(yōu)化器、執(zhí)行器解釋器、編譯器、優(yōu)化器完成HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在HDFS

中,并在隨后由MapReduce調(diào)用執(zhí)行。《云計(jì)算與大數(shù)據(jù)》第二版課件28(4)HadoopHive

的數(shù)據(jù)存儲(chǔ)在HDFS中,大部分的查詢由MapReduce

完成

(包含*

如select*from

tbl

會(huì)生成

MapReduce

任務(wù))。《云計(jì)算與大數(shù)據(jù)》第二版課件2910.2.3

Hive數(shù)據(jù)類型Hive的數(shù)據(jù)存儲(chǔ)模型《云計(jì)算與大數(shù)據(jù)》第二版課件外部表(ExternalTable)分區(qū)(Partition)桶(Bucket)表(Table)30(1)在Hive中每一個(gè)Table都有一個(gè)相應(yīng)的目錄存儲(chǔ)數(shù)據(jù)。例如,

一個(gè)表ahpu,

它在HDFS

中的路徑為:/wh/ahpu,

其中

,wh

在hive-site.xml

中由${hive.metastore.wareh

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論