版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
10.1分布式數(shù)據(jù)庫(kù)HBase10.2分布式數(shù)據(jù)倉(cāng)庫(kù)Hive1《云計(jì)算與大數(shù)據(jù)》第二版課件重點(diǎn)
Hbase
概念與結(jié)構(gòu)Hive體系結(jié)構(gòu)難點(diǎn)
Hbase
結(jié)構(gòu)、協(xié)同過(guò)濾10.1.1
HBase簡(jiǎn)介HBase
是Hadoop
的子項(xiàng)目,它是一個(gè)面向列的分布式數(shù)據(jù)庫(kù)。它建立在HDFS
之上,是能提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。10.1分布式數(shù)據(jù)庫(kù)Hbase《云計(jì)算與大數(shù)據(jù)》第二版課件·HBase
存儲(chǔ)的數(shù)據(jù)介于映射(key/value)和關(guān)系型數(shù)據(jù)之間。能通過(guò)主鍵(row
key)和主鍵的range
來(lái)檢索數(shù)據(jù)。主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)?!对朴?jì)算與大數(shù)據(jù)》第二版課件HBase的特征:-線性及模塊可擴(kuò)展性;-嚴(yán)格一致讀寫;一可配置的表自動(dòng)分割策略;-RegionServer
自動(dòng)故障恢復(fù);一便利地備份MapReduce作業(yè)的基類;《云計(jì)算與大數(shù)據(jù)》第二版課件HBase
中表一般有如下的特點(diǎn):一大:
一個(gè)表可以有上億行,上百萬(wàn)列一面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。一稀疏:對(duì)于為空(null)
的列,并不占用存儲(chǔ)空間?!对朴?jì)算與大數(shù)據(jù)》第二版課件10.1.2
Hbase體系結(jié)構(gòu)HBase
的服務(wù)器體系結(jié)構(gòu)遵從主從服務(wù)器架構(gòu),由HRegion
服務(wù)器
(HRegion
Server)
群和HBaseMaster服務(wù)器(HBaseMaster
Server)
構(gòu)成?!对朴?jì)算與大數(shù)據(jù)》第二版課件HBase
Master服務(wù)器負(fù)責(zé)管理所有的HRegion
服務(wù)器。而HBase中的所有服務(wù)器都是通過(guò)ZooKeeper
來(lái)進(jìn)行協(xié)調(diào)并處理HBase
服務(wù)器運(yùn)行期間可能遇到的錯(cuò)誤。HBaseMaster
服務(wù)器本身并不存儲(chǔ)HBase
中的任何數(shù)據(jù),HBase邏輯上的表可能被劃分成多個(gè)HRegion,
然后存儲(chǔ)到HRegion服務(wù)器群中?!对朴?jì)算與大數(shù)據(jù)》第二版課件《云計(jì)算與大數(shù)據(jù)》第二版課件HRegionServerHRegionStoreStoreFileHFileLStore
(MemStoreStoreFileHFileStoreMemStoreStoreFileHFileLMemStoreStoreFileHFileLMemStoreStoreFileHFileHRegionserver廣HRegionStoreDFSClient
DFSClientStoreFileHFileHadoopHbaseHMasterClientHLogHLog1、
HRegion當(dāng)表的大小超過(guò)設(shè)置值時(shí),HBase會(huì)自動(dòng)將表劃分到不同的區(qū)域,每個(gè)區(qū)域包含所有行的一個(gè)子集。從物理上來(lái)說(shuō),一
張表是被拆分成了多塊,每一塊就是一個(gè)HRegion,用表名+開(kāi)始/結(jié)束主鍵來(lái)區(qū)分每一個(gè)HRegion
。
一
個(gè)HRegion會(huì)保存一個(gè)表中某段連續(xù)的數(shù)據(jù)。10《云計(jì)算與大數(shù)據(jù)》第二版課件2、HRegion
服務(wù)器HRegion
服務(wù)器主要負(fù)責(zé)響應(yīng)用戶I/O
請(qǐng)求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是HBase
中最核心的模塊。所有的數(shù)據(jù)庫(kù)數(shù)據(jù)一般是保存在Hadoop
分布式文件系統(tǒng)上
面的,用戶通過(guò)一系列HRegion
服務(wù)器來(lái)獲取這些數(shù)據(jù),一臺(tái)機(jī)器上面一般只運(yùn)行一個(gè)HRegion
服務(wù)器。11《云計(jì)算與大數(shù)據(jù)》第二版課件2、HRegion
服務(wù)器·HRegion
服務(wù)器包含兩部分:
HLog
部分和HRegion部分。其中HLog
存儲(chǔ)數(shù)據(jù)日志。HRegion
部分由很多的HRegion組成,存儲(chǔ)的是實(shí)際的數(shù)據(jù)。12《云計(jì)算與大數(shù)據(jù)》第二版課件每一個(gè)HRegion
又由許多Store
組成,每一個(gè)Store
存儲(chǔ)實(shí)際上是一個(gè)列族(ColumnFamily)
下的數(shù)據(jù)。此外,在每一個(gè)Store
中包含一塊MemStore
。MemStore
駐留在內(nèi)存中,數(shù)據(jù)到來(lái)時(shí)首先更新到MemStore
中,當(dāng)達(dá)到閾值之后再更新到對(duì)應(yīng)的StoreFile
(
又
名HFile)中。每一個(gè)HStore
集合包含了多個(gè)HStoreFile,HStoreFile
負(fù)責(zé)的是實(shí)際的數(shù)據(jù)存儲(chǔ),為HBase中最小的存儲(chǔ)單元。13《云計(jì)算與大數(shù)據(jù)》第二版課件3、HBase
Master服務(wù)器·
每
臺(tái)HRegion服務(wù)器都會(huì)和HMaster服務(wù)器通信,HMaster的主要任務(wù)就是要告訴每臺(tái)HRegion服務(wù)器它要維護(hù)哪些HRegion?!?/p>
當(dāng)一臺(tái)新的HRegion
服務(wù)器登錄到HMaster
服務(wù)器時(shí),HMaster會(huì)告訴它先等待分配數(shù)據(jù)。而當(dāng)一臺(tái)HRegion死機(jī)時(shí),HMaster會(huì)把它負(fù)責(zé)的HRegion標(biāo)記為未分配,然
后再把它們分配到其他HRegion
服務(wù)器中。14《云計(jì)算與大數(shù)據(jù)》第二版課件HBase通過(guò)Zookeeper
來(lái)保證系統(tǒng)中總有一個(gè)Master在運(yùn)行。HMaster
在功能上主要負(fù)責(zé)Table和HRegion的管理工作。15《云計(jì)算與大數(shù)據(jù)》第二版課件4、ZooKeeperZooKeeper
存儲(chǔ)的是HBase中Root
表和Meta
表的位置。此
外
,ZooKeeper
還負(fù)責(zé)監(jiān)控各個(gè)機(jī)器的狀態(tài)。當(dāng)某臺(tái)機(jī)器發(fā)生故障時(shí),
ZooKeeper
會(huì)第一個(gè)感知,并通知HBase
Master進(jìn)行相應(yīng)的處理。當(dāng)HBase
Master發(fā)生故障時(shí),Zookeeper
負(fù)責(zé)HBaseMaster的恢復(fù)工作。16《云計(jì)算與大數(shù)據(jù)》第二版課件10.1.3
Hbase數(shù)據(jù)模型1、物理模型·HBase是一個(gè)類似GoogleBigtable的分布式數(shù)據(jù)庫(kù),它是一個(gè)稀疏的長(zhǎng)期存儲(chǔ)的(存儲(chǔ)在硬盤上)、多維度的、排序的映射表,這張表的索引是行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳,HBase中的數(shù)據(jù)都是字符串,沒(méi)有類型。17《云計(jì)算與大數(shù)據(jù)》第二版課件·
用戶在表格中存儲(chǔ)數(shù)據(jù),每一行都有一個(gè)可排序的
主鍵和任意多的列。由于是稀疏存儲(chǔ),同一張里面
的每一行數(shù)據(jù)都可以有截然不同的列?!?/p>
列名字的格式是"<family>:<qualifier>",
都是由字符串組成的,每一張表有一個(gè)列族集合,這個(gè)集合是固定不變的,只能通過(guò)改變表結(jié)構(gòu)來(lái)改變。但是qulifier值相對(duì)于每一行來(lái)說(shuō)都是可以改變的。18《云計(jì)算與大數(shù)據(jù)》第二版課件2、概念視圖可以將一個(gè)表想象成一個(gè)大的映射關(guān)系,通過(guò)行健、行健+時(shí)間戳或行鍵+列(列族:列修飾符),就可以定位特定數(shù)據(jù),HBase是稀疏存儲(chǔ)數(shù)據(jù)的,因此某些列可
以是空白的。19《云計(jì)算與大數(shù)據(jù)》第二版課件Row
KeyTime
StampColumn
Family:c1Column
Family:c2列值列值r1t7c1:1value1-1/1t6c1:2value1-1/2t5c1:3value1-1/3t4c2:1value1-2/1t3c2:2value1-2/2r2t2c1:1value2-1/1t1c2:1value2-1/1《云計(jì)算與大數(shù)據(jù)》第二版課件203、物理視圖雖然從概念視圖來(lái)看每個(gè)表格是由很多行組成的,但是在物理存儲(chǔ)上面,它是按照列來(lái)保存的。Row
KeyTime
StampColumn
Family
c1列值r1t7c1:1value1-1/1t6c1:2value1-1/2t5c1:3value1-1/3Row
KeyTime
StampColumn
Family
c2列值r1t4c2:1value1-2/1t3c2:2value1-2/2《云計(jì)算與大數(shù)據(jù)》第二版課件21●單機(jī)模式●偽分布式●完全分布式10.1.4
Hbase的基本操作HBase三種部署模式《云計(jì)算與大數(shù)據(jù)》第二版課件22Hive
是建立在Hadoop
上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),
這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在
Hadoop
中的大規(guī)模數(shù)據(jù)的機(jī)制。10.2分布式數(shù)據(jù)倉(cāng)庫(kù)Hive10.2.1
Hive簡(jiǎn)介《云計(jì)算與大數(shù)據(jù)》第二版課件23Hive的設(shè)計(jì)特點(diǎn)如下:一支持不同的存儲(chǔ)類型。一可將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中,減少了在查詢過(guò)程中執(zhí)行語(yǔ)義檢查的時(shí)間。-可以直接使用存儲(chǔ)在Hadoop
文件系統(tǒng)中的數(shù)據(jù)。-
內(nèi)置大量用戶函數(shù)UDF來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具。一
采用類SQL
的查詢方式,可將SQL
查詢轉(zhuǎn)換為
MapReduce
的job在Hadoop
集群上執(zhí)行?!对朴?jì)算與大數(shù)據(jù)》第二版課件2410.2.2
Hive體系結(jié)構(gòu)命令行接口JDBC/ODBC
網(wǎng)絡(luò)接口Thift
Server《云計(jì)算與大數(shù)據(jù)》第二版課件JobTrackerNameNodeDataNode&TaskTrackerHadoop元數(shù)據(jù)○Hive驅(qū)動(dòng)
(編譯器
,優(yōu)化器
,執(zhí)
行
器
)25《云計(jì)算與大數(shù)據(jù)》第二版課件2
Client用戶接口類型命令行接口網(wǎng)絡(luò)接口326(2)元數(shù)據(jù)存儲(chǔ)Hive
將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如MySQL、Derby。Hive中的元數(shù)據(jù)包括表的名字、表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在目錄等。《云計(jì)算與大數(shù)據(jù)》第二版課件27(3)解釋器、編譯器、優(yōu)化器、執(zhí)行器解釋器、編譯器、優(yōu)化器完成HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在HDFS
中,并在隨后由MapReduce調(diào)用執(zhí)行。《云計(jì)算與大數(shù)據(jù)》第二版課件28(4)HadoopHive
的數(shù)據(jù)存儲(chǔ)在HDFS中,大部分的查詢由MapReduce
完成
(包含*
的
查
詢
,
比
如select*from
tbl
會(huì)生成
MapReduce
任務(wù))。《云計(jì)算與大數(shù)據(jù)》第二版課件2910.2.3
Hive數(shù)據(jù)類型Hive的數(shù)據(jù)存儲(chǔ)模型《云計(jì)算與大數(shù)據(jù)》第二版課件外部表(ExternalTable)分區(qū)(Partition)桶(Bucket)表(Table)30(1)在Hive中每一個(gè)Table都有一個(gè)相應(yīng)的目錄存儲(chǔ)數(shù)據(jù)。例如,
一個(gè)表ahpu,
它在HDFS
中的路徑為:/wh/ahpu,
其中
,wh
是
在hive-site.xml
中由${hive.metastore.wareh
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園幼師管理制度(3篇)
- 施工現(xiàn)場(chǎng)施工防毒害制度
- 2026吉林省吉勤服務(wù)集團(tuán)有限責(zé)任公司社會(huì)化招聘4人備考題庫(kù)及答案詳解參考
- 2026四川大學(xué)華西醫(yī)院基建運(yùn)行部技術(shù)工人招聘2人備考題庫(kù)帶答案詳解
- 2026廣西農(nóng)業(yè)科學(xué)院甘蔗研究所甘蔗綠色高效栽培技術(shù)團(tuán)隊(duì)招聘編制外工作人員1人備考題庫(kù)及一套完整答案詳解
- 藥品銷售財(cái)務(wù)制度
- 局財(cái)務(wù)制度管理責(zé)任目標(biāo)
- 參公單位財(cái)務(wù)制度
- 糧食收購(gòu)企業(yè)財(cái)務(wù)制度
- 餐飲住宿行業(yè)財(cái)務(wù)制度
- 【二下數(shù)學(xué)】計(jì)算每日一練60天(口算豎式脫式應(yīng)用題)
- 殘疾人服務(wù)與權(quán)益保護(hù)手冊(cè)(標(biāo)準(zhǔn)版)
- 車隊(duì)春節(jié)前安全培訓(xùn)內(nèi)容課件
- 2025年溫州肯恩三位一體筆試英語(yǔ)真題及答案
- 云南師大附中2026屆高三高考適應(yīng)性月考卷(六)歷史試卷(含答案及解析)
- PCR技術(shù)在食品中的應(yīng)用
- 輸液滲漏處理課件
- 教育培訓(xùn)行業(yè)發(fā)展趨勢(shì)與機(jī)遇分析
- 物業(yè)與商戶裝修協(xié)議書
- 湖南鐵道職業(yè)技術(shù)學(xué)院2025年單招職業(yè)技能測(cè)試題
評(píng)論
0/150
提交評(píng)論