版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB
153/54/54RGB
242/137/68RGB
253/211/81RGB
129/193/95RGB
86/196/210RGB
127/0/1RGB
237/109/0RGB
52/200/0RGB
98/178/48RGB
48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB
35/24/21RGB181/181/181第4章HBase分布式數(shù)據(jù)庫(kù)本章主要講述Hbase分布式數(shù)據(jù)庫(kù)的基本技術(shù)原理通過學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)Hbase分布式數(shù)據(jù)庫(kù)原理。通過本節(jié)學(xué)習(xí)可以掌握:HBase定義和特點(diǎn)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性HBase定義和特點(diǎn)HBase數(shù)據(jù)結(jié)構(gòu)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù)系統(tǒng)。適合于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)??梢赃_(dá)到數(shù)十億行以及數(shù)百萬列),并且對(duì)大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級(jí)別;利用HadoopHDFS(HadoopDistributedFileSystem)作為其文件存儲(chǔ)系統(tǒng),提供實(shí)時(shí)讀寫的分布式數(shù)據(jù)庫(kù)系統(tǒng);利用ZooKeeper作為協(xié)同服務(wù)。HBase定義
HBase定義
HBase定義
HBase定義
Hbase和傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別傳統(tǒng)數(shù)據(jù)庫(kù)是面向于行的存儲(chǔ),也可以稱之為是面向于業(yè)務(wù)的數(shù)據(jù)庫(kù)系統(tǒng),使用這種類型的數(shù)據(jù)庫(kù)建立表格,都是預(yù)先定義好列的,然后向里面一行一行的添加數(shù)據(jù)信息。雖然這種類型的數(shù)據(jù)庫(kù)在業(yè)務(wù)場(chǎng)景下的表現(xiàn)比較良好,但是同樣這種數(shù)據(jù)庫(kù)的拓展性會(huì)很差。不能完全適應(yīng)大數(shù)據(jù)的相關(guān)處理。HBase采用了面向于列的存儲(chǔ),底層是按照列的形式來維護(hù)數(shù)據(jù)并進(jìn)行實(shí)際的存儲(chǔ)操作,用戶也可以進(jìn)行屬性列的拓展。Hbase和傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別ACID原則是數(shù)據(jù)庫(kù)事務(wù)正常執(zhí)行的四個(gè)特性,分別指原子性、一致性、獨(dú)立性及持久性。事務(wù)的原子性(Atomicity):指一個(gè)事務(wù)要么全部執(zhí)行,要么不執(zhí)行.事務(wù)的一致性(Consistency):指事務(wù)的運(yùn)行并不改變數(shù)據(jù)庫(kù)中數(shù)據(jù)的一致性.例如,完整性約束了a+b=10,一個(gè)事務(wù)改變了a,那么b也應(yīng)該隨之改變。獨(dú)立性(Isolation):事務(wù)的獨(dú)立性也有稱作隔離性,是指兩個(gè)以上的事務(wù)不會(huì)出現(xiàn)交錯(cuò)執(zhí)行的狀態(tài).因?yàn)檫@樣可能會(huì)導(dǎo)致數(shù)據(jù)不一致。持久性(Durability):事務(wù)的持久性是指事務(wù)執(zhí)行成功以后,該事務(wù)所對(duì)數(shù)據(jù)庫(kù)所作的更改便是持久的保存在數(shù)據(jù)庫(kù)之中,不會(huì)無緣無故的回滾。傳統(tǒng)數(shù)據(jù)庫(kù)的ACID屬性HBase定義和特點(diǎn)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性HBase定義和特點(diǎn)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)能夠以二維表格表示的數(shù)據(jù)。比如表格數(shù)據(jù)和文本數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)無法以二維表格表示的數(shù)據(jù)。比如視頻、音頻等相關(guān)數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)具有一定的結(jié)構(gòu)化特征,但是又不能全部按照結(jié)構(gòu)化數(shù)據(jù)去表示的數(shù)據(jù),比如xml后綴的數(shù)據(jù)或者網(wǎng)頁數(shù)據(jù)。按行存儲(chǔ)類型:數(shù)據(jù)按行存儲(chǔ)在底層文件系統(tǒng)中按列存儲(chǔ)類型:數(shù)據(jù)按列存儲(chǔ)在底層文件
系統(tǒng)中數(shù)據(jù)庫(kù)相關(guān)概念Hbase在FusionInsight中的位置
區(qū)分和學(xué)習(xí)HBase的架構(gòu)主要是站在進(jìn)程和數(shù)據(jù)劃分兩個(gè)角度。在HBase的進(jìn)程架構(gòu)中,根據(jù)功能的不同,可以將進(jìn)程分為數(shù)據(jù)維護(hù)進(jìn)程和組件管理進(jìn)程兩個(gè)類型。數(shù)據(jù)維護(hù)進(jìn)程主要是Region和RegionServer。數(shù)據(jù)劃分角度中,觀察點(diǎn)主要集中在Region、列族(ColumnFamily)、列(Column)、Row(行)、key-value五個(gè)對(duì)象上。組件管理進(jìn)程是HMaster和Zookeeper。Hbase架構(gòu)總述Hbase架構(gòu)示意圖Region是HBase分布式存儲(chǔ)的最基本單元。Region通過將一個(gè)數(shù)據(jù)表按Key值范圍橫向劃分為一個(gè)個(gè)的子表,實(shí)現(xiàn)分布式存儲(chǔ)。這個(gè)子表,在HBase中被稱作“Region”。每一個(gè)Region都關(guān)聯(lián)一個(gè)Key值范圍,即一個(gè)使用StartKey和EndKey描述的區(qū)間。事實(shí)上,每一個(gè)Region僅僅記錄StartKey就可以了,因?yàn)樗腅ndKey就是下一個(gè)Region的StartKey。RegionStore:一個(gè)Region由一個(gè)或多個(gè)Store組成,每個(gè)Store對(duì)應(yīng)圖中的一個(gè)ColumnFamily。MemStore(MemoryStore):一個(gè)Store包含一個(gè)MemStore,MemStore緩存客戶端向Region插入的數(shù)據(jù)。當(dāng)RegionServer中的MemStore大小達(dá)到配置的容量上限時(shí),RegionServer會(huì)將MemStore中的數(shù)據(jù)“flush”到HDFS中。RegionRegionRegionRegionColumnFamily是Region的一個(gè)物理存儲(chǔ)單元。同一個(gè)Region下面的多個(gè)ColumnFamily,位于不同的路徑下面。ColumnFamily信息是表級(jí)別的配置。也就是說,同一個(gè)表的多個(gè)Region,都擁有相同的ColumnFamily信息(例如,都有兩個(gè)ColumnFamily,且不同Region的同一個(gè)ColumnFamily配置信息相同)。ColumnFamilyKeyValue具有特定的結(jié)構(gòu)。Key部分被用來快速檢索一條數(shù)據(jù)記錄,Value部分用來存儲(chǔ)實(shí)際的用戶數(shù)據(jù)信息。KeyValue作為承載用戶數(shù)據(jù)的基本單元,需要保存一些對(duì)自身的描述信息,例如,時(shí)間戳,類型等等。那么,勢(shì)必會(huì)有一定的結(jié)構(gòu)化空間開銷。key-valuerowkey是行的主鍵,而且HBase只能用一個(gè)rowkey。columnkey是第二維,數(shù)據(jù)按rowkey字典排序后,如果rowkey相同,則是根據(jù)columnkey來排序的,也是按字典排序。HBase架構(gòu)(2)Hbase架構(gòu)示意圖RegionServer是HBase的數(shù)據(jù)服務(wù)進(jìn)程。負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請(qǐng)求。Region被交由RegionServer管理。實(shí)際上,所有用戶數(shù)據(jù)的讀寫請(qǐng)求,都是和RegionServer上的Region進(jìn)行交互。Region可以在RegionServer之間發(fā)生轉(zhuǎn)移。RegionServerHMaster進(jìn)程負(fù)責(zé)管理所有的RegionServer、新RegionServer的注冊(cè)、RegionServerFailover處理,并且負(fù)責(zé)建表/修改表/刪除表以及一些集群操作。HMaster進(jìn)程負(fù)責(zé)所有Region的轉(zhuǎn)移操作、新表創(chuàng)建時(shí)的Region分配、運(yùn)行期間的負(fù)載均衡保障以及RegionServerFailover后的Region接管。HMaster進(jìn)程有主備角色。集群可以配置兩個(gè)HMaster角色,集群?jiǎn)?dòng)時(shí),這些HMaster角色通過競(jìng)爭(zhēng)獲得主HMaster角色。主HMaster只能有一個(gè),備HMaster進(jìn)程在集群運(yùn)行期間處于休眠狀態(tài),不干涉任何集群事務(wù)。主備HMaster的裁決交由Zookeeper決定。HMaster裁決主備HMaster進(jìn)程
做MetaRegion進(jìn)程的同步工作
把元數(shù)據(jù)寫入ZooKeeper中進(jìn)行保護(hù)ZooKeeperHDFS為HBase提供高可靠的文件存儲(chǔ)服務(wù),HBase的數(shù)據(jù)全部存儲(chǔ)在HDFS中。實(shí)際上可以發(fā)現(xiàn)在HBase中,很多關(guān)于保護(hù)的相關(guān)操作都是由外部組件來實(shí)現(xiàn)的。HBase實(shí)現(xiàn)了一個(gè)非常良好的組件直接的協(xié)同交互,這樣也可以保證相同的功能不會(huì)在組件之間產(chǎn)生冗余的情況。關(guān)于數(shù)據(jù)的保護(hù),HBase對(duì)數(shù)據(jù)的保護(hù)其實(shí)都是由HDFS來實(shí)現(xiàn)的,具體就可以理解為是HDFS的多數(shù)據(jù)副本機(jī)制來實(shí)現(xiàn)的。HDFSHBase定義和特點(diǎn)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性在普通情況下,如果用戶已知數(shù)據(jù)的位置,使用精確查找,那么首先用戶會(huì)通過客戶端發(fā)起請(qǐng)求。Client收到用戶請(qǐng)求之后會(huì)通過ZooKeeper尋找到meta表所在RegionServer。meta表中記載著各個(gè)UserRegion信息(rowkey范圍,所在RegionServer),通過rowkey查找meta表,獲取所要讀取的Region所在RegionServer。最終Client將請(qǐng)求發(fā)送到該RegionServer,由其具體處理數(shù)據(jù)讀取請(qǐng)求,并在讀取到數(shù)據(jù)后返回到客戶端。HBase讀流程精確查找數(shù)據(jù)的流程比較簡(jiǎn)單,但是對(duì)用戶對(duì)數(shù)據(jù)的了解有極高的要求,一般情況下,用戶都是會(huì)給出一個(gè)篩選的條件進(jìn)行篩查查詢。這時(shí)候就需要使用到Scanner查詢器。Scanner可以理解為一個(gè)棧,一個(gè)store里面有memstore和HFile,當(dāng)我們執(zhí)行查詢的時(shí)候,就會(huì)打開memstore的棧和各個(gè)HFile的棧,先從各個(gè)棧中poll出一條數(shù)據(jù),然后做排序,next返回排序后的第一個(gè)數(shù)據(jù),然后該棧繼續(xù)poll出一條數(shù)據(jù),繼續(xù)排序。HBase讀流程HBase定義和特點(diǎn)HBase數(shù)據(jù)結(jié)構(gòu)HBase架構(gòu)HBase讀寫流程HBase增強(qiáng)特性二級(jí)索引在實(shí)際應(yīng)用中,用戶需要存儲(chǔ)大大小小的數(shù)據(jù),比如圖像數(shù)據(jù)、文檔。小于10MB的數(shù)據(jù)一般都可以存儲(chǔ)在HBase上,對(duì)于小于100KB的數(shù)據(jù),HBase的讀寫性能是最優(yōu)的。如果存放在HBase的數(shù)據(jù)大于100KB甚至到10MB時(shí),插入同樣個(gè)數(shù)的數(shù)據(jù)文件,其數(shù)據(jù)量很大,會(huì)導(dǎo)致頻繁的compaction和split,占用很多CPU,磁盤IO頻率很高,性能嚴(yán)重下降。MOB請(qǐng)簡(jiǎn)述Hbase的數(shù)據(jù)庫(kù)特點(diǎn)?請(qǐng)簡(jiǎn)述KeyValue的組成結(jié)構(gòu)?請(qǐng)簡(jiǎn)述Hbase的架構(gòu)組成?請(qǐng)簡(jiǎn)述文件合并的作用?請(qǐng)簡(jiǎn)述二級(jí)索引的優(yōu)勢(shì)?
3.
MemStore是整個(gè)Region共享的?正確錯(cuò)誤4.元數(shù)據(jù)Region保存在哪里?A. RegionB. RegionServerC. HmasterD. Zookeeper
描述了HBase定義和特點(diǎn)講解了HBase
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何報(bào)考執(zhí)業(yè)藥師?-2026年政策適配+全流程避坑指南
- 2024-2025學(xué)年陜西省咸陽市禮泉縣高二下學(xué)期期中考試歷史試題(解析版)
- 2024-2025學(xué)年江蘇省連云港市灌云縣、灌南縣部分學(xué)校高二下學(xué)期3月考試歷史試題(解析版)
- 2026年教育咨詢師專業(yè)認(rèn)證題庫(kù)教育咨詢方法與技巧考試題目
- 心電圖知識(shí)教學(xué)課件
- 河北省發(fā)票管理培訓(xùn)課件
- 標(biāo)準(zhǔn)化廠房工程量清單編制方案
- 外墻施工進(jìn)展匯報(bào)制度方案
- 2025 小學(xué)六年級(jí)道德與法治上冊(cè)虛假宣傳防范課件
- 施工現(xiàn)場(chǎng)物資管理方案
- 機(jī)動(dòng)車檢驗(yàn)機(jī)構(gòu)管理年度評(píng)審報(bào)告
- 監(jiān)獄消防培訓(xùn) 課件
- 道路建設(shè)工程設(shè)計(jì)合同協(xié)議書范本
- 白塞病患者外陰潰瘍護(hù)理查房
- 西葫蘆的栽培技術(shù)
- 2025年安徽阜陽市人民醫(yī)院校園招聘42人筆試模擬試題參考答案詳解
- 2024~2025學(xué)年江蘇省揚(yáng)州市樹人集團(tuán)九年級(jí)上學(xué)期期末語文試卷
- 2026屆江蘇省南京溧水區(qū)四校聯(lián)考中考一模物理試題含解析
- 2025年黑龍江省公務(wù)員《申論(行政執(zhí)法)》試題(網(wǎng)友回憶版)含答案
- 公司大型綠植自營(yíng)活動(dòng)方案
- 智能客戶服務(wù)實(shí)務(wù)(第三版)課件 項(xiàng)目三 掌握客戶服務(wù)溝通技巧
評(píng)論
0/150
提交評(píng)論