Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 課件 項目6 購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù) 任務(wù)1實施 HBase系統(tǒng)架構(gòu)_第1頁
Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 課件 項目6 購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù) 任務(wù)1實施 HBase系統(tǒng)架構(gòu)_第2頁
Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 課件 項目6 購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù) 任務(wù)1實施 HBase系統(tǒng)架構(gòu)_第3頁
Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 課件 項目6 購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù) 任務(wù)1實施 HBase系統(tǒng)架構(gòu)_第4頁
Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用 課件 項目6 購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù) 任務(wù)1實施 HBase系統(tǒng)架構(gòu)_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目6購物網(wǎng)站中的海量數(shù)據(jù)庫存儲技術(shù)任務(wù)1實施HBase系統(tǒng)架構(gòu)項目背景

隨著互聯(lián)網(wǎng)電商的快速發(fā)展和數(shù)據(jù)量的急劇增長,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法應(yīng)對在數(shù)據(jù)規(guī)模劇增時導(dǎo)致的系統(tǒng)擴展性和性能問題,無法滿足大規(guī)模數(shù)據(jù)實時處理應(yīng)用的需求,無法滿足購物網(wǎng)站中海量數(shù)據(jù)的存儲需求。本項目將介紹大數(shù)據(jù)領(lǐng)域的海量數(shù)據(jù)庫存儲技術(shù)HBase,通過HBase數(shù)據(jù)存儲技術(shù)來解決大數(shù)據(jù)時代購物網(wǎng)站后臺數(shù)據(jù)的存儲及實時處理應(yīng)用的需求。知識目標了解HBase基本概念。理解HBase架構(gòu)。掌握HBase數(shù)據(jù)模型。掌握HBase特點

及其應(yīng)用場景。技能目標在實際應(yīng)用中,能夠進行HBase數(shù)據(jù)庫的安裝與部署;能夠使用HBase數(shù)據(jù)庫開發(fā)開發(fā)項目。素質(zhì)目標

培養(yǎng)職業(yè)道德和責(zé)任意識,注重數(shù)據(jù)安全與隱私保護的重要性,培養(yǎng)學(xué)生或從業(yè)者對用戶數(shù)據(jù)的尊重和保護意識。促進團隊合作精神,引導(dǎo)團隊協(xié)作精神,培養(yǎng)團隊合作能力以及有效溝通技巧。鼓勵創(chuàng)新與持續(xù)學(xué)習(xí),不斷探索HBase的新功能及其應(yīng)用場景,激發(fā)創(chuàng)新思維,并認識到終身學(xué)習(xí)的重要性,以適應(yīng)快速發(fā)展的信息技術(shù)領(lǐng)域。content目錄01HBase組件的功能和數(shù)據(jù)存儲介紹02Region服務(wù)器工作原理03HBase系統(tǒng)架構(gòu)HBase組件功能介紹01HBase組件詳細功能介紹接下來詳細說明HBase每個組件的功能和數(shù)據(jù)存儲中過程中的主要任務(wù)。1.客戶端Client在Client中包含了訪問HBase的各種接口,如HBaseshell、JavaAPI等。Client還維護了對應(yīng)的cache來加速HBase的訪問,如Meta元數(shù)據(jù)的信息。Meta元數(shù)據(jù)信息的表結(jié)構(gòu)如下表:HBase中的非關(guān)系型數(shù)據(jù)模型結(jié)構(gòu)

圖Meta元數(shù)據(jù)信息表結(jié)構(gòu)2.ZooKeeper服務(wù)器通過ZoopKeeper來保證集群中只有一個Master在運行,如果Master異常,會通過競爭機制產(chǎn)生新的Master提供服務(wù)。存儲所有Region的尋址入口,實時監(jiān)控HRegionServer的狀態(tài),將Region服務(wù)器的上線和下線信息實時通知給Master,存儲HBase的Schema和Table元數(shù)據(jù),包括有哪些Table、每個Table有哪些ColumnFamily等數(shù)據(jù)。3.Master主服務(wù)器

Master是主節(jié)點服務(wù),管理Region服務(wù)器。Master的功能如下:①協(xié)調(diào)數(shù)據(jù)庫元數(shù)據(jù)變化。②監(jiān)控Region服務(wù)器節(jié)點。③管理Region服務(wù)器的負載均衡。④失敗Region服務(wù)器重啟。⑤分配Region到Region服務(wù)器,在Region服務(wù)器退出時遷移其內(nèi)的Region到其他Region服務(wù)器上。⑥Admin職能:Table的新建、刪除、修改等的實現(xiàn)。4.Region服務(wù)器Region服務(wù)器是HBase集群的工作節(jié)點,負責(zé)存儲和處理數(shù)據(jù)。Region服務(wù)器的主要功能如下:①存儲和管理Regions。②處理讀取/寫入請求。③當region數(shù)據(jù)過多時,自動分割為regions。④表操作直接和客戶端連接。⑤負責(zé)和底層HDFS的交互,存儲數(shù)據(jù)到HDFS。⑥負責(zé)Store?le的合并工作。HBase組件詳細功能介紹5.Region

在Region服務(wù)器內(nèi)可以有多個Region,一張HBase表被可被分割為多個Region;每個Region包含多個行數(shù)據(jù);HBase表和Region及其內(nèi)部存儲文件StoreFile之間的關(guān)系,如圖所示。HBase表和Region結(jié)構(gòu)關(guān)系圖HBase組件詳細功能介紹6.HLogHBase采用HLog日志文件保證系統(tǒng)恢復(fù)。HBase系統(tǒng)為每個Region服務(wù)器配置了一個HLog文件,它是一種預(yù)寫式日志(WriteAheadLog);用戶更新數(shù)據(jù)必須首先寫入日志后,才能寫入MemStore緩存;并且,直到MemStore緩存內(nèi)容對應(yīng)的日志已經(jīng)寫入磁盤,該緩存內(nèi)容才能被刷寫到磁盤。在系統(tǒng)出現(xiàn)故障的時候,數(shù)據(jù)可以通過這個日志文件重建。7.Store

每一個Region由一個或多個Store組成,至少有一個Store。每個ColumnFamily列簇建一個Store存儲文件;一個Store由一個memStore和若干StoreFile組成。8.StoreFilememStore內(nèi)存中的數(shù)據(jù)寫到文件后就是StoreFile,StoreFile底層是以HFile的格式保存當store?le文件的數(shù)量增長到一定閾值后,系統(tǒng)會進行合并(minor、majorcompaction),在合并過程中會進行版本合并和刪除工作(majar),形成更大的StoreFile。HBase組件詳細功能介紹Region服務(wù)器工作原理02拓展內(nèi)容

1.Region服務(wù)器工作原理(1)用戶讀寫數(shù)據(jù)過程

用戶寫入數(shù)據(jù)時,被分配到相應(yīng)Region服務(wù)器去執(zhí)行,用戶數(shù)據(jù)首先被寫入MemStore和HLog中,只有當操作寫入HLog之后,commit()調(diào)用才會將其返回給客戶端。當用戶讀取數(shù)據(jù)時,Region服務(wù)器會首先訪問MemStore緩存,如果找不到,再去磁盤上面的StoreFile中尋找。(2)緩存的刷新系統(tǒng)會周期性地把MemStore緩存里的內(nèi)容刷寫到磁盤的StoreFile文件中,清空緩存,并在HLog里面寫入一個標記。每次刷寫都生成一個新的StoreFile文件,因此,每個Store包含多個StoreFile文件。每個Region服務(wù)器都有一個自己的HLog文件,每次啟動都檢查該文件,確認最近一次執(zhí)行緩存刷新操作之后是否發(fā)生新的寫入操作;如果發(fā)現(xiàn)更新,則先寫入MemStore,再刷寫到StoreFile,最后刪除舊的HLog文件,開始為用戶提供服務(wù)。(3)StoreFile的合并每次刷寫都生成一個新的StoreFile,數(shù)量太多,影響查找速度。調(diào)用Spact()把多個合并成一個,合并操作比較耗費資源,只有數(shù)量達到一個閾值才啟動合并。Store是Region服務(wù)器的核心,多個StoreFile合并成一個Store;單個StoreFile過大時,又觸發(fā)分裂操作,一個父Region被分裂成兩個子Region,如下圖所示。Store工作原理

2.Store工作原理

3.HBase讀流程HBase讀流程如圖所示。①Client先訪問ZooKeeper,獲取hbase:meta表位于哪個RegionServer。②訪問對應(yīng)的RegionServer,獲取hbase:meta表,根據(jù)讀請求的namespace:table/rowkey,查詢出目標數(shù)據(jù)位于哪個RegionServer中的哪個Region中,并將該table的region信息以及meta表的位置信息緩存在客戶端的metacache,以方便下次訪問。③與目標RegionServer進行通信。④分別在BlockCache(讀緩存),MemStore和StoreFile(HFile)中查詢目標數(shù)據(jù),并將查到的所有數(shù)據(jù)進行合并。此處所有數(shù)據(jù)是指同一條數(shù)據(jù)的不同版本(timestamp)或者不同的類型(Put/Delete)。⑤將從文件中查詢到的數(shù)據(jù)塊(Block,HFile數(shù)據(jù)存儲單元,默認大小為64KB)緩存到BlockCache。⑥將合并后的最終結(jié)果返回給客戶端。

4.HBase寫流程

HBase的寫流程主要包括客戶端處理階段、RegionServer處理階段以及后續(xù)的Flush和Compaction過程。(1)客戶端處理階段

客戶端接收用戶的寫入請求,并進行預(yù)處理。根據(jù)集群的元數(shù)據(jù)(存儲在ZooKeeper中),客戶端定位寫入數(shù)據(jù)所在的RegionServer。客戶端將寫入請求發(fā)送給對應(yīng)的RegionServer。(2)RegionServer處理階段RegionServer接收到寫入請求后,首先將數(shù)據(jù)寫入WAL(Write-AheadLog,預(yù)寫日志),以確保數(shù)據(jù)的持久化,即使系統(tǒng)崩潰也能恢復(fù)數(shù)據(jù)。RegionServer將數(shù)據(jù)寫入對應(yīng)Region的列簇MemStore中,以支持快速的讀取操作。(3)Flush和Compaction過程

當MemStore中的數(shù)據(jù)大小達到一定的閾值時,系統(tǒng)會異步執(zhí)行Flush操作,將內(nèi)存中的數(shù)據(jù)寫入HDFS中的HFile文件中,實現(xiàn)數(shù)據(jù)的持久化存儲。隨著時間的推移和數(shù)據(jù)的增加,HDFS中會產(chǎn)生多個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論