版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第4章HDFS分布式文件系統(tǒng)前言本章主要講述HDFS分布式文件系統(tǒng)的基本技術原理單擊此處添加標題通過學習本節(jié)將能夠?qū)W習HDFS分布式文件系統(tǒng)架構原理。01本節(jié)概述HDFS技術介紹HDFS架構設計HDFS數(shù)據(jù)保護機制熟悉華為云服務中OBS產(chǎn)品HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲策略02學習目標目錄01HDFS技術介紹02HDFS架構設計03HDFS數(shù)據(jù)保護機制04HDFS數(shù)據(jù)組織05HDFS數(shù)據(jù)存儲策略文件系統(tǒng)相關介紹文件名:在文件系統(tǒng)中,文件名是用于定位存儲位置。0201文件系統(tǒng)定義:文件系統(tǒng)是一種存儲和組織計算機數(shù)據(jù)的方法,它使得對數(shù)據(jù)訪問和查找變得容易。數(shù)據(jù)塊(Block):存儲文件的最小單元。對存儲介質(zhì)劃分了固定的區(qū)域,使用時按這些區(qū)域分配使用。0403元數(shù)據(jù)(Metadata):保存文件屬性的數(shù)據(jù),如文件名,文件長度,文件所屬用戶組,文件存儲位置等。元數(shù)據(jù)(補充)1.文件和目錄自身的屬性信息,
例如文件名、目錄名、父目錄信息、文件大小、創(chuàng)建時間、修改時間等。2.記錄文件內(nèi)容存儲相關信息,
例如文件分塊情況、副本個數(shù)、每個副本所在的DataNode信息等。3.用于記錄HDFS中所有DataNode的信息,
實現(xiàn)對DataNode的管理。從類型上講,元數(shù)據(jù)有三類重要信息:1.NameNode的本地磁盤文件:元數(shù)據(jù)鏡像文件(fsimage):保存文件系統(tǒng)的完整元數(shù)據(jù)快照。元數(shù)據(jù)操作日志文件(edits):記錄所有對文件系統(tǒng)的修改操作。2.DataNode的上報信息:DataNode定期向NameNode匯報自身存儲的block信息及狀態(tài)。從來源上講,元數(shù)據(jù)主要來源于以下兩部分:文件系統(tǒng)相關介紹文件系統(tǒng)相關介紹分布式文件系統(tǒng)分布式文件系統(tǒng)把文件分布存儲到多個計算機節(jié)點上,成千上萬的計算機節(jié)點構成計算機集群。目前的分布式文件系統(tǒng)所采用的計算機集群都是普通硬件構成,這大大降低了硬件開銷。定義:分布式文件系統(tǒng)(DistributedFileSystem)是一種通過網(wǎng)絡實現(xiàn)文件在多臺主機上進行分布式存儲的文件系統(tǒng)。HDFS簡介HDFS(HadoopDistributedFileSystem)是運行在通用硬件(所謂通用硬件就是指軟件對于底層的硬件平臺的配置和設備沒有需求,可以隨意搭建并且兼容)上的分布式文件系統(tǒng)。HDFS簡介
流式數(shù)據(jù):
又稱為流數(shù)據(jù),是一組
順序、大量、快速、連續(xù)到
達的數(shù)據(jù)序列。HDFS支持的主要是大文件流數(shù)據(jù),對于離散的小文件支持性較弱,尤其是對延遲比較敏感的應用,由于HDFS要支持高吞吐量,所以勢必要以犧牲延遲作為代價。HDFS適合做什么?
大文件存儲、流式數(shù)據(jù)訪問HDFS不適合做什么?
大量小文件、隨機寫入、低延遲讀取問題:HDFS簡介系統(tǒng)設計目標1HDFS簡介系統(tǒng)設計目標2作業(yè)點評1、30人提交,14人未交2、本地機向虛擬機傳送軟件,放置目錄不對/root,應該為/opt。3
、網(wǎng)絡配置問題。4、對mkdir,cd,ls,vi等命令使用不熟悉,命令與路徑之間要空格5、很多同學沒有安裝完成Hadoop軟件。HDFS應用場景HDFS是Hadoop技術框架中的分布式文件系統(tǒng),對部署在多臺獨立物理機器上的文件進行管理。HDFS可應用于以下幾種場景:公安、政府部門、事業(yè)單位數(shù)據(jù)網(wǎng)站用戶行為數(shù)據(jù)存儲氣象數(shù)據(jù)存儲目錄01HDFS技術介紹02HDFS架構設計03HDFS數(shù)據(jù)保護機制04HDFS數(shù)據(jù)組織05HDFS數(shù)據(jù)存儲策略HDFS組件構成——HDFS在FusionInsight產(chǎn)品的位置HDFS組件構成
在大數(shù)據(jù)的組件架構中,HDFS提供的是整個結(jié)構最底層的文件存儲功能,它組織了文件形式,將數(shù)據(jù)切分為數(shù)據(jù)塊存儲起來,并且記載和維護元數(shù)據(jù)。HDFS分為三個組件:Namenode,Datanode,ClientNameNodeNamenode用于存儲生成元數(shù)據(jù)。
該進程是由HDFS調(diào)入到內(nèi)存中運行的。NameNode作為元數(shù)據(jù)的維護進程,為了能夠提升整體讀取的效率,將元數(shù)據(jù)的維護進程搭載在內(nèi)存中進行運行,但是內(nèi)存中的數(shù)據(jù)是易失的,只能用于元數(shù)據(jù)的使用,所以元數(shù)據(jù)還是需要在DataNode中進行存儲。
當系統(tǒng)啟動之后,服務器會拉起HDFS進程,然后NameNode加載到內(nèi)存中,然后NameNode會加載元數(shù)據(jù)鏡像文件到自身內(nèi)存中。
Datanode用于存儲實際的數(shù)據(jù),每個Datanode會將自己維護的數(shù)據(jù)塊信息上報到Namenode,運行多個實例。
HDFS默認最小的存儲空間為block,每個block默認的大小為128MB。DataNode除了需要維護數(shù)據(jù)之外,還需要留有一部分的空間用于存儲元數(shù)據(jù)鏡像文件Fsimage。
如果NameNode和DataNode是部署在一起的,那么Fsimage就在DataNode上,其實相當于是在服務器的存儲介質(zhì)上。
如果NameNode和DataNode是分開部署的,那么就相當于Fsimage是存儲在部署NameNode的服務器上的。如圖所示:DataNodeClient
支持業(yè)務訪問HDFS,并從Namenode和Datanode中獲取數(shù)據(jù),返回給用戶。多個業(yè)務和實例一起運行。
這里所說的Client并不是指實際的用戶應用,而是HDFS本身自帶的進程,通過該進程可以訪問HDFS。相當于HDFS是一間房,Client提供了進入的門,Client提供的接口主要有JDBC和ODBC接口。HDFS技術介紹HDFS架構設計HDFS數(shù)據(jù)保護機制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲策略HDFS的高可靠性(HA)架構在基本架構上增加了以下組件:ZooKeeper分布式協(xié)調(diào),主要用來存儲HA下的狀態(tài)文件,主備信息。ZK個數(shù)建議3個及以上且為奇數(shù)個。NameNode主備NameNode主備模式,主提供服務,備合并元數(shù)據(jù)并作為主的熱備。ZKFCZKFC(ZooKeeperFailoverController)用于控制NameNode節(jié)點的主備狀態(tài)。JNJN(JournalNode)用于共享存儲NameNode生成的Editlog。HDFS高可靠性(HA)HDFS高可靠性(HA)第四周作業(yè)點評1、30人提交,13人未交2、提交的同學有一部分同學是沒做完的數(shù)據(jù)副本機制第一個副本在本地機器第二個副本在遠端機架的節(jié)點第三個選擇和第一個副本相同機架的不同節(jié)點第四個及以上,隨機選擇副本存放位置。副本放置策略:Distance(Rack1/D1,Rack1/D1)=0同一臺服務器的距離為0Distance(Rack1/D1,Rack1/D3)=2同一機架不同的服務器距離為2Distance(Rack1/D1,Rack2/D1)=4不同機架的服務器距離為4副本距離計算公式:元數(shù)據(jù)持久化元數(shù)據(jù)持久化健壯機制HDFS技術介紹HDFS架構設計HDFS數(shù)據(jù)保護機制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲策略HDFS數(shù)據(jù)寫流程HDFS數(shù)據(jù)寫流程HDFS數(shù)據(jù)寫流程HDFS數(shù)據(jù)讀流程HDFS數(shù)據(jù)讀流程HDFS數(shù)據(jù)讀流程提交情況:34人提交,10人未交,滿分7人未做完要求的所有實驗部分指令不熟悉部分同學態(tài)度不端正存在問題:第五周課后
作業(yè)點評HDFS技術介紹HDFS架構設計HDFS數(shù)據(jù)保護機制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲策略配置HDFS數(shù)據(jù)存儲策略01默認情況下,HDFSNameNode自動選擇DataNode保存數(shù)據(jù)的副本。02DataNode上存在不同的存儲設備,
數(shù)據(jù)需要選擇一個合適的存儲設備分級存儲數(shù)據(jù)。DataNode不同目錄中的數(shù)據(jù)重要程度不同,數(shù)據(jù)需要根據(jù)目錄標簽選擇一個合適的DataNode節(jié)點保存DataNode集群使用了異構服務器,關鍵數(shù)據(jù)需要保存在具有高度可靠性的節(jié)點組中。在實際業(yè)務中,存在以下場景:一、配置HDFS數(shù)據(jù)存儲策略-分級存儲HDFS的異構分級存儲框架提供以下四種存儲介質(zhì)RAM_DISK(內(nèi)存虛擬硬盤)DISK(機械硬盤)ARCHIVE(高密度低成本存儲介質(zhì))SSD(固態(tài)硬盤)四種存儲類型的存儲設備配置DataNode使用分級存儲:01配置HDFS數(shù)據(jù)存儲策略-分級存儲策略ID名稱Block放置位置(副本數(shù))備選存儲策略副本的備選存儲策略15LAZY_PERSISTRAM_DISK:1,DISK:n-1DISKDISK12All_SSDSSD:nDISKDISK10ONE_SSDSSD:1,DISK:n-1SSD,DISKSSD,DISK7HOT(default)DISK:n<none>ARCHIVE5WARMDISK:1,ARCHIVE:n-1ARCHIVE,DISKARCHIVE,DISK2COLDARCHIVE:n<none><none>通過對四種存儲類型進行合理組合,即可形成適用于不同場景的存儲策略。1.標簽存儲概念?HDFS的標簽存儲(StoragePolicy),可以理解為給數(shù)據(jù)貼“標簽”,告訴HDFS這些數(shù)據(jù)應該存在哪里(比如放內(nèi)存、SSD、機械硬盤,還是歸檔存儲),即智能存儲數(shù)據(jù)。類似在家里整理東西:二、配置HDFS數(shù)據(jù)存儲策略-標簽存儲
2.為什么要用標簽存儲?二、配置HDFS數(shù)據(jù)存儲策略-標簽存儲
應用場景:3.配置DataNode使用標簽存儲用戶通過數(shù)據(jù)特征靈活配置HDFS數(shù)據(jù)塊存放策略:二、配置HDFS數(shù)據(jù)存儲策略-標簽存儲
為一個HDFS目錄設置一個標簽表達式,每個DataNode可以對應一個或多個標簽;當基于標簽的數(shù)據(jù)塊存放策略為指定目錄下的文件選擇DataNode節(jié)點進行存放時,根據(jù)文件的標簽表達式選擇出將要存放的DataNode節(jié)點范圍;在這個DataNode節(jié)點范圍內(nèi),遵守下一個指定的數(shù)據(jù)塊存放策略進行存放。二、配置HDFS數(shù)據(jù)存儲策略-標簽存儲
三、配置HDFS數(shù)據(jù)存儲策略-節(jié)點組存儲三、配置HDFS數(shù)據(jù)存儲策略-節(jié)點組存儲3.配置DataNode使用節(jié)點組存儲:關鍵數(shù)據(jù)根據(jù)實際業(yè)務需要保存在具有高度可靠性的節(jié)點中,此時DataNode組成了異構集群。通過修改DataNode的存儲策略,系統(tǒng)可以將數(shù)據(jù)強制保存在指定的節(jié)點組中。使用約束:第一份副本將從強制機架組(機架組2)中選出,如果在強制機架組中沒有可用節(jié)點,則寫入失敗。第二份副本將從本地客戶端機器或機架組中的隨機節(jié)點中(當客戶端機器機架組不為強制機架組時)選出。第三份副本將從其他機架組中選出。各副本應存放在不同的機架組中。如果所需副本的數(shù)量大于可用的機架組數(shù)量,則會將多出的副本存放在隨機機架組中。三、配置HDFS數(shù)據(jù)存儲策略-節(jié)點組存儲Colocation同分布同分布的概念很類似于存儲當中的一致性組的概念,由于針對某一些業(yè)務需要保證數(shù)據(jù)的一致性。同分布的概念就是指,針對某一些在業(yè)務上有關聯(lián)性的數(shù)據(jù),要盡可能的將這些數(shù)據(jù)分布到同一個節(jié)點和機架上,這樣保證在進行數(shù)據(jù)的讀取或者寫入的時候,可以盡快的訪問到目標數(shù)據(jù),而且針對數(shù)據(jù)的可靠性也會隨之提升。Colocation同分布
請簡述HDFS為什么不適合存儲小文件?請簡述NameNode的主要作用?請簡述HDFS的HA原理?請簡述元數(shù)據(jù)持久化的必要性?請簡述HDFS數(shù)據(jù)寫時,NameNode的主要作用?請簡述HDFS同分布的優(yōu)勢?
HDFS默認存放3份副本,相當于一份數(shù)據(jù)存儲4份,如果我們配置了多副本,這種情況下,前面的3份副本按副本存儲策略安排,第4份副本及以上隨機存放?正確錯誤2.Client讀取元數(shù)據(jù)使用哪個內(nèi)部進程進行通信?A. FSDataOutputStreamB. FSDatainputStreamC. DistributedFileSystemD. ClientNode
本章總結(jié)講解了HDFS數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒童醫(yī)院生命體征監(jiān)測系統(tǒng)建設方案
- 標準化廠房涂料選擇與施工方案
- 2025至2030智能農(nóng)業(yè)技術應用現(xiàn)狀及市場推廣策略研究報告
- 倉庫設施維修保養(yǎng)方案
- 邊坡風化層處理技術方案
- 2026年甘肅有色冶金職業(yè)技術學院單招職業(yè)技能考試模擬測試卷附答案
- 2025年廣州鐵路職業(yè)技術學院單招職業(yè)傾向性考試題庫附答案
- 2025年鄭州工業(yè)安全職業(yè)學院輔導員考試筆試題庫附答案
- 小學勞動教育實踐基地建設方案
- 醫(yī)院心理健康服務改善方案
- 福建省寧德市2025-2026學年高三上學期期末考試語文試題(含答案)
- 2026屆高考語文復習:小說人物形象復習
- 2026及未來5年中國防病毒網(wǎng)關行業(yè)市場全景調(diào)查及發(fā)展前景研判報告
- 2026年山東省煙草專賣局(公司)高校畢業(yè)生招聘流程筆試備考試題及答案解析
- 八年級下冊《昆蟲記》核心閱讀思考題(附答案解析)
- 煤礦復產(chǎn)安全培訓課件
- 2025年中職藝術設計(設計理論)試題及答案
- 2026屆高考歷史二輪突破復習:高考中外歷史綱要(上下兩冊)必考常考知識點
- 鐵路交通法律法規(guī)課件
- 2025年體育行業(yè)專家聘用合同范本
- 對于尼龍件用水煮的原因分析
評論
0/150
提交評論