版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章分布式文件系統(tǒng)HDFS《大數(shù)據(jù)技術(shù)基礎(chǔ)教程》學(xué)習(xí)目標(biāo)/Target了解HDFS簡介
理解HDFS設(shè)計原則理解HDFS核心概念掌握HDFS體系結(jié)構(gòu)學(xué)習(xí)目標(biāo)/Target
理解HDFS存儲原理
掌握HDFS數(shù)據(jù)讀寫流程
掌握HDFS編程實現(xiàn)章節(jié)概述/
SummaryHadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)是針對GFS的開源實現(xiàn),它是Hadoop兩大核心組成部分之一,提供了在廉價服務(wù)器集群中進行大規(guī)模分布式文件存儲的能力。目錄/Contents010203HDFS簡介HDFS設(shè)計原則HDFS核心概念04HDFS體系結(jié)構(gòu)目錄/Contents050607HDFS存儲原理HDFS數(shù)據(jù)讀寫流程HDFS編程實現(xiàn)HDFS簡介11.1HDFS簡介HDFS,是HadoopDistributedFileSystem的簡稱,是Hadoop抽象文件系統(tǒng)的一種實現(xiàn)。Hadoop抽象文件系統(tǒng)可以與本地系統(tǒng)、AmazonS3等集成,甚至可以通過Web協(xié)議(webhsfs)來操作。HDFS設(shè)計原則22.1設(shè)計目標(biāo)(1)存儲非常大的文件(2)采用流式的數(shù)據(jù)訪問方式(3)運行于商業(yè)硬件上2.2HDFS不適合的應(yīng)用類型(1)低延時的數(shù)據(jù)訪問(2)大量小文件(3)多方讀寫,需要任意的文件修改HDFS核心概念33.1Blocks物理磁盤中有塊的概念,磁盤的物理Block是磁盤操作最小的單元,讀寫操作均以Block為最小單元,一般為512Byte。HDFS的Block塊比一般單機文件系統(tǒng)大得多,默認為128M。HDFS的文件被拆分成block-sized的chunk,chunk作為獨立單元存儲。比Block小的文件不會占用整個Block,只會占據(jù)實際大小。例如,如果一個文件大小為1M,則在HDFS中只會占用1M的空間,而不是128M。3.2Namenode&Datanode(1)NamenodeNamenode存放文件系統(tǒng)樹及所有文件、目錄的元數(shù)據(jù)。元數(shù)據(jù)持久化為2種形式:namespaceimage和editlog。HDFS針對單點故障提供了2種解決機制:1)備份持久化元數(shù)據(jù)2)SecondaryNamenode3.2Namenode&Datanode圖4-2第二名稱節(jié)點工作示意圖3.2Namenode&Datanode(2)Datanode數(shù)據(jù)節(jié)點負責(zé)存儲和提取Block,讀寫請求可能來自namenode,也可能直接來自客戶端。數(shù)據(jù)節(jié)點周期性向Namenode匯報自己節(jié)點上所存儲的Block相關(guān)信息。3.3BlockCachingDataNode通常直接從磁盤讀取數(shù)據(jù),但是頻繁使用的Block可以在內(nèi)存中緩存。默認情況下,一個Block只有一個數(shù)據(jù)節(jié)點會緩存。3.4HDFSFederationNameNode的內(nèi)存會制約文件數(shù)量,HDFSFederation提供了一種橫向擴展NameNode的方式。在Federation模式中,每個NameNode管理命名空間的一部分,例如一個NameNode管理/user目錄下的文件,另一個NameNode管理/share目錄下的文件。3.5HDFSHA(HighAvailability高可用性)當(dāng)NameNode故障時,常規(guī)的做法是使用元數(shù)據(jù)備份重新啟動一個NameNode。元數(shù)據(jù)備份可能來源于:多文件系統(tǒng)寫入中的備份或者SecondNameNode的檢查點文件。啟動新的Namenode之后,需要重新配置客戶端和DataNode的NameNode信息。HDFS體系結(jié)構(gòu)44.1HDFS體系結(jié)構(gòu)的優(yōu)點(1)處理超大文件(2)流式的訪問數(shù)據(jù)(3)運行在廉價的商用機器集群上4.2HDFS體系結(jié)構(gòu)的缺點(1)不適合低延遲數(shù)據(jù)訪問(2)無法高效存儲小文件(3)不支持多用戶寫入及任意修改文件HDFS存儲原理55.1數(shù)據(jù)的冗余存儲(1)加快數(shù)據(jù)傳輸速度。當(dāng)多個客戶端需要同時訪問同一個文件時,可以讓各個客戶端分別從不同的數(shù)據(jù)塊副本中讀取數(shù)據(jù),這就大大加快了數(shù)據(jù)傳輸速度。(2)容易檢查數(shù)據(jù)錯誤。HDFS的數(shù)據(jù)節(jié)點之間通過網(wǎng)絡(luò)傳輸數(shù)據(jù),采用多個副本可以很容易判斷數(shù)據(jù)傳輸是否出錯。(3)保證數(shù)據(jù)的可靠性。即使某個數(shù)據(jù)節(jié)點出現(xiàn)故障失效,也不會造成數(shù)據(jù)丟失。5.2數(shù)據(jù)的存取策略首先,HDFS將每一個文件的數(shù)據(jù)進行分塊存儲,同時每一個數(shù)據(jù)塊又保存有多個副本,這些數(shù)據(jù)塊副本分布在不同的機器節(jié)點上,這種數(shù)據(jù)分塊存儲+副本的策略是HDFS保證可靠性和性能的關(guān)鍵。HDFS采用一種稱為機架感知的策略來改進數(shù)據(jù)的可靠性、可用性和網(wǎng)絡(luò)帶寬的利用率。在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是第一個副本放置在上傳文件的DataNode服務(wù)器節(jié)點上,如果是在集群外提交,則隨機放置在一個DataNode服務(wù)器節(jié)點上。第二個副本放置在與第一個DataNode不同的機架的一個節(jié)點上。第三個副本放置在與第二個DataNode相同的機架的不同節(jié)點上。5.3數(shù)據(jù)錯誤與恢復(fù)HDFS主要包括以下3種情形。(1)名稱節(jié)點出錯(2)數(shù)據(jù)節(jié)點出錯(3)數(shù)據(jù)出錯HDFS數(shù)據(jù)讀寫流程66.1讀數(shù)據(jù)流程6.1讀數(shù)據(jù)流程6.2寫數(shù)據(jù)流程6.2寫數(shù)據(jù)流程HDFS編程實現(xiàn)77.1HDFS常用shell命令7.2HDFSJavaAPI及應(yīng)用(1)Maven項目的pom.xml文件的配置(2)例題中涉及的主要類Configuration:該類的對象封裝了客戶端或者服務(wù)器的配置FileSystem:FileSystem是HDFSJavaAPI的核心工具類,該類是一個抽象類,其中封裝了很多操作文件的方法,使用這些方法可以很輕松地操作HDFS中的文件。(3)獲取hdfs上文件屬性的功能7.2HDFSJavaAPI及應(yīng)用7.2HDFSJavaAPI及應(yīng)用7.2HDFSJavaAPI及應(yīng)用本章小結(jié)本章主要介紹了Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS),它是Hadoop兩大核心組成部分之一,提供了在廉價服務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 消防安全隱患排查啟示
- 2026陜西省商業(yè)學(xué)校分學(xué)科教師招聘(7人)備考題庫附答案
- 2026浙江金華市婺城區(qū)城市發(fā)展控股集團有限公司招聘59人備考題庫必考題
- 2026河北滄州市直衛(wèi)健系統(tǒng)公立醫(yī)院高層次人才選聘67人考試備考題庫附答案
- 2025年周口文泰高級中學(xué)招聘教師4筆試真題
- 2026廣東廣州市黃埔區(qū)人民政府南崗街道辦事處招聘政府聘員5人備考題庫及參考答案詳解1套
- 2026廣東清遠上帥鎮(zhèn)人民政府公益性崗位招聘2人的備考題庫及答案詳解(考點梳理)
- 2025江西九江市湖口縣應(yīng)急管理局招聘3人備考題庫及一套參考答案詳解
- 2026年航空航天行業(yè)創(chuàng)新報告及未來五至十年行業(yè)分析報告
- 2025年智能機器人設(shè)備制造業(yè)協(xié)同創(chuàng)新平臺構(gòu)建可行性報告
- 顱內(nèi)腫瘤切除術(shù)手術(shù)配合
- CRRT患者體位管理與并發(fā)癥預(yù)防方案
- 財政評審應(yīng)急預(yù)案
- 超市食品安全培訓(xùn)記錄課件
- 胰島細胞瘤課件
- 生鮮采購員知識培訓(xùn)內(nèi)容課件
- 【語文】湖北省武漢市光谷第二小學(xué)小學(xué)一年級上冊期末試題
- 工程延期意向申請書
- 員工錄用通知書(offer)模板
- 折彎機操作工作業(yè)指導(dǎo)書
- 2025空乘專業(yè)單招面試常見問題及答案
評論
0/150
提交評論