大數(shù)據(jù)技術(shù)及應用-基于Python語言 習題解答:第4章 Hadoop分布式文件系統(tǒng)_第1頁
大數(shù)據(jù)技術(shù)及應用-基于Python語言 習題解答:第4章 Hadoop分布式文件系統(tǒng)_第2頁
大數(shù)據(jù)技術(shù)及應用-基于Python語言 習題解答:第4章 Hadoop分布式文件系統(tǒng)_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Hadoop分布式文件系統(tǒng)一、簡答題HDFS和傳統(tǒng)的分布式文件系統(tǒng)相比較,有哪些獨特的特性?。答:傳統(tǒng)的文件系統(tǒng)在存儲數(shù)據(jù)時通常只在一臺主機上的磁盤上進行存儲,如果數(shù)據(jù)量很大,則會遇到存儲容量限制和讀取速度的瓶頸。HDFS采用分布式的數(shù)據(jù)存儲方式,可以把數(shù)據(jù)存儲在單個集群中的數(shù)百個節(jié)點,因此克服了單主機的存儲容量限制。由于HDFS可以保存數(shù)據(jù)的多個副本,因此具有高容錯性,可以克服硬件故障造成的數(shù)據(jù)丟失問題。HDFS提供對應用程序數(shù)據(jù)的高吞吐量訪問,適合處理超大數(shù)據(jù)集的應用程序。此外,HDFS還具有異構(gòu)硬件的兼容性和軟件平臺的可移植性。NameNode和DataNode的功能分別是什么?。答:HDFS集群有兩類節(jié)點以管理節(jié)點-工作節(jié)點模式運行,即一個Namenode(管理節(jié)點)和多個Datanode(工作節(jié)點)。Namenode管理文件系統(tǒng)的命名空間,它維護著文件系統(tǒng)樹及整棵樹內(nèi)的所有文件和目錄。NameNode執(zhí)行文件系統(tǒng)命名空間的相關(guān)操作,如打開、關(guān)閉和重命名文件和目錄等;除此之外,它還確定文件塊到數(shù)據(jù)節(jié)點的映射。DataNode負責具體的數(shù)據(jù)存儲和讀寫工作。DataNode負責處理來自文件系統(tǒng)客戶端的讀寫請求,它將客戶端發(fā)來的數(shù)據(jù)以block(塊)的形式進行存儲,并根據(jù)NameNode的指令執(zhí)行塊創(chuàng)建、刪除和復制。Hadoop平臺需要高可靠計算機保證其可靠性,這種說法對嗎,請分析具體原因。答:這種說法不正確。Hadoop平臺被設計用于部署在低成本硬件上,通過集群中幾百上千臺廉價的普通服務器的協(xié)同工作,使得Hadoop集群具有高容錯性,可以克服單點故障造成的后果。請簡要敘述Hadoop1.0和Hadoop2.0的區(qū)別。答:Hadoop1.0的JobTracker在應用中逐漸暴露出一些問題:首先,JobTracker是單點的,必然存在單點故障問題;其次,因為JobTracker集成了資源管理和任務調(diào)度,存在壓力過大的問題;最后,若有新的非MapReduce計算框架,則不能復用資源管理,新的計算框架必將各自實現(xiàn)自己的資源管理,從而造成資源競爭。Hadoop2.0為克服Hadoop1.0中的不足進行了下面改進:

1、針對Hadoop1.0單NameNode制約HDFS的擴展性問題,提出HDFSFederation,它讓多個NameNode分管不同的目錄進而實現(xiàn)訪問隔離和橫向擴展,同時徹底解決了NameNode單點故障問題;

2、針對Hadoop1.0中的MapReduce在擴展性和多框架支持等方面的不足,它將JobTracker中的資源管理和作業(yè)控制分開,分別由ResourceManager(負責所有應用程序的資源分配)和ApplicationMaster(負責管理一個應用程序)實現(xiàn),即引入了資源管理框架Yarn。

3、在Hadoop2.0中引入了全新的資源調(diào)度方案Yarn,Yarn將資源管理和任務調(diào)度分開,解耦了JobTracker的功能。Yarn與MapReduce無關(guān),Yarn是獨立的資源層,除了支持MapReduce計算框架,還支持Spark等其他計算模型,從而增強了資源的統(tǒng)一管理和調(diào)度。機架(rack)在Hadoop中是一個非常重要的概念,請簡要敘述他可能在那些方面對系統(tǒng)的部署和使用造成影響。答:Hadoop集群都會跨好幾個機架,由多個機架上的機器共同組成一個分布式集群。機架內(nèi)的機器之間的網(wǎng)絡速度通常都會高于跨機架機器之間的網(wǎng)絡速度,并且機架之間機器的網(wǎng)絡通信通常受到上層交換機間網(wǎng)絡帶寬的限制。HDFS將每一個文件的數(shù)據(jù)進行分塊存儲,同時每一個數(shù)據(jù)塊又保存有多個副本,這些數(shù)據(jù)塊副本分布在不同的機器節(jié)點上,這種數(shù)據(jù)分塊存儲+副本的策略是HDFS保證可靠性和性能的關(guān)鍵。HDFS采用一種稱為機架感知的策略來改進數(shù)據(jù)的可靠性、可用性和網(wǎng)絡帶寬的利用率。通過一個機架感知的過程,NameNode可以確定每一個DataNode所屬的機架id。一個簡單但沒有優(yōu)化的策略就是將副本存放在不同的機架上,這樣可以防止當整個機架失效時數(shù)據(jù)的丟失,并且允許讀數(shù)據(jù)的時候充分利用多個機架的帶寬。這種策略設置可以將副本均勻分布在集群中,有利于當組件失效的情況下的均勻負載,但是,因為這種策略的一個寫操作需要傳輸?shù)蕉鄠€機架,這增加了寫的代價。在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是將一個副本存放在本地機架節(jié)點上,一個副本存放在同一個機架的另一個節(jié)點上,最后一個副本放在不同機架的節(jié)點上。這種策略減少了機架間的數(shù)據(jù)傳輸,提高了寫操作的效率。機架的錯誤遠遠比節(jié)點的錯誤少,所以這種策略不會影響到數(shù)據(jù)的可靠性和可用性。與此同時,因為數(shù)據(jù)塊只存放在兩個不同的機架上,所以此策略減少了讀取數(shù)據(jù)時需要的網(wǎng)絡傳輸總帶寬。在這種策略下,副本并不是均勻的分布在不同的機架上:三分之一的副本在一個節(jié)點上,三分之二的副本在一個機架上,其它副本均勻分布在剩下的機架中,這種策略在不損害數(shù)據(jù)可靠性和讀取性能的情況下改進了寫的性能。請簡要敘述HDFS文件數(shù)據(jù)讀取的基本步驟。答:參考4.2.2節(jié)小明說HDFS的NameNode會在往HDFS中寫入數(shù)據(jù)時承擔很大的負擔,那么這種說法是否正確,請幫忙進一步分析。答:這種說法不正確。在HDFS系統(tǒng)中,NameNode管理HDFS文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論