《商務(wù)大數(shù)據(jù)分析與應(yīng)用》課件-3-3-2 認(rèn)識(shí)大數(shù)據(jù)文件系統(tǒng)HDFS_第1頁
《商務(wù)大數(shù)據(jù)分析與應(yīng)用》課件-3-3-2 認(rèn)識(shí)大數(shù)據(jù)文件系統(tǒng)HDFS_第2頁
《商務(wù)大數(shù)據(jù)分析與應(yīng)用》課件-3-3-2 認(rèn)識(shí)大數(shù)據(jù)文件系統(tǒng)HDFS_第3頁
《商務(wù)大數(shù)據(jù)分析與應(yīng)用》課件-3-3-2 認(rèn)識(shí)大數(shù)據(jù)文件系統(tǒng)HDFS_第4頁
《商務(wù)大數(shù)據(jù)分析與應(yīng)用》課件-3-3-2 認(rèn)識(shí)大數(shù)據(jù)文件系統(tǒng)HDFS_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PART01認(rèn)識(shí)HDFS分布式文件系統(tǒng)(DistributeFileSystem)是一種允許文件通過網(wǎng)絡(luò)在多臺(tái)主機(jī)上分享的文件的系統(tǒng),可讓多機(jī)器上的多用戶分享文件和存儲(chǔ)空間。HDFS(HadoopDistributeFileSystem)是Hadoop的一個(gè)分布式文件系統(tǒng),Hadoop應(yīng)用程序使用的主要分布式存儲(chǔ)。HDFS簡(jiǎn)介Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。HDFS體系結(jié)構(gòu)中有兩類節(jié)點(diǎn)NameNode名稱節(jié)點(diǎn)承擔(dān)Master具體任務(wù)的執(zhí)行DataNode數(shù)據(jù)節(jié)點(diǎn)承擔(dān)Worker具體任務(wù)的執(zhí)行總的設(shè)計(jì)思想:分而治之,將大文件、大批量文件,分布式存放在大量獨(dú)立的服務(wù)器上,以便于采取分而治之的方式對(duì)海量數(shù)據(jù)進(jìn)行運(yùn)算分析。HDFS簡(jiǎn)介HDFS是一個(gè)主/從體系結(jié)構(gòu)HDFS集群擁有一個(gè)NameNode和一些DataNode。NameNode管理文件系統(tǒng)的元數(shù)據(jù),DataNode存儲(chǔ)實(shí)際的數(shù)據(jù)。HDFS一般是用來“一次寫入,多次讀取”,不適合做實(shí)時(shí)交互性很強(qiáng)的事情,不適合存儲(chǔ)大量小文件。

HDFS基本原理文件系統(tǒng)是操作系統(tǒng)提供的磁盤空間管理服務(wù),只需要我們制定把文件放到哪兒,從哪個(gè)路徑讀取文件就可以了,而不需要關(guān)心文件在磁盤上是如何存放的。文件系統(tǒng)的問題當(dāng)文件所需空間大于本機(jī)磁盤空間時(shí),應(yīng)該如何處理呢?1加磁盤,但是加到一定程度就有限制了2加機(jī)器,把不同文件放入不同的機(jī)器中,空間不足了可繼續(xù)加機(jī)器,突破了存儲(chǔ)空間的限制。文件系統(tǒng)的問題傳統(tǒng)的分布式文件系統(tǒng)存在多個(gè)問題:各個(gè)存儲(chǔ)節(jié)點(diǎn)的負(fù)載不均衡,單機(jī)負(fù)載可能極高。數(shù)據(jù)可靠性低。文件管理困難。HDFS的解決思路HDFS是個(gè)抽象層,底層依賴很多獨(dú)立的服務(wù)器,對(duì)外提供統(tǒng)一的文件管理功能。對(duì)于用戶來講,感覺就像文件系統(tǒng)運(yùn)行在單一服務(wù)器上,感受不到HDFS下面的多臺(tái)服務(wù)器。HDFS基本架構(gòu)HDFS的解決思路為了解決存儲(chǔ)節(jié)點(diǎn)負(fù)載不均衡的問題。HDFS首先把一個(gè)文件分割成多個(gè)塊,然后再把這些文件塊存儲(chǔ)在不同服務(wù)器上。這種方式的優(yōu)勢(shì)就是不怕文件太大,并且讀文件的壓力不會(huì)全部集中在一臺(tái)服務(wù)器上,從而可以避免某個(gè)熱點(diǎn)文件會(huì)帶來的單機(jī)負(fù)載過高的問題。HDFS的解決思路例如:用戶需要保存一個(gè)文件/a/b/xxx.avi。HDFS首先會(huì)把這個(gè)文件進(jìn)行分割,例如分為4塊,然后分別存放到不同服務(wù)器上。HDFS的解決思路但是如果某臺(tái)服務(wù)器壞了,那么文件就讀不全了。如果磁盤不能恢復(fù),那么存儲(chǔ)在上面的數(shù)據(jù)就會(huì)丟失。為了保證文件可靠性,HDFS會(huì)把每個(gè)文件塊進(jìn)行多個(gè)備份,一般情況下是3個(gè)備份。假如:要在由4臺(tái)分別為服務(wù)器A、B、C和D的存儲(chǔ)節(jié)點(diǎn)組成的HDFS上存儲(chǔ)文件/a/b/xxx.avi,那么,為了保證文件的可靠性,HDFS會(huì)怎么做呢?HDFS的解決思路塊1:ABC塊2:ABD塊3:BCD塊4:ACDHDFS的解決思路采用分塊多副本存儲(chǔ)方式后,HDFS文件的可靠性就大大增強(qiáng)了,即使某個(gè)服務(wù)器壞了,也仍然可以完整讀取文件;同時(shí)還帶來一個(gè)很大的好處,就是增加了文件的并發(fā)訪問能力。例如:多個(gè)用戶讀取這個(gè)文件時(shí),都要讀塊1,HDFS可以根據(jù)服務(wù)器的繁忙程度,選擇從哪臺(tái)服務(wù)器讀塊1。HDFS的設(shè)計(jì)理念簡(jiǎn)單來講,HDFS設(shè)計(jì)理念是可以運(yùn)行在普通機(jī)器上,以流式數(shù)據(jù)方式存儲(chǔ)文件,一次寫入、多次查詢??蓸?gòu)建在廉價(jià)機(jī)器上高容錯(cuò)性適合批處理適合存儲(chǔ)大文件HDFS的設(shè)計(jì)理念可構(gòu)建在廉價(jià)機(jī)器上HDFS設(shè)計(jì)理念之一就是讓它能運(yùn)行在普通的硬件之上,即便硬件出現(xiàn)故障,也可以通過容錯(cuò)策略來保證數(shù)據(jù)的高可用。通過多副本提高可靠性,提供了容錯(cuò)和恢復(fù)機(jī)制。高容錯(cuò)性由于HDFS可以建立在普通計(jì)算機(jī)上,節(jié)點(diǎn)故障是正常事情。HDFS將數(shù)據(jù)自動(dòng)保存多個(gè)副本,副本丟失后,自動(dòng)恢復(fù),實(shí)現(xiàn)數(shù)據(jù)高容錯(cuò)性。HDFS的設(shè)計(jì)理念適合批處理也稱為流式數(shù)據(jù)訪問。HDFS適合一次寫入、多次查詢(讀?。┑那闆r。在數(shù)據(jù)集生成后,長(zhǎng)時(shí)間在此數(shù)據(jù)集上進(jìn)行各種分析。每次分析都將涉及該數(shù)據(jù)集的大部分?jǐn)?shù)據(jù)甚至全部數(shù)據(jù),因此讀取整個(gè)數(shù)據(jù)集的時(shí)間延遲比讀取第一條記錄的時(shí)間延遲更重要。適合存儲(chǔ)大文件這里說的大文件包含兩種意思:一是值文件大小超過100M以及達(dá)到GB甚至TB、PB的文件。二是百萬規(guī)模以上的文件數(shù)量。HDFS的局限HDFS的設(shè)計(jì)理念是為了滿足特定的大數(shù)據(jù)應(yīng)用場(chǎng)景,所以HDFS具有一定的局限性,不能適用于所有應(yīng)用場(chǎng)景。實(shí)時(shí)性差小文件問題文件修改問題HDFS的設(shè)計(jì)理念實(shí)時(shí)性差要求低時(shí)間延遲的訪問的應(yīng)用,不適合在HDFS上運(yùn)行。HDFS是為高數(shù)據(jù)吞吐量應(yīng)用優(yōu)化的,這可能會(huì)以高時(shí)間延遲為代價(jià)。小文件問題由于NameNode將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中,因此該文件系統(tǒng)所能存儲(chǔ)的文件總量受限于NameNode的內(nèi)存總?cè)萘?。根?jù)經(jīng)驗(yàn),每個(gè)文件、目錄和數(shù)據(jù)塊的存儲(chǔ)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論