版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
HDFS數(shù)據(jù)寫過程2學(xué)習(xí)任務(wù)了解HDFS寫數(shù)據(jù)的流程了解HDFS存儲(chǔ)相關(guān)知識(shí)3知識(shí)目標(biāo)了解HDFS寫過程的特點(diǎn)和缺點(diǎn)了解HDFS存儲(chǔ)相關(guān)知識(shí)熟悉HDFS寫數(shù)據(jù)流程01能力目標(biāo)能夠掌握HDFS的寫數(shù)據(jù)流程熟練運(yùn)用存儲(chǔ)相關(guān)知識(shí)解決實(shí)際問題02學(xué)習(xí)目標(biāo)4目錄01概述02HDFS存儲(chǔ)相關(guān)知識(shí)03HDFS寫數(shù)據(jù)流程5概述能夠運(yùn)行在廉價(jià)機(jī)器上,硬件出錯(cuò)常態(tài),需要具備高容錯(cuò)性流式數(shù)據(jù)訪問,而不是隨機(jī)讀寫面向大規(guī)模數(shù)據(jù)集,能夠進(jìn)行批處理、能夠橫向擴(kuò)展簡單一致性模型,假定文件是一次寫入、多次讀取特點(diǎn)6概述不支持低延遲數(shù)據(jù)訪問不適合大量小文件存儲(chǔ)(因?yàn)槊織l元數(shù)據(jù)占用空間是一定的)不支持并發(fā)寫入,一個(gè)文件只能有一個(gè)寫入者不支持文件隨機(jī)修改,僅支持追加寫入缺點(diǎn)7HDFS存儲(chǔ)相關(guān)知識(shí)文件上傳前需要分塊,這個(gè)塊就是block,一般為128MB,當(dāng)然你可以去改,不顧不推薦。因?yàn)閴K太?。簩ぶ窌r(shí)間占比過高。塊太大:Map任務(wù)數(shù)太少,作業(yè)執(zhí)行速度變慢。它是最大的一個(gè)單位。block8HDFS存儲(chǔ)相關(guān)知識(shí)packet是第二大的單位,它是client端向DataNode,或DataNode的PipLine之間傳數(shù)據(jù)的基本單位,默認(rèn)64KB。packet9HDFS存儲(chǔ)相關(guān)知識(shí)chunk是最小的單位,它是client向DataNode,或DataNode的PipLine之間進(jìn)行數(shù)據(jù)校驗(yàn)的基本單位,默認(rèn)512Byte,因?yàn)橛米餍r?yàn),故每個(gè)chunk需要帶有4Byte的校驗(yàn)位。所以實(shí)際每個(gè)chunk寫入packet的大小為516Byte。由此可見真實(shí)數(shù)據(jù)與校驗(yàn)值數(shù)據(jù)的比值約為128:1。(即64*1024/512)。chunk10HDFS寫數(shù)據(jù)流程客戶端向NameNode發(fā)出寫文件請求。檢查是否已存在文件、檢查權(quán)限。若通過檢查,直接先將操作寫入EditLog,并返回輸出流對象。(注:WAL,writeaheadlog,先寫Log,再寫內(nèi)存,因?yàn)镋ditLog記錄的是最新的HDFS客戶端執(zhí)行所有的寫操作。如果后續(xù)真實(shí)寫操作失敗了,由于在真實(shí)寫操作之前,操作就被寫入EditLog中了,故EditLog中仍會(huì)有記錄,我們不用擔(dān)心后續(xù)client讀不到相應(yīng)的數(shù)據(jù)塊,若沒寫成功,發(fā)送端沒收到確認(rèn)信息,會(huì)一直重試,直到成功)過程性描述11HDFS寫數(shù)據(jù)流程client端按128MB的塊切分文件。client將NameNode返回的分配的可寫的DataNode列表和Data數(shù)據(jù)一同發(fā)送給最近的第一個(gè)DataNode節(jié)點(diǎn),此后client端和NameNode分配的多個(gè)DataNode構(gòu)成pipeline管道,client端向輸出流對象中寫數(shù)據(jù)。client每向第一個(gè)DataNode寫入一個(gè)packet,這個(gè)packet便會(huì)直接在pipeline里傳給第二個(gè)、第三個(gè)…DataNode。過程性描述12HDFS寫數(shù)據(jù)流程每個(gè)DataNode寫完一個(gè)塊后,會(huì)返回確認(rèn)信息。(注:并不是每寫完一個(gè)packet后就返回確認(rèn)信息,個(gè)人覺得因?yàn)閜acket中的每個(gè)chunk都攜帶校驗(yàn)信息,沒必要每寫一個(gè)就匯報(bào)一下,這樣效率太慢。正確的做法是寫完一個(gè)block塊后,對校驗(yàn)信息進(jìn)行匯總分析,就能得出是否有塊寫錯(cuò)的情況發(fā)生)過程性描述13HDFS寫數(shù)據(jù)流程寫完數(shù)據(jù),關(guān)閉輸出流。發(fā)送完成信號(hào)給NameNode。(注:發(fā)送完成信號(hào)的時(shí)機(jī)取決于集群是強(qiáng)一致性還是最終一致性,強(qiáng)一致性則需要所有DataNode寫完后才向NameNode匯報(bào)。最終一致性則其中任意一個(gè)DataNode寫完后就能單獨(dú)向NameNode匯報(bào),HDFS一般情況下都是強(qiáng)調(diào)強(qiáng)一致性)過程性描
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年河南建筑職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試參考題庫有答案解析
- 2026年曹妃甸職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 2026年合肥科技職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 土地轉(zhuǎn)租補(bǔ)充條款合同協(xié)議2025年
- 2026年黑龍江信息技術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題有答案解析
- 2026年渤海理工職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試模擬試題有答案解析
- 2026年煙臺(tái)文化旅游職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫附答案詳解
- 停車場管理服務(wù)合同協(xié)議(2025年)
- 碳匯林監(jiān)測協(xié)議2025年長期合作
- 2026年福建林業(yè)職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫帶答案解析
- 【高三上】廣東省華師聯(lián)盟2026屆高三12月質(zhì)量檢測語文試題含答案
- 2025年廣州市花都區(qū)花東鎮(zhèn)人民政府公開招聘執(zhí)法輔助工作人員備考題庫帶答案詳解
- 小學(xué)生用電安全知識(shí)課件
- 2026年收益分成協(xié)議
- 肝癌TACE治療課件
- 2022年-2024年青島衛(wèi)健委事業(yè)編中醫(yī)筆試真題
- JJG(交通) 070-2006 混凝土超聲檢測儀
- 合作銷售礦石協(xié)議書
- 2025上海初三各區(qū)一模、二模作文題、主題歸納及審題分析指導(dǎo)
- 2025-2026學(xué)年蘇教版(2024)小學(xué)科學(xué)二年級(jí)上冊期末測試卷附答案(共三套)
- 檢查井工程量計(jì)算模板(原)
評論
0/150
提交評論