hadoop架構(gòu)介紹-上線資源包_第1頁
hadoop架構(gòu)介紹-上線資源包_第2頁
hadoop架構(gòu)介紹-上線資源包_第3頁
hadoop架構(gòu)介紹-上線資源包_第4頁
hadoop架構(gòu)介紹-上線資源包_第5頁
免費預(yù)覽已結(jié)束,剩余18頁可下載查看

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Hadoop架構(gòu)介紹Hadoop架構(gòu)介紹—課程概要HDFS的體系結(jié)構(gòu)MapReduce的體系結(jié)構(gòu)Hadoop的運行模式Hadoop架構(gòu)介紹HDFS的體系結(jié)構(gòu)HDFS的體系結(jié)構(gòu)設(shè)計目標(biāo)自動快速檢測應(yīng)對硬件錯誤流式訪問數(shù)據(jù)轉(zhuǎn)移計算比移動數(shù)據(jù)本身更劃算簡單一致性模型異構(gòu)平臺可移植HDFS的體系結(jié)構(gòu)HDFS的體系結(jié)構(gòu)基本概念機架數(shù)據(jù)塊(block)元數(shù)據(jù):鏡像文件(Fsimage)+日志文件(EditLog)用戶數(shù)據(jù)HDFS的體系結(jié)構(gòu)NameNodeDataNode1主從節(jié)點的通信DataNode2DataNode3DataNodeNACACACDataNode1:A,CDataNode2:A,CDataNodeN:A,C元數(shù)據(jù)HDFS的體系結(jié)構(gòu)DistributedFilesystemHDFSClientFSDataOutputStream客戶端JVMNameNodeDataNodeDataNodeDataNode寫數(shù)據(jù)流程1、open2、create3、write7、complete6、close4、write5、ack4455HDFS的體系結(jié)構(gòu)DistributedFilesystemHDFSClientFSDataInputStream客戶端JVMNameNodeDataNodeDataNodeDataNode讀數(shù)據(jù)流程1、open2、getblocklocation3、read6、close4、read5、readHadoop架構(gòu)介紹MapReduce的體系結(jié)構(gòu)MapReduce的體系結(jié)構(gòu)分布式編程架構(gòu)以數(shù)據(jù)為中心,更看重吞吐率分而治之Map將一個任務(wù)分解成多個子任務(wù)Reduce將分解后多任務(wù)分別處理,并將結(jié)果匯總為最終結(jié)果應(yīng)用舉例:清點圖書館藏書、統(tǒng)計單詞的出現(xiàn)次數(shù)、混合辣椒醬的生成過程等等MapReduce的體系結(jié)構(gòu)—結(jié)構(gòu)圖ClientJobTrakerTaskTrakerMap()數(shù)據(jù)塊1數(shù)據(jù)塊4數(shù)據(jù)塊5TaskTrakerMap()Map結(jié)果2Map結(jié)果1Map結(jié)果3Map結(jié)果4Map結(jié)果5TaskTrakerReduce()TaskTrakerReduce()結(jié)果2結(jié)果1HDFSHDFS本地臨時存儲分配Map任務(wù)分配Reduce任務(wù)MapReduce的體系結(jié)構(gòu)—基本概念基本概念作業(yè)(Job)任務(wù)(Task)鍵值對(key/valuepair)

Map()、Reduce()函數(shù)的輸入、輸出都是<key,value>的形式MapReduce的體系結(jié)構(gòu)—生命周期提交作業(yè)在作業(yè)提交之前,需要對作業(yè)進(jìn)行配置程序代碼,主要是自己編寫的MapReduce程序配置輸入輸出路徑、輸出是否壓縮配置完成后,通過JobClient來提交作業(yè)調(diào)度FIFO調(diào)度器、公平調(diào)度器、容量調(diào)度器MapReduce的體系結(jié)構(gòu)—生命周期任務(wù)分配TaskTracker和JobTracker之間的通信與任務(wù)的分配是通過心跳機制完成的TaskTracker會主動向JobTracker詢問是否有作業(yè)要做,如果自己可以做,那么就會申請到作業(yè)任務(wù),這個任務(wù)可以使Map也可能是Reduce任務(wù)任務(wù)的執(zhí)行拷貝代碼到本地拷貝任務(wù)的信息到本地啟動JVM運行任務(wù)MapReduce的體系結(jié)構(gòu)—生命周期狀態(tài)更新任務(wù)在運行過程中,首先會將自己的狀態(tài)匯報給TaskTracker,然后由TaskTracker匯總告之JobTracker任務(wù)進(jìn)度是通過計數(shù)器來實現(xiàn)的JobTracker是在接受到最后一個任務(wù)運行完成后,才會將作業(yè)標(biāo)志為成功作業(yè)成功后執(zhí)行刪除中間結(jié)果等善后處理工作Hadoop架構(gòu)介紹Hadoop的運行模式Hadoop的運行模式三種模式單機模式偽分布式模式完全分布式模式Hadoop的運行模式單機模式默認(rèn)模式不對配置文件進(jìn)行修改使用本地文件系統(tǒng)Hadoop的守護(hù)進(jìn)程未啟動用于對MapReduce程序的邏輯進(jìn)行調(diào)試Hadoop的運行模式偽分布式模式在一臺主機模擬多主機每個守護(hù)進(jìn)程都以Java進(jìn)程的形式運行在單機模式之上增加了代碼調(diào)試功能,允許檢查內(nèi)存使用情況,HDFS輸入輸出,以及其他的守護(hù)進(jìn)程交互修改3個配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml格式化文件系統(tǒng)Hadoop的運行模式完全分布式模式多臺主機所有主機安裝JDK和Hadoop設(shè)置SSH免密碼登陸修改3個配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml格式化文件系統(tǒng)Hadoop架構(gòu)介紹本課程中我們學(xué)習(xí)了解了Hadoop架構(gòu)介紹。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論