單元2 任務(wù)2-1 搭建Hadoop偽分布式

上傳人：h*** IP屬地：山東上傳時(shí)間：2023-12-27 格式：PPTX 頁(yè)數(shù)：27 大小：1.07MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩22頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)平臺(tái)部署與運(yùn)維》單元2Hadoop偽分布式安裝部署任務(wù)2.1搭建Hadoop偽分布式01Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀02Hadoop優(yōu)勢(shì)與核心組成學(xué)習(xí)目標(biāo)03Hadoop安裝方式04Hadoop各版本選擇05Hadoop偽分布式搭建基本流程搭建Hadoop偽分布式【任務(wù)場(chǎng)景】經(jīng)理：我們公司現(xiàn)在數(shù)據(jù)量不斷上升，現(xiàn)有的架構(gòu)需要升級(jí)，小張你有什么意見？小張：Hadoop適合應(yīng)用于大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析的應(yīng)用，適合于服務(wù)器幾千臺(tái)到幾萬(wàn)臺(tái)的集群運(yùn)行，支持PB級(jí)的存儲(chǔ)容量。Hadoop典型應(yīng)用有：搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。經(jīng)理：對(duì)，Hadoop目前已經(jīng)取得了非常突出的成績(jī)。隨著互聯(lián)網(wǎng)的發(fā)展，新的業(yè)務(wù)模式還將不斷涌現(xiàn)，Hadoop的應(yīng)用會(huì)從互聯(lián)網(wǎng)領(lǐng)域向電信、電子商務(wù)、銀行、生物制藥等領(lǐng)域拓展。小張：好的，那我先部署一套偽分布式環(huán)境。搭建Hadoop偽分布式【任務(wù)布置】Hadoop是由Java語(yǔ)言開發(fā)的，所以Hadoop的部署和運(yùn)行都依賴JDK，因此必須先將部署前基礎(chǔ)環(huán)境準(zhǔn)備完成。本次任務(wù)要求在單節(jié)點(diǎn)上部署偽分布式Hadoop。一般在測(cè)試場(chǎng)景下經(jīng)常會(huì)部署單節(jié)點(diǎn)的偽分布式Hadoop，理解并掌握Hadoop偽分布式的安裝部署，可以為后續(xù)生產(chǎn)環(huán)境下部署Hadoop分布式集群打下基礎(chǔ)。Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式存儲(chǔ)和計(jì)算平臺(tái)，是基于Java語(yǔ)言開發(fā)的，有很好的跨平臺(tái)性。Hadoop以分布式文件系統(tǒng)（HadoopDistributedFileSystem,HDFS）和MapReduce（GoogleMapReduce的開源實(shí)現(xiàn)）為核心，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上，形成分布式系統(tǒng)；MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。Hadoop概述Hadoop這個(gè)名字不是一個(gè)縮寫，它是一個(gè)虛構(gòu)的名字。該項(xiàng)目的創(chuàng)建者DougCutting解釋Hadoop的得名：“這個(gè)名字是我孩子給一個(gè)棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡(jiǎn)短，容易發(fā)音和拼寫，沒有太多的意義，并且不會(huì)被用于別處，小孩子恰恰是這方面的高手?！盚adoop的發(fā)音是[h?du:p]。ApacheHadoop官方網(wǎng)站Inpioneerdaystheyusedoxenforheavypulling,andwhenoneoxcouldn’tbudgealog,theydidn’ttrytogrowalargerox.Weshouldn’tbetryingforbiggercomputers,butformoresystemsofcomputers.（在拓荒時(shí)期，他們用牛來拉重物，當(dāng)一頭牛不能移動(dòng)一根原木時(shí)，他們就不會(huì)試圖讓一頭牛長(zhǎng)得更大。我們不應(yīng)該嘗試更大的計(jì)算機(jī)，而是嘗試更多的計(jì)算機(jī)系統(tǒng)。）—GraceHopperHadoop優(yōu)勢(shì)與核心組成Hadoop發(fā)展：2002年Hadoop的源頭是ApacheNutch搜索引擎項(xiàng)目2003年Google發(fā)布了關(guān)于GFS的論文20042005年2006年2007年Nutch的開發(fā)者發(fā)布了NDFSGoogle公司發(fā)表了MapReduce，最初版本問世Nutch移植到新的框架，Hadoop在20個(gè)節(jié)點(diǎn)上穩(wěn)定運(yùn)行DougCutting加入Yahoo，ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS從Nutch中獨(dú)立處理發(fā)展。研究集群達(dá)到兩個(gè)1000個(gè)節(jié)點(diǎn)的集群2009年Cloudera推出CDHMapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目2011年Hadoop1.0問世，標(biāo)志著Hadoop已經(jīng)初具生成規(guī)模2016年Hadoop3.0問世，正式進(jìn)入3.x時(shí)代2008年Hadoop成為Apache頂級(jí)項(xiàng)目。Hive成為Apache子項(xiàng)目2010年Avro、Hbase、Hive、Pig脫離Hadoop項(xiàng)目，成為Apache頂級(jí)項(xiàng)目2013年Hadoop2.0問世，正式進(jìn)入2.x時(shí)代Hadoop優(yōu)勢(shì)與核心組成Hadoop優(yōu)點(diǎn)：Hadoop是一個(gè)能讓用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的分布式平臺(tái)。它主要是有以下幾個(gè)優(yōu)點(diǎn)：（1）高可靠性；Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。（2）高擴(kuò)展性；Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。（3）高效性；Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非?？?。（4）高容錯(cuò)性；Hadoop能夠自動(dòng)保存數(shù)據(jù)的多份副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop優(yōu)勢(shì)與核心組成Hadoop核心組成：在當(dāng)下，Hadoop已經(jīng)形成了一個(gè)龐大的體系，有數(shù)據(jù)的地方基本都會(huì)看到Hadoop的身影。目前的Hadoop逐漸演化出來兩種分類，廣義的Hadoop和狹義的Hadoop。狹義的Hadoop主要包括三大部分：HDFS（分布式文件系統(tǒng)），MapReduce（分布式計(jì)算系統(tǒng)），YARN（資源管理器）。廣義的Hadoop是指Hadoop的生態(tài)系統(tǒng)，是一個(gè)龐大的體系，Hadoop只是其中最重要最基礎(chǔ)的部分，生態(tài)系統(tǒng)中的每個(gè)子系統(tǒng)只負(fù)責(zé)解決某個(gè)特定的問題域。Hadoop生態(tài)系統(tǒng)圖Hadoop優(yōu)勢(shì)與核心組成項(xiàng)目介紹分布式文件系統(tǒng)HDFSHDFS是Hadoop的存儲(chǔ)系統(tǒng)，采用了主從（Master/Worker）結(jié)構(gòu)模型，一個(gè)HDFS集群環(huán)境是由一個(gè)NameNode和若干的DataNode組成的。HDFS能夠?qū)崿F(xiàn)對(duì)文件的操作，如刪除文件、移動(dòng)文件等功能。HDFS提供了高可靠性（多副本實(shí)現(xiàn)）、高擴(kuò)展性（添加機(jī)器進(jìn)行線性擴(kuò)展）、高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)。分布式計(jì)算框架MapReduceMapReduce是一個(gè)分布式、并行處理的編程模型，他方便了編程人員將自己的程序部署到分布式系統(tǒng)中，MapReduce采用了“分而治之”的基本思想，他將一個(gè)大的任務(wù)分解成多個(gè)小的任務(wù)，分發(fā)到集群中不同計(jì)算機(jī)中，提高完成效率YARN（資源管理器）YARN是在Hadoop2.x中誕生的，他對(duì)Hadoop1.x中JobTracker和TaskTracker模型的優(yōu)化而誕生的，主要負(fù)責(zé)整個(gè)系統(tǒng)化的資源管理和調(diào)度，并且在YARN上能夠運(yùn)行不同類型的執(zhí)行框架。Hive基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，由Facebook開源。Hive讓不熟悉MapReduce的開發(fā)人員編寫數(shù)據(jù)查詢語(yǔ)句（SQL語(yǔ)句），它會(huì)將其翻譯為Hadoop中的MapReduce作業(yè)，并提交到Hadoop集群中運(yùn)行。HBase(分布式數(shù)據(jù)庫(kù))HBase是建立在HDFS之上，提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。HBase是谷歌BigTable的開源實(shí)現(xiàn)，通過Java語(yǔ)言進(jìn)行編程，主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。ZooKeeper（分布式協(xié)作服務(wù)）ZooKeeper是Hadoop的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，是Hadoop和HBase的重要組件，提供的功能包括：配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù)，將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop優(yōu)勢(shì)與核心組成項(xiàng)目介紹Sqoop（數(shù)據(jù)同步工具）Sqoop是一個(gè)連通性工具，用于在關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)（Hive）與Hadoop之間數(shù)據(jù)轉(zhuǎn)移框架Pig（基于Hadoop的數(shù)據(jù)流系統(tǒng)）Pig是用于并行計(jì)算的高級(jí)數(shù)據(jù)流語(yǔ)言和執(zhí)行框架。他是構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)，定義了一種數(shù)據(jù)流語(yǔ)言–PigLatin。Pig突出的特點(diǎn)就是它的結(jié)構(gòu)經(jīng)得起大量并行任務(wù)的檢驗(yàn)，這使得它能夠處理大規(guī)模數(shù)據(jù)集。Mahout（數(shù)據(jù)挖掘算法庫(kù)）Mahout是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的庫(kù)。它實(shí)現(xiàn)了三大算法：推薦、聚類、分類。Flume（日志收集工具）Flume是Cloudera開源的日志收集系統(tǒng)，他具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)，是基于流式數(shù)據(jù)流的簡(jiǎn)單而靈活的架構(gòu)。它具有可靠的可靠性機(jī)制以及許多故障轉(zhuǎn)移和恢復(fù)機(jī)制，具有強(qiáng)大的容錯(cuò)性和容錯(cuò)能力。Oozie（作業(yè)流調(diào)度系統(tǒng)）Oozie是一個(gè)用于管理ApacheHadoop作業(yè)的工作流調(diào)度程序系統(tǒng)，能夠提供對(duì)HadoopMapReduce和PigJobs的任務(wù)調(diào)度與協(xié)調(diào)。Oozie工作流是放置在控制依賴DAG（有向無(wú)環(huán)圖）中的一組動(dòng)作，需要部署到JavaServlet容器中運(yùn)行。Hadoop優(yōu)勢(shì)與核心組成3.Hadoop安裝方式Hadoop安裝部署有以下三種模式：1.單機(jī)部署，Hadoop默認(rèn)模式、即非分布式模式（本地模式），沒有守護(hù)進(jìn)程，不分主從節(jié)點(diǎn)，這種部署方式非常少用。2.偽分布式部署，主從節(jié)點(diǎn)都在一臺(tái)主機(jī)上，可用在本機(jī)模擬一個(gè)主節(jié)點(diǎn)、一個(gè)從節(jié)點(diǎn)的集群。本單元以偽分布式模式進(jìn)行Hadoop搭建。3.完全分布式集群部署，有多個(gè)節(jié)點(diǎn)，主從進(jìn)程分別在不同的機(jī)器上運(yùn)行。Hadoop各版本選擇1.Hadoop1.02011年，Hadoop1.0問世，由分布式存儲(chǔ)系統(tǒng)HDFS和分布式計(jì)算框架MapReduce組成。其中HDFS由一個(gè)NameNode和多個(gè)DateNode組成，MapReduce由一個(gè)JobTracker和多個(gè)TaskTracker組成。在實(shí)際的使用過程中，Hadoop1.x逐漸的暴露出許多問題：（1）主節(jié)點(diǎn)故障問題，HDFS和MapReduce都是主從結(jié)構(gòu)，他們的主節(jié)點(diǎn)都是單節(jié)點(diǎn)結(jié)構(gòu)，一旦主節(jié)點(diǎn)出現(xiàn)問題，導(dǎo)致集群癱瘓。（2）注銷速度問題，MapReduce的主節(jié)點(diǎn)JobTracker完成太多任務(wù)，當(dāng)MapReduce任務(wù)非常多時(shí)，造成非常大的內(nèi)存開銷。（3）服務(wù)器利用率不高，MapReduce主要分為兩個(gè)階段，一個(gè)為Map，一個(gè)為Reduce。在MapReduce時(shí)執(zhí)行時(shí)，大部分Reduce任務(wù)需要等待Map任務(wù)完成計(jì)算才能開始。（4）存儲(chǔ)文件格式單一問題，HDFS存儲(chǔ)的數(shù)據(jù)都是按照Block來存儲(chǔ)的，整個(gè)存儲(chǔ)只有這一個(gè)格式，而企業(yè)的數(shù)據(jù)是多種多樣的，存儲(chǔ)起來不但麻煩還造成資源的浪費(fèi)。Hadoop各版本選擇MapReduce1.0架構(gòu)圖關(guān)鍵詞含義Client

客戶端JobTrackerMaster節(jié)點(diǎn)，責(zé)資源監(jiān)控和作業(yè)調(diào)度，并監(jiān)管所有的TaskTrackerTaskTrackerWorker節(jié)點(diǎn)，接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作TaskScheduler任務(wù)調(diào)度器Hearbeat心跳機(jī)制MapTask解析每條數(shù)據(jù)記錄，傳遞給用戶編寫的map()，并執(zhí)行，將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè)，直接寫入HDFS)ReduceTask從MapTask的執(zhí)行結(jié)果中，遠(yuǎn)程讀取輸入數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行排序，將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行Hadoop各版本選擇關(guān)鍵詞含義NameNode名字節(jié)點(diǎn)，管理文件系統(tǒng)命名空間的主服務(wù)器。DataNode數(shù)據(jù)節(jié)點(diǎn)，存儲(chǔ)文件塊replication文件塊的副本，目的是確保數(shù)據(jù)存儲(chǔ)的可靠性Rack機(jī)架，可以理解為兩個(gè)處于不同地方的機(jī)群，每個(gè)機(jī)群內(nèi)部有自己的連接方式Client通過指令或代碼操作的一端都是客戶端Client的Read從HDFS下載文件到本地Client的Write上傳文件到HDFS上HDFS1.0架構(gòu)圖Hadoop各版本選擇Hadoop2.0Hadoop1.0到Hadoop2.0架構(gòu)變化圖2013年，Hadoop2.0問世，Hadoop2.0是為了解決Hadoop1.0中的出現(xiàn)的問題而提出的,內(nèi)核主要由HDFS、MapReduce和YARN三個(gè)系統(tǒng)組成。針對(duì)Hadoop1.0中HDFS主節(jié)點(diǎn)故障問題，提出了HDFSFederation，兼容多個(gè)NameNode，讓多個(gè)NameNode分管不同的目錄來進(jìn)行訪問的隔離和節(jié)點(diǎn)的橫向擴(kuò)展，這樣就解決了HDFS單節(jié)點(diǎn)問題。針對(duì)MapReduce主節(jié)點(diǎn)故障和框架支持問題，將MapReduce的功能分開了，只保留了數(shù)據(jù)處理，將集群資源管理放到了Yarn中，誕生了全新的通用資源管理框架YARN。在MapReduce2.0中，具有和MapReduce1.0相同的編程模型和數(shù)據(jù)引擎處理，但是在運(yùn)行時(shí)環(huán)境上引入全新的資源管理框架YARN，MapReduce變成了一個(gè)純粹的計(jì)算框架，不再負(fù)責(zé)管理。YARN是Hadoop2.0中資源管理系統(tǒng)，負(fù)責(zé)資源管理和調(diào)度。他將JobTracker的資源管理和作業(yè)調(diào)度拆分成兩個(gè)獨(dú)立的進(jìn)程，ApplicationMaster和ResourceManager。在Hadoop2.x中對(duì)HDFS做了改進(jìn)，可以使NameNode橫向擴(kuò)展成多個(gè)，每個(gè)NameNode分管部分目錄，誕生了HDFSFederation。組件Hadoop1.0問題Hadoop2.0改進(jìn)HDFS單一名稱節(jié)點(diǎn)，存在單點(diǎn)失效問題設(shè)計(jì)了HDFSHA，提供名稱節(jié)點(diǎn)熱備機(jī)制HDFS單一命名空間，無(wú)法實(shí)現(xiàn)資源隔離設(shè)計(jì)了HDFSFederation，管理多個(gè)命名空間MapReduce資源管理效率低設(shè)計(jì)了新的資源管理框架YARNHadoop各版本選擇Hadoop3.02016年，Hadoop3.0問世,Hadoop3.0中引入了一些重要的功能和優(yōu)化，包括HDFS可擦除編碼、多Namenode支持、MRNativeTask優(yōu)化、YARN基于cgroup的內(nèi)存和磁盤IO隔離、YARNcontainerresizing等。Hadoop3.0新特性：Java版本升級(jí)Hadoop3.0要求Java版本最低版本不低于1.8，有以往的Java版本不再支持Hadoop版本JDK1.6JDK1.7JDK1.8Hadoop1.x√××Hadoop2.x√√×Hadoop3.x××√2.部分服務(wù)默認(rèn)端口修改在以往版本中，多個(gè)Hadoop服務(wù)的默認(rèn)端口在Linux臨時(shí)端口范圍內(nèi)(32768-61000)。這意味著在啟動(dòng)時(shí)，服務(wù)有時(shí)會(huì)由于與另一個(gè)應(yīng)用程序沖突而無(wú)法綁定到端口分類應(yīng)用Haddop2.xportHaddop3.xportNNportsNameNode8020/90009820NNHTTPUI500709870NNHTTPSUI504709871SNNportsSNNHTTP500919869SNNHTTPUI500909868DNportsDNIPC500209867DN500109866DNHTTPUI500759864DNHTTPSUI504759865Hadoop各版本選擇HDFS支持糾刪碼YARN時(shí)間線服務(wù)v.2Shell腳本重寫重構(gòu)HadoopClientJar包MapReduce任務(wù)級(jí)原生優(yōu)化支持兩個(gè)以上的NameNode支持與MicrosoftAzureDataLake和Aliyun對(duì)象存儲(chǔ)系統(tǒng)進(jìn)行集成DataNode內(nèi)平衡器重新設(shè)計(jì)的守護(hù)進(jìn)程和任務(wù)堆管理S3Guard：S3A文件系統(tǒng)客戶端的一致性和元數(shù)據(jù)緩存基于HDFS路由器的聯(lián)合基于API的CapacityScheduler隊(duì)列配置配置YARN資源類型Hadoop偽分布式搭建基本流程Hadoop偽分布式安裝，是指在一個(gè)節(jié)點(diǎn)（即一臺(tái)主機(jī)或服務(wù)器）上安裝和部署HDFS和MapReduce+Yarn。實(shí)際上，偽分布式模式可以看成是單節(jié)點(diǎn)的完全分布式模式。Hadoop偽分布式搭建基本流程1.防火墻配置

Centos7使用Firewalld命令來操作防火墻，在Hadoop偽分布式搭建中，一般都選在局域網(wǎng)中進(jìn)行搭建，沒有安全性考慮，因此關(guān)閉防火墻一般也不會(huì)存在安全隱患。2.SELinux配置

SELinux是安全增強(qiáng)型Linux（Security-EnhancedLinux）簡(jiǎn)稱，它是一個(gè)Linux內(nèi)核模塊，也是Linux的一個(gè)安全子系統(tǒng)。為了避免安裝過程出現(xiàn)各種錯(cuò)誤，建議關(guān)閉。主機(jī)名配置

為了更方便的管理項(xiàng)目，建議對(duì)每個(gè)節(jié)點(diǎn)的主機(jī)名進(jìn)行修改。4.SSH（secureshell）免密碼登錄配置

不管是Hadoop的偽分布還是全分布，Hadoop的名稱結(jié)點(diǎn)（NameNode）都需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程，而這個(gè)過程可以通過SSH登錄來實(shí)現(xiàn)。由于Hadoop并沒有提供SSH輸入密碼登錄的形式，因此，為了能夠順利登錄每臺(tái)機(jī)器，就需要對(duì)其進(jìn)行SSH的免密登錄配置。Hadoop偽分布式搭建基本流程5.JDK1.8配置 Hadoop是基于Java語(yǔ)言開發(fā)的，使用Java首先要安裝JDK(JavaDevelopmentKit)，即Java開發(fā)工具，安裝完JDK還需要進(jìn)行配置環(huán)境變量(PATH，CLASSPATH，JAVA_HOME)。6.Hadoop3.1.1偽分布式安裝配置 Hadoop3可以通過Hadoop官網(wǎng)下載，請(qǐng)下載hadoop-3.1.1.tar.gz格式文件，這種格式已經(jīng)編譯好，另一個(gè)包含src的則是Hadoop源代碼，需要進(jìn)行編譯才可使用。 Hadoop目錄，一共有7個(gè)目錄和3個(gè)txt說明文件，bin和sbin是可執(zhí)行文件的目錄，etc放的是配置文件目錄，include、lib和libexec均是放一些類庫(kù)的目錄，share是放一些共享類庫(kù)和jar包的。

在安裝Hadoop后，需要對(duì)Hadoop進(jìn)行配置，這些配置文件存放在Hadoop目錄下的./etc/hadoop文件夾中。7.HDFS格式化配置

首次啟動(dòng)前需要進(jìn)行格式化。格式化本質(zhì)是進(jìn)行文件系統(tǒng)的初始化操作，創(chuàng)建一些Hadoop自己所需要的文件。格式化之后且啟動(dòng)成功后，后續(xù)再也不需要進(jìn)行格式化。格式化的操作在HDFS集群的主角色（NameNode）所在機(jī)器上操作。8.啟動(dòng)偽分布Hadoop

Hadoop在格式化成功以后，接著開啟NameNode和DataNode守護(hù)進(jìn)程，在Hadoop目錄下通過./sbin/start-dfs.sh命令啟動(dòng)。通過WebUI監(jiān)控Hadoop平臺(tái)

當(dāng)Hadoop成功啟動(dòng)并通過jps可以看到指定進(jìn)程后，可以訪問Web界面來查看HDFS和MapReduce相關(guān)信息。10.常見問題匯總搭建Hadoop偽分布式【工作流程】搭建偽分布式Hadoop的基本工作流程包括：關(guān)閉防火墻關(guān)閉SELinux修改主機(jī)名配置SSH（secureshell）免密碼登錄安裝配置JDK1.8安裝配置Hadoop搭建Hadoop偽分布式【操作步驟】1.關(guān)閉防火墻[root@localhost/]#/usr/sbin/sestatus-vSELinuxstatus:enforcing#臨時(shí)關(guān)閉SELinux[root@localhost/]#setenforce02.關(guān)閉SELinux[root@localhost

/]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;disabled;vendorpreset:enabled)Active:active(running)sinceThu2021-11-1812:39:24UTC;1sagoDocs:man:firewalld(1)MainPID:31240(firewalld)Tasks:2Memory:28.1MCGroup:/system.slice/firewalld.service└─31240/usr/bin/python2-Es/usr/sbin/firewalld--nofork--nopid#關(guān)閉防火墻[root@localhost

/]#systemctlstopfirewalld#禁止開啟啟動(dòng)[root@localhost

/]#systemctldisablefirewalld搭建Hadoop偽分布式4.配置SSH（secureshell）免密碼登錄[root@localhost/]#hostnamelocalhost#臨時(shí)修改主機(jī)名稱[root@localhost/]#hostnamectlset-hostname主機(jī)名#配置主機(jī)名與IP地址的映射,在文件末尾添加主機(jī)名與IP之間的映射關(guān)系[root@localhost/]#gedit

/etc/hosts當(dāng)前主機(jī)IPlocalhost3.修改主機(jī)名稱,并配置主機(jī)名和IP地址的映射#生成秘鑰[root@localhost/]ssh-keygen-trsa#輸入后按照提示回車，直到完成命令Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):#直接回車Enterpassphrase(emptyfornopassphrase):#直接回車Entersamepassphraseagain:#直接回車Youridentificationhasbeensavedin/root/.ssh/id_rsa.Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38root@node1Thekey'srandomartimageis:+---[RSA2048]----+|+*O*=.||.o=+=o+||...O+=||..**.%o||Soo%o+||.++.||.+.||.+E||o.o|+----[SHA256]-----+#拷貝id_rsa.pub，創(chuàng)建密鑰文件authorized_keys[root@localhost/]#cp~/.ssh/id_rsa.pub~/.ssh/authorized_keys#驗(yàn)證免密登錄，可以正常進(jìn)入，無(wú)需輸入免密視為配置成功[root@localhost/]#ssh

主機(jī)名搭建Hadoop偽分布式5.安裝配置JDK1.8#檢查JDK是否安裝[root@localhost/]#java-version#上傳已下載好的JKD壓縮包到/usr/local目錄下[root@localhost/]#cd/usr/local#解壓JDK壓縮包[root@localhost/]#tarzxvfjdk-8u112-linux-x64.tar.gz#修改文件名稱,方便填寫[root@localhost/]#mvjdk1.8.0_112jdk#設(shè)置環(huán)境變量，添加2行內(nèi)容[root@localhost/]#vim/etc/profileexportJAVA_HOME=/usr/local/jdkexportPATH=.:$JAVA_HOME/bin:$PATH#使配置的環(huán)境變量生效[root@localhost/]#source/etc/profile[root@localhost/]#java-versionjavaversion"1.8.0_112"Java(TM)SERuntimeEnvironment(build1.8.0_112-b15)JavaHotSpot(TM)64-BitServerVM(build25.112-b15,mixedmode)6.安裝Hadoop3.1.1#上傳Hadoop壓縮包到/usr/local目錄下并解壓Hadoop壓縮包[root@localhost

/]#tar-zxvfhadoop-3.1.1.tar.gz-C/usr/local/[root@localhost

/]#mvhadoop-3.1.1hadoop#設(shè)置環(huán)境變量，添加以下幾行內(nèi)容[root@ocalhost

/]#vim/etc/profileexportHADOOP_HOME=/usr/local/hadoopexportPATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH#hadoop-3.1.1必須添加如下5個(gè)變量否則啟動(dòng)報(bào)錯(cuò)exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root[root@localhost

/]#source/etc/profile[root@localhost

/]#hadoopversionHadoop3.1.1Sourcecoderepository/apache/hadoop-r2b9a8c1d3a2caf1e733d57f346af3ff0d5ba529cCompiledbyleftnoteasyon2018-08-02T04:26ZCompiledwithprotoc2.5.0Fromsourcewithchecksumf76ac55e5b5ff0382a9f7df36a3ca5a0Thiscommandwasrunusing/usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.1.jar搭建Hadoop偽分布式6.安裝Hadoop3.1.1修改Hadoop配置文件,這些配置文件都放在/usr/local/hadoop/etc/hadoop目錄下第一個(gè)：配置hadoop-env.sh文件#編輯文件，設(shè)置JAVA_HOME絕對(duì)路基（JDK1.8安裝路徑）[root@localhos

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

單元2 任務(wù)2-1 搭建Hadoop偽分布式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

單元2 任務(wù)2-1 搭建Hadoop偽分布式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔