版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)平臺(tái)部署與運(yùn)維》單元2Hadoop偽分布式安裝部署任務(wù)2.1搭建Hadoop偽分布式01Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀02Hadoop優(yōu)勢(shì)與核心組成學(xué)習(xí)目標(biāo)03Hadoop安裝方式04Hadoop各版本選擇05Hadoop偽分布式搭建基本流程搭建Hadoop偽分布式【任務(wù)場(chǎng)景】經(jīng)理:我們公司現(xiàn)在數(shù)據(jù)量不斷上升,現(xiàn)有的架構(gòu)需要升級(jí),小張你有什么意見?小張:Hadoop適合應(yīng)用于大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析的應(yīng)用,適合于服務(wù)器幾千臺(tái)到幾萬(wàn)臺(tái)的集群運(yùn)行,支持PB級(jí)的存儲(chǔ)容量。Hadoop典型應(yīng)用有:搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。經(jīng)理:對(duì),Hadoop目前已經(jīng)取得了非常突出的成績(jī)。隨著互聯(lián)網(wǎng)的發(fā)展,新的業(yè)務(wù)模式還將不斷涌現(xiàn),Hadoop的應(yīng)用會(huì)從互聯(lián)網(wǎng)領(lǐng)域向電信、電子商務(wù)、銀行、生物制藥等領(lǐng)域拓展。小張:好的,那我先部署一套偽分布式環(huán)境。搭建Hadoop偽分布式【任務(wù)布置】Hadoop是由Java語(yǔ)言開發(fā)的,所以Hadoop的部署和運(yùn)行都依賴JDK,因此必須先將部署前基礎(chǔ)環(huán)境準(zhǔn)備完成。本次任務(wù)要求在單節(jié)點(diǎn)上部署偽分布式Hadoop。一般在測(cè)試場(chǎng)景下經(jīng)常會(huì)部署單節(jié)點(diǎn)的偽分布式Hadoop,理解并掌握Hadoop偽分布式的安裝部署,可以為后續(xù)生產(chǎn)環(huán)境下部署Hadoop分布式集群打下基礎(chǔ)。Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式存儲(chǔ)和計(jì)算平臺(tái),是基于Java語(yǔ)言開發(fā)的,有很好的跨平臺(tái)性。Hadoop以分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)和MapReduce(GoogleMapReduce的開源實(shí)現(xiàn))為核心,為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。Hadoop概述Hadoop這個(gè)名字不是一個(gè)縮寫,它是一個(gè)虛構(gòu)的名字。該項(xiàng)目的創(chuàng)建者DougCutting解釋Hadoop的得名:“這個(gè)名字是我孩子給一個(gè)棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡(jiǎn)短,容易發(fā)音和拼寫,沒有太多的意義,并且不會(huì)被用于別處,小孩子恰恰是這方面的高手?!盚adoop的發(fā)音是[h?du:p]。ApacheHadoop官方網(wǎng)站Inpioneerdaystheyusedoxenforheavypulling,andwhenoneoxcouldn’tbudgealog,theydidn’ttrytogrowalargerox.Weshouldn’tbetryingforbiggercomputers,butformoresystemsofcomputers.(在拓荒時(shí)期,他們用牛來拉重物,當(dāng)一頭牛不能移動(dòng)一根原木時(shí),他們就不會(huì)試圖讓一頭牛長(zhǎng)得更大。我們不應(yīng)該嘗試更大的計(jì)算機(jī),而是嘗試更多的計(jì)算機(jī)系統(tǒng)。)—GraceHopperHadoop優(yōu)勢(shì)與核心組成Hadoop發(fā)展:2002年Hadoop的源頭是ApacheNutch搜索引擎項(xiàng)目2003年Google發(fā)布了關(guān)于GFS的論文20042005年2006年2007年Nutch的開發(fā)者發(fā)布了NDFSGoogle公司發(fā)表了MapReduce,最初版本問世Nutch移植到新的框架,Hadoop在20個(gè)節(jié)點(diǎn)上穩(wěn)定運(yùn)行DougCutting加入Yahoo,ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS從Nutch中獨(dú)立處理發(fā)展。研究集群達(dá)到兩個(gè)1000個(gè)節(jié)點(diǎn)的集群2009年Cloudera推出CDHMapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目2011年Hadoop1.0問世,標(biāo)志著Hadoop已經(jīng)初具生成規(guī)模2016年Hadoop3.0問世,正式進(jìn)入3.x時(shí)代2008年Hadoop成為Apache頂級(jí)項(xiàng)目。Hive成為Apache子項(xiàng)目2010年Avro、Hbase、Hive、Pig脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目2013年Hadoop2.0問世,正式進(jìn)入2.x時(shí)代Hadoop優(yōu)勢(shì)與核心組成Hadoop優(yōu)點(diǎn):Hadoop是一個(gè)能讓用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的分布式平臺(tái)。它主要是有以下幾個(gè)優(yōu)點(diǎn):(1)高可靠性;Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。(2)高擴(kuò)展性;Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。(3)高效性;Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。(4)高容錯(cuò)性;Hadoop能夠自動(dòng)保存數(shù)據(jù)的多份副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop優(yōu)勢(shì)與核心組成Hadoop核心組成:在當(dāng)下,Hadoop已經(jīng)形成了一個(gè)龐大的體系,有數(shù)據(jù)的地方基本都會(huì)看到Hadoop的身影。目前的Hadoop逐漸演化出來兩種分類,廣義的Hadoop和狹義的Hadoop。狹義的Hadoop主要包括三大部分:HDFS(分布式文件系統(tǒng)),MapReduce(分布式計(jì)算系統(tǒng)),YARN(資源管理器)。廣義的Hadoop是指Hadoop的生態(tài)系統(tǒng),是一個(gè)龐大的體系,Hadoop只是其中最重要最基礎(chǔ)的部分,生態(tài)系統(tǒng)中的每個(gè)子系統(tǒng)只負(fù)責(zé)解決某個(gè)特定的問題域。Hadoop生態(tài)系統(tǒng)圖Hadoop優(yōu)勢(shì)與核心組成項(xiàng)目介紹分布式文件系統(tǒng)HDFSHDFS是Hadoop的存儲(chǔ)系統(tǒng),采用了主從(Master/Worker)結(jié)構(gòu)模型,一個(gè)HDFS集群環(huán)境是由一個(gè)NameNode和若干的DataNode組成的。HDFS能夠?qū)崿F(xiàn)對(duì)文件的操作,如刪除文件、移動(dòng)文件等功能。HDFS提供了高可靠性(多副本實(shí)現(xiàn))、高擴(kuò)展性(添加機(jī)器進(jìn)行線性擴(kuò)展)、高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)。分布式計(jì)算框架MapReduceMapReduce是一個(gè)分布式、并行處理的編程模型,他方便了編程人員將自己的程序部署到分布式系統(tǒng)中,MapReduce采用了“分而治之”的基本思想,他將一個(gè)大的任務(wù)分解成多個(gè)小的任務(wù),分發(fā)到集群中不同計(jì)算機(jī)中,提高完成效率YARN(資源管理器)YARN是在Hadoop2.x中誕生的,他對(duì)Hadoop1.x中JobTracker和TaskTracker模型的優(yōu)化而誕生的,主要負(fù)責(zé)整個(gè)系統(tǒng)化的資源管理和調(diào)度,并且在YARN上能夠運(yùn)行不同類型的執(zhí)行框架。Hive基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,由Facebook開源。Hive讓不熟悉MapReduce的開發(fā)人員編寫數(shù)據(jù)查詢語(yǔ)句(SQL語(yǔ)句),它會(huì)將其翻譯為Hadoop中的MapReduce作業(yè),并提交到Hadoop集群中運(yùn)行。HBase(分布式數(shù)據(jù)庫(kù))HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。HBase是谷歌BigTable的開源實(shí)現(xiàn),通過Java語(yǔ)言進(jìn)行編程,主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。ZooKeeper(分布式協(xié)作服務(wù))ZooKeeper是Hadoop的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Hadoop和HBase的重要組件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop優(yōu)勢(shì)與核心組成項(xiàng)目介紹Sqoop(數(shù)據(jù)同步工具)Sqoop是一個(gè)連通性工具,用于在關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)(Hive)與Hadoop之間數(shù)據(jù)轉(zhuǎn)移框架Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))Pig是用于并行計(jì)算的高級(jí)數(shù)據(jù)流語(yǔ)言和執(zhí)行框架。他是構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù),定義了一種數(shù)據(jù)流語(yǔ)言–PigLatin。Pig突出的特點(diǎn)就是它的結(jié)構(gòu)經(jīng)得起大量并行任務(wù)的檢驗(yàn),這使得它能夠處理大規(guī)模數(shù)據(jù)集。Mahout(數(shù)據(jù)挖掘算法庫(kù))Mahout是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的庫(kù)。它實(shí)現(xiàn)了三大算法:推薦、聚類、分類。Flume(日志收集工具)Flume是Cloudera開源的日志收集系統(tǒng),他具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn),是基于流式數(shù)據(jù)流的簡(jiǎn)單而靈活的架構(gòu)。它具有可靠的可靠性機(jī)制以及許多故障轉(zhuǎn)移和恢復(fù)機(jī)制,具有強(qiáng)大的容錯(cuò)性和容錯(cuò)能力。Oozie(作業(yè)流調(diào)度系統(tǒng))Oozie是一個(gè)用于管理ApacheHadoop作業(yè)的工作流調(diào)度程序系統(tǒng),能夠提供對(duì)HadoopMapReduce和PigJobs的任務(wù)調(diào)度與協(xié)調(diào)。Oozie工作流是放置在控制依賴DAG(有向無(wú)環(huán)圖)中的一組動(dòng)作,需要部署到JavaServlet容器中運(yùn)行。Hadoop優(yōu)勢(shì)與核心組成3.Hadoop安裝方式Hadoop安裝部署有以下三種模式:1.單機(jī)部署,Hadoop默認(rèn)模式、即非分布式模式(本地模式),沒有守護(hù)進(jìn)程,不分主從節(jié)點(diǎn),這種部署方式非常少用。2.偽分布式部署,主從節(jié)點(diǎn)都在一臺(tái)主機(jī)上,可用在本機(jī)模擬一個(gè)主節(jié)點(diǎn)、一個(gè)從節(jié)點(diǎn)的集群。本單元以偽分布式模式進(jìn)行Hadoop搭建。3.完全分布式集群部署,有多個(gè)節(jié)點(diǎn),主從進(jìn)程分別在不同的機(jī)器上運(yùn)行。Hadoop各版本選擇1.Hadoop1.02011年,Hadoop1.0問世,由分布式存儲(chǔ)系統(tǒng)HDFS和分布式計(jì)算框架MapReduce組成。其中HDFS由一個(gè)NameNode和多個(gè)DateNode組成,MapReduce由一個(gè)JobTracker和多個(gè)TaskTracker組成。在實(shí)際的使用過程中,Hadoop1.x逐漸的暴露出許多問題:(1)主節(jié)點(diǎn)故障問題,HDFS和MapReduce都是主從結(jié)構(gòu),他們的主節(jié)點(diǎn)都是單節(jié)點(diǎn)結(jié)構(gòu),一旦主節(jié)點(diǎn)出現(xiàn)問題,導(dǎo)致集群癱瘓。(2)注銷速度問題,MapReduce的主節(jié)點(diǎn)JobTracker完成太多任務(wù),當(dāng)MapReduce任務(wù)非常多時(shí),造成非常大的內(nèi)存開銷。(3)服務(wù)器利用率不高,MapReduce主要分為兩個(gè)階段,一個(gè)為Map,一個(gè)為Reduce。在MapReduce時(shí)執(zhí)行時(shí),大部分Reduce任務(wù)需要等待Map任務(wù)完成計(jì)算才能開始。(4)存儲(chǔ)文件格式單一問題,HDFS存儲(chǔ)的數(shù)據(jù)都是按照Block來存儲(chǔ)的,整個(gè)存儲(chǔ)只有這一個(gè)格式,而企業(yè)的數(shù)據(jù)是多種多樣的,存儲(chǔ)起來不但麻煩還造成資源的浪費(fèi)。Hadoop各版本選擇MapReduce1.0架構(gòu)圖關(guān)鍵詞含義Client
客戶端JobTrackerMaster節(jié)點(diǎn),責(zé)資源監(jiān)控和作業(yè)調(diào)度,并監(jiān)管所有的TaskTrackerTaskTrackerWorker節(jié)點(diǎn),接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作TaskScheduler任務(wù)調(diào)度器Hearbeat心跳機(jī)制MapTask解析每條數(shù)據(jù)記錄,傳遞給用戶編寫的map(),并執(zhí)行,將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè),直接寫入HDFS)ReduceTask從MapTask的執(zhí)行結(jié)果中,遠(yuǎn)程讀取輸入數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行排序,將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行Hadoop各版本選擇關(guān)鍵詞含義NameNode名字節(jié)點(diǎn),管理文件系統(tǒng)命名空間的主服務(wù)器。DataNode數(shù)據(jù)節(jié)點(diǎn),存儲(chǔ)文件塊replication文件塊的副本,目的是確保數(shù)據(jù)存儲(chǔ)的可靠性Rack機(jī)架,可以理解為兩個(gè)處于不同地方的機(jī)群,每個(gè)機(jī)群內(nèi)部有自己的連接方式Client通過指令或代碼操作的一端都是客戶端Client的Read從HDFS下載文件到本地Client的Write上傳文件到HDFS上HDFS1.0架構(gòu)圖Hadoop各版本選擇Hadoop2.0Hadoop1.0到Hadoop2.0架構(gòu)變化圖2013年,Hadoop2.0問世,Hadoop2.0是為了解決Hadoop1.0中的出現(xiàn)的問題而提出的,內(nèi)核主要由HDFS、MapReduce和YARN三個(gè)系統(tǒng)組成。針對(duì)Hadoop1.0中HDFS主節(jié)點(diǎn)故障問題,提出了HDFSFederation,兼容多個(gè)NameNode,讓多個(gè)NameNode分管不同的目錄來進(jìn)行訪問的隔離和節(jié)點(diǎn)的橫向擴(kuò)展,這樣就解決了HDFS單節(jié)點(diǎn)問題。針對(duì)MapReduce主節(jié)點(diǎn)故障和框架支持問題,將MapReduce的功能分開了,只保留了數(shù)據(jù)處理,將集群資源管理放到了Yarn中,誕生了全新的通用資源管理框架YARN。在MapReduce2.0中,具有和MapReduce1.0相同的編程模型和數(shù)據(jù)引擎處理,但是在運(yùn)行時(shí)環(huán)境上引入全新的資源管理框架YARN,MapReduce變成了一個(gè)純粹的計(jì)算框架,不再負(fù)責(zé)管理。YARN是Hadoop2.0中資源管理系統(tǒng),負(fù)責(zé)資源管理和調(diào)度。他將JobTracker的資源管理和作業(yè)調(diào)度拆分成兩個(gè)獨(dú)立的進(jìn)程,ApplicationMaster和ResourceManager。在Hadoop2.x中對(duì)HDFS做了改進(jìn),可以使NameNode橫向擴(kuò)展成多個(gè),每個(gè)NameNode分管部分目錄,誕生了HDFSFederation。組件Hadoop1.0問題Hadoop2.0改進(jìn)HDFS單一名稱節(jié)點(diǎn),存在單點(diǎn)失效問題設(shè)計(jì)了HDFSHA,提供名稱節(jié)點(diǎn)熱備機(jī)制HDFS單一命名空間,無(wú)法實(shí)現(xiàn)資源隔離設(shè)計(jì)了HDFSFederation,管理多個(gè)命名空間MapReduce資源管理效率低設(shè)計(jì)了新的資源管理框架YARNHadoop各版本選擇Hadoop3.02016年,Hadoop3.0問世,Hadoop3.0中引入了一些重要的功能和優(yōu)化,包括HDFS可擦除編碼、多Namenode支持、MRNativeTask優(yōu)化、YARN基于cgroup的內(nèi)存和磁盤IO隔離、YARNcontainerresizing等。Hadoop3.0新特性:Java版本升級(jí)Hadoop3.0要求Java版本最低版本不低于1.8,有以往的Java版本不再支持Hadoop版本JDK1.6JDK1.7JDK1.8Hadoop1.x√××Hadoop2.x√√×Hadoop3.x××√2.部分服務(wù)默認(rèn)端口修改在以往版本中,多個(gè)Hadoop服務(wù)的默認(rèn)端口在Linux臨時(shí)端口范圍內(nèi)(32768-61000)。這意味著在啟動(dòng)時(shí),服務(wù)有時(shí)會(huì)由于與另一個(gè)應(yīng)用程序沖突而無(wú)法綁定到端口分類應(yīng)用Haddop2.xportHaddop3.xportNNportsNameNode8020/90009820NNHTTPUI500709870NNHTTPSUI504709871SNNportsSNNHTTP500919869SNNHTTPUI500909868DNportsDNIPC500209867DN500109866DNHTTPUI500759864DNHTTPSUI504759865Hadoop各版本選擇HDFS支持糾刪碼YARN時(shí)間線服務(wù)v.2Shell腳本重寫重構(gòu)HadoopClientJar包MapReduce任務(wù)級(jí)原生優(yōu)化支持兩個(gè)以上的NameNode支持與MicrosoftAzureDataLake和Aliyun對(duì)象存儲(chǔ)系統(tǒng)進(jìn)行集成DataNode內(nèi)平衡器重新設(shè)計(jì)的守護(hù)進(jìn)程和任務(wù)堆管理S3Guard:S3A文件系統(tǒng)客戶端的一致性和元數(shù)據(jù)緩存基于HDFS路由器的聯(lián)合基于API的CapacityScheduler隊(duì)列配置配置YARN資源類型Hadoop偽分布式搭建基本流程Hadoop偽分布式安裝,是指在一個(gè)節(jié)點(diǎn)(即一臺(tái)主機(jī)或服務(wù)器)上安裝和部署HDFS和MapReduce+Yarn。實(shí)際上,偽分布式模式可以看成是單節(jié)點(diǎn)的完全分布式模式。Hadoop偽分布式搭建基本流程1.防火墻配置
Centos7使用Firewalld命令來操作防火墻,在Hadoop偽分布式搭建中,一般都選在局域網(wǎng)中進(jìn)行搭建,沒有安全性考慮,因此關(guān)閉防火墻一般也不會(huì)存在安全隱患。2.SELinux配置
SELinux是安全增強(qiáng)型Linux(Security-EnhancedLinux)簡(jiǎn)稱,它是一個(gè)Linux內(nèi)核模塊,也是Linux的一個(gè)安全子系統(tǒng)。為了避免安裝過程出現(xiàn)各種錯(cuò)誤,建議關(guān)閉。主機(jī)名配置
為了更方便的管理項(xiàng)目,建議對(duì)每個(gè)節(jié)點(diǎn)的主機(jī)名進(jìn)行修改。4.SSH(secureshell)免密碼登錄配置
不管是Hadoop的偽分布還是全分布,Hadoop的名稱結(jié)點(diǎn)(NameNode)都需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程,而這個(gè)過程可以通過SSH登錄來實(shí)現(xiàn)。由于Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺(tái)機(jī)器,就需要對(duì)其進(jìn)行SSH的免密登錄配置。Hadoop偽分布式搭建基本流程5.JDK1.8配置 Hadoop是基于Java語(yǔ)言開發(fā)的,使用Java首先要安裝JDK(JavaDevelopmentKit),即Java開發(fā)工具,安裝完JDK還需要進(jìn)行配置環(huán)境變量(PATH,CLASSPATH,JAVA_HOME)。6.Hadoop3.1.1偽分布式安裝配置 Hadoop3可以通過Hadoop官網(wǎng)下載,請(qǐng)下載hadoop-3.1.1.tar.gz格式文件,這種格式已經(jīng)編譯好,另一個(gè)包含src的則是Hadoop源代碼,需要進(jìn)行編譯才可使用。 Hadoop目錄,一共有7個(gè)目錄和3個(gè)txt說明文件,bin和sbin是可執(zhí)行文件的目錄,etc放的是配置文件目錄,include、lib和libexec均是放一些類庫(kù)的目錄,share是放一些共享類庫(kù)和jar包的。
在安裝Hadoop后,需要對(duì)Hadoop進(jìn)行配置,這些配置文件存放在Hadoop目錄下的./etc/hadoop文件夾中。7.HDFS格式化配置
首次啟動(dòng)前需要進(jìn)行格式化。格式化本質(zhì)是進(jìn)行文件系統(tǒng)的初始化操作,創(chuàng)建一些Hadoop自己所需要的文件。格式化之后且啟動(dòng)成功后,后續(xù)再也不需要進(jìn)行格式化。格式化的操作在HDFS集群的主角色(NameNode)所在機(jī)器上操作。8.啟動(dòng)偽分布Hadoop
Hadoop在格式化成功以后,接著開啟NameNode和DataNode守護(hù)進(jìn)程,在Hadoop目錄下通過./sbin/start-dfs.sh命令啟動(dòng)。通過WebUI監(jiān)控Hadoop平臺(tái)
當(dāng)Hadoop成功啟動(dòng)并通過jps可以看到指定進(jìn)程后,可以訪問Web界面來查看HDFS和MapReduce相關(guān)信息。10.常見問題匯總搭建Hadoop偽分布式【工作流程】搭建偽分布式Hadoop的基本工作流程包括:關(guān)閉防火墻關(guān)閉SELinux修改主機(jī)名配置SSH(secureshell)免密碼登錄安裝配置JDK1.8安裝配置Hadoop搭建Hadoop偽分布式【操作步驟】1.關(guān)閉防火墻[root@localhost/]#/usr/sbin/sestatus-vSELinuxstatus:enforcing#臨時(shí)關(guān)閉SELinux[root@localhost/]#setenforce02.關(guān)閉SELinux[root@localhost
/]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;disabled;vendorpreset:enabled)Active:active(running)sinceThu2021-11-1812:39:24UTC;1sagoDocs:man:firewalld(1)MainPID:31240(firewalld)Tasks:2Memory:28.1MCGroup:/system.slice/firewalld.service└─31240/usr/bin/python2-Es/usr/sbin/firewalld--nofork--nopid#關(guān)閉防火墻[root@localhost
/]#systemctlstopfirewalld#禁止開啟啟動(dòng)[root@localhost
/]#systemctldisablefirewalld搭建Hadoop偽分布式4.配置SSH(secureshell)免密碼登錄[root@localhost/]#hostnamelocalhost#臨時(shí)修改主機(jī)名稱[root@localhost/]#hostnamectlset-hostname主機(jī)名#配置主機(jī)名與IP地址的映射,在文件末尾添加主機(jī)名與IP之間的映射關(guān)系[root@localhost/]#gedit
/etc/hosts當(dāng)前主機(jī)IPlocalhost3.修改主機(jī)名稱,并配置主機(jī)名和IP地址的映射#生成秘鑰[root@localhost/]ssh-keygen-trsa#輸入后按照提示回車,直到完成命令Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):#直接回車Enterpassphrase(emptyfornopassphrase):#直接回車Entersamepassphraseagain:#直接回車Youridentificationhasbeensavedin/root/.ssh/id_rsa.Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38root@node1Thekey'srandomartimageis:+---[RSA2048]----+|+*O*=.||.o=+=o+||...O+=||..**.%o||Soo%o+||.++.||.+.||.+E||o.o|+----[SHA256]-----+#拷貝id_rsa.pub,創(chuàng)建密鑰文件authorized_keys[root@localhost/]#cp~/.ssh/id_rsa.pub~/.ssh/authorized_keys#驗(yàn)證免密登錄,可以正常進(jìn)入,無(wú)需輸入免密視為配置成功[root@localhost/]#ssh
主機(jī)名搭建Hadoop偽分布式5.安裝配置JDK1.8#檢查JDK是否安裝[root@localhost/]#java-version#上傳已下載好的JKD壓縮包到/usr/local目錄下[root@localhost/]#cd/usr/local#解壓JDK壓縮包[root@localhost/]#tarzxvfjdk-8u112-linux-x64.tar.gz#修改文件名稱,方便填寫[root@localhost/]#mvjdk1.8.0_112jdk#設(shè)置環(huán)境變量,添加2行內(nèi)容[root@localhost/]#vim/etc/profileexportJAVA_HOME=/usr/local/jdkexportPATH=.:$JAVA_HOME/bin:$PATH#使配置的環(huán)境變量生效[root@localhost/]#source/etc/profile[root@localhost/]#java-versionjavaversion"1.8.0_112"Java(TM)SERuntimeEnvironment(build1.8.0_112-b15)JavaHotSpot(TM)64-BitServerVM(build25.112-b15,mixedmode)6.安裝Hadoop3.1.1#上傳Hadoop壓縮包到/usr/local目錄下并解壓Hadoop壓縮包[root@localhost
/]#tar-zxvfhadoop-3.1.1.tar.gz-C/usr/local/[root@localhost
/]#mvhadoop-3.1.1hadoop#設(shè)置環(huán)境變量,添加以下幾行內(nèi)容[root@ocalhost
/]#vim/etc/profileexportHADOOP_HOME=/usr/local/hadoopexportPATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH#hadoop-3.1.1必須添加如下5個(gè)變量否則啟動(dòng)報(bào)錯(cuò)exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root[root@localhost
/]#source/etc/profile[root@localhost
/]#hadoopversionHadoop3.1.1Sourcecoderepository/apache/hadoop-r2b9a8c1d3a2caf1e733d57f346af3ff0d5ba529cCompiledbyleftnoteasyon2018-08-02T04:26ZCompiledwithprotoc2.5.0Fromsourcewithchecksumf76ac55e5b5ff0382a9f7df36a3ca5a0Thiscommandwasrunusing/usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.1.jar搭建Hadoop偽分布式6.安裝Hadoop3.1.1修改Hadoop配置文件,這些配置文件都放在/usr/local/hadoop/etc/hadoop目錄下第一個(gè):配置hadoop-env.sh文件#編輯文件,設(shè)置JAVA_HOME絕對(duì)路基(JDK1.8安裝路徑)[root@localhos
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 長(zhǎng)沙2025年湖南寧鄉(xiāng)市衛(wèi)健系統(tǒng)招聘技術(shù)人員86人筆試歷年參考題庫(kù)附帶答案詳解
- 遼寧2025年遼寧中醫(yī)藥大學(xué)附屬第四醫(yī)院招聘13人筆試歷年參考題庫(kù)附帶答案詳解
- 紹興2025年第三期浙江紹興上虞區(qū)招聘輔警26人筆試歷年參考題庫(kù)附帶答案詳解
- 湘潭2025年湖南韶山思政教育實(shí)踐中心教師招聘筆試歷年參考題庫(kù)附帶答案詳解
- 河南2025年河南職業(yè)技術(shù)學(xué)院招聘65人筆試歷年參考題庫(kù)附帶答案詳解
- 安陽(yáng)2025年河南安陽(yáng)師范學(xué)院互聯(lián)網(wǎng)+應(yīng)用技術(shù)學(xué)院教師崗位招聘筆試歷年參考題庫(kù)附帶答案詳解
- 南京2025年江蘇南京市民政局所屬事業(yè)單位招聘衛(wèi)技人員24人筆試歷年參考題庫(kù)附帶答案詳解
- 職業(yè)性肝纖維化個(gè)體化診斷與防護(hù)方案
- 中山廣東中山市南頭鎮(zhèn)人民政府招聘合同制工作人員筆試歷年參考題庫(kù)附帶答案詳解
- 2026年英語(yǔ)語(yǔ)法與寫作技能測(cè)試題目集
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)完整參考答案詳解
- 2026年黃委會(huì)事業(yè)單位考試真題
- 供水管網(wǎng)及配套設(shè)施改造工程可行性研究報(bào)告
- 2026年及未來5年中國(guó)高帶寬存儲(chǔ)器(HBM)行業(yè)市場(chǎng)調(diào)查研究及投資前景展望報(bào)告
- 英語(yǔ)試卷浙江杭州市學(xué)軍中學(xué)2026年1月首考適應(yīng)性考試(12.29-12.30)
- 高血壓的急癥與處理
- 表面粗糙度與檢測(cè)(新國(guó)標(biāo))課件
- 人工智能在系統(tǒng)集成中的應(yīng)用
- 大九九乘法口訣表(可下載打印)
- 金屬非金屬礦山安全操作規(guī)程
- 壓鑄鋁合金熔煉改善
評(píng)論
0/150
提交評(píng)論