《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第1頁
《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第2頁
《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第3頁
《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第4頁
《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目三Spark基于Yarn搭建延時符序言02延時符項(xiàng)目描述

上一項(xiàng)目介紹了Spark集群的搭建,實(shí)際上搭建的就是Spark的Standalone集群,也就是說,提交Spark任務(wù)運(yùn)行所依賴的資源調(diào)度是Spark集群,任務(wù)就是運(yùn)行在Spark集群中的Worker節(jié)點(diǎn)上。項(xiàng)目分析

在Hadoop生態(tài)圈中Hadoop2.x版本之后映入了Yarn,引入Yarn的目的是將MapReduce任務(wù)的資源調(diào)度和任務(wù)調(diào)度分離,Yarn只管理資源調(diào)度框架進(jìn)行調(diào)度,Spark任務(wù)同樣也可以基于Yarn資源調(diào)度框架進(jìn)行調(diào)度。0301OPTION02OPTION基于Yarn搭建環(huán)境配置基于Yarn搭建目錄頁延時符基于Yarn搭建環(huán)境配置04任務(wù)105基于Yarn搭建環(huán)境配置Spark任務(wù)基于Yarn資源調(diào)度框架進(jìn)行調(diào)度時,首要條件是搭建好Hadoop集群環(huán)境。Hadoop集群環(huán)境中重要的角色如下。NameNodeNameNode管理HDFS文件系統(tǒng)的命名空間,它維護(hù)著文件系統(tǒng)及文件系統(tǒng)內(nèi)所有的文件和目錄,這些信息以兩個文件形式永久保存在本地磁盤上:命名空間鏡像文件和編輯日志文件。NameNode也記錄著每個文件中各個數(shù)據(jù)快所在的數(shù)據(jù)節(jié)點(diǎn)信息,但它并不永久保存數(shù)據(jù)快的位置信息,因?yàn)檫@些信息會在系統(tǒng)啟動時根據(jù)數(shù)據(jù)節(jié)點(diǎn)信息重建。DataNodeDataNode是HDFS文件系統(tǒng)的工作節(jié)點(diǎn),它們根據(jù)需要存儲并檢索數(shù)據(jù)塊(受NameNode調(diào)度),并且定時向NameNode發(fā)送它們存儲的數(shù)據(jù)塊的列表。ResourceManagerResourceManager是管理集群所有可用資源的中心節(jié)點(diǎn),并能夠幫助管理Yarn上的分部署applications。它與每個節(jié)點(diǎn)上的NodeManagers(NMs)和ApplicationMaster(AMs)一起工作。NodeManagerNodeManager是yarn中每個節(jié)點(diǎn)上的代理,它管理Hadoop集群中單個計(jì)算機(jī)節(jié)點(diǎn),包括與ResourceManager保持通信、監(jiān)督Container的生命周期管理、監(jiān)控每一個Container的資源使用(內(nèi)存、CPU等)情況、追蹤節(jié)點(diǎn)健康狀況、管理日志和不同應(yīng)用程序用到的附屬服務(wù)(auxiliaryservice)等。07基于Yarn搭建環(huán)境配置Hadoop集群節(jié)點(diǎn)角色劃分搭建Hadoop集群的完全分布式,需要依賴zookeeper分布協(xié)調(diào)系統(tǒng)進(jìn)行協(xié)調(diào)管理,因此,還需要安裝zookeeper集群。zookeeper集群角色節(jié)點(diǎn)劃分基于Yarn搭建08任務(wù)209基于Yarn搭建環(huán)境配置節(jié)點(diǎn)劃分配置Saprk任務(wù)也可以基于Yarn資源調(diào)度框架進(jìn)行資源調(diào)度,即Spark任務(wù)可以提交到Y(jié)arn上運(yùn)行?;赮arn提交任務(wù)之前,需要做簡單的配置。

以mynode4為Saprk客戶端,在mynode上向Yarn資源調(diào)度提交任務(wù)??蛻舳艘峤籗park任務(wù),需要在mynode4上有Spark的安裝包,目前在mynode4/software路徑下有Spark安裝包,這樣在/software/spark-2.3.1/bin路徑下就可以寫入基于Yarn提交Spark任務(wù)的命令。10基于Yarn搭建環(huán)境配置配置SparkonYarn

在客戶端提交Spark任務(wù)之前,需要在客戶端/software/spark-2.3.1/conf配置spark-env.sh文件,指定Hadoop的配置文件路徑,這樣基于Yarn提交任務(wù)時,Spark就可以找到Y(jié)arn的節(jié)點(diǎn)有哪些,從而利用Yarn資源調(diào)度框架來調(diào)度Spark。11基于Yarn搭建環(huán)境配置

除了以上配置之外,還需要在Hadoop每個NodeManager節(jié)點(diǎn)的/software/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件中配置關(guān)閉虛擬內(nèi)存檢查。這里Hadoop中默認(rèn)檢查虛擬內(nèi)存,如果實(shí)際節(jié)點(diǎn)的內(nèi)存不足,就會有問題。完成上述配置后,重啟Hadoop集群,此時,環(huán)境準(zhǔn)備就緒,在mynode4Spark的客戶端上可以基于Yarn提交任務(wù)。12基于Yarn搭建環(huán)境配置驗(yàn)證SparkonYarn基于Yarn提交Spark任務(wù),仍然選用Spark源碼中自帶的計(jì)算SparkPi任務(wù)為例。SparkPi任務(wù)的主類class為org.apache.spark.examples.SaprkPi,當(dāng)前主類所在的jar包路徑為/software/spark-2.3.1/examples/jars/spark

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論