《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三

上傳人：1*** IP屬地：廣東上傳時間：2025-12-30 格式：PPTX 頁數(shù)：12 大?。?84.28KB 積分：15 舉報(bào) 版權(quán)申訴

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第2頁

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第3頁

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第4頁

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三_第5頁

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目三Spark基于Yarn搭建延時符序言02延時符項(xiàng)目描述

上一項(xiàng)目介紹了Spark集群的搭建，實(shí)際上搭建的就是Spark的Standalone集群，也就是說，提交Spark任務(wù)運(yùn)行所依賴的資源調(diào)度是Spark集群，任務(wù)就是運(yùn)行在Spark集群中的Worker節(jié)點(diǎn)上。項(xiàng)目分析

在Hadoop生態(tài)圈中Hadoop2.x版本之后映入了Yarn，引入Yarn的目的是將MapReduce任務(wù)的資源調(diào)度和任務(wù)調(diào)度分離，Yarn只管理資源調(diào)度框架進(jìn)行調(diào)度，Spark任務(wù)同樣也可以基于Yarn資源調(diào)度框架進(jìn)行調(diào)度。0301OPTION02OPTION基于Yarn搭建環(huán)境配置基于Yarn搭建目錄頁延時符基于Yarn搭建環(huán)境配置04任務(wù)105基于Yarn搭建環(huán)境配置Spark任務(wù)基于Yarn資源調(diào)度框架進(jìn)行調(diào)度時，首要條件是搭建好Hadoop集群環(huán)境。Hadoop集群環(huán)境中重要的角色如下。NameNodeNameNode管理HDFS文件系統(tǒng)的命名空間，它維護(hù)著文件系統(tǒng)及文件系統(tǒng)內(nèi)所有的文件和目錄，這些信息以兩個文件形式永久保存在本地磁盤上：命名空間鏡像文件和編輯日志文件。NameNode也記錄著每個文件中各個數(shù)據(jù)快所在的數(shù)據(jù)節(jié)點(diǎn)信息，但它并不永久保存數(shù)據(jù)快的位置信息，因?yàn)檫@些信息會在系統(tǒng)啟動時根據(jù)數(shù)據(jù)節(jié)點(diǎn)信息重建。DataNodeDataNode是HDFS文件系統(tǒng)的工作節(jié)點(diǎn)，它們根據(jù)需要存儲并檢索數(shù)據(jù)塊（受NameNode調(diào)度），并且定時向NameNode發(fā)送它們存儲的數(shù)據(jù)塊的列表。ResourceManagerResourceManager是管理集群所有可用資源的中心節(jié)點(diǎn)，并能夠幫助管理Yarn上的分部署applications。它與每個節(jié)點(diǎn)上的NodeManagers（NMs）和ApplicationMaster（AMs）一起工作。NodeManagerNodeManager是yarn中每個節(jié)點(diǎn)上的代理，它管理Hadoop集群中單個計(jì)算機(jī)節(jié)點(diǎn)，包括與ResourceManager保持通信、監(jiān)督Container的生命周期管理、監(jiān)控每一個Container的資源使用（內(nèi)存、CPU等）情況、追蹤節(jié)點(diǎn)健康狀況、管理日志和不同應(yīng)用程序用到的附屬服務(wù)（auxiliaryservice）等。07基于Yarn搭建環(huán)境配置Hadoop集群節(jié)點(diǎn)角色劃分搭建Hadoop集群的完全分布式，需要依賴zookeeper分布協(xié)調(diào)系統(tǒng)進(jìn)行協(xié)調(diào)管理，因此，還需要安裝zookeeper集群。zookeeper集群角色節(jié)點(diǎn)劃分基于Yarn搭建08任務(wù)209基于Yarn搭建環(huán)境配置節(jié)點(diǎn)劃分配置Saprk任務(wù)也可以基于Yarn資源調(diào)度框架進(jìn)行資源調(diào)度，即Spark任務(wù)可以提交到Y(jié)arn上運(yùn)行?；赮arn提交任務(wù)之前，需要做簡單的配置。

以mynode4為Saprk客戶端，在mynode上向Yarn資源調(diào)度提交任務(wù)?？蛻舳艘峤籗park任務(wù)，需要在mynode4上有Spark的安裝包，目前在mynode4/software路徑下有Spark安裝包，這樣在/software/spark-2.3.1/bin路徑下就可以寫入基于Yarn提交Spark任務(wù)的命令。10基于Yarn搭建環(huán)境配置配置SparkonYarn

在客戶端提交Spark任務(wù)之前，需要在客戶端/software/spark-2.3.1/conf配置spark-env.sh文件，指定Hadoop的配置文件路徑，這樣基于Yarn提交任務(wù)時，Spark就可以找到Y(jié)arn的節(jié)點(diǎn)有哪些，從而利用Yarn資源調(diào)度框架來調(diào)度Spark。11基于Yarn搭建環(huán)境配置

除了以上配置之外，還需要在Hadoop每個NodeManager節(jié)點(diǎn)的/software/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件中配置關(guān)閉虛擬內(nèi)存檢查。這里Hadoop中默認(rèn)檢查虛擬內(nèi)存，如果實(shí)際節(jié)點(diǎn)的內(nèi)存不足，就會有問題。完成上述配置后，重啟Hadoop集群，此時，環(huán)境準(zhǔn)備就緒，在mynode4Spark的客戶端上可以基于Yarn提交任務(wù)。12基于Yarn搭建環(huán)境配置驗(yàn)證SparkonYarn基于Yarn提交Spark任務(wù)，仍然選用Spark源碼中自帶的計(jì)算SparkPi任務(wù)為例。SparkPi任務(wù)的主類class為org.apache.spark.examples.SaprkPi，當(dāng)前主類所在的jar包路徑為/software/spark-2.3.1/examples/jars/spark

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三

文檔簡介

溫馨提示

最新文檔

評論

《Spark技術(shù)》-《Spark技術(shù)》-項(xiàng)目三

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔