2023年hadoop常見筆試題答案

上傳人：夫*** IP屬地：江蘇上傳時(shí)間：2023-02-03 格式：DOC 頁數(shù)：10 大小：49.50KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Ｈadoop測試題一.填空題，1分（41空），2分（４２空）共12５分(每空1分)datａｎｏde負(fù)責(zé)HDFS數(shù)據(jù)存儲。(每空1分)HＤFS中的blocｋ默認(rèn)保存3份。(每空１分)ResourｃeMaｎager程序通常與ＮameNode在一個節(jié)點(diǎn)啟動。(每空1分)ｈadoop運(yùn)營的模式有：單機(jī)模式、偽分布模式、完全分布式。(每空1分)Hadoｏp集群搭建中常用的4個配置文獻(xiàn)為:ｃoｒｅ-site．ｘml、hｄfs-site.xml、ｍａpred-sitｅ.ｘml、yａrn－siｔe.xml。(每空２分)HDFS將要存儲的大文獻(xiàn)進(jìn)行分割，分割后存放在既定的存儲塊中,并通過預(yù)先設(shè)定的優(yōu)化解決,模式對存儲的數(shù)據(jù)進(jìn)行預(yù)解決,從而解決了大文獻(xiàn)儲存與計(jì)算的需求。(每空2分)一個ＨDFS集群涉及兩大部分,即namenode與datanode。一般來說，一個集群中會有一個namenode和多個dataｎoｄｅ共同工作。（每空２分)nameｎｏde是集群的主服務(wù)器,重要是用于對HDFS中所有的文獻(xiàn)及內(nèi)容數(shù)據(jù)進(jìn)行維護(hù)，并不斷讀取記錄集群中daｔａnode主機(jī)情況與工作狀態(tài)，并通過讀取與寫入鏡像日記文獻(xiàn)的方式進(jìn)行存儲。(每空２分)datanode在HDFＳ集群中擔(dān)任任務(wù)具體執(zhí)行角色,是集群的工作節(jié)點(diǎn)。文獻(xiàn)被提成若干個相同大小的數(shù)據(jù)塊，分別存儲在若干個ｄatａnode上,datanode會定期向集群內(nèi)ｎameｎoｄe發(fā)送自己的運(yùn)營狀態(tài)與存儲內(nèi)容,并根據(jù)namnode發(fā)送的指令進(jìn)行工作。（每空2分）namenoｄe負(fù)責(zé)接受客戶端發(fā)送過來的信息,然后將文獻(xiàn)存儲位置信息發(fā)送給cｌｉent,由clieｎt直接與datanode進(jìn)行聯(lián)系,從而進(jìn)行部分文獻(xiàn)的運(yùn)算與操作。(每空１分)bｌock是HDFS的基本存儲單元，默認(rèn)大小是12８M。(每空1分)ＨDFS還可以對已經(jīng)存儲的Bｌock進(jìn)行多副本備份，將每個Bｌｏcｋ至少復(fù)制到３個互相獨(dú)立的硬件上,這樣可以快速恢復(fù)損壞的數(shù)據(jù)。(每空2分)當(dāng)客戶端的讀取操作發(fā)生錯誤的時(shí)候，客戶端會向ｎａmenoｄe報(bào)告錯誤，并請求ｎamenode排除錯誤的datａnode后,重新根據(jù)距離排序，從而獲得一個新的的讀取途徑。假如所有的ｄatanｏｄe都報(bào)告讀取失敗，那么整個任務(wù)就讀取失敗。(每空2分）對于寫出操作過程中出現(xiàn)的問題，F(xiàn)SDatａOｕｔpuｔＳtrｅａm并不會立即關(guān)閉?？蛻舳讼騈amｅnode報(bào)告錯誤信息,并直接向提供備份的dａｔanodｅ中寫入數(shù)據(jù)。備份ｄaｔaｎode被升級為首選daｔａｎode,并在其余２個daｔanoｄｅ中備份復(fù)制數(shù)據(jù)。NａmｅNode對錯誤的ＤａｔａNｏde進(jìn)行標(biāo)記以便后續(xù)對其進(jìn)行解決。(每空1分)格式化ＨDFS系統(tǒng)的命令為:hｄfsｎamｅnode–forｍaｔ。(每空1分)啟動ｈdfs的shell腳本為:stａrt-dｆs.sh。（每空１分)啟動yａrn的shｅll腳本為：staｒｔ－ｙarｎ．ｓh。(每空１分）停止hdfs的shell腳本為：ｓｔop-dfs.sh。(每空1分）hadoop創(chuàng)建多級目錄(如:/a/b/c）的命令為:ｈadｏoｐｆｓ–ｍkｄｉr–ｐ/a/b/c。(每空1分)ｈadooｐ顯示根目錄命令為：hａdoopｆｓ–lsr。(每空1分)ｈadｏoｐ包含的四大模塊分別是:Hadｏｏpcommon、HDFＳ、Mａpｒeduｃe、yarn。(每空1分)namenode默認(rèn)的WebUI訪問端標(biāo)語為:50070。(每空1分）RｅsourceＭanａｇer默認(rèn)的WebUI訪問端標(biāo)語為:8０88。(每空1分)historySｅrver默認(rèn)的WebUI訪問端標(biāo)語為:1988８。(每空1分)修改blocｋsize大小的屬性是:dfs.blocｋsｉze，在hｄfs-ｓｉtｅ.xｍl配置文獻(xiàn)里。(每空1分)HＤFS中naｍenode的RPC端標(biāo)語為：8０21,其作用是:接受Clienｔ連接的RPC端口,用于獲取文獻(xiàn)系統(tǒng)ｍetadaｔａ信息。(每空2分）Mapｐｅr類中有4個函數(shù)。(每空1分)默認(rèn)NameNoｄe周期性從DaｔaNode接受心跳信號的時(shí)間間隔為:3s。(每空1分)haｄoop集群默認(rèn)機(jī)架感知是啟用的。是否對的：錯誤。(每空2分)HａdoopMap/RedｕcｅShufflｅ過程:iｎputspｌiｔ－－>ｍap函數(shù)—＞內(nèi)存緩沖區(qū)Parｔitionsortcombineｓpill--＞mａp端mergｅ-->redｕce端copｙ—>meｒｇeｒedｕce函數(shù)。(每空2分）一個NodeManager可以同時(shí)運(yùn)營最大reduce任務(wù)數(shù)（默認(rèn)）：2。(每空2分）默認(rèn)情況下，一個同時(shí)運(yùn)營了namenode,secondaｒynａmｅnode和RｅsourceManａger的主節(jié)點(diǎn),所使用的內(nèi)存容量為3０00M。（每空2分）Ｈadooｐ集群中有三種作業(yè)調(diào)度HYPEＲLINK""＼o"算法與數(shù)據(jù)結(jié)構(gòu)知識庫"＼t＂_ｂlａnk＂算法,分別為FＩFO調(diào)度，計(jì)算能力調(diào)度和公平調(diào)度。(每空1分)HA產(chǎn)生的背景是：為了解決單NN也許出現(xiàn)宕機(jī)導(dǎo)致集群不可用或數(shù)據(jù)丟失的問題。(每空1分)通過Zｏokeｅpeｒ管理兩個或者多個ＮaｍｅNｏde,使一個NameNｏdｅ為acｔiｖe狀態(tài),并且同步每個ＮN的元數(shù)據(jù),假如actｉｖe狀態(tài)的ＮN宕機(jī)后立即啟用狀態(tài)為ｓｔandbｙ狀態(tài)的備用節(jié)點(diǎn)。(每空1分)ｊob是客戶端需要執(zhí)行的一個工作單元。(每空1分)Ｈadoop將作業(yè)提成若干個ｔａsk來執(zhí)行,其中涉及：maptaｓk和rｅｄucetaｓk。（每空２分)coｍbiner是通過Reducer類來定義的。(每空２分)map任務(wù)將其輸出寫入到本地磁盤。(每空2分)rｅｄｕｃｅ的輸出通常存儲在HDＦＳ中以實(shí)現(xiàn)可靠存儲。(每空２分)HDFS會對寫入的所有數(shù)據(jù)計(jì)算校驗(yàn)和,并在讀取數(shù)據(jù)時(shí)驗(yàn)證校驗(yàn)和。(每空2分)序列化用于分布式數(shù)據(jù)解決的兩大領(lǐng)域?yàn)椋哼M(jìn)程間通信和永久存儲。(每空2分）hadoｏp使用自己的序列化格式為：Ｗritable。二．簡答題,3分(１7題)，５分（5題）共75分(3分)簡要描述如何安裝配置apacｈｅ的一個開源hadoｏp,只描述即可,無需列出具體環(huán)節(jié)，列出具體環(huán)節(jié)更好。答:1使用roｏt賬戶登錄2修改IP3修改hｏｓt主機(jī)名4配置SSH免密碼登錄5關(guān)閉防火墻６安裝JDK7解壓ｈaｄoop安裝包8配置ｈａdoop的核心文獻(xiàn)haｄooｐ－eｎv.sh,core-sｉte.xml,mapred-site.ｘml,ｈｄfs－site.ｘｍl9配置ｈadｏop環(huán)境變量１0格式化hadoｏpnａmenｏde-formａt(yī)1１啟動節(jié)點(diǎn)ｓｔarｔ－all.ｓh(3分）請列出正常的hadｏop集群中hａdoop都分別需要啟動哪些進(jìn)程,他們的作用分別都是什么,請盡量列的具體一些。答:namenｏde:管理集群,存儲數(shù)據(jù)的原信息,并管理記錄datanode中的文獻(xiàn)信息。ｓｅcondarｙnamｅnode:它是nａmenode的一個快照,會根據(jù)confｉguｒａt(yī)ioｎ中設(shè)立的值來?

決定多少時(shí)間周期性的去ｃp一下ｎameｎoｄe，記錄naｍenode中的ｍetａdatａ及其它數(shù)據(jù)。Ｄatａnode：存儲數(shù)據(jù)ReｓourceMａnager:ReｓｏｕrceManager負(fù)責(zé)集群中所有資源的統(tǒng)一管理和分派，它接受來自各個節(jié)點(diǎn)（NoｄeMaｎager)的資源報(bào)告信息，并把這些信息按照一定的策略分派給各個應(yīng)用程序（事實(shí)上是ApplｉcaｔｉonＭａnageｒ)NｏdｅＭanager：是YＡＲN中每個節(jié)點(diǎn)上的代理,它管理HYＰEＲLINK＂"\ｏ"Hadoｏp知識庫"＼t＂_ｂｌank＂Haｄoop集群中單個計(jì)算節(jié)點(diǎn)??(3分)請寫出以下的shell命令?（1）殺死一個job(2）刪除ｈdｆs上的／tmp／aaa目錄（３)加入一個新的存儲節(jié)點(diǎn)和刪除一個節(jié)點(diǎn)需要執(zhí)行的命令答:（1)mapredjob-list得到j(luò)ob的id，然后執(zhí)行mapredjob–ｋiｌｌjobId就可以殺死一個指定ｊobId的ｊob工作了。(2)haｄoopfs-rｍr/ｔmｐ/aaa或者h(yuǎn)dfsdfｓ–rmr/tmp/aａａ(3）增長一個新的節(jié)點(diǎn)在新的節(jié)點(diǎn)上執(zhí)行? ｈadoop－ｄaemoｎ．shｓtartdatanode 然后在主節(jié)點(diǎn)中執(zhí)行hｄｆｓdfｓaｄmin-reｆrｅsｈＮoｄes?刪除一個節(jié)點(diǎn)的時(shí)候,只需要在主節(jié)點(diǎn)執(zhí)行hdｆｓｄｆsadmｉn–refreshnodes（3分)請簡述mapreduｃe中的combine和parｔitｉｏｎ的作用答:ｃomｂinｅr是發(fā)生在mａp的最后一個階段，其原理也是一個小型的rｅduｃｅr，重要作用是減少輸出到reduce的個數(shù)，減少rｅｄucer的輸入,提高ｒedｕｃｅｒ的執(zhí)行效率。Partｉtiｏn的重要作用就是指定輸出到redｕｃe的個數(shù)的。（3分)hｄfs的體系結(jié)構(gòu)答：HDFS采用了主從(Master/Slavｅ)結(jié)構(gòu)模型，一個HＤFS集群是由一個NameNode和若干個DataNoｄe組成的。其中NａmeＮoｄｅ作為主服務(wù)器,管理文獻(xiàn)系統(tǒng)的命名空間和客戶端對文獻(xiàn)的訪問操作;集群中的DataNｏｄｅ管理存儲的數(shù)據(jù)(3分)三個dａｔanode中當(dāng)有一個ｄatａnoｄe出現(xiàn)錯誤時(shí)會如何？答：當(dāng)有一個daｔaｎode出現(xiàn)錯誤的時(shí)候,nａmeｎode會將那個datanoｄｅ上的數(shù)據(jù)拷貝到其他的節(jié)點(diǎn)去進(jìn)行存儲。(3分)文獻(xiàn)大小默認(rèn)為６4M,改為1２8M有什么影響?答：更改文獻(xiàn)的ｂlock塊大小，需要根據(jù)我們的實(shí)際生產(chǎn)中來更改block的大小,假如blｏcｋ定義的太小,大的文獻(xiàn)都會被切提成太多的小文獻(xiàn),減慢用戶上傳效率,假如blocｋ定義的太大，那么太多的小文獻(xiàn)也許都會存到一個block塊中,雖然不浪費(fèi)硬盤資源，可是還是會增長nａmenｏde的管理內(nèi)存壓力。(3分)ＮａｍeNode與SeｃondarｙNameNode的區(qū)別與聯(lián)系?答:secondａryＮameNode更像是Namenoｄe的一個冷備份,當(dāng)nａmenｏｄe宕機(jī)之后,可以從SeｃondaryNａmｅnode上面恢復(fù)部分?jǐn)?shù)據(jù)。（5分)在一個運(yùn)營的hadooｐ任務(wù)中,什么是InpuｔSpｌｉt？答:ＩnpｕｔSpliｔ是MaｐReduce對文獻(xiàn)進(jìn)行解決和運(yùn)算的輸入單位,只是一個邏輯概念，每個ＩnpuｔSpｌit并沒有對文獻(xiàn)實(shí)際的切割，只是記錄了要解決的數(shù)據(jù)的位置(涉及文獻(xiàn)的pａt(yī)h和hosts）和長度（由staｒt和lｅｎgth決定),默認(rèn)情況下與block同樣大。（３分)參考下列M/R系統(tǒng)的場景：ｈdfs塊大小為6４MB，輸入類為ＦｉｌeInputＦormａｔ,有3個文獻(xiàn)的大小分別為64KB，６5MB,127MB，Haｄoop框架會把這些文獻(xiàn)拆分為多少塊？答：6４k-－---－-＞一個bｌｏck65ＭB-－－-＞兩個文獻(xiàn)：6４ＭＢ是一個blocｋ,1MB是一個bloｃk127ＭB－-->兩個文獻(xiàn)：64MB是一個blocｋ,６3ＭＢ是一個blｏck(5分）haｄooｐ中ReｃoｒｄReader的作用是什么?答:RecorｄerRｅader是一個接口,重要是用來讀取文獻(xiàn)的輸入鍵值對的，我們也可以自定義輸入的keｙ,ｖａlｕe對的讀取規(guī)則。屬于split和ｍａｐpeｒ之間的一個過程,將inpuｔspliｔ輸出的行為一個轉(zhuǎn)換記錄,成為key－vａlｕe的記錄形式提供應(yīng)ｍａppeｒ(３分）Map階段結(jié)束后,Hａdｏop框架會解決：Partitioｎinｇ,Sｈuｆflｅ和Sorｔ，在這幾個階段都發(fā)生了什么?答：Ｐartiｔion是對輸出的keｙ，ｖalｕe進(jìn)行分區(qū),可以自定義分區(qū)，按照業(yè)務(wù)需求,將map的輸出歸分到多個不同的文獻(xiàn)中將map的輸出作為輸入傳給reducｅr稱為sｈufｆｌe?sorｔ是排序的過程，將maｐ的輸出,作為reduce的輸入之前，我們可以自定義排序，按照kｅｙ來對map的輸出進(jìn)行排序(5分)假如沒有定義partｉtioｎeｒ,那數(shù)據(jù)在被送達(dá)redｕcｅr前是如何被分區(qū)的?答：Partｉtiｏner是在ｍap函數(shù)執(zhí)行cｏntｅxt.ｗｒite()時(shí)被調(diào)用。用戶可以通過實(shí)現(xiàn)自定義的Ｐaｒtiｔｉoner來控制哪個kｅy被分派給哪個Ｒedｕcｅｒ。ｈaｄoop有一個默認(rèn)的分區(qū)類，HａshPaｒtioer類，通過對輸入的k２去hash值來確認(rèn)maｐ輸出的k２，ｖ2送到哪一個reduｃe中去執(zhí)行。（3分)什么是cｏｍbｉｎer?答：combineｒ就是規(guī)約操作,通過對map輸出的數(shù)量進(jìn)行規(guī)約,可以減少reduｃe的數(shù)量,提高執(zhí)行效率。coｍｂｉner的輸入輸出類型必須和ｍaｐｐｅr的輸出以及redｕｃer的輸入類型一致(3分)分別舉例什么情況要使用ｃｏmｂiner，什么情況不使用？答：求平均數(shù)的時(shí)候就不需要用cｏmbinｅr,由于不會減少ｒeducｅ執(zhí)行數(shù)量。在其他的時(shí)候,可以依據(jù)情況，使用ｃoｍbiner,來減少map的輸出數(shù)量,減少拷貝到reducｅ的文獻(xiàn),從而減輕reｄｕce的壓力,節(jié)省網(wǎng)絡(luò)開銷，提高執(zhí)行效率(５分)簡述Hadooｐ中ｒeplicａｔｉon（復(fù)本）放置策略?答：Ｈaｄooｐ的默認(rèn)布局策略是在運(yùn)營客戶端的節(jié)點(diǎn)上放第一個復(fù)本;第二個復(fù)本放在與第一個不同且隨機(jī)此外選擇的機(jī)架中的節(jié)點(diǎn)上(離架）；第三個復(fù)本與第二個復(fù)本放在同一個機(jī)架上，且隨機(jī)選擇另一個節(jié)點(diǎn)。(5分)如何為一個hadoop任務(wù)設(shè)立mａpperｓ的數(shù)量？答：ｍap的數(shù)量通常是由ｈaｄｏop集群的DFS塊大小擬定的，也就是輸入文獻(xiàn)的總塊數(shù),正常的map數(shù)量的并行規(guī)模大體是每一個Ｎode是1０~10０個，對于CPU消耗較小的作業(yè)可以設(shè)立Ｍａp數(shù)量為3００個左右,但是由于ｈａdoop的沒一個任務(wù)在初始化時(shí)需要一定的時(shí)間,因此比較合理的情況是每個map執(zhí)行的時(shí)間至少超過1分鐘。具體的數(shù)據(jù)分片是這樣的,InｐutＦormaｔ在默認(rèn)情況下會根據(jù)hadoｏp集群的DＦS塊大小進(jìn)行分片,每一個分片會由一個mａp任務(wù)來進(jìn)行解決,當(dāng)然用戶還是可以通過參數(shù)maｐred.mｉｎ.sｐｌｉt.siｚe參數(shù)在作業(yè)提交客戶端進(jìn)行自定義設(shè)立。尚有一個重要參數(shù)就是mapreｄ.map．tａskｓ,這個參數(shù)設(shè)立的map數(shù)量僅僅是一個提醒,只有當(dāng)ＩnputFoｒmat決定了ｍap任務(wù)的個數(shù)比maprｅd．ｍaｐ.tasks值小時(shí)才起作用。同樣,Ｍａp任務(wù)的個數(shù)也能通過使用JobConf的conｆ．setＮｕmMapTａｓｋs(inｔnuｍ)方法來手動地設(shè)立。這個方法可以用來增長ｍaｐ任務(wù)的個數(shù)，但是不能設(shè)定任務(wù)的個數(shù)小于Hadooｐ系統(tǒng)通過度割輸入數(shù)據(jù)得到的值。當(dāng)然為了提高集群的并發(fā)效率,可以設(shè)立一個默認(rèn)的mａｐ數(shù)量，當(dāng)用戶的map數(shù)量較小或者比自身自動分割的值還小時(shí)可以使用一個相對交大的默認(rèn)值,從而提高整體had

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023年hadoop常見筆試題答案

文檔簡介

溫馨提示

最新文檔

評論

2023年hadoop常見筆試題答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔