大數(shù)技術(shù)基礎(chǔ)應(yīng)用題_第1頁(yè)
大數(shù)技術(shù)基礎(chǔ)應(yīng)用題_第2頁(yè)
大數(shù)技術(shù)基礎(chǔ)應(yīng)用題_第3頁(yè)
大數(shù)技術(shù)基礎(chǔ)應(yīng)用題_第4頁(yè)
大數(shù)技術(shù)基礎(chǔ)應(yīng)用題_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)練習(xí)題庫(kù)選擇題部分(單選、多選、判斷)1.HBase集群定時(shí)執(zhí)行Compaction的目的是什么?A.減少同一Region,同一ColumnFamily下的文件數(shù)目B.提升數(shù)據(jù)讀取性能C.減少同一ColumnFamily的文件數(shù)據(jù)D.減少同一Region的文件數(shù)目正確答案:AB章節(jié):4.2.4解析:Hbase合并是為了減少region下的文件數(shù)2.FusionInsightHD系統(tǒng)中Hive支持的存儲(chǔ)格式包括?A.HFileB.TextFileC.SeuenceFileD.RCFile正確答案:BCD章節(jié):4.3.2解析:Hfile是Hbase的文件格式3.FusionInsightManager界面顯示Hive服務(wù)狀態(tài)為Bad時(shí),可能原因有哪些?A.DBService不可用B.HDFS服務(wù)不可用C.MetaStore實(shí)例不可用D.HBase服務(wù)不可用正確答案:ABC章節(jié):4.3.2解析:Hbase和Hive不具有關(guān)聯(lián)關(guān)系4.以下哪類數(shù)據(jù)不屬于半結(jié)構(gòu)化數(shù)據(jù)?A.HTMLB.XMLC.二維表D.JSON正確答案:C章節(jié):1.5解析:二維表為結(jié)構(gòu)化數(shù)據(jù)5.FusionInsightHDHBase默認(rèn)使用什么作為其底層文件存儲(chǔ)系統(tǒng)?A.HDFSB.HadoopC.MemoryD.MapReduce正確答案:A章節(jié):4.2.1/4.2.2解析:\6.Hadoop的HDFS是一種分布式文件系統(tǒng),適合以下哪種應(yīng)用場(chǎng)景的數(shù)據(jù)存儲(chǔ)和管理?A.大量小文件存儲(chǔ)B.高容錯(cuò)、高吞吐量C.低延遲讀取D.流式數(shù)據(jù)訪問(wèn)正確答案:BD章節(jié):4.1.1解析:HDFS存儲(chǔ)大文件、高吞吐、高延遲、流式數(shù)據(jù)訪問(wèn)7.HBase的主要特點(diǎn)有哪些?A.高可靠性B.高性能C.面向列D.可伸縮正確答案:ABCD章節(jié):4.2.1解析:\8.華為FusionInsightHD系統(tǒng)中關(guān)于HDFS的DataNode的說(shuō)法正確的是?A.不會(huì)檢查數(shù)據(jù)的有效性B.周期性地將本節(jié)點(diǎn)的Block相關(guān)信息發(fā)送給NameNodeC.不同的DataNode存儲(chǔ)的Block一定是不同的D.一個(gè)DataNode上的Block可以是相同的正確答案:BD章節(jié):4.1.3解析:由于三副本形式的存在,所以數(shù)據(jù)可能重復(fù)存儲(chǔ)。HDFS-HA中數(shù)據(jù)節(jié)點(diǎn)需要周期性發(fā)送摘要信息給NameNode9.關(guān)于大數(shù)據(jù)的主要特征的理解和描述正確的有哪些?A.數(shù)據(jù)來(lái)源多,格式多B.數(shù)據(jù)增長(zhǎng)速度快,處理速度快C.數(shù)據(jù)量大,計(jì)算量大D.數(shù)據(jù)價(jià)值密度低,價(jià)值高正確答案:ABCD章節(jié):1.1.1解析:大數(shù)據(jù)4v特性10.下列哪些組件必須依賴于Zookeeper才能運(yùn)行?A.HDFSB.HBaseC.SparkD.YARN正確答案:ABD章節(jié):4.1.2/4.2.3/5.2.3/5.1.3解析:Spark對(duì)Zookeeper沒有依賴關(guān)系11.YARN服務(wù)中,如果要給隊(duì)列user設(shè)置容量為30%,應(yīng)該配置哪個(gè)參數(shù)?A.yarn.scheduler.capacity.root.user.user-limit-factorB.yarn.scheduler.capacity.root.user.minimum-user-limit-percentC.yarn.scheduler.capacity.root.user.capacityD.yarn.scheduler.capacity.root.user.state正確答案:C章節(jié):5.1.7解析:capacity為比例設(shè)置12.當(dāng)Zookeeper集群的節(jié)點(diǎn)數(shù)為5節(jié)點(diǎn)時(shí),請(qǐng)問(wèn)集群的容災(zāi)能力和多少節(jié)點(diǎn)是等價(jià)的?A.3B.4C.6D.以上都不是正確答案:C章節(jié):6.4.4解析:奇數(shù)節(jié)點(diǎn)和奇數(shù)節(jié)點(diǎn)-1的容災(zāi)能力相同13.HBase中Region的物理存儲(chǔ)單元是什么A.RegionB.ColumnFamilyC.ColumnD.Row正確答案:B章節(jié):4.2.3解析:\14.在Zookeeper的服務(wù)模型中,Leader節(jié)點(diǎn)以主備模式存在,其他節(jié)點(diǎn)都屬于Follower節(jié)點(diǎn)。A.正確B.錯(cuò)誤正確答案:B章節(jié):6.4.5解析:Leader節(jié)點(diǎn)只有一個(gè),不存在主備15.Hadoop系統(tǒng)中,如果HDFS文件系統(tǒng)的備份因子是3,那么MapReduce每次運(yùn)行Task都要從3個(gè)有副本的機(jī)器上傳輸需要處理的文件段。A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.4/4.1.4解析:數(shù)據(jù)傳輸時(shí),只和一個(gè)存儲(chǔ)數(shù)據(jù)的副本溝通16.下面關(guān)于Zookeeper的特性描述錯(cuò)誤的是?A.客戶端所發(fā)送的更新會(huì)按照他們被發(fā)送的順序進(jìn)行應(yīng)用B.一條消息要被超過(guò)半數(shù)的Server接收,他將可以成功寫入磁盤C.消息更新只能成功或失敗,沒有中間狀態(tài)D.Zookeeper節(jié)點(diǎn)數(shù)必須為奇數(shù)個(gè)正確答案:D章節(jié):6.4.5/6.4.6解析:Zookeeper節(jié)點(diǎn)數(shù)建議為奇數(shù)個(gè)17.FusionInsightHD中使用HBase進(jìn)行數(shù)據(jù)讀取服務(wù)時(shí)需要連接HMasterA.正確B.錯(cuò)誤正確答案:B章節(jié):4.2.4解析:Hbase讀取數(shù)據(jù)與Hmaster無(wú)關(guān)18.HBase中一個(gè)Region進(jìn)行Split操作時(shí),將一個(gè)HFile文件真正分開到兩個(gè)Region的過(guò)程發(fā)生在以下什么階段?A.Split過(guò)程中B.Flush過(guò)程中C.Compaction過(guò)程中D.HFile分開過(guò)程中正確答案:C章節(jié):4.2.3解析:Split本質(zhì)上只是分割了元數(shù)據(jù),實(shí)際的數(shù)據(jù)操作是在合并操作中完成的19.Hadoop中MapReduce組件擅長(zhǎng)處理哪種場(chǎng)景的計(jì)算任務(wù)?A.迭代計(jì)算B.離線計(jì)算C.實(shí)時(shí)交互計(jì)算D.流式計(jì)算正確答案:B章節(jié):5.1.1解析:MapReduce的核心特性20.YARN調(diào)度器分配資源的順序,下面哪一個(gè)描述是正確的?A.任意機(jī)器->同機(jī)架->本地資源B.任意機(jī)器->本地資源->同機(jī)架C.本地資源->同機(jī)架->任意機(jī)器D.同機(jī)架->任意機(jī)器->本地資源正確答案:C章節(jié):5.1.7解析:資源分配是由遠(yuǎn)及近的21.HDFS機(jī)制中NameNode負(fù)責(zé)管理元數(shù)據(jù),Client端每次讀請(qǐng)求都需要從NameNode的元數(shù)據(jù)磁盤中讀取元數(shù)據(jù)信息,以此獲取所讀文件在DataNode中的位置。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.1.2/4.1.4解析:HDFS的數(shù)據(jù)框架概念22.對(duì)高價(jià)值高度聚合的信息和知識(shí)的批次處理是大數(shù)據(jù)行業(yè)主要商業(yè)訴求A.正確B.錯(cuò)誤正確答案:A章節(jié):8解析:\23.HBase的數(shù)據(jù)文件HFile中一個(gè)KeyValue格式包含哪些信息?A.KeyB.ValueC.TimestampD.KeyType正確答案:ABCD章節(jié):4.2.2/4.2.3解析:key-value基本結(jié)構(gòu)24.如果YARN集群中只有Default、userA和userB子隊(duì)列,那么允許將他們的容量分別設(shè)置為60%、25%、22%。A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.7/5.1.8解析:Yarn的資源分配隊(duì)列資源分配和值需要為10025.大數(shù)據(jù)商業(yè)咨詢服務(wù)方案在規(guī)劃環(huán)節(jié)主要考慮以下哪些設(shè)計(jì)?A.大數(shù)據(jù)商業(yè)模式設(shè)計(jì)B.商業(yè)場(chǎng)景全景規(guī)劃C.典型場(chǎng)景需求設(shè)計(jì)D.場(chǎng)景分解和業(yè)務(wù)設(shè)計(jì)正確答案:ABCD章節(jié):8解析:\26.HDFS的Client寫入文件時(shí),數(shù)據(jù)的第一副本寫入位置由NameNode確定,其他副本的寫入位置由DataNode確定。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.1.3/4.1.4解析:\27.HBase的某張表的RowKey劃分SplitKey為9,E,a,z,請(qǐng)問(wèn)該表有幾個(gè)Region?A.3B.4C.5D.6正確答案:B章節(jié):4.2.2/4.2.3解析:9為start-region、到Z結(jié)束共4個(gè)28.關(guān)于Hive中普通表和外部表的描述不正確的是?A.默認(rèn)創(chuàng)建普通表B.外部表實(shí)質(zhì)是將已經(jīng)存在HDFS上的文件路徑跟表關(guān)聯(lián)起來(lái)C.刪除普通表時(shí),元數(shù)據(jù)和數(shù)據(jù)同時(shí)被刪除D.刪除外部表時(shí),只刪除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)正確答案:D章節(jié):4.3解析:Hive刪除外部表只刪除元數(shù)據(jù),不刪除數(shù)據(jù)29.FusionInsightHD平臺(tái)中,HBase暫不支持二級(jí)索引A.正確B.錯(cuò)誤正確答案:B章節(jié):4.2.5解析:Hbase支持二級(jí)索引30.Hadoop系統(tǒng)中YARN分配給Container的內(nèi)存大小,可以通過(guò)參數(shù)yarn.app.mapreduce.am.resource.mb來(lái)設(shè)置A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.7解析:Yarn.NodeManager.resource.memory-mb31.YARN通過(guò)ResourceManager對(duì)集群資源進(jìn)行管理,它的主要功能有?A.集群資源調(diào)度B.應(yīng)用程序管理C.日志管理D.以上說(shuō)法都不對(duì)正確答案:AB章節(jié):5.1.2/5.1.3解析:對(duì)應(yīng)了ApplicationManager和Resourcescheduler的功能32.HDFS系統(tǒng)中對(duì)備用NameNode的作用的描述正確的有?A.主NameNode的熱備B.備NameNode對(duì)內(nèi)存沒有要求C.幫助主NameNode合并編輯日志,減少主NameNode的啟動(dòng)時(shí)間D.備NameNode應(yīng)與主NameNode部署到一個(gè)節(jié)點(diǎn)正確答案:AC章節(jié):4.1.3解析:備NameNode需要和主NameNode參數(shù)一致部署在不同的設(shè)備上33.關(guān)于Hive建表的基本操作,描述正確的是?A.創(chuàng)建外部表的時(shí)需要指定external關(guān)鍵字B.一旦表創(chuàng)建好,不可再修改表名C.一旦表創(chuàng)建好,不可再修改列名D.一旦表創(chuàng)建好,不可再增加新列正確答案:A章節(jié):4.3解析:\34.HBase的最小處理單元是Region,UserRegion和RegionServer之間的路由信息是保存在哪里的?A.ZookeeperB.HDFSC.MasterD.meta表正確答案:D章節(jié):4.2.3解析:\35.大數(shù)據(jù)分析相關(guān)技術(shù)主要特征有哪些?A.機(jī)器學(xué)習(xí),全量特征B.數(shù)據(jù)背后事件關(guān)聯(lián)性分析C.以海量數(shù)據(jù)為基礎(chǔ)D.以精確樣本為基礎(chǔ)正確答案:ABC章節(jié):1.1解析:大數(shù)據(jù)的數(shù)據(jù)處理不會(huì)對(duì)精確數(shù)據(jù)進(jìn)行操作,這是傳統(tǒng)數(shù)據(jù)分析的數(shù)據(jù)要求36.FusionInsightHD系統(tǒng)中HDFS默認(rèn)BlockSize是多少?A.32MB.64MC.128MD.256M正確答案:C章節(jié):4.1.2解析:\37.下面關(guān)于ZKFC的說(shuō)法錯(cuò)誤的是?A.ZKFC(ZKFailoverController)作為一個(gè)Zookeeper集群的客戶端,用來(lái)監(jiān)控NameNode的狀態(tài)信息B.ZKFC進(jìn)程需要在NameNode的節(jié)點(diǎn)和Zookeeper的Leader節(jié)點(diǎn)中部署C.StandbyNameNode通過(guò)Zookeeper感知ActiveNameNode的狀態(tài),一旦ActiveNameNode宕機(jī),StandbyNameNode就會(huì)執(zhí)行升主操作D.HDFSNameNode的ZKFC連接到Zookeeper,把主機(jī)名等信息保存到Zookeeper中正確答案:B章節(jié):4.1.2解析:ZKFC無(wú)需在Zookeeper部署38.以下哪個(gè)不屬于Hadoop中MapReduce組件的特點(diǎn)?A.易于編程B.良好的拓展性C.實(shí)時(shí)計(jì)算D.高容錯(cuò)性正確答案:C章節(jié):5.1.1解析:MapReduce是高延遲的離線計(jì)算39.HBase元數(shù)據(jù)MetaRegion路由信息保存在哪里?A.Root表B.ZookeeperC.HMasterD.Meta表正確答案:B章節(jié):4.2.3解析:\40.FusionInsightHD集群中包含多種服務(wù),每種服務(wù)又由若干角色組成,下面哪些是服務(wù)的角色?A.HDFSB.NameNodeC.DataNodeD.HBase正確答案:BC章節(jié):\解析:角色可以理解為組件中的進(jìn)程41.執(zhí)行HBase數(shù)據(jù)讀取業(yè)務(wù)時(shí),需要讀取哪幾部分?jǐn)?shù)據(jù)?A.HFileB.HLogC.MemStoreD.HMaster正確答案:AC章節(jié):4.2.4解析:BD是記錄狀態(tài)和管理的功能,不涉及數(shù)據(jù)讀寫42.YARN上有兩個(gè)同級(jí)隊(duì)列1與2,容量都是50%,1上已經(jīng)有10個(gè)任務(wù)共占用了40的容量,2上有兩個(gè)任務(wù)共占用了30的容量,那么由于1的任務(wù)數(shù)多,調(diào)度器會(huì)優(yōu)先將資源分配給1。A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.7/5.1.8解析:優(yōu)先分配利用資源少的節(jié)點(diǎn)43.FusionInsightHD的HBase服務(wù)包含哪些進(jìn)程?A.HMasterB.SQLaveC.HRegionServerD.DataNode正確答案:AC章節(jié):4.2.3解析:BD非Hbase組件44.HBase的主Master是如何選舉的?A.隨機(jī)選取B.由RegionServer進(jìn)行裁決C.通過(guò)Zookeeper進(jìn)行裁決D.HMaster為雙主模式,不需要進(jìn)行裁決正確答案:C章節(jié):4.2.2/4.2.3解析:Zookeeper選舉是Hadoop特性45.HDFS的NameNode節(jié)點(diǎn)主備狀態(tài)管理及元數(shù)據(jù)文件合并分別由哪兩個(gè)角色負(fù)責(zé)?A.ZKFC和備NameNodeB.主NameNode和備NameNodeC.ZKFC和主NameNodeD.主NameNode和JournalNode正確答案:A章節(jié):4.1.2/4.1.3解析:主備管理由Zookeeper管理,元數(shù)據(jù)持久化是備namenode負(fù)責(zé)46.Hadoop系統(tǒng)中關(guān)于客戶端向HDFS文件系統(tǒng)上傳文件說(shuō)法正確的是?A.客戶端的文件數(shù)據(jù)經(jīng)過(guò)NameNode傳遞給DataNodeB.客戶端將文件劃分為多個(gè)Block,根據(jù)datanode的地址信息,按順序?qū)懭氲矫恳粋€(gè)datanode中C.客戶端根據(jù)datanode的地址信息,按順序?qū)⒄麄€(gè)文件寫入每一個(gè)datanode中,然后由datanode將文件劃分為多個(gè)blockD.客戶端只上傳數(shù)據(jù)到一個(gè)datanode,然后由namenode負(fù)責(zé)block復(fù)制正確答案:B章節(jié):4.1.3解析:數(shù)據(jù)需要先分塊后分配47.YARN中設(shè)置隊(duì)列userA的最大使用資源量,需要配置哪個(gè)參數(shù)?A.yarn.scheduler.capacity.root.userA.user-limit-factorB.yarn.scheduler.capacity.root.userA.minimum-user-limit-percentC.yarn.scheduler.capacity.root.userA.stateD.yarn.scheduler.capacity.root.userA.maximum-capacity正確答案:D章節(jié):5.1.7解析:\48.HDFS支持大文件存儲(chǔ),同時(shí)支持多個(gè)用戶對(duì)同一個(gè)文件的寫操作,以及在文件任意位置進(jìn)行修改。A.正確B.錯(cuò)誤正確答案:B章節(jié):4.1.1/4.1.2解析:HDFS只能追加寫49.FusionInsightHD安裝前準(zhǔn)備,包括哪些步驟?(多選)A.完成硬件安裝B.完成節(jié)點(diǎn)主機(jī)操作系統(tǒng)安裝C.準(zhǔn)備工具和軟件。例如Putty、LLD、FusionInsightHD軟件安裝包等D.準(zhǔn)備規(guī)劃數(shù)據(jù),例如網(wǎng)絡(luò)參數(shù)和角色部署位置正確答案:ABCD章節(jié):2.6解析:\50.HDFS管理節(jié)點(diǎn)提供雙機(jī)HA(高可靠性)機(jī)制,主節(jié)點(diǎn)故障后,主備節(jié)點(diǎn)需要手動(dòng)實(shí)現(xiàn)Failover。A.正確B.錯(cuò)誤正確答案:B章節(jié):4.1.1/4.1.2/4.1.3解析:主備切換自動(dòng)執(zhí)行51.Hadoop的NameNode用于存儲(chǔ)文件系統(tǒng)的元數(shù)據(jù)。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.1.1/4.1.2/4.1.3解析:\52.大數(shù)據(jù)需要傳統(tǒng)行業(yè)思維的轉(zhuǎn)變,要把數(shù)據(jù)收集,分析中作為業(yè)務(wù)流程的重要組成,數(shù)據(jù)端驅(qū)動(dòng)業(yè)務(wù)流程優(yōu)化,實(shí)現(xiàn)智能化和自動(dòng)化,并依托數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)跨界拓展A.正確B.錯(cuò)誤正確答案:A章節(jié):1.1解析:\53.Mapreduce過(guò)程中,默認(rèn)情況下,一個(gè)分片就是一個(gè)塊,也是一個(gè)mapTask.A.正確B.錯(cuò)誤正確答案:A章節(jié):5.1.6解析:\54.以下關(guān)于ZooKeeper關(guān)鍵特性中的原子性說(shuō)法正確的是A.客戶端發(fā)送的更新會(huì)按照他們被發(fā)送的順序進(jìn)行應(yīng)用B.更新只能全部完成或失敗,不會(huì)部分完成C.一條消息被一個(gè)server接收,將被所有server接收D.集群中無(wú)論哪臺(tái)服務(wù)器,對(duì)外展示的均是同一視圖正確答案:B章節(jié):6.4.3/6.4.4/6.4.5解析:原子性:事務(wù)要么全部執(zhí)行完成,要么全部不執(zhí)行55.FusionlnsightHD系統(tǒng)中HDFS的Block默認(rèn)保存幾份?A.3份B.2份C.1份D.不確定正確答案:A章節(jié):4.1.4解析:三副本機(jī)制56.基于Hadop幵源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力,如下屬于分布式存儲(chǔ)組件的有?A.MRB.SparkC.HDFSD.HBase正確答案:CD章節(jié):4解析:\101.以下關(guān)于Zookeeper的Leader選舉說(shuō)法正確的是?A.當(dāng)實(shí)例n為奇數(shù)時(shí),假定n=2x+1,則成為leader節(jié)點(diǎn)需要x+1票B.Zookeeper選舉leader時(shí),需要半數(shù)以上的票數(shù)C.當(dāng)實(shí)例數(shù)為8時(shí),則成為leader節(jié)點(diǎn)需要5票,容災(zāi)能力為4D.當(dāng)實(shí)例數(shù)n為奇數(shù)時(shí),假定n=2x+1,則成為leader節(jié)點(diǎn)需要x票正確答案:AB章節(jié):6.4.4/6.4.5解析:C,容災(zāi)能力為3;D,需要x+1票103.Hadoop平臺(tái)中HBase的Region是由哪個(gè)服務(wù)進(jìn)程來(lái)管理?A.HMasterB.DatanodeC.RegionServerD.Zookeeper正確答案:C章節(jié):4.2.2/4.2.3解析:讀寫操作與正常管理由RegionServer執(zhí)行解析:Nimbus主備操作至少雙節(jié)點(diǎn)105.Hadoop中哪個(gè)模塊負(fù)責(zé)HDFS的數(shù)據(jù)存儲(chǔ)?A.NameNodeB.DataNodeC.ZooKeeperD.JobTraoker正確答案:B章節(jié):4.1.2解析:\107.Hadoop的HBase不適合哪些數(shù)據(jù)類型的應(yīng)用場(chǎng)景?A.大文件應(yīng)用場(chǎng)景B.海量數(shù)據(jù)應(yīng)用場(chǎng)景C.高吞吐率應(yīng)用場(chǎng)景D.半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景正確答案:A章節(jié):4.2.1解析:Hbase結(jié)構(gòu)上會(huì)對(duì)數(shù)據(jù)做分布式存儲(chǔ)和維護(hù),所以單文件過(guò)大會(huì)導(dǎo)致節(jié)點(diǎn)能力受限113.FusionInsight家族包含下列哪些子產(chǎn)品()?A.FusionInsightMinerB.FusionInsightFarmerC.FusionInsightHDD.GaussDB200正確答案:ABCD章節(jié):1.4解析:GaussDB200即為FusionInsightlibra127.HBase的最小處理單元是Region,UserRegion和RegionServer之間的路由信息是保存在Zookeeper中。()A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.2/4.2.3解析:\128.FusionInsightHD系統(tǒng)中,HBase支持動(dòng)態(tài)擴(kuò)展列。()A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.1解析:\129.Hive是基于hadoop的數(shù)據(jù)倉(cāng)庫(kù)軟件,可以查詢和管理PB級(jí)別的分布式數(shù)據(jù)。以下關(guān)于Hive特性的描述不正確的是?()A.僅支持MapReduce計(jì)算引擎B.易用易編程C.可直接訪問(wèn)HDFS文件以及HBaseD.靈活方便的ETL(extract/transform/load)正確答案:A章節(jié):4.3解析:Hive還可以支持Spark運(yùn)算132.以下關(guān)于HBase存儲(chǔ)模型的描述正確的是?()A.每一個(gè)KeyValue都擁有一個(gè)ualifier標(biāo)識(shí)B.同一個(gè)key值key關(guān)聯(lián)多個(gè)valueC.KeyValue中擁有時(shí)間戳、類型等關(guān)鍵信息D.即使是key值相同,ualifier也相同的多個(gè)KeyValue,也可能有多個(gè),此時(shí)使用時(shí)間戳來(lái)區(qū)分正確答案:ABCD章節(jié):4.2.2/4.2.3解析:\133.下列選項(xiàng)中適合MapReduce的場(chǎng)景有?()A.離線計(jì)算B.實(shí)時(shí)交互計(jì)算C.迭代計(jì)算D.流式計(jì)算正確答案:A章節(jié):5.1.1解析:\134.YARN中,“從”節(jié)點(diǎn)負(fù)責(zé)以下哪些工作?()A.集群中所有資源的統(tǒng)一管理和分配B.監(jiān)督Container的生命周期管理C.管理日志和不同應(yīng)用程序用到的附屬服務(wù)D.監(jiān)控每個(gè)Container的資源使用(內(nèi)存,CPU等)情況正確答案:BD章節(jié):5.1.3解析:從節(jié)點(diǎn)主要是承擔(dān)熱備工作,不承擔(dān)生產(chǎn)相關(guān)職能135.以下選項(xiàng)中,屬于HDFS架構(gòu)關(guān)鍵特性的是?()A.健壯機(jī)制B.多方式訪問(wèn)機(jī)制C.HA高可靠性D.元數(shù)據(jù)持久化機(jī)制正確答案:ABCD章節(jié):4.1.3解析:AD為數(shù)據(jù)保護(hù)機(jī)制,BC為安全保護(hù)機(jī)制136.下列哪個(gè)命令是從HDFS下載目錄/文件到本地的?()A.dfs-catB.dfs-mkdirC.dfs-getD.dfs-put正確答案:C章節(jié):4.4.1解析:\137.在MapReduce編程中,代碼不僅要描述做什么,還要描述具體怎么做。()A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.1解析:代碼只需要描述做什么即可138.在華為大數(shù)據(jù)解決方案中,hadoop層包含以下哪些組件?()A.MinerB.SparkC.HiveD.Flink正確答案:BCD章節(jié):1.3.2解析:miner為華為自研組件,不屬于開源Hadoop139.HDFS的副本放置策略中,同一機(jī)架不同的服務(wù)器之間的距離是?()A.1B.3C.2D.4正確答案:C章節(jié):4.1.5解析:\140.FusionInsightManager的主要功能有以下哪些?()A.安全管理B.數(shù)據(jù)集成C.系統(tǒng)管理D.服務(wù)治理正確答案:AC章節(jié):1.4解析:數(shù)據(jù)集成與服務(wù)治理是Hadoop內(nèi)部功能149.硬件故障被認(rèn)為是常態(tài),為了解決這個(gè)問(wèn)題,HDFS設(shè)計(jì)了副本機(jī)制。默認(rèn)情況下,一份文件,HDFS會(huì)存()份?A.2B.4C.3D.5正確答案:C章節(jié):4.1.5解析:HDFS三副本機(jī)制163.colocation(同分布)文件級(jí)的同分布實(shí)現(xiàn)文件的快速訪問(wèn),避免了因數(shù)據(jù)搬遷帶來(lái)的大量網(wǎng)絡(luò)開銷。()A.正確B.錯(cuò)誤正確答案:A章節(jié):4.1.5解析:\165.下列哪個(gè)不是HBase讀取數(shù)據(jù)流程中涉及的角色或服務(wù)?()A.HDFSB.ZookeeperC.HMasterD.HRegionServer正確答案:C章節(jié):4.2.4解析:Hmaster只負(fù)責(zé)管理,不參與讀寫業(yè)務(wù)166.以下屬于hiveSQL中DDL(數(shù)據(jù)定義語(yǔ)言)的是?()A.修改表B.刪除表C.建表D.數(shù)據(jù)導(dǎo)入正確答案:ABC章節(jié):4.4.2解析:\168.FusionInsightHD中HBase默認(rèn)使用什么組件作為其底層文件存儲(chǔ)系統(tǒng)?()A.kafkaB.HDFSC.MemoryD.File正確答案:B章節(jié):4.2.1解析:\169.HBase不適合哪些應(yīng)用場(chǎng)景?()A.高吞吐率應(yīng)用場(chǎng)景B.要求具有完全ACID特性的應(yīng)用場(chǎng)景C.半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景D.海量數(shù)據(jù)(TB、PB)應(yīng)用場(chǎng)景正確答案:B章節(jié):4.2.1解析:Hbase可以不嚴(yán)格遵守傳統(tǒng)數(shù)據(jù)庫(kù)的ACID特性解析:\175.MapReduce過(guò)程中,以下屬于shuffle機(jī)制的是?()A.partitionB.sort/mergeC.copyD.combine正確答案:ABD章節(jié):5.1.6解析:shuffle:分區(qū)、排序、組合、合并178.YARN中默認(rèn)的資源調(diào)度器是?()A.FIFO調(diào)度器B.容量調(diào)度器C.Fair調(diào)度器D.以上全不正確正確答案:B章節(jié):5.1.7解析:其余選項(xiàng)非調(diào)度器名稱,只是策略名稱179.ApplicationMaster采用輪詢的方式通過(guò)RPC協(xié)議向ResourceManager申請(qǐng)和領(lǐng)取資源。A.正確B.錯(cuò)誤正確答案:A章節(jié):5.1.4解析:\181.HDFS的基本系統(tǒng)構(gòu)架中包含下列哪些節(jié)點(diǎn)?()A.ResourceManagerB.NameNodeC.NodeManagerD.DataNode正確答案:BD章節(jié):4.1.2解析:AC為Yarn架構(gòu)182.下列哪個(gè)命令是刪除文件的?()A.dfs-clearB.dfs-delC.dfs-rmD.dfs-ls正確答案:C章節(jié):4.4.1解析:\185.以下關(guān)于HBase二級(jí)索引的描述哪一項(xiàng)是正確的()A.二級(jí)索引把要查找的列與rowkey關(guān)聯(lián)成一個(gè)索引表B.此時(shí)列成新的rowkey,原rowkey成為valueC.二級(jí)索引查詢了2次D.以上全都正確正確答案:D章節(jié):4.2.5解析:\186.Hive是一種數(shù)據(jù)倉(cāng)庫(kù)處理工具,使用類SQL的HiveL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢功能,所有Hive的數(shù)據(jù)都存儲(chǔ)在HDFS中()A.正確B.錯(cuò)誤正確答案:A章節(jié):4.3.1解析:\188.在Hive中,以下關(guān)于分區(qū)的描述不正確的是()A.分區(qū)下可再有分區(qū)或者桶B.數(shù)據(jù)表可以按照某個(gè)字段的值劃分分區(qū)C.每個(gè)分區(qū)是一個(gè)目錄D.分區(qū)數(shù)量是固定的正確答案:D章節(jié):4.3.2解析:分區(qū)是根據(jù)文件數(shù)和文件大小動(dòng)態(tài)變化的193.Zookeeper可以為FusionInsightHD中哪些組件提供分布式管理支持()A.HBaseB.HDFSC.HiveD.Spark正確答案:ABCD章節(jié):6.4.1解析:\194.HDFS聯(lián)邦環(huán)境下,NameSpace(命名空間)包含以下哪些內(nèi)容()A.目錄B.文件C.塊D.以上全不正確正確答案:ABC章節(jié):4.1.5解析:聯(lián)邦等同于在一個(gè)HDFS中虛擬化了多個(gè)獨(dú)立的HDFS進(jìn)程,互不干擾,架構(gòu)完整且獨(dú)立198.在YARN的任務(wù)調(diào)度流程中,下列哪個(gè)是ApplicationMaster負(fù)責(zé)的任務(wù)?A.申請(qǐng)和領(lǐng)取資源B.為任務(wù)設(shè)置好運(yùn)行環(huán)境C.分配ContainerD.啟動(dòng)Map或Reduce任務(wù)正確答案:A章節(jié):5.1.4解析:BCD為NodeManager和Container的任務(wù)200.HBase中數(shù)據(jù)存儲(chǔ)的文件格式是什么?A.HFileB.HLogC.TextFileD.SeuenceFile正確答案:A章節(jié):4.2.2解析:\201.以下關(guān)于Zookeeper的Leader節(jié)點(diǎn)在收到數(shù)據(jù)變更請(qǐng)求后的讀寫流程說(shuō)法正確的是?A.同時(shí)寫入磁盤和內(nèi)存B.先寫磁盤再寫內(nèi)存C.僅寫入內(nèi)存D.先寫內(nèi)存再寫磁盤正確答案:B章節(jié):6.4.6解析:\202.Hive中的這條命令“ALTERTABLEemployee1ADDcolumns(column1string);”是什么含義?A.刪除表B.增加列C.創(chuàng)建表D.修改文件格式正確答案:B章節(jié):4.4.3解析:\205.導(dǎo)入數(shù)據(jù)到Hive表時(shí),不會(huì)檢查數(shù)據(jù)合法性,只會(huì)要讀取數(shù)據(jù)時(shí)候檢查。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.3.2解析:為了保證速度,導(dǎo)入時(shí)不會(huì)檢查有效性216.下列選項(xiàng)中無(wú)法通過(guò)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的是?A.商業(yè)模式發(fā)現(xiàn)B.信用評(píng)估C.商品推薦D.運(yùn)營(yíng)分析正確答案:A章節(jié):8解析:大數(shù)據(jù)不能替代現(xiàn)有的商業(yè)模式也無(wú)法發(fā)現(xiàn)219.以下關(guān)于HBase中HMaster的功能描述哪些是正確的?A.Region負(fù)載均衡,Region分裂以及分裂后的Region分配B.負(fù)責(zé)建表/修改表/刪除表C.負(fù)責(zé)RegionServer的負(fù)載均衡D.RegionServer失效后的Region遷移正確答案:ABCD章節(jié):4.2.3解析:\224.ZKFC進(jìn)程部署在hdfs中的以下那個(gè)節(jié)點(diǎn)上?A.activenamenodeB.standbynamenodeC.datanodeD.以上全部不對(duì)正確答案:AB章節(jié):4.1.3解析:ZKFC保證了NameNode的安全性和主備切換230.下列哪些措施是為了保障數(shù)據(jù)的完整性A.元數(shù)據(jù)可靠性保證B.重建失效數(shù)據(jù)盤的副本數(shù)據(jù)C.安全模式D.集群數(shù)據(jù)均衡正確答案:ABC章節(jié):4.1.3解析:數(shù)據(jù)均衡是提醒性能,不會(huì)保證完整性232.在YARN的任務(wù)調(diào)度中,一旦ApplicationMaster申請(qǐng)到資源后,便與對(duì)應(yīng)的ResourceManager通信,要求它啟動(dòng)任務(wù)A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.4解析:此處應(yīng)為NodeManager233.HFS的出現(xiàn)解決了需要在HDFS中存儲(chǔ)大量的小文件(10MB以下)。同時(shí)也要存儲(chǔ)一些大文件(10MB以上)的混合的場(chǎng)景A.正確B.錯(cuò)誤正確答案:B章節(jié):4.2.5解析:此處概念為MOB的作用234.關(guān)于Hive與Hadoop其他組件的關(guān)系。以下描述錯(cuò)誤的是?A.Hive最終將數(shù)據(jù)存儲(chǔ)在HDFS中B.Hive是Hadoop平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)工具C.Hive可以通過(guò)MapReduce執(zhí)行任務(wù)D.Hive對(duì)HBase有強(qiáng)依賴正確答案:D章節(jié):4.3.2解析:Hive與Hbase間無(wú)依賴關(guān)系235.Hive不支持超時(shí)重試機(jī)制。A.正確B.錯(cuò)誤正確答案:B章節(jié):4.3.2解析:Hive支持超時(shí)重試(有問(wèn)題)236.FusionInsight中,HiveServer將用戶提交的HQL語(yǔ)句進(jìn)行編譯,解析成對(duì)應(yīng)的Yarn任務(wù)Spark任務(wù)或者HDFS操作,從而完成數(shù)據(jù)轉(zhuǎn)換,分析。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.3.2解析:Hive默認(rèn)使用MapReduce作為計(jì)算引擎237.容量調(diào)度器在盡行資源分配,現(xiàn)有同級(jí)的2個(gè)隊(duì)列1和2,他們的容量均為30,其中1已使用8,2已使用14,則會(huì)優(yōu)先將資源分配1。A.正確B.錯(cuò)誤正確答案:A章節(jié):5.1.7解析:資源用量小的隊(duì)列優(yōu)先分配資源240.HDFS不適用于以下哪些場(chǎng)景?A.流式數(shù)據(jù)訪問(wèn)B.大量小文件存儲(chǔ)C.大文件存儲(chǔ)與訪問(wèn)D.隨機(jī)寫入正確答案:BD章節(jié):4.1.1解析:小文件存儲(chǔ)支持,但不適用,隨機(jī)寫是HDFS禁止的241.HDFS中的NameNode的主備仲裁,是由哪個(gè)組件控制的?A.ZookeeperFailoverControllerB.NodeManagerC.ResourceManagerD.HDFSClient正確答案:A章節(jié):4.1.3解析:\解析:由Zookeeper來(lái)進(jìn)行切換254.Zookeeper在分布式應(yīng)用中的主要作用不包括一下哪些選項(xiàng)?A.選舉Master節(jié)點(diǎn)B.保證各節(jié)點(diǎn)上數(shù)據(jù)的一致性C.分配集群資源D.存儲(chǔ)及群中服務(wù)器信息正確答案:C章節(jié):6.4解析:集群資源為Yarn功能255.HDFS中Namenode的主備仲裁,是由哪個(gè)組件控制的A.HDFSClientB.NodeManagerC.ResourceManagerD.ZooKeeperFailoverController正確答案:D章節(jié):4.1.3解析:\258.HBase的數(shù)據(jù)文件HFile中一個(gè)KeyValue格式包含Key,Value,TimeStamp,KeyType等內(nèi)容A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.2解析:\259.在有N個(gè)節(jié)點(diǎn)FusionInsightHD集群中部署HBase時(shí),推薦部署()個(gè)HMaster進(jìn)程,()個(gè)RegionServer進(jìn)程A.3,NB.N,NC.2,ND.2,2正確答案:C章節(jié):4.2.3解析:Hmaster至少兩個(gè),RegionServer可以多個(gè)260.Hive中“Groupby”指的是通過(guò)一定的規(guī)則將每一個(gè)數(shù)據(jù)集劃分成若干個(gè)小的數(shù)據(jù)集,然后針對(duì)若干個(gè)小的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分組處理A.正確B.錯(cuò)誤正確答案:A章節(jié):4.3.2解析:\271.hbase的底層數(shù)據(jù)以()的形式存在的?A.keyvalueB.列存儲(chǔ)C.行存儲(chǔ)D.實(shí)時(shí)存儲(chǔ)正確答案:A章節(jié):4.2.1解析:數(shù)據(jù)的組織形式為Key-value272.二級(jí)索引為hbase提供了按照某些列的值進(jìn)行索引的能力,二級(jí)索引先查索引表,再定位到數(shù)據(jù)表中的位置,不用全表掃描A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.5解析:\275.現(xiàn)有3個(gè)機(jī)架,有一個(gè)文件需要存3份,其中副本1和副本2存放在與client相同的機(jī)架且不同的服務(wù)器上。3副本根據(jù)HDFS的副本放置策略一定要存放在其他機(jī)架。A.正確B.錯(cuò)誤正確答案:B章節(jié):4.1.5解析:忽略了強(qiáng)制機(jī)架組的問(wèn)題276.Kafka中partitionreplication之間同步數(shù)據(jù),從partition的leader復(fù)制數(shù)據(jù)到follower需要線程(replicationFetcherThread),F(xiàn)ollower(一個(gè)follower相當(dāng)于consumer)主動(dòng)從leader批量拉取消息的,這極大提高了吞吐量。A.正確B.錯(cuò)誤正確答案:A章節(jié):3.2.2解析:\277.NodeManager的內(nèi)存和CPU的數(shù)量,是通過(guò)下列哪些選項(xiàng)進(jìn)行配置?A.Yarn.scheduler.capacity.root.usermaximum-capacityB.Yarn.nodemanager.resource.cpu-vcoreC.Yarn.nodemanager.vmem-pmom-ratioD.Yarn.modemanager.resource.memory-mb正確答案:BCD章節(jié):5.1.7解析:\278.下列選項(xiàng)中,哪些是MapReduce一定會(huì)有的過(guò)程?A.CombineB.MapC.ReduceD.Partition正確答案:BCD章節(jié):5.1.6解析:A是可選項(xiàng)279.關(guān)于HIVE的描述不正確的是?A.Hive最佳使用場(chǎng)景是大數(shù)據(jù)集的批處理作業(yè)B.Hive可以實(shí)現(xiàn)在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢C.Hive構(gòu)建在基于靜態(tài)批量處理的Hadoop之上,Hadoop通常有較高的延遲并且在作提交和調(diào)度的時(shí)候需要大量的開銷D.Hive查詢操作過(guò)程嚴(yán)格遵循HadoopMapReduce的作用執(zhí)行模型,Hive將用戶的HiveL語(yǔ)句通過(guò)解釋器轉(zhuǎn)換為MapReduceHadoop集群上正確答案:B章節(jié):4.3.2解析:Hive整體延遲相對(duì)較高280.在Flink中,checkpoint機(jī)制能夠保證應(yīng)用在運(yùn)行過(guò)程中出現(xiàn)失效時(shí),從某一個(gè)檢查點(diǎn)恢復(fù),在此過(guò)程中,流快照是根據(jù)數(shù)據(jù)流入建立的A.正確B.錯(cuò)誤正確答案:A章節(jié):5.4.3解析:\281.Hive中的“Groupby”指的是通過(guò)一定規(guī)則將一個(gè)數(shù)據(jù)集劃分成若干個(gè)小的數(shù)據(jù)集,然后針對(duì)若干個(gè)小的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分組處理。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.3.2解析:\282.HBase中以下哪種場(chǎng)景會(huì)出發(fā)Flush操作?A.HBase定期刷新Memstore,默認(rèn)周期為1小時(shí)B.當(dāng)WALs中文件數(shù)量達(dá)到閾值時(shí)C.Region中MemStore的總大小,達(dá)到了預(yù)設(shè)的FlushSize閾值D.MemStore占用內(nèi)存的總量和RegionServer總內(nèi)存比值超出了預(yù)設(shè)的閾值大小正確答案:ABCD章節(jié):4.2.4解析:\286.Hbase中OpenScanner的過(guò)程,會(huì)創(chuàng)建兩種不同的Scanner來(lái)讀取HFile和MemStore的數(shù)據(jù),HFile對(duì)應(yīng)的Scanner為StoreFileScanner,MemStore對(duì)應(yīng)的Scanner為MemStoreScanner。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.4解析:\正確答案:D章節(jié):4.3.1解析:Hive作為數(shù)據(jù)倉(cāng)庫(kù),存儲(chǔ)的是離線的歷史數(shù)據(jù)288.關(guān)于Hive建表基本操作,描述正確的是A.一旦表建好,不可再修改表名B.一旦表建好,不可再增加新列C.創(chuàng)建外部表時(shí)需要制定external關(guān)鍵字D.一旦表創(chuàng)建好,不可再修改列名正確答案:C章節(jié):4.4.3解析:Hive表建好之后可以在多個(gè)維度進(jìn)行修改和調(diào)整291.傳統(tǒng)數(shù)據(jù)處理的數(shù)據(jù)規(guī)模的單位是?A.TBB.EBC.PBD.GB正確答案:D章節(jié):1.1解析:\292.Hadoop平臺(tái)中,要查看YARN服務(wù)中一個(gè)application的信息,通常需要使用什么命令?A.containerB.jarC.application-attemptD.Application正確答案:D章節(jié):5.5.1解析:\295.在大數(shù)據(jù)時(shí)代,企業(yè)所面臨的挑戰(zhàn)有以下哪些?A.企業(yè)各部門間數(shù)據(jù)分散,相同數(shù)據(jù)在各部門內(nèi)部存儲(chǔ)格式不一致。B.數(shù)據(jù)結(jié)構(gòu)多樣化。C.競(jìng)爭(zhēng)對(duì)手的技術(shù)進(jìn)步。D.數(shù)據(jù)存在噪音、缺失、存儲(chǔ)類型不規(guī)范等問(wèn)題,需要進(jìn)行大量的數(shù)據(jù)預(yù)處理工作。正確答案:ABCD章節(jié):1.2解析:\298.YARN中設(shè)置隊(duì)列QuserA的最大使用資源量,需要配置哪個(gè)參數(shù)?A.yarn.scheduler.capacity.root.Quseruser-limit-factorB.yarn.scheduler.capacity.root.Quserminimum-user-limit-percentC.yarn.scheduler.capacity.root.QuserstateD.yarn.scheduler.capacity.root.Qusermaxirnum-capacity正確答案:D章節(jié):5.1.7解析:\300.HBase的數(shù)據(jù)文件HFile中一個(gè)KeyValue格式包含哪些信息?A.KeyB.ValueC.TimeStampD.KeyType正確答案:ABCD章節(jié):4.2.2解析:\301.Hive支持的存儲(chǔ)格式包括?A.HFileB.TextFileC.SequenceFileD.RCFile正確答案:BCD章節(jié):4.3.2解析:Hfile是Hbase的文件格式308.FusionInsightManager支持大規(guī)模集群的安裝部署、監(jiān)控、告警、用戶管理、權(quán)限管理、審計(jì)、服務(wù)管理、健康檢查、問(wèn)題定位、升級(jí)和補(bǔ)丁。A.正確B.錯(cuò)誤正確答案:A章節(jié):1.4解析:\309.Hadoop系統(tǒng)中關(guān)于客戶端向HDFS文件系統(tǒng)上傳文件說(shuō)法正確的是?A.客戶端的文件數(shù)據(jù)經(jīng)過(guò)NameNode傳遞給DataNodeB.客戶端將文件劃分為多個(gè)Block,根據(jù)DataNode的地址信息,按順序?qū)懭朊恳粋€(gè)DataNode中C.客戶端根據(jù)DataNode的地址信息,按順序?qū)⒄麄€(gè)文件寫入每一個(gè)DataNode中,然后由DataNode將文件劃分為多個(gè)BlockD.客戶端只上傳數(shù)據(jù)到一個(gè)DataNode,然后由NameNode負(fù)責(zé)Block復(fù)制正確答案:B章節(jié):4.1.2/4.1.4解析:\310.FusionInsightHD系統(tǒng)中HBase的最小處理單元是Region,UserRegion和RegionServer之間的路由信息是保存在哪?A.ZooKeeperB.HDFSC.MasterD.meta表正確答案:D章節(jié):4.2.4解析:meta表存儲(chǔ)了所有region的位置311.HBase集群定時(shí)執(zhí)行Compaction的目的是什么?A.減少同一個(gè)Region,同一個(gè)ColumnFamily下的文件數(shù)目B.提升數(shù)據(jù)讀取性能C.減少同一個(gè)ColumnFamily的文件數(shù)據(jù)D.減少同一個(gè)Region的文件數(shù)目正確答案:AB章節(jié):4.2.4解析:\319.Hadoop的HDFS是一種分布式文件系統(tǒng),適合以下哪種場(chǎng)景的數(shù)據(jù)存儲(chǔ)和管理?(多選)A.大量小文件存儲(chǔ)B.高容錯(cuò)、高吞吐量C.低延遲讀取D.流式數(shù)據(jù)訪問(wèn)正確答案:BD章節(jié):4.1.1解析:\321.Hadoop的NameNode用于存儲(chǔ)文件系統(tǒng)的元數(shù)據(jù)。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.1.2解析:\327.基于Hadoop開源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力,如下屬于分布式存儲(chǔ)組件的有?(多選)A.MRB.SparkC.HDFSD.HBase正確答案:CD章節(jié):4.2/4.1/5.1/5.2解析:MR和Spark是計(jì)算組件328.Hadoop的HBase不適合哪些數(shù)據(jù)類型的應(yīng)用場(chǎng)景?A.大文件應(yīng)用場(chǎng)景B.海量數(shù)據(jù)應(yīng)用場(chǎng)景C.高吞吐率應(yīng)用場(chǎng)景D.半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景正確答案:A章節(jié):4.2.1解析:\329.FusionInsight集群組網(wǎng)設(shè)計(jì)中,二層組網(wǎng)指集群內(nèi)二層交換,集群節(jié)點(diǎn)在一個(gè)子網(wǎng)里,適用節(jié)點(diǎn)數(shù)小于200的集群場(chǎng)景。A.正確B.錯(cuò)誤正確答案:A章節(jié):2.6解析:\331.關(guān)于大數(shù)據(jù)的主要特征理解和描述正確的有?(多選)A.來(lái)源多,格式多B.增長(zhǎng)速度快,處理速度快C.存儲(chǔ)量大,計(jì)算量大D.數(shù)據(jù)的價(jià)值密度較低正確答案:ABCD章節(jié):1.1.1解析:\336.Hadoop中MapReduce組件擅長(zhǎng)處理哪種場(chǎng)景的計(jì)算任務(wù)?A.迭代計(jì)算B.離線計(jì)算C.實(shí)時(shí)交互計(jì)算D.流式計(jì)算正確答案:B章節(jié):5.1.1解析:\339.YARN上有兩個(gè)同級(jí)隊(duì)列Q1與Q2,容量都是50,Q1上已經(jīng)有10個(gè)任務(wù)共占用了40的容量,Q2上有2個(gè)任務(wù)共占用了30的容量,那么由于Q1的任務(wù)數(shù)多,調(diào)度器會(huì)優(yōu)先將資源分配給Q2A.正確B.錯(cuò)誤正確答案:B章節(jié):5.1.7解析:資源利用量最低的隊(duì)列優(yōu)先340.以下哪類數(shù)據(jù)不屬于半結(jié)構(gòu)化數(shù)據(jù)?A.HTMLB.XMLC.二維表D.JSON正確答案:C章節(jié):4.2.1解析:二維表是結(jié)構(gòu)化數(shù)據(jù)344.HDFS支持大文件存儲(chǔ),同時(shí)支持多個(gè)用戶對(duì)同一個(gè)文件的寫操作,以及在文件任意位置進(jìn)行修改。A.正確B.錯(cuò)誤正確答案:B章節(jié):4.1.1解析:因?yàn)橛性獢?shù)據(jù),文件位置不支持隨意更改351.FusionInsightHD系統(tǒng)中HBase支持動(dòng)態(tài)擴(kuò)展列。A.正確B.錯(cuò)誤正確答案:A章節(jié):4.2.3解析:\360.Hadoop通過(guò)ResourceManager對(duì)集群資源進(jìn)行管理,它的主要功能有?(多選)A.集群資源調(diào)度B.應(yīng)用程序管理C.集群資源管理D.日志管理正確答案:ABC章節(jié):5.1.3解析:\361.以下關(guān)于Hadoop的HDFS描述正確的有?(多選)A.HDFS由NameNode,DataNode,Client組成B.HDFS備NameNode上的元數(shù)據(jù)是主NameNode同步過(guò)去的C.HDFS采用就近的機(jī)架節(jié)點(diǎn)進(jìn)行數(shù)據(jù)的第一副本存儲(chǔ)D.HDFS適合一次寫入,多次讀取的讀寫任務(wù)正確答案:ACD章節(jié):4.1.1/4.1.2/4.1.3/解析:元數(shù)據(jù)持久化是備namenode負(fù)責(zé)362.Hadoop系統(tǒng)中YARN支持哪些資源類型的管理?(多選)A.內(nèi)存B.CPUC.網(wǎng)絡(luò)D.磁盤空間正確答案:AB章節(jié):5.1.3解析:\364.FusionInsightHD系統(tǒng)中HDFS的Block默認(rèn)保存幾份?A.3份B.2份C.1份D.不確定正確答案:A章節(jié):4.1.5解析:\370.FusionInsightHD系統(tǒng)中,以下選項(xiàng)哪一個(gè)不是HBase寫數(shù)據(jù)流程涉及的角色或服務(wù)?A.ZooKeeperB.HDFSC.HMasterD.RegionServer正確答案:C章節(jié):4.2.4解析:Hbase讀取數(shù)據(jù)與Hmaster無(wú)關(guān)375.HBase的物理存儲(chǔ)單元是什么?A.RegionB.ColumnFamilyC.ColumnD.ROW正確答案:B章節(jié):4.2.3解析:\377.YARN服務(wù)中,如果要給隊(duì)列QuserA設(shè)置容量為30%,應(yīng)該配置那個(gè)參數(shù)?A.yarn.scheduler.capacity.root.Quseruser-limit-factorB.yarn.scheduler.capacity.root.Quserminimum-user-limit-percentC.yarn.scheduler.capacity.root.QusercapacityD.yarn.scheduler.capacity.root.Quserstate正確答案:C章節(jié):5.1.7解析:\378.FusionInsightHD的HBase中保存一張用戶信息表meg_table,Rowkey為用戶id,其中一列為用戶昵稱,現(xiàn)在按先后順序往這列寫入三個(gè)KeyValue:001:Li,001:Mary,001:LiLy,請(qǐng)問(wèn)scan'meg_table',{VERSIONS=>2}會(huì)返回哪幾條數(shù)據(jù)?A.001:LiB.001:LilyC.001:Li,001:Mary,001:LiLyD.001:Mary,001:LiLy正確答案:D章節(jié):4.2.2解析:\382.YARN容量調(diào)度器的主要特點(diǎn)有哪些?(多選)A.容量保證B.靈活比C.多重租賃D.動(dòng)態(tài)更新配置文件正確答案:ABCD章節(jié):5.1.7解析:\385.關(guān)于Hive在FusionInsightHD中的架構(gòu)描述錯(cuò)誤的是?(A)A.只要有一個(gè)Hiveserver不可用,整個(gè)Hive集群便不可用B.HiveServer負(fù)責(zé)接受客戶端請(qǐng)求、解析、執(zhí)行HQL命令并返回查詢結(jié)果C.MetaStore用于提供元數(shù)據(jù)服務(wù),依賴于DBServiceD.在同一時(shí)間點(diǎn)HiveSever只有一個(gè)處于Active狀態(tài),另一個(gè)則處于Standby狀態(tài)正確答案:A章節(jié):4.3.2解析:還有hiveserver2386.關(guān)于HBase中HFile的描述不正確的是?A.一個(gè)HFile屬于一個(gè)RegionB.一個(gè)HFile包含多個(gè)列族的數(shù)據(jù)C.一個(gè)HFile包含多列數(shù)據(jù)D.一個(gè)HFile包含多行數(shù)據(jù)正確答案:B章節(jié):4.2.2解析:hfile是StoreFile的具體實(shí)現(xiàn),一個(gè)Store對(duì)應(yīng)一個(gè)ColumnFamily388.YARN調(diào)度器分配資源申請(qǐng)的順序,下面哪一個(gè)描述是正確的?A.任意機(jī)器->同機(jī)架->本地資源B.任意機(jī)器->本地資源->同機(jī)架C.本地資源->同機(jī)架->任意機(jī)器D.同機(jī)架->任意機(jī)器->本地資源正確答案:C章節(jié):5.1.7解析:度器會(huì)優(yōu)先匹配本地資源的申請(qǐng)請(qǐng)求,其次是同機(jī)架的,最后是任意機(jī)器的392.Hadoop系統(tǒng)中YARN資源的抽象是用什么表示?A.內(nèi)存B.CPUC.ContainerD.磁盤空間正確答案:C章節(jié):5.1.3解析:\394.FusionInsightHDHBase的管理進(jìn)程是如何選擇主節(jié)點(diǎn)的?A.隨機(jī)選取B.由RegionServer進(jìn)行裁決C.通過(guò)ZooKeeper進(jìn)行裁決D.HMaster為雙主模式,不需要進(jìn)行裁決正確答案:C章節(jié):4.2.2/4.2.3解析:Zookeeper選舉是Hadoop特性395.大數(shù)據(jù)需要傳統(tǒng)行業(yè)思維方式的轉(zhuǎn)變,要把數(shù)據(jù)收集、分析作為業(yè)務(wù)流程的重要組成部分,數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)流程優(yōu)化,實(shí)現(xiàn)智能化和自動(dòng)化,并依托數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)跨界拓展。A.正確B.錯(cuò)誤正確答案:A章節(jié):1.2解析:\401.Hadoop的HBase主要特點(diǎn)有哪些?(多選)A.高可靠性B.高性能C.面向列D.可伸縮正確答案:ABCD章節(jié):4.2解析:\411.關(guān)于Hive與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的對(duì)比,以下描述錯(cuò)誤的是?()A.由于Hive的數(shù)據(jù)存儲(chǔ)在HDFS中,所以可以保證數(shù)據(jù)的高容錯(cuò)、高可靠。B.由于Hive基于大數(shù)據(jù)平臺(tái),所以查詢效率比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)快C.Hive基于HDFS存儲(chǔ),理論上存儲(chǔ)量可以無(wú)限擴(kuò)展,而傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)量會(huì)有上限D(zhuǎn).Hive元數(shù)據(jù)存儲(chǔ)獨(dú)立于數(shù)據(jù)存儲(chǔ)之外,從而解耦合元數(shù)據(jù)和數(shù)據(jù),靈活性高,而傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)應(yīng)用單一,靈活性低。正確答案:B章節(jié):4.3.1解析:兩者沒有因果關(guān)系418.華為FusionInsightHD行業(yè)成功案例都有哪些?()A.智慧園區(qū)B.數(shù)字政府C.智慧交通D.金融正確答案:ABCD章節(jié):\解析:\419.FusionInsightHD數(shù)據(jù)高可靠性體現(xiàn)在以下哪些方面?()A.第三方備份系統(tǒng)集成B.關(guān)鍵數(shù)據(jù)掉電保護(hù)C.跨數(shù)據(jù)中心容災(zāi)D.硬盤熱插拔正確答案:ABCD章節(jié):\解析:\420.Hadoop集群規(guī)模很大時(shí),數(shù)據(jù)的分布情況會(huì)非常關(guān)鍵,用戶需要根據(jù)數(shù)據(jù)分布情況,決定集群是否擴(kuò)容,數(shù)據(jù)是否需要做均衡等。以下關(guān)于FusionInsight資源分布監(jiān)控說(shuō)法正確的有?()A.幫助用戶迅速找到資源消耗最高的節(jié)點(diǎn),采取適當(dāng)?shù)拇胧〣.通過(guò)每個(gè)服務(wù)主業(yè)的資源分布查看頁(yè)面,查看到關(guān)鍵的資源分布情況C.可以幫助用戶快速聚焦在最關(guān)鍵的資源消耗上D.通過(guò)DashBoard界面,可以查看到主機(jī)資源分布情況,例如內(nèi)存占有率在50%~70%的主機(jī)列表,并提供連接跳轉(zhuǎn)。正確答案:ABCD章節(jié):\解析:\425.下列那些命令是HDFS下載文件/目錄到本地的()A.dfs-mkdirB.dfs-putC.dfs-catD.dfs-get正確答案:D章節(jié):4.4.1解析:\427.Hive不適用于一下哪個(gè)場(chǎng)景A.實(shí)時(shí)的在線數(shù)據(jù)分析B.非實(shí)時(shí)分析,例如日志分析,統(tǒng)計(jì)分析C.數(shù)據(jù)匯總,例如每天,每周用戶點(diǎn)擊數(shù),點(diǎn)擊排行D.數(shù)據(jù)挖掘,例如用戶行為分析,興趣分區(qū),區(qū)域展示正確答案:A章節(jié):4.3.1解析:\填空題部分1.關(guān)于大數(shù)據(jù)的4v定義分別是________、________、________、________答案:巨量化、多樣性、處理速度快、價(jià)值密度低章節(jié):1.1.12.大數(shù)據(jù)的處理流程分為________、________、________、________四個(gè)部分答案:數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)挖掘章節(jié):003年、2004年Google發(fā)表的三篇論文主題分別為分布式文件系統(tǒng)________、分布式計(jì)算框架________、分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)________。(英文)答案:GFS、MapReduce、Bigtable章節(jié):1.3.14.DougCutting基于2003年、2004年Google發(fā)表的三篇論文完成了相應(yīng)的開源實(shí)現(xiàn)________和________(英文)答案:HDFS、MapReduce章節(jié):1.3.15.組件________負(fù)責(zé)對(duì)集群的一致性和安全性進(jìn)行保護(hù)與協(xié)調(diào)答案:Zookeeper章節(jié):1.3.26.________數(shù)據(jù)是指數(shù)據(jù)能夠以二維表格表示的數(shù)據(jù)。比如表格數(shù)據(jù)和文本數(shù)據(jù);________數(shù)據(jù)是指無(wú)法以二維表格表示的數(shù)據(jù)。比如視頻、音頻等相關(guān)數(shù)據(jù);________數(shù)據(jù)是指具有一定的結(jié)構(gòu)化特征,但是又不能全部按照結(jié)構(gòu)化數(shù)據(jù)去表示的數(shù)據(jù),比如xml后綴的數(shù)據(jù)或者網(wǎng)頁(yè)數(shù)據(jù)。答案:結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化章節(jié):1.514.linux中,使用________命令列出文檔信息,使用________命令切換工作目錄答案:ls、cd章節(jié):2.1.239.HDFS是Hadoop應(yīng)用用到的一個(gè)最主要的________系統(tǒng)。一個(gè)HDFS集群主要由一個(gè)________和很多個(gè)________組成答案:分布式存儲(chǔ)、NameNode、Datanode章節(jié):4.1.140.HDFS具有________,________并且支持________答案:高容錯(cuò)性、高吞吐量、大文件存儲(chǔ)章節(jié):4.1.141.________相當(dāng)于是數(shù)據(jù)的一個(gè)摘要信息,保存著文件的屬性、長(zhǎng)度、存儲(chǔ)位置、類型等信息,類似于字典中的索引和正文的關(guān)系。答案:元數(shù)據(jù)章節(jié):4.1.142.按照字典的方式進(jìn)行類比,文件系統(tǒng)就相當(dāng)于是字典,________相當(dāng)于索引目錄,________相當(dāng)于是正文。答案:元數(shù)據(jù)、數(shù)據(jù)章節(jié):4.1.144.HDFS分為三個(gè)組件,________用于存儲(chǔ)生成元數(shù)據(jù),運(yùn)行一個(gè)實(shí)例;________用于存儲(chǔ)實(shí)際的數(shù)據(jù);________支持業(yè)務(wù)訪問(wèn)HDFS,提供了進(jìn)入的門。答案:Namenode、Datanode、Client章節(jié):4.1.245.在HDFS中,Zookeeper進(jìn)程主要提供的是對(duì)進(jìn)程________的保護(hù)。答案:NameNode章節(jié):4.1.346.在namenode主備切換時(shí),主要涉及到了兩個(gè)文件的操作,一個(gè)是________,一個(gè)是________,第一個(gè)文件記錄的是用戶對(duì)于元數(shù)據(jù)的修改操作,第二個(gè)文件記錄是元數(shù)據(jù)的鏡像。答案:Editlog、Fsimage章節(jié):4.1.347.ZKFC進(jìn)程主要的兩個(gè)工作就是獲取NameNode上報(bào)的________,并且進(jìn)行________這兩個(gè)操作。答案:心跳、故障切換章節(jié):4.1.349.在HDFS的數(shù)據(jù)副本機(jī)制中,HDFS默認(rèn)會(huì)存儲(chǔ)三份副本數(shù)據(jù),假設(shè)現(xiàn)在收到寫入數(shù)據(jù)請(qǐng)求的服務(wù)器自身有A數(shù)據(jù),實(shí)際寫入副本數(shù)據(jù)的服務(wù)器有B數(shù)據(jù),規(guī)則設(shè)定為認(rèn)為A數(shù)據(jù)和B數(shù)據(jù)在一個(gè)服務(wù)器內(nèi)的時(shí)候,距離為________,A數(shù)據(jù)和B數(shù)據(jù)在同一機(jī)架內(nèi)的不同服務(wù)器的時(shí)候距離為________,認(rèn)為A數(shù)據(jù)和B數(shù)據(jù)不在同一機(jī)架內(nèi)的時(shí)候距離為________答案:0、2、4章節(jié):4.1.350.在HDFS中,默認(rèn)當(dāng)時(shí)間為________小時(shí)或者Editlog文件大小達(dá)到________M時(shí),啟動(dòng)一次元數(shù)據(jù)持久化操作。答案:1、64章節(jié):4.1.351.在HDFS的新寫流程中,創(chuàng)建元數(shù)據(jù)操作主要的作用是分配________。答案:寫空間章節(jié):4.1.452.在HDFS的讀流程中,Client采用________原則讀取數(shù)據(jù)答案:就近章節(jié):4.1.454.在HDFS數(shù)據(jù)存儲(chǔ)策略中,節(jié)點(diǎn)組存儲(chǔ)是由________執(zhí)行的,標(biāo)簽存儲(chǔ)是由________來(lái)做的。答案:Datanode、NameNode章節(jié):4.1.556.HBase是一個(gè)高可靠性、________、________、________的分布式存儲(chǔ)系統(tǒng)。答案:高性能、面向列、可伸縮章節(jié):4.258.在Hbase中,KeyValue具有特定的結(jié)構(gòu)。其中,________部分被用來(lái)快速的檢索一條數(shù)據(jù)記錄,________部分用來(lái)存儲(chǔ)實(shí)際的用戶數(shù)據(jù)信息。答案:Key、Value章節(jié):4.2.259.在Hbase中,KeyValue作為承載用戶數(shù)據(jù)的基本單元,分為了三部分,第一部分記錄的是key值的長(zhǎng)度和value值的長(zhǎng)度,第二部分是key值的具體字段(行鍵值長(zhǎng)度,________,列族長(zhǎng)度,________,________,________),最后是實(shí)際的value數(shù)據(jù)。答案:行鍵值、列族值、時(shí)間戳、key類型章節(jié):4.2.261.一個(gè)Region由一個(gè)或多個(gè)Store組成,每個(gè)Store對(duì)應(yīng)一個(gè)________。答案:ColumnFamily章節(jié):4.2.262.________定義了StoreFile在文件系統(tǒng)中的存儲(chǔ)格式,它是當(dāng)前HBase系統(tǒng)中StoreFile的具體實(shí)現(xiàn)。答案:HFile章節(jié):4.2.263.在Hbase中,________進(jìn)程負(fù)責(zé)管理所有的RegionServer、新RegionServer的注冊(cè)、RegionServerFailover處理,并且負(fù)責(zé)建表/修改表/刪除表以及一些集群操作。答案:HMaster章節(jié):4.2.364.在Hbase中,Region的元數(shù)據(jù)是由________維護(hù)和管理,Region的數(shù)據(jù)和操作是由________來(lái)管理,作為________,只負(fù)責(zé)了讀寫等動(dòng)作的執(zhí)行。答案:Zookeeper、HMaster、RegionServer章節(jié):4.2.365.在Hbase中,HMaster進(jìn)程有主備角色,主備HMaster的裁決________交由決定。答案:Zookeeper章節(jié):4.2.366.在Hbase中,每一個(gè)Region都關(guān)聯(lián)一個(gè)Key值范圍,即一個(gè)使用________Key和________Key描述的區(qū)間。答案:Start、End章節(jié):4.2.367.在Hbase中,________是Region的一個(gè)物理存儲(chǔ)單元答案:ColumnFamily章節(jié):4.2.368.在Hbase中,正常的數(shù)據(jù)寫入情況下,數(shù)據(jù)是被寫入到Region的內(nèi)存中的,即MemStore。所以當(dāng)系統(tǒng)滿足要求某些特定要求時(shí)還需要將數(shù)據(jù)從內(nèi)存中寫入到底層系統(tǒng)。這種情況就被稱為________(英文)刷新寫操作。答案:Flush章節(jié):4.2.471.在Hbase中,隨著時(shí)間的增加,Region中維護(hù)的數(shù)據(jù)規(guī)模會(huì)逐漸增大,最終造成讀取延遲增大,性能下降,這種情況下,系統(tǒng)會(huì)對(duì)Region做________操作。答案:Split/分裂章節(jié):4.2.473.Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)________、________、________,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。答案:提取、轉(zhuǎn)化、加載章節(jié):4.375.Hive分為三個(gè)角色,________將用戶提交的HQL語(yǔ)句進(jìn)行編譯,解析成對(duì)應(yīng)的Yarn任務(wù)、Spark任務(wù)或者HDFS操作,從而完成數(shù)據(jù)的提取、轉(zhuǎn)換、分析;________提供元數(shù)據(jù)服務(wù);________對(duì)外提供基于https協(xié)議的元數(shù)據(jù)訪問(wèn)、DDL查詢等服務(wù)。。答案:HiveServer、MetaStore、WebHcat章節(jié):4.3.276.________指的是將存在關(guān)聯(lián)關(guān)系的數(shù)據(jù)或可能要進(jìn)行關(guān)聯(lián)操作的數(shù)據(jù)存儲(chǔ)在相同的存儲(chǔ)節(jié)點(diǎn)上。在HDFS上利用這一特性,將那些需要進(jìn)行關(guān)聯(lián)操作的文件存放在相同的數(shù)據(jù)節(jié)點(diǎn)上,在進(jìn)行關(guān)聯(lián)操作計(jì)算是避免了到其他數(shù)據(jù)節(jié)點(diǎn)上獲取數(shù)據(jù),大大降低了網(wǎng)絡(luò)帶寬的占用。答案:同分布/Colocation章節(jié):4.3.278.MapReduce包含三層含義,是基于集群的________平臺(tái),是一個(gè)________與________框架,是一個(gè)________模型。答案:高性能并行計(jì)算、并行計(jì)算、運(yùn)行軟件、并行程序設(shè)計(jì)章節(jié):5.1.179.MapReduce具有________、________、________的特點(diǎn)答案:易于編程、良好的擴(kuò)展性、高容錯(cuò)性章節(jié):5.1.180.yarn的引入為集群在________、________和________等方面帶來(lái)了巨大好處。答案:利用率、資源統(tǒng)一管理、數(shù)據(jù)共享章節(jié):5.1.281.在yarn架構(gòu)中,________負(fù)責(zé)集群中所有資源的統(tǒng)一管理和分配,________是每個(gè)節(jié)點(diǎn)上的代理,________負(fù)責(zé)一個(gè)Application生命周期內(nèi)的所有工作,________是Yarn中的資源抽象答案:ResourceManager、NodeManager、ApplicationMaster、Container章節(jié):5.1.3簡(jiǎn)答題部分1.請(qǐng)說(shuō)明大數(shù)據(jù)的4v定義?參考答案:"1.Volume:大數(shù)據(jù)的第一個(gè)核心特點(diǎn)就是需要保證的就是有足夠多的數(shù)據(jù),數(shù)據(jù)的體量在分析時(shí)所需要的時(shí)間是超過(guò)常規(guī)所能容忍的限度的。2.Variety:大數(shù)據(jù)的第二個(gè)核心的特點(diǎn)就是數(shù)據(jù)類型繁多,從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)可以說(shuō)基本囊括了當(dāng)前所有的類型的數(shù)據(jù)。3.Velocity:大數(shù)據(jù)的第三個(gè)特點(diǎn)就是數(shù)據(jù)處理速度快,雖然大數(shù)據(jù)引擎體量巨大,類型繁多,但是我們?nèi)匀恍枰WC快速的完成計(jì)算和反饋的任務(wù)。4.Value:大數(shù)據(jù)的第四個(gè)特點(diǎn)就是價(jià)值密度較低的,例如,監(jiān)控視頻每天會(huì)產(chǎn)生大量的數(shù)據(jù),但是,最終有意義的視頻只有當(dāng)出現(xiàn)事故或者其他情況的時(shí)候產(chǎn)生的數(shù)據(jù)。所以,大數(shù)據(jù)本身的高價(jià)值性,是需要從海量數(shù)據(jù)中找尋到有價(jià)值的這部分?jǐn)?shù)據(jù)而定義的。"2.請(qǐng)說(shuō)明大數(shù)據(jù)的處理流程?參考答案:"數(shù)據(jù)獲取:作為大數(shù)據(jù)引擎,如果需要對(duì)數(shù)據(jù)進(jìn)行操作,首先先要有一個(gè)穩(wěn)定的數(shù)據(jù)源提供數(shù)據(jù),所以數(shù)據(jù)的來(lái)源與獲取就成為了最初的大數(shù)據(jù)的相關(guān)需求。數(shù)據(jù)獲取主要負(fù)責(zé)從數(shù)據(jù)源進(jìn)行數(shù)據(jù)的采集工作,將外部數(shù)據(jù)采集到本地。數(shù)據(jù)獲取主要由Flume日志采集系統(tǒng)和Kafka消息訂閱系統(tǒng)實(shí)現(xiàn)。Flume主要對(duì)小規(guī)模的日志數(shù)據(jù)進(jìn)行采集,Kafka是對(duì)大規(guī)模的對(duì)數(shù)據(jù)時(shí)間順序要求比較高的數(shù)據(jù)和應(yīng)用進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)存儲(chǔ):主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理和維護(hù)。經(jīng)過(guò)數(shù)據(jù)獲取拉取到大數(shù)據(jù)本地的數(shù)據(jù),首先需要做的就是將數(shù)據(jù)進(jìn)行存儲(chǔ)維護(hù),此時(shí)根據(jù)數(shù)據(jù)的不同,可以將存儲(chǔ)分為文件存儲(chǔ)和數(shù)據(jù)庫(kù)存儲(chǔ),文件存儲(chǔ)需要由HDFS分布式文件系統(tǒng)進(jìn)行維護(hù),數(shù)據(jù)庫(kù)存儲(chǔ)需要由HBase分布式數(shù)據(jù)庫(kù)以及Hive分布式數(shù)據(jù)倉(cāng)庫(kù)維護(hù)。數(shù)據(jù)分析:數(shù)據(jù)存儲(chǔ)并維護(hù)好之后,在本階段就進(jìn)入到應(yīng)用階段,對(duì)海量數(shù)據(jù)的主要應(yīng)用操作會(huì)體現(xiàn)在數(shù)據(jù)分析上,分析主要是指在數(shù)據(jù)統(tǒng)計(jì)(count、select)層面的角度上,對(duì)數(shù)據(jù)進(jìn)行規(guī)律的發(fā)現(xiàn)和找尋。數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是大數(shù)據(jù)中的深度分析操作,通過(guò)數(shù)據(jù)挖掘用戶可以構(gòu)建一個(gè)分析模型,通過(guò)對(duì)數(shù)據(jù)進(jìn)行算法挖掘操作,直接得到判斷的規(guī)律,并且將其封裝在一個(gè)模型中,最終使用該模型進(jìn)行數(shù)據(jù)的預(yù)測(cè)。"3.請(qǐng)說(shuō)明Hadoop系統(tǒng)中的核心組件與作用?參考答案:1.HDFS:分布式文件系統(tǒng),主要用于存儲(chǔ)和維護(hù)文件。2.HBase:分布式數(shù)據(jù)庫(kù),主要用于存儲(chǔ)數(shù)據(jù)庫(kù)表格類型數(shù)據(jù)。3.MapReduce:分布式離線計(jì)算引擎,主要負(fù)責(zé)對(duì)海量數(shù)據(jù)進(jìn)行離線長(zhǎng)時(shí)間計(jì)算。4.Streaming:實(shí)時(shí)流處理計(jì)算技術(shù),主要負(fù)責(zé)進(jìn)行實(shí)時(shí)性低延遲計(jì)算。5.Kafka:消息訂閱系統(tǒng),負(fù)責(zé)從大數(shù)據(jù)系統(tǒng)外部引入海量數(shù)據(jù)。6.Yarn:分布式資源協(xié)調(diào)組件,負(fù)責(zé)為所有的計(jì)算引擎分配數(shù)據(jù)分析和數(shù)據(jù)挖掘所需的CPU和內(nèi)存資源。7.Spark:基于內(nèi)存的分布式計(jì)算引擎,用于對(duì)海量數(shù)據(jù)進(jìn)行快速低延遲的計(jì)算。8.Hive:分布式數(shù)據(jù)倉(cāng)庫(kù),主要用于存儲(chǔ)歷史性的數(shù)據(jù),進(jìn)行基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析或進(jìn)行歷史性數(shù)據(jù)的歸檔和查詢。9.Flink:流計(jì)算處理和批處理平臺(tái),F(xiàn)link兼?zhèn)淞藢?shí)時(shí)計(jì)算和離線計(jì)算兩種引擎的功能,是目前最常用的大數(shù)據(jù)計(jì)算平臺(tái)之一。10.Flume:海量日志聚合平臺(tái),在采集日志數(shù)據(jù)或者數(shù)量級(jí)較小的數(shù)據(jù)時(shí)使用。11.ZooKeeper:集群分布式協(xié)調(diào)服務(wù),在集群出現(xiàn)數(shù)據(jù)丟失、節(jié)點(diǎn)損壞、數(shù)據(jù)不一致等情況時(shí),Zookeeper負(fù)責(zé)對(duì)集群的一致性和安全性進(jìn)行保護(hù)與協(xié)調(diào)。"9.請(qǐng)說(shuō)明HDFS的組件與功能?參考答案:"Namenode用于存儲(chǔ)生成元數(shù)據(jù),運(yùn)行一個(gè)實(shí)例。該進(jìn)程是由HDFS調(diào)入到內(nèi)存中運(yùn)行的。NameNode作為元數(shù)據(jù)的維護(hù)進(jìn)程,為了能夠提升整體讀取的效率,將元數(shù)據(jù)的維護(hù)進(jìn)程搭載在內(nèi)存中進(jìn)行運(yùn)行,但是內(nèi)存中的數(shù)據(jù)是易失的,只能用于元數(shù)據(jù)的使用,所以元數(shù)據(jù)還是需要在DataNode中進(jìn)行存儲(chǔ)。當(dāng)系統(tǒng)啟動(dòng)之后,服務(wù)器會(huì)拉起HDFS進(jìn)程,然后NameNode加載到內(nèi)存中,然后NameNode會(huì)加載元數(shù)據(jù)鏡像文件到自身內(nèi)存中。Datanode用于存儲(chǔ)實(shí)際的數(shù)據(jù),每個(gè)Datanode會(huì)將自己維護(hù)的數(shù)據(jù)塊信息上報(bào)到Namenode,運(yùn)行多個(gè)實(shí)例。HDFS默認(rèn)最小的存儲(chǔ)空間為block,每個(gè)block默認(rèn)的大小為128MB。DataNode除了需要維護(hù)數(shù)據(jù)之外,還需要留有一部分的空間用于存儲(chǔ)元數(shù)據(jù)鏡像文件Fsimage。Client支持業(yè)務(wù)訪問(wèn)HDFS,并從Namenode和Datanode中獲取數(shù)據(jù),返回給用戶,多個(gè)業(yè)務(wù)和實(shí)例一起運(yùn)行。"10.請(qǐng)說(shuō)明HDFS中ZKFC進(jìn)程的作用?參考答案:ZKFC(zookeeperFailoverController)用于控制在故障時(shí)Namenode的主備狀態(tài)。進(jìn)行故障切換。該進(jìn)程的作用是為了保障當(dāng)主NameNode出現(xiàn)故障的時(shí)候可以及時(shí)的進(jìn)行故障切換,將業(yè)務(wù)切換到備NameNode中進(jìn)行運(yùn)行,保障業(yè)務(wù)的連續(xù)性,所以ZKFC需要及時(shí)檢測(cè)主備NameNode的狀態(tài),并且將心跳信息及時(shí)上報(bào)給Zookeeper,所以ZKFC進(jìn)程和NameNode進(jìn)程一樣多,并且需要和NameNode部署在一起。11.請(qǐng)說(shuō)明HDFS元數(shù)據(jù)持久化的概念和作用?參考答案:"在進(jìn)行HDFS的操作時(shí),元數(shù)據(jù)都是存儲(chǔ)在內(nèi)存中的。當(dāng)用戶開啟HDFS之后,首先系統(tǒng)會(huì)加載存儲(chǔ)在硬盤上的Fsimage.iso元數(shù)據(jù)鏡像文件中的內(nèi)容到內(nèi)存中,之后對(duì)內(nèi)存中的元數(shù)據(jù)和Editlog操作日志進(jìn)行維護(hù),由于元數(shù)據(jù)是在內(nèi)存中維護(hù)的,F(xiàn)simage.iso文件只在開機(jī)后加載時(shí)使用了一次。所以關(guān)機(jī)之后,當(dāng)前正在使用的在內(nèi)存中的元數(shù)據(jù)就會(huì)丟失,此時(shí)服務(wù)器中存儲(chǔ)的Fsimage.iso文件就是上一次開機(jī)時(shí)加載的文件,從時(shí)效性上來(lái)說(shuō),就會(huì)很落后。當(dāng)下一次開機(jī)時(shí),我們加載舊的Fsimage.iso文件之后,元數(shù)據(jù)其實(shí)是處于不可用的狀態(tài)的。因?yàn)樵獢?shù)據(jù)和數(shù)據(jù)是不一致狀態(tài)的,這時(shí)候如果進(jìn)行寫操作或者讀操作,就會(huì)讀取出錯(cuò)誤的文件,或者是無(wú)法讀取文件。這個(gè)時(shí)候在開機(jī)進(jìn)行加載的時(shí)候就需要通過(guò)Editlog來(lái)對(duì)元數(shù)據(jù)進(jìn)行進(jìn)一步的恢復(fù)性加載。這個(gè)時(shí)候需要耗費(fèi)過(guò)長(zhǎng)的時(shí)間來(lái)進(jìn)行。也就影響了整體進(jìn)程的加載速度。同時(shí),為了保證數(shù)據(jù)的安全性(比如在突然斷電的情況下,Editlog和Fsimage就可以出現(xiàn)數(shù)據(jù)丟失的情況),也需要元數(shù)據(jù)持久化,主要是為了更新Namenode中的Editlog(操作記錄日志文件)和Fsimage(文件系統(tǒng)鏡像)兩個(gè)文件,保證兩個(gè)文件在主備節(jié)點(diǎn)中的同步,最終當(dāng)出現(xiàn)故障的時(shí)候,可以進(jìn)行Failover操作,保證整體大數(shù)據(jù)平臺(tái)的可用性。而且,做Editlog和Fsimage的合并也有利于在進(jìn)程重啟之后,可以盡快的進(jìn)行元數(shù)據(jù)的加載操作。"13.請(qǐng)說(shuō)明結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的概念?參考答案:"結(jié)構(gòu)化數(shù)據(jù):具有固定的結(jié)構(gòu),屬性劃分,以及類型等信息。我們通常所理解的關(guān)系型數(shù)據(jù)庫(kù)中所存儲(chǔ)的數(shù)據(jù)信息,大多是結(jié)構(gòu)化數(shù)據(jù),如職工信息表,擁有ID、Name、Phone、Address等屬性信息。通常直接存放在數(shù)據(jù)庫(kù)表中。數(shù)據(jù)記錄的每一個(gè)屬性對(duì)應(yīng)數(shù)據(jù)表的一個(gè)字段。非結(jié)構(gòu)化數(shù)據(jù):無(wú)法用統(tǒng)一的結(jié)構(gòu)來(lái)表

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論