2025年(H13-711)HCIA-Big Data大數(shù)據(jù)認證考試復習題庫(含答案)_第1頁
2025年(H13-711)HCIA-Big Data大數(shù)據(jù)認證考試復習題庫(含答案)_第2頁
2025年(H13-711)HCIA-Big Data大數(shù)據(jù)認證考試復習題庫(含答案)_第3頁
2025年(H13-711)HCIA-Big Data大數(shù)據(jù)認證考試復習題庫(含答案)_第4頁
2025年(H13-711)HCIA-Big Data大數(shù)據(jù)認證考試復習題庫(含答案)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE12025年(H13-711)HCIA-BigData大數(shù)據(jù)認證考試復習題庫(含答案)一、單選題1.SparkStreaming計算基于DStream,將流式計算分解成一系列短小的批處理作業(yè)。A、TRUEB、FALSE答案:A2.MRS會保存用戶設置的登錄Master節(jié)點的初始密碼。為避免被恐意攻擊,建議設置復雜度高的密碼。A、TRUEB、FALSE答案:A3.MySQL引擎用于將遠程的MySQL服務器中的表映射到C1ickHouse中,并允許您對表進行INSERT和SELECT查詢,以方便您在ClickHouse與MySQL之間進行數(shù)據(jù)交換。A、TRUEB、FALSE答案:A4.HBase組件中,數(shù)據(jù)讀寫服務需要連接Master執(zhí)行。A、TRUEB、FALSE答案:B5.Flink不僅能提供同時支持高吞吐和exactly-once語義的實時計算,還能提供批量數(shù)據(jù)處理。A、TRUEB、FALSE答案:A6.某電信公司計劃開展大數(shù)據(jù)業(yè)務,目標業(yè)務有客戶分群、用戶歷史賬單分析、實時話費分析等業(yè)務。若要滿足業(yè)務需求,從功能和成本考慮,下列哪個選項最合適?A、部署StormB、部署MapReduce與StormC、單獨部署SparkD、部署MapReduce答案:C7.下圖展示了StructuredStreaming的計算模型。通過觀察可以得出最終T3的計算結果是?A、Cat2;dog4;owl2B、Dog1;owl1C、at2;dog3;owl1D、Cat1;cat1:Dog2:dog2;owl2答案:A8.HDFS中的block默認保存幾份?A、與DataNode數(shù)量相同B、1份C、2份D、3份答案:D9.HBase集群定時執(zhí)行Compaction的目的是什么?A、提升數(shù)據(jù)讀取性能。B、減少同一個Region的文件數(shù)目。C、減少同一個Region同一個ColumrFamily下的文件數(shù)目。D、提升數(shù)據(jù)寫入能力答案:C10.HBase中數(shù)據(jù)存儲的文件格式是什么?A、HFileB、TextFileC、SequenceFileD、Hlog答案:A11.ClickHouse完全使用SQL作為查詢語言,提供了標準協(xié)議的SQL查詢接口。A、TRUEB、FALSE答案:A12.關于DataSet,下列說法不正確的是?A、DataSet不需要反序列化就可執(zhí)行大部分操作B、DataSet執(zhí)行sort、filter、shuffle等操作需要進行反序列化C、DataSet與RDD高度類似,性能比RDD好D、ataSet是一個由特定域的對象組成的強類型集合答案:B13.數(shù)據(jù)質量要求各業(yè)務部門對相應數(shù)據(jù)領域的數(shù)據(jù)質量全權負責,按業(yè)務需求設計數(shù)據(jù)質量標準,制定數(shù)據(jù)質量管控目標,并遵循企業(yè)數(shù)據(jù)治理費求進行數(shù)據(jù)質量度量,制定符合各自業(yè)務情況的數(shù)據(jù)質量政策及數(shù)據(jù)質量相關的改進計劃,持續(xù)進行數(shù)據(jù)質量管控A、TRUEB、FALSE答案:A14.Elasticsearch索引HBase數(shù)據(jù)是將HBase數(shù)據(jù)寫到HDFS之后,Elasticsearch再建立相應的HBase索引數(shù)據(jù),實現(xiàn)HBase數(shù)據(jù)的全文檢索。A、TRUEB、FALSE答案:B15.Spark和Hive同時部署時,若SparkSQL要獲取Hive元數(shù)據(jù),SparkSQL需要在啟動后執(zhí)行同步操作。A、TRUEB、FALSE答案:A16.以下關于MRS使用限制的描述,錯誤的是哪一項?A、創(chuàng)建MRS集群時,不支持自動創(chuàng)建安全組,需要手動創(chuàng)建安全組。B、集群創(chuàng)建完成后,請勿隨意用除或更改已使用的安全組。C、MRS集群使用的安全組請勿隨意放開權限,避免被惡意訪問。D、MRS集群必須創(chuàng)建在VPC子網內。答案:A17.以下關于clickHouse的數(shù)據(jù)分片和數(shù)據(jù)副本的描述,錯誤的是哪一項?A、ClickHouse依靠ReplicatedMergeTree引擎與ZooKeeper實現(xiàn)了復制表機制。B、數(shù)據(jù)副本的主要目的是防止數(shù)據(jù)丟失,增加數(shù)據(jù)存儲的冗余。C、數(shù)據(jù)分片的主要目的是實現(xiàn)數(shù)據(jù)的水平切分。D、分片之間的數(shù)據(jù)是完全相同的。答案:D18.當某RegionServer故障后,HMaster若要恢復數(shù)據(jù)必須依賴下列哪個選項?A、RegionB、HDFSC、RowKeyD、Hlog答案:A19.F1ink用DataStrean來表示程序中的流式數(shù)據(jù),用戶可以認為它們是含有重復數(shù)據(jù)的可修改的集合(collection),DataStream中元素的數(shù)量是無限的。A、TRUEB、FALSE答案:A20.HBase表設計中,列族和RowKey是表設計的重要內容。下列哪個選項不適合做RowKey?A、用戶名B、手機號C、身份證號D、用戶ID答案:A21.Flume采集日志數(shù)據(jù),若不考慮數(shù)據(jù)安全性。要達到最高采集速度,應該用什么類型的Channel?A、FileChannelB、JDBCChannelC、MemoryChannelD、HDFSChannel答案:C22.以下哪個選項不是元數(shù)據(jù)管理的目的?A、信息資源規(guī)劃B、業(yè)務系統(tǒng)建設C、數(shù)據(jù)平臺建設D、數(shù)據(jù)價值挖掘答案:D23.HBase的主HMaster是如何選舉的?A、隨機選取B、通過ZooKeeper進行裁決C、由RegionServer進行裁決D、HMaster為雙主模式,不需要進行裁決答案:B24.Kafka中,Leader主要負責監(jiān)控Follower的運行狀態(tài),F(xiàn)o11ower主要負責數(shù)據(jù)的讀寫。A、TRUEB、FALSE答案:B25.ElasticSearch的索引可以存儲在多種存儲類型,而以下哪種存儲類型不支持?A、HDFSB、共享文件系統(tǒng)C、對象存儲D、本地文件系統(tǒng)答案:C26.以下關于HBase二級索引的描述哪一項是正確的?A、二級索引把要查找的列與rowkey關聯(lián)成一個索引表B、此時列成新的rowkey,原rowkey成為valueC、二級索引查詢了2次D、以上全都正確答案:D27.某網站舉行活動,要求計算該網站每分鐘的用戶訪問量,若要實現(xiàn)該需求,下列哪個選項最合適?A、MapReduceB、StormC、HiveD、Spark答案:B28.大數(shù)據(jù)體量的不斷增加,對數(shù)據(jù)存儲的物理安全性要求越來越高,對數(shù)據(jù)的多副本與容災機制也提出更高的要求。A、TRUEB、FALSE答案:A29.容量調度器在進行資源分配時,現(xiàn)有同級的2個列隊Q1和Q2,它們的容量均為30,其中Q1已使用8,Q2已使用14,則會優(yōu)先將資源分配給Q1A、TRUEB、FALSE答案:A30.可以通過以下哪個命令創(chuàng)建節(jié)點數(shù)據(jù)?A、1s/nodeB、get/nodeC、set/nodedataD、create/node答案:C31.Yarn作為MapReduce的資源管理器,其依賴HDFS。A、TrueB、FALSE答案:B32.HBase數(shù)據(jù)的存儲在物理上是分列族存儲的。A、TRUEB、FALSE答案:A33.F1ume-NG由一個個agent來組成,而每個agent由Source,Channel,Sink三個模塊組成。其中Source負責接收數(shù)據(jù).Channel負責數(shù)據(jù)的傳輸,Sink則負責數(shù)據(jù)向下一端的發(fā)送。A、TRUEB、FALSE答案:A34.MapReduce程序由Map和Reduce兩部分組成,現(xiàn)由一MapReduce程序,其有5個reduce任務,該程序最終輸出多少個結果文件?A、3B、4C、2D、5答案:D35.HDFS從2.7.3版本開始,BlockSize默認是多大?A、16MBB、64MBC、128MBD、32MB答案:C36.Flume包含Source、Channe1和Sink三大組件,以下關于這三大組件說法錯誤的是哪一項?A、當Sink成功地將events發(fā)送到下一跳的Channe1或最終目的時,events會從Channel移除B、Channel支持事務,提供較弱的順序保證,可以連接多個的Source和SinkC、Sink必須作用于一個確切的ChannelD、Source負責接收events或通過特殊機制產生events,并將events批量放到多個Channel中答案:C37.HBase的某張表的RowKey劃分SplitKey為9,E,a,z,請問該表有幾個Region?A、6B、5C、4D、3答案:B38.一個Spark應用程序運行時,如果某個task運行失敗,則整個app運行失敗。A、TRUEB、FALSE答案:B39.Kafka的Producer和Customer數(shù)量必須相同。A、TRUEB、FALSE答案:B40.YARN中設置隊列QueueA的最大使用資源量,需要配置哪個參數(shù)?A、yarn.scheduler.capacity.root.QueueA.user-limit-factorB、yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC、yarn.scheduler.capacity.root.QueueA.maximum-capacityD、yarn.scheduler.capacity.root.QueueA.State答案:C41.某公司使用Spark做大數(shù)據(jù)分析,某次分析任務中某RDD會被重復利用,導致重復計算多次。若要避免重復計算且能夠重復利用該RDD,以下哪個選項更合適?A、寫出該RDD,需要時再重新讀取B、RDD執(zhí)行persist操作C、Spark計算很快,無需優(yōu)化D、增大任務資源,快速結束該任務答案:B42.概念視圖里HBase表可以被看成是一個稀疏的行的集合。A、TRUEB、FALSE答案:A43.Elasticsearch默認是先把索引存放到內存中,當內存滿了時再持久化到本地硬盤A、TRUEB、FALSE答案:A44.在C1ickHouse中創(chuàng)建數(shù)據(jù)表時,指定以下哪一個表引擎會導致重新啟動服務器時表中的數(shù)據(jù)消失,表變?yōu)榭??A、MySQLB、TinyLogC、KafkaD、Memory答案:D45.Producer需要Server接收到數(shù)據(jù)之后發(fā)出的確認接收的信號,當設置AcK信號的值為多少時表示至少要等待Leader已經成功將數(shù)據(jù)寫入本地Log,但不要求等待所有Follower都成功寫入?A、cks=1B、acks=2C、acks=0D、acks=alL答案:A46.關于SparkSQL&Hive區(qū)別與聯(lián)系,下列說法正確的是?A、SparkSQL兼容絕大部分Hive的語法和函數(shù)B、SparkSQL的執(zhí)行引擎為SparkCore,Hive默認執(zhí)行引擎為MapReduceC、SparkSQL不可以使用Hive的自定義函數(shù)D、SparkSQL依賴Hive的元數(shù)據(jù)答案:B47.分布式表的表結構盡量和本地表的結構一致。如果不一致,在建表時不會報錯,但在查詢或者插入時可能會拋出異常。A、TRUEB、FALSE答案:A48.在ZooKeeper和YARN的協(xié)同工作中,當ActiveResourceManager產生故障時,StandbyResourceManager會從以下哪個目錄中獲取Applicationl相關信息?A、WarehouseB、StatestoreC、StorageD、Metastore答案:D49.ClickHouse是俄羅斯yandex公司開發(fā)的OLTP數(shù)據(jù)庫管理系統(tǒng)。A、TRUEB、FALSE答案:B50.Kafka將Topic分成一個或者多個Partition,每個Partition在物理上對應一個文件夾,該文件夾下存儲這個Partition的所有消息。A、TRUEB、FALSE答案:A51.在DataArtsStudio平臺中,支持自定義業(yè)務元模型,批量導入業(yè)務元數(shù)據(jù),關聯(lián)業(yè)務和技術元數(shù)據(jù)、全鏈路的血緣管理和應用。A、TRUEB、FALSE答案:A52.為減少寫入磁盤的數(shù)據(jù)量,MapReduce支持對MOF(MapOutFile)進行壓縮后再寫入。A、TRUEB、FALSE答案:A53.MapReduce的核心理念是將一個大的計算任務分解到集群每個節(jié)點上。充分運用集群資源,縮短運行時間。A、TRUEB、FALSE答案:A54.在Hive數(shù)據(jù)存儲模型中,分區(qū)和桶的關系描述錯誤的是哪一項?A、建表時指定桶個數(shù),桶內可排序。B、分區(qū)數(shù)量不固定C、每個桶是一個目錄D、分區(qū)下可再有分區(qū)或者桶答案:D55.Spark自帶的資源管理框架是?A、DockerB、YARNC、MesosD、Standalone答案:D56.數(shù)據(jù)集市與數(shù)據(jù)湖最大的區(qū)別是,各個集市的數(shù)據(jù)無法互通,也可能存在重復,相比數(shù)據(jù)湖,數(shù)據(jù)集市更像一個個數(shù)據(jù)煙囪。A、TRUEB、FALSE答案:A57.默認情況下MapReduce程序中map任務數(shù)由下列哪個選項決定?A、用戶指定B、根據(jù)資源自行生成任務數(shù)C、隨機生成D、該任務所計算的數(shù)據(jù)塊數(shù)量答案:D58.華為云鯤鵬云服務基于鯤鵬處理器等多元基礎設施,涵蓋裸機,虛機,容器等形態(tài),具備多核高并發(fā)特點,非常適合AI、大數(shù)據(jù)、HPC、云手機/云游戲等場景。A、TRUEB、FALSE答案:A59.YARN的基于標簽調度,是對下列選項中的哪個進行標簽化?A、NodeManagerB、ContainerC、AppMasterD、ResourceManager答案:A60.Kafka集群在運行期間,直接依賴于下面哪個組件?A、ZookeeperB、HDFSC、HBaseD、Flume答案:A61.Spark的中間數(shù)據(jù)放在內存中,對于迭代運算、批處理計算的效率更高,延遲更高。A、TRUEB、FALSE答案:B62.Spark的核心模塊是?A、SparkCoreB、MapReduceC、SparkSQLD、SparkStreaming答案:A63.某證券公司每10秒分析最近5秒的股票指數(shù),若使用SparkStreaming實現(xiàn),窗口時間和滑動時間如何設置?A、窗口時間5秒滑動時間10秒B、窗口時間10秒滑動時間5秒C、窗口時間5秒滑動時間5秒D、窗口時間10秒滑動時間10秒答案:A64.MRS支持與公有云安全服務集成,采取多種措施確保主機安全。以下選項中,哪一個選項不屬于主機安全的措施?A、操作系統(tǒng)內核安全加固B、更新操作系統(tǒng)最新補丁C、操作系統(tǒng)端口管理D、身份鑒別和認證答案:B65.查看Kafka某Topic的Partition詳細信息時,使用如下哪個命令?A、bin/kafka-topics.sh--listB、in/kafka-topics.sh--describeC、bin/kafka-topics.sh--deleteD、bin/kafka-topics.sh–create答案:B66.下列哪個不是HBase讀取數(shù)據(jù)流程中涉及的角色或服務?A、HRegionServerB、ZooKeeperC、HMasterD、HDFS答案:C67.Flink根據(jù)數(shù)據(jù)集類型的不同將核心數(shù)據(jù)處理接口分為兩大類,一類是支持批計算的接口,另外一類是支持流計算的接口,以下關于這兩類接口描述正確的是哪一項?A、僅支持批計算的接口是SQLAPI,僅支持流計算的接口是DataStreamAPIB、支持批計算的接口是DataStreamAPI,支持流計算的接口是DataSetAPIC、僅支持批計算的接口是DataStreamAPI,僅支持流計算的接口是SQLAPID、支持批計算的接口是DataSetAPI.支持流計算的接口是DataStreamAPI答案:D68.Zookeeper選舉時,當某一個實例獲得了半數(shù)以上的票數(shù)時,則變?yōu)?eaderA、TRUEB、FALSE答案:A69.默認情況下Flink不開啟檢查點,用戶需要在程序中通過調用以下那種方法配置和開啟檢查點?A、env.enableCheckpointing(1000)B、env.startSetCheckpointing(1000)C、env.getCheckpointConfig()。setMaxConcurrentCheckpoints(500)D、env.getCheckpointConfig()。setCheckpointingTimeout(60000)答案:A70.ElasticSearch的一個索引庫默認有幾個分片?A、4B、5C、6D、3答案:B71.在MRS服務中,關于Kafka的Topic,以下描述不正確的有?A、Topic的Partition數(shù)量可以在創(chuàng)建時配置B、每條發(fā)布到Kafka的消息都有一個類別,這個類別被稱為Topic,也可以理解為一個存儲消息的隊列C、每個Partition在存儲層面對應一個log文件,log文件中記錄了所有的消息數(shù)據(jù)D、每個Topic只能被分成一個partition(區(qū))答案:D72.生產環(huán)境中任何一個MapRedce任務Shuffle都是不可避免的。A、TRUEB、FALSE答案:A73.Spark自帶的資源管理框架是?A、StandaloneB、DockerC、YARND、Mesos答案:A74.在數(shù)據(jù)流處理過程中,經常使用系統(tǒng)時間(processingtime)作為某個事件的時間,關于processingtime描述錯誤的是哪一項?A、ProcessingTime適用于處理問題復雜、對結果可溯要求較高的場景B、ProcessingTime結果是不可復現(xiàn)的,一旦流式計算版本升級甚至系統(tǒng)崩潰,計算將會停止C、實際應用過程中,processingtime要落后與eventtimeD、processingtime和eventtime之間存在差異的主要原因是由于網絡延遲、處理時間的長短等造成的答案:A75.客戶端往任意Zookeeper節(jié)點寫數(shù)據(jù),Zookeeper需要將數(shù)據(jù)完全同步到其他節(jié)點,才可以返回給客戶端寫成功。A、TRUEB、FALSE答案:B76.Hbase中當一個Region的size逐漸變大時,它可能會被修剪。A、TRUEB、FALSE答案:A77.Hadoop平臺中,要查看YARN服務中一個application的信息,通常需要使用什么命令?A、containerB、jarC、application-attemptD、application答案:D78.Spark根據(jù)RDD的依賴關系來劃分Stage,調度器從DAG圖末端出發(fā),逆向遍歷整個依賴關系鏈,遇到窄依賴就斷開,遇到寬依賴就將其加入當前Stage。A、TRUEB、FALSE答案:B79.Hive運行流程包括下面幾步,請選擇正確的順序1:Hive根據(jù)表送型市新HDFS或Hive合庫中的數(shù)據(jù)2:Client提交HQL命令3:YARN為群集中的應用程序分配資源,并為YARN隊列中的Hive作業(yè)啟用授權。4:Tez執(zhí)行查詢5:Hive通過JDBC連接返回查詢結果。A、24315B、24135C、21345D、21435答案:A80.SparkStreaming容錯機制是指RDD中任意的Partition出錯,都可以根據(jù)其父RDD重新計算生成,如果父RDD丟失,則需要去磁盤中查找原始數(shù)據(jù)。A、TRUEB、FALSE答案:B81.Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。A、TRUEB、FALSE答案:A82.在點對點消息系統(tǒng)中,可由一個或多個消費者消費隊列中的數(shù)據(jù),但是一條消息只能被消費一次。A、TRUEB、FALSE答案:A83.HBase元數(shù)據(jù)MetaRegion路由信息保存在哪里?A、Meta表B、HMasterC、ZooKeeperD、Root表答案:A84.Spark和Hadoop一樣不適用于迭代計算。A、TRUEB、FALSE答案:B85.DataSet從Spark2.0正式啟用,兼具DataFrame和RDD的特點,RDD也不再使用。A、TRUEB、FALSE答案:B86.MRS服務100%兼容開源大數(shù)據(jù)生態(tài),結合周邊豐富的數(shù)據(jù)及應用遷移工具,能夠幫助客戶快速完成自建平臺的平滑遷移,整個遷移過程可做到“代碼0修改,業(yè)務0中斷”.A、TRUEB、FALSE答案:A87.以下哪一個因素助力了大數(shù)據(jù)時代的蓬勃發(fā)展?A、硬件成本的降低和網絡帶寬的提升B、云計算的興起C、智能終端的普及和社交需求的提升D、以上全都正確答案:D88.關于HBase的RegionSplit分裂流程的描述不正確的是?A、Split過程中該表會暫停服務。B、Split為了減少Region中數(shù)據(jù)大小,從而將一個Region分裂成兩個Region。C、Split過程中并沒有真正的將文件分裂,僅僅是創(chuàng)建了引用文件。D、Split過程中被分裂的Region會暫停服務。答案:A89.Flume需要實時采集點擊流日志到Kafka,用于后續(xù)的實時分析處理,選擇以下哪種Source類型進行數(shù)據(jù)采集最為合適?A、kafkasourceB、spoolingdirectorysourceC、httpsourceD、syslogsource答案:B90.硬件故障被認為是常態(tài),為了解決這個問題.HDFS設計了副本機制。默認情況下,一份文件,HDFS會存()份?A、3B、4C、2D、5答案:A91.ResourceManager采用高可用方案,當ActiveResourcelanager發(fā)現(xiàn)故障時,只能通過內置的ZooKeeper來啟動Standby的Resourcellanager,將其狀態(tài)切換為Active。A、TRUEB、FALSE答案:B92.HBase命中下列哪個選項性能最差?A、putB、scanC、getD、list答案:D93.以下描述中,哪個不是Hive的優(yōu)點?A、依賴于高性能的商業(yè)服務器B、類似SQL語法,內置大量函數(shù)C、支持自定義存儲格式和自定義函數(shù)D、HiveServer支持集群模式答案:A94.RDD有Transformation和Action算子,下列屬于Action算子的是?A、saveAsTextFileB、mapC、filterD、reduceByKey答案:A95.以下關于ElasticSearch的特點,描述不正確的是哪一項?A、目前只支持結構化數(shù)據(jù)查詢B、自動檢測故障并保障集群的安全性和可用性C、能立即獲得搜索結果,實現(xiàn)了用于全文檢索的倒排索引D、支持水平擴展,可運行于成百上千臺服務器上答案:A96.數(shù)據(jù)質量監(jiān)控DQc(DataQualityControl)模塊是對數(shù)據(jù)庫里的數(shù)據(jù)質量進行質量管理的工具,可以從完整性、有效性、及時性、一致性、準確性、唯一性六個維度進行單列、跨列、跨行和跨表的分析。A、TRUEB、FALSE答案:A97.HBase的Region是由哪個服務進程來管理的?A、ZooKeeperB、DataNodeC、HRegionServerD、Hmaster答案:C98.某電商公司同時運行MapReduce離線分析任務和Spark實時分析任務,若使用Yarn的Capacity調度器,資源分配如何進行?A、離線分析任務和實時分析任務安排在不同隊列且優(yōu)先滿足實時分析任務的資源需求B、離線分析任務和實時分析任務安排在不同隊列C、離線分析任務和實時分析任務安排在同—隊列D、離線分析任務和實時分析任務安排在同一隊列且優(yōu)先滿足實時分析任務的資源需求答案:A99.RDB支持索引,HBase不支持索引。A、TRUEB、FALSE答案:B100.HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)。A、TRUEB、FALSE答案:A101.以下關于MRS服務的安全認證的描述,正確的是哪一項?A、不提供單點登錄,統(tǒng)一了MRS系統(tǒng)用戶和組件用戶的管理及認證。B、對登錄Manager的用戶進行審計。C、支持安全協(xié)議Kerberos,MRS使用Kerberos作為帳戶管理系統(tǒng),并通過LDAP對帳戶信息進行安全認證。D、替于用戶和角色的認證統(tǒng)一體系,遵從帳戶/角色RBAC(Role-BasedAccessControl)模型,實現(xiàn)通過賬戶進行權限管理,對角色進行批量授權管理。答案:C102.Spark任務的每個Stage劃分為幾個Job,劃分的標記是Shuffle。A、TRUEB、FALSE答案:A103.Distributed表引擎本身不存儲任何數(shù)據(jù),而是作為數(shù)據(jù)分片的透明代理,能夠自動路由數(shù)據(jù)到集群中的各個節(jié)點,分布式表需要和其他本地數(shù)據(jù)表一起協(xié)同工作。A、TRUEB、FALSE答案:A104.某公司使用HBase存儲業(yè)務數(shù)據(jù),由于數(shù)據(jù)規(guī)模較大,所以數(shù)據(jù)存儲在HBase后會導致頻繁的Region分裂,為了避免這種情況,下列哪個方法比較適用?A、對該表預分區(qū)B、增加Region大小C、增大MemStore大小D、提升RegionServer性能答案:B105.以下關于ClickHouse增強特性的描述,正確的是哪些項?A、實現(xiàn)滾動升級/滾動重啟B、提供了基于ELB的HA部署架構C、平滑的彈性擴容能力D、默認采用兩副本方式、自動生成集群分片拓撲答案:A106.HDFS是一個部署在集群上的分布式文件系統(tǒng),因此,很多數(shù)據(jù)需要通過網絡進行傳輸,以下關于HDFS的通訊協(xié)議描述錯誤的是哪一項?A、名稱節(jié)點和數(shù)據(jù)節(jié)點之間則使用名稱節(jié)點協(xié)議進行交互B、客戶端與數(shù)據(jù)節(jié)點的交互是通過RPC來實現(xiàn)的C、所有的HDFS通信協(xié)議都是構建在TCP/IP協(xié)議基礎之上D、名稱節(jié)點不會主動發(fā)起RPC,而是響應來自客戶端和數(shù)據(jù)節(jié)點的RPC請求答案:A107.默認情況下MapReduce程序中reduce任務數(shù)由下列哪個選項決定?A、用戶指定B、隨機生成C、根據(jù)資源自行生成任務數(shù)D、該任務所計算的數(shù)據(jù)塊數(shù)量答案:A108.以下關于clickHouse的數(shù)據(jù)庫管理的描述,錯誤的是哪一項?A、ClickHouse提供集群模式,能夠自動管理多個數(shù)據(jù)庫節(jié)點。B、ClickHouse提供了數(shù)據(jù)備份導出與導入恢復機制。C、lickHouse不可以按照用戶粒度設置數(shù)據(jù)庫或者表的操作權限。D、ClickHouse可以動態(tài)地創(chuàng)建、修改或刪除數(shù)據(jù)庫、表和視圖,而無須重啟服務。答案:C109.以下哪個不屬于Hadoop中MapReduce組件的特點?A、實時計算B、易于編程C、高容錯性D、良好擴展性答案:A110.Flume中數(shù)據(jù)壓縮特性主要是基于以下哪種目的?A、增強安全性B、提高可靠性C、降低磁盤I0D、降低網絡I0答案:C111.Streaming主要通過ZooKeeper提供的以下哪項服務實現(xiàn)事件偵聽?A、CKB、分布式鎖機制C、heckpointD、watcher答案:D112.F1ume是一種分布式,高可靠且高可用的服務,用于有效地收集、聚合和移動大量日志數(shù)據(jù)。A、TRUEB、FALSE答案:A113.MapReduce在Map階段的combine是一個預分組過程,是可選的。A、TRUEB、FALSE答案:A114.Hive在處理一些復雜的統(tǒng)計或者排序等復雜任務的時候,會調用以下哪個組件?A、HadoopB、HBaseC、MapReduceD、HDFS答案:B115.HBase在讀取數(shù)據(jù)時率先讀取下列哪個選項數(shù)據(jù)?A、MemStore數(shù)據(jù)B、HLog數(shù)據(jù)C、Hfile數(shù)據(jù)D、StoreFile數(shù)據(jù)答案:A116.ElasticSearch有哪些查詢類型?A、基于分值數(shù)檢索B、基于元數(shù)據(jù)檢索C、基于詞條檢索D、基于全文檢索答案:D117.以下關于ZooKeeper關鍵特性中的原子性說法正確的是?A、客戶端發(fā)送的更新會按照它們被發(fā)送的順序進行應用B、更新只能全部完成或失敗,不會部分完成C、一條消息被一個server接收,將被所有server接收D、集群中無論哪臺服務器,對外展示的均是同一視圖答案:B118.HBase中Region的物理存儲單元是什么?A、ColumB、RowC、RegionD、ColumnFamily答案:B119.MergeTree是用于高負載任務的最通用和功能最強大的表引擎,以下關于MergeTree的關鍵特征的描述,錯誤的是哪一項?A、支持主鍵排序B、支持并發(fā)數(shù)據(jù)訪問C、支持數(shù)據(jù)遷移D、支持二級索引答案:C120.Flume在傳輸數(shù)據(jù)過程中,如果下—跳的Flume節(jié)點故障或者數(shù)據(jù)接受異常時,可以自動切換到另外一路上繼續(xù)傳輸。A、TRUEB、FALSE答案:A121.以下關于ClickHouse設計優(yōu)點的描述,錯誤的是哪一項?A、多核并行計算B、向量化計算引擎C、數(shù)據(jù)壓縮比低D、支持嵌套數(shù)據(jù)結構答案:D多選題1.下列哪些查詢場景使用列存儲更合適?A、點查詢B、聚合查詢C、分組查詢D、條件查詢答案:BC2.HDFS支持通過以下哪些訪問方式來訪問數(shù)據(jù)?A、MS3B、ShellC、JAVAAPID、HTTP答案:BCD3.下列哪些措施是為了保障數(shù)據(jù)的完整性?A、元數(shù)據(jù)可靠性保證B、安全模式C、集群數(shù)據(jù)均衡D、重建失效數(shù)據(jù)盤的副本數(shù)據(jù)答案:ABCD4.以下關于傳統(tǒng)數(shù)據(jù)入湖面臨的挑戰(zhàn)的描述,正確的是哪些項?A、成本高B、時效差C、資源利用率低D、開發(fā)難答案:ABCD5.通過配置以下哪些參數(shù)可清理Kafka中產生的日志?A、log.cleanup.policyB、log.retention.hoursC、pertiesD、log.retention.Bytes答案:ABD6.Spark與MapReduce進行比較,下列說法正確的是哪幾項?A、Spark可以緩存中間結果在內存降低磁盤I0B、Spark任務的中間結果只能存儲在內存C、Spark任務中shuffie是必須的過程D、Spark任務中shuff1e不是必須的過程答案:AD7.Hive的主要應用于以下哪些場景?A、海量數(shù)據(jù)的離線分析B、實現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)加載、數(shù)據(jù)轉換C、大規(guī)模的數(shù)據(jù)挖掘D、實現(xiàn)數(shù)據(jù)的流式處理答案:ABC8.下列哪些選項對HBase讀寫數(shù)據(jù)的過程描述正確?A、客戶端不可以維護已訪問過的region位置信息加快查詢B、客戶端讀取數(shù)據(jù)需要HMaster參與C、客戶端可以維護已訪問過的region位置信息加快查詢D、客戶端讀取數(shù)據(jù)不需要HMaster參與答案:CD9.Spark發(fā)生Shuffle時會延長任務執(zhí)行時間,下列哪些選項能夠不能減少shuffle次數(shù)?A、增強集群性能快速執(zhí)行shuffleB、更換shuffle機制C、避免使用groupBy、reduceByKey等可產生寬依賴的算子D、多用transformation算子少用action算子答案:AD10.客戶端是用戶操作HDFS最常用的方式,以下關于HDFS客戶端的描述正確的有哪些?A、HDFS客戶端提供了類似She11的命令行方式來訪問HDFS中的數(shù)據(jù)B、HDFS客戶端是一個庫,包含HDFS文件系統(tǒng)接口,這些接口隱藏了HDFS實現(xiàn)中的大部分復雜性C、客戶端可以支持打開、讀取、寫入等常見的操作D、客戶端是HDFS的一部分,是部署HDFS的必備組件答案:ABC11.下列關于Hive基本操作命令的解釋正確的是哪些項?A、removetableT1whereid=1;//刪除表中符合條件"id=1"的數(shù)據(jù)B、createtableifnotexistsT1likeT2://拷貝T2表,包括表里的數(shù)據(jù),并命名為T1C、altertableT1renametoT2;//將表T1重命名為T2D、roptableifexistsT1;//刪除表T1答案:CD12.下列選項對Compaction描述正確的是哪一項?A、有Minor和Major兩種類型B、Compation通過合并文件減少HFile文件數(shù)C、ompation通過消除過期數(shù)據(jù)文件減少HFile文件數(shù)D、Minor觸發(fā)頻率相對Major較高答案:ABD13.Yarn支持下列哪些調度器?A、MesosB、FIFOC、apacityD、Fair答案:BCD14.下面哪些是ElasticSearch的特點?A、高擴展性B、高容錯性C、高可靠性D、高性能答案:ACD15.ElasticSearch擴容的場景包括哪些?A、節(jié)點需要重新安裝操作系統(tǒng)B、ElasticSearch單實例的索引數(shù)據(jù)太大C、物理資源消耗過大D、集群數(shù)據(jù)量減少答案:BC16.Spark有哪些特點?A、巧B、快C、輕D、靈答案:ABCD17.Spark與MapReduce進行比較,下列說法正確的是哪幾項?A、Spark任務中shuffle不是必須的過程B、Spark任務中shuffle是必須的過程C、Spark可以緩存中間結果在內存降低磁盤I0D、Spark任務的中間結果只能存儲在內存答案:AC18.以下關于Hudi支持的視圖的描述,正確的是哪些項?A、讀優(yōu)化視圖B、寫優(yōu)化視圖C、實時視圖D、增量視圖答案:ACD19.Flink的兼容性體現(xiàn)在以下哪些方面?A、能夠與Hadoop原有的Mappers和Reducers混合使用B、能夠使用Hadoop的格式化輸入和輸出C、YARN能夠作為Flink集群的資源調度管理器D、能夠從本地獲取數(shù)據(jù)答案:ABCD20.Flink支持的時間操作類型包括以下哪些選項?A、處理時間B、采集時間C、結束時間D、事件時間答案:ABD21.以下哪些選項屬于數(shù)據(jù)治理模塊域?A、數(shù)據(jù)開發(fā)B、數(shù)據(jù)服務C、數(shù)據(jù)集成D、主數(shù)據(jù)管理答案:ABCD22.以下關于華為云MRS海量數(shù)據(jù)離線分析場景描述正確的是哪幾項?A、利用Flink實現(xiàn)數(shù)據(jù)采集B、利用Hive實現(xiàn)TB/PB級的數(shù)據(jù)分析C、通過可視化導入導出工具Loader,將數(shù)據(jù)導出到Dws,完成BI分析D、利用OBS實現(xiàn)低成本存儲答案:BCD23.Spark框架包括哪些模塊?A、SparkM11ibB、SparkStreamingC、SparkSQLD、SparkGraphX答案:ABCD24.在數(shù)據(jù)流處理過程中,每個事件的時間可以分為以下哪些種類?A、delaytime,即事件發(fā)生到處理的延遲時間B、processingtime,即事件被系統(tǒng)處理的時間C、lingestiontime.即事件到達流處理系統(tǒng)的時間D、eventtime,即事件發(fā)生時的時間答案:BCD25.StructuredStreaming在OutPut階段可以定義不同的數(shù)據(jù)寫入方式,包括下列哪些方式?A、ppendModeB、UpdateModeC、GeneralModeD、CompleteMode答案:AD26.以下屬于Hive內置的字符串函數(shù)有哪些?A、length()B、substr()C、abs()D、trim()答案:ABD27.HDFS中,抽象的塊可以帶來哪些好處?A、適合數(shù)據(jù)備份B、簡化系統(tǒng)設計C、滿足I0密集型應用的性能要求D、支持大規(guī)模文件存儲答案:ABD28.關于HDFS命名空間管理,以下選項描述正確的是哪幾項?A、NameNode維護文件系統(tǒng)命名空間B、HDFS的命名空間包含目錄、文件和塊C、用戶可以像使用普通文件系統(tǒng)一樣,創(chuàng)建、刪除、轉移目錄和文件D、對文件系統(tǒng)命名空間或其屬性的任何更改由NameNode和DataNode共同記錄答案:ABC29.Flume采集海量日志數(shù)據(jù)時,經常會遇到性能瓶頸,可以通過以下哪些方式提升Flume性能?A、增加Flume級聯(lián)節(jié)點B、修改batchSize和capacityC、優(yōu)化FlumeGC參數(shù)D、增加Source數(shù)量答案:BCD30.下列關于Flink中Transformation的說法正確的是?A、可以通過window設定時間窗口B、flatMap可以對文本進行切分C、keyBy是將源頭數(shù)據(jù)按照key進行分組,以保證同一個key的源數(shù)據(jù)分到同樣的組中D、filter操作是對每個元素執(zhí)行boolean函數(shù)答案:ABCD31.ZKFC進程部署在HDFS中的以下哪些節(jié)點上?A、ctiveNameNodeB、DataNodeC、StandbyNameNode答案:AC32.HBase中包含的一些典型的Filter有哪些?A、SingleColumnValueFilterB、KeyOnlyFilterC、RowFilterD、FilterList答案:ABCD33.下列哪些選項是action算子?A、reduceByKeyB、mapPartitionC、ollectD、reduce答案:CD34.Kafka分布式消息傳遞基于可靠的消息隊列,包含以下哪兩種主要的消息傳遞模式?A、點對點傳遞模式B、發(fā)布訂閱模式C、分發(fā)傳遞模式D、輪詢傳遞模式答案:AB35.Kafka中Partition對應的Leader宕機時,需要從Fo1lower中選舉出新Leader,當所有Replica都不工作時,對數(shù)據(jù)及時間要求不高的情況下,以下哪些方案可行?A、等待ISR中的任一個Replica活過來,并選它作為LeaderB、選擇第一個活過來的Replica(不一定是ISR成員)作為LeaderC、在配置中增加Replica副本數(shù)量D、重啟Kafka集群答案:AB36.Flink中watermark機制用來解決亂序問題,watermark可通過以下哪些方式產生?A、繼承getCurrentWatermarkB、繼承assignerTimestWithWatermarkC、繼承assignerWithPunctuatedWatermarksD、繼承assignerWithPeriodicWatermarks答案:AB37.某MapReduce程序運行時,AppMaster發(fā)生故障。下列哪些選項對該任務描述正確?A、ppMaster不再啟動B、任務立即停止C、AppMaster再次啟動D、任務仍可運行答案:CD38.某電商平臺每天產生大量的交易訂單數(shù)據(jù),現(xiàn)在需要對這些數(shù)據(jù)中的交易金額做統(tǒng)計,可能會用到如下哪些組件?A、KafkaB、MySQLC、MapReduceD、Flume答案:ACD39.以下關于Flink容錯機制描述錯誤的有哪些?A、Savepoint機制保證了程序在進行升級或者修改并發(fā)度等情況后,還能從保存的狀態(tài)位繼續(xù)啟動恢復B、Checkpoint機制保證了程序在進行升級或者修改并發(fā)度等情況后,還能從保存的狀態(tài)位繼續(xù)啟動恢復C、heckpoint機制保證了實時程序運行時,即使突然遇到異常也能夠進行自我恢復D、Savepoint機制保證了實時程序運行時,即使突然遇到異常也能夠進行自我恢復答案:BD40.以下哪些選項不是企業(yè)的主數(shù)據(jù)?A、業(yè)務活動產生的合同、計劃、單據(jù)等結果或規(guī)則數(shù)據(jù)B、經過加工、計算、匯總后的指標數(shù)據(jù)C、描述產品、客戶、人員、組織等業(yè)務實體的檔案數(shù)據(jù)D、生產線上由設備自動采集的感知、檢測數(shù)據(jù)答案:AB41.以下關于Hive架構中的組件功能,描述正確的是哪些選項?A、Compiler按照任務的依賴關系分別執(zhí)行Map/Reduce任務B、Executor負責編譯HiveQL并將其轉化為一系列相互依賴的Map/Reduce任務C、Optimizer是優(yōu)化器,分為邏輯優(yōu)化器和物理優(yōu)化器,分別對HiveQL生成的執(zhí)行計劃和MapReduce任務進行優(yōu)化D、ThriftServer提供thrift接口,作為JDBC的服務端,并將Hive和其他應用程序集成起來答案:ABCD42.以下哪些選項屬于數(shù)據(jù)治理的價值?A、提升業(yè)務處理效率B、代替管理決策C、解決數(shù)據(jù)安全問題D、降低業(yè)務運營成本答案:ACD43.HBase中以下哪種場景會觸發(fā)Flush操作?A、當WALs中文件數(shù)量達到閾值時B、MemStore占用內存的總量和RegionServer總內存比值超出了預設的閾值大小C、HBase定期刷新Memstore,默認周期為1小時D、Region中MemStore的總大小,達到了預設的FlushSize國值答案:ABCD44.若HDFS單名稱節(jié)點部署,可能存在哪些局限性?A、影響基于HDFS的上層組件的功能實現(xiàn)B、整個分布式文件系統(tǒng)的吞吐量,受限于單個名稱節(jié)點的吞吐量C、一旦這個唯一的名稱節(jié)點發(fā)生故障,會導致整個集群不可用D、名稱節(jié)點能夠容納的對象(文件、塊)的個數(shù)會受到內存空間大小的限制答案:BCD45.Hive組件能支持多接口,以下哪個接口是不支持的?A、RestfulB、JDBCC、ODBCD、Beeline答案:BCD46.下列選項中,哪些是Spark的重要角色?A、ResourceManagerB、DriverC、DataNodeD、NodeManager答案:ABD47.MRS在基于ApacheHadoop開源軟件的基礎上,在主要業(yè)務部件的可靠性、性能調優(yōu)等方面進行了優(yōu)化和提升。以下關于MRS平臺的描述,正確的是哪些項?A、MRS支持自動處理網絡故障,自動恢復受影響的業(yè)務。B、MRS支持將Manager、HBase上的數(shù)據(jù)自動備份到第三方服務器。C、MRS對集群管理系統(tǒng)Manager上的數(shù)據(jù)提供自動備份功能,根據(jù)制定的備份策略可自動備份集群上的數(shù)據(jù)。D、在系統(tǒng)進行擴容、打補丁等重大操作前,需要通過手動備份集群管理系統(tǒng)的數(shù)據(jù),以便在系統(tǒng)故障時,恢復集群管理系統(tǒng)功能。答案:ABCD48.在MRS集群中,Spark主要與以下哪些組件進行交互?A、ZooKeeperB、HDFSC、YARND、Hive答案:BCD49.下列哪些選項對RDD描述正確?A、RDD是只讀的所以RDD不支持寫操作B、RDD進行數(shù)據(jù)恢復時所有分區(qū)同時進行C、RDD依賴血統(tǒng)機制恢復數(shù)據(jù)D、RDD是只讀的答案:ACD50.HBase可用于下列哪些應用場景?A、時序數(shù)據(jù)存儲B、消息/訂單存儲C、好友推薦D、用戶畫像答案:ABD51.Kafka中日志的清理方式包含以下哪些項?A、updateB、removeC、ompactD、elete答案:CD52.執(zhí)行HBase讀數(shù)據(jù)業(yè)務,需要讀取哪幾部分數(shù)據(jù)?A、HFileB、HLogC、HMasterD、MemStore答案

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論