版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案1.單項(xiàng)選擇題(每題2分,共20分)1.1在HDFS中,NameNode的主要職責(zé)是A.存儲(chǔ)實(shí)際數(shù)據(jù)塊B.維護(hù)文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.壓縮數(shù)據(jù)答案:B1.2SparkCore中RDD的默認(rèn)分區(qū)器是A.HashPartitionerB.RangePartitionerC.GridPartitionerD.ManualPartitioner答案:A1.3下列哪一項(xiàng)不是Kafka的組件A.BrokerB.TopicC.SegmentD.RegionServer答案:D1.4在Flink的時(shí)間語義中,EventTime的生成位置是A.SourceOperatorB.WindowOperatorC.數(shù)據(jù)產(chǎn)生時(shí)刻D.JobManager答案:C1.5HBase中用于快速定位Region的索引結(jié)構(gòu)是A.B+樹B.LSM樹C.跳表D.哈希表答案:B1.6若Hive表使用ORC格式,下列參數(shù)可控制行組大小的是A.hive.exec.orc.default.stripe.sizeB.hive.exec.orc.default.block.sizeC.hive.exec.orc.default.row.index.strideD.hive.exec.orc.default.buffer.size答案:A1.7在Scala中,下列代碼片段valrdd2=rdd1.map(x=>(x,1)).reduceByKey(_+_)產(chǎn)生的rdd2的分區(qū)數(shù)等于A.rdd1的分區(qū)數(shù)B.集群核數(shù)C.spark.default.parallelismD.上游最大分區(qū)數(shù)答案:A1.8使用PySpark讀取Parquet文件時(shí),默認(rèn)啟用的下推優(yōu)化是A.謂詞下推B.投影下推C.聚合下推D.排序下推答案:A1.9在YARN容量調(diào)度器中,隊(duì)列的最大AM資源比由下列參數(shù)決定A.yarn.scheduler.capacity.maximumapplicationsB.yarn.scheduler.capacity.<queuepath>.maximumamresourcepercentC.yarn.scheduler.capacity.nodelocalitydelayD.yarn.scheduler.capacity.<queuepath>.userlimitfactor答案:B1.10下列關(guān)于數(shù)據(jù)湖Iceberg的描述錯(cuò)誤的是A.支持行級(jí)刪除B.隱藏分區(qū)對(duì)用戶透明C.僅支持Spark引擎D.提供快照隔離答案:C2.多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)2.1下列屬于FlinkCheckpoint持久化到HDFS所需配置的有A.state.backendB.state.checkpoints.dirC.state.savepoints.dirD.jobmanager.execution.failoverstrategy答案:A,B,C2.2在ClickHouse中,MergeTree引擎支持的特性包括A.主鍵索引B.數(shù)據(jù)分區(qū)C.實(shí)時(shí)更新D.數(shù)據(jù)副本答案:A,B,D2.3導(dǎo)致Spark作業(yè)出現(xiàn)數(shù)據(jù)傾斜的常見Key有A.空值B.用戶IDC.時(shí)間戳D.省份編碼答案:A,B,D2.4下列屬于HDFS聯(lián)邦之后新增的核心目錄的有A./hdfsB./nameservicesC./routerD./observer答案:B,C2.5關(guān)于Kafka消息投遞語義,正確的組合有A.atmostonce+異步刷盤B.atleastonce+冪等ProducerC.exactlyonce+事務(wù)ProducerD.atleastonce+手動(dòng)提交位移答案:B,C,D3.填空題(每空2分,共20分)3.1HDFS默認(rèn)塊大小在Hadoop3.x中為________MB。答案:1283.2SparkSQL中,將DataFrame注冊(cè)為臨時(shí)視圖的函數(shù)是________。答案:createOrReplaceTempView3.3FlinkCEP庫中,模式序列以________關(guān)鍵字定義連續(xù)事件。答案:next3.4Hive中,查看表分區(qū)的命令是SHOW________。答案:PARTITIONS3.5KafkaConsumer的________參數(shù)控制一次poll的最大記錄數(shù)。答案:max.poll.records3.6ClickHouse中,用于列式存儲(chǔ)壓縮的默認(rèn)算法是________。答案:LZ43.7在YARN中,ApplicationMaster向________申請(qǐng)Container。答案:ResourceManager3.8HBase中,刪除標(biāo)記DeleteFamily對(duì)應(yīng)的類型碼是________。答案:13.9ORC文件索引中,RowGroupIndex又稱________索引。答案:輕量級(jí)3.10數(shù)據(jù)湖DeltaLake的________文件記錄事務(wù)日志。答案:_delta_log4.判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)4.1SparkStreaming的DStream可無縫轉(zhuǎn)換為DataFrame。答案:√4.2HBase中一個(gè)列族對(duì)應(yīng)一個(gè)MemStore。答案:√4.3Kafka的Partition副本數(shù)可以在線減少到1。答案:×4.4Flink的KeyBy會(huì)導(dǎo)致數(shù)據(jù)重新分區(qū)。答案:√4.5HiveonTez不支持LLAP。答案:×4.6ClickHouse的Distributed表引擎本身不存儲(chǔ)數(shù)據(jù)。答案:√4.7HDFS的ErasureCoding策略RS631024k表示6個(gè)數(shù)據(jù)塊3個(gè)校驗(yàn)塊。答案:√4.8Spark3.x的AdaptiveQueryExecution默認(rèn)關(guān)閉。答案:×4.9YARN的NodeManager負(fù)責(zé)啟動(dòng)ApplicationMaster。答案:×4.10DeltaLake的TimeTravel通過版本號(hào)或時(shí)間戳查詢歷史快照。答案:√5.簡答題(封閉型,每題8分,共24分)5.1描述MapReduce中Shuffle的溢寫流程,并指出可優(yōu)化參數(shù)。答案:(1)Map端輸出先進(jìn)入環(huán)形緩沖區(qū),默認(rèn)占比80%時(shí)觸發(fā)溢寫;(2)后臺(tái)線程按照Partitioner分區(qū)、Key排序,若配置Combiner則合并;(3)每溢寫一次產(chǎn)生一個(gè)spill文件,最終多路歸并為一個(gè)分區(qū)有序文件;(4)Reduce端通過HTTP拷貝對(duì)應(yīng)分區(qū),合并后進(jìn)入Reduce函數(shù)。優(yōu)化參數(shù):mapreduce.task.io.sort.mb(緩沖區(qū)大?。﹎apreduce.map.sort.spill.percent(溢寫閾值)pletedmaps(Reduce啟動(dòng)時(shí)機(jī))。5.2列舉Flink實(shí)現(xiàn)端到端exactlyonce的四個(gè)條件。答案:1.Source支持重放,如Kafka可重置offset;2.使用CheckpointedFunction保存算子狀態(tài);3.Sink支持兩階段提交,如KafkaProducer事務(wù);4.開啟Checkpoint并設(shè)置checkpointingMode為EXACTLY_ONCE。5.3簡述HBaseRegion分裂的觸發(fā)條件與分裂策略。答案:觸發(fā)條件:(1)StoreFile大小超過hbase.hregion.max.filesize;(2)全局Compaction后文件仍大于閾值;(3)手動(dòng)執(zhí)行split命令。策略:(1)ConstantSizeRegionSplitPolicy:固定大??;(2)IncreasingToUpperBoundRegionSplitPolicy:根據(jù)Region數(shù)動(dòng)態(tài)調(diào)整上限;(3)DisabledRegionSplitPolicy:禁止自動(dòng)分裂。6.簡答題(開放型,每題10分,共20分)6.1某電商公司日增日志500GB,需實(shí)時(shí)統(tǒng)計(jì)每分鐘各品類PV、UV,延遲<5s,請(qǐng)給出技術(shù)選型與部署架構(gòu),并說明理由。答案:技術(shù)選型:Kafka+Flink+Redis+ClickHouse。架構(gòu):(1)日志采集層:Filebeat→Kafka,Topic按品類哈希分區(qū),分區(qū)數(shù)=KafkaBroker核數(shù)×2,保證并行;(2)計(jì)算層:Flink作業(yè),EventTime+Watermark允許亂序5s,并行度與Kafka分區(qū)一致;(3)狀態(tài)存儲(chǔ):使用RocksDBStateBackend,Checkpoint到HDFS,5s間隔;(4)去重:UV采用布隆過濾器+RedisHyperLogLog,先本地去重再合并;(5)結(jié)果輸出:分鐘級(jí)結(jié)果寫ClickHouse分布式表,按品類+時(shí)間分區(qū);(6)監(jiān)控:FlinkMetrics+Prometheus+Grafana,延遲告警閾值3s。理由:Kafka高吞吐,F(xiàn)link低延遲且支持exactlyonce,ClickHouse查詢快,Redis去重內(nèi)存省。6.2討論數(shù)據(jù)湖Iceberg在CDC場景下的應(yīng)用優(yōu)勢(shì)與潛在瓶頸,并提出改進(jìn)方案。答案:優(yōu)勢(shì):(1)隱藏分區(qū)避免誤刪數(shù)據(jù);(2)快照隔離保證讀一致性;(3)支持行級(jí)更新刪除,適合CDC;(4)時(shí)間旅行可回滾。瓶頸:(1)小文件多,Metadata文件膨脹;(2)合并文件需要RewriteDataFiles,資源消耗大;(3)HiveCatalog并發(fā)寫入鎖競爭。改進(jìn):(1)開啟合并服務(wù),按目標(biāo)大小128MB定期Rewrite;(2)采用FlinkSQLIcebergSink,設(shè)置checkpoint觸發(fā)commit,減少小文件;(3)使用HadoopCatalog替代HiveCatalog,避免鎖;(4)引入Alluxio緩存Metadata,加速查詢。7.計(jì)算題(共15分)7.1某Spark作業(yè)讀取2TBSnappy壓縮的Parquet文件,文件平均大小64MB,集群共100核,目標(biāo)使每個(gè)任務(wù)處理時(shí)間約60s。已知Snappy解壓后膨脹系數(shù)2,Parquet列剪枝后實(shí)際掃描數(shù)據(jù)為30%,單核讀取速度200MB/s,估算合理分區(qū)數(shù)。(給出計(jì)算步驟)答案:實(shí)際掃描數(shù)據(jù)=2TB×2×30%=1.2TB=1228800MB單任務(wù)處理數(shù)據(jù)量≤200MB/s×60s=12000MB所需任務(wù)數(shù)≥1228800/12000≈103考慮并發(fā)核數(shù)100,取分區(qū)數(shù)=200(2倍核數(shù))驗(yàn)證:1228800/200=6144MB<12000MB,滿足最終答案:2008.綜合分析題(共26分)8.1某省政務(wù)大數(shù)據(jù)平臺(tái)匯聚公安、社保、交通三類數(shù)據(jù),總量3PB,每日新增5TB,需支持多部門即席查詢,平均QPS80,95%查詢返回時(shí)間<3s?,F(xiàn)有Hadoop3.x集群200節(jié)點(diǎn),每節(jié)點(diǎn)32核128GB內(nèi)存,12×8TBSATA盤。請(qǐng)完成以下任務(wù):(1)給出存儲(chǔ)層、計(jì)算層、調(diào)度層的技術(shù)選型與部署模式;(2)設(shè)計(jì)分層數(shù)據(jù)模型(ODS、DWD、DWS、ADS),并說明分區(qū)策略;(3)評(píng)估現(xiàn)有硬件瓶頸,提出擴(kuò)容或優(yōu)化方案;(4)列舉安全合規(guī)措施(脫敏、加密、審計(jì))。答案:(1)存儲(chǔ):HDFS+Iceberg,采用RS631024k,節(jié)省空間30%;計(jì)算:PrestoonYARN,動(dòng)態(tài)資源池,最大并發(fā)查詢60;調(diào)度:YARN容量調(diào)度,分政府、公安、社保、交通四隊(duì)列,最小資源保證30%。(2)ODS:原始增量分區(qū),dt+hour;DWD:按業(yè)務(wù)域+主鍵hash分區(qū),采用Iceberg隱藏分區(qū);DWS:按部門主題+年月分區(qū),預(yù)聚合寬表;ADS:ClickHouse物化視圖,按部門+指標(biāo)+日分區(qū)。(3)瓶頸:CPU利用率低,內(nèi)存不足導(dǎo)致Prestospill嚴(yán)重;網(wǎng)絡(luò)千兆,跨節(jié)點(diǎn)掃描延遲高。優(yōu)化:節(jié)點(diǎn)擴(kuò)容至300,內(nèi)存升級(jí)到256GB,網(wǎng)卡升級(jí)25GbE;引入Alluxio緩存熱分區(qū)20%,減少IO40%。(4)脫敏:KMS+AES256列級(jí)加密,動(dòng)態(tài)脫敏UDF身份證號(hào)、手機(jī)號(hào);審計(jì):Ranger記錄select/insert日志,保存180天;傳輸:TLS1.3雙向認(rèn)證;分級(jí):敏感數(shù)據(jù)單獨(dú)VPC,堡壘機(jī)運(yùn)維。9.編程題(共20分)9.1使用FlinkSQL實(shí)現(xiàn)實(shí)時(shí)訂單風(fēng)控,需求:輸入Kafkatopic:order_log(json字段:order_id,user_id,amount,pay_time)規(guī)則:同一用戶10分鐘內(nèi)連續(xù)下單金額之和>5000則輸出告警。要求:(1)給出DDL建表語句;(2)寫出FlinkSQL持續(xù)查詢語句;(3)說明狀態(tài)保留策略。答案:(1)CREATE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 淋巴瘤規(guī)范化管理制度
- 景區(qū)標(biāo)識(shí)標(biāo)牌制度規(guī)范
- 電梯自行檢測(cè)制度規(guī)范
- 膠片儲(chǔ)存制度規(guī)范
- 承辦排球比賽合同范本
- 小區(qū)美甲店轉(zhuǎn)讓協(xié)議書
- 小區(qū)違建拆除合同范本
- 房屋配套工程合同范本
- 汽車直播管理制度規(guī)范
- 水面游船巡護(hù)制度規(guī)范
- 營養(yǎng)風(fēng)險(xiǎn)篩查2002臨床應(yīng)用
- (2025年版)慢性腎臟病高磷血癥臨床管理中國專家共識(shí)解讀
- 2025年菏澤巨野縣高鐵北站公開招聘客運(yùn)服務(wù)人員(6人)備考筆試試題及答案解析
- (高清版)T∕CES 243-2023 《構(gòu)網(wǎng)型儲(chǔ)能系統(tǒng)并網(wǎng)技術(shù)規(guī)范》
- 天塔之光模擬控制PLC課程設(shè)計(jì)
- 金屬眼鏡架拋光等工藝【省一等獎(jiǎng)】
- 《藥品經(jīng)營質(zhì)量管理規(guī)范》的五個(gè)附錄
- ASMEBPE介紹專題知識(shí)
- 八年級(jí)上冊(cè)地理期末復(fù)習(xí)計(jì)劃通用5篇
- 初中日語人教版七年級(jí)第一冊(cè)單詞表講義
- GB/T 9065.5-2010液壓軟管接頭第5部分:37°擴(kuò)口端軟管接頭
評(píng)論
0/150
提交評(píng)論