2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案

上傳人：子*** IP屬地：四川上傳時(shí)間：2026-01-18 格式：DOCX 頁數(shù)：19 大?。?8.43KB 積分：12 舉報(bào) 版權(quán)申訴

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案_第2頁

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案_第3頁

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案_第4頁

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案_第5頁

已閱讀5頁，還剩14頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案1.單項(xiàng)選擇題（每題2分，共20分）1.1在HDFS中，NameNode的主要職責(zé)是A.存儲(chǔ)實(shí)際數(shù)據(jù)塊B.維護(hù)文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.壓縮數(shù)據(jù)答案：B1.2SparkCore中RDD的默認(rèn)分區(qū)器是A.HashPartitionerB.RangePartitionerC.GridPartitionerD.ManualPartitioner答案：A1.3下列哪一項(xiàng)不是Kafka的組件A.BrokerB.TopicC.SegmentD.RegionServer答案：D1.4在Flink的時(shí)間語義中，EventTime的生成位置是A.SourceOperatorB.WindowOperatorC.數(shù)據(jù)產(chǎn)生時(shí)刻D.JobManager答案：C1.5HBase中用于快速定位Region的索引結(jié)構(gòu)是A.B+樹B.LSM樹C.跳表D.哈希表答案：B1.6若Hive表使用ORC格式，下列參數(shù)可控制行組大小的是A.hive.exec.orc.default.stripe.sizeB.hive.exec.orc.default.block.sizeC.hive.exec.orc.default.row.index.strideD.hive.exec.orc.default.buffer.size答案：A1.7在Scala中，下列代碼片段valrdd2=rdd1.map(x=>(x,1)).reduceByKey(_+_)產(chǎn)生的rdd2的分區(qū)數(shù)等于A.rdd1的分區(qū)數(shù)B.集群核數(shù)C.spark.default.parallelismD.上游最大分區(qū)數(shù)答案：A1.8使用PySpark讀取Parquet文件時(shí)，默認(rèn)啟用的下推優(yōu)化是A.謂詞下推B.投影下推C.聚合下推D.排序下推答案：A1.9在YARN容量調(diào)度器中，隊(duì)列的最大AM資源比由下列參數(shù)決定A.yarn.scheduler.capacity.maximumapplicationsB.yarn.scheduler.capacity.<queuepath>.maximumamresourcepercentC.yarn.scheduler.capacity.nodelocalitydelayD.yarn.scheduler.capacity.<queuepath>.userlimitfactor答案：B1.10下列關(guān)于數(shù)據(jù)湖Iceberg的描述錯(cuò)誤的是A.支持行級(jí)刪除B.隱藏分區(qū)對(duì)用戶透明C.僅支持Spark引擎D.提供快照隔離答案：C2.多項(xiàng)選擇題（每題3分，共15分，多選少選均不得分）2.1下列屬于FlinkCheckpoint持久化到HDFS所需配置的有A.state.backendB.state.checkpoints.dirC.state.savepoints.dirD.jobmanager.execution.failoverstrategy答案：A,B,C2.2在ClickHouse中，MergeTree引擎支持的特性包括A.主鍵索引B.數(shù)據(jù)分區(qū)C.實(shí)時(shí)更新D.數(shù)據(jù)副本答案：A,B,D2.3導(dǎo)致Spark作業(yè)出現(xiàn)數(shù)據(jù)傾斜的常見Key有A.空值B.用戶IDC.時(shí)間戳D.省份編碼答案：A,B,D2.4下列屬于HDFS聯(lián)邦之后新增的核心目錄的有A./hdfsB./nameservicesC./routerD./observer答案：B,C2.5關(guān)于Kafka消息投遞語義，正確的組合有A.atmostonce+異步刷盤B.atleastonce+冪等ProducerC.exactlyonce+事務(wù)ProducerD.atleastonce+手動(dòng)提交位移答案：B,C,D3.填空題（每空2分，共20分）3.1HDFS默認(rèn)塊大小在Hadoop3.x中為________MB。答案：1283.2SparkSQL中，將DataFrame注冊(cè)為臨時(shí)視圖的函數(shù)是________。答案：createOrReplaceTempView3.3FlinkCEP庫中，模式序列以________關(guān)鍵字定義連續(xù)事件。答案：next3.4Hive中，查看表分區(qū)的命令是SHOW________。答案：PARTITIONS3.5KafkaConsumer的________參數(shù)控制一次poll的最大記錄數(shù)。答案：max.poll.records3.6ClickHouse中，用于列式存儲(chǔ)壓縮的默認(rèn)算法是________。答案：LZ43.7在YARN中，ApplicationMaster向________申請(qǐng)Container。答案：ResourceManager3.8HBase中，刪除標(biāo)記DeleteFamily對(duì)應(yīng)的類型碼是________。答案：13.9ORC文件索引中，RowGroupIndex又稱________索引。答案：輕量級(jí)3.10數(shù)據(jù)湖DeltaLake的________文件記錄事務(wù)日志。答案：_delta_log4.判斷題（每題1分，共10分，正確打“√”，錯(cuò)誤打“×”）4.1SparkStreaming的DStream可無縫轉(zhuǎn)換為DataFrame。答案：√4.2HBase中一個(gè)列族對(duì)應(yīng)一個(gè)MemStore。答案：√4.3Kafka的Partition副本數(shù)可以在線減少到1。答案：×4.4Flink的KeyBy會(huì)導(dǎo)致數(shù)據(jù)重新分區(qū)。答案：√4.5HiveonTez不支持LLAP。答案：×4.6ClickHouse的Distributed表引擎本身不存儲(chǔ)數(shù)據(jù)。答案：√4.7HDFS的ErasureCoding策略RS631024k表示6個(gè)數(shù)據(jù)塊3個(gè)校驗(yàn)塊。答案：√4.8Spark3.x的AdaptiveQueryExecution默認(rèn)關(guān)閉。答案：×4.9YARN的NodeManager負(fù)責(zé)啟動(dòng)ApplicationMaster。答案：×4.10DeltaLake的TimeTravel通過版本號(hào)或時(shí)間戳查詢歷史快照。答案：√5.簡答題（封閉型，每題8分，共24分）5.1描述MapReduce中Shuffle的溢寫流程，并指出可優(yōu)化參數(shù)。答案：（1）Map端輸出先進(jìn)入環(huán)形緩沖區(qū)，默認(rèn)占比80%時(shí)觸發(fā)溢寫；（2）后臺(tái)線程按照Partitioner分區(qū)、Key排序，若配置Combiner則合并；（3）每溢寫一次產(chǎn)生一個(gè)spill文件，最終多路歸并為一個(gè)分區(qū)有序文件；（4）Reduce端通過HTTP拷貝對(duì)應(yīng)分區(qū)，合并后進(jìn)入Reduce函數(shù)。優(yōu)化參數(shù)：mapreduce.task.io.sort.mb（緩沖區(qū)大?。﹎apreduce.map.sort.spill.percent（溢寫閾值）pletedmaps（Reduce啟動(dòng)時(shí)機(jī)）。5.2列舉Flink實(shí)現(xiàn)端到端exactlyonce的四個(gè)條件。答案：1.Source支持重放，如Kafka可重置offset；2.使用CheckpointedFunction保存算子狀態(tài)；3.Sink支持兩階段提交，如KafkaProducer事務(wù)；4.開啟Checkpoint并設(shè)置checkpointingMode為EXACTLY_ONCE。5.3簡述HBaseRegion分裂的觸發(fā)條件與分裂策略。答案：觸發(fā)條件：（1）StoreFile大小超過hbase.hregion.max.filesize；（2）全局Compaction后文件仍大于閾值；（3）手動(dòng)執(zhí)行split命令。策略：（1）ConstantSizeRegionSplitPolicy：固定大??；（2）IncreasingToUpperBoundRegionSplitPolicy：根據(jù)Region數(shù)動(dòng)態(tài)調(diào)整上限；（3）DisabledRegionSplitPolicy：禁止自動(dòng)分裂。6.簡答題（開放型，每題10分，共20分）6.1某電商公司日增日志500GB，需實(shí)時(shí)統(tǒng)計(jì)每分鐘各品類PV、UV，延遲<5s，請(qǐng)給出技術(shù)選型與部署架構(gòu)，并說明理由。答案：技術(shù)選型：Kafka+Flink+Redis+ClickHouse。架構(gòu)：（1）日志采集層：Filebeat→Kafka，Topic按品類哈希分區(qū)，分區(qū)數(shù)=KafkaBroker核數(shù)×2，保證并行；（2）計(jì)算層：Flink作業(yè)，EventTime+Watermark允許亂序5s，并行度與Kafka分區(qū)一致；（3）狀態(tài)存儲(chǔ)：使用RocksDBStateBackend，Checkpoint到HDFS，5s間隔；（4）去重：UV采用布隆過濾器+RedisHyperLogLog，先本地去重再合并；（5）結(jié)果輸出：分鐘級(jí)結(jié)果寫ClickHouse分布式表，按品類+時(shí)間分區(qū)；（6）監(jiān)控：FlinkMetrics+Prometheus+Grafana，延遲告警閾值3s。理由：Kafka高吞吐，F(xiàn)link低延遲且支持exactlyonce，ClickHouse查詢快，Redis去重內(nèi)存省。6.2討論數(shù)據(jù)湖Iceberg在CDC場景下的應(yīng)用優(yōu)勢(shì)與潛在瓶頸，并提出改進(jìn)方案。答案：優(yōu)勢(shì)：（1）隱藏分區(qū)避免誤刪數(shù)據(jù)；（2）快照隔離保證讀一致性；（3）支持行級(jí)更新刪除，適合CDC；（4）時(shí)間旅行可回滾。瓶頸：（1）小文件多，Metadata文件膨脹；（2）合并文件需要RewriteDataFiles，資源消耗大；（3）HiveCatalog并發(fā)寫入鎖競爭。改進(jìn)：（1）開啟合并服務(wù)，按目標(biāo)大小128MB定期Rewrite；（2）采用FlinkSQLIcebergSink，設(shè)置checkpoint觸發(fā)commit，減少小文件；（3）使用HadoopCatalog替代HiveCatalog，避免鎖；（4）引入Alluxio緩存Metadata，加速查詢。7.計(jì)算題（共15分）7.1某Spark作業(yè)讀取2TBSnappy壓縮的Parquet文件，文件平均大小64MB，集群共100核，目標(biāo)使每個(gè)任務(wù)處理時(shí)間約60s。已知Snappy解壓后膨脹系數(shù)2，Parquet列剪枝后實(shí)際掃描數(shù)據(jù)為30%，單核讀取速度200MB/s，估算合理分區(qū)數(shù)。（給出計(jì)算步驟）答案：實(shí)際掃描數(shù)據(jù)=2TB×2×30%=1.2TB=1228800MB單任務(wù)處理數(shù)據(jù)量≤200MB/s×60s=12000MB所需任務(wù)數(shù)≥1228800/12000≈103考慮并發(fā)核數(shù)100，取分區(qū)數(shù)=200（2倍核數(shù)）驗(yàn)證：1228800/200=6144MB<12000MB，滿足最終答案：2008.綜合分析題（共26分）8.1某省政務(wù)大數(shù)據(jù)平臺(tái)匯聚公安、社保、交通三類數(shù)據(jù)，總量3PB，每日新增5TB，需支持多部門即席查詢，平均QPS80，95%查詢返回時(shí)間<3s?，F(xiàn)有Hadoop3.x集群200節(jié)點(diǎn)，每節(jié)點(diǎn)32核128GB內(nèi)存，12×8TBSATA盤。請(qǐng)完成以下任務(wù)：（1）給出存儲(chǔ)層、計(jì)算層、調(diào)度層的技術(shù)選型與部署模式；（2）設(shè)計(jì)分層數(shù)據(jù)模型（ODS、DWD、DWS、ADS），并說明分區(qū)策略；（3）評(píng)估現(xiàn)有硬件瓶頸，提出擴(kuò)容或優(yōu)化方案；（4）列舉安全合規(guī)措施（脫敏、加密、審計(jì)）。答案：（1）存儲(chǔ)：HDFS+Iceberg，采用RS631024k，節(jié)省空間30%；計(jì)算：PrestoonYARN，動(dòng)態(tài)資源池，最大并發(fā)查詢60；調(diào)度：YARN容量調(diào)度，分政府、公安、社保、交通四隊(duì)列，最小資源保證30%。（2）ODS：原始增量分區(qū)，dt+hour；DWD：按業(yè)務(wù)域+主鍵hash分區(qū)，采用Iceberg隱藏分區(qū)；DWS：按部門主題+年月分區(qū)，預(yù)聚合寬表；ADS：ClickHouse物化視圖，按部門+指標(biāo)+日分區(qū)。（3）瓶頸：CPU利用率低，內(nèi)存不足導(dǎo)致Prestospill嚴(yán)重；網(wǎng)絡(luò)千兆，跨節(jié)點(diǎn)掃描延遲高。優(yōu)化：節(jié)點(diǎn)擴(kuò)容至300，內(nèi)存升級(jí)到256GB，網(wǎng)卡升級(jí)25GbE；引入Alluxio緩存熱分區(qū)20%，減少IO40%。（4）脫敏：KMS+AES256列級(jí)加密，動(dòng)態(tài)脫敏UDF身份證號(hào)、手機(jī)號(hào)；審計(jì)：Ranger記錄select/insert日志，保存180天；傳輸：TLS1.3雙向認(rèn)證；分級(jí)：敏感數(shù)據(jù)單獨(dú)VPC，堡壘機(jī)運(yùn)維。9.編程題（共20分）9.1使用FlinkSQL實(shí)現(xiàn)實(shí)時(shí)訂單風(fēng)控，需求：輸入Kafkatopic:order_log(json字段:order_id,user_id,amount,pay_time)規(guī)則：同一用戶10分鐘內(nèi)連續(xù)下單金額之和>5000則輸出告警。要求：（1）給出DDL建表語句；（2）寫出FlinkSQL持續(xù)查詢語句；（3）說明狀態(tài)保留策略。答案：（1）CREATE

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案

文檔簡介

溫馨提示

最新文檔

評(píng)論

2025年大數(shù)據(jù)技術(shù)專業(yè)技能考試試卷及答案

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔