版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)工程師職業(yè)資格考試試卷及答案一、單項選擇題(每題1分,共20分。每題只有一個正確答案,請將正確選項字母填在括號內(nèi))1.在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是()A.HDFS?B.YARN?C.MapReduce?D.Hive答案:B2.下列關(guān)于KafkaPartition的描述,錯誤的是()A.每個Partition內(nèi)部消息有序?B.Partition數(shù)量一旦創(chuàng)建不可修改C.消費者組內(nèi)每個消費者只能讀取一個Partition?D.Partition副本之間采用LeaderFollower機制答案:B3.SparkRDD的寬窄依賴劃分中,下列操作屬于寬依賴的是()A.map?B.filter?C.union?D.groupByKey答案:D4.在Flink的時間語義中,EventTime的亂序處理主要依賴()A.ProcessingTime?B.Watermark?C.Window?D.Trigger答案:B5.使用Hive進行分區(qū)表查詢時,為提高分區(qū)裁剪效率,應(yīng)優(yōu)先使用的關(guān)鍵字是()A.CLUSTERBY?B.DISTRIBUTEBY?C.PARTITIONEDBY?D.SORTBY答案:C6.在HBase中,用于實現(xiàn)行級事務(wù)的原子性的機制是()A.WAL?B.MemStore?C.HFile?D.LSMTree答案:A7.下列關(guān)于數(shù)據(jù)湖與數(shù)據(jù)倉庫的對比,正確的是()A.數(shù)據(jù)湖只支持結(jié)構(gòu)化數(shù)據(jù)?B.數(shù)據(jù)倉庫SchemaonWriteC.數(shù)據(jù)湖不支持ACID事務(wù)?D.數(shù)據(jù)倉庫優(yōu)先采用對象存儲答案:B8.在SparkSQL中,將DataFrame注冊為臨時視圖的API是()A.cache()?B.persist()?C.createOrReplaceTempView()?D.registerTable()答案:C9.使用Scala編寫Spark程序時,下列哪個操作會立即觸發(fā)作業(yè)提交()A.flatMap?B.reduceByKey?C.take?D.mapPartitions答案:C10.在Elasticsearch中,用于實現(xiàn)近似聚合的數(shù)據(jù)結(jié)構(gòu)是()A.InvertedIndex?B.BKDTree?C.HyperLogLog?D.ColumnarStore答案:C11.關(guān)于數(shù)據(jù)傾斜的解決策略,下列做法無效的是()A.兩階段聚合?B.隨機前綴擴容?C.增加Reducer數(shù)量?D.提高副本因子答案:D12.在Airflow中,用于定義任務(wù)之間依賴關(guān)系的核心對象是()A.Sensor?B.DAG?C.Operator?D.Hook答案:B13.下列關(guān)于Parquet文件格式的描述,正確的是()A.行式存儲?B.不支持嵌套數(shù)據(jù)?C.支持謂詞下推?D.壓縮比低于CSV答案:C14.在SparkStreaming中,實現(xiàn)ExactlyOnce語義的關(guān)鍵條件是()A.啟用checkpoint?B.使用mapWithState?C.冪等寫出?D.關(guān)閉推測執(zhí)行答案:C15.使用HDFS命令上傳本地文件到指定目錄,正確的是()A.hdfsdfsputlocalPathhdfsPath?B.hdfsdfscopylocalPathhdfsPathC.hdfsdfsmvlocalPathhdfsPath?D.hdfsdfscplocalPathhdfsPath答案:A16.在Presto中,跨數(shù)據(jù)源Join的實現(xiàn)依賴于()A.HiveMetastore?B.ConnectorAPI?C.CostBasedOptimizer?D.WorkerWorker直連答案:B17.下列關(guān)于數(shù)據(jù)血緣的描述,錯誤的是()A.可用于影響分析?B.只能捕獲表級血緣?C.支持字段級追溯?D.輔助數(shù)據(jù)治理答案:B18.在FlinkCEP庫中,定義連續(xù)事件模式的核心類是()A.Pattern?B.StreamGraph?C.CoFlatMap?D.AsyncFunction答案:A19.使用Scala調(diào)用SparkMLlib訓(xùn)練GBDT模型時,需要設(shè)置的參數(shù)是()A.maxDepth?B.numTrees?C.stepSize?D.k答案:A20.在數(shù)據(jù)質(zhì)量監(jiān)控中,用于衡量字段空值比例的指標(biāo)是()A.Completeness?B.Consistency?C.Timeliness?D.Validity答案:A二、多項選擇題(每題2分,共20分。每題有兩個或兩個以上正確答案,請將所有正確選項字母填在括號內(nèi),漏選、錯選均不得分)21.下列屬于NoSQL數(shù)據(jù)庫CAP權(quán)衡中偏向AP的系統(tǒng)有()A.MongoDB?B.HBase?C.Cassandra?D.DynamoDB答案:ACD22.在Spark作業(yè)調(diào)優(yōu)中,可能導(dǎo)致OOM的原因包括()A.使用collect()?B.廣播變量過大?C.Shuffle分區(qū)數(shù)過少?D.啟用動態(tài)資源分配答案:ABC23.關(guān)于HiveLLAP(LowLatencyAnalyticalProcessing)的特性,正確的有()A.常駐守護進程?B.使用列式緩存?C.支持事務(wù)?D.完全替代Tez答案:ABC24.在Kafka中,保證消息不丟的配置包括()A.acks=all?B.retries>0?C.enable.idempotence=true?D.max.in.flight.requests.per.connection=5答案:ABC25.下列屬于FlinkCheckpoint組成部分的有()A.JVMHeap?B.StreamState?C.SourcePosition?D.OperatorState答案:BCD26.使用HBaseRowKey設(shè)計時,應(yīng)遵循的原則有()A.散列性?B.短長度?C.有序性?D.可逆性答案:ABC27.在數(shù)據(jù)治理體系中,屬于數(shù)據(jù)標(biāo)準(zhǔn)管理內(nèi)容的有()A.字段命名規(guī)范?B.碼值映射表?C.主數(shù)據(jù)定義?D.數(shù)據(jù)質(zhì)量規(guī)則答案:ABCD28.下列關(guān)于DeltaLake的描述,正確的有()A.支持ACID?B.提供TimeTravel?C.基于HDFS存儲?D.完全兼容Hive語法答案:ABC29.在PrestoSQL中,支持動態(tài)過濾的場景有()A.InnerJoin?B.BroadcastJoin?C.PartitionedJoin?D.SemiJoin答案:ABC30.使用Elasticsearch進行聚合分析時,可用于嵌套聚合的類型有()A.Terms?B.Histogram?C.TopHits?D.Pipeline答案:ABCD三、填空題(每空1分,共20分。請在橫線上填寫正確答案)31.HDFS默認(rèn)塊大小為128MB,在hadoop3.x中可支持的最大塊大小為____GB。答案:132.SparkSQL默認(rèn)的Shuffle分區(qū)數(shù)為____。答案:20033.Kafka0.10之后,消費者偏移量默認(rèn)存儲在Kafka內(nèi)部的____Topic。答案:__consumer_offsets34.Flink的Checkpoint超時時間由參數(shù)____控制。答案:checkpoint.timeout35.Hive中,用于查看表分區(qū)信息的命令是SHOW____。答案:PARTITIONS36.HBase中,用于批量導(dǎo)入數(shù)據(jù)并繞過WAL的工具是____。答案:BulkLoad37.在數(shù)據(jù)倉庫分層模型中,DWD層的中文含義是____。答案:明細數(shù)據(jù)層38.Parquet文件使用____編碼對重復(fù)值進行壓縮。答案:RLE/Dictionary(任一即可)39.Elasticsearch默認(rèn)的最大返回條數(shù)由參數(shù)index.max_result_window控制,默認(rèn)值為____。答案:1000040.Airflow中,任務(wù)實例狀態(tài)為upstream_failed表示____。答案:上游任務(wù)失敗41.Spark的RPC框架基于____網(wǎng)絡(luò)庫實現(xiàn)。答案:Netty42.在Scala中,惰性求值的集合類型是____。答案:Stream43.Hadoop3.x引入的聯(lián)邦特性叫做HDFS____。答案:Federation44.Flink的窗口起始偏移由____參數(shù)決定。答案:offset45.Presto的Coordinator與Worker之間采用____協(xié)議通信。答案:HTTP46.數(shù)據(jù)質(zhì)量維度中,衡量同一數(shù)據(jù)在多系統(tǒng)中含義一致的指標(biāo)是____。答案:一致性47.GBDT算法中,用于防止過擬合的參數(shù)是____。答案:learning_rate/subsample/max_depth(任一即可)48.在Kafka中,Producer發(fā)送消息時,若指定了Key,則分區(qū)選擇器默認(rèn)使用____算法。答案:Hash49.DeltaLake的Compaction操作在Spark中調(diào)用____方法。答案:optimize50.使用HDFS命令查看目錄大小時,需要添加的參數(shù)是____。答案:du四、簡答題(共6題,每題10分,共60分)51.(封閉型)簡述MapReduce中Shuffle階段的具體流程,并指出其性能瓶頸。答案:Shuffle階段包括Map端溢寫、分區(qū)、排序、合并、Reduce端拷貝、歸并排序。瓶頸:1.磁盤IO頻繁:Map端多次溢寫、Reduce端歸并。2.網(wǎng)絡(luò)IO:大量中間數(shù)據(jù)跨節(jié)點傳輸。3.內(nèi)存壓力:Map端緩沖區(qū)固定比例,易觸發(fā)溢寫。4.排序開銷:默認(rèn)按鍵排序,CPU密集。優(yōu)化手段:Combiner、壓縮、調(diào)整io.sort.factor、增大Map緩沖區(qū)、使用ShuffleService。52.(開放型)某電商公司日增日志6TB,需實時統(tǒng)計分省份訂單金額Top10。請給出技術(shù)選型、架構(gòu)圖文字描述及ExactlyOnce實現(xiàn)要點。答案:技術(shù)選型:Kafka+Flink+Redis+MySQL。架構(gòu):1.日志采集:Filebeat→KafkaTopic(order_log)48Partition。2.流計算:Flink1.17,EventTime+Watermark允許亂序5min,滑動窗口10min/5min,KeyBy省份,預(yù)聚合金額。3.狀態(tài)后端:RocksDB+IncrementalCheckpoint到HDFS,間隔1min,超時5min。4.輸出:異步壓縮寫RedisSortedSet,設(shè)置TTL20min;同時寫MySQL供離線校驗。ExactlyOnce:1.Source:KafkaConsumer設(shè)置隔離級別read_committed,Checkpoint保存Offset。2.Sink:Redis使用冪等更新(ZADD覆蓋),MySQL采用可重復(fù)寫入的INSERT…ONDUPLICATEKEYUPDATE。3.兩階段提交:Flink1.17內(nèi)置TwoPhaseCommitSinkFunction,預(yù)提交階段flush,Checkpoint成功后再commit。4.監(jiān)控:FlinkMetrics+Prometheus,報警Checkpoint失敗次數(shù)>2。53.(封閉型)給出HBaseRowKey熱點問題的產(chǎn)生原因及三種以上解決方案。答案:原因:RowKey連續(xù)遞增(如時間戳、自增ID),導(dǎo)致寫請求集中在一臺RegionServer。方案:1.加鹽:在RowKey前加隨機哈希前綴,寫時分散,讀時需并行Scan所有前綴再合并。2.反轉(zhuǎn):將時間戳反轉(zhuǎn),將高位變低位,打散順序。3.預(yù)分區(qū):根據(jù)業(yè)務(wù)鍵值范圍預(yù)先切分Region,避免自動Split。4.哈希:對關(guān)鍵字段取哈希后作為RowKey前綴,保證均勻分布。5.字段交換:將用戶ID與事件時間位置互換,利用用戶天然離散性。54.(開放型)描述一次SparkSQL執(zhí)行大表Join小表出現(xiàn)數(shù)據(jù)傾斜的完整定位與調(diào)優(yōu)過程。答案:定位:1.查看Stage詳情,發(fā)現(xiàn)某Reducer處理數(shù)據(jù)量遠大于其他節(jié)點(SparkUI→Stage→ShuffleReadSize)。2.查看傾斜Key:在SQL末尾添加DISTRIBUTEBYrand()臨時解決,確認(rèn)總時長下降,說明傾斜。3.采樣:對兩表按JoinKey分組,統(tǒng)計行數(shù),找出Top10熱點Key。調(diào)優(yōu):1.廣播Join:小表<30MB,使用broadcasthint,規(guī)避Shuffle。2.拆分熱點:將熱點Key單獨提取成臨時表,走MapSideJoin,剩余Key走普通Join,結(jié)果Union。3.兩階段聚合:先對熱點Key加隨機前綴擴容,Join后再去掉前綴聚合。4.調(diào)整Shuffle分區(qū):將spark.sql.shuffle.partitions從200提升到1000,降低單分區(qū)數(shù)據(jù)量。5.增加傾斜Key副本:在邏輯計劃層面對熱點Key復(fù)制多份,分散到不同Reducer,最后在外層再聚合。驗證:Stage耗時從8min降至1.2min,單節(jié)點峰值從2.3GB降至180MB,任務(wù)成功。55.(封閉型)列舉Flink的三種時間語義,并給出各自適用場景。答案:1.ProcessingTime:機器系統(tǒng)時間,適用于延遲極低、可接受近似結(jié)果的場景,如實時監(jiān)控大屏。2.EventTime:事件自帶時間戳,適用于亂序日志、訂單等需準(zhǔn)確統(tǒng)計的場景。3.IngestionTime:進入FlinkSource的時間,介于兩者之間,適用于無法獲取EventTime但又想容忍一定亂序的場景。56.(開放型)說明數(shù)據(jù)倉庫分層模型(ODS→DWD→DWS→ADS)中各層職責(zé),并給出電商場景下“用戶支付成功”主題從ODS到ADS的字段變化示例。答案:ODS:原始快照,字段與業(yè)務(wù)庫完全一致,如order_id,user_id,status,pay_time,amount,db_time。DWD:明細清洗,過濾status<>‘支付成功’,統(tǒng)一時區(qū),字段:order_id,user_id,pay_time,amount,dt。DWS:匯總層,按用戶+日期聚合,字段:user_id,dt,pay_succ_cnt,pay_succ_amt。ADS:應(yīng)用層,面向報表,字段:user_id,user_name,total_pay_amt_30d,rank_30d,dt。變化:字段從22個→8個→5個→4個,粒度從訂單→用戶+日→用戶+30天,數(shù)據(jù)量從億級→千萬→百萬→十萬。五、應(yīng)用題(共4題,每題20分,共80分)57.(計算類)某互聯(lián)網(wǎng)公司使用Spark處理點擊日志,日志字段:user_id,item_id,ts,city。數(shù)據(jù)量500GB,存儲于HDFS(Snappy壓縮)。需求:計算每個城市每日UV、PV、點擊率(PV/UV)。請寫出完整SparkScala代碼,要求:1.使用EventTime,窗口為1天,允許亂序30min;2.輸出為Parquet,按天分區(qū);3.資源參數(shù):Executor4core16GB,目標(biāo)并行度800。答案:importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions._valspark=SparkSession.builder().appName("CityDailyMetrics").config("spark.sql.shuffle.partitions","800").config("spark.executor.cores","4").config("spark.executor.memory","16g").getOrCreate()importspark.implicits._vallogs=spark.read.parquet("/data/click_log/").withColumn("ts_long",col("ts").cast("timestamp")).withWatermark("ts_long","30minutes")valdaily=logs.groupBy(window(col("ts_long"),"1day"),col("city")).agg(count("").alias("pv"),countDistinct("user_id").alias("uv")).select(col("city"),col("window.start").cast("date").alias("dt"),col("pv"),col("uv"),(col("pv")/col("uv")).alias("ctr"))daily.write.partitionBy("dt").mode("overwrite").parquet("/output/city_daily/")58.(分析類)給出一次Kafka集群磁盤被打滿導(dǎo)致Broker頻繁掉線的根因分析、應(yīng)急處理及長期優(yōu)化方案。答案:根因:1.日志段保留策略segment.bytes=1GB,保留時間168h,未壓縮,日增量4TB,磁盤僅12TB。2.消費組lag持續(xù)高位,導(dǎo)致日志段無法刪除。3.副本因子3,同機架副本比例高,單盤故障觸發(fā)rebalance,IO打滿。應(yīng)急:1.立即擴容Broker,新增6節(jié)點,手動遷移部分Partition。2.臨時調(diào)短retention.ms=6h,手動清理過期的日志段。3.關(guān)閉不必要的生產(chǎn)者,限制峰值入流量50%。長期:1.開啟日志壓縮compression.type=lz4,預(yù)計節(jié)省40%空間。2.按業(yè)務(wù)分級設(shè)置TTL,核心Topic72h,日志Topic24h。3.監(jiān)控:Prometheus+Grafana,磁盤使用率>75%報警,Lag>1億報警。4.分區(qū)治理:大Topic按Hash拆分為多個Topic,單分區(qū)<500GB。5.跨機房副本,降低單點機架風(fēng)險。59.(綜合類)某金融公司需構(gòu)建實時風(fēng)控系統(tǒng),規(guī)則包括:1.同一賬戶1分鐘內(nèi)交易次數(shù)>5次;2.同一IP5分鐘內(nèi)關(guān)聯(lián)賬戶數(shù)>10;3.異地登錄30分鐘內(nèi)交易額>1萬元。給出基于Flink的完整技術(shù)方案,包括數(shù)據(jù)源、CEP模式、狀態(tài)存儲、輸出、灰度發(fā)布。答案:數(shù)據(jù)源:1.交易流:KafkaTopictrade,字段:account,ip,location,amount,ts。2.登錄流:KafkaTopiclogin,字段:account,ip,location,ts。CEP模式:1.規(guī)則1:Pattern.<Trade>begin("start").where(t>true).times(5).within(Time.minutes(1)).consecutive()2.規(guī)則2:將IP作為Key,使用KeyedProcessFunction,維護MapState<account,1>,定時5min觸發(fā),統(tǒng)計size>10報警。3.規(guī)則3:連接登錄流與交易流,使用IntervalJoin,登錄后30min內(nèi)交易額累加,超過1萬報警。狀態(tài)存儲:1.RocksDBStateBackend,增量Checkpoint到HDFS,5s間隔,保留24h。2.使用QueryableState,供風(fēng)控服務(wù)實時查詢。輸出:1.告警流:KafkaTopicrisk_alert,字段:rule_id,account,ip,score,ts。2.離線復(fù)核:寫入ClickHouse,按分鐘分區(qū)?;叶劝l(fā)布:1.使用Flink的Savepoint機制,上線前停止作業(yè),觸發(fā)Savepoint,修改規(guī)則后從Savepoint恢復(fù)。2.雙跑:新規(guī)則輸出到Topicrisk_alert_v2,對比舊系統(tǒng)結(jié)果,差異<0.1%后全量切換。3.回滾:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財務(wù)內(nèi)部監(jiān)督及費用審核制度
- 落實廉政談心談話制度
- 用友軟件介紹
- 學(xué)校警務(wù)室建設(shè)方案
- 2026福建廈門工學(xué)院誠聘軍隊院校退役高層次人才參考考試試題附答案解析
- 2026吉林大學(xué)第二醫(yī)院勞務(wù)派遣制病案管理崗位人員12人參考考試題庫附答案解析
- 2026年上半年黑龍江省農(nóng)業(yè)科學(xué)院事業(yè)單位公開招聘工作人員50人參考考試試題附答案解析
- 六年級語文下冊aer閱讀素養(yǎng)專訓(xùn) 四
- 2026湖南湖南農(nóng)業(yè)發(fā)展投資集團有限責(zé)任公司招聘3人參考考試題庫附答案解析
- 2026廣東浩傳管理服務(wù)有限公司招聘10人參考考試題庫附答案解析
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會成熟人才招聘備考題庫及完整答案詳解
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會成熟人才招聘備考題庫含答案詳解
- 國際話語體系構(gòu)建與策略分析課題申報書
- 南京醫(yī)科大學(xué)2026年招聘人事代理人員備考題庫及1套參考答案詳解
- 2026年教育平臺資源輸出協(xié)議
- 【《四旋翼飛行器坐標(biāo)系及相互轉(zhuǎn)換關(guān)系分析綜述》1000字】
- 2026浙江金華市婺城區(qū)城市發(fā)展控股集團有限公司招聘59人筆試參考題庫及答案解析
- 靜脈補液課件
- 廣東深圳市鹽田高級中學(xué)2024~2025學(xué)年高一上冊1月期末考試化學(xué)試題 附答案
- 2024屆新高考物理沖刺復(fù)習(xí):“正則動量”解決帶電粒子在磁場中的運動問題
- 中學(xué)體育與健康課程與教學(xué)論PPT高職完整全套教學(xué)課件
評論
0/150
提交評論