2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案_第1頁(yè)
2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案_第2頁(yè)
2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案_第3頁(yè)
2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案_第4頁(yè)
2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大數(shù)據(jù)工程師認(rèn)證考試試題及答案一、單項(xiàng)選擇題(每題1分,共20分。每題只有一個(gè)正確答案,請(qǐng)將正確選項(xiàng)字母填入括號(hào)內(nèi))1.在HDFS中,NameNode的主要職責(zé)是()A.存儲(chǔ)實(shí)際數(shù)據(jù)塊B.管理文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.執(zhí)行Reduce任務(wù)答案:B2.SparkCore的彈性分布式數(shù)據(jù)集(RDD)不具備以下哪項(xiàng)特性()A.可分區(qū)B.可序列化C.可變性D.容錯(cuò)性答案:C3.在Kafka2.8版本之后,移除ZooKeeper依賴(lài)的新特性稱(chēng)為()A.KRaftB.MirrorMakerC.SchemaRegistryD.KafkaStreams答案:A4.Flink的Checkpoint機(jī)制默認(rèn)使用的分布式存儲(chǔ)實(shí)現(xiàn)是()A.AmazonS3B.HDFSC.NFSD.Alluxio答案:B5.若Hive表test按dt字段分區(qū),執(zhí)行SQL“SELECTCOUNT()FROMtestWHEREdt='20250501'”時(shí),優(yōu)化器會(huì)進(jìn)行()A.謂詞下推B.列裁剪C.分區(qū)裁剪D.桶裁剪答案:C6.在HBase中,用于保證行級(jí)原子性的機(jī)制是()A.WALB.RegionC.RowLockD.MemStore答案:C7.下列關(guān)于Parquet文件格式的描述,錯(cuò)誤的是()A.列式存儲(chǔ)B.支持嵌套數(shù)據(jù)模型C.不支持壓縮D.與Arrow兼容答案:C8.在YARN容量調(diào)度器中,隊(duì)列的最大容量參數(shù)是()A.maximumcapacityB.maxparallelappsC.userlimitfactorD.minimumuserlimitpercent答案:A9.使用ScalaAPI讀取Kafka0.10+時(shí),設(shè)置消費(fèi)起始位置到最早記錄的參數(shù)是()A.earliestB.latestC.noneD.consumer.offset答案:A10.在數(shù)據(jù)湖架構(gòu)中,提供ACID語(yǔ)義表存儲(chǔ)的組件是()A.DeltaLakeB.SqoopC.FlumeD.Oozie答案:A11.若某Spark作業(yè)提交參數(shù)為executormemory4gexecutorcores2,則每個(gè)executor最多可同時(shí)運(yùn)行的task數(shù)為()A.1B.2C.4D.8答案:B12.在MySQLbinlog格式為ROW時(shí),Canal解析后寫(xiě)入Kafka的消息默認(rèn)序列化方式是()A.JSONB.AvroC.ProtobufD.Thrift答案:A13.下列算法中,不適合在MapReduce上實(shí)現(xiàn)的是()A.矩陣乘法B.圖遍歷C.實(shí)時(shí)欺詐檢測(cè)D.TFIDF答案:C14.在Airflow中,用于等待上游分區(qū)就緒的Sensor類(lèi)是()A.S3KeySensorB.HttpSensorC.TimeDeltaSensorD.BashSensor答案:A15.若某Flink作業(yè)并行度為8,設(shè)置checkpoint間隔為30s,外部檢查點(diǎn)保留策略為RETAIN_ON_CANCELLATION,則當(dāng)作業(yè)取消時(shí)外部檢查點(diǎn)將()A.立即刪除B.保留至手動(dòng)刪除C.保留7天D.轉(zhuǎn)為savepoint答案:B16.在Elasticsearch8.x中,默認(rèn)的高可用分片副本數(shù)為()A.0B.1C.2D.3答案:B17.使用Pandas讀取大小為50GB的CSV文件時(shí),最合理的做法是()A.直接調(diào)用read_csvB.使用chunksize分塊讀取C.先轉(zhuǎn)為Excel再讀取D.使用pickle格式答案:B18.在Snowflake中,提供半結(jié)構(gòu)化數(shù)據(jù)查詢能力的類(lèi)型是()A.VARIANTB.ARRAYC.OBJECTD.GEOGRAPHY答案:A19.若某DataFramedf包含列user_id、event_time,現(xiàn)需獲取每個(gè)用戶首次事件時(shí)間,應(yīng)使用的窗口函數(shù)為()A.rankB.row_numberC.first_valueD.lag答案:C20.在Prometheus監(jiān)控體系中,用于聚合瞬時(shí)向量的一對(duì)多匹配操作符是()A.group_leftB.onC.ignoringD.by答案:A二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)21.下列屬于FlinkExactlyOnce端到端保障必要條件的組件有()A.可重放數(shù)據(jù)源B.冪等外部存儲(chǔ)C.兩階段提交SinkD.開(kāi)啟checkpoint答案:ABCD22.關(guān)于HiveonTez相比HiveonMapReduce的優(yōu)勢(shì),正確的有()A.減少中間落盤(pán)B.支持DAG任務(wù)C.降低延遲D.提高CPU利用率答案:ABCD23.在ClickHouse中,支持的分區(qū)策略包括()A.PARTITIONBYtoYYYYMM(date_col)B.PARTITIONBYhash(col)C.PARTITIONBYtuple()D.PARTITIONBYrand()答案:ABC24.下列關(guān)于HDFSFederation的描述,正確的有()A.多個(gè)NameNode共享DataNode存儲(chǔ)B.單點(diǎn)故障問(wèn)題徹底解決C.通過(guò)blockpool隔離元數(shù)據(jù)D.客戶端需要掛載表訪問(wèn)答案:ACD25.在Kafka中,可能導(dǎo)致重復(fù)消費(fèi)的場(chǎng)景有()A.消費(fèi)者重啟后未提交offsetB.消費(fèi)者組重平衡C.mit=trueD.手動(dòng)提交offset失敗答案:ABD26.使用SparkMLlib訓(xùn)練GBDT模型時(shí),可調(diào)參數(shù)包括()A.maxDepthB.maxIterC.stepSizeD.numTrees答案:ABC27.下列屬于數(shù)據(jù)血緣元數(shù)據(jù)自動(dòng)采集手段的有()A.SQL解析B.Hook探針C.日志審計(jì)D.人工登記答案:ABC28.在HBaseRowKey設(shè)計(jì)時(shí),應(yīng)避免的問(wèn)題有()A.連續(xù)遞增B.長(zhǎng)度過(guò)長(zhǎng)C.散列隨機(jī)D.包含業(yè)務(wù)含義答案:AB29.關(guān)于Raft協(xié)議,正確的說(shuō)法有()A.選舉超時(shí)隨機(jī)化避免活鎖B.日志復(fù)制采用心跳機(jī)制C.領(lǐng)導(dǎo)者負(fù)責(zé)所有寫(xiě)操作D.成員變更采用聯(lián)合共識(shí)答案:ACD30.下列屬于數(shù)據(jù)倉(cāng)庫(kù)分層模型DWS層典型特征的有()A.面向主題匯總B.保留明細(xì)數(shù)據(jù)C.輕度匯總D.跨業(yè)務(wù)域復(fù)用答案:ACD三、填空題(每空2分,共20分)31.在Spark中,使用________函數(shù)可將RDD[(K,V)]按K進(jìn)行分組并生成RDD[(K,Iterable[V])]。答案:groupByKey32.HDFS默認(rèn)塊大小為_(kāi)_______MB(Hadoop3.x)。答案:12833.FlinkCEP庫(kù)中,模式序列“next”表示事件之間________關(guān)系。答案:嚴(yán)格連續(xù)34.KafkaProducer配置參數(shù)________控制消息在緩沖區(qū)累計(jì)到多大時(shí)批量發(fā)送。答案:batch.size35.在PostgreSQL中,創(chuàng)建索引時(shí)指定________關(guān)鍵字可讓索引僅覆蓋滿足條件的行。答案:WHERE(部分索引)36.HiveUDF必須繼承________類(lèi)。答案:org.apache.hadoop.hive.ql.exec.UDF37.ClickHouseMergeTree引擎中,________子句指定主鍵,用于去重和排序。答案:ORDERBY38.在Airflow中,任務(wù)實(shí)例狀態(tài)為_(kāi)_______表示任務(wù)已執(zhí)行但依賴(lài)未滿足。答案:upstream_failed39.Elasticsearch集群中,________節(jié)點(diǎn)負(fù)責(zé)集群元數(shù)據(jù)管理。答案:master40.數(shù)據(jù)湖倉(cāng)一體架構(gòu)中,________技術(shù)同時(shí)提供流式讀取和批式讀取能力,被稱(chēng)為“流批一體存儲(chǔ)”。答案:Hudi/Iceberg/DeltaLake(任填其一即可)四、簡(jiǎn)答題(共6題,每題10分,共60分)41.(開(kāi)放型)請(qǐng)闡述Lambda架構(gòu)與Kappa架構(gòu)的核心差異,并給出在實(shí)時(shí)訂單金額統(tǒng)計(jì)場(chǎng)景下選擇Kappa架構(gòu)的理由,需包含至少兩條技術(shù)論據(jù)。答案:1)Lambda維護(hù)批、速兩層代碼,Kappa僅保留流層,代碼量減半。2)Lambda需合并批速結(jié)果,存在一致性窗口,Kappa通過(guò)重放實(shí)現(xiàn)端到端一致。3)訂單流天然有序,Kafka保留7天,重放成本低于維護(hù)離線調(diào)度。4)Flink提供ExactlyOnce,無(wú)需批層校核,簡(jiǎn)化運(yùn)維。42.(封閉型)簡(jiǎn)述HBaseRegionServer發(fā)生FullGC導(dǎo)致ZooKeeper會(huì)話超時(shí)后的完整恢復(fù)流程,要求列出關(guān)鍵步驟及涉及角色。答案:1)ZK檢測(cè)到會(huì)話超時(shí),刪除/rs/rsxxx臨時(shí)節(jié)點(diǎn);2)Master監(jiān)聽(tīng)觸發(fā)ServerCrashProcedure;3)Master將原region重新分配給其余RS;4)WAL按region分組進(jìn)行split;5)新RS加載HFile重放WAL;6)更新meta表,恢復(fù)在線;7)客戶端刷新meta緩存,請(qǐng)求路由恢復(fù)。43.(開(kāi)放型)某電商公司每日新增日志500GB,保留90天,冷數(shù)據(jù)占比70%,請(qǐng)?jiān)O(shè)計(jì)基于對(duì)象存儲(chǔ)的分層存儲(chǔ)方案,需說(shuō)明存儲(chǔ)類(lèi)型、生命周期策略及查詢加速手段。答案:1)熱層:SSD對(duì)象存儲(chǔ),保存最近7天,啟用CDN緩存;2)溫層:標(biāo)準(zhǔn)IA,保存830天,通過(guò)Athena/Presto查詢;3)冷層:GlacierDeepArchive,30天后自動(dòng)沉降,檢索時(shí)間12h;4)元數(shù)據(jù)與分區(qū)信息存入GlueCatalog,使用SymlinkTextInputFormat映射;5)查詢加速:冷數(shù)據(jù)需先restore至標(biāo)準(zhǔn)層,采用Spark緩存+ZSTD壓縮,減少掃描;6)成本估算:熱0.12$/GB,冷0.00099$/GB,整體下降65%。44.(封閉型)給定一張用戶行為表user_action(user_idINT,event_timeTIMESTAMP,page_idSTRING),請(qǐng)用標(biāo)準(zhǔn)SQL寫(xiě)出“計(jì)算最近30天內(nèi)每個(gè)用戶連續(xù)訪問(wèn)的最長(zhǎng)天數(shù)”的完整語(yǔ)句,要求不使用循環(huán)或UDF。答案:WITHtAS(SELECTuser_id,DATE(event_time)ASdt,DENSE_RANK()OVER(PARTITIONBYuser_idORDERBYDATE(event_time))ASrnk,DATE_SUB(DATE(event_time),INTERVALDENSE_RANK()OVER(PARTITIONBYuser_idORDERBYDATE(event_time))DAY)ASgrpFROMuser_actionWHEREevent_time>=DATE_SUB(CURRENT_DATE,INTERVAL30DAY)GROUPBYuser_id,DATE(event_time)),grp_cntAS(SELECTuser_id,grp,COUNT()ASconsecutive_daysFROMtGROUPBYuser_id,grp)SELECTuser_id,MAX(consecutive_days)ASmax_consecutive_daysFROMgrp_cntGROUPBYuser_id;45.(開(kāi)放型)說(shuō)明在FlinkSQL中實(shí)現(xiàn)異步維表關(guān)聯(lián)的三種方式,并對(duì)比其吞吐量、延遲、一致性。答案:1)AsyncI/O:利用AsyncDataStream,吞吐量>10萬(wàn)/秒,延遲<5ms,需外部系統(tǒng)冪等;2)TemporalTableJoin:語(yǔ)法簡(jiǎn)潔,支持版本維表,吞吐受狀態(tài)后端限制,延遲秒級(jí),一致性由Flink保障;3)緩存+LookupJoin:預(yù)加載維表至內(nèi)存,吞吐高但內(nèi)存占用大,延遲毫秒級(jí),維表更新需TTL刷新,一致性弱。46.(封閉型)某Spark3.3作業(yè)讀取Snappy壓縮的ORC文件200GB,運(yùn)行緩慢,日志顯示“ORCsplitgenerationtook52s”。請(qǐng)給出三項(xiàng)具體優(yōu)化措施并說(shuō)明原理。答案:1)啟用本地索引:建表時(shí)增加“orc.create.index=true”,利用stripestatistics快速跳躍,減少split生成時(shí)間;2)提高spark.default.parallelism至800,使split粒度與vcore匹配,避免單線程瓶頸;3)開(kāi)啟spark.sql.orc.filterPushdown=true,結(jié)合下推條件提前裁剪stripe,減少52s內(nèi)隨機(jī)IO。五、應(yīng)用題(共4題,每題20分,共80分)47.(計(jì)算類(lèi))某Kafka集群共6broker,單盤(pán)2TBSSD,盤(pán)數(shù)12,副本因子3,retention7天,每天流入1.2TB原始數(shù)據(jù),壓縮比0.5,計(jì)算該集群磁盤(pán)可支撐的最大日流入數(shù)據(jù)量,并評(píng)估是否需要擴(kuò)容。答案:可用空間=6×12×2TB=144TB;凈可用=144×0.7≈100.8TB;單副本7天數(shù)據(jù)=1.2TB×7=8.4TB;三副本=8.4×3=25.2TB;壓縮后=25.2×0.5=12.6TB;可支撐倍數(shù)=100.8/12.6=8倍;最大日流入=1.2TB×8=9.6TB;結(jié)論:當(dāng)前可承受9.6TB/日,無(wú)需擴(kuò)容。48.(分析類(lèi))給定用戶標(biāo)簽寬表user_tag(user_id,tag1,tag2,…,tag200),字段均為布爾,存儲(chǔ)為ORC,共5億行,現(xiàn)需查詢“tag5=true且tag18=true”的用戶數(shù)。測(cè)試發(fā)現(xiàn)全表掃描耗時(shí)180s,請(qǐng)?jiān)O(shè)計(jì)一種基于布隆過(guò)濾器的優(yōu)化方案,給出實(shí)現(xiàn)步驟、資源評(píng)估及預(yù)期加速比。答案:1)建bitmap索引表:CREATETABLEuser_tag_bitmapASSELECTtag5,tag18,bitmap_or_agg(bitmap_build(user_id))ASbmFROMuser_tagGROUPBYtag5,tag18;2)查詢改寫(xiě):SELECTbitmap_cardinality(bitmap_and(bm))FROMuser_tag_bitmapWHEREtag5=trueANDtag18=true;3)資源:bitmap占用=5億bit×2≈1.2GB,常駐內(nèi)存;4)耗時(shí)降至1.5s,加速比≈120倍;5)更新策略:每日離線合并增量RoaringBitmap,寫(xiě)入HDFS,查詢時(shí)加載至offheapmemory。49.(綜合類(lèi))某金融公司需構(gòu)建實(shí)時(shí)反欺詐引擎,要求99th延遲<100ms,峰值QPS8萬(wàn),數(shù)據(jù)源包括訂單流、用戶畫(huà)像、歷史欺詐名單,請(qǐng)給出完整技術(shù)架構(gòu)圖(文字描述),并說(shuō)明各組件選型理由、容量評(píng)估、容災(zāi)方案。答案:架構(gòu):訂單流→Kafka(3集群跨IDC)→FlinkCEP(128TaskManager,16core/32GB)→RedisCluster(主從+哨兵,64GB×32節(jié)點(diǎn))→APIGateway(SpringWebFlux+Netty,8pod)→風(fēng)控規(guī)則引擎(Drools,本地緩存)→結(jié)果回寫(xiě)Kafka→MySQL雙主。選型:Kafka支持百萬(wàn)級(jí)吞吐,F(xiàn)linkCEP復(fù)雜事件處理低延遲,Redis單線程毫秒響應(yīng)。容量:?jiǎn)螚l報(bào)文1KB,峰值帶寬800MB/s,Kafka3副本需2.4GB/s,磁盤(pán)寫(xiě)入30

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論