2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)_第1頁(yè)
2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)_第2頁(yè)
2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)_第3頁(yè)
2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)_第4頁(yè)
2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大數(shù)據(jù)工程師職業(yè)資格認(rèn)證考試題庫(kù)(附答案)一、單項(xiàng)選擇題(每題1分,共30分。每題只有一個(gè)正確答案,請(qǐng)將正確選項(xiàng)字母填入括號(hào)內(nèi))1.在HDFS中,默認(rèn)的塊大小為A.32MB?B.64MB?C.128MB?D.256MB答案:C2.SparkCore中負(fù)責(zé)將RDD持久化到磁盤的存儲(chǔ)級(jí)別是A.MEMORY_ONLY?B.MEMORY_AND_DISK_SER?C.DISK_ONLY?D.OFF_HEAP答案:C3.在Kafka2.8版本之后,移除ZooKeeper依賴的新共識(shí)協(xié)議稱為A.Raft?B.Paxos?C.Zab?D.ViewstampedReplication答案:A4.Flink的Checkpoint機(jī)制中,用于在故障恢復(fù)時(shí)保證端到端恰好一次語(yǔ)義的屏障是A.watermark?B.checkpointbarrier?C.savepoint?D.latencymarker答案:B5.若Hive表partitionedby(dtstring,countrystring),則以下哪個(gè)分區(qū)路徑符合規(guī)范A.dt=20250615/country=CN?B.20250615/CN?C.dt/20250615/country/CN?D.country=CN/dt=20250615答案:A6.在HBase中,用于快速定位Region的索引結(jié)構(gòu)是A.BloomFilter?B.LSMTree?C.META表?D.ZooKeeper節(jié)點(diǎn)答案:C7.下列關(guān)于數(shù)據(jù)湖Iceberg的敘述,錯(cuò)誤的是A.支持行級(jí)更新?B.基于HDFS存儲(chǔ)?C.僅支持Spark引擎?D.提供ACID語(yǔ)義答案:C8.使用Scala編寫SparkStreaming程序時(shí),DStream的轉(zhuǎn)換操作flatMap的返回類型是A.DStream[T]?B.DStream[Iterable[T]]?C.DStream[Array[T]]?D.DStream[RDD[T]]答案:A9.在YARN容量調(diào)度器中,當(dāng)隊(duì)列資源不足時(shí),最先被搶占的資源是A.當(dāng)前隊(duì)列的pending容器?B.其他隊(duì)列的空閑容器?C.當(dāng)前隊(duì)列的running容器?D.全局預(yù)留容器答案:B10.若MySQLbinlog格式為ROW,使用Canal解析后寫入Kafka,以下哪種序列化方式可保證字段順序一致A.JSON?B.Avro?C.Protobuf?D.以上均可答案:B11.在ClickHouse中,最適合做高基數(shù)去重的聚合函數(shù)是A.uniq?B.uniqCombined?C.uniqExact?D.uniqHLL12答案:B12.若某Parquet文件schema包含optionalint32id,讀取時(shí)為NULL,則SparkSQL返回的DataFrame中該列類型為A.IntegerType?B.LongType?C.DecimalType?D.拋出異常答案:A13.在Airflow中,用于確保任務(wù)實(shí)例冪等性的核心機(jī)制是A.task_id+execution_date?B.dag_id+run_id?C.try_number?D.job_id答案:A14.當(dāng)TensorFlowOnSpark訓(xùn)練過(guò)程中出現(xiàn)數(shù)據(jù)傾斜,優(yōu)先調(diào)整的參數(shù)是A.numExecutors?B.batchSize?C.inputMode?D.reservations答案:B15.在數(shù)據(jù)治理元數(shù)據(jù)管理中,屬于技術(shù)元數(shù)據(jù)的是A.業(yè)務(wù)術(shù)語(yǔ)?B.數(shù)據(jù)標(biāo)準(zhǔn)?C.字段血緣?D.數(shù)據(jù)質(zhì)量規(guī)則答案:C16.若Elasticsearch集群出現(xiàn)“circuit_breaking_exception”,最可能的原因是A.磁盤損壞?B.字段映射沖突?C.內(nèi)存熔斷?D.主節(jié)點(diǎn)失聯(lián)答案:C17.在數(shù)據(jù)倉(cāng)庫(kù)緩慢變化維SCDType2中,用于標(biāo)識(shí)歷史版本的字段通常不包括A.start_date?B.end_date?C.is_current?D.hash_diff答案:D18.使用Pythonpandas讀取1GBCSV時(shí),以下哪種方式內(nèi)存占用最小A.pd.read_csv(path)?B.pd.read_csv(path,dtype=str)?C.pd.read_csv(path,usecols=[0,1])?D.pd.read_csv(path,chunksize=10000)答案:D19.在DeltaLake中,執(zhí)行VACUUM操作默認(rèn)保留的小時(shí)數(shù)為A.0?B.24?C.168?D.720答案:C20.若Prometheus監(jiān)控FlinkJobManager,需暴露的指標(biāo)端口為A.8081?B.9249?C.9090?D.3000答案:B21.在數(shù)據(jù)安全GDPR場(chǎng)景下,數(shù)據(jù)主體行使“被遺忘權(quán)”時(shí),技術(shù)層面最優(yōu)先實(shí)現(xiàn)的能力是A.數(shù)據(jù)脫敏?B.數(shù)據(jù)備份?C.數(shù)據(jù)溯源?D.數(shù)據(jù)刪除答案:D22.若某Spark任務(wù)提交參數(shù)為confspark.sql.shuffle.partitions=200,當(dāng)數(shù)據(jù)量為10TB時(shí),每個(gè)分區(qū)平均大小約為A.50GB?B.5GB?C.512MB?D.50MB答案:B23.在數(shù)據(jù)質(zhì)量評(píng)估維度中,用于衡量同一字段在不同系統(tǒng)取值一致性的指標(biāo)是A.完整性?B.一致性?C.準(zhǔn)確性?D.及時(shí)性答案:B24.當(dāng)Hadoop集群?jiǎn)⒂肒erberos后,以下哪項(xiàng)操作無(wú)需kinit即可執(zhí)行A.hdfsdfsls/?B.yarnapplicationlist?C.訪問(wèn)本地file:///?D.提交MapReduce作業(yè)答案:C25.在Kafka中,consumergroup重新均衡的觸發(fā)條件不包括A.消費(fèi)者加入?B.消費(fèi)者退出?C.topic分區(qū)數(shù)增加?D.broker宕機(jī)答案:D26.若使用Debezium采集Oracle,需在數(shù)據(jù)庫(kù)端開(kāi)啟的日志模式為A.ARCHIVELOG?B.NOARCHIVELOG?C.FORCELOGGING?D.SUPPLEMENTALLOG答案:D27.在數(shù)據(jù)建模維度建模中,表示“銷售額”應(yīng)歸為A.維度?B.事實(shí)?C.屬性?D.層次答案:B28.若某HiveSQL執(zhí)行計(jì)劃出現(xiàn)“MapJoinOperator”,則表明A.自動(dòng)轉(zhuǎn)換為SortMergeJoin?B.小表廣播?C.傾斜連接?D.桶連接答案:B29.在FlinkTableAPI中,將流表轉(zhuǎn)換為動(dòng)態(tài)表并執(zhí)行SQL,必須聲明的表類型為A.TEMPORARY?B.TEMPORARYSYSTEM?C.VIEW?D.MATERIALIZED答案:A30.若使用AWSGlue爬網(wǎng)程序更新DataCatalog,以下哪種格式不支持自動(dòng)推斷分區(qū)列A.Parquet?B.JSON?C.CSV?D.XML答案:D二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)31.以下哪些組件屬于Hadoop生態(tài)中的數(shù)據(jù)存儲(chǔ)層A.HDFS?B.Ozone?C.Alluxio?D.YARN答案:ABC32.關(guān)于SparkSQL的Catalyst優(yōu)化器,正確的說(shuō)法有A.使用規(guī)則優(yōu)化策略?B.支持代價(jià)模型?C.生成Java字節(jié)碼?D.支持列式存儲(chǔ)下推答案:ABD33.在數(shù)據(jù)湖架構(gòu)中,以下哪些技術(shù)方案支持ACID事務(wù)A.DeltaLake?B.Iceberg?C.Hudi?D.Parquet答案:ABC34.以下哪些操作會(huì)觸發(fā)Flink的checkpointA.env.enableCheckpointing(5000)?B.手動(dòng)觸發(fā)savepoint?C.作業(yè)失敗重啟?D.調(diào)用System.exit答案:ABC35.關(guān)于KafkaProducer的冪等性,正確的有A.需設(shè)置enable.idempotence=true?B.要求acks=all?C.要求retries>0?D.要求max.in.flight.requests.per.connection≤5答案:ABCD36.在ClickHouse的MergeTree引擎中,以下哪些列可以作為orderby的候選A.低基數(shù)列?B.高基數(shù)列?C.經(jīng)常用于過(guò)濾的列?D.經(jīng)常用于聚合的列答案:BCD37.以下哪些屬于數(shù)據(jù)血緣的自動(dòng)采集方式A.SQL解析?B.AgentHook?C.日志審計(jì)?D.手動(dòng)登記答案:ABC38.在Elasticsearch中,以下哪些設(shè)置可以減少集群FullGC頻率A.降低heapsize?B.使用G1GC?C.增加refresh_interval?D.關(guān)閉doc_values答案:BC39.以下哪些Python庫(kù)支持分布式DataFrameA.Dask?B.RayDataset?C.Modin?D.Pandas答案:ABC40.在數(shù)據(jù)治理主數(shù)據(jù)管理MDM中,以下哪些屬于核心實(shí)體A.客戶?B.產(chǎn)品?C.訂單事件?D.供應(yīng)商答案:ABD三、填空題(每空1分,共20分)41.在HDFS中,NameNode通過(guò)________文件持久化命名空間鏡像,通過(guò)________文件記錄增量編輯日志。答案:fsimage,edits42.Spark中,RDD的五大特征分別為partitioner、dependencies、________、________、________。答案:compute,partitions,preferredLocations43.Flink的StateBackend默認(rèn)配置為_(kāi)_______,若需將狀態(tài)存儲(chǔ)到HDFS,可切換為_(kāi)_______。答案:HashMapStateBackend,FsStateBackend44.Kafka的consumeroffset若存儲(chǔ)于內(nèi)部topic,則該topic名稱為_(kāi)_______。答案:__consumer_offsets45.在Hive中,將非分區(qū)表轉(zhuǎn)換為分區(qū)表的命令關(guān)鍵字為_(kāi)_______。答案:EXCHANGEPARTITION46.HBase的Region分裂觸發(fā)條件之一為單個(gè)Region大小超過(guò)________。答案:hbase.hregion.max.filesize(默認(rèn)10GB)47.數(shù)據(jù)質(zhì)量規(guī)則“字段x取值范圍在[0,100]”屬于________類規(guī)則。答案:有效性48.在PostgreSQL中,查看當(dāng)前活躍連接數(shù)的系統(tǒng)視圖為_(kāi)_______。答案:pg_stat_activity49.若使用Sqoop將MySQL數(shù)據(jù)導(dǎo)入Hive,參數(shù)________可控制Map任務(wù)并發(fā)數(shù)。答案:m或nummappers50.在Airflow的DAG文件中,用于標(biāo)記任務(wù)失敗重試延遲時(shí)間的參數(shù)為_(kāi)_______。答案:retry_delay51.ClickHouse中,用于查看表級(jí)別的數(shù)據(jù)壓縮率的系統(tǒng)表為_(kāi)_______。答案:system.parts52.在Iceberg中,記錄快照信息的元數(shù)據(jù)文件后綴為_(kāi)_______。答案:.json53.若Elasticsearch索引寫入拒絕率升高,優(yōu)先調(diào)整的線程池為_(kāi)_______。答案:write54.在Scala中,SparkDataFrame的explain()方法默認(rèn)顯示________計(jì)劃。答案:optimizedlogical55.數(shù)據(jù)脫敏算法中,將“張三”替換為“張”屬于________脫敏。答案:掩碼56.在Linux中,查看磁盤I/O使用情況的命令為_(kāi)_______。答案:iostat57.若Flink作業(yè)使用EventTime,必須聲明________生成器。答案:WatermarkStrategy58.在數(shù)據(jù)倉(cāng)庫(kù)中,表示“訂單金額”在事實(shí)表中通常采用________類型字段。答案:度量(或事實(shí))59.若使用Prometheus監(jiān)控NodeExporter,默認(rèn)抓取路徑為_(kāi)_______。答案:/metrics60.在Python中,pandas.read_sql()依賴的底層庫(kù)為_(kāi)_______。答案:SQLAlchemy四、簡(jiǎn)答題(共30分)61.(封閉型,6分)簡(jiǎn)述SparkSQL執(zhí)行流程中的邏輯優(yōu)化階段常見(jiàn)的三種規(guī)則,并給出每條規(guī)則的作用。答案:1.謂詞下推(PushDownPredicate):將過(guò)濾條件盡可能推到數(shù)據(jù)源端,減少I/O。2.列裁剪(ColumnPruning):只讀取查詢需要的列,減少網(wǎng)絡(luò)與內(nèi)存開(kāi)銷。3.常量折疊(ConstantFolding):在編譯期計(jì)算常量表達(dá)式,減少運(yùn)行時(shí)計(jì)算。62.(開(kāi)放型,6分)某電商公司每日新增500GB日志,需實(shí)時(shí)統(tǒng)計(jì)每分鐘UV,請(qǐng)給出兩種技術(shù)方案并比較其延遲、吞吐、一致性。答案:方案A:Kafka+FlinkSQL+Redis延遲:秒級(jí);吞吐:百萬(wàn)/秒;一致性:exactlyonce需開(kāi)啟checkpoint與冪等寫入。方案B:Kafka+SparkStructuredStreaming+DeltaLake延遲:10秒級(jí);吞吐:十萬(wàn)/秒;一致性:exactlyonce通過(guò)batchsink實(shí)現(xiàn)。比較:A延遲更低,B支持批流一體且存儲(chǔ)可回溯。63.(封閉型,6分)說(shuō)明HBaseRowKey設(shè)計(jì)的三項(xiàng)原則,并解釋如何避免熱點(diǎn)。答案:1.唯一性:確保業(yè)務(wù)主鍵或組合鍵唯一。2.散列性:使用反轉(zhuǎn)、加鹽或哈希避免順序?qū)懭搿?.長(zhǎng)度可控:減少存儲(chǔ)與比較開(kāi)銷。避免熱點(diǎn):將時(shí)間戳反轉(zhuǎn)或加鹽前綴,使寫入分散到多Region。64.(開(kāi)放型,6分)某金融公司需對(duì)敏感字段“身份證號(hào)”進(jìn)行加密存儲(chǔ),同時(shí)支持等值查詢,請(qǐng)給出完整技術(shù)方案。答案:1.采用確定性AES256GCM加密,同一明文得同一密文,支持等值匹配。2.在Hive端創(chuàng)建自定義UDF,寫入時(shí)加密,讀取時(shí)解密。3.密鑰托管于KMS,列級(jí)授權(quán)通過(guò)Ranger控制。4.對(duì)加密列建立BloomFilter索引,加速等值查詢。5.定期輪換密鑰,重加密采用雙寫+灰度切換。65.(封閉型,6分)列舉FlinkCheckpoint與Savepoint的三點(diǎn)差異。答案:1.觸發(fā)方式:Checkpoint由Flink自動(dòng)定時(shí)觸發(fā),Savepoint需手動(dòng)命令。2.生命周期:Checkpoint默認(rèn)作業(yè)終止后刪除,Savepoint持久保留。3.兼容性:Savepoint允許跨Flink版本升級(jí),Checkpoint僅兼容同版本。五、應(yīng)用題(共50分)66.(計(jì)算類,10分)某Spark批作業(yè)讀取2TBSnappy壓縮Parquet文件,集群共100vcore,400GB內(nèi)存,spark.sql.shuffle.partitions=800,每個(gè)分區(qū)平均壓縮后大小為2GB,Snappy解壓比約3:1。估算shuffleread階段總數(shù)據(jù)量,并判斷當(dāng)前分區(qū)數(shù)是否合理,給出調(diào)整建議。答案:解壓后數(shù)據(jù)量=2TB×3=6TB;shuffleread約6TB;800分區(qū),每分區(qū)7.5GB,超過(guò)推薦200MB。應(yīng)提高分區(qū)數(shù)至6TB/200MB≈30000,或降低單個(gè)任務(wù)處理量,避免GC與長(zhǎng)尾。67.(分析類,10分)給出Kafka集群出現(xiàn)“ISR頻繁收縮”現(xiàn)象的排查步驟與根因分析。答案:步驟:1.監(jiān)控ISR列表、UnderReplicatedPartitions指標(biāo)。2.查看broker日志是否存在“fetcherlag”。3.檢查磁盤IO、網(wǎng)絡(luò)延遲、GC日志。4.查看replica.socket.timeout參數(shù)。根因:1.網(wǎng)絡(luò)抖動(dòng)或帶寬不足。2.follower磁盤IO瓶頸導(dǎo)致拉取延遲。3.參數(shù)replica.socket.timeout設(shè)置過(guò)小。4.單分區(qū)數(shù)據(jù)突增,leader高負(fù)載。68.(綜合類,15分)某視頻平臺(tái)需構(gòu)建用戶行為數(shù)據(jù)倉(cāng)庫(kù),源數(shù)據(jù)包括:1.客戶端埋點(diǎn)JSON日志,日均500GB,字段含user_id、video_id、event_time、event_type、ip、device。2.MySQL業(yè)務(wù)庫(kù):user_profile、video_info、payment,總量300GB,每日增量5GB。要求:a)給出完整ETL鏈路,含采集、清洗、建模、調(diào)度;b)給出星型模型事實(shí)表與維度表設(shè)計(jì);c)說(shuō)明如何保證端到端ExactlyOnce。答案:a)鏈路:采集:Flume→Kafka→HDFS;Canal→Kafka→HDFS。清洗:SparkStructuredStreaming解析JSON,過(guò)濾異常IP,統(tǒng)一時(shí)區(qū)。建模:SparkSQL每日離線寫入DeltaLake分層(ODS→DWD→DWS→ADS)。調(diào)度:Airflow每日00:30啟動(dòng),依賴上游HDFS_SUCCESS文件。b)模型:事實(shí)表:f_user_event(user_key,video_key,event_time_key,event_type,duration,ip)分區(qū)dt。維度表:d_user,d_video,d_time,d_device。c)ExactlyOnce:Kafka開(kāi)啟冪等producer;Sparkcheckpoint到HDFS;DeltaLake事務(wù)寫;MySQL端采用冪等replaceinto。69.(計(jì)算類,10分)某ClickHouse表采用MergeTree,按(dt,user_id)排序,dt為Date類型,user_id為UInt64。執(zhí)行查詢:selectcount()fromtwheredt='20250615'anduser_id=123456789;已知數(shù)據(jù)量30億行,dt范圍365天,user_id基數(shù)5億。估算索引過(guò)濾后讀取數(shù)據(jù)行數(shù),并給出優(yōu)化建議。答案:dt='20250615'命中約30億/365≈8219萬(wàn)行;user_id索引為跳表,假設(shè)粒度8192,需讀取8219萬(wàn)/8192≈1萬(wàn)個(gè)granule,共1萬(wàn)×8192≈8192萬(wàn)行。建議:將高基數(shù)user_id放在排序鍵第一位,減少granule數(shù)量;增加采樣查詢或物化視圖。70.(綜合類,15分)某物流公司實(shí)時(shí)計(jì)算車輛GPS軌跡,需求:1.每30秒輸出車輛最近5分鐘平均速度;2.若連續(xù)5分鐘速度低于5km/h則報(bào)警;3.結(jié)果寫入MySQL,支持更新。請(qǐng)給出Flink作業(yè)完整代碼框架(Java或Scala),含狀態(tài)描述、窗口定義、側(cè)輸出報(bào)警、冪等寫入。答案:核心代碼(Scala):```scalavalenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(10000)env.setStateBackend(newFsStateBackend("hdfs://ns/flink/checkpoint"))valkafkaSource=KafkaSource.builder().setTopics("gps").setValueOnlyDeserializer(newGpsSchema).build()valstream=env.fromSource(kafkaSource,WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(10)),"gps")valspeedWindow=stream

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論