版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年大數(shù)據(jù)工程師考試試卷及答案一、單項選擇題(每題1分,共20分)1.在Hadoop3.x中,默認的塊大小為A.32MBB.64MBC.128MBD.256MB答案:C2.SparkSQL中,將DataFrame注冊為臨時視圖的API是A.createOrReplaceTempViewB.registerTempTableC.cacheTableD.persistView答案:A3.下列關(guān)于KafkaPartition的描述,正確的是A.一個Topic最多只能有一個PartitionB.Partition數(shù)量一旦創(chuàng)建不可修改C.增加Partition會降低順序性D.Partition副本數(shù)必須等于Broker數(shù)答案:C4.在Flink中,用于實現(xiàn)精確一次語義的檢查點機制依賴的核心技術(shù)是A.冪等寫入B.兩階段提交C.異步屏障快照D.事件時間窗口答案:C5.Hive中,使用ORC格式存儲的最大優(yōu)勢是A.支持事務(wù)更新B.支持行級索引C.高壓縮比與列式讀取D.與文本格式完全兼容答案:C6.若某HDFS集群NameNode內(nèi)存為64GB,每個Block元信息占用150字節(jié),則理論上可管理的Block數(shù)量約為A.4億B.4.2億C.4.5億D.5億答案:B解析:64GB/150B≈4.2億7.在Scala中,下列代碼片段執(zhí)行后輸出為valrdd=sc.parallelize(1to4,2)println(rdd.map(_2).collect().mkString(","))A.2,4,6,8B.1,2,3,4C.2468D.報錯答案:A8.使用HBaserowkey設(shè)計時,為了避免熱點,通常推薦A.順序遞增時間戳B.哈希前綴+時間戳C.純數(shù)字自增D.固定長度字符串答案:B9.在數(shù)據(jù)湖Iceberg中,實現(xiàn)行級更新依賴的核心數(shù)據(jù)結(jié)構(gòu)是A.B+樹B.LSM樹C.列式索引D.增量manifest文件答案:D10.下列關(guān)于數(shù)據(jù)傾斜的說法,錯誤的是A.MapJoin可消除Reduce端傾斜B.兩階段聚合可緩解熱點KeyC.增加Reducer數(shù)量一定能解決傾斜D.采樣可提前發(fā)現(xiàn)傾斜Key答案:C11.在Spark3.x中,自適應(yīng)查詢執(zhí)行(AQE)無法動態(tài)優(yōu)化A.Join策略B.Partition數(shù)量C.傾斜JoinD.用戶自定義函數(shù)邏輯答案:D12.某電商公司使用FlinkCEP檢測“用戶連續(xù)三次下單后退款”事件,應(yīng)使用的模式量詞是A.times(3)B.timesOrMore(3)C.consecutive().times(3)D.allowCombinations().times(3)答案:C13.在數(shù)據(jù)倉庫緩慢變化維SCDType2中,必須包含的字段是A.代理鍵B.自然鍵C.生效時間、失效時間D.分區(qū)字段答案:C14.使用Presto查詢Hive表時,若出現(xiàn)“Toomanyopenfiles”異常,最可能的原因是A.HiveMetastore連接池耗盡B.PrestoWorker文件句柄超限C.HDFSBlock缺失D.ORC文件損壞答案:B15.在PythonPandas中,將DataFrame按列col1分組后計算col2的Top3頻數(shù),正確寫法是A.df.groupby('col1')['col2'].value_counts().groupby(level=0).head(3)B.df.groupby('col1').apply(lambdax:x['col2'].nlargest(3))C.df.groupby('col1')['col2'].sum().nlargest(3)D.df['col2'].value_counts().head(3)答案:A16.某Spark任務(wù)使用動態(tài)資源分配,下列參數(shù)控制Executor空閑超時時間的是A.spark.executor.coresB.spark.dynamicAllocation.executorIdleTimeoutC.spark.sql.shuffle.partitionsD.spark.executor.memory答案:B17.在ClickHouse中,最適合高并發(fā)點查的表引擎是A.MergeTreeB.SummingMergeTreeC.ReplacingMergeTreeD.TinyLog答案:C18.使用Airflow調(diào)度時,若任務(wù)T1使用TriggerRule.one_failed,則其執(zhí)行條件為A.上游任一任務(wù)失敗B.上游所有任務(wù)失敗C.上游任一任務(wù)成功D.上游所有任務(wù)成功答案:A19.在數(shù)據(jù)治理中,衡量數(shù)據(jù)唯一性的指標(biāo)是A.CompletenessB.ConsistencyC.UniquenessD.Timeliness答案:C20.某公司通過DataX將MySQL數(shù)據(jù)同步到HDFS,若Reader使用“splitPk”切分,則該字段應(yīng)滿足A.可空B.離散且分布均勻C.字符串類型D.外鍵答案:B二、多項選擇題(每題2分,共20分)21.下列屬于Spark共享變量的有A.BroadcastB.AccumulatorC.TaskContextD.ShuffleStatus答案:AB22.關(guān)于HDFSFederation,正確的有A.多個NameNode共享同一DataNode存儲B.每個NameNode管理獨立命名空間C.需要ZooKeeper實現(xiàn)HAD.客戶端通過ViewFS掛載表訪問答案:ABD23.在Kafka中,ConsumerRebalance觸發(fā)的場景包括A.新Consumer加入組B.Consumer崩潰C.TopicPartition數(shù)增加D.Consumer主動離開組答案:ABCD24.使用FlinkSQL實現(xiàn)維表Join時,可采用的優(yōu)化手段有A.異步I/OB.緩存C.廣播維表D.開啟MiniBatch答案:ABC25.下列屬于數(shù)據(jù)質(zhì)量維度的是A.AccuracyB.ConsistencyC.VolatilityD.Accessibility答案:ABD26.在Hive中,可用于解決小文件問題的參數(shù)有A.hive.merge.mapfilesB.hive.merge.mapredfilesC.hive.merge.size.per.taskD.hive.exec.reducers.bytes.per.reducer答案:ABC27.關(guān)于DeltaLake,正確的有A.支持時間旅行查詢B.通過Log文件保證ACIDC.只支持Parquet格式D.支持行級更新答案:ABD28.在ClickHouse中,屬于MergeTree家族的有A.ReplacingMergeTreeB.SummingMergeTreeC.AggregatingMergeTreeD.Memory答案:ABC29.使用SparkMLlib訓(xùn)練GBDT模型時,可調(diào)超參數(shù)包括A.maxDepthB.maxIterC.stepSizeD.numTrees答案:ABCD30.下列關(guān)于數(shù)據(jù)血緣的說法,正確的有A.可用于影響分析B.可用于溯源C.必須依賴靜態(tài)代碼解析D.支持列級血緣答案:ABD三、填空題(每空2分,共20分)31.Spark中,將RDD持久化到內(nèi)存且以序列化方式存儲的StorageLevel為________。答案:MEMORY_ONLY_SER32.HDFS默認的副本放置策略中,第一副本放在________節(jié)點,第二副本放在不同機架的節(jié)點。答案:客戶端本地33.KafkaProducer配置中,保證消息冪等性的參數(shù)是________。答案:enable.idempotence34.Flink中,將DataStream轉(zhuǎn)換為Table的接口是________。答案:tableEnv.fromDataStream35.Hive中,將字符串日期“20250620”轉(zhuǎn)換為時間戳的函數(shù)是________。答案:unix_timestamp36.在PythonNumPy中,生成形狀為(3,4)且元素為01隨機浮點數(shù)的代碼為________。答案:np.random.rand(3,4)37.ClickHouse中,查詢MergeTree表最近7日數(shù)據(jù)的典型過濾條件是________。答案:WHEREevent_date>=today()738.數(shù)據(jù)倉庫中,用于描述業(yè)務(wù)過程的建模方法是________建模。答案:維度39.Airflow中,定義每日0點30分執(zhí)行的Cron表達式為________。答案:30040.使用HBaseShell查看表t1行數(shù)統(tǒng)計的命令為________。答案:count't1'四、簡答題(共30分)41.(封閉型,6分)簡述MapReduce中Shuffle階段的具體流程,并指出其性能瓶頸。答案:1.Map端:每個MapTask將輸出數(shù)據(jù)根據(jù)Partitioner寫入環(huán)形緩沖區(qū),達到閾值后觸發(fā)Spill,溢寫文件經(jīng)過分區(qū)、排序、可選Combiner,最終合并成一個大文件并生成索引。2.Reduce端:通過HTTP拉取各自分區(qū)的數(shù)據(jù),進行歸并排序,生成有序迭代器供Reduce函數(shù)使用。瓶頸:磁盤IO頻繁、排序開銷大、網(wǎng)絡(luò)拉取占用帶寬、內(nèi)存緩沖區(qū)受限。42.(開放型,8分)某電商公司訂單表每日新增10億條,需支持實時更新與離線分析,請設(shè)計一套Lambda架構(gòu),說明各層組件選型及數(shù)據(jù)一致性保障方案。答案:1.批處理層:HDFS+SparkSQL,每日凌晨對前一日全量訂單做批量計算,生成DWS層寬表,存儲為Iceberg格式,保證ACID。2.速度層:Kafka+FlinkSQL,實時消費訂單流,關(guān)聯(lián)MySQLBinlog維表,使用異步I/O+緩存,輸出到ClickHouse,提供秒級查詢。3.服務(wù)層:Presto統(tǒng)一查詢Iceberg與ClickHouse,通過View封裝合并邏輯,查詢時優(yōu)先走ClickHouse,缺失數(shù)據(jù)回退Iceberg。一致性:速度層采用Flink兩階段提交寫入ClickHouse;批處理層通過Iceberg快照隔離,每日對比批與實時結(jié)果,差異超過閾值觸發(fā)告警并回滾重跑。43.(封閉型,6分)給出Spark任務(wù)出現(xiàn)“Executorlost”的常見原因及對應(yīng)排查命令。答案:原因:1.內(nèi)存溢出:ExecutorOOM被YARNkill。2.磁盤損壞:本地shuffle文件讀取失敗。3.網(wǎng)絡(luò)超時:心跳丟失超過work.timeout。排查:1.yarnlogsapplicationId<appId>|grepikill2.dmesgT|grepi“diskerror”3.查看SparkHistoryServer中ExecutorTab的“stderr”日志,定位OOM棧。44.(開放型,10分)請用SQL實現(xiàn)連續(xù)7日登錄的用戶統(tǒng)計,并說明性能優(yōu)化思路。表結(jié)構(gòu):user_login(user_idstring,login_datedate)答案:SQL:WITHtAS(SELECTuser_id,login_date,date_sub(login_date,row_number()OVER(PARTITIONBYuser_idORDERBYlogin_date))ASgrpFROMuser_login)SELECTuser_idFROMtGROUPBYuser_id,grpHAVINGcount()>=7;優(yōu)化:1.對login_date建立分區(qū),按天分區(qū)減少掃描。2.使用ORC+BloomFilter對user_id建索引。3.預(yù)聚合:每日ETL生成用戶活躍切片,減少明細計算。4.采用MapJoin將小表(用戶維表)廣播,避免傾斜。五、應(yīng)用題(共60分)45.(計算類,15分)某Spark任務(wù)讀取HDFS上1TB的ORC文件(壓縮比8:1),集群配置:Executor4core/16GB,共100Executors。每個ORCStripe大小256MB(未壓縮),估算并發(fā)Task數(shù)、峰值內(nèi)存占用,并指出調(diào)優(yōu)參數(shù)。答案:1.邏輯輸入:1TB/8=128GB未壓縮;Stripe數(shù)=128GB/256MB=512Stripe。2.默認Split大小≈128MB,故MapTask數(shù)≈128GB/128MB=1024Task。3.并發(fā)度:Executor4core,總并發(fā)Task=1004=400,需2.5輪調(diào)度完成。4.峰值內(nèi)存:ORCReader采用矢量讀,batch默認1024行,每Task約需400MB,峰值400Task400MB≈160GB,小于集群內(nèi)存1600GB,安全。5.調(diào)優(yōu):spark.sql.files.maxPartitionBytes=256mspark.executor.memoryOverhead=2gspark.orc.vectorized.reader.enabled=true46.(分析類,15分)給定Kafka集群:10Brokers,版本2.8,副本因子3,min.insync.replicas=2,某Topic有30Partition,Produceracks=all,吞吐要求100萬條/秒,單條1KB,請計算所需網(wǎng)絡(luò)帶寬并評估Broker磁盤寫入IOPS。答案:1.吞吐字節(jié):100萬1KB=1GB/s。2.副本流量:1GB/s3=3GB/s集群總寫入。3.單Broker流入:3GB/s/10=300MB/s,千兆網(wǎng)卡(125MB/s)不足,需萬兆(1.25GB/s)。4.IOPS:單Broker300MB/s,若磁盤順序?qū)懶阅?00MB/s,則需2塊盤并發(fā);單盤IOPS≈100(順序大塊),故每Broker至少2盤RAID0。47.(綜合類,30分)某視頻公司需構(gòu)建實時推薦特征工程,輸入:a)用戶行為流(點擊、播放、點贊)KafkaTopic,每秒50萬條,峰值100萬條;b)用戶畫像MySQL表,5000萬用戶,每日全量更新;c)視頻維表Redis,100萬視頻,小時級更新。要求:1)分鐘級輸出用戶視頻特征寬表到HBase,列包括近1小時播放次數(shù)、近24小時點贊均值、用戶年齡標(biāo)簽;2)保證端到端延遲<3分鐘;3)支持回溯重放。請給出完整技術(shù)方案、Flink作業(yè)拓撲、狀態(tài)存儲策略、緩存更新機制及監(jiān)控指標(biāo)。答案:1.技術(shù)選型:行為流:Kafka100Partition,retention7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國水產(chǎn)科學(xué)研究院淡水漁業(yè)研究中心2026年度第一批統(tǒng)一公開招聘備考題庫及一套參考答案詳解
- 企業(yè)商務(wù)合作流程規(guī)范制度
- 企業(yè)員工培訓(xùn)與職業(yè)發(fā)展計劃目標(biāo)制度
- 2025年大學(xué)行政管理(行政管理學(xué)基礎(chǔ))試題及答案
- 營銷團隊績效面談技巧
- 第一單元 詩的國度(復(fù)習(xí))語文統(tǒng)編版選擇性必修下冊
- 2025 小學(xué)四年級思想品德上冊公共場合行為規(guī)范課課件
- 2026年電子消費品行業(yè)可穿戴設(shè)備創(chuàng)新報告及未來智能穿戴趨勢分析報告
- 2025年光伏發(fā)電裝機容量增長行業(yè)報告
- 2025年醫(yī)療廢物處理行業(yè)政策分析報告
- 昆侖神話敘事的百年學(xué)術(shù)史重構(gòu)與跨學(xué)科研究
- (必刷)湖南專升本《基礎(chǔ)護理學(xué)》考點精粹必做300題-含答案
- 隧道監(jiān)測與數(shù)據(jù)采集技術(shù)方案
- 總經(jīng)辦辦公室工作總結(jié)及計劃
- 圍堤水下拋石工程的施工技術(shù)方案與安全措施
- 2025-2030中國鋼結(jié)構(gòu)建筑在新能源設(shè)施建設(shè)中的應(yīng)用前景報告
- 焊工安全培訓(xùn)考試題(附答案)
- 2025年直招軍官面試題型及答案
- 人工智能AI賦能干行百業(yè)白皮書2025
- 提升施工企業(yè)安全管理水平的關(guān)鍵措施與路徑探索
- 【《雪佛蘭科魯茲制動防抱死(ABS)系統(tǒng)排故方法分析》12000字(論文)】
評論
0/150
提交評論