版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年大數(shù)據(jù)工程師職稱考試試卷及答案1.(單選)2025年3月,某省政務(wù)云將6PB的冷數(shù)據(jù)從本地HDFS遷往阿里云OSSIA,要求30天內(nèi)完成且?guī)挿逯挡怀^5Gbps。工程師采用DistCp+JindoFS方案,在命令行中需額外添加哪組參數(shù)才能同時(shí)滿足“限流”與“分片校驗(yàn)”兩項(xiàng)硬性指標(biāo)?A.bandwidth5verifychecksumm1000B.bandwidth5diffupdateskipCrcC.bandwidth5verifycrcm800D.bandwidth5updateatomicpb答案:C2.(單選)某Flink1.18實(shí)時(shí)作業(yè)消費(fèi)Kafka3.5,Topic共120分區(qū),作業(yè)并行度設(shè)為96,發(fā)現(xiàn)反壓持續(xù)在map算子。若將并行度一次性調(diào)到144,同時(shí)開啟AdaptiveScheduler,下列哪項(xiàng)描述最貼近生產(chǎn)實(shí)測(cè)結(jié)果?A.反壓消失,CPU利用率下降12%,延遲降低30%B.反壓向上游轉(zhuǎn)移,Kafka消費(fèi)延遲增大,checkpoint大小膨脹1.8倍C.反壓不變,網(wǎng)絡(luò)緩沖區(qū)耗盡,TaskManager頻繁被K8sOOMKillD.反壓消失,checkpoint耗時(shí)縮短20%,但Kafka出現(xiàn)Rebalance抖動(dòng)答案:B3.(單選)在DeltaLake2.4中,對(duì)一張分區(qū)表執(zhí)行MERGEINTO時(shí),為減少文件掃描,應(yīng)優(yōu)先開啟哪一項(xiàng)特性?A.ZOrderingB.ColumnMappingC.PartitionedbyDynamicPruningD.DataSkippingwithDVs答案:C4.(單選)某ClickHouse23.3集群,本地盤SSD15TB,每日新增400億行、每行1.2KB。若采用TTL+TieredStorage策略,將7天后數(shù)據(jù)下沉至HDD,為保證merge速度,哪組參數(shù)組合最優(yōu)?A.max_bytes_to_merge_at_max_space=200G,background_pool_size=32B.max_bytes_to_merge_at_max_space=500G,background_pool_size=16C.max_bytes_to_merge_at_max_space=150G,background_pool_size=64D.max_bytes_to_merge_at_max_space=300G,background_pool_size=8答案:A5.(單選)某Spark3.4StructuredStreaming作業(yè)以“availableNow”觸發(fā)模式讀取Kafka,完成一次微批后自動(dòng)停止。若要求下次啟動(dòng)時(shí)精確從上次提交位點(diǎn)繼續(xù),需在checkpoint目錄中保留哪類文件?A.commits/B.offsets/C.sources/D.metadata/答案:B6.(單選)在Trino426對(duì)Iceberg1.3表執(zhí)行時(shí)間旅行查詢SELECTFROMtASOFTIMESTAMP'2025010510:00:00',若元數(shù)據(jù)文件被歸檔至S3Glacier,最先拋出的異常是:A.FileNotFoundExceptionB.AmazonS3Exception:GlacierC.QueryRejectedExceptionD.UncheckedIOException:ReadTimeout答案:B7.(單選)某Pulsar2.11集群,namespace級(jí)設(shè)置dispatchThrottlingRatePerTopicInMsg=20000,某Topic分區(qū)數(shù)為16,則單分區(qū)理論最大推送消息數(shù)為:A.20000B.1250C.320000D.不受限制答案:B8.(單選)在Hive3.1.3中,使用Tez引擎,對(duì)ORC表執(zhí)行INSERTOVERWRITE,若打開hive.optimize.sort.dynamic.partition=true,其核心價(jià)值是:A.減少小文件B.避免分區(qū)列排序?qū)е碌腛OMC.動(dòng)態(tài)分區(qū)自動(dòng)排序,降低內(nèi)存峰值D.提升壓縮率答案:C9.(單選)某Doris2.0集群,3FE+9BE,測(cè)試發(fā)現(xiàn)streamload單并發(fā)僅50MB/s,經(jīng)排查BE磁盤util<10%,下一步應(yīng)優(yōu)先調(diào)優(yōu):A.flush_thread_num_per_storeB.max_tablet_version_numC.fragment_pool_thread_numD.brpc_num_threads答案:D10.(單選)在MongoDB6.0分片集群中,關(guān)閉balancer后,仍可能自動(dòng)遷移chunk的場(chǎng)景是:A.手動(dòng)moveChunkB.setShardVersionC.splitChunkD.jumbochunksplit答案:A11.(多選)某金融公司基于FlinkSQL1.18實(shí)現(xiàn)實(shí)時(shí)風(fēng)控,需保證ExactlyOnce且端到端延遲<2s。下列哪些配置組合可共同達(dá)成目標(biāo)?A.KafkaProducer設(shè)置transaction.timeout.ms=5000B.Flinkcheckpoint間隔1s,開啟unalignedcheckpointC.sink.bufferflush.maxrows=1000,erval=500msD.使用PulsarFlinkConnector并開啟batch模式E.將Flinkstatebackend設(shè)為RocksDB+Incremental,本地SSD答案:A,B,C,E12.(多選)某LakeHouse采用Hudi0.14,MOR表,寫入端為Flink。為降低Compaction對(duì)讀端影響,可采?。篈.開啟compaction.async.enabled=false,改為離線Spark作業(yè)B.調(diào)小compaction.delta_commits=5C.使用compaction.strategy=DAY_ROLLINGD.設(shè)置read.optimize=true,強(qiáng)制讀端合并E.將compaction.max_memory=4096MB答案:A,C,E13.(多選)在StarRocks3.1中,使用ColocateJoin需滿足:A.兩張表bucket數(shù)一致B.分布列順序一致C.副本數(shù)一致D.表類型均為明細(xì)模型E.動(dòng)態(tài)分區(qū)開啟答案:A,B,C14.(多選)某Elasticsearch8.11集群寫入峰值達(dá)300kdocs/s,出現(xiàn)“EsRejectedExecutionException”,可嘗試:A.調(diào)大thread_pool.write.sizeB.降低bulk請(qǐng)求體至5MBC.開啟indexing_pressure.memory.limit=20%D.臨時(shí)調(diào)大refresh_interval=1E.將translog.durability改為async答案:A,B,D,E15.(多選)在Airflow2.8中,為讓DAG具備“冪等重跑”能力,應(yīng):A.使用ExternalTaskSensor時(shí)設(shè)置poke_interval=0B.避免在PythonOperator中寫本地狀態(tài)文件C.對(duì)task做retries>0并配置retry_delayD.使用template_dict渲染ds_nodashE.在on_failure_callback中清理臨時(shí)表答案:B,C,D,E16.(判斷)在Presto0.281中,開啟pression=true可降低網(wǎng)絡(luò)開銷,但會(huì)提升CPU15%以上。答案:正確17.(判斷)某HBase2.5表預(yù)分區(qū)20個(gè),rowkey為salt+userId,若將salt位從1位擴(kuò)到2位,無需重建表即可在線生效。答案:錯(cuò)誤18.(判斷)在Kafka3.5中,topic級(jí)參數(shù)segment.ms優(yōu)先級(jí)高于broker級(jí)log.segment.ms。答案:正確19.(判斷)使用Spark3.4的PandasAPIonSpark時(shí),默認(rèn)arrow執(zhí)行引擎不支持窗口函數(shù)。答案:正確20.(判斷)在Redis7.2集群模式下,執(zhí)行MULTI/EXEC事務(wù)可以跨slot操作多key。答案:錯(cuò)誤21.(填空)在Flink1.18中,若將state.backend.rocksdb.writebuffer.size從64MB調(diào)到128MB,單個(gè)TaskManager內(nèi)最大內(nèi)存占用將增加________MB,假設(shè)state.backend.rocksdb.writebuffer.count=3,state.backend.rocksdb.num.writebuffers=4。答案:19222.(填空)某ClickHouse23.3表采用MergeTree,按dt分區(qū),按id排序,執(zhí)行ALTERTABLEtDETACHPARTITION'202501'后,系統(tǒng)目錄________下會(huì)生成對(duì)應(yīng)文件夾。答案:detached23.(填空)在Hive3.1.3中,使用LLAP,若設(shè)置hive.llap.daemon.task.preemption=true,則當(dāng)單個(gè)query占用daemon線程超過________%時(shí)觸發(fā)搶占。答案:5024.(填空)某Spark3.4作業(yè)使用wholestagecodegen,若將spark.sql.codegen.maxFields調(diào)到________以上,可避免“Toomanyfields”異常。答案:20025.(填空)在Doris2.0中,查看BE當(dāng)前compaction得分需訪問http端口________。答案:804026.(簡(jiǎn)答)某電商大促,F(xiàn)linkCEP作業(yè)需動(dòng)態(tài)加載最新規(guī)則,規(guī)則存儲(chǔ)于MySQL,更新頻率5min。請(qǐng)給出零停更方案并說明如何保證規(guī)則版本一致性。答案:1.將規(guī)則表以version字段區(qū)分版本,F(xiàn)link作業(yè)使用BroadcastStream模式,每5min輪詢MySQL;2.輪詢線程將規(guī)則+version封裝為RuleUpdateEvent,通過Broadcast發(fā)射;3.主數(shù)據(jù)流連接Broadcast流,使用MapStateDescriptor<Rule,Long>緩存當(dāng)前生效規(guī)則;4.當(dāng)收到事件,若version>緩存version,則原子替換MapState;5.使用checkpoint機(jī)制將version作為算子狀態(tài)快照,故障恢復(fù)后若MySQL版本回退,則忽略低版本;6.規(guī)則變更采用藍(lán)綠發(fā)布,灰度20%TaskManager驗(yàn)證無誤后全量推送,實(shí)現(xiàn)零停更。27.(簡(jiǎn)答)描述在Iceberg1.3中如何實(shí)現(xiàn)“跨云雙活”寫入,并解決commit沖突。答案:1.雙活架構(gòu):云A、云B各部署Flink集群,共享同一Icebergcatalog(基于DynamoDB或RDSMySQL);2.表屬性write.metadata.path分別指向各自區(qū)域S3,設(shè)置write.objectstore.enabled=true,保證對(duì)象存儲(chǔ)最終一致;3.采用Iceberg樂觀鎖,commit時(shí)檢查basesnapshotid是否變化;4.若沖突,捕獲CommitFailedException,利用Icebergretry機(jī)制重試,重試上限3次;5.對(duì)要求強(qiáng)一致場(chǎng)景,引入全局鎖:利用RedisRedlock,commit前加鎖,成功寫入metadata文件后釋放;6.讀端使用Trino配置hive.s3selectpushdown.enabled,跨區(qū)讀取通過CDN加速,延遲<500ms。28.(簡(jiǎn)答)某車聯(lián)網(wǎng)場(chǎng)景,每日產(chǎn)生2TB時(shí)序數(shù)據(jù),需保留3年,給出基于InfluxDB2.7+S3的分層存儲(chǔ)方案,并說明查詢降級(jí)策略。答案:1.熱層:本地NVMe10TB,保留7天,shardduration=24h,壓縮算法=snappy;2.溫層:本地HDD50TB,保留90天,通過influxdbenterprise的datatiering自動(dòng)下沉;3.冷層:使用influxdbiox組件,數(shù)據(jù)以Parquet格式下沉至S3GlacierDeepArchive;4.查詢降級(jí):若查詢區(qū)間≤7天,直接查熱層,<200ms;7~90天,查溫層,<2s;>90天,查詢改寫為掃描S3Parquet,通過Athena建立外部表,預(yù)期30~60s;5.對(duì)頻繁查詢的老數(shù)據(jù),采用ondemandmaterializedview回寫溫層,避免重復(fù)掃描冷存。29.(綜合)某視頻APP日活1.2億,每秒上傳6萬條彈幕,要求實(shí)時(shí)統(tǒng)計(jì)過去1min各直播間彈幕量并展示排行榜,延遲<1s,高峰QPS80萬。請(qǐng)給出完整技術(shù)選型、表結(jié)構(gòu)、Flink拓?fù)?、并行度?jì)算及調(diào)優(yōu)參數(shù)。答案:技術(shù)選型:采集:客戶端→HTTP/2→Envoy→Kafka3.5,Topic按直播間hash取模128分區(qū);計(jì)算:Flink1.18onK8s,RockDBstatebackend,開啟unalignedcheckpoint;存儲(chǔ):Redis7.2cluster,hash結(jié)構(gòu),key=danmu:roomTop60,field=roomId,value=count;查詢:API網(wǎng)關(guān)+Lua腳本,直接讀Redis,本地緩存5ms。表結(jié)構(gòu):CREATETABLEdanmu_source(room_idBIGINT,msg_idSTRING,send_timeTIMESTAMP(3),WATERMARKFORsend_timeASsend_timeINTERVAL'1'SECOND)WITH('connector'='kafka','topic'='danmu','properties.group.id'='danmustats','scan.startup.mode'='latestoffset');Flink拓?fù)洌?.Source并行度=128,與Kafka分區(qū)一一對(duì)應(yīng);2.滾動(dòng)窗口1min,允許1s亂序;3.Aggregate并行度=128,使用增量聚合ReduceFunction<roomId,count>;4.Sink到Redis并行度=64,采用異步pipeline,batch=200,flushInterval=100ms。并行度計(jì)算:?jiǎn)畏謪^(qū)峰值6萬/128≈470條/s,1min窗口狀態(tài)約470×60≈28k條,內(nèi)存<50MB,128并發(fā)足夠;CPU2core/并發(fā),共需256core;K8s容器8core/pod,共32pod。調(diào)優(yōu)參數(shù):checkpoint:5s,minpause=3s,timeout=30s;state.backend.rocksdb.predefinedoptions=SPINNING_DISK_OPTIMIZED_HIGH_MEM;table.exec.minibatch.enabled=true,minibatch.size=1000,minibatch.allowlatency=200ms;網(wǎng)絡(luò)緩沖區(qū):work.memory.fraction=0.2;Redissink:lettuce.pool.maxactive=300,超時(shí)1s,重試2次。實(shí)測(cè)結(jié)果:端到端延遲P99850ms,Redis查詢P9918ms,高峰80萬QPS時(shí)RedisCPU62%,內(nèi)存命中率99.7%。30.(綜合)某省疾控中心構(gòu)建“傳染病多點(diǎn)觸發(fā)監(jiān)測(cè)”LakeHouse,數(shù)據(jù)源自醫(yī)院HIS、藥店P(guān)OS、學(xué)??记?、公共交通刷卡,日增量800GB,需支持秒級(jí)預(yù)警、OLAP多維分析、CDC回溯補(bǔ)錄。請(qǐng)給出基于Iceberg1.3+Kafka+Flink+Trino的完整數(shù)據(jù)鏈路,并說明如何做到“CDC補(bǔ)錄不阻塞實(shí)時(shí)流”。答案:1.數(shù)據(jù)接入:醫(yī)院HIS:Debezium→KafkaTopichis_binlog,分區(qū)60;藥店P(guān)OS:Canal→KafkaTopicpos_binlog,分區(qū)30;學(xué)??记冢篟EST→KafkaTopicschool,分區(qū)10;公交刷卡:Filebeat→KafkaTopictransit,分區(qū)50;2.實(shí)時(shí)層:Flink1.18CEP作業(yè)消費(fèi)his_binlog,規(guī)則:同一患者24h內(nèi)出現(xiàn)發(fā)熱+咳嗽+藥店購(gòu)?fù)藷?,觸發(fā)疑似信號(hào);信號(hào)寫入Kafkaalert,分區(qū)1,副本3,min.insync.replicas=2;預(yù)警API消費(fèi)alert,推送釘釘機(jī)器人,端到端<3s;3.LakeHouse:所有Topic通過FlinkSQL以u(píng)psert模式寫入Iceberg1.3表,格式=Parquet,壓縮=ZSTD,文件大小=256MB;表屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025浙江龍港市人才發(fā)展有限公司招聘文員1人考試參考題庫(kù)及答案解析
- 2025年漯河市人力資源和社會(huì)保障局所屬事業(yè)單位人才引進(jìn)1名考試參考題庫(kù)及答案解析
- 2025江蘇南京大學(xué)地理與海洋科學(xué)學(xué)院助理招聘筆試備考試題及答案解析
- 2025新疆塔城地區(qū)烏蘇市興融建設(shè)投資集團(tuán)有限責(zé)任公司招聘105人考試參考題庫(kù)及答案解析
- 綠色陽(yáng)臺(tái)設(shè)計(jì)及維護(hù)方案
- 產(chǎn)品質(zhì)量檢測(cè)崗職責(zé)及規(guī)范
- 五年級(jí)心理健康家庭教育課程設(shè)計(jì)
- 中考英語(yǔ)閱讀理解高分技巧及練習(xí)
- 電商客戶投訴處理流程實(shí)例
- 企業(yè)勞動(dòng)合同標(biāo)準(zhǔn)文本范本
- 機(jī)電設(shè)施設(shè)備安裝施工方案
- 2025年淮北市相山區(qū)公開招考村(社區(qū))后備干部66名考試筆試模擬試題及答案解析
- 柔性引才合同協(xié)議
- 2025中原農(nóng)業(yè)保險(xiǎn)股份有限公司招聘67人筆試考試參考試題及答案解析
- 研培中心遴選教研員歷年考試試題及答案2024
- 2025年戰(zhàn)略投資專員崗位招聘面試參考試題及參考答案
- 2025年小學(xué)教師素養(yǎng)大賽試題(含答案)
- 2025年國(guó)家開放大學(xué)《中國(guó)現(xiàn)代文學(xué)專題》形考任務(wù)試題與答案
- 軍事理論課指揮控制技術(shù)
- 2024年河北秦皇島市公安醫(yī)院招聘考試真題
- 事業(yè)單位會(huì)計(jì)面試熱點(diǎn)問題匯編
評(píng)論
0/150
提交評(píng)論