版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年大數(shù)據(jù)技術(shù)應(yīng)用考試試卷及答案一、單項(xiàng)選擇題(每題2分,共20分。每題只有一個(gè)正確答案,請(qǐng)將正確選項(xiàng)字母填入括號(hào)內(nèi))1.在Hadoop生態(tài)中,負(fù)責(zé)將Map任務(wù)輸出按Key進(jìn)行全局排序并傳輸給Reduce任務(wù)的組件是()A.HDFSB.YARNC.ShuffleD.Hive答案:C2.某電商公司使用SparkSQL對(duì)商品點(diǎn)擊日志進(jìn)行去重,若采用dropDuplicates(),其底層默認(rèn)使用的去重算法是()A.布隆過(guò)濾器B.排序合并C.哈希分區(qū)+排序D.位圖索引答案:C3.下列關(guān)于KafkaPartition副本Leader選舉的說(shuō)法,正確的是()A.由ZooKeeper直接指定新LeaderB.由Controller在ISR列表中選擇C.由Producer客戶端投票決定D.由消費(fèi)組協(xié)調(diào)器決定答案:B4.在Flink中,當(dāng)設(shè)置并行度為8,使用EventTime語(yǔ)義并開(kāi)啟Watermark,窗口長(zhǎng)度為5s,允許延遲3s,則觸發(fā)計(jì)算的時(shí)刻為()A.窗口結(jié)束時(shí)間B.窗口結(jié)束時(shí)間+3sC.水印時(shí)間≥窗口結(jié)束時(shí)間D.水印時(shí)間≥窗口結(jié)束時(shí)間+3s答案:C5.某企業(yè)使用HBase存儲(chǔ)訂單數(shù)據(jù),RowKey設(shè)計(jì)為“userId+timestamp”,預(yù)分區(qū)數(shù)量為16,則下列會(huì)導(dǎo)致熱點(diǎn)寫問(wèn)題的操作是()A.批量導(dǎo)入最近7天訂單B.按userId范圍查詢C.對(duì)老數(shù)據(jù)做major_compactD.增加預(yù)分區(qū)到32答案:A6.在數(shù)據(jù)倉(cāng)庫(kù)分層中,DWD層的主要作用是()A.保存原始日志B.輕度匯總C.明細(xì)清洗與規(guī)范化D.面向主題匯總答案:C7.使用Python的Pandas讀取1TBCSV文件時(shí),最佳實(shí)踐是()A.使用read_csv()一次性加載B.使用chunksize分塊讀取C.先轉(zhuǎn)換為Excel再讀取D.使用pickle序列化后讀取答案:B8.某機(jī)器學(xué)習(xí)平臺(tái)使用Alluxio作為分布式緩存,其緩存替換策略默認(rèn)為()A.FIFOB.LRUC.LFUD.Random答案:B9.在數(shù)據(jù)治理元數(shù)據(jù)管理中,描述“字段含義、業(yè)務(wù)口徑”的元數(shù)據(jù)屬于()A.技術(shù)元數(shù)據(jù)B.操作元數(shù)據(jù)C.業(yè)務(wù)元數(shù)據(jù)D.管理元數(shù)據(jù)答案:C10.某市交通大腦項(xiàng)目采用Lambda架構(gòu),下列組件組合中,SpeedLayer最合理的是()A.Flume+HiveB.Kafka+FlinkC.Sqoop+HDFSD.Spark+Mysql答案:B二、多項(xiàng)選擇題(每題3分,共15分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)11.下列措施可有效降低HDFSNameNode內(nèi)存壓力的有()A.開(kāi)啟聯(lián)邦HDFSB.使用HDFSErasureCodingC.縮短Block匯報(bào)間隔D.啟用目錄快照E.增加DataNode磁盤容量答案:A、B12.關(guān)于SparkRDD的依賴關(guān)系,下列說(shuō)法正確的有()A.Narrow依賴可支持Pipeline計(jì)算B.Wide依賴一定發(fā)生ShuffleC.join操作一定是Wide依賴D.map操作是Narrow依賴E.coalesce(100,shuffle=true)不會(huì)產(chǎn)生Shuffle答案:A、B、D13.在數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則中,屬于“一致性”維度的校驗(yàn)有()A.主鍵唯一B.外鍵引用完整性C.編碼標(biāo)準(zhǔn)統(tǒng)一D.數(shù)值范圍合理E.單位換算一致答案:B、C、E14.下列關(guān)于FlinkCheckpoint與Savepoint的描述,正確的有()A.Checkpoint由Flink自動(dòng)觸發(fā)B.Savepoint可手動(dòng)觸發(fā)并帶可移植性C.兩者均使用Barrie機(jī)制D.恢復(fù)時(shí)Savepoint必須依賴原集群E.增量Checkpoint可減少存儲(chǔ)量答案:A、B、C、E15.某金融公司使用TensorFlowonKubernetes訓(xùn)練模型,下列屬于TFJobCRD支持的任務(wù)模式有()A.SingleB.MultiWorkerC.ParameterServerD.MPIE.MirroredStrategy答案:A、B、C三、填空題(每空2分,共20分)16.Hadoop3.x默認(rèn)的塊大小為_(kāi)_______MB,相比2.x的128MB可顯著降低________的開(kāi)銷。答案:256,NameNode內(nèi)存17.在Spark中,RDD的________函數(shù)用于將分區(qū)數(shù)據(jù)持久化到內(nèi)存,而________函數(shù)用于釋放持久化。答案:persist,unpersist18.Kafka的Consumer采用________機(jī)制實(shí)現(xiàn)負(fù)載均衡,當(dāng)新增消費(fèi)者時(shí),會(huì)觸發(fā)________再均衡。答案:GroupCoordinator,Rebalance19.數(shù)據(jù)治理中的“4V”特征指Volume、Velocity、Variety與________,其中________維度最關(guān)注數(shù)據(jù)價(jià)值密度。答案:Veracity,Value20.某時(shí)序數(shù)據(jù)庫(kù)采用LSMTree存儲(chǔ)引擎,寫入流程先寫入________,再異步刷入________,通過(guò)________策略合并文件。答案:MemTable,SSTable,Compaction四、判斷題(每題1分,共10分。正確打“√”,錯(cuò)誤打“×”)21.ORCFile格式支持字段級(jí)別的壓縮算法獨(dú)立設(shè)置。()答案:√22.Flink的TableAPI中,如果定義ProcessingTime屬性,必須在DDL中聲明proctime.timeattribute。()答案:√23.HBase的RegionServer崩潰后,由ZooKeeper直接將其負(fù)責(zé)的Region遷移到其他RegionServer。()答案:×24.在數(shù)據(jù)湖Iceberg中,快照過(guò)期策略只能按時(shí)間維度回收,不能按快照數(shù)量回收。()答案:×25.SparkStructuredStreaming的ForeachSink保證每條記錄僅被處理一次,無(wú)需額外代碼實(shí)現(xiàn)冪等。()答案:×26.使用HiveonTez執(zhí)行SQL時(shí),開(kāi)啟VectorizedQuery可提升批處理性能。()答案:√27.在ClickHouse中,MergeTree引擎表必須指定ORDERBY字段,且不能為空。()答案:√28.數(shù)據(jù)血緣追蹤時(shí),SQL解析器通過(guò)AST可識(shí)別字段級(jí)血緣,但無(wú)法識(shí)別常量字段的血緣。()答案:×29.使用Airflow調(diào)度Spark任務(wù)時(shí),可通過(guò)XCom實(shí)現(xiàn)Task間傳遞RDD對(duì)象。()答案:×30.在Gartner2024年發(fā)布的HyperCycle中,DataFabric已進(jìn)入生產(chǎn)力平穩(wěn)期。()答案:√五、簡(jiǎn)答題(封閉型,每題6分,共18分)31.簡(jiǎn)述HDFS聯(lián)邦架構(gòu)中BlockPool與NameSpace的關(guān)系,并說(shuō)明其如何解決單NameNode瓶頸。答案:BlockPool是每個(gè)NameNode獨(dú)立管理的塊集合,NameSpace是文件系統(tǒng)目錄樹(shù);聯(lián)邦通過(guò)多個(gè)NameNode共享DataNode存儲(chǔ),但各自維護(hù)BlockPool,從而水平擴(kuò)展元數(shù)據(jù)處理能力,解決單NameNode內(nèi)存與RPC瓶頸。32.Spark3.0引入AdaptiveQueryExecution(AQE)的三大優(yōu)化點(diǎn)是什么?答案:動(dòng)態(tài)合并Shuffle分區(qū)、動(dòng)態(tài)調(diào)整Join策略、動(dòng)態(tài)優(yōu)化傾斜數(shù)據(jù)分區(qū)。33.寫出Flink實(shí)現(xiàn)ExactlyOnce語(yǔ)義的兩階段提交(2PC)核心步驟。答案:1)預(yù)提交階段:JobManager向Source觸發(fā)Checkpointbarrier,Source寫入外部系統(tǒng)事務(wù)并返回預(yù)提交句柄;2)提交階段:當(dāng)所有算子完成快照,JobManager通知Source提交事務(wù);若失敗則統(tǒng)一回滾。六、簡(jiǎn)答題(開(kāi)放型,每題10分,共20分)34.某省政務(wù)大數(shù)據(jù)平臺(tái)需整合公安、交通、衛(wèi)健等30個(gè)廳局?jǐn)?shù)據(jù),日均增量5TB,存在標(biāo)準(zhǔn)不統(tǒng)一、更新頻率差異大、敏感字段多等問(wèn)題。請(qǐng)從“數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)服務(wù)”四個(gè)維度給出可落地的技術(shù)方案與實(shí)施步驟,要求列出關(guān)鍵組件、治理流程與衡量指標(biāo)。答案:1)數(shù)據(jù)集成:采用Flume+Kafka+CDC構(gòu)建實(shí)時(shí)/離線雙通道,使用FlinkSQL統(tǒng)一清洗,建立省廳局前置機(jī),通過(guò)DataX批量同步歷史數(shù)據(jù);元數(shù)據(jù)采用ApacheAtlas自動(dòng)采集,建立數(shù)據(jù)字典。2)數(shù)據(jù)質(zhì)量:配置Griffin規(guī)則庫(kù),按完整性、一致性、準(zhǔn)確性、及時(shí)性四維度每日掃描,生成質(zhì)量評(píng)分;對(duì)問(wèn)題數(shù)據(jù)觸發(fā)Airflow重跑流程,質(zhì)量分低于85自動(dòng)告警。3)數(shù)據(jù)安全:使用Ranger+Kerberos做細(xì)粒度權(quán)限,敏感字段按國(guó)標(biāo)GB/T35273脫敏,采用AES256加密存儲(chǔ),傳輸通道開(kāi)啟TLS1.3;建立數(shù)據(jù)分級(jí)分類臺(tái)賬,核心數(shù)據(jù)走政務(wù)內(nèi)網(wǎng)。4)數(shù)據(jù)服務(wù):構(gòu)建DataAPI網(wǎng)關(guān),基于SpringCloudGateway+Redis限流,提供Rest/GraphQL接口;對(duì)外服務(wù)SLA≥99.9%,平均響應(yīng)<500ms;通過(guò)Prometheus+Grafana監(jiān)控,每季度發(fā)布治理白皮書。35.某頭部短視頻公司推薦系統(tǒng)日均日志800TB,特征維度達(dá)200億,模型需小時(shí)級(jí)更新。請(qǐng)?jiān)O(shè)計(jì)一套“離線+近線+在線”三層特征平臺(tái),說(shuō)明存儲(chǔ)選型、計(jì)算鏈路、一致性保障及成本優(yōu)化措施,并評(píng)估方案在峰值QPS80萬(wàn)下的延遲與資源消耗。答案:離線層:基于Spark3+Iceberg構(gòu)建特征湖,按H+1更新,存儲(chǔ)采用ErasureCoding,冷數(shù)據(jù)存放到OSS,壓縮比提升40%;計(jì)算資源使用Spot實(shí)例,成本降低55%。近線層:使用FlinkCEP解析用戶行為,特征窗口1min,結(jié)果寫入RedisCluster(單分片8G,共1024分片),采用RDB+AOF混合持久化,開(kāi)啟Key淘汰TTL=6h。在線層:自研特征服務(wù)FSRV,基于C++實(shí)現(xiàn),內(nèi)置布隆過(guò)濾器,本地SSD緩存熱點(diǎn)特征,命中率保持96%;通過(guò)gRPC對(duì)外提供P99延遲<5ms。一致性:離線到近線采用Kafka+Checkpoit兩階段提交,近線到在線通過(guò)版本號(hào)機(jī)制,特征版本不一致時(shí)回退上一版本。峰值評(píng)估:80萬(wàn)QPS下,Redis需1024×8核,帶寬≈640Gb/s,F(xiàn)link并行度設(shè)為4096,內(nèi)存12TB,CPU50萬(wàn)核,整體成本約每日18萬(wàn)元,可通過(guò)彈性伸縮降至12萬(wàn)元。七、應(yīng)用題(計(jì)算類,共15分)36.某電商大促期間,運(yùn)營(yíng)人員將用戶行為寬表導(dǎo)入ClickHouse,表結(jié)構(gòu)如下:UserIDUInt64,ItemIDUInt64,EventTypeString,EventTimeDateTime,PriceFloat64,分區(qū)字段為toYYYYMMDD(EventTime),主鍵(UserID,EventTime)。數(shù)據(jù)量:90億行,平均行寬60B,存儲(chǔ)時(shí)長(zhǎng)30天。(1)計(jì)算原始數(shù)據(jù)所需磁盤空間(單位TB),假設(shè)ClickHouse默認(rèn)壓縮比為6。(5分)(2)若采用TTL策略只保留最近7天,計(jì)算可節(jié)省空間比例。(3分)(3)現(xiàn)需按ItemID計(jì)算最近3天銷售額Top100,寫出最優(yōu)SQL并估算執(zhí)行耗時(shí)(CPU64核,內(nèi)存256G,SSDRAID0)。(7分)答案:(1)90億×60B=5.4TB,壓縮后5.4/6=0.9TB。(2)節(jié)省比例=(307)/30=76.7%。(3)SQL:SELECTItemID,sumPriceFROM(SELECTItemID,sum(Price)ASsumPriceFROMuser_eventWHEREEventTime>=subtractDays(now(),3)ANDEventType='buy'GROUPBYItemID)ORDERBYsumPriceDESCLIMIT100SETTINGSmax_threads=64,max_memory_usage=200000000000;估算:3天數(shù)據(jù)≈0.9×(3/30)=0.09TB,列存掃描+聚合約需5s。八、應(yīng)用題(分析類,共12分)37.某運(yùn)營(yíng)商信令數(shù)據(jù)出現(xiàn)“用戶位置漂移”異常:同一用戶5s內(nèi)基站距離>100km。給定流數(shù)據(jù)字段:IMSI,Time,Lac,Cell,Lon,Lat。(1)設(shè)計(jì)基于Flink的實(shí)時(shí)異常檢測(cè)算法,要求給出關(guān)鍵代碼片段(Java或Scala),并說(shuō)明窗口、水印、狀態(tài)后端設(shè)置。(6分)(2)若每天異常記錄約200萬(wàn)條,需存入Elasticsearch供可視化,寫出索引模板與Mapping設(shè)計(jì),并評(píng)估Shard數(shù)量及寫入瓶頸。(6分)答案:(1)DataStream<Signal>stream=env.addSource(newFlinkKafkaConsumer<>("signal",schema,props)).assignTimestampsAndWatermarks(WatermarkStrategy.<Signal>forBoundedOutOfOrderness(Duration.ofSeconds(3)).withTimestampAssigner((e,t)>e.getTime())).keyBy(Signal::getImsi).process(newKeyedProcessFunction<String,Signal,Alert>(){privateValueState<Signal>lastState;publicvoidopen(Configurationc){lastState=getRuntimeContext().getState(newValueStateDescriptor<>("last",Signal.class));}publicvoidprocessElement(Signalcurr,Contextctx,Collector<Alert>out)throwsException{Signallast=lastState.value();if(last!=null){doubledist=haversine(last.getLon(),last.getLat(),curr.getLon(),curr.getLat());longdeltaT=curr.getTime()last.getTime();if(deltaT<5000&&dist>100000){out.collect(newAlert(curr.getImsi(),"drift",dist,deltaT));}}lastState.update(curr);}});狀態(tài)后端:RocksDBStateBackend,增量Checkpoint開(kāi)啟,內(nèi)存設(shè)定8G。(2)索引模板:PUT_template/signal_alert{"index_patterns":["signal_alert"],"settings":{"number_of_shards":6,"number_of_replicas":1,"refresh_interval":"30s"},"mappings":{"properties":{"imsi":{"type":"keyword"},"alert_type":{"type":"keyword"},"distance":{"type":"integer"},"delta_t":{"type":"integer"},"@timestamp":{"type":"date"}}}}評(píng)估:200萬(wàn)×60B≈120MB/天,單Shard最大50G,6Shard可支持5年;寫入瓶頸為ES集群磁盤IOPS,SSD下可穩(wěn)態(tài)寫入3萬(wàn)條/s,遠(yuǎn)高于峰值。九、綜合設(shè)計(jì)題(共20分)38.某跨國(guó)物流企業(yè)計(jì)劃構(gòu)建全球數(shù)據(jù)湖,覆蓋200個(gè)國(guó)家,區(qū)域法規(guī)要求歐盟數(shù)據(jù)不出境,東南亞數(shù)據(jù)需低延遲共享,北美數(shù)據(jù)需支持HIPAA審計(jì)。(1)設(shè)計(jì)多云數(shù)據(jù)湖架構(gòu),畫出邏輯拓?fù)?,?biāo)注數(shù)據(jù)分區(qū)、網(wǎng)絡(luò)鏈路、合規(guī)組件。(8分)(2)給出數(shù)據(jù)同步、加密、審計(jì)、刪除四個(gè)環(huán)節(jié)的實(shí)現(xiàn)方案,要求組件開(kāi)源、可審計(jì)、支持自動(dòng)化。(6分)(3)評(píng)估該架構(gòu)在同時(shí)滿足GDPR、HIPAA、PDPA三項(xiàng)法規(guī)下的年度合規(guī)成本(人力+資源)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 刀剪制作工創(chuàng)新應(yīng)用測(cè)試考核試卷含答案
- 電工安全實(shí)踐水平考核試卷含答案
- 磨具制造工安全技能測(cè)試強(qiáng)化考核試卷含答案
- 電力電容器及其成套裝置裝配工操作安全競(jìng)賽考核試卷含答案
- 2024年山西醫(yī)藥學(xué)院輔導(dǎo)員考試參考題庫(kù)附答案
- 2024年沈陽(yáng)機(jī)械工業(yè)職工大學(xué)輔導(dǎo)員考試筆試題庫(kù)附答案
- 有色金屬熔池熔煉爐工崗前基礎(chǔ)技能考核試卷含答案
- 水生動(dòng)物病害防治員達(dá)標(biāo)水平考核試卷含答案
- 家用電子產(chǎn)品維修工操作知識(shí)水平考核試卷含答案
- 腈綸聚合操作工安全知識(shí)評(píng)優(yōu)考核試卷含答案
- Tesla:如何設(shè)計(jì)48V汽車?-2025-01-技術(shù)資料
- 變壓器轉(zhuǎn)讓協(xié)議書范本的樣本
- 道閘施工方案
- 脫鹽水裝置操作規(guī)程
- 湖南省張家界市永定區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 2023-2024學(xué)年江西省贛州市章貢區(qū)文清實(shí)驗(yàn)學(xué)校數(shù)學(xué)六年級(jí)第一學(xué)期期末經(jīng)典模擬試題含答案
- 事業(yè)單位考察材料范文
- DB36-T 1158-2019 風(fēng)化殼離子吸附型稀土礦產(chǎn)地質(zhì)勘查規(guī)范
- 周圍神經(jīng)損傷及炎癥康復(fù)診療規(guī)范
- 青海工程建設(shè)監(jiān)理統(tǒng)一用表
評(píng)論
0/150
提交評(píng)論