版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應用題庫及答案單選題(每題1分,共30分。每題只有一個正確答案,請將正確選項字母填入括號)1.在HDFS中,負責保存文件塊與DataNode映射關(guān)系的核心數(shù)據(jù)結(jié)構(gòu)是()A.FsImage?B.EditLog?C.BlockReport?D.Namespace2.下列哪一項不是Kafka的核心組件()A.Producer?B.Broker?C.ZooKeeper?D.NameNode3.SparkRDD的默認分區(qū)數(shù)由哪個參數(shù)決定()A.spark.default.parallelism?B.spark.sql.shuffle.partitions?C.spark.cores.max?D.spark.executor.instances4.在Flink中,用于實現(xiàn)端到端exactlyonce語義的關(guān)鍵機制是()A.Checkpoint?B.Savepoint?C.Window?D.Slot5.若某HBase表預分區(qū)數(shù)為16,RowKey采用“hash(prefix)+timestamp”策略,則理論上數(shù)據(jù)均勻分布時每個Region約占總數(shù)據(jù)量的()A.6.25%?B.12.5%?C.25%?D.50%6.下列關(guān)于Parquet文件格式的描述,錯誤的是()A.列式存儲?B.支持嵌套數(shù)據(jù)模型?C.與Avro無縫集成?D.不支持謂詞下推7.在Hive中,執(zhí)行“SELECTFROMTCLUSTERBYcol”語句時,底層會觸發(fā)()A.僅Map任務?B.Map+Reduce任務?C.僅Reduce任務?D.本地任務8.使用ScalaAPI創(chuàng)建SparkDataFrame時,下列代碼正確的是()A.spark.read.json(“hdfs://path”)?B.spark.json(“hdfs://path”)?C.spark.load.json(“hdfs://path”)?D.spark.read.format(“json”).load(“hdfs://path”)9.在Elasticsearch8.x中,默認取消使用的傳輸協(xié)議是()A.HTTP?B.TCP?C.TransportClient?D.RESTful10.某電商公司使用FlinkCEP檢測“用戶連續(xù)30秒內(nèi)瀏覽商品≥5次且未下單”事件,應選擇的模式量化詞是()A.times(5)?B.timesOrMore(5).within(Time.seconds(30))?C.oneOrMore.within(30)?D.times(5).followedBy(“unpaid”).within(30)11.在YARN容量調(diào)度器中,支持動態(tài)占用空閑資源的特性稱為()A.Preemption?B.ElasticQueue?C.DynamicShare?D.AutoQueue12.下列關(guān)于數(shù)據(jù)湖Iceberg的ACID特性,錯誤的是()A.支持行級更新?B.基于樂觀并發(fā)控制?C.依賴HiveMetastore?D.支持時間旅行查詢13.若某Spark任務提交參數(shù)為executormemory4gexecutorcores2,則單個executor最多可同時運行的task數(shù)為()A.1?B.2?C.4?D.814.在ClickHouse中,最適合做高基數(shù)去重的聚合函數(shù)是()A.uniq?B.uniqCombined?C.uniqExact?D.uniqHLL1215.使用Pythonpandas讀取1GBCSV文件時,為降低內(nèi)存占用,推薦使用的參數(shù)是()A.dtype=str?B.usecols?C.chunksize?D.nrows16.在Kafka2.8之后,可替代ZooKeeper的共識協(xié)議名稱是()A.KRaft?B.Raft?C.Zab?D.Paxos17.某Hadoop集群副本因子為3,DataNodeA宕機30分鐘后恢復,期間未發(fā)生數(shù)據(jù)寫入,則觸發(fā)的主要機制是()A.BlockReplication?B.Rebalancing?C.BlockReport?D.Heartbeat18.在SparkSQL中,將一列拆分為多行應使用的內(nèi)建函數(shù)是()A.split?B.explode?C.posexplode?D.inline19.下列關(guān)于數(shù)據(jù)治理框架ApacheAtlas的描述,正確的是()A.僅支持Hive血緣?B.使用MySQL存儲元數(shù)據(jù)?C.提供RESTAPI?D.不支持標簽策略20.在Prometheus監(jiān)控體系中,用于聚合5分鐘平均請求速率的函數(shù)表達式為()A.rate(http_requests_total[5m])?B.irate(http_requests_total[5m])?C.increase(http_requests_total[5m])?D.avg_over_time(http_requests_total[5m])21.某Flink任務并行度為6,Kafkatopic分區(qū)數(shù)為8,則消費端Subtask數(shù)為()A.6?B.8?C.48?D.222.在HBase過濾器中,用于匹配RowKey前綴的過濾器類是()A.SingleColumnValueFilter?B.PrefixFilter?C.RowFilter?D.QualifierFilter23.下列關(guān)于DeltaLake“OPTIMIZE”命令的描述,正確的是()A.僅合并小文件?B.觸發(fā)全量重寫?C.自動更新統(tǒng)計信息?D.會刪除歷史版本24.在SparkStructuredStreaming中,輸出模式“update”的含義是()A.每次輸出全量結(jié)果表?B.僅輸出與上次觸發(fā)相比變化的行?C.僅輸出新增行?D.不支持聚合查詢25.使用TensorFlowOnSpark訓練模型時,負責在YARN上申請資源的模塊是()A.TFNode?B.SparkContext?C.TensorFlow?D.ClusterSpec26.在數(shù)據(jù)倉庫分層理論中,DWD層主要完成()A.原始數(shù)據(jù)保留?B.明細數(shù)據(jù)清洗?C.維度建模?D.指標匯總27.某企業(yè)采用Lambda架構(gòu),其SpeedLayer主要使用()A.Hive?B.SparkStreaming?C.PostgreSQL?D.HDFS28.在Snowflake彈性數(shù)據(jù)倉庫中,負責查詢優(yōu)化的服務層稱為()A.CloudServices?B.QueryAccelerator?C.OptimizerEngine?D.MetadataStore29.下列關(guān)于GDPR“被遺忘權(quán)”的技術(shù)實現(xiàn),最合理的是()A.物理刪除所有副本?B.使用加密并銷毀密鑰?C.標記刪除并定期重寫?D.關(guān)閉集群30.在DataX離線同步任務中,控制并發(fā)channel數(shù)的參數(shù)是()A.job.setting.speed.channel?B.job.setting.speed.byte?C.job.content.reader.parameter.channel?D.job.content.writer.parameter.channel多選題(每題2分,共20分。每題至少有兩個正確答案,多選少選均不得分)31.下列屬于Flink狀態(tài)后端的有()A.MemoryStateBackend?B.FsStateBackend?C.RocksDBStateBackend?D.HDFSStateBackend32.以下哪些操作會導致SparkDAG出現(xiàn)寬依賴()A.groupByKey?B.reduceByKey?C.distinct?D.map33.在HBase中,可用于提升順序掃描性能的優(yōu)化手段包括()A.設(shè)置BloomFilter為ROWCOL?B.關(guān)閉BlockCache?C.啟用壓縮?D.設(shè)置TTL34.關(guān)于KafkaConsumerRebalance協(xié)議,下列說法正確的有()A.高版本使用Cooperative粘性協(xié)議?B.觸發(fā)條件包括分區(qū)數(shù)變化?C.會導致消費暫停?D.可通過partition.assignment.strategy配置35.下列屬于數(shù)據(jù)質(zhì)量維度指標的有()A.準確性?B.一致性?C.及時性?D.可擴展性36.在ClickHouse中,支持作為ReplacingMergeTree引擎參數(shù)的有()A.ver?B.deleted?C.partitionby?D.orderby37.以下哪些屬于SparkSQL提供的內(nèi)建開窗函數(shù)()A.row_number?B.rank?C.lag?D.concat_ws38.在數(shù)據(jù)湖架構(gòu)中,支持SchemaEvolution的存儲格式有()A.Avro?B.Parquet?C.ORC?D.JSON39.使用Airflow調(diào)度ETL時,可觸發(fā)DAG運行的方式包括()A.CLI?B.RESTAPI?C.時間調(diào)度?D.消息隊列40.下列關(guān)于華為MRS流式湖倉一體解決方案的描述,正確的有()A.支持Hudi?B.內(nèi)置HetuEngine?C.使用YARN統(tǒng)一資源?D.提供FlinkSQL作業(yè)模板填空題(每空1分,共20分)41.在Spark中,RDD的五大特征分別為____、____、____、____、____。42.HDFS默認塊大小為____MB,若副本因子為3,則每個塊最多存儲在____個DataNode。43.Kafka消息保留策略可通過參數(shù)____和____共同控制。44.Flink的Checkpoint屏障算法稱為____算法。45.在Hive中,將字符串“2025062012:30:45”轉(zhuǎn)換為時間戳的函數(shù)為____。46.Elasticsearch集群健康狀態(tài)三種顏色分別為____、____、____。47.數(shù)據(jù)治理中,用于唯一標識主數(shù)據(jù)的編碼稱為____。48.在Pythonpandas中,對DataFramedf按列col降序排序并取前10行的代碼為____。49.使用Linux命令統(tǒng)計HDFS目錄“/user/hive/warehouse/t”下文件總大小的命令為____。50.在YARN中,ApplicationMaster向ResourceManager申請資源的RPC協(xié)議接口為____。51.若某Parquet文件壓縮比為5:1,原始CSV大小為100GB,則理論上Parquet大小為____GB。52.在SparkMLlib中,特征向量assembler類名為____。53.HBaseRegion分裂的觸發(fā)條件之一為StoreFile大小超過____。54.在FlinkSQL中,聲明一個持續(xù)5秒的滾動窗口語法為____。55.數(shù)據(jù)血緣的三種基本類型為____、____、____。56.使用Grafana添加Prometheus數(shù)據(jù)源時,默認訪問路徑為____。57.在DeltaLake中,查看表歷史版本的SQL命令為____。58.若ClickHouse單節(jié)點MergeTree表每日新增10億行,平均行大小64B,則每日新增存儲約____GB。59.在數(shù)據(jù)安全分級中,CC標準EAL4級對應____保障級別。60.使用Sqoop將MySQL表導入HDFS時,指定并行度為4的參數(shù)為____。判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)61.SparkSQL的catalyst優(yōu)化器支持基于代價的優(yōu)化。()62.HBase中刪除數(shù)據(jù)會立即釋放磁盤空間。()63.Kafka的partition副本因子可以動態(tài)調(diào)大。()64.Flink的keyBy操作一定產(chǎn)生網(wǎng)絡shuffle。()65.Parquet文件不支持列級壓縮算法不同。()66.在Hive3.0之后,已廢棄MapReduce執(zhí)行引擎。()67.Elasticsearch集群增加節(jié)點后,分片會自動再平衡。()68.使用DataX進行異構(gòu)同步時,reader和writer必須一一對應。()69.在YARN公平調(diào)度器中,可設(shè)置最小資源保證。()70.數(shù)據(jù)湖與數(shù)據(jù)倉庫的本質(zhì)區(qū)別在于是否支持結(jié)構(gòu)化數(shù)據(jù)。()簡答題(共30分)71.(封閉型,6分)簡述Spark廣播變量的實現(xiàn)原理,并說明使用場景。72.(封閉型,6分)列舉Flink實現(xiàn)端到端exactlyonce語義的三要素,并簡要說明各自作用。73.(開放型,8分)某省政務大數(shù)據(jù)平臺需整合公安、社保、稅務三部門數(shù)據(jù),存在數(shù)據(jù)標準不一、更新頻率不同、敏感字段混雜等問題,請給出數(shù)據(jù)治理實施步驟及技術(shù)選型建議。74.(封閉型,5分)寫出HDFS寫數(shù)據(jù)完整流程,并指出packet默認大小。75.(開放型,5分)說明ClickHouse為何在OLAP場景下性能優(yōu)異,至少從存儲和計算兩方面分析。應用題(共40分)76.(計算類,10分)某電商公司使用SparkSQL統(tǒng)計每日GMV,事實表order_detail(分區(qū)dt,字段order_id,sku_id,price,qty,discount)記錄約20億條,平均行大小80B;維度表sku_info(字段sku_id,category)記錄500萬條,平均行大小200B。集群executor總內(nèi)存200GB,executor數(shù)50,每個executor4cores。請計算:(1)僅考慮內(nèi)存,估算廣播join閾值上限(MB);(2)若采用shufflejoin,估算shuffleread總數(shù)據(jù)量(GB);(3)指出優(yōu)化思路并給出代碼片段(使用Scala或SQL)。77.(分析類,10分)給定Kafkatopic:user_behavior,分區(qū)10,日均消息1000萬條,峰值QPS2萬,消息平均大小2KB。消費者采用Flink,checkpoint間隔30秒,狀態(tài)后端RocksDB,狀態(tài)大小約8GB。請分析:(1)評估Kafka集群最小broker數(shù)(假設(shè)單broker寫入吞吐150MB/s);(2)若Flink任務并行度為12,計算checkpoint對Kafkabroker的額外讀負載(MB/s);(3)給出降低checkpoint耗時的配置參數(shù)。78.(綜合類,20分)某市智慧交通項目需實時統(tǒng)計各路口最近5分鐘車流量,要求延遲≤1分鐘,歷史數(shù)據(jù)保存3年,日均增量100GB。數(shù)據(jù)源為路口攝像頭抓拍的JSON日志(字段:crossing_id,camera_no,plate_no,pass_time,lane_no,vehicle_type),需完成去重(同一車牌10分鐘內(nèi)重復經(jīng)過不計),并支持按車道、車型、時段多維分析。請完成:(1)畫出技術(shù)架構(gòu)圖(文字描述即可);(2)給出Flink核心代碼(Java/Scala均可),包括數(shù)據(jù)清洗、去重邏輯、窗口計算;(3)說明存儲選型及分區(qū)策略;(4)給出基于Superset的可視化配置要點;(5)說明如何驗證數(shù)據(jù)質(zhì)量,列舉三項指標及檢測方法。答案單選:1C2D3A4A5A6D7B8D9C10B11B12C13B14C15C16A17C18B19C20A21A22B23C24B25A26B27B28A29C30A多選:31ABC32ABC33BC34ABCD35ABC36AD37ABC38ABC39ABCD40ABCD填空:41.分區(qū)、不可變、可并行、容錯、位置感知42.128;343.log.retention.hours;log.retention.bytes44.ChandyLamport45.unix_timestamp46.green;yellow;red47.主數(shù)據(jù)編碼(或MDM編碼)48.df.sort_values(“col”,ascending=False).head(10)49.hdfsdfsdush/user/hive/warehouse/t50.ApplicationMasterProtocol51.2052.VectorAssembler53.hbase.hregion.max.filesize(默認10GB)54.TUMBLE(ts,INTERVAL‘5’SECOND)55.前向血緣;后向血緣;橫向血緣56.http://prometheus:909057.DESCRIBEHISTORYtable_name58.6459.系統(tǒng)級60.m4判斷:61√62×63√64√65×66×67√68×69√70×簡答要點:71.Driver將廣播變量序列化后切分block,通過TorrentBroadcast塊管理器分發(fā)到executor,task運行時本地讀??;適用于小表join、機器學習特征字典等。72.1.Checkpoint:分布式快照;2.Twophasecommit:外部系統(tǒng)原子提交;3.可重放數(shù)據(jù)源:如Kafka。73.步驟:1.組織牽頭成立治理委員會;2.制定統(tǒng)一數(shù)據(jù)標準(命名、編碼、口徑);3.技術(shù)選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁電解工安全管理評優(yōu)考核試卷含答案
- 礦井泵工崗前班組安全考核試卷含答案
- 稀土發(fā)光材料工崗前理論能力考核試卷含答案
- 滴丸工安全意識強化水平考核試卷含答案
- 電線電纜拉制工操作知識評優(yōu)考核試卷含答案
- 軋制加熱工風險評估競賽考核試卷含答案
- 2024年湖南農(nóng)業(yè)大學東方科技學院輔導員考試參考題庫附答案
- 水解酵母干燥工崗前活動策劃考核試卷含答案
- 品牌資產(chǎn)評價師崗前實操知識考核試卷含答案
- 丁二酸裝置操作工8S考核試卷含答案
- 重慶市智慧園林綠化管理信息系統(tǒng)-可行性研究報告(國信咨詢)
- 污水處理銷售工作總結(jié)
- 迎接期末+做自己的英雄 高二上學期心理健康教育主題班會
- TRIZ-阿奇舒勒矛盾矩陣表格
- GB/T 4074.5-2024繞組線試驗方法第5部分:電性能
- 招標代理服務服務方案
- 氣體制劑機械相關(guān)項目可行性研究分析報告
- 食堂外包監(jiān)督管理制度
- 頂板離層儀管理規(guī)定
- 長輸管道施工技術(shù)(完整版)
- 生態(tài)農(nóng)場設(shè)計課件
評論
0/150
提交評論