版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題答案一、單項(xiàng)選擇題(每題1分,共20分。每題只有一個(gè)正確答案,請(qǐng)將正確選項(xiàng)的字母填入括號(hào)內(nèi))1.下列哪一項(xiàng)最能準(zhǔn)確描述大數(shù)據(jù)的“4V”特征?A.Volume、Velocity、Variety、ValueB.Volume、Velocity、Variety、VeracityC.Volume、Velocity、Virtualization、ValueD.Volume、Velocity、Variety、Visibility答案:B2.在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是:A.HDFSB.MapReduceC.YARND.Hive答案:C3.某電商公司每日新增日志2TB,保存周期90天,采用HDFS三副本策略,則存儲(chǔ)裸容量約為:A.180TBB.360TBC.540TBD.720TB答案:C4.Spark相比MapReduce性能提升的核心原因是:A.采用SSD存儲(chǔ)B.引入DAG內(nèi)存計(jì)算C.使用10Gb網(wǎng)絡(luò)D.支持SQL接口答案:B5.Kafka中保證消息順序性的最小粒度單元是:A.BrokerB.TopicC.PartitionD.ConsumerGroup答案:C6.在數(shù)據(jù)倉庫分層模型中,最接近原始日志的一層是:A.DWDB.DWSC.ODSD.ADS答案:C7.下列算法中,屬于聚類算法的是:A.AprioriB.KMeansC.C4.5D.PageRank答案:B8.若某HDFS塊大小為128MB,文件大小為1GB,則理論塊數(shù)量為:A.7B.8C.9D.10答案:B9.在Flink的時(shí)間語義中,事件時(shí)間是指:A.數(shù)據(jù)進(jìn)入Flink系統(tǒng)的時(shí)間B.數(shù)據(jù)被窗口算子處理的時(shí)間C.事件在源端實(shí)際發(fā)生的時(shí)間D.數(shù)據(jù)被Sink寫出時(shí)間答案:C10.下列哪項(xiàng)不是數(shù)據(jù)傾斜的常見解決手段?A.兩階段聚合B.加鹽重分區(qū)C.提高并行度D.增加副本數(shù)答案:D11.在HiveSQL中,用于將多行合并成一行的函數(shù)是:A.explodeB.concatC.collect_listD.lateralview答案:C12.某推薦系統(tǒng)采用協(xié)同過濾,若用戶物品評(píng)分矩陣極度稀疏,最直接的副作用是:A.冷啟動(dòng)B.過擬合C.高延遲D.高內(nèi)存占用答案:A13.在數(shù)據(jù)治理體系中,負(fù)責(zé)定義“同一客戶只能有一個(gè)會(huì)員ID”的規(guī)則屬于:A.元數(shù)據(jù)管理B.主數(shù)據(jù)管理C.數(shù)據(jù)血緣D.數(shù)據(jù)安全答案:B14.下列哪種壓縮格式支持切片(split)?A.gzipB.bzip2C.lz4D.snappy答案:B15.在Spark中,以下哪種操作一定會(huì)觸發(fā)寬依賴?A.mapB.filterC.unionD.groupByKey答案:D16.某集群共100節(jié)點(diǎn),每節(jié)點(diǎn)12塊硬盤,單盤4TB,采用HDFS三副本,則有效存儲(chǔ)容量約為:A.1200TBB.1600TBC.2400TBD.4800TB答案:B17.在數(shù)據(jù)湖架構(gòu)中,提供ACID事務(wù)能力的開源組件是:A.DeltaLakeB.FlumeC.SqoopD.ZooKeeper答案:A18.下列關(guān)于布隆過濾器的說法正確的是:A.可精確判斷元素存在B.刪除操作成本極低C.存在假陽性,無假陰性D.采用哈希鏈表結(jié)構(gòu)答案:C19.在機(jī)器學(xué)習(xí)流水線中,對(duì)類別變量進(jìn)行OneHot編碼主要解決:A.量綱不一致B.高基數(shù)C.有序性D.缺失值答案:A20.某企業(yè)采用數(shù)據(jù)網(wǎng)格(DataMesh)架構(gòu),其核心治理原則是:A.集中式數(shù)據(jù)湖B.領(lǐng)域所有權(quán)C.單一團(tuán)隊(duì)負(fù)責(zé)D.統(tǒng)一物理模型答案:B二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)21.以下屬于Hadoop3.x新特性的有:A.糾刪碼B.NameNode聯(lián)邦C.YARN資源搶占D.支持GPU調(diào)度答案:A、D22.下列哪些場(chǎng)景適合使用流處理框架Flink?A.實(shí)時(shí)欺詐檢測(cè)B.離線日?qǐng)?bào)生成C.實(shí)時(shí)訂單統(tǒng)計(jì)D.秒級(jí)異常告警答案:A、C、D23.關(guān)于Hive與Impala的描述,正確的有:A.Hive基于MapReduce,延遲高B.Impala基于MPP,延遲低C.Hive支持UDFD.Impala不支持SerDe答案:A、B、C24.數(shù)據(jù)傾斜可能導(dǎo)致的后果包括:A.任務(wù)卡死B.節(jié)點(diǎn)宕機(jī)C.處理時(shí)間劇增D.輸出文件大小不一答案:A、C、D25.以下屬于NoSQL數(shù)據(jù)庫的有:A.HBaseB.MongoDBC.CassandraD.OracleRAC答案:A、B、C26.在Spark調(diào)優(yōu)中,以下哪些做法可以減少GC壓力?A.使用Kryo序列化B.提高executor內(nèi)存C.減少shuffle分區(qū)D.使用offheap存儲(chǔ)答案:A、B、D27.下列哪些技術(shù)可以實(shí)現(xiàn)“ExactlyOnce”語義?A.Kafka事務(wù)消息B.Flink兩階段提交C.SparkStreaming的receiver模式D.Pulsar事務(wù)答案:A、B、D28.關(guān)于數(shù)據(jù)血緣的作用,正確的有:A.追蹤指標(biāo)來源B.影響分析C.降低存儲(chǔ)成本D.輔助合規(guī)審計(jì)答案:A、B、D29.以下屬于數(shù)據(jù)質(zhì)量維度的是:A.準(zhǔn)確性B.一致性C.及時(shí)性D.可擴(kuò)展性答案:A、B、C30.在構(gòu)建用戶畫像時(shí),可用于人口屬性推斷的數(shù)據(jù)有:A.收貨地址B.瀏覽時(shí)段C.設(shè)備型號(hào)D.搜索關(guān)鍵詞答案:A、B、C、D三、填空題(每空1分,共20分)31.HDFS默認(rèn)塊大小為________MB,Hadoop3.x支持的最大塊大小為________MB。答案:128;51232.Spark任務(wù)提交命令中,參數(shù)numexecutors用于設(shè)置________數(shù)量。答案:Executor33.Kafka通過________機(jī)制實(shí)現(xiàn)消費(fèi)者組內(nèi)負(fù)載均衡。答案:Partition再均衡(Rebalance)34.在數(shù)據(jù)倉庫維度建模中,________表用于存儲(chǔ)業(yè)務(wù)過程的度量值。答案:事實(shí)35.若某表每日增量800萬行,平均行長1KB,保存365天,則原始數(shù)據(jù)約________TB。答案:2.9236.Flink的Checkpoint機(jī)制基于________算法實(shí)現(xiàn)分布式快照。答案:ChandyLamport37.在Hive中,設(shè)置動(dòng)態(tài)分區(qū)開關(guān)的參數(shù)為________。答案:hive.exec.dynamic.partition38.數(shù)據(jù)湖與數(shù)據(jù)倉庫的最大區(qū)別是________先行。答案:Schemaonread39.在機(jī)器學(xué)習(xí)中,________曲線用于評(píng)估分類模型的閾值選擇。答案:ROC40.某電商大促期間QPS峰值20萬,若采用32核128GB節(jié)點(diǎn),單節(jié)點(diǎn)可支撐1萬QPS,則理論需________臺(tái)節(jié)點(diǎn)。答案:2041.在SparkSQL中,函數(shù)date_sub用于日期________操作。答案:減法42.HBase的Region分裂觸發(fā)條件之一是Region大小超過________閾值。答案:hbase.hregion.max.filesize43.在數(shù)據(jù)治理中,________是指對(duì)數(shù)據(jù)含義、格式、責(zé)任者等達(dá)成一致的過程。答案:標(biāo)準(zhǔn)化44.采用Parquet格式存儲(chǔ)的優(yōu)勢(shì)包括列式存儲(chǔ)、________、________。答案:壓縮比高;謂詞下推45.在推薦系統(tǒng)中,________指標(biāo)衡量推薦結(jié)果中用戶感興趣的物品占比。答案:準(zhǔn)確率(Precision)46.某Spark任務(wù)運(yùn)行2小時(shí),處理1TB數(shù)據(jù),集群帶寬10Gb/s,則理論最小耗時(shí)約________分鐘。(忽略計(jì)算開銷)答案:13.347.在數(shù)據(jù)安全等級(jí)保護(hù)中,大數(shù)據(jù)平臺(tái)通常要求達(dá)到________級(jí)及以上。答案:348.在DeltaLake中,________命令可回滾表到歷史版本。答案:RESTORE49.在數(shù)據(jù)科學(xué)工作流程中,________階段耗時(shí)通常占比最高。答案:數(shù)據(jù)清洗50.采用布隆過濾器解決Hive大表關(guān)聯(lián)時(shí),可將________表放入內(nèi)存。答案:小四、判斷題(每題1分,共10分。正確打“√”,錯(cuò)誤打“×”)51.Spark的RDD一旦生成便不可變。答案:√52.HDFS支持隨機(jī)修改文件中間某段內(nèi)容。答案:×53.Kafka的Partition數(shù)量只能在創(chuàng)建Topic時(shí)指定,后續(xù)無法擴(kuò)容。答案:×54.在數(shù)據(jù)倉庫中,星型模型比雪花模型查詢性能更高。答案:√55.Flink的Watermark用于解決亂序事件時(shí)間計(jì)算問題。答案:√56.Hive支持事務(wù)的表必須采用ORC格式并分桶。答案:√57.采用gzip壓縮的TextFile在MapReduce中可完美切片。答案:×58.在Spark中,累加器(Accumulator)可用于調(diào)試時(shí)把executor信息收集到driver。答案:√59.HBase的列族數(shù)量越多,性能越好。答案:×60.數(shù)據(jù)網(wǎng)格主張“數(shù)據(jù)即產(chǎn)品”,強(qiáng)調(diào)領(lǐng)域團(tuán)隊(duì)對(duì)數(shù)據(jù)全生命周期負(fù)責(zé)。答案:√五、簡答題(共30分)61.(封閉型,6分)簡述MapReduce中“Shuffle”階段的具體流程,并指出優(yōu)化數(shù)據(jù)傾斜的兩種常用手段。答案:Shuffle階段包括Map端分區(qū)、排序、溢寫、合并,Reduce端拷貝、歸并排序。優(yōu)化傾斜:1.兩階段聚合(加隨機(jī)前綴);2.自定義分區(qū),將熱點(diǎn)key打散。62.(開放型,8分)某省政務(wù)云匯聚200個(gè)廳局?jǐn)?shù)據(jù),存在標(biāo)準(zhǔn)不一、質(zhì)量參差、權(quán)責(zé)不清等問題。請(qǐng)結(jié)合數(shù)據(jù)治理理論,提出一套可落地的“一體化大數(shù)據(jù)中心”治理方案,需涵蓋組織、標(biāo)準(zhǔn)、技術(shù)、運(yùn)營四個(gè)維度。答案:組織:成立省級(jí)數(shù)據(jù)管理局,下設(shè)領(lǐng)域數(shù)據(jù)責(zé)任人(DPO),實(shí)行“一數(shù)一源一標(biāo)準(zhǔn)”責(zé)任制;標(biāo)準(zhǔn):制定《政務(wù)數(shù)據(jù)元標(biāo)準(zhǔn)》《數(shù)據(jù)質(zhì)量評(píng)分細(xì)則》《共享負(fù)面清單》,建立主數(shù)據(jù)編碼體系;技術(shù):搭建統(tǒng)一數(shù)據(jù)湖(Hive+Delta),部署數(shù)據(jù)質(zhì)量工具(Griffin),實(shí)施元數(shù)據(jù)血緣(ApacheAtlas),引入隱私計(jì)算平臺(tái)(FATE)保障安全;運(yùn)營:建立數(shù)據(jù)資產(chǎn)目錄門戶,推行“數(shù)據(jù)產(chǎn)品化”計(jì)價(jià)結(jié)算,每季度召開數(shù)據(jù)質(zhì)量評(píng)議會(huì),引入第三方審計(jì),KPI與財(cái)政撥款掛鉤,形成持續(xù)改進(jìn)閉環(huán)。63.(封閉型,6分)寫出Spark中實(shí)現(xiàn)WordCount的完整Scala代碼(僅核心邏輯),并指出哪一步觸發(fā)寬依賴。答案:vallines=sc.textFile("hdfs://input")valwords=lines.flatMap(_.split(""))valpairs=words.map((_,1))valcounts=pairs.reduceByKey(_+_)counts.saveAsTextFile("hdfs://output")reduceByKey觸發(fā)寬依賴。64.(開放型,10分)某視頻平臺(tái)日活1億,日均上傳500萬條短視頻,平均大小100MB,需支持秒級(jí)推薦與離線分析。請(qǐng)?jiān)O(shè)計(jì)端到端大數(shù)據(jù)架構(gòu),需說明:1.數(shù)據(jù)攝入;2.存儲(chǔ);3.計(jì)算;4.推薦;5.治理。答案:1.攝入:移動(dòng)端SDK埋點(diǎn)經(jīng)FlumeKafka進(jìn)入原始Topic,視頻文件經(jīng)CDN邊緣節(jié)點(diǎn)回源到對(duì)象存儲(chǔ)(S3協(xié)議),同時(shí)寫Kafka文件消息;2.存儲(chǔ):對(duì)象存儲(chǔ)作數(shù)據(jù)湖,HDFS存三副本,Iceberg管理視頻元數(shù)據(jù),Delta管理用戶行為表;3.計(jì)算:Flink實(shí)時(shí)消費(fèi)Kafka,秒級(jí)生成用戶畫像增量,Spark離線每日合并全量,訓(xùn)練深度學(xué)習(xí)模型(TensorFlowOnSpark);4.推薦:線上服務(wù)采用TensorFlowServing+Faiss向量檢索,特征存Redis集群,召回階段用ItemCF與DSSM雙塔模型,排序階段用Wide&Deep,通過AB實(shí)驗(yàn)平臺(tái)動(dòng)態(tài)調(diào)權(quán);5.治理:Atlas維護(hù)血緣,Griffin監(jiān)控行級(jí)質(zhì)量,Ranger做細(xì)粒度權(quán)限,數(shù)據(jù)分級(jí)(公開/內(nèi)部/機(jī)密),敏感字段脫敏,每季度清理冷數(shù)據(jù),生命周期管理節(jié)省30%存儲(chǔ)。六、應(yīng)用題(共50分)65.(計(jì)算類,10分)某運(yùn)營商詳單表t_call,字段:callerstring,calleestring,durationint,feedouble,call_timebigint。表為分區(qū)表,按dt分區(qū),數(shù)據(jù)量365分區(qū),每分區(qū)8億行,總行數(shù)292億,平均行長50字節(jié)。(1)估算原始數(shù)據(jù)裸容量;(2)若采用ORC+SNAPPY,壓縮比5:1,求壓縮后容量;(3)若HDFS三副本,求實(shí)際磁盤占用;(4)若采用糾刪碼RS63,冗余度1.5,求磁盤占用;(5)對(duì)比(3)(4)節(jié)省多少百分比。答案:(1)292×10^8×50字節(jié)=14600GB≈14.6TB;(2)14.6/5≈2.92TB;(3)2.92×3=8.76TB;(4)2.92×1.5=4.38TB;(5)節(jié)省(8.764.38)/8.76≈50%。66.(分析類,15分)給定用戶行為表user_log:user_idstring,item_idstring,behaviorstring,tsbigint。behavior枚舉:pv、cart、fav、buy。需求:統(tǒng)計(jì)最近30天,每個(gè)用戶購買轉(zhuǎn)化率(buy/pv),并找出轉(zhuǎn)化率前1000名用戶。要求:寫出完整HiveSQL,包括分區(qū)過濾、去重、異常用戶過濾(pv<10),并說明如何優(yōu)化執(zhí)行計(jì)劃。答案:sethive.exec.dynamic.partition=true;withtmpas(selectuser_id,sum(casewhenbehavior='pv'then1else0end)aspv_cnt,sum(casewhenbehavior='buy'then1else0end)asbuy_cntfromuser_logwheredtbetween'20250501'and'20250530'groupbyuser_idhavingpv_cnt>=10)selectuser_id,buy_cnt/pv_cntasctrfromtmporderbyctrdesclimit1000;優(yōu)化:1.分區(qū)裁剪,dt為一級(jí)分區(qū);2.桶表按user_id分桶256桶,減少shuffle;3.開啟CBO,收集統(tǒng)計(jì)信息;4.采用Tez引擎,并行度設(shè)為2000;5.對(duì)behavior建立Bloom索引,快速跳過非相關(guān)行。67.(綜合類,25分)某市交通卡口每天產(chǎn)生10億條過車記錄,結(jié)構(gòu):car_idstring,卡口string,laneint,speedint,tsbigint,pic_urlstring。需求:A.實(shí)時(shí)統(tǒng)計(jì)每分鐘內(nèi)各卡口車流量;B.實(shí)時(shí)發(fā)現(xiàn)連續(xù)3次超速(speed>120)的車輛并告警;C.離線生成日均流量、平均速度、擁堵指數(shù)(01),并可視化;D.存儲(chǔ)3年,節(jié)省成本。請(qǐng)給出:1.架構(gòu)圖(文字描述);2.實(shí)時(shí)鏈路完整Flink代碼(Java/Scala均可);3.離線鏈路Hive表設(shè)計(jì)、分區(qū)、壓縮;4.成本估算(原始36TB/年,壓縮后7.2TB/年,三副本21.6TB,RS6310.8TB,冷存0.5倍5.4TB,3年總磁盤成本對(duì)比);5.治理策略(質(zhì)量、血緣、安全)。答案:1.架構(gòu):卡口前端→5G專網(wǎng)→Kafka(Topic:traffic)→Flink集群→Redis(分鐘流量)→告警API;同時(shí)Kafka→Flume→HDFS(Raw)→Spark清洗→Hive分區(qū)表(dt,hr)→Superset可視化。2.Flink代碼(Scala):valenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(60000)valkafka=env.addSource(newFlinkKafkaConsumer[String]("traffic",newSimpleStringSchema(),props))valstream=kafka.map(json=>parseToCaseClass(json))valminuteCnt=stream.map(r=>(r.卡口+"_"+r.ts/60000,1)).keyBy(_._1).window(TumblingProcessingTimeWindows.of(Time.minutes(1))).sum(1)minuteCn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年及未來5年市場(chǎng)數(shù)據(jù)中國礦用潛水排污泵市場(chǎng)全面調(diào)研及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 企業(yè)質(zhì)量管理體系制度
- 企業(yè)薪酬管理制度
- 企業(yè)合同管理制度
- 臨時(shí)麻醉管理制度
- 2026湖北省定向中國政法大學(xué)選調(diào)生招錄備考題庫附答案
- 2026電科華錄校園招聘?jìng)淇碱}庫附答案
- 2026福建寧德市藍(lán)海旅游發(fā)展有限公司招聘參考題庫附答案
- 2026福建省面向上海財(cái)經(jīng)大學(xué)選調(diào)生選拔工作備考題庫附答案
- 2026福建福州市戰(zhàn)坂置業(yè)有限公司招聘4人備考題庫附答案
- 房屋拆除工程投標(biāo)方案(技術(shù)方案)
- 環(huán)氧樹脂砂漿平涂地坪施工方案
- 蘇教版六年級(jí)數(shù)學(xué)上冊(cè)期末試卷帶答案【可打印】-
- 固定動(dòng)火區(qū)申請(qǐng)表、告知書、管理規(guī)定
- 二片罐行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)分析
- FZ/T 01137-2016紡織品熒光增白劑的測(cè)定
- 2020年南京市獨(dú)角獸、瞪羚企業(yè)發(fā)展白皮書附下載
- 大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)課程實(shí)施方案
- 金手指外觀檢驗(yàn)重點(diǎn)標(biāo)準(zhǔn)
- 某鐵礦露天采礦工程初步設(shè)計(jì)
- WS 435-2013 醫(yī)院醫(yī)用氣體系統(tǒng)運(yùn)行管理
評(píng)論
0/150
提交評(píng)論