2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案_第1頁
2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案_第2頁
2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案_第3頁
2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案_第4頁
2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2025年大數(shù)據(jù)技術(shù)與應(yīng)用考試試卷及答案一、單項(xiàng)選擇題(共20題,每題2分,共40分)1.在Hadoop3.x版本中,HDFS默認(rèn)的塊大小是()A.32MBB.64MBC.128MBD.256MB2.以下不屬于SparkRDD持久化級別的是()A.MEMORY_ONLYB.MEMORY_AND_DISK_SERC.DISK_ONLY_2D.MEMORY_ONLY_SER_23.關(guān)于Kafka的消費(fèi)者組(ConsumerGroup),以下描述錯誤的是()A.同一消費(fèi)者組內(nèi)的消費(fèi)者共同消費(fèi)主題的所有分區(qū)B.不同消費(fèi)者組可以獨(dú)立消費(fèi)同一主題的消息C.消費(fèi)者組的偏移量(Offset)存儲在Zookeeper中D.消費(fèi)者組支持水平擴(kuò)展以提高吞吐量4.Flink中用于處理事件時間(EventTime)的關(guān)鍵組件是()A.WatermarkB.WindowC.StateD.Checkpoint5.數(shù)據(jù)湖(DataLake)與傳統(tǒng)數(shù)據(jù)倉庫(DataWarehouse)的核心區(qū)別在于()A.數(shù)據(jù)存儲格式B.數(shù)據(jù)結(jié)構(gòu)化程度C.支持的查詢類型D.數(shù)據(jù)的所有者6.以下哪項(xiàng)不是HBase的特性()A.面向列的存儲B.支持ACID事務(wù)C.高并發(fā)寫入D.稀疏矩陣存儲7.在數(shù)據(jù)清洗過程中,處理缺失值的方法不包括()A.刪除包含缺失值的記錄B.用均值/中位數(shù)填充C.用回歸模型預(yù)測填充D.直接忽略缺失值8.以下屬于非結(jié)構(gòu)化數(shù)據(jù)的是()A.關(guān)系型數(shù)據(jù)庫表B.日志文件C.Excel表格D.財務(wù)報表9.SparkSQL中,DataFrame與RDD的主要區(qū)別是()A.DataFrame不可變,RDD可變B.DataFrame帶有元數(shù)據(jù)信息C.DataFrame僅支持內(nèi)存計算D.RDD支持更復(fù)雜的轉(zhuǎn)換操作10.關(guān)于實(shí)時數(shù)據(jù)處理與批量數(shù)據(jù)處理的對比,正確的是()A.實(shí)時處理對延遲要求更高B.批量處理使用流計算框架C.實(shí)時處理數(shù)據(jù)量更大D.批量處理結(jié)果時效性更強(qiáng)11.以下哪種算法屬于無監(jiān)督學(xué)習(xí)()A.邏輯回歸B.K-means聚類C.隨機(jī)森林D.支持向量機(jī)12.Hive中,外部表(ExternalTable)刪除時不會刪除()A.元數(shù)據(jù)信息B.HDFS上的數(shù)據(jù)文件C.表結(jié)構(gòu)定義D.分區(qū)信息13.數(shù)據(jù)脫敏技術(shù)中,將“身份證號”替換為“”屬于()A.匿名化B.掩碼C.泛化D.加密14.Flink的Checkpoint機(jī)制主要用于解決()A.數(shù)據(jù)傾斜問題B.任務(wù)并行度調(diào)整C.故障恢復(fù)D.狀態(tài)存儲優(yōu)化15.以下哪項(xiàng)不是Kafka生產(chǎn)者的關(guān)鍵參數(shù)()A.acksB.retriesC.group.idD.batch.size16.在Hadoop生態(tài)中,用于資源管理的組件是()A.HDFSB.YARNC.MapReduceD.HBase17.關(guān)于數(shù)據(jù)倉庫的ETL流程,正確的順序是()A.抽取→轉(zhuǎn)換→加載B.轉(zhuǎn)換→抽取→加載C.加載→轉(zhuǎn)換→抽取D.抽取→加載→轉(zhuǎn)換18.Spark的Shuffle過程中,數(shù)據(jù)傳輸?shù)哪J(rèn)序列化方式是()A.JavaSerializerB.KryoSerializerC.JSONSerializerD.AvroSerializer19.以下哪項(xiàng)是時序數(shù)據(jù)庫(TimeSeriesDatabase)的典型應(yīng)用場景()A.電商訂單交易B.物聯(lián)網(wǎng)設(shè)備監(jiān)控C.客戶關(guān)系管理D.人力資源管理20.聯(lián)邦學(xué)習(xí)(FederatedLearning)的核心目標(biāo)是()A.提高模型訓(xùn)練速度B.保護(hù)數(shù)據(jù)隱私C.減少計算資源消耗D.支持多源數(shù)據(jù)融合二、填空題(共10題,每題2分,共20分)1.Hadoop的核心組件包括HDFS、YARN和__________。2.Spark的分布式計算模型基于__________(填英文縮寫),其本質(zhì)是不可變的分布式數(shù)據(jù)集合。3.Kafka的消息存儲單元是__________,每個單元可以劃分為多個__________。4.Flink中用于定義時間窗口的兩種主要類型是滾動窗口(TumblingWindow)和__________。5.數(shù)據(jù)倉庫的分層架構(gòu)通常包括ODS(操作數(shù)據(jù)存儲層)、DWD(明細(xì)數(shù)據(jù)層)、DWS(匯總數(shù)據(jù)層)和__________。6.HBase的RowKey設(shè)計需要遵循散列化、__________和長度適當(dāng)原則,以避免熱點(diǎn)問題。7.數(shù)據(jù)清洗中的“去重”操作主要解決__________問題,常用方法包括基于規(guī)則去重和基于算法去重。8.實(shí)時計算框架Flink的狀態(tài)后端(StateBackend)支持三種類型:MemoryStateBackend、FsStateBackend和__________。9.機(jī)器學(xué)習(xí)中,評估分類模型性能的常用指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和__________(填英文縮寫)。10.大數(shù)據(jù)安全的核心需求包括數(shù)據(jù)機(jī)密性、完整性、__________和可追溯性。三、簡答題(共5題,每題8分,共40分)1.簡述MapReduce的執(zhí)行流程,重點(diǎn)說明Shuffle階段的主要操作。2.對比SparkRDD的轉(zhuǎn)換(Transformation)和行動(Action)操作,各舉2例并說明其特點(diǎn)。3.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫(DataWarehouse)在數(shù)據(jù)存儲、處理模式和應(yīng)用場景上有何差異?4.說明Flink中Watermark(水位線)的作用及生成策略,并舉例說明其在事件時間窗口計算中的應(yīng)用。5.列舉大數(shù)據(jù)場景下數(shù)據(jù)傾斜的常見表現(xiàn)及三種解決方案。四、綜合應(yīng)用題(共2題,每題20分,共40分)1.某電商企業(yè)需要構(gòu)建用戶行為分析平臺,要求支持以下需求:-實(shí)時采集APP端用戶點(diǎn)擊、瀏覽、下單等行為數(shù)據(jù)(格式為JSON,日均數(shù)據(jù)量約500GB);-批量處理歷史行為數(shù)據(jù)(存儲于HDFS,格式為Parquet);-支持實(shí)時統(tǒng)計“最近1小時各商品點(diǎn)擊量”和離線計算“每日用戶留存率”;-數(shù)據(jù)需按用戶隱私要求進(jìn)行脫敏處理(如手機(jī)號隱藏中間4位)。請設(shè)計該平臺的技術(shù)架構(gòu),畫出邏輯架構(gòu)圖(文字描述即可),并說明各組件的作用及關(guān)鍵技術(shù)選型。2.某企業(yè)日志文件(格式如下)存儲于HDFS,需要用SparkSQL分析“2024年10月1日當(dāng)天,訪問次數(shù)最多的前10個IP地址”,并輸出結(jié)果。日志格式示例:2024-10-0108:15:23|01|GET/product/123HTTP/1.1|2002024-10-0108:16:05||POST/cart/addHTTP/1.1|404要求:(1)寫出數(shù)據(jù)加載到SparkSQL的步驟(包括創(chuàng)建臨時視圖);(2)編寫SQL查詢語句實(shí)現(xiàn)分析需求;(3)說明如何處理日志中的異常數(shù)據(jù)(如時間格式錯誤、IP地址不合法)。答案及解析一、單項(xiàng)選擇題1.D解析:Hadoop3.x將默認(rèn)塊大小調(diào)整為256MB,以減少NameNode內(nèi)存壓力。2.C解析:持久化級別中無DISK_ONLY_2,復(fù)制策略僅適用于MEMORY_ONLY_SER等帶SER的級別。3.C解析:Kafka0.9+版本后,消費(fèi)者組偏移量存儲在__consumer_offsets主題中,而非Zookeeper。4.A解析:Watermark用于處理事件時間的延遲數(shù)據(jù),是事件時間窗口計算的關(guān)鍵。5.B解析:數(shù)據(jù)湖存儲原始的、非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫存儲結(jié)構(gòu)化的、經(jīng)過清洗的業(yè)務(wù)數(shù)據(jù)。6.B解析:HBase原生僅支持單行事務(wù),多行列事務(wù)需借助Phoenix等擴(kuò)展。7.D解析:直接忽略缺失值會導(dǎo)致數(shù)據(jù)丟失,不屬于合理的處理方法。8.B解析:日志文件通常為非結(jié)構(gòu)化文本,其他選項(xiàng)均為結(jié)構(gòu)化數(shù)據(jù)。9.B解析:DataFrame是帶有Schema元數(shù)據(jù)的RDD,支持更高效的查詢優(yōu)化。10.A解析:實(shí)時處理要求毫秒級或秒級延遲,批量處理通常以小時或天為單位。11.B解析:K-means是無監(jiān)督聚類算法,其余選項(xiàng)為有監(jiān)督學(xué)習(xí)。12.B解析:外部表刪除時僅刪除元數(shù)據(jù),HDFS數(shù)據(jù)保留;內(nèi)部表(管理表)會刪除數(shù)據(jù)。13.B解析:掩碼(Masking)通過替換部分字符隱藏敏感信息,如“1381234”。14.C解析:Checkpoint通過定期持久化狀態(tài)數(shù)據(jù),實(shí)現(xiàn)故障時的任務(wù)恢復(fù)。15.C解析:group.id是消費(fèi)者的參數(shù),生產(chǎn)者無需該參數(shù)。16.B解析:YARN負(fù)責(zé)集群資源管理和任務(wù)調(diào)度。17.A解析:ETL流程為抽?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)。18.B解析:Spark默認(rèn)使用KryoSerializer進(jìn)行Shuffle數(shù)據(jù)序列化,比JavaSerializer更高效。19.B解析:時序數(shù)據(jù)庫專為時間序列數(shù)據(jù)設(shè)計,適合物聯(lián)網(wǎng)設(shè)備的實(shí)時監(jiān)控場景。20.B解析:聯(lián)邦學(xué)習(xí)在不傳輸原始數(shù)據(jù)的前提下聯(lián)合訓(xùn)練模型,核心是保護(hù)數(shù)據(jù)隱私。二、填空題1.MapReduce(或MRv2)2.RDD(彈性分布式數(shù)據(jù)集)3.主題(Topic);分區(qū)(Partition)4.滑動窗口(SlidingWindow)5.ADS(應(yīng)用數(shù)據(jù)層)6.唯一性(或有序性)7.數(shù)據(jù)重復(fù)8.RocksDBStateBackend9.F1-score10.可用性三、簡答題1.MapReduce執(zhí)行流程包括:(1)輸入分片(InputSplit):將輸入數(shù)據(jù)劃分為多個分片,每個分片對應(yīng)一個Mapper任務(wù)。(2)Map階段:每個Mapper處理分片數(shù)據(jù),輸出鍵值對(K1,V1)。(3)Shuffle階段:-分區(qū)(Partition):根據(jù)Key的哈希值將數(shù)據(jù)分配到不同Reducer分區(qū)。-排序(Sort):對每個分區(qū)內(nèi)的鍵值對按Key排序。-合并(Combine,可選):在Mapper端對相同Key的Value進(jìn)行局部聚合,減少網(wǎng)絡(luò)傳輸量。-拷貝(Copy):Reducer從各Mapper拉取屬于自己分區(qū)的數(shù)據(jù)。-歸并(Merge):對Reducer拉取的多個排序數(shù)據(jù)進(jìn)行歸并排序。(4)Reduce階段:Reducer處理排序后的鍵值對,輸出最終結(jié)果(K2,V2)。2.轉(zhuǎn)換(Transformation)操作是惰性的,不會立即執(zhí)行,用于生成新的RDD;行動(Action)操作觸發(fā)計算并返回結(jié)果或?qū)懭氪鎯?。示例:轉(zhuǎn)換操作:map(對每個元素應(yīng)用函數(shù))、filter(過濾符合條件的元素);行動操作:count(統(tǒng)計元素數(shù)量)、collect(將RDD數(shù)據(jù)拉取到驅(qū)動程序)。3.差異對比:-數(shù)據(jù)存儲:數(shù)據(jù)湖存儲原始的、多格式(如JSON、CSV、Parquet)數(shù)據(jù);數(shù)據(jù)倉庫存儲結(jié)構(gòu)化的、經(jīng)過清洗的關(guān)系型數(shù)據(jù)。-處理模式:數(shù)據(jù)湖支持“讀時模式”(SchemaonRead),靈活性高;數(shù)據(jù)倉庫采用“寫時模式”(SchemaonWrite),需提前定義結(jié)構(gòu)。-應(yīng)用場景:數(shù)據(jù)湖適用于探索性分析、機(jī)器學(xué)習(xí)等需要原始數(shù)據(jù)的場景;數(shù)據(jù)倉庫用于支持企業(yè)OLAP,如報表生成、固定指標(biāo)分析。4.Watermark作用:標(biāo)記事件時間的進(jìn)度,用于判斷延遲數(shù)據(jù)是否可被處理。生成策略包括:-固定延遲策略(BoundedOutOfOrdernessTimestampExtractor):假設(shè)數(shù)據(jù)最大延遲時間已知(如5秒)。-自定義策略(AssignerWithPunctuatedWatermarks):根據(jù)特定事件觸發(fā)Watermark更新。應(yīng)用示例:計算“每小時頁面點(diǎn)擊量”的事件時間窗口時,Watermark設(shè)置為當(dāng)前事件時間-5秒。當(dāng)窗口關(guān)閉(如10:00-11:00),所有事件時間≤11:00且Watermark≥11:00的數(shù)據(jù)會被處理,延遲超過5秒的數(shù)據(jù)將被丟棄或放入側(cè)輸出流。5.數(shù)據(jù)傾斜表現(xiàn):-任務(wù)執(zhí)行時間差異大(部分Reducer/Task耗時遠(yuǎn)高于其他);-內(nèi)存溢出(某節(jié)點(diǎn)處理數(shù)據(jù)量過大);-網(wǎng)絡(luò)傳輸量不均衡(部分節(jié)點(diǎn)數(shù)據(jù)傳輸量激增)。解決方案:-加鹽哈希:對傾斜Key添加隨機(jī)前綴,分散到多個任務(wù)處理后再聚合;-過濾異常值:識別并處理高頻Key(如空值、異常標(biāo)識);-調(diào)整并行度:增加傾斜分區(qū)的任務(wù)數(shù)量,分?jǐn)倲?shù)據(jù)量;-使用Combiner:在Map端提前聚合,減少Shuffle數(shù)據(jù)量(適用于可合并的計算)。四、綜合應(yīng)用題1.技術(shù)架構(gòu)設(shè)計:邏輯架構(gòu)層:(1)數(shù)據(jù)采集層:使用Flume或KafkaConnect采集APP端實(shí)時行為數(shù)據(jù),通過SDK埋點(diǎn)將JSON數(shù)據(jù)發(fā)送至Kafka消息隊(duì)列(選型Kafka,支持高吞吐、持久化存儲)。(2)數(shù)據(jù)存儲層:-實(shí)時數(shù)據(jù):Kafka作為實(shí)時數(shù)據(jù)緩沖區(qū),保留7天數(shù)據(jù)用于實(shí)時計算;-歷史數(shù)據(jù):HDFS存儲Parquet格式的歷史行為數(shù)據(jù)(列式存儲,壓縮率高,適合批量處理);-分析結(jié)果存儲:HBase(實(shí)時查詢)或ClickHouse(實(shí)時聚合)存儲“最近1小時點(diǎn)擊量”,Hive數(shù)據(jù)倉庫存儲“每日用戶留存率”結(jié)果。(3)計算層:-實(shí)時計算:Flink處理Kafka數(shù)據(jù)流,使用事件時間窗口(如滑動窗口1小時)統(tǒng)計商品點(diǎn)擊量;-批量計算:Spark處理HDFS的Parquet數(shù)據(jù),通過離線任務(wù)計算用戶留存率(需定義用戶首次訪問時間,按天統(tǒng)計次日/7日留存)。(4)數(shù)據(jù)脫敏層:在數(shù)據(jù)采集后(或進(jìn)入存儲前)使用脫敏工具(如ApacheSensSoft)對手機(jī)號進(jìn)行掩碼處理(如將替換為“1385678”)。(5)應(yīng)用層:通過BI工具(如Tableau)或自定義API展示實(shí)時點(diǎn)擊量和留存率指標(biāo)。2.(1)數(shù)據(jù)加載步驟:①使用SparkSession讀取HDFS日志文件,指定分隔符為“|”:```scalavallogDF=spark.read.option("sep","\\|").option("inferSchema","false").option("header","false").csv("hdfs:///logs/20241001")```②重命名列名為“e

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論