2025年大數(shù)據技術應用考試試卷及答案總結_第1頁
2025年大數(shù)據技術應用考試試卷及答案總結_第2頁
2025年大數(shù)據技術應用考試試卷及答案總結_第3頁
2025年大數(shù)據技術應用考試試卷及答案總結_第4頁
2025年大數(shù)據技術應用考試試卷及答案總結_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年大數(shù)據技術應用考試試卷及答案總結一、單項選擇題(每題2分,共20分)1.以下哪項不是Hadoop3.x版本引入的核心改進?A.多NameNode高可用架構B.HDFSErasureCoding(糾刪碼)支持C.YARN的ResourceCalculator優(yōu)化D.MapReduce任務調度策略從FIFO改為CapacityScheduler答案:D(CapacityScheduler為Hadoop2.x已支持的調度策略)2.在Spark中,RDD的persist()方法默認存儲級別是?A.MEMORY_ONLYB.MEMORY_AND_DISKC.MEMORY_ONLY_SERD.DISK_ONLY答案:A(默認存儲級別為僅內存非序列化)3.數(shù)據倉庫分層架構中,DWD(數(shù)據明細層)的主要職責是?A.存儲原始未加工數(shù)據B.提供面向業(yè)務的主題數(shù)據C.對ODS層數(shù)據進行清洗、去重、結構化處理D.整合多源數(shù)據形成匯總指標答案:C(DWD層負責基礎明細數(shù)據的規(guī)范化處理)4.實時計算框架Flink中,若需處理“過去1小時內每5分鐘的訂單量”,應使用哪種窗口類型?A.滑動窗口(SlidingWindow)B.滾動窗口(TumblingWindow)C.會話窗口(SessionWindow)D.全局窗口(GlobalWindow)答案:A(滑動窗口支持窗口重疊,窗口大小1小時,滑動間隔5分鐘)5.以下哪種技術最適合解決海量小文件對HDFS的性能影響?A.啟用HDFS的Balancer工具B.使用CombineFileInputFormat合并小文件C.增加NameNode的內存配置D.提高DataNode的磁盤IO性能答案:B(CombineFileInputFormat通過邏輯合并小文件減少NameNode元數(shù)據壓力)6.Kafka中,消費者組(ConsumerGroup)的分區(qū)分配策略不包括?A.RangeAssignorB.RoundRobinAssignorC.StickyAssignorD.RandomAssignor答案:D(Kafka內置策略為Range、RoundRobin、Sticky、CooperativeSticky)7.數(shù)據湖(DataLake)與傳統(tǒng)數(shù)據倉庫(DataWarehouse)的核心區(qū)別是?A.數(shù)據存儲介質(磁盤vs內存)B.數(shù)據處理模式(批處理vs實時處理)C.數(shù)據結構要求(結構化vs多結構化)D.數(shù)據訪問權限(開放vs受限)答案:C(數(shù)據湖支持非結構化、半結構化數(shù)據,數(shù)據倉庫以結構化為主)8.機器學習模型訓練中,若訓練數(shù)據存在“類別不平衡”問題(如正樣本占比1%),以下哪種方法不適用?A.對少數(shù)類進行過采樣(Oversampling)B.對多數(shù)類進行欠采樣(Undersampling)C.調整模型損失函數(shù)的類別權重D.增加訓練數(shù)據的特征維度答案:D(增加特征維度無法直接解決類別不平衡問題)9.數(shù)據治理的核心目標是?A.提高數(shù)據存儲容量B.確保數(shù)據的準確性、完整性、一致性和可用性C.加速數(shù)據計算速度D.降低數(shù)據存儲成本答案:B(數(shù)據治理聚焦數(shù)據質量與全生命周期管理)10.隱私計算技術中,聯(lián)邦學習(FederatedLearning)的主要應用場景是?A.在不共享原始數(shù)據的前提下聯(lián)合訓練模型B.對敏感數(shù)據進行加密存儲C.實現(xiàn)跨部門數(shù)據的實時同步D.提升數(shù)據查詢的響應速度答案:A(聯(lián)邦學習通過本地計算+參數(shù)交換實現(xiàn)隱私保護下的模型訓練)二、填空題(每空2分,共20分)1.HDFS默認塊大小在Hadoop3.x中為______MB。答案:1282.Spark任務提交時,通過______參數(shù)設置Executor的數(shù)量。答案:numexecutors3.Kafka消息的持久化存儲依賴于______機制,消息默認保留時間為______小時。答案:日志分段(LogSegmentation);168(7天)4.Flink中用于處理事件時間(EventTime)亂序問題的關鍵機制是______。答案:水?。╓atermark)5.數(shù)據倉庫建模中,______模型以業(yè)務過程為中心,強調數(shù)據的明細性和原子性;______模型以分析主題為中心,強調查詢效率。答案:范式(第三范式);維度6.實時數(shù)據處理場景中,Lambda架構由______層和______層組成,分別處理批處理和實時計算。答案:批處理(Batch);速覽(Speed)7.數(shù)據脫敏的常見方法包括______(如將身份證號部分替換為)和______(如將真實姓名替換為隨機提供的虛擬姓名)。答案:掩碼(Masking);匿名化(Anonymization)三、簡答題(每題8分,共40分)1.簡述Hadoop生態(tài)中HBase與Hive的核心區(qū)別及典型應用場景。答案:HBase是基于HDFS的分布式列式存儲數(shù)據庫,支持實時隨機讀寫,適用于高并發(fā)、低延遲的單條/批量數(shù)據查詢(如用戶信息實時查詢);Hive是基于Hadoop的分布式數(shù)據倉庫工具,通過HQL實現(xiàn)離線批處理,適用于海量數(shù)據的復雜統(tǒng)計分析(如月度銷售報表提供)。2.數(shù)據傾斜(DataSkew)在Spark任務中可能導致哪些問題?列舉3種常見解決方法。答案:問題:部分分區(qū)數(shù)據量過大,導致對應Executor計算超時、內存溢出;任務整體執(zhí)行時間顯著延長。解決方法:(1)對傾斜Key進行拆分,添加隨機前綴后聚合;(2)使用reduceByKey替代groupByKey,提前局部聚合;(3)調整并行度,增加分區(qū)數(shù)分散數(shù)據;(4)對于維表傾斜,采用BroadcastJoin替代ShuffleJoin。3.對比Flink與SparkStreaming的實時計算模型,說明Flink的優(yōu)勢。答案:SparkStreaming基于微批處理(MicroBatch),將數(shù)據流劃分為固定時間窗口的小批量數(shù)據處理,延遲通常在秒級;Flink基于事件驅動的流處理模型,支持事件時間(EventTime)和處理時間(ProcessingTime),通過水?。╓atermark)處理亂序事件,延遲可低至毫秒級,且支持更精確的時間窗口(如會話窗口)和狀態(tài)管理(StateBackend),適合嚴格實時性和精確一次(ExactlyOnce)語義要求的場景。4.數(shù)據湖倉一體化(LakeHouse)架構的核心設計思想是什么?列舉其關鍵技術組件。答案:核心思想:融合數(shù)據湖的靈活性(支持多結構化數(shù)據)與數(shù)據倉庫的可靠性(支持ACID事務、強一致性),實現(xiàn)“一份數(shù)據”支持分析、查詢、機器學習等多場景。關鍵技術組件:(1)元數(shù)據管理系統(tǒng)(如ApacheHudi、Iceberg、DeltaLake);(2)支持ACID的存儲格式(如Parquet+事務日志);(3)統(tǒng)一查詢引擎(如Presto、Spark);(4)數(shù)據治理工具(元數(shù)據血緣分析、數(shù)據質量監(jiān)控)。5.簡述大數(shù)據隱私保護的“GDPR十項原則”中最核心的三項,并說明其對技術實現(xiàn)的要求。答案:核心三項:(1)合法、公平、透明原則:數(shù)據處理需明確告知用戶目的,提供可理解的隱私政策;技術上需支持用戶數(shù)據訪問請求的快速響應(如用戶畫像數(shù)據查詢接口)。(2)數(shù)據最小化原則:僅收集與處理目的相關的必要數(shù)據;技術上需設計數(shù)據采集規(guī)則引擎,自動過濾冗余字段。(3)數(shù)據可攜帶權原則:用戶有權獲取其個人數(shù)據的結構化副本并轉移至其他平臺;技術上需支持數(shù)據格式轉換(如CSV/JSON導出)和高效傳輸(如API接口)。四、應用題(每題10分,共30分)1.某電商公司需構建用戶行為分析平臺,要求支持:(1)實時采集APP端點擊、下單、支付等行為數(shù)據;(2)離線計算用戶日活、月活、轉化率等指標;(3)支持廣告推薦模型的訓練數(shù)據輸出。請設計技術架構,并說明各組件的作用。答案:技術架構分層設計:(1)數(shù)據采集層:使用Flume(服務器日志)+埋點SDK(APP行為數(shù)據)+Kafka(消息隊列)。Flume負責收集服務器端日志(如頁面訪問),SDK通過HTTP接口將APP行為數(shù)據發(fā)送至Kafka,Kafka作為緩沖隊列,確保高并發(fā)下的數(shù)據不丟失。(2)實時處理層:Flink消費Kafka數(shù)據,進行清洗(過濾無效事件)、關聯(lián)(用戶ID與設備ID)、窗口計算(如5分鐘實時UV),結果寫入Redis(實時指標緩存)或ClickHouse(實時報表數(shù)據庫)。(3)離線處理層:Kafka數(shù)據通過KafkaConnect同步至HDFS(存儲原始數(shù)據)和Hive(建立外部表);使用Spark離線計算日活(按用戶ID去重)、月活(30天用戶活躍)、轉化率(支付訂單數(shù)/下單訂單數(shù)),結果寫入HiveDWS層(匯總層)或MySQL(業(yè)務數(shù)據庫)。(4)模型訓練層:從Hive或數(shù)據湖(DeltaLake)抽取用戶行為特征(如點擊頻次、停留時長)、交易特征(客單價、復購率),通過SparkMLlib或TensorFlow進行特征工程(標準化、嵌入),訓練推薦模型(如協(xié)同過濾、深度學習模型),模型部署至Serving服務(如TensorFlowServing)用于廣告推薦。2.某金融機構需對日志數(shù)據(格式:時間戳、用戶ID、IP地址、操作類型、操作結果)進行分析,要求計算:(1)當日每個用戶的操作次數(shù);(2)異常操作(連續(xù)5次失敗后成功)的用戶ID。請用SparkSQL編寫實現(xiàn)代碼(偽代碼),并說明關鍵步驟。答案:關鍵步驟與偽代碼:(1)數(shù)據加載與清洗:讀取日志文件,過濾無效記錄(如時間戳缺失),轉換為DataFrame。```scalavalrawLog=spark.read.option("sep",",").csv("hdfs:///logs/20250101")vallogDF=rawLog.toDF("timestamp","userId","ip","opType","opResult").filter("timestampisnotnullanduserIdisnotnull").withColumn("date",to_date(col("timestamp"))).filter("date='20250101'")//篩選當日數(shù)據```(2)計算用戶當日操作次數(shù):按userId分組計數(shù)。```scalavaluserOpCount=logDF.groupBy("userId").agg(count("").alias("opCount")).select("userId","opCount")```(3)檢測異常操作(連續(xù)5次失敗后成功):使用窗口函數(shù)按userId排序,標記連續(xù)失敗序列。```scalaimportorg.apache.spark.sql.expressions.WindowvalwindowSpec=Window.partitionBy("userId").orderBy("timestamp")valflaggedDF=logDF.withColumn("prev4Results",concat(lag("opResult",4).over(windowSpec),lag("opResult",3).over(windowSpec),lag("opResult",2).over(windowSpec),lag("opResult",1).over(windowSpec),col("opResult")))//拼接最近5次結果valabnormalUsers=flaggedDF.filter("prev4Results='FFFFS'")//F=失敗,S=成功.select("userId").distinct()```3.設計一個企業(yè)級數(shù)據倉庫的分層架構,說明每層的命名規(guī)范、存儲內容及典型處理邏輯(需包含ODS、DWD、DWS、ADS層)。答案:分層架構設計:(1)ODS層(操作數(shù)據層,OperationalDataStore)命名規(guī)范:ods_業(yè)務域_表名(如ods_ecom_user)存儲內容:原始數(shù)據的鏡像存儲,保留原始格式(如CSV、JSON),包含數(shù)據采集時間戳(etl_time)。處理邏輯:通過Kafka或Sqoop實時/批量同步業(yè)務數(shù)據庫(如MySQL)數(shù)據,不做任何清洗,僅去重(根據業(yè)務主鍵)。(2)DWD層(數(shù)據明細層,DataWarehouseDetail)命名規(guī)范:dwd_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論