2025年大數(shù)據(jù)與云計算應用考試試卷及答案_第1頁
2025年大數(shù)據(jù)與云計算應用考試試卷及答案_第2頁
2025年大數(shù)據(jù)與云計算應用考試試卷及答案_第3頁
2025年大數(shù)據(jù)與云計算應用考試試卷及答案_第4頁
2025年大數(shù)據(jù)與云計算應用考試試卷及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2025年大數(shù)據(jù)與云計算應用考試試卷及答案一、單項選擇題(每題2分,共30分)1.以下哪項不屬于大數(shù)據(jù)4V特征?A.Volume(大量)B.Velocity(高速)C.Variety(多樣)D.Value(價值)E.Veracity(真實)答案:E(注:傳統(tǒng)4V為Volume、Velocity、Variety、Value,Veracity是擴展特征)2.云計算服務模式中,用戶需要管理操作系統(tǒng)和應用程序的是?A.IaaSB.PaaSC.SaaSD.DaaS答案:A(IaaS提供基礎設施,用戶需管理OS、中間件、應用;PaaS管理運行環(huán)境;SaaS僅使用應用)3.Spark中RDD的核心特性不包括?A.不可變B.可分區(qū)C.容錯性D.實時性答案:D(RDD是彈性分布式數(shù)據(jù)集,特性為不可變、可分區(qū)、容錯,實時性由SparkStreaming等組件實現(xiàn))4.以下哪個組件是Hadoop生態(tài)中用于資源管理的?A.HDFSB.YARNC.MapReduceD.HBase答案:B(YARN負責資源調度和管理,HDFS是存儲,MapReduce是計算框架,HBase是數(shù)據(jù)庫)5.云原生架構的核心技術不包括?A.容器化B.微服務C.服務網(wǎng)格D.傳統(tǒng)單體應用答案:D(云原生強調容器、微服務、服務網(wǎng)格、DevOps等,傳統(tǒng)單體應用不符合)6.實時數(shù)據(jù)處理框架Flink的時間類型不包括?A.事件時間(EventTime)B.處理時間(ProcessingTime)C.攝入時間(IngestionTime)D.系統(tǒng)時間(SystemTime)答案:D(Flink支持事件時間、處理時間、攝入時間,無系統(tǒng)時間分類)7.數(shù)據(jù)倉庫(DW)與數(shù)據(jù)湖(DataLake)的主要區(qū)別是?A.數(shù)據(jù)格式:DW支持結構化,DataLake支持多格式B.存儲成本:DW更高C.查詢速度:DataLake更快D.數(shù)據(jù)質量:DataLake要求更高答案:A(數(shù)據(jù)倉庫主要存儲結構化數(shù)據(jù),需預先定義模式;數(shù)據(jù)湖支持結構化、半結構化、非結構化數(shù)據(jù),模式滯后)8.以下哪種云存儲適合存儲海量非結構化數(shù)據(jù)且訪問頻率低?A.對象存儲(如AWSS3)B.塊存儲(如iSCSI)C.文件存儲(如NFS)D.數(shù)據(jù)庫存儲答案:A(對象存儲擴展性強、成本低,適合海量非結構化數(shù)據(jù);塊存儲用于高性能計算,文件存儲用于共享文件)9.大數(shù)據(jù)平臺中,Kafka的核心作用是?A.分布式計算B.消息隊列與流數(shù)據(jù)管道C.數(shù)據(jù)存儲D.數(shù)據(jù)清洗答案:B(Kafka是高吞吐量的分布式消息隊列,用于流數(shù)據(jù)的發(fā)布-訂閱和緩沖)10.云計算中“彈性伸縮”的實現(xiàn)依賴于?A.固定資源池B.自動化資源管理C.人工擴容D.物理服務器集群答案:B(彈性伸縮通過自動化工具根據(jù)負載動態(tài)調整資源,如AWSAutoScaling)11.以下哪項是Hive的核心功能?A.實時數(shù)據(jù)處理B.基于HDFS的SQL查詢C.內(nèi)存計算D.圖計算答案:B(Hive是Hadoop的SQL查詢引擎,將SQL轉換為MapReduce任務,處理結構化數(shù)據(jù))12.容器編排工具Kubernetes的核心組件中,負責調度Pod到節(jié)點的是?A.kube-apiserverB.kube-schedulerC.kube-controller-managerD.kubelet答案:B(kube-scheduler負責資源調度;kube-apiserver是API入口;kube-controller-manager管理控制器;kubelet管理節(jié)點上的Pod)13.數(shù)據(jù)脫敏技術中,“將姓名替換為‘用戶XXX’”屬于?A.匿名化B.泛化C.加密D.掩碼答案:A(匿名化通過替換標識信息實現(xiàn)身份不可識別;泛化是將數(shù)據(jù)范圍擴大,如年齡“25-30”替換為“20-30”)14.以下哪種場景最適合使用Serverless架構?A.高并發(fā)電商大促活動B.7×24小時運行的數(shù)據(jù)庫服務C.周期性數(shù)據(jù)清洗任務D.需要長期占用CPU的計算任務答案:C(Serverless按使用付費,適合短時間、低頻率、無狀態(tài)任務;長期運行或高占用任務成本更高)15.大數(shù)據(jù)分析中,混淆矩陣用于評估?A.分類模型性能B.聚類效果C.回歸模型誤差D.關聯(lián)規(guī)則強度答案:A(混淆矩陣展示分類模型的真實類別與預測類別的對比,用于計算準確率、召回率等)二、填空題(每空2分,共20分)1.HDFS默認塊大小為____MB。答案:1282.云計算的三種部署模式是公有云、私有云、____。答案:混合云3.Spark中,____是面向批處理的核心抽象,____是面向流處理的核心抽象。答案:RDD(彈性分布式數(shù)據(jù)集);DStream(離散化流)4.數(shù)據(jù)湖的典型存儲格式包括Parquet、____(至少填一種)。答案:ORC(或Avro、CSV等)5.Kubernetes中,____是容器的最小調度單位,____是服務發(fā)現(xiàn)與負載均衡的抽象。答案:Pod;Service6.實時計算中,F(xiàn)link的窗口類型主要有時間窗口、____窗口和會話窗口。答案:計數(shù)(或事件)7.大數(shù)據(jù)治理的核心內(nèi)容包括數(shù)據(jù)質量、數(shù)據(jù)安全、____(至少填一種)。答案:元數(shù)據(jù)管理(或主數(shù)據(jù)管理、數(shù)據(jù)生命周期管理)8.云安全中的“零信任模型”核心原則是____。答案:永不信任,始終驗證(或“持續(xù)驗證訪問請求”)三、簡答題(每題8分,共40分)1.簡述HadoopMapReduce與Spark的主要區(qū)別及適用場景。答案:區(qū)別:-計算模型:MapReduce基于磁盤,每次計算需讀寫HDFS;Spark基于內(nèi)存,RDD可緩存,減少IO。-延遲:MapReduce適合批處理(分鐘級),Spark適合快速迭代計算(秒級或亞秒級)。-編程模型:MapReduce僅支持Map和Reduce操作;Spark支持更豐富的算子(如filter、join、agg)。適用場景:-MapReduce:海量數(shù)據(jù)離線批處理(如日志統(tǒng)計)、對內(nèi)存資源敏感的場景。-Spark:需要多次迭代的算法(如機器學習、圖計算)、交互式查詢、近實時處理。2.說明云原生架構中“微服務”與“容器化”的關系及優(yōu)勢。答案:關系:微服務是架構設計模式(將應用拆分為小而獨立的服務),容器化是技術實現(xiàn)手段(通過Docker等容器封裝服務)。容器為微服務提供了標準化的運行環(huán)境,解決了“在我機器上能跑”的問題,支持快速部署和擴展。優(yōu)勢:-解耦:每個微服務獨立開發(fā)、部署、維護,降低系統(tǒng)復雜度。-彈性:容器可快速擴縮容,適應負載變化。-一致性:容器鏡像保證環(huán)境一致性,減少部署錯誤。-資源高效:容器輕量,資源占用低于虛擬機,提升硬件利用率。3.對比分析Kafka與傳統(tǒng)消息隊列(如RabbitMQ)的差異,說明Kafka在大數(shù)據(jù)場景中的優(yōu)勢。答案:差異:-吞吐量:Kafka支持百萬級TPS,RabbitMQ通常為萬級。-持久化:Kafka基于磁盤日志持久化,支持數(shù)據(jù)長期保存;RabbitMQ默認內(nèi)存存儲(可配置持久化)。-消息模型:Kafka是發(fā)布-訂閱模式,支持多消費者組;RabbitMQ支持隊列、發(fā)布-訂閱等多種模式。-延遲:RabbitMQ低延遲(毫秒級),Kafka延遲稍高(10ms左右)但吞吐量更高。大數(shù)據(jù)場景優(yōu)勢:-高吞吐處理海量流數(shù)據(jù)(如日志、用戶行為)。-持久化存儲支持離線和實時分析(數(shù)據(jù)可重放)。-分區(qū)機制支持水平擴展,應對數(shù)據(jù)量增長。4.簡述數(shù)據(jù)倉庫(DW)的分層設計及各層作用(至少列出三層)。答案:典型分層(自底向上):-原始數(shù)據(jù)層(ODS,OperationalDataStore):存儲原始業(yè)務數(shù)據(jù)(如數(shù)據(jù)庫備份、日志),保持數(shù)據(jù)原貌,不做清洗。-明細數(shù)據(jù)層(DWD,DataWarehouseDetail):對ODS數(shù)據(jù)進行清洗(去重、補全)、標準化(統(tǒng)一字段格式),保留原子信息,支持明細查詢。-匯總數(shù)據(jù)層(DWS,DataWarehouseSummary):基于DWD數(shù)據(jù)按主題(如用戶、訂單)匯總(如日活、月銷),用于快速查詢。-應用數(shù)據(jù)層(ADS,ApplicationDataService):為具體業(yè)務(如報表、BI)提供定制化數(shù)據(jù),直接對接前端應用。作用:通過分層隔離復雜度,提升數(shù)據(jù)可維護性;明細層保證數(shù)據(jù)質量,匯總層優(yōu)化查詢效率,應用層支持快速響應業(yè)務需求。5.說明云計算中“服務網(wǎng)格(ServiceMesh)”的核心功能及解決的問題。答案:核心功能:-服務間通信管理:負載均衡、熔斷、重試、流量鏡像。-可觀測性:收集請求延遲、錯誤率、吞吐量等指標,支持監(jiān)控和追蹤(如集成Zipkin、Jaeger)。-安全:自動TLS加密、身份認證(如SPIFFE)、授權策略。解決的問題:-傳統(tǒng)微服務架構中,服務間通信邏輯(如重試、熔斷)與業(yè)務代碼耦合,增加開發(fā)復雜度。-跨語言服務的通信標準不統(tǒng)一(如Java與Go的微服務),服務網(wǎng)格通過Sidecar代理(如Istio的Envoy)解耦通信邏輯。-缺乏統(tǒng)一的觀測和安全策略,服務網(wǎng)格提供全局可觀測性和集中式安全管理。四、綜合應用題(每題15分,共30分)1.某電商企業(yè)需構建用戶行為分析平臺,要求支持:(1)實時采集用戶瀏覽、點擊、下單等行為數(shù)據(jù)(日均數(shù)據(jù)量約500TB);(2)離線分析用戶畫像(如年齡分布、消費偏好);(3)實時計算“當前1小時內(nèi)TOP10熱銷商品”。請設計技術方案,包括數(shù)據(jù)采集、存儲、處理、計算各環(huán)節(jié)的技術選型及理由。答案:技術方案設計:(1)數(shù)據(jù)采集層:-工具:使用Flume(輕量級日志采集)或KafkaConnect(集成Kafka生態(tài)),移動端/網(wǎng)頁端通過SDK(如埋點工具)將行為數(shù)據(jù)發(fā)送至Kafka。-理由:Kafka作為消息隊列,支持高吞吐(500TB/日需百萬級TPS),且可緩沖數(shù)據(jù),避免下游處理壓力。(2)數(shù)據(jù)存儲層:-實時數(shù)據(jù)存儲:Kafka(短期存儲,保留7天用于實時計算)+HDFS/對象存儲(長期歸檔)。-離線存儲:Hive數(shù)據(jù)倉庫(基于HDFS存儲結構化數(shù)據(jù))+數(shù)據(jù)湖(如DeltaLake,存儲Parquet格式的原始/明細數(shù)據(jù))。-理由:Kafka保證實時處理的低延遲;HDFS/對象存儲成本低,適合海量數(shù)據(jù)長期保存;數(shù)據(jù)湖支持模式滯后,便于后續(xù)擴展分析維度。(3)實時處理層:-框架:ApacheFlink(或SparkStreaming,但Flink更適合嚴格的事件時間窗口和精確一次處理)。-計算邏輯:使用Flink的時間窗口(滾動窗口,1小時),按商品ID分組,統(tǒng)計下單量,輸出TOP10。結果寫入Redis(內(nèi)存數(shù)據(jù)庫)供前端實時查詢。-理由:Flink支持毫秒級延遲和精確一次語義,適合實時統(tǒng)計;Redis讀寫速度快,滿足實時查詢需求。(4)離線分析層:-工具:SparkSQL(或Hive)處理Hive數(shù)據(jù)倉庫中的明細數(shù)據(jù),結合機器學習框架(如MLlib)構建用戶畫像模型。-存儲:結果存儲至HBase(列式存儲,支持快速隨機查詢)或ClickHouse(OLAP數(shù)據(jù)庫,支持多維分析)。-理由:SparkSQL適合大規(guī)模離線批處理,MLlib提供成熟的分類、聚類算法;HBase/ClickHouse優(yōu)化查詢性能,支持用戶畫像的快速檢索和多維分析。2.某企業(yè)計劃將傳統(tǒng)單體應用遷移至公有云(如阿里云),要求提升系統(tǒng)的高可用性和可擴展性。請列出遷移的關鍵步驟,并說明每一步的核心工作及技術手段。答案:遷移關鍵步驟及核心工作:(1)現(xiàn)狀評估與規(guī)劃:-核心工作:梳理現(xiàn)有應用架構(模塊依賴、數(shù)據(jù)庫類型)、性能瓶頸(如QPS、響應時間)、數(shù)據(jù)量(如數(shù)據(jù)庫大小、每日增量)、業(yè)務優(yōu)先級(哪些模塊需優(yōu)先遷移)。-技術手段:使用云廠商工具(如阿里云ARMS)進行應用性能監(jiān)控(APM),繪制依賴拓撲圖;通過容量規(guī)劃工具(如CloudCheck)評估資源需求。(2)架構重構(云原生改造):-核心工作:將單體應用拆分為微服務(如按業(yè)務功能拆分用戶服務、訂單服務);數(shù)據(jù)庫拆分(如主庫分庫分表,引入讀寫分離);引入容器化(Docker打包微服務)。-技術手段:使用服務網(wǎng)格(如Istio)管理微服務通信;通過Debezium實現(xiàn)數(shù)據(jù)庫變更捕獲(CDC),支持分庫數(shù)據(jù)同步;構建Docker鏡像并推送至阿里云ACR(容器鏡像服務)。(3)遷移實施(分階段):-階段1(冷遷移):將靜態(tài)資源(如圖片、文檔)遷移至對象存儲(OSS);數(shù)據(jù)庫通過DTS(數(shù)據(jù)傳輸服務)遷移至云數(shù)據(jù)庫RDS(支持MySQL、Pos

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論