(2025年)大數(shù)據(jù)HCIA模考試題與參考答案_第1頁
(2025年)大數(shù)據(jù)HCIA??荚囶}與參考答案_第2頁
(2025年)大數(shù)據(jù)HCIA模考試題與參考答案_第3頁
(2025年)大數(shù)據(jù)HCIA??荚囶}與參考答案_第4頁
(2025年)大數(shù)據(jù)HCIA??荚囶}與參考答案_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

(2025年)大數(shù)據(jù)HCIA??荚囶}與參考答案一、單項選擇題(每題2分,共30分)1.以下關于HDFS(HadoopDistributedFileSystem)的描述中,錯誤的是?A.默認塊大小在2025年版本中調(diào)整為256MBB.元數(shù)據(jù)(NameNode)存儲文件的位置信息和訪問權限C.數(shù)據(jù)節(jié)點(DataNode)負責存儲實際數(shù)據(jù)塊并執(zhí)行讀寫操作D.HDFS通過多副本機制保證數(shù)據(jù)可靠性,默認副本數(shù)為32.在YARN(YetAnotherResourceNegotiator)架構中,負責為應用程序分配資源并監(jiān)控其運行狀態(tài)的組件是?A.NodeManagerB.ResourceManagerC.ApplicationMasterD.Container3.Hive中用于存儲元數(shù)據(jù)(如表結構、分區(qū)信息)的默認數(shù)據(jù)庫是?A.MySQLB.PostgreSQLC.DerbyD.HBase4.Spark中,以下哪個操作屬于寬依賴(WideDependency)?A.map()B.filter()C.groupByKey()D.flatMap()5.Kafka中,用于標識消息在分區(qū)中位置的唯一序號稱為?A.OffsetB.PartitionC.TopicD.ConsumerGroup6.以下不屬于NoSQL數(shù)據(jù)庫特點的是?A.支持ACID事務B.靈活的模式(Schema-less)C.水平擴展能力D.非關系型數(shù)據(jù)模型7.數(shù)據(jù)清洗過程中,處理“年齡字段出現(xiàn)-5”的問題屬于?A.缺失值處理B.異常值處理C.重復值處理D.格式不一致處理8.在HBase中,RowKey的設計原則不包括?A.長度越短越好B.散列分布以避免熱點C.按時間倒序存儲最新數(shù)據(jù)D.必須包含所有列的信息9.以下哪個工具常用于大數(shù)據(jù)實時流處理?A.HiveB.SparkSQLC.FlinkD.Pig10.數(shù)據(jù)倉庫(DataWarehouse)的核心特征是?A.支持實時事務處理(OLTP)B.面向主題、集成、非易失、隨時間變化C.存儲原始未加工的日志數(shù)據(jù)D.僅支持單表查詢11.以下關于ZooKeeper的描述中,正確的是?A.主要用于大數(shù)據(jù)計算任務調(diào)度B.采用Paxos算法實現(xiàn)分布式一致性C.數(shù)據(jù)存儲結構為樹形目錄D.單點故障會導致整個集群不可用12.機器學習中,用于評估分類模型性能的指標不包括?A.準確率(Accuracy)B.均方誤差(MSE)C.精確率(Precision)D.召回率(Recall)13.以下哪項是Hadoop3.x版本相較于2.x版本的主要改進?A.引入YARN資源管理框架B.支持HDFSFederation(聯(lián)邦)C.實現(xiàn)糾刪碼(ErasureCoding)以減少存儲開銷D.推出MapReduce2.014.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫的主要區(qū)別在于?A.數(shù)據(jù)湖僅存儲結構化數(shù)據(jù)B.數(shù)據(jù)倉庫支持原始數(shù)據(jù)直接分析C.數(shù)據(jù)湖在存儲階段不強制模式(Schema-on-Read)D.數(shù)據(jù)倉庫的存儲成本更高15.以下哪個參數(shù)是Spark作業(yè)調(diào)優(yōu)時用于控制每個任務內(nèi)存的關鍵配置?A.spark.executor.memoryB.spark.driver.memoryC.spark.sql.shuffle.partitionsD.spark.executor.cores二、多項選擇題(每題3分,共30分。每題至少有2個正確選項,多選、少選、錯選均不得分)1.以下屬于Hadoop生態(tài)系統(tǒng)組件的有?A.HBaseB.FlinkC.ZooKeeperD.Redis2.HDFS的適用場景包括?A.海量數(shù)據(jù)的批量存儲B.低延遲的實時數(shù)據(jù)訪問C.大文件(GB級以上)存儲D.多用戶并發(fā)的小文件讀寫3.Spark的部署模式包括?A.Local模式B.Standalone模式C.YARN模式D.Kubernetes模式4.Kafka生產(chǎn)者(Producer)的關鍵配置參數(shù)有?A.bootstrap.serversB.group.idC.acksD.mit5.數(shù)據(jù)清洗的常見方法包括?A.填充缺失值(如均值、中位數(shù))B.標準化(Z-Score)C.刪除重復記錄D.對異常值進行截斷或轉換6.以下關于Hive的描述中,正確的有?A.基于Hadoop的數(shù)倉工具,將SQL轉換為MapReduce任務B.支持事務(ACID)的表需要啟用Hive3.x以上版本C.分區(qū)(Partition)用于水平分割數(shù)據(jù),分桶(Bucket)用于更細粒度的劃分D.元數(shù)據(jù)僅存儲表結構,不包含統(tǒng)計信息7.Flink的時間語義包括?A.事件時間(EventTime)B.處理時間(ProcessingTime)C.攝入時間(IngestionTime)D.系統(tǒng)時間(SystemTime)8.數(shù)據(jù)倉庫的分層設計通常包括?A.原始數(shù)據(jù)層(ODS,OperationalDataStore)B.明細數(shù)據(jù)層(DWD,DataWarehouseDetail)C.聚合數(shù)據(jù)層(DWS,DataWarehouseSummary)D.應用數(shù)據(jù)層(ADS,ApplicationDataService)9.以下關于分布式計算框架的描述中,正確的有?A.MapReduce適合實時性要求高的短任務B.Spark通過RDD的緩存機制優(yōu)化迭代計算C.Flink基于事件時間窗口處理流數(shù)據(jù)D.Hive適合交互式查詢和低延遲分析10.機器學習中,監(jiān)督學習的常見算法包括?A.K-means聚類B.邏輯回歸(LogisticRegression)C.隨機森林(RandomForest)D.主成分分析(PCA)三、判斷題(每題1分,共10分。正確填“√”,錯誤填“×”)1.HDFS不適合存儲大量小文件,因為會占用NameNode過多內(nèi)存。()2.YARN的NodeManager負責管理集群資源,并為應用程序分配Container。()3.Hive的外部表(ExternalTable)刪除時會同時刪除HDFS上的數(shù)據(jù)。()4.SparkRDD的轉換操作(Transformation)是惰性執(zhí)行的,行動操作(Action)觸發(fā)計算。()5.Kafka的消費者組(ConsumerGroup)中,一個分區(qū)只能被組內(nèi)一個消費者消費。()6.HBase是列式存儲數(shù)據(jù)庫,適合實時讀寫和隨機訪問。()7.數(shù)據(jù)倉庫的ETL(抽取、轉換、加載)過程中,轉換(Transform)僅包括數(shù)據(jù)清洗,不涉及業(yè)務規(guī)則處理。()8.Flink的Checkpoint機制用于故障恢復,確保Exactly-Once處理語義。()9.機器學習中,過擬合(Overfitting)的表現(xiàn)是模型在訓練集和測試集上的準確率都很低。()10.2025年大數(shù)據(jù)場景中,云原生(Cloud-Native)架構(如基于K8s的大數(shù)據(jù)組件)的應用逐漸普及。()四、簡答題(每題6分,共30分)1.簡述HDFS的寫數(shù)據(jù)流程(需包含客戶端、NameNode、DataNode的交互步驟)。2.YARN的資源調(diào)度機制中,F(xiàn)IFO、容量調(diào)度(CapacityScheduler)和公平調(diào)度(FairScheduler)的核心區(qū)別是什么?3.對比Hive與傳統(tǒng)關系型數(shù)據(jù)庫(如MySQL)的主要差異(至少列出4點)。4.說明SparkRDD的持久化(Persistence)策略(如MEMORY_ONLY、MEMORY_AND_DISK)的適用場景及選擇依據(jù)。5.數(shù)據(jù)倉庫的分層設計中,ODS層與DWD層的主要區(qū)別是什么?各自的設計目標是什么?五、綜合題(20分)某電商企業(yè)需構建一個大數(shù)據(jù)平臺,用于分析用戶行為日志(包括頁面瀏覽、商品點擊、訂單提交等)。請設計一個完整的處理流程,要求包含以下環(huán)節(jié):(1)數(shù)據(jù)采集:說明日志數(shù)據(jù)的來源及采集工具;(2)數(shù)據(jù)存儲:選擇適合的存儲組件(需區(qū)分實時和離線場景);(3)數(shù)據(jù)處理:設計離線批處理和實時流處理的技術方案(如使用的框架、處理邏輯);(4)數(shù)據(jù)分析與可視化:列舉常用的分析方法和可視化工具。參考答案一、單項選擇題1-5:BCCCA6-10:ADDCB11-15:CBCCA二、多項選擇題1.ABC2.AC3.ABCD4.AC5.ACD6.ABC7.ABC8.ABCD9.BC10.BC三、判斷題1.√2.×3.×4.√5.√6.√7.×8.√9.×10.√四、簡答題1.HDFS寫數(shù)據(jù)流程:(1)客戶端調(diào)用create()方法請求寫文件,NameNode檢查權限和文件是否存在;(2)NameNode返回可寫入的DataNode列表(根據(jù)副本策略選擇);(3)客戶端將數(shù)據(jù)分塊(默認256MB),通過Pipeline(數(shù)據(jù)節(jié)點鏈)依次傳輸數(shù)據(jù)塊;(4)每個DataNode接收數(shù)據(jù)后向Pipeline上游確認,最終由第一個DataNode向客戶端確認;(5)所有塊寫入完成后,客戶端調(diào)用complete()通知NameNode更新元數(shù)據(jù)。2.YARN調(diào)度器區(qū)別:-FIFO:單隊列,任務按提交順序執(zhí)行,適合小集群或單用戶場景;-容量調(diào)度:多隊列(分配固定資源),支持隊列內(nèi)FIFO或公平調(diào)度,適合多租戶資源隔離;-公平調(diào)度:動態(tài)分配資源,確保任務按權重公平獲取資源,適合需要快速響應短任務的場景。3.Hive與傳統(tǒng)數(shù)據(jù)庫差異:(1)數(shù)據(jù)存儲:Hive基于HDFS(分布式存儲),傳統(tǒng)數(shù)據(jù)庫基于本地文件系統(tǒng);(2)查詢延遲:Hive適合離線批處理(分鐘級),傳統(tǒng)數(shù)據(jù)庫支持實時查詢(毫秒級);(3)事務支持:Hive需3.x+版本支持有限ACID,傳統(tǒng)數(shù)據(jù)庫強事務;(4)數(shù)據(jù)模型:Hive支持半結構化/非結構化數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫依賴固定Schema;(5)擴展性:Hive通過橫向擴展集群提升性能,傳統(tǒng)數(shù)據(jù)庫依賴縱向擴展(硬件升級)。4.Spark持久化策略:-MEMORY_ONLY:僅內(nèi)存存儲,速度最快,適合數(shù)據(jù)量小且易計算的RDD;-MEMORY_AND_DISK:內(nèi)存不足時溢寫磁盤,適合數(shù)據(jù)量大但計算成本高的RDD;-DISK_ONLY:僅磁盤存儲,適合內(nèi)存嚴重不足但需重復使用的RDD;選擇依據(jù):根據(jù)RDD大小、計算成本、內(nèi)存資源綜合判斷(如迭代算法優(yōu)先選MEMORY_ONLY)。5.ODS與DWD層區(qū)別:-ODS(原始數(shù)據(jù)層):存儲原始日志/業(yè)務系統(tǒng)數(shù)據(jù)(如JSON/CSV),保留原始格式,設計目標是“數(shù)據(jù)歸檔”;-DWD(明細數(shù)據(jù)層):對ODS數(shù)據(jù)清洗(去重、補全)、結構化處理(如解析JSON為列),添加公共維度(如用戶ID、時間戳),設計目標是“統(tǒng)一數(shù)據(jù)口徑,支持后續(xù)加工”。五、綜合題(1)數(shù)據(jù)采集:-來源:Web端(JS埋點)、App端(SDK埋點)、服務器日志(Nginx/Tomcat);-工具:離線日志通過Flume定時拉取到HDFS;實時日志通過Kafka采集(客戶端直接發(fā)送到Kafka主題)。(2)數(shù)據(jù)存儲:-離線存儲:HDFS(存儲歷史日志,按日期分區(qū))、Hive(構建數(shù)據(jù)倉庫,存儲結構化明細數(shù)據(jù));-實時存儲:Kafka(緩存實時數(shù)據(jù)流,保留7天)、HBase(存儲高頻查詢的用戶行為明細,如最近30天數(shù)據(jù))。(3)數(shù)據(jù)處理:-離線批處理:使用SparkSQL/Hive,每日凌晨處理前一日日志;流程包括清洗(過濾無效記錄)、關聯(lián)(用戶ID與會員信息表)、聚合(計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論