版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)技術專業(yè)知識競賽題庫附答案一、單項選擇題(每題2分,共40分)1.以下關于HDFS默認塊大小的描述,正確的是()A.Hadoop2.x版本默認128MB,Hadoop3.x版本調(diào)整為256MBB.所有Hadoop版本均默認64MBC.HDFS塊大小可通過dfs.blocksize參數(shù)配置,默認128MBD.塊大小必須為128的整數(shù)倍答案:C2.在MapReduce編程模型中,負責將Mapper輸出數(shù)據(jù)按鍵分區(qū)的組件是()A.ShuffleB.PartitionerC.CombinerD.Reducer答案:B3.Spark中RDD(彈性分布式數(shù)據(jù)集)的核心特性不包括()A.不可變B.可分區(qū)C.惰性計算D.支持事務ACID特性答案:D4.以下不屬于Kafka核心組件的是()A.BrokerB.ZookeeperC.ConsumerGroupD.NameNode答案:D5.HBase的RowKey設計原則中,錯誤的是()A.盡量簡短以減少存儲開銷B.避免單調(diào)遞增以防止熱點問題C.必須包含時間戳字段D.需根據(jù)查詢模式優(yōu)化排序答案:C6.關于Flink的時間類型,以下描述錯誤的是()A.事件時間(EventTime)基于數(shù)據(jù)本身的時間戳B.處理時間(ProcessingTime)基于算子處理數(shù)據(jù)的系統(tǒng)時間C.攝入時間(IngestionTime)是數(shù)據(jù)進入Flink系統(tǒng)的時間D.事件時間需要水印(Watermark)機制處理亂序數(shù)據(jù),處理時間不需要答案:無(注:本題無錯誤選項,實際命題時需調(diào)整,正確示例應為“Flink的時間類型包括事件時間、處理時間和攝入時間,其中處理時間不需要水印”)7.數(shù)據(jù)倉庫(DataWarehouse)的關鍵特性不包括()A.面向主題B.實時性C.集成性D.隨時間變化答案:B8.在Hive中,以下哪種文件格式同時支持列存儲和壓縮,且適合大規(guī)模數(shù)據(jù)查詢()A.TextFileB.SequenceFileC.ParquetD.ORC答案:C(注:Parquet和ORC均支持列存儲,但Parquet更適合多計算框架兼容場景)9.以下屬于非關系型數(shù)據(jù)庫(NoSQL)的是()A.MySQLB.OracleC.HBaseD.SQLServer答案:C10.分布式計算中,CAP定理指的是()A.一致性、可用性、分區(qū)容錯性B.完整性、原子性、持久性C.并發(fā)、原子、性能D.復制、分片、緩存答案:A11.以下哪個工具用于Hadoop集群的資源管理和任務調(diào)度()A.HDFSB.YARNC.MapReduceD.Hive答案:B12.Spark中,以下操作屬于轉(zhuǎn)換(Transformation)的是()A.collect()B.count()C.reduce()D.map()答案:D13.Kafka中,消息的持久化存儲單元是()A.TopicB.PartitionC.OffsetD.Consumer答案:B14.數(shù)據(jù)清洗的主要目的是()A.增加數(shù)據(jù)量B.消除數(shù)據(jù)中的錯誤、冗余和不一致C.轉(zhuǎn)換數(shù)據(jù)格式以適應可視化D.提升數(shù)據(jù)存儲效率答案:B15.以下關于分布式文件系統(tǒng)(DFS)的描述,錯誤的是()A.通常采用主從架構(gòu)(MasterSlave)B.數(shù)據(jù)以塊(Block)為單位存儲C.保證強一致性(StrongConsistency)D.支持高吞吐量的批量數(shù)據(jù)訪問答案:C(注:DFS通常保證最終一致性或會話一致性,而非強一致性)16.機器學習中,監(jiān)督學習和無監(jiān)督學習的主要區(qū)別是()A.是否需要標簽數(shù)據(jù)B.是否使用神經(jīng)網(wǎng)絡C.訓練速度快慢D.是否支持在線學習答案:A17.在HBase中,用于定位RowKey所在RegionServer的元數(shù)據(jù)存儲在()A.ROOT表B..META.表C.HMaster內(nèi)存D.Zookeeper答案:B18.Flink的窗口(Window)類型中,適用于時間驅(qū)動聚合的是()A.滑動窗口(SlidingWindow)B.會話窗口(SessionWindow)C.全局窗口(GlobalWindow)D.計數(shù)窗口(CountWindow)答案:A19.以下不屬于大數(shù)據(jù)處理框架的是()A.StormB.FlinkC.HBaseD.TensorFlow答案:D(注:TensorFlow是機器學習框架)20.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫(DataWarehouse)的核心區(qū)別是()A.數(shù)據(jù)湖存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫存儲非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖在存儲時不定義模式(SchemaonRead),數(shù)據(jù)倉庫在存儲前定義模式(SchemaonWrite)C.數(shù)據(jù)湖僅支持實時處理,數(shù)據(jù)倉庫僅支持離線處理D.數(shù)據(jù)湖規(guī)模更小,數(shù)據(jù)倉庫規(guī)模更大答案:B二、填空題(每題2分,共20分)1.Hadoop生態(tài)中,負責分布式資源管理的組件是________。答案:YARN2.Spark中,RDD的持久化操作通過________方法實現(xiàn),常見的存儲級別包括MEMORY_ONLY、MEMORY_AND_DISK等。答案:persist()或cache()(注:cache()是persist(MEMORY_ONLY)的簡寫)3.Kafka中,消費者組(ConsumerGroup)內(nèi)的消費者通過________機制實現(xiàn)消息的負載均衡。答案:分區(qū)分配(或PartitionAssignment)4.HBase的數(shù)據(jù)模型中,行由RowKey唯一標識,列屬于________,同一列族的數(shù)據(jù)存儲在同一個文件中。答案:列族(ColumnFamily)5.數(shù)據(jù)清洗的常見方法包括缺失值處理、________、異常值檢測和糾正、數(shù)據(jù)標準化等。答案:重復值處理(或冗余數(shù)據(jù)處理)6.Flink中,水?。╓atermark)用于處理________數(shù)據(jù),其核心邏輯是“事件時間已到達時間戳T,后續(xù)不會再接收時間戳小于T的數(shù)據(jù)”。答案:亂序(或延遲)7.分布式系統(tǒng)中,Zookeeper的主要功能包括配置管理、________、命名服務和分布式鎖。答案:集群管理(或節(jié)點存活監(jiān)控)8.Hive的元數(shù)據(jù)(Metadata)默認存儲在________數(shù)據(jù)庫中,生產(chǎn)環(huán)境通常使用MySQL或PostgreSQL。答案:Derby(或內(nèi)嵌數(shù)據(jù)庫)9.機器學習中,評估分類模型性能的常用指標有準確率(Accuracy)、精確率(Precision)、召回率(Recall)和________(F1Score)。答案:F1值(或F1分數(shù))10.實時計算框架中,________(填技術名稱)通過Checkpoint機制實現(xiàn)故障恢復,保證“精確一次”(ExactlyOnce)處理語義。答案:Flink(或SparkStreaming基于Checkpoint的實現(xiàn),但Flink更典型)三、簡答題(每題5分,共40分)1.簡述HDFS的讀寫流程(以寫流程為例)。答案:HDFS寫流程:客戶端調(diào)用create()方法請求NameNode創(chuàng)建文件;NameNode檢查權限并確認文件不存在后,返回可寫入狀態(tài);客戶端將文件分塊(默認128MB),通過DataStreamer與NameNode協(xié)商選擇三個DataNode(副本策略);客戶端將第一個塊的數(shù)據(jù)包發(fā)送到第一個DataNode,該節(jié)點接收后復制到第二個節(jié)點,第二個復制到第三個,形成流水線;每個DataNode確認接收后向客戶端返回確認,客戶端完成所有塊寫入后通知NameNode提交文件。2.對比MapReduce和Spark在計算模型上的主要差異。答案:MapReduce基于“分而治之”的磁盤計算模型,每個任務(Map/Reduce)的中間結(jié)果需落盤,適合離線批處理但延遲高;Spark基于內(nèi)存計算,通過RDD的血緣關系(Lineage)實現(xiàn)容錯,支持迭代計算(如機器學習)和交互式查詢,計算效率更高;Spark提供更豐富的API(如DataFrame/Dataset),支持SQL、流處理(SparkStreaming)等多場景,而MapReduce功能相對單一。3.解釋Kafka的ISR(InSyncReplicas)機制及其作用。答案:ISR是與Leader副本保持同步的Follower副本集合。當Producer發(fā)送消息到Leader時,Leader寫入本地日志后,F(xiàn)ollower通過拉?。‵etch)請求同步數(shù)據(jù);只有Follower的LEO(LogEndOffset)與Leader的HW(HighWatermark)保持同步(超過一定閾值),才會被包含在ISR中。ISR機制確保在Leader故障時,新的Leader從ISR中選舉,保證數(shù)據(jù)一致性;同時,Kafka的ACK機制(如acks=all)要求ISR中所有副本確認接收,才向Producer返回成功。4.數(shù)據(jù)倉庫的分層設計通常包括哪些層?各層的主要功能是什么?答案:典型分層:(1)ODS層(操作數(shù)據(jù)存儲層):存儲原始數(shù)據(jù),保持與源系統(tǒng)一致的結(jié)構(gòu),用于數(shù)據(jù)落地和備份;(2)DWD層(數(shù)據(jù)倉庫明細層):對ODS數(shù)據(jù)清洗(去重、補全、標準化),構(gòu)建一致的維度和事實表,支持明細查詢;(3)DWS層(數(shù)據(jù)倉庫匯總層):基于DWD層按主題/業(yè)務過程匯總(如按天、按地域),減少下游計算壓力;(4)ADS層(應用數(shù)據(jù)服務層):面向具體業(yè)務需求(如報表、BI),提供直接可用的匯總數(shù)據(jù)或指標。5.簡述HBase的Region分裂機制及其觸發(fā)條件。答案:Region分裂是HBase自動擴容的關鍵機制。當單個Region的大小超過閾值(默認10GB)或Region內(nèi)StoreFile數(shù)量超過閾值時,HMaster觸發(fā)分裂;分裂時,Region被按RowKey中值(MidKey)切分為兩個子Region,原Region下線,子Region注冊到HMaster并分配給不同的RegionServer;分裂后,客戶端通過.META.表更新路由信息,實現(xiàn)負載均衡。6.對比Flink和SparkStreaming在流處理上的差異(至少三點)。答案:(1)處理模型:Flink基于事件時間(EventTime)和水?。╓atermark)處理亂序數(shù)據(jù),支持精確一次(ExactlyOnce)語義;SparkStreaming基于微批處理(MicroBatch),將流視為連續(xù)的小批量數(shù)據(jù),延遲較高(通常秒級)。(2)狀態(tài)管理:Flink提供原生狀態(tài)后端(如RocksDB、內(nèi)存),支持大狀態(tài)和復雜狀態(tài)操作;SparkStreaming通過Checkpoint管理狀態(tài),狀態(tài)更新依賴批處理結(jié)果。(3)窗口類型:Flink支持滾動、滑動、會話等多種窗口,且窗口觸發(fā)基于事件時間;SparkStreaming窗口基于批處理時間(如窗口大小為5分鐘,批次為1分鐘)。7.數(shù)據(jù)挖掘中,常用的分類算法有哪些?簡述隨機森林(RandomForest)的原理。答案:常用分類算法:決策樹、邏輯回歸、SVM(支持向量機)、KNN(K近鄰)、隨機森林、神經(jīng)網(wǎng)絡等。隨機森林原理:基于集成學習(Bagging方法),通過自助采樣(Bootstrap)從訓練集中提供多個子集,每個子集訓練一棵決策樹;樹的生長過程中,每個節(jié)點隨機選擇部分特征(而非全部)進行分裂;預測時,通過多棵樹的投票(分類)或平均(回歸)得到最終結(jié)果,降低過擬合風險,提高模型泛化能力。8.簡述分布式系統(tǒng)中一致性哈希(ConsistentHashing)的原理及其解決的問題。答案:一致性哈希將哈??臻g(如0~2^321)映射到一個環(huán)(HashRing),每個節(jié)點(如服務器)通過哈希函數(shù)映射到環(huán)上的某個位置;數(shù)據(jù)鍵(Key)同樣哈希到環(huán)上,沿環(huán)順時針找到最近的節(jié)點存儲。當節(jié)點增加/刪除時,僅影響該節(jié)點相鄰的少量數(shù)據(jù),而非全部重新哈希。解決了傳統(tǒng)哈希(如取模)在節(jié)點擴縮容時數(shù)據(jù)遷移量大的問題,提高了系統(tǒng)的可擴展性和容錯性。四、綜合題(每題10分,共20分)1.某電商公司需構(gòu)建用戶行為分析系統(tǒng),要求支持:(1)實時采集APP端的用戶點擊、下單、支付等行為數(shù)據(jù);(2)離線分析用戶購物偏好(如復購率、品類偏好);(3)實時監(jiān)控大促期間的訂單支付成功率(5分鐘窗口)。請設計技術方案,說明各環(huán)節(jié)使用的技術組件及作用。答案:(1)數(shù)據(jù)采集層:使用Flume或KafkaConnect采集APP端行為數(shù)據(jù)(格式為JSON,包含用戶ID、時間戳、事件類型、商品ID等);通過Kafka作為消息中間件緩沖,解耦生產(chǎn)端和消費端,支持高吞吐(Kafka的Topic按事件類型分區(qū))。(2)實時處理層:使用Flink消費Kafka數(shù)據(jù),解析并過濾無效數(shù)據(jù);針對訂單支付成功率監(jiān)控,定義滑動窗口(如5分鐘窗口,1分鐘滑動步長),計算窗口內(nèi)支付成功數(shù)/訂單總數(shù),結(jié)果輸出到Redis或Elasticsearch,供前端實時展示。(3)離線處理層:Kafka數(shù)據(jù)通過Flume或SparkStreaming定時(如每小時)導入HDFS;使用Hive構(gòu)建數(shù)據(jù)倉庫,分層處理(ODS→DWD→DWS),清洗用戶行為數(shù)據(jù)并關聯(lián)用戶基本信息、商品信息;通過Spark或HadoopMapReduce計算復購率(用戶一定時間內(nèi)購買次數(shù)≥2的比例)、品類偏好(用戶購買各品類商品的頻率)等指標,結(jié)果存儲到HBase或MySQL,供BI工具(如Tableau)查詢。(4)存儲層:實時結(jié)果存Redis(內(nèi)存數(shù)據(jù)庫,支持快速讀寫);離線明細數(shù)據(jù)存HDFS(海量存儲);聚合指標存HBase(支持高頻讀)或MySQL(結(jié)構(gòu)化查詢)。2.某Spark作業(yè)運行緩慢,日志顯示“GCoverheadlimitexceeded”和“Shufflereadtime占比過高”,請分析可能原因并提出優(yōu)化措施。答案:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 有機介質(zhì)電容器裝配工班組評比評優(yōu)考核試卷含答案
- 工業(yè)爐及電爐電氣控制裝調(diào)工成果轉(zhuǎn)化競賽考核試卷含答案
- 靜電成像設備耗材制造工發(fā)展趨勢評優(yōu)考核試卷含答案
- 電池配料工安全操作考核試卷含答案
- 有害生物防制員復試測試考核試卷含答案
- 化工檢修鉗工崗前實操綜合知識考核試卷含答案
- 衡器總裝調(diào)試工操作能力水平考核試卷含答案
- 巡游出租汽車司機崗前紀律考核試卷含答案
- 2024年廣西科技大學馬克思主義基本原理概論期末考試題附答案
- 農(nóng)機服務經(jīng)紀人標準化競賽考核試卷含答案
- 正規(guī)裝卸合同范本
- 自動控制原理仿真實驗課程智慧樹知到答案2024年山東大學
- JBT 7946.2-2017 鑄造鋁合金金相 第2部分:鑄造鋁硅合金過燒
- 流程與TOC改善案例
- 【當代中國婚禮空間設計研究4200字(論文)】
- GB/T 20322-2023石油及天然氣工業(yè)往復壓縮機
- 提撈采油安全操作規(guī)程
- DB3211-T 1048-2022 嬰幼兒日間照料托育機構(gòu)服務規(guī)范
- YY/T 1846-2022內(nèi)窺鏡手術器械重復性使用腹部沖吸器
- GB/T 15390-2005工程用焊接結(jié)構(gòu)彎板鏈、附件和鏈輪
- GA 1016-2012槍支(彈藥)庫室風險等級劃分與安全防范要求
評論
0/150
提交評論