版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)練習(xí)試題附答案一、單項選擇題(每題2分,共30分)1.關(guān)于HDFS的存儲機制,以下描述錯誤的是()。A.默認(rèn)塊大小為128MBB.數(shù)據(jù)副本數(shù)默認(rèn)3個C.元數(shù)據(jù)由NameNode管理D.單個文件大小不能超過塊大小總和答案:D(HDFS支持單個文件大于塊大小,通過多塊存儲)2.Spark中,以下操作屬于行動(Action)操作的是()。A.map()B.filter()C.reduce()D.flatMap()答案:C(reduce()觸發(fā)計算并返回結(jié)果,屬于行動操作)3.數(shù)據(jù)傾斜(DataSkew)最可能導(dǎo)致的問題是()。A.計算資源浪費B.數(shù)據(jù)丟失C.網(wǎng)絡(luò)傳輸延遲降低D.任務(wù)并行度提升答案:A(傾斜導(dǎo)致部分任務(wù)處理大量數(shù)據(jù),其他任務(wù)空閑,資源利用率低)4.Kafka中,消費者組(ConsumerGroup)的核心作用是()。A.提高生產(chǎn)者吞吐量B.實現(xiàn)消息廣播或負(fù)載均衡C.管理Topic的分區(qū)D.保證消息ExactlyOnce語義答案:B(同一組內(nèi)消費者負(fù)載均衡,不同組間廣播)5.以下不屬于數(shù)據(jù)湖(DataLake)典型特征的是()。A.存儲多格式數(shù)據(jù)(如CSV、Parquet、JSON)B.支持事務(wù)(ACID)C.面向結(jié)構(gòu)化數(shù)據(jù)設(shè)計D.原生支持文件級存儲答案:C(數(shù)據(jù)湖支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))6.Hive中,若要將表數(shù)據(jù)存儲為列式存儲格式,通常推薦使用()。A.TextFileB.ORCC.SequenceFileD.RCFile答案:B(ORC是Hive優(yōu)化的列式存儲,壓縮和查詢效率更高)7.Flink中,時間窗口(TimeWindow)的觸發(fā)條件是()。A.窗口內(nèi)數(shù)據(jù)量達(dá)到閾值B.事件時間或處理時間到達(dá)窗口結(jié)束點C.檢查點(Checkpoint)完成D.水位線(Watermark)超過窗口結(jié)束時間答案:D(Flink通過水位線判斷延遲數(shù)據(jù),觸發(fā)窗口計算)8.關(guān)于數(shù)據(jù)倉庫(DataWarehouse)與數(shù)據(jù)湖的區(qū)別,以下描述正確的是()。A.數(shù)據(jù)倉庫僅存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖存儲多類型數(shù)據(jù)B.數(shù)據(jù)倉庫支持實時寫入,數(shù)據(jù)湖僅支持批量寫入C.數(shù)據(jù)倉庫無模式(Schema-on-Write),數(shù)據(jù)湖有模式(Schema-on-Read)D.數(shù)據(jù)倉庫面向分析,數(shù)據(jù)湖面向事務(wù)答案:A(數(shù)據(jù)倉庫通常處理結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖支持多格式)9.以下哪個工具常用于大數(shù)據(jù)集群的資源管理?()A.HBaseB.YARNC.ZooKeeperD.Sqoop答案:B(YARN是Hadoop的資源管理框架)10.若需將關(guān)系型數(shù)據(jù)庫(如MySQL)的全量數(shù)據(jù)導(dǎo)入HDFS,最適合的工具是()。A.FlumeB.KafkaC.SqoopD.Flink答案:C(Sqoop專用于關(guān)系型數(shù)據(jù)庫與Hadoop間的數(shù)據(jù)遷移)11.SparkRDD的持久化(Persist)操作中,存儲級別“MEMORY_AND_DISK_SER”表示()。A.僅內(nèi)存存儲,序列化B.內(nèi)存不足時溢寫磁盤,序列化C.僅磁盤存儲,序列化D.內(nèi)存和磁盤同時存儲,非序列化答案:B(MEMORY_AND_DISK_SER表示優(yōu)先內(nèi)存存儲序列化數(shù)據(jù),內(nèi)存不足則落盤)12.數(shù)據(jù)治理的核心目標(biāo)是()。A.提高數(shù)據(jù)處理速度B.確保數(shù)據(jù)質(zhì)量、安全性和可追溯性C.減少存儲成本D.簡化數(shù)據(jù)查詢邏輯答案:B(數(shù)據(jù)治理關(guān)注數(shù)據(jù)全生命周期的管理與質(zhì)量保障)13.以下哪項不是Kafka的設(shè)計目標(biāo)?()A.高吞吐量B.低延遲C.消息持久化D.強一致性(如RDBMS的ACID)答案:D(Kafka側(cè)重高吞吐和持久化,不保證強一致性)14.在HBase中,RowKey的設(shè)計原則不包括()。A.散列化(避免熱點)B.長度盡可能長C.按查詢需求排序D.唯一性答案:B(RowKey過長會增加存儲和查詢開銷,需盡量簡短)15.關(guān)于機器學(xué)習(xí)在大數(shù)據(jù)中的應(yīng)用,以下描述錯誤的是()。A.聚類算法可用于用戶分群B.分類算法可用于預(yù)測用戶流失C.回歸算法僅適用于結(jié)構(gòu)化數(shù)據(jù)D.協(xié)同過濾可用于推薦系統(tǒng)答案:C(回歸算法可處理結(jié)構(gòu)化和部分半結(jié)構(gòu)化數(shù)據(jù))二、填空題(每空2分,共20分)1.Hadoop3.x中,HDFS的默認(rèn)塊大小是______MB。答案:1282.SparkSQL的核心抽象是______,它是帶有元數(shù)據(jù)的分布式數(shù)據(jù)集。答案:DataFrame3.Kafka中,Topic的分區(qū)(Partition)數(shù)量決定了消費者組的最大______。答案:并行度4.數(shù)據(jù)清洗的常見操作包括去重、______、填充缺失值、糾正錯誤數(shù)據(jù)等。答案:格式標(biāo)準(zhǔn)化(或“異常值處理”)5.Flink的狀態(tài)后端(StateBackend)用于存儲和管理______,常見類型有MemoryStateBackend、FsStateBackend等。答案:算子狀態(tài)6.數(shù)據(jù)湖倉(Lakehouse)結(jié)合了數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的______特性。答案:事務(wù)(或“ACID”)7.Hive的元數(shù)據(jù)(Metadata)默認(rèn)存儲在______數(shù)據(jù)庫中(填寫數(shù)據(jù)庫名稱)。答案:MySQL8.分布式計算中,______問題指不同節(jié)點間因網(wǎng)絡(luò)延遲導(dǎo)致的數(shù)據(jù)不一致現(xiàn)象。答案:一致性(或“CAP中的C”)9.實時數(shù)據(jù)處理中,______機制用于平衡吞吐量和延遲,常見策略有時間觸發(fā)、計數(shù)觸發(fā)。答案:窗口(或“Window”)10.大數(shù)據(jù)平臺的高可用(HA)通常通過______技術(shù)實現(xiàn),如NameNode的主備切換。答案:主從復(fù)制(或“ZooKeeper協(xié)調(diào)”)三、簡答題(每題8分,共40分)1.簡述HadoopYARN的架構(gòu)組成及各組件的核心功能。答案:YARN架構(gòu)包括ResourceManager(RM)、NodeManager(NM)和ApplicationMaster(AM)。-RM:全局資源管理器,負(fù)責(zé)集群資源的統(tǒng)一分配與管理,監(jiān)控NM狀態(tài)。-NM:節(jié)點級代理,管理單個節(jié)點的資源(CPU、內(nèi)存),啟動/監(jiān)控Container,向RM匯報狀態(tài)。-AM:應(yīng)用程序的“管理者”,向RM申請資源(Container),協(xié)調(diào)任務(wù)執(zhí)行,監(jiān)控任務(wù)狀態(tài)。2.數(shù)據(jù)傾斜的常見檢測方法及解決策略有哪些?答案:檢測方法:-任務(wù)日志分析:觀察任務(wù)執(zhí)行時間,若某任務(wù)耗時遠(yuǎn)高于其他,可能存在傾斜。-統(tǒng)計分區(qū)數(shù)據(jù)量:通過SQL或Spark的count()按key分組,查看是否有異常大的key。解決策略:-增加并行度:通過調(diào)整參數(shù)(如spark.sql.shuffle.partitions)增加分區(qū)數(shù),分散數(shù)據(jù)。-拆分熱點key:對高頻key添加隨機前綴,分散到不同分區(qū),聚合后去前綴。-過濾無效數(shù)據(jù):提前過濾異常大的key(如測試數(shù)據(jù))。-使用自定義分區(qū)器:根據(jù)業(yè)務(wù)規(guī)則重新分配key。3.說明Kafka的ISR(In-SyncReplicas)機制及其作用。答案:ISR是與Leader副本保持同步的Follower副本集合。作用:-保證消息可靠性:僅ISR中的Follower可參與Leader選舉,避免數(shù)據(jù)丟失。-控制消息確認(rèn)(Ack):生產(chǎn)者設(shè)置acks=all時,需ISR中所有副本確認(rèn)后才提交消息。維護機制:Follower需定期向Leader發(fā)送Fetch請求并同步數(shù)據(jù),若延遲超過閾值(如replica.lag.time.max.ms),則被移出ISR;同步后重新加入。4.對比SparkRDD與DataFrame的區(qū)別,并說明各自適用場景。答案:區(qū)別:-數(shù)據(jù)結(jié)構(gòu):RDD是無結(jié)構(gòu)的分布式數(shù)據(jù)集(僅記錄數(shù)據(jù)),DataFrame是帶Schema的二維表(包含列名和類型)。-性能:DataFrame通過Catalyst優(yōu)化器進(jìn)行邏輯和物理計劃優(yōu)化,執(zhí)行效率通常高于RDD。-編程接口:RDD基于函數(shù)式編程(如map、reduce),DataFrame支持SQL和類SQL操作(如select、groupBy)。適用場景:-RDD:需要細(xì)粒度控制數(shù)據(jù)處理邏輯(如復(fù)雜的迭代算法)、非結(jié)構(gòu)化數(shù)據(jù)(如日志)。-DataFrame:結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)處理(如業(yè)務(wù)報表、用戶行為分析)、需要高性能查詢的場景。5.數(shù)據(jù)倉庫分層設(shè)計的意義是什么?請列舉常見的分層結(jié)構(gòu)并說明各層作用。答案:意義:通過分層實現(xiàn)數(shù)據(jù)解耦,提升可維護性;避免重復(fù)計算,降低存儲成本;明確數(shù)據(jù)流向,便于問題定位。常見分層(以四分層為例):-ODS(操作數(shù)據(jù)層):存儲原始數(shù)據(jù)(如業(yè)務(wù)數(shù)據(jù)庫備份、日志文件),保持“原始性”,不做清洗。-DWD(細(xì)節(jié)數(shù)據(jù)層):對ODS數(shù)據(jù)清洗(去重、脫敏、補全),統(tǒng)一格式,提供原子性的明細(xì)數(shù)據(jù)。-DWS(匯總數(shù)據(jù)層):基于DWD數(shù)據(jù)按主題域聚合(如按用戶、按天),提供寬表或輕度匯總數(shù)據(jù),提升查詢效率。-ADS(應(yīng)用數(shù)據(jù)層):直接對接業(yè)務(wù)需求,存儲報表、指標(biāo)等結(jié)果數(shù)據(jù)(如用戶留存率、銷售額TOP10商品)。四、應(yīng)用題(共30分)1.(10分)某電商平臺需用SparkSQL計算用戶“次日留存率”(即當(dāng)日首次訪問的用戶中,次日再次訪問的比例)。已知用戶行為日志表(user_behavior)包含字段:user_id(用戶ID)、event_time(事件時間,格式為“yyyy-MM-ddHH:mm:ss”)。請寫出分析步驟及關(guān)鍵SQL代碼。答案:步驟:①提取用戶每日首次訪問時間:按user_id分組,取event_time的最小值作為首次訪問日期(first_date)。②關(guān)聯(lián)首次訪問日期與次日訪問記錄:判斷用戶在first_date+1天是否有訪問記錄。③計算留存用戶數(shù)與總用戶數(shù)的比例。關(guān)鍵SQL代碼:```sql--步驟1:計算用戶首次訪問日期WITHfirst_visitAS(SELECTuser_id,DATE(MIN(event_time))ASfirst_dateFROMuser_behaviorGROUPBYuser_id)--步驟2:計算次日是否留存,retention_flagAS(SELECTf.user_id,f.first_date,CASEWHENCOUNT(ub.user_id)>0THEN1ELSE0ENDASis_retentionFROMfirst_visitfLEFTJOINuser_behaviorubONf.user_id=ub.user_idANDDATE(ub.event_time)=DATE_ADD(f.first_date,1)GROUPBYf.user_id,f.first_date)--步驟3:計算次日留存率SELECTfirst_date,SUM(is_retention)1.0/COUNT(user_id)ASretention_rateFROMretention_flagGROUPBYfirst_date;```2.(10分)設(shè)計一個實時數(shù)據(jù)處理架構(gòu),用于監(jiān)控某IoT設(shè)備的溫度數(shù)據(jù)(每秒產(chǎn)生1萬條,格式為JSON:{"device_id":"d001","temp":30.5,"timestamp":1718234567})。要求:①支持高吞吐數(shù)據(jù)采集;②實時計算每5分鐘各設(shè)備的平均溫度;③結(jié)果存儲至HBase。請畫出架構(gòu)圖(文字描述即可)并說明各組件作用。答案:架構(gòu)設(shè)計(從數(shù)據(jù)流程描述):①數(shù)據(jù)采集層:使用Flume部署多個Agent,安裝在IoT設(shè)備服務(wù)器上,通過TailSource監(jiān)聽日志文件,或通過NetcatSource接收UDP/TCP發(fā)送的JSON數(shù)據(jù),將數(shù)據(jù)匯聚到Kafka。②消息緩沖層:Kafka作為消息隊列,創(chuàng)建Topic(如iot_temp_topic),設(shè)置多個分區(qū)(如6個),利用高吞吐特性緩沖數(shù)據(jù),避免下游處理壓力。③實時計算層:Flink作為流處理引擎,從Kafka消費數(shù)據(jù),使用EventTime+Watermark處理亂序數(shù)據(jù);定義5分鐘滾動窗口(TumblingWindow),按device_id分組,計算窗口內(nèi)temp的平均值。④結(jié)果存儲層:Flink將計算后的平均溫度(device_id,avg_temp,window_end_time)寫入HBase,RowKey設(shè)計為“device_id_窗口結(jié)束時間”,列族存儲avg_temp等指標(biāo)。⑤監(jiān)控層:集成Prometheus+Grafana,監(jiān)控Kafka的消息堆積、Flink的延遲、HBase的寫入QPS,確保系統(tǒng)穩(wěn)定性。3.(10分)某企業(yè)計劃構(gòu)建湖倉一體(Lakehouse)平臺
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城鄉(xiāng)初中生數(shù)字素養(yǎng)教育現(xiàn)狀分析:融合教育模式構(gòu)建與實施教學(xué)研究課題報告
- 跨境電商獨立站五年競爭:2025年品牌差異化與流量挖掘報告
- 二手車交易買賣合同9篇
- 2025年城市共享單車智能運維報告
- 2025浙江臨海工投紫光環(huán)??萍加邢薰菊衅?2人筆試參考題庫附帶答案詳解(3卷合一版)
- 2025廣西潤象信息網(wǎng)絡(luò)工程有限公司第四季度招聘3人筆試參考題庫附帶答案詳解(3卷)
- 大慶市2024黑龍江大慶市肇源縣“縣委書記進(jìn)校園”引才活動15人筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 吉安市2024江西吉水縣林業(yè)局編外工作人員招聘1人筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 保險行業(yè)財務(wù)顧問面試問題及答案
- 財務(wù)知識考試題及答案解析
- 2025年下半年上海當(dāng)代藝術(shù)博物館公開招聘工作人員(第二批)參考筆試試題及答案解析
- 2026國家糧食和物資儲備局垂直管理局事業(yè)單位招聘應(yīng)屆畢業(yè)生27人考試歷年真題匯編附答案解析
- 癌性疼痛的中醫(yī)治療
- 大學(xué)生就業(yè)面試培訓(xùn)
- 2026年旅行社經(jīng)營管理(旅行社管理)考題及答案
- 2024年江蘇省普通高中學(xué)業(yè)水平測試小高考生物、地理、歷史、政治試卷及答案(綜合版)
- 家具制造企業(yè)安全檢查表優(yōu)質(zhì)資料
- 如家酒店新版
- GA 1016-2012槍支(彈藥)庫室風(fēng)險等級劃分與安全防范要求
- 《電能質(zhì)量分析》課程教學(xué)大綱
- 8 泵站設(shè)備安裝工程單元工程質(zhì)量驗收評定表及填表說明
評論
0/150
提交評論