2025年大數(shù)據(jù)練習(xí)試題及答案

上傳人：子*** IP屬地：四川上傳時(shí)間：2026-01-20 格式：DOCX 頁數(shù)：14 大?。?8.24KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年大數(shù)據(jù)練習(xí)試題及答案1.單選題（每題2分，共20分）1.1在HDFS中，默認(rèn)一個(gè)數(shù)據(jù)塊（Block）的大小為A.32MB?B.64MB?C.128MB?D.256MB答案：C1.2下列哪一項(xiàng)不是SparkRDD的Transformation操作A.map?B.filter?C.reduceByKey?D.collect答案：D1.3在Kafka2.8版本之后，移除對哪一項(xiàng)外部依賴A.Redis?B.HBase?C.ZooKeeper?D.Hive答案：C1.4若某列滿足“每個(gè)值出現(xiàn)頻率低于5%”，則該列最適合的編碼方式為A.OneHot?B.Label?C.Target?D.Hash答案：C1.5Flink的Checkpoint機(jī)制默認(rèn)使用的快照算法是A.ChandyLamport?B.TwoPhaseCommit?C.Paxos?D.Raft答案：A1.6在Hive中，執(zhí)行“MSCKREPAIRTABLE”命令的作用是A.更新元數(shù)據(jù)與HDFS目錄不一致的分區(qū)信息B.重建表統(tǒng)計(jì)信息C.合并小文件D.刷新緩存答案：A1.7下列關(guān)于HBaseRegion分裂描述正確的是A.分裂后原Region立即被刪除B.分裂觸發(fā)條件僅與Region大小有關(guān)C.分裂由HMaster主動(dòng)發(fā)起D.分裂后子Region的RowKey范圍互不重疊答案：D1.8在DataFrame中，若列“sales”類型為string，需轉(zhuǎn)換為double，應(yīng)使用A.cast("double")?B.toDouble()?C.convert("double")?D.asDouble()答案：A1.9使用MapReduce默認(rèn)HashPartitioner時(shí)，Reducer數(shù)量由哪項(xiàng)參數(shù)決定A.mapreduce.job.maps?B.mapreduce.job.reducesC.mapreduce.task.io.sort.factor?D.dfs.block.size答案：B1.10在ClickHouse中，最適合做高并發(fā)點(diǎn)查的表引擎是A.MergeTree?B.SummingMergeTree?C.Memory?D.Log答案：C2.多選題（每題3分，共15分，多選少選均不得分）2.1下列屬于Flink窗口函數(shù)的有A.reduce?B.aggregate?C.process?D.apply答案：ABCD2.2關(guān)于數(shù)據(jù)傾斜，下列說法正確的有A.可通過加鹽方式打散KeyB.必然導(dǎo)致OOMC.可通過兩階段聚合緩解D.在Hive中可用distributebyrand()答案：ACD2.3以下哪些組件支持SQL2011標(biāo)準(zhǔn)中的“OVER(PARTITIONBY…ORDERBY…)”窗口語法A.SparkSQL?B.FlinkSQL?C.Hive3.x?D.Presto答案：ABCD2.4在Kafka中，Producer保證冪等性需要滿足的條件有A.enable.idempotence=trueB.retries>0C.acks=allD.max.in.flight.requests.per.connection≤5答案：ABCD2.5下列屬于列式存儲格式的有A.ORC?B.Parquet?C.Avro?D.Arrow答案：ABD3.填空題（每空2分，共20分）3.1在Spark中，每個(gè)Task處理的數(shù)據(jù)分區(qū)稱為________。答案：Partition3.2HDFS的NameNode元數(shù)據(jù)持久化文件名為________。答案：fsimage3.3若Flink作業(yè)并行度為8，Slot總數(shù)為16，則最大可并行運(yùn)行的SubTask數(shù)為________。答案：1283.4在Hive中，設(shè)置動(dòng)態(tài)分區(qū)開關(guān)的參數(shù)為________。答案：hive.exec.dynamic.partition3.5Kafka的Offset默認(rèn)存儲在Topic________中。答案：__consumer_offsets3.6ClickHouse中，用于去重合并的表引擎為________。答案：ReplacingMergeTree3.7在Pythonpandas里，將DataFrame寫入Parquet需要調(diào)用的方法為________。答案：to_parquet3.8若某ORC文件Stripe大小為256MB，則讀取該Stripe最少需要________次磁盤IO（不考慮緩存）。答案：13.9在YARN中，負(fù)責(zé)資源隔離的底層技術(shù)為________。答案：cgroups3.10使用MapReduce實(shí)現(xiàn)二次排序需自定義________類。答案：GroupingComparator4.判斷題（每題1分，共10分，正確打“√”，錯(cuò)誤打“×”）4.1Spark的Driver必須與NameNode運(yùn)行在同一個(gè)節(jié)點(diǎn)。答案：×4.2HBase中一個(gè)列族對應(yīng)一個(gè)MemStore。答案：√4.3Flink的Checkpoint屏障（Barrier）是自上而下注入的。答案：√4.4Kafka的Leader副本一定也是PreferredLeader。答案：×4.5Parquet文件支持按列進(jìn)行壓縮。答案：√4.6HiveonTez無法使用UDF。答案：×4.7在YARN的Capacity調(diào)度器中，隊(duì)列間資源搶占默認(rèn)開啟。答案：×4.8ClickHouse的MaterializedView寫入時(shí)同步觸發(fā)。答案：√4.9ORC文件的Footer中保存了每個(gè)Stripe的偏移量。答案：√4.10SparkSQL的catalyst優(yōu)化器能自動(dòng)消除笛卡爾積。答案：×5.簡答題（封閉型，每題6分，共18分）5.1描述MapReduce中Shuffle階段“溢寫”（Spill）的觸發(fā)條件及優(yōu)化手段。答案：當(dāng)Map端環(huán)形緩沖區(qū)使用率超過mapreduce.map.sort.spill.percent（默認(rèn)0.8）或緩沖區(qū)剩余空間不足時(shí)觸發(fā)溢寫；優(yōu)化手段包括增大mapreduce.task.io.sort.mb、減少分區(qū)數(shù)、啟用Combiner、調(diào)整壓縮算法等。5.2列舉Flink實(shí)現(xiàn)端到端exactlyonce語義的三要素，并簡要說明。答案：1.Source可重放，如Kafka支持指定Offset；2.Checkpoint機(jī)制，定期生成分布式快照；3.Sink支持兩階段提交，如KafkaProducer事務(wù)。5.3說明HBaseRegionServer中BlockCache的兩種實(shí)現(xiàn)及其適用場景。答案：LRUBlockCache基于JVM堆，適合隨機(jī)讀密集；BucketCache基于堆外內(nèi)存或SSD，適合大集群、堆資源緊張場景。6.簡答題（開放型，每題8分，共16分）6.1某電商公司每日新增500GB用戶行為日志，需實(shí)時(shí)計(jì)算分小時(shí)GMV，并保證7×24小時(shí)服務(wù)。請給出技術(shù)選型與架構(gòu)理由，要求兼顧成本與擴(kuò)展性。答案：日志采集使用Kafka，分區(qū)按小時(shí)切分；流計(jì)算采用Flink，利用事件時(shí)間窗口計(jì)算GMV，Checkpoint到HDFS，狀態(tài)后端用RocksDB；維度表存儲于Redis，使用異步IO提升吞吐；資源調(diào)度使用YARN，高峰動(dòng)態(tài)擴(kuò)容，低峰縮容；下游結(jié)果寫入ClickHouse，按小時(shí)分區(qū)，提供毫秒級查詢；整體采用分層部署，開發(fā)、測試、生產(chǎn)隔離，成本通過Spot實(shí)例+混部降低30%。6.2隨著業(yè)務(wù)擴(kuò)張，Hive表分區(qū)數(shù)量達(dá)到30萬，導(dǎo)致元數(shù)據(jù)庫MySQL壓力激增，查詢變慢。請?zhí)岢霾簧儆谌N優(yōu)化方案并比較優(yōu)劣。答案：1.合并小分區(qū)，按天轉(zhuǎn)按月，減少元數(shù)據(jù)行數(shù)，簡單有效但喪失細(xì)粒度；2.使用Hive3.x的CatalogFederation，將元數(shù)據(jù)分散到多個(gè)MySQL實(shí)例，擴(kuò)展性好但需升級；3.遷移元數(shù)據(jù)至TiDB，利用分布式特性提升并發(fā)，改造成本中等；4.啟用ObjectStore模式，將分區(qū)信息序列化到HDFS文件，減少M(fèi)ySQL行數(shù)，查詢需二次解析，適合冷數(shù)據(jù)；5.采用AWSGlueCatalog托管，免運(yùn)維但產(chǎn)生云費(fèi)用。綜合評估，方案1+2組合可在4周內(nèi)完成，性能提升70%，成本增加10%，為最優(yōu)路徑。7.應(yīng)用題（計(jì)算類，11分）7.1某Spark作業(yè)讀取1TBORC文件（壓縮率3:1），文件平均Stripe大小64MB，字段共30列，其中10列為謂詞列。集群單節(jié)點(diǎn)磁盤順序讀帶寬200MB/s，網(wǎng)絡(luò)帶寬10Gb/s，節(jié)點(diǎn)數(shù)50。若采用列裁剪與下推后僅讀取5列，且謂詞過濾率90%，求理論最短耗時(shí)。答案：原始數(shù)據(jù)量1TB，壓縮后333GB；列裁剪后讀取5/30，數(shù)據(jù)量55.5GB；過濾率90%，實(shí)際讀取5.55GB；單節(jié)點(diǎn)磁盤需讀5.55GB/50=113MB；磁盤耗時(shí)113MB÷200MB/s=0.565s；網(wǎng)絡(luò)傳輸113MB÷1.25GB/s≈0.09s；取瓶頸0.565s，理論最短耗時(shí)約0.57秒。8.應(yīng)用題（分析類，12分）8.1給定用戶訂單表order(user_idSTRING,order_idSTRING,amtDOUBLE,tsTIMESTAMP)，數(shù)據(jù)量20億行，存儲于Parquet，文件大小800GB?，F(xiàn)需統(tǒng)計(jì)“過去30天消費(fèi)總額前1000名用戶”，要求每次查詢在3秒內(nèi)返回。請寫出完整技術(shù)路徑并估算資源。答案：步驟1：按天預(yù)處理，使用SparkSQL每日滾動(dòng)窗口計(jì)算user_id當(dāng)天sum(amt)，寫入?yún)R總表dws_user_day，分區(qū)字段dt，數(shù)據(jù)量約2億行/天，Parquet壓縮后2GB；步驟2：將30天匯總表加載至ClickHouse，使用SummingMergeTree，主鍵user_id，列amt為匯總值；步驟3：ClickHouse集群部署6分片×2副本，每節(jié)點(diǎn)64GB內(nèi)存、16核；步驟4：查詢SQL：SELECTuser_id,sum(amt)totalFROMdws_user_dayWHEREdtBETWEENtoday()30ANDtoday()GROUPBYuser_idORDERBYtotalDESCLIMIT1000SETTINGSmax_threads=32；步驟5：經(jīng)測試，6節(jié)點(diǎn)并發(fā)掃描，耗時(shí)1.8秒，滿足SLA；存儲成本：30天×2GB×2副本=120GB，遠(yuǎn)低于原始800GB，節(jié)省85%。9.應(yīng)用題（綜合類，18分）9.1背景：某視頻平臺每日產(chǎn)生500TB用戶播放日志，字段含user_id、video_id、play_duration、event_time、cdn_ip、device_type等。需求：1.實(shí)時(shí)統(tǒng)計(jì)每10秒各視頻播放熱度（播放次數(shù)）；2.離線計(jì)算每日各設(shè)備類型播放總時(shí)長；3.支持按video_id秒級點(diǎn)查最近7天播放曲線；4.保證數(shù)據(jù)不丟不重；5.成本控制目標(biāo)：每GB存儲≤0.01元，每萬次查詢≤0.05元。請給出完整數(shù)據(jù)鏈路，含采集、流處理、批處理、存儲、查詢、監(jiān)控、容災(zāi)七部分，并做成本估算。答案：采集：日志服務(wù)器使用Filebeat→Kafka，Topicpartition=1200，副本=3，保留3小時(shí)，壓縮格式lz4，峰值流量6GB/s，Kafka集群30節(jié)點(diǎn)（16×10Gb）。流處理：Flink作業(yè)并行度1200，事件時(shí)間窗口10s，使用KeyBy(video_id)聚合，狀態(tài)TTL7天，Checkpoint30秒一次到HDFS，開啟ExactlyOnce，下游寫入RedisCluster，Key=video_id+窗口，Value=count，過期時(shí)間600s；Redis采用64分片，每片8GB，內(nèi)存總量512GB，成本約1.2萬元/月。批處理：每日00:10啟動(dòng)Spark作業(yè)，讀取前1天日志，按device_type聚合sum(play_duration)，結(jié)果寫入Hive表ads_play_by_device，分區(qū)字段dt，數(shù)據(jù)量約50GB，壓縮后15GB，存儲7年，累計(jì)3

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2025年大數(shù)據(jù)練習(xí)試題及答案

文檔簡介

溫馨提示

最新文檔

評論

2025年大數(shù)據(jù)練習(xí)試題及答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔