版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)練習(xí)試題及答案1.單選題(每題2分,共20分)1.1在HDFS中,默認(rèn)一個(gè)數(shù)據(jù)塊(Block)的大小為A.32MB?B.64MB?C.128MB?D.256MB答案:C1.2下列哪一項(xiàng)不是SparkRDD的Transformation操作A.map?B.filter?C.reduceByKey?D.collect答案:D1.3在Kafka2.8版本之后,移除對哪一項(xiàng)外部依賴A.Redis?B.HBase?C.ZooKeeper?D.Hive答案:C1.4若某列滿足“每個(gè)值出現(xiàn)頻率低于5%”,則該列最適合的編碼方式為A.OneHot?B.Label?C.Target?D.Hash答案:C1.5Flink的Checkpoint機(jī)制默認(rèn)使用的快照算法是A.ChandyLamport?B.TwoPhaseCommit?C.Paxos?D.Raft答案:A1.6在Hive中,執(zhí)行“MSCKREPAIRTABLE”命令的作用是A.更新元數(shù)據(jù)與HDFS目錄不一致的分區(qū)信息B.重建表統(tǒng)計(jì)信息C.合并小文件D.刷新緩存答案:A1.7下列關(guān)于HBaseRegion分裂描述正確的是A.分裂后原Region立即被刪除B.分裂觸發(fā)條件僅與Region大小有關(guān)C.分裂由HMaster主動(dòng)發(fā)起D.分裂后子Region的RowKey范圍互不重疊答案:D1.8在DataFrame中,若列“sales”類型為string,需轉(zhuǎn)換為double,應(yīng)使用A.cast("double")?B.toDouble()?C.convert("double")?D.asDouble()答案:A1.9使用MapReduce默認(rèn)HashPartitioner時(shí),Reducer數(shù)量由哪項(xiàng)參數(shù)決定A.mapreduce.job.maps?B.mapreduce.job.reducesC.mapreduce.task.io.sort.factor?D.dfs.block.size答案:B1.10在ClickHouse中,最適合做高并發(fā)點(diǎn)查的表引擎是A.MergeTree?B.SummingMergeTree?C.Memory?D.Log答案:C2.多選題(每題3分,共15分,多選少選均不得分)2.1下列屬于Flink窗口函數(shù)的有A.reduce?B.aggregate?C.process?D.apply答案:ABCD2.2關(guān)于數(shù)據(jù)傾斜,下列說法正確的有A.可通過加鹽方式打散KeyB.必然導(dǎo)致OOMC.可通過兩階段聚合緩解D.在Hive中可用distributebyrand()答案:ACD2.3以下哪些組件支持SQL2011標(biāo)準(zhǔn)中的“OVER(PARTITIONBY…ORDERBY…)”窗口語法A.SparkSQL?B.FlinkSQL?C.Hive3.x?D.Presto答案:ABCD2.4在Kafka中,Producer保證冪等性需要滿足的條件有A.enable.idempotence=trueB.retries>0C.acks=allD.max.in.flight.requests.per.connection≤5答案:ABCD2.5下列屬于列式存儲格式的有A.ORC?B.Parquet?C.Avro?D.Arrow答案:ABD3.填空題(每空2分,共20分)3.1在Spark中,每個(gè)Task處理的數(shù)據(jù)分區(qū)稱為________。答案:Partition3.2HDFS的NameNode元數(shù)據(jù)持久化文件名為________。答案:fsimage3.3若Flink作業(yè)并行度為8,Slot總數(shù)為16,則最大可并行運(yùn)行的SubTask數(shù)為________。答案:1283.4在Hive中,設(shè)置動(dòng)態(tài)分區(qū)開關(guān)的參數(shù)為________。答案:hive.exec.dynamic.partition3.5Kafka的Offset默認(rèn)存儲在Topic________中。答案:__consumer_offsets3.6ClickHouse中,用于去重合并的表引擎為________。答案:ReplacingMergeTree3.7在Pythonpandas里,將DataFrame寫入Parquet需要調(diào)用的方法為________。答案:to_parquet3.8若某ORC文件Stripe大小為256MB,則讀取該Stripe最少需要________次磁盤IO(不考慮緩存)。答案:13.9在YARN中,負(fù)責(zé)資源隔離的底層技術(shù)為________。答案:cgroups3.10使用MapReduce實(shí)現(xiàn)二次排序需自定義________類。答案:GroupingComparator4.判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)4.1Spark的Driver必須與NameNode運(yùn)行在同一個(gè)節(jié)點(diǎn)。答案:×4.2HBase中一個(gè)列族對應(yīng)一個(gè)MemStore。答案:√4.3Flink的Checkpoint屏障(Barrier)是自上而下注入的。答案:√4.4Kafka的Leader副本一定也是PreferredLeader。答案:×4.5Parquet文件支持按列進(jìn)行壓縮。答案:√4.6HiveonTez無法使用UDF。答案:×4.7在YARN的Capacity調(diào)度器中,隊(duì)列間資源搶占默認(rèn)開啟。答案:×4.8ClickHouse的MaterializedView寫入時(shí)同步觸發(fā)。答案:√4.9ORC文件的Footer中保存了每個(gè)Stripe的偏移量。答案:√4.10SparkSQL的catalyst優(yōu)化器能自動(dòng)消除笛卡爾積。答案:×5.簡答題(封閉型,每題6分,共18分)5.1描述MapReduce中Shuffle階段“溢寫”(Spill)的觸發(fā)條件及優(yōu)化手段。答案:當(dāng)Map端環(huán)形緩沖區(qū)使用率超過mapreduce.map.sort.spill.percent(默認(rèn)0.8)或緩沖區(qū)剩余空間不足時(shí)觸發(fā)溢寫;優(yōu)化手段包括增大mapreduce.task.io.sort.mb、減少分區(qū)數(shù)、啟用Combiner、調(diào)整壓縮算法等。5.2列舉Flink實(shí)現(xiàn)端到端exactlyonce語義的三要素,并簡要說明。答案:1.Source可重放,如Kafka支持指定Offset;2.Checkpoint機(jī)制,定期生成分布式快照;3.Sink支持兩階段提交,如KafkaProducer事務(wù)。5.3說明HBaseRegionServer中BlockCache的兩種實(shí)現(xiàn)及其適用場景。答案:LRUBlockCache基于JVM堆,適合隨機(jī)讀密集;BucketCache基于堆外內(nèi)存或SSD,適合大集群、堆資源緊張場景。6.簡答題(開放型,每題8分,共16分)6.1某電商公司每日新增500GB用戶行為日志,需實(shí)時(shí)計(jì)算分小時(shí)GMV,并保證7×24小時(shí)服務(wù)。請給出技術(shù)選型與架構(gòu)理由,要求兼顧成本與擴(kuò)展性。答案:日志采集使用Kafka,分區(qū)按小時(shí)切分;流計(jì)算采用Flink,利用事件時(shí)間窗口計(jì)算GMV,Checkpoint到HDFS,狀態(tài)后端用RocksDB;維度表存儲于Redis,使用異步IO提升吞吐;資源調(diào)度使用YARN,高峰動(dòng)態(tài)擴(kuò)容,低峰縮容;下游結(jié)果寫入ClickHouse,按小時(shí)分區(qū),提供毫秒級查詢;整體采用分層部署,開發(fā)、測試、生產(chǎn)隔離,成本通過Spot實(shí)例+混部降低30%。6.2隨著業(yè)務(wù)擴(kuò)張,Hive表分區(qū)數(shù)量達(dá)到30萬,導(dǎo)致元數(shù)據(jù)庫MySQL壓力激增,查詢變慢。請?zhí)岢霾簧儆谌N優(yōu)化方案并比較優(yōu)劣。答案:1.合并小分區(qū),按天轉(zhuǎn)按月,減少元數(shù)據(jù)行數(shù),簡單有效但喪失細(xì)粒度;2.使用Hive3.x的CatalogFederation,將元數(shù)據(jù)分散到多個(gè)MySQL實(shí)例,擴(kuò)展性好但需升級;3.遷移元數(shù)據(jù)至TiDB,利用分布式特性提升并發(fā),改造成本中等;4.啟用ObjectStore模式,將分區(qū)信息序列化到HDFS文件,減少M(fèi)ySQL行數(shù),查詢需二次解析,適合冷數(shù)據(jù);5.采用AWSGlueCatalog托管,免運(yùn)維但產(chǎn)生云費(fèi)用。綜合評估,方案1+2組合可在4周內(nèi)完成,性能提升70%,成本增加10%,為最優(yōu)路徑。7.應(yīng)用題(計(jì)算類,11分)7.1某Spark作業(yè)讀取1TBORC文件(壓縮率3:1),文件平均Stripe大小64MB,字段共30列,其中10列為謂詞列。集群單節(jié)點(diǎn)磁盤順序讀帶寬200MB/s,網(wǎng)絡(luò)帶寬10Gb/s,節(jié)點(diǎn)數(shù)50。若采用列裁剪與下推后僅讀取5列,且謂詞過濾率90%,求理論最短耗時(shí)。答案:原始數(shù)據(jù)量1TB,壓縮后333GB;列裁剪后讀取5/30,數(shù)據(jù)量55.5GB;過濾率90%,實(shí)際讀取5.55GB;單節(jié)點(diǎn)磁盤需讀5.55GB/50=113MB;磁盤耗時(shí)113MB÷200MB/s=0.565s;網(wǎng)絡(luò)傳輸113MB÷1.25GB/s≈0.09s;取瓶頸0.565s,理論最短耗時(shí)約0.57秒。8.應(yīng)用題(分析類,12分)8.1給定用戶訂單表order(user_idSTRING,order_idSTRING,amtDOUBLE,tsTIMESTAMP),數(shù)據(jù)量20億行,存儲于Parquet,文件大小800GB?,F(xiàn)需統(tǒng)計(jì)“過去30天消費(fèi)總額前1000名用戶”,要求每次查詢在3秒內(nèi)返回。請寫出完整技術(shù)路徑并估算資源。答案:步驟1:按天預(yù)處理,使用SparkSQL每日滾動(dòng)窗口計(jì)算user_id當(dāng)天sum(amt),寫入?yún)R總表dws_user_day,分區(qū)字段dt,數(shù)據(jù)量約2億行/天,Parquet壓縮后2GB;步驟2:將30天匯總表加載至ClickHouse,使用SummingMergeTree,主鍵user_id,列amt為匯總值;步驟3:ClickHouse集群部署6分片×2副本,每節(jié)點(diǎn)64GB內(nèi)存、16核;步驟4:查詢SQL:SELECTuser_id,sum(amt)totalFROMdws_user_dayWHEREdtBETWEENtoday()30ANDtoday()GROUPBYuser_idORDERBYtotalDESCLIMIT1000SETTINGSmax_threads=32;步驟5:經(jīng)測試,6節(jié)點(diǎn)并發(fā)掃描,耗時(shí)1.8秒,滿足SLA;存儲成本:30天×2GB×2副本=120GB,遠(yuǎn)低于原始800GB,節(jié)省85%。9.應(yīng)用題(綜合類,18分)9.1背景:某視頻平臺每日產(chǎn)生500TB用戶播放日志,字段含user_id、video_id、play_duration、event_time、cdn_ip、device_type等。需求:1.實(shí)時(shí)統(tǒng)計(jì)每10秒各視頻播放熱度(播放次數(shù));2.離線計(jì)算每日各設(shè)備類型播放總時(shí)長;3.支持按video_id秒級點(diǎn)查最近7天播放曲線;4.保證數(shù)據(jù)不丟不重;5.成本控制目標(biāo):每GB存儲≤0.01元,每萬次查詢≤0.05元。請給出完整數(shù)據(jù)鏈路,含采集、流處理、批處理、存儲、查詢、監(jiān)控、容災(zāi)七部分,并做成本估算。答案:采集:日志服務(wù)器使用Filebeat→Kafka,Topicpartition=1200,副本=3,保留3小時(shí),壓縮格式lz4,峰值流量6GB/s,Kafka集群30節(jié)點(diǎn)(16×10Gb)。流處理:Flink作業(yè)并行度1200,事件時(shí)間窗口10s,使用KeyBy(video_id)聚合,狀態(tài)TTL7天,Checkpoint30秒一次到HDFS,開啟ExactlyOnce,下游寫入RedisCluster,Key=video_id+窗口,Value=count,過期時(shí)間600s;Redis采用64分片,每片8GB,內(nèi)存總量512GB,成本約1.2萬元/月。批處理:每日00:10啟動(dòng)Spark作業(yè),讀取前1天日志,按device_type聚合sum(play_duration),結(jié)果寫入Hive表ads_play_by_device,分區(qū)字段dt,數(shù)據(jù)量約50GB,壓縮后15GB,存儲7年,累計(jì)3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026恒豐銀行棗莊分行社會招聘2人考試參考題庫及答案解析
- 2026年甘肅省平?jīng)鍪星f浪縣第一批城鎮(zhèn)公益性崗位工作人員招聘47人考試參考題庫及答案解析
- 2026廣東深圳大學(xué)土木與交通工程學(xué)院周英武特聘教授團(tuán)隊(duì)招聘研究助理1人考試參考題庫及答案解析
- 2026內(nèi)蒙古農(nóng)商銀行社會招聘70人筆試模擬試題及答案解析
- 2026廣西姆洛甲文化旅游投資有限公司招聘文旅策劃主管2人考試參考題庫及答案解析
- 2026年寧德市蕉城園投港務(wù)有限公司招聘考試備考題庫及答案解析
- 2026年大理州彌渡縣政務(wù)服務(wù)管理局招聘公益性崗位人員(1人)考試參考試題及答案解析
- 2026廣東惠州市惠陽區(qū)城市建設(shè)投資集團(tuán)有限公司第一批次招聘25人考試備考題庫及答案解析
- 2025年寧波象山縣衛(wèi)生健康系統(tǒng)公開招聘編外人員36人考試參考試題及答案解析
- 2026廣西梧州市萬秀區(qū)殘疾人聯(lián)合會招聘社區(qū)殘協(xié)專職委員3人考試參考題庫及答案解析
- 生鮮乳安全生產(chǎn)培訓(xùn)資料課件
- 2025年國資委主任年終述職報(bào)告
- 工程顧問協(xié)議書
- 2026年沃爾瑪財(cái)務(wù)分析師崗位面試題庫含答案
- 大學(xué)教學(xué)督導(dǎo)與課堂質(zhì)量監(jiān)控工作心得體會(3篇)
- 廣東省汕頭市金平區(qū)2024-2025學(xué)年九年級上學(xué)期期末化學(xué)試卷(含答案)
- 項(xiàng)目專家評審意見書標(biāo)準(zhǔn)模板
- 2025年高中計(jì)算機(jī)操作試題題庫及答案
- 江蘇省G4(南師大附中、天一、海安、海門)聯(lián)考2026屆高三年級12月份測試(G4聯(lián)考)生物試卷(含答案)
- 2026年山西信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及參考答案詳解1套
- 資產(chǎn)清查合同范本
評論
0/150
提交評論