2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)_第1頁(yè)
2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)_第2頁(yè)
2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)_第3頁(yè)
2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)_第4頁(yè)
2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大數(shù)據(jù)技術(shù)專升本綜合練習(xí)試卷(含答案)1.單項(xiàng)選擇題(每題2分,共30分)1.1在HDFS中,NameNode的主要職責(zé)是A.存儲(chǔ)實(shí)際數(shù)據(jù)塊B.管理文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.提供WebUI端口9870答案:B1.2下列哪一項(xiàng)不是Kafka的核心組件A.ProducerB.ConsumerC.ZooKeeperD.JobTracker答案:D1.3Spark中RDD的默認(rèn)分區(qū)器是A.HashPartitionerB.RangePartitionerC.GridPartitionerD.ManualPartitioner答案:A1.4在Flink的DataStreamAPI里,窗口函數(shù)apply()與process()的主要區(qū)別是A.是否支持增量聚合B.是否可訪問窗口元信息C.是否觸發(fā)checkpointD.是否支持側(cè)輸出答案:B1.5HBase行鍵設(shè)計(jì)應(yīng)避免A.散列化B.時(shí)間戳前綴C.反轉(zhuǎn)URLD.隨機(jī)前綴答案:B1.6使用Hive執(zhí)行“SELECTFROMtSORTBYcol”時(shí),Reducer數(shù)量由哪個(gè)參數(shù)決定A.mapreduce.job.reducesB.hive.exec.reducers.bytes.per.reducerC.hive.exec.max.reducersD.hive.enforce.bucketing答案:B1.7在YARN容量調(diào)度器中,隊(duì)列的ACL通過(guò)以下哪個(gè)文件配置A.yarnsite.xmlB.capacityscheduler.xmlC.mapredsite.xmlD.containerexecutor.cfg答案:B1.8若某Parquet文件采用SNAPPY壓縮,其Page大小通常由哪項(xiàng)參數(shù)控制A.parquet.block.sizeB.parquet.page.sizeC.parquet.dictionary.page.sizeD.parquet.enable.dictionary答案:B1.9在SparkMLlib中,特征標(biāo)準(zhǔn)化使用A.StandardScalerB.MinMaxScalerC.NormalizerD.Bucketizer答案:A1.10下列關(guān)于數(shù)據(jù)湖說(shuō)法正確的是A.僅支持結(jié)構(gòu)化數(shù)據(jù)B.強(qiáng)制預(yù)定義SchemaC.存儲(chǔ)原始數(shù)據(jù)副本D.不支持ACID事務(wù)答案:C1.11在ClickHouse里,MergeTree引擎排序鍵聲明關(guān)鍵字是A.PRIMARYKEYB.ORDERBYC.CLUSTERBYD.DISTRIBUTEBY答案:B1.12若Elasticsearch集群出現(xiàn)“circuit_breaking_exception”,最可能原因是A.磁盤損壞B.字段類型沖突C.堆內(nèi)存熔斷D.主節(jié)點(diǎn)失聯(lián)答案:C1.13在Scala中,以下哪個(gè)操作符用于RDD的笛卡爾積A.unionB.joinC.cartesianD.cogroup答案:C1.14使用Airflow時(shí),任務(wù)實(shí)例狀態(tài)“upstream_failed”表示A.自身代碼異常B.上游任務(wù)失敗C.被手動(dòng)標(biāo)記成功D.被調(diào)度器跳過(guò)答案:B1.15關(guān)于DeltaLake的TimeTravel,可通過(guò)A.VERSIONASOFB.TIMESTAMPASOFC.SNAPSHOTASOFD.A和B均可答案:D2.多項(xiàng)選擇題(每題3分,共15分;多選少選均不得分)2.1下列屬于FlinkExactlyOnce端對(duì)端保障需滿足的條件A.可重放的數(shù)據(jù)源B.Barrier對(duì)齊C.冪等外部SinkD.開啟Checkpoint答案:ABCD2.2關(guān)于HiveLLAP,正確的是A.使用守護(hù)進(jìn)程緩存列數(shù)據(jù)B.支持交互式查詢C.依賴Tez執(zhí)行引擎D.完全替代MapReduce答案:ABC2.3在SparkSQL中,以下函數(shù)可用于處理復(fù)雜類型的有A.explodeB.inlineC.posexplodeD.get_json_object答案:ABCD2.4下列哪些算法屬于聚類算法A.KMeansB.DBSCANC.GMMD.FPGrowth答案:ABC2.5關(guān)于HDFSFederation,正確的是A.多個(gè)NameNode共享DataNode存儲(chǔ)B.每個(gè)NameNode管理獨(dú)立命名空間C.需配置servicesD.單點(diǎn)故障問題徹底解決答案:ABC3.填空題(每空2分,共20分)3.1HDFS默認(rèn)塊大小為________MB,在hadoop3.x中可支持最大________GB。答案:128;163.2Spark任務(wù)提交命令中,參數(shù)________用于指定Driver程序運(yùn)行模式為cluster。答案:deploymodecluster3.3在Kafka中,________索引文件用于快速定位消息在.log文件中的物理位置。答案:offset3.4Flink的Checkpoint超時(shí)時(shí)間由參數(shù)________控制,單位________。答案:checkpoint.timeout;毫秒3.5若Elasticsearch索引別名為“l(fā)og_current”,通過(guò)________API可將別名原子切換至新索引。答案:_aliases3.6在HBase中,刪除標(biāo)記類型________表示對(duì)列族的整行刪除。答案:DeleteFamily3.7使用Presto查詢Hive表時(shí),需在________目錄下放置hivesite.xml。答案:etc/catalog3.8ClickHouse中,使用________函數(shù)可將字符串日期轉(zhuǎn)換為Date類型。答案:toDate3.9在YARN中,Container啟動(dòng)腳本由________組件生成并下發(fā)到NodeManager。答案:ApplicationMaster3.10數(shù)據(jù)倉(cāng)庫(kù)分層模型中,________層存放經(jīng)過(guò)清洗、轉(zhuǎn)換后的明細(xì)數(shù)據(jù),通常采用維度建模。答案:DWD4.判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)4.1Spark的累加器支持Worker節(jié)點(diǎn)對(duì)其值進(jìn)行讀取。答案:×4.2Parquet列式存儲(chǔ)格式支持謂詞下推。答案:√4.3Flink的KeyBy操作會(huì)觸發(fā)網(wǎng)絡(luò)Shuffle。答案:√4.4HBase中一個(gè)列族最多只能有一個(gè)列限定符。答案:×4.5Kafka的ConsumerGroup再均衡過(guò)程由Coordinator負(fù)責(zé)。答案:√4.6Hive視圖支持物化。答案:×4.7在YARN中,NodeManager負(fù)責(zé)啟動(dòng)和管理Container。答案:√4.8ClickHouse的JOIN語(yǔ)法與MySQL完全一致。答案:×4.9Elasticsearch的Mapping一旦創(chuàng)建后,字段類型不可更改。答案:√4.10數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)區(qū)別在于是否使用SQL。答案:×5.簡(jiǎn)答題(每題8分,共40分)5.1簡(jiǎn)述MapReduce中Shuffle階段的具體流程,并指出可優(yōu)化點(diǎn)。答案:(1)Map端:每個(gè)Map任務(wù)將輸出寫入環(huán)形內(nèi)存緩沖區(qū),默認(rèn)80%觸發(fā)溢寫,溢寫前進(jìn)行分區(qū)、排序、可選合并(Combiner),生成多個(gè)溢寫文件,最終合并成單個(gè)已分區(qū)且已排序的文件。(2)Reduce端:通過(guò)HTTP拉取各自分區(qū)的數(shù)據(jù),先歸并排序,再分組,最后送入Reduce函數(shù)。優(yōu)化點(diǎn):增大io.sort.mb減少溢寫次數(shù);啟用Combiner降低網(wǎng)絡(luò)IO;使用壓縮減少磁盤與網(wǎng)絡(luò)傳輸;調(diào)整reduce.shuffle.parallelcopies提高并發(fā)拉?。缓侠碓O(shè)置mapreduce.task.io.sort.factor增加合并流數(shù)量。5.2說(shuō)明SparkSQL中Catalyst優(yōu)化器的工作步驟,并給出一個(gè)謂詞下推的示例。答案:步驟:Parse→Analyze→LogicalOptimize→PhysicalPlan→CodeGenerate。示例:SELECTFROMtWHEREdt='20250101'ANDcol>100;若t為Parquet分區(qū)表,Catalyst將dt過(guò)濾下推至Scan節(jié)點(diǎn),僅讀取dt=20250101分區(qū),并在ParquetReader層將col>100下推至RowGroup級(jí)別,跳過(guò)不滿足的RowGroup。5.3列舉Flink實(shí)現(xiàn)端到端ExactlyOnce的三種Sink方案,并比較其優(yōu)缺點(diǎn)。答案:(1)冪等Sink:利用主鍵覆蓋,實(shí)現(xiàn)簡(jiǎn)單但需業(yè)務(wù)支持主鍵。(2)兩階段提交:預(yù)提交+正式提交,需外部系統(tǒng)支持事務(wù)(如Kafka事務(wù)、MySQLXA),延遲略高。(3)WAL+異步批刷:先寫WAL再批量寫外部系統(tǒng),失敗可重放WAL,實(shí)現(xiàn)復(fù)雜但通用性強(qiáng)。5.4簡(jiǎn)述HBaseRegion熱點(diǎn)產(chǎn)生原因及三種RowKey設(shè)計(jì)優(yōu)化策略。答案:原因:順序?qū)懭?、時(shí)間戳前綴、單調(diào)遞增RowKey導(dǎo)致數(shù)據(jù)集中落在一個(gè)Region。策略:①加鹽:在RowKey前加隨機(jī)哈希前綴,打散寫入,但增加讀開銷;②反轉(zhuǎn):將時(shí)間戳或URL反轉(zhuǎn),保持有序但改變?cè)L問模式;③預(yù)分區(qū):根據(jù)業(yè)務(wù)維度提前切分Region,如按用戶ID哈希取模。5.5說(shuō)明數(shù)據(jù)倉(cāng)庫(kù)緩慢變化維(SCD)類型2的實(shí)現(xiàn)方式,并給出HiveSQL示例。答案:實(shí)現(xiàn)方式:增加代理鍵、生效時(shí)間、失效時(shí)間、當(dāng)前標(biāo)志字段,當(dāng)維度屬性變化時(shí)舊行失效、新行生效。示例:INSERTINTOTABLEdim_userSELECTsha2(concat_ws('|',user_id,current_timestamp),256)assk,user_id,user_name,addr,current_timestampasstart_dt,cast('99991231'astimestamp)asend_dt,trueasis_currentFROMstaging_usersWHERENOTEXISTS(SELECT1FROMdim_userdWHEREd.user_id=s.user_idANDd.is_current=trueANDd.addr=s.addr);UPDATEdim_userSETend_dt=current_timestamp,is_current=falseWHEREuser_idIN(SELECTuser_idFROMstaging_user)ANDis_current=trueANDaddr!=(SELECTaddrFROMstaging_usersWHEREs.user_id=dim_user.user_id);6.計(jì)算題(每題10分,共20分)6.1某電商公司使用Spark對(duì)1TB日志進(jìn)行WordCount,輸入文件為不可切分的gzip,集群共10節(jié)點(diǎn),每節(jié)點(diǎn)8核32GB,HDFS塊大小128MB。已知:(1)每個(gè)Map任務(wù)處理一個(gè)塊,但gzip不可切分,需整文件由一個(gè)Map處理;(2)平均文件大小1.2GB;(3)Reduce任務(wù)數(shù)設(shè)為80;(4)Map輸出壓縮比0.3,網(wǎng)絡(luò)傳輸壓縮比0.5;求:①總Map任務(wù)數(shù);②Shuffle階段網(wǎng)絡(luò)傳輸數(shù)據(jù)量;③若將輸入改為可切分的bzip2,Map任務(wù)數(shù)變?yōu)槎嗌??答案:①總文件?shù)=1TB/1.2GB≈853,故Map任務(wù)數(shù)=853;②Map輸出總量=1TB×0.3=300GB,網(wǎng)絡(luò)傳輸=300GB×0.5=150GB;③bzip2可切分,每個(gè)文件被拆成1.2GB/128MB≈9.375→10塊,總Map數(shù)=853×10=8530。6.2某Flink作業(yè)每秒攝入100萬(wàn)條訂單,每條1KB,Checkpoint間隔10秒,保留3個(gè)Checkpoint,狀態(tài)使用RocksDBStateBackend并開啟增量Checkpoint,增量比例20%。求:①單次Checkpoint大??;②HDFS上Checkpoint總占用空間;③若網(wǎng)絡(luò)帶寬為10Gb/s,Checkpoint上傳是否超時(shí)(超時(shí)閾值1分鐘)?答案:①狀態(tài)總量=100萬(wàn)×1KB×10秒=10GB,增量=10GB×20%=2GB;②總占用=最新全量+2個(gè)增量=10GB+2×2GB=14GB;③上傳時(shí)間=2GB×8bit/B/10Gb/s=1.6秒<60秒,不會(huì)超時(shí)。7.綜合應(yīng)用題(共25分)7.1某省政務(wù)大數(shù)據(jù)平臺(tái)需整合公安、社保、稅務(wù)、交通四部門數(shù)據(jù),構(gòu)建人口綜合庫(kù)。要求:(1)實(shí)時(shí)同步MySQL業(yè)務(wù)庫(kù)到數(shù)據(jù)湖,延遲<5秒;(2)每日離線計(jì)算人口標(biāo)簽,輸出至Elasticsearch提供毫秒級(jí)查詢;(3)支持對(duì)歷史數(shù)據(jù)回溯修正,修正后標(biāo)簽自動(dòng)更新;(4)系統(tǒng)需符合等保三級(jí),敏感字段加密存儲(chǔ)。請(qǐng)給出總體架構(gòu)圖文字描述、組件選型、數(shù)據(jù)流轉(zhuǎn)過(guò)程、關(guān)鍵表設(shè)計(jì)、安全方案。答案:架構(gòu):①實(shí)時(shí)層:MySQL→Debezium→Kafka→Flink→Hudi(Mor表)→Hive元數(shù)據(jù);②離線層:Hudi快照→SparkSQL→標(biāo)簽計(jì)算→DeltaLake(分區(qū)dt)→Elasticsearch;③回溯修正:HudiTimeTravel定位歷史版本,F(xiàn)link批流一體重算標(biāo)簽,寫入Elasticsearch別名索引,通過(guò)_reindex覆蓋;④安全:Kafka開啟SASL/SCRAM,Hudi列加密采用AES256,Key托管于KMS;Elasticsearch字段級(jí)安全由FLS/DLS控制;傳輸層TLS1.3。關(guān)鍵表:hudi_population_base(id,name,enc_id_no,birth_date,origin_src,op_ts,dt)分區(qū):dt+origin_src主鍵:id預(yù)合并鍵:op_tsElasticsearch索引:pop_label_2025m01,mapping含keyword、date、nested標(biāo)簽數(shù)組。數(shù)據(jù)流:實(shí)時(shí):Debezium捕獲binlog→KafkaTopic:mysql.{db}.{table}→Flink解析→HudiUpsert;離線:每日02:00SparkSQL讀Hudi分區(qū)dt=$today1→計(jì)算標(biāo)簽→DeltaLake→Bulk寫入Elasticsearch新索引→別名切換。回刷:人工發(fā)起TimeTravel→FlinkBatch讀歷史分區(qū)→重算→寫回Delta→Elasticsearchreindex。安全:敏感字段enc_id_no加密,查詢時(shí)通過(guò)Udf解密,權(quán)限由Ranger統(tǒng)一管控。8.開放設(shè)計(jì)題(共20分)8.1設(shè)計(jì)一套基于數(shù)據(jù)湖housekeeping的自動(dòng)治理系統(tǒng),解決小文件過(guò)多、過(guò)期快照、冷數(shù)據(jù)歸檔三大痛點(diǎn)。要求:(1)給出系統(tǒng)模塊劃分、調(diào)度策略、衡量指標(biāo);(2)說(shuō)明如何與現(xiàn)有HMS、Ranger、Atlas集成;(3)列舉三種觸發(fā)模式并比較;(4)給出核心算法偽代碼(禁止LaTeX,使用Mat公式)。答案:模塊:①M(fèi)etadataCrawler:定期掃描HMS、Hive、Hudi、Delta元數(shù)據(jù),收集文件數(shù)、大小、最后訪問時(shí)間;②Policy

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論