2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第1頁
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第2頁
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第3頁
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第4頁
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案一、單項選擇題(每題1分,共20分。每題只有一個正確答案,錯選、多選均不得分)1.在Hadoop生態(tài)中,負責(zé)集群資源管理與任務(wù)調(diào)度的核心組件是A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B解析:YARN(YetAnotherResourceNegotiator)將資源管理與計算框架解耦,成為Hadoop2.x后統(tǒng)一的資源調(diào)度層,HDFS僅負責(zé)存儲,MapReduce是計算框架,Hive是數(shù)據(jù)倉庫工具。2.下列哪種存儲格式最適合支持“列裁剪”與“謂詞下推”,從而顯著提升OLAP查詢性能A.TextFile??B.SequenceFile??C.ORC??D.JSON答案:C解析:ORC(OptimizedRowColumnar)在文件腳注中記錄列統(tǒng)計信息,支持列裁剪與謂詞下推,TextFile與JSON無列級索引,SequenceFile為行式且不支持壓縮下推。3.SparkCore中,下列哪一項不是RDD的五大特征之一A.可分區(qū)??B.可序列化??C.可容錯??D.可伸縮答案:D解析:RDD特征為:可分區(qū)、可序列化、可容錯、位置感知、不可變;可伸縮是集群屬性,非RDD自身特征。4.在Flink的時間語義中,用于處理“事件到達順序與發(fā)生順序不一致”的最佳時間屬性是A.處理時間??B.攝入時間??C.事件時間??D.系統(tǒng)時間答案:C解析:事件時間(EventTime)基于數(shù)據(jù)自帶的時間戳,結(jié)合Watermark機制可解決亂序與延遲問題,處理時間易受系統(tǒng)負載影響,攝入時間僅保證進入系統(tǒng)時的順序。5.某電商公司使用Kafka記錄用戶點擊流,若要保證“全局業(yè)務(wù)維度上的絕對有序”,最合理的分區(qū)策略是A.隨機分區(qū)??B.按userId哈希分區(qū)??C.按商品類別分區(qū)??D.單分區(qū)答案:D解析:Kafka僅保證分區(qū)內(nèi)有序,若要全局有序,只能使用單分區(qū);哈希分區(qū)只能保證同一鍵有序,無法跨鍵全局有序。6.在HBase中,用于實現(xiàn)“多版本并發(fā)控制”的核心數(shù)據(jù)結(jié)構(gòu)是A.MemStore??B.HFile??C.WAL??D.LSMTree答案:D解析:HBase基于LSMTree(LogStructuredMergeTree)實現(xiàn)寫入緩沖、合并與多版本存儲,MemStore是內(nèi)存組件,HFile是持久化文件,WAL僅保證寫前日志。7.下列關(guān)于數(shù)據(jù)湖與數(shù)據(jù)倉庫的對比,錯誤的是A.數(shù)據(jù)湖采用“讀時模式”??B.數(shù)據(jù)倉庫強調(diào)“寫時模式”C.數(shù)據(jù)湖僅支持結(jié)構(gòu)化數(shù)據(jù)??D.數(shù)據(jù)倉庫通常基于SchemaonWrite答案:C解析:數(shù)據(jù)湖支持結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),SchemaonRead是其核心特征,C選項表述片面。8.在SparkSQL中,使用DataFrameAPI執(zhí)行join時,默認的shuffle分區(qū)數(shù)由哪個參數(shù)決定A.spark.sql.shuffle.partitions??B.spark.default.parallelismC.spark.executor.cores??D.spark.sql.adaptive.enabled答案:A解析:spark.sql.shuffle.partitions默認200,直接控制join、groupBy等寬依賴算子的reduce端并行度;default.parallelism僅影響RDD默認并行度。9.某市政府構(gòu)建城市大腦,需要實時聚合全市交通卡口過車記錄,峰值每秒500萬條,平均延遲要求<2s,最合適的流計算框架是A.Storm??B.SparkStreaming??C.Flink??D.Flume答案:C解析:Flink基于純流式引擎,支持高吞吐、低延遲與ExactlyOnce語義,SparkStreaming微批模式在秒級延遲下吞吐受限,Storm已逐步淘汰,F(xiàn)lume僅為采集工具。10.在數(shù)據(jù)治理體系中,用于量化“數(shù)據(jù)被正確記錄的程度”的指標(biāo)是A.一致性??B.完整性??C.準(zhǔn)確性??D.及時性答案:C解析:準(zhǔn)確性(Accuracy)衡量數(shù)據(jù)與真實世界的一致程度;完整性關(guān)注缺失值,一致性關(guān)注跨系統(tǒng)相同含義數(shù)據(jù)是否相等,及時性關(guān)注時效。11.使用Hive3.x時,若想利用LLAP(LowLatencyAnalyticalProcessing)實現(xiàn)毫秒級交互查詢,必須啟用的守護進程是A.HiveServer2??B.TezAM??C.LLAPDaemon??D.NodeManager答案:C解析:LLAPDaemon緩存列數(shù)據(jù)與索引,并常駐YARN容器,避免每次啟動JVM,TezAM僅負責(zé)計算拓撲,HiveServer2為接入層。12.在ClickHouse中,最適合高并發(fā)點查的表引擎是A.MergeTree??B.SummingMergeTree??C.ReplacingMergeTree??D.Memory答案:D解析:Memory引擎數(shù)據(jù)全駐內(nèi)存,支持高并發(fā)點查,但掉電即失;MergeTree系列側(cè)重批量插入與合并,非點查最優(yōu)。13.某金融公司使用Debezium采集MySQLbinlog至Kafka,下游Flink消費時發(fā)現(xiàn)“update”事件被拆成“before”與“after”兩條記錄,為保證語義一致,應(yīng)啟用Debezium的哪種模式A.snapshot??B.upsert??C.transaction??D.extractoldstate答案:B解析:upsert模式將update合并為一條帶舊值的記錄,方便下游冪等寫入;snapshot僅做全量快照,transaction模式已廢棄。14.在數(shù)據(jù)安全分級中,根據(jù)《GB/T35273—2020》,個人生物識別信息屬于A.一般個人信息??B.敏感個人信息??C.重要數(shù)據(jù)??D.核心數(shù)據(jù)答案:B解析:生物識別信息一旦泄露將直接危害人身與財產(chǎn)安全,被列為敏感個人信息,需加密存儲與明示同意。15.使用Airflow調(diào)度ETL時,若任務(wù)T1、T2可并行,T3依賴T1與T2,T4僅依賴T3,下列DAG定義正確的是A.T3.set_upstream([T1,T2])?T4.set_upstream(T3)B.T1.set_downstream(T3)?T2.set_downstream(T3)?T3.set_downstream(T4)C.T3>>[T1,T2]?T4>>T3D.chain(T1,T2,T3,T4)答案:B解析:set_downstream可顯式聲明依賴鏈,A順序反了,C語法錯誤,Dchain會線性串聯(lián),無法并行。16.在DeltaLake中,用于實現(xiàn)“時間旅行”查詢的核心機制是A.WAL日志??B.事務(wù)日志JSON文件??C.檢查點??D.快照隔離答案:B解析:DeltaLake將每次commit寫成JSON事務(wù)日志,記錄AddFile/RemoveFile,通過版本號即可回溯歷史快照。17.某企業(yè)采用Elasticsearch存放日志,檢索條件為“status:500ANDresponse_time>1000”,為提高召回率,應(yīng)優(yōu)先調(diào)整A.分片數(shù)??C.刷新間隔??C.映射字段類型??D.查詢分詞器答案:C解析:若response_time被映射為text,則范圍查詢將被分詞導(dǎo)致失效,改為integer/keyword即可準(zhǔn)確匹配;分片與刷新間隔影響性能而非召回。18.在聯(lián)邦學(xué)習(xí)場景下,參與方A與B采用同態(tài)加密梯度聚合,主要解決A.數(shù)據(jù)異構(gòu)??B.通信開銷??C.隱私泄露??D.模型漂移答案:C解析:同態(tài)加密可在密文域完成梯度求和,服務(wù)器無法獲知明文梯度,防止隱私泄露;數(shù)據(jù)異構(gòu)需遷移學(xué)習(xí),通信開銷需壓縮,模型漂移需正則。19.使用Pythonpandas處理1TBCSV時,出現(xiàn)MemoryError,最優(yōu)雅的替代方案是A.逐塊讀取chunk??B.轉(zhuǎn)換為HDF5??C.使用DaskDataFrame??D.增加虛擬內(nèi)存答案:C解析:Dask提供與pandas兼容的API,支持延遲計算與分布式調(diào)度,可橫向擴展至集群;chunk需手動管理狀態(tài),HDF5需格式轉(zhuǎn)換,增虛擬內(nèi)存治標(biāo)不治本。20.在數(shù)據(jù)資產(chǎn)目錄中,為每個字段標(biāo)記“是否包含個人信息”屬于A.業(yè)務(wù)元數(shù)據(jù)??B.技術(shù)元數(shù)據(jù)??C.操作元數(shù)據(jù)??D.安全元數(shù)據(jù)答案:D解析:安全元數(shù)據(jù)描述數(shù)據(jù)的敏感級別、加密算法、脫敏規(guī)則等,業(yè)務(wù)元數(shù)據(jù)描述含義,技術(shù)元數(shù)據(jù)描述類型長度,操作元數(shù)據(jù)描述訪問頻次。二、多項選擇題(每題2分,共20分。每題至少有兩個正確答案,多選、漏選、錯選均不得分)21.下列屬于HDFS高可用(HA)架構(gòu)中NameNode共享存儲實現(xiàn)方式的有A.NFS??B.QJM??C.ZooKeeper??D.SharedNothing答案:A、B解析:QJM(QuorumJournalManager)與NFS均可作為共享編輯日志介質(zhì),ZooKeeper負責(zé)故障切換仲裁而非存儲,SharedNothing是分布式數(shù)據(jù)庫概念。22.關(guān)于Spark的內(nèi)存管理,以下說法正確的有A.統(tǒng)一內(nèi)存區(qū)域由Storage與Execution共享B.用戶代碼中的對象占用的區(qū)域為UserMemoryC.ReservedMemory固定300MB,不可調(diào)D.堆外內(nèi)存由spark.memory.offHeap.enabled控制答案:A、B、D解析:ReservedMemory在1.6之后為300MB固定,不可通過參數(shù)調(diào),但可通過重新編譯源碼修改,故C錯;其余均正確。23.下列哪些算法可用于檢測數(shù)據(jù)漂移(DataDrift)A.KS檢驗??B.PSI??C.ChiSquare??D.DBSCAN答案:A、B、C解析:KS、PSI、卡方均可衡量分布差異,DBSCAN為密度聚類,用于異常點檢測而非漂移。24.在Kafka中,以下配置組合可保證“冪等生產(chǎn)”且“跨會話ExactlyOnce”A.enable.idempotence=true??B.acks=allC.transactional.id=tx??D.retries=0答案:A、B、C解析:冪等需enable.idempotence與acks=all,事務(wù)需transactional.id,retries=0將關(guān)閉重試,違背冪等。25.使用TensorFlowFederated構(gòu)建聯(lián)邦平均算法時,客戶端本地訓(xùn)練需返回A.本地模型權(quán)重??B.梯度增量??C.樣本數(shù)量??D.損失值答案:A、C解析:服務(wù)器按樣本數(shù)加權(quán)平均權(quán)重,需客戶端返回本地權(quán)重與num_examples;梯度增量用于FedSGD,損失值可選。26.下列屬于數(shù)據(jù)血緣(DataLineage)自動捕獲技術(shù)的有A.SQL靜態(tài)解析??B.運行時Hook??C.日志正則匹配??D.機器學(xué)習(xí)推斷答案:A、B、C解析:靜態(tài)解析、Hook插樁、日志匹配均為業(yè)界常用手段,機器學(xué)習(xí)推斷尚處研究階段,準(zhǔn)確率不足。27.關(guān)于ClickHouse的MergeTree索引,正確的有A.主鍵索引為稀疏索引??B.分區(qū)鍵可與排序鍵不同C.二級索引支持bitmap??D.支持事務(wù)回滾答案:A、B、C解析:MergeTree主鍵每8192行存一條索引,為稀疏;分區(qū)鍵可獨立定義;二級索引支持set、bitmap、bloom_filter;不支持事務(wù)回滾。28.在數(shù)據(jù)脫敏技術(shù)中,屬于“可逆加密”方案的有A.格式保持加密(FPE)??B.哈希加鹽??C.對稱AES??D.RSA答案:A、C、D解析:FPE、AES、RSA均可逆,哈希加鹽不可逆。29.使用Airflow的TaskFlowAPI,下列裝飾器功能正確的有A.@dag定義DAG??B.@task定義任務(wù)??C.@monthly設(shè)置調(diào)度??D.@retry設(shè)置重試答案:A、B解析:@task(或@task.virtualenv)定義任務(wù),@dag定義DAG;調(diào)度與重試通過參數(shù)設(shè)置,無@monthly、@retry裝飾器。30.以下關(guān)于數(shù)據(jù)網(wǎng)格(DataMesh)四大原則的描述,正確的有A.領(lǐng)域所有權(quán)??B.數(shù)據(jù)即產(chǎn)品??C.自助數(shù)據(jù)平臺??D.集中式治理答案:A、B、C解析:數(shù)據(jù)網(wǎng)格主張聯(lián)邦式治理(FederatedGovernance),非集中式,D錯。三、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)31.HDFS的BlockSize一旦設(shè)定,后續(xù)可通過hdfsdfssetBlockSize命令在線修改已有文件塊大小。答案:×解析:BlockSize屬于文件寫入時屬性,已寫入文件無法在線修改,需重新寫入。32.Spark的RDD采用惰性求值,因此當(dāng)調(diào)用action算子時,DAG才會被真正執(zhí)行。答案:√33.Flink的Checkpoint屏障(Barrier)是插入到數(shù)據(jù)流中的特殊記錄,與數(shù)據(jù)同序傳輸。答案:√34.Kafka的consumergroup再均衡(Rebalance)過程可以完全避免StoptheWorld,對業(yè)務(wù)零感知。答案:×解析:Rebalance會暫停拉取,導(dǎo)致短暫STW,無法完全避免。35.在數(shù)據(jù)倉庫中,星型模型比雪花模型查詢?nèi)哂喽雀?,因此性能一定更差。答案:×解析:星型模型通過冗余維度表減少關(guān)聯(lián),通常性能更好;雪花模型更規(guī)范,但需更多join。36.Elasticsearch默認使用TFIDF作為相關(guān)性評分算法,7.x后已切換為BM25。答案:√37.數(shù)據(jù)湖僅支持Parquet、ORC等列式格式,不支持行式JSON。答案:×解析:數(shù)據(jù)湖“SchemaonRead”理念支持任意格式,包括行式JSON、CSV、二進制等。38.聯(lián)邦學(xué)習(xí)無需傳輸原始數(shù)據(jù),因此天然滿足GDPR數(shù)據(jù)出境限制。答案:√解析:僅傳輸加密梯度或模型參數(shù),不傳輸個人原始數(shù)據(jù),符合最小化原則。39.使用pandas的category類型可顯著降低重復(fù)字符串的內(nèi)存占用,并加速groupby操作。答案:√40.數(shù)據(jù)資產(chǎn)目錄的成熟度模型中,Level5為“自治化”,由AI自動發(fā)現(xiàn)、自動修復(fù)數(shù)據(jù)質(zhì)量問題。答案:√四、填空題(每空2分,共20分)41.在Hadoop3.x中,YARN的ResourceManager內(nèi)部用于隔離用戶資源的調(diào)度器有CapacityScheduler與________。答案:FairScheduler42.SparkSQL的Catalyst優(yōu)化器核心步驟包括解析、________、優(yōu)化與代碼生成。答案:分析(Analysis)43.Flink實現(xiàn)端到端ExactlyOnce的兩階段提交協(xié)議需要外部系統(tǒng)支持________事務(wù)。答案:冪等或原子提交(答“可提交”亦可)44.數(shù)據(jù)治理框架DAMADMBOK將數(shù)據(jù)生命周期分為規(guī)劃、________、使用、共享、歸檔、銷毀六個階段。答案:開發(fā)(或“開發(fā)/獲取”)45.在ClickHouse中,用于快速過濾URL域名的函數(shù)是________。答案:domain()46.數(shù)據(jù)倉庫的緩慢變化維(SCD)類型2通過新增行并標(biāo)記________字段來記錄歷史。答案:時間戳或版本號47.使用Python進行特征縮放時,sklearn的StandardScaler基于________統(tǒng)計量做標(biāo)準(zhǔn)化。答案:均值與標(biāo)準(zhǔn)差48.在數(shù)據(jù)安全分類分級國標(biāo)中,影響對象分為國家安全、公共利益、________、個人權(quán)益四類。答案:組織權(quán)益49.DeltaLake的________文件記錄表版本的所有事務(wù)元數(shù)據(jù)。答案:_delta_log50.聯(lián)邦學(xué)習(xí)中的“模型投毒”攻擊通常通過上傳惡意________來破壞全局模型。答案:梯度五、簡答題(每題10分,共30分)51.描述HDFS寫入流程中“Pipeline”機制,并說明其如何保障數(shù)據(jù)節(jié)點級容錯。答案與解析:(1)客戶端向NameNode申請新建文件,NN返回一個LocatedBlock,包含三個DataNode(默認副本數(shù)3)組成Pipeline。(2)客戶端將數(shù)據(jù)按128MB切塊,每塊按64KBPacket流式發(fā)送給Pipeline第一個DN,DN1每收到一個Packet即轉(zhuǎn)發(fā)給DN2,DN2再轉(zhuǎn)發(fā)給DN3,形成鏈?zhǔn)絇ipeline。(3)每個DN將Packet寫入本地磁盤的同時,將校驗和回傳給上游,最終客戶端收到DN1的ACK即視為寫入成功。(4)若DN2宕機,DN1立即通知客戶端與NN,NN重新分配新DN4,客戶端從斷點續(xù)傳剩余Packet,已寫入DN1的數(shù)據(jù)由DN1復(fù)制到DN4,保障副本數(shù)不降級。(5)流程完成,NN記錄Block與DN映射,實現(xiàn)節(jié)點級容錯。52.結(jié)合Lambda架構(gòu)與Kappa架構(gòu)的優(yōu)缺點,說明“流批一體”架構(gòu)如何在實際項目中落地。答案與解析:Lambda優(yōu)點:離線層保證準(zhǔn)確性,實時層保證低延遲,歷史數(shù)據(jù)可重算;缺點:兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論