2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案_第1頁(yè)
2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案_第2頁(yè)
2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案_第3頁(yè)
2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案_第4頁(yè)
2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)期末考試試題及答案一、單項(xiàng)選擇題(共20題,每題2分,共40分)1.以下關(guān)于Hadoop分布式文件系統(tǒng)(HDFS)的描述中,錯(cuò)誤的是()。A.NameNode負(fù)責(zé)管理文件元數(shù)據(jù),包括文件塊位置信息B.DataNode存儲(chǔ)實(shí)際數(shù)據(jù)塊,默認(rèn)副本數(shù)為3C.HDFS適合存儲(chǔ)大量小文件,因?yàn)槠湓獢?shù)據(jù)管理效率高D.客戶(hù)端通過(guò)NameNode獲取文件塊的位置信息后,直接與DataNode交互讀寫(xiě)數(shù)據(jù)2.某電商平臺(tái)需要對(duì)用戶(hù)實(shí)時(shí)點(diǎn)擊流數(shù)據(jù)進(jìn)行統(tǒng)計(jì)(如每分鐘UV、點(diǎn)擊量),最適合的計(jì)算框架是()。A.HadoopMapReduceB.SparkCoreC.FlinkD.Hive3.關(guān)于SparkRDD(彈性分布式數(shù)據(jù)集)的特性,以下說(shuō)法正確的是()。A.RDD是不可變的,所有轉(zhuǎn)換操作都會(huì)提供新的RDDB.RDD的持久化只能使用內(nèi)存存儲(chǔ)(MEMORY_ONLY)C.RDD的分區(qū)數(shù)一旦確定無(wú)法修改D.RDD的轉(zhuǎn)換操作(如map、filter)是立即執(zhí)行的4.數(shù)據(jù)湖(DataLake)與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的核心區(qū)別在于()。A.數(shù)據(jù)湖僅存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖強(qiáng)調(diào)“存后處理”,數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)調(diào)“處理后存”C.數(shù)據(jù)湖的存儲(chǔ)成本更高,數(shù)據(jù)倉(cāng)庫(kù)更適合海量數(shù)據(jù)存儲(chǔ)D.數(shù)據(jù)湖不支持SQL查詢(xún),數(shù)據(jù)倉(cāng)庫(kù)支持復(fù)雜分析5.在Kafka消息隊(duì)列中,消費(fèi)者組(ConsumerGroup)的作用是()。A.保證消息的有序性B.實(shí)現(xiàn)消息的廣播或負(fù)載均衡消費(fèi)C.提高生產(chǎn)者的寫(xiě)入吞吐量D.存儲(chǔ)消息的元數(shù)據(jù)信息6.以下不屬于數(shù)據(jù)清洗主要任務(wù)的是()。A.處理缺失值(如填充、刪除)B.糾正數(shù)據(jù)中的錯(cuò)誤(如日期格式錯(cuò)誤)C.對(duì)數(shù)據(jù)進(jìn)行歸一化或標(biāo)準(zhǔn)化D.合并重復(fù)記錄7.機(jī)器學(xué)習(xí)中,為防止模型過(guò)擬合(Overfitting),以下方法不適用的是()。A.增加訓(xùn)練數(shù)據(jù)量B.降低模型復(fù)雜度(如減少?zèng)Q策樹(shù)深度)C.使用L1/L2正則化D.增加模型的隱藏層神經(jīng)元數(shù)量8.某企業(yè)需要構(gòu)建實(shí)時(shí)數(shù)據(jù)大屏,要求延遲低于1秒,應(yīng)優(yōu)先選擇的技術(shù)棧是()。A.Flink+Redis+EChartsB.SparkStreaming+HBase+TableauC.MapReduce+HDFS+PowerBID.Hive+MySQL+Excel9.關(guān)于DeltaLake的特性,以下描述錯(cuò)誤的是()。A.支持ACID事務(wù),解決數(shù)據(jù)湖的寫(xiě)沖突問(wèn)題B.僅支持結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),不支持半結(jié)構(gòu)化數(shù)據(jù)C.提供時(shí)間旅行(TimeTravel)功能,可回滾歷史版本D.與Spark、Flink等計(jì)算引擎深度集成10.數(shù)據(jù)倉(cāng)庫(kù)的分層架構(gòu)中,DWD層(數(shù)據(jù)明細(xì)層)的主要作用是()。A.存儲(chǔ)原始未加工的數(shù)據(jù)(如日志、數(shù)據(jù)庫(kù)備份)B.對(duì)數(shù)據(jù)進(jìn)行清洗、去重、規(guī)范化處理,保留明細(xì)數(shù)據(jù)C.整合多源數(shù)據(jù),構(gòu)建主題寬表,支持快速查詢(xún)D.存儲(chǔ)聚合后的統(tǒng)計(jì)結(jié)果,直接用于業(yè)務(wù)展示11.在Hive中,以下關(guān)于分區(qū)(Partition)和分桶(Bucket)的描述正確的是()。A.分區(qū)是物理上的文件分割,分桶是邏輯上的哈希分桶B.分區(qū)適合用于大范圍的數(shù)據(jù)過(guò)濾(如按日期過(guò)濾),分桶適合用于JOIN優(yōu)化C.分區(qū)的數(shù)量沒(méi)有限制,分桶的數(shù)量必須為2的冪次D.分區(qū)表和分桶表都只能存儲(chǔ)在HDFS中12.以下關(guān)于Flink窗口(Window)的分類(lèi),正確的是()。A.時(shí)間窗口(TimeWindow)和計(jì)數(shù)窗口(CountWindow)B.滑動(dòng)窗口(SlidingWindow)和滾動(dòng)窗口(TumblingWindow)僅屬于時(shí)間窗口C.會(huì)話窗口(SessionWindow)的觸發(fā)條件是固定時(shí)間間隔D.所有窗口類(lèi)型都需要定義窗口的大?。╓indowSize)13.某公司使用Spark進(jìn)行數(shù)據(jù)處理,任務(wù)執(zhí)行時(shí)出現(xiàn)“DriverOutOfMemoryError”,可能的原因是()。A.Executor的內(nèi)存分配不足B.Driver端聚合了過(guò)多數(shù)據(jù)(如collect操作后處理大數(shù)組)C.Shuffle過(guò)程中數(shù)據(jù)量過(guò)大,導(dǎo)致磁盤(pán)IO瓶頸D.RDD的分區(qū)數(shù)過(guò)少,并行度不足14.數(shù)據(jù)治理的核心目標(biāo)是()。A.提高數(shù)據(jù)存儲(chǔ)效率B.確保數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和安全性C.優(yōu)化數(shù)據(jù)處理流程的性能D.降低數(shù)據(jù)存儲(chǔ)成本15.在機(jī)器學(xué)習(xí)模型訓(xùn)練中,以下哪項(xiàng)操作屬于特征工程(FeatureEngineering)?()A.調(diào)整學(xué)習(xí)率(LearningRate)B.對(duì)類(lèi)別特征進(jìn)行獨(dú)熱編碼(One-HotEncoding)C.選擇損失函數(shù)(LossFunction)D.設(shè)置早停(EarlyStopping)閾值16.關(guān)于Kubernetes(K8s)在大數(shù)據(jù)集群管理中的應(yīng)用,以下說(shuō)法錯(cuò)誤的是()。A.可以實(shí)現(xiàn)Hadoop、Spark等服務(wù)的容器化部署與彈性擴(kuò)縮容B.替代YARN作為資源管理框架,提供更細(xì)粒度的資源調(diào)度C.通過(guò)Pod管理計(jì)算節(jié)點(diǎn),支持服務(wù)的快速故障恢復(fù)D.需要為每個(gè)大數(shù)據(jù)組件單獨(dú)配置容器鏡像,增加了運(yùn)維復(fù)雜度17.某銀行需要對(duì)用戶(hù)交易數(shù)據(jù)進(jìn)行實(shí)時(shí)風(fēng)險(xiǎn)檢測(cè)(如異常轉(zhuǎn)賬),應(yīng)優(yōu)先選擇的技術(shù)方案是()。A.使用Hive離線處理T+1數(shù)據(jù),提供風(fēng)險(xiǎn)報(bào)告B.通過(guò)Flink實(shí)時(shí)處理數(shù)據(jù)流,結(jié)合規(guī)則引擎和機(jī)器學(xué)習(xí)模型C.利用SparkCore批量處理歷史數(shù)據(jù),訓(xùn)練模型后離線預(yù)測(cè)D.基于Kafka存儲(chǔ)原始數(shù)據(jù),定期手動(dòng)分析18.以下關(guān)于數(shù)據(jù)血緣(DataLineage)的描述,錯(cuò)誤的是()。A.記錄數(shù)據(jù)從產(chǎn)生到最終使用的全鏈路路徑B.主要用于數(shù)據(jù)質(zhì)量追溯和問(wèn)題定位C.僅需在數(shù)據(jù)倉(cāng)庫(kù)中實(shí)現(xiàn),數(shù)據(jù)湖無(wú)需血緣管理D.可以通過(guò)元數(shù)據(jù)管理工具(如ApacheAtlas)實(shí)現(xiàn)19.在HBase中,RowKey的設(shè)計(jì)原則不包括()。A.盡量短,減少存儲(chǔ)和IO開(kāi)銷(xiāo)B.散列分布,避免熱點(diǎn)問(wèn)題C.按時(shí)間倒序排列,便于最新數(shù)據(jù)快速查詢(xún)D.包含所有業(yè)務(wù)字段,確保唯一性20.以下屬于非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)的是()。A.MySQLB.OracleC.HBaseD.SQLServer二、填空題(共10題,每題2分,共20分)1.Hadoop生態(tài)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是__________。2.Spark的計(jì)算模型是__________(填“批處理”“流處理”或“批流一體”)。3.數(shù)據(jù)倉(cāng)庫(kù)的三層架構(gòu)通常包括源數(shù)據(jù)層(ODS)、__________(DWD)和應(yīng)用層(ADS)。4.Flink中,__________是數(shù)據(jù)處理的最小時(shí)間單位,用于事件時(shí)間(EventTime)的水位線(Watermark)計(jì)算。5.Kafka的消息存儲(chǔ)在__________中,每個(gè)該結(jié)構(gòu)可以劃分為多個(gè)段(Segment)以提高讀寫(xiě)效率。6.機(jī)器學(xué)習(xí)中,準(zhǔn)確率(Accuracy)的計(jì)算公式是__________(用TP、TN、FP、FN表示)。7.數(shù)據(jù)湖的典型存儲(chǔ)格式是__________(如Parquet、ORC等列式存儲(chǔ)格式)。8.Hive的元數(shù)據(jù)默認(rèn)存儲(chǔ)在__________數(shù)據(jù)庫(kù)中(如MySQL、Derby)。9.實(shí)時(shí)計(jì)算中,__________延遲(Latency)是指數(shù)據(jù)從產(chǎn)生到處理完成的時(shí)間間隔。10.大數(shù)據(jù)安全的核心技術(shù)包括數(shù)據(jù)加密、__________(如角色權(quán)限控制)和數(shù)據(jù)脫敏等。三、簡(jiǎn)答題(共5題,每題8分,共40分)1.簡(jiǎn)述HDFS的“一次寫(xiě)入,多次讀取”設(shè)計(jì)原則及其原因。2.說(shuō)明SparkRDD的持久化(Persistence)與檢查點(diǎn)(Checkpoint)的區(qū)別。3.數(shù)據(jù)清洗的主要步驟有哪些?請(qǐng)列舉并簡(jiǎn)要說(shuō)明。4.對(duì)比Flink的事件時(shí)間(EventTime)和處理時(shí)間(ProcessingTime),說(shuō)明各自的適用場(chǎng)景。5.數(shù)據(jù)治理需要解決哪些核心問(wèn)題?請(qǐng)至少列舉4個(gè)并簡(jiǎn)要解釋。四、綜合應(yīng)用題(共2題,每題20分,共40分)1.某電商公司需要構(gòu)建用戶(hù)行為分析系統(tǒng),目標(biāo)是實(shí)時(shí)統(tǒng)計(jì)“最近1小時(shí)內(nèi)各商品的點(diǎn)擊量”和“每日UV(獨(dú)立訪客數(shù))”。請(qǐng)?jiān)O(shè)計(jì)技術(shù)方案,包括:(1)數(shù)據(jù)采集:用戶(hù)行為數(shù)據(jù)(如點(diǎn)擊時(shí)間、商品ID、用戶(hù)ID、IP)的采集方式;(2)數(shù)據(jù)存儲(chǔ):實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)的存儲(chǔ)方案(需說(shuō)明存儲(chǔ)系統(tǒng)及選擇理由);(3)數(shù)據(jù)處理:實(shí)時(shí)統(tǒng)計(jì)和離線統(tǒng)計(jì)的計(jì)算框架及關(guān)鍵步驟;(4)結(jié)果展示:如何將統(tǒng)計(jì)結(jié)果可視化(需說(shuō)明工具或技術(shù))。2.給定某網(wǎng)站日志數(shù)據(jù)(格式:時(shí)間戳|用戶(hù)ID|頁(yè)面URL|訪問(wèn)時(shí)長(zhǎng)|設(shè)備類(lèi)型),要求使用SparkSQL完成以下分析任務(wù):(1)統(tǒng)計(jì)當(dāng)日各頁(yè)面的訪問(wèn)次數(shù)(按訪問(wèn)次數(shù)降序排列);(2)計(jì)算當(dāng)日用戶(hù)的平均訪問(wèn)時(shí)長(zhǎng)(按設(shè)備類(lèi)型分組);(3)找出當(dāng)日訪問(wèn)次數(shù)最多的前10個(gè)用戶(hù)ID。請(qǐng)寫(xiě)出具體的實(shí)現(xiàn)步驟(包括數(shù)據(jù)加載、清洗、分析的SQL語(yǔ)句或Spark代碼邏輯)。參考答案一、單項(xiàng)選擇題1.C2.C3.A4.B5.B6.C7.D8.A9.B10.B11.B12.A13.B14.B15.B16.D17.B18.C19.D20.C二、填空題1.YARN(YetAnotherResourceNegotiator)2.批流一體3.明細(xì)數(shù)據(jù)層4.毫秒(或時(shí)間戳單位,具體根據(jù)Flink配置)5.主題(Topic)的分區(qū)(Partition)6.(TP+TN)/(TP+TN+FP+FN)7.Parquet(或ORC,答案合理即可)8.MySQL(或Derby,默認(rèn)Derby但生產(chǎn)環(huán)境常用MySQL)9.端到端(End-to-End)10.訪問(wèn)控制(或權(quán)限管理)三、簡(jiǎn)答題1.設(shè)計(jì)原則:HDFS文件一旦寫(xiě)入完成(關(guān)閉),不能修改,只能追加或讀取。原因:(1)簡(jiǎn)化一致性管理:避免多線程修改帶來(lái)的鎖競(jìng)爭(zhēng)和數(shù)據(jù)不一致問(wèn)題;(2)適合大數(shù)據(jù)場(chǎng)景:大數(shù)據(jù)處理通常是批量寫(xiě)入、多次分析,修改需求少;(3)提高讀寫(xiě)效率:固定文件內(nèi)容后,DataNode可優(yōu)化存儲(chǔ)布局(如預(yù)分配塊),NameNode元數(shù)據(jù)管理更簡(jiǎn)單。2.區(qū)別:(1)持久化:將RDD緩存到內(nèi)存或磁盤(pán),通過(guò)血緣關(guān)系(Lineage)重建數(shù)據(jù),適用于多次復(fù)用同一RDD的場(chǎng)景;(2)檢查點(diǎn):將RDD寫(xiě)入HDFS等可靠存儲(chǔ),切斷血緣關(guān)系,適用于長(zhǎng)依賴(lài)鏈的RDD(如迭代計(jì)算),避免因節(jié)點(diǎn)故障導(dǎo)致全鏈路重算。3.主要步驟:(1)缺失值處理:填充(均值、中位數(shù)、模型預(yù)測(cè))或刪除缺失記錄;(2)異常值檢測(cè):通過(guò)統(tǒng)計(jì)方法(如Z-score)或機(jī)器學(xué)習(xí)模型識(shí)別并修正;(3)數(shù)據(jù)標(biāo)準(zhǔn)化:統(tǒng)一單位(如時(shí)間格式、數(shù)值范圍);(4)去重:識(shí)別并合并重復(fù)記錄;(5)糾正錯(cuò)誤:修復(fù)邏輯矛盾(如年齡為負(fù)數(shù))。4.事件時(shí)間:基于數(shù)據(jù)本身的提供時(shí)間(如日志中的時(shí)間戳),適用于需要準(zhǔn)確反映業(yè)務(wù)時(shí)間的場(chǎng)景(如用戶(hù)行為分析,需按實(shí)際發(fā)生時(shí)間統(tǒng)計(jì));處理時(shí)間:基于數(shù)據(jù)被處理系統(tǒng)接收的時(shí)間,適用于對(duì)延遲敏感、無(wú)需嚴(yán)格按事件時(shí)間統(tǒng)計(jì)的場(chǎng)景(如實(shí)時(shí)監(jiān)控系統(tǒng),關(guān)注當(dāng)前處理進(jìn)度)。5.核心問(wèn)題:(1)數(shù)據(jù)質(zhì)量:確保數(shù)據(jù)準(zhǔn)確、完整、一致(如解決缺失值、錯(cuò)誤值問(wèn)題);(2)數(shù)據(jù)安全:防止敏感信息泄露(如用戶(hù)隱私數(shù)據(jù)加密);(3)元數(shù)據(jù)管理:記錄數(shù)據(jù)的來(lái)源、定義、血緣關(guān)系(便于追溯和理解數(shù)據(jù));(4)數(shù)據(jù)標(biāo)準(zhǔn):統(tǒng)一數(shù)據(jù)命名、格式、編碼規(guī)則(避免多源數(shù)據(jù)沖突);(5)權(quán)限控制:規(guī)范不同角色對(duì)數(shù)據(jù)的訪問(wèn)和操作權(quán)限(如限制非授權(quán)用戶(hù)查詢(xún)敏感數(shù)據(jù))。四、綜合應(yīng)用題1.技術(shù)方案設(shè)計(jì):(1)數(shù)據(jù)采集:使用埋點(diǎn)工具(如GoogleAnalytics、神策)在前端頁(yè)面嵌入JS腳本,捕獲用戶(hù)行為數(shù)據(jù);通過(guò)Kafka消息隊(duì)列實(shí)時(shí)收集數(shù)據(jù)(低延遲、高吞吐量)。(2)數(shù)據(jù)存儲(chǔ):實(shí)時(shí)數(shù)據(jù):Kafka(短期緩存,支持實(shí)時(shí)消費(fèi))+Redis(存儲(chǔ)最近1小時(shí)點(diǎn)擊量,利用內(nèi)存讀寫(xiě)快速更新);離線數(shù)據(jù):HDFS(長(zhǎng)期存儲(chǔ))+Hive(構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),存儲(chǔ)每日全量用戶(hù)行為數(shù)據(jù))。(3)數(shù)據(jù)處理:實(shí)時(shí)統(tǒng)計(jì):Flink作為計(jì)算框架,設(shè)置1小時(shí)滑動(dòng)窗口(或滾動(dòng)窗口)統(tǒng)計(jì)商品點(diǎn)擊量;使用BloomFilter或HyperLogLog估算UV(減少內(nèi)存占用);離線統(tǒng)計(jì):每日凌晨通過(guò)Spark批量處理Hive表中的數(shù)據(jù),計(jì)算當(dāng)日UV(去重用戶(hù)ID)。(4)結(jié)果展示:使用ECharts或Grafana開(kāi)發(fā)實(shí)時(shí)大屏,展示各商品點(diǎn)擊量趨勢(shì);通過(guò)Tableau或QuickBI提供離線日?qǐng)?bào),展示每日UV變化。2.SparkSQL實(shí)現(xiàn)步驟:(1)數(shù)據(jù)加載與清洗:```scala//加載日志數(shù)據(jù),假設(shè)存儲(chǔ)路徑為hdfs:///logs/weblogvallogDF=spark.read.option("sep","\\|").csv("hdfs:///logs/weblog").toDF("timestamp","user_id","page_url","duration","device_type")//清洗數(shù)據(jù):過(guò)濾無(wú)效記錄(如duration為負(fù)數(shù)或NULL)valcleanedDF=logDF.filter("duration>0ANDuser_idISNOTNULL")```(2)統(tǒng)計(jì)當(dāng)日各頁(yè)面訪問(wèn)次數(shù):```sql-假設(shè)當(dāng)日為2025-06-01,提取日期字段cleanedDF.createOrReplaceTempView("web_log")valdailyPageCount=spark.sql("""SELECTpage_url,COUNT()ASvisit_count|FROMweb_log|WHEREDATE_FORMAT(FROM_UNIXT

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論