2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案_第1頁
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案_第2頁
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案_第3頁
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案_第4頁
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)能力測評試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Hadoop生態(tài)中,負(fù)責(zé)資源調(diào)度與任務(wù)管理的組件是A.HDFS?B.YARN?C.MapReduce?D.Hive答案:B2.下列關(guān)于數(shù)據(jù)湖的說法正確的是A.僅支持結(jié)構(gòu)化數(shù)據(jù)?B.必須先定義Schema才能寫入C.原始數(shù)據(jù)可長期保留?D.只能使用Spark訪問答案:C3.在SparkSQL中,將DataFrame注冊為臨時視圖的命令是A.cache()?B.createTempView()?C.persist()?D.register()答案:B4.當(dāng)特征取值范圍差異極大時,優(yōu)先選擇的預(yù)處理方法是A.OneHot?B.標(biāo)準(zhǔn)化?C.卡方檢驗(yàn)?D.PCA答案:B5.在Kafka中,保證同一分區(qū)消息順序的層級是A.Broker?B.ConsumerGroup?C.Partition?D.Topic答案:C6.使用邏輯回歸做多分類時,Sparkml庫默認(rèn)采用A.OnevsRest?B.Softmax?C.樹模型?D.多項(xiàng)式回歸答案:A7.下列評估指標(biāo)對極度不平衡數(shù)據(jù)最不敏感的是A.Accuracy?B.F1score?C.AUC?D.Precision答案:C8.Flink的Checkpoint機(jī)制基于A.分布式快照?B.兩階段提交?C.預(yù)寫日志?D.主從備份答案:A9.在Pythonpandas中,對缺失值進(jìn)行前向填充的函數(shù)是A.fillna(method='pad')?B.dropna()?C.ffill()?D.A和C均正確答案:D10.若某Hive表分區(qū)字段為dt且格式為yyyyMMdd,則最佳分區(qū)目錄命名示例為A.dt=20250601?B.20250601?C.dt/2025/06/01?D.dt_20250601答案:A二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.下列屬于NoSQL數(shù)據(jù)庫的有A.MongoDB?B.HBase?C.Redis?D.Oracle答案:ABC12.關(guān)于Bagging與Boosting,正確的有A.Bagging可降低方差?B.Boosting可降低偏差C.隨機(jī)森林屬于Bagging?D.XGBoost屬于Boosting答案:ABCD13.在數(shù)據(jù)治理中,元數(shù)據(jù)應(yīng)包含A.字段含義?B.數(shù)據(jù)來源?C.更新頻率?D.存儲壓縮格式答案:ABCD14.下列Python庫可用于深度學(xué)習(xí)的包括A.TensorFlow?B.PyTorch?C.Keras?D.LightGBM答案:ABC15.導(dǎo)致數(shù)據(jù)傾斜的常見原因有A.Key分布極不均勻?B.分區(qū)數(shù)過少?C.使用mapsidejoin?D.大量空值Key答案:ABD三、填空題(每空2分,共20分)16.在Spark中,RDD的五大特征分別為____、____、____、____、____。答案:分區(qū)、不可變、可并行、可序列化、可容錯17.若某電商訂單表字段user_id重復(fù),計算用戶去重人數(shù)應(yīng)使用SQL關(guān)鍵字____。答案:distinct18.在Flink的時間語義中,____時間能夠保證處理結(jié)果的確定性。答案:事件19.若某決策樹最大深度設(shè)為0,則該模型等價于____。答案:單節(jié)點(diǎn)樹,即返回樣本多數(shù)類20.在Hive中,將字符串'20250601'轉(zhuǎn)為日期類型函數(shù)為____。答案:to_date21.在Pythonsklearn中,標(biāo)準(zhǔn)化縮放到均值為0方差為1的類名是____。答案:StandardScaler22.若KafkaTopic有3分區(qū),消費(fèi)者組內(nèi)啟動4個消費(fèi)者,則至少____個消費(fèi)者會空閑。答案:123.在HBase中,用于唯一標(biāo)識一行記錄的鍵由____+____組成。答案:rowkey、timestamp(或rowkey+column+timestamp,答rowkey給滿分)24.使用pandas讀取csv時,若文件編碼為GBK,應(yīng)加參數(shù)____。答案:encoding='gbk'25.在SQL中,窗口函數(shù)row_number()必須與____子句聯(lián)用才能生成序號。答案:over四、判斷題(每題1分,共10分,正確打√,錯誤打×)26.Hive支持事務(wù)的前提是必須使用ORC格式并開啟表屬性transactional=true。答案:√27.Spark的GraphX庫底層實(shí)現(xiàn)采用RDD。答案:√28.在Kudu中,主鍵列允許為NULL。答案:×29.邏輯回歸對特征尺度敏感,因此必須先標(biāo)準(zhǔn)化。答案:√30.使用Kafka保證全局順序必須將分區(qū)數(shù)設(shè)為1。答案:√31.在pandas中,merge默認(rèn)采用內(nèi)連接。答案:√32.若兩個隨機(jī)變量獨(dú)立,則它們一定不相關(guān)。答案:√33.在深度學(xué)習(xí)中,ReLU激活函數(shù)可以解決梯度消失問題。答案:√34.數(shù)據(jù)倉庫分層中,DWD層通常保留原始數(shù)據(jù)不做任何清洗。答案:×35.在FlinkCEP中,模式序列必須保證事件時間升序。答案:√五、簡答題(封閉型,每題5分,共15分)36.簡述MapReduce中Shuffle階段的具體流程。答案:Map端將輸出結(jié)果根據(jù)分區(qū)函數(shù)寫入環(huán)形緩沖區(qū);緩沖區(qū)達(dá)到閾值觸發(fā)溢寫,溢寫前進(jìn)行分區(qū)、排序、可選合并;溢寫文件最終歸并成一個有序且分區(qū)的大文件;Reduce端通過HTTP拉取對應(yīng)分區(qū)的數(shù)據(jù),再進(jìn)行歸并排序,之后進(jìn)入Reduce函數(shù)。37.寫出數(shù)據(jù)質(zhì)量評估的五個維度并給出簡要說明。答案:完整性:數(shù)據(jù)是否缺失;一致性:同一數(shù)據(jù)在不同系統(tǒng)是否相同;準(zhǔn)確性:數(shù)據(jù)是否真實(shí)反映事實(shí);及時性:數(shù)據(jù)是否按時更新;唯一性:是否存在重復(fù)記錄。38.說明Spark中廣播變量的作用與使用條件。答案:廣播變量將只讀數(shù)據(jù)高效分發(fā)到各Executor,避免多次序列化與網(wǎng)絡(luò)傳輸;使用條件:變量體積較大且被多個Task多次調(diào)用,內(nèi)存足夠容納廣播數(shù)據(jù)。六、開放型簡答題(每題10分,共20分)39.某電商公司“618”大促期間,訂單Topic每秒峰值10萬條,每條約1KB,Kafka集群共3Broker,要求保留2天,磁盤利用率不超過70%。請給出Topic分區(qū)數(shù)、副本因子、磁盤容量規(guī)劃計算過程,并說明監(jiān)控指標(biāo)。答案:1)峰值帶寬:100000×1KB≈97MB/s;2)單分區(qū)寫入上限按30MB/s估算,需分區(qū)數(shù)≥ceil(97/30)=4;考慮擴(kuò)展取12;3)副本因子3保證高可用;4)總數(shù)據(jù)量:97MB/s×86400s×2天≈15.9TB;5)磁盤利用率70%,則裸容量≥15.9/0.7≈22.7TB;6)三Broker均攤,每節(jié)點(diǎn)≥7.6TB,建議8TB×12盤RAID10或JBOD;7)監(jiān)控:UnderReplicatedPartitions、BytesInPerSec、CPU、DiskIO、ISRshrinkrate。40.描述一次完整的數(shù)據(jù)傾斜定位與優(yōu)化實(shí)戰(zhàn)過程,含現(xiàn)象、根因、驗(yàn)證、方案、效果。答案:現(xiàn)象:Spark任務(wù)某Stage199/200任務(wù)30秒完成,剩余1任務(wù)執(zhí)行2小時;根因:使用groupByKey的Key為商品ID,爆款商品ID數(shù)量超千萬,其他僅幾十;驗(yàn)證:通過SparkUI查看任務(wù)輸入記錄分布,發(fā)現(xiàn)單Task輸入1.2億條;方案:將groupByKey改為reduceByKey預(yù)聚合,兩階段聚合;同時加鹽將爆款Key拆成100個后綴,第二階段去鹽合并;效果:原任務(wù)2小時失敗,優(yōu)化后3分鐘完成,Shuffle量由200GB降至8GB,CPU節(jié)省75%。七、計算題(每題15分,共30分)41.給定用戶購買記錄表orders(user_idSTRING,item_idSTRING,qtyINT,priceDOUBLE),計算每個用戶客單價(客單價=總金額/購買天數(shù)),要求SQL實(shí)現(xiàn)并給出結(jié)果示例。答案:SQL:selectuser_id,round(total_amount/days,2)asavg_daily_valuefrom(selectuser_id,sum(qtyprice)astotal_amount,count(distinctfrom_unixtime(unix_timestamp(),'yyyyMMdd'))asdaysfromordersgroupbyuser_id)t;結(jié)果示例:user_id?avg_daily_valueU1001?328.75U1002?512.0042.某模型預(yù)測概率輸出為[0.8,0.3,0.9,0.1,0.7],真實(shí)標(biāo)簽為[1,0,1,0,1],請手動計算AUC(ROC曲線下面積),給出詳細(xì)步驟與數(shù)值結(jié)果。答案:1)將樣本按預(yù)測降序排序:序號?預(yù)測?真實(shí)1?0.9?12?0.8?13?0.7?14?0.3?05?0.1?02)正例3個,負(fù)例2個;3)計算TPR、FPR:閾值0.9:TP=1,F(xiàn)P=0,TPR=1/3,F(xiàn)PR=0閾值0.8:TP=2,F(xiàn)P=0,TPR=2/3,F(xiàn)PR=0閾值0.7:TP=3,F(xiàn)P=0,TPR=1,F(xiàn)PR=0閾值0.3:TP=3,F(xiàn)P=1,TPR=1,F(xiàn)PR=1/2閾值0.1:TP=3,F(xiàn)P=2,TPR=1,F(xiàn)PR=14)按梯形法求面積:(2/3–1/3)(0–0)/2+(1–2/3)(0–0)/2+(1–1)(1/2–0)/2+(1–1)(1–1/2)/2=0+0+0+0=0實(shí)際使用Wilcoxon公式:AUC=(sumrankofpositiveclass–M(M+1)/2)/(M×N)M=3,N=2,正例秩次1,2,3,sum=6AUC=(6–3×4/2)/(3×2)=(6–6)/6=0發(fā)現(xiàn)預(yù)測完全可分,AUC=1.0;重新檢查:負(fù)例未出現(xiàn)在正例之前,故無錯誤排序,最終AUC=1.0。八、綜合分析題(20分)43.某視頻平臺日活1億,用戶每次播放行為實(shí)時寫入Kafka,離線鏈路使用Spark批處理每小時計算用戶播放時長,實(shí)時鏈路使用Flink計算5分鐘滑動窗口播放時長。(1)給出離線鏈路的表結(jié)構(gòu)、分區(qū)策略、ETL偽代碼;(2)給出實(shí)時鏈路ExactlyOnce實(shí)現(xiàn)步驟,含Checkpoint配置、KafkaSink兩階段提交;(3)若實(shí)時鏈路需回滾至昨天20:00重新消費(fèi),描述如何重置offset并保證結(jié)果冪等;(4)評估離線結(jié)果與實(shí)時結(jié)果在23:00時刻的差異可能來源,給出量化公式與容忍區(qū)間。答案:(1)離線表:createtableplay_dur_hour(user_idBIGINT,hourSTRING,durationBIGINT)partitionedby(hourSTRING)storedasorc;ETL偽代碼:spark.sql("""insertoverwritetableplay_dur_hourpartition(hour='${hour}')selectuser_id,sum(duration)fromkafka_playwheredt='${hour}'groupbyuser_id""")(2)ExactlyOnce:啟用Checkpoint:env.enableCheckpointing(30000),模式EXACTLY_ONCE;Sink使用KafkaTransactionalSink,預(yù)提交階段將結(jié)果寫Kafka事務(wù),Checkpoint完成時commit;Checkpoint存儲在HDFS,開啟外部化Checkpoint且retain為1。(3)回滾:停止作業(yè);使用kafkaconsumergroups.shresetoffsetstodatetime20250601T20:00:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論