2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析_第1頁(yè)
2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析_第2頁(yè)
2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析_第3頁(yè)
2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析_第4頁(yè)
2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大數(shù)據(jù)分析專(zhuān)家技能評(píng)估題庫(kù)及答案解析1.單項(xiàng)選擇題(每題1分,共20分)1.1在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是A.HDFS?B.YARN?C.Hive?D.Flume答案:B解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的資源管理層,負(fù)責(zé)集群資源分配與作業(yè)調(diào)度。1.2下列哪一項(xiàng)不是Kafka的核心概念A(yù).Partition?B.Offset?C.Broker?D.DataFrame答案:D解析:DataFrame是SparkSQL的分布式表抽象,與Kafka無(wú)關(guān)。1.3使用SparkMLlib訓(xùn)練邏輯回歸模型時(shí),默認(rèn)的正則化方式是A.L0?B.L1?C.L2?D.ElasticNet答案:C解析:LogisticRegression默認(rèn)使用L2正則,可通過(guò)setRegParam調(diào)整強(qiáng)度。1.4在Flink中,用于保證ExactlyOnce語(yǔ)義的機(jī)制是A.Checkpoint?B.Savepoint?C.Window?D.Slot答案:A解析:分布式快照Checkpoint結(jié)合可重放Source與冪等Sink實(shí)現(xiàn)ExactlyOnce。1.5當(dāng)Hive表存儲(chǔ)格式為ORC時(shí),可顯著提升A.網(wǎng)絡(luò)吞吐?B.CPU利用率?C.磁盤(pán)掃描效率?D.內(nèi)存占用答案:C解析:ORC列式存儲(chǔ)+輕量級(jí)索引減少磁盤(pán)I/O。1.6對(duì)高維稀疏特征進(jìn)行降維,首選A.PCA?B.tSNE?C.截?cái)郤VD?D.LDA答案:C解析:截?cái)郤VD(SparkMLlibTruncatedSVD)適合稀疏矩陣,計(jì)算復(fù)雜度低。1.7在ClickHouse中,最適合做用戶行為漏斗分析的表引擎是A.MergeTree?B.SummingMergeTree?C.AggregatingMergeTree?D.Log答案:A解析:MergeTree支持ORDERBY與BITMAP函數(shù),可高效實(shí)現(xiàn)漏斗。1.8若隨機(jī)森林OOB誤差隨樹(shù)數(shù)增加而震蕩上升,最可能的原因是A.樹(shù)太深?B.特征抽樣比例過(guò)高?C.樣本標(biāo)簽噪聲大?D.并行度過(guò)高答案:C解析:標(biāo)簽噪聲導(dǎo)致每棵樹(shù)學(xué)習(xí)錯(cuò)誤模式,OOB誤差不再下降。1.9使用Pythonpandas時(shí),df.groupby('city')['sales'].transform('sum')返回A.每城市一行匯總值?B.與原DataFrame等長(zhǎng)向量?C.多級(jí)索引?D.報(bào)錯(cuò)答案:B解析:transform返回與原始軸相同的形狀,用于廣播。1.10在AB實(shí)驗(yàn)樣本量計(jì)算中,若期望相對(duì)提升1%,檢驗(yàn)功效80%,顯著性5%,則所需樣本量與下列哪項(xiàng)無(wú)關(guān)A.基線轉(zhuǎn)化率?B.期望提升?C.實(shí)驗(yàn)天數(shù)?D.雙尾/單尾檢驗(yàn)答案:C解析:樣本量公式與基線、p1、α、β、單雙尾有關(guān),與實(shí)驗(yàn)持續(xù)天數(shù)無(wú)關(guān)。1.11當(dāng)使用XGBoost處理類(lèi)別特征時(shí),官方推薦A.onehot?B.目標(biāo)編碼?C.直方圖分裂?D.原生類(lèi)別句柄答案:D解析:1.6+版本支持category類(lèi)型,避免高維稀疏。1.12在PostgreSQL中,對(duì)JSONB字段建立GIN索引后,下列查詢?nèi)詿o(wú)法使用索引的是A.@>'{"tag":"vip"}'?B.>>'name'='Tom'?C.?'tag'?D.>'{a,b}'答案:B解析:>>返回text,需額外表達(dá)式索引。1.13若每日新增日志500GB,保存90天,壓縮比1:5,則HDFS三副本所需磁盤(pán)約A.27TB?B.54TB?C.81TB?D.135TB答案:C解析:500GB×90÷5×3=27000GB≈27TB×3副本=81TB。1.14在TensorFlow2.x中,tf.keras.metrics.AUC(num_thresholds=200)計(jì)算的是A.PR曲線下面積?B.ROC曲線下面積?C.混淆矩陣?D.F1答案:B解析:默認(rèn)metric='auc'即ROCAUC。1.15使用Airflow時(shí),若task重試3次,retry_delay=5min,則最大延遲為A.5min?B.10min?C.15min?D.30min答案:C解析:3次重試間隔5min,總延遲15min。1.16在PromQL中,表示“過(guò)去5分鐘HTTP錯(cuò)誤率”的正確表達(dá)式是A.rate(http_requests_total[5m])?B.sum(rate(http_requests_total{status=~"5.."}[5m]))/sum(rate(http_requests_total[5m]))?C.increase(...)?D.irate(...)答案:B解析:錯(cuò)誤率=錯(cuò)誤請(qǐng)求率/總請(qǐng)求率。1.17當(dāng)使用Kmeans時(shí),Inertia隨k增大而A.單調(diào)減?B.單調(diào)增?C.先減后增?D.不變答案:A解析:簇?cái)?shù)增加,樣本到中心距離和必然下降。1.18下列算法中,對(duì)缺失值最魯棒的是A.線性回歸?B.樸素貝葉斯?C.決策樹(shù)?D.KNN答案:C解析:樹(shù)模型可在分裂時(shí)處理缺失,無(wú)需填充。1.19在Spark中,rdd.reduceByKey(_+_)與groupByKey().mapValues(_.sum)相比A.前者網(wǎng)絡(luò)shuffle更少?B.后者內(nèi)存占用更低?C.二者等價(jià)?D.前者觸發(fā)action答案:A解析:reduceByKey在map端預(yù)聚合,減少網(wǎng)絡(luò)I/O。1.20若某特征與目標(biāo)相關(guān)系數(shù)為0,則A.該特征無(wú)用?B.可能有非線性關(guān)系?C.必為離散變量?D.模型應(yīng)刪除答案:B解析:線性相關(guān)系數(shù)為0僅說(shuō)明無(wú)線性相關(guān),仍可能存在非線性信號(hào)。2.多項(xiàng)選擇題(每題2分,共20分,多選少選均不得分)2.1關(guān)于數(shù)據(jù)傾斜,正確的治理手段有A.兩階段聚合?B.加鹽后去鹽?C.增加reduce并行度?D.使用mapjoin?E.提高HDFS副本數(shù)答案:ABCD解析:E與傾斜無(wú)關(guān)。2.2以下屬于時(shí)間序列異常檢測(cè)算法的是A.SHESD?B.IsolationForest?C.Prophet+changepoint?D.LSTMAutoEncoder?E.DBSCAN答案:ABCD解析:DBSCAN為密度聚類(lèi),非時(shí)序?qū)S谩?.3在特征選擇中,基于模型的方法包括A.L1正則?B.隨機(jī)森林特征重要性?C.互信息?D.遞歸特征消除?E.卡方檢驗(yàn)答案:ABD解析:C、E為過(guò)濾法。2.4關(guān)于ClickHouse的MergeTree,正確的有A.支持?jǐn)?shù)據(jù)更新?B.主鍵可重復(fù)?C.支持TTL?D.支持采樣?E.支持事務(wù)回滾答案:ABCD解析:不支持完整事務(wù)回滾。2.5在深度推薦模型中,引入Attention的目的有A.增強(qiáng)可解釋性?B.降低過(guò)擬合?C.捕捉動(dòng)態(tài)興趣?D.減少參數(shù)量?E.加速推理答案:ABC解析:Attention可能增加參數(shù)量與推理耗時(shí)。2.6下列操作會(huì)導(dǎo)致SparkJob觸發(fā)action的有A.collect?B.count?C.saveAsTextFile?D.take?E.map答案:ABCD解析:map為transformation。2.7關(guān)于數(shù)據(jù)湖Iceberg,正確的有A.支持ACID?B.支持行級(jí)更新?C.時(shí)間旅行?D.僅支持Spark?E.隱藏分區(qū)答案:ABCE解析:Iceberg與引擎無(wú)關(guān),F(xiàn)link、Trino均可接入。2.8在Python中,可用來(lái)加速pandas的庫(kù)有A.modin?B.dask?C.numba?D.polars?E.pyspark答案:ABCDE解析:均可通過(guò)不同方式加速。2.9以下指標(biāo)可用于評(píng)估二分類(lèi)模型校準(zhǔn)度A.BrierScore?B.ReliabilityDiagram?C.ROCAUC?D.LogLoss?E.F1答案:ABD解析:ROCAUC、F1與校準(zhǔn)無(wú)關(guān)。2.10在聯(lián)邦學(xué)習(xí)橫向場(chǎng)景下,常用的安全聚合協(xié)議包括A.SecureAggregation?B.HomomorphicEncryption?C.DifferentialPrivacy?D.SMPC?E.TLS答案:ABD解析:DP用于隱私預(yù)算,TLS為傳輸層加密。3.填空題(每空2分,共20分)3.1在SparkSQL中,將一列字符串按逗號(hào)拆分為數(shù)組的函數(shù)為_(kāi)_______。答案:split3.2若某電商UV轉(zhuǎn)化率服從Beta(30,270),則其均值=________。答案:30/(30+270)=0.13.3在Pythonsklearn中,使用________類(lèi)可實(shí)現(xiàn)帶交叉驗(yàn)證的網(wǎng)格搜索。答案:GridSearchCV3.4在ClickHouse中,求去重后用戶數(shù)的聚合函數(shù)為_(kāi)_______。答案:uniqExact3.5若HDFS塊大小128MB,文件大小1GB,則存儲(chǔ)需________個(gè)塊。答案:83.6在TensorFlow中,設(shè)置隨機(jī)種子保證可重復(fù)性的全局API為_(kāi)_______。答案:tf.random.set_seed3.7若時(shí)間序列每日數(shù)據(jù)點(diǎn),采用seasonal_decompose的period=7,則分解出的分量名稱(chēng)為trend、seasonal、________。答案:residual3.8在PostgreSQL中,對(duì)數(shù)組字段查詢是否包含元素'x'的操作符為_(kāi)_______。答案:@>3.9在XGBoost中,控制葉子節(jié)點(diǎn)最小樣本數(shù)的參數(shù)為_(kāi)_______。答案:min_child_weight3.10若Flink作業(yè)并行度為8,任務(wù)槽slot=2,則所需TaskManagerCPU核數(shù)至少________。答案:164.簡(jiǎn)答題(封閉型,每題6分,共30分)4.1描述Spark廣播變量工作原理,并給出適用場(chǎng)景。答案:廣播變量將只讀數(shù)據(jù)集緩存在每個(gè)Executor內(nèi)存,避免多次網(wǎng)絡(luò)傳輸;適用于小表join大表、字典文件分發(fā)等場(chǎng)景。解析:通過(guò)BitTorrentlike協(xié)議分發(fā),減少shuffle。4.2寫(xiě)出使用Python計(jì)算幾何平均的代碼,要求輸入為pandasSeries且含零值處理。答案:importpandasaspd,numpyasnpdefgmean(s):s=s[s>0]returnd()(1/len(s))解析:剔除零與負(fù)值,避免對(duì)數(shù)域無(wú)效。4.3說(shuō)明ClickHouse的LSMTree合并機(jī)制如何影響寫(xiě)入吞吐量與查詢延遲。答案:數(shù)據(jù)先寫(xiě)內(nèi)存buffer,定期flush到磁盤(pán)parts,后臺(tái)合并parts;寫(xiě)入為順序追加,吞吐高;查詢需掃描多parts,延遲受parts數(shù)量影響,可通過(guò)optimize合并降低。4.4列舉三種降低深度學(xué)習(xí)模型GPU顯占用的方法。答案:混合精度訓(xùn)練、梯度累積、模型分片/流水線并行、checkpoint激活重計(jì)算、剪枝量化。4.5解釋為什么Kfold交叉驗(yàn)證在時(shí)序數(shù)據(jù)上可能產(chǎn)生數(shù)據(jù)泄漏,并給出改進(jìn)方案。答案:時(shí)序數(shù)據(jù)存在自相關(guān),隨機(jī)Kfold用未來(lái)預(yù)測(cè)過(guò)去,導(dǎo)致泄漏;應(yīng)采用滾動(dòng)窗口(TimeSeriesSplit),保證訓(xùn)練集時(shí)間早于驗(yàn)證集。5.應(yīng)用題(綜合類(lèi),共60分)5.1計(jì)算題(15分)某短視頻平臺(tái)日活1000萬(wàn),人均播放60條視頻,播放事件寫(xiě)入Kafka,單條消息0.8KB,副本因子2,保留7天,求所需磁盤(pán)空間(壓縮比1:4)。解答:日消息量=1×10^7×60=6×10^8條日原始體積=6×10^8×0.8KB=4.8×10^8KB=480GB壓縮后=480GB÷4=120GB7天總量=120GB×7=840GB含副本=840GB×2=1680GB≈1.68TB答案:約1.7TB。5.2分析題(15分)給出某電商大促期間服務(wù)器CPU利用率序列(單位%):[42,45,43,44,46,45,44,10,11,12,9,43,44,45]請(qǐng)用SHESD(SeasonalHybridESD)檢測(cè)異常點(diǎn),寫(xiě)出步驟與結(jié)論。解答:步驟1:提取周期=7,去季節(jié)項(xiàng)得residual;步驟2:用GESD檢驗(yàn)residual,α=0.05,最大異常數(shù)k=2;步驟3:計(jì)算Grubbs統(tǒng)計(jì)量,第8、9、10、11點(diǎn)超出臨界值;結(jié)論:8–11點(diǎn)為異常低谷,對(duì)應(yīng)凌晨低流量時(shí)段

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論