2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析_第1頁
2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析_第2頁
2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析_第3頁
2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析_第4頁
2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年大數(shù)據(jù)分析工程師職業(yè)技能考核試題及答案解析一、單項選擇題(每題1分,共20分。每題只有一個正確答案,錯選、多選均不得分)1.在Hadoop生態(tài)中,負責(zé)資源管理與任務(wù)調(diào)度的組件是A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的資源管理層,負責(zé)集群資源分配與任務(wù)調(diào)度。2.下列關(guān)于SparkRDD的描述,正確的是A.RDD支持細粒度原地修改??B.RDD依賴分為寬依賴與窄依賴C.RDD必須存儲在HDFS??D.RDD的partition數(shù)量不可變答案:B解析:RDD轉(zhuǎn)換算子根據(jù)父分區(qū)與子分區(qū)關(guān)系分為窄依賴(一對一)與寬依賴(多對多),這是Shuffle優(yōu)化的基礎(chǔ)。3.在Flink中,用于保證ExactlyOnce語義的機制是A.Checkpoint??B.Savepoint??C.Slot??D.TaskChain答案:A解析:分布式快照Checkpoint結(jié)合barrier對齊,可實現(xiàn)端到端ExactlyOnce。4.某電商表user_order(user_id,sku_id,order_time,price),計算用戶近30天GMV,SQL中應(yīng)使用的窗口函數(shù)是A.row_number??B.rank??C.sum(price)over(partitionbyuser_idorderbyorder_timerangebetween30precedingandcurrentrow)D.lag(price,30)答案:C解析:rangebetween30precedingandcurrentrow以時間維度開窗,精確累加近30天銷售額。5.使用Pythonpandas讀取10GBCSV時,內(nèi)存占用遠高于磁盤文件大小,最可能的原因是A.文件壓縮比高??B.CSV存儲了重復(fù)列名??C.字符串自動推斷為object且未使用categoryD.未關(guān)閉索引答案:C解析:objectdtype存儲指針,字符串去重率低時膨脹顯著;category可壓縮至整數(shù)編碼。6.在Kafka2.8之后,移除Zookeeper依賴的替代組件是A.KRaft??B.SchemaRegistry??C.KafkaConnect??D.KafkaStreams答案:A解析:KRaft(KafkaRaftMetadataMode)用內(nèi)置Raft元數(shù)據(jù)quorum替代外部ZK。7.某模型AUC=0.81,BrierScore=0.22,下列說法正確的是A.模型校準優(yōu)于AUC=0.85,Brier=0.30??B.AUC高則Brier一定低C.BrierScore越小校準越好??D.AUC與Brier無關(guān)答案:C解析:BrierScore綜合衡量校準與區(qū)分度,值越小越好;AUC僅衡量排序能力。8.在Hive中,將ORC表改為事務(wù)表需設(shè)置的表屬性為A.transactional=true??B.press=SNAPPY??C.bucketed=true??D.sorted=true答案:A解析:Hive3.x需顯式設(shè)置transactional=true并分桶,方可支持ACID行級更新。9.使用XGBoost時,控制過擬合的參數(shù)不包括A.max_depth??B.subsample??C.colsample_bytree??D.scale_pos_weight答案:D解析:scale_pos_weight用于類別不平衡,不直接約束模型復(fù)雜度。10.在Airflow中,任務(wù)實例狀態(tài)為upstream_failed的含義是A.自身代碼報錯??B.上游任務(wù)失敗導(dǎo)致本任務(wù)未調(diào)度C.被手動標記失敗??D.重試次數(shù)耗盡答案:B解析:上游失敗觸發(fā)本任務(wù)直接置為upstream_failed,不再執(zhí)行。11.關(guān)于數(shù)據(jù)湖Iceberg的隱藏分區(qū),下列說法正確的是A.需手動添加分區(qū)列??B.查詢時必須顯式帶分區(qū)過濾C.通過轉(zhuǎn)換函數(shù)自動生成分區(qū)值,對用戶透明??D.不支持時間分區(qū)答案:C解析:Iceberg支持通過year(ts)、bucket(id,16)等隱藏分區(qū),用戶按原始列查詢即可命中。12.在ClickHouse中,最適合高并發(fā)點查的表引擎是A.MergeTree??B.SummingMergeTree??C.ReplacingMergeTree??D.Memory答案:D解析:Memory引擎數(shù)據(jù)駐留內(nèi)存,支持高并發(fā)低延遲點查,但掉電丟失。13.使用ElasticsearchDSL實現(xiàn)"查詢標題含"Python"且狀態(tài)為已發(fā)布,按發(fā)布時間倒序取前20",下列寫法正確的是A.{"query":{"bool":{"must":[{"match":{"title":"Python"}},{"term":{"status":"published"}}]}},"sort":[{"publish_time":"desc"}],"size":20}B.{"query":{"match":{"title":"Python"}},"filter":{"term":{"status":"published"}}}C.{"query":{"term":{"title":"Python"}},"sort":[{"publish_time":"asc"}]}D.{"query":{"range":{"status":"published"}}}答案:A解析:boolmust組合match與term,sort指定倒序,size控制返回條數(shù)。14.在Tableau中,將度量轉(zhuǎn)為維度后,默認聚合方式變?yōu)锳.求和??B.計數(shù)(不同)??C.無聚合??D.平均值答案:C解析:維度字段不參與聚合,僅用于分組或切片。15.某時序數(shù)據(jù)每分鐘一條,使用Prophet預(yù)測時發(fā)現(xiàn)節(jié)假日效應(yīng)未體現(xiàn),應(yīng)優(yōu)先調(diào)整的參數(shù)為A.changepoint_prior_scale??B.holidays_prior_scale??C.seasonality_mode??D.interval_width答案:B解析:holidays_prior_scale控制節(jié)假日先驗強度,值越大效應(yīng)越顯著。16.在MySQL8.0中,對JSON列進行索引最有效的方式是A.Btree索引??B.全文索引??C.多值索引??D.空間索引答案:C解析:多值索引可在JSON數(shù)組元素上建索引,支持memberof查詢。17.使用Scikitlearn的Pipeline時,最后一步estimator必須實現(xiàn)的方法為A.transform??B.fit_transform??C.fit??D.predict答案:C解析:Pipeline先依次transform,最后一步只需fit方法即可訓(xùn)練。18.在數(shù)據(jù)治理元模型中,負責(zé)描述"數(shù)據(jù)從哪里來、到哪里去"的是A.血緣關(guān)系??B.主數(shù)據(jù)??C.數(shù)據(jù)標準??D.數(shù)據(jù)質(zhì)量規(guī)則答案:A解析:血緣(Lineage)追蹤數(shù)據(jù)流轉(zhuǎn)路徑。19.某集群日均新增100TB原始日志,保存90天,壓縮比1:5,采用3副本,則磁盤凈容量需求約為A.5400TB??B.1800TB??C.2700TB??D.900TB答案:A解析:100TB/天×90天×3副本÷5壓縮=5400TB。20.在AB實驗中發(fā)現(xiàn)實驗組顯著下降,但分群顯示新用戶提升、老用戶下降,最合理的下一步是A.立即全量實驗??B.關(guān)閉實驗??C.進行分層實驗或CUPED方差縮減??D.增加流量答案:C解析:用戶異質(zhì)性導(dǎo)致平均效應(yīng)失真,需分層或CUPED校正。二、多項選擇題(每題2分,共20分。每題至少有兩個正確答案,多選、漏選、錯選均不得分)21.下列屬于FlinkTimeCharacteristics的有A.ProcessingTime??B.IngestionTime??C.EventTime??D.WindowTime答案:ABC解析:Flink1.12之前提供三種時間語義,WindowTime并非獨立characteristic。22.關(guān)于Hive與SparkSQL執(zhí)行模式,正確的有A.HiveonSpark使用Spark作為執(zhí)行引擎??B.SparkSQL可讀取HivemetastoreC.HiveLLAP提供交互式查詢??D.SparkSQL不支持桶表答案:ABC解析:SparkSQL支持桶表,故D錯誤。23.下列Python代碼可正確實現(xiàn)DataFrame列缺失率統(tǒng)計的有A.df.isnull().mean()??B.df.isna().sum()/len(df)C.df.count()/len(df)??D.df.describe(include='all').loc['count']/len(df)答案:AB解析:C計算非缺失率,D的count不含缺失但需反向計算。24.使用Kettle進行ETL時,可用于增量抽取的組件有A.TableInput+變量替換時間戳??B.CDC(ChangeDataCapture)C.Insert/Update步驟??D.ModifiedJavaScriptValue答案:AB解析:C用于寫入,D可編程但非原生增量抽取。25.下列屬于NoSQL數(shù)據(jù)庫CAP理論中"分區(qū)容錯+可用"組合的有A.Cassandra??B.MongoDB默認配置??C.HBase??D.DynamoDB答案:AD解析:Cassandra與DynamoDB優(yōu)先保證AP,HBase優(yōu)先CP。26.在數(shù)據(jù)倉庫分層中,DWD層常見特點有A.明細數(shù)據(jù)??B.輕度匯總??C.維度退化??D.三范式建模答案:AC解析:DWD保持明細并做維度退化,輕度匯總屬DWS,三范式多見于ODS。27.關(guān)于LightGBM相對于XGBoost的優(yōu)化,正確的有A.直方圖算法降低內(nèi)存??B.按葉子生長策略??C.支持類別特征直接輸入??D.使用預(yù)排序答案:ABC解析:LightGBM放棄預(yù)排序,采用直方圖。28.下列指標可用于評估聚類效果的有A.SilhouetteCoefficient??B.CalinskiHarabaszIndexC.DaviesBouldinIndex??D.F1score答案:ABC解析:F1需真實標簽,聚類無監(jiān)督時常用內(nèi)部指標。29.在Linux中,可用來診斷磁盤IO瓶頸的命令有A.iostatx1??B.sard1??C.vmstat1??D.top答案:ABC解析:top查看CPU與內(nèi)存,IO需iostat/sar。30.下列做法可提高HiveSQL執(zhí)行效率的有A.使用ORC+SNAPPY??B.小文件合并??C.避免select??D.開啟vectorizedquery答案:ABCD解析:四項均為常見優(yōu)化手段。三、填空題(每空2分,共20分)31.在Spark中,默認的并行度參數(shù)為spark.default.parallelism,一般建議設(shè)置為________。答案:集群CPU核數(shù)×2~3倍解析:保證任務(wù)分片充足,避免資源等待。32.MySQL中,查看慢查詢是否開啟的命令是showvariableslike'________';答案:slow_query_log33.在Python中,使用pandas將category列轉(zhuǎn)為數(shù)值最節(jié)省內(nèi)存的方法為.astype('________')答案:category34.在Linux下,將文件file.csv按,分割并取第2列去重輸出到新文件的awk命令為awkF,'{print$2}'file.csv|________>out.txt答案:sort|uniq35.在Elasticsearch中,默認分片數(shù)為________,副本數(shù)為________。答案:5;136.在Tableau計算字段中,計算同比增長率的函數(shù)為(ZN(SUM([Sales]))LOOKUP(ZN(SUM([Sales])),________))/ABS(LOOKUP(ZN(SUM([Sales])),________))答案:12;12(假設(shè)按月分區(qū))37.在HDFS中,NameNode內(nèi)存消耗主要與________數(shù)量成正比。答案:塊(block)38.在Prophet中,設(shè)置年季節(jié)性為傅里葉階數(shù)10的參數(shù)為yearly_seasonality=________答案:1039.在Airflow的DAG文件中,設(shè)置任務(wù)并發(fā)池的參數(shù)為________=Pool('pool_name')答案:pool40.在ClickHouse中,創(chuàng)建分布式表需使用引擎________答案:Distributed四、簡答題(封閉型,每題6分,共30分)41.簡述Spark廣播變量實現(xiàn)原理及其使用場景。答案:廣播變量通過TorrentBroadcast將只讀數(shù)據(jù)分發(fā)到各Executor,BlockManager緩存避免多次網(wǎng)絡(luò)傳輸;適用于小表join、字典過濾等場景,可減少Shuffle與內(nèi)存占用。42.說明FlinkCheckpoint與Savepoint的區(qū)別。答案:Checkpoint由Flink自動觸發(fā),用于故障恢復(fù),生命周期隨作業(yè);Savepoint需手動觸發(fā),存儲位置獨立,可用于版本升級、遷移、A/B分支,數(shù)據(jù)結(jié)構(gòu)與Checkpoint兼容但元數(shù)據(jù)更豐富。43.寫出Hive中動態(tài)分區(qū)的兩個限制條件。答案:1.必須開啟nonstrict模式(sethive.exec.dynamic.partition.mode=nonstrict);2.至少一個靜態(tài)分區(qū)列在前。44.解釋數(shù)據(jù)傾斜在MapReduce中的產(chǎn)生原因,并給出兩種緩解方案。答案:原因:key分布不均導(dǎo)致某Reducer處理數(shù)據(jù)量遠大于其他。方案:1.兩階段聚合(加隨機前綴);2.使用Combiner局部聚合;3.自定義分區(qū)函數(shù)打散熱點key。45.列舉三種評估二分類模型校準度的可視化方法。答案:1.可靠性曲線(ReliabilityCurve);2.校準直方圖(CalibrationPlot);3.預(yù)測概率分桶后觀察正例占比與預(yù)測均值偏差。五、開放型簡答題(每題10分,共30分)46.某電商公司日活千萬,擬構(gòu)建實時用戶畫像系統(tǒng),請給出技術(shù)選型、數(shù)據(jù)流轉(zhuǎn)架構(gòu)及保證ExactlyOnce的關(guān)鍵措施。答案:技術(shù)選型:Kafka→Flink→Redis/ClickHouse→微服務(wù)。數(shù)據(jù)流轉(zhuǎn):客戶端埋點→Kafka→FlinkCEP識別行為→狀態(tài)存儲計算標簽→異步寫Redis(熱標簽)與ClickHouse(冷標簽)。ExactlyOnce:Kafka事務(wù)producer+Flink兩階段提交Sink+冪等Redislua腳本+ClickHouseReplacingMergeTree去重鍵。47.描述一次完整的數(shù)據(jù)治理落地流程,并說明如何量化治理效果。答案:流程:1.現(xiàn)狀調(diào)研(血緣、質(zhì)量、安全);2.制定標準(命名、元數(shù)據(jù)、質(zhì)量規(guī)則);3.工具落地(ApacheAtlas+Griffin+Ranger);4.培訓(xùn)與運營;5.持續(xù)監(jiān)控。量化:元數(shù)據(jù)覆蓋率≥95%、數(shù)據(jù)質(zhì)量評分提升30%、安全合規(guī)審計0違規(guī)、下游投訴下降50%。48.某模型離線AUC提升2%,但上線后業(yè)務(wù)指標下降,請給出排查思路與驗證方案。答案:排查:1.特征穿越檢查(時間泄露);2.樣本差異(離線近90天,線上實時分布漂移);3.延遲標簽導(dǎo)致負樣本未標記;4.特征工程在線離線不一致。驗證:1.回溯實驗(replay過去7天實時數(shù)據(jù));2.shadowmode對比預(yù)測分布;3.特征重要性監(jiān)控;4.采用CUPED減少方差再評估。六、應(yīng)用題(共60分)49.計算題(15分)某短視頻平臺采用AB實驗評估新推薦算法,指標為次留(次日留存)。實驗組樣本n1=2000000,留存x1=1540000;對照組n0=2000000,x0=1500000。(1)計算兩組留存率與絕對提升;(2)使用兩樣本Z檢驗判斷顯著性(α=0.05);(3)給出95%置信區(qū)間;(4)若每日新增400萬,估算一年提升留存用戶數(shù)。答案:(1)p1=1.54/2=0.77,p0=1.5/2=0.75,絕對提升Δ=2%。(2)合并方差SE=sqrt[p(1p)(1/n1+1/n0)],p=(x1+x0)/(n1+n0)=0.76,SE=0.000436,Z=Δ/SE=0.02/0.000436≈45.87>1.96,拒絕原假設(shè),顯著。(3)CI=Δ±1.96×SE=0.02±0.00085→[0.01915,0.02085]。(4)400萬×365×0.02≈292萬。50.分析題(15分)給定用戶行為表user_log(user_idstring,tsbigint,eventstring,pagestring),數(shù)據(jù)量500億行,存儲于ORC分區(qū)表,分區(qū)字段dt(天)。需計算"最近30天內(nèi),每天首次登錄且首次登錄后10分鐘內(nèi)發(fā)生搜索事件的用戶數(shù)"。請寫出完整SparkSQL(含臨時視圖、窗口函數(shù)、時間戳轉(zhuǎn)換),并說明性能優(yōu)化點。答案:sql轉(zhuǎn)換秒級時間戳為分鐘桶,減少shufflewithtmpas(selectuser_id,dt,min(from_unixtime(ts))asfirst_login_time,collect_list(struct(ts,event))asevtsfromuser_logwheredtbetweendate_sub(current_date,30)andcurrent_dateandeventin('login','search')groupbyuser_id,dt),search_in_10as(selectuser_id,dtfromtmpwheresize(filter(evts,x>x.event='search'andx.ts<=unix_timestamp(first_login_time)+600))>0)selectdt,count(distinctuser_id)asuvfromsearch_in_10groupbydtorderbydt;優(yōu)化:1.先按dt分區(qū)裁剪30天;2.列式讀取僅event,ts,user_id;3.桶表+sortedbyuser_id減少collect_list;4.調(diào)整spark.sql.adaptive.enabled=true自動優(yōu)化傾斜。51.綜合題(30分)某零售企業(yè)提供數(shù)據(jù):1.商品表item(item_id,cate,brand,price);2.銷售流水表sales(item_id,qty,amt,dt);3.庫存表stock(item_id,warehouse_id,stock_qty,dt)。需求:a.構(gòu)建數(shù)據(jù)倉庫總覽分層模型(給出每層的表名、字段、分區(qū)、主鍵);b.計算"近7天品類庫存周轉(zhuǎn)率"指標,定義:周轉(zhuǎn)率=銷售數(shù)量/平均庫存,平均庫存=(期初+期末)/2;c.使用Python+ClickHouse實現(xiàn)該指標每日自動更新,并可視化展示趨勢;d.說明如何監(jiān)控指標異常并自動告警。答案:a.分層模型ODS:ods_sales(item_id,qty,amt,dt,etl_time)分區(qū)dt;ods_stock(item_id,warehouse_id,stock_qty,dt,etl_time)分區(qū)dt;DIM:dim_item(item_id,cate,brand,price,start_dt,end_dt)分區(qū)end_dt;DWD:dwd_sales_di(item_id,cate,qty,amt,dt)分區(qū)dt,主鍵item_id+dt;dwd_stock_di(item_id,cate,stock_qty,dt)分區(qū)dt,按warehouse匯總;DWS:dws_item_cate_7d(cate,turnover_rate,stat_date)分區(qū)sta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論