2025年大數(shù)據(jù)分析工程師資格認證試卷及答案_第1頁
2025年大數(shù)據(jù)分析工程師資格認證試卷及答案_第2頁
2025年大數(shù)據(jù)分析工程師資格認證試卷及答案_第3頁
2025年大數(shù)據(jù)分析工程師資格認證試卷及答案_第4頁
2025年大數(shù)據(jù)分析工程師資格認證試卷及答案_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年大數(shù)據(jù)分析工程師資格認證試卷及答案一、單項選擇題(每題1分,共20分。每題只有一個正確答案,請將正確選項字母填入括號內(nèi))1.在HDFS中,NameNode的主要職責(zé)是()。A.存儲實際數(shù)據(jù)塊B.管理文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.執(zhí)行Reduce任務(wù)答案:B2.下列關(guān)于SparkRDD的描述,正確的是()。A.RDD支持細粒度原地修改B.RDD的容錯機制基于檢查點C.RDD的轉(zhuǎn)換操作是惰性求值D.RDD必須物化到磁盤才能被復(fù)用答案:C3.在Flink的時間語義中,EventTime的確定依賴于()。A.系統(tǒng)當(dāng)前時鐘B.數(shù)據(jù)元素中自帶的時間戳C.Source算子啟動時間D.Checkpoint完成時間答案:B4.若某電商訂單表order_info包含列order_id、user_id、order_time、amount,現(xiàn)需統(tǒng)計每日GMV,下列SQL最合理的是()。A.selectdate(order_time),sum(amount)fromorder_infogroupby1;B.selectorder_time,sum(amount)fromorder_info;C.selectorder_id,sum(amount)fromorder_infogroupbyorder_id;D.selectuser_id,sum(amount)fromorder_infowhereorder_time>='20250101';答案:A5.在Kafka2.8之后,移除Zookeeper依賴的替代組件是()。A.KRaftB.SchemaRegistryC.KafkaConnectD.KafkaStreams答案:A6.使用Hive創(chuàng)建外部表時,關(guān)鍵字是()。A.EXTERNALB.OUTSIDEC.FOREIGND.OUTER答案:A7.在Pythonpandas中,對DataFramedf按列col升序排序并返回新對象的正確寫法是()。A.df.sort('col')B.df.sort_values('col',inplace=True)C.df_sorted=df.sort_values('col')D.df.order('col')答案:C8.下列算法中,屬于聚類算法的是()。A.AprioriB.DBSCANC.XGBoostD.FPGrowth答案:B9.在A/B測試中,若顯著性水平α=0.05,則置信度為()。A.99%B.97.5%C.95%D.90%答案:C10.使用HBaserowkey設(shè)計時,為避免熱點應(yīng)優(yōu)先采用()。A.自增整型B.哈希前綴+時間戳C.純時間戳D.固定字符串答案:B11.在Airflow中,任務(wù)實例狀態(tài)為upstream_failed的含義是()。A.自身代碼拋異常B.上游任務(wù)失敗導(dǎo)致本任務(wù)未調(diào)度C.被手動標(biāo)記為失敗D.重試次數(shù)耗盡答案:B12.若某特征x的取值范圍為[0,120],采用MinMax縮放至[0,1],則原始值60縮放后為()。A.0.5B.0.25C.0.6D.0.75答案:A13.在ClickHouse中,最適合做高基數(shù)去重的聚合函數(shù)是()。A.uniqB.countDistinctC.uniqExactD.uniqCombined答案:D14.下列關(guān)于數(shù)據(jù)湖的說法,錯誤的是()。A.支持結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)B.強調(diào)SchemaonReadC.必須基于HDFS實現(xiàn)D.通常與對象存儲兼容答案:C15.在Python中,使用scikitlearn將類別變量轉(zhuǎn)為數(shù)值,應(yīng)首選()。A.LabelEncoderB.OneHotEncoderC.OrdinalEncoderD.StandardScaler答案:B16.若某決策樹最大深度為5,則其最多擁有葉子節(jié)點數(shù)為()。A.16B.31C.32D.64答案:C17.在TensorFlow2.x中,關(guān)閉eagerexecution的代碼是()。A.pat.v1.disable_eager_execution()B.tf.eager.exit()C.tf.function=FalseD.tf.disable_v2_behavior()答案:A18.使用Sqoop將MySQL數(shù)據(jù)導(dǎo)入Hive時,若目標(biāo)表不存在,需加參數(shù)()。A.createhivetableB.hiveimportC.hiveoverwriteD.hivepartitionkey答案:A19.在Prometheus的查詢語句中,計算過去5分鐘HTTP請求平均延遲的函數(shù)是()。A.rate(http_request_duration_seconds_sum[5m])B.increase(http_request_duration_seconds_count[5m])C.histogram_quantile(0.5,http_request_duration_seconds)D.avg_over_time(http_request_duration_seconds[5m])答案:D20.若某模型在訓(xùn)練集AUC=0.98,驗證集AUC=0.72,則最可能出現(xiàn)()。A.欠擬合B.過擬合C.數(shù)據(jù)泄露D.類別不平衡答案:B二、多項選擇題(每題2分,共20分。每題有兩個或兩個以上正確答案,多選、少選、錯選均不得分)21.下列屬于Flinkexactlyonce保障機制依賴的組件有()。A.CheckpointB.StateBackendC.BarrierD.Kafka事務(wù)答案:ABCD22.關(guān)于Hive與SparkSQL的比較,正確的有()。A.Hive默認執(zhí)行引擎為MapReduceB.SparkSQL支持向量化讀取ORCC.Hive支持動態(tài)分區(qū)裁剪D.SparkSQL不支持UDF答案:ABC23.下列Python代碼可正確實現(xiàn)DataFrame列歸一化的有()。A.df['x']=(df['x']df['x'].mean())/df['x'].std()B.df['x']=df['x']/df['x'].max()C.df['x']=(df['x']df['x'].min())/(df['x'].max()df['x'].min())D.df['x']=sklearn.preprocessing.scale(df['x'])答案:ACD24.在Kafka中,提高消費者吞吐量的調(diào)優(yōu)手段有()。A.增大fetch.min.bytesB.增大max.poll.recordsC.增大session.timeout.msD.使用批量提交答案:ABD25.下列屬于NoSQL數(shù)據(jù)庫CAP權(quán)衡中放棄一致性(C)的系統(tǒng)有()。A.CassandraB.MongoDB默認配置C.HBaseD.DynamoDB最終讀答案:AD26.關(guān)于數(shù)據(jù)倉庫分層,描述正確的有()。A.ODS層保存原始數(shù)據(jù)B.DWD層進行維度退化C.DWS層面向主題匯總D.ADS層直接供報表查詢答案:ABCD27.下列屬于特征選擇過濾法的有()。A.方差選擇B.卡方檢驗C.遞歸特征消除D.互信息答案:ABD28.在AirflowDAG中,可觸發(fā)下游任務(wù)重試的參數(shù)有()。A.retriesB.retry_delayC.retry_exponential_backoffD.max_active_runs答案:ABC29.下列關(guān)于ClickHouseMergeTree引擎的說法,正確的有()。A.按主鍵排序存儲B.支持數(shù)據(jù)分區(qū)C.支持副本機制需借助ReplicatedMergeTreeD.支持更新刪除使用ALTERUPDATE答案:ABCD30.下列屬于實時數(shù)倉常見Lambda架構(gòu)缺點有()。A.維護兩套代碼B.重新計算成本高C.時效性低D.存儲冗余答案:ABD三、填空題(每空1分,共20分)31.在Linux中,查看當(dāng)前目錄磁盤使用情況的命令是dush.。32.HDFS默認塊大小為128MB。33.Spark中,設(shè)置任務(wù)并行度參數(shù)為spark.sql.shuffle.partitions。34.MySQL中,查看慢查詢?nèi)罩臼欠耖_啟的變量名是slow_query_log。35.Flink的窗口算子中,滾動時間窗口的函數(shù)名為Tumble。36.在Python中,使用pandas讀取parquet格式文件應(yīng)調(diào)用函數(shù)read_parquet。37.若某特征服從標(biāo)準正態(tài)分布,則其偏度為0。38.在機器學(xué)習(xí)評價指標(biāo)中,F(xiàn)1score的取值范圍是[0,1]。39.Kafka的每個分區(qū)副本集合中,負責(zé)讀寫請求的副本稱為leader。40.在Hive中,將字符串轉(zhuǎn)為時間戳的函數(shù)是unix_timestamp。41.若決策樹使用基尼系數(shù)作為劃分標(biāo)準,則基尼系數(shù)越小表示節(jié)點純度越高。42.在Airflow中,任務(wù)之間通過set_upstream或set_downstream方法建立依賴。43.使用scikitlearn進行交叉驗證的函數(shù)名是cross_val_score。44.在Prometheus中,標(biāo)簽名必須滿足正則表達式[azAZ_][azAZ09_]。45.若某SQL執(zhí)行計劃出現(xiàn)SeqScan,則優(yōu)化方向是添加索引。46.在HBase中,刪除數(shù)據(jù)實際上寫入了一條墓碑標(biāo)記。47.數(shù)據(jù)治理元數(shù)據(jù)三維包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)與操作元數(shù)據(jù)。48.在TensorFlow中,模型保存為SavedModel格式使用的API是tf.saved_model.save。49.若某A/B實驗樣本量計算中,檢驗效能1β=0.8,則β=0.2。50.在ClickHouse中,查看建表語句的系統(tǒng)表是system.tables。四、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)51.SparkStreaming的延遲級別默認在秒級,而Flink可做到毫秒級?!?2.Hive支持事務(wù)的表必須存儲在ORC格式且開啟表屬性transactional=true?!?3.在Kafka中,consumergroup.id相同則消息會被重復(fù)消費?!?4.XGBoost的目標(biāo)函數(shù)只包含損失函數(shù),不含正則項。×55.在Linux中,命令lsof可查看端口占用情況?!?6.數(shù)據(jù)倉庫維度建模中,雪花模型比星型模型查詢性能更高。×57.使用pandas的merge函數(shù)時,how='outer'表示全外連接?!?8.在FlinkCEP中,模式序列后加.oneOrMore表示貪婪匹配?!?9.對類別不平衡數(shù)據(jù)集,僅使用準確率評估模型效果會失真?!?0.在HDFS中,DataNode與NameNode通過RPC心跳機制通信,默認間隔為1小時?!廖?、簡答題(共30分)61.(封閉型,6分)簡述MapReduce中Shuffle階段的具體流程,并指出其對性能的影響因素。答案:Shuffle階段包括Map端溢寫、分區(qū)、排序、合并、拉取、Reduce端歸并排序。影響因素:1.Map端緩沖區(qū)大??;2.磁盤IO速度;3.網(wǎng)絡(luò)帶寬;4.分區(qū)數(shù);5.合并策略;6.數(shù)據(jù)傾斜。62.(開放型,6分)某電商公司“秒殺”場景下,訂單表每秒寫入10萬條,需實時統(tǒng)計當(dāng)前庫存,請給出技術(shù)選型與理由。答案:選用Flink+Redis+MySQL。Flink提供毫秒級延遲與exactlyonce;Redis存放庫存緩存,利用INCR原子操作扣減;MySQL做最終一致性庫存落盤,通過binlog反饋給Flink做校驗補償。理由:高吞吐、低延遲、支持事件時間、可容錯。63.(封閉型,6分)描述Hive動態(tài)分區(qū)插入數(shù)據(jù)時產(chǎn)生大量小文件的原因,并給出兩種以上優(yōu)化方案。答案:原因:每行數(shù)據(jù)即觸發(fā)一次分區(qū)寫入,導(dǎo)致文件數(shù)=分區(qū)數(shù)×mapper數(shù)。優(yōu)化:1.啟用hive.merge.mapfiles=true,任務(wù)末合并;2.在插入前按分區(qū)字段distributeby+clusterby,減少mapper數(shù);3.啟用hive.optimize.sort.dynamic.partition=true,使單reducer寫單分區(qū);4.調(diào)大hive.exec.reducers.bytes.per.reducer,降低reducer數(shù)。64.(開放型,6分)給定用戶行為日志,字段:uid,event_time,event_type,page。需識別用戶連續(xù)30分鐘內(nèi)瀏覽頁面超過10次且未下單(event_type=order)的“瀏覽流失”人群,請寫出FlinkSQL實現(xiàn)思路。答案:1.定義source表接入kafka;2.使用TUMBLE窗口,size=30分鐘;3.過濾event_type=page;4.按uid窗口聚合統(tǒng)計page次數(shù);5.使用LEFTJOIN同窗口內(nèi)event_type=order的子查詢,若order次數(shù)為0則保留;6.將結(jié)果寫入sink表供下游營銷系統(tǒng)。65.(封閉型,6分)解釋ClickHouse的“稀疏索引”機制,并說明如何設(shè)計roworder以提升范圍查詢性能。答案:ClickHouse每8192行形成1個granule,只存儲首行主鍵值作為稀疏索引。查詢時通過索引確定granule范圍,再順序掃描。設(shè)計roworder應(yīng)將范圍查詢字段置于主鍵最左,保證單調(diào)性,避免高基數(shù)隨機列打頭,減少granule掃描量。六、計算與分析題(共30分)66.(計算類,10分)某模型預(yù)測用戶是否下單,測試集10000條,其中正樣本1000。模型預(yù)測結(jié)果:TP=800,F(xiàn)P=200,F(xiàn)N=200,TN=8600。計算精確率、召回率、F1score、AUC近似值(提示:TPR=召回,F(xiàn)PR=FP/(FP+TN))。答案:精確率P=TP/(TP+FP)=800/1000=0.8召回率R=TP/(TP+FN)=800/1000=0.8F1=2PR/(P+R)=2×0.8×0.8/1.6=0.8TPR=0.8,F(xiàn)PR=200/8800≈0.0227AUC近似=0.5+(TPRFPR)/2=0.5+0.7773/2≈0.888767.(分析類,10分)給定用戶日活躍表dau(dt,uid,os,province,active_time)。發(fā)現(xiàn)近7天每日UV環(huán)比下跌5%,請寫出逐步排查的SQL與可視化思路。答案:1.計算分日UV:selectdt,count(distinctuid)uvfromdauwheredtbetween'20250601'and'20250607'groupbydtorderbydt;2.計算環(huán)比:selectdt,uv,lag(uv)over(orderbydt)prev,(uvlag(uv)over(orderbydt))/lag(uv)over(orderbydt)ratio;3.下鉆維度:按os、province分組,計算各維度環(huán)比,定位下跌集中維度;4.繪制折線圖:x=dt,y=uv,疊加維度拆分顏色;5.若某省下跌顯著,再按城市、版本細分,結(jié)合外部事件(天氣、競品活動)歸因。68.(綜合類,10分)某物流公司需預(yù)測未來7天每日貨量,歷史365天每日貨量數(shù)據(jù),含節(jié)假日、促銷、天氣字段。請給出完整建模方案,包括特征工程、模型選擇、評估指標(biāo)、上線部署。答案:特征工程:1.日期特征(星期、節(jié)假日、月初月末、年假前后);2.滯后特征(滯后1~30天貨量、滑動7天均值、滑動標(biāo)準差);3.滾動節(jié)假日窗口促銷標(biāo)記;4.天氣(溫度、降水、風(fēng)速)按城市加權(quán)平均;5.外部經(jīng)濟指標(biāo)(電商GMV同比)。模型選擇:Prophet基線+LightGBM融合,Prophet捕獲節(jié)假日與趨勢,LightGBM捕獲高維非線性;stacking第二層用線性回歸加權(quán)。評估:滾動窗口時間序列交叉驗證,指標(biāo)sMAPE、MAE、MAPE,要求sMAPE<8%。部署:1.每日凌晨00:30Airflow調(diào)度;2.訓(xùn)練節(jié)點使用GPU服務(wù)器,預(yù)測節(jié)點CPU容器;3.模型保存為pickle+pmml雙格式;4.預(yù)測結(jié)果寫入Redis隊列,供下游排班系統(tǒng)調(diào)用;5.監(jiān)控實際貨量與預(yù)測偏差>10%觸發(fā)告警,自動重訓(xùn)。七、編程與SQL題(共30分)69.(Python,10分)編寫函數(shù)fill_null_with_mode,對pandasDataFrame所有類別列缺失值用眾數(shù)填充,返回新DataFrame,要求原地不修改。答案:importpandasaspddeffill_null_with_mode(df):df_new=df.copy()cat_cols=df_new.select_dtypes(include=['object','category']).columnsforcolincat_cols:mode_val=df_new[col].mode().iloc[0]ifnotdf_new[col].mode().emptyelseNonedf_new[col]=df_new[col].fillna(mode_val)returndf_new70.(SQL,10分)訂單表order_info(order_id,user_id,product_id,qty,price,order_time),求每個用戶最近三筆訂單的每單購買件數(shù)(qty)列表,按訂單時間倒序,結(jié)果字段:user_id,qty_list。答案:withrnkas(selectuser_id,qty,row_number()over(partitionbyuser_idorderbyorder_timedesc)rnfromorder_info)selectuser_id,group_concat(qtyorderbyrnseparator',')qty_listfromrnkwherern<=3groupbyuser_id;71.(HQL,10分)用戶登錄日志表login_log(uid,login_time),計算20250601至20250607連續(xù)登錄3天及以上的用戶列表,輸出uid、起始日期、連續(xù)天數(shù)。答案:withtmpas(selectuid,login_time,date_sub(login_time,row_number()over(partitionbyuidorderbylogin_time))grpfromlogin_logwherelogin_timebetween'20250601'and'20250607'),aggas(selectuid,grp,min(login_time)start_date,count(1)daysfromtmpgroupbyuid,grp)selectuid,start_date,daysfromaggwheredays>=3orderbyuid,start_date;八、綜合設(shè)計題(共40分)72.背景:某視頻平臺日均上傳量200TB,原始視頻需轉(zhuǎn)碼為480P、720P、1080P、4K四檔,轉(zhuǎn)碼后總量為原始3倍。要求:1.支持水平擴展;2.轉(zhuǎn)碼任務(wù)優(yōu)先級按會員>普通>游客;3.失敗任務(wù)需重試3次;4.實時查看隊列長度;5.成本可控。請設(shè)計一套基于大數(shù)據(jù)架構(gòu)的轉(zhuǎn)碼調(diào)度系統(tǒng),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論