版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年大數(shù)據(jù)分析師職業(yè)能力考試試卷及答案1.單項(xiàng)選擇題(每題1分,共20分)1.1在Hadoop3.x版本中,默認(rèn)的塊大小為A.32MBB.64MBC.128MBD.256MB答案:C1.2下列關(guān)于數(shù)據(jù)湖描述正確的是A.僅支持結(jié)構(gòu)化數(shù)據(jù)B.強(qiáng)制預(yù)定義模式C.存儲(chǔ)原始數(shù)據(jù)D.不支持批流一體答案:C1.3使用SparkSQL時(shí),下列函數(shù)用于將字符串轉(zhuǎn)為時(shí)間戳的是A.to_dateB.unix_timestampC.from_unixtimeD.date_format答案:B1.4在Pythonpandas中,對(duì)DataFramedf按列col升序排序并返回新對(duì)象的語(yǔ)句是A.df.sort('col')B.df.sort_values('col')C.df.order('col')D.df.rank('col')答案:B1.5若隨機(jī)變量X服從參數(shù)為λ的泊松分布,則Var(X)等于A.λ2B.λC.1/λD.sqrt(λ)答案:B1.6在Hive中,用于分桶的關(guān)鍵字是A.DISTRIBUTEBYB.CLUSTERBYC.SORTBYD.PARTITIONBY答案:B1.7下列算法中,屬于集成學(xué)習(xí)Bagging思想的是A.AdaBoostB.XGBoostC.RandomForestD.LightGBM答案:C1.8在MySQL8.0中,開(kāi)啟GTID復(fù)制的參數(shù)是A.binlog_format=ROWB.gtid_mode=ONC.log_slave_updates=1D.enforce_gtid_consistency=OFF答案:B1.9使用Kettle(PentahoDataIntegration)時(shí),用于捕獲變更數(shù)據(jù)的步驟是A.TableInputB.MergeJoinC.CDCD.StreamLookup答案:C1.10在Tableau中,將維度字段轉(zhuǎn)換為連續(xù)度量應(yīng)使用的功能是A.分組B.數(shù)據(jù)桶C.轉(zhuǎn)換為度量D.快速表計(jì)算答案:C1.11若邏輯回歸模型輸出概率為0.8,則對(duì)應(yīng)的對(duì)數(shù)幾率(logit)為A.0.8B.1.25C.ln(0.8)D.ln(0.8/0.2)答案:D1.12在Flink中,窗口分配器TumblingEventTimeWindows.of(Time.seconds(10))表示A.滑動(dòng)窗口,滑動(dòng)步長(zhǎng)10sB.滾動(dòng)窗口,長(zhǎng)度10sC.會(huì)話窗口,超時(shí)10sD.計(jì)數(shù)窗口,長(zhǎng)度10條答案:B1.13下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)星型模型描述錯(cuò)誤的是A.事實(shí)表包含外鍵B.維度表已規(guī)范化到3NFC.查詢性能較好D.易于業(yè)務(wù)理解答案:B1.14使用Pythonscikitlearn進(jìn)行標(biāo)準(zhǔn)化時(shí),類(lèi)StandardScaler的fit_transform返回值均值為A.0B.1C.樣本均值D.樣本標(biāo)準(zhǔn)差答案:A1.15在Linux中,查看當(dāng)前目錄各子目錄磁盤(pán)占用大小的命令是A.dushB.dfhC.lslhD.top答案:A1.16若兩條記錄Jaccard相似度為0.25,則其Jaccard距離為A.0.5B.0.75C.0.25D.1答案:B1.17在PCA降維中,主成分方向由下列哪一項(xiàng)決定A.協(xié)方差矩陣特征向量B.協(xié)方差矩陣特征值C.相關(guān)系數(shù)D.奇異值右向量答案:A1.18使用Elasticsearch7.x創(chuàng)建索引時(shí),默認(rèn)主分片數(shù)為A.1B.3C.5D.7答案:C1.19下列關(guān)于數(shù)據(jù)血緣說(shuō)法正確的是A.僅記錄表級(jí)依賴B.無(wú)法追溯字段轉(zhuǎn)換C.可用于影響分析D.與元數(shù)據(jù)無(wú)關(guān)答案:C1.20在Python中,使用matplotlib將x軸刻度旋轉(zhuǎn)45度的語(yǔ)句是A.plt.xlim(45)B.plt.xticks(rotation=45)C.plt.xlabel(45)D.plt.xscale(45)答案:B2.多項(xiàng)選擇題(每題2分,共20分;每題至少有兩個(gè)正確答案,多選少選均不得分)2.1下列屬于HDFS核心守護(hù)進(jìn)程的是A.NameNodeB.DataNodeC.ResourceManagerD.NodeManager答案:AB2.2關(guān)于數(shù)據(jù)傾斜,常用優(yōu)化手段包括A.兩階段聚合B.增加reduce并行度C.使用隨機(jī)前綴D.禁用壓縮答案:ABC2.3在Spark中,會(huì)導(dǎo)致Shuffle的操作有A.reduceByKeyB.groupByKeyC.mapD.distinct答案:ABD2.4下列屬于時(shí)間序列預(yù)測(cè)評(píng)價(jià)指標(biāo)的是A.MAPEB.RMSEC.AUCD.SMAPE答案:ABD2.5下列Python庫(kù)可用于深度學(xué)習(xí)的是A.TensorFlowB.PyTorchC.KerasD.LightGBM答案:ABC2.6在Kafka中,保證消息順序需滿足A.單分區(qū)B.單消費(fèi)者組內(nèi)單線程C.指定keyD.設(shè)置acks=all答案:ABC2.7下列屬于NoSQL數(shù)據(jù)庫(kù)的是A.MongoDBB.HBaseC.Neo4jD.Oracle答案:ABC2.8關(guān)于A/B測(cè)試,描述正確的有A.需隨機(jī)分組B.需控制變量C.可無(wú)限增大樣本量提高顯著性D.需預(yù)先計(jì)算最小樣本量答案:ABD2.9在數(shù)據(jù)治理中,屬于數(shù)據(jù)質(zhì)量維度的是A.準(zhǔn)確性B.完整性C.一致性D.及時(shí)性答案:ABCD2.10下列屬于特征選擇過(guò)濾法的是A.方差選擇B.卡方檢驗(yàn)C.遞歸特征消除D.互信息答案:ABD3.填空題(每空2分,共20分)3.1在Hive中,將查詢結(jié)果保存為ORC格式并采用SNAPPY壓縮的語(yǔ)句為:insertoverwritetablet_orcselectfromsourcestoredas________tblproperties("press"="________");答案:ORC,SNAPPY3.2若某電商訂單表字段order_date為字符串'2025060114:23:00',在MySQL中將其轉(zhuǎn)為日期類(lèi)型應(yīng)使用函數(shù)________。答案:str_to_date3.3在Pythonnumpy中,生成形狀為(3,4)且元素服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)組的語(yǔ)句為:np.random.________((3,4))。答案:randn3.4在FlinkCEP中,定義連續(xù)事件模式next后跟________關(guān)鍵字表示嚴(yán)格連續(xù)。答案:where3.5若邏輯回歸系數(shù)β0=2,β1=0.5,則當(dāng)x=6時(shí),預(yù)測(cè)概率為1/(1+exp((2+0.56)))=________(保留兩位小數(shù))。答案:0.733.6在Linux中,將本地文件data.csv上傳至HDFS目錄/user/hive/warehouse的指令為:hdfsdfs________data.csv/user/hive/warehouse。答案:put3.7使用Elasticsearch進(jìn)行聚合,計(jì)算price字段平均值的聚合類(lèi)型為_(kāi)_______。答案:avg3.8在Tableau中,將多個(gè)工作表合并交互展示的功能稱為_(kāi)_______。答案:儀表板3.9在數(shù)據(jù)倉(cāng)庫(kù)中,緩慢變化維類(lèi)型________通過(guò)增加新行保留歷史。答案:23.10在Pythonpandas中,刪除DataFramedf缺失值比例大于30%的列的語(yǔ)句為:df=df.loc[:,df.isnull().mean()________0.3]。答案:<4.判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)4.1在Hadoop2.x中,ResourceManager負(fù)責(zé)管理集群資源分配。答案:√4.2SparkStreaming的微批間隔越短,延遲一定越低且吞吐不受影響。答案:×4.3在Kmeans算法中,k值可通過(guò)手肘法(ElbowMethod)估計(jì)。答案:√4.4數(shù)據(jù)倉(cāng)庫(kù)分層中,DWD層通常保持與源系統(tǒng)相同的粒度。答案:√4.5XGBoost不支持類(lèi)別型特征直接輸入,必須獨(dú)熱編碼。答案:×4.6在MySQL中,InnoDB存儲(chǔ)引擎支持全文索引。答案:√4.7使用Python的pickle序列化模型文件比joblib更安全且跨平臺(tái)。答案:×4.8在Kafka中,消費(fèi)者偏移量只能保存在Zookeeper。答案:×4.9數(shù)據(jù)可視化中,使用雙y軸一定可以提高信息密度而不會(huì)引起誤導(dǎo)。答案:×4.10在Hive中,分區(qū)字段可以作為表的真實(shí)列參與計(jì)算。答案:√5.簡(jiǎn)答題(共30分)5.1(封閉型,6分)列舉Spark作業(yè)提交流程的四個(gè)主要階段,并指出其中觸發(fā)Shuffle的階段名稱。答案:1.邏輯計(jì)劃生成;2.物理計(jì)劃生成;3.任務(wù)調(diào)度與分區(qū);4.任務(wù)執(zhí)行與結(jié)果回收。其中階段3包含Shuffle階段,稱為ShuffleMapStage。5.2(開(kāi)放型,8分)某短視頻平臺(tái)日活2000萬(wàn),用戶每次刷新推薦頁(yè)平均曝光10條視頻,后臺(tái)日志包含user_id、video_id、expose_time、play_duration。請(qǐng)?jiān)O(shè)計(jì)一套離線特征工程方案,用于訓(xùn)練預(yù)測(cè)“用戶是否完播”的二分類(lèi)模型,需說(shuō)明特征類(lèi)別、抽取窗口、存儲(chǔ)格式與計(jì)算引擎。答案:特征類(lèi)別:1.用戶側(cè):近1/3/7天完播率、曝光次數(shù)、平均播放時(shí)長(zhǎng)、關(guān)注數(shù)、粉絲數(shù);2.視頻側(cè):歷史完播率、點(diǎn)贊率、評(píng)論率、發(fā)布時(shí)間、時(shí)長(zhǎng)、標(biāo)簽embedding;3.交叉?zhèn)龋河脩魧?duì)該作者歷史完播率、用戶對(duì)同類(lèi)標(biāo)簽完播率;4.上下文側(cè):曝光時(shí)段、刷新次數(shù)、網(wǎng)絡(luò)類(lèi)型。抽取窗口:滾動(dòng)窗口T1至T7,使用SparkSQL按user_id、video_id聚合;存儲(chǔ)格式:Parquet分區(qū)按dt,壓縮SNAPPY;計(jì)算引擎:SparkonYARN,每日02:00調(diào)度,耗時(shí)約40min。5.3(封閉型,6分)寫(xiě)出HBaseRowKey設(shè)計(jì)的三項(xiàng)原則,并說(shuō)明如何避免熱點(diǎn)。答案:原則:1.唯一性;2.散列性;3.長(zhǎng)度短。避免熱點(diǎn):反轉(zhuǎn)時(shí)間戳+哈希前綴,或采用salting,將連續(xù)user_id打散到不同Region。5.4(開(kāi)放型,10分)某零售集團(tuán)擁有線上商城、線下門(mén)店、會(huì)員APP三渠道數(shù)據(jù),需構(gòu)建統(tǒng)一會(huì)員ID的CDP(CustomerDataPlatform)。請(qǐng)給出解決IDMapping的完整技術(shù)路線,包括數(shù)據(jù)源、關(guān)鍵字段、算法選擇、評(píng)估指標(biāo)、上線后監(jiān)控。答案:數(shù)據(jù)源:訂單手機(jī)號(hào)、微信open_id、設(shè)備id、郵箱、身份證號(hào)、線下POS卡號(hào)。關(guān)鍵字段:手機(jī)號(hào)、email、idfa、imei、openid、unionid、member_card。算法:1.基于規(guī)則強(qiáng)關(guān)聯(lián)(手機(jī)號(hào)+身份證>0.9置信度直接合并);2.圖算法ConnectedComponents,邊權(quán)重使用Jaccard相似度;3.機(jī)器學(xué)習(xí):RandomForest二分類(lèi)判斷兩條記錄是否同一人,特征包括手機(jī)號(hào)前綴、郵箱域、收貨地址相似度、設(shè)備型號(hào)、消費(fèi)時(shí)間差。評(píng)估:抽樣1萬(wàn)對(duì)人工標(biāo)注,Precision≥98%,Recall≥95%。監(jiān)控:每日新增頂點(diǎn)10萬(wàn)+,邊500萬(wàn)+,圖連通度、孤立簇占比、異常簇(大小>50)報(bào)警;每周回溯7天重新計(jì)算,版本對(duì)比差異率<0.5%。6.應(yīng)用題(共60分)6.1計(jì)算題(15分)某電商大促期間,商品SKU的日銷(xiāo)量服從泊松分布,歷史平均λ=16件/天。倉(cāng)庫(kù)按銷(xiāo)量備貨,若要求缺貨概率<5%,請(qǐng)用正態(tài)近似計(jì)算當(dāng)日最低備貨量q(向上取整)。提示:泊松足夠大時(shí)近似N(λ,λ),z0.95=1.645。解:μ=16,σ=sqrt(16)=4,q≥μ+zσ=16+1.6454=22.58,取整得23。答案:23件6.2分析題(15分)給定用戶行為表user_act(user_idstring,act_timestring,act_typestring,video_idstring),記錄曝光、播放、點(diǎn)贊三種行為。請(qǐng)用HiveSQL統(tǒng)計(jì)近7天每個(gè)視頻的有效播放率(播放行為/曝光行為),并過(guò)濾曝光次數(shù)<100的視頻,結(jié)果含video_id、expose_cnt、play_cnt、play_rate,要求play_rate保留4位小數(shù)。答案:selectvideo_id,sum(if(act_type='expose',1,0))asexpose_cnt,sum(if(act_type='play',1,0))asplay_cnt,round(sum(if(act_type='play',1,0))/sum(if(act_type='expose',1,0)),4)asplay_ratefromuser_actwheredtbetweendate_sub(current_date,7)andcurrent_dategroupbyvideo_idhavingexpose_cnt>=100;6.3綜合題(30分)背景:某市交通管理局提供2024年全年出租車(chē)GPS數(shù)據(jù),表結(jié)構(gòu)gps_taxi(driver_idstring,latdouble,londouble,speeddouble,directionint,gps_timestring,statusint),數(shù)據(jù)量約12TB,已按dt分區(qū)存儲(chǔ)于Hive。任務(wù):1.建立隨機(jī)森林模型預(yù)測(cè)某司機(jī)在下一GPS點(diǎn)是否出現(xiàn)急剎車(chē)(speed下降>8m/s且direction變化>30°視為急剎車(chē));2.評(píng)估模型并給出特征重要性Top10;3.輸出預(yù)測(cè)結(jié)果至HBase供實(shí)時(shí)預(yù)警系統(tǒng)查詢。要求:a)給出完整數(shù)據(jù)預(yù)處理、特征抽取、樣本構(gòu)造、模型訓(xùn)練、評(píng)估、存儲(chǔ)的PySpark代碼與關(guān)鍵參數(shù);b)說(shuō)明如何防止類(lèi)別不平衡;c)給出HBase表設(shè)計(jì)、RowKey、列族、TTL;d)計(jì)算每日增量數(shù)據(jù)量并給出集群資源規(guī)劃建議。答案:a)代碼框架:frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportfrompyspark.ml.featureimportVectorAssembler,StringIndexerfrompyspark.ml.classificationimportRandomForestClassifierfrompyspark.ml.evaluationimportBinaryClassificationEvaluatorfrompyspark.ml.pipelineimportPipelinespark=SparkSession.builder.appName("taxi_brake").enableHiveSupport().getOrCreate()df=spark.sql("selectfromgps_taxiwheredtbetween'20240101'and'20241231'")win=Window.partitionBy("driver_id").orderBy("gps_time")df=df.withColumn("next_speed",lead("speed",1).over(win))\.withColumn("next_dir",lead("direction",1).over(win))\.withColumn("label",when((col("speed")col("next_speed")>8)&(abs(col("direction")col("next_dir"))>30),1).otherwise(0))df=df.filter(col("next_speed").isNotNull())df=df.withColumn("hour",hour("gps_time"))\.withColumn("weekday",dayofweek("gps_time"))\.withColumn("lat_grid",(col("lat")100).cast("int"))\.withColumn("lon_grid",(col("lon")100).cast("int"))cols=["speed","direction","hour","weekday","lat_grid","lon_grid"]assembler=VectorAssembler(inputCols=cols,outputCol="features")rf=RandomForestClassifier(featuresCol="features",labelCol="label",numTrees=300,maxDepth=10,minInstancesPerNode=20,classWeight={0:1.0,1:15.0},seed=42)pipeline=Pipeline(stages=[assembler,rf])train,test=df.randomSplit([0.8,0.2],seed=123)model=pipeline.fit(train)pred=model.transform(test)auc=BinaryClassificationEvaluator().evaluate(pred)print("AUC=",auc)model.stages[1].featureImportancesb)不平衡處理:采用classWeight將正樣本權(quán)重設(shè)為15倍,同時(shí)用下采樣負(fù)樣本至1:3比例再訓(xùn)練對(duì)比。c)HBase表:taxi:brake_predictRowKey:driver_id+""+gps_time(分鐘級(jí))列族:p,列:predict(0/1),prob,ttl=7天d)每日新增約35GB,保留7天共250GB。建議:HBaseRegion預(yù)分128個(gè),壓縮SNAPPY,MemStore128MB,BlockCache20%;Sparkexecutor4core14GB,動(dòng)態(tài)分配,最大200executor,隊(duì)列占集群30%。7.設(shè)計(jì)題(共40分)7.1(20分)設(shè)計(jì)一套基于Lambda架構(gòu)的實(shí)時(shí)+離線數(shù)據(jù)平臺(tái),支持每秒10萬(wàn)條訂單事件,提供分鐘級(jí)GMV、訂單量、庫(kù)存預(yù)警三類(lèi)指標(biāo)。請(qǐng)給出:1.整體架構(gòu)圖(文字描述);2.各層技術(shù)選型與理由;
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年四川省巴中市中考地理真題卷含答案解析
- 高壓旋噴樁施工方案
- 測(cè)繪設(shè)計(jì)院工作總結(jié)及工作計(jì)劃
- 2025年安全培訓(xùn)考試題含完整答案
- 2025年食源性試卷及答案
- 石油天然氣司鉆作業(yè)題庫(kù)及答案
- 2025年電力行業(yè)配電箱線路絕緣電阻檢測(cè)標(biāo)準(zhǔn)培訓(xùn)試卷及答案
- 巖棉保溫板外墻外保溫專(zhuān)項(xiàng)施工方案
- 2025年臨床合理用藥培訓(xùn)試題及答案
- 求職面試技巧應(yīng)屆博士生
- 有子女離婚協(xié)議書(shū)
- 2026四川省引大濟(jì)岷水資源開(kāi)發(fā)限公司公開(kāi)招聘易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025至2030中國(guó)汽車(chē)檢測(cè)行業(yè)市場(chǎng)深度研究與戰(zhàn)略咨詢分析報(bào)告
- 2026年南昌健康職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試備考試題附答案詳解
- 2026年安徽糧食工程職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試備考試題及答案詳解
- 雨課堂學(xué)堂在線學(xué)堂云《中國(guó)電影經(jīng)典影片鑒賞(北京師范大學(xué))》單元測(cè)試考核答案
- 四川水利安全b證考試試題及答案
- 2626《藥事管理與法規(guī)》國(guó)家開(kāi)放大學(xué)期末考試題庫(kù)
- 2025江西江新造船有限公司招聘70人模擬筆試試題及答案解析
- 重慶市豐都縣2025屆九年級(jí)上學(xué)期1月期末考試英語(yǔ)試卷(不含聽(tīng)力原文及音頻答案不全)
- 2026年黨支部主題黨日活動(dòng)方案
評(píng)論
0/150
提交評(píng)論