版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)科學(xué)與應(yīng)用職業(yè)資格考試試卷及答案1.單項(xiàng)選擇題(每題1分,共20分)1.1在HDFS中,NameNode的主要職責(zé)是A.存儲(chǔ)實(shí)際數(shù)據(jù)塊B.管理文件系統(tǒng)元數(shù)據(jù)C.執(zhí)行Map任務(wù)D.執(zhí)行Reduce任務(wù)答案:B1.2下列哪一項(xiàng)不是Spark相比HadoopMapReduce的優(yōu)勢(shì)A.內(nèi)存計(jì)算B.更豐富的算子C.強(qiáng)制使用YARN調(diào)度D.支持迭代算法答案:C1.3在Kafka中,負(fù)責(zé)持久化消息且以順序?qū)懘疟P提升性能的組件是A.ProducerB.ConsumerC.BrokerD.ZooKeeper答案:C1.4若某電商用戶行為表user_action(user_id,item_id,action_type,ts)數(shù)據(jù)量達(dá)120億行,采用Hive分區(qū)策略,下列最合理的是A.按user_id哈希分區(qū)B.按action_type分區(qū)C.按dt=to_date(ts)分區(qū)并子按item_id哈希分桶D.不加分區(qū)直接存儲(chǔ)答案:C1.5Flink的Checkpoint機(jī)制使用下列哪種分布式快照算法A.ChandyLamportB.RaftC.TwoPhaseCommitD.Paxos答案:A1.6在HBase中,RowKey設(shè)計(jì)應(yīng)避免A.散列化B.時(shí)間戳前綴C.反轉(zhuǎn)URLD.加鹽答案:B1.7使用Pythonpandas讀取10GBCSV時(shí),下列做法最能降低內(nèi)存占用A.一次性讀入后刪除無用列B.使用dtype參數(shù)指定列類型C.先采樣再讀全量D.強(qiáng)制使用float64答案:B1.8在機(jī)器學(xué)習(xí)中,F(xiàn)1score的取值范圍是A.[1,1]B.[0,1]C.[0,+∞)D.(∞,+∞)答案:B1.9下列哪種圖算法可用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中的“關(guān)鍵意見領(lǐng)袖”A.PageRankB.FloydWarshallC.PrimD.Kmeans答案:A1.10某Spark任務(wù)提交參數(shù):executormemory8gexecutorcores4numexecutors100,則集群理論最大并行度為A.100B.400C.800D.3200答案:B1.11在數(shù)據(jù)治理中,屬于“數(shù)據(jù)血緣”核心記錄內(nèi)容的是A.字段業(yè)務(wù)含義B.字段負(fù)責(zé)人C.上游表與下游表依賴關(guān)系D.字段安全等級(jí)答案:C1.12下列關(guān)于數(shù)據(jù)湖的說法正確的是A.僅支持結(jié)構(gòu)化數(shù)據(jù)B.必須預(yù)先定義SchemaC.通常采用“讀時(shí)模式”D.不支持ACID事務(wù)答案:C1.13在Python中,使用numpy.random.seed(42)的作用是A.提高隨機(jī)數(shù)生成速度B.保證隨機(jī)數(shù)可重復(fù)C.降低內(nèi)存占用D.生成真隨機(jī)數(shù)答案:B1.14某時(shí)序數(shù)據(jù)庫寫入吞吐要求每秒500萬點(diǎn),最適合的存儲(chǔ)模型是A.行存B+樹B.列存+LSMTreeC.哈希索引D.位圖索引答案:B1.15在數(shù)據(jù)倉庫分層架構(gòu)中,DWD層主要完成A.原始數(shù)據(jù)接入B.明細(xì)數(shù)據(jù)清洗C.寬表匯總D.指標(biāo)沉淀答案:B1.16下列關(guān)于數(shù)據(jù)傾斜的描述正確的是A.只會(huì)發(fā)生在Shuffle階段B.可通過兩階段聚合緩解C.增加并行度一定解決D.與鍵分布無關(guān)答案:B1.17在TensorFlow2.x中,tf.data.Dataset.prefetch()的作用是A.增加批次大小B.實(shí)現(xiàn)數(shù)據(jù)預(yù)取重疊計(jì)算C.自動(dòng)混洗D.緩存到磁盤答案:B1.18某分類模型在測(cè)試集上Accuracy=0.95,但Recall=0.30,說明A.模型過擬合B.模型欠擬合C.正類樣本極少D.閾值過高答案:D1.19在PostgreSQL中,對(duì)JSONB字段建立GIN索引可顯著提升A.精確匹配B.范圍查詢C.包含查詢D.排序答案:C1.20下列哪項(xiàng)最能體現(xiàn)數(shù)據(jù)中臺(tái)的“復(fù)用性”目標(biāo)A.統(tǒng)一數(shù)據(jù)湖B.統(tǒng)一主數(shù)據(jù)C.統(tǒng)一數(shù)據(jù)服務(wù)APID.統(tǒng)一報(bào)表平臺(tái)答案:C2.多項(xiàng)選擇題(每題2分,共20分;每題至少有兩個(gè)正確答案,多選少選均不得分)2.1下列屬于NoSQL數(shù)據(jù)庫的是A.MongoDBB.Neo4jC.RedisD.Oracle答案:ABC2.2在SparkSQL中,以下函數(shù)可用于窗口分析的有A.row_number()B.lag()C.collect_list()D.explode()答案:ABC2.3造成Hive查詢慢的典型原因包括A.小文件過多B.分區(qū)字段選擇不當(dāng)C.啟用Tez引擎D.數(shù)據(jù)傾斜答案:ABD2.4下列屬于特征選擇方法的有A.卡方檢驗(yàn)B.L1正則C.PCAD.互信息答案:ABD2.5關(guān)于KafkaConsumerGroup,正確的有A.組內(nèi)每個(gè)分區(qū)只能被一個(gè)消費(fèi)者實(shí)例消費(fèi)B.消費(fèi)者可隨時(shí)加入或退出C.分區(qū)數(shù)增加可立即提高并行度D.消費(fèi)者偏移量由Broker強(qiáng)制管理答案:ABC2.6在數(shù)據(jù)質(zhì)量評(píng)估維度中,屬于“一致性”指標(biāo)的有A.同一客戶在不同系統(tǒng)ID一致B.數(shù)值范圍符合業(yè)務(wù)規(guī)則C.編碼格式統(tǒng)一D.記錄不重復(fù)答案:AC2.7下列操作可能導(dǎo)致數(shù)據(jù)泄露(dataleakage)的有A.先整體標(biāo)準(zhǔn)化再劃分訓(xùn)練/測(cè)試B.用未來特征訓(xùn)練歷史模型C.交叉驗(yàn)證前做特征選擇D.訓(xùn)練集和測(cè)試集同分布答案:ABC2.8在Flink中,支持exactlyonce語義的條件包括A.啟用CheckpointB.使用可重放SourceC.使用冪等SinkD.禁用異步IO答案:ABC2.9關(guān)于數(shù)據(jù)倉庫星型模型,正確的有A.事實(shí)表引用維度表外鍵B.維度表高度規(guī)范化C.查詢性能優(yōu)于雪花模型D.易于業(yè)務(wù)理解答案:ACD2.10下列屬于時(shí)間序列預(yù)測(cè)算法的有A.ProphetB.LSTMC.XGBoostD.ARIMA答案:ABD3.填空題(每空2分,共20分)3.1在Linux中,查看當(dāng)前文件夾下各子目錄磁盤使用情況的命令是Mat(diskhmaxdepth=1)。答案:duhmaxdepth=13.2HDFS默認(rèn)塊大小為128MB,若文件大小為1.2GB,則理論存儲(chǔ)需占用Mat(10)個(gè)塊。答案:103.3在SQL中,將兩個(gè)表做全外連接的關(guān)鍵字是Mat(FULLOUTERJOIN)。答案:FULLOUTERJOIN3.4若隨機(jī)變量X服從標(biāo)準(zhǔn)正態(tài)分布,則P(X≤0)=Mat(0.5)。答案:0.53.5在Python中,使用Mat(pd.merge(df1,df2,on='key',how='inner'))實(shí)現(xiàn)兩表內(nèi)連接。答案:pd.merge(df1,df2,on='key',how='inner')3.6Spark中,將RDD轉(zhuǎn)為DataFrame的隱式轉(zhuǎn)換需導(dǎo)入Mat(spark.implicits._)。答案:spark.implicits._3.7在Elasticsearch中,實(shí)現(xiàn)字段全文檢索的查詢類型是Mat(match)。答案:match3.8若某決策樹最大深度為5,則葉節(jié)點(diǎn)最多可能有Mat(32)個(gè)。答案:323.9在Kafka2.x中,Producer保證冪等需設(shè)置Mat(enable.idempotence=true)。答案:enable.idempotence=true3.10數(shù)據(jù)治理元數(shù)據(jù)管理國家標(biāo)準(zhǔn)編號(hào)為Mat(GB/T360732018)。答案:GB/T3607320184.判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)4.1Hive支持行級(jí)更新?!?.2Redis是單線程模型,因此無法利用多核CPU。×4.3在Spark中,mapPartitions比map函數(shù)減少函數(shù)調(diào)用開銷?!?.4數(shù)據(jù)倉庫分層中,ODS層數(shù)據(jù)通常不做清洗?!?.5XGBoost只能運(yùn)行在單機(jī)環(huán)境?!?.6使用gzip壓縮的HDFS文件支持split?!?.7Flink的CEP庫可用于復(fù)雜事件處理?!?.8數(shù)據(jù)湖與數(shù)據(jù)倉庫無法共存于同一企業(yè)架構(gòu)。×4.9在MySQL中,InnoDB支持事務(wù)而MyISAM不支持?!?.10過采樣一定會(huì)導(dǎo)致模型過擬合。×5.簡答題(封閉型,每題5分,共20分)5.1簡述MapReduce中Shuffle階段的具體流程。答案:Map端將輸出結(jié)果按分區(qū)函數(shù)分成若干分區(qū),并在內(nèi)存緩沖區(qū)排序,當(dāng)緩沖區(qū)達(dá)到閾值時(shí)溢寫到本地磁盤,生成多個(gè)溢寫文件,再進(jìn)行多路歸并排序形成最終分區(qū)文件;Reduce端通過HTTP拉取對(duì)應(yīng)分區(qū)的數(shù)據(jù),合并后按key分組,供Reduce函數(shù)處理。5.2說明Hive中動(dòng)態(tài)分區(qū)與靜態(tài)分區(qū)的區(qū)別。答案:靜態(tài)分區(qū)在插入語句中顯式指定分區(qū)值,適合分區(qū)值已知且數(shù)量少;動(dòng)態(tài)分區(qū)由查詢結(jié)果列值決定分區(qū)值,無需手動(dòng)指定,適合批量寫入大量分區(qū),但需開啟動(dòng)態(tài)分區(qū)模式并注意小文件問題。5.3列舉三種解決Spark數(shù)據(jù)傾斜的常見手段并給出適用場(chǎng)景。答案:1.兩階段聚合:適用于count、sum等聚合且傾斜鍵較少;2.隨機(jī)前綴擴(kuò)容:適用于join且一側(cè)表傾斜,將傾斜鍵分散到多個(gè)任務(wù);3.增加并行度:適用于數(shù)據(jù)本身均勻但任務(wù)數(shù)不足,通過repartition增加分區(qū)。5.4說明Flink的TimeCharacteristic中EventTime與ProcessingTime的差異。答案:EventTime是事件本身攜帶的時(shí)間戳,反映業(yè)務(wù)發(fā)生時(shí)刻,需配合watermark處理亂序;ProcessingTime是節(jié)點(diǎn)系統(tǒng)時(shí)鐘,處理簡單但無法應(yīng)對(duì)亂序與延遲,適用于低延遲、可容忍非確定性場(chǎng)景。6.簡答題(開放型,每題10分,共20分)6.1某互聯(lián)網(wǎng)公司日活3000萬,擬構(gòu)建實(shí)時(shí)用戶畫像系統(tǒng),請(qǐng)給出技術(shù)選型、架構(gòu)圖要點(diǎn)及可能遇到的最大挑戰(zhàn)。答案:技術(shù)選型:Kafka收集行為日志,F(xiàn)link做實(shí)時(shí)ETL與特征計(jì)算,Redis存儲(chǔ)秒級(jí)標(biāo)簽,HBase存明細(xì),ClickHouse供OLAP,API網(wǎng)關(guān)對(duì)外服務(wù);架構(gòu)要點(diǎn):端到端exactlyonce,維表異步Join,異步Checkpoint,分層標(biāo)簽(基礎(chǔ)、統(tǒng)計(jì)、模型),灰度回刷;最大挑戰(zhàn):1.行為亂序?qū)е聵?biāo)簽漂移,需watermark+狀態(tài)管理;2.維表更新一致性,需版本號(hào)控制;3.高并發(fā)讀寫下Redis熱key,需本地緩存+分片;4.實(shí)時(shí)與離線標(biāo)簽一致性,需Lambda架構(gòu)校驗(yàn)。6.2某市交通部門擬通過浮動(dòng)車GPS數(shù)據(jù)預(yù)測(cè)未來1小時(shí)路網(wǎng)平均速度,請(qǐng)給出完整建模流程、特征工程、算法選擇與評(píng)估指標(biāo),并討論數(shù)據(jù)偏差問題。答案:流程:1.數(shù)據(jù)接入Kafka,F(xiàn)link清洗去噪;2.路段匹配,計(jì)算5分鐘粒度速度;3.特征工程:歷史同期速度、天氣、節(jié)假日、事件、POI、上下游速度、時(shí)間編碼;4.模型:先GBDT建立基線,再用Seq2Seq+Attention捕捉時(shí)空依賴;5.評(píng)估:MAE、RMSE、路段覆蓋率、預(yù)測(cè)延遲;偏差問題:浮動(dòng)車樣本偏出租/公交,需加權(quán)采樣+多源融合;異常事件樣本少,需SMOTE過采樣;概念漂移用在線學(xué)習(xí)更新。7.應(yīng)用題(計(jì)算類,每題10分,共20分)7.1某電商大促期間,訂單表order(order_id,user_id,amount,ts)共50億行,需計(jì)算每分鐘GMV及同比增幅。給出SparkSQL實(shí)現(xiàn)并估算內(nèi)存消耗。答案:```sqlwithtmpas(selectdate_format(ts,'yyyyMMddHH:mm')asminute,sum(amount)asgmvfromordergroupbydate_format(ts,'yyyyMMddHH:mm')),tmp2as(selectminute,gmv,lag(gmv,1)over(orderbyminute)aslast_gmvfromtmp)selectminute,gmv,(gmvlast_gmv)/last_gmvasgrowthfromtmp2;```估算:每行16字節(jié),50億行約800GB,經(jīng)分區(qū)下推過濾后約掃描200GB,聚合中間結(jié)果每分鐘1行,共1440行,內(nèi)存約幾十MB,可完全放入內(nèi)存。7.2某分類任務(wù)正負(fù)樣本比例1:99,總樣本1000萬,采用隨機(jī)森林,每棵樹樣本子采樣0.1,特征子采樣0.3,樹深10,求單棵樹平均葉節(jié)點(diǎn)數(shù)及總模型所需內(nèi)存。答案:葉節(jié)點(diǎn)數(shù)上限2^10=1024,平均約700;單棵樹節(jié)點(diǎn)總數(shù)約1400,每節(jié)點(diǎn)存特征閾值、左右指針、樣本計(jì)數(shù),約32字節(jié),單棵樹內(nèi)存700×32≈22KB;若100棵樹,總內(nèi)存≈2.2MB,可忽略。8.應(yīng)用題(分析類,每題15分,共30分)8.1某視頻平臺(tái)發(fā)現(xiàn)用戶次日留存率下降5%,給定日志表login(user_id,login_date)與注冊(cè)表register(user_id,reg_date),請(qǐng)寫出SQL診斷下降原因并給出可視化方案。答案:1.計(jì)算逐日留存:```sqlselecta.reg_date,datediff(b.login_date,a.reg_date)asdays,count(distinctb.user_id)1.0/count(distincta.user_id)asretentionfromregisteraleftjoinloginbona.user_id=b.user_idgroupbya.reg_date,days;```2.對(duì)比下降前后7日留存曲線,發(fā)現(xiàn)第1日留存驟降;3.細(xì)分渠道、版本、地域,發(fā)現(xiàn)某渠道在1月10日上線新版,導(dǎo)致崩潰率上升;4.可視化:用Superset畫留存熱力圖,渠道做切片,崩潰率疊加折線;5.建議:回滾新版,灰度發(fā)布,增加崩潰上報(bào)。8.2某物流公司有車輛GPS表gps(car_id,lat,lon,upload_time),需識(shí)別異常停留(連續(xù)30分鐘上傳坐標(biāo)半徑200米內(nèi)),給出FlinkCEP偽代碼并討論邊界問題。答案:```scalaPattern.begin[GPS]("start").where(_.speed<
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 平?jīng)鍪惺兄睂W(xué)校公開招聘2026屆協(xié)議培養(yǎng)師范生23人備考題庫(第二批)及1套完整答案詳解
- 平果市2025年度鄉(xiāng)鎮(zhèn)衛(wèi)生院公開招聘鄉(xiāng)村醫(yī)生備考題庫含答案詳解
- 平頂山市2026年度市直機(jī)關(guān)公開遴選公務(wù)員備考題庫及參考答案詳解一套
- 2026年安徽警官職業(yè)學(xué)院單招職業(yè)傾向性考試題庫新版
- 2026年山東藝術(shù)設(shè)計(jì)職業(yè)學(xué)院單招職業(yè)技能考試題庫及答案1套
- 2025年電信網(wǎng)絡(luò)技術(shù)維護(hù)操作手冊(cè)
- 廣東省環(huán)境保護(hù)宣傳教育中心2026年公開招聘編外人員備考題庫參考答案詳解
- 廣發(fā)證券2026屆Fintech校園招聘?jìng)淇碱}庫有答案詳解
- 廣州大學(xué)2026年第一次公開招聘事業(yè)編制管理和教輔人員備考題庫及一套答案詳解
- 廣州市衛(wèi)生健康委員會(huì)直屬事業(yè)單位廣州市第十二人民醫(yī)院2025年第一次公開招聘?jìng)淇碱}庫及一套完整答案詳解
- 第二十二章 二次函數(shù) 章末復(fù)習(xí)試卷(含答案)2025-2026學(xué)年人教版數(shù)學(xué)九年級(jí)上冊(cè)
- 工地破樁頭合同范本
- 分析包材采購崗位的挑戰(zhàn)與機(jī)遇提供應(yīng)對(duì)策略和建議
- 市場(chǎng)推廣活動(dòng)效果評(píng)估流程
- 2026年長沙民政職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫必考題
- 高校實(shí)驗(yàn)室安全管理(可編輯版)
- 工程倫理-形考任務(wù)二(權(quán)重20%)-國開(SX)-參考資料
- 部編版五年級(jí)上冊(cè)語文第七單元教案
- 2025年美妝行業(yè)公私域融合經(jīng)營白皮書
- 凍品鳳爪購銷合同范本
- 2026年中考英語復(fù)習(xí)單詞詞匯表
評(píng)論
0/150
提交評(píng)論