(2025年)大數(shù)據(jù)知識競賽試題附答案_第1頁
(2025年)大數(shù)據(jù)知識競賽試題附答案_第2頁
(2025年)大數(shù)據(jù)知識競賽試題附答案_第3頁
(2025年)大數(shù)據(jù)知識競賽試題附答案_第4頁
(2025年)大數(shù)據(jù)知識競賽試題附答案_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(2025年)大數(shù)據(jù)知識競賽試題附答案一、單項選擇題(每題1分,共30分。每題只有一個正確答案,請將正確選項字母填入括號內(nèi))1.在Hadoop生態(tài)中,負責資源管理與任務(wù)調(diào)度的核心組件是()A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B2.下列關(guān)于KafkaPartition的描述,正確的是()A.一個Topic只能有一個PartitionB.Partition數(shù)量一旦創(chuàng)建便不可擴容C.同一Partition內(nèi)消息嚴格有序D.ConsumerGroup內(nèi)所有消費者訂閱不同Partition會導(dǎo)致重復(fù)消費答案:C3.在SparkRDD的轉(zhuǎn)換操作中,下列哪個操作會產(chǎn)生寬依賴()A.map??B.filter??C.union??D.groupByKey答案:D4.若某電商網(wǎng)站日均UV為2億,峰值QPS為30萬,則其峰值QPS與日均UV的比值最接近()A.0.015%??B.0.15%??C.1.5%??D.15%答案:B5.在Flink的時間語義中,EventTime是指()A.數(shù)據(jù)進入Flink系統(tǒng)的時間B.數(shù)據(jù)被窗口算子處理的時間C.數(shù)據(jù)在源頭產(chǎn)生時攜帶的時間戳D.數(shù)據(jù)被Sink寫出外部系統(tǒng)的時間答案:C6.使用HBaseRowKey設(shè)計時,為了避免熱點寫,下列策略最有效的是()A.使用自增ID作為RowKeyB.使用哈希前綴+時間戳C.使用純時間戳倒排D.使用連續(xù)字符串前綴答案:B7.在數(shù)據(jù)倉庫分層模型中,DWD層的主要職責是()A.保存原始日志不做清洗B.保存明細事實數(shù)據(jù),完成清洗與規(guī)范化C.保存匯總指標數(shù)據(jù)D.保存維度數(shù)據(jù)答案:B8.下列關(guān)于數(shù)據(jù)傾斜的優(yōu)化手段,錯誤的是()A.兩階段聚合(局部聚合+全局聚合)B.增加Reducer數(shù)量C.使用隨機前綴打散熱點KeyD.將Join操作改為笛卡爾積答案:D9.在ClickHouse的MergeTree引擎中,數(shù)據(jù)按哪個字段進行分區(qū)()A.PRIMARYKEY??B.PARTITIONBY子句指定字段C.ORDERBY字段??D.SAMPLEBY字段答案:B10.某模型AUC從0.81提升到0.83,但線上CTR下降2%,最可能的原因是()A.訓(xùn)練集過擬合??B.驗證集欠擬合C.特征穿越??D.樣本不平衡答案:C11.在Airflow中,任務(wù)實例task_instance的狀態(tài)不包括()A.running??B.upstream_failed??C.retry??D.paused答案:D12.使用Elasticsearch進行聚合分析時,下列哪個桶聚合可以按日期分組()A.terms??B.range??C.date_histogram??D.filter答案:C13.在數(shù)據(jù)治理的元數(shù)據(jù)管理中,業(yè)務(wù)元數(shù)據(jù)不包含()A.指標口徑定義??B.表責任人??C.字段描述??D.數(shù)據(jù)文件大小答案:D14.若某Hive表存儲為ORC格式,block大小為256MB,下列參數(shù)可直接控制ORC文件壓縮算法的是()A.hive.exec.reducers.bytes.per.reducerB.pressC.mapreduce.input.fileinputformat.split.maxsizeD.hive.merge.size.per.task答案:B15.在推薦系統(tǒng)的冷啟動問題中,下列方法屬于基于內(nèi)容的冷啟動的是()A.利用用戶社交關(guān)系??B.利用物品標簽信息C.利用矩陣分解??D.利用多臂老虎機探索答案:B16.下列關(guān)于數(shù)據(jù)湖的說法,正確的是()A.數(shù)據(jù)湖只能保存結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖不支持事務(wù)C.數(shù)據(jù)湖支持SchemaonreadD.數(shù)據(jù)湖必須基于HDFS實現(xiàn)答案:C17.在SparkSQL中,將DataFrame注冊為臨時視圖后,其生命周期作用域為()A.整個SparkContext??B.整個SparkSessionC.當前線程??D.當前Application答案:B18.若某SQL執(zhí)行計劃中出現(xiàn)“SortMergeJoin”,說明兩張表()A.至少一張表在Join列上有索引B.兩張表都按Join列排序并分桶C.兩張表都小于10MBD.使用了mapsidejoinhint答案:B19.在數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則中,唯一性校驗通常使用()A.COUNT(DISTINCT)與COUNT()比較B.MAX與MIN差值C.標準差閾值D.正則表達式匹配答案:A20.在Python的Pandas中,對DataFramedf按列A分組后求列B前20%分位數(shù)的代碼為()A.df.groupby('A').B.quantile(0.2)B.df.groupby('A').B.median()0.2C.df.groupby('A').B.mean()0.2D.df.groupby('A').apply(lambdax:x.B.quantile(0.2))答案:A21.在機器學(xué)習特征工程中,對高基數(shù)類別變量進行目標編碼時,為防止過擬合,通常采用()A.交叉驗證目標編碼??B.onehot編碼C.哈希編碼??D.等寬分箱答案:A22.下列關(guān)于Zookeeper在Kafka中的作用,錯誤的是()A.保存ConsumerGroup偏移量(舊版本)B.進行BrokerLeader選舉C.保存Topic配置信息D.保存Producer消息緩存答案:D23.在數(shù)據(jù)安全等級分類中,PII是指()A.公共信息接口??B.個人身份信息C.主數(shù)據(jù)索引??D.圖片信息接口答案:B24.若某離線任務(wù)每日凌晨2點啟動,依賴上游表T,T的產(chǎn)出完成時間為1點30分,但偶爾延遲到3點,為保證任務(wù)穩(wěn)定,最佳策略是()A.將任務(wù)推遲到4點啟動B.使用AirflowSensor進行動態(tài)感知C.每天人工檢查D.取消該任務(wù)答案:B25.在數(shù)據(jù)可視化中,適合展示兩個連續(xù)變量相關(guān)關(guān)系的圖表是()A.餅圖??B.箱線圖??C.散點圖??D.雷達圖答案:C26.在SparkStreaming中,DStream的滑動窗口操作window(windowLength,slideInterval)要求()A.slideInterval必須大于windowLengthB.windowLength必須是batchInterval的整數(shù)倍C.windowLength必須小于batchIntervalD.slideInterval可以不是batchInterval的整數(shù)倍答案:B27.在數(shù)據(jù)資產(chǎn)目錄中,BloodLineage是指()A.數(shù)據(jù)血緣??B.數(shù)據(jù)質(zhì)量評分??C.數(shù)據(jù)安全等級??D.數(shù)據(jù)生命周期答案:A28.若某MySQL表使用InnoDB引擎,主鍵為自增ID,批量導(dǎo)入數(shù)據(jù)時,為了提升寫入性能,通常建議()A.關(guān)閉自適應(yīng)哈希索引B.關(guān)閉雙寫緩沖C.按主鍵順序批量寫入D.隨機寫入以打散熱點答案:C29.在數(shù)據(jù)合規(guī)的GDPR條款中,數(shù)據(jù)主體享有的權(quán)利不包括()A.被遺忘權(quán)??B.可攜帶權(quán)??C.修改權(quán)??D.永久存儲權(quán)答案:D30.在ClickHouse中,使用MaterializedView實時聚合時,為了保障冪等寫入,通常依賴()A.ReplacingMergeTree??B.SummingMergeTreeC.AggregatingMergeTree??D.CollapsingMergeTree答案:A二、多項選擇題(每題2分,共20分。每題至少有兩個正確答案,多選、少選、錯選均不得分)31.下列屬于NoSQL數(shù)據(jù)庫CAP理論中“可用性”犧牲的場景有()A.MongoDB寫操作等待副本集多數(shù)節(jié)點確認B.HBaseRegionServer宕機后等待重新分配C.Cassandra配置為ALL一致性級別D.RedisCluster節(jié)點故障時拒絕寫入答案:A、C32.在Spark3.0中,AdaptiveQueryExecution帶來的優(yōu)化包括()A.動態(tài)調(diào)整Reducer數(shù)量B.動態(tài)切換Join策略C.動態(tài)優(yōu)化數(shù)據(jù)傾斜D.動態(tài)調(diào)整Executor內(nèi)存答案:A、B、C33.下列屬于數(shù)據(jù)倉庫緩慢變化維SCDType2的做法有()A.增加新行并標記有效時間區(qū)間B.覆蓋原值C.增加新列保存歷史值D.增加版本號字段答案:A、D34.在特征選擇方法中,屬于過濾法的有()A.方差選擇法??B.互信息法??C.L1正則化??D.卡方檢驗答案:A、B、D35.下列關(guān)于數(shù)據(jù)湖倉一體(LakeHouse)的描述,正確的有()A.支持ACID事務(wù)B.使用Parquet+DeltaLake格式C.計算與存儲耦合D.支持Schema演進答案:A、B、D36.在Python中,使用multiprocessing庫進行并行計算時,為了避免數(shù)據(jù)拷貝開銷,可采用()A.使用進程池并傳入大型只讀對象B.使用shared_memory共享內(nèi)存C.使用Ray分布式框架D.使用threading庫答案:B、C37.下列屬于實時數(shù)倉Lambda架構(gòu)特點的有()A.批層與流層同時運行B.最終一致性C.同一套代碼維護D.需要合并批流結(jié)果答案:A、B、D38.在數(shù)據(jù)脫敏技術(shù)中,屬于可逆加密算法的有()A.AES128??B.RSA2048??C.SHA256??D.FPE格式保持加密答案:A、B、D39.下列關(guān)于ElasticsearchMapping的描述,正確的有()A.text類型默認會分詞B.keyword類型用于精確匹配C.字段類型一旦創(chuàng)建不可修改D.多字段支持使用fields參數(shù)答案:A、B、D40.在數(shù)據(jù)資產(chǎn)估值的維度中,常被納入評估的有()A.數(shù)據(jù)稀缺性??B.數(shù)據(jù)準確性??C.數(shù)據(jù)時效性??D.數(shù)據(jù)存儲格式答案:A、B、C三、填空題(每空1分,共20分)41.在HDFS中,默認Block大小為________MB,副本因子為________。答案:128,342.在Kafka2.8之后,________模式允許不再依賴Zookeeper,使用內(nèi)置的________元數(shù)據(jù)管理。答案:KRaft,Raft43.在Spark中,RDD的________函數(shù)用于將分區(qū)數(shù)據(jù)聚合到Driver端,而________函數(shù)用于在每個分區(qū)內(nèi)先聚合再shuffle。答案:collect,combineByKey44.若某Hive表分區(qū)字段為dt,格式為yyyyMMdd,則使用MSCKREPAIRTABLE命令可以________,但無法識別________目錄。答案:自動修復(fù)分區(qū),非標準子目錄45.在Flink的Checkpoint機制中,Barrier對齊機制會導(dǎo)致________延遲,使用________模式可犧牲一致性換取延遲。答案:反壓,AT_LEAST_ONCE46.在數(shù)據(jù)可視化中,________圖適合展示累積占比,________圖適合展示多維數(shù)據(jù)對比。答案:帕累托,雷達47.在Python的NumPy中,生成形狀為(3,4)且服從標準正態(tài)分布的隨機數(shù)組的代碼為________。答案:np.random.randn(3,4)48.在數(shù)據(jù)治理的PDCA循環(huán)中,P指________,C指________。答案:Plan,Check49.在ClickHouse中,使用________引擎可以支持去重,使用________語句可以強制后臺合并。答案:ReplacingMergeTree,OPTIMIZETABLEFINAL50.在數(shù)據(jù)合規(guī)的《個人信息保護法》中,處理敏感個人信息必須取得________同意,并告知________。答案:單獨,處理目的與方式四、簡答題(共30分)51.(封閉型,6分)簡述MapReduce中Shuffle階段的具體流程,并指出其性能瓶頸。答案:Shuffle階段包括Map端溢寫、分區(qū)、排序、合并,Reduce端拷貝、合并排序。性能瓶頸:磁盤IO、網(wǎng)絡(luò)傳輸、排序比較操作、內(nèi)存緩沖區(qū)不足導(dǎo)致頻繁溢寫。52.(開放型,8分)某電商公司大促期間,實時GMV指標延遲升高,請給出排查思路與優(yōu)化方案。答案:排查思路:1.檢查Kafka消費組Lag;2.檢查Flink反壓指標;3.檢查ClickHouse寫入性能;4.檢查網(wǎng)絡(luò)帶寬。優(yōu)化:1.增加Flink并行度;2.開啟MiniBatch、LocalGlobal聚合;3.使用Redis緩存熱點維度;4.將ClickHouse寫入改為異步批量;5.降級非核心指標。53.(封閉型,6分)寫出使用SparkSQL創(chuàng)建臨時視圖view_a,計算用戶近30天消費金額的SQL,并說明如何防止數(shù)據(jù)傾斜。答案:CREATETEMPORARYVIEWview_aASSELECTuser_id,SUM(amount)ASamtFROMdwd_orderWHEREdtBETWEENdate_sub(current_date,29)ANDcurrent_dateGROUPBYuser_id;防止傾斜:1.增加salt前綴隨機打散;2.兩階段聚合;3.過濾異常用戶;4.調(diào)整shuffle分區(qū)數(shù)。54.(開放型,10分)闡述數(shù)據(jù)資產(chǎn)目錄的建設(shè)流程,并給出指標標準化方案。答案:流程:1.元數(shù)據(jù)采集(自動解析+人工補錄);2.數(shù)據(jù)血緣解析(SQL解析+API埋點);3.數(shù)據(jù)分級分類(敏感+業(yè)務(wù)維度);4.質(zhì)量評分(完整性、準確性、及時性、唯一性);5.資產(chǎn)門戶發(fā)布。標準化:1.指標命名規(guī)范:業(yè)務(wù)域_過程_度量_周期;2.口徑文檔模板:業(yè)務(wù)定義+技術(shù)定義+SQL模板+責任人;3.版本控制:Git管理口徑文檔;4.評審機制:DataCouncil每月評審;5.自動化校驗:SQL解析與指標庫比對,口徑變更告警。五、應(yīng)用題(共50分)55.(計算類,15分)某短視頻公司推薦系統(tǒng),離線樣本1億條,特征維度5000,稀疏率0.8%,使用SparkMLlib訓(xùn)練邏輯回歸。已知:每條樣本平均占用2KB(含String索引);Executor內(nèi)存4GB,核心數(shù)4;目標在30分鐘內(nèi)完成訓(xùn)練;網(wǎng)絡(luò)帶寬10Gbps,磁盤順序讀200MB/s。求:1.估算所需Executor數(shù)量;2.若使用LBFGS,迭代100次,每次約需1.2倍數(shù)據(jù)掃描,計算總讀取數(shù)據(jù)量;3.判斷磁盤或網(wǎng)絡(luò)是否為瓶頸。答案:1.數(shù)據(jù)總量=1e82KB=200GB;內(nèi)存每Executor可用約3GB(扣除系統(tǒng)與緩存),每輪需加載200GB1.2/100=2.4GB,可并行分區(qū)數(shù)=200GB/2.4GB≈84,考慮內(nèi)存并發(fā)=3GB/2.4GB≈1.2,取并發(fā)度84,每Executor并發(fā)任務(wù)=4,需Executor=84/4=21,向上取整24。2.總讀取=200GB1.2=240GB。3.磁盤:24Executor200MB/s=4.8GB/s,讀取240GB需50s,遠小于30min;網(wǎng)絡(luò):240GB/10Gbps≈192s,亦小于30min;兩者均非瓶頸,內(nèi)存與CPU為瓶頸。56.(分析類,15分)給出某電商訂單表dwd_order字段:order_id,user_id,sku_id,price,cnt,amt,dt。要求使用SQL計算近7天每日的“新客首單GMV”與“老客GMV”,并解釋如何識別新客。答案:識別新客:用戶歷史最早訂單日期=當日日期則為新客。SQL:WITHfirst_orderAS(SELECTuser_id,MIN(dt)ASfirst_dtFROMdwd_orderGROUPBYuser_id),detailAS(SELECTdt,user_id,SUM(amt)ASgmvFROMdwd_orderWHEREdtBETWEENdate_sub(current_date,6)ANDcurrent_dateGROUPBYdt,user_id)SELECTa.dt,SUM(CASEWHENa.dt=b.first_dtTHENa.gmvELSE0END)ASnew_user_gmv,SUM(CASEWHENa.dt>b.first_dtTHENa.gmvELSE0END)ASold_user_gmvFROMdetailaJOINfirst_orderbONa.user_id=b.user_idGROUPBYa.dtORDERBYa.d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論