2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案_第1頁
2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案_第2頁
2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案_第3頁
2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案_第4頁
2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2025年數(shù)據(jù)科學與大數(shù)據(jù)應用考試卷及答案一、單項選擇題(每題2分,共20分。每題只有一個正確答案,請將正確選項字母填入括號內(nèi))1.在Hadoop生態(tài)中,負責資源管理與任務調(diào)度的核心組件是()A.HiveB.YARNC.HDFSD.Pig答案:B2.下列關于數(shù)據(jù)湖與數(shù)據(jù)倉庫的描述,正確的是()A.數(shù)據(jù)湖僅支持結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉庫SchemaonWrite,數(shù)據(jù)湖SchemaonReadC.數(shù)據(jù)湖不支持ACID事務D.數(shù)據(jù)倉庫比數(shù)據(jù)湖更適合存儲原始日志答案:B3.在Spark中,下列哪種操作屬于“寬依賴”?()A.mapB.filterC.unionD.reduceByKey答案:D4.使用Python進行缺失值處理時,pandas中檢測缺失值的函數(shù)是()A.isnull()B.dropna()C.fillna()D.isnan()答案:A5.在關聯(lián)規(guī)則挖掘中,若規(guī)則{A}→{B}的置信度為80%,則意味著()A.80%的事務包含A∪BB.80%的事務包含AC.在包含A的事務中,有80%同時包含BD.在包含B的事務中,有80%同時包含A答案:C6.下列哪種可視化圖形最適合展示連續(xù)變量的分布形態(tài)?()A.條形圖B.箱線圖C.餅圖D.散點圖答案:B7.在Kafka中,負責持久化消息并以順序?qū)懛绞奖WC高吞吐的組件是()A.ProducerB.ConsumerC.BrokerD.ZooKeeper答案:C8.使用梯度下降法優(yōu)化邏輯回歸時,下列哪種方法可緩解特征量綱差異帶來的收斂震蕩?()A.L1正則化B.特征標準化C.增加學習率D.增加批次大小答案:B9.在Flink中,事件時間(EventTime)與處理時間(ProcessingTime)的主要區(qū)別在于()A.事件時間由系統(tǒng)時鐘決定B.處理時間需要設置WatermarkC.事件時間基于數(shù)據(jù)自帶的時間戳D.處理時間支持亂序數(shù)據(jù)答案:C10.下列關于深度學習過擬合的應對策略,錯誤的是()A.增加Dropout層B.提前終止訓練C.減少訓練集樣本D.使用L2正則化答案:C二、多項選擇題(每題3分,共15分。每題有兩個或兩個以上正確答案,多選、少選、錯選均不得分)11.下列屬于NoSQL數(shù)據(jù)庫的有()A.MongoDBB.HBaseC.Neo4jD.PostgreSQL答案:A、B、C12.在特征選擇過程中,可用于過濾式(Filter)方法的指標有()A.皮爾遜相關系數(shù)B.卡方檢驗C.遞歸特征消除D.互信息答案:A、B、D13.下列關于A/B測試的說法,正確的有()A.實驗組與對照組應同時并行運行B.樣本量越大,檢驗效能一定越高C.多重比較問題需進行p值校正D.停止實驗的唯一標準是p值小于0.05答案:A、C14.在構(gòu)建數(shù)據(jù)管道時,為保證ExactlyOnce語義,可采取的技術手段有()A.冪等寫B(tài).兩階段提交C.增加并行度D.事務性寫答案:A、B、D15.下列屬于聚類算法評估外部指標的有()A.調(diào)整蘭德指數(shù)(ARI)B.輪廓系數(shù)(Silhouette)C.歸一化互信息(NMI)D.CalinskiHarabasz指數(shù)答案:A、C三、填空題(每空2分,共20分)16.在Hive中,將字符串類型日期轉(zhuǎn)換為標準日期函數(shù)為________。答案:to_date17.若某電商網(wǎng)站日均PV為1億,峰值QPS約為3000,則其峰值放大系數(shù)約為________倍。(保留整數(shù))答案:3018.在Python中,使用sklearn進行標準化時,調(diào)用________類的fit_transform方法。答案:StandardScaler19.在SparkSQL中,創(chuàng)建全局臨時視圖的關鍵字為________。答案:CREATEGLOBALTEMPVIEW20.若某決策樹模型在訓練集準確率為100%,測試集準確率為68%,則該模型出現(xiàn)了________現(xiàn)象。答案:過擬合21.在FlinkCEP中,定義連續(xù)事件模式的關鍵詞為________。答案:next22.在SQL中,窗口函數(shù)row_number()必須與________子句配合使用才能生成正確序號。答案:over(orderby)23.若某分類模型TP=90,F(xiàn)P=10,F(xiàn)N=30,則召回率為________。(保留兩位小數(shù))答案:0.7524.在HDFS中,默認塊大小為________MB。答案:12825.在Python中,使用matplotlib將x軸刻度旋轉(zhuǎn)45度的函數(shù)為plt.xticks(rotation=________)。答案:45四、簡答題(共25分)26.(開放型,8分)簡述數(shù)據(jù)傾斜在Spark中的典型表現(xiàn)、產(chǎn)生原因及三種以上解決策略。答案:表現(xiàn):某Task處理數(shù)據(jù)量遠大于其他Task,導致Stage長時間卡在99%。原因:key分布不均,如空值、熱點key;分區(qū)函數(shù)不當;聚合操作。策略:1.兩階段聚合:加隨機前綴局部聚合,再去前綴全局聚合。2.過濾空值或單獨處理。3.增加reduce端并行度,即提高spark.sql.shuffle.partitions。4.使用mapsidejoin替代reducesidejoin。5.自定義分區(qū)器,將熱點key分散到多個分區(qū)。27.(封閉型,5分)給定用戶行為表user_action(user_id,item_id,action,log_time),寫出SQL:統(tǒng)計最近7天內(nèi),每日新增用戶數(shù)(新增定義為當日首次出現(xiàn))。答案:selectdt,count()asnew_usersfrom(selectuser_id,date(min(log_time))asdtfromuser_actionwherelog_time>=date_sub(current_date,7)groupbyuser_id)tgroupbydtorderbydt;28.(開放型,7分)解釋冷啟動問題在推薦系統(tǒng)中的含義,并分別給出用戶冷啟動與物品冷啟動的至少兩種應對方法。答案:含義:系統(tǒng)缺乏足夠歷史交互數(shù)據(jù),無法準確建模偏好。用戶冷啟動:1.利用注冊信息(年齡、性別、地域)做人口統(tǒng)計推薦。2.引導用戶選擇興趣標簽,基于內(nèi)容過濾。3.利用社交網(wǎng)絡好友行為擴散。物品冷啟動:1.基于內(nèi)容特征(文本、圖像、標簽)計算相似物品。2.利用專家標注或眾包快速收集初始反饋。3.將新物品在熱門物品附近曝光,快速積累交互。29.(封閉型,5分)簡述PCA降維的主要步驟,并說明如何確定主成分個數(shù)k。答案:步驟:1.標準化原始數(shù)據(jù)。2.計算協(xié)方差矩陣。3.對協(xié)方差矩陣做特征值分解,得到特征值與特征向量。4.將特征值從大到小排序,選擇前k個特征向量組成投影矩陣。5.用投影矩陣將原始數(shù)據(jù)映射到k維空間。確定k:1.累計解釋方差比例≥85%或90%。2.繪制碎石圖,找拐點。3.交叉驗證下游任務性能,選最優(yōu)k。五、應用題(共40分)30.(計算類,10分)某短視頻平臺隨機抽取10000條視頻,記錄播放量play與點贊數(shù)like,已知:∑play=1.2e8,∑like=3.6e6,∑play^2=2.5e12,∑like^2=2.0e9,∑play·like=6.0e10。求播放量和點贊數(shù)的皮爾遜相關系數(shù)r,保留三位小數(shù)。答案:r=(n∑play·like∑play∑like)/sqrt[(n∑play^2(∑play)^2)(n∑like^2(∑like)^2)]n=10000分子=100006.0e101.2e83.6e6=6.0e144.32e14=1.68e14分母左=100002.5e12(1.2e8)^2=2.5e161.44e16=1.06e16分母右=100002.0e9(3.6e6)^2=2.0e131.296e13=0.704e13分母=sqrt(1.06e160.704e13)=sqrt(7.4624e28)≈2.732e14r≈1.68e14/2.732e14≈0.61531.(分析類,15分)某電商公司采用XGBoost預測用戶是否購買高端商品,訓練集AUC=0.94,驗證集AUC=0.81。(1)指出模型面臨的主要問題,并給出兩種可視化驗證方法;(6分)(2)列出三種以上可操作的優(yōu)化方案,并說明預期效果;(6分)(3)若業(yè)務要求假陰性成本是假陽性的5倍,如何調(diào)整分類閾值?給出量化思路。(3分)答案:(1)過擬合??梢暬?.繪制訓練與驗證的ROC曲線對比;2.繪制學習曲線(樣本量AUC)觀察Gap;3.繪制特征重要性條形圖,檢查是否依賴噪聲特征。(2)優(yōu)化:1.增加L2正則參數(shù)lambda,降低模型復雜度;2.減少樹深度max_depth至5以內(nèi);3.增加最小葉子權(quán)重min_child_weight;4.引入Dropout(rate=0.2)或Subsample=0.8;5.擴大訓練集或數(shù)據(jù)增強;6.采用EarlyStopping,rounds=50。預期:訓練AUC降至0.88,驗證AUC升至0.85,Gap縮小。(3)設假陽性成本1元,假陰性5元。最優(yōu)閾值應滿足:閾值t滿足:cost_fnP(FN|t)=cost_fpP(FP|t)即5(1Recall(t))=1(1Specificity(t))在ROC空間找滿足斜率=5/(1)的點,對應閾值t≈0.27(需根據(jù)PR曲線實際插值)。32.(綜合類,15分)某市政府開放2024年出租車GPS數(shù)據(jù),字段:vehicle_id,longitude,latitude,status(0空載1載客),timestamp。任務:識別潛在黑車(長期空載卻仍在道路上移動)。要求:(1)給出數(shù)據(jù)清洗要點;(3分)(2)設計特征工程,至少4個特征;(4分)(3)選擇算法與評估指標,說明理由;(3分)(4)給出偽代碼或流程圖描述批處理+實時檢測雙模式。(5分)答案:(1)清洗:1.剔除經(jīng)緯度越界、異常速度>120km/h;2.按vehicle_id排序,修復亂序時間戳;3.插值補全缺失坐標;4.剔除重復上報點。(2)特征:1.日均空載里程占比;2.空載時段標準差(是否24小時均勻);3.空載軌跡迂回度(軌跡長度/起止直線距離);4.夜間(22:0005:00)空載移動次數(shù);5.空載熱點區(qū)域聚集度(DBSCAN密度)。(3)算法:采用半監(jiān)督異常檢測——IsolationForest,理由:無需標注黑車樣本,對高維特征魯棒;評估:用人工抽檢1000輛車,計算Preci

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論