2025年數(shù)據(jù)挖掘與分析考試試卷及答案_第1頁
2025年數(shù)據(jù)挖掘與分析考試試卷及答案_第2頁
2025年數(shù)據(jù)挖掘與分析考試試卷及答案_第3頁
2025年數(shù)據(jù)挖掘與分析考試試卷及答案_第4頁
2025年數(shù)據(jù)挖掘與分析考試試卷及答案_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年數(shù)據(jù)挖掘與分析考試試卷及答案一、單項選擇題(每題2分,共20分)1.以下哪項不屬于數(shù)據(jù)預處理中的常見任務?A.缺失值處理B.特征縮放C.模型調參D.異常值檢測2.在分類問題中,若樣本類別極不均衡(如正類占1%),最不適合的評估指標是?A.準確率B.F1-scoreC.AUC-ROCD.召回率3.關聯(lián)規(guī)則挖掘中,若某規(guī)則的支持度為0.3,置信度為0.8,提升度為1.2,則以下說法正確的是?A.該規(guī)則的發(fā)生完全獨立于項集的先驗概率B.提升度>1說明規(guī)則有效,項集間存在正相關C.支持度0.3表示30%的事務同時包含前件和后件D.置信度0.8表示前件出現(xiàn)時后件出現(xiàn)的概率為20%4.K-means聚類的核心優(yōu)化目標是?A.最小化類內平方和B.最大化類間距離C.最小化輪廓系數(shù)D.最大化DB指數(shù)5.以下哪種算法不屬于集成學習?A.隨機森林B.XGBoostC.邏輯回歸D.AdaBoost6.決策樹中,信息增益的計算基于?A.基尼系數(shù)B.信息熵C.均方誤差D.互信息7.在時間序列預測中,ARIMA模型的“MA”代表?A.自回歸B.移動平均C.差分D.季節(jié)調整8.以下哪種降維方法屬于線性降維?A.t-SNEB.主成分分析(PCA)C.局部線性嵌入(LLE)D.拉普拉斯特征映射9.文本挖掘中,TF-IDF的主要作用是?A.提取文本主題B.衡量詞的重要性C.實現(xiàn)文本分類D.提供詞向量10.若某模型在訓練集上的準確率為95%,測試集上的準確率為60%,最可能的原因是?A.數(shù)據(jù)泄露B.欠擬合C.過擬合D.特征不足二、填空題(每空1分,共15分)1.數(shù)據(jù)清洗中,處理缺失值的方法包括刪除記錄、______、______(列舉兩種)。2.分類模型評估中,精確率(Precision)的計算公式是______,召回率(Recall)的計算公式是______。3.關聯(lián)規(guī)則挖掘中,Apriori算法的核心思想是______。4.聚類算法中,DBSCAN的全稱是______,其關鍵參數(shù)是______和______。5.集成學習的兩種主要框架是______(如隨機森林)和______(如AdaBoost)。6.時間序列的四個基本成分是趨勢、______、______和隨機波動。7.特征工程中,對類別型特征的常用處理方法包括______(如性別→0/1)和______(如地區(qū)→多個二進制特征)。三、簡答題(每題8分,共40分)1.簡述數(shù)據(jù)預處理在數(shù)據(jù)挖掘流程中的重要性,并列舉至少3種預處理技術及其應用場景。2.對比分類任務與回歸任務的異同,各舉一個實際應用案例。3.解釋過擬合的概念,說明其產(chǎn)生原因及3種常用解決方法。4.關聯(lián)規(guī)則中的“支持度-置信度框架”存在哪些局限性?如何通過提升度(Lift)改進?5.簡述K-means算法的步驟,并分析其優(yōu)缺點(各至少2點)。四、應用題(共25分)(一)數(shù)據(jù)預處理(8分)某電商用戶行為數(shù)據(jù)集包含以下字段:用戶ID(整數(shù))、年齡(缺失率15%)、性別(缺失率5%)、購物金額(存在異常值)、最近一次購物時間(時間戳)。要求:設計一套預處理方案,包括缺失值處理、異常值檢測、時間特征提取的具體方法,并說明選擇依據(jù)。(二)分類模型構建(9分)使用某銀行客戶違約數(shù)據(jù)集(特征包括收入、負債比、歷史逾期次數(shù)等,標簽為是否違約),要求:1.選擇兩種分類算法(如邏輯回歸、隨機森林),簡述其原理差異;2.設計模型評估流程(包括數(shù)據(jù)劃分、評估指標選擇及原因);3.若模型在訓練集上表現(xiàn)良好但測試集差,提出3種優(yōu)化策略。(三)聚類分析(8分)某零售企業(yè)希望通過客戶購買數(shù)據(jù)(字段:年消費金額、購買頻率、最近一次購買時間間隔)進行分群,要求:1.選擇合適的聚類算法(說明理由);2.設計特征預處理步驟(包括標準化方法選擇);3.若聚類結果需業(yè)務解釋,提出2個分析維度(如高價值客戶特征)。答案一、單項選擇題1.C2.A3.B4.A5.C6.B7.B8.B9.B10.C二、填空題1.均值/中位數(shù)填充、回歸預測填充(或熱卡填充等);2.TP/(TP+FP)、TP/(TP+FN);3.先驗性質(頻繁項集的所有子集也必須是頻繁的);4.基于密度的空間聚類應用噪聲、鄰域半徑ε、最小樣本數(shù)MinPts;5.Bagging、Boosting;6.季節(jié)成分、循環(huán)成分;7.標簽編碼、獨熱編碼(或虛擬變量編碼)。三、簡答題1.重要性:原始數(shù)據(jù)通常存在噪聲、缺失、冗余等問題,直接建模會降低模型性能和可靠性。預處理技術:-缺失值處理(如年齡用中位數(shù)填充,因年齡分布可能偏態(tài));-異常值檢測(如購物金額用IQR法,因可能存在極端高消費);-特征標準化(如Z-score標準化,消除量綱影響)。2.相同點:均為監(jiān)督學習,需標簽訓練;不同點:分類輸出離散類別(如用戶是否流失),回歸輸出連續(xù)值(如用戶下季度消費金額)。案例:分類-信用卡欺詐檢測,回歸-房價預測。3.過擬合:模型在訓練集表現(xiàn)好但泛化能力差。原因:模型復雜度高、數(shù)據(jù)量小、噪聲敏感。解決方法:正則化(如L2正則)、增加數(shù)據(jù)、早停法、特征選擇。4.局限性:支持度低的規(guī)則可能被忽略(如小眾但高價值規(guī)則);置信度未考慮項集自身頻率(如后件本身高頻可能虛增置信度)。提升度=置信度/(后件支持度),反映規(guī)則的實際增益,>1表示正相關,=1表示獨立,<1表示負相關。5.步驟:①隨機初始化K個質心;②分配樣本到最近質心;③更新質心;④重復至質心不再變化或迭代結束。優(yōu)點:計算高效、易實現(xiàn);缺點:需預設K值、對初始質心敏感、無法處理非凸形狀簇。四、應用題(一)預處理方案:-缺失值處理:年齡用用戶分組的中位數(shù)填充(如按性別、購物金額分組),因年齡與其他特征可能相關;性別用眾數(shù)填充(缺失率低,性別分布集中)。-異常值檢測:購物金額用IQR法(計算Q1、Q3,定義上下界為Q1-1.5IQR和Q3+1.5IQR),因金額可能存在少量極端值(如大額訂單),不直接刪除而用上下界截斷,保留業(yè)務意義。-時間特征提?。簩⒆罱淮钨徫飼r間轉換為“距離當前天數(shù)”(反映活躍程度),并提取月份、星期(分析季節(jié)性)。(二)分類模型構建:1.邏輯回歸(線性模型,通過sigmoid函數(shù)輸出概率,適用于線性可分數(shù)據(jù))與隨機森林(集成方法,多棵決策樹投票,能捕捉非線性關系)。2.評估流程:①按7:2:1劃分訓練集、驗證集、測試集(分層抽樣保證類別分布);②評估指標選F1-score(平衡精確率與召回率,解決類別不平衡)和AUC-ROC(衡量模型區(qū)分能力)。3.優(yōu)化策略:①增加正則化參數(shù)(如邏輯回歸的C,隨機森林的max_depth);②過采樣/欠采樣處理不平衡數(shù)據(jù);③特征工程(如添加交互特征、刪除冗余特征)。(三)聚類分析:1.選擇K-means(因數(shù)據(jù)為數(shù)值型,目標是發(fā)現(xiàn)球形簇,且計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論