版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與分析復(fù)習(xí)考試卷及答案2025年一、單項選擇題(每題2分,共20分)1.以下哪種數(shù)據(jù)預(yù)處理方法用于處理數(shù)據(jù)中的缺失值?A.主成分分析(PCA)B.均值填補C.標(biāo)準(zhǔn)化(Z-score)D.離散化分箱2.在分類任務(wù)中,若樣本類別極不均衡(如正類占99%),以下哪種評估指標(biāo)最不適用?A.準(zhǔn)確率(Accuracy)B.F1-scoreC.ROC-AUCD.召回率(Recall)3.K-means聚類算法的核心目標(biāo)是最小化:A.類間方差B.類內(nèi)樣本與質(zhì)心的歐氏距離平方和C.輪廓系數(shù)D.曼哈頓距離總和4.關(guān)聯(lián)規(guī)則挖掘中,若規(guī)則“面包→牛奶”的支持度為0.3,置信度為0.6,則以下說法正確的是:A.同時購買面包和牛奶的用戶占30%B.購買面包的用戶中60%會購買牛奶C.購買牛奶的用戶中30%會購買面包D.該規(guī)則的提升度一定大于15.決策樹ID3算法選擇分裂屬性的依據(jù)是:A.信息增益比B.基尼系數(shù)C.信息增益D.均方誤差6.以下哪種算法屬于無監(jiān)督學(xué)習(xí)?A.邏輯回歸(LogisticRegression)B.支持向量機(SVM)C.K近鄰(KNN)D.密度聚類(DBSCAN)7.在特征選擇中,卡方檢驗(Chi-squareTest)主要用于評估:A.連續(xù)特征與目標(biāo)變量的線性相關(guān)性B.類別特征與目標(biāo)變量的獨立性C.特征間的多重共線性D.特征的方差大小8.集成學(xué)習(xí)中,隨機森林(RandomForest)與梯度提升樹(GBDT)的主要區(qū)別在于:A.隨機森林基于Bagging,GBDT基于BoostingB.隨機森林使用決策樹,GBDT使用線性模型C.隨機森林關(guān)注降低偏差,GBDT關(guān)注降低方差D.隨機森林只能分類,GBDT只能回歸9.時間序列預(yù)測中,ARIMA模型的參數(shù)(p,d,q)分別代表:A.自回歸階數(shù)、差分次數(shù)、移動平均階數(shù)B.移動平均階數(shù)、差分次數(shù)、自回歸階數(shù)C.自回歸階數(shù)、平滑次數(shù)、移動平均階數(shù)D.移動平均階數(shù)、平滑次數(shù)、自回歸階數(shù)10.在異常檢測中,孤立森林(IsolationForest)的核心思想是:A.計算樣本到最近鄰的距離B.通過隨機分割快速隔離異常點C.基于密度估計判斷離群程度D.使用支持向量機劃分正常與異常區(qū)域二、填空題(每空2分,共20分)1.數(shù)據(jù)清洗中,處理噪聲數(shù)據(jù)的常用方法包括分箱、回歸和__________。2.分類算法評估中,精確率(Precision)的計算公式為__________(用混淆矩陣元素表示)。3.K-means算法需要預(yù)先指定的參數(shù)是__________。4.關(guān)聯(lián)規(guī)則挖掘中,支持度的計算公式是__________(用集合表示)。5.決策樹剪枝的目的是__________。6.主成分分析(PCA)的核心是通過__________變換將高維數(shù)據(jù)投影到低維空間。7.邏輯回歸模型的決策邊界是__________(線性/非線性)的。8.聚類算法中,DBSCAN的兩個關(guān)鍵參數(shù)是__________和__________。9.時間序列的四大組成部分包括趨勢、季節(jié)變動、循環(huán)變動和__________。三、簡答題(每題6分,共30分)1.簡述數(shù)據(jù)預(yù)處理的主要步驟及其必要性。2.對比分類與聚類的區(qū)別(從任務(wù)目標(biāo)、輸入數(shù)據(jù)、輸出形式三方面說明)。3.解釋關(guān)聯(lián)規(guī)則中“支持度-置信度框架”的作用,并說明為何需要同時考慮兩者。4.集成學(xué)習(xí)中,Bagging與Boosting的核心差異是什么?各舉一個典型算法。5.簡述隨機森林(RandomForest)的構(gòu)建過程,并說明其抗過擬合的原因。四、計算題(共30分)1.(8分)某數(shù)據(jù)集包含3個類別,樣本分布為:類別A有12個樣本,類別B有8個樣本,類別C有5個樣本。計算該數(shù)據(jù)集的信息熵(熵的底數(shù)為2)。2.(8分)使用K-means算法對以下二維數(shù)據(jù)點進行聚類(k=2),初始質(zhì)心為C1=(1,2)和C2=(5,4)。數(shù)據(jù)點:(1,3)、(2,1)、(3,5)、(4,3)、(6,5)、(5,2)。要求:(1)計算第一次迭代時各點歸屬的簇;(2)計算第一次迭代后的新質(zhì)心。3.(7分)某電商數(shù)據(jù)集包含1000條購物籃記錄,其中購買“啤酒”的記錄有300條,購買“尿布”的記錄有400條,同時購買“啤酒”和“尿布”的記錄有150條。計算規(guī)則“啤酒→尿布”的支持度、置信度和提升度。4.(7分)某二分類模型的混淆矩陣如下(行:真實類別,列:預(yù)測類別):預(yù)測正類|預(yù)測負類真實正類|80|20真實負類|10|90計算準(zhǔn)確率、精確率、召回率和F1-score。五、綜合分析題(共20分)1.(10分)某銀行希望通過客戶交易數(shù)據(jù)識別潛在的高價值客戶(定義為年消費金額≥50萬元的客戶)。現(xiàn)有數(shù)據(jù)包括客戶年齡、職業(yè)、月收入、近12個月交易次數(shù)、平均單筆交易金額、是否持有信用卡等變量。(1)請設(shè)計數(shù)據(jù)挖掘流程,包括關(guān)鍵步驟;(2)推薦2種適用的分類算法,并說明選擇理由;(3)若樣本中高價值客戶僅占5%,需重點關(guān)注哪個評估指標(biāo)?為什么?2.(10分)某電商平臺希望分析用戶行為數(shù)據(jù),挖掘“購買A商品后更可能購買B商品”的關(guān)聯(lián)規(guī)則。已知數(shù)據(jù)集包含10萬條購物籃記錄,商品種類超過2000種。(1)直接使用Apriori算法可能面臨什么問題?如何優(yōu)化?(2)若設(shè)定最小支持度為0.5%,最小置信度為60%,解釋這兩個閾值的實際意義;(3)假設(shè)挖掘出規(guī)則“手機→手機殼”的支持度為0.8%,置信度為75%,提升度為3.2,如何解讀該規(guī)則的有效性?答案一、單項選擇題1.B2.A3.B4.B5.C6.D7.B8.A9.A10.B二、填空題1.基于鄰近值的填補(或“基于規(guī)則的填補”)2.TP/(TP+FP)(TP:真正例,F(xiàn)P:假正例)3.簇的數(shù)量k4.support(X→Y)=P(X∪Y)=|X∪Y|/總事務(wù)數(shù)5.防止過擬合,提高模型泛化能力6.正交(或“線性”)7.線性8.鄰域半徑ε;最小樣本數(shù)MinPts9.隨機波動(或“不規(guī)則變動”)三、簡答題1.主要步驟:數(shù)據(jù)清洗(處理缺失值、噪聲、不一致數(shù)據(jù))、數(shù)據(jù)集成(多源數(shù)據(jù)合并)、數(shù)據(jù)變換(標(biāo)準(zhǔn)化、離散化、特征構(gòu)造)、數(shù)據(jù)歸約(降維、數(shù)值歸約)。必要性:原始數(shù)據(jù)通常存在質(zhì)量問題(如缺失、噪聲),直接建模會降低模型性能;通過預(yù)處理可提升數(shù)據(jù)質(zhì)量,增強特征與目標(biāo)的相關(guān)性,提高模型準(zhǔn)確性和穩(wěn)定性。2.區(qū)別:任務(wù)目標(biāo):分類是有監(jiān)督學(xué)習(xí),目標(biāo)是根據(jù)已知標(biāo)簽訓(xùn)練模型預(yù)測新樣本類別;聚類是無監(jiān)督學(xué)習(xí),目標(biāo)是根據(jù)樣本間相似性自動分組。輸入數(shù)據(jù):分類需要帶標(biāo)簽的訓(xùn)練數(shù)據(jù);聚類僅使用無標(biāo)簽數(shù)據(jù)。輸出形式:分類輸出具體類別(如“正類/負類”);聚類輸出簇(類別標(biāo)簽由算法提供,無先驗意義)。3.支持度衡量規(guī)則的普遍程度(即同時包含X和Y的事務(wù)占比),置信度衡量規(guī)則的可靠性(即包含X的事務(wù)中包含Y的條件概率)。僅用支持度可能得到大量無意義的高頻規(guī)則(如“鹽→水”),僅用置信度可能得到低覆蓋但高可靠的規(guī)則(如“稀有商品A→稀有商品B”)。兩者結(jié)合可篩選出既普遍又可靠的規(guī)則。4.核心差異:Bagging通過自助采樣(Bootstrap)提供多個獨立子集,并行訓(xùn)練基模型,最終通過投票/平均集成,目標(biāo)是降低方差;Boosting通過串行訓(xùn)練基模型,每個模型重點修正前序模型的錯誤,目標(biāo)是降低偏差。典型算法:Bagging(隨機森林)、Boosting(GBDT/XGBoost)。5.構(gòu)建過程:(1)從原始數(shù)據(jù)中自助采樣提供多個訓(xùn)練子集;(2)每個子集訓(xùn)練一棵決策樹,且每次分裂時隨機選擇部分特征;(3)所有樹并行訓(xùn)練,預(yù)測時通過投票(分類)或平均(回歸)集成結(jié)果??惯^擬合原因:隨機采樣和隨機特征選擇降低了基模型的方差,集成后整體模型更魯棒;多棵樹的投票機制減少了單棵樹過擬合的影響。四、計算題1.總樣本數(shù)N=12+8+5=25信息熵H=(12/25)log?(12/25)(8/25)log?(8/25)(5/25)log?(5/25)計算得:H≈-0.48×(-1.06)-0.32×(-1.64)-0.2×(-2.32)=0.51+0.52+0.46=1.49(比特)2.(1)計算各點到C1(1,2)和C2(5,4)的歐氏距離:(1,3):到C1距離=√[(1-1)2+(3-2)2]=1;到C2距離=√[(1-5)2+(3-4)2]=√17≈4.12→歸C1(2,1):到C1距離=√[(2-1)2+(1-2)2]=√2≈1.41;到C2距離=√[(2-5)2+(1-4)2]=√18≈4.24→歸C1(3,5):到C1距離=√[(3-1)2+(5-2)2]=√13≈3.61;到C2距離=√[(3-5)2+(5-4)2]=√5≈2.24→歸C2(4,3):到C1距離=√[(4-1)2+(3-2)2]=√10≈3.16;到C2距離=√[(4-5)2+(3-4)2]=√2≈1.41→歸C2(6,5):到C1距離=√[(6-1)2+(5-2)2]=√34≈5.83;到C2距離=√[(6-5)2+(5-4)2]=√2≈1.41→歸C2(5,2):到C1距離=√[(5-1)2+(2-2)2]=4;到C2距離=√[(5-5)2+(2-4)2]=2→歸C2第一次迭代簇劃分:C1簇={(1,3),(2,1)};C2簇={(3,5),(4,3),(6,5),(5,2)}(2)新質(zhì)心計算:C1新質(zhì)心=((1+2)/2,(3+1)/2)=(1.5,2)C2新質(zhì)心=((3+4+6+5)/4,(5+3+5+2)/4)=(18/4,15/4)=(4.5,3.75)3.支持度=150/1000=15%;置信度=150/300=50%;提升度=置信度/P(尿布)=0.5/(400/1000)=0.5/0.4=1.254.準(zhǔn)確率=(80+90)/(80+20+10+90)=170/200=85%精確率=80/(80+10)=80/90≈88.89%召回率=80/(80+20)=80/100=80%F1-score=2×(精確率×召回率)/(精確率+召回率)=2×(0.8889×0.8)/(0.8889+0.8)=2×0.7111/1.6889≈0.84五、綜合分析題1.(1)流程:數(shù)據(jù)采集(提取客戶交易、屬性數(shù)據(jù))→數(shù)據(jù)預(yù)處理(處理缺失值,如用收入中位數(shù)填補;標(biāo)準(zhǔn)化月收入等連續(xù)變量;將職業(yè)離散化為啞變量)→特征工程(構(gòu)造新特征,如“月均消費金額=年消費金額/12”)→劃分訓(xùn)練集/測試集→模型訓(xùn)練(選擇分類算法)→模型評估(使用F1-score或ROC-AUC)→部署與應(yīng)用(輸出高價值客戶名單)。(2)推薦算法:XGBoost:能處理高維數(shù)據(jù),自動處理特征間非線性關(guān)系,對類別不平衡有調(diào)節(jié)參數(shù)(如scale_pos_weight);邏輯回歸:可解釋性強,能明確各特征對高價值客戶的影響方向(如月收入每增加1萬元,成為高價值客戶的概率提升×%),適合業(yè)務(wù)人員理解。(3)重點關(guān)注召回率(或F1-score)。因高價值客戶是少數(shù)類(5%),準(zhǔn)確率會被多數(shù)類(95%非高價值客戶)主導(dǎo),即使模型全預(yù)測為負類,準(zhǔn)確率也達95%,無法反映真實性能。召回率衡量模型正確識別高價值客戶的比例,提升召回率可避免遺漏潛在高價值客戶,對業(yè)務(wù)更有意義。2.(1)問題:商品種類多(2000種),計算頻繁1-項集時需遍歷所有商品組合,時間復(fù)雜度高(O(N×M2),N為記錄數(shù),M為商品數(shù));內(nèi)存消耗大,需存儲大量候選項集。優(yōu)化方法:使用FP-growth算法,通過構(gòu)建FP樹壓縮數(shù)據(jù),避免重復(fù)掃描數(shù)據(jù)庫;或降低最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年紅十字救護員理論考試及答案
- 全國青少年機器人技術(shù)等級考試(三級上機考試)模擬試題含答案
- 2025年安管人員考試題庫及答案
- 2025年農(nóng)村建設(shè)工匠考試題庫及答案
- 2025年工地三級安全教育試卷含答案
- 藥物過敏簡述試題及答案
- 2025年安全生產(chǎn)事故案例分析與警示教育安全應(yīng)急處理能力測試卷及答案
- 建設(shè)工程施工合同糾紛要素式起訴狀模板可直接打印使用
- 爬蟲技術(shù)路線規(guī)劃
- 生態(tài)教育2026年課程開發(fā)
- 殯儀館鮮花采購?fù)稑?biāo)方案
- TOC基本課程講義學(xué)員版-王仕斌
- T-GDWCA 0035-2018 HDMI 連接線標(biāo)準(zhǔn)規(guī)范
- 面板堆石壩面板滑模結(jié)構(gòu)設(shè)計
- 初中語文新課程標(biāo)準(zhǔn)與解讀課件
- 無人機裝調(diào)檢修工培訓(xùn)計劃及大綱
- 中建通風(fēng)與空調(diào)施工方案
- 春よ、來い(春天來了)高木綾子演奏長笛曲譜鋼琴伴奏
- ARJ21機型理論知識考試題庫(匯總版)
- 2023年婁底市建設(shè)系統(tǒng)事業(yè)單位招聘考試筆試模擬試題及答案解析
- GB/T 4623-2014環(huán)形混凝土電桿
評論
0/150
提交評論