(2025年)數(shù)據(jù)挖掘期末考題(答案)_第1頁
(2025年)數(shù)據(jù)挖掘期末考題(答案)_第2頁
(2025年)數(shù)據(jù)挖掘期末考題(答案)_第3頁
(2025年)數(shù)據(jù)挖掘期末考題(答案)_第4頁
(2025年)數(shù)據(jù)挖掘期末考題(答案)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(2025年)數(shù)據(jù)挖掘期末考題(答案)一、單項選擇題(每題2分,共10分)1.以下哪項屬于數(shù)據(jù)清洗的核心操作?A.對數(shù)據(jù)進行Z-score標準化B.填補缺失的用戶年齡字段C.使用主成分分析降維D.從數(shù)據(jù)庫中隨機抽樣10%數(shù)據(jù)答案:B2.在分類任務(wù)中,支持向量機(SVM)與決策樹的關(guān)鍵區(qū)別在于?A.SVM只能處理二分類,決策樹支持多分類B.SVM通過最大化類別間隔構(gòu)建超平面,決策樹通過特征劃分構(gòu)建樹結(jié)構(gòu)C.SVM對缺失值不敏感,決策樹需要嚴格數(shù)據(jù)清洗D.SVM的訓練時間遠短于決策樹答案:B3.評估無監(jiān)督聚類模型性能時,輪廓系數(shù)(SilhouetteCoefficient)的取值范圍是?A.[-1,1]B.[0,1]C.[-∞,∞]D.[0,∞]答案:A4.關(guān)聯(lián)規(guī)則挖掘中,置信度(Confidence)的數(shù)學定義是?A.P(A∪B)B.P(A∩B)C.P(B|A)D.P(A|B)答案:C5.以下哪種異常檢測方法屬于基于密度的非監(jiān)督學習?A.孤立森林(IsolationForest)B.局部離群因子(LOF)C.單類支持向量機(One-ClassSVM)D.基于距離的K近鄰(K-NN)答案:B二、填空題(每題2分,共10分)1.數(shù)據(jù)標準化中,Z-score標準化的計算公式為______。答案:(x-μ)/σ(其中μ為均值,σ為標準差)2.決策樹算法中,ID3使用______作為特征選擇的分裂準則。答案:信息增益3.K-means聚類的目標函數(shù)是最小化所有樣本到其所屬簇中心的______之和。答案:歐氏距離平方4.Apriori算法的核心思想是利用______性質(zhì)(即頻繁項集的所有子集也必須是頻繁的)來減少計算量。答案:先驗(或“向下閉合”)5.ROC曲線的橫軸是______,縱軸是______。答案:假正率(FPR);真正率(TPR)三、簡答題(每題10分,共40分)1.簡述數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的必要性,并列舉至少3種常見的預(yù)處理任務(wù)。答案:數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵步驟,必要性體現(xiàn)在:原始數(shù)據(jù)通常存在缺失值、噪聲、不一致等質(zhì)量問題,直接建模會導致模型偏差或過擬合;不同算法對數(shù)據(jù)格式(如連續(xù)性、離散化)、分布(如正態(tài)性)有特定要求,預(yù)處理可提升模型性能;預(yù)處理能降低數(shù)據(jù)維度,減少計算成本。常見任務(wù)包括:缺失值處理(填補或刪除)、噪聲數(shù)據(jù)清洗(平滑或修正)、數(shù)據(jù)標準化/歸一化、離散化(分箱)、特征選擇或降維(如PCA)。2.對比隨機森林(RandomForest)與梯度提升決策樹(GBDT)在集成方式、基學習器和誤差處理上的主要差異。答案:集成方式:隨機森林通過Bagging(自助采樣)并行訓練多棵決策樹,最終結(jié)果投票或平均;GBDT通過Boosting串行訓練,每棵樹擬合前序模型的殘差?;鶎W習器:隨機森林的基學習器是完全生長的決策樹(高方差、低偏差);GBDT的基學習器是弱分類器(低深度決策樹,低方差、高偏差)。誤差處理:隨機森林主要通過降低模型方差提高泛化能力;GBDT通過逐步減少偏差(擬合殘差)提升精度。此外,隨機森林對異常值不敏感,GBDT易受異常值影響;隨機森林訓練速度更快,GBDT需串行訓練,計算成本更高。3.說明DBSCAN聚類算法的優(yōu)缺點,并解釋其核心參數(shù)ε(鄰域半徑)和MinPts(最小點數(shù))的作用。答案:優(yōu)點:無需預(yù)先指定簇的數(shù)量;能識別任意形狀的簇(如非凸簇);對噪聲(離群點)不敏感,可自動標記為噪聲點;適用于密度分布不均的數(shù)據(jù)。缺點:對高維數(shù)據(jù)效果較差(維度災(zāi)難導致距離度量失效);參數(shù)ε和MinPts的選擇敏感,需結(jié)合領(lǐng)域知識或經(jīng)驗調(diào)整;當數(shù)據(jù)中不同簇的密度差異較大時(如部分簇稀疏、部分密集),可能無法正確劃分。核心參數(shù)作用:ε定義了樣本的鄰域范圍(距離≤ε的點為鄰居),MinPts指定了形成一個簇所需的最小鄰居數(shù)(包括自身)。若樣本的ε鄰域內(nèi)包含≥MinPts個點,則為核心點;若鄰域內(nèi)點數(shù)<MinPts但被核心點鄰域包含,則為邊界點;否則為噪聲點。4.列舉至少5種分類模型的評估指標,并說明在類別不平衡(如正類占比5%)場景下,哪些指標更具參考價值。答案:常見評估指標:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-score(F1)、AUC-ROC(受試者工作特征曲線下面積)、AUC-PR(精確率-召回率曲線下面積)、混淆矩陣。在類別不平衡場景下,準確率易受主導類(負類)影響,無法反映模型對少數(shù)類(正類)的識別能力,因此參考價值低。更有效的指標包括:召回率(衡量正類被正確識別的比例,避免漏檢)、精確率(衡量預(yù)測為正類的樣本中實際為正類的比例,避免誤檢)、F1-score(精確率和召回率的調(diào)和平均,平衡兩者)、AUC-ROC(對類別不平衡不敏感,綜合考慮不同閾值下的真正率和假正率)、AUC-PR(在正類極小時,比ROC更能反映模型性能)。四、應(yīng)用題(每題20分,共40分)1.某電商平臺收集了2023年用戶行為數(shù)據(jù),字段包括:用戶ID(唯一標識)、年齡(缺失率12%)、性別(男/女/未知)、月均消費金額(存在個別極大值,如10萬元,遠超95%分位數(shù))、購買品類(服裝/3C/家居等)、是否復(fù)購(是/否,目標變量)。請設(shè)計一套完整的數(shù)據(jù)預(yù)處理流程,包括缺失值處理、異常值檢測與處理、類別特征編碼,并說明各步驟的具體操作及理由。答案:(1)缺失值處理:-年齡字段:缺失率12%(<20%),不適合直接刪除??紤]使用多重插補(MICE),基于性別、月均消費金額、購買品類等相關(guān)特征構(gòu)建回歸模型預(yù)測缺失值;或用與用戶購買品類對應(yīng)的年齡中位數(shù)填補(如3C品類用戶年齡中位數(shù)可能高于家居品類),保留年齡與其他特征的相關(guān)性。-性別字段:“未知”占比若較低(如<5%),可直接刪除對應(yīng)樣本;若較高,可將“未知”作為獨立類別(如編碼為0,男1,女2),避免信息損失。(2)異常值檢測與處理:-月均消費金額的極大值:首先用箱線圖法檢測(計算IQR=Q3-Q1,定義異常值為>Q3+1.5IQR),或Z-score法(|Z|>3視為異常)。若異常值是錄入錯誤(如10萬元實際為1萬元),則修正;若為真實高消費用戶(如VIP客戶),需保留并標注(作為特征“是否高消費”),因其可能對“是否復(fù)購”有重要影響;若異常值數(shù)量極少(如<1%),可刪除以避免干擾模型。(3)類別特征編碼:-性別(男/女/未知):名義變量,采用獨熱編碼(One-HotEncoding),提供3個二進制特征(如性別_男、性別_女、性別_未知),避免模型錯誤理解類別間順序。-購買品類(服裝/3C/家居等):若品類數(shù)≤10,用獨熱編碼;若超過10類,可合并低頻品類為“其他”,或使用目標編碼(TargetEncoding),用“是否復(fù)購”的均值對品類進行編碼(需交叉驗證避免過擬合)。(4)其他預(yù)處理:-目標變量“是否復(fù)購”轉(zhuǎn)換為二值編碼(是=1,否=0)。-對年齡、月均消費金額進行標準化(Z-score),消除量綱影響,提升模型(如SVM、KNN)訓練效率。2.基于Python的scikit-learn庫,實現(xiàn)一個K近鄰(KNN)分類模型,用于預(yù)測上述電商用戶是否復(fù)購(“是否復(fù)購”為目標變量)。要求:(1)寫出完整的代碼框架(包括數(shù)據(jù)加載、劃分訓練集/測試集、數(shù)據(jù)預(yù)處理、模型訓練、預(yù)測與評估);(2)說明K值(鄰居數(shù))選擇的影響,并給出選擇K值的常用方法;(3)評估模型時輸出準確率、精確率、召回率、F1-score和混淆矩陣。答案:(1)Python代碼實現(xiàn):```python導入庫importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScaler,OneHotEncoderfromposeimportColumnTransformerfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score,confusion_matrixfromsklearn.pipelineimportPipeline加載數(shù)據(jù)(假設(shè)數(shù)據(jù)已讀取為DataFrame)data=pd.read_csv('ecommerce_user_data.csv')特征與目標分離X=data.drop(['用戶ID','是否復(fù)購'],axis=1)y=data['是否復(fù)購']劃分訓練集與測試集(7:3)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42,stratify=y)數(shù)據(jù)預(yù)處理:類別特征獨熱編碼,數(shù)值特征標準化categorical_features=['性別','購買品類']numerical_features=['年齡','月均消費金額']preprocessor=ColumnTransformer(transformers=[('num',StandardScaler(),numerical_features),('cat',OneHotEncoder(handle_unknown='ignore'),categorical_features)])構(gòu)建KNN模型管道(含預(yù)處理)model=Pipeline([('preprocessor',preprocessor),('classifier',KNeighborsClassifier(n_neighbors=5))初始K=5])訓練模型model.fit(X_train,y_train)預(yù)測y_pred=model.predict(X_test)評估print("準確率:",accuracy_score(y_test,y_pred))print("精確率(正類):",precision_score(y_test,y_pred,pos_label=1))print("召回率(正類):",recall_score(y_test,y_pred,pos_label=1))print("F1-score(正類):",f1_score(y_test,y_pred,pos_label=1))print("混淆矩陣:\n",confusion_matrix(y_test,y_pred))```(2)K值選擇的影響:K值過?。ㄈ鏚=1),模型易受噪聲影響,泛化能力差(過擬合);K值過大(如K=樣本量1/2),模型對局部特征不敏感,偏向多數(shù)類(欠擬合)。常用選擇方法:-交叉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論