2025年K-means算法及聚類測試卷附答案_第1頁
2025年K-means算法及聚類測試卷附答案_第2頁
2025年K-means算法及聚類測試卷附答案_第3頁
2025年K-means算法及聚類測試卷附答案_第4頁
2025年K-means算法及聚類測試卷附答案_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年K-means算法及聚類測試卷附答案一、單項(xiàng)選擇題(每題3分,共15分)1.關(guān)于K-means算法的核心目標(biāo),以下表述正確的是:A.最大化不同簇間樣本的相似性B.最小化同一簇內(nèi)樣本與質(zhì)心的歐氏距離平方和C.最大化所有樣本到最近質(zhì)心的曼哈頓距離之和D.最小化簇的數(shù)量K2.以下哪種情況最可能導(dǎo)致K-means算法陷入局部最優(yōu)?A.使用K-means++初始化質(zhì)心B.樣本分布存在明顯的球狀簇結(jié)構(gòu)C.初始質(zhì)心選擇過于接近D.數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理3.評(píng)估K-means聚類效果時(shí),輪廓系數(shù)(SilhouetteCoefficient)的取值范圍是:A.[-1,1]B.[0,1]C.[-∞,+∞]D.[0,+∞)4.針對(duì)K-means對(duì)噪聲敏感的問題,以下改進(jìn)方法中不適用的是:A.預(yù)處理階段使用DBSCAN去除離群點(diǎn)B.采用曼哈頓距離替代歐氏距離計(jì)算樣本與質(zhì)心的距離C.引入權(quán)重機(jī)制,降低噪聲點(diǎn)對(duì)質(zhì)心更新的影響D.增加迭代次數(shù)直至質(zhì)心完全穩(wěn)定5.在K-means算法中,若樣本特征包含“年齡”(數(shù)值型)和“職業(yè)”(分類型),合理的預(yù)處理步驟是:A.直接使用原始數(shù)據(jù),因?yàn)镵-means可處理混合類型特征B.對(duì)“年齡”標(biāo)準(zhǔn)化,對(duì)“職業(yè)”進(jìn)行獨(dú)熱編碼后合并C.對(duì)“年齡”和“職業(yè)”均進(jìn)行標(biāo)準(zhǔn)化D.僅保留“年齡”特征,忽略分類型特征二、填空題(每題3分,共15分)1.K-means算法的停止條件通常包括質(zhì)心不再顯著變化或__________。2.當(dāng)數(shù)據(jù)分布存在非凸形狀的簇時(shí),K-means的聚類效果往往較差,主要原因是其隱含假設(shè)簇為__________。3.肘部法(ElbowMethod)通過觀察__________隨K值變化的曲線確定最優(yōu)K,關(guān)鍵是找到曲線的“拐點(diǎn)”。4.K-means++初始化方法的核心思想是__________,以避免初始質(zhì)心過于集中。5.若某簇包含樣本點(diǎn)(2,5)、(4,7)、(6,9),則該簇質(zhì)心的坐標(biāo)為__________。三、簡答題(每題8分,共40分)1.簡述K-means算法的主要步驟。2.說明初始質(zhì)心選擇對(duì)K-means結(jié)果的影響,并列舉兩種優(yōu)化初始質(zhì)心的方法。3.對(duì)比K-means與層次聚類(HierarchicalClustering)在聚類邏輯和適用場景上的差異。4.高維數(shù)據(jù)會(huì)給K-means帶來哪些挑戰(zhàn)?如何緩解?5.半監(jiān)督K-means的基本思路是什么?與傳統(tǒng)K-means相比有何優(yōu)勢(shì)?四、計(jì)算題(20分)給定二維數(shù)據(jù)集如下(共6個(gè)樣本):A(1,2)、B(3,4)、C(5,6)、D(7,8)、E(9,10)、F(11,12)假設(shè)初始質(zhì)心選擇為C1(3,4)(對(duì)應(yīng)樣本B)和C2(9,10)(對(duì)應(yīng)樣本E),K=2,采用歐氏距離計(jì)算樣本與質(zhì)心的距離。要求:(1)計(jì)算第一次迭代時(shí)各樣本所屬的簇(需列出距離計(jì)算過程);(2)計(jì)算第一次迭代后兩個(gè)簇的新質(zhì)心;(3)判斷算法是否收斂(需說明理由);(4)若未收斂,描述第二次迭代的簇分配結(jié)果。五、綜合應(yīng)用題(20分)某電商平臺(tái)計(jì)劃對(duì)用戶進(jìn)行分群,以優(yōu)化營銷策略。現(xiàn)需使用K-means算法完成聚類任務(wù),已知可用的用戶特征包括:年消費(fèi)金額(元)、購物頻率(次/月)、平均客單價(jià)(元)、注冊(cè)時(shí)長(月)、是否為會(huì)員(是/否)。要求:(1)設(shè)計(jì)特征預(yù)處理方案(需說明每個(gè)特征的處理方式及原因);(2)闡述確定最優(yōu)K值的具體步驟(需結(jié)合至少兩種方法);(3)若最終得到3個(gè)用戶簇,需從業(yè)務(wù)角度設(shè)計(jì)至少3個(gè)指標(biāo)評(píng)估聚類結(jié)果的有效性;(4)舉例說明如何根據(jù)聚類結(jié)果制定差異化營銷策略。答案一、單項(xiàng)選擇題1.B(K-means的目標(biāo)是最小化簇內(nèi)平方和,即同一簇內(nèi)樣本到質(zhì)心的歐氏距離平方和)2.C(初始質(zhì)心接近會(huì)導(dǎo)致簇劃分過早固定,易陷入局部最優(yōu);K-means++可緩解此問題)3.A(輪廓系數(shù)范圍[-1,1],越接近1表示聚類效果越好)4.D(增加迭代次數(shù)無法解決噪聲敏感問題,噪聲點(diǎn)仍會(huì)影響質(zhì)心計(jì)算)5.B(數(shù)值型特征需標(biāo)準(zhǔn)化消除量綱影響,分類型特征需獨(dú)熱編碼轉(zhuǎn)化為數(shù)值型)二、填空題1.達(dá)到最大迭代次數(shù)2.凸形狀(或球狀、圓形)3.簇內(nèi)平方和(SSE)4.讓初始質(zhì)心盡可能遠(yuǎn)離(或“概率選擇與已選質(zhì)心距離遠(yuǎn)的點(diǎn)作為下一個(gè)質(zhì)心”)5.(4,7)(計(jì)算各維度均值:(2+4+6)/3=4,(5+7+9)/3=7)三、簡答題1.主要步驟:(1)初始化:選擇K個(gè)初始質(zhì)心;(2)分配樣本:計(jì)算每個(gè)樣本到各質(zhì)心的距離,將其分配到最近質(zhì)心的簇;(3)更新質(zhì)心:計(jì)算每個(gè)簇的新質(zhì)心(各維度均值);(4)迭代:重復(fù)(2)-(3)直至質(zhì)心不再變化或達(dá)到最大迭代次數(shù)。2.影響:初始質(zhì)心選擇直接影響簇劃分結(jié)果,若質(zhì)心過于集中可能導(dǎo)致簇大小失衡或陷入局部最優(yōu)。優(yōu)化方法:(1)K-means++:按與已選質(zhì)心距離的平方概率選擇新質(zhì)心,避免集中;(2)多次隨機(jī)初始化:運(yùn)行多次算法取最優(yōu)結(jié)果(如最小SSE)。3.差異:(1)聚類邏輯:K-means是劃分式聚類(將樣本劃分為K個(gè)不重疊簇);層次聚類是樹狀結(jié)構(gòu)(通過合并或分裂提供簇的層次結(jié)構(gòu))。(2)適用場景:K-means適合大規(guī)模數(shù)據(jù)、已知K值的場景;層次聚類適合小樣本、需探索簇層次關(guān)系的場景(如生物分類)。4.挑戰(zhàn):(1)高維空間中樣本間距離趨于均勻(“維數(shù)災(zāi)難”),導(dǎo)致質(zhì)心代表性下降;(2)計(jì)算復(fù)雜度隨維度增加顯著上升。緩解方法:(1)降維(如PCA)減少維度;(2)使用余弦相似度替代歐氏距離(更適合高維稀疏數(shù)據(jù));(3)特征選擇(篩選關(guān)鍵特征)。5.基本思路:利用少量有標(biāo)簽樣本(如已知屬于某簇的樣本)引導(dǎo)聚類過程,例如將標(biāo)簽作為先驗(yàn)約束質(zhì)心位置或樣本分配。優(yōu)勢(shì):(1)解決無監(jiān)督場景下簇語義不明確的問題;(2)提升聚類對(duì)業(yè)務(wù)目標(biāo)的針對(duì)性(如確保某類高價(jià)值用戶被正確分群)。四、計(jì)算題(1)第一次迭代樣本分配:樣本A(1,2)到C1(3,4)的距離:√[(1-3)2+(2-4)2]=√8≈2.828;到C2(9,10)的距離:√[(1-9)2+(2-10)2]=√128≈11.314→分配到C1簇。樣本B(3,4)即C1,距離0→分配到C1簇。樣本C(5,6)到C1的距離:√[(5-3)2+(6-4)2]=√8≈2.828;到C2的距離:√[(5-9)2+(6-10)2]=√32≈5.656→分配到C1簇。樣本D(7,8)到C1的距離:√[(7-3)2+(8-4)2]=√32≈5.656;到C2的距離:√[(7-9)2+(8-10)2]=√8≈2.828→分配到C2簇。樣本E(9,10)即C2,距離0→分配到C2簇。樣本F(11,12)到C1的距離:√[(11-3)2+(12-4)2]=√128≈11.314;到C2的距離:√[(11-9)2+(12-10)2]=√8≈2.828→分配到C2簇。綜上,C1簇:A、B、C;C2簇:D、E、F。(2)新質(zhì)心計(jì)算:C1新質(zhì)心:x=(1+3+5)/3=3,y=(2+4+6)/3=4→(3,4)(與原C1相同)。C2新質(zhì)心:x=(7+9+11)/3=9,y=(8+10+12)/3=10→(9,10)(與原C2相同)。(3)算法已收斂,因?yàn)樾沦|(zhì)心與初始質(zhì)心完全一致,無需繼續(xù)迭代。(4)因已收斂,第二次迭代無變化,簇分配結(jié)果與第一次相同。五、綜合應(yīng)用題(1)特征預(yù)處理方案:年消費(fèi)金額、購物頻率、平均客單價(jià)、注冊(cè)時(shí)長:均為數(shù)值型,需標(biāo)準(zhǔn)化(Z-score)消除量綱影響(如“年消費(fèi)金額”單位為元,范圍可能遠(yuǎn)大于“購物頻率”的次/月)。是否為會(huì)員:分類型(0-1編碼),直接轉(zhuǎn)化為0(非會(huì)員)和1(會(huì)員),無需標(biāo)準(zhǔn)化(因僅表示有無)。(2)確定最優(yōu)K值步驟:①肘部法:計(jì)算不同K(如2-10)對(duì)應(yīng)的SSE,繪制SSE-K曲線,選擇曲線拐點(diǎn)(SSE下降速率驟減的K值)。②輪廓系數(shù)法:計(jì)算各K對(duì)應(yīng)的平均輪廓系數(shù),選擇系數(shù)最大的K(若多個(gè)K系數(shù)相近,結(jié)合業(yè)務(wù)需求)。③業(yè)務(wù)驗(yàn)證:結(jié)合電商業(yè)務(wù)常識(shí)(如高/中/低價(jià)值用戶)輔助確定K(如K=3或4)。(3)聚類結(jié)果有效性評(píng)估指標(biāo)(業(yè)務(wù)角度):①簇間消費(fèi)金額差異:高價(jià)值簇的年消費(fèi)金額應(yīng)顯著高于中、低價(jià)值簇(t檢驗(yàn)驗(yàn)證)。②會(huì)員占比差異:高價(jià)值簇的會(huì)員比例應(yīng)高于其他簇(卡方檢驗(yàn)驗(yàn)證)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論