2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題_第1頁
2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題_第2頁
2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題_第3頁
2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題_第4頁
2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年統(tǒng)計學期末考試:統(tǒng)計數(shù)據(jù)可視化與數(shù)據(jù)挖掘試題考試時間:______分鐘總分:______分姓名:______一、選擇題(每小題2分,共20分。請將正確選項的代表字母填在題后的括號內(nèi))1.以下哪種圖表最適合展示一個連續(xù)變量在不同類別下的分布情況?(A)散點圖(B)餅圖(C)箱線圖(D)頻率折線圖2.在進行探索性數(shù)據(jù)分析時,計算變量之間的相關(guān)系數(shù)主要目的是什么?(A)直接進行預(yù)測(B)檢驗變量是否獨立(C)了解變量間線性關(guān)系的強度和方向(D)對數(shù)據(jù)進行分類3.缺失值處理的方法中,哪種方法假設(shè)缺失是隨機發(fā)生的?(A)刪除含有缺失值的樣本(B)刪除含有缺失值的變量(C)基于均值/中位數(shù)/眾數(shù)回歸填充(D)K最近鄰填充4.決策樹算法在處理不純度時,常用的指標不包括?(A)信息增益(B)基尼不純度(C)誤差率(D)相關(guān)系數(shù)5.K-均值聚類算法在收斂時,通常滿足什么條件?(A)聚類中心的坐標不再變化(B)所有樣本的類別標簽完全一致(C)聚類內(nèi)部的方差和最小(D)聚類之間的方差和最小6.評估分類模型性能時,precision(精確率)指的是?(A)真正例在所有預(yù)測為正例的樣本中所占比例(B)真正例在所有實際為正例的樣本中所占比例(C)真正例在所有實際為負例的樣本中所占比例(D)真正例在所有樣本中所占比例7.關(guān)聯(lián)規(guī)則挖掘中,"支持度"衡量的是?(A)規(guī)則的預(yù)測準確程度(B)規(guī)則中項目集在所有交易中出現(xiàn)的頻率(C)規(guī)則中前件為真時,后件也為真的概率(D)規(guī)則的復(fù)雜程度8.下列哪個方法屬于無監(jiān)督學習?(A)線性回歸(B)決策樹分類(C)聚類分析(D)邏輯回歸9.對數(shù)據(jù)進行歸一化(例如最小-最大標準化)的主要目的是?(A)改變數(shù)據(jù)的分布形態(tài)(B)消除不同特征量綱的影響(C)增大數(shù)據(jù)的缺失值(D)增強模型的過擬合風險10.在數(shù)據(jù)可視化中,使用熱力圖(Heatmap)主要想展示什么?(A)數(shù)據(jù)的分布密度(B)數(shù)據(jù)隨時間的變化趨勢(C)不同類別數(shù)據(jù)的數(shù)量比較(D)變量之間的相關(guān)性強度二、填空題(每空2分,共20分。請將答案填在橫線上)1.繪制箱線圖時,箱子的上下邊緣分別代表數(shù)據(jù)的________和________位置。2.數(shù)據(jù)挖掘流程通常包括數(shù)據(jù)預(yù)處理、模型選擇、模型訓練、模型評估和________五個主要階段。3.決策樹模型存在過擬合風險,常見的處理方法有剪枝、增加樣本量、使用________算法等。4.評估聚類效果時,常用的內(nèi)部評估指標有輪廓系數(shù),常用的外部評估指標有________。5.關(guān)聯(lián)規(guī)則中,一個簡單的規(guī)則形式為"如果A發(fā)生,那么B發(fā)生",記作A->B。其中A稱為________,B稱為________。6.對于連續(xù)型數(shù)值變量,在進行可視化時,除了直方圖,還可以使用________圖來展示其分布形態(tài)。7.在進行數(shù)據(jù)探索時,計算均值、中位數(shù)、方差和偏度等統(tǒng)計量有助于理解數(shù)據(jù)的________和________。8.使用K-均值聚類時,需要預(yù)先指定聚類數(shù)量K,常用的確定K值的方法有肘部法則和________。9.在交叉驗證中,將數(shù)據(jù)集分成K份,每次用K-1份做訓練,1份做測試,這個過程重復(fù)K次,最后取________。10.可視化應(yīng)遵循的基本原則包括清晰性、準確性和________。三、簡答題(每題5分,共20分)1.簡述直方圖和散點圖在數(shù)據(jù)探索中的作用和主要區(qū)別。2.解釋數(shù)據(jù)挖掘中“過擬合”現(xiàn)象,并簡述至少兩種防止過擬合的方法。3.描述關(guān)聯(lián)規(guī)則挖掘中“支持度”和“置信度”這兩個指標的含義及其作用。4.簡述使用決策樹進行分類的基本過程。四、計算題(每題10分,共20分)1.假設(shè)有一個包含5個樣本、2個特征的二維數(shù)據(jù)集,樣本特征值如下:|樣本ID|特征X|特征Y||-------|------|------||1|1|2||2|2|1||3|3|3||4|4|5||5|5|4|(1)計算特征X和特征Y的均值和標準差。(2)假設(shè)要對特征X進行最小-最大歸一化(即將值縮放到[0,1]區(qū)間),計算歸一化后的最小值和最大值,并給出歸一化后的第一個樣本的X值。2.假設(shè)對某數(shù)據(jù)進行K-均值聚類,指定K=2。初始聚類中心分別為C1=(1,1)和C2=(4,4)。經(jīng)過一次迭代后,樣本點(2,2)被分配到C1,樣本點(5,5)被分配到C2。計算新的聚類中心。五、綜合應(yīng)用題(10分)假設(shè)你是一名分析師,需要對某電商平臺用戶的購買歷史數(shù)據(jù)進行挖掘,目的是了解用戶的購買行為模式,并為精準營銷提供依據(jù)。請簡述你會采取的主要步驟,包括數(shù)據(jù)預(yù)處理、探索性分析、可能采用的數(shù)據(jù)挖掘技術(shù)以及最終結(jié)果的呈現(xiàn)方式。試卷答案一、選擇題1.C2.C3.A4.D5.A6.A7.B8.C9.B10.D二、填空題1.下四分位數(shù),上四分位數(shù)2.模型部署/模型解釋3.隨機森林(或集成學習等其他合理答案)4.Rand指數(shù)(或AdjustedRandIndex等其他合理答案)5.前件,后件6.莖葉圖7.分布,離散程度8.輪廓分析(或SilhouetteAnalysis等其他合理答案)9.平均性能(或Meanofperformance等其他合理答案)10.有效性(或Effectiveness等其他合理答案)三、簡答題1.解析思路:*直方圖作用:統(tǒng)計并可視化連續(xù)型變量在不同數(shù)值區(qū)間的頻數(shù)或頻率分布。主要用于了解數(shù)據(jù)的集中趨勢、離散程度和分布形態(tài)(如正態(tài)、偏態(tài))。*散點圖作用:可視化兩個連續(xù)型變量之間的關(guān)系。主要用于探索兩個變量之間是否存在相關(guān)關(guān)系(線性或非線性)、相關(guān)性強弱及方向。*主要區(qū)別:直方圖用于單變量分布分析,散點圖用于雙變量關(guān)系分析。直方圖將數(shù)據(jù)分箱,展示頻率;散點圖直接展示數(shù)據(jù)點,揭示關(guān)系。2.解析思路:*過擬合定義:模型對訓練數(shù)據(jù)學習得太好,不僅學習了數(shù)據(jù)中的潛在模式,還學習了噪聲和隨機波動,導(dǎo)致在訓練集上表現(xiàn)很好,但在未見過的新數(shù)據(jù)(測試集)上表現(xiàn)很差。*防止過擬合方法:*剪枝:對于決策樹等算法,通過限制樹的深度、葉子節(jié)點最小樣本數(shù)等策略,減少模型的復(fù)雜度。*增加樣本量:使用更多的訓練數(shù)據(jù),使模型有更好的泛化能力。*正則化:在模型目標函數(shù)中添加懲罰項(如L1或L2正則化),限制模型參數(shù)的大小,防止模型過于復(fù)雜。*集成學習:如隨機森林、梯度提升樹等,通過組合多個弱學習器來提高模型的泛化能力和魯棒性。3.解析思路:*支持度(Support):*含義:指某個項目集(規(guī)則中的前件和后件組合)在所有交易中出現(xiàn)的頻率,即同時包含這些項目的交易所占的比例。*作用:衡量一個項目集本身是否是“重要”或“常見”的。一個低支持度的規(guī)則通常不被認為是強關(guān)聯(lián)規(guī)則。*置信度(Confidence):*含義:指在包含規(guī)則前件的交易中,同時也包含后件的交易所占的比例。即P(后件|前件)。*作用:衡量一個規(guī)則“有多可靠”。高置信度的規(guī)則意味著一旦前件發(fā)生,后件發(fā)生的可能性較大。4.解析思路:*基本過程:1.選擇根節(jié)點:從所有特征中選擇一個能夠最好地劃分數(shù)據(jù)的特征作為樹的根節(jié)點。劃分標準通常是信息增益或基尼不純度。2.劃分節(jié)點:根據(jù)選定的特征的不同取值,將訓練數(shù)據(jù)劃分成不同的子集,每個子集形成樹的一個分支。3.遞歸劃分:對每個子集重復(fù)步驟1和2,創(chuàng)建子節(jié)點。遞歸進行,直到滿足停止條件(如節(jié)點純度足夠高、節(jié)點包含的樣本數(shù)少于閾值、特征無剩余等)。4.生成葉節(jié)點:當達到停止條件時,將當前節(jié)點標記為葉節(jié)點,葉節(jié)點存儲類別標簽(對于分類樹)或預(yù)測值(對于回歸樹)。四、計算題1.解析思路:*(1)計算均值和標準差:*均值:`mean(X)=(1+2+3+4+5)/5=3`;`mean(Y)=(2+1+3+5+4)/5=3`*方差:`var(X)=[(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2]/5=(4+1+0+1+4)/5=10/5=2`;`var(Y)=[(2-3)2+(1-3)2+(3-3)2+(5-3)2+(4-3)2]/5=(1+4+0+4+1)/5=10/5=2`*標準差:`std(X)=sqrt(var(X))=sqrt(2)`;`std(Y)=sqrt(var(Y))=sqrt(2)`*(2)最小-最大歸一化:*計算最小值:`min(X)=1`,`max(X)=5`*歸一化公式:`X_norm=(X-min(X))/(max(X)-min(X))`*第一個樣本的歸一化X值:`(1-1)/(5-1)=0/4=0`2.解析思路:*計算新的聚類中心:新的聚類中心是分配到該聚類所有樣本特征值的均值。*聚類C1的新中心:根據(jù)題意,只有樣本(2,2)被分配到C1。所以新C1中心為`(2,2)`。*聚類C2的新中心:只有樣本(5,5)被分配到C2。所以新C2中心為`(5,5)`。五、綜合應(yīng)用題解析思路:*主要步驟:1.數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)質(zhì)量(缺失值、異常值),進行數(shù)據(jù)清洗。對數(shù)值型特征進行標準化或歸一化。對類別型特征進行編碼(如獨熱編碼)??赡苄枰喜⑾嚓P(guān)特征或創(chuàng)建新特征。2.探索性數(shù)據(jù)分析(EDA):使用統(tǒng)計描述(均值、中位數(shù)、標準差等)和可視化方法(如直方圖、箱線圖、散點圖矩陣)初步了解數(shù)據(jù)分布、變量間關(guān)系、用戶群體特征等。3.選擇挖掘技術(shù):*用戶分群(聚類):使用K-均值或?qū)哟尉垲惖确椒?,根?jù)用戶的歷史購買行為(如購買頻率、購買金額、商品類別偏好等)將用戶分成不同群體,識別不同價值的用戶類型。*關(guān)聯(lián)規(guī)則挖掘:分析用戶的購買籃子數(shù)據(jù),挖掘哪些商品經(jīng)常被一起購買(如A->B規(guī)則),為商品推薦和捆綁銷售提供依據(jù)。*用戶畫像或分類:基于用戶屬性和行為數(shù)據(jù),構(gòu)建用戶畫像,或使用分類算法(如邏輯回歸、決策樹)預(yù)測用戶未來可能的行為(如是否會購買某類商品、是否會流失)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論