版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2025年數(shù)據(jù)挖掘探索數(shù)據(jù)的奧秘(青島工學(xué)院)網(wǎng)課章節(jié)測試答案1.(選擇題)某數(shù)據(jù)集存在30%的缺失值,變量類型為連續(xù)型,且缺失模式為隨機缺失(MCAR)。以下哪種處理方法最合理?A.直接刪除缺失值所在行B.用變量均值填充C.用最近鄰插值法填充D.用回歸模型預(yù)測填充答案:B解析:當(dāng)缺失值比例在30%以內(nèi)且為隨機缺失時,直接刪除(選項A)會損失過多信息;最近鄰插值(選項C)適用于時間序列或空間相關(guān)數(shù)據(jù);回歸預(yù)測(選項D)需要其他變量與缺失變量有強相關(guān)性,否則易引入偏差。連續(xù)型變量隨機缺失時,均值填充是最簡潔且誤差較小的方法,因此選B。2.(判斷題)數(shù)據(jù)標(biāo)準(zhǔn)化(Z-score)與歸一化(Min-Max)的本質(zhì)區(qū)別在于,標(biāo)準(zhǔn)化后的變量均值為0、標(biāo)準(zhǔn)差為1,而歸一化后的變量取值范圍在[0,1]。()答案:√解析:標(biāo)準(zhǔn)化通過(X-μ)/σ實現(xiàn),結(jié)果服從標(biāo)準(zhǔn)正態(tài)分布;歸一化通過(X-Xmin)/(Xmax-Xmin)實現(xiàn),結(jié)果壓縮到[0,1]區(qū)間。二者目的都是消除量綱影響,但標(biāo)準(zhǔn)化保留數(shù)據(jù)分布特性,歸一化更關(guān)注相對位置,表述正確。3.(簡答題)簡述特征選擇中“過濾法”與“包裝法”的核心差異,并舉例說明。答案:過濾法基于數(shù)據(jù)本身的統(tǒng)計特性(如卡方檢驗、信息增益、相關(guān)系數(shù))選擇特征,不依賴具體模型,計算效率高但可能忽略特征與模型的交互;包裝法將特征選擇視為子集搜索問題,用具體模型(如邏輯回歸、決策樹)的性能(如準(zhǔn)確率)作為評價標(biāo)準(zhǔn),能更貼合模型需求,但計算成本高。例如,過濾法可用皮爾遜相關(guān)系數(shù)篩選與目標(biāo)變量高度相關(guān)的特征;包裝法可能用遺傳算法搜索特征子集,每輪用SVM模型驗證分類效果,選擇最優(yōu)子集。4.(應(yīng)用題)某電商用戶行為數(shù)據(jù)集包含字段:用戶ID(字符串)、年齡(整數(shù))、性別(二值)、瀏覽時長(分鐘,連續(xù))、購買金額(元,連續(xù))、是否復(fù)購(0/1)。需為“是否復(fù)購”建模,列出預(yù)處理步驟并說明理由。答案:預(yù)處理步驟如下:(1)缺失值處理:檢查各字段缺失率。若年齡、瀏覽時長等連續(xù)變量缺失率<5%,用中位數(shù)填充(避免均值受異常值影響);若性別缺失,可統(tǒng)計眾數(shù)填充(分類變量);用戶ID無缺失(主鍵)。(2)異常值檢測:對瀏覽時長、購買金額用IQR法(計算Q1、Q3,超過Q3+1.5IQR或低于Q1-1.5IQR視為異常),標(biāo)記后或刪除(若樣本量大)或用上下限替換(保留數(shù)據(jù)分布)。(3)特征編碼:性別為二值變量(0/1),無需額外編碼;用戶ID為唯一標(biāo)識,建模時需刪除(無預(yù)測意義)。(4)數(shù)據(jù)標(biāo)準(zhǔn)化:瀏覽時長、購買金額量綱不同,用Z-score標(biāo)準(zhǔn)化(保留分布),避免模型對大數(shù)值特征過度敏感。(5)類別平衡:統(tǒng)計“是否復(fù)購”的0/1比例,若失衡(如1:5以上),用SMOTE過采樣或調(diào)整模型類別權(quán)重,防止模型偏向多數(shù)類。關(guān)聯(lián)規(guī)則挖掘章節(jié)測試答案1.(選擇題)在Apriori算法中,若最小支持度設(shè)為0.3,某2-項集的支持度計數(shù)為15,數(shù)據(jù)集總事務(wù)數(shù)為50,則該2-項集是否為頻繁項集?A.是,支持度0.3B.否,支持度0.25C.是,支持度0.35D.否,支持度0.3答案:A解析:支持度=支持度計數(shù)/總事務(wù)數(shù)=15/50=0.3,等于最小支持度,因此是頻繁項集,選A。2.(判斷題)關(guān)聯(lián)規(guī)則的置信度越高,規(guī)則的實用性越強。()答案:×解析:置信度反映規(guī)則的條件概率(如X→Y的置信度=P(Y|X)),但高置信度可能由X本身高頻導(dǎo)致(如X出現(xiàn)次數(shù)多,Y在X中出現(xiàn)次數(shù)也多),需結(jié)合提升度(Lift=置信度/P(Y))判斷規(guī)則是否具有實際價值。若Lift=1,說明X與Y獨立,無關(guān)聯(lián)意義,因此僅置信度高不能保證實用性。3.(簡答題)簡述Apriori算法中“先驗性質(zhì)”(AprioriProperty)的作用,并說明如何利用該性質(zhì)減少計算量。答案:先驗性質(zhì)指“若一個項集是非頻繁的,則其所有超集也一定是非頻繁的”。利用該性質(zhì),算法可通過逐層搜索(k-項集→k+1-項集)實現(xiàn)剪枝:首先提供所有可能的1-項集,計算支持度得到頻繁1-項集;然后用頻繁1-項集提供候選2-項集(連接步),再通過掃描數(shù)據(jù)庫計算支持度,剔除包含非頻繁1-項集的候選(剪枝步);重復(fù)此過程直到無法提供更大的頻繁項集。該性質(zhì)避免了直接枚舉所有可能的項集(組合爆炸問題),顯著減少了候選集數(shù)量和計算量。4.(應(yīng)用題)某超市數(shù)據(jù)集有5條事務(wù):T1:牛奶、面包、雞蛋T2:牛奶、面包、可樂T3:面包、可樂、薯片T4:牛奶、面包、薯片T5:牛奶、可樂、薯片設(shè)最小支持度為0.4(2/5),最小置信度為0.6,計算所有強關(guān)聯(lián)規(guī)則,并說明哪條規(guī)則提升度最高。答案:步驟1:計算頻繁項集1-項集支持度:牛奶(4/5=0.8)、面包(4/5=0.8)、可樂(3/5=0.6)、薯片(3/5=0.6)、雞蛋(1/5=0.2)→頻繁1-項集:{牛奶}、{面包}、{可樂}、{薯片}(雞蛋支持度0.2<0.4,剔除)。候選2-項集:{牛奶,面包}、{牛奶,可樂}、{牛奶,薯片}、{面包,可樂}、{面包,薯片}、{可樂,薯片}計算支持度:{牛奶,面包}:T1、T2、T4→3/5=0.6≥0.4{牛奶,可樂}:T2、T5→2/5=0.4≥0.4{牛奶,薯片}:T4、T5→2/5=0.4≥0.4{面包,可樂}:T2、T3→2/5=0.4≥0.4{面包,薯片}:T3、T4→2/5=0.4≥0.4{可樂,薯片}:T3、T5→2/5=0.4≥0.4→所有2-項集均為頻繁。候選3-項集:由頻繁2-項集連接提供,如{牛奶,面包,可樂}(需包含{牛奶,面包}、{牛奶,可樂}、{面包,可樂}),檢查支持度:出現(xiàn)于T2→1/5=0.2<0.4,剔除;同理{牛奶,面包,薯片}出現(xiàn)于T4→1/5=0.2<0.4;{牛奶,可樂,薯片}出現(xiàn)于T5→1/5=0.2<0.4;{面包,可樂,薯片}出現(xiàn)于T3→1/5=0.2<0.4→無頻繁3-項集。步驟2:提供強關(guān)聯(lián)規(guī)則(置信度≥0.6)以{牛奶,面包}(支持度0.6)為例,可能的規(guī)則:牛奶→面包:置信度=支持度({牛奶,面包})/支持度({牛奶})=0.6/0.8=0.75≥0.6面包→牛奶:置信度=0.6/0.8=0.75≥0.6{牛奶,可樂}(支持度0.4):牛奶→可樂:置信度=0.4/0.8=0.5<0.6(剔除)可樂→牛奶:置信度=0.4/0.6≈0.667≥0.6{牛奶,薯片}(支持度0.4):牛奶→薯片:置信度=0.4/0.8=0.5<0.6(剔除)薯片→牛奶:置信度=0.4/0.6≈0.667≥0.6{面包,可樂}(支持度0.4):面包→可樂:置信度=0.4/0.8=0.5<0.6(剔除)可樂→面包:置信度=0.4/0.6≈0.667≥0.6{面包,薯片}(支持度0.4):面包→薯片:置信度=0.4/0.8=0.5<0.6(剔除)薯片→面包:置信度=0.4/0.6≈0.667≥0.6{可樂,薯片}(支持度0.4):可樂→薯片:置信度=0.4/0.6≈0.667≥0.6薯片→可樂:置信度=0.4/0.6≈0.667≥0.6步驟3:計算提升度(Lift=置信度/P(Y))以規(guī)則“可樂→牛奶”為例:P(牛奶)=0.8,置信度≈0.667,Lift=0.667/0.8≈0.834<1(無提升);規(guī)則“牛奶→面包”:P(面包)=0.8,置信度=0.75,Lift=0.75/0.8=0.9375<1;規(guī)則“可樂→薯片”:P(薯片)=0.6,置信度≈0.667,Lift=0.667/0.6≈1.112>1;規(guī)則“薯片→可樂”:P(可樂)=0.6,置信度≈0.667,Lift≈1.112>1;規(guī)則“薯片→牛奶”:P(牛奶)=0.8,置信度≈0.667,Lift≈0.834<1;規(guī)則“可樂→面包”:P(面包)=0.8,置信度≈0.667,Lift≈0.834<1;規(guī)則“薯片→面包”:P(面包)=0.8,置信度≈0.667,Lift≈0.834<1。結(jié)論:強關(guān)聯(lián)規(guī)則為牛奶→面包、面包→牛奶、可樂→牛奶(置信度0.667)、薯片→牛奶(置信度0.667)、可樂→面包(置信度0.667)、薯片→面包(置信度0.667)、可樂→薯片、薯片→可樂。其中“可樂→薯片”和“薯片→可樂”的提升度最高(≈1.112),說明二者存在正相關(guān)。分類與預(yù)測章節(jié)測試答案1.(選擇題)在決策樹算法中,若某節(jié)點的基尼指數(shù)(GiniIndex)為0.5,分裂后左子節(jié)點基尼指數(shù)0.3(樣本占比40%),右子節(jié)點基尼指數(shù)0.4(樣本占比60%),則分裂的信息增益(基于基尼指數(shù))為?A.0.5(0.3×0.4+0.4×0.6)=0.50.36=0.14B.0.5(0.3+0.4)/2=0.50.35=0.15C.0.5max(0.3,0.4)=0.50.4=0.1D.0.5×(10.3×0.40.4×0.6)=0.5×0.64=0.32答案:A解析:基尼指數(shù)的信息增益=父節(jié)點基尼指數(shù)Σ(子節(jié)點基尼指數(shù)×子節(jié)點樣本占比),因此正確計算為0.5(0.3×0.4+0.4×0.6)=0.14,選A。2.(判斷題)邏輯回歸模型的輸出是樣本屬于正類的概率,其損失函數(shù)通常采用均方誤差(MSE)。()答案:×解析:邏輯回歸通過sigmoid函數(shù)將線性組合映射到[0,1],輸出概率。其損失函數(shù)應(yīng)采用交叉熵?fù)p失(Cross-EntropyLoss),因為MSE在sigmoid函數(shù)下會導(dǎo)致梯度消失問題,而交叉熵能更敏感地反映預(yù)測概率與真實標(biāo)簽的差異。3.(簡答題)比較KNN(K-近鄰)與SVM(支持向量機)在分類任務(wù)中的優(yōu)缺點,各舉一個適用場景。答案:KNN優(yōu)點:無需訓(xùn)練(惰性學(xué)習(xí)),簡單易實現(xiàn),對非線性邊界適應(yīng)力強;缺點:計算復(fù)雜度高(需計算所有樣本距離),對高維數(shù)據(jù)敏感(維度災(zāi)難),受噪聲和不平衡數(shù)據(jù)影響大。適用場景:小樣本、低維、類別邊界不規(guī)則的數(shù)據(jù)集(如手寫數(shù)字識別小樣本測試)。SVM優(yōu)點:通過核函數(shù)處理非線性問題,專注于支持向量(抗噪聲),泛化能力強;缺點:對參數(shù)(C、核函數(shù)參數(shù))敏感,訓(xùn)練時間隨樣本量增加顯著上升,難以解釋(黑箱模型)。適用場景:高維小樣本(如文本分類、生物信息學(xué))。4.(應(yīng)用題)某銀行信貸數(shù)據(jù)集包含1000個樣本,其中“違約”(正類)100個,“不違約”(負(fù)類)900個。用邏輯回歸建模,得到混淆矩陣如下:預(yù)測違約|預(yù)測不違約實際違約|80|20實際不違約|150|750計算準(zhǔn)確率、召回率(Recall)、精確率(Precision)、F1分?jǐn)?shù),并分析模型在違約檢測中的表現(xiàn)。答案:準(zhǔn)確率=(TP+TN)/(TP+TN+FP+FN)=(80+750)/1000=830/1000=0.83(83%)召回率=TP/(TP+FN)=80/(80+20)=0.8(80%)精確率=TP/(TP+FP)=80/(80+150)=80/230≈0.3478(34.78%)F1=2×(精確率×召回率)/(精確率+召回率)=2×(0.3478×0.8)/(0.3478+0.8)≈0.493(49.3%)分析:模型準(zhǔn)確率較高(83%),但因數(shù)據(jù)嚴(yán)重不平衡(正類僅10%),準(zhǔn)確率無法真實反映違約檢測能力。召回率80%表示能正確識別80%的違約樣本,表現(xiàn)較好;但精確率僅34.78%,說明預(yù)測為違約的樣本中僅約35%實際違約,存在大量誤判(FP=150)。F1分?jǐn)?shù)較低(≈49.3%),綜合精確率和召回率后模型表現(xiàn)一般。需調(diào)整類別權(quán)重(如提高正類誤判成本)或采用SMOTE過采樣,改善不平衡問題。聚類分析章節(jié)測試答案1.(選擇題)K-means算法的主要缺點不包括?A.對初始聚類中心敏感B.無法處理非凸形狀的簇C.自動確定最優(yōu)K值D.對噪聲和異常值敏感答案:C解析:K-means需要人為指定聚類數(shù)K,無法自動確定(需通過輪廓系數(shù)、手肘法等輔助),因此“自動確定最優(yōu)K值”不是缺點,選C。2.(判斷題)DBSCAN算法通過“核心點”“邊界點”“噪聲點”定義簇,能有效發(fā)現(xiàn)任意形狀的簇,且無需指定簇數(shù)。()答案:√解析:DBSCAN基于密度,通過參數(shù)ε(鄰域半徑)和MinPts(鄰域內(nèi)最小樣本數(shù))識別核心點(鄰域內(nèi)≥MinPts樣本),核心點密度可達的樣本形成簇,無法被任何核心點密度可達的為噪聲點。該算法不預(yù)設(shè)簇數(shù),適用于非凸、不規(guī)則形狀的簇,表述正確。3.(簡答題)簡述輪廓系數(shù)(SilhouetteCoefficient)的計算邏輯,并說明如何用其確定K-means的最優(yōu)聚類數(shù)。答案:輪廓系數(shù)針對每個樣本i計算:s(i)=(b(i)-a(i))/max(a(i),b(i))其中,a(i)為樣本i到同簇其他樣本的平均距離(簇內(nèi)凝聚度),b(i)為樣本i到最近鄰簇中樣本的平均距離(簇間分離度)。s(i)范圍[-1,1],越接近1表示樣本與所在簇匹配良好,越接近-1表示樣本可能被錯誤聚類。確定最優(yōu)K值時,計算不同K(如2到10)對應(yīng)的平均輪廓系數(shù),選擇平均輪廓系數(shù)最大的K值,此時簇內(nèi)凝聚度高且簇間分離度大,聚類效果最佳。4.(應(yīng)用題)某電商用戶購買行為數(shù)據(jù)集經(jīng)標(biāo)準(zhǔn)化后,用K-means聚類(K=3)得到3個簇,簇中心如下:簇1:購買頻次(2.1)、客單價(1.8)、復(fù)購率(0.9)簇2:購買頻次(0.5)、客單價(0.3)、復(fù)購率(0.2)簇3:購買頻次(1.2)、客單價(3.5)、復(fù)購率(0.7)結(jié)合業(yè)務(wù)場景,為每個簇命名并提出運營策略。答案:簇1(高頻次、中客單價、高復(fù)購):命名“忠誠活躍客戶”。策略:維護現(xiàn)有關(guān)系,提供會員專屬權(quán)益(如積分加速、優(yōu)先發(fā)貨),推送個性化推薦(基于歷史購買偏好),提升品牌粘性。簇2(低頻次、低客單價、低復(fù)購):命名“潛在沉睡客戶”。策略:通過優(yōu)惠券激勵(如滿減券、首單折扣)喚醒消費,發(fā)送趣味化營銷內(nèi)容(如產(chǎn)品使用場景短視頻),降低決策門檻。簇3(中頻次、高客單價、中復(fù)購):命名“高價值潛力客戶”。策略:提供高端服務(wù)(如專屬客服、定制化產(chǎn)品),推送高單價商品組合優(yōu)惠(如套裝折扣),提升客單價的同時培養(yǎng)復(fù)購習(xí)慣(如消費滿額贈禮)。數(shù)據(jù)可視化與探索性分析章節(jié)測試答案1.(選擇題)以下哪種圖表最適合展示不同地區(qū)銷售額的分布情況,并比較各地區(qū)的中位數(shù)、四分位數(shù)及異常值?A.折線圖B.箱線圖C.散點圖D.熱力圖答案:B解析:箱線圖通過中位數(shù)、Q1、Q3、whiskers(上下限)和異常值點,能直觀展示數(shù)據(jù)分布的集中趨勢、離散程度及異常值,適合多組數(shù)據(jù)(不同地區(qū))的對比,選B。2.(判斷題)相關(guān)系數(shù)熱力圖中,顏色越深(或越暖)表示變量間的相關(guān)性越強,因此可以直接根據(jù)顏色深淺判斷因果關(guān)系。()答案:×解析:相關(guān)系數(shù)反映變量間的線性關(guān)聯(lián)程度,顏色深淺表示相關(guān)系數(shù)絕對值大小,但相關(guān)性≠因果性(可能存在第三變量干擾)。例如,冰淇淋銷量與游泳溺亡人數(shù)正相關(guān),但因果關(guān)系是氣溫升高同時影響二者,因此不能直接推斷因果。3.(簡答題)簡述探索性數(shù)據(jù)分析(EDA)的主要步驟,并說明各步驟的核心目標(biāo)。答案:EDA主要步驟及目標(biāo):(1)數(shù)據(jù)概覽:查看樣本量、字段數(shù)、數(shù)據(jù)類型(連續(xù)/分類)、缺失值分布,目標(biāo)是快速熟悉數(shù)據(jù)集結(jié)構(gòu),識別數(shù)據(jù)質(zhì)量問題(如大量缺失、錯誤類型)。(2)單變量分析:對連續(xù)變量計算均值、方差、分位數(shù),繪制直方圖/箱線圖;對分類變量統(tǒng)計頻次,繪制柱狀圖/餅圖。目標(biāo)是了解各變量的分布特征(如正態(tài)性、偏態(tài))、異常值情況。(3)多變量分析:計算變量間相關(guān)系數(shù)(連續(xù)變量)或卡方檢驗(分類變量),繪制散點圖矩陣、熱力圖、分組箱線圖。目標(biāo)是發(fā)現(xiàn)變量間的關(guān)聯(lián)模式(如正相關(guān)、非線性關(guān)系),為特征工程(如特征選擇、交互項構(gòu)造)提供依據(jù)。(4)目標(biāo)變量關(guān)聯(lián)分析:若為監(jiān)督學(xué)習(xí),分析特征與目標(biāo)變量的關(guān)系(如分類任務(wù)中各特征在不同類別下的分布差異)。目標(biāo)是識別對目標(biāo)變量有預(yù)測能力的關(guān)鍵特征。4.(應(yīng)用題)某教育平臺收集了1000名學(xué)生的“每日學(xué)習(xí)時長(小時)”“周測試成績(0-100)”數(shù)據(jù),繪制散點圖后發(fā)現(xiàn)二者呈明顯正相關(guān)(r=0.72),但存在20個異常點(學(xué)習(xí)時長>8小時,成績<40分)。請分析可能原因并提出驗證方法。答案:可能原因:(1)數(shù)據(jù)記錄錯誤:學(xué)習(xí)時長或成績字段存在錄入錯誤(如將“0.8小時”誤錄為“8小時”,或成績漏填后默認(rèn)0分)。(2)學(xué)習(xí)效率低下:部分學(xué)生雖花費長時間學(xué)習(xí),但方法不當(dāng)(如機械重復(fù)、缺乏總結(jié)),導(dǎo)致成績未提升。(3)外部干擾:如學(xué)習(xí)時分心(邊學(xué)邊刷手機)、身體不適(疲勞影響吸收),實際有效學(xué)習(xí)時間遠(yuǎn)低于記錄時長。驗證方法:(1)數(shù)據(jù)核查:聯(lián)系數(shù)據(jù)錄入人員,核對異常點的原始記錄(如后臺日志、紙質(zhì)登記表),確認(rèn)是否為錄入錯誤。(2)問卷調(diào)查:對異常學(xué)生發(fā)放問卷,詢問學(xué)習(xí)方式(如是否專注、是否有總結(jié)習(xí)慣)、學(xué)習(xí)環(huán)境(如是否安靜),分析效率低下的具體原因。(3)跟蹤觀察:抽取部分異常學(xué)生,通過屏幕使用時間統(tǒng)計工具(如手機/電腦的專注模式記錄),驗證“每日學(xué)習(xí)時長”的真實性,排除分心導(dǎo)致的虛高記錄。異常檢測章節(jié)測試答案1.(選擇題)以下哪種異常檢測方法適用于高維、非高斯分布的數(shù)據(jù)?A.Z-scoreB.孤立森林(IsolationForest)C.基于距離的KNND.橢圓擬合(假設(shè)數(shù)據(jù)服從多元正態(tài)分布)答案:B解析:Z-score和橢圓擬合依賴數(shù)據(jù)的正態(tài)分布假設(shè);KNN在高維下因“維度災(zāi)難”導(dǎo)致距離度量失效;孤立森林通過隨機分割特征空間構(gòu)造樹,對高維、非高斯數(shù)據(jù)的異常檢測效果更優(yōu),選B。2.(判斷題)在監(jiān)督式異常檢測中,模型需要同時學(xué)習(xí)正常樣本和異常樣本的特征,因此適用于異常樣本數(shù)量較多且標(biāo)簽可靠的場景。()答案:√解析:監(jiān)督式異常檢測將問題視為分類任務(wù)(正常/異常),需要足夠的異常樣本訓(xùn)練模型。若異常樣本極少(如欺詐檢測中異常占比<1%),模型易過擬合;若標(biāo)簽可靠且異常樣本足夠(如工業(yè)缺陷檢測中可人工標(biāo)注大量缺陷樣本),監(jiān)督式方法效果更好,表述正確。3.(簡答題)比較基于統(tǒng)計的異常檢測與基于機器學(xué)習(xí)的異常檢測的核心差異,各舉一例。答案:基于統(tǒng)計的方法依賴數(shù)據(jù)的先驗分布假設(shè)(如正態(tài)分布、泊松分布),通過計算統(tǒng)計量(如均值、方差、分位數(shù))識別偏離分布的樣本,適用于低維、分布已知的數(shù)據(jù)。例如,用3σ原則檢測身高數(shù)據(jù)中的異常值(假設(shè)身高服從正態(tài)分布)。基于機器學(xué)習(xí)的方法無需明確分布假設(shè),通過學(xué)習(xí)正常樣本的特征(無監(jiān)督)或正常/異常的區(qū)分模式(監(jiān)督)檢測異常,適用于高維、復(fù)雜分布的數(shù)據(jù)。例如,用孤立森林檢測網(wǎng)絡(luò)流量中的異常訪問(高維、非高斯)。4.(應(yīng)用題)某服務(wù)器日志數(shù)據(jù)集包含“請求次數(shù)/分鐘”“響應(yīng)時間(ms)”“錯誤碼數(shù)量”3個特征,需檢測異常請求。假設(shè)數(shù)據(jù)無標(biāo)簽,選擇兩種方法并說明實施步驟。答案:方法一:孤立森林(無監(jiān)督)步驟:(1)對3個特征標(biāo)準(zhǔn)化;(2)構(gòu)建孤立森林模型,設(shè)置子樣本大小(如256)和樹數(shù)量(如100);(3)計算每個樣本的異常分?jǐn)?shù)(越接近1越可能是異常);(4)設(shè)定閾值(如前5%高分?jǐn)?shù)樣本)標(biāo)記為異常。方法二:DBSCAN(基于密度)步驟:(1)標(biāo)準(zhǔn)化特征;(2)通過網(wǎng)格搜索確定參數(shù)ε和MinPts(如用k-距離圖找ε拐點,MinPts=2×特征數(shù)=6);(3)運行DBSCAN,將噪聲點(未被任何簇包含的樣本)標(biāo)記為異常;(4)驗證異常樣本的業(yè)務(wù)合理性(如請求次數(shù)劇增且響應(yīng)時間超長、錯誤碼多)。文本挖掘章節(jié)測試答案1.(選擇題)在TF-IDF計算中,若某詞在所有文檔中均出現(xiàn),則其IDF值為?A.0B.1C.log(N/0)(無窮大)D.log(N/N)=0答案:D解析:IDF=log(N/df),其中N為總文檔數(shù),df為包含該詞的文檔數(shù)。若某詞在所有文檔中出現(xiàn)(df=N),則IDF=log(N/N)=log(1)=0,選D。2.(判斷題)詞嵌入(WordEmbedding)的核心思想是將單詞映射到低維連續(xù)向量空間,使得語義相似的單詞在向量空間中位置相近。()答案:√解析:詞嵌入(如Word2Vec、GloVe)通過上下文信息學(xué)習(xí)單詞的分布式表示,捕捉語義和語法關(guān)系,語義相似的詞(如“貓”和“狗”)在向量空間中的余弦相似度較高,表述正確。3.(簡答題)簡述文本分類中“詞袋模型(Bag-of-Words)”的局限性,并說明如何通過“n-gram”改進。答案:詞袋模型忽略詞序和上下文(如“我不喜歡”與“我喜歡”被視為相同詞集合),且無法捕捉短語級別的語義(如“紐約”作為一個整體)。n-gram通過考慮連續(xù)n個詞的組合(如2-gram包含“我不”“不喜歡”),保留部分詞序信息,能更好表示短語和局部上下文,提升模型對語義的捕捉能力。例如,“非常好”作為2-gram比單獨“非常”“好”更能準(zhǔn)確表達情感傾向。4.(應(yīng)用題)某社交媒體評論數(shù)據(jù)集需分類為“正面”“負(fù)面”“中性”,文本預(yù)處理步驟包括哪些?并設(shè)計一個基于BERT的分類模型流程。答案:預(yù)處理步驟:(1)清洗:去除HTML標(biāo)簽、特殊符號(如@、)、重復(fù)字符(如“好好好好”→“好”);(2)分詞:用中文分詞工具(如jieba)將文本拆分為詞語(如“這個手機很好用”→“這個/手機/很/好用”);(3)去停用詞:刪除無意義詞匯(如“的”“是”),保留核心詞;(4)標(biāo)準(zhǔn)化:統(tǒng)一大小寫(英文)、簡體繁體轉(zhuǎn)換(中文);(5)文本向量化:若用傳統(tǒng)模型(如SVM),用TF-IDF或n-gram;若用深度學(xué)習(xí),直接輸入BERT的tokenizer提供詞元(token)、注意力掩碼(attentionmask)?;贐ERT的分類流程:(1)加載預(yù)訓(xùn)練BERT模型(如中文BERT-base);(2)添加分類頭(全連接層),輸出維度為3(正面/負(fù)面/中性);(3)劃分訓(xùn)練集、驗證集(如8:2),用tokenizer將文本轉(zhuǎn)換為輸入ID、token類型ID、注意力掩碼;(4)訓(xùn)練模型:設(shè)置學(xué)習(xí)率(如2e-5)、批次大小(如16),用交叉熵?fù)p失函數(shù)優(yōu)化;(5)驗證:在驗證集上計算準(zhǔn)確率、F1分?jǐn)?shù),調(diào)整超參數(shù)(如訓(xùn)練輪次);(6)測試:用測試集評估模型泛化能力,輸出分類報告。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘章節(jié)測試答案1.(選擇題)以下哪個框架適合處理實時流數(shù)據(jù)挖掘任務(wù)?A.HadoopMapReduceB.SparkRDDC.FlinkD.Hive答案:C解析:HadoopMapReduce和SparkRDD主要處理批量數(shù)據(jù);Hive是數(shù)據(jù)倉庫工具;Flink基于流處理架構(gòu),支持低延遲、高吞吐量的實時數(shù)據(jù)處理,適合實時流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026福建廈門集美區(qū)雙嶺小學(xué)產(chǎn)假頂崗教師招聘1人備考考試題庫及答案解析
- 2026江西鷹潭市工業(yè)控股集團有限公司全資子公司招聘3人備考題庫及答案詳解(新)
- 2026上半年安徽事業(yè)單位聯(lián)考樅陽縣招聘33人備考題庫及答案詳解1套
- 2026北京航空航天大學(xué)實驗學(xué)校聘用編人員F崗招聘4人備考考試試題及答案解析
- 2026山東濟南市歷城區(qū)屬事業(yè)單位招聘初級綜合類崗位人員備考題庫及完整答案詳解一套
- 2026云南昭通市公安局第一輪招聘警務(wù)輔助人員123人備考題庫及答案詳解一套
- 2026江西贛州發(fā)展產(chǎn)業(yè)鏈管理有限公司招聘倉庫監(jiān)管員4人備考題庫含答案詳解
- 2026年上半年云南民族大學(xué)招聘碩士人員備考題庫(7人)及答案詳解(奪冠系列)
- 2026山東事業(yè)單位統(tǒng)考菏澤市牡丹區(qū)招聘備考題庫及答案詳解(易錯題)
- 2026年淄博高青縣教育和體育局所屬事業(yè)單位公開招聘工作人員的備考題庫(25人)及1套完整答案詳解
- 建筑施工公司成本管理制度(3篇)
- 2025年婦產(chǎn)科副高試題庫及答案
- 全國物業(yè)管理法律法規(guī)及案例解析
- 2025年度黨委黨建工作總結(jié)
- 抖音來客本地生活服務(wù)酒旅酒店民宿旅游景區(qū)商家代運營策劃方案
- 新質(zhì)生產(chǎn)力在體育產(chǎn)業(yè)高質(zhì)量發(fā)展中的路徑探索
- 2025年公民素質(zhì)養(yǎng)成知識考察試題及答案解析
- 北侖區(qū)打包箱房施工方案
- 老年人營養(yǎng)和飲食
- 車載光通信技術(shù)發(fā)展及無源網(wǎng)絡(luò)應(yīng)用前景
- 2026屆上海市金山區(qū)物理八年級第一學(xué)期期末調(diào)研試題含解析
評論
0/150
提交評論