數(shù)據(jù)挖掘工程師筆試及答案_第1頁(yè)
數(shù)據(jù)挖掘工程師筆試及答案_第2頁(yè)
數(shù)據(jù)挖掘工程師筆試及答案_第3頁(yè)
數(shù)據(jù)挖掘工程師筆試及答案_第4頁(yè)
數(shù)據(jù)挖掘工程師筆試及答案_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘工程師筆試及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Apriori算法中,若最小支持度閾值設(shè)為0.05,則下列哪一項(xiàng)描述正確?A.所有頻繁1項(xiàng)集的支持度均大于0.05B.所有非頻繁1項(xiàng)集的支持度均小于0.05C.所有頻繁k項(xiàng)集的支持度均大于等于0.05D.所有非頻繁k項(xiàng)集的支持度均小于等于0.05答案:C2.給定數(shù)據(jù)集D={1,2,3,4,5,6,7,8,9,10},采用等寬分箱法分為5箱,則第3箱的區(qū)間是:A.[5.0,6.8]B.[5.0,7.0)C.[5.2,7.0)D.[5.0,7.0]答案:B3.在隨機(jī)森林中,關(guān)于OOB誤差的敘述,正確的是:A.OOB誤差隨樹(shù)的數(shù)量線性下降B.OOB誤差是訓(xùn)練集上的誤差C.OOB誤差可用于變量重要性評(píng)估D.OOB誤差與袋外樣本無(wú)關(guān)答案:C4.下列哪種距離度量對(duì)異常值最不敏感?A.歐氏距離B.曼哈頓距離C.切比雪夫距離D.余弦相似度答案:B5.在Kmeans聚類中,若初始中心點(diǎn)選擇不當(dāng),最可能導(dǎo)致的后果是:A.聚類結(jié)果為空B.聚類結(jié)果陷入局部最優(yōu)C.聚類結(jié)果無(wú)法收斂D.聚類結(jié)果維度爆炸答案:B6.在梯度提升樹(shù)(GBDT)中,Shrinkage參數(shù)的作用是:A.控制樹(shù)的最大深度B.控制每棵樹(shù)對(duì)最終模型的貢獻(xiàn)率C.控制葉子節(jié)點(diǎn)最小樣本數(shù)D.控制特征抽樣比例答案:B7.下列關(guān)于PCA的敘述,錯(cuò)誤的是:A.主成分方向是協(xié)方差矩陣的特征向量B.主成分之間正交C.第一主成分解釋方差最大D.主成分?jǐn)?shù)量必須小于原始特征數(shù)答案:D8.在文本挖掘中,TFIDF公式里IDF的作用是:A.提升高頻詞權(quán)重B.降低高頻詞權(quán)重C.提升文檔長(zhǎng)度D.降低文檔差異答案:B9.若某二分類模型的ROC曲線下面積AUC=0.83,則其對(duì)應(yīng)的Gini系數(shù)為:A.0.66B.0.34C.0.83D.0.17答案:A10.在SparkMLlib中,下列哪類算法默認(rèn)采用LBFGS優(yōu)化器?A.ALSB.Word2VecC.LogisticRegressionD.KMeans答案:C二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.下列哪些方法可用于處理類別不平衡?A.SMOTE過(guò)采樣B.代價(jià)敏感學(xué)習(xí)C.集成BaggingD.閾值移動(dòng)答案:A,B,D12.關(guān)于Hadoop與Spark的對(duì)比,正確的有:A.Spark基于內(nèi)存計(jì)算B.MapReduce任務(wù)中間結(jié)果落盤C.Spark僅支持批處理D.HadoopYARN可為Spark提供資源調(diào)度答案:A,B,D13.在特征選擇中,屬于過(guò)濾式(Filter)方法的有:A.卡方檢驗(yàn)B.互信息C.Lasso回歸D.方差選擇法答案:A,B,D14.下列哪些操作會(huì)導(dǎo)致數(shù)據(jù)泄露(DataLeakage)?A.先整體標(biāo)準(zhǔn)化再劃分訓(xùn)練測(cè)試集B.用未來(lái)特征預(yù)測(cè)過(guò)去標(biāo)簽C.交叉驗(yàn)證前做特征選擇D.用訓(xùn)練集均值填充測(cè)試集缺失值答案:A,B,C15.關(guān)于深度學(xué)習(xí)中的BatchNormalization,正確的有:A.可加速收斂B.可替代DropoutC.在卷積層與激活層之間使用D.測(cè)試階段使用移動(dòng)平均的均值方差答案:A,C,D三、填空題(每空2分,共20分)16.給定事務(wù)數(shù)據(jù)庫(kù),項(xiàng)集{牛奶,面包}的支持度計(jì)數(shù)為50,總事務(wù)數(shù)為1000,則支持度為_(kāi)___%。答案:517.在信息論中,若隨機(jī)變量X的熵H(X)=0,則X的取值具有____性。答案:確定18.若某決策樹(shù)使用基尼指數(shù)作為劃分標(biāo)準(zhǔn),則節(jié)點(diǎn)基尼指數(shù)越小,表示節(jié)點(diǎn)____越高。答案:純度19.在Word2Vec中,Skipgram模型的訓(xùn)練目標(biāo)是最大化給定中心詞預(yù)測(cè)____的概率。答案:上下文詞20.若LSTM的遺忘門輸出接近0,則上一時(shí)刻的細(xì)胞狀態(tài)C_{t1}將被____。答案:丟棄21.在關(guān)聯(lián)規(guī)則中,置信度計(jì)算公式為_(kāi)___。答案:支持度(A∪B)/支持度(A)22.若采用5折交叉驗(yàn)證,數(shù)據(jù)集大小為10000,則每折用作訓(xùn)練的樣本數(shù)約為_(kāi)___。答案:800023.在XGBoost中,控制葉子節(jié)點(diǎn)權(quán)重的正則項(xiàng)參數(shù)是____。答案:lambda24.若某連續(xù)特征服從標(biāo)準(zhǔn)正態(tài)分布,則其數(shù)值落在[μ2σ,μ+2σ]的概率約為_(kāi)___%。答案:95.4525.在PageRank算法中,阻尼系數(shù)d通常取值為_(kāi)___。答案:0.85四、簡(jiǎn)答題(共30分)26.(6分)簡(jiǎn)述Kmeans++算法與原始Kmeans在初始化策略上的差異,并說(shuō)明其對(duì)聚類效果的影響。答案:Kmeans++改進(jìn)了隨機(jī)選中心的方式,步驟如下:1)隨機(jī)選取第一個(gè)中心;2)對(duì)于每個(gè)非中心點(diǎn),計(jì)算其與最近中心的距離D(x);3)以概率D(x)2/ΣD(x)2選取下一個(gè)中心;4)重復(fù)直至選滿k個(gè)。該策略使初始中心彼此遠(yuǎn)離,降低陷入局部最優(yōu)概率,實(shí)驗(yàn)表明其收斂速度提升約20%~50%,SSE(誤差平方和)平均下降10%以上。27.(6分)寫出ID3算法使用信息增益選擇劃分屬性的完整公式,并解釋為何C4.5改用增益率。答案:信息增益Gain(D,a)=Ent(D)∑(v=1→V)|D^v|/|D|·Ent(D^v),其中Ent(D)=∑(k=1→|y|)p_klog?p_k。信息增益偏向取值數(shù)目多的屬性,增益率Gain_ratio(D,a)=Gain(D,a)/IV(a),IV(a)=∑(v=1→V)|D^v|/|D|log?|D^v|/|D|,通過(guò)除以固有值IV(a)懲罰取值多的屬性,提升泛化能力。28.(6分)說(shuō)明FPGrowth算法為何比Apriori高效,并指出其內(nèi)存消耗瓶頸。答案:FPGrowth采用壓縮的FPtree結(jié)構(gòu),避免候選集生成與多次掃描數(shù)據(jù)庫(kù),只需兩次掃描:第一次統(tǒng)計(jì)頻繁1項(xiàng)集,第二次構(gòu)建FPtree;挖掘時(shí)通過(guò)條件模式基遞歸增長(zhǎng)頻繁項(xiàng),時(shí)間復(fù)雜度由Apriori的O(2^m)降至O(m·|DB|)。瓶頸在于FPtree需常駐內(nèi)存,當(dāng)數(shù)據(jù)稀疏或最小支持度極低時(shí),樹(shù)節(jié)點(diǎn)爆炸,內(nèi)存占用可能超過(guò)Apriori。29.(6分)解釋過(guò)擬合與欠擬合的成因,并各給出兩種緩解措施。答案:過(guò)擬合成因:模型復(fù)雜度過(guò)高、訓(xùn)練數(shù)據(jù)不足、噪聲過(guò)大。緩解:①正則化(L1/L2);②早停;③Dropout;④數(shù)據(jù)增強(qiáng)。欠擬合成因:模型復(fù)雜度不足、特征表達(dá)能力弱、訓(xùn)練不充分。緩解:①增加模型復(fù)雜度(如提升樹(shù)深度);②構(gòu)造高階特征;③減少正則化強(qiáng)度;④延長(zhǎng)訓(xùn)練迭代。30.(6分)描述MapReduce實(shí)現(xiàn)樸素貝葉斯分類器訓(xùn)練過(guò)程的Map與Reduce階段具體鍵值對(duì)設(shè)計(jì)。答案:Map階段:輸入<文本行偏移,行文本>,解析為(標(biāo)簽,特征列表)。對(duì)每對(duì)(標(biāo)簽,特征),輸出鍵值對(duì)<(“Y=標(biāo)簽”,1)>與<(“Y=標(biāo)簽,X_i=特征值”,1)>。Combiner局部聚合:統(tǒng)計(jì)同一鍵的計(jì)數(shù)。Reduce階段:對(duì)鍵“Y=標(biāo)簽”求和得類別先驗(yàn)計(jì)數(shù);對(duì)鍵“Y=標(biāo)簽,X_i=特征值”求和得似然計(jì)數(shù);最終輸出<(“Y=標(biāo)簽”,N_y)>與<(“Y=標(biāo)簽,X_i=特征值”,N_y,xi)>,供后續(xù)概率估計(jì)。五、計(jì)算與分析題(共35分)31.(10分)給定如下訓(xùn)練集,使用樸素貝葉斯預(yù)測(cè)測(cè)試樣本X=(天氣=晴,溫度=冷,濕度=高,風(fēng)速=強(qiáng))的“是否打球”標(biāo)簽。訓(xùn)練集(10條):編號(hào)天氣溫度濕度風(fēng)速打球1晴熱高弱否2晴熱高強(qiáng)否3陰熱高弱是4雨溫和高弱是5雨冷正常弱是6雨冷正常強(qiáng)否7陰冷正常強(qiáng)是8晴溫和高弱否9晴冷正常弱是10雨溫和正常弱是要求:使用拉普拉斯平滑(加1平滑),寫出詳細(xì)計(jì)算過(guò)程,并給出最終分類結(jié)果。答案:1)先驗(yàn)概率:P(是)=6/10,P(否)=4/10。2)似然概率(平滑):天氣=晴:P(晴|是)=(2+1)/(6+3)=3/9=1/3P(晴|否)=(3+1)/(4+3)=4/7溫度=冷:P(冷|是)=(3+1)/(6+3)=4/9P(冷|否)=(1+1)/(4+3)=2/7濕度=高:P(高|是)=(2+1)/(6+2)=3/8P(高|否)=(3+1)/(4+2)=4/6=2/3風(fēng)速=強(qiáng):P(強(qiáng)|是)=(1+1)/(6+2)=2/8=1/4P(強(qiáng)|否)=(2+1)/(4+2)=3/6=1/23)聯(lián)合似然×先驗(yàn):P(X|是)P(是)=(1/3)(4/9)(3/8)(1/4)(6/10)=0.00278P(X|否)P(否)=(4/7)(2/7)(2/3)(1/2)(4/10)=0.010884)歸一化:P(是|X)=0.00278/(0.00278+0.01088)=0.203P(否|X)=0.797結(jié)論:預(yù)測(cè)為“否”。32.(10分)某電商用戶商品評(píng)分矩陣如下(缺失值用?表示)。采用基于物品的協(xié)同過(guò)濾,使用余弦相似度,鄰居數(shù)上限為2,預(yù)測(cè)用戶U3對(duì)物品I3的評(píng)分。用戶\物品I1I2I3I4U153?1U24?42U332?4U4434?要求:寫出相似度計(jì)算、鄰居選擇、預(yù)測(cè)公式及最終結(jié)果,保留2位小數(shù)。答案:1)計(jì)算物品I3與其他物品的余弦相似度(僅基于共同評(píng)分用戶):I3與I1:共同用戶U2,U4sim(I3,I1)=(4×4+4×4)/√(42+42)√(42+42)=32/32=1.00I3與I2:共同用戶U4sim(I3,I2)=(4×3)/√(42)√(32)=12/(4×3)=1.00I3與I4:共同用戶U2sim(I3,I4)=(4×2)/√(42)√(22)=8/(4×2)=1.002)鄰居選擇:取相似度最高的2個(gè)鄰居,可任取,此處選I1、I2。3)預(yù)測(cè)公式:r?_{U3,I3}=r?_{I3}+[sim(I3,I1)(r_{U3,I1}r?_{I1})+sim(I3,I2)(r_{U3,I2}r?_{I2})]/(|sim|)r?_{I3}=(4+4)/2=4r?_{I1}=(4+3+4)/3=3.67r?_{I2}=(3+2+3)/3=2.67r_{U3,I1}=3,r_{U3,I2}=2r?=4+[1×(33.67)+1×(22.67)]/2=4+(0.670.67)/2=40.67=3.33結(jié)論:預(yù)測(cè)評(píng)分為3.33。33.(15分)某二分類任務(wù)采用邏輯回歸,特征維度d=20,訓(xùn)練集N=10000,測(cè)試集N=2000。實(shí)驗(yàn)記錄如下:實(shí)驗(yàn)正則化特征標(biāo)準(zhǔn)化訓(xùn)練AUC測(cè)試AUC1None否0.970.812L2否0.920.873L2是0.900.89(1)分析實(shí)驗(yàn)1過(guò)擬合原因,寫出兩種改進(jìn)策略并說(shuō)明原理。(6分)(2)解釋為何實(shí)驗(yàn)3相比實(shí)驗(yàn)2測(cè)試AUC提升,但訓(xùn)練AUC下降。(4分)(3)若改用隨機(jī)森林,樹(shù)數(shù)T=500,最大深度不限,最小葉子節(jié)點(diǎn)樣本為1,預(yù)測(cè)訓(xùn)練AUC≈1,測(cè)試AUC≈0.85。請(qǐng)給出兩種抑制過(guò)擬合的參數(shù)調(diào)整方案,并預(yù)測(cè)調(diào)整后測(cè)試AUC變化趨勢(shì)。(5分)答案:(1)實(shí)驗(yàn)1無(wú)正則化且特征未標(biāo)準(zhǔn)化,導(dǎo)致某些數(shù)值大的特征權(quán)重過(guò)大,模型過(guò)度擬合訓(xùn)練噪聲。改進(jìn):①加入L2正則,懲罰大權(quán)重,降低模型復(fù)雜度;②實(shí)施特征標(biāo)準(zhǔn)化,使各特征處于同一尺度,避免梯度下降被單一特征主導(dǎo)。(2)標(biāo)準(zhǔn)化后,特征尺度一致,梯度下降收斂更穩(wěn)定,權(quán)重估計(jì)更

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論