下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘工程師崗位招聘考試試卷及答案填空題(每題1分,共10分)1.數(shù)據(jù)預(yù)處理的核心步驟包括數(shù)據(jù)清洗、____、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約。2.K-means聚類算法的核心是計算樣本與____的距離。3.決策樹ID3算法使用____作為分裂準(zhǔn)則。4.分類模型精確率(Precision)=TP/____。5.關(guān)聯(lián)規(guī)則A→B的置信度=P(B|A)=____/P(A)。6.支持向量機(jī)(SVM)的核心是尋找____。7.特征選擇的常用方法有過濾法、____和包裹法。8.異常檢測常用算法有孤立森林、____等。9.神經(jīng)網(wǎng)絡(luò)BP算法的核心是____誤差。10.時間序列挖掘常用方法有ARIMA、____等。單項選擇題(每題2分,共20分)1.屬于無監(jiān)督學(xué)習(xí)的是?A.K-meansB.邏輯回歸C.決策樹D.隨機(jī)森林2.不平衡數(shù)據(jù)集分類評估最適合的指標(biāo)是?A.準(zhǔn)確率B.F1分?jǐn)?shù)C.召回率D.精確率3.關(guān)聯(lián)規(guī)則最小支持度過大會導(dǎo)致?A.規(guī)則過多B.精度低C.規(guī)則少D.無影響4.大數(shù)據(jù)挖掘常用工具是?A.ExcelB.SPSSC.SASD.SparkMLlib5.CART決策樹的分裂準(zhǔn)則是?A.信息增益B.基尼不純度C.信息增益率D.均方誤差6.屬于特征轉(zhuǎn)換的方法是?A.標(biāo)準(zhǔn)化B.缺失值填充C.去重D.特征選擇7.孤立森林的核心思想是?A.局部密度B.全局異常點C.隨機(jī)隔離異常點D.距離計算8.回歸問題的評估指標(biāo)是?A.精確率B.召回率C.F1D.MAE9.“維度災(zāi)難”指?A.特征過多導(dǎo)致模型性能下降B.數(shù)據(jù)量過大C.分布不均D.缺失值多10.屬于集成學(xué)習(xí)的是?A.KNNB.隨機(jī)森林C.樸素貝葉斯D.SVM多項選擇題(每題2分,共20分)1.缺失值處理常用方法有?A.均值填充B.刪除所有數(shù)據(jù)C.中位數(shù)填充D.模型預(yù)測填充2.屬于分類算法的有?A.邏輯回歸B.決策樹C.K-meansD.隨機(jī)森林3.關(guān)聯(lián)規(guī)則核心指標(biāo)有?A.支持度B.置信度C.提升度D.準(zhǔn)確率4.聚類評估指標(biāo)有?A.F1分?jǐn)?shù)B.輪廓系數(shù)C.Davies-Bouldin指數(shù)D.精確率5.特征選擇常用方法有?A.卡方檢驗B.互信息C.標(biāo)準(zhǔn)化D.遞歸特征消除6.屬于監(jiān)督學(xué)習(xí)的有?A.SVMB.PCAC.樸素貝葉斯D.線性回歸7.分布式計算框架有?A.HadoopB.SparkC.ExcelD.SPSS8.屬于神經(jīng)網(wǎng)絡(luò)的有?A.CNNB.KNNC.RNND.LSTM9.數(shù)據(jù)挖掘應(yīng)用場景包括?A.客戶細(xì)分B.fraud檢測C.推薦系統(tǒng)D.銷量預(yù)測10.關(guān)于SVM正確的說法有?A.處理高維數(shù)據(jù)B.僅線性可分C.核函數(shù)映射高維D.適合小樣本判斷題(每題2分,共20分)1.決策樹不需要特征縮放。(√)2.K-means結(jié)果與初始中心無關(guān)。(×)3.邏輯回歸是回歸算法非分類算法。(×)4.關(guān)聯(lián)規(guī)則提升度>1有意義。(√)5.PCA是特征選擇方法。(×)6.隨機(jī)森林減少過擬合。(√)7.異常檢測僅屬于無監(jiān)督學(xué)習(xí)。(×)8.SVMRBF核處理非線性問題。(√)9.去重屬于數(shù)據(jù)清洗。(√)10.ARIMA適用于平穩(wěn)時間序列。(√)簡答題(每題5分,共20分)1.簡述數(shù)據(jù)預(yù)處理的必要性及核心步驟。答案:必要性:原始數(shù)據(jù)存在噪聲、缺失、不一致,直接使用影響模型性能。核心步驟:①數(shù)據(jù)清洗(處理缺失、噪聲、重復(fù));②數(shù)據(jù)集成(合并多源數(shù)據(jù));③數(shù)據(jù)轉(zhuǎn)換(標(biāo)準(zhǔn)化、歸一化);④數(shù)據(jù)規(guī)約(降維、特征選擇)。解析:原始數(shù)據(jù)質(zhì)量差導(dǎo)致模型泛化弱,清洗解決缺陷,集成整合信息,轉(zhuǎn)換適配算法,規(guī)約降低維度災(zāi)難,保證挖掘有效。2.比較K-means與DBSCAN的差異。答案:K-means是劃分聚類,需指定k,基于距離;DBSCAN是密度聚類,無需指定k,基于密度可達(dá)。K-means對噪聲敏感,適合凸形簇;DBSCAN可發(fā)現(xiàn)任意形狀簇,處理噪聲。解析:K-means依賴初始中心,結(jié)果不穩(wěn)定;DBSCAN通過eps/minPts識別簇,魯棒性強(qiáng),適合復(fù)雜形狀,但對密度不均數(shù)據(jù)效果差。3.簡述3個分類評估指標(biāo)及適用場景。答案:①準(zhǔn)確率:整體正確比例,適用于平衡數(shù)據(jù)集;②精確率:預(yù)測正例中真實正例比例,適用于正例少的場景(如fraud);③召回率:真實正例中被預(yù)測正例比例,適用于漏檢影響大的場景(如疾病檢測)。解析:準(zhǔn)確率易受不平衡影響,精確率關(guān)注“預(yù)測對的正例”,召回率關(guān)注“找全正例”,需結(jié)合業(yè)務(wù)選擇。4.什么是過擬合?如何避免?答案:過擬合是模型訓(xùn)練集表現(xiàn)好、測試集差,過度學(xué)習(xí)噪聲。避免方法:①增加訓(xùn)練數(shù)據(jù);②正則化(L1/L2);③減少模型復(fù)雜度(決策樹剪枝);④集成學(xué)習(xí)(隨機(jī)森林);⑤早停法。解析:過擬合源于模型復(fù)雜度高于數(shù)據(jù)規(guī)律,增加數(shù)據(jù)減少噪聲,正則化約束參數(shù),集成學(xué)習(xí)降低方差,早停法提升泛化能力。討論題(每題5分,共10分)1.結(jié)合業(yè)務(wù)場景,說明如何選擇分類算法(邏輯回歸、決策樹、SVM、隨機(jī)森林)。答案:①邏輯回歸:線性可分、可解釋性高(如信用評分);②決策樹:非線性、可解釋性強(qiáng)(如客戶細(xì)分);③SVM:高維、非線性(如文本分類);④隨機(jī)森林:非線性、高維、抗過擬合(如fraud檢測)。解析:業(yè)務(wù)需可解釋性選邏輯回歸/決策樹,高維選SVM/隨機(jī)森林,不平衡數(shù)據(jù)選隨機(jī)森林,線性關(guān)系選邏輯回歸,復(fù)雜關(guān)系選決策樹/SVM,需結(jié)合數(shù)據(jù)量、維度、業(yè)務(wù)需求判斷。2.大數(shù)據(jù)挖掘中,Spark與傳統(tǒng)單機(jī)框架的差異及優(yōu)勢?答案:差異:Spark基于內(nèi)存分布式計算,單機(jī)依賴單節(jié)點硬件。優(yōu)勢:①處理PB級數(shù)據(jù);②速度快(內(nèi)存計算減少IO);③容錯性好(RDD彈性分布式);④擴(kuò)展性強(qiáng)(橫向擴(kuò)展節(jié)點)。解析:單機(jī)受硬件限制,Spark通過并行計算、內(nèi)存存儲提升效率,RDD支持容錯,適合電商用戶行為分析等大數(shù)據(jù)場景,解決單機(jī)無法處理的問題。答案匯總填空題答案1.數(shù)據(jù)集成2.聚類中心3.信息增益4.TP+FP5.P(A∩B)6.最優(yōu)超平面7.嵌入法8.LOF9.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玻璃欄桿專項施工方案
- 機(jī)房精密空調(diào)施工石方案
- 雙排腳手架施工管理方案
- 透水混凝土鋪設(shè)作業(yè)方案
- 壓密注漿地基加固施工方案
- 泵站施工專項方案
- 會計行業(yè)環(huán)境簡要分析報告
- pta行業(yè)全球供求分析報告
- 文化衫行業(yè)分析報告
- 抽水蓄能電站廠房防水施工方案
- 規(guī)范使用執(zhí)法記錄儀課件
- 餐廚垃圾高溫好氧堆肥技術(shù)方案
- 可轉(zhuǎn)債券投資協(xié)議書范本
- 非高危行業(yè)主要負(fù)責(zé)人和安全管理人員試題庫試題及答案
- 六氟磷酸鋰項目可行性建議書-
- 學(xué)堂在線 雨課堂 學(xué)堂云 海上求生與救生 期末考試答案
- 骨科冰敷健康宣教
- 集團(tuán)生產(chǎn)會議管理辦法
- 山東省高二物理會考20252025年真題
- 高級英語2 (第四版)張漢熙 練習(xí)答案
- 期貨開戶測試題及答案
評論
0/150
提交評論