版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)數(shù)據(jù)挖掘工程師崗位招聘考試試卷及答案大數(shù)據(jù)數(shù)據(jù)挖掘工程師崗位招聘考試試卷一、填空題(共10題,每題1分,共10分)1.HDFS中文件默認(rèn)的塊大小是______MB。2.MapReduce框架的核心計(jì)算階段包括Map階段和______階段。3.K-means聚類算法中,需預(yù)先指定的參數(shù)是______。4.Spark的核心抽象是______,代表分布式不可變數(shù)據(jù)集。5.SQL中計(jì)算累計(jì)值的窗口函數(shù)常用______。6.類別型特征轉(zhuǎn)數(shù)值型的常用方法是______。7.決策樹劃分特征的準(zhǔn)則包括信息增益和______。8.NoSQL數(shù)據(jù)庫類型包括鍵值型、文檔型、列族型和______。9.數(shù)據(jù)預(yù)處理步驟包括清洗、集成、變換和______。10.線性回歸的損失函數(shù)通常是______。二、單項(xiàng)選擇題(共10題,每題2分,共20分)1.不屬于大數(shù)據(jù)“4V”特征的是()A.VolumeB.VelocityC.VarietyD.Validity2.Hadoop核心組件不包括()A.HDFSB.MapReduceC.SparkD.YARN3.Spark并行計(jì)算的核心算子是()A.mapB.reduceC.filterD.groupBy4.屬于無監(jiān)督學(xué)習(xí)的算法是()A.邏輯回歸B.K-meansC.決策樹D.SVM5.屬于特征選擇方法的是()A.歸一化B.標(biāo)準(zhǔn)化C.卡方檢驗(yàn)D.獨(dú)熱編碼6.屬于數(shù)據(jù)可視化工具的是()A.HiveB.PigC.TableauD.ZooKeeper7.ETL流程第一步是()A.轉(zhuǎn)換B.提取C.加載D.清洗8.分類模型準(zhǔn)確性指標(biāo)是()A.RMSEB.MAEC.準(zhǔn)確率D.R29.HBase屬于哪種NoSQL?()A.鍵值型B.文檔型C.列族型D.圖數(shù)據(jù)庫10.屬于分布式計(jì)算框架的是()A.MySQLB.MongoDBC.RedisD.Flink三、多項(xiàng)選擇題(共10題,每題2分,共20分)1.大數(shù)據(jù)“4V”特征包括()A.VolumeB.VelocityC.VarietyD.ValueE.Veracity2.Hadoop核心組件包括()A.HDFSB.MapReduceC.YARND.SparkE.Hive3.Spark常用庫包括()A.SparkSQLB.SparkStreamingC.MLlibD.GraphXE.Pig4.數(shù)據(jù)挖掘常用算法包括()A.K-meansB.邏輯回歸C.決策樹D.隨機(jī)森林E.SVM5.特征工程步驟包括()A.特征選擇B.特征提取C.特征變換D.特征評(píng)估E.特征存儲(chǔ)6.模型評(píng)估指標(biāo)包括()A.準(zhǔn)確率B.召回率C.F1值D.RMSEE.R27.NoSQL數(shù)據(jù)庫類型包括()A.鍵值型B.文檔型C.列族型D.圖數(shù)據(jù)庫E.關(guān)系型8.數(shù)據(jù)預(yù)處理方法包括()A.缺失值填充B.異常值處理C.歸一化D.標(biāo)準(zhǔn)化E.加密9.機(jī)器學(xué)習(xí)分類包括()A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.強(qiáng)化學(xué)習(xí)D.半監(jiān)督學(xué)習(xí)E.深度學(xué)習(xí)10.分布式存儲(chǔ)系統(tǒng)包括()A.HDFSB.HBaseC.MySQLD.MongoDBE.Redis四、判斷題(共10題,每題2分,共20分)1.HDFS默認(rèn)塊復(fù)制數(shù)是3。()2.MapReduce執(zhí)行順序是先Map后Reduce。()3.K-means對(duì)異常值不敏感。()4.線性回歸只能處理線性關(guān)系。()5.Spark是基于磁盤的計(jì)算框架。()6.決策樹屬于集成學(xué)習(xí)。()7.NoSQL不支持ACID。()8.ETL全稱是“提取-轉(zhuǎn)換-加載”。()9.PCA是降維算法。()10.邏輯回歸用于預(yù)測(cè)連續(xù)值。()五、簡答題(共4題,每題5分,共20分)1.簡述數(shù)據(jù)挖掘的基本流程。2.對(duì)比Hadoop和Spark的主要區(qū)別。3.簡述K-means聚類的基本步驟。4.如何評(píng)估分類模型的性能?六、討論題(共2題,每題5分,共10分)1.大數(shù)據(jù)場(chǎng)景下如何處理數(shù)據(jù)傾斜?2.數(shù)據(jù)挖掘工程師的核心能力有哪些?答案部分一、填空題答案1.1282.Reduce3.聚類數(shù)k4.RDD5.SUM(或AVG等窗口函數(shù))6.獨(dú)熱編碼(One-hotEncoding)7.基尼系數(shù)(或信息增益率)8.圖數(shù)據(jù)庫9.數(shù)據(jù)歸約10.均方誤差(MSE)二、單項(xiàng)選擇題答案1.D2.C3.A4.B5.C6.C7.B8.C9.C10.D三、多項(xiàng)選擇題答案1.ABCDE2.ABC3.ABCD4.ABCDE5.ABCD6.ABCDE7.ABCD8.ABCD9.ABCD10.ABDE四、判斷題答案1.√2.√3.×4.×5.×6.×7.×8.√9.√10.×五、簡答題答案1.數(shù)據(jù)挖掘流程:①數(shù)據(jù)收集→②預(yù)處理(清洗/集成/變換/歸約)→③特征工程(選擇/提取/變換)→④模型構(gòu)建(選算法訓(xùn)練)→⑤評(píng)估(指標(biāo)驗(yàn)證)→⑥部署(上線/迭代)。2.HadoopvsSpark:①計(jì)算模型:Hadoop(MapReduce,磁盤IO多);Spark(內(nèi)存計(jì)算,IO少);②中間結(jié)果:Hadoop寫磁盤,Spark存內(nèi)存;③場(chǎng)景:Hadoop適合批處理,Spark適合迭代/流處理;④生態(tài):Spark更豐富(SQL/MLlib等)。3.K-means步驟:①初始化k個(gè)中心→②樣本分配到最近中心→③更新中心(均值)→④迭代至中心穩(wěn)定,輸出聚類結(jié)果。4.分類模型評(píng)估:①基礎(chǔ)指標(biāo)(準(zhǔn)確率/召回率/精確率);②綜合指標(biāo)(F1值/ROC-AUC);③混淆矩陣(TP/TN/FP/FN);④交叉驗(yàn)證(避免過擬合)。六、討論題答案1.數(shù)據(jù)傾斜處理:①拆分大key(如后綴拆分);②算法優(yōu)化(MapReduce用Combiner,Spark用reduceByKey);③分區(qū)調(diào)整(手動(dòng)設(shè)分區(qū)數(shù));④中間壓縮(減少傳輸);⑤傾斜算子(Spark的repartitionAndSortWithinParti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)安全保衛(wèi)與應(yīng)急管理指南(標(biāo)準(zhǔn)版)
- 2025年智能家居產(chǎn)品售后服務(wù)規(guī)范
- 法律合規(guī)與風(fēng)險(xiǎn)控制制度
- 2025年醫(yī)療器械使用與維護(hù)規(guī)范
- 超市員工績效考核及評(píng)價(jià)制度
- 超市庫存管理及盤點(diǎn)制度
- 2026年西岸華府幼兒園短期教師招聘備考題庫及完整答案詳解1套
- 養(yǎng)老院老人健康飲食營養(yǎng)師激勵(lì)制度
- 2026年青島中遠(yuǎn)海運(yùn)物流供應(yīng)鏈有限公司招聘備考題庫完整答案詳解
- 2026年舟山市普朱管委會(huì)黨政辦公室招聘備考題庫及完整答案詳解1套
- 器官移植術(shù)后排斥反應(yīng)的風(fēng)險(xiǎn)分層管理
- 虛擬電廠關(guān)鍵技術(shù)
- 事業(yè)單位清算及財(cái)務(wù)報(bào)告編寫范本
- 監(jiān)控運(yùn)維工作總結(jié)
- 材料供應(yīng)商與裝修公司合作協(xié)議模板
- 股權(quán)收購協(xié)議(參考文本)
- 2025屆高考語文一輪復(fù)習(xí):二元思辨類作文思辨關(guān)系高階思維
- 地下綜合管廊混凝土工程施工方案
- 預(yù)制混凝土構(gòu)件質(zhì)量控制
- 2024高考英語應(yīng)用文寫作真題手把手:2023全國乙卷素材
- 抵制網(wǎng)絡(luò)爛梗主題班會(huì)課件不盲目跟風(fēng)做自己的主人
評(píng)論
0/150
提交評(píng)論