大數(shù)據(jù)分析師崗位招聘考試試卷及答案

上傳人：文*** IP屬地：山東上傳時間：2026-01-14 格式：DOC 頁數(shù)：5 大?。?9.50KB 積分：5.99 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析師崗位招聘考試試卷及答案一、填空題（共10題，每題1分）1.Hadoop的三大核心組件包括HDFS、MapReduce和________。2.SQL中計(jì)算平均值的聚合函數(shù)是________。3.數(shù)據(jù)倉庫分層通常包括ODS、DWD、DWS和________層。4.Spark的核心抽象是________（彈性分布式數(shù)據(jù)集）。5.ETL流程的三個步驟是抽取、轉(zhuǎn)換和________。6.存儲半結(jié)構(gòu)化數(shù)據(jù)的NoSQL類型是________（如MongoDB）。7.Python常用可視化庫包括Matplotlib和________。8.監(jiān)督學(xué)習(xí)分類算法如________（答一個即可）。9.數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確性、完整性和________。10.主流流處理框架包括SparkStreaming和________。二、單項(xiàng)選擇題（共10題，每題2分）1.HDFS默認(rèn)數(shù)據(jù)塊大小是（）A.64MBB.128MBC.256MBD.512MB2.SparkRDD操作分為轉(zhuǎn)換和（）A.動作B.過濾C.聚合D.映射3.SQL分組后過濾用（）A.WHEREB.HAVINGC.GROUPBYD.ORDERBY4.列式存儲數(shù)據(jù)庫是（）A.MongoDBB.RedisC.HBaseD.Cassandra5.數(shù)據(jù)倉庫核心特征是（）A.面向事務(wù)B.實(shí)時更新C.面向主題D.存儲臨時數(shù)據(jù)6.SparkStreaming窗口默認(rèn)單位是（）A.秒B.分鐘C.毫秒D.小時7.Kafka存儲消息的基本單元是（）A.TopicB.PartitionC.BrokerD.Consumer8.Python處理分布式數(shù)據(jù)的庫是（）A.PandasB.PySparkC.NumPyD.Matplotlib9.數(shù)據(jù)建模不包括（）A.維度建模B.關(guān)系建模C.面向?qū)ο蠼.星型建模10.特征工程第一步是（）A.特征選擇B.編碼C.預(yù)處理D.提取三、多項(xiàng)選擇題（共10題，每題2分，多選少選不得分）1.Hadoop生態(tài)組件包括（）A.HiveB.PigC.SparkD.HBase2.Spark核心組件有（）A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlib3.數(shù)據(jù)質(zhì)量維度包括（）A.準(zhǔn)確性B.完整性C.時效性D.一致性4.NoSQL類型有（）A.鍵值型B.文檔型C.列式型D.圖數(shù)據(jù)庫5.流處理框架有（）A.SparkStreamingB.FlinkC.StormD.MapReduce6.可視化工具包括（）A.TableauB.PowerBIC.EChartsD.D3.js7.監(jiān)督學(xué)習(xí)算法有（）A.邏輯回歸B.決策樹C.K-meansD.隨機(jī)森林8.ETL工具包括（）A.TalendB.InformaticaC.SparkSQLD.Kafka9.數(shù)據(jù)倉庫核心層有（）A.ODSB.DWDC.DWSD.ADS10.大數(shù)據(jù)安全技術(shù)有（）A.數(shù)據(jù)加密B.訪問控制C.脫敏D.入侵檢測四、判斷題（共10題，每題2分，√/×）1.HDFS適合存儲小文件（）2.SparkRDD不可變（）3.SQLJOIN只能關(guān)聯(lián)兩個表（）4.NoSQL不支持事務(wù)（）5.數(shù)據(jù)倉庫面向事務(wù)（）6.SparkStreaming是微批處理（）7.KafkaTopic可被多ConsumerGroup消費(fèi)（）8.Pandas適合TB級數(shù)據(jù)（）9.特征工程不用處理缺失值（）10.大數(shù)據(jù)分析不需要業(yè)務(wù)知識（）五、簡答題（共4題，每題5分）1.簡述Hadoop三大核心組件及作用。2.什么是ETL？簡述其步驟。3.SparkRDD的核心特性有哪些？4.數(shù)據(jù)倉庫與數(shù)據(jù)庫的主要區(qū)別？六、討論題（共2題，每題5分）1.大數(shù)據(jù)分析中如何平衡數(shù)據(jù)質(zhì)量與效率？2.流處理（如SparkStreaming）與批處理（如MapReduce）的適用場景差異？---答案部分一、填空題答案1.YARN2.AVG()3.ADS4.RDD5.加載（Load）6.文檔型7.Seaborn8.邏輯回歸9.時效性10.Storm二、單項(xiàng)選擇題答案1.B2.A3.B4.C5.C6.A7.B8.B9.C10.C三、多項(xiàng)選擇題答案1.ABD2.ABCD3.ABCD4.ABCD5.ABC6.ABCD7.ABD8.ABC9.ABCD10.ABCD四、判斷題答案1.×2.√3.×4.×5.×6.√7.√8.×9.×10.×五、簡答題答案1.①HDFS：分布式文件系統(tǒng)，存儲海量數(shù)據(jù)；②MapReduce：離線計(jì)算框架；③YARN：資源調(diào)度，分配集群資源。2.ETL是抽?。‥xtract）、轉(zhuǎn)換（Transform）、加載（Load）的縮寫。步驟：從源系統(tǒng)抽數(shù)據(jù)→清洗整合→加載到數(shù)據(jù)倉庫。3.彈性、分布式、不可變、分區(qū)、持久化。4.①面向主題vs事務(wù)；②存儲歷史數(shù)據(jù)vs實(shí)時更新；③支持多類型數(shù)據(jù)vs結(jié)構(gòu)化；④復(fù)雜分析vs簡單CRUD。六、討論題答案1.平衡需：①前置校驗(yàn)（抽取時檢查完整性）；②分層處理（核心數(shù)據(jù)保質(zhì)量，非核心提效率）；③工具自動化（用Spark實(shí)現(xiàn)清洗自動化）。避

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析師崗位招聘考試試卷及答案

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)分析師崗位招聘考試試卷及答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔