大數(shù)據(jù)分析師崗位招聘考試試卷及答案_第1頁
大數(shù)據(jù)分析師崗位招聘考試試卷及答案_第2頁
大數(shù)據(jù)分析師崗位招聘考試試卷及答案_第3頁
大數(shù)據(jù)分析師崗位招聘考試試卷及答案_第4頁
大數(shù)據(jù)分析師崗位招聘考試試卷及答案_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析師崗位招聘考試試卷及答案一、填空題(共10題,每題1分)1.Hadoop的三大核心組件包括HDFS、MapReduce和________。2.SQL中計(jì)算平均值的聚合函數(shù)是________。3.數(shù)據(jù)倉庫分層通常包括ODS、DWD、DWS和________層。4.Spark的核心抽象是________(彈性分布式數(shù)據(jù)集)。5.ETL流程的三個步驟是抽取、轉(zhuǎn)換和________。6.存儲半結(jié)構(gòu)化數(shù)據(jù)的NoSQL類型是________(如MongoDB)。7.Python常用可視化庫包括Matplotlib和________。8.監(jiān)督學(xué)習(xí)分類算法如________(答一個即可)。9.數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確性、完整性和________。10.主流流處理框架包括SparkStreaming和________。二、單項(xiàng)選擇題(共10題,每題2分)1.HDFS默認(rèn)數(shù)據(jù)塊大小是()A.64MBB.128MBC.256MBD.512MB2.SparkRDD操作分為轉(zhuǎn)換和()A.動作B.過濾C.聚合D.映射3.SQL分組后過濾用()A.WHEREB.HAVINGC.GROUPBYD.ORDERBY4.列式存儲數(shù)據(jù)庫是()A.MongoDBB.RedisC.HBaseD.Cassandra5.數(shù)據(jù)倉庫核心特征是()A.面向事務(wù)B.實(shí)時更新C.面向主題D.存儲臨時數(shù)據(jù)6.SparkStreaming窗口默認(rèn)單位是()A.秒B.分鐘C.毫秒D.小時7.Kafka存儲消息的基本單元是()A.TopicB.PartitionC.BrokerD.Consumer8.Python處理分布式數(shù)據(jù)的庫是()A.PandasB.PySparkC.NumPyD.Matplotlib9.數(shù)據(jù)建模不包括()A.維度建模B.關(guān)系建模C.面向?qū)ο蠼.星型建模10.特征工程第一步是()A.特征選擇B.編碼C.預(yù)處理D.提取三、多項(xiàng)選擇題(共10題,每題2分,多選少選不得分)1.Hadoop生態(tài)組件包括()A.HiveB.PigC.SparkD.HBase2.Spark核心組件有()A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlib3.數(shù)據(jù)質(zhì)量維度包括()A.準(zhǔn)確性B.完整性C.時效性D.一致性4.NoSQL類型有()A.鍵值型B.文檔型C.列式型D.圖數(shù)據(jù)庫5.流處理框架有()A.SparkStreamingB.FlinkC.StormD.MapReduce6.可視化工具包括()A.TableauB.PowerBIC.EChartsD.D3.js7.監(jiān)督學(xué)習(xí)算法有()A.邏輯回歸B.決策樹C.K-meansD.隨機(jī)森林8.ETL工具包括()A.TalendB.InformaticaC.SparkSQLD.Kafka9.數(shù)據(jù)倉庫核心層有()A.ODSB.DWDC.DWSD.ADS10.大數(shù)據(jù)安全技術(shù)有()A.數(shù)據(jù)加密B.訪問控制C.脫敏D.入侵檢測四、判斷題(共10題,每題2分,√/×)1.HDFS適合存儲小文件()2.SparkRDD不可變()3.SQLJOIN只能關(guān)聯(lián)兩個表()4.NoSQL不支持事務(wù)()5.數(shù)據(jù)倉庫面向事務(wù)()6.SparkStreaming是微批處理()7.KafkaTopic可被多ConsumerGroup消費(fèi)()8.Pandas適合TB級數(shù)據(jù)()9.特征工程不用處理缺失值()10.大數(shù)據(jù)分析不需要業(yè)務(wù)知識()五、簡答題(共4題,每題5分)1.簡述Hadoop三大核心組件及作用。2.什么是ETL?簡述其步驟。3.SparkRDD的核心特性有哪些?4.數(shù)據(jù)倉庫與數(shù)據(jù)庫的主要區(qū)別?六、討論題(共2題,每題5分)1.大數(shù)據(jù)分析中如何平衡數(shù)據(jù)質(zhì)量與效率?2.流處理(如SparkStreaming)與批處理(如MapReduce)的適用場景差異?---答案部分一、填空題答案1.YARN2.AVG()3.ADS4.RDD5.加載(Load)6.文檔型7.Seaborn8.邏輯回歸9.時效性10.Storm二、單項(xiàng)選擇題答案1.B2.A3.B4.C5.C6.A7.B8.B9.C10.C三、多項(xiàng)選擇題答案1.ABD2.ABCD3.ABCD4.ABCD5.ABC6.ABCD7.ABD8.ABC9.ABCD10.ABCD四、判斷題答案1.×2.√3.×4.×5.×6.√7.√8.×9.×10.×五、簡答題答案1.①HDFS:分布式文件系統(tǒng),存儲海量數(shù)據(jù);②MapReduce:離線計(jì)算框架;③YARN:資源調(diào)度,分配集群資源。2.ETL是抽?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)的縮寫。步驟:從源系統(tǒng)抽數(shù)據(jù)→清洗整合→加載到數(shù)據(jù)倉庫。3.彈性、分布式、不可變、分區(qū)、持久化。4.①面向主題vs事務(wù);②存儲歷史數(shù)據(jù)vs實(shí)時更新;③支持多類型數(shù)據(jù)vs結(jié)構(gòu)化;④復(fù)雜分析vs簡單CRUD。六、討論題答案1.平衡需:①前置校驗(yàn)(抽取時檢查完整性);②分層處理(核心數(shù)據(jù)保質(zhì)量,非核心提效率);③工具自動化(用Spark實(shí)現(xiàn)清洗自動化)。避

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論