版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)離線計算工程師崗位招聘考試試卷及答案試題部分一、填空題(10題,每題1分)1.Hadoop分布式文件系統(tǒng)的縮寫是______。2.MapReduce計算框架中,負責分片處理輸入數(shù)據(jù)的階段是______。3.Hive中定義表結構的語句是______。4.Spark離線計算的核心抽象數(shù)據(jù)結構包括RDD和______。5.HBase中唯一標識一行數(shù)據(jù)的是______。6.離線計算常用的調(diào)度框架除YARN外還有______。7.Hive分區(qū)表的分區(qū)字段需放在______子句中。8.SparkSQL讀取Parquet文件的方法是______。9.Hadoop生態(tài)中負責資源管理調(diào)度的組件是______。10.離線計算常見輸出格式除TextFile外還有______。二、單項選擇題(10題,每題2分)1.以下屬于離線計算框架的是?A.StormB.SparkStreamingC.MapReduceD.Flink2.HDFS中存儲元數(shù)據(jù)的節(jié)點是?A.DataNodeB.NameNodeC.SecondaryNameNodeD.NodeManager3.Hive默認執(zhí)行引擎是?A.MapReduceB.SparkC.TezD.Presto4.Spark中屬于RDD轉(zhuǎn)換操作的是?A.count()B.collect()C.map()D.first()5.以下不是HBase特點的是?A.列式存儲B.高可靠性C.實時讀寫D.支持SQL查詢6.YARN中管理單個節(jié)點資源的是?A.ResourceManagerB.NodeManagerC.ApplicationMasterD.Container7.離線計算優(yōu)先選擇的存儲格式是?A.CSVB.JSONC.ParquetD.Text8.Spark中DataFrame轉(zhuǎn)RDD的方法是?A.toDF()B.rddC.map()D.collect()9.Hive外部表與內(nèi)部表的區(qū)別是?A.外部表數(shù)據(jù)不被Hive管理B.內(nèi)部表數(shù)據(jù)不被Hive管理C.外部表不能分區(qū)D.內(nèi)部表不能分區(qū)10.用于離線數(shù)據(jù)倉庫建設的組件是?A.KafkaB.HiveC.FlumeD.ZooKeeper三、多項選擇題(10題,每題2分)1.大數(shù)據(jù)離線計算常用框架包括?A.MapReduceB.SparkC.FlinkD.Hive2.Hadoop生態(tài)核心組件有?A.HDFSB.YARNC.MapReduceD.Spark3.SparkRDD的特性包括?A.不可變B.分區(qū)C.依賴D.懶加載4.Hive支持的文件格式有?A.TextFileB.ParquetC.ORCD.CSV5.離線計算任務調(diào)度方式包括?A.定時調(diào)度B.事件驅(qū)動C.手動觸發(fā)D.實時觸發(fā)6.HBase的組件包括?A.HMasterB.RegionServerC.ZooKeeperD.HDFS7.Spark核心模塊有?A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib8.離線計算數(shù)據(jù)處理步驟包括?A.數(shù)據(jù)采集B.數(shù)據(jù)清洗C.數(shù)據(jù)轉(zhuǎn)換D.數(shù)據(jù)存儲9.YARN主要角色有?A.ResourceManagerB.NodeManagerC.ApplicationMasterD.Container10.離線計算常見輸入數(shù)據(jù)源有?A.HDFSB.HBaseC.KafkaD.MySQL四、判斷題(10題,每題2分)1.HDFS適合存儲大文件。()2.MapReduce的Reduce階段可多個。()3.Hive可直接執(zhí)行SQL無需編譯。()4.SparkRDD是彈性分布式數(shù)據(jù)集。()5.HBase是關系型數(shù)據(jù)庫。()6.YARN可管理Hadoop和Spark資源。()7.Parquet是行式存儲格式。()8.SparkSQL可直接查詢Hive表。()9.離線計算處理歷史數(shù)據(jù)。()10.SecondaryNameNode存儲HDFS元數(shù)據(jù)。()五、簡答題(4題,每題5分)1.簡述MapReduce的工作流程。2.對比Hive內(nèi)部表與外部表的區(qū)別。3.簡述SparkRDD的依賴類型及作用。4.離線計算選擇Parquet格式的原因。六、討論題(2題,每題5分)1.如何優(yōu)化離線計算任務的執(zhí)行效率?(至少3個方向)2.離線計算中數(shù)據(jù)傾斜的常見原因及解決方法。答案部分一、填空題答案1.HDFS2.Map3.CREATETABLE4.DataFrame5.RowKey6.Mesos(或Kubernetes)7.PARTITIONEDBY8.read.parquet9.YARN10.Parquet(或SequenceFile)二、單項選擇題答案1.C2.B3.A4.C5.D6.B7.C8.B9.A10.B三、多項選擇題答案1.ABD2.ABC3.ABCD4.ABCD5.ABC6.ABCD7.ABCD8.ABCD9.ABC10.ABCD四、判斷題答案1.對2.對3.錯4.對5.錯6.對7.錯8.對9.對10.錯五、簡答題答案1.MapReduce工作流程:InputFormat分片數(shù)據(jù),每個分片由Map任務處理(轉(zhuǎn)換為鍵值對),輸出到本地磁盤;Shuffle階段將Map結果按鍵分組并傳輸?shù)絉educe節(jié)點;Reduce任務聚合分組數(shù)據(jù),輸出到HDFS。全程依賴YARN調(diào)度資源。2.內(nèi)部表vs外部表:內(nèi)部表由Hive管理表結構+數(shù)據(jù),刪表時同步刪HDFS數(shù)據(jù);外部表僅管理表結構,數(shù)據(jù)存用戶指定路徑,刪表僅刪元數(shù)據(jù)。內(nèi)部表用`CREATETABLE`,外部表用`CREATEEXTERNALTABLELOCATION`。外部表適合多工具共享數(shù)據(jù)。3.RDD依賴類型:窄依賴(如map):父分區(qū)僅被子分區(qū)1依賴,無Shuffle,可流水線執(zhí)行;寬依賴(如groupBy):父分區(qū)被子分區(qū)多依賴,需Shuffle,是Stage劃分依據(jù)。窄依賴提升效率,寬依賴需優(yōu)化。4.Parquet格式原因:列式存儲,支持列裁剪/謂詞下推,減少數(shù)據(jù)讀??;壓縮率高,節(jié)省存儲;適配復雜數(shù)據(jù)類型,兼容Hive/Spark;適合離線分析的查詢場景。六、討論題答案1.任務效率優(yōu)化方向:①存儲優(yōu)化:用Parquet/ORC,開啟壓縮;②計算優(yōu)化:減少寬依賴(如`reduceByKey`替代`groupByKey`),解決數(shù)據(jù)傾斜(key加鹽);③資源調(diào)度:調(diào)整YARN容器/SparkExecutor參數(shù),提升并行度;④引擎優(yōu)化:用Tez/Spark替代MapReduc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 周口文泰高級中學2026年招聘教師備考題庫及一套答案詳解
- 2026年長鋪專職消防站招聘9人備考題庫及1套完整答案詳解
- 2026年達州這家國企招聘備考題庫完整參考答案詳解
- 2026年西安長安大學工程設計研究院有限公司招聘備考題庫完整答案詳解
- 供應商管理制度
- 南昌職教城教育投資發(fā)展有限公司2025年第七批公開招聘工作人員備考題庫帶答案詳解
- 上海市宋校嘉定實驗學校2026學年教師招聘備考題庫附答案詳解
- 2026年西安惠安醫(yī)院招聘備考題庫及一套參考答案詳解
- 企業(yè)市場調(diào)研與分析制度
- 2026年黑河市第二人民醫(yī)院長期招聘臨床醫(yī)生及影像科技師5人備考題庫完整答案詳解
- 珍惜生命安全教育課
- 棄渣場使用規(guī)劃方案
- 滑坡穩(wěn)定性評價
- TTSSP 045-2023 油茶果機械化爆蒲及油茶籽干制加工技術規(guī)程
- 部編版高一語文上冊期末復習現(xiàn)代漢語語法知識要點梳理
- GB/T 4074.4-2024繞組線試驗方法第4部分:化學性能
- 關于澄清兩個公司無關聯(lián)關系的聲明
- JC∕T 940-2022 玻璃纖維增強水泥(GRC)裝飾制品
- 《兒科護理學》課件-兒童健康評估特點
- 廣東省深圳市南山區(qū)2023-2024學年六年級上學期期末科學試卷
- 臨床研究數(shù)據(jù)清洗與質(zhì)量控制
評論
0/150
提交評論