版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)專業(yè)考試題及答案1.在Hadoop生態(tài)系統(tǒng)中,MapReduce框架的Shuffle階段主要負責什么功能?()A.將輸入數(shù)據(jù)分割成多個分片B.將Map輸出的鍵值對按照鍵進行排序和分組C.將最終結果寫入HDFSD.監(jiān)控任務的執(zhí)行狀態(tài)答案:B2.某電商平臺的用戶行為日志存儲在HDFS中,現(xiàn)需統(tǒng)計每日活躍用戶數(shù)(DAU),以下哪種方法效率最高?()A.使用HiveQL的COUNT(DISTINCTuser_id)直接查詢B.先通過MapReduce去重,再統(tǒng)計結果行數(shù)C.使用Spark的RDD.distinct().count()D.將數(shù)據(jù)導入MySQL后執(zhí)行GROUPBY查詢答案:B3.在Flume數(shù)據(jù)采集過程中,若需將多臺服務器的日志匯聚到單個HDFS文件,應配置哪種Channel類型?()A.MemoryChannelB.FileChannelC.JDBCChannelD.PseudoTransactionChannel答案:B4.某金融公司需要實時分析交易數(shù)據(jù)流,延遲需控制在1秒內(nèi),以下技術棧最合適的是?()A.HadoopMapReduce+HDFS
B.SparkStreaming+Kafka
C.Flink+HBaseD.Hive+Tez答案:C5.在Hive表中,若某字段存儲的是JSON格式字符串,現(xiàn)需提取其中的"user_age"字段,以下哪種方法可行?()A.使用Hive內(nèi)置的JSON解析函數(shù)get_json_object()B.直接通過WHERE子句過濾C.使用正則表達式替換D.導入MySQL后解析答案:A6.關于HBase的RowKey設計,以下哪種做法可能導致熱點問題?()A.使用用戶ID的哈希值作為前綴B.按時間戳倒序排列C.使用連續(xù)遞增的數(shù)字IDD.結合業(yè)務標簽和隨機數(shù)答案:C7.某物流公司需根據(jù)車輛GPS數(shù)據(jù)計算實時路況,數(shù)據(jù)量每秒10萬條,以下哪種架構最合理?()A.Lambda架構,批處理層用Hadoop,速度層用StormB.Kappa架構,全部用KafkaStreams處理C.僅用SparkStructuredStreamingD.傳統(tǒng)ETL工具定期處理答案:A8.在Spark中,以下代碼段`valrdd=sc.parallelize(1to1000).filter(_%2==0)`執(zhí)行后,RDD中包含多少元素?()A.500
B.1000
C.250
D.0答案:A9.關于HDFS的副本放置策略,以下描述正確的是?()A.第一個副本放在客戶端所在節(jié)點B.第二個副本放在同一機架的不同節(jié)點C.第三個副本放在不同機架的節(jié)點D.以上均正確答案:D10.某電商平臺需分析用戶購買路徑,數(shù)據(jù)存儲在Kafka中,以下哪種工具最適合實時計算轉化率?()A.Hive
B.PigC.FlinkD.Sqoop答案:C11.在MapReduce中,若輸入數(shù)據(jù)包含1億條記錄,默認分片數(shù)為100,每個分片處理的記錄數(shù)約為?()A.10萬條B.100萬條C.1000萬條D.1億條答案:B12.以下哪種場景適合使用HBase而非關系型數(shù)據(jù)庫?()A.需要復雜事務支持B.數(shù)據(jù)模型固定且表結構簡單C.需要存儲半結構化數(shù)據(jù)并支持高并發(fā)寫入D.數(shù)據(jù)量小于10GB答案:C13.在SparkSQL中,若需將DataFrame寫入Hive表,以下哪種方式正確?()A.df.write.saveAsTable("hive_table")B.df.write.format("hive").save()C.df.write.mode("overwrite").saveAsTable("hive_table")D.直接調(diào)用HiveContext的insert方法答案:C14.某公司需從MySQL導入數(shù)據(jù)到HDFS,數(shù)據(jù)量500GB,以下哪種工具效率最高?()A.SqoopB.FlumeC.KafkaD.HadoopDistCp答案:A15.在Flink中,以下哪種窗口類型適合統(tǒng)計每5分鐘的用戶訪問量?()A.滾動窗口(TumblingWindow)B.滑動窗口(SlidingWindow)C.會話窗口(SessionWindow)D.全局窗口(GlobalWindow)答案:A16.關于Hive的分區(qū)表,以下描述錯誤的是?()A.分區(qū)字段可以是日期類型B.分區(qū)能提高查詢效率C.分區(qū)表必須指定靜態(tài)分區(qū)值D.動態(tài)分區(qū)需設置hive.exec.dynamic.partition為true答案:C17.某社交平臺需存儲用戶關系數(shù)據(jù)(如好友列表),以下哪種存儲方案最合適?()A.HDFS文件B.HBase列族C.Redis圖數(shù)據(jù)庫D.MySQL關系表答案:C18.在Spark中,以下代碼`valrdd2=rdd1.map(x=>(x,1)).reduceByKey(_+_)`的作用是?()A.統(tǒng)計每個元素的頻率B.對元素去重C.計算元素總和D.過濾空值答案:A19.以下哪種技術能解決Hadoop集群中的小文件問題?()A.使用CombineFileInputFormatB.增加HDFS塊大小C.啟用HadoopArchive(HAR)D.以上均正確答案:D20.某銀行需實時檢測欺詐交易,延遲需小于500ms,以下哪種架構可行?()A.Hadoop批處理B.SparkStreaming微批處理C.Flink事件驅(qū)動處理D.Hive實時查詢答案:C21.在HBase中,以下哪種操作會導致RegionSplit?()A.數(shù)據(jù)量超過Region大小閾值B.手動執(zhí)行split命令C.寫入壓力過大D.以上均可能答案:D22.某電商需分析用戶瀏覽行為,數(shù)據(jù)存儲在Kafka中,以下哪種工具適合構建實時推薦系統(tǒng)?()A.HiveB.SparkMLlibC.TensorFlowonSpark
D.FlinkCEP答案:D23.在MapReduce中,以下哪個組件負責合并Map輸出的中間結果?()A.RecordReader
B.Partitioner
C.Combiner
D.Shuffle答案:C24.以下哪種場景適合使用Kafka而非RabbitMQ?()A.需要高吞吐量的日志收集B.需要復雜路由規(guī)則C.需要保證消息順序D.需要輕量級消息隊列答案:A25.在Spark中,以下代碼`valdf=spark.read.json("hdfs://path/data.json")`執(zhí)行后,若JSON文件格式錯誤,會拋出?()A.NullPointerExceptionB.ParseExceptionC.IOExceptionD.NoClassDefFoundError答案:B26.某公司需將HDFS數(shù)據(jù)導出到本地文件系統(tǒng),以下哪種命令正確?()A.hadoopfs-get/input/local/path
B.hadoopfs-put/local/path/inputC.hadoopdistcp/input/local/pathD.hdfsdfs-copyToLocal/input/local/path答案:D27.在Flink中,以下哪種狀態(tài)后端適合高吞吐場景?()A.MemoryStateBackendB.FsStateBackendC.RocksDBStateBackendD.EmbeddedRocksDBStateBackend答案:C28.以下哪種技術能優(yōu)化Hive查詢性能?()A.啟用向量化執(zhí)行(hive.vectorized.execution.enabled)B.增加Reducer數(shù)量C.使用ORC文件格式D.以上均正確答案:D29.某物聯(lián)網(wǎng)平臺需存儲傳感器時序數(shù)據(jù),以下哪種方案最合適?()A.HBaseB.OpenTSDB
C.MongoDB
D.PostgreSQL答案:B30.在SparkStreaming中,以下代碼`valdstream=KafkaUtils.createDirectStream(...)`的作用是?()A.從Socket讀取數(shù)據(jù)B.從Kafka讀取數(shù)據(jù)C.從HDFS讀取文件D.從內(nèi)存生成數(shù)據(jù)答案:B31.以下哪種HDFS操作會導致NameNode元數(shù)據(jù)膨脹?()A.頻繁創(chuàng)建小文件B.設置大塊大小C.啟用冗余副本D.使用壓縮存儲答案:A32.某公司需分析用戶點擊流數(shù)據(jù),數(shù)據(jù)量每分鐘10萬條,以下哪種工具適合離線分析?()A.HadoopMapReduce
B.StormC.SamzaD.ApacheBeam答案:A33.在HBase中,以下哪種Scan操作能提高查詢效率?()A.設置StartRow和StopRowB.使用Filter過濾列C.限制返回的列族數(shù)量D.以上均正確答案:D34.以下哪種Spark優(yōu)化技術能減少Shuffle數(shù)據(jù)量?()A.使用Broadcast變量B.增加Partition數(shù)量C.啟用推測執(zhí)行D.使用Kryo序列化答案:A35.某金融公司需存儲交易記錄并支持按時間范圍查詢,以下哪種方案最合適?()A.HDFS文件按日期分區(qū)B.HBase按RowKey設計時間前綴C.MySQL按時間字段建索引D.Redis列表存儲答案:B36.在Flink中,以下哪種水印策略適合處理亂序事件?()A.固定周期水印B.帶有延遲的水印(BoundedOutOfOrdernessTimestampExtractor)C.懲罰水印D.靜態(tài)水印答案:B37.以下哪種Hive存儲格式支持列式存儲和謂詞下推?()A.TEXTFILEB.SEQUENCEFILE
C.ORCD.AVRO答案:C38.某電商需實時計算商品銷量排行榜,以下哪種技術棧最合適?()A.Kafka+SparkStreaming+RedisB.Flume+Hive+MySQLC.Hadoop+Pig+HBaseD.Scribe+Presto+MongoDB答案:A39.在Spark中,以下代碼`valcacheRDD=rdd.cache()`的作用是?()A.將RDD持久化到內(nèi)存B.將RDD寫入磁盤C.釋放RDD占用的資源D.復制RDD到所有節(jié)點答案:A40.以下哪種HDFS操作會導致數(shù)據(jù)丟失風險?()A.執(zhí)行hdfsdfs-rm-r命令B.設置dfs.replication=1C.頻繁執(zhí)行hdfsfsck檢查D.使用HDFS快照答案:B41.某公司需從HDFS導入數(shù)據(jù)到HBase,以下哪種方式效率最高?()A.使用MapReduce導出為SequenceFile后導入B.使用Spark的saveAsHBaseTableC.通過HBaseBulkLoadD.編寫Java程序逐條插入答案:C42.在Flink中,以下哪種算子能實現(xiàn)事件時間窗口聚合?()A.map()B.keyBy().window().reduce()
C.filter()D.sideOutput()答案:B43.以下哪種技術能解決Hive中的數(shù)據(jù)傾斜問題?()A.對傾斜鍵進行隨機前綴或后綴處理B.增加Reducer數(shù)量C.使用DISTRIBUTEBY替代GROUPBYD.以上均正確答案:D44.某物聯(lián)網(wǎng)平臺需存儲設備元數(shù)據(jù),數(shù)據(jù)量10萬條且更新頻繁,以下哪種方案最合適?()A.HDFS文件B.HBaseC.RedisD.Elasticsearch答案:C45.在SparkStreaming中,以下哪種方法能處理背壓(Backpressure)?()A.設置spark.streaming.backpressure.enabled=trueB.增加批處理間隔C.減少Re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城投融資考試題庫及答案
- 公文寫作大賽試題及答案
- 2025-2026人教版五年級語文期末真題卷
- 2025-2026人教版一年級語文測試卷上學期
- 2025-2026五年級體育期末測試卷2025
- 裝修公司施工管理制度
- 秦安縣醫(yī)療衛(wèi)生制度
- 酒店衛(wèi)生局管理制度
- 蔬菜類衛(wèi)生安全管理制度
- 物業(yè)公司愛衛(wèi)生管理制度
- 2025年司法鑒定人資格考試歷年真題試題及答案
- 江蘇省連云港市2024-2025學年第一學期期末調(diào)研考試高二歷史試題
- 生成式人工智能與初中歷史校本教研模式的融合與創(chuàng)新教學研究課題報告
- 2025年湖北煙草專賣局筆試試題及答案
- 2026年開工第一課復工復產(chǎn)安全專題培訓
- 特殊人群(老人、兒童)安全護理要點
- 2026年檢察院書記員面試題及答案
- 《煤礦安全規(guī)程(2025)》防治水部分解讀課件
- 2025至2030中國新癸酸縮水甘油酯行業(yè)項目調(diào)研及市場前景預測評估報告
- 2025年保安員職業(yè)技能考試筆試試題(100題)含答案
- 尾礦庫閉庫綜合治理工程項目可行性研究報告
評論
0/150
提交評論