版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年11月大數(shù)據(jù)HCIA題庫(kù)與參考答案一、單項(xiàng)選擇題(每題2分,共40分)1.在Hadoop3.x分布式文件系統(tǒng)中,NameNode元數(shù)據(jù)存儲(chǔ)的核心文件不包括以下哪項(xiàng)?A.fsimageB.editlogC.seen_txidD.blocksMap答案:D解析:NameNode元數(shù)據(jù)存儲(chǔ)的核心文件包括fsimage(文件系統(tǒng)鏡像)、editlog(操作日志)和seen_txid(最新事務(wù)ID),blocksMap是內(nèi)存中維護(hù)的塊與數(shù)據(jù)節(jié)點(diǎn)映射表,非持久化存儲(chǔ)文件。2.關(guān)于Hive的元數(shù)據(jù)存儲(chǔ),以下描述錯(cuò)誤的是?A.默認(rèn)使用Derby數(shù)據(jù)庫(kù)存儲(chǔ)元數(shù)據(jù)B.生產(chǎn)環(huán)境推薦使用MySQL作為元數(shù)據(jù)存儲(chǔ)C.元數(shù)據(jù)包含表結(jié)構(gòu)、分區(qū)信息、存儲(chǔ)路徑等D.元數(shù)據(jù)不記錄數(shù)據(jù)文件的具體內(nèi)容答案:A解析:Hive默認(rèn)元數(shù)據(jù)存儲(chǔ)為Derby,但Derby僅支持單用戶(hù),生產(chǎn)環(huán)境必須使用MySQL、PostgreSQL等關(guān)系型數(shù)據(jù)庫(kù),因此“默認(rèn)使用Derby”的描述在生產(chǎn)環(huán)境場(chǎng)景下錯(cuò)誤。3.SparkRDD的“窄依賴(lài)”特性指的是?A.父RDD的一個(gè)分區(qū)只被一個(gè)子RDD分區(qū)使用B.父RDD的多個(gè)分區(qū)被一個(gè)子RDD分區(qū)使用C.子RDD的分區(qū)數(shù)一定小于父RDDD.依賴(lài)關(guān)系中需要進(jìn)行shuffle操作答案:A解析:窄依賴(lài)的定義是父RDD的每個(gè)分區(qū)最多被一個(gè)子RDD分區(qū)使用,寬依賴(lài)則是父RDD的一個(gè)分區(qū)被多個(gè)子RDD分區(qū)使用(需shuffle)。4.以下哪項(xiàng)不是YARN中ApplicationMaster的核心職責(zé)?A.向ResourceManager申請(qǐng)資源B.監(jiān)控任務(wù)運(yùn)行狀態(tài)C.處理數(shù)據(jù)本地性?xún)?yōu)化D.管理HDFS的塊復(fù)制答案:D解析:HDFS塊復(fù)制由DataNode和NameNode協(xié)調(diào)完成,與YARN的ApplicationMaster無(wú)關(guān)。5.在數(shù)據(jù)清洗過(guò)程中,處理“年齡”字段時(shí)發(fā)現(xiàn)存在“-5”和“200”的異常值,最合理的處理方式是?A.直接刪除包含異常值的整條記錄B.將“-5”修正為“5”,“200”修正為“100”C.統(tǒng)計(jì)異常值占比,結(jié)合業(yè)務(wù)規(guī)則決定修正或刪除D.保留異常值,后續(xù)分析時(shí)標(biāo)注答案:C解析:數(shù)據(jù)清洗需結(jié)合業(yè)務(wù)場(chǎng)景,異常值可能是記錄錯(cuò)誤(如負(fù)數(shù))或特殊情況(如高壽老人),需統(tǒng)計(jì)占比后決定處理方式,避免盲目刪除或修正。6.關(guān)于Kafka的消費(fèi)者組(ConsumerGroup),以下說(shuō)法正確的是?A.一個(gè)消費(fèi)者組內(nèi)的消費(fèi)者只能訂閱一個(gè)主題B.同一分區(qū)的數(shù)據(jù)只能被消費(fèi)者組中的一個(gè)消費(fèi)者消費(fèi)C.消費(fèi)者組的offset信息默認(rèn)存儲(chǔ)在ZooKeeper中D.消費(fèi)者組的分區(qū)分配策略不影響消費(fèi)效率答案:B解析:Kafka通過(guò)消費(fèi)者組實(shí)現(xiàn)負(fù)載均衡,同一分區(qū)數(shù)據(jù)只能被組內(nèi)一個(gè)消費(fèi)者消費(fèi)(避免重復(fù)消費(fèi));消費(fèi)者組可訂閱多個(gè)主題;offset自Kafka0.9起存儲(chǔ)在__consumer_offsets主題中;分區(qū)分配策略(如Range、RoundRobin)會(huì)影響消費(fèi)負(fù)載均衡。7.以下哪項(xiàng)不屬于HBase的核心組件?A.RegionServerB.HMasterC.ZookeeperD.NameNode答案:D解析:NameNode是HDFS組件,HBase核心組件包括HMaster(管理RegionServer)、RegionServer(處理數(shù)據(jù)讀寫(xiě))、Zookeeper(存儲(chǔ)元數(shù)據(jù)位置)。8.在SparkSQL中,以下哪個(gè)函數(shù)用于將字符串按指定分隔符分割為數(shù)組?A.split()B.explode()C.collect_list()D.concat_ws()答案:A解析:split(str,delimiter)返回?cái)?shù)組;explode將數(shù)組拆分為多行;collect_list聚合數(shù)組;concat_ws用分隔符合并字符串。9.關(guān)于分布式系統(tǒng)的CAP理論,以下描述正確的是?A.一致性(Consistency)指所有節(jié)點(diǎn)同時(shí)看到相同的數(shù)據(jù)B.可用性(Availability)要求系統(tǒng)在部分節(jié)點(diǎn)故障時(shí)仍能快速響應(yīng)C.分區(qū)容錯(cuò)性(PartitionTolerance)指系統(tǒng)可容忍網(wǎng)絡(luò)分區(qū)但無(wú)法自動(dòng)恢復(fù)D.實(shí)際系統(tǒng)中必須完全滿(mǎn)足CAP中的兩個(gè)特性答案:B解析:一致性指所有節(jié)點(diǎn)在同一時(shí)間看到相同數(shù)據(jù);可用性要求非故障節(jié)點(diǎn)能在合理時(shí)間內(nèi)響應(yīng)請(qǐng)求;分區(qū)容錯(cuò)性指系統(tǒng)在網(wǎng)絡(luò)分區(qū)時(shí)仍能繼續(xù)運(yùn)行;實(shí)際系統(tǒng)需權(quán)衡CAP,無(wú)法完全滿(mǎn)足兩個(gè)(如CP或AP)。10.以下哪項(xiàng)是Hive中“外部表”(ExternalTable)的典型應(yīng)用場(chǎng)景?A.存儲(chǔ)臨時(shí)計(jì)算結(jié)果,刪除表時(shí)保留數(shù)據(jù)文件B.存儲(chǔ)核心業(yè)務(wù)數(shù)據(jù),刪除表時(shí)同時(shí)刪除數(shù)據(jù)文件C.優(yōu)化查詢(xún)性能,強(qiáng)制使用ORC存儲(chǔ)格式D.限制用戶(hù)對(duì)數(shù)據(jù)的修改權(quán)限答案:A解析:外部表通過(guò)LOCATION指定數(shù)據(jù)路徑,刪除表時(shí)僅刪除元數(shù)據(jù),保留HDFS數(shù)據(jù)文件,適合共享數(shù)據(jù)源場(chǎng)景(如多個(gè)Hive實(shí)例共用同一批數(shù)據(jù))。11.在HDFS中,客戶(hù)端讀取文件時(shí),優(yōu)先選擇的DataNode是?A.距離NameNode最近的節(jié)點(diǎn)B.文件塊的第一個(gè)副本所在節(jié)點(diǎn)(本地節(jié)點(diǎn))C.負(fù)載最低的DataNodeD.與客戶(hù)端處于同一機(jī)架的節(jié)點(diǎn)答案:B解析:HDFS數(shù)據(jù)讀取遵循本地性原則,客戶(hù)端優(yōu)先訪(fǎng)問(wèn)同一節(jié)點(diǎn)上的副本(若存在),其次同一機(jī)架,最后跨機(jī)架,以減少網(wǎng)絡(luò)開(kāi)銷(xiāo)。12.關(guān)于MapReduce的Shuffle階段,以下描述錯(cuò)誤的是?A.Map任務(wù)輸出結(jié)果會(huì)先寫(xiě)入本地磁盤(pán)B.Reduce任務(wù)通過(guò)HTTP拉取Map輸出數(shù)據(jù)C.Shuffle階段包含分區(qū)(Partition)和排序(Sort)操作D.Shuffle階段的性能與Map任務(wù)數(shù)量無(wú)關(guān)答案:D解析:Shuffle性能受Map任務(wù)數(shù)量影響(更多Map任務(wù)產(chǎn)生更多中間文件,增加網(wǎng)絡(luò)傳輸和磁盤(pán)IO),需合理設(shè)置Map數(shù)量(通常與HDFS塊數(shù)相關(guān))。13.以下哪項(xiàng)不是SparkRDD的持久化級(jí)別?A.MEMORY_ONLYB.MEMORY_AND_DISK_SERC.DISK_ONLY_2D.MEMORY_ONLY_SER_3答案:D解析:持久化級(jí)別格式為“存儲(chǔ)位置(MEMORY/DISK)+是否序列化(SER)+副本數(shù)(數(shù)字)”,副本數(shù)默認(rèn)2,不支持自定義3副本,因此MEMORY_ONLY_SER_3不存在。14.在數(shù)據(jù)倉(cāng)庫(kù)建模中,“星座模型”指的是?A.多個(gè)事實(shí)表共享同一組維度表B.單個(gè)事實(shí)表關(guān)聯(lián)多個(gè)維度表C.維度表包含大量細(xì)節(jié)屬性D.事實(shí)表僅存儲(chǔ)度量值答案:A解析:星座模型是數(shù)據(jù)倉(cāng)庫(kù)中多個(gè)事實(shí)表共享相同維度表的結(jié)構(gòu)(如銷(xiāo)售事實(shí)表和庫(kù)存事實(shí)表共享時(shí)間、地區(qū)維度),區(qū)別于雪花模型(維度表進(jìn)一步分層)。15.以下哪個(gè)工具通常用于大數(shù)據(jù)場(chǎng)景下的實(shí)時(shí)流計(jì)算?A.HiveB.SparkSQLC.FlinkD.Sqoop答案:C解析:Flink是專(zhuān)門(mén)的流計(jì)算框架,支持毫秒級(jí)延遲;Hive是批處理;SparkSQL側(cè)重批處理(SparkStreaming為微批);Sqoop用于關(guān)系型數(shù)據(jù)庫(kù)與Hadoop的數(shù)據(jù)遷移。16.關(guān)于Linux系統(tǒng)中Hadoop進(jìn)程的啟動(dòng),以下命令正確的是?A.start-hadoop.shB.start-dfs.sh&&start-yarn.shC.hadoop-daemon.shstartnamenodeD.以上均正確答案:D解析:Hadoop3.x支持通過(guò)start-dfs.sh(啟動(dòng)HDFS)和start-yarn.sh(啟動(dòng)YARN)分別啟動(dòng),也可使用start-hadoop.sh(集成腳本),或單獨(dú)使用hadoop-daemon.sh啟動(dòng)單個(gè)進(jìn)程(如NameNode)。17.在HBase中,RowKey的設(shè)計(jì)原則不包括?A.散列性:避免熱點(diǎn)寫(xiě)B(tài).長(zhǎng)度:越短越好(減少存儲(chǔ)和網(wǎng)絡(luò)開(kāi)銷(xiāo))C.有序性:支持范圍查詢(xún)D.復(fù)雜性:包含大量業(yè)務(wù)屬性答案:D解析:RowKey需簡(jiǎn)潔(減少存儲(chǔ))、散列(避免Region熱點(diǎn))、有序(支持scan范圍查詢(xún)),但不應(yīng)過(guò)度復(fù)雜(影響查詢(xún)效率)。18.以下哪項(xiàng)是Kafka中“生產(chǎn)者分區(qū)策略”的默認(rèn)實(shí)現(xiàn)?A.RoundRobin(輪詢(xún))B.Hash(按Key哈希)C.Random(隨機(jī))D.粘性分區(qū)(StickyPartition)答案:D解析:Kafka2.4+默認(rèn)生產(chǎn)者分區(qū)策略為粘性分區(qū)(優(yōu)先選擇同一分區(qū)發(fā)送數(shù)據(jù),減少網(wǎng)絡(luò)連接開(kāi)銷(xiāo)),早期版本默認(rèn)是輪詢(xún)或哈希(取決于是否有Key)。19.關(guān)于數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的區(qū)別,以下描述錯(cuò)誤的是?A.數(shù)據(jù)湖存儲(chǔ)原始數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)經(jīng)過(guò)清洗的結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖支持多種分析場(chǎng)景(BI、AI、機(jī)器學(xué)習(xí)),數(shù)據(jù)倉(cāng)庫(kù)側(cè)重OLAPC.數(shù)據(jù)湖的元數(shù)據(jù)管理比數(shù)據(jù)倉(cāng)庫(kù)更簡(jiǎn)單D.數(shù)據(jù)湖通常使用對(duì)象存儲(chǔ)(如S3、HDFS),數(shù)據(jù)倉(cāng)庫(kù)使用關(guān)系型數(shù)據(jù)庫(kù)答案:C解析:數(shù)據(jù)湖因存儲(chǔ)多類(lèi)型數(shù)據(jù),元數(shù)據(jù)管理(如Schema-on-Read)比數(shù)據(jù)倉(cāng)庫(kù)(Schema-on-Write)更復(fù)雜,需處理更多元數(shù)據(jù)關(guān)聯(lián)和版本控制。20.在Spark中,以下哪項(xiàng)操作會(huì)觸發(fā)行動(dòng)(Action)?A.map()B.filter()C.reduce()D.flatMap()答案:C解析:Action操作(如reduce、collect、count)會(huì)觸發(fā)作業(yè)執(zhí)行并返回結(jié)果,Transformation(如map、filter、flatMap)僅構(gòu)建RDD血緣關(guān)系。二、多項(xiàng)選擇題(每題3分,共30分,錯(cuò)選、漏選不得分)1.HDFS的高可用(HA)方案中,以下哪些組件是必需的?A.ActiveNameNodeB.StandbyNameNodeC.JournalNode集群D.Zookeeper答案:ABCD解析:HDFSHA需要Active和StandbyNameNode同步元數(shù)據(jù)(通過(guò)JournalNode集群),Zookeeper用于選舉Active節(jié)點(diǎn)和監(jiān)控狀態(tài)。2.以下哪些是Hive的內(nèi)置排序方式?A.ORDERBY(全局排序)B.SORTBY(分區(qū)內(nèi)排序)C.DISTRIBUTEBY(按字段分區(qū))D.CLUSTERBY(DISTRIBUTEBY+SORTBY)答案:ABCD解析:Hive支持ORDERBY(全排序,僅一個(gè)Reducer)、SORTBY(每個(gè)Reducer內(nèi)排序)、DISTRIBUTEBY(控制數(shù)據(jù)分發(fā)到Reducer)、CLUSTERBY(分發(fā)和排序字段相同,等價(jià)于DISTRIBUTEBY+SORTBY)。3.Spark的廣播變量(BroadcastVariable)適用場(chǎng)景包括?A.大表與小表的JOIN操作(小表廣播)B.頻繁訪(fǎng)問(wèn)的配置參數(shù)C.實(shí)時(shí)更新的業(yè)務(wù)規(guī)則D.大規(guī)模數(shù)據(jù)集的分布式計(jì)算答案:AB解析:廣播變量用于高效分發(fā)只讀的小數(shù)據(jù)(如小表、配置)到所有Executor,避免重復(fù)傳輸;實(shí)時(shí)更新數(shù)據(jù)(需可變)和大規(guī)模數(shù)據(jù)不適合廣播。4.以下哪些指標(biāo)屬于大數(shù)據(jù)系統(tǒng)的性能評(píng)估范疇?A.吞吐量(Throughput):?jiǎn)挝粫r(shí)間處理的數(shù)據(jù)量B.延遲(Latency):數(shù)據(jù)從輸入到輸出的時(shí)間C.容錯(cuò)性(FaultTolerance):節(jié)點(diǎn)故障時(shí)的恢復(fù)能力D.可擴(kuò)展性(Scalability):集群擴(kuò)容后的性能提升比答案:ABCD解析:大數(shù)據(jù)系統(tǒng)評(píng)估需考慮吞吐量、延遲、容錯(cuò)性(如HDFS副本機(jī)制、SparkRDD容錯(cuò))、可擴(kuò)展性(橫向擴(kuò)容能力)等。5.關(guān)于數(shù)據(jù)清洗中的“缺失值處理”,常用方法有?A.刪除缺失值所在記錄(當(dāng)缺失率低時(shí))B.用字段均值/中位數(shù)填充(數(shù)值型)C.用眾數(shù)填充(分類(lèi)型)D.構(gòu)建模型預(yù)測(cè)缺失值答案:ABCD解析:缺失值處理方法包括刪除(適用小比例缺失)、統(tǒng)計(jì)值填充(均值/中位數(shù)/眾數(shù))、模型預(yù)測(cè)(如回歸模型填充)等。6.YARN的ResourceManager核心功能包括?A.資源調(diào)度(通過(guò)調(diào)度器如FIFO、Capacity、Fair)B.應(yīng)用程序生命周期管理(啟動(dòng)/終止AM)C.監(jiān)控NodeManager狀態(tài)D.存儲(chǔ)HDFS數(shù)據(jù)塊答案:ABC解析:ResourceManager負(fù)責(zé)全局資源調(diào)度、AM管理、NM監(jiān)控;HDFS數(shù)據(jù)塊存儲(chǔ)由DataNode負(fù)責(zé)。7.以下哪些是HBase的RowKey設(shè)計(jì)最佳實(shí)踐?A.避免單調(diào)遞增的RowKey(如時(shí)間戳)B.包含常用查詢(xún)條件(如用戶(hù)ID、時(shí)間范圍)C.長(zhǎng)度控制在16字節(jié)以?xún)?nèi)(減少存儲(chǔ)開(kāi)銷(xiāo))D.使用哈希散列(如MD5)處理RowKey前綴答案:ABCD解析:?jiǎn)握{(diào)遞增RowKey會(huì)導(dǎo)致Region熱點(diǎn);包含查詢(xún)條件支持快速定位;短RowKey減少存儲(chǔ);哈希處理分散數(shù)據(jù)分布。8.在Kafka中,影響消息可靠性的配置包括?A.acks=all(所有ISR副本確認(rèn))B.min.insync.replicas=2(最小同步副本數(shù))C.retries=3(發(fā)送失敗重試次數(shù))D.enable.idempotence=true(啟用冪等性)答案:ABCD解析:acks控制確認(rèn)機(jī)制(all需所有ISR確認(rèn));min.insync.replicas確保至少N個(gè)副本同步;retries避免網(wǎng)絡(luò)抖動(dòng)導(dǎo)致的消息丟失;冪等性防止生產(chǎn)者重復(fù)發(fā)送導(dǎo)致的消息重復(fù)。9.以下哪些是Spark的優(yōu)化策略?A.減少shuffle操作(如使用廣播JOIN代替普通JOIN)B.增加RDD持久化(選擇合適的存儲(chǔ)級(jí)別)C.調(diào)整并行度(合理設(shè)置分區(qū)數(shù))D.避免使用foreachPartition代替foreach(減少連接開(kāi)銷(xiāo))答案:ABCD解析:減少shuffle可降低網(wǎng)絡(luò)IO;持久化避免重復(fù)計(jì)算;合理并行度提升資源利用率;foreachPartition減少任務(wù)內(nèi)連接創(chuàng)建次數(shù)。10.關(guān)于Linux系統(tǒng)中Hadoop日志的查看,以下命令正確的是?A.tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-node1.log(實(shí)時(shí)查看NameNode日志)B.grep"ERROR"/var/log/hadoop-yarn/yarn-yarn-resourcemanager-node2.log(查找ResourceManager日志中的錯(cuò)誤)C.cat/tmp/hsperfdata_hadoop/.log(查看所有Hadoop進(jìn)程的性能日志)D.less/var/log/hive/hive-server2.log(分頁(yè)查看HiveServer2日志)答案:ABD解析:Hadoop日志通常存儲(chǔ)在/var/log目錄下對(duì)應(yīng)組件的子目錄中;hsperfdata是JVM性能數(shù)據(jù),非Hadoop業(yè)務(wù)日志;less和tail命令可用于日志查看。三、判斷題(每題1分,共10分,正確填“√”,錯(cuò)誤填“×”)1.HDFS的默認(rèn)副本數(shù)是3,可通過(guò)dfs.replication參數(shù)修改。(√)解析:HDFS默認(rèn)副本數(shù)為3,可在hdfs-site.xml中配置dfs.replication調(diào)整。2.Hive的分區(qū)(Partition)和分桶(Bucket)都是為了優(yōu)化查詢(xún)性能,分區(qū)適合大范圍過(guò)濾,分桶適合精確查詢(xún)和JOIN。(√)解析:分區(qū)按字段將數(shù)據(jù)存儲(chǔ)在不同目錄,適合按分區(qū)字段過(guò)濾;分桶按哈希將數(shù)據(jù)分散到多個(gè)文件,適合JOIN時(shí)提升效率。3.Spark的RDD是不可變的,所有轉(zhuǎn)換操作都會(huì)提供新的RDD。(√)解析:RDD的不可變性是其核心特性,轉(zhuǎn)換操作通過(guò)血緣關(guān)系提供新RDD,確保容錯(cuò)性。4.YARN的NodeManager負(fù)責(zé)管理單個(gè)節(jié)點(diǎn)的資源(CPU、內(nèi)存),并監(jiān)控容器(Container)的運(yùn)行狀態(tài)。(√)解析:NodeManager是節(jié)點(diǎn)代理,管理資源并向RM匯報(bào),監(jiān)控Container的生命周期。5.數(shù)據(jù)清洗中的“去重”操作僅需刪除完全重復(fù)的記錄,無(wú)需處理“語(yǔ)義重復(fù)”(如同一用戶(hù)不同ID)。(×)解析:去重需處理完全重復(fù)和語(yǔ)義重復(fù)(如“用戶(hù)A”和“userA”),需結(jié)合業(yè)務(wù)規(guī)則識(shí)別。6.Kafka的主題(Topic)可以設(shè)置多個(gè)分區(qū)(Partition),分區(qū)數(shù)越多,消費(fèi)者組的并行度越高。(√)解析:分區(qū)是Kafka并行消費(fèi)的最小單位,分區(qū)數(shù)決定了消費(fèi)者組中消費(fèi)者的最大并行數(shù)(不超過(guò)分區(qū)數(shù))。7.HBase的列族(ColumnFamily)在表創(chuàng)建后可以動(dòng)態(tài)添加,但修改列族屬性需要重啟RegionServer。(×)解析:HBase支持動(dòng)態(tài)添加列族(通過(guò)alter命令),修改列族屬性(如TTL、壓縮)無(wú)需重啟RS,配置會(huì)被自動(dòng)應(yīng)用。8.SparkSQL的DataFrame比RDD更高效,因?yàn)镈ataFrame有Schema信息,可優(yōu)化執(zhí)行計(jì)劃。(√)解析:DataFrame/Dataset包含Schema,SparkCatalyst優(yōu)化器可進(jìn)行邏輯和物理計(jì)劃優(yōu)化(如謂詞下推、列裁剪),比無(wú)Schema的RDD更高效。9.分布式系統(tǒng)中,Zookeeper可以完全替代HDFS的高可用功能。(×)解析:Zookeeper在HDFSHA中用于選舉和狀態(tài)監(jiān)控,但元數(shù)據(jù)同步依賴(lài)JournalNode集群,無(wú)法完全替代。10.數(shù)據(jù)湖的核心特點(diǎn)是“存算分離”,即存儲(chǔ)和計(jì)算資源獨(dú)立擴(kuò)展。(√)解析:數(shù)據(jù)湖通常基于對(duì)象存儲(chǔ)(如S3、HDFS),計(jì)算資源(如Spark、Flink)可獨(dú)立擴(kuò)容,實(shí)現(xiàn)存算分離。四、簡(jiǎn)答題(每題6分,共30分)1.簡(jiǎn)述HDFS的寫(xiě)數(shù)據(jù)流程(需包含客戶(hù)端、NameNode、DataNode的交互步驟)。答案:(1)客戶(hù)端調(diào)用create()方法請(qǐng)求創(chuàng)建文件,NameNode檢查權(quán)限和文件是否存在,返回可寫(xiě)響應(yīng)。(2)客戶(hù)端將文件分塊(默認(rèn)128MB),向NameNode申請(qǐng)第一個(gè)塊的DataNode列表(根據(jù)機(jī)架感知策略選擇3個(gè)副本節(jié)點(diǎn),如節(jié)點(diǎn)1、節(jié)點(diǎn)2、節(jié)點(diǎn)3)。(3)客戶(hù)端與第一個(gè)DataNode(節(jié)點(diǎn)1)建立Pipeline,節(jié)點(diǎn)1通知節(jié)點(diǎn)2,節(jié)點(diǎn)2通知節(jié)點(diǎn)3,建立傳輸鏈路。(4)客戶(hù)端將數(shù)據(jù)以Packet(64KB)為單位發(fā)送到節(jié)點(diǎn)1,節(jié)點(diǎn)1接收后寫(xiě)入本地磁盤(pán),同時(shí)轉(zhuǎn)發(fā)到節(jié)點(diǎn)2;節(jié)點(diǎn)2寫(xiě)入后轉(zhuǎn)發(fā)到節(jié)點(diǎn)3;所有節(jié)點(diǎn)確認(rèn)接收后,向客戶(hù)端返回ACK。(5)當(dāng)一個(gè)塊傳輸完成,客戶(hù)端向NameNode匯報(bào)塊位置,申請(qǐng)下一個(gè)塊的DataNode列表,重復(fù)步驟(2)-(4)。(6)文件寫(xiě)入完成,客戶(hù)端調(diào)用close()方法,NameNode提交元數(shù)據(jù)變更(此時(shí)文件才可見(jiàn))。2.說(shuō)明Hive中內(nèi)部表(ManagedTable)與外部表(ExternalTable)的區(qū)別,以及各自適用場(chǎng)景。答案:區(qū)別:(1)數(shù)據(jù)管理:內(nèi)部表刪除時(shí),元數(shù)據(jù)和HDFS數(shù)據(jù)文件均被刪除;外部表刪除時(shí)僅刪除元數(shù)據(jù),保留數(shù)據(jù)文件。(2)元數(shù)據(jù)控制:內(nèi)部表數(shù)據(jù)由Hive完全管理;外部表數(shù)據(jù)可能被其他系統(tǒng)(如Spark、Flume)修改。適用場(chǎng)景:(1)內(nèi)部表:存儲(chǔ)臨時(shí)計(jì)算結(jié)果、中間數(shù)據(jù)(無(wú)需長(zhǎng)期保留),或需要Hive完全控制生命周期的數(shù)據(jù)。(2)外部表:存儲(chǔ)共享數(shù)據(jù)源(如多個(gè)團(tuán)隊(duì)共用同一批原始數(shù)據(jù))、日志文件(由日志收集系統(tǒng)定期寫(xiě)入),避免誤刪數(shù)據(jù)。3.解釋Spark中“RDD持久化”與“檢查點(diǎn)(Checkpoint)”的區(qū)別,并說(shuō)明各自適用場(chǎng)景。答案:區(qū)別:(1)存儲(chǔ)位置:持久化默認(rèn)存儲(chǔ)在內(nèi)存/磁盤(pán)(Executor節(jié)點(diǎn));檢查點(diǎn)存儲(chǔ)在HDFS(分布式存儲(chǔ))。(2)容錯(cuò)機(jī)制:持久化通過(guò)血緣關(guān)系恢復(fù)(丟失時(shí)重算);檢查點(diǎn)切斷血緣,直接從HDFS恢復(fù)。(3)開(kāi)銷(xiāo):持久化僅存儲(chǔ)計(jì)算結(jié)果,開(kāi)銷(xiāo)較??;檢查點(diǎn)需寫(xiě)入HDFS,開(kāi)銷(xiāo)較大。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 黑龍江2025年黑龍江省科學(xué)院智能制造研究所招聘博士科研人員筆試歷年參考題庫(kù)附帶答案詳解
- 職業(yè)健康與員工職業(yè)發(fā)展:醫(yī)療組織健康績(jī)效
- 菏澤2025年山東菏澤巨野縣中醫(yī)醫(yī)院招聘急需專(zhuān)業(yè)技術(shù)人員26人筆試歷年參考題庫(kù)附帶答案詳解
- 秦皇島2025年河北秦皇島市體育局招聘事業(yè)單位工作人員2人筆試歷年參考題庫(kù)附帶答案詳解
- 湛江廣東湛江市坡頭區(qū)財(cái)政局招聘三類(lèi)編外人員筆試歷年參考題庫(kù)附帶答案詳解
- 海南2025年海南省第二衛(wèi)生學(xué)校招聘20人筆試歷年參考題庫(kù)附帶答案詳解
- 杭州浙江杭州市東潤(rùn)外國(guó)語(yǔ)學(xué)校編外人員招聘4人筆試歷年參考題庫(kù)附帶答案詳解
- 成都2025年四川成都青羊區(qū)招聘社區(qū)工作者和黨建服務(wù)專(zhuān)員117人筆試歷年參考題庫(kù)附帶答案詳解
- 廣州廣東廣州市越秀區(qū)東山街招聘輔助人員筆試歷年參考題庫(kù)附帶答案詳解
- 天津2025年天津市市場(chǎng)監(jiān)督管理委員會(huì)所屬事業(yè)單位招聘13人筆試歷年參考題庫(kù)附帶答案詳解
- 癌癥患者生活質(zhì)量量表EORTC-QLQ-C30
- QCT55-2023汽車(chē)座椅舒適性試驗(yàn)方法
- 孕產(chǎn)婦妊娠風(fēng)險(xiǎn)評(píng)估表
- 消化系統(tǒng)疾病健康教育宣教
- 河南省洛陽(yáng)市2023-2024學(xué)年九年級(jí)第一學(xué)期期末質(zhì)量檢測(cè)數(shù)學(xué)試卷(人教版 含答案)
- Unit-3-Reading-and-thinking課文詳解課件-高中英語(yǔ)人教版必修第二冊(cè)
- 新版出口報(bào)關(guān)單模板
- 14K118 空調(diào)通風(fēng)管道的加固
- 加油站財(cái)務(wù)管理制度細(xì)則
- 全過(guò)程工程咨詢(xún)服務(wù)技術(shù)方案
- YS/T 1152-2016粗氫氧化鈷
評(píng)論
0/150
提交評(píng)論