大數(shù)據(jù)處理期末考試題庫(kù)及答案_第1頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)及答案_第2頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)及答案_第3頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)及答案_第4頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)及答案_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)處理期末考試題庫(kù)及答案一、單項(xiàng)選擇題(每題2分,共20分)1.以下關(guān)于HDFS(HadoopDistributedFileSystem)的描述中,錯(cuò)誤的是()A.HDFS默認(rèn)塊大小為128MBB.NameNode負(fù)責(zé)管理文件元數(shù)據(jù)和數(shù)據(jù)塊位置信息C.DataNode存儲(chǔ)實(shí)際數(shù)據(jù)塊并執(zhí)行讀寫操作D.HDFS支持對(duì)已寫入文件的隨機(jī)寫操作答案:D解析:HDFS設(shè)計(jì)為一次寫入、多次讀取的場(chǎng)景,不支持對(duì)已寫入文件的隨機(jī)寫操作(僅支持追加寫),因此D錯(cuò)誤。其他選項(xiàng)均為HDFS的基本特性。2.在MapReduce編程模型中,以下哪個(gè)階段不屬于Shuffle過程()A.Map輸出數(shù)據(jù)分區(qū)(Partition)B.Reduce端數(shù)據(jù)拉?。‵etch)C.Map端數(shù)據(jù)排序(Sort)D.Reduce端數(shù)據(jù)計(jì)算(ReduceFunction)答案:D解析:Shuffle過程包括Map端的分區(qū)、排序、合并(Combiner可選),以及Reduce端的數(shù)據(jù)拉取、歸并排序(Merge)。Reduce函數(shù)的計(jì)算屬于Reduce階段的邏輯,不屬于Shuffle過程,因此選D。3.SparkRDD(ResilientDistributedDataset)的特性不包括()A.不可變(Immutable)B.惰性計(jì)算(LazyEvaluation)C.支持細(xì)粒度的共享狀態(tài)(SharedState)D.容錯(cuò)性(FaultTolerance)答案:C解析:RDD通過血統(tǒng)(Lineage)機(jī)制實(shí)現(xiàn)容錯(cuò),本身是不可變的,且計(jì)算是惰性觸發(fā)的。但RDD不支持細(xì)粒度的共享狀態(tài)(如共享變量需通過廣播變量或累加器實(shí)現(xiàn)),因此C錯(cuò)誤。4.以下關(guān)于Hive的描述中,正確的是()A.Hive是實(shí)時(shí)數(shù)據(jù)處理引擎,支持毫秒級(jí)查詢B.Hive元數(shù)據(jù)默認(rèn)存儲(chǔ)在HBase中C.HiveQL(HiveQueryLanguage)語(yǔ)法與MySQL完全兼容D.Hive通過將SQL轉(zhuǎn)換為MapReduce任務(wù)實(shí)現(xiàn)數(shù)據(jù)查詢答案:D解析:Hive是基于Hadoop的批處理數(shù)據(jù)倉(cāng)庫(kù)工具,不支持實(shí)時(shí)查詢(A錯(cuò)誤);元數(shù)據(jù)默認(rèn)存儲(chǔ)在Derby或MySQL中(B錯(cuò)誤);HiveQL與標(biāo)準(zhǔn)SQL有差異(如不支持事務(wù))(C錯(cuò)誤);Hive通過將SQL轉(zhuǎn)換為MapReduce(或Spark)任務(wù)執(zhí)行(D正確)。5.在Kafka消息隊(duì)列中,以下哪個(gè)組件負(fù)責(zé)管理消費(fèi)者組的偏移量(Offset)()A.ZooKeeperB.BrokerC.ConsumerCoordinatorD.Producer答案:C解析:Kafka0.9版本后,消費(fèi)者組的偏移量存儲(chǔ)在__consumer_offsets主題中,由ConsumerCoordinator(消費(fèi)者協(xié)調(diào)器)負(fù)責(zé)管理,因此選C。ZooKeeper早期用于管理偏移量,但新版本已棄用。6.以下關(guān)于Flink(ApacheFlink)的時(shí)間類型描述中,錯(cuò)誤的是()A.事件時(shí)間(EventTime)是數(shù)據(jù)實(shí)際發(fā)生的時(shí)間B.處理時(shí)間(ProcessingTime)是數(shù)據(jù)到達(dá)處理系統(tǒng)的時(shí)間C.攝入時(shí)間(IngestionTime)是數(shù)據(jù)進(jìn)入FlinkSource的時(shí)間D.水?。╓atermark)僅用于處理時(shí)間語(yǔ)義下的亂序數(shù)據(jù)答案:D解析:水?。╓atermark)是事件時(shí)間語(yǔ)義下處理亂序數(shù)據(jù)的機(jī)制,處理時(shí)間無需水印,因此D錯(cuò)誤。其他選項(xiàng)均正確。7.數(shù)據(jù)清洗中處理缺失值的方法不包括()A.刪除包含缺失值的記錄B.用字段均值填充缺失值C.用最近鄰插值法填充D.對(duì)缺失值單獨(dú)編碼為新類別答案:無(題目設(shè)計(jì)為考察常見方法,實(shí)際選項(xiàng)均為有效方法,但假設(shè)題目存在錯(cuò)誤,正確選項(xiàng)應(yīng)為“無”,但需調(diào)整題目。此處假設(shè)原題意圖為“不包括”,正確選項(xiàng)應(yīng)為“無”,但可能題目設(shè)置錯(cuò)誤,需修正。)注:實(shí)際考試中應(yīng)避免此問題,正確選項(xiàng)應(yīng)為“無”,但此處修正為:正確答案:無(所有選項(xiàng)均為數(shù)據(jù)清洗中處理缺失值的方法)。8.以下關(guān)于分布式文件系統(tǒng)(DFS)的設(shè)計(jì)目標(biāo)中,錯(cuò)誤的是()A.支持海量數(shù)據(jù)存儲(chǔ)(PB級(jí)以上)B.提供高吞吐量的文件訪問C.保證強(qiáng)一致性(StrongConsistency)D.具備容錯(cuò)能力(如副本機(jī)制)答案:C解析:分布式文件系統(tǒng)(如HDFS)通常采用最終一致性,而非強(qiáng)一致性(強(qiáng)一致性會(huì)顯著降低性能),因此C錯(cuò)誤。9.在Spark中,以下哪個(gè)操作屬于寬依賴(WideDependency)()A.map()B.filter()C.groupByKey()D.flatMap()答案:C解析:寬依賴(ShuffleDependency)會(huì)導(dǎo)致數(shù)據(jù)重新分區(qū)(如groupByKey、reduceByKey),需要跨節(jié)點(diǎn)網(wǎng)絡(luò)傳輸;map、filter、flatMap屬于窄依賴(NarrowDependency),因此選C。10.以下關(guān)于HBase的描述中,正確的是()A.HBase是關(guān)系型數(shù)據(jù)庫(kù),支持SQL查詢B.HBase基于列族(ColumnFamily)存儲(chǔ),適合稀疏數(shù)據(jù)C.HBase的RowKey在表中是無序的D.HBase的RegionServer負(fù)責(zé)管理元數(shù)據(jù)(如.META.表)答案:B解析:HBase是NoSQL數(shù)據(jù)庫(kù),基于列族存儲(chǔ),適合稀疏數(shù)據(jù)(B正確);不支持標(biāo)準(zhǔn)SQL(A錯(cuò)誤);RowKey按字典序排序(C錯(cuò)誤);元數(shù)據(jù)由HMaster和.ZK表管理,RegionServer負(fù)責(zé)存儲(chǔ)數(shù)據(jù)(D錯(cuò)誤)。二、填空題(每題2分,共20分)1.Hadoop生態(tài)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是__________。答案:YARN(YetAnotherResourceNegotiator)2.Spark中,將RDD持久化到內(nèi)存的默認(rèn)存儲(chǔ)級(jí)別是__________。答案:MEMORY_ONLY(內(nèi)存存儲(chǔ),不序列化)3.Kafka中,消息的持久化存儲(chǔ)通過__________實(shí)現(xiàn),默認(rèn)保留策略為__________。答案:日志文件(Log);基于時(shí)間或大小的刪除(如7天或1GB)4.Hive中,表的存儲(chǔ)格式常見的有TextFile、ORC、__________(至少寫一種)。答案:Parquet(或SequenceFile、RCFile等)5.Flink的核心抽象是__________,其處理模型支持流處理和批處理(批處理視為有界流)。答案:DataStream(數(shù)據(jù)流)6.HBase的表由RowKey、列族、列限定符和__________組成,數(shù)據(jù)按__________排序存儲(chǔ)。答案:時(shí)間戳(Timestamp);RowKey字典序7.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的四大特性是面向主題、集成性、__________和__________。答案:非易失性(持久化);時(shí)變性(隨時(shí)間變化)8.MapReduce任務(wù)中,Map階段輸出的中間結(jié)果默認(rèn)存儲(chǔ)在__________(填“本地磁盤”或“HDFS”)。答案:本地磁盤9.SparkSQL中,用于緩存表數(shù)據(jù)以加速查詢的命令是__________。答案:CACHETABLE[表名]10.分布式系統(tǒng)中,CAP定理指的是一致性(Consistency)、可用性(Availability)和__________三者無法同時(shí)滿足。答案:分區(qū)容錯(cuò)性(PartitionTolerance)三、判斷題(每題2分,共20分,正確打√,錯(cuò)誤打×)1.HDFS的副本機(jī)制僅用于容錯(cuò),不影響讀取性能。()答案:×解析:HDFS副本分布在不同機(jī)架的節(jié)點(diǎn)上,客戶端可就近讀取副本,提高讀取性能。2.MapReduce的Combiner函數(shù)必須滿足交換律和結(jié)合律。()答案:√解析:Combiner在Map端執(zhí)行局部聚合,需與Reduce函數(shù)邏輯兼容,因此需滿足交換律和結(jié)合律(如求和、求最大值)。3.Spark的RDD轉(zhuǎn)換操作(Transformations)會(huì)立即觸發(fā)計(jì)算。()答案:×解析:轉(zhuǎn)換操作是惰性的,僅在行動(dòng)操作(Actions)如count()、collect()時(shí)觸發(fā)計(jì)算。4.Hive的外部表(ExternalTable)刪除時(shí)會(huì)同時(shí)刪除HDFS上的數(shù)據(jù)。()答案:×解析:外部表刪除時(shí)僅刪除元數(shù)據(jù),HDFS數(shù)據(jù)保留;內(nèi)部表(ManagedTable)刪除時(shí)會(huì)刪除元數(shù)據(jù)和數(shù)據(jù)。5.Kafka的消費(fèi)者組(ConsumerGroup)中,一個(gè)分區(qū)只能被組內(nèi)一個(gè)消費(fèi)者消費(fèi)。()答案:√解析:消費(fèi)者組通過分區(qū)分配策略(如Range、RoundRobin)確保一個(gè)分區(qū)由組內(nèi)一個(gè)消費(fèi)者處理,避免重復(fù)消費(fèi)。6.Flink的窗口(Window)操作僅支持時(shí)間窗口(TimeWindow),不支持計(jì)數(shù)窗口(CountWindow)。()答案:×解析:Flink支持時(shí)間窗口(如滾動(dòng)時(shí)間窗口)、計(jì)數(shù)窗口(如每100條數(shù)據(jù)觸發(fā))和會(huì)話窗口(SessionWindow)。7.HBase的RowKey長(zhǎng)度越短越好,過長(zhǎng)會(huì)影響存儲(chǔ)和查詢效率。()答案:√解析:RowKey是HBase索引的關(guān)鍵,過長(zhǎng)會(huì)增加存儲(chǔ)開銷(每個(gè)單元格都包含RowKey),并降低查詢性能。8.數(shù)據(jù)清洗中的去重操作僅需刪除完全重復(fù)的記錄,無需處理邏輯重復(fù)(如同一用戶不同ID)。()答案:×解析:去重需處理完全重復(fù)(所有字段相同)和邏輯重復(fù)(如同一實(shí)體不同表示),需結(jié)合業(yè)務(wù)規(guī)則。9.Spark的廣播變量(BroadcastVariable)用于在所有節(jié)點(diǎn)間共享只讀數(shù)據(jù),減少網(wǎng)絡(luò)傳輸。()答案:√解析:廣播變量將大變量分發(fā)到各節(jié)點(diǎn)內(nèi)存,避免任務(wù)重復(fù)傳輸,提高效率。10.分布式計(jì)算中,一致性哈希(ConsistentHashing)用于解決節(jié)點(diǎn)動(dòng)態(tài)加入/退出時(shí)的緩存失效問題。()答案:√解析:一致性哈希通過虛擬節(jié)點(diǎn)減少節(jié)點(diǎn)變動(dòng)對(duì)數(shù)據(jù)分布的影響,降低緩存重建成本。四、簡(jiǎn)答題(每題6分,共30分)1.簡(jiǎn)述MapReduce中Shuffle過程的核心步驟及其作用。答案:Shuffle過程是Map和Reduce之間的數(shù)據(jù)傳輸階段,核心步驟包括:(1)分區(qū)(Partition):Map輸出的鍵值對(duì)根據(jù)分區(qū)函數(shù)(如HashPartition)分配到不同分區(qū),每個(gè)分區(qū)對(duì)應(yīng)一個(gè)Reduce任務(wù)。(2)排序(Sort):Map端對(duì)每個(gè)分區(qū)內(nèi)的鍵值對(duì)按Key排序,相同Key的Value被合并(可選Combiner)。(3)溢寫(Spill):排序后的數(shù)據(jù)寫入本地磁盤(內(nèi)存緩沖區(qū)滿時(shí)觸發(fā)),多個(gè)溢寫文件最終合并為一個(gè)大文件。(4)拉?。‵etch):Reduce任務(wù)從各Map節(jié)點(diǎn)拉取對(duì)應(yīng)分區(qū)的數(shù)據(jù)。(5)歸并(Merge):Reduce端將拉取的多個(gè)分區(qū)文件歸并排序,生成按Key分組的有序數(shù)據(jù)。作用:確保Reduce任務(wù)獲取到按Key分組且有序的數(shù)據(jù),為后續(xù)計(jì)算提供基礎(chǔ)。2.對(duì)比HDFS和HBase的適用場(chǎng)景,說明各自的優(yōu)缺點(diǎn)。答案:(1)HDFS:適用場(chǎng)景:海量非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)的長(zhǎng)期存儲(chǔ)(如日志、備份文件),支持高吞吐量的批量讀寫。優(yōu)點(diǎn):高容錯(cuò)(副本機(jī)制)、高擴(kuò)展(線性擴(kuò)展節(jié)點(diǎn))、適合大文件存儲(chǔ)。缺點(diǎn):不支持隨機(jī)讀寫、小文件存儲(chǔ)效率低(元數(shù)據(jù)壓力大)、不支持事務(wù)。(2)HBase:適用場(chǎng)景:實(shí)時(shí)讀寫的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)(如用戶行為記錄、時(shí)序數(shù)據(jù)),支持高并發(fā)的隨機(jī)訪問。優(yōu)點(diǎn):支持RowKey的快速查詢(O(1))、稀疏數(shù)據(jù)高效存儲(chǔ)(僅存儲(chǔ)非空列)、自動(dòng)分片(Region)。缺點(diǎn):不支持復(fù)雜SQL查詢(需結(jié)合Phoenix)、schema靈活性低(列族預(yù)定義)、寫入延遲高于內(nèi)存數(shù)據(jù)庫(kù)。3.說明SparkRDD的容錯(cuò)機(jī)制(Lineage)與HDFS副本機(jī)制的區(qū)別。答案:(1)RDDLineage(血統(tǒng)):通過記錄RDD的生成過程(即父RDD的轉(zhuǎn)換操作)實(shí)現(xiàn)容錯(cuò)。當(dāng)某分區(qū)數(shù)據(jù)丟失時(shí),根據(jù)Lineage重新計(jì)算該分區(qū)(從最開始的RDD逐步應(yīng)用轉(zhuǎn)換)。優(yōu)點(diǎn):節(jié)省存儲(chǔ)(無需存儲(chǔ)副本)、適合計(jì)算密集型任務(wù)。缺點(diǎn):重新計(jì)算可能耗時(shí)(尤其Lineage鏈較長(zhǎng)時(shí))。(2)HDFS副本機(jī)制:通過存儲(chǔ)多份數(shù)據(jù)副本(默認(rèn)3份)實(shí)現(xiàn)容錯(cuò)。當(dāng)某節(jié)點(diǎn)故障時(shí),直接讀取其他節(jié)點(diǎn)的副本。優(yōu)點(diǎn):恢復(fù)速度快(無需計(jì)算)、適合頻繁讀取的靜態(tài)數(shù)據(jù)。缺點(diǎn):存儲(chǔ)成本高(副本占用額外空間)、不適合動(dòng)態(tài)計(jì)算結(jié)果的容錯(cuò)。4.列舉數(shù)據(jù)清洗的常見問題及對(duì)應(yīng)的處理方法(至少4種)。答案:(1)缺失值:?jiǎn)栴}:部分字段數(shù)據(jù)缺失(如用戶年齡為空)。處理:刪除記錄(數(shù)據(jù)量充足時(shí))、均值/中位數(shù)填充(數(shù)值型)、眾數(shù)填充(分類型)、模型預(yù)測(cè)填充(如KNN算法)。(2)重復(fù)值:?jiǎn)栴}:同一實(shí)體的多條重復(fù)記錄(如同一用戶注冊(cè)多次)。處理:基于唯一標(biāo)識(shí)(如ID)去重、業(yè)務(wù)規(guī)則去重(如保留最新記錄)。(3)異常值:?jiǎn)栴}:數(shù)據(jù)偏離正常范圍(如用戶年齡為200歲)。處理:Z-score檢驗(yàn)刪除異常、分箱法(將異常值歸入邊界箱)、修正(如根據(jù)上下文修正為合理值)。(4)格式不一致:?jiǎn)栴}:數(shù)據(jù)格式不統(tǒng)一(如日期格式“2023/10/1”與“2023-10-01”)。處理:正則表達(dá)式統(tǒng)一格式、轉(zhuǎn)換函數(shù)(如to_date())標(biāo)準(zhǔn)化。(5)非法值:?jiǎn)栴}:數(shù)據(jù)不符合業(yè)務(wù)規(guī)則(如性別字段出現(xiàn)“其他”以外的值)。處理:過濾非法值、映射到合法類別(如“未知”)。5.解釋Flink的水印(Watermark)機(jī)制及其在事件時(shí)間處理中的作用。答案:水印是Flink中用于衡量事件時(shí)間(EventTime)進(jìn)展的邏輯時(shí)鐘。水印隨數(shù)據(jù)流傳遞,其時(shí)間戳為“當(dāng)前已處理數(shù)據(jù)中最大的事件時(shí)間延遲閾值”。作用:(1)處理亂序數(shù)據(jù):允許數(shù)據(jù)在指定延遲內(nèi)到達(dá)(如延遲5秒),水印到達(dá)時(shí)間T時(shí),認(rèn)為所有事件時(shí)間≤T的數(shù)據(jù)已到達(dá),觸發(fā)窗口計(jì)算。(2)避免無限等待:水印超過窗口結(jié)束時(shí)間時(shí),即使后續(xù)仍有延遲數(shù)據(jù),窗口也會(huì)關(guān)閉,防止任務(wù)阻塞。示例:窗口為[0,10),水印延遲5秒。當(dāng)水印時(shí)間戳為10時(shí),觸發(fā)窗口計(jì)算;若后續(xù)出現(xiàn)事件時(shí)間為8的數(shù)據(jù)(延遲≤5秒),仍會(huì)被包含;若事件時(shí)間為8但水印已到15,則被丟棄(視為遲到數(shù)據(jù))。五、計(jì)算題(每題10分,共20分)1.某HDFS集群配置如下:?jiǎn)喂?jié)點(diǎn)磁盤容量2TB(可用空間1.8TB),副本系數(shù)3,塊大小128MB?,F(xiàn)有一個(gè)大小為500GB的文件需要存儲(chǔ),計(jì)算:(1)該文件需要占用多少個(gè)HDFS塊?(2)集群至少需要多少個(gè)DataNode才能存儲(chǔ)該文件(假設(shè)每個(gè)DataNode最多使用80%磁盤空間存儲(chǔ)數(shù)據(jù)塊)?答案:(1)文件塊數(shù)計(jì)算:文件大小500GB=500×1024MB=512000MB每塊128MB,塊數(shù)=512000/128=4000塊(注意:即使最后一塊不足128MB,也占用1塊)(2)DataNode數(shù)量計(jì)算:每個(gè)數(shù)據(jù)塊存儲(chǔ)3副本,總存儲(chǔ)量=4000塊×128MB×3=1536000MB=1500GB(1.5TB)每個(gè)DataNode可用存儲(chǔ)=1.8TB×80%=1.44TB=1440GB所需DataNode數(shù)=1500GB/1440GB≈1.04,向上取整為2個(gè)。注:實(shí)際生產(chǎn)中需考慮集群負(fù)載均衡,此處簡(jiǎn)化計(jì)算。2.某Spark任務(wù)處理一個(gè)RDD,初始分區(qū)數(shù)為8。執(zhí)行以下操作后,計(jì)算最終RDD的分區(qū)數(shù):(1)rdd1=rdd.map(x=>x*2)(2)rdd2=rdd1.reduceByKey((a,b)=>a+b,numPartitions=4)(3)rdd3=rdd2.join(rdd3_other)(假設(shè)rdd3_other分區(qū)數(shù)為6)答案:(1)map操作屬于窄依賴,分區(qū)數(shù)不變,rdd1分區(qū)數(shù)=8。(2)reduceByKey指定numPartitions=4,rdd2分區(qū)數(shù)=4。(3)join操作的分區(qū)數(shù)由較大的父RDD分區(qū)數(shù)決定(或由spark.sql.shuffle.partitions配置,默認(rèn)200),但此處rdd2分區(qū)數(shù)4,rdd3_other分區(qū)數(shù)6,若未顯式指定,默認(rèn)取spark.sql.shuffle.partitions(假設(shè)為默認(rèn)200),但題目未說明配置,按窄依賴邏輯,join的分區(qū)數(shù)通常等于shuffle后的分區(qū)數(shù),此處rdd2和rdd3_other均為shuffle后的RDD,join會(huì)觸發(fā)新的shuffle,分區(qū)數(shù)由shuffle分區(qū)數(shù)決定。若題目假設(shè)未配置,則默認(rèn)取較大的分區(qū)數(shù)6,或按reduceByKey的4與6的最大值6。但嚴(yán)格來說,Spark的join操作分區(qū)數(shù)由spark.sql.shuffle.partitions控制(默認(rèn)200),因此最終rdd3分區(qū)數(shù)=200(若未修改配置)。注:若題目假設(shè)未修改配置,答案為200;若按父RDD分區(qū)數(shù)取最大值,答案為6。此處以默認(rèn)配置為準(zhǔn),答案為200。六、綜合應(yīng)用題(20分)某電商公司需構(gòu)建用戶行為分析系統(tǒng),要求實(shí)時(shí)分析“用戶點(diǎn)擊-加購(gòu)-下單”轉(zhuǎn)化漏斗,并支持歷史數(shù)據(jù)的批量查詢。請(qǐng)?jiān)O(shè)計(jì)大數(shù)據(jù)處理流程,包括:(1)數(shù)據(jù)采集與傳輸;(2)實(shí)時(shí)處理與存儲(chǔ);(3)批量處理與存儲(chǔ);(4)分析與展示。要求:結(jié)合Hadoop生態(tài)或Spark/Flink等工具,說明各環(huán)節(jié)的技術(shù)選型及理由。答案:(1)數(shù)據(jù)采集與傳輸數(shù)據(jù)來源:用戶行為日志(點(diǎn)擊、加購(gòu)、下單事件),通過埋點(diǎn)SDK收集到Web服務(wù)器或App端。采集工具:使用Flume或Logstash實(shí)時(shí)收集日志,發(fā)送至消息隊(duì)列。傳輸工具:選擇Kafka作為消息隊(duì)列,理由:高吞吐量(支持百萬(wàn)級(jí)TPS)、消息持久化(避免數(shù)據(jù)丟失)、支持多消費(fèi)者組(實(shí)時(shí)處理與批量處理可共享同一數(shù)據(jù)源)。(2)實(shí)時(shí)處理與存儲(chǔ)實(shí)時(shí)處理引擎:使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論