版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)解決方案xxx公司大數(shù)據(jù)平臺(tái)解決方案文件編號(hào):文件日期:修訂次數(shù):第1.0次更改批準(zhǔn)審核制定方案設(shè)計(jì),管理制度大數(shù)據(jù)平臺(tái)技術(shù)方案1. 大數(shù)據(jù)平臺(tái)技術(shù)方案 4 技術(shù)路線 4 動(dòng)靜態(tài)信息交換 5 系統(tǒng)概述 5 數(shù)據(jù)采集服務(wù) 5 數(shù)據(jù)采集服務(wù)配置 6 平臺(tái)認(rèn)證服務(wù) 6 動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù) 6 負(fù)載均衡服務(wù) 7 協(xié)議分析轉(zhuǎn)換功能 7 動(dòng)靜態(tài)數(shù)據(jù)分發(fā)服務(wù) 7 數(shù)據(jù)分發(fā)服務(wù)配置 7 數(shù)據(jù)緩存服務(wù) 8 數(shù)據(jù)交換信息日志 8 大數(shù)據(jù)存儲(chǔ) 8 數(shù)據(jù)倉庫工具 9 大數(shù)據(jù)在線存儲(chǔ) 9 大數(shù)據(jù)離線存儲(chǔ) 11 數(shù)據(jù)清洗轉(zhuǎn)換 13 流數(shù)據(jù)處理框架 13 分布式ETL工具 13 ETL功能介紹 14 大數(shù)據(jù)處理 16 實(shí)時(shí)數(shù)據(jù)流處理 16 數(shù)據(jù)挖掘分析引擎 16 大數(shù)據(jù)服務(wù)引擎 17 大數(shù)據(jù)配置服務(wù)管理 17 大數(shù)據(jù)在線分析 17 大數(shù)據(jù)離線分析 18 大數(shù)據(jù)可視化管理 21 大數(shù)據(jù)全文檢索 22 調(diào)度與業(yè)務(wù)監(jiān)控 22 資源與安全 23 租戶管理 23 資源分配 24 權(quán)限管理 24 接口封裝 24大數(shù)據(jù)平臺(tái)技術(shù)方案概述大數(shù)據(jù)平臺(tái)必須具有高度可擴(kuò)展性、實(shí)時(shí)性、高性能、低延遲分析、高度容錯(cuò)性、可用性、支持異構(gòu)環(huán)境、開放性、易用性,同時(shí)也希望具有較低成本;其核心技術(shù)包括大規(guī)模數(shù)據(jù)流處理技術(shù)以及大規(guī)模數(shù)據(jù)管理、分析技術(shù)。系統(tǒng)技術(shù)架構(gòu)采用面向服務(wù)的體系結(jié)構(gòu)(Service-OrientedArchitecture,SOA),遵循分層原則,每一層為上層提供服務(wù)。將大數(shù)據(jù)平臺(tái)進(jìn)行逐層解析,從下至上分別是數(shù)據(jù)接口層、文件存儲(chǔ)層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層、數(shù)據(jù)層、業(yè)務(wù)控制層、表現(xiàn)層、系統(tǒng)監(jiān)控層。(1)數(shù)據(jù)接口層:為保證數(shù)據(jù)接入層的接口靈活性,采用Restful風(fēng)格接口實(shí)現(xiàn)方式,Restful有輕量級(jí)以及通過HTTP直接傳輸數(shù)據(jù)的特性,Web服務(wù)的RESTful方法已經(jīng)成為最常見的方法。同時(shí)數(shù)據(jù)的接入及交換采用Kafka集群和WebService方式,Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以滿足系統(tǒng)與大數(shù)據(jù)平臺(tái)的高并發(fā)量數(shù)據(jù)交換。WebService是一個(gè)平臺(tái)獨(dú)立的,低耦合的,自包含的、基于可編程的web的應(yīng)用程序,可使用開放的XM標(biāo)準(zhǔn)來描述、發(fā)布、發(fā)現(xiàn)、協(xié)調(diào)和配置這些應(yīng)用程序,用于開發(fā)分布式的互操作的應(yīng)用程序。(2)文件存儲(chǔ)層:為滿足大數(shù)據(jù)的存儲(chǔ)要求,文件存儲(chǔ)采用HDFS文件系統(tǒng),Hadoop分布式文件系統(tǒng)(HDFS)是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。(3)數(shù)據(jù)存儲(chǔ)層:根據(jù)本工程數(shù)據(jù)資源設(shè)計(jì)的需要,數(shù)據(jù)存儲(chǔ)分別采用關(guān)系數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫Redis、分布式大數(shù)據(jù)存儲(chǔ)。(4)數(shù)據(jù)分析層:采用Storm技術(shù)完成實(shí)時(shí)流分析的需求,Storm是一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)。可以方便地在一個(gè)計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時(shí)計(jì)。采用MapReduce和Spark實(shí)現(xiàn)離線分析。Spark是類HadoopMapReduce的通用并行框架,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。(5)數(shù)據(jù)接入層:應(yīng)用與數(shù)據(jù)庫的交互采用JDBC級(jí)Hibernate技術(shù)實(shí)現(xiàn)。Hibernate是一個(gè)開放源代碼的對(duì)象關(guān)系映射框架,它對(duì)JDBC進(jìn)行了非常輕量級(jí)的對(duì)象封裝,它將POJO與數(shù)據(jù)庫表建立映射關(guān)系,是一個(gè)全自動(dòng)的orm框架,hibernate可以自動(dòng)生成SQL語句,自動(dòng)執(zhí)行,使得Java程序員可以隨心所欲的使用對(duì)象編程思維來操縱數(shù)據(jù)庫。(6)業(yè)務(wù)控制層:采用當(dāng)今最流行的輕量級(jí)Java開發(fā)框架Spring,同時(shí)與SpringMVC整合。Spring具有輕量、低侵入式設(shè)計(jì)、方便解耦,簡(jiǎn)化開發(fā)、AOP編程的支持、方便集成各種優(yōu)秀框架等優(yōu)點(diǎn)。(7)表現(xiàn)層:采用EasyUI,Ajax,F(xiàn)reeMarker,JavaScript技術(shù),這些技術(shù)能極大提高開發(fā)效率,同時(shí)能滿足工程中各種復(fù)雜的前端展現(xiàn)要求。(8)監(jiān)控層:采用Zookeeper分布式服務(wù)框架。主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。它的作用主要是用來維護(hù)和監(jiān)控你存儲(chǔ)的數(shù)據(jù)的狀態(tài)變化。通過監(jiān)控這些數(shù)據(jù)狀態(tài)的變化,從而可以達(dá)到基于數(shù)據(jù)的集群管理。動(dòng)靜態(tài)信息交換系統(tǒng)概述動(dòng)靜態(tài)信息交換建立目的是通過標(biāo)準(zhǔn)的規(guī)范性數(shù)據(jù)接口定義,實(shí)現(xiàn)采集各類動(dòng)態(tài)和靜態(tài)數(shù)據(jù),實(shí)現(xiàn)與接入平臺(tái)的數(shù)據(jù)通信與交換共享。數(shù)據(jù)采集交換系統(tǒng)根據(jù)數(shù)據(jù)交換的對(duì)象和內(nèi)容的不同,服務(wù)對(duì)象包括省市級(jí)管理機(jī)構(gòu)等。數(shù)據(jù)交換平臺(tái)包含一系列的服務(wù),如:數(shù)據(jù)采集服務(wù)、平臺(tái)認(rèn)證服務(wù)、發(fā)布訂閱服務(wù)等。數(shù)據(jù)采集服務(wù)數(shù)據(jù)采集服務(wù)采集各級(jí)行業(yè)管理部門、各行業(yè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)信息,對(duì)這些靜動(dòng)態(tài)數(shù)據(jù)進(jìn)行收集,用以進(jìn)行后續(xù)操作。數(shù)據(jù)采集模塊按照定義的接口規(guī)范進(jìn)行連接、響應(yīng)、接收、發(fā)送處理。接收各級(jí)行業(yè)管理部門報(bào)送的數(shù)據(jù)。數(shù)據(jù)采集服務(wù)配置針對(duì)上報(bào)大數(shù)據(jù)管理平臺(tái)的信息,靈活配置其可采集的服務(wù)種類,來源,IP地址,采集的數(shù)據(jù)類型以及服務(wù)方式,使數(shù)據(jù)的采集更加靈活可控。數(shù)據(jù)采集服務(wù)配置模塊的主要功能有:動(dòng)態(tài)配置服務(wù)。根據(jù)IP、數(shù)據(jù)類型和服務(wù)方式對(duì)服務(wù)進(jìn)行動(dòng)態(tài)配置。對(duì)接入數(shù)據(jù)進(jìn)行驗(yàn)證。不允許非配置內(nèi)的服務(wù)接入數(shù)據(jù),允許配置內(nèi)的服務(wù)接入數(shù)據(jù)。平臺(tái)認(rèn)證服務(wù)為了保障數(shù)據(jù)服務(wù)的安全性,在傳輸數(shù)據(jù)之前,需要先通過接口進(jìn)行登錄認(rèn)證,從而確定數(shù)據(jù)交換平臺(tái)及權(quán)限,以及平臺(tái)接入的有效期。平臺(tái)認(rèn)證模塊主要功能有:根據(jù)平臺(tái)信息進(jìn)行登錄認(rèn)證。根據(jù)申請(qǐng)接入的其他平臺(tái)或者系統(tǒng)的相關(guān)信息,對(duì)該平臺(tái)或者系統(tǒng)進(jìn)行身份驗(yàn)證。根據(jù)認(rèn)證結(jié)果獲取登錄權(quán)限和有效期等信息。如果驗(yàn)證通過,則允許接入系統(tǒng),如果驗(yàn)證不通過,則不允許接入。動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù)發(fā)布訂閱服務(wù)根據(jù)分發(fā)調(diào)度策略,判斷采集動(dòng)靜態(tài)數(shù)據(jù)屬于某個(gè)地市,發(fā)布到該地市的主題,存儲(chǔ)到消息隊(duì)列,記錄日志。動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱模塊的主要功能有:獲取信息,將數(shù)據(jù)存儲(chǔ)到消息隊(duì)列。根據(jù)接入數(shù)據(jù)的相關(guān)信息,獲取對(duì)應(yīng)的信息。記錄日志信息。將信息下發(fā)到相應(yīng)的消息隊(duì)列,并記錄日志信息。負(fù)載均衡服務(wù)根據(jù)數(shù)據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載分析與數(shù)據(jù)的多路徑流向調(diào)整,用以減小平臺(tái)壓力,提高平臺(tái)的運(yùn)行效率。負(fù)載均衡模塊的主要功能是根據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載均衡處理。協(xié)議分析轉(zhuǎn)換功能按協(xié)議規(guī)范對(duì)上報(bào)數(shù)據(jù)進(jìn)行解析,對(duì)分發(fā)的數(shù)據(jù)進(jìn)行封裝,實(shí)現(xiàn)與其他平臺(tái)的數(shù)據(jù)準(zhǔn)確對(duì)接。協(xié)議分析轉(zhuǎn)換模塊的主要功能有:按協(xié)議規(guī)范對(duì)上報(bào)數(shù)據(jù)進(jìn)行解析。對(duì)接入的數(shù)據(jù),按照預(yù)先指定的協(xié)議進(jìn)行解析,方便在系統(tǒng)中的處理和流通。對(duì)分發(fā)的數(shù)據(jù)進(jìn)行封裝。對(duì)于系統(tǒng)處理過的數(shù)據(jù),要根據(jù)預(yù)先指定的協(xié)議,將數(shù)據(jù)進(jìn)行打包封裝,然后下發(fā)到其他平臺(tái)或者系統(tǒng)。動(dòng)靜態(tài)數(shù)據(jù)分發(fā)服務(wù)根據(jù)各級(jí)數(shù)據(jù)請(qǐng)求,按照定義的接口規(guī)范進(jìn)行連接、響應(yīng)、按主題分發(fā)處理。分發(fā)各類動(dòng)靜態(tài)信息。按照定義的接口規(guī)范進(jìn)行連接響應(yīng)。對(duì)數(shù)據(jù)按照主題進(jìn)行分發(fā)。根據(jù)接入數(shù)據(jù)的相關(guān)信息,從而獲取相關(guān)的數(shù)據(jù)需求方信息,并且獲取相應(yīng)的主題信息,并將數(shù)據(jù)按照主題下發(fā)到相應(yīng)的平臺(tái)。數(shù)據(jù)分發(fā)服務(wù)配置針對(duì)分發(fā)平臺(tái)的信息,靈活配置分發(fā)的服務(wù)種類,分發(fā)的數(shù)據(jù)類型以及服務(wù)方式,實(shí)現(xiàn)分發(fā)的靈活可控性。數(shù)據(jù)分發(fā)服務(wù)配置模塊的主要功能有:獲取將要分發(fā)的平臺(tái)的信息。根據(jù)系統(tǒng)中提供的其他平臺(tái)的相關(guān)數(shù)據(jù),獲取將要分發(fā)的平臺(tái)的相關(guān)信息,方便后續(xù)數(shù)據(jù)的分發(fā)。根據(jù)平臺(tái)的信息配置要進(jìn)行分發(fā)的服務(wù)。根據(jù)已經(jīng)獲取的相關(guān)的平臺(tái)的數(shù)據(jù),對(duì)平臺(tái)的服務(wù)信息進(jìn)行配置。數(shù)據(jù)緩存服務(wù)數(shù)據(jù)緩存服務(wù)主要提供本項(xiàng)目動(dòng)態(tài)信息內(nèi)存緩存、持久化存儲(chǔ)當(dāng)前點(diǎn)以及緩存預(yù)處理的數(shù)據(jù),向數(shù)據(jù)應(yīng)用提供快速訪問中間數(shù)據(jù)源。數(shù)據(jù)緩存模塊的主要功能是進(jìn)行數(shù)據(jù)緩存,如內(nèi)存緩存、持久化存儲(chǔ)當(dāng)前點(diǎn)以及緩存預(yù)處理網(wǎng)格信息等數(shù)據(jù)。數(shù)據(jù)交換信息日志記錄數(shù)據(jù)采集以及分發(fā)的數(shù)據(jù)量,為驗(yàn)證數(shù)據(jù)交換的完整性、可追溯性以及可視性打下基礎(chǔ)。數(shù)據(jù)交換信息日志模塊的主要功能有:記錄數(shù)據(jù)采集獲取的數(shù)據(jù)量。在進(jìn)行數(shù)據(jù)交互時(shí),記錄接入的數(shù)據(jù)的數(shù)據(jù)量信息。記錄數(shù)據(jù)分發(fā)的數(shù)據(jù)量。在進(jìn)行數(shù)據(jù)的交互時(shí),記錄分發(fā)的數(shù)據(jù)的數(shù)據(jù)量信息。大數(shù)據(jù)存儲(chǔ)根據(jù)業(yè)務(wù)類型,數(shù)據(jù)劃分為基礎(chǔ)信息數(shù)據(jù)庫、主題數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫三大數(shù)據(jù)庫。其中基礎(chǔ)數(shù)據(jù)庫存儲(chǔ)行業(yè)的靜態(tài)數(shù)據(jù)以實(shí)現(xiàn)與實(shí)時(shí)數(shù)據(jù)的快速擬合;主題數(shù)據(jù)庫各類主題數(shù)據(jù);業(yè)務(wù)庫存儲(chǔ)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)。根據(jù)數(shù)據(jù)的使用時(shí)效分為在線存儲(chǔ)、離線存儲(chǔ)。數(shù)據(jù)倉庫工具隨著大數(shù)據(jù)平臺(tái)不斷的接入海量數(shù)據(jù),大數(shù)據(jù)平臺(tái)引入數(shù)據(jù)倉庫技術(shù)來解決各類業(yè)務(wù)問題。數(shù)據(jù)倉庫是一個(gè)抽象的概念所以可以簡(jiǎn)單的理解為不同粒度的數(shù)據(jù)層,比如:數(shù)據(jù)緩沖層(存放當(dāng)日增量數(shù)據(jù))、數(shù)據(jù)明細(xì)層(存放最全的明細(xì)數(shù)據(jù))、數(shù)據(jù)模型層(輕粒度的數(shù)據(jù)匯總以及模型設(shè)計(jì),這個(gè)時(shí)候需要設(shè)計(jì)相應(yīng)的主題)、數(shù)據(jù)集市層(一般就是一些寬表,包含多維度和指標(biāo),方便用來做多維分析)、數(shù)據(jù)應(yīng)用層(主要是開放給業(yè)務(wù)側(cè)使用,多存放粗粒度的數(shù)據(jù)報(bào)表)。通過數(shù)據(jù)倉庫模型為各類應(yīng)用提供數(shù)據(jù)支撐。大數(shù)據(jù)在線存儲(chǔ)大數(shù)據(jù)在線存儲(chǔ)存儲(chǔ)臨時(shí)性的數(shù)據(jù),提供高效數(shù)據(jù)索引,面向列的高可靠性、高性能、可伸縮的分布式存儲(chǔ),以及面向RMDB的數(shù)據(jù)導(dǎo)入與導(dǎo)出功能。大數(shù)據(jù)在線存儲(chǔ)子系統(tǒng)提供簡(jiǎn)化編程模型支持、容錯(cuò)、橫向線性擴(kuò)展等特性。在線存儲(chǔ)主要利用Hbase列式數(shù)據(jù)庫做為主在線存儲(chǔ)。在線存儲(chǔ)的技術(shù)架構(gòu)如上圖所示,其中:HBaseClient使用HBase的RPC機(jī)制與HMaster和HRegionServer進(jìn)行通信。對(duì)于管理類操作(如建表,刪表等),Client和HMaster進(jìn)行RPC;對(duì)于數(shù)據(jù)讀寫類操作,Client和HRegionServer進(jìn)行RPC。每臺(tái)HRegionServer都會(huì)與HMaster進(jìn)行通信,HMaster的主要任務(wù)就是要告訴每臺(tái)HRegionServer它要維護(hù)哪些HRegion。當(dāng)一臺(tái)新的HRegionServer登錄到HMaster時(shí),HMaster會(huì)告訴它等待分配數(shù)據(jù)。而當(dāng)一臺(tái)HRegion死機(jī)時(shí),HMaster會(huì)把它負(fù)責(zé)的HRegion標(biāo)記為未分配,然后再把它們分配到其他的HRegionServer中。HBase通過多個(gè)HMaster實(shí)例和Zookeeper的協(xié)調(diào)功能解決了HMaster單點(diǎn)故障問。HMaster在功能上主要負(fù)責(zé)Table和Region的管理工作。HRegionServer主要負(fù)責(zé)響應(yīng)用戶I/O請(qǐng)求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是HBase中最核心的模塊。HBase能提供實(shí)時(shí)計(jì)算服務(wù)是由其架構(gòu)和底層的數(shù)據(jù)結(jié)構(gòu)決定的,即由LSM-Tree(Log-StructuredMerge-Tree)+HTable(region分區(qū))+Cache決定——客戶端可以直接定位到要查數(shù)據(jù)所在的HRegionserver服務(wù)器,然后直接在服務(wù)器的一個(gè)region上查找要匹配的數(shù)據(jù),并且這些數(shù)據(jù)部分是經(jīng)過cache緩存的。包括以下功能:高效數(shù)據(jù)索引HBase讀取首先會(huì)在緩存中查找,它采用了LRU(最近最少使用算法),如果緩存中沒找到,會(huì)從內(nèi)存中的MemStore中查找,只有這兩個(gè)地方都找不到時(shí),才會(huì)加載HFile中的內(nèi)容,而使用了LSM樹型結(jié)構(gòu)的HFile節(jié)省了尋道開銷,讀取速度也會(huì)很快。分布式存儲(chǔ)HBase存儲(chǔ)的文件系統(tǒng)使用HDFS分布式存儲(chǔ)系統(tǒng),每張表都通過行鍵按照一定的范圍被分割成多個(gè)子表(HRegion),默認(rèn)一個(gè)HRegion超過預(yù)設(shè)大?。J(rèn)256M)就要被分割成兩個(gè)。HRegionServer存取一個(gè)子表時(shí),會(huì)創(chuàng)建一個(gè)HRegion對(duì)象,然后對(duì)表的每個(gè)列族(ColumnFamily)創(chuàng)建一個(gè)Store實(shí)例,每個(gè)Store都會(huì)有0個(gè)或多個(gè)StoreFile與之對(duì)應(yīng),每個(gè)StoreFile都會(huì)對(duì)應(yīng)一個(gè)HFile,HFile就是實(shí)際的存儲(chǔ)文件。大數(shù)據(jù)離線存儲(chǔ)大數(shù)據(jù)離線存儲(chǔ)通過HDFS分布式文件系統(tǒng)技術(shù)為平臺(tái)提供穩(wěn)定可靠的存儲(chǔ)支持。離線存儲(chǔ)保存了所有歷史數(shù)據(jù)。大數(shù)據(jù)離線存儲(chǔ)提供的功能包括:容錯(cuò)機(jī)制、集群資源管理、存儲(chǔ)資源的訪問隔離和橫向擴(kuò)展、數(shù)據(jù)的鏡像和冗余等功能。容錯(cuò)機(jī)制HDFS通過多方面保證數(shù)據(jù)的可靠性,實(shí)現(xiàn)了高容錯(cuò)功能:多份復(fù)制并且分布到物理位置的不同服務(wù)器上、數(shù)據(jù)校驗(yàn)功能、后臺(tái)的連續(xù)自檢數(shù)據(jù)一致性功能。集群資源管理元數(shù)據(jù)節(jié)點(diǎn)用來管理文件系統(tǒng)的命名空間;數(shù)據(jù)節(jié)點(diǎn)是文件系統(tǒng)中真正存儲(chǔ)數(shù)據(jù)的地方,其周期性的向元數(shù)據(jù)節(jié)點(diǎn)回報(bào)其存儲(chǔ)的數(shù)據(jù)塊信息。HDFS文件系統(tǒng)檢查工具FSCK可以檢查HDFS系統(tǒng)的健康狀況。一旦數(shù)據(jù)發(fā)生異常,NameNode可進(jìn)入安全模式,便于數(shù)據(jù)的恢復(fù)。每一個(gè)DataNode都會(huì)周期性運(yùn)行一個(gè)數(shù)據(jù)掃描線程,它可以檢測(cè)并通過修復(fù)命令來修復(fù)壞塊或丟失的數(shù)據(jù)塊。存儲(chǔ)資源的訪問隔離用戶提交作業(yè)時(shí),JobTracker端要進(jìn)行身份核實(shí),先是驗(yàn)證到底是不是這個(gè)人,即通過檢查執(zhí)行當(dāng)前代碼的人與JobConf中的中的用戶是否一致。然后會(huì)檢查ACL(AccessControlList)配置文件(由管理員配置)看你是否有提交作業(yè)的權(quán)限。一旦你通過驗(yàn)證,會(huì)獲取HDFS或者mapreduce授予的delegationtoken(訪問不同模塊有不同的delegationtoken)。之后的任何操作,比如訪問文件,均要檢查該token是否存在,且使用者跟之前注冊(cè)使用該token的人是否一致。另外HDFSFederation方案允許HDFS創(chuàng)建多個(gè)namespace以提高集群的隔離性。存儲(chǔ)資源的橫向擴(kuò)展可擴(kuò)展性是HDFS的一個(gè)重要特性,向HDFS集群中添加或刪除節(jié)點(diǎn),可以通過簡(jiǎn)單操作即可完成。新增或刪除DataNode節(jié)點(diǎn)時(shí),會(huì)導(dǎo)致數(shù)據(jù)塊分布的不均勻,用戶可以使用balance命令重新平衡DataNode上的數(shù)據(jù)塊的分布。HDFSFederation方案使用了多個(gè)獨(dú)立的Namenode/namespace來使得HDFS的命名服務(wù)能夠水平擴(kuò)展成聯(lián)合集群數(shù)據(jù)的鏡像和冗余冗余備份:HDFS將每個(gè)文件存儲(chǔ)成一系列的數(shù)據(jù)塊(Block),默認(rèn)塊大小為64MB(可以自定義配置)。為了容錯(cuò),文件的所有數(shù)據(jù)塊都可以有副本(默認(rèn)為3個(gè),可以自定義配置)。當(dāng)DataNode啟動(dòng)的時(shí)候,它會(huì)遍歷本地文件系統(tǒng),產(chǎn)生一份HDFS數(shù)據(jù)塊和本地文件對(duì)應(yīng)關(guān)系的列表,并把這個(gè)報(bào)告發(fā)送給NameNode,這就是報(bào)告塊(BlockReport),報(bào)告塊上包含了DataNode上所有塊的列表。副本存放:HDFS集群一般運(yùn)行在多個(gè)機(jī)架上,不同機(jī)架上機(jī)器的通信需要通過交換機(jī)。通常情況下,副本的存放策略很關(guān)鍵,機(jī)架內(nèi)節(jié)點(diǎn)之間的帶寬比跨機(jī)架節(jié)點(diǎn)之間的帶寬要大,它能影響HDFS的可靠性和性能。HDFS采用一種稱為機(jī)架感知(Rack-aware)的策略來改進(jìn)數(shù)據(jù)的可靠性、可用性和網(wǎng)絡(luò)帶寬的利用率。在大多數(shù)情況下,HDFS副本系數(shù)是默認(rèn)為3,HDFS的存放策略是將一個(gè)副本存放在本地機(jī)架節(jié)點(diǎn)上,一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上,最后一個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸,提高了寫操作的效率。機(jī)架整體出現(xiàn)錯(cuò)誤的幾率遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的少,所以這種策略不會(huì)影響到數(shù)據(jù)的可靠性和可用性。數(shù)據(jù)清洗轉(zhuǎn)換大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)清洗轉(zhuǎn)換工具,提供了一個(gè)強(qiáng)健、高效的數(shù)據(jù)處理引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運(yùn)行。引擎采取異步并行處理的技術(shù),實(shí)現(xiàn)流程中的每個(gè)組件多線程并行高效處理;支持集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在多臺(tái)服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_(tái)服務(wù)器上,從而提高數(shù)據(jù)處理效率。流數(shù)據(jù)處理框架流數(shù)據(jù)處理框架是針對(duì)流式數(shù)據(jù)提供的可在分布式環(huán)境下運(yùn)行的組件和程序框架,將針對(duì)實(shí)時(shí)數(shù)據(jù)的清洗、轉(zhuǎn)換、計(jì)算程序在此框架下編寫,運(yùn)行在流數(shù)據(jù)處理組件中,從分布式消息隊(duì)列中獲取相應(yīng)的實(shí)時(shí)數(shù)據(jù),經(jīng)過程序的處理后,推送到相應(yīng)的位置中。例如實(shí)時(shí)流數(shù)據(jù)、路況數(shù)據(jù)等,經(jīng)過清洗轉(zhuǎn)換后,根據(jù)業(yè)務(wù)的需要推送到分布式文件系統(tǒng)、數(shù)據(jù)庫或者其他的存儲(chǔ)中。分布式ETL工具將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,支持分布式的部署方式,支持關(guān)系數(shù)據(jù)庫、文件,支持SQL語句,操作簡(jiǎn)單容易上手,對(duì)抽取、轉(zhuǎn)換、加載過程可監(jiān)控。公路路網(wǎng)道路地理數(shù)據(jù)等可開放直連數(shù)據(jù)庫接口,此時(shí)可以使用分布式ETL工具從開放的數(shù)據(jù)庫接口中將路網(wǎng)道路地理數(shù)據(jù)抽取出來,經(jīng)過工具轉(zhuǎn)換后,存入到分布式文件系統(tǒng)中。ETL功能介紹ETL引擎提供任務(wù)引擎和轉(zhuǎn)換引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運(yùn)行,為大塊、大批量、異構(gòu)的數(shù)據(jù)的整合提供堅(jiān)實(shí)保障。數(shù)據(jù)處理組件大量的任務(wù)組件和轉(zhuǎn)換組件,用戶可以通過拖拽的方式快速完成各種復(fù)雜數(shù)據(jù)集成需求和集成的調(diào)度控制。提供的轉(zhuǎn)換組件覆蓋數(shù)據(jù)映射、數(shù)據(jù)豐富、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)排序、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)生成、數(shù)據(jù)去重、數(shù)據(jù)分組、行列轉(zhuǎn)換等復(fù)雜處理,提供的任務(wù)組件涵蓋定時(shí)調(diào)度、周期循環(huán)調(diào)度等調(diào)度模式組件、以及數(shù)據(jù)處理的一些前置、后置檢查操作等。數(shù)據(jù)抽取模式支持各種數(shù)據(jù)抽取模式,如全量同步、增量同步CDC(基于觸發(fā)器、基于時(shí)間戳、全表比對(duì)、基于數(shù)據(jù)庫日志分析)、單向同步、雙向同步、文件目錄同步等。基于數(shù)據(jù)庫日志分析的增量抽取支持?jǐn)?shù)據(jù)庫:Oracle,SqlServer2008,Mysql5。圖形化操作通過大量組件和可視化圖形界面,使用人員無需編碼,既可以靈活、方便地定制出各種數(shù)據(jù)集成流程,又能夠減少手工代碼的錯(cuò)誤,還可以利用調(diào)試預(yù)覽及時(shí)發(fā)現(xiàn)潛在錯(cuò)誤,提升集成質(zhì)量,并能對(duì)ETL服務(wù)器和資源庫進(jìn)行管理,全面提高集成速度。高效數(shù)據(jù)處理采用異步并行處理的方式實(shí)現(xiàn)數(shù)據(jù)的高效處理,每經(jīng)過一個(gè)組件就被加工成一個(gè)既定格式的中間狀態(tài)。數(shù)據(jù)經(jīng)過一個(gè)組件的處理后被迅速交給下一個(gè)組件處理,同時(shí)當(dāng)前的組件已經(jīng)開始處理新的數(shù)據(jù)。提供集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在多臺(tái)服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_(tái)服務(wù)器上,提高數(shù)據(jù)處理效率。異?;謴?fù)和數(shù)據(jù)一致性任務(wù)流程提供多個(gè)調(diào)度機(jī)制和異常恢復(fù)機(jī)制,在異常后,支持自動(dòng)和手動(dòng)恢復(fù)。異?;謴?fù)可以保證恢復(fù)的流程從異常點(diǎn)開始重新同步,保證數(shù)據(jù)的最終完整性和一致性。監(jiān)控管理提供基于JS+REST技術(shù)規(guī)范的前端界面和后臺(tái)數(shù)據(jù)提供相分離的統(tǒng)一管理平臺(tái),界面風(fēng)格符合扁平化設(shè)計(jì)潮流。提供對(duì)分布式網(wǎng)絡(luò)環(huán)境中部署的服務(wù)器運(yùn)行實(shí)例集中統(tǒng)一管理,包括對(duì)服務(wù)器、流程的運(yùn)行狀態(tài)、運(yùn)行日志、執(zhí)行性能的查看,以及遠(yuǎn)程的啟動(dòng)、停止、暫停、恢復(fù)等管理操作,支持統(tǒng)一的權(quán)限管理配置、錯(cuò)誤告警等功能。提供插件管理機(jī)制,方便用戶安裝、卸載已有的功能插件,允許用戶自定義自己的功能插件,并集成到統(tǒng)一管理平臺(tái)中。提供自定義面板功能,方便用戶在一個(gè)視圖中集中展示自己關(guān)注的內(nèi)容。提供Java、HTTP、REST等多種封裝形式的監(jiān)控管理接口,方便用戶快速將監(jiān)控管理功能集成到自己的平臺(tái)中。插件式組件管理和可擴(kuò)展性提供插件式的組件管理機(jī)制,對(duì)于特殊的場(chǎng)景,可以方便的進(jìn)行擴(kuò)展開發(fā),如客戶自定義結(jié)構(gòu)的文本進(jìn)行轉(zhuǎn)換組件的定制開發(fā)、專有的應(yīng)用系統(tǒng)進(jìn)行適配器的定制開發(fā)等,并以插件的方式集成使用。大數(shù)據(jù)處理實(shí)時(shí)數(shù)據(jù)流處理實(shí)時(shí)性是數(shù)據(jù)處理的關(guān)鍵也是其價(jià)值得以實(shí)現(xiàn)的基礎(chǔ)。如流的實(shí)時(shí)監(jiān)控、擁堵狀況的實(shí)時(shí)信息、誘導(dǎo)等應(yīng)用均要求系統(tǒng)能夠返回當(dāng)前的狀態(tài);在另一些場(chǎng)景則需要進(jìn)行連續(xù)監(jiān)控,在技術(shù)上涉及連續(xù)查詢。這方面的功能需求已在第二節(jié)講述。在構(gòu)建大數(shù)據(jù)處理平臺(tái)中,實(shí)時(shí)數(shù)據(jù)流處理子系統(tǒng)是關(guān)鍵系統(tǒng)之一。該系統(tǒng)中涉及的關(guān)鍵技術(shù)包括:高速數(shù)據(jù)轉(zhuǎn)換,將獲取的事件數(shù)據(jù)流由隨機(jī)訪問格式轉(zhuǎn)換為分布式并行分析格式,將幾分鐘前獲取的數(shù)據(jù)即時(shí)處理呈現(xiàn)最新分析結(jié)果;靈活的資源分配方案,不同類型的數(shù)據(jù)處理組件(即事件處理服務(wù))與可伸縮分布式鍵值存儲(chǔ)靈活連接,可以便捷地構(gòu)造新的服務(wù)而不影響現(xiàn)有系統(tǒng)的運(yùn)行;基于滑動(dòng)窗口的連續(xù)計(jì)算技術(shù);自適應(yīng)負(fù)載平衡與資源分配優(yōu)化。實(shí)時(shí)流數(shù)據(jù)處理基于流計(jì)算框架為平臺(tái)提供一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng),用于對(duì)接收的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,例如支持車輛實(shí)時(shí)位置計(jì)算、車輛按行政區(qū)劃分級(jí)聚合(到地區(qū)級(jí))、實(shí)時(shí)車輛查找、區(qū)域車輛異常聚集、相關(guān)運(yùn)營(yíng)指標(biāo)實(shí)時(shí)計(jì)算等業(yè)務(wù)。實(shí)時(shí)流數(shù)據(jù)處理提供簡(jiǎn)化編程模型支持、容錯(cuò)、水平擴(kuò)展、可靠消息處理等功能。數(shù)據(jù)挖掘分析引擎數(shù)據(jù)挖掘分析是對(duì)清洗后的數(shù)據(jù),運(yùn)用數(shù)學(xué)算法,對(duì)其進(jìn)行數(shù)據(jù)運(yùn)行,并把運(yùn)算后的結(jié)果模型保存起來,供業(yè)務(wù)程序的調(diào)用。支持多種數(shù)據(jù)挖掘算法分析,可以生成分類、聚集、回歸模型,適應(yīng)在多種行業(yè)的機(jī)器學(xué)習(xí)場(chǎng)景提供挖掘分析功能。多種分布式機(jī)器學(xué)習(xí)、智能挖掘、統(tǒng)計(jì)分析計(jì)算框架豐富的、功能齊全的行業(yè)分析數(shù)據(jù)模型,譬如分類、聚集、回歸等應(yīng)用分析模型。大數(shù)據(jù)服務(wù)引擎大數(shù)據(jù)配置服務(wù)管理根據(jù)各類業(yè)務(wù)系統(tǒng)的需求,進(jìn)行大數(shù)據(jù)配置服務(wù),支持方便靈活的數(shù)據(jù)應(yīng)用。大數(shù)據(jù)在線分析大數(shù)據(jù)在線分析分析耗時(shí)較短的業(yè)務(wù)功能提供支撐。該模塊集成大數(shù)據(jù)分析算法組件,面向用戶提供對(duì)業(yè)務(wù)的遠(yuǎn)程分析能力。用戶通過界面提交分析的需求、參數(shù)或者是符合規(guī)約的算法,在大數(shù)據(jù)在線分析上完成大數(shù)據(jù)的搜索、分析、挖掘和運(yùn)算,最終展示給用戶。具體功能包括:面向海量數(shù)據(jù)的全局掃描抽取、多維視圖展示、信息挖掘與關(guān)聯(lián)分析、實(shí)時(shí)數(shù)據(jù)融合。在技術(shù)上使用Spark快速數(shù)據(jù)處理框架實(shí)現(xiàn)。在線分析系統(tǒng)主要是面向海量數(shù)據(jù)的全局掃描抽取、多維視圖展示、信息挖掘與關(guān)聯(lián)分析、實(shí)時(shí)數(shù)據(jù)融合等分析工作。SparkSQL可以實(shí)現(xiàn)多維度統(tǒng)計(jì)分析。SparkMlib可以實(shí)現(xiàn)信息發(fā)掘和關(guān)聯(lián)分析。SparkonYarn啟動(dòng)后,由SparkAppMaster把Receiver作為一個(gè)Task提交給某一個(gè)SparkExecutor;Receive啟動(dòng)后輸入數(shù)據(jù),生成數(shù)據(jù)塊,然后通知SparkAppMaster;SparkAppMaster會(huì)根據(jù)數(shù)據(jù)塊生成相應(yīng)的Job,并把Job的Task提交給空閑SparkExecutor執(zhí)行。圖中藍(lán)色的粗箭頭顯示被處理的數(shù)據(jù)流,輸入數(shù)據(jù)流可以是磁盤、網(wǎng)絡(luò)和HDFS等,輸出可以是HDFS,數(shù)據(jù)庫等。SparkStreaming的基本原理是將輸入數(shù)據(jù)流以時(shí)間片(秒級(jí))為單位進(jìn)行拆分,然后以類似批處理的方式處理每個(gè)時(shí)間片數(shù)據(jù)。SparkStreaming將流式計(jì)算分解成多個(gè)SparkJob,對(duì)于每一段數(shù)據(jù)的處理都會(huì)經(jīng)過SparkDAG圖分解,以及Spark的任務(wù)集的調(diào)度過程。對(duì)于目前版本的SparkStreaming而言,其最小的BatchSize的選取在~2秒鐘之間(Storm目前最小的延遲是100ms左右),所以SparkStreaming能夠滿足除對(duì)實(shí)時(shí)性要求非常高(如高頻實(shí)時(shí)交易)之外的所有流式準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景。大數(shù)據(jù)離線分析本子系統(tǒng)基于HDFS的分布式存儲(chǔ)技術(shù)、HadoopMapReduce并行計(jì)算技術(shù),是支持大數(shù)據(jù)分析系統(tǒng)高效檢索和快速處理的基礎(chǔ),例如可以對(duì)車輛訂單和軌跡序列進(jìn)行多要素、多層次、多時(shí)次、多范圍檢索分析和計(jì)算;針對(duì)跨年度、跨區(qū)域的大規(guī)模車輛軌跡等歷史數(shù)據(jù)進(jìn)行離線分析,并能夠?qū)y(tǒng)計(jì)結(jié)果進(jìn)行在線展示和下載。大數(shù)據(jù)離線分析提供數(shù)據(jù)查詢系統(tǒng)、行業(yè)管理相關(guān)功能提供底層數(shù)據(jù)和計(jì)算的支持。大數(shù)據(jù)離線分析的技術(shù)架構(gòu)圖如下:MapReduce設(shè)計(jì)上具有以下主要的技術(shù)特征向“外”橫向擴(kuò)展,而非向“上”縱向擴(kuò)展即MapReduce集群的構(gòu)建完全選用價(jià)格便宜、易于擴(kuò)展的低端商用服務(wù)器。失效被認(rèn)為是常態(tài)MapReduce并行計(jì)算軟件框架使用了多種有效的錯(cuò)誤檢測(cè)和恢復(fù)機(jī)制,如節(jié)點(diǎn)自動(dòng)重啟技術(shù),使集群和計(jì)算框架具有對(duì)付節(jié)點(diǎn)失效的健壯性,能有效處理失效節(jié)點(diǎn)的檢測(cè)和恢復(fù)。把處理向數(shù)據(jù)遷移為了減少大規(guī)模數(shù)據(jù)并行計(jì)算系統(tǒng)中的數(shù)據(jù)通信開銷,代之以把數(shù)據(jù)傳送到處理節(jié)點(diǎn)(數(shù)據(jù)向處理器或代碼遷移),應(yīng)當(dāng)考慮將處理向數(shù)據(jù)靠攏和遷移。MapReduce采用了數(shù)據(jù)/代碼互定位的技術(shù)方法,計(jì)算節(jié)點(diǎn)將首先盡量負(fù)責(zé)計(jì)算其本地存儲(chǔ)的數(shù)據(jù),以發(fā)揮數(shù)據(jù)本地化特點(diǎn),僅當(dāng)節(jié)點(diǎn)無法處理本地?cái)?shù)據(jù)時(shí),再采用就近原則尋找其他可用計(jì)算節(jié)點(diǎn),并把數(shù)據(jù)傳送到該可用計(jì)算節(jié)點(diǎn)。順序處理數(shù)據(jù)、避免隨機(jī)訪問數(shù)據(jù)為了實(shí)現(xiàn)面向大數(shù)據(jù)集批處理的高吞吐量的并行處理,MapReduce可以利用集群中的大量數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)同時(shí)訪問數(shù)據(jù),以此利用分布集群中大量節(jié)點(diǎn)上的磁盤集合提供高帶寬的數(shù)據(jù)訪問和傳輸。為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)MapReduce提供了一種抽象機(jī)制將程序員與系統(tǒng)層細(xì)節(jié)隔離開來,程序員僅需描述需要計(jì)算什么(Whattocompute),而具體怎么去計(jì)算(Howtocompute)就交由系統(tǒng)的執(zhí)行框架處理。平滑無縫的可擴(kuò)展性這里指出的可擴(kuò)展性主要包括兩層意義上的擴(kuò)展性:數(shù)據(jù)擴(kuò)展和系統(tǒng)規(guī)模擴(kuò)展性。使用MapReduce進(jìn)行多維分析,首先能解決維度難以改變的問題,利用HDFS中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來的數(shù)據(jù)本身就是包含大量冗余信息的。同時(shí)也可以將大量冗余的維度信息整合到事實(shí)表中,這樣可以在冗余維度下靈活地改變問題分析的角度。利用MapReduce強(qiáng)大的并行化處理能力,無論OLAP分析中的維度增加多少,開銷并不顯著增長(zhǎng)。換言之,Hadoop可以支持一個(gè)巨大無比的Cube,包含了無數(shù)你想到或者想不到的維度,而且每次多維分析,都可以支持成千上百個(gè)維度,并不會(huì)顯著影響分析的性能。對(duì)于很多計(jì)算問題,基于MapReduce的計(jì)算性能可隨節(jié)點(diǎn)數(shù)目增長(zhǎng)保持近似于線性的增長(zhǎng)。大數(shù)據(jù)可視化管理數(shù)據(jù)可視化是將統(tǒng)計(jì)分析結(jié)果以報(bào)表、圖表、及位置數(shù)據(jù)的地圖顯示方式(如折線圖、直方圖、用散點(diǎn)圖等)進(jìn)行可視化表達(dá)。包括統(tǒng)計(jì)分析結(jié)果可視化顯示和可視化配置??梢暬@示:包括對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果的報(bào)表展示、圖形化展示,以及在線對(duì)比??梢暬渲茫罕灸K根據(jù)用戶需求可視化顯示各類數(shù)據(jù)和產(chǎn)品,用戶輸入所需的數(shù)據(jù)信息如數(shù)據(jù)生成時(shí)間、數(shù)據(jù)類型等,獲得符合條件的數(shù)據(jù)列表,并根據(jù)需要進(jìn)行可視化顯示?;诘貓D的位置相關(guān)信息與屬性的顯示。數(shù)據(jù)可視化管理子系統(tǒng)可以通過多種方法來實(shí)現(xiàn),比如多角度展示數(shù)據(jù)、聚焦大量數(shù)據(jù)中的動(dòng)態(tài)變化,以及篩選信息(包括動(dòng)態(tài)問詢篩選,星圖展示,和緊密耦合)等。以下一些可視化方法是按照不同的數(shù)據(jù)類型(大規(guī)模體數(shù)據(jù)、變化數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù))來進(jìn)行分析和分類的:樹狀圖式:基于分層數(shù)據(jù)的空間填充可視化方法。圓形填充式:樹狀圖式的直接替代。它使用圓形作為原始形狀,并能從更高級(jí)的分層結(jié)構(gòu)中引入更多的圓形。旭日型:在樹狀圖可視化基礎(chǔ)上轉(zhuǎn)換到極坐標(biāo)系統(tǒng)。其中的可變參量由寬和高變成半徑和弧長(zhǎng)。平行坐標(biāo)式:通過可視化分析,將不同維度的多重?cái)?shù)據(jù)因素拓展開來。蒸汽圖式:堆疊區(qū)域圖的一種,數(shù)據(jù)圍繞一條中軸線展開,并伴隨流動(dòng)及有機(jī)形態(tài)。循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個(gè)圓形排列,并按照它們自身的相關(guān)性比率由曲線相互連接。通常用不同的線寬或色彩飽和度測(cè)量數(shù)據(jù)對(duì)象的相關(guān)性。大數(shù)據(jù)全文檢索大數(shù)據(jù)平臺(tái),提供數(shù)據(jù)全文檢索功能,需滿足檢索響應(yīng)快、實(shí)時(shí)性等要求。Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器。文檔通過Http利用XML加到一個(gè)搜索集合中。查詢?cè)摷弦彩峭ㄟ^http收到一個(gè)XML/JSON響應(yīng)來實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù)制來提高可用性,提供一套強(qiáng)大DataSch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 節(jié)約用水用電宣傳主題教育方案
- 八年級(jí)語文《傅雷家書》教學(xué)要點(diǎn)
- 小學(xué)健康教育推廣專項(xiàng)計(jì)劃書
- 平行檢驗(yàn)監(jiān)理質(zhì)量控制細(xì)則
- 建筑設(shè)計(jì)創(chuàng)新與可持續(xù)發(fā)展思路
- 中小學(xué)班主任德育管理實(shí)務(wù)指南
- 2025年人工智能醫(yī)療影像輔助診斷技術(shù)發(fā)展報(bào)告
- 教師師德師風(fēng)建設(shè)現(xiàn)狀及提升方案
- 班主任工作經(jīng)驗(yàn)總結(jié)與改進(jìn)措施
- 銀行AI算力資源池化方案
- SF-36健康調(diào)查量表(含excel版)
- 超星爾雅學(xué)習(xí)通《高校實(shí)驗(yàn)室安全基礎(chǔ)課(實(shí)驗(yàn)室準(zhǔn)入教育)》章節(jié)測(cè)試含答案
- 酒店餐飲宴會(huì)服務(wù)流程規(guī)定
- 2024-2025學(xué)年山東省濰坊市高一下學(xué)期5月期中考試政治試題(解析版)
- 環(huán)境污染治理設(shè)施運(yùn)營(yíng)考試試題
- 2025年證監(jiān)會(huì)招聘面試高頻考題及解析
- 2025-2030中國(guó)溶劑染料行業(yè)消費(fèi)狀況及競(jìng)爭(zhēng)策略分析報(bào)告
- 急診科腦出血課件
- 安全生產(chǎn)管理機(jī)構(gòu)人員配備表
- smt車間安全操作規(guī)程
- 2.3.2中國(guó)第一大河長(zhǎng)江
評(píng)論
0/150
提交評(píng)論