大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)

上傳人：招*** IP屬地：河北上傳時間：2025-12-25 格式：PDF 頁數(shù)：11 大?。?.23MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)平臺框架選型分析

一、需求

城市大數(shù)據(jù)平臺，苜先是作為一個數(shù)據(jù)管理平臺，核心需求是數(shù)據(jù)的存和取，然

后因?yàn)楹Ａ繑?shù)據(jù)、多數(shù)據(jù)類型的信息需要有豐富的數(shù)據(jù)接入能力和數(shù)據(jù)標(biāo)準(zhǔn)化處理

能力，有了技術(shù)能力就需要縱深挖掘附加價值更好的服務(wù)，如信息統(tǒng)計、分析挖掘、

全文檢索等，考慮到面向的客戶對象有的是上層的應(yīng)用集成商，所以要考慮靈便的數(shù)

據(jù)接II服務(wù)來支撐。

二、平臺產(chǎn)品業(yè)務(wù)流程

城市大數(shù)據(jù)平臺

數(shù)據(jù)集成數(shù)據(jù)倉庫平臺管理決策支持

■

數(shù)據(jù)清洗

一一元數(shù)據(jù)

加工

Start數(shù)據(jù)接入

標(biāo)隹化入庫」

統(tǒng)n■分析、

分次數(shù)據(jù)倉底挖

爬蟲

S<M?k<U文

件導(dǎo)入

朋務(wù)監(jiān)莒

權(quán)限級數(shù)據(jù)接

□F

上層應(yīng)用集成

三、選型思路

必要技術(shù)組件服務(wù)：

ETL>非/關(guān)系數(shù)據(jù)倉儲>大數(shù)據(jù)處理引擎〉服務(wù)協(xié)調(diào)>分析BI>平臺監(jiān)管

XesArea:城6X威若迭震駕檢患急

四、選型要求

1.需要滿足我們平臺的幾大核心功能需求，子功能不設(shè)局限性。如不滿足全部,

需要對未滿足的其它核心功能的開放使用服務(wù)支持

2.國內(nèi)外資料及社區(qū)盡量豐富，包括組件服務(wù)的成熟度流行度較高

3.需要對選型平臺自身所包含的核心功能有較為深入的理解，易用其API或者基于

源碼開辟

4.商業(yè)服務(wù)性價比高，并有空間脫離第三方商業(yè)技術(shù)服務(wù)

5.一些非功能性需求的條件標(biāo)準(zhǔn)清晰，如承載的集群式點(diǎn)、處理數(shù)據(jù)量及安全機(jī)制

等

五、選型需要考慮

簡單性：親自試用大數(shù)據(jù)套件。這也就意味著：安裝它，將它連接到你的Hadoop安

裝，集成你的不同接口（文件、數(shù)據(jù)庫、B2B等等），并最終建模、部署、執(zhí)行一些大數(shù)

據(jù)作業(yè)。自己來了解使用大數(shù)據(jù)套件的容易程度一僅讓某個提供商的顧問來為你展示它是

如何工作是遠(yuǎn)遠(yuǎn)不夠的。親自做一個概念驗(yàn)證。

廣泛性：是否該大數(shù)據(jù)套件支持廣泛使用的開源標(biāo)準(zhǔn)一不只是Hadoop和它的生態(tài)系

統(tǒng)，還有通過SOAP和RESTweb服務(wù)的數(shù)據(jù)集成等等。它是否開源，并能根據(jù)你的特定

問題易于改變或者擴(kuò)展？是否存在一個含有文檔、論壇、博客和交流會的大社區(qū)？

特性是否支持所有需要口勺特性？Hadoop的發(fā)行版本（如果你已經(jīng)使用了某一個）？

你想要使用的Hadoop生態(tài)系統(tǒng)的所有部份？你想要集成的所有接口、技術(shù)、產(chǎn)品？請注

意過多的特性可能會大大增加復(fù)雜性和費(fèi)用。所以請查證你是否真正需要一個非常分量級

的解決方案。是否你真的需要它的所有特性？

陷阱：請注意某些陷阱。某些大數(shù)據(jù)套件采用數(shù)據(jù)驅(qū)動的付費(fèi)方式（“數(shù)據(jù)稅”），也

就曷說，你得為自己處理的每一個數(shù)據(jù)行付涉。因?yàn)槲覀兺Ｔ谡務(wù)摯髷?shù)據(jù)，所以議會變得

非常昂貴。并非所有的大數(shù)據(jù)套件都會生成本地ApacheHadoop代碼，通常要在每一個

Hadoop集群的服務(wù)器上安裝一個私有引擎，而這樣就會解除對于軟件提供商的獨(dú)立性。還

要考慮你使用大數(shù)據(jù)套件真工想做的事情。某些解決方案僅支持將Hadoop用于ETL來

填充數(shù)據(jù)至數(shù)據(jù)倉庫，而其他一些解決方案還提供了諸如后處理、轉(zhuǎn)換或者Hadoop集群

上的大數(shù)據(jù)分析。ETL僅是ApacheHadoop和其生態(tài)系統(tǒng)的一種使用情形。

六、方案分析

自建套件hortonworks國內(nèi)類exadoopTDW+fineBI

成木

100%開源培訓(xùn)服務(wù)3k/人

授權(quán)支持100K

性能單集群最大規(guī)

模達(dá)到臺，處

理數(shù)據(jù)量可達(dá)

百級

功能按需整合HDFS和YARN數(shù)據(jù)管理從

各種引擎訪問數(shù)據(jù)根據(jù)策

稍加戴利管理數(shù)據(jù)身份驗(yàn)

證、授權(quán)和數(shù)據(jù)保護(hù)大規(guī)

模配置、管理、監(jiān)控和運(yùn)

營Hadoop群集與您的數(shù)

據(jù)分析工具集成跨平臺配

置部署

易操安裝復(fù)雜，操作需圖形設(shè)計界面，參數(shù)配置，

作性要專業(yè)培訓(xùn)。易上手。

應(yīng)用國外大客戶較多

成熟

度

文檔較多，社區(qū)一官方社區(qū)比較活躍（英文）文檔較少，無

文檔/般，相關(guān)專業(yè)培訓(xùn)中文社區(qū)有1個文檔較少，商用服務(wù)，無

社區(qū)較多。多為英文文檔任何技術(shù)支持

支持

擴(kuò)展開源開放開源開放開源開放

性

移植支持多操作系統(tǒng)支持多操作系統(tǒng)支持多操作系支持多操作系

性統(tǒng)統(tǒng)

監(jiān)控監(jiān)控功能強(qiáng)大Armbri元無

優(yōu)勢1、萬源強(qiáng)大支持的開源套1、國產(chǎn)套件

1、尾隨產(chǎn)品階段逐1、開源中文支

步完善整合自定義件2、交流支持方持

、配套商業(yè)服務(wù)支持便

套件22、基于人數(shù)據(jù)

2、自選流行組件，3、商業(yè)服務(wù)較處理核心，靈

資料豐富靈便活組合其它組

件來適應(yīng)不同

產(chǎn)品階段及項(xiàng)

商業(yè)成本較圖依賴于打包服半定制套件，

劣勢整合周期不可控務(wù)公司的支持福苧nsin

七、相關(guān)資料

https:〃prestodb.io/http://www.thinksaas.cn/group/topic/233669/HDP

(hortonworks)

ACompleteEnterpriseHadoopDataPlatform

MB蚯《

WZSOLJovVSc…NoSOL遭存零內(nèi)存

RgHiveCascadingHBas?SkxmSotSpa依Engms

HCauiogAccumuloAutFwnllcdtion,

PhO4H|YAuthorization,AuditQ

Falcon1A

K3|KUJK3jBZ21miR￡K3LMaProtectionArnbari

wwwwZooKeeper

WcbHD

YARN,數(shù)掂操作系統(tǒng)存像HOFS

FS吳源：YARN

計劃

NFS11訪同：rtve

Hums置點(diǎn)：FalconOoz

SquD哥里：Knox

HDFSie

Kafkadust*Ranger

Hadoop分布式文件系笠

火相“

________________________TES明混Lml.g

TDW-基于Hadoop/Hive的深度定制

-TDW-TencentdistributedDataWarehouse

?騰訊分布式數(shù)據(jù)倉庫，支持百PB級的數(shù)據(jù)存微口計真.為公司產(chǎn)品提供海量、高效、穩(wěn)定的大數(shù)據(jù)平

臺支撐ffl決策支持.

開源工具匯總整理

類別名稱備注

Salesforce公司出品，ApacheHBase之上的一個SQL中間層,徹底使

Jhoenix

用Java編寫

原叫Tez,下代Hive,Hortonworks主導(dǎo)開辟,運(yùn)行在YA下上的DAG計

Stinger

算框架

>restoFacebook開源

查詢引擎

SharkSpark上的SQL執(zhí)行引擎

>ig基于HadoopMapReduce的腳本語言

參照GoogleDrcmcl實(shí)現(xiàn)，能運(yùn)行在HDFS或者HBasc上，使用C++開

ClouderaTmpala

辟

ApacheDrill參照GoogleDrcmel實(shí)現(xiàn)

ApacheTajo一個運(yùn)行在YARN上支持SQL的分布式數(shù)據(jù)倉庫

Hive基于HadoopMapKeducc的S（L盒詢引擎

:acebookPuma實(shí)時數(shù)據(jù)流分析

「witterKainbird分布式實(shí)時統(tǒng)計系統(tǒng)，如網(wǎng)站的點(diǎn)擊統(tǒng)計

流式計算Java開辟的一個通用的、分布式的、可擴(kuò)展的、分區(qū)容錯的、可插拔

YahooS4

的無主架構(gòu)的流式系統(tǒng)

「witterStorm使用Java和Clojure實(shí)現(xiàn)

建立在Hadoop上基于BSP(BulkSynchronousParallel)的計算框

ApacheHama

架，摹仿了Google的Pregel?

建立在Hadoop上的可伸縮的分布式迭代圖處理系統(tǒng)，靈感來自RSP

（MilU

迭代計算ApacheGiraphsynchronousparallei）和Coogle的Pregel

HaLoop迭代的MapReduce

Pwistcr迭代的MapReduce

ladoopMapReduce經(jīng)典的大數(shù)據(jù)批處理系統(tǒng)

使用Scala語言實(shí)現(xiàn)，和MapReduce有較大的競爭關(guān)系，性能膽于

BerkeleySpark

離線計算MapReduce

基于Hadoop2.X構(gòu)建的實(shí)時流式處理和分析平臺，每秒可以處理超過

)ataTorrent

10億個實(shí)時事件

.evelDBGoogle開源的高效KV編程庫，注意它只是個庫

Facebook開源的，基于Google的LevelDB,但提圖了擴(kuò)展性可以運(yùn)行

RocksDB

在多核處理器上

下一代KV存儲系統(tǒng)，支持strings、integers、floats、lists、

lyperDex

maps和sets等豐富的數(shù)據(jù)類型

日本人MikioHirabayashi:平林千雄）開辟的一款DBM數(shù)據(jù)庫，注

PokyoCabinet意、它只是個庫（大名鼎鼎的）BM數(shù)據(jù)庫qdbm就是MikioHirabayashi

開發(fā)的），讀寫非?？?/p>

一個分布式鍵值存儲系統(tǒng)，是AmazonDynamo的一個開源克隆，

Voldcmort

鍵值存儲LinkedIn開源

AmazonDynamo亞馬遜的KV模式的存儲平臺，無主架構(gòu)

淘寶出品的圖性能、分布式、可擴(kuò)展、局可靠的KV,結(jié)構(gòu)存儲系統(tǒng)，專

Tair為小文件優(yōu)化，并提供簡單易用的接口（類似Map）,Tair支持Java

和C版本的客戶端

?個可靠的、可伸縮的、局性能的排序分布式的KV?存儲系統(tǒng)，參照

ApacheAccumulcGoogle

使用ANSIC語言編與、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、

《cdis單機(jī)版KV數(shù)據(jù)庫。從2022年3月15FI起，Rcdis的開辟工作由

VMware主持

支持海量數(shù)據(jù)的圖性能分布式數(shù)據(jù)庫系統(tǒng)，實(shí)現(xiàn)了數(shù)千億條記錄、數(shù)百

OccanBase

TB數(shù)據(jù)上的跨行踏表事務(wù)

\mazonSimpleDE一個可大規(guī)模伸縮、用Erlang編寫的圖可用數(shù)據(jù)存儲

惠普2022收購Verlica,Vcrlica是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫，基于列存儲,

Vertica同時支持MPP,使用標(biāo)準(zhǔn)的S乳查詢，可以和Hadoop/MapRcducc進(jìn)行

隹成

Hadoop成員，F(xiàn)acebook于2022將Cassandra開源，基于0(DDHT

Cassandra

的完全P2P架構(gòu)

lyperTable搜索引擎公司Zvents針對Bistable的C++開源實(shí)現(xiàn)

支持ACID事務(wù)處理的NoSQL數(shù)據(jù)庫，提供非常好的性能、數(shù)據(jù)一致性

:oundationDB

和操作彈性

Bigtable在Hadoop中的實(shí)現(xiàn)，最初是Powerset公司為了處理自然語

{Base

營搜索產(chǎn)生的海量數(shù)據(jù)而開展的項(xiàng)目

CouchDB面向文檔的數(shù)據(jù)存儲

MongoDB文檔數(shù)據(jù)庫

加州大學(xué)伯克利分校的AMPLa）基于Hadoop的核心組件開辟出一個更快

文件存儲Tachyon

的版本Tachyon,它從底層重構(gòu)（Hadoop平臺。

KFSGFS的C++開源版本

IDFSGFS在Hadoop中的實(shí)現(xiàn)

TwitterMesosGoogleBorg的翻版

資源管理

ladoopYarn類似于Mesos

Facebook開源的日志采集系統(tǒng)，能夠從各種日志源上采集日志，存儲

到一個中央存儲系統(tǒng)（可以是\FS,分布式文件系統(tǒng)等）上，以便于進(jìn)

FacebookScribe

行集中統(tǒng)計分析處理,常與」adoop結(jié)合使用,Scribe用于向HDFS中

Push日志

日志采集系

ClouderaFlumeCloudera提供的日志采集系統(tǒng)，支持對日志的實(shí)時性采集

統(tǒng)

日志管理、分析和傳輸工具,可配合kibana、舊asticSearch組建成日

logstash

志查詢系統(tǒng)

kibana為日志提供友好的Web查詢頁面

StormMQ

ZcroMQ很底層的高性能網(wǎng)絡(luò)庫

出bbitMQ在AMQP基礎(chǔ)上完整的，可復(fù)用的企業(yè)消息系統(tǒng)

能力強(qiáng)勁的開源消息總線

消息系統(tǒng)ApacheActiveMQ

開源的、高性能的、跨語言分布式消息系統(tǒng)，最早是由Apache孵化的

Jafka

Kafka（由Linkcdln捐助給Apache）克隆而來

Linkedin于2022年12月份開源的分布式消息系統(tǒng)，它主要用于處理

ApacheKafka

活躍的流式數(shù)據(jù)，由Scala與成

分布式服務(wù)ZooKeeper分布式鎖服務(wù)，PoxOS算法的實(shí)現(xiàn)，對應(yīng)Google的Chubby

ApacheAvroHadoop中的RPC

RPC

:acebookThriftRPC,支持C++/Java/PHP等眾多語言

Nagios監(jiān)視系統(tǒng)運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息的監(jiān)視系統(tǒng)

集群管理UCBerkeley發(fā)起的個開源集群監(jiān)視項(xiàng)目，設(shè)計用于測量數(shù)以千計的

Ganglia

節(jié)點(diǎn)。

ApacheAmbariHadoop成員，管理和監(jiān)視ApwcheHadoop集群的開源框架

,evelDBGoogle頂級大牛開辟的單機(jī)版鍵值數(shù)據(jù)庫，具有非常高的與性能源于

SSTableGoogle,ortedSiringTable

Accord10源于Google

針對游戲開辟的，局效的跨平臺序列化庫，相比ProtoBuffers開消更

'latBuffers

小，因?yàn)镕latBuffers沒有解析過程

Google公司開辟的一種數(shù)據(jù)描述語言，類似于XML能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)

ProtocolBuffers序列化，可用于數(shù)據(jù)存儲、通信協(xié)議等方面。它不依賴于語言和平臺

并且可擴(kuò)展性極強(qiáng)。

基礎(chǔ)設(shè)施1997年由麻省理工學(xué)院提出，目標(biāo)是為了解決因特網(wǎng)中的熱點(diǎn)（Hot

ConsistentHashingspol）問題，初衷和CARP十分類似，基本解決了在P2P環(huán)境中最為關(guān)

鍵的問題一一如何在動態(tài)的網(wǎng)絡(luò)拓?fù)渲蟹植即鎯吐酚伞?/p>

JBOSS提供的個java開源框架，提供異步的、事件驅(qū)動的網(wǎng)絡(luò)應(yīng)用程

\etty序框架，用以快速開辟圖性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和客戶端程序。

布隆過濾器，197。年由布隆提出,是一個很長的一進(jìn)制矢量和一系列

隨機(jī)映射函數(shù)，可以用于檢索個元素是否在個集合中，優(yōu)點(diǎn)是空間效

HoomEilter率和查詢時間都遠(yuǎn)遠(yuǎn)超過普逋的算法，缺點(diǎn)是有一定的誤識別率和刪除

艱難。

Nutch開源Java實(shí)現(xiàn)的搜索引擎，誕生Hadoop的地方。

一套信息檢索工具包，但并不包含搜索引擎系統(tǒng)，它包含了索引結(jié)構(gòu)、

Lucene

讀與索引工具、相關(guān)性工具、排序等功能。

基于Solr和Zookeeper的分布式搜索，Solr4.0的核心組件之一，主

SolrCloud

要思想是使用Zookccpcr作為集群的配置信息中心

SolrSolr是基于Lucene的搜索。

搜索引擎開源的（Apache2協(xié)議），分布式的,RESTful的，構(gòu)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔