大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)_第1頁
大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)_第2頁
大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)_第3頁
大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)_第4頁
大數(shù)據(jù)平臺技術(shù)框架選型資料 (一)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)平臺框架選型分析

一、需求

城市大數(shù)據(jù)平臺,苜先是作為一個數(shù)據(jù)管理平臺,核心需求是數(shù)據(jù)的存和取,然

后因?yàn)楹A繑?shù)據(jù)、多數(shù)據(jù)類型的信息需要有豐富的數(shù)據(jù)接入能力和數(shù)據(jù)標(biāo)準(zhǔn)化處理

能力,有了技術(shù)能力就需要縱深挖掘附加價值更好的服務(wù),如信息統(tǒng)計、分析挖掘、

全文檢索等,考慮到面向的客戶對象有的是上層的應(yīng)用集成商,所以要考慮靈便的數(shù)

據(jù)接II服務(wù)來支撐。

二、平臺產(chǎn)品業(yè)務(wù)流程

城市大數(shù)據(jù)平臺

數(shù)據(jù)集成數(shù)據(jù)倉庫平臺管理決策支持

數(shù)據(jù)清洗

一一元數(shù)據(jù)

加工

Start數(shù)據(jù)接入

標(biāo)隹化入庫」

統(tǒng)n■分析、

分次數(shù)據(jù)倉底挖

爬蟲

S<M?k<U文

件導(dǎo)入

朋務(wù)監(jiān)莒

權(quán)限級數(shù)據(jù)接

□F

上層應(yīng)用集成

三、選型思路

必要技術(shù)組件服務(wù):

ETL>非/關(guān)系數(shù)據(jù)倉儲>大數(shù)據(jù)處理引擎〉服務(wù)協(xié)調(diào)>分析BI>平臺監(jiān)管

XesArea:城6X威若迭震駕檢患急

四、選型要求

1.需要滿足我們平臺的幾大核心功能需求,子功能不設(shè)局限性。如不滿足全部,

需要對未滿足的其它核心功能的開放使用服務(wù)支持

2.國內(nèi)外資料及社區(qū)盡量豐富,包括組件服務(wù)的成熟度流行度較高

3.需要對選型平臺自身所包含的核心功能有較為深入的理解,易用其API或者基于

源碼開辟

4.商業(yè)服務(wù)性價比高,并有空間脫離第三方商業(yè)技術(shù)服務(wù)

5.一些非功能性需求的條件標(biāo)準(zhǔn)清晰,如承載的集群式點(diǎn)、處理數(shù)據(jù)量及安全機(jī)制

五、選型需要考慮

簡單性:親自試用大數(shù)據(jù)套件。這也就意味著:安裝它,將它連接到你的Hadoop安

裝,集成你的不同接口(文件、數(shù)據(jù)庫、B2B等等),并最終建模、部署、執(zhí)行一些大數(shù)

據(jù)作業(yè)。自己來了解使用大數(shù)據(jù)套件的容易程度一僅讓某個提供商的顧問來為你展示它是

如何工作是遠(yuǎn)遠(yuǎn)不夠的。親自做一個概念驗(yàn)證。

廣泛性:是否該大數(shù)據(jù)套件支持廣泛使用的開源標(biāo)準(zhǔn)一不只是Hadoop和它的生態(tài)系

統(tǒng),還有通過SOAP和RESTweb服務(wù)的數(shù)據(jù)集成等等。它是否開源,并能根據(jù)你的特定

問題易于改變或者擴(kuò)展?是否存在一個含有文檔、論壇、博客和交流會的大社區(qū)?

特性是否支持所有需要口勺特性?Hadoop的發(fā)行版本(如果你已經(jīng)使用了某一個)?

你想要使用的Hadoop生態(tài)系統(tǒng)的所有部份?你想要集成的所有接口、技術(shù)、產(chǎn)品?請注

意過多的特性可能會大大增加復(fù)雜性和費(fèi)用。所以請查證你是否真正需要一個非常分量級

的解決方案。是否你真的需要它的所有特性?

陷阱:請注意某些陷阱。某些大數(shù)據(jù)套件采用數(shù)據(jù)驅(qū)動的付費(fèi)方式(“數(shù)據(jù)稅”),也

就曷說,你得為自己處理的每一個數(shù)據(jù)行付涉。因?yàn)槲覀兺T谡務(wù)摯髷?shù)據(jù),所以議會變得

非常昂貴。并非所有的大數(shù)據(jù)套件都會生成本地ApacheHadoop代碼,通常要在每一個

Hadoop集群的服務(wù)器上安裝一個私有引擎,而這樣就會解除對于軟件提供商的獨(dú)立性。還

要考慮你使用大數(shù)據(jù)套件真工想做的事情。某些解決方案僅支持將Hadoop用于ETL來

填充數(shù)據(jù)至數(shù)據(jù)倉庫,而其他一些解決方案還提供了諸如后處理、轉(zhuǎn)換或者Hadoop集群

上的大數(shù)據(jù)分析。ETL僅是ApacheHadoop和其生態(tài)系統(tǒng)的一種使用情形。

六、方案分析

自建套件hortonworks國內(nèi)類exadoopTDW+fineBI

成木

100%開源培訓(xùn)服務(wù)3k/人

授權(quán)支持100K

性能單集群最大規(guī)

模達(dá)到臺,處

理數(shù)據(jù)量可達(dá)

百級

功能按需整合HDFS和YARN數(shù)據(jù)管理從

各種引擎訪問數(shù)據(jù)根據(jù)策

稍加戴利管理數(shù)據(jù)身份驗(yàn)

證、授權(quán)和數(shù)據(jù)保護(hù)大規(guī)

模配置、管理、監(jiān)控和運(yùn)

營Hadoop群集與您的數(shù)

據(jù)分析工具集成跨平臺配

置部署

易操安裝復(fù)雜,操作需圖形設(shè)計界面,參數(shù)配置,

作性要專業(yè)培訓(xùn)。易上手。

應(yīng)用國外大客戶較多

成熟

文檔較多,社區(qū)一官方社區(qū)比較活躍(英文)文檔較少,無

文檔/般,相關(guān)專業(yè)培訓(xùn)中文社區(qū)有1個文檔較少,商用服務(wù),無

社區(qū)較多。多為英文文檔任何技術(shù)支持

支持

擴(kuò)展開源開放開源開放開源開放

移植支持多操作系統(tǒng)支持多操作系統(tǒng)支持多操作系支持多操作系

性統(tǒng)統(tǒng)

監(jiān)控監(jiān)控功能強(qiáng)大Armbri元無

優(yōu)勢1、萬源強(qiáng)大支持的開源套1、國產(chǎn)套件

1、尾隨產(chǎn)品階段逐1、開源中文支

步完善整合自定義件2、交流支持方持

、配套商業(yè)服務(wù)支持便

套件22、基于人數(shù)據(jù)

2、自選流行組件,3、商業(yè)服務(wù)較處理核心,靈

資料豐富靈便活組合其它組

件來適應(yīng)不同

產(chǎn)品階段及項(xiàng)

商業(yè)成本較圖依賴于打包服半定制套件,

劣勢整合周期不可控務(wù)公司的支持福苧nsin

七、相關(guān)資料

https:〃prestodb.io/http://www.thinksaas.cn/group/topic/233669/HDP

(hortonworks)

ACompleteEnterpriseHadoopDataPlatform

MB蚯《

WZSOLJovVSc…NoSOL遭存零內(nèi)存

RgHiveCascadingHBas?SkxmSotSpa依Engms

HCauiogAccumuloAutFwnllcdtion,

PhO4H|YAuthorization,AuditQ

Falcon1A

K3|KUJK3jBZ21miR£K3LMaProtectionArnbari

wwwwZooKeeper

WcbHD

YARN,數(shù)掂操作系統(tǒng)存像HOFS

FS吳源:YARN

計劃

NFS11訪同:rtve

Hums置點(diǎn):FalconOoz

SquD哥里:Knox

HDFSie

Kafkadust*Ranger

Hadoop分布式文件系笠

火相“

________________________TES明混Lml.g

TDW-基于Hadoop/Hive的深度定制

-TDW-TencentdistributedDataWarehouse

?騰訊分布式數(shù)據(jù)倉庫,支持百PB級的數(shù)據(jù)存微口計真.為公司產(chǎn)品提供海量、高效、穩(wěn)定的大數(shù)據(jù)平

臺支撐ffl決策支持.

開源工具匯總整理

類別名稱備注

Salesforce公司出品,ApacheHBase之上的一個SQL中間層,徹底使

Jhoenix

用Java編寫

原叫Tez,下代Hive,Hortonworks主導(dǎo)開辟,運(yùn)行在YA下上的DAG計

Stinger

算框架

>restoFacebook開源

查詢引擎

SharkSpark上的SQL執(zhí)行引擎

>ig基于HadoopMapReduce的腳本語言

參照GoogleDrcmcl實(shí)現(xiàn),能運(yùn)行在HDFS或者HBasc上,使用C++開

ClouderaTmpala

ApacheDrill參照GoogleDrcmel實(shí)現(xiàn)

ApacheTajo一個運(yùn)行在YARN上支持SQL的分布式數(shù)據(jù)倉庫

Hive基于HadoopMapKeducc的S(L盒詢引擎

:acebookPuma實(shí)時數(shù)據(jù)流分析

「witterKainbird分布式實(shí)時統(tǒng)計系統(tǒng),如網(wǎng)站的點(diǎn)擊統(tǒng)計

流式計算Java開辟的一個通用的、分布式的、可擴(kuò)展的、分區(qū)容錯的、可插拔

YahooS4

的無主架構(gòu)的流式系統(tǒng)

「witterStorm使用Java和Clojure實(shí)現(xiàn)

建立在Hadoop上基于BSP(BulkSynchronousParallel)的計算框

ApacheHama

架,摹仿了Google的Pregel?

建立在Hadoop上的可伸縮的分布式迭代圖處理系統(tǒng),靈感來自RSP

(MilU

迭代計算ApacheGiraphsynchronousparallei)和Coogle的Pregel

HaLoop迭代的MapReduce

Pwistcr迭代的MapReduce

ladoopMapReduce經(jīng)典的大數(shù)據(jù)批處理系統(tǒng)

使用Scala語言實(shí)現(xiàn),和MapReduce有較大的競爭關(guān)系,性能膽于

BerkeleySpark

離線計算MapReduce

基于Hadoop2.X構(gòu)建的實(shí)時流式處理和分析平臺,每秒可以處理超過

)ataTorrent

10億個實(shí)時事件

.evelDBGoogle開源的高效KV編程庫,注意它只是個庫

Facebook開源的,基于Google的LevelDB,但提圖了擴(kuò)展性可以運(yùn)行

RocksDB

在多核處理器上

下一代KV存儲系統(tǒng),支持strings、integers、floats、lists、

lyperDex

maps和sets等豐富的數(shù)據(jù)類型

日本人MikioHirabayashi:平林千雄)開辟的一款DBM數(shù)據(jù)庫,注

PokyoCabinet意、它只是個庫(大名鼎鼎的)BM數(shù)據(jù)庫qdbm就是MikioHirabayashi

開發(fā)的),讀寫非???/p>

一個分布式鍵值存儲系統(tǒng),是AmazonDynamo的一個開源克隆,

Voldcmort

鍵值存儲LinkedIn開源

AmazonDynamo亞馬遜的KV模式的存儲平臺,無主架構(gòu)

淘寶出品的圖性能、分布式、可擴(kuò)展、局可靠的KV,結(jié)構(gòu)存儲系統(tǒng),專

Tair為小文件優(yōu)化,并提供簡單易用的接口(類似Map),Tair支持Java

和C版本的客戶端

?個可靠的、可伸縮的、局性能的排序分布式的KV?存儲系統(tǒng),參照

ApacheAccumulcGoogle

使用ANSIC語言編與、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、

《cdis單機(jī)版KV數(shù)據(jù)庫。從2022年3月15FI起,Rcdis的開辟工作由

VMware主持

支持海量數(shù)據(jù)的圖性能分布式數(shù)據(jù)庫系統(tǒng),實(shí)現(xiàn)了數(shù)千億條記錄、數(shù)百

OccanBase

TB數(shù)據(jù)上的跨行踏表事務(wù)

\mazonSimpleDE一個可大規(guī)模伸縮、用Erlang編寫的圖可用數(shù)據(jù)存儲

惠普2022收購Verlica,Vcrlica是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,基于列存儲,

Vertica同時支持MPP,使用標(biāo)準(zhǔn)的S乳查詢,可以和Hadoop/MapRcducc進(jìn)行

隹成

Hadoop成員,F(xiàn)acebook于2022將Cassandra開源,基于0(DDHT

Cassandra

的完全P2P架構(gòu)

lyperTable搜索引擎公司Zvents針對Bistable的C++開源實(shí)現(xiàn)

支持ACID事務(wù)處理的NoSQL數(shù)據(jù)庫,提供非常好的性能、數(shù)據(jù)一致性

:oundationDB

和操作彈性

Bigtable在Hadoop中的實(shí)現(xiàn),最初是Powerset公司為了處理自然語

{Base

營搜索產(chǎn)生的海量數(shù)據(jù)而開展的項(xiàng)目

CouchDB面向文檔的數(shù)據(jù)存儲

MongoDB文檔數(shù)據(jù)庫

加州大學(xué)伯克利分校的AMPLa)基于Hadoop的核心組件開辟出一個更快

文件存儲Tachyon

的版本Tachyon,它從底層重構(gòu)(Hadoop平臺。

KFSGFS的C++開源版本

IDFSGFS在Hadoop中的實(shí)現(xiàn)

TwitterMesosGoogleBorg的翻版

資源管理

ladoopYarn類似于Mesos

Facebook開源的日志采集系統(tǒng),能夠從各種日志源上采集日志,存儲

到一個中央存儲系統(tǒng)(可以是\FS,分布式文件系統(tǒng)等)上,以便于進(jìn)

FacebookScribe

行集中統(tǒng)計分析處理,常與」adoop結(jié)合使用,Scribe用于向HDFS中

Push日志

日志采集系

ClouderaFlumeCloudera提供的日志采集系統(tǒng),支持對日志的實(shí)時性采集

統(tǒng)

日志管理、分析和傳輸工具,可配合kibana、舊asticSearch組建成日

logstash

志查詢系統(tǒng)

kibana為日志提供友好的Web查詢頁面

StormMQ

ZcroMQ很底層的高性能網(wǎng)絡(luò)庫

出bbitMQ在AMQP基礎(chǔ)上完整的,可復(fù)用的企業(yè)消息系統(tǒng)

能力強(qiáng)勁的開源消息總線

消息系統(tǒng)ApacheActiveMQ

開源的、高性能的、跨語言分布式消息系統(tǒng),最早是由Apache孵化的

Jafka

Kafka(由Linkcdln捐助給Apache)克隆而來

Linkedin于2022年12月份開源的分布式消息系統(tǒng),它主要用于處理

ApacheKafka

活躍的流式數(shù)據(jù),由Scala與成

分布式服務(wù)ZooKeeper分布式鎖服務(wù),PoxOS算法的實(shí)現(xiàn),對應(yīng)Google的Chubby

ApacheAvroHadoop中的RPC

RPC

:acebookThriftRPC,支持C++/Java/PHP等眾多語言

Nagios監(jiān)視系統(tǒng)運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息的監(jiān)視系統(tǒng)

集群管理UCBerkeley發(fā)起的個開源集群監(jiān)視項(xiàng)目,設(shè)計用于測量數(shù)以千計的

Ganglia

節(jié)點(diǎn)。

ApacheAmbariHadoop成員,管理和監(jiān)視ApwcheHadoop集群的開源框架

,evelDBGoogle頂級大牛開辟的單機(jī)版鍵值數(shù)據(jù)庫,具有非常高的與性能源于

SSTableGoogle,ortedSiringTable

Accord10源于Google

針對游戲開辟的,局效的跨平臺序列化庫,相比ProtoBuffers開消更

'latBuffers

小,因?yàn)镕latBuffers沒有解析過程

Google公司開辟的一種數(shù)據(jù)描述語言,類似于XML能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)

ProtocolBuffers序列化,可用于數(shù)據(jù)存儲、通信協(xié)議等方面。它不依賴于語言和平臺

并且可擴(kuò)展性極強(qiáng)。

基礎(chǔ)設(shè)施1997年由麻省理工學(xué)院提出,目標(biāo)是為了解決因特網(wǎng)中的熱點(diǎn)(Hot

ConsistentHashingspol)問題,初衷和CARP十分類似,基本解決了在P2P環(huán)境中最為關(guān)

鍵的問題一一如何在動態(tài)的網(wǎng)絡(luò)拓?fù)渲蟹植即鎯吐酚伞?/p>

JBOSS提供的個java開源框架,提供異步的、事件驅(qū)動的網(wǎng)絡(luò)應(yīng)用程

\etty序框架,用以快速開辟圖性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和客戶端程序。

布隆過濾器,197。年由布隆提出,是一個很長的一進(jìn)制矢量和一系列

隨機(jī)映射函數(shù),可以用于檢索個元素是否在個集合中,優(yōu)點(diǎn)是空間效

HoomEilter率和查詢時間都遠(yuǎn)遠(yuǎn)超過普逋的算法,缺點(diǎn)是有一定的誤識別率和刪除

艱難。

Nutch開源Java實(shí)現(xiàn)的搜索引擎,誕生Hadoop的地方。

一套信息檢索工具包,但并不包含搜索引擎系統(tǒng),它包含了索引結(jié)構(gòu)、

Lucene

讀與索引工具、相關(guān)性工具、排序等功能。

基于Solr和Zookeeper的分布式搜索,Solr4.0的核心組件之一,主

SolrCloud

要思想是使用Zookccpcr作為集群的配置信息中心

SolrSolr是基于Lucene的搜索。

搜索引擎開源的(Apache2協(xié)議),分布式的,RESTful的,構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論