版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)平臺框架選型分析
一、需求
城市大數(shù)據(jù)平臺,苜先是作為一個數(shù)據(jù)管理平臺,核心需求是數(shù)據(jù)的存和取,然
后因?yàn)楹A繑?shù)據(jù)、多數(shù)據(jù)類型的信息需要有豐富的數(shù)據(jù)接入能力和數(shù)據(jù)標(biāo)準(zhǔn)化處理
能力,有了技術(shù)能力就需要縱深挖掘附加價值更好的服務(wù),如信息統(tǒng)計、分析挖掘、
全文檢索等,考慮到面向的客戶對象有的是上層的應(yīng)用集成商,所以要考慮靈便的數(shù)
據(jù)接II服務(wù)來支撐。
二、平臺產(chǎn)品業(yè)務(wù)流程
城市大數(shù)據(jù)平臺
數(shù)據(jù)集成數(shù)據(jù)倉庫平臺管理決策支持
■
數(shù)據(jù)清洗
一一元數(shù)據(jù)
加工
Start數(shù)據(jù)接入
標(biāo)隹化入庫」
統(tǒng)n■分析、
分次數(shù)據(jù)倉底挖
爬蟲
S<M?k<U文
件導(dǎo)入
朋務(wù)監(jiān)莒
權(quán)限級數(shù)據(jù)接
□F
上層應(yīng)用集成
三、選型思路
必要技術(shù)組件服務(wù):
ETL>非/關(guān)系數(shù)據(jù)倉儲>大數(shù)據(jù)處理引擎〉服務(wù)協(xié)調(diào)>分析BI>平臺監(jiān)管
XesArea:城6X威若迭震駕檢患急
四、選型要求
1.需要滿足我們平臺的幾大核心功能需求,子功能不設(shè)局限性。如不滿足全部,
需要對未滿足的其它核心功能的開放使用服務(wù)支持
2.國內(nèi)外資料及社區(qū)盡量豐富,包括組件服務(wù)的成熟度流行度較高
3.需要對選型平臺自身所包含的核心功能有較為深入的理解,易用其API或者基于
源碼開辟
4.商業(yè)服務(wù)性價比高,并有空間脫離第三方商業(yè)技術(shù)服務(wù)
5.一些非功能性需求的條件標(biāo)準(zhǔn)清晰,如承載的集群式點(diǎn)、處理數(shù)據(jù)量及安全機(jī)制
等
五、選型需要考慮
簡單性:親自試用大數(shù)據(jù)套件。這也就意味著:安裝它,將它連接到你的Hadoop安
裝,集成你的不同接口(文件、數(shù)據(jù)庫、B2B等等),并最終建模、部署、執(zhí)行一些大數(shù)
據(jù)作業(yè)。自己來了解使用大數(shù)據(jù)套件的容易程度一僅讓某個提供商的顧問來為你展示它是
如何工作是遠(yuǎn)遠(yuǎn)不夠的。親自做一個概念驗(yàn)證。
廣泛性:是否該大數(shù)據(jù)套件支持廣泛使用的開源標(biāo)準(zhǔn)一不只是Hadoop和它的生態(tài)系
統(tǒng),還有通過SOAP和RESTweb服務(wù)的數(shù)據(jù)集成等等。它是否開源,并能根據(jù)你的特定
問題易于改變或者擴(kuò)展?是否存在一個含有文檔、論壇、博客和交流會的大社區(qū)?
特性是否支持所有需要口勺特性?Hadoop的發(fā)行版本(如果你已經(jīng)使用了某一個)?
你想要使用的Hadoop生態(tài)系統(tǒng)的所有部份?你想要集成的所有接口、技術(shù)、產(chǎn)品?請注
意過多的特性可能會大大增加復(fù)雜性和費(fèi)用。所以請查證你是否真正需要一個非常分量級
的解決方案。是否你真的需要它的所有特性?
陷阱:請注意某些陷阱。某些大數(shù)據(jù)套件采用數(shù)據(jù)驅(qū)動的付費(fèi)方式(“數(shù)據(jù)稅”),也
就曷說,你得為自己處理的每一個數(shù)據(jù)行付涉。因?yàn)槲覀兺T谡務(wù)摯髷?shù)據(jù),所以議會變得
非常昂貴。并非所有的大數(shù)據(jù)套件都會生成本地ApacheHadoop代碼,通常要在每一個
Hadoop集群的服務(wù)器上安裝一個私有引擎,而這樣就會解除對于軟件提供商的獨(dú)立性。還
要考慮你使用大數(shù)據(jù)套件真工想做的事情。某些解決方案僅支持將Hadoop用于ETL來
填充數(shù)據(jù)至數(shù)據(jù)倉庫,而其他一些解決方案還提供了諸如后處理、轉(zhuǎn)換或者Hadoop集群
上的大數(shù)據(jù)分析。ETL僅是ApacheHadoop和其生態(tài)系統(tǒng)的一種使用情形。
六、方案分析
自建套件hortonworks國內(nèi)類exadoopTDW+fineBI
成木
100%開源培訓(xùn)服務(wù)3k/人
授權(quán)支持100K
性能單集群最大規(guī)
模達(dá)到臺,處
理數(shù)據(jù)量可達(dá)
百級
功能按需整合HDFS和YARN數(shù)據(jù)管理從
各種引擎訪問數(shù)據(jù)根據(jù)策
稍加戴利管理數(shù)據(jù)身份驗(yàn)
證、授權(quán)和數(shù)據(jù)保護(hù)大規(guī)
模配置、管理、監(jiān)控和運(yùn)
營Hadoop群集與您的數(shù)
據(jù)分析工具集成跨平臺配
置部署
易操安裝復(fù)雜,操作需圖形設(shè)計界面,參數(shù)配置,
作性要專業(yè)培訓(xùn)。易上手。
應(yīng)用國外大客戶較多
成熟
度
文檔較多,社區(qū)一官方社區(qū)比較活躍(英文)文檔較少,無
文檔/般,相關(guān)專業(yè)培訓(xùn)中文社區(qū)有1個文檔較少,商用服務(wù),無
社區(qū)較多。多為英文文檔任何技術(shù)支持
支持
擴(kuò)展開源開放開源開放開源開放
性
移植支持多操作系統(tǒng)支持多操作系統(tǒng)支持多操作系支持多操作系
性統(tǒng)統(tǒng)
監(jiān)控監(jiān)控功能強(qiáng)大Armbri元無
優(yōu)勢1、萬源強(qiáng)大支持的開源套1、國產(chǎn)套件
1、尾隨產(chǎn)品階段逐1、開源中文支
步完善整合自定義件2、交流支持方持
、配套商業(yè)服務(wù)支持便
套件22、基于人數(shù)據(jù)
2、自選流行組件,3、商業(yè)服務(wù)較處理核心,靈
資料豐富靈便活組合其它組
件來適應(yīng)不同
產(chǎn)品階段及項(xiàng)
商業(yè)成本較圖依賴于打包服半定制套件,
劣勢整合周期不可控務(wù)公司的支持福苧nsin
七、相關(guān)資料
https:〃prestodb.io/http://www.thinksaas.cn/group/topic/233669/HDP
(hortonworks)
ACompleteEnterpriseHadoopDataPlatform
MB蚯《
WZSOLJovVSc…NoSOL遭存零內(nèi)存
RgHiveCascadingHBas?SkxmSotSpa依Engms
HCauiogAccumuloAutFwnllcdtion,
PhO4H|YAuthorization,AuditQ
Falcon1A
K3|KUJK3jBZ21miR£K3LMaProtectionArnbari
wwwwZooKeeper
WcbHD
YARN,數(shù)掂操作系統(tǒng)存像HOFS
FS吳源:YARN
計劃
NFS11訪同:rtve
Hums置點(diǎn):FalconOoz
SquD哥里:Knox
HDFSie
Kafkadust*Ranger
Hadoop分布式文件系笠
火相“
________________________TES明混Lml.g
TDW-基于Hadoop/Hive的深度定制
-TDW-TencentdistributedDataWarehouse
?騰訊分布式數(shù)據(jù)倉庫,支持百PB級的數(shù)據(jù)存微口計真.為公司產(chǎn)品提供海量、高效、穩(wěn)定的大數(shù)據(jù)平
臺支撐ffl決策支持.
開源工具匯總整理
類別名稱備注
Salesforce公司出品,ApacheHBase之上的一個SQL中間層,徹底使
Jhoenix
用Java編寫
原叫Tez,下代Hive,Hortonworks主導(dǎo)開辟,運(yùn)行在YA下上的DAG計
Stinger
算框架
>restoFacebook開源
查詢引擎
SharkSpark上的SQL執(zhí)行引擎
>ig基于HadoopMapReduce的腳本語言
參照GoogleDrcmcl實(shí)現(xiàn),能運(yùn)行在HDFS或者HBasc上,使用C++開
ClouderaTmpala
辟
ApacheDrill參照GoogleDrcmel實(shí)現(xiàn)
ApacheTajo一個運(yùn)行在YARN上支持SQL的分布式數(shù)據(jù)倉庫
Hive基于HadoopMapKeducc的S(L盒詢引擎
:acebookPuma實(shí)時數(shù)據(jù)流分析
「witterKainbird分布式實(shí)時統(tǒng)計系統(tǒng),如網(wǎng)站的點(diǎn)擊統(tǒng)計
流式計算Java開辟的一個通用的、分布式的、可擴(kuò)展的、分區(qū)容錯的、可插拔
YahooS4
的無主架構(gòu)的流式系統(tǒng)
「witterStorm使用Java和Clojure實(shí)現(xiàn)
建立在Hadoop上基于BSP(BulkSynchronousParallel)的計算框
ApacheHama
架,摹仿了Google的Pregel?
建立在Hadoop上的可伸縮的分布式迭代圖處理系統(tǒng),靈感來自RSP
(MilU
迭代計算ApacheGiraphsynchronousparallei)和Coogle的Pregel
HaLoop迭代的MapReduce
Pwistcr迭代的MapReduce
ladoopMapReduce經(jīng)典的大數(shù)據(jù)批處理系統(tǒng)
使用Scala語言實(shí)現(xiàn),和MapReduce有較大的競爭關(guān)系,性能膽于
BerkeleySpark
離線計算MapReduce
基于Hadoop2.X構(gòu)建的實(shí)時流式處理和分析平臺,每秒可以處理超過
)ataTorrent
10億個實(shí)時事件
.evelDBGoogle開源的高效KV編程庫,注意它只是個庫
Facebook開源的,基于Google的LevelDB,但提圖了擴(kuò)展性可以運(yùn)行
RocksDB
在多核處理器上
下一代KV存儲系統(tǒng),支持strings、integers、floats、lists、
lyperDex
maps和sets等豐富的數(shù)據(jù)類型
日本人MikioHirabayashi:平林千雄)開辟的一款DBM數(shù)據(jù)庫,注
PokyoCabinet意、它只是個庫(大名鼎鼎的)BM數(shù)據(jù)庫qdbm就是MikioHirabayashi
開發(fā)的),讀寫非???/p>
一個分布式鍵值存儲系統(tǒng),是AmazonDynamo的一個開源克隆,
Voldcmort
鍵值存儲LinkedIn開源
AmazonDynamo亞馬遜的KV模式的存儲平臺,無主架構(gòu)
淘寶出品的圖性能、分布式、可擴(kuò)展、局可靠的KV,結(jié)構(gòu)存儲系統(tǒng),專
Tair為小文件優(yōu)化,并提供簡單易用的接口(類似Map),Tair支持Java
和C版本的客戶端
?個可靠的、可伸縮的、局性能的排序分布式的KV?存儲系統(tǒng),參照
ApacheAccumulcGoogle
使用ANSIC語言編與、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、
《cdis單機(jī)版KV數(shù)據(jù)庫。從2022年3月15FI起,Rcdis的開辟工作由
VMware主持
支持海量數(shù)據(jù)的圖性能分布式數(shù)據(jù)庫系統(tǒng),實(shí)現(xiàn)了數(shù)千億條記錄、數(shù)百
OccanBase
TB數(shù)據(jù)上的跨行踏表事務(wù)
\mazonSimpleDE一個可大規(guī)模伸縮、用Erlang編寫的圖可用數(shù)據(jù)存儲
惠普2022收購Verlica,Vcrlica是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,基于列存儲,
Vertica同時支持MPP,使用標(biāo)準(zhǔn)的S乳查詢,可以和Hadoop/MapRcducc進(jìn)行
隹成
Hadoop成員,F(xiàn)acebook于2022將Cassandra開源,基于0(DDHT
Cassandra
的完全P2P架構(gòu)
lyperTable搜索引擎公司Zvents針對Bistable的C++開源實(shí)現(xiàn)
支持ACID事務(wù)處理的NoSQL數(shù)據(jù)庫,提供非常好的性能、數(shù)據(jù)一致性
:oundationDB
和操作彈性
Bigtable在Hadoop中的實(shí)現(xiàn),最初是Powerset公司為了處理自然語
{Base
營搜索產(chǎn)生的海量數(shù)據(jù)而開展的項(xiàng)目
CouchDB面向文檔的數(shù)據(jù)存儲
MongoDB文檔數(shù)據(jù)庫
加州大學(xué)伯克利分校的AMPLa)基于Hadoop的核心組件開辟出一個更快
文件存儲Tachyon
的版本Tachyon,它從底層重構(gòu)(Hadoop平臺。
KFSGFS的C++開源版本
IDFSGFS在Hadoop中的實(shí)現(xiàn)
TwitterMesosGoogleBorg的翻版
資源管理
ladoopYarn類似于Mesos
Facebook開源的日志采集系統(tǒng),能夠從各種日志源上采集日志,存儲
到一個中央存儲系統(tǒng)(可以是\FS,分布式文件系統(tǒng)等)上,以便于進(jìn)
FacebookScribe
行集中統(tǒng)計分析處理,常與」adoop結(jié)合使用,Scribe用于向HDFS中
Push日志
日志采集系
ClouderaFlumeCloudera提供的日志采集系統(tǒng),支持對日志的實(shí)時性采集
統(tǒng)
日志管理、分析和傳輸工具,可配合kibana、舊asticSearch組建成日
logstash
志查詢系統(tǒng)
kibana為日志提供友好的Web查詢頁面
StormMQ
ZcroMQ很底層的高性能網(wǎng)絡(luò)庫
出bbitMQ在AMQP基礎(chǔ)上完整的,可復(fù)用的企業(yè)消息系統(tǒng)
能力強(qiáng)勁的開源消息總線
消息系統(tǒng)ApacheActiveMQ
開源的、高性能的、跨語言分布式消息系統(tǒng),最早是由Apache孵化的
Jafka
Kafka(由Linkcdln捐助給Apache)克隆而來
Linkedin于2022年12月份開源的分布式消息系統(tǒng),它主要用于處理
ApacheKafka
活躍的流式數(shù)據(jù),由Scala與成
分布式服務(wù)ZooKeeper分布式鎖服務(wù),PoxOS算法的實(shí)現(xiàn),對應(yīng)Google的Chubby
ApacheAvroHadoop中的RPC
RPC
:acebookThriftRPC,支持C++/Java/PHP等眾多語言
Nagios監(jiān)視系統(tǒng)運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息的監(jiān)視系統(tǒng)
集群管理UCBerkeley發(fā)起的個開源集群監(jiān)視項(xiàng)目,設(shè)計用于測量數(shù)以千計的
Ganglia
節(jié)點(diǎn)。
ApacheAmbariHadoop成員,管理和監(jiān)視ApwcheHadoop集群的開源框架
,evelDBGoogle頂級大牛開辟的單機(jī)版鍵值數(shù)據(jù)庫,具有非常高的與性能源于
SSTableGoogle,ortedSiringTable
Accord10源于Google
針對游戲開辟的,局效的跨平臺序列化庫,相比ProtoBuffers開消更
'latBuffers
小,因?yàn)镕latBuffers沒有解析過程
Google公司開辟的一種數(shù)據(jù)描述語言,類似于XML能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)
ProtocolBuffers序列化,可用于數(shù)據(jù)存儲、通信協(xié)議等方面。它不依賴于語言和平臺
并且可擴(kuò)展性極強(qiáng)。
基礎(chǔ)設(shè)施1997年由麻省理工學(xué)院提出,目標(biāo)是為了解決因特網(wǎng)中的熱點(diǎn)(Hot
ConsistentHashingspol)問題,初衷和CARP十分類似,基本解決了在P2P環(huán)境中最為關(guān)
鍵的問題一一如何在動態(tài)的網(wǎng)絡(luò)拓?fù)渲蟹植即鎯吐酚伞?/p>
JBOSS提供的個java開源框架,提供異步的、事件驅(qū)動的網(wǎng)絡(luò)應(yīng)用程
\etty序框架,用以快速開辟圖性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和客戶端程序。
布隆過濾器,197。年由布隆提出,是一個很長的一進(jìn)制矢量和一系列
隨機(jī)映射函數(shù),可以用于檢索個元素是否在個集合中,優(yōu)點(diǎn)是空間效
HoomEilter率和查詢時間都遠(yuǎn)遠(yuǎn)超過普逋的算法,缺點(diǎn)是有一定的誤識別率和刪除
艱難。
Nutch開源Java實(shí)現(xiàn)的搜索引擎,誕生Hadoop的地方。
一套信息檢索工具包,但并不包含搜索引擎系統(tǒng),它包含了索引結(jié)構(gòu)、
Lucene
讀與索引工具、相關(guān)性工具、排序等功能。
基于Solr和Zookeeper的分布式搜索,Solr4.0的核心組件之一,主
SolrCloud
要思想是使用Zookccpcr作為集群的配置信息中心
SolrSolr是基于Lucene的搜索。
搜索引擎開源的(Apache2協(xié)議),分布式的,RESTful的,構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年銅陵普濟(jì)圩現(xiàn)代農(nóng)業(yè)集團(tuán)有限公司公開招聘工作人員參考筆試題庫附答案解析
- 中國金融出版社有限公司2026校園招聘4人參考考試題庫及答案解析
- 2026年杭州市臨安區(qū)衛(wèi)健系統(tǒng)招聘高層次、緊缺專業(yè)技術(shù)人才7人參考考試試題及答案解析
- 2025年福建莆田市國睿產(chǎn)業(yè)園區(qū)運(yùn)營管理有限公司企業(yè)員工招聘8人備考考試試題及答案解析
- 2025年嘉興市經(jīng)英人才發(fā)展服務(wù)有限公司城南分公司招錄法律專業(yè)人才及法律輔助人員16人參考考試題庫及答案解析
- 2026陜西渭南澄城縣征集見習(xí)崗位和招募就業(yè)見習(xí)人員備考考試試題及答案解析
- 深度解析(2026)《GBT 25909.2-2010信息技術(shù) 維吾爾文、哈薩克文、柯爾克孜文編碼字符集 24點(diǎn)陣字型 第2部分正文黑體》
- 2025年德州臨邑縣人民醫(yī)院公開招聘備案制工作人員(15名)備考考試試題及答案解析
- 深度解析(2026)《GBT 25701-2010復(fù)擺顎式破碎機(jī) 金屬單耗》(2026年)深度解析
- 深度解析(2026)《GBT 25616-2010土方機(jī)械 輔助起動裝置的電連接件》(2026年)深度解析
- GB/T 45481-2025硅橡膠混煉膠醫(yī)療導(dǎo)管用
- GB/T 32468-2025銅鋁復(fù)合板帶箔
- 山西交控集團(tuán)招聘筆試內(nèi)容
- 大窯校本教材合唱的魅力
- 2025字節(jié)跳動智能廣告發(fā)布服務(wù)合同(模板)
- 《建筑測繪》課件
- 《健康體檢報告解讀》課件
- 前臺電話禮儀培訓(xùn)
- T-CET 402-2024 金屬結(jié)構(gòu)曲面屋頂晶硅組件建筑光伏一體化技術(shù)規(guī)范
- 智慧健康養(yǎng)老管理基礎(chǔ)知識單選題100道及答案解析
- 車床設(shè)備大修計劃方案
評論
0/150
提交評論