大數(shù)據(jù) 高鵬 數(shù)據(jù)分析領(lǐng)域的黑馬-ClickHouse-新浪-高鵬-2017年11月24日-PDF.compressed_第1頁
大數(shù)據(jù) 高鵬 數(shù)據(jù)分析領(lǐng)域的黑馬-ClickHouse-新浪-高鵬-2017年11月24日-PDF.compressed_第2頁
大數(shù)據(jù) 高鵬 數(shù)據(jù)分析領(lǐng)域的黑馬-ClickHouse-新浪-高鵬-2017年11月24日-PDF.compressed_第3頁
大數(shù)據(jù) 高鵬 數(shù)據(jù)分析領(lǐng)域的黑馬-ClickHouse-新浪-高鵬-2017年11月24日-PDF.compressed_第4頁
大數(shù)據(jù) 高鵬 數(shù)據(jù)分析領(lǐng)域的黑馬-ClickHouse-新浪-高鵬-2017年11月24日-PDF.compressed_第5頁
已閱讀5頁,還剩156頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

據(jù)分析領(lǐng)域的黑馬--ClickHouse新浪-高鵬-2017年11月“世上?難事,只要有捷徑”“?具選的好,下班回家早”?數(shù)據(jù)分析?臨的問題?ClickHouse原理、架構(gòu)?ClickHouse在新浪的實(shí)踐與經(jīng)驗(yàn)?ClickHouse案例、?態(tài)致?于運(yùn)維?數(shù)據(jù)掘與分析可視化、報(bào)警、數(shù)據(jù)分析AI-OPS“表哥”“表姐”們HadoopSparkHive?太重了~求作為第?位~求作為第?位~求作為第?位~快速給出聚合/過濾結(jié)果WeNeed沒有什么數(shù)據(jù)統(tǒng)計(jì)是一個(gè)SQL解決不了的。如果有,那就2個(gè)updatedinrealtime超?性能線性擴(kuò)展不支持update/deleteBut,查詢‘巨’快Let'sBegin2.Docker鏡像1.修改?絡(luò),默認(rèn)監(jiān)控IPv4/v62.?定義數(shù)據(jù)?錄,修改官?啟動腳本3.Docker修改時(shí)區(qū)我們來壓測?下~ahttps://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html173MB4.731Sec9.3173MB4.731Sec9.3W/Sec5倍436951https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.htmla?插插?耗時(shí)平均速度壓壓縮率響應(yīng)時(shí)間WQPShttps://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html?條件查詢,聚合,排序https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html?復(fù)雜查詢https://clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html1.啟動Server2.usedb,createtable3.盡情select稀疏索引粒度稀疏索引粒度2.全部CPU打滿,查詢效率極?題:1.性能依賴單機(jī)(scaleup路線)2.存在單點(diǎn)故障?險(xiǎn)(宕機(jī)數(shù)據(jù)全丟).主鍵查詢.主鍵查詢:最左原則.其他列查詢:稀疏索引定位區(qū)間:不適合點(diǎn)對點(diǎn)查詢,適合范圍查詢查詢問題:會帶來過多的IO直接落磁盤,按照主鍵排序,分塊寫?不?持刪除、修改primary.idx+*.bin+*.mrk+checksums.txt+columns.txt寫假的‘scaleout’實(shí)現(xiàn)apm_msgapm_msg_allapm_msg庫分布算法集群庫分布算法集群名稱Distributed引擎:分布式如何做到的通過域名,寫本地表apm_msg_allapm_msg_allapm_msg通過域名,寫本地表apm_msg_allapm_msg_allapm_msg_all寫apm_msgapm_msgapm_msgClickHapm_msg_allapm_msg寫操作讀操作??還可以聚合,如top/groupby邏輯就不同ClickHouse-讀操作??還可以聚合,如top/groupby邏輯就不同ClickHapm_msg_allapm_msgapm_msg_allapm_msgapm_msg_allapm_msg通過域名,讀分布式表select*fromapm_msg_allxxxyyyapm_msg_allapm_msg讀拿到所有節(jié)點(diǎn)數(shù)據(jù) (各?計(jì)算?次)本地匯總后讀讀取真實(shí)數(shù)據(jù)apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm拿到所有節(jié)點(diǎn)數(shù)據(jù) (各?計(jì)算?次)本地匯總后讀讀取真實(shí)數(shù)據(jù)apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_msgapm_msgClickHapm_msg返回給客戶端讀apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_返回給客戶端讀apm_msg_allapm_msg_allapm_msg_allapm_msg_allapm_msgapm_msgapm_msgClickHapm_msg讀操作讀取真實(shí)數(shù)據(jù)聚合返回?件,達(dá)到集群相互知曉?查詢/寫?能?隨機(jī)器數(shù)線性增加clustercon?gupdatedonthe?y表,造成數(shù)據(jù)不均勻域名映射的IP只有在初始解析3.新增節(jié)點(diǎn),歷史數(shù)據(jù)不會搬遷,造成不均衡4.過度的groupby,導(dǎo)致?量數(shù)據(jù)交換5.數(shù)據(jù)分?依賴單機(jī)穩(wěn)定性,缺乏可靠性apm_msgapm_msgapm_msgapm_msgClickHouse的復(fù)制apm_msgapm_msgapm_msgapm_msg多源、多主、多向復(fù)制?帶同步機(jī)制(物理復(fù)制)依賴ZK多源、多主、多向復(fù)制apm_msgapm_msgapm_msgapm_msg多源、多主、多向復(fù)制apm_msgapm_msgapm_msgapm_msg?帶同步機(jī)制(物理復(fù)制)依賴ZKReplicatedMergeTree('zk路徑','副本名稱',?期列,(其他列,?期列),索引粒度)IDC1IDC2A''IDC3A'AB''CC'C''IDC1IDC2A''IDC3A'AB''CC'C''3個(gè)IDC使?復(fù)制機(jī)制做互備每個(gè)IDC3個(gè)節(jié)點(diǎn),做分布式表,分擔(dān)查詢壓?A/B/C分別是數(shù)據(jù)的3個(gè)分?,各?承擔(dān)1/3的數(shù)據(jù)IDC1IDC3IDC2A''A'B''AC''C'CIDC1IDC3IDC2A''A'B''AC''C'C1.3個(gè)IDC,掛掉2個(gè)不影響讀寫恢復(fù)只需重啟實(shí)例ClickHouse?動完成數(shù)據(jù)同步2.掛掉某個(gè)實(shí)例,如A切換讀寫到其他IDC,恢復(fù)實(shí)例A即可處理?式同上4字段500億15TX4CPUE5-2620@2.00GHz開啟超線程后24core3T*12Raid50.9秒selectdate,count(*)fromxxgroupbydate9.8秒官方demo快快快1.優(yōu)秀的代碼編寫,強(qiáng)?的底層優(yōu)化,嚴(yán)格的單元測試2.Avectorengine&Codegeneration4.C++新特性ClickHouse函數(shù):ClickHouse高級函數(shù):ClickHouse高級函數(shù):統(tǒng)計(jì)類其他today()-1substring(s,ofset,length)extract(haystack,pattern)域名類IP歸類目錄結(jié)構(gòu)conig.xmlmetrika.xmlmetrika.xmlhttp://jackpgao.github.io/2017/11/20/ClickHouse-User-Password/http://jackpgao.github.io/2017/11/20/ClickHouse-User-Password/ClickHouse的問題:1.insertintoxx(a,b,c)values('a','b','c')只能是單引號2.如果是int插?的是string,報(bào)錯(cuò)(不確定是否有類似SQL_MODE的參數(shù))3.刪除只?持到?緯度的分區(qū)rsstoreover20.3trillionrows歐洲原?能研究機(jī)構(gòu)store歐洲原?能研究機(jī)構(gòu)storeandprocessmetadataon10billioneventswithover1000attributespereventncialservicesinRussia 《HowCloud?areanalyzes1MDNSqueriespersecond》.做存儲的公司.CARTO(formerlyCartoDB)isaSoftwareasaService(SaaS)cloudcomputingplatformthatprovidesGISandwebmappingtoolsfordisplayinawebbrowser..AltinityistheleadingserviceproviderforClickHouse.AltinityProvidesCloudVersionofClickHouseonKodiakDataMemCloud?.KodiakDataisanedge-cloudinfrastructurecompanythatallowscustomerstoeasilydeployandscalebigdatainfrastructureinbothpublicandprivatecloudsBlockchairisablockchainsearchandanalyticsengineoryoucanalsosayit'sablockchainexploreronsteroids.?Airbnb開源Python項(xiàng)目?Apache孵化?快速實(shí)現(xiàn)可視化?完美對接ClickHouse,方便分析師進(jìn)行問題排查與分析.某APPAPM管理?數(shù)據(jù)處理鏈路短時(shí)可見,及時(shí)Trace??數(shù)據(jù)處理鏈路短時(shí)可見,及時(shí)Trace?如何快速數(shù)據(jù)變現(xiàn).某APPAPM管理.某APPAPM管理/f1yegor/clickhouse_exporter+ClickHouseexporter+rafana運(yùn)維(SSE4.2instructionsetneed)3.Raid-10isbetterIfRaid5/6/50,increasestripe_cache_size4.內(nèi)存:越?越好,留給pagecache禁?swap/透明??/NUMA5.CentOS7/Ext4/復(fù)制帶寬問題使用1.batchinsert2K起步3.如果是Docker,注意修改時(shí)區(qū)4.clickhouse-client在Docker?,5.拒絕select*6.?Decimal,乘以倍率,?Uint64存使?場景構(gòu)化SQL?志分析對?MySQL:復(fù)雜查詢、容量,重點(diǎn)不在事務(wù)HDFS?態(tài):簡單、易?、查詢快,規(guī)模穩(wěn)定性有待驗(yàn)證ClickHouseClickHouseHangouttoClickHouse插件原?查詢?式不靈活SQL插件復(fù)雜度有限擴(kuò)展性區(qū)健壯社區(qū)正在發(fā)展Java/Python/R/PHP對?ES對?項(xiàng)對?項(xiàng)?需特別指明字段類型,兼容性好Java/PythonGPU產(chǎn)品datasetGPU產(chǎn)品datasets.GPU-acceleratedanalyticsdatabaseforreal-timeinsightsonstreaming.GPUDatabaseforFast,Interactive/benchmarks.html.HighPerformanceGPUDatabaseforBigData.World'smostadvancedGPUbasedDatabase74xto3,500xfasterthanCPUDBs..PG-StromisangnedforPostgreSQLv9.5orlater,toof-loadapartofCPUtoGPU(GraphicProcessorUnit)devices,andexecutetheminparallel開源產(chǎn)品商業(yè)產(chǎn)品性能與成本的均衡行業(yè)排名“那年我還是個(gè)DBA,飽受業(yè)務(wù)復(fù)雜查詢,也就是OLAP之苦”/Summary.不好用,別撕我~HYPERLINK"mailto:gaopeng

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論