數(shù)據技術嘉年華 -ByConity的架構與設計:從ClickHouse到云原生_第1頁
數(shù)據技術嘉年華 -ByConity的架構與設計:從ClickHouse到云原生_第2頁
數(shù)據技術嘉年華 -ByConity的架構與設計:從ClickHouse到云原生_第3頁
數(shù)據技術嘉年華 -ByConity的架構與設計:從ClickHouse到云原生_第4頁
數(shù)據技術嘉年華 -ByConity的架構與設計:從ClickHouse到云原生_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

演講人:王蘊博CONTENTS背景和設計理念存算分離架構設計用戶案例分享社區(qū)和未來規(guī)劃ByConity歷史發(fā)布0.2.0版支持數(shù)據湖、ELT、發(fā)布0.2.0版支持數(shù)據湖、ELT、RBAC、提升冷讀優(yōu)化2024.52023.12ByConity開源2023.12ByConity開源0.1.0-GA2023.9ByConity啟動開源發(fā)布0.3.0版本CNCHByteHouse云數(shù)倉版倒排索引、ELT能力增強、共享存儲的選主CNCHByteHouse云數(shù)倉版2023.5大規(guī)模使用ClickHouse2022.52020.1新版本發(fā)布ClickHouse2022.52020.12018ByConity設計之初●●開源讓軟件更早接觸用戶,了解用戶真實需求;●吸引外部開發(fā)者參與,匯聚領域人才參與,傳播影響力;●更加高效的迭代,軟件更佳安全和健康●開源OpenCore模式促進商業(yè)化,拓展海外市場●重用云基礎設施,●重用云基礎設施,高可靠性和降低成本;●整個系統(tǒng)和架構設計從開始就基于云的需求;●存算分離避免了傳統(tǒng)分布式系統(tǒng)的一些性能瓶頸和復雜性開源從“命名”開始 CommunityByConityCommunityConvertByConity是通過開源,融合一群希望打破常規(guī)技術的開發(fā)者,改變數(shù)據的使用方式基于云原生架構 ●服務層(CloudService)●MetaDate:FoundationDB/ByteKV●Server:表元數(shù)據緩存、查詢SQL解析、計劃生成、調度和下發(fā)●ResourceManager:服務發(fā)現(xiàn)、負載心跳檢測●TSO:全局唯—單調遞增的時間戳●DaemonManager:調度和管理任務●計算組(VirtualWarehouse,VW)●Worker:執(zhí)行片段的執(zhí)?,后臺任務的執(zhí)?、LocalDiskCache●每個表可以設置默認的ReadVW(查詢)和WriteVW(導入和Merge)●存儲層(CloudStorage)●支持HDFS、S3ByConityByConity的特性讀寫分離資源隔離數(shù)據強一致性彈性擴縮容數(shù)據強一致性彈性擴縮容高性能高性能存算分離的設計思考●需要統(tǒng)一的元信息管理系統(tǒng)●分布式文件系統(tǒng)大多數(shù)存在元信息管理壓力問題(nn)●分布式統(tǒng)一存儲系統(tǒng)大多不支持rewrite,一些對象存儲系統(tǒng)甚至不支持append●分布式對象存儲系統(tǒng)大多move代價都比較高●iolatency通常情況對比本地文件系統(tǒng)下都存在增加的情況統(tǒng)一的元數(shù)據管理●提供高可用和高性能的元數(shù)據讀寫服務●完備事務語義的支持●后端存儲系統(tǒng)可插拔,方便擴展●高效的Part緩存管理●一致性hash數(shù)據存儲結構●合并小文件,每個part所有數(shù)據存儲在一個文件中●保持按列存儲特性數(shù)據變更●文件生成后不再變動●deltapart+basepart●partchain(merge-on-write)●讀放大數(shù)據合并●異步merge●Oldparts通過GC清理數(shù)據緩存●一致性hash分配parts●熱數(shù)據worker節(jié)點自動緩存●改進bucket-lru算法●避免數(shù)據reshuffling唯一鍵(UNIQUEKEY)●數(shù)據源(如Kafka)包含重復數(shù)據,如何保障數(shù)倉表的數(shù)據質量?●業(yè)務數(shù)據流包含行更新,如何高效實時同步和分析?●如何提高RDBMS->數(shù)倉的同步時效性,并支持高效分析?●面向讀取操作進行優(yōu)化●支持唯一鍵與排序鍵不同●支持基于版本字段的比較●支持行刪除●支持表級別和分區(qū)級別查詢優(yōu)化器●優(yōu)化器:本質是對查詢計劃的等價轉換,從中找到最優(yōu)解或者較優(yōu)解。ByConity實現(xiàn)了RBO和CBO●RBO:基于規(guī)則的優(yōu)化能力。使用一系列預定義的啟發(fā)式規(guī)則來選擇查詢執(zhí)行計劃?!窕趘isitor的全局改寫,例如filter下推、列的裁剪、SQL指紋等●基于pattern-match的局部改寫,例如多個filter的merge、多個projection的merge●CBO:基于代價的優(yōu)化能力。通過收集和分析數(shù)據庫中的統(tǒng)計信息來評估不同執(zhí)行計劃的成本,并選擇成本最低的計劃作為最佳計劃?!窕贑ascades搜索框架,遍歷等價計劃,評估每種等價計劃的代價,選出最優(yōu)解●JoinReorder超過10表啟發(fā)式搜索●分布式執(zhí)行計劃,屬性傳遞,基于代價生成最優(yōu)的分布式計劃查詢調度●負責對生成的可執(zhí)行計劃plansegmenttree進行調度●Cache-aware調度–針對source,讀取數(shù)據●最大化cache命中率,提升讀寫性能●拓撲發(fā)生變化時,最小化cache失效的影響●Resource-aware調度和流量控制–針對計算節(jié)點,純計算●最大化資源利用率●合理使用資源,避免負載過高計算組●多租戶隔離●讀寫分離●水平和垂直動態(tài)擴縮容●資源共享租戶1租戶2租戶3計算組a計算組b計算組c計算組d計算組e計算組fStorage與ClickHouse的差異 實踐案例—用戶分析系統(tǒng)320TB2.3萬億行2萬個維度實踐案例—MetaApp數(shù)據分析平臺 測試帶來哪些收益節(jié)約資源成本基于Kubernetes的彈性伸縮能力,實現(xiàn)無感擴縮容節(jié)約資源成本基于Kubernetes的彈性伸縮能力,實現(xiàn)無感擴縮容避免資源搶占天然的資源隔離和租戶隔離,不同用戶查詢相互不收到影響存算分離架構,計算節(jié)點為無狀態(tài)節(jié)點,發(fā)生故障秒級替換開源社區(qū)發(fā)展2024年整體規(guī)劃?支持Hive?支持Hive表查詢、寫入?支持Hudi表查詢、寫入?支持Iceberg表查詢?外表查詢性能優(yōu)化?外表物化視圖?Hive元數(shù)據Catalog同步?復雜大數(shù)據ELT穩(wěn)定運行?RuntimeFilter性能優(yōu)化?Shuffle性能優(yōu)化?算子落盤?長事物優(yōu)化?失敗重試?MySQL兼容性?SQL診斷優(yōu)化?優(yōu)化動態(tài)構建filter能力?全局字典?Zero-copy?非等值join算子優(yōu)化?并行化重構?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論