2024網(wǎng)易數(shù)據(jù)基礎(chǔ)平臺建設(shè)方案_第1頁
2024網(wǎng)易數(shù)據(jù)基礎(chǔ)平臺建設(shè)方案_第2頁
2024網(wǎng)易數(shù)據(jù)基礎(chǔ)平臺建設(shè)方案_第3頁
2024網(wǎng)易數(shù)據(jù)基礎(chǔ)平臺建設(shè)方案_第4頁
2024網(wǎng)易數(shù)據(jù)基礎(chǔ)平臺建設(shè)方案_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

此產(chǎn)品,InnoSQLMySQL2011InnoSQL目標(biāo)是提供更好的性能以及高可用性,同時便于DBA的運維以及監(jiān)控管理。RocksDBMySQLMyRocks成到InnoSQL分支上。這樣做的原因是公司有很多業(yè)務(wù),很多都是利用緩存保持其延遲,保持延遲穩(wěn)定(小于50毫秒)。RocksDB能夠很好地將緩存控制的很好,隨著緩存越來HBaseHBase但還是做了一個基于K-V模式的緩存處理,主要解決延遲波動問題。我們主要是基于開源RocksDBInnoRocksLSMLSM用InnoRocks存儲會節(jié)省很多存儲空間;還有一個就是結(jié)合DB做擴展,將其集成到公司RFIDRocksDBInnoDBRocksDBInnoDBInnoDBRocksDB。Inno315GB左右,InnoRocks為50~60GB,存儲容量是InnoDB2030%。InnoRockInnoDBInnoDB需要高壓縮以便存儲更多的數(shù)據(jù),InnoDBInno對寫入延遲波動比較敏感,HBaseInno相對較低的延遲要求(10~50ms)下替換緩存場景(延遲<5ms),節(jié)省內(nèi)存成本,Redis-->InnoRocks。InnoSQL是MySQL一個分支,同時還做了一個時序數(shù)據(jù)庫。其不依賴第三方存儲,重新數(shù)據(jù)庫集中在訪問時通過什么去訪問,我們提供SQL層給外部應(yīng)用去訪問,應(yīng)用簡單。NTSDBbug分來源于日志。通過NDC做全量數(shù)據(jù)導(dǎo)入,如有些數(shù)據(jù)在Oracle中,通過NDC導(dǎo)入,后續(xù)可以通過數(shù)據(jù)變更來進行同步,還有一個通過dataStream將日志數(shù)據(jù)錄入大數(shù)據(jù)平HDFS存儲,搭載一些HBaseSpark;數(shù)據(jù)加工和一般大數(shù)據(jù)平臺都差不多,我們加入了自助分析、任務(wù)運維,后續(xù)會詳細介紹。接下來介紹自助分析里面應(yīng)用的一個插件Impala,以及分布式存儲系統(tǒng)中的Kudu平臺。秒-1分鐘延遲。Impala的MPP架構(gòu)都是類似。選擇Impala而不選擇其他工具的原因:首先它有元數(shù)據(jù)緩存,好處是節(jié)點緩存元數(shù)據(jù)做查詢時不用再去獲取元數(shù)據(jù),缺點就是元數(shù)據(jù)爆炸問題;再者就是Impala兼容Hive,元數(shù)HiveImpalaImpalainsertHive和SparkImpalaImpala能讀取數(shù)據(jù)但是無法動態(tài)感知,為了解決這個問題官方提供手動刷新操作。ImpalaMPPMaster底層數(shù)據(jù)權(quán)限粒度控制不夠,HDFS轉(zhuǎn)HBase是以同級HBase身份訪問,Impala訪問底層需要以Impala身份訪問。這種問題尤其在同一平臺下分有很多業(yè)務(wù)時,用Hive寫數(shù)據(jù)時,訪問權(quán)限就會有問題,因此我們在內(nèi)部權(quán)限訪問方面做了改造。每個coordinator節(jié)點都能接收SQL,沒有集中統(tǒng)一的SQL管理,如果掛掉所有歷史信息都無法追蹤。ZookeeperLoadBalanceSQLSQL和執(zhí)行過程,便于后續(xù)SQL審計,超時SQL自動kill;Hive,Hive變更,Impala拉取變更自動同步,這種只能緩解元數(shù)據(jù)爆炸問題。線寫入和Impala查詢是同一份數(shù)據(jù),如果寫入吃掉很多IO,查詢就會出現(xiàn)問題。離線本ES在SQL支持方面不是很好,目前我們的Impala支持一些ES的查詢。HiveKudu就是解決半小時到一小時的數(shù)據(jù)實時性。KuduImpala既能訪問Hive中的數(shù)據(jù),也能訪問Kudu中的數(shù)據(jù),這樣的好處是兩邊的數(shù)據(jù)可以進行聯(lián)合查詢。KuduSparkAPIKudu不同的是數(shù)據(jù)組織形式是不一樣的,Kudu可以做一些分析性的業(yè)務(wù)查詢。最主要的區(qū)別是數(shù)據(jù)存儲格式不一樣,Kudu是ColumnFamily級別列存,先整個切一塊然后再做列組形KuduHDFSKuduupdate,在內(nèi)存&磁盤上數(shù)BasedeltaBasedelta據(jù)讀取時需要同時讀取Base+delta兩部分數(shù)據(jù)。KudutabletKuduRuntimeFilterImpalaHDFSRuntimeFilter,KuduhashKuduRuntimeFilter進,目標(biāo)是和Impala相差不是很大。Bitmapgroupby,hash序,這種查詢會很快,而不用做全局排序。Bitmapdinstctcount的值不能太多,向數(shù)據(jù)庫中主鍵不適合做Bitmap,像省份等值比較少的適合做Bitmap。應(yīng)用后用TPC-H中的一張表測試,Bitmap主要應(yīng)用多維場景過濾,從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論