版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
孔繁藝高級(jí)研發(fā)工程師01背景介紹02架構(gòu)演進(jìn)03企業(yè)實(shí)踐04總結(jié)規(guī)劃01背景介紹1-1公司介紹任子行網(wǎng)絡(luò)技術(shù)股份有限公司成立于2000年5月,2012年4月,在深圳證券交易所創(chuàng)業(yè)板正式掛牌上市,是國(guó)內(nèi)網(wǎng)絡(luò)安全行業(yè)領(lǐng)軍企業(yè),致力于成為國(guó)內(nèi)領(lǐng)先的“網(wǎng)絡(luò)空間數(shù)據(jù)治理專家”。業(yè)務(wù)涵蓋網(wǎng)絡(luò)安全、公共安全、信息安全、運(yùn)營(yíng)商網(wǎng)絡(luò)資源安全、終端安全、5G數(shù)據(jù)安全、工業(yè)互聯(lián)網(wǎng)安全等眾多領(lǐng)域,是國(guó)家重大活動(dòng)網(wǎng)絡(luò)安全服務(wù)支撐單位,也為“一帶一路”海外友好國(guó)家政府提供網(wǎng)絡(luò)安全解決方案。1-2早期業(yè)務(wù)架構(gòu)數(shù)據(jù)采集KafkaAlgoServerSparkStreammingHBaseElasticsearch輿情應(yīng)用APP數(shù)據(jù)采集KafkaAlgoServerSparkStreammingHBaseElasticsearch輿情應(yīng)用APP1-3背景介紹無(wú)法二次分析數(shù)據(jù)孤島數(shù)據(jù)比較分散,在地域和存儲(chǔ)引擎層面上來(lái)看都是一個(gè)個(gè)分散的數(shù)據(jù)孤島,數(shù)據(jù)無(wú)法共享及統(tǒng)一處理。無(wú)法二次分析數(shù)據(jù)孤島數(shù)據(jù)比較分散,在地域和存儲(chǔ)引擎層面上來(lái)看都是一個(gè)個(gè)分散的數(shù)據(jù)孤島,數(shù)據(jù)無(wú)法共享及統(tǒng)一處理。業(yè)務(wù)系統(tǒng)架構(gòu)扁平,基于ETL的明細(xì)數(shù)據(jù),不會(huì)保留原始數(shù)據(jù)。離線分析難度大執(zhí)行導(dǎo)數(shù)分析任務(wù)時(shí),需要直接在業(yè)務(wù)系統(tǒng)中執(zhí)行,對(duì)于大數(shù)據(jù)量的任務(wù),嚴(yán)重影響ES集群的穩(wěn)定性。02架構(gòu)演進(jìn)2-1架構(gòu)演進(jìn):技術(shù)選型思考HadHadoop生態(tài)Elasticsearch?存在寫入瓶頸,吞吐能力達(dá)不到預(yù)期;?對(duì)服務(wù)器的CPU,內(nèi)存及磁盤的要求都比較高;?倒排索引導(dǎo)致存儲(chǔ)成本較高,達(dá)不到降本增效的效果;?聚合計(jì)算場(chǎng)景能力一般,會(huì)出現(xiàn)聚合不準(zhǔn)確的情況;?分析需要具備DSL能力,復(fù)雜場(chǎng)景SQL模式支持有?傳統(tǒng)數(shù)倉(cāng)架構(gòu)實(shí)時(shí)性得不到很好的保證。?架構(gòu)復(fù)雜度比較高,數(shù)據(jù)鏈路長(zhǎng)。?缺乏湖生態(tài)的技術(shù)儲(chǔ)備,預(yù)研周期較長(zhǎng)。2-1架構(gòu)演進(jìn):技術(shù)選型思考場(chǎng)景查詢并發(fā)高低存儲(chǔ)成本低低計(jì)算能力高高維護(hù)成本低高社區(qū)活躍高中易用性高中2-1架構(gòu)演進(jìn):技術(shù)選型思考需求場(chǎng)景數(shù)據(jù)分層處理,ALLINONE高吞吐,支持實(shí)時(shí)離線導(dǎo)入導(dǎo)出一站式分析,統(tǒng)一數(shù)據(jù)出口即席分析查詢能力出色的計(jì)算能力,支持多維分析高易用性及簡(jiǎn)易架構(gòu)1、支持Duplicate明細(xì)模型,Unique主鍵數(shù)據(jù)模型,Aggregate聚合數(shù)據(jù)模型,滿足數(shù)倉(cāng)大部分業(yè)務(wù)場(chǎng)景;2、列式存儲(chǔ),數(shù)據(jù)擁有較高的壓縮比,ODS層存儲(chǔ)成本更低;1、支持RoutineLoad、BrokerLoad和StreamLoad等多種內(nèi)置的導(dǎo)數(shù)方式;2、支持Flink、Spark、Datax、Kafka等源;3、支持HDFS、S3、本地文件讀取與寫入;1、出色的聯(lián)邦分析能力,支持大部分主流數(shù)據(jù)湖、數(shù)據(jù)庫(kù)的連接訪問(wèn);1、支持高并發(fā),Unique表在高并發(fā)點(diǎn)查場(chǎng)景下可達(dá)數(shù)萬(wàn)QPS;2、不僅支持主鍵點(diǎn)查,在條件與范圍查詢場(chǎng)景下表現(xiàn)同樣出色;1、支持向量計(jì)算,聚合查詢低延遲;2、支持大部分Upsert操作,行更新,列更新,可滿足用戶信息,標(biāo)簽畫像更新等場(chǎng)景;3、大表Join支持度較好;1、采用MySQL,支持標(biāo)準(zhǔn)SQL協(xié)議,使用成本低;2、只有FE與BE兩個(gè)進(jìn)程,不需要引入外部組件;3、DorisManage、X2Doris等豐富的周邊工具;4、社區(qū)活躍,社區(qū)支持度高,文檔非常詳細(xì);2-2架構(gòu)演進(jìn):數(shù)倉(cāng)架構(gòu)數(shù)據(jù)應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源MySQLFileElasticsearchOpenAPIODSADS即席查詢標(biāo)簽畫像采集數(shù)據(jù)調(diào)度引擎/計(jì)算引擎關(guān)聯(lián)分析DolphinSchedulerApacheFlink數(shù)據(jù)攝入數(shù)據(jù)應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源MySQLFileElasticsearchOpenAPIODSADS即席查詢標(biāo)簽畫像采集數(shù)據(jù)調(diào)度引擎/計(jì)算引擎關(guān)聯(lián)分析DolphinSchedulerApacheFlinkDataXDataXJarJarCatalogCatalogFlinkFlinkCDCKafkaKafka2-3架構(gòu)演進(jìn):存儲(chǔ)規(guī)模245TB1.5TB245TB1.5TB總數(shù)據(jù)規(guī)模總數(shù)據(jù)量單日新增數(shù)據(jù)峰值總數(shù)據(jù)規(guī)??倲?shù)據(jù)量單日新增數(shù)據(jù)峰值03企業(yè)實(shí)踐3-1企業(yè)實(shí)踐:數(shù)據(jù)建模ODS貼源層ODS貼源層ADS應(yīng)用層DWS匯總層每天有幾千萬(wàn)上億的半結(jié)構(gòu)化數(shù)據(jù)需要攝入,Json深度及字段數(shù)量都不可控,因此ODS層我們選用了基礎(chǔ)的DuplicateKey模型,快速穩(wěn)定的完成原始數(shù)據(jù)存儲(chǔ);AggredateKey模型和UniqueKey模型之間進(jìn)行選擇。簡(jiǎn)單的去重和更新使用UniqueKey模型,指標(biāo)語(yǔ)句和復(fù)雜數(shù)據(jù)合并使用AggredateKey模型;ADS層作為對(duì)外直接使用的應(yīng)用層數(shù)據(jù),我們主要沿用DuplicateKey模型和UniqueKey模型。點(diǎn)查和實(shí)時(shí)更新使用UniqueKey模型,周期全量計(jì)算結(jié)果表使用DuplicateKey模型;3-2企業(yè)實(shí)踐:寫入吞吐問(wèn)題調(diào)整分區(qū)策略前調(diào)整分區(qū)策略后調(diào)整分區(qū)策略前CREATETABLE`ods_xxx_post`(`post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID',`user_id`VARCHAR(64)NOTNULLCOMMENT'用戶ID',`create_date`DATENOTNULLCOMMENT'發(fā)布日期',`full_data`TEXTNULLCOMMENT'原始JSON',`insert_date`DATENULLCOMMENT'入庫(kù)日期')DUPLICATEKEY(`post_id`,`user_id`,`create_date`,`task_id`)PARTITIONBYRANGE(`create_date`)DISTRIBUTEDBYHASH(`post_id`)BUCKETS16PROPERTIES("dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH",...);CREATETABLE`ods_xxx_post`(`post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID',`user_id`VARCHAR(64)NOTNULLCOMMENT'用戶ID',`insert_date`DATENULLCOMMENT'入庫(kù)日期',`create_date`DATENOTNULLCOMMENT'發(fā)布日期',`full_data`TEXTNULLCOMMENT'原始JSON',)DUPLICATEKEY(`post_id`,`user_id`,`insert_date`,`task_id`)PARTITIONBYRANGE(`insert_date`)DISTRIBUTEDBYHASH(`post_id`)BUCKETS16PROPERTIES("dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH",...);建表分區(qū)策略改為按照“處理時(shí)間”進(jìn)行按月分區(qū)后,寫入吞吐直線上升,compactioncore維持在100+左右,CPU負(fù)載水平也回落到正常負(fù)載,解決了寫入吞吐低以及版本堆積導(dǎo)致的頻繁寫入失敗問(wèn)題。3-3企業(yè)實(shí)踐:數(shù)據(jù)更新問(wèn)題社交用戶數(shù)據(jù)場(chǎng)景中,數(shù)據(jù)渠道較多,每種渠道的字段內(nèi)容的穩(wěn)定性不一,沒(méi)有明顯特征。假設(shè)用戶數(shù)據(jù)有A,B,C,D,E五個(gè)道也會(huì)有不確定因素存在,因此DWS層的用戶數(shù)據(jù)去重與合并是一大重要挑戰(zhàn)。ODS層ADSODS層ADS層AggredateAggredate3-4企業(yè)實(shí)踐:離線遷移HBasetoDoris15億的賬號(hào)數(shù)據(jù),128個(gè)分區(qū),8個(gè)分區(qū)作為一批,DataX串行化執(zhí)行,同步至Doris總耗時(shí)為6小時(shí);ElasticsearchtoDorisElasticsearch索引映射的_meta部分添加特定的Doris結(jié)構(gòu)注釋,使用REFRESH命令手動(dòng)刷新元數(shù)據(jù);外部離線數(shù)據(jù)Kafka消息隊(duì)列RoutineLoadKafka消息隊(duì)列HDFSMinIO(S3)文件系統(tǒng)HDFSMinIO(S3)文件系統(tǒng)ElasticsearshMySQL...外部數(shù)據(jù)庫(kù)INSERTElasticsearshMySQL...外部數(shù)據(jù)庫(kù)04總結(jié)規(guī)劃4-1總結(jié)規(guī)劃:降本增效數(shù)據(jù)類型數(shù)據(jù)量存儲(chǔ)成本降低率社交帖文2224769027(22.2億)1.393TB5.98TB76.7%社交帖文139541279(1.3億)408.582GB1.2TB66.0%社交用戶157091118(15億)52.039GB183.9GB71.5%社交關(guān)系642762889(6.4億)204.488GB529.3GB61.3%經(jīng)過(guò)多種類型數(shù)據(jù)的對(duì)比,存儲(chǔ)成本能節(jié)省61%-76%之間。特別社交帖文數(shù)據(jù)場(chǎng)景下,Elasticsearch需要使用5.98TB磁盤內(nèi)存,而在ApacheDoris只需要1.393TB,在保持高吞吐和實(shí)時(shí)性能的前提下,同等規(guī)模的數(shù)據(jù),存儲(chǔ)成本大幅度降低。4-2總結(jié)規(guī)劃:高效導(dǎo)數(shù)原有平臺(tái)架構(gòu)導(dǎo)數(shù)流程(1Day)項(xiàng)目A項(xiàng)目BElasticserach項(xiàng)目NElasticserachElasticserachHBaseHBaseHBase基于Apache原有平臺(tái)架構(gòu)導(dǎo)數(shù)流程(1Day)項(xiàng)目A項(xiàng)目BElasticserach項(xiàng)目NElasticserachElasticserachHBaseHBaseHBase基于ApacheDoris的架構(gòu)改造導(dǎo)數(shù)流程(0.5Day)Doris內(nèi)部表DorisCatalogSELECTINSERTSELECTINSERTINTO匯聚集中處理FlinkConnectorKafkaKafkaKafkaKafka4-3總結(jié)規(guī)劃:統(tǒng)一分析平臺(tái)即席查詢能夠在數(shù)十億級(jí)表中實(shí)時(shí)查看數(shù)據(jù)明細(xì),通過(guò)關(guān)鍵詞、時(shí)間、實(shí)體等緯度進(jìn)行篩選?;赟QL輕松完成BI報(bào)表、數(shù)據(jù)大屏的開發(fā)與輸出。自助API只需要基于SQL定義輸入輸出,在線API測(cè)試這2步即可生成API。4-4總結(jié)規(guī)劃:高效計(jì)算原有社交關(guān)系計(jì)算(2Hour)基于ApacheDoris的流程改造(10Min原有社交關(guān)系計(jì)算(2Hour)ApacheDoris轉(zhuǎn)評(píng)贊明細(xì)表①ApacheDoris轉(zhuǎn)評(píng)贊明細(xì)表①①Elasticsearch③② ElasticsearchElasticsearch社交關(guān)系結(jié)果數(shù)據(jù)ApacheDoris社交關(guān)系結(jié)果數(shù)據(jù)②Apache
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026黑龍江鶴崗市工農(nóng)區(qū)招聘公益性崗位人員34人筆試備考題庫(kù)及答案解析
- 2026年保山市市直事業(yè)單位遴選管理人員和專業(yè)技術(shù)人員(18人)考試參考題庫(kù)及答案解析
- 2026上海分子細(xì)胞卓越中心陳玲玲組招聘實(shí)驗(yàn)技術(shù)員2人考試備考題庫(kù)及答案解析
- 2026年黃山市徽州區(qū)事業(yè)單位統(tǒng)一公開招聘工作人員18名筆試模擬試題及答案解析
- 2026年湖南衡陽(yáng)日?qǐng)?bào)社招聘事業(yè)單位工作人員16人筆試參考題庫(kù)及答案解析
- 2026年新員工融入與帶教培訓(xùn)
- 2026年工程地質(zhì)三維建模的可視化展示技術(shù)
- 2026年工程地質(zhì)工程測(cè)試與評(píng)價(jià)
- 2026年年關(guān)鍵趨勢(shì)可持續(xù)與房地產(chǎn)市場(chǎng)
- 2026年殼體結(jié)構(gòu)的受力分析
- 1500V儲(chǔ)能系統(tǒng)全場(chǎng)景解決方案與典型案例分享
- 魯科版五年級(jí)下冊(cè)英語(yǔ)單詞
- 公路路面煤矸石基層應(yīng)用技術(shù)規(guī)范(DB15-T 3122-2023)
- 大學(xué)計(jì)算機(jī)基礎(chǔ)操作題(一)
- AQ-T7009-2013 機(jī)械制造企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化規(guī)范
- 小學(xué)美術(shù)與心理健康的融合滲透
- 儲(chǔ)罐組裝施工措施方案(拱頂液壓頂升)-通用模版
- 2023年上海鐵路局人員招聘筆試題庫(kù)含答案解析
- 質(zhì)量源于設(shè)計(jì)課件
- 2023屆高考語(yǔ)文復(fù)習(xí)-散文專題訓(xùn)練-題目如何統(tǒng)攝全文(含答案)
- 馬鞍山經(jīng)濟(jì)技術(shù)開發(fā)區(qū)建設(shè)投資有限公司馬鞍山城鎮(zhèn)南部污水處理廠擴(kuò)建工程項(xiàng)目環(huán)境影響報(bào)告書
評(píng)論
0/150
提交評(píng)論