版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
目錄01云原生智算服務(wù)關(guān)鍵技術(shù)02智算服務(wù)可觀測需求與挑戰(zhàn)03下一代可觀測Pipeline04智算服務(wù)可觀測Pipeline技術(shù)實(shí)踐未來展望05云原生智算服務(wù)關(guān)鍵技術(shù)AI在計(jì)算機(jī)視覺、語音、NLP等領(lǐng)域取得突破,已深入影響各行各業(yè),并催生出了自動(dòng)駕駛等領(lǐng)域。AI服務(wù)上云形成趨勢,深度學(xué)習(xí)/AIGC應(yīng)用廣泛采用容器等云原生技術(shù)。深度學(xué)習(xí)的特點(diǎn)端到端流水線–Raw
data
in,
executable
model
out持續(xù)迭代優(yōu)化–梯度下降,超參數(shù)調(diào)優(yōu),Prompt工程任務(wù)長時(shí)運(yùn)行–小時(shí)/天/周/月消耗海量數(shù)據(jù)和大量算力數(shù)據(jù)準(zhǔn)備模型構(gòu)建模型訓(xùn)練調(diào)優(yōu)提效模型推理開發(fā)探索持續(xù)發(fā)布彈性大模型對基礎(chǔ)設(shè)施服務(wù)能力的挑戰(zhàn)是階躍式的。對“規(guī)模、性能、效率”的要求,成為LLM/AIGC快速落地的高門檻。效率資源效率:高利用率、彈性可擴(kuò)展工程效率:持續(xù)快速迭代性能訓(xùn)練:單卡->分布式、混合并行加速推理:模型優(yōu)化、服務(wù)質(zhì)量Qos規(guī)模算力:千卡GPU任務(wù),萬卡集群數(shù)據(jù):PB級存儲,TB級吞吐網(wǎng)絡(luò):800Gbps–3.2Tbps
RDMA模型參數(shù)量每年10倍指數(shù)級增長異構(gòu)硬件AI工程通常需要多樣化的硬件支持。動(dòng)態(tài)分布式計(jì)算AI工程中的計(jì)算需求常常具有高度的動(dòng)態(tài)性,如模型訓(xùn)練和推理負(fù)載會隨數(shù)據(jù)量和算法復(fù)雜度變化。資源隔離性AI工程通常涉及多個(gè)團(tuán)隊(duì),不同任務(wù)需要獨(dú)立的資源隔離,避免資源競爭導(dǎo)致性能下降。環(huán)境一致性AI工程需要在不同環(huán)境(如開發(fā)、測試和生產(chǎn)環(huán)境)中保持一致性??焖俚鶤I模型和算法需要頻繁更新和快速迭代。設(shè)備插件靈活擴(kuò)展支持各種設(shè)備插件,允許輕松將不同類型的硬件資源集成到集群中。資源調(diào)度與彈性伸縮K8s強(qiáng)大的調(diào)度能力,根據(jù)實(shí)際負(fù)載自動(dòng)調(diào)整Pod數(shù)量,實(shí)現(xiàn)計(jì)算資源的動(dòng)態(tài)分配與回收。命名空間與資源配額通過命名空間和資源配額確保不同任務(wù)的資源獨(dú)立性。容器化應(yīng)用管理通過容器化技術(shù),確保在不同環(huán)境中運(yùn)行的AI應(yīng)用具有一致的運(yùn)行環(huán)境,避免因環(huán)境差異引發(fā)的問題。持續(xù)集成與持續(xù)部署(CI/CD)與CI/CD工具的集成,支持自動(dòng)化構(gòu)建、測試和部署流程。AI工程計(jì)算網(wǎng)絡(luò)存儲GPU
Device-PluginRDMA網(wǎng)絡(luò)CPU、內(nèi)存海量小文件數(shù)據(jù)集讀取Checkpoint大文件讀寫傳統(tǒng)架構(gòu)資源管理分散、資源利用率低無法彈性伸縮生產(chǎn)流程割裂、效率低團(tuán)隊(duì)協(xié)作、共享困難AI工程向云原生架構(gòu)演進(jìn)云原生架構(gòu)的容器服務(wù)支撐AI智算基礎(chǔ)底座云原生架構(gòu)資源池化:彈性、靈活生產(chǎn)流程高效閉環(huán)可觀測手段豐富多角色協(xié)同,加速迭代更快的創(chuàng)新與迭代更高的穩(wěn)定性更彈性的算力AI工程平臺GPU池存儲池開發(fā)模型
訓(xùn)練模型
發(fā)布模型在云原生架構(gòu)的Kubernetes集群中管理調(diào)度GPU、NPU、RDMA等高性能異構(gòu)資源,以容器化方式開發(fā)、運(yùn)行AI、大數(shù)據(jù)任務(wù),部署AI推理服務(wù)。到2025年,接近50%的企業(yè)內(nèi)部的數(shù)據(jù)密集型或性能密集型計(jì)算工作負(fù)載都將遷移到云原生架構(gòu)上。云原生AI利用云計(jì)算的彈性資源、異構(gòu)算力以及容器、自動(dòng)化、微服務(wù)等云原生技術(shù),提升AI/ML的工程效率,降低整體成本,提高可擴(kuò)展性,并實(shí)現(xiàn)端到端的解決方案。統(tǒng)一任務(wù)調(diào)度保障規(guī)模與性能統(tǒng)一資源管理持續(xù)優(yōu)化利用率AI異構(gòu)工作負(fù)載框架算法與場景Tensorflow
Pytorch
Deepspeed
Huggingface
LangchainD
o
c
k
e
r K
u
b
e
r
n
e
t
e
s K
u
b
e
f
l
o
w K
s
e
r
v
e F
l
u
i
d
M
L
F
l
o
w統(tǒng)一工作流,統(tǒng)一調(diào)度統(tǒng)一管理GPU異構(gòu)管理與彈性伸縮GPU共享單卡共享:模型推理場景多卡共享:分布式模型訓(xùn)練GPU監(jiān)控GPU
Exporter
+
NodeProblemDetectorAll-or-Nothing
任務(wù)任務(wù)組(Gang)內(nèi)的所有任務(wù)必須同時(shí)調(diào)度和執(zhí)行將任務(wù)打包到盡可能少的節(jié)點(diǎn)上,提高資源的使用效率。解決多租集群固定資源分配下,不同用戶使用周期不同導(dǎo)致資
源浪費(fèi)問題。智算服務(wù)可觀測需求與挑戰(zhàn)GPU壞卡檢測&自愈模型性能優(yōu)化資源利用率提升AI生產(chǎn)環(huán)境穩(wěn)定性保障云原生智算服務(wù)系統(tǒng)分層架構(gòu)生態(tài)擴(kuò)展、集成云IDC容器平臺異構(gòu)資源管理高性能計(jì)算、存儲、網(wǎng)絡(luò)任務(wù)調(diào)度和流水線AI作業(yè)生命周期管理任務(wù)性能優(yōu)化可觀測數(shù)據(jù)驅(qū)動(dòng)工具鏈、APIAI框架和運(yùn)行時(shí)優(yōu)化人工智能平臺PAI(PaaS)容器服務(wù)ACK(CaaS)智算服務(wù)PAI-靈駿(IaaS)CPU利用率、GPU利用率、GPU監(jiān)健康狀態(tài)、磁盤利用率、存儲(CPFS)I/O、網(wǎng)絡(luò)(RDMA)、GPU物理指標(biāo)云資源監(jiān)控Workload可觀測、控制面可觀測、GPU監(jiān)控、Ingress監(jiān)控、AI套件、異構(gòu)算力、事件、審計(jì)容器可觀測模型評估模型訓(xùn)練可觀測模型任務(wù)監(jiān)控?cái)?shù)據(jù)質(zhì)量RAG診斷模型推理可觀測模型監(jiān)控AB測試迫切需要一款采集器:全面的數(shù)據(jù)采集能力、靈活的數(shù)據(jù)處理強(qiáng)大的彈性能力性能好、資源開銷低、穩(wěn)定可靠支持多租管控能力強(qiáng),易用???????下一代開源可觀測PipelineiLogtail下一代可觀測Pipeline可觀測數(shù)據(jù)采集本地計(jì)算服務(wù)發(fā)現(xiàn)日志采集日志處理LoongCollector是一款集卓越性能、超強(qiáng)穩(wěn)定性和靈活可編程性于一身的數(shù)據(jù)采集器,專為構(gòu)建下一代可觀測性數(shù)據(jù)傳輸Pipeline
設(shè)計(jì)。1、可觀測性統(tǒng)一Agent(Unified
Observability
Agent)2、端到端可觀測Pipeline(End-to-End
Observability
Pipeline)定位SCOPE擴(kuò)展Star
1.7K裝機(jī)量1000W數(shù)據(jù)量100PB/天iLogtail廣泛的數(shù)據(jù)接入高性能高可靠可編程性可管控性云原生支持多租隔離中間件協(xié)議環(huán)境MetricsTracesEventsProfilesLogsTelemetry輸入輸出SLS設(shè)計(jì)注重性能與可靠性一個(gè)輕量、高效、穩(wěn)定、可靠的架構(gòu),能夠?qū)崿F(xiàn)高吞吐量,同時(shí)保持較低的CPU
和內(nèi)存開銷。日志流量日志生產(chǎn)速率Agent采集速率(/s)CPU(%)內(nèi)存(MB)50M45000/slog
mock參數(shù):logs-per-sec=1000pod=
15Filebeaector1963019581Rsyslog2843812317iLogtail44886251110Fluent
Bit713110645iLogtail在采集速率上優(yōu)勢明顯?!缎阅芘c可靠的超強(qiáng)碰撞!第三方測評開源日志采集器》持續(xù)的性能突破事件驅(qū)動(dòng)模型
基于時(shí)間片調(diào)度無鎖化內(nèi)存管理精益求精Memory
Arena:減少內(nèi)存分配
Zero
Copy:減少內(nèi)存拷貝通用反饋隊(duì)列機(jī)制高低水位反壓控制At-Least-Once語義保證Pipeline多租隔離數(shù)據(jù)流隔離優(yōu)先級保證可持久化緩沖-容忍短時(shí)環(huán)境異常數(shù)據(jù)不丟TaskTaskTaskTaskTaskSchema-free
處理(parsejson/csv/regex)Schema-free
處理(project-away/keep)Schema固定
(where/extend)列式模型向量化執(zhí)行動(dòng)態(tài)列InputC++/GoFlusherC++/Go擴(kuò)展插件GoPipeline自定義擴(kuò)展靈活組合事件驅(qū)動(dòng)模型通用數(shù)據(jù)模型(EventGroup)多語言Plugin
引擎原生插件C++PipelineSPL
引擎可編程引擎分類特點(diǎn)多語言Plugin引擎原生插件C++實(shí)現(xiàn),開發(fā)門檻中性能高,資源開銷極低較完善的算子能力擴(kuò)展插件Golang實(shí)現(xiàn),開發(fā)門檻低較高的性能,資源開銷低較完善的算子能力SPL引擎SPL引擎C++實(shí)現(xiàn)列式模型,向量化執(zhí)行性能高,資源開銷低
全面的算子能力管道式設(shè)計(jì),可以處理復(fù)雜數(shù)據(jù)IP型機(jī)器組增強(qiáng)型機(jī)器組(基于ECS屬性,即將支持)標(biāo)識型機(jī)器組(相同user_defined_id)Collector
(IP1)Collector
(IP2)Collector
(IP3)Collector
(IP4)Collector
(IP5)Collector
(IP6)采集配置1采集配置2采集配置3Collector(標(biāo)識1)Collector(標(biāo)識1)Collector(標(biāo)識1)Collector(標(biāo)識1)Collector(標(biāo)識2)Collector(標(biāo)識2)Collector
(TagA)Collector
(TagA)Collector
(TagA)Collector
(TagA)Collector
(TagB)Collector
(TagB)控制臺SDKCRD商業(yè)版管控百萬級機(jī)器管控、靈活分組及采集配置分發(fā)支持采集配置、進(jìn)程配置、自定義命令開源版管控服務(wù)(完全開源,可自由擴(kuò)展)托管版管控服務(wù)(免運(yùn)維,敬請期待)任何遵守開源管控協(xié)議v2的自有實(shí)現(xiàn)管控誰可以管控LoongCollector?商業(yè)版管控(百萬級機(jī)器管控,企業(yè)級穩(wěn)定性)開放的管控協(xié)議為不同來源與架構(gòu)的Agent
提供一個(gè)標(biāo)準(zhǔn)化、可互操作的框架,促進(jìn)配置管理的自動(dòng)化建設(shè)。行業(yè)對比大類子類LoongCollectorFluentBitOpenTelemetryCollectorVector采集能力日志強(qiáng)。采集、處理插件豐富。尤其是K8s友好,在Stdout采集、AutoTagging方面表現(xiàn)優(yōu)異。強(qiáng)中中指標(biāo)較強(qiáng)。主機(jī)等場景原生支持、Prometheus抓取。后續(xù)通過eBPF能力持續(xù)增強(qiáng)。中。剛起步。較強(qiáng)。數(shù)據(jù)源較全,但是較多處于Alpha階段。中跟蹤中。主要作為代理場景。中。主要作為代理場景。強(qiáng)中性能與可靠性性能與資源開銷性能:高。日志場景極簡單核400M/s。資源開銷:低性能:高
資源開銷:低性能:中資源開銷:高性能:中
資源開銷:中可靠性完善的checkpoint機(jī)制多級高低水位反饋隊(duì)列多租隔離整體資源控制可選的磁盤緩沖隊(duì)列完善的
checkpoint機(jī)制.可選的磁盤緩沖隊(duì)列插件統(tǒng)一發(fā)送重試框架緩沖區(qū)模型事件確認(rèn)機(jī)制大類子類LoongCollectorFluentBitOpenTelemetryCollectorVector可編程能力插件開發(fā)語言C++、GoC++、Go、Lua、WebAssemblyGoRust高級處理語法SPL處理/編排能力強(qiáng)、性能高基于SQL的
StreamProcessorOpenTelemetryTransformationLanguage(OTTL)VRLPipeline能力多語言Pipeline,可組合性高基于TagMatch實(shí)現(xiàn)基于Connector插件基于
Inputs參數(shù)指定上游插件管控全局管控開放的管控協(xié)議支持機(jī)器組、心跳管理配置熱加載能力
ConfigServer實(shí)現(xiàn)無OpAMP
Server無K8sOperator與CRD商業(yè)版支持,開源敬請期待FluentOperatorOpenTelemetryOperator無智算服務(wù)可觀測Pipeline技術(shù)實(shí)踐智算服務(wù)可觀測方案可視化告警RoCE
RDMA
網(wǎng)絡(luò)并行文件存儲CPFSGPU計(jì)算節(jié)點(diǎn)GPU計(jì)算節(jié)點(diǎn)GPU計(jì)算節(jié)點(diǎn)存儲指標(biāo)存儲日志存儲智算集群Master節(jié)點(diǎn)控制面組件–LoongCollector
Operator
Master節(jié)點(diǎn)APIServerScraper
Processor
FlusherTargetAllocatorServiceDiscoverWorkerManagerAutoScalerConfigManager采集目標(biāo)Target
1Target
2Target
3…Target
NNode
ExporterNVIDIA
DCGMExporterMetrics
ServerCustom
ExporterWorker管理、服務(wù)發(fā)現(xiàn)、負(fù)載均衡、水平擴(kuò)容、平滑升級Scraper
Processor
FlusherScraper
Processor
FlusherScraper
Processor
FlusherLoongCollector
Worker
實(shí)例組Worker1
–
LoongCollectorWorker2
–
LoongCollectorWorker3
–
LoongCollectorWorker..
–
LoongCollectorWorker
n–
LoongCollectorFlusherProcessorScraper采集目標(biāo)發(fā)現(xiàn)云產(chǎn)品用戶穩(wěn)定:托管環(huán)境提供99.95%可用性的服務(wù)性能:可水平擴(kuò)展的架構(gòu)滿足萬級目標(biāo)抓取可觀測:豐富的自監(jiān)控指標(biāo)實(shí)現(xiàn)數(shù)據(jù)可解釋云產(chǎn)品工程師運(yùn)維:無損重啟、升級確保用戶監(jiān)控不中斷效能:自動(dòng)均衡與水平擴(kuò)容解放支持工作量容器GPU監(jiān)控能力GPU壞卡狀態(tài)檢測多集多卡AI訓(xùn)練,存儲時(shí)延增加導(dǎo)致GPU等待高性能計(jì)算,重負(fù)載情況下時(shí)延增加,毛刺增多耦合性易用性性價(jià)比靈活性高性能隔離性DaemonSet模式:K8s每個(gè)Node部署一個(gè)日志
Agent。負(fù)責(zé)采集當(dāng)前Node所有容器標(biāo)準(zhǔn)輸??、文件日志或宿主機(jī)文件。Sidecar模式:一個(gè)POD中運(yùn)行一個(gè)Sidecar日志Agent容器。僅采集該P(yáng)OD內(nèi)業(yè)務(wù)容器產(chǎn)生的文件日志。Logging-
E.g.
IngressLogging
-
AuditLogging
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁電解筑爐工安全行為評優(yōu)考核試卷含答案
- 紡絲凝固浴液配制工崗前客戶服務(wù)考核試卷含答案
- 盲文印刷員安全宣傳模擬考核試卷含答案
- 浸泡型果酒釀造工崗前安全意識考核試卷含答案
- 入團(tuán)申請書800字書信格式
- 2025年傳統(tǒng)銀飾合作協(xié)議書
- 2025年碳纖維正交三向織物項(xiàng)目發(fā)展計(jì)劃
- 2025年捆鈔機(jī)合作協(xié)議書
- 2025年廣播信號傳輸服務(wù)項(xiàng)目發(fā)展計(jì)劃
- 2025年抄紙助劑項(xiàng)目合作計(jì)劃書
- 通信設(shè)備用電安全培訓(xùn)課件
- 方太企業(yè)培訓(xùn)課件
- 水上平臺施工安全培訓(xùn)課件
- 中秋福利采購項(xiàng)目方案投標(biāo)文件(技術(shù)方案)
- 固態(tài)電池技術(shù)在新能源汽車領(lǐng)域的產(chǎn)業(yè)化挑戰(zhàn)與對策研究
- 手術(shù)部(室)醫(yī)院感染控制標(biāo)準(zhǔn)WST855-2025解讀課件
- 二氧化硅氣凝膠的制備技術(shù)
- 湖南省岳陽市平江縣2024-2025學(xué)年高二上學(xué)期期末考試語文試題(解析版)
- 2024-2025學(xué)年湖北省武漢市江漢區(qū)七年級(下)期末數(shù)學(xué)試卷
- 常規(guī)體檢指標(biāo)講解
- 新人教版高中數(shù)學(xué)必修第二冊-第八章 立體幾何初步 章末復(fù)習(xí)【課件】
評論
0/150
提交評論