為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐_第1頁
為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐_第2頁
為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐_第3頁
為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐_第4頁
為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐面向AI存儲(chǔ)構(gòu)建下一

代混合云存儲(chǔ)的方案AI存儲(chǔ)在混合云場景

下面臨的技術(shù)挑戰(zhàn)CubeFS支撐AI存儲(chǔ)

的技術(shù)要點(diǎn)與實(shí)踐

01AI數(shù)據(jù)存儲(chǔ)的特點(diǎn)目

錄030402AI數(shù)據(jù)存儲(chǔ)的特點(diǎn)云原生基礎(chǔ)設(shè)施任務(wù)調(diào)度彈性訓(xùn)練數(shù)據(jù)加速數(shù)據(jù)管理預(yù)熱大數(shù)據(jù)集成SparkRAY推理推理引擎事件處理IDE作業(yè)管理

AI整體架構(gòu)pytorch

/

tensorFlowAdRmendation基礎(chǔ)資源AI平臺(tái)/服務(wù)ChatGpt

|

LLAMA

…ADS-GPTBreenoPOSIXHDFSRDMAGPU|NPUCPUOSSNotebookGangsGpuarenaGPU拓?fù)淞魉€生命周期kubeflowCodeDeepSpeed

框架共享S3/HDFS緩存模型存儲(chǔ)與

管理分布式訓(xùn)練

AI全流程與存儲(chǔ)對(duì)照AI存儲(chǔ)在混合云場景下面臨的技術(shù)挑戰(zhàn)1.計(jì)算資源需求:隨著數(shù)據(jù)點(diǎn)和參數(shù)的增加,訓(xùn)練這些模型所需的計(jì)算資源和時(shí)間大幅提升。2.

性能提升:更大的數(shù)據(jù)集和更復(fù)雜的模型通??梢蕴岣吣P偷男阅?,使其在各種任務(wù)中表現(xiàn)得更加出色。3.挑戰(zhàn):雖然更大的數(shù)據(jù)和參數(shù)量可以提升性能,但也帶來了數(shù)據(jù)管理、訓(xùn)練時(shí)間、模型部署和環(huán)境影響等方面的新挑戰(zhàn)。

模型數(shù)據(jù)集規(guī)模提升

模型算力需求提升時(shí)效性全量、增量更新預(yù)熱能力緩存能力、

淘汰能力

安全技術(shù)吞吐能力

模型分發(fā)效率要求提升

地域分布需求?

存儲(chǔ)成本?

存儲(chǔ)單價(jià)?

多份存儲(chǔ)成本疊加?時(shí)間成本——全量同步+增量同步?

運(yùn)營成本——云服務(wù)vs

自營團(tuán)隊(duì)?

技術(shù)難度?

實(shí)效性?

一致性?安全 Tencent

V100

公有云存儲(chǔ) Ali

A100

公有云存儲(chǔ) Azure

H100

公有云存儲(chǔ)

AWS

H200

公有云存儲(chǔ)………私有云存儲(chǔ)FLOPS*

NIOPS*

N…CubeFS支撐AI

存儲(chǔ)的技術(shù)要點(diǎn)與實(shí)踐籌備畢業(yè)Mar:

審計(jì),穩(wěn)定性提升

Aug:

原子性,

穩(wěn)定性提升,quota

目錄配額DEC:

回收站

重大版本Jan:

多AZ故障域Apr:

Erasure-codeJun:

孵化成功Aug:

QoS流控

&

Cache

acc強(qiáng)化Mar:

穩(wěn)定性增強(qiáng)Oct:

Remote

shuffle發(fā)起Mar:

開源Dec:

加入CNCF

Sandbox2024增強(qiáng)Jan:

通過第三方安全審計(jì)

Apr:

穩(wěn)定性提升

&

S3OCT:自動(dòng)化遷移

CubeFS歷史簡介快速迭代Apr:

S3

接口支持

OCT:

HDFS

兼容2020

2021

2022

20232019

CubeFS架構(gòu)關(guān)鍵特性?多協(xié)議(S3,

HDFS,

POSIX)兼容?

多引擎:副本/糾刪碼?

可擴(kuò)展、

強(qiáng)一致性

?云原生?

數(shù)據(jù)智能分層?加速能力(RDMA、緩存)可用性元數(shù)據(jù)子系統(tǒng)采用三副本的策略,

可用性從99.9%提升至99.99%。元數(shù)據(jù)性能全內(nèi)存的元數(shù)據(jù)策略,

平均時(shí)

延縮短至1ms。運(yùn)維成本簡潔的架構(gòu)設(shè)計(jì),

運(yùn)維成本大幅

度降低,擴(kuò)容更簡便。

OPPO

AI

訓(xùn)練架構(gòu)統(tǒng)一存儲(chǔ)底座:

不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)

的第一個(gè)落腳點(diǎn)。數(shù)據(jù)互通:多協(xié)議共享一套數(shù)據(jù),提

高數(shù)據(jù)流轉(zhuǎn)效率。

多協(xié)議接入數(shù)據(jù)兼容技術(shù)

混合云冷熱分層技術(shù)平衡計(jì)算性能和存儲(chǔ)成本:熱數(shù)據(jù)保留在性能更高的的存儲(chǔ)介質(zhì),冷數(shù)據(jù)轉(zhuǎn)移到存儲(chǔ)成本更低的介質(zhì)。基于目錄的生命周期策略配置:

操作簡單,降冷過程無需人工干預(yù),節(jié)省運(yùn)維人力成本。基于租約的降冷策略:

降冷過程不影響業(yè)務(wù)對(duì)存儲(chǔ)的訪

問。共享內(nèi)存環(huán):

數(shù)據(jù)拷貝到sendbuf中,

再通過RDMA

write直接高效的寫入到recvBuf中。更高的數(shù)據(jù)寫入效率:

數(shù)據(jù)的傳輸過程繞過

內(nèi)核和協(xié)議層之間的數(shù)據(jù)拷貝,全程不需要

CPU接入。收益:寫鏈路30%左右的性能提升

RDMA

鏈路加速技術(shù)flash

group

分布式緩存技術(shù)flash

groupfile

1M1M1M1Mfile1M1M1M1Mzone1

zone2

zone3Consistent

HashingcachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodeErasure

Code

StorageReplica

Storageflash

groupfile2file3file2

file3volume2volume1slot

分布式緩存技術(shù)?

RESNET18:使用

1個(gè)和

16個(gè)Dataloader工作線程時(shí),性能分別提高了

360%和

114%。?AlexNet顯示,使用

16個(gè)和

24個(gè)Dataloader工作線程時(shí),性能分別提高了

130%和80%。?相比私有云部署也有12%~27%的性能提升。983875

893832578459

454348

34213028 公有云GPU-加速1057RESNET18-w(1)RESNET18-w(16)AlexNet-w(16)AlexNet-w(24)RESNET50

私有云GPU1049 公有云GPU-未加速基準(zhǔn)性測試330112DataLoader:

讓訓(xùn)練數(shù)據(jù)的讀取過程和模型的訓(xùn)練過程并行起來,從而提升GPU的訓(xùn)練效率。訓(xùn)練數(shù)據(jù)預(yù)加載:通過批量下載提前將下一批次的訓(xùn)

練數(shù)據(jù)加載到內(nèi)存;繞過內(nèi)核。

AI

框架插件預(yù)加載面向AI存儲(chǔ)構(gòu)建下一代混合云存儲(chǔ)的方案?

基于生命周期的數(shù)據(jù)冷熱分層?除了支持自身的存儲(chǔ)引擎外,還支持HDFS和

AWSS3等公共云存儲(chǔ)。?支持多源異構(gòu)存儲(chǔ)編排?

基于生命周期的云內(nèi)外數(shù)據(jù)彈性調(diào)度ExternalStorage…ClickHouseCubeFS

多云數(shù)據(jù)智能調(diào)度Unified

NamespaceUnified

MetadataManagementUnified

Caching

AccelerationS3HDFSPOSIXDataSynchronizationDataMigrationDataArchivingAWS

S3LifecycleApplicationBigDataPosixGCPOSSAIES………ComputingApplicationKernel

FuseClient

ClientGDS

RDMAL1

CacheRDMAFlashgroupRDMAReplica

DataNodeReplicaMetaNodeMLApplicationKernel

FuseClient

ClientGDS

RDMAL1

CacheRDMAFlashgroupRDMAReplica

DataNodeReplicaMetaNodeKernel

FuseClient

ClientGDS

RDMAL1

CacheRDMAFlashgroupRDMAReplica

DataNodeReplicaMetaNode?GDS減少內(nèi)存拷貝?

內(nèi)核文件系統(tǒng)?全鏈路RDMAClientL1

CacheL2

Cachepersistence

layer

全鏈路加速OtherApplicationzone1

zone2

zone3cache

nodecache

nodecache

nodec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論