版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
為大規(guī)模AI構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)挑戰(zhàn)與實(shí)踐面向AI存儲(chǔ)構(gòu)建下一
代混合云存儲(chǔ)的方案AI存儲(chǔ)在混合云場景
下面臨的技術(shù)挑戰(zhàn)CubeFS支撐AI存儲(chǔ)
的技術(shù)要點(diǎn)與實(shí)踐
01AI數(shù)據(jù)存儲(chǔ)的特點(diǎn)目
錄030402AI數(shù)據(jù)存儲(chǔ)的特點(diǎn)云原生基礎(chǔ)設(shè)施任務(wù)調(diào)度彈性訓(xùn)練數(shù)據(jù)加速數(shù)據(jù)管理預(yù)熱大數(shù)據(jù)集成SparkRAY推理推理引擎事件處理IDE作業(yè)管理
AI整體架構(gòu)pytorch
/
tensorFlowAdRmendation基礎(chǔ)資源AI平臺(tái)/服務(wù)ChatGpt
|
LLAMA
…
…ADS-GPTBreenoPOSIXHDFSRDMAGPU|NPUCPUOSSNotebookGangsGpuarenaGPU拓?fù)淞魉€生命周期kubeflowCodeDeepSpeed
框架共享S3/HDFS緩存模型存儲(chǔ)與
管理分布式訓(xùn)練
AI全流程與存儲(chǔ)對(duì)照AI存儲(chǔ)在混合云場景下面臨的技術(shù)挑戰(zhàn)1.計(jì)算資源需求:隨著數(shù)據(jù)點(diǎn)和參數(shù)的增加,訓(xùn)練這些模型所需的計(jì)算資源和時(shí)間大幅提升。2.
性能提升:更大的數(shù)據(jù)集和更復(fù)雜的模型通??梢蕴岣吣P偷男阅?,使其在各種任務(wù)中表現(xiàn)得更加出色。3.挑戰(zhàn):雖然更大的數(shù)據(jù)和參數(shù)量可以提升性能,但也帶來了數(shù)據(jù)管理、訓(xùn)練時(shí)間、模型部署和環(huán)境影響等方面的新挑戰(zhàn)。
模型數(shù)據(jù)集規(guī)模提升
模型算力需求提升時(shí)效性全量、增量更新預(yù)熱能力緩存能力、
淘汰能力
安全技術(shù)吞吐能力
模型分發(fā)效率要求提升
地域分布需求?
存儲(chǔ)成本?
存儲(chǔ)單價(jià)?
多份存儲(chǔ)成本疊加?時(shí)間成本——全量同步+增量同步?
運(yùn)營成本——云服務(wù)vs
自營團(tuán)隊(duì)?
技術(shù)難度?
實(shí)效性?
一致性?安全 Tencent
V100
公有云存儲(chǔ) Ali
A100
公有云存儲(chǔ) Azure
H100
公有云存儲(chǔ)
AWS
H200
公有云存儲(chǔ)………私有云存儲(chǔ)FLOPS*
NIOPS*
N…CubeFS支撐AI
存儲(chǔ)的技術(shù)要點(diǎn)與實(shí)踐籌備畢業(yè)Mar:
審計(jì),穩(wěn)定性提升
Aug:
原子性,
穩(wěn)定性提升,quota
目錄配額DEC:
回收站
重大版本Jan:
多AZ故障域Apr:
Erasure-codeJun:
孵化成功Aug:
QoS流控
&
Cache
acc強(qiáng)化Mar:
穩(wěn)定性增強(qiáng)Oct:
Remote
shuffle發(fā)起Mar:
開源Dec:
加入CNCF
Sandbox2024增強(qiáng)Jan:
通過第三方安全審計(jì)
Apr:
穩(wěn)定性提升
&
S3OCT:自動(dòng)化遷移
CubeFS歷史簡介快速迭代Apr:
S3
接口支持
OCT:
HDFS
兼容2020
2021
2022
20232019
CubeFS架構(gòu)關(guān)鍵特性?多協(xié)議(S3,
HDFS,
POSIX)兼容?
多引擎:副本/糾刪碼?
可擴(kuò)展、
強(qiáng)一致性
?云原生?
數(shù)據(jù)智能分層?加速能力(RDMA、緩存)可用性元數(shù)據(jù)子系統(tǒng)采用三副本的策略,
可用性從99.9%提升至99.99%。元數(shù)據(jù)性能全內(nèi)存的元數(shù)據(jù)策略,
平均時(shí)
延縮短至1ms。運(yùn)維成本簡潔的架構(gòu)設(shè)計(jì),
運(yùn)維成本大幅
度降低,擴(kuò)容更簡便。
OPPO
AI
訓(xùn)練架構(gòu)統(tǒng)一存儲(chǔ)底座:
不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)
的第一個(gè)落腳點(diǎn)。數(shù)據(jù)互通:多協(xié)議共享一套數(shù)據(jù),提
高數(shù)據(jù)流轉(zhuǎn)效率。
多協(xié)議接入數(shù)據(jù)兼容技術(shù)
混合云冷熱分層技術(shù)平衡計(jì)算性能和存儲(chǔ)成本:熱數(shù)據(jù)保留在性能更高的的存儲(chǔ)介質(zhì),冷數(shù)據(jù)轉(zhuǎn)移到存儲(chǔ)成本更低的介質(zhì)。基于目錄的生命周期策略配置:
操作簡單,降冷過程無需人工干預(yù),節(jié)省運(yùn)維人力成本。基于租約的降冷策略:
降冷過程不影響業(yè)務(wù)對(duì)存儲(chǔ)的訪
問。共享內(nèi)存環(huán):
數(shù)據(jù)拷貝到sendbuf中,
再通過RDMA
write直接高效的寫入到recvBuf中。更高的數(shù)據(jù)寫入效率:
數(shù)據(jù)的傳輸過程繞過
內(nèi)核和協(xié)議層之間的數(shù)據(jù)拷貝,全程不需要
CPU接入。收益:寫鏈路30%左右的性能提升
RDMA
鏈路加速技術(shù)flash
group
分布式緩存技術(shù)flash
groupfile
1M1M1M1Mfile1M1M1M1Mzone1
zone2
zone3Consistent
HashingcachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodecachenodeErasure
Code
StorageReplica
Storageflash
groupfile2file3file2
file3volume2volume1slot
分布式緩存技術(shù)?
RESNET18:使用
1個(gè)和
16個(gè)Dataloader工作線程時(shí),性能分別提高了
360%和
114%。?AlexNet顯示,使用
16個(gè)和
24個(gè)Dataloader工作線程時(shí),性能分別提高了
130%和80%。?相比私有云部署也有12%~27%的性能提升。983875
893832578459
454348
34213028 公有云GPU-加速1057RESNET18-w(1)RESNET18-w(16)AlexNet-w(16)AlexNet-w(24)RESNET50
私有云GPU1049 公有云GPU-未加速基準(zhǔn)性測試330112DataLoader:
讓訓(xùn)練數(shù)據(jù)的讀取過程和模型的訓(xùn)練過程并行起來,從而提升GPU的訓(xùn)練效率。訓(xùn)練數(shù)據(jù)預(yù)加載:通過批量下載提前將下一批次的訓(xùn)
練數(shù)據(jù)加載到內(nèi)存;繞過內(nèi)核。
AI
框架插件預(yù)加載面向AI存儲(chǔ)構(gòu)建下一代混合云存儲(chǔ)的方案?
基于生命周期的數(shù)據(jù)冷熱分層?除了支持自身的存儲(chǔ)引擎外,還支持HDFS和
AWSS3等公共云存儲(chǔ)。?支持多源異構(gòu)存儲(chǔ)編排?
基于生命周期的云內(nèi)外數(shù)據(jù)彈性調(diào)度ExternalStorage…ClickHouseCubeFS
多云數(shù)據(jù)智能調(diào)度Unified
NamespaceUnified
MetadataManagementUnified
Caching
AccelerationS3HDFSPOSIXDataSynchronizationDataMigrationDataArchivingAWS
S3LifecycleApplicationBigDataPosixGCPOSSAIES………ComputingApplicationKernel
FuseClient
ClientGDS
RDMAL1
CacheRDMAFlashgroupRDMAReplica
DataNodeReplicaMetaNodeMLApplicationKernel
FuseClient
ClientGDS
RDMAL1
CacheRDMAFlashgroupRDMAReplica
DataNodeReplicaMetaNodeKernel
FuseClient
ClientGDS
RDMAL1
CacheRDMAFlashgroupRDMAReplica
DataNodeReplicaMetaNode?GDS減少內(nèi)存拷貝?
內(nèi)核文件系統(tǒng)?全鏈路RDMAClientL1
CacheL2
Cachepersistence
layer
全鏈路加速OtherApplicationzone1
zone2
zone3cache
nodecache
nodecache
nodec
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 客服主管客戶滿意度與服務(wù)質(zhì)量面試題及答案
- 瓣葉對(duì)合指數(shù)的術(shù)中監(jiān)測與調(diào)整策略
- 冶金企業(yè)產(chǎn)品質(zhì)量檢測部經(jīng)理考試題目分析
- 狂犬病疫苗智能倉儲(chǔ)的冷鏈保障方案
- 汽車起重機(jī)司機(jī)模擬考試題庫含答案
- 工業(yè)設(shè)計(jì)師招聘面試問題集與答案參考
- 電影制片人面試題及答案解析
- 創(chuàng)意家居飾品項(xiàng)目可行性分析報(bào)告范文(總投資15000萬元)
- 美容行業(yè)客服經(jīng)理面試題與答案
- 采購部評(píng)標(biāo)專家面試題及答案
- 危險(xiǎn)化學(xué)品泄漏處理
- 醫(yī)學(xué)一等獎(jiǎng)《白血病》課件
- JCT587-2012 玻璃纖維纏繞增強(qiáng)熱固性樹脂耐腐蝕立式貯罐
- 金屬制品廠電泳生產(chǎn)線安全風(fēng)險(xiǎn)分級(jí)清單
- 醫(yī)療器械臨床評(píng)價(jià)報(bào)告模板
- 生物計(jì)算機(jī)課件
- 浙江省優(yōu)秀安裝質(zhì)量獎(jiǎng)創(chuàng)優(yōu)計(jì)劃申報(bào)表實(shí)例
- 新時(shí)代背景下企業(yè)人力資源管理的數(shù)字化轉(zhuǎn)型探研共3篇
- 奧的斯電梯toec-40調(diào)試方法
- 化工原理(下)第4章液液萃取
- 重點(diǎn)監(jiān)管的危險(xiǎn)化學(xué)品名錄(完整版)
評(píng)論
0/150
提交評(píng)論