阿里云AI模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用_第1頁
阿里云AI模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用_第2頁
阿里云AI模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用_第3頁
阿里云AI模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用_第4頁
阿里云AI模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

AI

模型時代的多模態(tài)數(shù)據(jù)存儲、管理和應(yīng)用Alex

Chen阿里云智能集團-研究員2026

中國

AI支出占亞太的

58%智能客戶服務(wù),業(yè)務(wù)創(chuàng)新和自動化,銷售流程,IT

優(yōu)化,

欺詐分析2026

年亞太地區(qū)

AI

支出5

年復(fù)合增長

24.5%*Source:IDCWorldwideArtificialIntelligenceSpendingGuide,

2023GPU495

TFLOPSDPU2x200G

RDMA32

CoreAI

服務(wù)器144TB

Mem1EFLOPS萬卡集群XX分布式訓(xùn)練容錯多租戶隔離和調(diào)度規(guī)模復(fù)雜度軟件復(fù)雜度架構(gòu)復(fù)雜度原始數(shù)據(jù)集訓(xùn)練數(shù)據(jù)集數(shù)據(jù)預(yù)處理模型訓(xùn)練模型驗證反復(fù)訓(xùn)練優(yōu)化不斷訓(xùn)練優(yōu)化數(shù)據(jù)收集場景化精調(diào)模型驗證模型部署推理內(nèi)容安全模型部署服務(wù)推理結(jié)果輸出輸入內(nèi)存墻:模型參數(shù)量增長

10

倍算力:模型計算量增長

68

倍多模態(tài):從單一的文本(2

KB)變成文本、圖片(200

KB)、音視頻(MB)混合單個樣本的數(shù)據(jù)量(Token)大幅增加模型、參數(shù)量模型參數(shù)計算量GPT-3(175B)350GB314

ZFLOPSGPT-4(1800B)3.6TB21500

ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k單個樣本的Token

量20494096819232768GPT-3

模型訓(xùn)練內(nèi)存需求=

參數(shù)+梯度+優(yōu)化器+其他

>2.8TB

>>

80GB(

A100

顯存大小)GPU

顯存幾乎沒有變化,

GPU

單卡的算力只增長了

3

倍CPU

卡顯存大小計算量A100/A80080GB156

TFLOPSH100/H80080GB459

TFLOPS訓(xùn)練框架利用數(shù)據(jù)并行、模型并行、流水線并行等技術(shù)將數(shù)據(jù)、模型切片到

GPU

卡上分布式計算每個

iteration

結(jié)束時利用高速網(wǎng)絡(luò)在所有

GPU

all

reduce同步模型參數(shù)GPU

卡規(guī)模越大,對高速網(wǎng)絡(luò)、可靠存儲要求更高算法工程師要經(jīng)常檢查模型質(zhì)量,如果學(xué)習(xí)率不夠就要利用checkpoint

回溯、參數(shù)調(diào)優(yōu)后再繼續(xù)訓(xùn)練Initialize

trainingListfilesindatasetandshufflePrepareMP&

PP發(fā)Repeat(foreach

batch):ReadfileforthebatchTrainingAll

reduceCheckpointif

necessary//

隨機打散數(shù)據(jù)//

規(guī)劃模型并發(fā),

流水線并//

迭代多輪

iteration//

讀取一批數(shù)據(jù)用于訓(xùn)練//

所有

GPU

同步模型參數(shù)//

周期性

checkpoint1b

模型切片,加載到

GPU…

…GPT-3(175B)GPT-4(1800B)…

…模型分片F(xiàn)wd

Back數(shù)據(jù)分片4)all-reduce,

CPU更新模型參數(shù)CPU CPUCPU3)SGD

…all-reduce模型并行數(shù)據(jù)并行5)周期性生成checkpoint1)數(shù)據(jù)shuffle、切片 2)讀取數(shù)據(jù)集分片 iterations文件類型樣本數(shù)據(jù)集:海量小文件,比如

Laion-5B

數(shù)據(jù)量

250TB

,涉及文件數(shù)約

100億IO

Pattern每個

GPU

32

路并發(fā)讀集群并發(fā)讀

6百萬

QPSIO

Pattern大塊寫模型文件,16

GPU

節(jié)點

30秒寫完模型文件,單節(jié)點寫吞吐

1GB/s每張

GPU

卡單路大塊寫優(yōu)化器狀態(tài)文件,2048

卡并發(fā)寫總帶寬

48GB/s文件類型(以

200B

參數(shù)、2064

卡為例)模型文件:16x8

GPU

節(jié)點,128

3GB

文件,

384GB優(yōu)化器狀態(tài)文件:2048

GPU

zero

優(yōu)化器狀態(tài),2048個

1.2GB

文件,約2.4TBIO

Pattern每張

GPU

卡單路大塊讀模型文件、優(yōu)化器狀態(tài)文件,并發(fā)讀總帶寬

60GB/sCPUs…datapartdatapartdatapart… datapartdatasetCPUs…optimstatemodeloptimstateoptimstate…checkpointCPUs…optimstatemodeloptimstateoptimstate…checkpoint視頻文件小文件(特征幀)讀取文件寫小文件小文件讀取小文件小文件刪除小文件某客戶的視頻推理存儲性能需求視頻……第1幀第2幀第T

幀圖像分類模型圖像分類模型幀特征

x1幀特征

x2圖像分類模型幀特征

xT…………平均匯合視頻特征

z全連接層類別預(yù)測分布式元數(shù)據(jù):小文件規(guī)模最大

100

億,具備百萬

QPS

元數(shù)據(jù)處理能力,比如

lookup,

getattr,

open

等高性能存儲介質(zhì)和高性能網(wǎng)絡(luò):NVMe

SSD

2*100G

RDMA,checkpoint

大塊順序讀寫,低延時和高吞吐P2P

分布式讀緩存:每張

GPU

讀取同一份模型

checkpoint,集群并發(fā)讀,需要具備最高百

GB/s

吞吐能力數(shù)據(jù)并行寫:每張

GPU

讀寫各自的優(yōu)化器狀態(tài),集群并發(fā)寫,需要具備超過

50GB/s

吞吐能力CPFS數(shù)據(jù)服務(wù)全分布式架構(gòu)目錄樹服務(wù)目錄樹服務(wù)目錄樹服務(wù)數(shù)據(jù)服務(wù)目錄樹服務(wù)數(shù)據(jù)服務(wù) 數(shù)據(jù)服務(wù)400

Gbps

Lossy

RDMA文件鎖服務(wù)文件鎖服務(wù)文件鎖服務(wù)文件鎖服務(wù)CPFS

ClientElasticFile

ClientElasticFile

ClientElasticFile

Client分布式I/O計算節(jié)點并行與所有存儲服務(wù)器同時讀取數(shù)據(jù)目錄樹結(jié)構(gòu)切分到多臺服務(wù)節(jié)點支撐百億文件百億文件下仍可提供超高元數(shù)據(jù)性能實現(xiàn)目錄樹動態(tài)的負(fù)載均衡避免目錄熱點單個文件的讀寫均勻分布至多個存儲節(jié)點單集群最大支持

2TB/s

吞吐,

3000

IOPS客戶端支持鏈接層高可用,鏈路問題秒級別切換客戶端元數(shù)據(jù)緩存,查詢操作無需跨越網(wǎng)絡(luò)操作速度提升10

倍,與本地

EXT4

性能相媲美客戶端提供端到端

I/O

指標(biāo),便捷調(diào)查訪問熱點和

I/O

瓶頸客戶端分布式讀緩存,有效加速重復(fù)訪問的熱數(shù)據(jù)讀速度,帶寬和緩存池隨計算規(guī)模增大而提升萬卡GPU集群應(yīng)用文件客戶端CPFS存儲節(jié)點存儲節(jié)點ElasticFile

ClientElasticFile

Client元數(shù)據(jù)緩存GPU

服務(wù)器GPU

服務(wù)器AI

應(yīng)用

/

PAI-DLC、TensorFlow、PyTorch....存儲節(jié)點存儲節(jié)點多鏈接多鏈接元數(shù)據(jù)緩存分布式數(shù)據(jù)讀緩存....計算服務(wù)高性能文件存儲RDMA海量數(shù)據(jù)的存儲成本優(yōu)化OSS

提供低成本海量數(shù)據(jù)存儲最低

0.75分/GB/月事件驅(qū)動的高效元數(shù)據(jù)同步OSS

數(shù)據(jù)變動在

CPFS

中分鐘級可見數(shù)據(jù)塊粒度流動,多并發(fā)技術(shù)可實現(xiàn)百

Gbps

流動性能支持配合任務(wù)調(diào)度預(yù)加載或隨

I/O

讀取

LazyloadAI

訓(xùn)練PAI-DLC、Porch、TensorFlowCPFS

文件系統(tǒng)OSS

數(shù)據(jù)湖存儲對象接口POSIX

接口OSS

冷歸OSS檔數(shù)據(jù)和湖存深儲

度冷歸檔如何找到高質(zhì)量數(shù)據(jù)呢?高質(zhì)量的數(shù)據(jù)是模型迭代的核心生成

Bucket

維度的元數(shù)據(jù)管理庫支持

9

大類元數(shù)據(jù)索引條件篩選提供

5

種聚合輸出方式數(shù)十億文件秒級完成數(shù)據(jù)索引支持

Object

粒度的搜索與聚合數(shù)據(jù)更新后

10

秒內(nèi)更新至索引池數(shù)據(jù)管理 數(shù)據(jù)審計 數(shù)據(jù)監(jiān)管元數(shù)據(jù)組合條件索引 自定義聚合輸出秒級返回結(jié)果元數(shù)據(jù)管理庫存儲類型、讀寫權(quán)限、文件名、上傳類型、最后修改時間、文件大小、對象

tag、對象

Etag、對象版本對象存儲

OSS通過對存儲類型、Object

標(biāo)簽及最后修改時間等條件設(shè)定,快速完成

Bucket

的文件掃描實現(xiàn)秒級文件名模糊搜索、數(shù)據(jù)聚合、按

Object

標(biāo)簽進行文件篩選等能力提高數(shù)據(jù)掃描與管理效率業(yè)務(wù)案例:“汽車”“街道”“都市”標(biāo)簽但沒有“自駕游”這種對內(nèi)容具有概括能力的語義標(biāo)簽業(yè)務(wù)案例:“服裝”“綜藝”“美女”標(biāo)簽但沒有“明星走秀”這周對視頻具有內(nèi)容語義描述能力的標(biāo)簽原子標(biāo)簽對視頻描述能力不足堆疊標(biāo)簽數(shù)量無法滿足業(yè)務(wù)需求需要使用“原子標(biāo)簽+語義標(biāo)簽”的方式提高視頻理解深度蘋果小孩蘋果小孩小孩吃蘋果以文搜圖/視頻,圖搜圖/視頻以及“文字+圖片”組合搜索精確過濾等多種模態(tài)搜索模式非結(jié)構(gòu)化數(shù)據(jù)標(biāo)量索引向量索引全文索引圖片文本Embedding多模態(tài)圖像描述模型信息提取文本提取時空信息提取……分層共享存儲(Auto-tiered

Storage)寬表引擎索引引擎存儲引擎(Data

Storage

&

Index)通道引擎(CDC)數(shù)據(jù)訂閱數(shù)據(jù)投遞向量引擎(Proxima)AI

Embedding多模型接口(Multi-Model

&

APIs)

+向量

API 統(tǒng)一查詢接口(SQL) +向量

UDF以文搜圖、視頻、

文本、語音文本分割、問題分析(聊天歷史)、答案推理智能媒體管理分布式水平擴展全托管支持自定義

Schema

信息向量+條件過濾組合查詢大規(guī)模向量索引流式構(gòu)建向量狀態(tài)變更即時生效快速實現(xiàn)增刪改查功能大規(guī)模數(shù)據(jù)低延遲查詢自研高效查詢算法Proxiam

SEProxiam

DE實現(xiàn)了對大數(shù)據(jù)的高性能相似性搜索云原生分布式大規(guī)模向量的高性能、高可靠、高可用相似性搜索Proxiam

CE支持百萬量級TopK

向量召回支持多類目召回DashVector基于

Proxima

內(nèi)核面對非結(jié)構(gòu)化數(shù)據(jù)提供高效的向量管理和相似向量查詢功能與存儲原生集成無需移動,自動處理文本、圖片、視頻支持多模態(tài)內(nèi)容審核場景化構(gòu)建元數(shù)據(jù)管理快速實現(xiàn)應(yīng)用FPGA

硬件實現(xiàn)多種格式編碼,

熱點計算和壓縮對象存儲

OSS文件存儲

NAS文檔預(yù)覽與編輯文檔轉(zhuǎn)換AI

內(nèi)容審核圖片

AI語音識別數(shù)據(jù)管理與索引多媒體處理引擎索引聚類故事生成數(shù)據(jù)處理工作流網(wǎng)盤云相冊AI

應(yīng)用社交圖庫家庭監(jiān)控文件解壓縮讓不可能變?yōu)榭赡軕?yīng)用層的創(chuàng)新生產(chǎn)效率的提升體驗是競爭力:1

秒的延遲導(dǎo)致

7%

的用戶流失業(yè)務(wù)迭代快:55%

應(yīng)用每周或每天發(fā)布更新基礎(chǔ)設(shè)施與架構(gòu)革新:混合云、云原生容器化微服務(wù)

DevOps運維數(shù)據(jù)多樣化:數(shù)據(jù)容量、種類、可變性增加DevOps

為了調(diào)查問題,需花費數(shù)小時查找、對比、分析SecOps

為了調(diào)查

Case,需在百

TB

數(shù)據(jù)中抽絲剝繭數(shù)據(jù)聯(lián)合:融合分析、全鏈路可觀測更易使用:無需維護多套系統(tǒng)、易擴展、免運維降低噪聲:有效通知、便于正確響應(yīng)減少故障時間:自動檢測異常、快速根因診斷交互式根因分析NL2SQL智能問答時序/鏈路異常檢測日志自動標(biāo)注Trace

基礎(chǔ)模型時序基礎(chǔ)模型日志基礎(chǔ)模型log metric trace通義模型知識智能運維模型指標(biāo)異常檢測、日志文本智能分詞Trace

鏈路高延時診斷智能問答分析運維場景多模態(tài)數(shù)據(jù)基于通義千問

NL2Query

技術(shù)人工輔助微調(diào)人工標(biāo)注、結(jié)果打標(biāo)修正模型根據(jù)人工反饋自動微調(diào)基礎(chǔ)模型開箱即用快速擴容和服務(wù)遷移通用模型靈活擴展游戲服務(wù)系統(tǒng)調(diào)用、依賴關(guān)系復(fù)雜,任何階段出問題都可能導(dǎo)致游戲操作失敗或卡頓,影響玩家用戶體驗根據(jù)服務(wù)中的

Trace

數(shù)據(jù)自動生成拓?fù)鋱D圍繞高延時分析、高錯誤率分析、系統(tǒng)熱點和瓶頸進行分析和診斷縮短問題處理時間,優(yōu)化系統(tǒng)延時在海量

Trace

中快速定位異常根因和性能瓶頸無需人工干預(yù),提高大規(guī)模分布式系統(tǒng)異常定位效率數(shù)千請求秒級定位根因,在生產(chǎn)中準(zhǔn)確率達(dá)

95%探測導(dǎo)致

Trace

高延時或錯誤的服務(wù)關(guān)聯(lián)

Log/Trace/Metric,自動檢測根因預(yù)測微服務(wù)系統(tǒng)的性能瓶頸將

Trace

聚合,找到

Trace

Pattern快速找到相同錯誤類型的報錯15:23

共有

1

個入口服務(wù)產(chǎn)生

2880

條慢

Trace

其中入口服務(wù)

Front-end

POST/jordrg

發(fā)現(xiàn)次數(shù)最多共出現(xiàn)

2880

次占100.0%在根因分析結(jié)果中,主機

pay-ment-5b7dBd684b-zjtzv

出現(xiàn)比例最高,其中共出現(xiàn)

2892

次占

34.0%在根因分析結(jié)果中,服務(wù)

payment

出現(xiàn)比例最高,其中共出現(xiàn)

2892

次占

99.0%在根因分析結(jié)果中,方法

POST/payment-tAuth

出現(xiàn)比例最高,其中共出現(xiàn)

2892

次占

99.0%SLS

Mall

共有

12

個服務(wù),45

個入口接口,在選擇的時間段中,共產(chǎn)生了

1641195條Trace,其中請求平均延遲

21288.11ms全棧數(shù)據(jù)關(guān)聯(lián)分析異常檢測故障檢測智能化診斷AI

基礎(chǔ)設(shè)施IT

優(yōu)化GPU495TFLOPSDPU2x200G

RDMA32

CoreAI

服務(wù)器144TB

Mem,1EFLOPS大規(guī)模高性能網(wǎng)絡(luò)高性能低成本存儲靈駿AIOps

業(yè)務(wù)流程收集:

構(gòu)建

AI

基礎(chǔ)設(shè)施的可觀測數(shù)據(jù)資源池,簡化數(shù)據(jù)訪問組織:

優(yōu)化數(shù)據(jù)治理,改善數(shù)據(jù)質(zhì)量,提高訪問效率分析:

“數(shù)據(jù)”+“建?!?,高效分析關(guān)聯(lián)數(shù)據(jù)洞察:智能化診斷,實現(xiàn)高效的問題定位AI

應(yīng)用融合分析訓(xùn)練效率與準(zhǔn)確率數(shù)據(jù)效率與安全性統(tǒng)一的數(shù)據(jù)視圖以數(shù)據(jù)為基礎(chǔ)AIOps

通過收集、組織、分析和融合數(shù)據(jù),實現(xiàn)對

AI

基礎(chǔ)設(shè)施的監(jiān)控管理和智能異常分析數(shù)據(jù)準(zhǔn)備模型訓(xùn)練與部署應(yīng)用與內(nèi)容生成內(nèi)容分發(fā)與協(xié)作數(shù)據(jù)準(zhǔn)備/分析/標(biāo)注

模型持久化內(nèi)容安全管理內(nèi)容分發(fā)協(xié)作模型訓(xùn)練與推理Hadoop

應(yīng)用HTTP

應(yīng)用HDFS

協(xié)議

/

OSS

對象協(xié)議HDFS

元數(shù)據(jù)(目錄分層空間)對象元數(shù)據(jù)(扁平命名空間)AI

訓(xùn)練與推理文件存儲

CPFSPOSIX/MPI-IO/NFS文本違規(guī)檢測圖片違規(guī)檢測視頻違規(guī)檢測圖片水印版權(quán)溯源原圖保護IMM&OSS

數(shù)據(jù)處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論