版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
華為昇騰
AI
解決方案把握DeepSeek時(shí)刻,攜手同行華為昇騰AI基礎(chǔ)軟硬件介紹DeepSeek
洞察及昇騰適配進(jìn)展○ozEnis212Huawei
Proprietary-Restricted
DistributionNLP自然語(yǔ)言處理2017谷歌發(fā)布首個(gè)
Transformer架
構(gòu)
模
型2012
AlexNet模型能力突破開(kāi)
啟CV
時(shí)
代2015
Resnet效率與成本雙突破CV全面普及·
DS
對(duì)強(qiáng)化學(xué)習(xí)的創(chuàng)新使用,可以讓大模型便捷的獲得
通用性+專(zhuān)用性,可以滿(mǎn)足各應(yīng)用場(chǎng)景需求·
DS對(duì)通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的極致工程優(yōu)化,
大幅提升AI的計(jì)算效率,提升模型落地經(jīng)濟(jì)性
DeepSeek
是A
發(fā)展史上的一個(gè)關(guān)鍵里程碑,但遠(yuǎn)未達(dá)到AI終點(diǎn)訓(xùn)練資源·隨
著DeepSeek
提供了
一
種高效率訓(xùn)練的方法,同等
算力規(guī)??梢蕴剿鞲鼜?qiáng)的模型能力·
在競(jìng)爭(zhēng)背景下,頭部玩家仍將追逐Scaling
Law,堅(jiān)
定
AI算力的戰(zhàn)略投資,加速探索下
一
代AI技
術(shù)3
Huawei
Proprietary-Restricted
Distribution重新定義Scaling
Law延續(xù)智能涌現(xiàn)的方向DeepSeek-R1
進(jìn)一步驗(yàn)證“算力即性能”Scaling
Law升級(jí),模型能力=算力x
數(shù)據(jù)x
思考AI
模型算法:GPT、LLaMA
AI
框架:PY、TF異構(gòu)計(jì)算架構(gòu):CUDA互聯(lián)技術(shù):NV
LinkA
芯
片
:NV、AMD雙輪驅(qū)動(dòng)互鎖戰(zhàn)略堅(jiān)定+技術(shù)創(chuàng)新AI模型算法:DeepSeekAI框架:昇思、飛槳…異構(gòu)計(jì)算架構(gòu):CANN.…互聯(lián)技術(shù):靈衢AI芯片:昇騰、寒武紀(jì).…·
中國(guó)Al公司首次以關(guān)鍵創(chuàng)新貢獻(xiàn)者的身份加入到全球
AI競(jìng)爭(zhēng)中,沖擊美國(guó)AI霸
權(quán)·打破NV+OpenAI
的資金、技術(shù)、人才的壟斷,全球
重新思考中美技術(shù)路線(xiàn)的選擇泛化性和經(jīng)濟(jì)性大幅提升LLM
進(jìn)
入
"CVResnet時(shí)刻"補(bǔ)齊最后一塊自主創(chuàng)新的版圖
真正形成中美兩條AI技術(shù)路線(xiàn)下一代AI技術(shù)Mamba、
空間智能等算力x
數(shù)據(jù)x
思考算力x數(shù)據(jù)CV計(jì)算機(jī)視覺(jué)1998
LeNet首個(gè)CNN
架構(gòu)模型2025
DeepSeek
效率與成本雙突破NLP
全面普及2023
ChatGPT
模型能力突破開(kāi)啟NLP
時(shí)
代國(guó)家戰(zhàn)略清晰技術(shù)創(chuàng)新依賴(lài)資本投入+邏輯推理DeepSeek-V3/R1OpenAI-01/03模型效果低成本繞過(guò)CUDA
挖掘FP8硬件潛力,MOE
和MLA
技術(shù)實(shí)現(xiàn)不到10%的成本方案~150M$Llama3.1-405B訓(xùn)練成本硬件級(jí)優(yōu)化算法革命架構(gòu)創(chuàng)新工程奇跡開(kāi)源生態(tài)繞過(guò)GUDA進(jìn)行PTX編程計(jì)算與通信優(yōu)化,性能提升30%GRPO:群體進(jìn)化的智慧篩選器自我驗(yàn)證機(jī)制:AI的"錯(cuò)題本系統(tǒng)"混合專(zhuān)家模型的"智能路由器“
多頭潛在注意力MLA:空間壓縮術(shù)訓(xùn)練框架加速:16到3的量化壓縮,
通信降低89%推理加速:預(yù)加載,動(dòng)態(tài)批處理等 DeepSeek
V3:實(shí)現(xiàn)極致性能,稀疏MOE提質(zhì)降本低成本完美對(duì)標(biāo)OpenAI
O1,突破精確語(yǔ)義理解及復(fù)雜推理任務(wù)DeepSeek-V3
是一款MoE模型,總參數(shù)量671B,激活參數(shù)量37B,
采用2048張H800
(節(jié)點(diǎn)內(nèi)NVLink,節(jié)點(diǎn)間IB,
非超節(jié)點(diǎn)架構(gòu))在14.8Ttoken數(shù)據(jù)集上基于自
研HAI-LLM
訓(xùn)練系統(tǒng)總計(jì)訓(xùn)練了1394h(58.08天
)技術(shù)創(chuàng)新硬件級(jí)、算法級(jí)、架構(gòu)級(jí)、工程級(jí)、開(kāi)
源生態(tài)5大技術(shù)創(chuàng)新,轟動(dòng)全球DeepSeek-R1
推理成本僅為OpenAIo1
的
3
%4
HuaweiProprietary-Restricted
Distributionhingst
連能
*
ne
我
足DeepSeek,
很高興見(jiàn)到你!
aoo
味5.57M$DeepSeek-V3訓(xùn)
練成本來(lái)源:DeepSeek模型測(cè)試數(shù)據(jù)&互聯(lián)網(wǎng)(Qwen/LLaMa
1.5B7B
14B
32B70B)5
Huawei
Proprietary-Restricted
Distribution
HUAWEI
DeepSeek
R1:
在Reasoning
任務(wù)達(dá)到了世界水平(OpenAI-o1)Figure1|Benchmark
performance
ofDeepSeek-R1.DeepSeek-R1
以DeepSeek-V3
Base(671B)為基礎(chǔ)模型,使用GRPO
算法作為RL
框架來(lái)提升Reasoning
性能以2階段SFT+2
階段RL
完成,從而解決R1-Zero
可讀性差、多種
語(yǔ)言混合問(wèn)題本次開(kāi)源同時(shí)發(fā)布了6個(gè)基于DeepSeek-R1
蒸餾的更小稠密模型RI-ColdstartRLRasoing
ofanpe★陟Qw25158
0wm25.7BQm25148800cot,匿Qwen25328]ampleThouandsolCofsamplesRI-ColdstartSFT600RISFT200kNon-ReasoningCoT
samples
Rue-bsedRM{GRPO)+Model-basedRM0
Lhms3188OLhm33-708
Basemodeks→權(quán)重關(guān)系
一數(shù)據(jù)流向★
發(fā)布模型V3-baseRL
RilebasedRMGRPO?(Acaury+Format)R1-Zero+(Accur
l
g-
sstency)ge
conedRMasubnelauDeepSeek-R1技術(shù)路線(xiàn)*Depseck-RI-Distill
QwenLlama收重
初地化RI具體實(shí)現(xiàn)口只需存儲(chǔ)圖中的c,k"
即
可
;口考慮到矩陣乘法結(jié)合律,具體實(shí)現(xiàn)過(guò)程中Wuk
可以與WuQ
融合、Wuv
可以與
Wo融合,從而無(wú)需為每個(gè)query
計(jì)算key-value
值。Multi-HeadAttentionMulti-Head
LatentAttention(bs,h)bsh2bsh=lowKnp(bs,h)壓縮后寬度《隱藏層寬度昇騰
1.
推理階段,理論上可以將KV
Cache
降低1~2個(gè)數(shù)量級(jí),大幅減少HBM
存取和通信的開(kāi)銷(xiāo)。影響
2.對(duì)昇騰更親和,大幅降低對(duì)HBM依賴(lài),提升推理Decode
性能。Benchmark(Metric)ShotsSmall
MoE
Small
MoEw/MHA
w/MLALargeMoELargeMoEw/MHAw/MLAActivatedParamsTotalParamsKV
Cache
per
Token(#Element)2.5B15.88110.6K2.4B15.7B15.6K25.0B250.8B860.2K21.5B247.4B34.6KBBH(EM)3-shot37.939.046.650.7MMLU(Ace.)5-shot48750.057.559,0C-Eval(Acc)5.shot51.650.957.959.2CMMLU(Ace.)5-shot52.353.460.762.5Attention
MechanismKV
Cache
per
Token(#Element)Multi-Head
Attention(MHA)Grouped-Query
Attention(GQA)Multi-Query
Attention(MQA)2nndnl2ngdnl2dnIMLA(Ours)
(de+d)≈2dhlDeepSeekV3
模型架構(gòu):Multi-Head
Latent
Attention(MLA)MLA
架
構(gòu)張量低秩壓縮以降低KV
Cache資源開(kāi)銷(xiāo):相比于傳統(tǒng)MHA,MLA
通過(guò)降維
操作使得存儲(chǔ)的張量維度大幅減小。(下圖中僅紅色陰影部分需要存儲(chǔ)
)MLA
架構(gòu):1)分別對(duì)Query、Key-Value
pair進(jìn)行低秩壓縮;2)使用RoPE
獲得位置信息;3)使用MHA
計(jì)算得到輸出。實(shí)驗(yàn)結(jié)果對(duì)?Deepseekv
而言rannJ28,oMmL
可以將KV
Cac
he降低為
.7%相比于MHA,MLA每token的KVCache量大幅減少,且精度更高。wwe(bsh)
+(bs,h)wiluesKeysTorget
Token
Crow
ntropy
lossMain
ModalntblenmaschonyOutputHeadTransformerBlocktinearProjectionTransformerBlock×LRMSNom
RMSNormEmbeddnglrermput
Tokens
t
t①
模
型
結(jié)
構(gòu)·
每個(gè)MTP
模塊共享嵌入層和輸出頭·
每個(gè)MTP
模塊獨(dú)占一個(gè)TransformerBlock和一個(gè)投影矩陣·
多個(gè)MTP
模塊串聯(lián)保持完整的因果關(guān)系鏈②
訓(xùn)
練
策
略·每個(gè)MTP
模塊輸出預(yù)測(cè)token的概率分布·
每個(gè)MTP模塊計(jì)算對(duì)應(yīng)的交叉熵?fù)p失函數(shù)·
多個(gè)MTP
模塊的損失函數(shù)加權(quán)平均得到最終訓(xùn)練目標(biāo)ofourMulti-TokenPrediction(MTP)implementation.We
fortheprediction
ofeach
token
at
each
depth.m-Csfinpy-20m-2cthe③
關(guān)
鍵
作
用·
提升每批訓(xùn)練數(shù)據(jù)的使用效率,強(qiáng)化訓(xùn)練信號(hào)·
優(yōu)化模型表達(dá)能力,提升next-token的預(yù)測(cè)效果·
可參考投機(jī)采樣改造MTP模塊,加速推理效率MTP:Multi-Token
Prediction多token
預(yù)測(cè)提升模型效果·MTP
模塊僅在訓(xùn)練中使用,提升模型訓(xùn)練效果,推理階段可以不使用MTP
模塊,基礎(chǔ)模型能夠獨(dú)立完成正常推理·
參
考
投
機(jī)
采
樣
,MTP
模塊也可以被重新配置用于speculative
decoding,加速解碼過(guò)程,降低整體時(shí)延TransformerBlocklinearProjectionIRMSNormRMSNormEmbedfnglarerhy
GrosEntropyLossMTP
Module2iNotfmAton)Mai
CrossEntropyLossMTP
Module1,we?olekedcton)關(guān)
鍵發(fā)
現(xiàn)7
Huawei
Proprietary-Restricted
Distributionkeep(24)(25)3|Hlustration
causal
chainFigurecompleteEmbednglayeroutputtieadOutputHeadnetDualPipe:
雙流并行優(yōu)化計(jì)算和通信,
All-to
-AlI
通信開(kāi)銷(xiāo)接近0MLP可▲
RM2FA
ATTNB)4ATTNW平TTNFADSPATCH
DtnTCH)A
CONNEFA→P
osaDTATm△Fowardchunk
B
wardchunkFigure
4|Overlapping
strategy
for
a
pair
ofindividualforwardand
backwardchunks
(theboundaries
ofthetransformer
blocksarenotaligned).Orange
denotes
forward,green
denotesbackward
for
input",blue
denotes
"backward
forweights",purpledenotes
PP
communication,①
細(xì)粒度的計(jì)算通信并行·
將PPstage拆分為更細(xì)的模塊,提升模塊交替編排的靈活度·
參考ZeroBubble,反向傳遞中的權(quán)重更新和梯度傳遞獨(dú)立操作·
經(jīng)過(guò)細(xì)粒度的拆分和編排之后,計(jì)算流和通信流的barrier剛好可以重疊②
雙向管道調(diào)度減少PP
中的氣泡·1F1B中每個(gè)batch拆分為1個(gè)forward和1個(gè)backward·
ZeroBubble中把backward拆分為input和weight兩個(gè)部分·
DualPipe中使用對(duì)稱(chēng)處理,不同batch從不同的device上開(kāi)始流水③
每卡顯存占用略微增大MethodBubbleParameterActivation1F1B(PP-1)(F+B)1xPPZB1PDualPipe
(Ours)(PP-1)(F+B-2W)1x2×PPPP+1Figure5|ExampleDualPipescheduling
for8PP
ranks
and
20
micro-batches
in
two
directions.Themicro-batchesinthereversedirectionaresymmetrictothoseinthe
forward
direction,sowe
omit
their
batch
IDfor
illustrationsimplicity.Twocellsenclosed
byashared
black
borderhave
mutually
overlapped
computation
and
communication.參考DualPipe技術(shù),基于MindSpeed訓(xùn)練加速框架以及昇騰硬件特性,針對(duì)
性地設(shè)計(jì)高效率流水并行技術(shù),提升整體訓(xùn)練性能·
雙向管道訓(xùn)練,需要存兩份參數(shù)來(lái)進(jìn)行訓(xùn)練(Parameter2x)·
模型總參數(shù)量671B,
每個(gè)卡上4個(gè)routedexpert對(duì)應(yīng)26.8B,同時(shí)
考慮到PP-16和FP8量化,每個(gè)卡上顯存占用為1.675GB8
HuaweiProprietary-Restricted
Distribution關(guān)鍵
啟示
DeepSeek
通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的優(yōu)化,帶來(lái)大模型新范式DeepSeekV3/R1,大幅提升從訓(xùn)練到推理的計(jì)算效率,降低模型創(chuàng)新及應(yīng)用落地的門(mén)檻推理優(yōu)化單次推理效率倍級(jí)提升Token預(yù)測(cè)1次1token預(yù)測(cè)1次多Token預(yù)測(cè)一次預(yù)測(cè)多個(gè)token推理倍級(jí)提升HUAWEI后訓(xùn)練優(yōu)化
降低學(xué)習(xí)復(fù)雜度強(qiáng)化學(xué)習(xí)需要裁判模型評(píng)估新老策略組隊(duì)評(píng)估簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程降低后訓(xùn)練復(fù)雜度業(yè)
界LLM
大模型DeepSeek核
心收益效果PP
并行算法1前1后單流水雙向流水并行MLA低秩壓縮減少緩存壓縮KVCache降低內(nèi)存90%支持更高并發(fā)訓(xùn)練精度FP16/BF16FP8混合精度DeepSeekMoE
更稀疏256選8+1模型容量提升3倍計(jì)算量減少70%AttentionMHA/GQA分組共享減少緩存計(jì)算通信優(yōu)化降低計(jì)算,極致的掩蓋,同時(shí)保證訓(xùn)練精度模型結(jié)構(gòu)優(yōu)化以計(jì)算換內(nèi)存、降通信,空間時(shí)間雙優(yōu)化計(jì)算量減少35%平衡訓(xùn)練效率與
數(shù)值精度MOEGPT416專(zhuān)家選2計(jì)算與通信極致掩蓋減少50%PP氣泡9
Huawei
Proprietay-Restricted
Distribution關(guān)注高效、穩(wěn)定、開(kāi)放的底座·
極致性能、穩(wěn)定可靠的AI集
群·
深度開(kāi)放的平臺(tái)和生態(tài)·極致的端到端性能效率優(yōu)化Claude2Llama3-70B
②Baichuan2-13BDeepSeek-V3-671BGLM-130BDeepSeek-R1-671B關(guān)注便捷、易用、性?xún)r(jià)比的平臺(tái)DeepSeek-R1-Distill-Qwen-32B·
開(kāi)箱即用的強(qiáng)化學(xué)習(xí)套件·
兼顧成本與性能的蒸餾/微調(diào)方案AlexNet大模型從技術(shù)摸高走向技術(shù)摸高+工程創(chuàng)新并行
,訓(xùn)練需求持續(xù)增長(zhǎng)①技術(shù)摸高:頭部玩家將戰(zhàn)略堅(jiān)定投入預(yù)訓(xùn)練基礎(chǔ)模型創(chuàng)新,豐富模型組合,追逐Scaling
Law,加
速
探
索AGI②工程創(chuàng)新:新的范式降低后訓(xùn)練和蒸餾門(mén)檻,模型效果大幅提升,出現(xiàn)平權(quán)現(xiàn)象,引發(fā)新一波的“百模干態(tài)”2012201320142015
201620172018
201920202021202220232024
20252026訓(xùn)練的算力需求將持續(xù)增長(zhǎng),算力結(jié)構(gòu)從“預(yù)訓(xùn)練為主”走向“預(yù)訓(xùn)練+后訓(xùn)練/二次訓(xùn)練”10HuaweiProprietary-RestrictedDistribution
Doubao
2.0
A
Lama4G
Gemini2.0GPT-5DeepSeek-R1-Distill-Qwen-1.5B(蒸餾后較原模型能力提升10%+)G
Gemini
Utra
G
PalM(540B)
GPT-4/40·
便捷的部署、敏捷業(yè)務(wù)上線(xiàn)工
程
創(chuàng)
新新一輪百模千態(tài)技
術(shù)
摸高新一輪技術(shù)競(jìng)爭(zhēng)訓(xùn)練算力需求(PFLOPS)
GPT-3/3.5175BMegatron-Tuning
NLG530BG
BERT-LargeGTransformerHunyuanGroq4①金融
交通
教育醫(yī)療電
力
油氣
制造云服務(wù)
硬件+社區(qū)
一體機(jī)釘釘一體機(jī)電信息壤一體機(jī)昇騰社區(qū)新致金融一體機(jī)同花順一體機(jī)京東云諸多廠(chǎng)家推出一體化方案對(duì)
外提供服務(wù)/自用硬件+開(kāi)源模型+RL
套件+ISV/
云,商業(yè)模式逐漸成熟AS
IS基
礎(chǔ)
模
型(DeepSeek/Uama.Qwen.
大量行業(yè)數(shù)據(jù)監(jiān)督微調(diào)SFT更多行業(yè)高質(zhì)量數(shù)據(jù)生成監(jiān)督微調(diào)SFT行業(yè)大模型行業(yè)大模型部署更高效月級(jí)調(diào)優(yōu)
→
周/天級(jí)優(yōu)化 DeepSeek能力提升成為各行業(yè)生產(chǎn)力工具,加速推理落地干行百業(yè)DeepSeek
催熟大模型落地技術(shù),降低推理部署門(mén)檻開(kāi)箱即用的一體機(jī),加速大模型應(yīng)用落地華為云移動(dòng)云電信天翼云聯(lián)通云騰訊云阿里云亞馬遜AWS
微軟Azure數(shù)據(jù)依賴(lài)降低高質(zhì)量數(shù)據(jù)
→
生成數(shù)據(jù)算法依賴(lài)降低高端人才
→
開(kāi)源+蒸餾NVIDIAHugging
FaceGitHub主流云服務(wù)商已支持DS
覆蓋公/私有云部署11
HuaweiProprietary-Restricted
Distribution主流算力、主流社區(qū)
均已支持DeepSeek模型蒸餾-模型小型化少量行業(yè)數(shù)據(jù)強(qiáng)化學(xué)習(xí)魔樂(lè)社區(qū)基礎(chǔ)模型Llama/Qwen/)昇騰TOBE模型服務(wù)商潞晨科技已上線(xiàn)硅基流動(dòng)已上線(xiàn)清昴已上線(xiàn)訊飛測(cè)試中運(yùn)營(yíng)商電信天翼云已上線(xiàn)聯(lián)通云已上線(xiàn)移動(dòng)云已上線(xiàn)南京、福建、浙江移動(dòng)已上線(xiàn)上海、江蘇電信已上線(xiàn)國(guó)計(jì)民生行業(yè)龍崗區(qū)政府已上線(xiàn)北京銀行已上線(xiàn)廣大證券已上線(xiàn)北京、南京、西安、武漢、蘇州、無(wú)錫等公共服務(wù)平臺(tái)已上線(xiàn)招行測(cè)試中工行測(cè)試中太保測(cè)試中模型名稱(chēng)Atlas
300I
DuoAtlas
800I
A2DeepSeekV3√DeepSeekR1√DeepSeek
Janus-Pro-1B/7B√√DeepSeek
R1-Distill-Llama-70B√DeepSeek
R1-Distill-Qwen-32B√DeepSeek
R1-Distill-Llama-8BDeepSeek
R1-Distill-Qwen-1.5B/7B/14B√√ DeepSeek
模型發(fā)布即支持昇騰推理,各行業(yè)已基于昇騰快速上線(xiàn)DeepSaek-V3(CMWote/0gDeepSeek-RhaDeepSeek
發(fā)布兩周,3大社區(qū)全系列模型上線(xiàn)40+客戶(hù)/伙伴基于昇騰已上線(xiàn),15+測(cè)試中(預(yù)計(jì)兩周內(nèi)全部上線(xiàn))最新DeepSeekV3/R1/Janus-Pro
及6個(gè)蒸餾模型
基于昇騰開(kāi)箱即用,配套版本已上線(xiàn)各大開(kāi)源社區(qū)配套版本上線(xiàn)昇騰社區(qū):https://www.hiascend.com/software/mode
lzoo/models/detail/678bdeb4ela64c9dae51d353d84dddi5配套版本上線(xiàn)魔樂(lè)社區(qū):/models/MindIE/deeps
eekv312
Huawei
Proprietary-Restricted
DistributionAtlas
800IA2(256GB)Atlas300I
Duo系統(tǒng)吞吐
并發(fā)路數(shù)730
Token/s@14B
80路@14B956Token/s@8B115路@8B956Token/s@7B115路@7B思
騰
合
力Atlas300V系統(tǒng)吞吐并發(fā)路數(shù)432Tnken/s16路系統(tǒng)吞吐4940Token/s@32B7500Token/s@14B并發(fā)路數(shù)247路@32B300路@14B
瓏京科技
思
雎
合
力
昇騰DeepSeek—體機(jī):大吞吐+高并發(fā),加速行業(yè)模型落地系統(tǒng)吞吐1911Token/s潞展科技移動(dòng),貴一體系統(tǒng)吞吐3300Token/s165路
瓏京科技思
騰
合
力
模型參數(shù):671B+
滿(mǎn)
血
版DeepSeek
V3/R1Atlas800I
A2(1024GB)模型參數(shù):70BDeepSeek-R1-Distill-Lama-70BAtlas800IA2(512GB)模型參數(shù):14B/32BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型參數(shù):7B/8B/14BDeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-7B模型參數(shù):1.5BDeepSeek-R1-Distll-Qwen-1.5B
金融
13
Huawei
Proprietary-Restricted
Distribution
教育
油氣
制造
交通瓏京科技思騰合力個(gè)人知識(shí)管理個(gè)人文檔分析編程輔助個(gè)性化學(xué)習(xí)輔導(dǎo)
創(chuàng)意寫(xiě)作AI編程
智能對(duì)話(huà)
金融研報(bào)文本創(chuàng)作
營(yíng)銷(xiāo)文案內(nèi)容檢測(cè)并發(fā)路數(shù)192路開(kāi)
發(fā)
板
邊端設(shè)備編程輔助
智能客服政務(wù)電力瓏京科技并發(fā)路數(shù)模型集合模型名稱(chēng)參數(shù)計(jì)算精度產(chǎn)品配置系統(tǒng)吞吐token/s并發(fā)用戶(hù)數(shù)DeepSeek-V3DeepSeek
V3671BINT8Atlas800I
A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I
A21024GB1911192DeepSeek-R1蒸餾模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I
A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I
A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I
A2256GB7500300Atlas
300I
Duo1*Duo
96GB
PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas
300V1*300V
24GB
PCIE43216
DeepSeekV3/R1
及蒸餾模型,昇騰DeepSeek
一體機(jī)推薦配置14Huawei
Proprietary-Restricted
Distribution華為昇騰AI
基礎(chǔ)軟硬件介紹DeepSeek
洞察及昇騰適配進(jìn)展215
Huawei
Proprietary-Restricted
Distribution1昇騰AI基礎(chǔ)軟硬件架構(gòu)全面創(chuàng)新,使能行業(yè)場(chǎng)景化應(yīng)用行業(yè)場(chǎng)景化應(yīng)用視圖分析、檢索聚類(lèi)、搜索
推薦、自然語(yǔ)言處
理、智能語(yǔ)音、自動(dòng)駕駛應(yīng)用使能應(yīng)用使能套件/SDKAI計(jì)算框架PyTorch/TensorFlow/Caffe
…
.異構(gòu)計(jì)算架構(gòu)CUDANV系列硬件模組/加速卡/服務(wù)器/-->集群NV處理器Ampere系列/
Hopper系列…nVIDIA.
CUDAnVIDIAModelArts
應(yīng)用使能訓(xùn)練平臺(tái)/推理引擎/模型套件/SDKAI計(jì)算框架昇思MindSporePyTorch/TensorFlow/Caffe....異構(gòu)計(jì)算架構(gòu)CANNAtlas及昇騰伙伴系列硬件模組/小站/加速卡/服務(wù)器/集群昇騰處理器昇騰310系列/昇騰910系列
…英偉達(dá)AI基礎(chǔ)軟硬件架構(gòu)[M]!昇思CANNAAscend昇
騰
AI
基
礎(chǔ)
軟
硬
件
架
構(gòu)16Huawei
Proprietary-Restricted
Distribution計(jì)算架構(gòu)CANN深度開(kāi)放,使能高效靈活開(kāi)發(fā),匹配開(kāi)發(fā)者使用習(xí)慣深度開(kāi)放CANN,
一套架構(gòu)使能昇騰原生開(kāi)發(fā)
對(duì)
位NV
CUDA,匹配開(kāi)發(fā)使用習(xí)慣加
速
庫(kù)
Megatron
DeepSpeed
AscendSpeedAI框架昇思MindSporePyTorch
TensorFlow
…GE
圖引擎開(kāi)放圖編譯、圖優(yōu)化、圖執(zhí)行,支持自定義圖融合,提升整網(wǎng)性能HCCL
集合通信庫(kù)開(kāi)放通信算子、平臺(tái)接口,支持自定義通信算法,提升網(wǎng)絡(luò)通信效率Graph
Engine
圖引擎HCCLAscend
C高
階APIAscend
C
低級(jí)APIAscend
acINNMT
、KS自定義圖融合patternTX
、MThash
算法自定義調(diào)優(yōu)XF自定義切分策略KS自定義算子開(kāi)發(fā)XF結(jié)合場(chǎng)景差異優(yōu)化nVIDIA.CUDATensorRTplugins&parserNV
NCCLNV
CUTLASSNV
CUDA-CNV
cuDNNGE
圖引擎集合通信庫(kù)類(lèi)庫(kù)/模板通用編程算子加速庫(kù)算子加速庫(kù)開(kāi)放1600+基礎(chǔ)算子接口、30+融合算子接口,簡(jiǎn)化開(kāi)發(fā)復(fù)雜度,提升開(kāi)發(fā)效率畢昇編譯器|Runtime運(yùn)行時(shí)開(kāi)放硬件資源接口,滿(mǎn)足開(kāi)發(fā)者對(duì)模型開(kāi)發(fā)、系統(tǒng)優(yōu)化、三方生態(tài)對(duì)接等各場(chǎng)景需求Ascend
C編程語(yǔ)言開(kāi)放130+底層API
、60+高層API,
支持高性能自定義融合算子開(kāi)發(fā)KS直接發(fā)起Kernel
LaunchCANN昇
騰
硬
件
使
能CANNNV
Runtime
Ascend
Runtime17Huawei
Proprietary-Restricted
Distribution運(yùn)行時(shí)》》》模型訓(xùn)練:算網(wǎng)/算存深度協(xié)同是大模型分布式并行訓(xùn)練的基礎(chǔ)大模型技術(shù)發(fā)展方向干億稠密/萬(wàn)億稀疏超長(zhǎng)序列多模更大規(guī)模/更復(fù)雜的組網(wǎng)
更復(fù)雜的模型及數(shù)據(jù)切分
更
大(
數(shù)模
參數(shù)存he儲(chǔ)dkPo和nt讀)寫(xiě)大規(guī)模組網(wǎng)·
超大組網(wǎng)規(guī)模:2層1:1無(wú)收斂的AI網(wǎng)絡(luò)架構(gòu),最
大支持128
K集群規(guī)模組網(wǎng),千卡到萬(wàn)卡平滑演進(jìn)支持2級(jí)框盒、框框組網(wǎng),適用于大規(guī)模及超大規(guī)模集群…
…
同
…u
NPU算網(wǎng)協(xié)同·
網(wǎng)絡(luò)級(jí)負(fù)載均衡:獨(dú)家NSLB算法,算網(wǎng)協(xié)同
調(diào)度,多任務(wù)節(jié)點(diǎn)非連續(xù)組網(wǎng)情況下,通信帶寬提升20%、模型性能提升7%3
、A
任務(wù)信息任務(wù)、通信過(guò)4、動(dòng)態(tài)路徑調(diào)整A
調(diào)度平臺(tái)算存協(xié)同·
極致讀寫(xiě)性能:
CKPT等算存讀寫(xiě)協(xié)同優(yōu)化、
PB
級(jí)存取+TB級(jí)帶寬,數(shù)據(jù)讀取效率提升50%dxO)(
武出戶(hù)()理書(shū)aDPC
區(qū)備優(yōu)化的為案飲化監(jiān)方案Pu/oujonoim計(jì)算節(jié)點(diǎn)以全部通信關(guān)系和拓?fù)湫畔⒆鳛檩斎胪ㄟ^(guò)算法計(jì)算出最優(yōu)結(jié)果,實(shí)現(xiàn)AI參數(shù)面全網(wǎng)負(fù)載均衡18Huawei
Proprietary-Restricted
Distributionr存儲(chǔ)節(jié)點(diǎn)Japith設(shè)2、AI
任務(wù)調(diào)度網(wǎng)絡(luò)控制器模型通信與計(jì)算優(yōu)化,單機(jī)執(zhí)行最優(yōu)算子深度融合“工序合并”減少計(jì)算數(shù)據(jù)搬入
搬出的時(shí)間及內(nèi)存開(kāi)銷(xiāo)計(jì)算與通信融合計(jì)算數(shù)據(jù)細(xì)粒度切分,減少計(jì)算與通信相互等待計(jì)算加速忽略無(wú)效計(jì)算,減少計(jì)算量和內(nèi)存量計(jì)算通信計(jì)算1
計(jì)
算
2
計(jì)
算
3
計(jì)
篇
4通信1通信2通信3
通倍自適應(yīng)選擇性重計(jì)算、內(nèi)存碎片優(yōu)化、MultiheadAttention中常見(jiàn)模型的mask上
三角區(qū)域均接近于0算子庫(kù)低階二進(jìn)制算子庫(kù)
高階融合算子庫(kù)CANNAscend
C編程語(yǔ)言+Runtime開(kāi)放接口模型訓(xùn)練:應(yīng)用使能軟件加持,
MFU
領(lǐng)先、線(xiàn)性度持平NV模型訓(xùn)練最優(yōu)=單機(jī)執(zhí)行最優(yōu)+集群并行最優(yōu)
+中斷時(shí)間最短模型算力利用率(MFU)
45%+
超大集群線(xiàn)性度
90%+軟件層分布式并行充分調(diào)度算力資源提供分布式加速庫(kù),內(nèi)置主流加速算法,滿(mǎn)足各類(lèi)模型加速場(chǎng)景硬件層算網(wǎng)協(xié)同提升有效吞吐NLSB
網(wǎng)絡(luò)級(jí)負(fù)載均衡實(shí)現(xiàn)網(wǎng)絡(luò)動(dòng)態(tài)路由,有效吞吐達(dá)98%控制器全局集中算路自動(dòng)生成路徑并動(dòng)態(tài)下發(fā)網(wǎng)絡(luò)網(wǎng)絡(luò)控制器獲取網(wǎng)絡(luò)拓?fù)?/p>
下發(fā)路徑數(shù)據(jù)并行、流水并行
L
層Ln層層內(nèi)通信并行19Huawei
Proprietary-Restricted
Distribution分布式并行+算網(wǎng)協(xié)同,集群并行最優(yōu)OPyTorch[M
]
界思模型并行場(chǎng)景/應(yīng)用測(cè)試模型測(cè)試結(jié)果對(duì)話(huà)搜索DB-200B0.94x
A800客服、文生圖場(chǎng)景;
金融助手SDXL3.48~3.63x
A10Llama2-7B1.41~2.72x
A10Llama2-13B1.44~2.19x
A10電商ChatGLM2-6B1.86x
A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智腦13B1.7xA30圖像識(shí)別、OCR文
字識(shí)別和視頻處理Llama2-70B1.7x
L20智慧教育、辦公問(wèn)
答星火-65Bx800T
A2交互搜索,金融客服問(wèn)答step1V-130B多模態(tài)2.0x
L20對(duì)標(biāo)Triton+TMS/vLLM業(yè)界標(biāo)準(zhǔn)RPC接口高效對(duì)接業(yè)務(wù)層·模型管理,集群管理,devops·
支持多實(shí)例并發(fā)對(duì)
標(biāo)TensorRT-LLM·
支持社區(qū)模型快速遷移·
自回歸解碼、擴(kuò)散過(guò)程優(yōu)化·
稀疏量化壓縮、
并行推理支持PyTorch/
昇
思·
少量代碼實(shí)現(xiàn)訓(xùn)練向推理平滑遷移·整圖/子圖優(yōu)化+單算子混合推理對(duì)標(biāo)TensorRT·
圖優(yōu)化,算子融合,
Kernel
優(yōu)化·
量化、混合精度加速:異步下發(fā),多流水執(zhí)行_---模型推理:提供分層開(kāi)放的推理引擎MindIE,使能高效推理昇騰推理引擎
M
indIENEW
MindIE-Service
第三方推理服務(wù)推理服務(wù)化
MindIE-MS
Triton
backendMindIE-ServerMindIE-ClientvLLM3rdMindIE-RT推理開(kāi)發(fā)工具
算子加速庫(kù)NEWD推理套件
MindIE-LLM框架推理推理運(yùn)行時(shí)MindSpore
對(duì)接
MindIE-Torch20HuaweiProprietary-RestrictedDistributionNEWMindIE-SDCANN推理應(yīng)用接口遷
移
分
析
工
具模型支持度分析和修改建議模型支持度評(píng)估離線(xiàn)模型——
分析報(bào)告模
型
轉(zhuǎn)
換
工
具實(shí)現(xiàn)訓(xùn)推一體的模型轉(zhuǎn)換一鍵式命令觸發(fā)三方框架
昇騰處理器模型格式
模型格式圖準(zhǔn)備->圖拆分->圖優(yōu)化->圖編譯精
度
比
對(duì)
、
改
圖
工
具一站式調(diào)優(yōu)工具,提升精度優(yōu)化效率性
能
優(yōu)
化
、
快
速
推
理
工
具一站式調(diào)優(yōu)工具,提升性能優(yōu)化效率用戶(hù)APPIDEAscendNPU模型遷移:工具鏈進(jìn)一步升級(jí),提升GPU
到昇騰快速遷移能力GPU訓(xùn)練=>昇騰推理:提供MindStudio一站式工具鏈,3~15人天可完成遷移,80%場(chǎng)景僅需3人天差異二:工具鏈差異導(dǎo)致遷移效率不同算子重開(kāi)發(fā)、精度調(diào)試、性能調(diào)優(yōu)的難度
體現(xiàn)在工具鏈的能力上昇騰
無(wú)工具鏈—
其他架構(gòu)亟需精度對(duì)比工具:
GPU
的推理精度在適配昇
騰訓(xùn)練的模型時(shí),需要以昇騰訓(xùn)練的模型精度為標(biāo)桿遷
移
工
作
量
大
:建立工具鏈完成對(duì)昇騰的精度
對(duì)比和調(diào)優(yōu)。差異三:基礎(chǔ)能力差異導(dǎo)致支持完備度不同基礎(chǔ)庫(kù)、加速庫(kù)、三方庫(kù)等支持情況不同跨架構(gòu)時(shí)需通過(guò)引入、適配第三方庫(kù),或者開(kāi)
發(fā)基于自身架構(gòu)的對(duì)等庫(kù)來(lái)解決庫(kù)的差異問(wèn)題差異一:芯片架構(gòu)差異導(dǎo)致算子實(shí)現(xiàn)不同例如,矩陣計(jì)算時(shí),昇騰采用16
x16
分形,英偉達(dá)采用8x8
分形
即使算子功
能
相
同,在不同架構(gòu)下算子實(shí)現(xiàn)方式可
能不
同計(jì)算架構(gòu)支持的主要基礎(chǔ)庫(kù)/加速庫(kù)昇騰DVPP/AIPP/mxVision/ACLNN/ACLBlas等英偉達(dá)CodecSDK/CV-CUDA/cuDNN/cuBlas/DAL等GPUCUBE計(jì)算單元結(jié)構(gòu)為8x8x4(A100)昇
騰CUBE
計(jì)算單元結(jié)構(gòu)
為16x16x16HUAWEI21Huawei
Proprietary-Restricted
Distribution命令行
數(shù)據(jù)采集GPUGraph
NPUGraph芯片架構(gòu)差異數(shù)據(jù)解析
DataMindStudio精度結(jié)果MindStduio0S業(yè)界主流4款開(kāi)源大模型GPT-3
參數(shù):13
B/100B
/175B已測(cè)試客戶(hù):YD
、MY
、ZSreIUUS業(yè)界1.00X1.00X1.05X0.83X1.04X0.83XM
indSpore+昇騰
PyTorch
NV100B業(yè)界7B業(yè)界13B業(yè)界70B業(yè)界63業(yè)界1.23X1.01X0.91X1.13X1.21X7B業(yè)界業(yè)界70B業(yè)界業(yè)
B7B業(yè)界參數(shù):7B/13B/70B已測(cè)試客戶(hù):TYY、YD、BOSS、MY、360、MT、CA
、HWY
、CGCSYSGLM-3
參數(shù):6
B/10B/130B已測(cè)試客戶(hù):ZP、BJYH、YCCXJH、MT、LTYOwen-2
參數(shù):7B/72B0.9X業(yè)界昇騰已支持國(guó)內(nèi)外開(kāi)源開(kāi)放大模型,實(shí)測(cè)性能持平業(yè)界國(guó)內(nèi)唯一已完成訓(xùn)練干億參數(shù)大模型的技術(shù)路線(xiàn),業(yè)界主流大模型PyTorch
實(shí)測(cè)性能均達(dá)到0.8~1.1倍業(yè)界最新主流開(kāi)源模型均已陸續(xù)適配并商用中Baichuan2|GLM
V3|SiT|MixTral-8x7B|Stable
Diffusion|OpenSora
|VideoGPT
|Qwen-VL
.
…22Huawei
Proprietary-Restricted
Distribution測(cè)試報(bào)告滿(mǎn)
試
結(jié)
量m已測(cè)試客戶(hù):DX、VIP
72B業(yè)界
0.87X21e*…LLaMA-3S7B5核心技術(shù)H800A2FP8+20%~25%不支持無(wú)輔助負(fù)載均衡損失評(píng)分效果提升評(píng)分效果提升DualPipe計(jì)算通信比1:1->8:1,+8~12%計(jì)算通信比3:1->6:1,+4~6%跨節(jié)點(diǎn)All2AlI優(yōu)化RMSNorm+MLA部分重計(jì)算省2~3G內(nèi)存省2~3G內(nèi)存場(chǎng)景核心技術(shù)A2DeepSeek適配LoRA微調(diào)CCLoRA支持25Q1支持Fused_MLP支持qLoRA微調(diào)CCLoRA支持Fused_MLP不支持長(zhǎng)序列微調(diào)長(zhǎng)序列CP方案支持微調(diào)算法目標(biāo)性能部署建議LoRA微調(diào)1.1x業(yè)界8機(jī)Atlas800T
A2qLoRA微調(diào)1.1x業(yè)界4機(jī)Atlas800TA2全參微調(diào)1.1x業(yè)界32機(jī)Atlas800T
A2DeepSeek模型A2適配情況DeepSeekV3已適配DeepSeek
R1已適配DeepSeekJanus-Pro已適配
DeepSeek
系列模型昇騰訓(xùn)練產(chǎn)品適配計(jì)劃及微調(diào)部署建議支持CCLoRA、Fused_MLP
核心技術(shù),提升微調(diào)訓(xùn)練吞吐性能DeepSeek
系列預(yù)訓(xùn)練完成昇騰適配,目標(biāo)性能1.1x
NVDeepSeek
系列模型微調(diào)目標(biāo)性能1.1x業(yè)界(Q1)支持DualPipe
、跨節(jié)點(diǎn)All2AlI
等優(yōu)化23Huawei
Proprietary-Restricted
DistributionDeepSeek
V3/DeepSeek
R1(671B)
“滿(mǎn)血版”BF16
精度推理采用BF16或FP16
數(shù)據(jù)格式進(jìn)行推理,需要內(nèi)存約為1340GB需要采用Atlas800I/T
A2(8*64GB)4機(jī)并行X4Atlas800I
A2(8*64GB)最小配置為4機(jī)并行采用Atlas
800T
A2時(shí)亦需4機(jī)井行INT8
精度推理采用INT8
數(shù)據(jù)格式進(jìn)行推理,
需要內(nèi)存<700GB,
可2機(jī)并行X2Atlas800I
A2(8*64GB)最小配置為2機(jī)并行采用Atlas800T
A2時(shí)亦需2機(jī)并行模型硬件格式部署建議進(jìn)展DeepSeekJanusPro1BAtlas800IA2BF16單卡部署,單機(jī)8實(shí)例已適配發(fā)布Atlas
300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中DeepSeekJanusPro7BAtlas800IA2BF16單卡部署,單機(jī)8實(shí)例已適配發(fā)布Atlas
300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中模型參數(shù)格式部署建議進(jìn)展DeepSeek-
R1-Distill-Llama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;
大于14B模型推薦Atlas800IA2推理:·1.5B:Duo/A2單卡部署,開(kāi)發(fā)板部署·7~8B:Duo卡2卡并行,
A28卡并行,支持開(kāi)發(fā)板部署·
14B:Duo卡2卡并行,
A28卡并行·32~70B:A28卡并行整體已適配發(fā)布Atlas800IA2BF16
/INT8推理已發(fā)布除70B模型外,其他模型Atlas
300IDuoFP16/INT
870BBF16/INT8DeepSeek-
R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8
DeepSeek
主干模型均已支持昇騰推理開(kāi)箱,性能持續(xù)提升中MLA
架構(gòu):
支持EP
策略:支持PD
分離部署:待支持W8A8
量化:
支持
MTP多token
預(yù)測(cè):
待支持多模態(tài)模型DeepSeek
Janus
ProDeepSeek
R1蒸餾模型24
Huawei
Proprietary-Restricted
Distribution關(guān)
鍵
性
能優(yōu)
化
特
性參數(shù)面用于智能集群分布式推理時(shí)參數(shù)交換,要求網(wǎng)絡(luò)具備高吞吐低時(shí)延能力,部署高帶寬的智能
無(wú)損RoCE網(wǎng)絡(luò),每臺(tái)推理服務(wù)器8個(gè)200GE
ROCE光口樣本面用于訪(fǎng)問(wèn)存儲(chǔ)區(qū)的高速大帶寬互聯(lián)的存儲(chǔ)系統(tǒng),推薦部署為RoCE無(wú)損網(wǎng)絡(luò),每臺(tái)推理服務(wù)器
2個(gè)25GE光口業(yè)務(wù)面用于系統(tǒng)業(yè)務(wù)調(diào)度和管理。通常部署為T(mén)CP/IP有損網(wǎng)絡(luò),每臺(tái)推力卡服務(wù)器2個(gè)25GE光口帶外管理AI服務(wù)器BMC管理,可選DeepseekV3/R1
模型本地化部署組網(wǎng)方案訓(xùn)推平臺(tái)(按需配置)xx臺(tái)通用服務(wù)器16*400/E一分二LeafCE9860*2臺(tái)SpineCE9860*2臺(tái)400G
RoCE交換機(jī)參數(shù)面DeepSeekR1/V3推理配置建議
BF16
最小配置4臺(tái)計(jì)算節(jié)點(diǎn);INT8
最
小
配
置2
臺(tái)
計(jì)
算節(jié)點(diǎn)
;業(yè)務(wù)面CE6865E8*25GE推理調(diào)度管理流量樣本面(可選)i.Leaf
CE9860推理讀流量分
級(jí)帶外管理面(BMC
管理可選)CE58824*GEAI
推理服務(wù)器(Atlas800I
A2)4臺(tái)*8口*20DGESpine
CE9860Leaf
CE6865E8*25GE9950DPC訪(fǎng)問(wèn)9540存儲(chǔ)區(qū)(可選)25
HuaweiProprietary-Restricted
Distribution_400G100G10G200G25GGENFS
訪(fǎng)
河圖
例序號(hào)模型發(fā)布曰期描述本地部署推理最低配置當(dāng)前支持情況1DeepSeek-V32024.12.16MOE,671B4*Atlas800I
A2(8卡,64GB)https://modelers.cn/models/MindI
E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I
A2(8卡,64GB)https://modelers.cn/models/MindIE/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,
310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1*310P(顯存不小于48GB,量化
后顯存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(顯存不小于96GB)推薦4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I
A2(8卡,32GB)
或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro
1B2025.1.28多模態(tài),1B1*310P或1*310Bhttps://modelers.cn/models/MindIE/Janus-Pro310B適配中10Janus-Pro
7B2025.1.28多模態(tài),7B1*310Phttps://modelers.cn/models/MindIE/Janus-Pro
DeepSeek
系列模型昇騰
NPU
推理配置建議
快速部署DeepSeek
模型
模型資源獲取推理資源評(píng)估推理設(shè)備選型模型權(quán)重下載推理環(huán)境調(diào)測(cè)集群連通測(cè)試推理鏡像制作推理模型部署模型權(quán)重轉(zhuǎn)換模型量化純模型測(cè)試服務(wù)化啟動(dòng)推理模型測(cè)試性能測(cè)試精度測(cè)試服務(wù)化測(cè)試 容
器
化
部
署 物
理
機(jī)
部
署鏡像封裝,提供容器命令
基于場(chǎng)景,提供開(kāi)發(fā)環(huán)境部署方法運(yùn)行環(huán)境部署加速框架Deepspeed
|Mindspeed|MindIEAl計(jì)算框架
PyTorch
|TensorFlow|MindSpore異構(gòu)計(jì)算架構(gòu)CANNAAscend
昇騰處理器
模
型
運(yùn)
行
版
本
配
套
復(fù)
雜
Python=3xPyTorch=2.0CANN7.0.0,
依賴(lài)MindSpeedPython=3xCANN6.0.RC3,依賴(lài)AdlLite推薦昇騰最佳實(shí)踐,快速?gòu)?fù)現(xiàn)DeepSeek
系列模型推理流程,加速客戶(hù)應(yīng)用上線(xiàn)。27
Huawei
Proprietary-Restricted
DistributionAI計(jì)算使能服務(wù)-DeepSeek
部署支持:快速適配DeepSeek
模型,支撐模型快速上線(xiàn)DeepSeek-R1-Distilllama DeepSeek-R1-Distill-qwen Janus-Pro
deapseok
已支持的DeepSeek
系列模型
AI軟件棧多且復(fù)雜,
客戶(hù)不清楚模型組
件
安
裝
依
賴(lài)
順
序
,模型分析工具鏈有
哪些,模型是否支持容器化部署等關(guān)鍵特性W8A8
量化|服務(wù)化部署|EP并行DeepSeek-V3DeepSeek-V2.5推理運(yùn)行環(huán)境部署支持DeepSeek-R1ModelAModelBENNBENVA賦能流程01
需求調(diào)研02
方案制定
03
賦能實(shí)施·
調(diào)研客戶(hù)工程師開(kāi)發(fā)過(guò)程中
的痛點(diǎn)、難點(diǎn)·
明確客戶(hù)當(dāng)前能力缺位情況·
提供賦能內(nèi)容·
提供昇騰樣例·
昇騰模型/應(yīng)用開(kāi)發(fā)流程演示·
Demo樣例講解·
昇騰AI基礎(chǔ)知識(shí)賦能DeepSeek系列賦能昇騰基礎(chǔ)昇騰全棧軟件社區(qū)資源講解AI基礎(chǔ)知識(shí)環(huán)境搭建示例CANN&AI框架賦能昇騰模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋糕口味測(cè)試題目及答案
- 實(shí)習(xí)報(bào)告范本參考
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)能效管理平臺(tái)行業(yè)市場(chǎng)全景分析及投資戰(zhàn)略規(guī)劃報(bào)告
- 試論依法治國(guó)下的公安派駐法制員制度
- 基因與遺傳?。赫J(rèn)證課件
- 行政處罰三項(xiàng)執(zhí)行制度
- 2025年大關(guān)一中事業(yè)單位考試及答案
- 2025年勞動(dòng)教育教師筆試及答案
- 2025年浙江認(rèn)人事考試及答案
- 2025年青年志愿者中心筆試題目及答案
- 2024年健康體檢服務(wù)投標(biāo)文件 健康體檢醫(yī)療服務(wù)投標(biāo)書(shū)
- GA 2116-2023警用服飾禮服鈕扣
- JT-T-325-2018營(yíng)運(yùn)客運(yùn)類(lèi)型劃分及等級(jí)評(píng)定
- 地球物理勘探與軍事勘察技術(shù)研究
- DL-T5440-2020重覆冰架空輸電線(xiàn)路設(shè)計(jì)技術(shù)規(guī)程
- (高清版)DZT 0216-2020 煤層氣儲(chǔ)量估算規(guī)范
- 浙江華港染織集團(tuán)有限公司技改年產(chǎn)針織印染面料16860噸、機(jī)織印染面料13600萬(wàn)米高檔印染面料項(xiàng)目環(huán)境影響報(bào)告
- 商業(yè)地產(chǎn)-天津津?yàn)硰V場(chǎng)一期都市綜合體業(yè)態(tài)配比方案方案-30-11月
- 中國(guó)機(jī)器人可靠性信息報(bào)告 2022
- 堇青蜂窩陶瓷微觀(guān)結(jié)構(gòu)及熱膨脹系數(shù)的研究
- 電梯維修保養(yǎng)組織方案
評(píng)論
0/150
提交評(píng)論