華為昇騰DeepSeek解決方案設(shè)計(jì)

上傳人：海*** IP屬地：江蘇上傳時(shí)間：2025-04-05 格式：PPTX 頁(yè)數(shù)：31 大?。?.36MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

華為昇騰

解決方案把握DeepSeek時(shí)刻，攜手同行華為昇騰AI基礎(chǔ)軟硬件介紹DeepSeek

洞察及昇騰適配進(jìn)展○ozEnis212Huawei

Proprietary-Restricted

DistributionNLP自然語(yǔ)言處理2017谷歌發(fā)布首個(gè)

Transformer架

構(gòu)

模

型2012

AlexNet模型能力突破開(kāi)

啟CV

時(shí)

代2015

Resnet效率與成本雙突破CV全面普及·

對(duì)強(qiáng)化學(xué)習(xí)的創(chuàng)新使用，可以讓大模型便捷的獲得

通用性+專(zhuān)用性，可以滿(mǎn)足各應(yīng)用場(chǎng)景需求·

DS對(duì)通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的極致工程優(yōu)化，

大幅提升AI的計(jì)算效率，提升模型落地經(jīng)濟(jì)性

DeepSeek

是A

發(fā)展史上的一個(gè)關(guān)鍵里程碑，但遠(yuǎn)未達(dá)到AI終點(diǎn)訓(xùn)練資源·隨

著DeepSeek

提供了

一

種高效率訓(xùn)練的方法，同等

算力規(guī)?？梢蕴剿鞲鼜?qiáng)的模型能力·

在競(jìng)爭(zhēng)背景下，頭部玩家仍將追逐Scaling

Law,堅(jiān)

定

AI算力的戰(zhàn)略投資，加速探索下

一

代AI技

術(shù)3

Huawei

Proprietary-Restricted

Distribution重新定義Scaling

Law延續(xù)智能涌現(xiàn)的方向DeepSeek-R1

進(jìn)一步驗(yàn)證“算力即性能”Scaling

Law升級(jí)，模型能力=算力x

數(shù)據(jù)x

思考AI

模型算法：GPT、LLaMA

框架：PY、TF異構(gòu)計(jì)算架構(gòu)：CUDA互聯(lián)技術(shù)：NV

LinkA

芯

片

：NV、AMD雙輪驅(qū)動(dòng)互鎖戰(zhàn)略堅(jiān)定+技術(shù)創(chuàng)新AI模型算法：DeepSeekAI框架：昇思、飛槳…異構(gòu)計(jì)算架構(gòu)：CANN.…互聯(lián)技術(shù)：靈衢AI芯片：昇騰、寒武紀(jì).…·

中國(guó)Al公司首次以關(guān)鍵創(chuàng)新貢獻(xiàn)者的身份加入到全球

AI競(jìng)爭(zhēng)中，沖擊美國(guó)AI霸

權(quán)·打破NV+OpenAI

的資金、技術(shù)、人才的壟斷，全球

重新思考中美技術(shù)路線(xiàn)的選擇泛化性和經(jīng)濟(jì)性大幅提升LLM

進(jìn)

入

"CVResnet時(shí)刻"補(bǔ)齊最后一塊自主創(chuàng)新的版圖

真正形成中美兩條AI技術(shù)路線(xiàn)下一代AI技術(shù)Mamba、

空間智能等算力x

數(shù)據(jù)x

思考算力x數(shù)據(jù)CV計(jì)算機(jī)視覺(jué)1998

LeNet首個(gè)CNN

架構(gòu)模型2025

DeepSeek

效率與成本雙突破NLP

全面普及2023

ChatGPT

模型能力突破開(kāi)啟NLP

時(shí)

代國(guó)家戰(zhàn)略清晰技術(shù)創(chuàng)新依賴(lài)資本投入+邏輯推理DeepSeek-V3/R1OpenAI-01/03模型效果低成本繞過(guò)CUDA

挖掘FP8硬件潛力，MOE

和MLA

技術(shù)實(shí)現(xiàn)不到10%的成本方案~150M$Llama3.1-405B訓(xùn)練成本硬件級(jí)優(yōu)化算法革命架構(gòu)創(chuàng)新工程奇跡開(kāi)源生態(tài)繞過(guò)GUDA進(jìn)行PTX編程計(jì)算與通信優(yōu)化，性能提升30%GRPO:群體進(jìn)化的智慧篩選器自我驗(yàn)證機(jī)制：AI的"錯(cuò)題本系統(tǒng)"混合專(zhuān)家模型的"智能路由器“

多頭潛在注意力MLA:空間壓縮術(shù)訓(xùn)練框架加速：16到3的量化壓縮，

通信降低89%推理加速：預(yù)加載，動(dòng)態(tài)批處理等 DeepSeek

V3:實(shí)現(xiàn)極致性能，稀疏MOE提質(zhì)降本低成本完美對(duì)標(biāo)OpenAI

O1,突破精確語(yǔ)義理解及復(fù)雜推理任務(wù)DeepSeek-V3

是一款MoE模型，總參數(shù)量671B,激活參數(shù)量37B,

采用2048張H800

(節(jié)點(diǎn)內(nèi)NVLink,節(jié)點(diǎn)間IB,

非超節(jié)點(diǎn)架構(gòu))在14.8Ttoken數(shù)據(jù)集上基于自

研HAI-LLM

訓(xùn)練系統(tǒng)總計(jì)訓(xùn)練了1394h(58.08天

)技術(shù)創(chuàng)新硬件級(jí)、算法級(jí)、架構(gòu)級(jí)、工程級(jí)、開(kāi)

源生態(tài)5大技術(shù)創(chuàng)新，轟動(dòng)全球DeepSeek-R1

推理成本僅為OpenAIo1

的

HuaweiProprietary-Restricted

Distributionhingst

連能

我

足DeepSeek,

很高興見(jiàn)到你!

aoo

味5.57M$DeepSeek-V3訓(xùn)

練成本來(lái)源：DeepSeek模型測(cè)試數(shù)據(jù)&互聯(lián)網(wǎng)(Qwen/LLaMa

1.5B7B

14B

32B70B)5

Huawei

Proprietary-Restricted

Distribution

HUAWEI

DeepSeek

R1:

在Reasoning

任務(wù)達(dá)到了世界水平(OpenAI-o1)Figure1|Benchmark

performance

ofDeepSeek-R1.DeepSeek-R1

以DeepSeek-V3

Base(671B)為基礎(chǔ)模型，使用GRPO

算法作為RL

框架來(lái)提升Reasoning

性能以2階段SFT+2

階段RL

完成，從而解決R1-Zero

可讀性差、多種

語(yǔ)言混合問(wèn)題本次開(kāi)源同時(shí)發(fā)布了6個(gè)基于DeepSeek-R1

蒸餾的更小稠密模型RI-ColdstartRLRasoing

ofanpe★陟Qw25158

0wm25.7BQm25148800cot,匿Qwen25328]ampleThouandsolCofsamplesRI-ColdstartSFT600RISFT200kNon-ReasoningCoT

samples

Rue-bsedRM{GRPO)+Model-basedRM0

Lhms3188OLhm33-708

Basemodeks→權(quán)重關(guān)系

一數(shù)據(jù)流向★

發(fā)布模型V3-baseRL

RilebasedRMGRPO?(Acaury+Format)R1-Zero+(Accur

sstency)ge

conedRMasubnelauDeepSeek-R1技術(shù)路線(xiàn)*Depseck-RI-Distill

QwenLlama收重

初地化RI具體實(shí)現(xiàn)口只需存儲(chǔ)圖中的c,k"

即

可

；口考慮到矩陣乘法結(jié)合律，具體實(shí)現(xiàn)過(guò)程中Wuk

可以與WuQ

融合、Wuv

可以與

Wo融合，從而無(wú)需為每個(gè)query

計(jì)算key-value

值。Multi-HeadAttentionMulti-Head

LatentAttention(bs,h)bsh2bsh=lowKnp(bs,h)壓縮后寬度《隱藏層寬度昇騰

推理階段，理論上可以將KV

Cache

降低1~2個(gè)數(shù)量級(jí)，大幅減少HBM

存取和通信的開(kāi)銷(xiāo)。影響

2.對(duì)昇騰更親和，大幅降低對(duì)HBM依賴(lài)，提升推理Decode

性能。Benchmark(Metric)ShotsSmall

MoE

Small

MoEw/MHA

w/MLALargeMoELargeMoEw/MHAw/MLAActivatedParamsTotalParamsKV

Cache

per

Token(#Element)2.5B15.88110.6K2.4B15.7B15.6K25.0B250.8B860.2K21.5B247.4B34.6KBBH(EM)3-shot37.939.046.650.7MMLU(Ace.)5-shot48750.057.559,0C-Eval(Acc)5.shot51.650.957.959.2CMMLU(Ace.)5-shot52.353.460.762.5Attention

MechanismKV

Cache

per

Token(#Element)Multi-Head

Attention(MHA)Grouped-Query

Attention(GQA)Multi-Query

Attention(MQA)2nndnl2ngdnl2dnIMLA(Ours)

(de+d)≈2dhlDeepSeekV3

模型架構(gòu)：Multi-Head

Latent

Attention(MLA)MLA

架

構(gòu)張量低秩壓縮以降低KV

Cache資源開(kāi)銷(xiāo)：相比于傳統(tǒng)MHA,MLA

通過(guò)降維

操作使得存儲(chǔ)的張量維度大幅減小。(下圖中僅紅色陰影部分需要存儲(chǔ)

)MLA

架構(gòu)：1)分別對(duì)Query、Key-Value

pair進(jìn)行低秩壓縮；2)使用RoPE

獲得位置信息；3)使用MHA

計(jì)算得到輸出。實(shí)驗(yàn)結(jié)果對(duì)?Deepseekv

而言rannJ28,oMmL

可以將KV

Cac

he降低為

.7%相比于MHA,MLA每token的KVCache量大幅減少，且精度更高。wwe(bsh)

+(bs,h)wiluesKeysTorget

Token

Crow

ntropy

lossMain

ModalntblenmaschonyOutputHeadTransformerBlocktinearProjectionTransformerBlock×LRMSNom

RMSNormEmbeddnglrermput

Tokens

t①

模

型

結(jié)

構(gòu)·

每個(gè)MTP

模塊共享嵌入層和輸出頭·

每個(gè)MTP

模塊獨(dú)占一個(gè)TransformerBlock和一個(gè)投影矩陣·

多個(gè)MTP

模塊串聯(lián)保持完整的因果關(guān)系鏈②

訓(xùn)

練

策

略·每個(gè)MTP

模塊輸出預(yù)測(cè)token的概率分布·

每個(gè)MTP模塊計(jì)算對(duì)應(yīng)的交叉熵?fù)p失函數(shù)·

多個(gè)MTP

模塊的損失函數(shù)加權(quán)平均得到最終訓(xùn)練目標(biāo)ofourMulti-TokenPrediction(MTP)implementation.We

fortheprediction

ofeach

token

each

depth.m-Csfinpy-20m-2cthe③

關(guān)

鍵

作

用·

提升每批訓(xùn)練數(shù)據(jù)的使用效率，強(qiáng)化訓(xùn)練信號(hào)·

優(yōu)化模型表達(dá)能力，提升next-token的預(yù)測(cè)效果·

可參考投機(jī)采樣改造MTP模塊，加速推理效率MTP:Multi-Token

Prediction多token

預(yù)測(cè)提升模型效果·MTP

模塊僅在訓(xùn)練中使用，提升模型訓(xùn)練效果，推理階段可以不使用MTP

模塊，基礎(chǔ)模型能夠獨(dú)立完成正常推理·

參

考

投

機(jī)

采

樣

，MTP

模塊也可以被重新配置用于speculative

decoding,加速解碼過(guò)程，降低整體時(shí)延TransformerBlocklinearProjectionIRMSNormRMSNormEmbedfnglarerhy

GrosEntropyLossMTP

Module2iNotfmAton)Mai

CrossEntropyLossMTP

Module1,we?olekedcton)關(guān)

鍵發(fā)

現(xiàn)7

Huawei

Proprietary-Restricted

Distributionkeep(24)(25)3|Hlustration

causal

chainFigurecompleteEmbednglayeroutputtieadOutputHeadnetDualPipe:

雙流并行優(yōu)化計(jì)算和通信，

All-to

-AlI

通信開(kāi)銷(xiāo)接近0MLP可▲

RM2FA

ATTNB)4ATTNW平TTNFADSPATCH

DtnTCH)A

CONNEFA→P

osaDTATm△Fowardchunk

wardchunkFigure

4|Overlapping

strategy

for

pair

ofindividualforwardand

backwardchunks

(theboundaries

ofthetransformer

blocksarenotaligned).Orange

denotes

forward,green

denotesbackward

for

input",blue

denotes

"backward

forweights",purpledenotes

communication,①

細(xì)粒度的計(jì)算通信并行·

將PPstage拆分為更細(xì)的模塊，提升模塊交替編排的靈活度·

參考ZeroBubble,反向傳遞中的權(quán)重更新和梯度傳遞獨(dú)立操作·

經(jīng)過(guò)細(xì)粒度的拆分和編排之后，計(jì)算流和通信流的barrier剛好可以重疊②

雙向管道調(diào)度減少PP

中的氣泡·1F1B中每個(gè)batch拆分為1個(gè)forward和1個(gè)backward·

ZeroBubble中把backward拆分為input和weight兩個(gè)部分·

DualPipe中使用對(duì)稱(chēng)處理，不同batch從不同的device上開(kāi)始流水③

每卡顯存占用略微增大MethodBubbleParameterActivation1F1B(PP-1)(F+B)1xPPZB1PDualPipe

(Ours)(PP-1)(F+B-2W)1x2×PPPP+1Figure5|ExampleDualPipescheduling

for8PP

ranks

and

micro-batches

two

directions.Themicro-batchesinthereversedirectionaresymmetrictothoseinthe

forward

direction,sowe

omit

their

batch

IDfor

illustrationsimplicity.Twocellsenclosed

byashared

black

borderhave

mutually

overlapped

computation

and

communication.參考DualPipe技術(shù)，基于MindSpeed訓(xùn)練加速框架以及昇騰硬件特性，針對(duì)

性地設(shè)計(jì)高效率流水并行技術(shù)，提升整體訓(xùn)練性能·

雙向管道訓(xùn)練，需要存兩份參數(shù)來(lái)進(jìn)行訓(xùn)練(Parameter2x)·

模型總參數(shù)量671B,

每個(gè)卡上4個(gè)routedexpert對(duì)應(yīng)26.8B,同時(shí)

考慮到PP-16和FP8量化，每個(gè)卡上顯存占用為1.675GB8

HuaweiProprietary-Restricted

Distribution關(guān)鍵

啟示

DeepSeek

通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的優(yōu)化，帶來(lái)大模型新范式DeepSeekV3/R1,大幅提升從訓(xùn)練到推理的計(jì)算效率，降低模型創(chuàng)新及應(yīng)用落地的門(mén)檻推理優(yōu)化單次推理效率倍級(jí)提升Token預(yù)測(cè)1次1token預(yù)測(cè)1次多Token預(yù)測(cè)一次預(yù)測(cè)多個(gè)token推理倍級(jí)提升HUAWEI后訓(xùn)練優(yōu)化

降低學(xué)習(xí)復(fù)雜度強(qiáng)化學(xué)習(xí)需要裁判模型評(píng)估新老策略組隊(duì)評(píng)估簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程降低后訓(xùn)練復(fù)雜度業(yè)

界LLM

大模型DeepSeek核

心收益效果PP

并行算法1前1后單流水雙向流水并行MLA低秩壓縮減少緩存壓縮KVCache降低內(nèi)存90%支持更高并發(fā)訓(xùn)練精度FP16/BF16FP8混合精度DeepSeekMoE

更稀疏256選8+1模型容量提升3倍計(jì)算量減少70%AttentionMHA/GQA分組共享減少緩存計(jì)算通信優(yōu)化降低計(jì)算，極致的掩蓋，同時(shí)保證訓(xùn)練精度模型結(jié)構(gòu)優(yōu)化以計(jì)算換內(nèi)存、降通信，空間時(shí)間雙優(yōu)化計(jì)算量減少35%平衡訓(xùn)練效率與

數(shù)值精度MOEGPT416專(zhuān)家選2計(jì)算與通信極致掩蓋減少50%PP氣泡9

Huawei

Proprietay-Restricted

Distribution關(guān)注高效、穩(wěn)定、開(kāi)放的底座·

極致性能、穩(wěn)定可靠的AI集

群·

深度開(kāi)放的平臺(tái)和生態(tài)·極致的端到端性能效率優(yōu)化Claude2Llama3-70B

②Baichuan2-13BDeepSeek-V3-671BGLM-130BDeepSeek-R1-671B關(guān)注便捷、易用、性?xún)r(jià)比的平臺(tái)DeepSeek-R1-Distill-Qwen-32B·

開(kāi)箱即用的強(qiáng)化學(xué)習(xí)套件·

兼顧成本與性能的蒸餾/微調(diào)方案AlexNet大模型從技術(shù)摸高走向技術(shù)摸高+工程創(chuàng)新并行

，訓(xùn)練需求持續(xù)增長(zhǎng)①技術(shù)摸高：頭部玩家將戰(zhàn)略堅(jiān)定投入預(yù)訓(xùn)練基礎(chǔ)模型創(chuàng)新，豐富模型組合，追逐Scaling

Law,加

速

探

索AGI②工程創(chuàng)新：新的范式降低后訓(xùn)練和蒸餾門(mén)檻，模型效果大幅提升，出現(xiàn)平權(quán)現(xiàn)象，引發(fā)新一波的“百模干態(tài)”2012201320142015

201620172018

201920202021202220232024

20252026訓(xùn)練的算力需求將持續(xù)增長(zhǎng)，算力結(jié)構(gòu)從“預(yù)訓(xùn)練為主”走向“預(yù)訓(xùn)練+后訓(xùn)練/二次訓(xùn)練”10HuaweiProprietary-RestrictedDistribution

Doubao

2.0

Lama4G

Gemini2.0GPT-5DeepSeek-R1-Distill-Qwen-1.5B(蒸餾后較原模型能力提升10%+)G

Gemini

Utra

PalM(540B)

GPT-4/40·

便捷的部署、敏捷業(yè)務(wù)上線(xiàn)工

程

創(chuàng)

新新一輪百模千態(tài)技

術(shù)

摸高新一輪技術(shù)競(jìng)爭(zhēng)訓(xùn)練算力需求(PFLOPS)

GPT-3/3.5175BMegatron-Tuning

NLG530BG

BERT-LargeGTransformerHunyuanGroq4①金融

交通

教育醫(yī)療電

力

油氣

制造云服務(wù)

硬件+社區(qū)

一體機(jī)釘釘一體機(jī)電信息壤一體機(jī)昇騰社區(qū)新致金融一體機(jī)同花順一體機(jī)京東云諸多廠(chǎng)家推出一體化方案對(duì)

外提供服務(wù)/自用硬件+開(kāi)源模型+RL

套件+ISV/

云，商業(yè)模式逐漸成熟AS

IS基

礎(chǔ)

模

型(DeepSeek/Uama.Qwen.

大量行業(yè)數(shù)據(jù)監(jiān)督微調(diào)SFT更多行業(yè)高質(zhì)量數(shù)據(jù)生成監(jiān)督微調(diào)SFT行業(yè)大模型行業(yè)大模型部署更高效月級(jí)調(diào)優(yōu)

→

周/天級(jí)優(yōu)化 DeepSeek能力提升成為各行業(yè)生產(chǎn)力工具，加速推理落地干行百業(yè)DeepSeek

催熟大模型落地技術(shù)，降低推理部署門(mén)檻開(kāi)箱即用的一體機(jī)，加速大模型應(yīng)用落地華為云移動(dòng)云電信天翼云聯(lián)通云騰訊云阿里云亞馬遜AWS

微軟Azure數(shù)據(jù)依賴(lài)降低高質(zhì)量數(shù)據(jù)

→

生成數(shù)據(jù)算法依賴(lài)降低高端人才

→

開(kāi)源+蒸餾NVIDIAHugging

FaceGitHub主流云服務(wù)商已支持DS

覆蓋公/私有云部署11

HuaweiProprietary-Restricted

Distribution主流算力、主流社區(qū)

均已支持DeepSeek模型蒸餾-模型小型化少量行業(yè)數(shù)據(jù)強(qiáng)化學(xué)習(xí)魔樂(lè)社區(qū)基礎(chǔ)模型Llama/Qwen/)昇騰TOBE模型服務(wù)商潞晨科技已上線(xiàn)硅基流動(dòng)已上線(xiàn)清昴已上線(xiàn)訊飛測(cè)試中運(yùn)營(yíng)商電信天翼云已上線(xiàn)聯(lián)通云已上線(xiàn)移動(dòng)云已上線(xiàn)南京、福建、浙江移動(dòng)已上線(xiàn)上海、江蘇電信已上線(xiàn)國(guó)計(jì)民生行業(yè)龍崗區(qū)政府已上線(xiàn)北京銀行已上線(xiàn)廣大證券已上線(xiàn)北京、南京、西安、武漢、蘇州、無(wú)錫等公共服務(wù)平臺(tái)已上線(xiàn)招行測(cè)試中工行測(cè)試中太保測(cè)試中模型名稱(chēng)Atlas

300I

DuoAtlas

800I

A2DeepSeekV3√DeepSeekR1√DeepSeek

Janus-Pro-1B/7B√√DeepSeek

R1-Distill-Llama-70B√DeepSeek

R1-Distill-Qwen-32B√DeepSeek

R1-Distill-Llama-8BDeepSeek

R1-Distill-Qwen-1.5B/7B/14B√√ DeepSeek

模型發(fā)布即支持昇騰推理，各行業(yè)已基于昇騰快速上線(xiàn)DeepSaek-V3(CMWote/0gDeepSeek-RhaDeepSeek

發(fā)布兩周，3大社區(qū)全系列模型上線(xiàn)40+客戶(hù)/伙伴基于昇騰已上線(xiàn)，15+測(cè)試中(預(yù)計(jì)兩周內(nèi)全部上線(xiàn))最新DeepSeekV3/R1/Janus-Pro

及6個(gè)蒸餾模型

基于昇騰開(kāi)箱即用，配套版本已上線(xiàn)各大開(kāi)源社區(qū)配套版本上線(xiàn)昇騰社區(qū)：https://www.hiascend.com/software/mode

lzoo/models/detail/678bdeb4ela64c9dae51d353d84dddi5配套版本上線(xiàn)魔樂(lè)社區(qū)：/models/MindIE/deeps

eekv312

Huawei

Proprietary-Restricted

DistributionAtlas

800IA2(256GB)Atlas300I

Duo系統(tǒng)吞吐

并發(fā)路數(shù)730

Token/s@14B

80路@14B956Token/s@8B115路@8B956Token/s@7B115路@7B思

騰

合

力Atlas300V系統(tǒng)吞吐并發(fā)路數(shù)432Tnken/s16路系統(tǒng)吞吐4940Token/s@32B7500Token/s@14B并發(fā)路數(shù)247路@32B300路@14B

瓏京科技

思

雎

合

力

昇騰DeepSeek—體機(jī)：大吞吐+高并發(fā)，加速行業(yè)模型落地系統(tǒng)吞吐1911Token/s潞展科技移動(dòng)，貴一體系統(tǒng)吞吐3300Token/s165路

瓏京科技思

騰

合

力

模型參數(shù)：671B+

滿(mǎn)

血

版DeepSeek

V3/R1Atlas800I

A2(1024GB)模型參數(shù)：70BDeepSeek-R1-Distill-Lama-70BAtlas800IA2(512GB)模型參數(shù)：14B/32BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型參數(shù)：7B/8B/14BDeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Qwen-7B模型參數(shù)：1.5BDeepSeek-R1-Distll-Qwen-1.5B

金融

Huawei

Proprietary-Restricted

Distribution

教育

油氣

制造

交通瓏京科技思騰合力個(gè)人知識(shí)管理個(gè)人文檔分析編程輔助個(gè)性化學(xué)習(xí)輔導(dǎo)

創(chuàng)意寫(xiě)作AI編程

智能對(duì)話(huà)

金融研報(bào)文本創(chuàng)作

營(yíng)銷(xiāo)文案內(nèi)容檢測(cè)并發(fā)路數(shù)192路開(kāi)

發(fā)

板

邊端設(shè)備編程輔助

智能客服政務(wù)電力瓏京科技并發(fā)路數(shù)模型集合模型名稱(chēng)參數(shù)計(jì)算精度產(chǎn)品配置系統(tǒng)吞吐token/s并發(fā)用戶(hù)數(shù)DeepSeek-V3DeepSeek

V3671BINT8Atlas800I

A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I

A21024GB1911192DeepSeek-R1蒸餾模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I

A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I

A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I

A2256GB7500300Atlas

300I

Duo1*Duo

96GB

PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas

300V1*300V

24GB

PCIE43216

DeepSeekV3/R1

及蒸餾模型，昇騰DeepSeek

一體機(jī)推薦配置14Huawei

Proprietary-Restricted

Distribution華為昇騰AI

基礎(chǔ)軟硬件介紹DeepSeek

洞察及昇騰適配進(jìn)展215

Huawei

Proprietary-Restricted

Distribution1昇騰AI基礎(chǔ)軟硬件架構(gòu)全面創(chuàng)新，使能行業(yè)場(chǎng)景化應(yīng)用行業(yè)場(chǎng)景化應(yīng)用視圖分析、檢索聚類(lèi)、搜索

推薦、自然語(yǔ)言處

理、智能語(yǔ)音、自動(dòng)駕駛應(yīng)用使能應(yīng)用使能套件/SDKAI計(jì)算框架PyTorch/TensorFlow/Caffe

…

.異構(gòu)計(jì)算架構(gòu)CUDANV系列硬件模組/加速卡/服務(wù)器/-->集群NV處理器Ampere系列/

Hopper系列…nVIDIA.

CUDAnVIDIAModelArts

應(yīng)用使能訓(xùn)練平臺(tái)/推理引擎/模型套件/SDKAI計(jì)算框架昇思MindSporePyTorch/TensorFlow/Caffe....異構(gòu)計(jì)算架構(gòu)CANNAtlas及昇騰伙伴系列硬件模組/小站/加速卡/服務(wù)器/集群昇騰處理器昇騰310系列/昇騰910系列

…英偉達(dá)AI基礎(chǔ)軟硬件架構(gòu)[M]!昇思CANNAAscend昇

騰

基

礎(chǔ)

軟

硬

件

架

構(gòu)16Huawei

Proprietary-Restricted

Distribution計(jì)算架構(gòu)CANN深度開(kāi)放，使能高效靈活開(kāi)發(fā)，匹配開(kāi)發(fā)者使用習(xí)慣深度開(kāi)放CANN,

一套架構(gòu)使能昇騰原生開(kāi)發(fā)

對(duì)

位NV

CUDA,匹配開(kāi)發(fā)使用習(xí)慣加

速

庫(kù)

Megatron

DeepSpeed

AscendSpeedAI框架昇思MindSporePyTorch

TensorFlow

…GE

圖引擎開(kāi)放圖編譯、圖優(yōu)化、圖執(zhí)行，支持自定義圖融合，提升整網(wǎng)性能HCCL

集合通信庫(kù)開(kāi)放通信算子、平臺(tái)接口，支持自定義通信算法，提升網(wǎng)絡(luò)通信效率Graph

Engine

圖引擎HCCLAscend

C高

階APIAscend

低級(jí)APIAscend

acINNMT

、KS自定義圖融合patternTX

、MThash

算法自定義調(diào)優(yōu)XF自定義切分策略KS自定義算子開(kāi)發(fā)XF結(jié)合場(chǎng)景差異優(yōu)化nVIDIA.CUDATensorRTplugins&parserNV

NCCLNV

CUTLASSNV

CUDA-CNV

cuDNNGE

圖引擎集合通信庫(kù)類(lèi)庫(kù)/模板通用編程算子加速庫(kù)算子加速庫(kù)開(kāi)放1600+基礎(chǔ)算子接口、30+融合算子接口，簡(jiǎn)化開(kāi)發(fā)復(fù)雜度，提升開(kāi)發(fā)效率畢昇編譯器|Runtime運(yùn)行時(shí)開(kāi)放硬件資源接口，滿(mǎn)足開(kāi)發(fā)者對(duì)模型開(kāi)發(fā)、系統(tǒng)優(yōu)化、三方生態(tài)對(duì)接等各場(chǎng)景需求Ascend

C編程語(yǔ)言開(kāi)放130+底層API

、60+高層API,

支持高性能自定義融合算子開(kāi)發(fā)KS直接發(fā)起Kernel

LaunchCANN昇

騰

硬

件

使

能CANNNV

Runtime

Ascend

Runtime17Huawei

Proprietary-Restricted

Distribution運(yùn)行時(shí)》》》模型訓(xùn)練：算網(wǎng)/算存深度協(xié)同是大模型分布式并行訓(xùn)練的基礎(chǔ)大模型技術(shù)發(fā)展方向干億稠密/萬(wàn)億稀疏超長(zhǎng)序列多模更大規(guī)模/更復(fù)雜的組網(wǎng)

更復(fù)雜的模型及數(shù)據(jù)切分

更

大(

數(shù)模

參數(shù)存he儲(chǔ)dkPo和nt讀)寫(xiě)大規(guī)模組網(wǎng)·

超大組網(wǎng)規(guī)模：2層1:1無(wú)收斂的AI網(wǎng)絡(luò)架構(gòu)，最

大支持128

K集群規(guī)模組網(wǎng)，千卡到萬(wàn)卡平滑演進(jìn)支持2級(jí)框盒、框框組網(wǎng)，適用于大規(guī)模及超大規(guī)模集群…

…

同

…u

NPU算網(wǎng)協(xié)同·

網(wǎng)絡(luò)級(jí)負(fù)載均衡：獨(dú)家NSLB算法，算網(wǎng)協(xié)同

調(diào)度，多任務(wù)節(jié)點(diǎn)非連續(xù)組網(wǎng)情況下，通信帶寬提升20%、模型性能提升7%3

、A

任務(wù)信息任務(wù)、通信過(guò)4、動(dòng)態(tài)路徑調(diào)整A

調(diào)度平臺(tái)算存協(xié)同·

極致讀寫(xiě)性能：

CKPT等算存讀寫(xiě)協(xié)同優(yōu)化、

級(jí)存取+TB級(jí)帶寬，數(shù)據(jù)讀取效率提升50%dxO)(

武出戶(hù)()理書(shū)aDPC

區(qū)備優(yōu)化的為案飲化監(jiān)方案Pu/oujonoim計(jì)算節(jié)點(diǎn)以全部通信關(guān)系和拓?fù)湫畔⒆鳛檩斎胪ㄟ^(guò)算法計(jì)算出最優(yōu)結(jié)果，實(shí)現(xiàn)AI參數(shù)面全網(wǎng)負(fù)載均衡18Huawei

Proprietary-Restricted

Distributionr存儲(chǔ)節(jié)點(diǎn)Japith設(shè)2、AI

任務(wù)調(diào)度網(wǎng)絡(luò)控制器模型通信與計(jì)算優(yōu)化，單機(jī)執(zhí)行最優(yōu)算子深度融合“工序合并”減少計(jì)算數(shù)據(jù)搬入

搬出的時(shí)間及內(nèi)存開(kāi)銷(xiāo)計(jì)算與通信融合計(jì)算數(shù)據(jù)細(xì)粒度切分，減少計(jì)算與通信相互等待計(jì)算加速忽略無(wú)效計(jì)算，減少計(jì)算量和內(nèi)存量計(jì)算通信計(jì)算1

計(jì)

算

計(jì)

算

計(jì)

篇

4通信1通信2通信3

通倍自適應(yīng)選擇性重計(jì)算、內(nèi)存碎片優(yōu)化、MultiheadAttention中常見(jiàn)模型的mask上

三角區(qū)域均接近于0算子庫(kù)低階二進(jìn)制算子庫(kù)

高階融合算子庫(kù)CANNAscend

C編程語(yǔ)言+Runtime開(kāi)放接口模型訓(xùn)練：應(yīng)用使能軟件加持，

MFU

領(lǐng)先、線(xiàn)性度持平NV模型訓(xùn)練最優(yōu)=單機(jī)執(zhí)行最優(yōu)+集群并行最優(yōu)

+中斷時(shí)間最短模型算力利用率(MFU)

45%+

超大集群線(xiàn)性度

90%+軟件層分布式并行充分調(diào)度算力資源提供分布式加速庫(kù)，內(nèi)置主流加速算法，滿(mǎn)足各類(lèi)模型加速場(chǎng)景硬件層算網(wǎng)協(xié)同提升有效吞吐NLSB

網(wǎng)絡(luò)級(jí)負(fù)載均衡實(shí)現(xiàn)網(wǎng)絡(luò)動(dòng)態(tài)路由，有效吞吐達(dá)98%控制器全局集中算路自動(dòng)生成路徑并動(dòng)態(tài)下發(fā)網(wǎng)絡(luò)網(wǎng)絡(luò)控制器獲取網(wǎng)絡(luò)拓?fù)?/p>

下發(fā)路徑數(shù)據(jù)并行、流水并行

層Ln層層內(nèi)通信并行19Huawei

Proprietary-Restricted

Distribution分布式并行+算網(wǎng)協(xié)同，集群并行最優(yōu)OPyTorch[M

]

界思模型并行場(chǎng)景/應(yīng)用測(cè)試模型測(cè)試結(jié)果對(duì)話(huà)搜索DB-200B0.94x

A800客服、文生圖場(chǎng)景；

金融助手SDXL3.48~3.63x

A10Llama2-7B1.41~2.72x

A10Llama2-13B1.44~2.19x

A10電商ChatGLM2-6B1.86x

A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智腦13B1.7xA30圖像識(shí)別、OCR文

字識(shí)別和視頻處理Llama2-70B1.7x

L20智慧教育、辦公問(wèn)

答星火-65Bx800T

A2交互搜索，金融客服問(wèn)答step1V-130B多模態(tài)2.0x

L20對(duì)標(biāo)Triton+TMS/vLLM業(yè)界標(biāo)準(zhǔn)RPC接口高效對(duì)接業(yè)務(wù)層·模型管理，集群管理，devops·

支持多實(shí)例并發(fā)對(duì)

標(biāo)TensorRT-LLM·

支持社區(qū)模型快速遷移·

自回歸解碼、擴(kuò)散過(guò)程優(yōu)化·

稀疏量化壓縮、

并行推理支持PyTorch/

昇

思·

少量代碼實(shí)現(xiàn)訓(xùn)練向推理平滑遷移·整圖/子圖優(yōu)化+單算子混合推理對(duì)標(biāo)TensorRT·

圖優(yōu)化，算子融合，

Kernel

優(yōu)化·

量化、混合精度加速:異步下發(fā)，多流水執(zhí)行_---模型推理：提供分層開(kāi)放的推理引擎MindIE,使能高效推理昇騰推理引擎

indIENEW

MindIE-Service

第三方推理服務(wù)推理服務(wù)化

MindIE-MS

Triton

backendMindIE-ServerMindIE-ClientvLLM3rdMindIE-RT推理開(kāi)發(fā)工具

算子加速庫(kù)NEWD推理套件

MindIE-LLM框架推理推理運(yùn)行時(shí)MindSpore

對(duì)接

MindIE-Torch20HuaweiProprietary-RestrictedDistributionNEWMindIE-SDCANN推理應(yīng)用接口遷

移

分

析

工

具模型支持度分析和修改建議模型支持度評(píng)估離線(xiàn)模型——

分析報(bào)告模

型

轉(zhuǎn)

換

工

具實(shí)現(xiàn)訓(xùn)推一體的模型轉(zhuǎn)換一鍵式命令觸發(fā)三方框架

昇騰處理器模型格式

模型格式圖準(zhǔn)備->圖拆分->圖優(yōu)化->圖編譯精

度

比

對(duì)

、

改

圖

工

具一站式調(diào)優(yōu)工具，提升精度優(yōu)化效率性

能

優(yōu)

化

、

快

速

推

理

工

具一站式調(diào)優(yōu)工具，提升性能優(yōu)化效率用戶(hù)APPIDEAscendNPU模型遷移：工具鏈進(jìn)一步升級(jí)，提升GPU

到昇騰快速遷移能力GPU訓(xùn)練=>昇騰推理：提供MindStudio一站式工具鏈，3~15人天可完成遷移，80%場(chǎng)景僅需3人天差異二：工具鏈差異導(dǎo)致遷移效率不同算子重開(kāi)發(fā)、精度調(diào)試、性能調(diào)優(yōu)的難度

體現(xiàn)在工具鏈的能力上昇騰

無(wú)工具鏈—

其他架構(gòu)亟需精度對(duì)比工具：

GPU

的推理精度在適配昇

騰訓(xùn)練的模型時(shí)，需要以昇騰訓(xùn)練的模型精度為標(biāo)桿遷

移

工

作

量

大

：建立工具鏈完成對(duì)昇騰的精度

對(duì)比和調(diào)優(yōu)。差異三：基礎(chǔ)能力差異導(dǎo)致支持完備度不同基礎(chǔ)庫(kù)、加速庫(kù)、三方庫(kù)等支持情況不同跨架構(gòu)時(shí)需通過(guò)引入、適配第三方庫(kù)，或者開(kāi)

發(fā)基于自身架構(gòu)的對(duì)等庫(kù)來(lái)解決庫(kù)的差異問(wèn)題差異一：芯片架構(gòu)差異導(dǎo)致算子實(shí)現(xiàn)不同例如，矩陣計(jì)算時(shí)，昇騰采用16

x16

分形，英偉達(dá)采用8x8

分形

即使算子功

能

相

同，在不同架構(gòu)下算子實(shí)現(xiàn)方式可

能不

同計(jì)算架構(gòu)支持的主要基礎(chǔ)庫(kù)/加速庫(kù)昇騰DVPP/AIPP/mxVision/ACLNN/ACLBlas等英偉達(dá)CodecSDK/CV-CUDA/cuDNN/cuBlas/DAL等GPUCUBE計(jì)算單元結(jié)構(gòu)為8x8x4(A100)昇

騰CUBE

計(jì)算單元結(jié)構(gòu)

為16x16x16HUAWEI21Huawei

Proprietary-Restricted

Distribution命令行

數(shù)據(jù)采集GPUGraph

NPUGraph芯片架構(gòu)差異數(shù)據(jù)解析

DataMindStudio精度結(jié)果MindStduio0S業(yè)界主流4款開(kāi)源大模型GPT-3

參數(shù)：13

B/100B

/175B已測(cè)試客戶(hù)：YD

、MY

、ZSreIUUS業(yè)界1.00X1.00X1.05X0.83X1.04X0.83XM

indSpore+昇騰

PyTorch

NV100B業(yè)界7B業(yè)界13B業(yè)界70B業(yè)界63業(yè)界1.23X1.01X0.91X1.13X1.21X7B業(yè)界業(yè)界70B業(yè)界業(yè)

B7B業(yè)界參數(shù)：7B/13B/70B已測(cè)試客戶(hù)：TYY、YD、BOSS、MY、360、MT、CA

、HWY

、CGCSYSGLM-3

參數(shù)：6

B/10B/130B已測(cè)試客戶(hù)：ZP、BJYH、YCCXJH、MT、LTYOwen-2

參數(shù)：7B/72B0.9X業(yè)界昇騰已支持國(guó)內(nèi)外開(kāi)源開(kāi)放大模型，實(shí)測(cè)性能持平業(yè)界國(guó)內(nèi)唯一已完成訓(xùn)練干億參數(shù)大模型的技術(shù)路線(xiàn)，業(yè)界主流大模型PyTorch

實(shí)測(cè)性能均達(dá)到0.8~1.1倍業(yè)界最新主流開(kāi)源模型均已陸續(xù)適配并商用中Baichuan2|GLM

V3|SiT|MixTral-8x7B|Stable

Diffusion|OpenSora

|VideoGPT

|Qwen-VL

…22Huawei

Proprietary-Restricted

Distribution測(cè)試報(bào)告滿(mǎn)

試

結(jié)

量m已測(cè)試客戶(hù)：DX、VIP

72B業(yè)界

0.87X21e*…LLaMA-3S7B5核心技術(shù)H800A2FP8+20%~25%不支持無(wú)輔助負(fù)載均衡損失評(píng)分效果提升評(píng)分效果提升DualPipe計(jì)算通信比1:1->8:1,+8~12%計(jì)算通信比3:1->6:1,+4~6%跨節(jié)點(diǎn)All2AlI優(yōu)化RMSNorm+MLA部分重計(jì)算省2~3G內(nèi)存省2~3G內(nèi)存場(chǎng)景核心技術(shù)A2DeepSeek適配LoRA微調(diào)CCLoRA支持25Q1支持Fused_MLP支持qLoRA微調(diào)CCLoRA支持Fused_MLP不支持長(zhǎng)序列微調(diào)長(zhǎng)序列CP方案支持微調(diào)算法目標(biāo)性能部署建議LoRA微調(diào)1.1x業(yè)界8機(jī)Atlas800T

A2qLoRA微調(diào)1.1x業(yè)界4機(jī)Atlas800TA2全參微調(diào)1.1x業(yè)界32機(jī)Atlas800T

A2DeepSeek模型A2適配情況DeepSeekV3已適配DeepSeek

R1已適配DeepSeekJanus-Pro已適配

DeepSeek

系列模型昇騰訓(xùn)練產(chǎn)品適配計(jì)劃及微調(diào)部署建議支持CCLoRA、Fused_MLP

核心技術(shù)，提升微調(diào)訓(xùn)練吞吐性能DeepSeek

系列預(yù)訓(xùn)練完成昇騰適配，目標(biāo)性能1.1x

NVDeepSeek

系列模型微調(diào)目標(biāo)性能1.1x業(yè)界(Q1)支持DualPipe

、跨節(jié)點(diǎn)All2AlI

等優(yōu)化23Huawei

Proprietary-Restricted

DistributionDeepSeek

V3/DeepSeek

R1(671B)

“滿(mǎn)血版”BF16

精度推理采用BF16或FP16

數(shù)據(jù)格式進(jìn)行推理，需要內(nèi)存約為1340GB需要采用Atlas800I/T

A2(8*64GB)4機(jī)并行X4Atlas800I

A2(8*64GB)最小配置為4機(jī)并行采用Atlas

800T

A2時(shí)亦需4機(jī)井行INT8

精度推理采用INT8

數(shù)據(jù)格式進(jìn)行推理，

需要內(nèi)存<700GB,

可2機(jī)并行X2Atlas800I

A2(8*64GB)最小配置為2機(jī)并行采用Atlas800T

A2時(shí)亦需2機(jī)并行模型硬件格式部署建議進(jìn)展DeepSeekJanusPro1BAtlas800IA2BF16單卡部署，單機(jī)8實(shí)例已適配發(fā)布Atlas

300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中DeepSeekJanusPro7BAtlas800IA2BF16單卡部署，單機(jī)8實(shí)例已適配發(fā)布Atlas

300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中模型參數(shù)格式部署建議進(jìn)展DeepSeek-

R1-Distill-Llama8BBF16/INT8<14B模型可采用Atlas300IDuo推理；

大于14B模型推薦Atlas800IA2推理：·1.5B:Duo/A2單卡部署，開(kāi)發(fā)板部署·7~8B:Duo卡2卡并行，

A28卡并行，支持開(kāi)發(fā)板部署·

14B:Duo卡2卡并行，

A28卡并行·32~70B:A28卡并行整體已適配發(fā)布Atlas800IA2BF16

/INT8推理已發(fā)布除70B模型外，其他模型Atlas

300IDuoFP16/INT

870BBF16/INT8DeepSeek-

R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8

DeepSeek

主干模型均已支持昇騰推理開(kāi)箱，性能持續(xù)提升中MLA

架構(gòu)：

支持EP

策略：支持PD

分離部署：待支持W8A8

量化：

支持

MTP多token

預(yù)測(cè)：

待支持多模態(tài)模型DeepSeek

Janus

ProDeepSeek

R1蒸餾模型24

Huawei

Proprietary-Restricted

Distribution關(guān)

鍵

性

能優(yōu)

化

特

性參數(shù)面用于智能集群分布式推理時(shí)參數(shù)交換，要求網(wǎng)絡(luò)具備高吞吐低時(shí)延能力，部署高帶寬的智能

無(wú)損RoCE網(wǎng)絡(luò)，每臺(tái)推理服務(wù)器8個(gè)200GE

ROCE光口樣本面用于訪(fǎng)問(wèn)存儲(chǔ)區(qū)的高速大帶寬互聯(lián)的存儲(chǔ)系統(tǒng)，推薦部署為RoCE無(wú)損網(wǎng)絡(luò)，每臺(tái)推理服務(wù)器

2個(gè)25GE光口業(yè)務(wù)面用于系統(tǒng)業(yè)務(wù)調(diào)度和管理。通常部署為T(mén)CP/IP有損網(wǎng)絡(luò)，每臺(tái)推力卡服務(wù)器2個(gè)25GE光口帶外管理AI服務(wù)器BMC管理，可選DeepseekV3/R1

模型本地化部署組網(wǎng)方案訓(xùn)推平臺(tái)(按需配置)xx臺(tái)通用服務(wù)器16*400/E一分二LeafCE9860*2臺(tái)SpineCE9860*2臺(tái)400G

RoCE交換機(jī)參數(shù)面DeepSeekR1/V3推理配置建議

BF16

最小配置4臺(tái)計(jì)算節(jié)點(diǎn)；INT8

最

小

配

置2

臺(tái)

計(jì)

算節(jié)點(diǎn)

；業(yè)務(wù)面CE6865E8*25GE推理調(diào)度管理流量樣本面(可選)i.Leaf

CE9860推理讀流量分

級(jí)帶外管理面(BMC

管理可選)CE58824*GEAI

推理服務(wù)器(Atlas800I

A2)4臺(tái)*8口*20DGESpine

CE9860Leaf

CE6865E8*25GE9950DPC訪(fǎng)問(wèn)9540存儲(chǔ)區(qū)(可選)25

HuaweiProprietary-Restricted

Distribution_400G100G10G200G25GGENFS

訪(fǎng)

河圖

例序號(hào)模型發(fā)布曰期描述本地部署推理最低配置當(dāng)前支持情況1DeepSeek-V32024.12.16MOE,671B4*Atlas800I

A2(8卡，64GB)https://modelers.cn/models/MindI

E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I

A2(8卡，64GB)https://modelers.cn/models/MindIE/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持，直接用mindIE可跑通，

310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持，直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1*310P(顯存不小于48GB,量化

后顯存不小于24G)310P已支持，直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(顯存不小于96GB)推薦4*310P以上配置310P已支持，直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持，直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I

A2(8卡，32GB)

或8*310P310P已支持，直接用mindIE可跑通9Janus-Pro

1B2025.1.28多模態(tài)，1B1*310P或1*310Bhttps://modelers.cn/models/MindIE/Janus-Pro310B適配中10Janus-Pro

7B2025.1.28多模態(tài)，7B1*310Phttps://modelers.cn/models/MindIE/Janus-Pro

DeepSeek

系列模型昇騰

NPU

推理配置建議

快速部署DeepSeek

模型

模型資源獲取推理資源評(píng)估推理設(shè)備選型模型權(quán)重下載推理環(huán)境調(diào)測(cè)集群連通測(cè)試推理鏡像制作推理模型部署模型權(quán)重轉(zhuǎn)換模型量化純模型測(cè)試服務(wù)化啟動(dòng)推理模型測(cè)試性能測(cè)試精度測(cè)試服務(wù)化測(cè)試容

器

化

部

署物

理

機(jī)

部

署鏡像封裝，提供容器命令

基于場(chǎng)景，提供開(kāi)發(fā)環(huán)境部署方法運(yùn)行環(huán)境部署加速框架Deepspeed

|Mindspeed|MindIEAl計(jì)算框架

PyTorch

|TensorFlow|MindSpore異構(gòu)計(jì)算架構(gòu)CANNAAscend

昇騰處理器

模

型

運(yùn)

行

版

本

配

套

復(fù)

雜

Python=3xPyTorch=2.0CANN7.0.0,

依賴(lài)MindSpeedPython=3xCANN6.0.RC3,依賴(lài)AdlLite推薦昇騰最佳實(shí)踐，快速?gòu)?fù)現(xiàn)DeepSeek

系列模型推理流程，加速客戶(hù)應(yīng)用上線(xiàn)。27

Huawei

Proprietary-Restricted

DistributionAI計(jì)算使能服務(wù)-DeepSeek

部署支持：快速適配DeepSeek

模型，支撐模型快速上線(xiàn)DeepSeek-R1-Distilllama DeepSeek-R1-Distill-qwen Janus-Pro

deapseok

已支持的DeepSeek

系列模型

AI軟件棧多且復(fù)雜，

客戶(hù)不清楚模型組

件

安

裝

依

賴(lài)

順

序

，模型分析工具鏈有

哪些，模型是否支持容器化部署等關(guān)鍵特性W8A8

量化|服務(wù)化部署|EP并行DeepSeek-V3DeepSeek-V2.5推理運(yùn)行環(huán)境部署支持DeepSeek-R1ModelAModelBENNBENVA賦能流程01

需求調(diào)研02

方案制定

賦能實(shí)施·

調(diào)研客戶(hù)工程師開(kāi)發(fā)過(guò)程中

的痛點(diǎn)、難點(diǎn)·

明確客戶(hù)當(dāng)前能力缺位情況·

提供賦能內(nèi)容·

提供昇騰樣例·

昇騰模型/應(yīng)用開(kāi)發(fā)流程演示·

Demo樣例講解·

昇騰AI基礎(chǔ)知識(shí)賦能DeepSeek系列賦能昇騰基礎(chǔ)昇騰全棧軟件社區(qū)資源講解AI基礎(chǔ)知識(shí)環(huán)境搭建示例CANN&AI框架賦能昇騰模

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

華為昇騰DeepSeek解決方案設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

華為昇騰DeepSeek解決方案設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔