版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
.
2025|
N
D
UST
R
Y
R
ES
EAR
C
H
R
E
P
0
R
TDeepSeek
技術(shù)全景解析重塑全球AI生態(tài)的中國力量編
制
:
智研咨詢chyxx
服務(wù)0-9383精品行研報(bào)告·專項(xiàng)定制·月度專某省市場地位證明·專精特新申報(bào)
·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三01
DeepSeek
企業(yè)背景02
Deepseek
模型家族03
Deepseek
技術(shù)創(chuàng)新04
Deepseek商業(yè)模式05
Deepseek
應(yīng)用場景06
AI某省市場現(xiàn)狀07
Deepseek對Al行業(yè)影響總結(jié)chyxx
服務(wù)0-9383精品行研報(bào)告·專項(xiàng)定制·月度專某省市場地位證明·專精特新申報(bào)
·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三CONTENT
PART
01DeepSeek
企業(yè)背景最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢●chyxx
服務(wù)0-9383精品行研報(bào)告·
專項(xiàng)定制·
月度專某省市場地位證明·
專精特新申報(bào)·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃DeepSeek
背靠資金實(shí)力雄厚的幻方量化2025年1月,DeepSeek
發(fā)布其最新開源模型DeepSeek
R1,
再度引發(fā)全球人工智能領(lǐng)域關(guān)注。DeepSeek,全稱杭州深度求索
人工某著名企業(yè),成立于2023年7月17日,
一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語言模型(LLM)和
相
關(guān)
技
術(shù)
。DeepSeek
背靠資金實(shí)力雄厚的幻方量化,DeepSeek
創(chuàng)始人為,同時(shí)也是幻方量化的創(chuàng)始人,幻方量化是
國內(nèi)頭部量化私募管理人,旗下有兩家百億量化私募,分別是2015年6月成立的浙江九章資產(chǎn)和2016年2月成立的寧波幻方量化。DeepSeek公司簡介
DeepSeek
股權(quán)結(jié)構(gòu)99%
1%杭州深度求索人工某著名企業(yè)0.1%寧波程采企業(yè)管理咨詢合伙企業(yè)(有限合伙)100%北京深度求索人工智某著名企業(yè)南海諸島
資料來源:愛企查
chyxxDeepSeek
位
于浙某省市,
成立于2023年
7月。寧波程恩企業(yè)管理咨詢合伙企業(yè)(有限合伙)●1.1
DeepSeek基本情況智研咨詢★北京DeepSeek
大模型不斷優(yōu)化迭代回顧其發(fā)展歷史,2024年1月,發(fā)布第
一
版大模型
—
-DeepSeek
LLM,
這個版本使用傳統(tǒng)的Transformer架構(gòu),但在訓(xùn)練方面,已經(jīng)明顯體現(xiàn)出DeepSeek
團(tuán)隊(duì)通過不斷優(yōu)化訓(xùn)練策略,達(dá)到節(jié)約成本,提高效率的思想,這點(diǎn)也在后續(xù)的模型迭代中被發(fā)揚(yáng)光
大。2024年5月,
DeepSeek-V2
發(fā)布,從這
一
代開始,
DeepSeek
模型開始使用混合專家(MoE)架構(gòu),這是傳統(tǒng)Transformer架構(gòu)的
一
種改進(jìn)和擴(kuò)展,該架構(gòu)使DeepSeek
模型能以更低的計(jì)算成本進(jìn)行更復(fù)雜的推理,極大提升了模型的性能。2024年12
月
,DeepSeek-V3
上
線
并
開
源
,V3版
本
對MoE
架構(gòu)進(jìn)行了進(jìn)
一
步優(yōu)化,在維持低訓(xùn)練成本的同時(shí),穩(wěn)定性與多方面性能表現(xiàn)都
達(dá)到了與領(lǐng)先閉源模型相當(dāng)?shù)乃健?025年1月,DeepSeek-R1
正
式
發(fā)
布
,R1模型的推理能力得到極大加強(qiáng),與OpenAl-01模
型不相上下,且推理過程完全透明,因此在全球范圍備受關(guān)注。正式發(fā)布推理模型DeepSeekR1Lite預(yù)覽版正式上線2024年11月2024年9月合并DeepSeekCoder
V2和
DeepSeek
V2
Chat兩個模型,升級推出全新的DeepSeek
V2.5新模型DeepSeek
R1DeepSeekV3DeepSeekCoderV2DeepSeekVLDeepSeekV2DeepSeek
Coder
DeepSeek
MathDeepSeek
LLMDeepSeek
模型家族deepseek2024年12月宣布DeepSeek
V3
首個版本上線并同
步開源模型權(quán)重2024年1月發(fā)布第一版大模型——DeepSeek
LLM宣布開源第二
代MoE
大模型
DeepSeekV22024年5月DeepSeek
R1
模型,并同步
開源模型權(quán)重2025年1月DeepSeek發(fā)展歷程DeepSeek
成立2023年7月DeepSeek
發(fā)展歷程資料來源:智研咨詢整理
chyxx智研咨詢●1.2.
一
PART
02Deepseek
模型家族最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢服務(wù)0-9383
精品行研報(bào)告·
專項(xiàng)定制·
月度專某省市場地位證明·
專精特新申報(bào)·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃chyxx從低成本的DeepSeek-V2,到超低價(jià)格的DeepSeek-V3,再到引起世界廣泛關(guān)注的DeepSeek-R1,DeepSeek
的成功主要依賴于DeepSeek
自身深厚的技術(shù)積累和持續(xù)的技術(shù)創(chuàng)新突破。DeepSeek-V2
采用的是MoE
架構(gòu),全參數(shù)量為236B,
激活參數(shù)量是21B。
其采用了兩大創(chuàng)新技術(shù):DeepSeekMoE
架構(gòu)和多頭潛在注意力(MLA),
使得DeepSeek-V2
的訓(xùn)練成本大為降低并且提升推理速度。MLA
通過將Key-Value
緩存壓縮為潛在向量來提
高推理效率,從而提高吞吐量。DeepSeek
MoE架構(gòu)允稀疏計(jì)算進(jìn)行有效的推理。相比DeepSeek
LLM67B(Dense),
DeepSeek-V2的性能更強(qiáng),某省市了42.5%的訓(xùn)練成本,減少了93.3%的KV
緩存,最大生成吞吐量提高到5.76倍。DeepSeek-
V2性能KV
Cache
for
Generation(KB/Token)DeepSeek67Breducing
KV
cache
by93.3%100200
300
400Generation
Throughput(Tokens/Sec)DeepSeek67B576%of
maximum
throughput10000
20000
30000
40000
50000DeepSeek-V2Mixtral
8x22B
LLaMA370BmandR+DBRX
Qwen1.572BDeepSeek
67BQwen1.532B
Grok-1Mixtral8x7Bmand
RLLaMA38BO
LLaMAMistral
7BLLaMA133BLLaMA213B0
20
40Training
Costs(K
GPU
Hours/T
Tokens)DeepSeek67BDeepSeek-v2050100
150LLaMA
270BO
LLaMA165B---
LLaMA1
Family---
LLaMA2
Family---LLaMA3
Family---Mixtral
Family--mand
RFamily
---
Qwen1.5
Family80100●2.1
DeepSeek-V2模
型
deepseek
智研咨詢ActivatedParameters(Billions)資
料
來
源
:DeepSeek、
智
研
咨
詢
整
理
chyxx→DeepSeek-V2
模型性能進(jìn)一步優(yōu)化807570656055234B60Performance
(MMLU)saving
42.5%oftrainingcosts200
250
300DeepSeek-v2十0DeepSeek-V20Maximum●2.2
DeepSeek-V3模型
deepseekDeepSeek-V3
模型性能大幅提升DeepSeek-V3是一個強(qiáng)大的專家混合(MoE)語言模型,具有671B
個總參數(shù),激活參數(shù)量為37B。相較歷史模型,DeepSeek-V3在推理速度上有了大幅提升。此外在目前大模型主流榜單中,DeepSeek-V3
在開源模型中位列榜首,與世界上最先進(jìn)的閉源
模型不分伯仲。DeepSeek-v3
性
能●
DeepSeek-V3
遵
循
DeepSeek-V2的設(shè)計(jì),采用多頭潛在注意力(MLA)和DeepSeekMoE
架構(gòu)?!癫捎昧藷o輔助損失的負(fù)載均衡策
略,最大限度地減少了由于鼓勵
負(fù)載平衡而引起的性能下降?!褚胍粋€多token
預(yù)測(MTP)
目
標(biāo),證明它有利于模型的性能,
也可用于推理加速的推測解碼。資料來源:DeepSeek、
智研咨詢整理chyxx●2.2
DeepSeek-V3模型
deepseek智研咨詢DeepSeek-V3
模型訓(xùn)練成本大幅降低根據(jù)DeepSeek
團(tuán)隊(duì)在論文中強(qiáng)調(diào),通過優(yōu)化算法、框架和硬件的協(xié)同設(shè)計(jì)實(shí)現(xiàn)的。在預(yù)訓(xùn)練階段,每萬億個token
上訓(xùn)練DeepSeek-V3只需要180
KH800GPU小時(shí),也就是說,在其擁有2048個H800GPU
的集群上只需要3.7天。因此,公司的預(yù)訓(xùn)練
階段在不到兩個月的時(shí)間內(nèi)完成,花費(fèi)了2664K
GPU小時(shí)。加上上下文長度擴(kuò)展的119K
GPU
小時(shí)和后訓(xùn)練的5KGPU小時(shí),
DeepSeek-V3
完整訓(xùn)練僅花費(fèi)278.8萬GPU
小時(shí)。假設(shè)H800GPU
的租賃價(jià)格為每小時(shí)2美元,則代表著其總訓(xùn)練成本僅為557.6萬美元。相比同等規(guī)模的模型(如
GPT-4、GPT-4o、
Llama3.1),
訓(xùn)練成本大幅降低。但DeepSeek
團(tuán)隊(duì)還特意強(qiáng)調(diào),上述成本僅包括DeepSeek-V3的官方訓(xùn)練,不包括與架構(gòu)、
算法或數(shù)據(jù)的先前研究和消融實(shí)驗(yàn)相關(guān)的成本
。DeepSeek-V3的
訓(xùn)
練
成
本
(
假
設(shè)H800
的租賃價(jià)格為2美元/GPU
小
時(shí)
)訓(xùn)練成本預(yù)訓(xùn)練上下文擴(kuò)展后訓(xùn)練總計(jì)H800GPU小時(shí)(小時(shí))2664K119K5K2788K美元$5.328M$0.238M$0.01M$5.576MDeep
Seek-某省市訓(xùn)練成本的方法AllToALL通信內(nèi)核IB+NVLink低精度FP8
訓(xùn)練DualPipeDeepSeek
MoE+MLA無行TP多token
預(yù)測(MTP)帶寬限制PTX語言無需輔助損失的負(fù)載均衡針對性GPU優(yōu)化模型結(jié)構(gòu)Architecture模型訓(xùn)練方式Pre-Train資料來源:DeepSeek、
智研咨詢整理chyxx核心技術(shù)——無需輔助損失的負(fù)載均衡DeepSeek-V3采用了一種無需輔助損失的負(fù)載均衡策略,旨在最大限度地減少因負(fù)載均衡優(yōu)化而對模型性能造成的不利影響。
MoE
模型容“專家負(fù)載不均衡”(有的專家忙,有的專家閑),傳統(tǒng)的解決方法是加一個輔助損失,但這可能會損害模
型性能。DeepSeekV3
引入了一種新方法,通過動態(tài)調(diào)整每個專家的“偏置項(xiàng)”,來平衡負(fù)載。這種方法不依賴輔助損失,減
少了對性能的負(fù)面影響。此外,為了防止在單個序列內(nèi)出現(xiàn)極端不平衡情況,也引入了一種補(bǔ)充的序列級平衡損失,但影響很
小。其中,平衡因子α是一個超參數(shù),對于
DeepSeek-
V3
被設(shè)置為極小的值;1(.)表示指示函數(shù);
T表示
序列中的令牌數(shù)量。序列級平衡損失鼓勵在每個序
列內(nèi)實(shí)現(xiàn)專家負(fù)載的平衡。具體而言,為每個專家引入一個偏置項(xiàng)
bi,并將其
添加到對應(yīng)的親和度得分Sit,以確定Top-K
路由。補(bǔ)充的序列級輔助損失:無需輔助損失的負(fù)載均衡:DeepSeek-V3模
型
deepseek資料來源:
DeepSeek、
智研咨詢整理
chyxx智研咨詢●
2.2核心技術(shù)——多token
預(yù)測
(MTP)傳統(tǒng)語言模型通常只預(yù)測下一個token,
而DeepSeek-V3
在訓(xùn)練中采用MTP
目標(biāo),在每個位置預(yù)測多個未來token。
這種方式增
加訓(xùn)練信號密度,提高數(shù)據(jù)效率,使模型更好規(guī)劃表示,準(zhǔn)確預(yù)測未來token。
具體通過多層次模塊預(yù)測多個附加token,
各
模
塊共享嵌入層和輸出頭,保持預(yù)測因果鏈,提高推理生成速度,提升模型整體性能。MTP
實(shí)現(xiàn)的示意圖t?t?
t?
t?LMain
Cross-Entropy
LossMTP
Module1(Next2TokenPrediction)Output
HeadTransformerBlockLinear
ProjectionfconcatenationRMSNorm
RMSNormShared
Embedding
Layert?t?t?
t?Target
Tokens
t?
t?
t?
tsCross-Entropy
LossMain
Model(Next
TokenPrediction)Output
HeadTransformer
Block×LEmbeddingLayerInput
Tokens
t?
t?
t?
t?t?
ts
t?
t?LMTP
Cross-EntropyLossMTP
Module
2(Next3TokenPrediction)Output
HeadTransformerBlockLinear
ProjectionfconcatenationRMSNorm
RMSNormShared
EmbeddingLayer●
2.2
DeepSeek-V3模
型
deepseek
智
研
咨
詢t?
t?
t?
t?資料來源:
DeepSeek、
智研咨詢整理
chyxxLMTP核心技術(shù)——FP8
混合精度訓(xùn)練通常的大模型訓(xùn)練會采用BF16或FP32/TF32
精度作為數(shù)據(jù)計(jì)算和存儲的格式,來確保較高的訓(xùn)練精度。相比之下,
FP8占
用
的數(shù)據(jù)位寬僅為FP32的1/4,FP16的1/2,可以提升計(jì)算速度,降低對存儲的消耗。某著名企業(yè)2023年的論文《FP8-LM:Training
FP8Large
Language
Models》就提出了一種用于LLM
訓(xùn)練的極度優(yōu)化的FP8混合精度框架。其核心思想是計(jì)算、儲存和通信(包括
正向和反向傳播)全部使用低精度FP8,從而大大降低系統(tǒng)工作負(fù)載。然而,使用FP8
格式訓(xùn)練LLM
存在數(shù)據(jù)下溢出或上溢出等
挑戰(zhàn)以及FP8
數(shù)據(jù)格式較低精度所導(dǎo)致訓(xùn)練失敗等問題。DeepSeek
團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3
時(shí),采用的是混合精度框架,大部分密集計(jì)算操作都以FP8
格式進(jìn)行,而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。通過使用FP8格
式
,DeepSeek
能夠在有限的計(jì)算資源下,實(shí)現(xiàn)更
高的計(jì)算效率。例如,在處理大規(guī)模數(shù)據(jù)集時(shí),
FP8
格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。DeepSeek-
V3
混合精度框架示意圖To
FP8WgradWeight
GradientFP32ToBF16OptimizerStatesTo
FP8
OutputGradientBF16DeepSeek-V3模
型
deepseek
②FP32To
BF16資料來源:
DeepSeek、
智研咨詢整理
.chyxxInputGradientMasterWeight∑FP32InputBF16●2.2智研咨詢WeightOutputTo
BF16To
FP32DgradFpropTo
FP8To
FP8To
FP8FP32核心技術(shù)——Dual
Pipe算法在應(yīng)用分布式并行策略時(shí),無論是數(shù)據(jù)并行策略下的梯度聚合步驟,還是模型并行下各模型組件之間的通信,都會帶來大量的跨設(shè)備數(shù)據(jù)傳輸需求。若不同階段的計(jì)算耗時(shí)差別較大,則會出現(xiàn)計(jì)算設(shè)備的空閑,即為“氣泡(bubble)”。
為解決這一問
題,流水線并行(pipeline
parallel,PP)策略應(yīng)運(yùn)而生。其通過將一個較大數(shù)據(jù)批次分解為多個微批次(micro
batch),
使
得每次計(jì)算的總耗時(shí)減少,從而減少了計(jì)算設(shè)備所處于的計(jì)算和等待兩種狀態(tài)在時(shí)間軸上的顆粒度,進(jìn)而使得每個bubble
被縮
小。在這一背景下,DeepSeek
團(tuán)隊(duì)在傳統(tǒng)PP
策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual
Pipe技術(shù)。與傳統(tǒng)PP
策略相比,
Dual
Pipe技術(shù)最明顯的革新在于其有效地融合了前向和后向計(jì)算加速通信。此外,DeepSeek
團(tuán)隊(duì)還通過調(diào)節(jié)GPU
中流式多處理器(SM)
的調(diào)度來實(shí)現(xiàn)對其在計(jì)算和通信之間進(jìn)行精細(xì)化分配,進(jìn)而進(jìn)一步加速了通信過程。Dual
Pipe算
法
示
意
圖DeviceDeviceDeviceDeviceDeviceDeviceDeviceDeviceTime01234567Forward
Backward
Backward
for
input
Backwardfor
weights
Overlapped
forward&Backward資料來源:
DeepSeek、
智研咨詢整理
chyxx081923456678899560718293456787989506172839456787989051627384956789890415263748596789893253647586978993546576879899445566778899MLP(B)▲MLP(W)▲MLP(F)△ATTN(B)▲ATTN(W)▲ATTN(F)△DISPATCH(F)△DISPATCH(B)▲BINE(F)△PPBINE(B)▲Chunk拆分DualPipe8
個
PP
rank和
20個micro-batch的
DualPipe
調(diào)
度
示例●2.2
DeepSeek-V3模
型△
Forward
chunk▲Backward
chunkputationmunicationTime智研咨詢CategoryBenchmark
(Metric)Claude-3.5-Sonnet-1022GPT-4o
0513DeepSeekV3OpenAl
ol-miniOpenAl
o1-1217DeepSeek
R1EnglishArchitectureMoEMoE#Activated
Params-37B-37B#Total
Params671B671BMMLU
()88.387.288.585.291.890.8MMLU-Redux
(EM)88.98889.186.792.9MMLU-Pro
(EM)7872.675.980.384DROP(3-shot
F1)88.383.791.683.990.292.2IF-Eval
(PromptStrict)86.584.386.184.883.3GPQA-Diamond
()6549.959.16075.771.5SimpleQA(Correct)28.438.224.974730.1FRAMES(Acc.)AlpacaEval2.0(LC-winrate)72.55280.551.173.37076.957.8--82.587.6CodeArenaHard
(GPT-4-1106)85.280.485.592-92.3LiveCodeBench(-COT)33.834.2-53.863.465.9MathCodeforces
(Percentile)20.323.658.793.496.696.3Codeforces(Rating)7177591134182020612029SWEVerified
(Resolved)50.838.84241.648.949.2Aider-Polyglot
(Acc.)45.31649.632.961.753.3AIME
2024
()169.339.263.679.279.8MATH-500()78.374.690.29096.497.3MO
2024
()13.110.843.267.678.8ChineseCLUEWSC(EM)C-Eval(EM)C-SimpleQA
(Correct)85.476.755.487.97658.790.986.56889.968.940.3-92.891.863.7→
DeepSeek-R1
性能對標(biāo)OpenAl
o1正式版DeepSeek-R1
基
于DeepSeek-V3
訓(xùn)練優(yōu)化得到,增強(qiáng)了復(fù)雜邏輯推理能力,全參數(shù)量是671B,激活參數(shù)37B
。在數(shù)學(xué)、代碼、
自然語言推理等任務(wù)上,性能比肩OpenAl
ol正式版,并且開源模型權(quán)重,引發(fā)了全球的廣泛關(guān)注。DeepSeek-
R1評估結(jié)果●2.3DeepSeek-R1模型資料來源:DeepSeek、
智研咨詢整理
chyxx純強(qiáng)化學(xué)習(xí)訓(xùn)練得到的LLM,
并且展示了自我驗(yàn)證、反思和生成長CoTs
等功能,標(biāo)志研究界的一個重要里程碑。在大語言模型(LLM)的微調(diào)過程中,強(qiáng)化學(xué)習(xí)(RL)扮演著至關(guān)重要的角色。傳統(tǒng)的近端策略優(yōu)化(PPO)算法雖然被廣泛
應(yīng)用于LLM的微調(diào),但其在處理大規(guī)模模型時(shí)面臨著巨大的計(jì)算和存儲負(fù)擔(dān)。PPO
算法需要維護(hù)護(hù)一個與策略模型大小相當(dāng)?shù)膬r(jià)
值網(wǎng)絡(luò)來估計(jì)優(yōu)勢函數(shù),這在大模型場景下會導(dǎo)致顯著的內(nèi)存占用和計(jì)算代價(jià)。此外,PPO
算法在更新策略時(shí)可能會導(dǎo)致策略
分布發(fā)生劇烈變化,從而影響訓(xùn)練的穩(wěn)定性。為了解決這些問題,
DeepSeek
提出了一種新的強(qiáng)化學(xué)習(xí)算法——組相對策略優(yōu)化
(GRPO),旨在減少對價(jià)值網(wǎng)絡(luò)的依賴,同時(shí)保持策略更新的穩(wěn)定性和高效性。GRPO方法的優(yōu)勢在于:(1)減少計(jì)算負(fù)擔(dān):通過避免維護(hù)一個與策略模型大小
相當(dāng)?shù)膬r(jià)值網(wǎng)絡(luò),
GRPO顯著降低了訓(xùn)練過程中的內(nèi)存占
用和計(jì)算代價(jià)。(2)提高訓(xùn)練穩(wěn)定性:GRPO
通過組內(nèi)比較來估計(jì)優(yōu)勢
函數(shù),減少了策略更新的方差,從而確保了更穩(wěn)定的學(xué)習(xí)
過
程
。(3)增強(qiáng)策略更新的可控性:GRPO
引入了KL
散度約束,
防止策略更新過于劇烈,從而保持了策略分布的穩(wěn)定性。資
料
來
源
:
DeepSeek、智
研
咨
詢
整
理chyxxReferenceModelrRewardGAE
AqV
Trained
ModelsFrozen
ModelsModelRewardModel0GDeepSeek-R1具備以下亮點(diǎn):(1)純強(qiáng)化學(xué)習(xí)訓(xùn)練:基于DeepSeek-V3
應(yīng)用大規(guī)模強(qiáng)化學(xué)習(xí),直接將RL
應(yīng)用于基礎(chǔ)模型而不依賴監(jiān)督微調(diào)(SFT)作為初始步驟,這種方法允探索解決復(fù)雜問題的思維鏈(CoT),由此開發(fā)出DeepSeek-R1-Zero
。DeepSeek-R1-Zero是第一個●2.3DeepSeek-R1模型
deepseek核心技術(shù)——純強(qiáng)化學(xué)習(xí)訓(xùn)練算法結(jié)構(gòu)對比ModelValueModelGroupputationA?A?KLReferencePolicy
ModelPolicy
ModelGRPOPPOO?Ozrrz田-KLA?TG·0●2.3DeepSeek-R1模
型
deepseek
智研咨詢
核心技術(shù)——冷啟動數(shù)據(jù)&多階段訓(xùn)練策略(2)冷啟動數(shù)據(jù)&多階段訓(xùn)練策略:
DeepSeek-R1是為解決
DeepSeek-R1-Zero
存在的問題并進(jìn)一步提升推理性能而開發(fā)的模
型,它在訓(xùn)練過程中融入了冷啟動數(shù)據(jù)和多階段訓(xùn)練策略。冷啟動數(shù)據(jù):收集少量高質(zhì)量長鏈推理數(shù)據(jù),通過SFT
初始化模型,提升可讀性和性能。多階段訓(xùn)練:第一階段RL
專注于數(shù)學(xué)、編程等明確答案的任務(wù)。第二階段結(jié)合拒絕采樣生成SFT
數(shù)據(jù),增強(qiáng)通用能力(寫作、
問答等)。最終RL對齊人類偏好(如無害性、有用性)。DeepSeek-R1
OpenAI-01-12171009
6.3
96.694.390.687.485.279.8
79.272.671.563.662.158.749.248.941.642.039.236.8200AIME2024CodeforcesGPQADiamondMATH-500MMLUSWE-benchVerified(Percentile)()
()
()
(Resolved)DeepSeek-R1在多個基準(zhǔn)測試中展現(xiàn)出
與OpenAl-01
相當(dāng)?shù)男阅芩?。?/p>
Codeforces
和
MMLU
基
準(zhǔn)
測
試中與
OpenAl-01-1217
得分相近,尤其是在
AIME2024
、MATH-500
、Swe-Bench等基準(zhǔn)測試中,DeepSeek-R1
還稍微勝
出。資料來源:
DeepSeek、智研咨詢整理
chyxxDeepSeek-R1
的基準(zhǔn)性能DeepSeek-R1-32BOpenAI-01-miniDeepSeek-V3Accuracy/Percentile
(%)97.3
96.490.891.890.090.260.059406080GPT-4o-0513AIME20249.3AIME202413.4MATH-50074.6GPQADiamond49.9LiveCodeBench
CodeForces
rating32.9
759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7B28.955.552.783.383.992.833.849.116.937.6954.01189.0DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205.0DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633.0核心技術(shù)——模型能力蒸餾遷移(3)模型能力蒸餾遷移:
DeepSeek
R1的推理能力可以通過蒸餾技術(shù)遷移到更小的模型中,并且小模型的基準(zhǔn)測試取得很優(yōu)秀的表現(xiàn)。在DeepSeekR1蒸餾出的6個小模型中,在保持模型參數(shù)量僅為o1-mini
同量級的前提下,其知識理解、代碼生成等
核心能力實(shí)現(xiàn)全面反超。通過對標(biāo)OpenAl-o1-mini
的效果上不難看出DeepSeek
在模型輕量化領(lǐng)域的突破性創(chuàng)新,同時(shí)也為開
源社區(qū)提供了兼具高性能與低部署成本的新型解決方案。DeepSeek-R1
蒸餾小模型性能資料來源:
DeepSeek、
智研咨詢整理
chyxxdeepseekDeepSeek-R1模型●2.3.
一
PART03Deepseek
技術(shù)創(chuàng)新最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢服務(wù)0-9383
精品行研報(bào)告·專項(xiàng)定制·月度專某省市場地位證明·專精特新申報(bào)
·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三chyxxMoE
架構(gòu)引入多個獨(dú)立的專家模型MoE,
全
稱Mixture
of
Experts,即混合專家模型,是一種用于提高深度學(xué)習(xí)模型性能和效率的架構(gòu)。其核心思想是通過引入多
個獨(dú)立的專家模型(Experts),
每個輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型來進(jìn)行處理,從而減少計(jì)算量,提高訓(xùn)練和
推理速度。
MoE
的概念在1991年就已提出,訓(xùn)練不容是其在大模型領(lǐng)域應(yīng)用的主要障礙。MoE
模型的主要組成部分包括:(
1
)
專
家(Experts):模型中的每個專家都是一個獨(dú)立的神經(jīng)網(wǎng)絡(luò),專門處理輸入數(shù)據(jù)的特定
子集或特定任務(wù)。例如,在自然語言處理任務(wù)中,
一個專家可能專注于處理與語言語法相關(guān)的內(nèi)容,
而另一個專家可能專注于語義理解。(2)門控網(wǎng)絡(luò)(Gating
Network):
門控網(wǎng)絡(luò)
的作用是決定每個輸入樣本應(yīng)該由哪個專家或哪
些專家來處理。它根據(jù)輸入樣本的特征計(jì)算出每
個專家的權(quán)重或重要性,然后根據(jù)這些權(quán)重將輸
入樣本分配給相應(yīng)的專家。門控網(wǎng)絡(luò)通常是一個
簡單的神經(jīng)網(wǎng)絡(luò),其輸出經(jīng)過softmax
激活函數(shù)
處理,以確保所有專家的權(quán)重之和為1。資料來源:智研咨詢整理
chyxxy?□Add+NormalizeFFN4FN1
FFN2
FFN3p
=
0.65RouterAdd+NormalizeSelf-AttentionPositional
embeddingx2LParametersyAdd+NormalizeSwitching
FFN
LayerAdd+NormalizeSelf-Attentionx●3.1
DeepSeek
MoE模型技術(shù)
deepseekMoE模
型
結(jié)
構(gòu)Positionalembeddingp=0.8界Routery
?口x1
口FFN3FFN1FFN2FFN4MoreMoE
模型的架構(gòu)設(shè)計(jì)使得它可以很容易地?cái)U(kuò)展到更多的專家和更大的模型規(guī)模。
通過增加專家的數(shù)量,模型可以覆蓋更
廣泛的數(shù)據(jù)特征和任務(wù)類型,從而在不增加計(jì)算復(fù)雜度的情況下,提升模型的
表達(dá)能力和泛化能力。這種可擴(kuò)展性為處理大規(guī)模、復(fù)雜的數(shù)據(jù)集提供了有效的解決方案,例如在處理多模態(tài)數(shù)據(jù) (包含文本、圖像、語音等多種類型的
數(shù)
據(jù)
)
時(shí)
,MoE模型可以通過設(shè)置不同
的專家來專門處理不同模態(tài)的數(shù)據(jù),實(shí)現(xiàn)更高效的多模態(tài)融合。資料來源:智研咨詢整理
chyxx與傳統(tǒng)的密集模型相比,MoE模型在處
理每個輸入樣本時(shí),只有相關(guān)的專家
會被激活,而不是整個模型的所有參
數(shù)都被使用。這意味著MoE模型可以在
保持較高性能的同時(shí),顯著減少計(jì)算
資源的消耗,特別是在模型規(guī)模較大
時(shí),這種優(yōu)勢更為明顯。例如,對于
一個具有數(shù)十億參數(shù)的大型語言模型,采用MoE架構(gòu)可以在不增加太多計(jì)算成
本的情況下,通過增加專家的數(shù)量來
進(jìn)一步提升模型的性能。通過將多個專家的預(yù)測結(jié)果進(jìn)行整合,MoE模型可以在不同的數(shù)據(jù)子集或任務(wù)方面發(fā)揮每個專家的優(yōu)勢,從而提高整體模型的性能。例如,在圖像分類任務(wù)中,一個專家可能擅長識別動物圖片,而另一個專家可能擅長識別車輛圖片,通過門控網(wǎng)絡(luò)的合理分配,MoE模型可
以更準(zhǔn)確地對不同類型的圖片進(jìn)行分類。MoE
架構(gòu)可顯著提高訓(xùn)練效率●
3.1DeepSeekMoE模型技術(shù)智研咨詢DeepSeek
MoE在傳統(tǒng)MoE
模型架構(gòu)上進(jìn)行了改進(jìn)DeepSeek
MoE從
傳
統(tǒng)MoE
模型架構(gòu)的基礎(chǔ)上,進(jìn)行了兩部分改進(jìn):(
1
)
細(xì)
粒
度
專
家
劃
分
:
相
比
傳
統(tǒng)MoE
模
型
,
DeepSeekMoE
將每個MoE層細(xì)分為更多的細(xì)粒度專家,每個專家負(fù)責(zé)處理更具體的任務(wù)。例如,在一個典型的DeepSeekMoE模型中,每個MoE層包含256個專家,每個token
會激活其中的8個專家。這種細(xì)粒度的分割方式使得每個專家能夠?qū)W⒂谔囟?/p>
類型的輸入數(shù)據(jù),從而提高模型的靈活性和表達(dá)能力。(2)共享專家隔離:傳統(tǒng)的MoE模型中,所有專家都是獨(dú)立的,每個專
家都需要獨(dú)立處理輸入數(shù)據(jù)。DeepSeekMoE
引入了共享專家的概念,把激活專家區(qū)分為共享專家和路由專家時(shí),共享專家和路
由專家在數(shù)據(jù)處理流程上有顯著的區(qū)別。對于共享專家,輸入數(shù)據(jù)無需經(jīng)過路由模塊的計(jì)算,所有數(shù)據(jù)都會直接通過共享專家
進(jìn)行處理。相反,對于路由專家,輸入數(shù)據(jù)會先經(jīng)過路由模塊,該模塊根據(jù)輸入數(shù)據(jù)的特征選擇最合適的專家進(jìn)行計(jì)算。在這
種架構(gòu)中,路由模塊通過計(jì)算輸入數(shù)據(jù)與各個專家的匹配概率,選擇概率最高的專家進(jìn)行處理。最終,將路由專家和共享專家
的計(jì)算結(jié)果相加,形成MoE
模塊的最終輸出。通過這種方式,模型能夠在處理不同輸入數(shù)據(jù)時(shí),既能捕捉到輸入數(shù)據(jù)的共性,
也能關(guān)注到輸入數(shù)據(jù)的差異性。這種設(shè)計(jì)能夠提高模型的泛化能力和適應(yīng)性。DeepSeek
MoE與
傳
統(tǒng)MoE
的
區(qū)
別
部分開源模型MoE
模塊配置對比模型細(xì)粒度專家分離共享專家數(shù)路由專家數(shù)激活專家數(shù)Mixtral8*7B否否082Hunyuan-Large否是1161Qwen1.5-MoE-
A2.7B是是4604DeepSeek-V3是是12568RoutedExpertshared
ExperOutput
Hidden澤
3
4
2-
1
2Nlk
=2
RouterInput
Hidden
OO●
3.1DeepSeek
MoE模型技術(shù)(a)C
onventionalTop-2Routing(b)+Fine-grainedExpertSegmentation(c)+SharedExpertIsolation
(DeepSeekMoE)資料來源:智研咨詢整理
chyxx智研咨詢RouterInput
Hidden
O0堅(jiān)M
2Nmlk=4Input
HiddenOutput
HiddenOutput
HiddendHlk
=3OOOORouterN12多頭潛在注意力MLA
進(jìn)一步減少KV
緩存的大小在標(biāo)準(zhǔn)的Transformer
模型中,多頭注意力(MHA)
機(jī)制通過并行計(jì)算多個注意力頭來捕捉輸入序列中的不同特征。每個注意力頭都有自己的查詢(Q)、鍵
(K)
和值(V)
矩陣。對于序列中的每一個token,
都需要計(jì)算各自的QKV,進(jìn)而計(jì)算注意力。
在推理過程中,當(dāng)前大模型所采用的token
by
token遞歸生成方式,上文token
的KV
計(jì)算不會受到后續(xù)生成token
的影響,因此
可以緩存下來,避免重復(fù)計(jì)算,提高推理效率,這就是KV
cache的由來。也就是說,當(dāng)生成第個token
時(shí),可以利用之前事先算
好的上文個token
的KV值。同樣地,位置token
的KV值計(jì)算出來后也將保存在KV
cache中。目前大模型對于注意力機(jī)制做的一些改進(jìn),包括MQA、GQA
都是為了想方設(shè)法減少KV
Cache。DeepSeek提出的MLA
的出發(fā)點(diǎn)
也是如此。減少KV
Cache就可以實(shí)現(xiàn)在更少的設(shè)備上推理更長的Context,或者在相同的Context
長度下讓推理的batch
size更
大,從而實(shí)現(xiàn)更快的推理速度或者更大的吞吐總量。最終目的都是為了實(shí)現(xiàn)更低的推理成本。ValuepressedProjectionKeyQueryMultiQueryGroupQueryMulti
HeadMultiHeadLatentAttention(MQA)Attention(GQA)Attention(MHA)
Attention(MLA)■MHA-GQAMQA1481632
64●3.2多頭潛在注意力MLA
技術(shù)
deepseek
智
研
咨
詢GQA
groups資料來源:智研咨詢整理
chyxxMHA、MQA、GQA
與MLATimeper
sample
(s)2多頭潛在注意力MLA
實(shí)現(xiàn)了更低的推理成本MQA
與GQA
的辦法是通過共享K、V的注意力頭,降低KV
的數(shù)據(jù)維度,但會犧牲模型性能。MLA
則是通過對注意力機(jī)制中的K、V進(jìn)行低秩聯(lián)合壓縮,減少推理時(shí)的KV
緩存;同時(shí)對Q
進(jìn)行低秩壓縮,減少訓(xùn)練期間的激活內(nèi)存使用。MLA
架構(gòu)還結(jié)合了旋轉(zhuǎn)位
置嵌入(RoPE),有效處理了長序列中的位置依賴問題。RoPE
通過旋轉(zhuǎn)操作將位置信息嵌入到K和Q中,使得模型能夠更好地
捕捉長距離依賴關(guān)系。盡管MLA
通過低秩壓縮減少了K、V
緩存和激活內(nèi)存,但它仍然能夠保持與標(biāo)準(zhǔn)多頭注意力(MHA)
相
當(dāng)
的性能。在推理過程中,MLA
只需要緩存壓縮后的鍵和值,這顯著減少了內(nèi)存占用,使得模型能夠處理更長的上下文長度。MLA架
構(gòu)
OcachedDuring
InferenceOutput
Hiddenu:OOOO…OOO0Multi-Head
Attention{19;ab(concatenatefG9S
Q?
fapply
{k3
匠
{3RoPE
RoPEOO:00Latent
c
LatentctOInput
Hiddenh.OO0O…-O00Oly口outputurERdw0∈Rdxdn[oaiO2;;0cmJ=O;E
R4Multi-Head
Attention(num
head=nh,dim
head=dn)qu=[qS:qkal
ku=[kS;kilConcatenate
ConcatenateLatentc{eR
Latent
CYERwDQ∈Rdxd
wDKV∈RdInput
h?ERd[aE1:qE2;…;qim,]=q{E
Rda"h
kEQ&;q&;…;q&mJ=qRER%wUQ∈Rdhnh×dRoPE(weRe
RdAnde)RoPE(WKR|
eLDS;v{z;…;vim,J=vfeRCAnhkE;ki2…;kimJ=kfeReADh●3.2多頭潛在注意力MLA
技術(shù)資料來源:DeepSeek、
智研咨詢整理
chyxxwUV∈Rdhnh×dewUK∈Rdhnh×de智
研
咨
詢{[k{,;kf]}(concotenateRd×d)→
DeepSeek
V3與R1
模型采用MIT
協(xié)議開源即代碼層面開源,可以調(diào)用與進(jìn)行二次開發(fā)。開源免費(fèi)調(diào)用有助于先某省市場份額,成為規(guī)則制定者,率先拓展生態(tài)粘性。如,谷歌將安卓開源,獲得了全球80%的某著名企業(yè)某省市場份額,同時(shí)也覆蓋電視、汽車等使用場景。DeepSeek
V3與R1
模型實(shí)現(xiàn)了開源,采用MIT協(xié)議。
DeepSeek
開源模型完全免費(fèi),開發(fā)者可以利用DeepSeek
開源模型開發(fā)衍生模型、產(chǎn)品應(yīng)用以及生成內(nèi)容。這產(chǎn)生多方面影響:①
對大模型發(fā)展:這提升了世界對中國Al大模型能力的認(rèn)知,
一定程度打破了OpenA1
與Anthropic
等高級閉源模型的封閉生態(tài)。
DeepSeek
R1在多個測試指標(biāo)中對標(biāo)OpenAl
o1,通過模型開源,也將大模型平均水平提升至類OpenAl
o1等級。②
對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場
景;此外,模型訓(xùn)推成本降低,將帶來使用場景的普及,帶動AIGC、
端側(cè)等供給和需求。用戶通過獲取DeepSeek
開源項(xiàng)目中相關(guān)信息進(jìn)行部署/再訓(xùn)練使用,應(yīng)首先確保滿足開源項(xiàng)目對應(yīng)議。目前,DeepSeek系列開源Al項(xiàng)目,除DeepSeek-R1代碼和模型皆遵循MIT
開
源
許可協(xié)議外,其他DeepSeek
系列開源AI項(xiàng)目皆為代碼遵循MIT
開
源
許
可
協(xié)
議
,
模
型
遵
循
DEEPSEEKLICENSE
AGREEMENT
(Version1.0)。因此,用戶在部署/再訓(xùn)練DeepSeek
大模型開源項(xiàng)目時(shí),應(yīng)首先遵循對應(yīng)開源議的相關(guān)規(guī)定,避免開源合規(guī)風(fēng)險(xiǎn)。資料來源:智研咨詢整理
chyxxPermissivePublic
DomainMIT/X11BSD-NewApache2.0WeakCopyleftLGPL2.1LGPL2.1+LGPL3orLGPL3+MPL1.1Strong
CopyleftGPL2GPL2+GPL3or
GPL3+NetworkProtectiveAGPL3●3
.
3
開
源
大
模
型
智研咨詢開源議標(biāo)準(zhǔn).
一
PART
04Deepseek
商業(yè)模式最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢服務(wù)0-9383
精品行研報(bào)告·專項(xiàng)定制·月度專某省市場地位證明·專精特新申報(bào)
·可研報(bào)告·
商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三chyxx企業(yè)接入DeepSeek
大模型的收費(fèi)方式主要分為兩種模式,具體如下:(1)API
接口:按Token
計(jì)費(fèi)模式。標(biāo)準(zhǔn)時(shí)段下,deepseek-chat(DeepSeek-V3)API
服務(wù)定價(jià)為百萬tokens
輸入價(jià)格0
.
5元(緩存命中)/2元(緩存未命中)。
deepseek-reasoner(DeepSeek-R1)API
服務(wù)定價(jià)為百萬tokens
輸入價(jià)格1元(緩存命中)/4元(緩存未命中)。2月26日,deepseek平臺推出錯峰優(yōu)惠活動,在00:30-8:30時(shí)間段,DeepSeekV3降
至
原
價(jià)
的
5
0
%
,
DeepSeek-R1降至原價(jià)的
25%。資料來源:智研咨詢整理
chyxx模型時(shí)段百萬tokens輸入價(jià)格(緩存命中)百萬tokens
輸入價(jià)格(緩存未命中
)百萬tokens輸出價(jià)格輸出價(jià)格deepseek-chat(DeepSeek-V3)標(biāo)準(zhǔn)時(shí)段0.5元2元8元優(yōu)惠時(shí)端(00:30-8:30)0.25元1元4元deepseek-reasoner(DeepSeek-R1)標(biāo)準(zhǔn)時(shí)段1元4元16元優(yōu)惠時(shí)端(00:30-8:30)0.25元1元4元DeepSeek
API性價(jià)比優(yōu)勢明顯DeepSeek
API
接入價(jià)格
DeepSeek-
V3
API定價(jià)對比海內(nèi)外主流模型●4.
1商業(yè)模式
deepseekMMLU
Redux
ZeroEval得分VS
輸入API
價(jià)格(¥/1M
Tokens)本地化部署穩(wěn)定性更強(qiáng),成為企業(yè)重要選擇(
2
)
本
地
化
部
署
:
把Deep
Seek在本地電腦上部署,然后直接在本地訪問。本地化部署對硬件要求高、運(yùn)維更加復(fù)雜、成本高
昂,下游客戶表示,部署
一個DeepSeek
R1,需要30萬~40萬元的成本。但本地化部署在穩(wěn)定性、靈活性、數(shù)據(jù)安全方面具有顯
著
優(yōu)
勢
。部署和優(yōu)化大模型涉及復(fù)雜的技
術(shù)環(huán)節(jié),包括模型壓縮、推理加
速、分布式計(jì)算等。這對技術(shù)團(tuán)
隊(duì)的能力提出了較高要求,需要
具備深厚的技術(shù)背景和豐富的實(shí)
踐經(jīng)驗(yàn)。本地化部署的計(jì)算資源是固定的,
難以靈活應(yīng)對突發(fā)性的大規(guī)模請
求。相比之下,云服務(wù)可以按需
擴(kuò)展資源以滿足需求。當(dāng)業(yè)務(wù)需
求超出現(xiàn)有硬件能力時(shí),可能需
要追加硬件投資。生態(tài)集成難度云端服務(wù)通常自帶豐富的功能
(如預(yù)訓(xùn)練插件、API
接口
等
)
,而本地化部署需要自行開發(fā)和集
成,這增加了開發(fā)和維護(hù)的難度
和工作量。大型企業(yè)或機(jī)構(gòu)/行業(yè)專家團(tuán)隊(duì)
/高科技創(chuàng)業(yè)公司/科研機(jī)構(gòu)本地化部署需要客戶投入大量資
金購買
高
性
能
硬
件
設(shè)
備(如
GPU、TPU
等
)
。
此
外
,
還
需
組建專業(yè)團(tuán)隊(duì)負(fù)責(zé)模型的部署、優(yōu)化和運(yùn)維。此外還有額外投入,
如散熱設(shè)備、服務(wù)器機(jī)房的建設(shè)
和電力消耗。deepseek本地化部署的核心優(yōu)勢在于對數(shù)
據(jù)隱私的高度保障。醫(yī)院將模型
部署在系統(tǒng)中,能夠完全掌
控?cái)?shù)據(jù)流,避免將敏感信息上傳
至云端,從而有效降低隱私
的風(fēng)險(xiǎn),更好地滿足《數(shù)據(jù)安全
法》的要求。本地化部署無需依賴外部網(wǎng)絡(luò)連
接,避免了因網(wǎng)絡(luò)延遲或云端服
務(wù)中斷導(dǎo)致的業(yè)務(wù)中斷。對于需
要實(shí)時(shí)響應(yīng)的應(yīng)用場景,本地部
署通常能顯著降低延遲,提供更
高的服務(wù)穩(wěn)定性。劣
勢本地化部署:30-40萬元(DeepSeek
R1)優(yōu)勢DeepSeek
本地化部署成本及優(yōu)劣勢技術(shù)門檻高
擴(kuò)展性有限本地化部署允根據(jù)自身需
求對模型進(jìn)行深度微調(diào)和優(yōu)化。例如,醫(yī)院可以針對特定領(lǐng)域的
知識對模型進(jìn)行額外訓(xùn)練,從而
提升其適用性和準(zhǔn)確性。對于高頻、大規(guī)模使用的場景,
本地化部署在長期內(nèi)可能比持續(xù)
使用云端API更具有成本效益。初期成本高昂數(shù)據(jù)隱私與安全性●4.
1商業(yè)模式
deepseek資料來源:智研咨詢整理
chyxx長期成本控制定制化能力性能穩(wěn)定智研咨詢DeepSeek
App用戶規(guī)模迅速增長DeepSeek
App自2025年1月11日上線以來,截至2月9日,累計(jì)下載量已突破1.
1億次。其中,1月20日至1月26日,
DeepSeekApp
的量達(dá)到226萬次,而在隨后的一,下載量激增至6300萬次,環(huán)比增長超過2700%。這一增長主要得益于其開源
推理模型DeepSeek-R1
的發(fā)布。中
國30.71美國4.34法國3.21巴西其他38.08印度13.59印度尼西亞6.94日活躍用戶DAU以及國某省市場,不含網(wǎng)站(Web)5,8265,0311,8
09259除夕23
2527291,000DeepSeek上
線
第
1
天2025/01/1113151719212025年1月DeepSeek僅包含應(yīng)用(APP)全球iOS
、海外
GP、6,000ChatGPTDAU(萬)5,323DeepSeek
DAU(萬)2,215DAU(萬)1,69531DeepSeek
應(yīng)
用(APP)MAU月活躍用戶分布豆包上
線
第
4
9
6
天1,779
1,672●4.2用戶規(guī)模
deepseek
—資
料
來
源
:
智
研
咨
詢
整
理
chyxxChatGPT上
線
第
6
0
5
天5,0004,000智研咨詢2,0003,000DeepSeek
熱度持續(xù)席卷全球,某著名企業(yè)Azure
、英偉達(dá)等海外科技巨頭紛紛宣布上線DeepSeek
大模型。1月,某著名企業(yè)最早宣布將DeepSeek-R1
模型添加到云平臺Azure
Al
Foundry,
開發(fā)者可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年深圳市福田區(qū)景蓮幼兒園招聘備考題庫及一套完整答案詳解
- 2026年瀘州市龍馬潭區(qū)人民醫(yī)院招聘工作人員5人備考題庫及完整答案詳解1套
- 中共桑植縣委組織部2026年公開選調(diào)工作人員備考題庫附答案詳解
- 2026年隆平生物技術(shù)(海南)有限公司招聘備考題庫及參考答案詳解1套
- 2026年洛陽綠業(yè)備考題庫中等專業(yè)學(xué)校招聘教師49人備考題庫及完整答案詳解1套
- 2026年重慶聯(lián)交所集團(tuán)所屬單位招聘備考題庫及一套參考答案詳解
- 2026年牛頭山水利建設(shè)發(fā)展有限公司公開招聘臨時(shí)用工人員備考題庫參考答案詳解
- 中學(xué)班級管理制度完善
- 養(yǎng)老院入住老人醫(yī)療保健制度
- 中國熱帶農(nóng)業(yè)科學(xué)院熱帶作物品種資源研究所2026年第一批公開招聘工作人員備考題庫及答案詳解參考
- 北京市租賃房屋治安責(zé)任書
- 2026年北京市公務(wù)員錄用考試申論試題及答案
- 2024年內(nèi)蒙古氣象部門招聘呼和浩特包頭鄂爾多斯等考試真題
- 江西省贛州市2023-2024學(xué)年高三上學(xué)期期末考試化學(xué)試卷 附答案
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 4-04-05-05 人工智能訓(xùn)練師 人社廳發(fā)202181號
- 無人機(jī)測試與評估標(biāo)準(zhǔn)
- 人工智能在金融策略中的應(yīng)用
- 加工中心點(diǎn)檢表
- 水庫清淤工程可行性研究報(bào)告
- GB/T 25630-2010透平壓縮機(jī)性能試驗(yàn)規(guī)程
評論
0/150
提交評論