版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
深度解讀DeepSeek:
原理與效應熊德意天津大學dyxiong@https://dyxiong.github.iohttps://tjunlp-lab.github.io仁文伏羲
伏羲傳語天津大學自然語言處理實驗室The
Natural
Language
Processing
Laboratory
at
Tianjin
UniversityOpenEval營大語言模型發(fā)展路線圖DeepSeek
V2-V3/R1技術原理
DeepSeek效應未來展望03報告目錄生成式Al:2014——2024ENIAC
圖靈測試達特茅斯會議ELIZA
Al
寒冬I專家系統(tǒng)Al
寒冬II
統(tǒng)計方法
NN
再興起1945
1950
1956
19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI2014
2024生成式AI生成式AI:
使用生成式模型生成各類數據
(語言、語音、圖片、視頻等)o
Attention:
數據依存關系建模o
Transformer:
數據生成的統(tǒng)一架構o
Scaling
Laws:
數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o
01/R1:生成式求解問題——生成問題求解的過程和答案(推理)1414
Feature
Map1.hput
2.Convouional3.RNNmithatenion
4.Wordbymape
Feature
Eatraction
over
theimoge
Attention
Tran2sformerScalingLaws
|GPT-3
2020RLHF|ChatGPT2022Figure
L.Our
modellearmsawords/imagealignment.Thevisualized
attentional
maps(3)are
explained
in
Sctions3.1&5.42024water生成式Al:2014——2024ENIAC
圖靈測試達特茅斯會議
ELIZA
Al寒冬I專家系統(tǒng)Al寒冬II
統(tǒng)計方法NN再興起1945
1950
1956
19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI20142024生成式AI生成式Al:
使用生成式模型生成各類數據
(語言、語音、圖片、視頻等)o
Attention:
數據依存關系建模o
Transformer:
數據生成的統(tǒng)一架構o
Scaling
Laws:
數據學習、生成的擴展法則oRLHF:
生成與人類價值對齊的數據o
01/R1:
生成式求解問題——生成復雜問題的答案(推理)2021一ohaScaling
Laws
|GPT-3
2020RLHF|ChatGPT
2022Tran2sformerLakasr
KaisrGoogle
Bninlukanzkatserdgoogle.coAidamN.GomeeUniveniy
of
Torote
aidanecs.toranto,adAshishVaswanlGook
Bainavasvaniegoogle.coLion
Jooes
GoogleResanch
11iontgoogle.ccAttention
Is
All
You
NeedIⅢiPolosukhin111a.polopukhintpai1.c04Jkab
Uokoreir
Research
szogoogle.comNiki
PrmarGoogleRescarchnikipagoogle.cAttentionNoamShareerGoogleBmin
men0gpogle.cPotionBror0生成式Al:2014——2024ENIAC
圖靈測試達特茅斯會議
ELIZAAl寒冬I專家系統(tǒng)Al寒冬II統(tǒng)計方法NN再興起1945
1950
1956
19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI2014
2024生成式AI生成式Al:
使用生成式模型生成各類數據
(語言、語音、圖片、視頻等)o
Attention:
數據依存關系建模o
Transformer:
數據生成的統(tǒng)一架構o
Scaling
Laws:
數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o
01/R1:生成式求解問題——生成復雜問題的答案(推理)Attention
Tran2sformerScaling
Laws|GPT-3
2020RLHF|ChatGPT
2022ComputePF-days.non-ermbedding2024Dataset
Size
tokensParametersnon-embeddingTastLoss圖靈測試達特茅斯會議ELIZA
Al寒冬I專家系統(tǒng)
Al寒冬II
統(tǒng)計方法NN
再興起E1945
1950
1956
19661974-19801980-19871987-1990s1990-2000s2006-20142024生成式AI生成式Al:使用生成式模型生成各類數據
(語言、語音、圖片、視頻等)o
Attention:數據依存關系建模o
Transformer:
數據生成的統(tǒng)一架構o
Scaling
Laws:
數據學習、生成的擴展法則o
RLHF:
生成與人類價值對齊的數據o
01/R1:生成式求解問題——生成復雜問題的答案(推理)Scaling
Laws|GPT-3RLHF|ChatGPT
01/R12020
2022
2024生成式AI:2014——2024andtaaagersd
poky
tanrrd
medetrertooenerlearinyadooithmTran2sformerAGI...ASIAtte01tion生成式Al:2014——2024ENIAC
圖靈測試達特茅斯會議
ELIZAAl寒冬I專家系統(tǒng)Al寒冬II統(tǒng)計方法NN再興起1945
1950
1956
19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI20142024生成式AI生成式Al:使用生成式模型生成各類數據
(語言、語音、圖片、視頻等)o
Attention:
數據依存關系建模o
Transformer:
數據生成的統(tǒng)一架構o
Scaling
Laws:
數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o01/R1:生成式求解問題——生成復雜問題的答案(推理)Questiom:Ifa>1,thenthesumof
thereal
solutions
of
va-va+x=xis
equal
toResponse
<think>Tosolvethe
equationva-Va+x=x,let's
start
by
squaring
both…
(va-Va+x)=x2
一a-va+x=x2Rearrangetoisolatethe
innersquare
root
terme(a-x2)2=a+x一a2
-2ax2+(x2)2=a+x一x?-2ax2
-x+(a2
-a)=0…Wait,wait.WaitThat'sanahamoment
Ican
flag
hereLet'sreevaluatethisstepby-step
to
identify
if
the
correct
sum
can
be
Westartedwith
the
equatioreVa-va+x=xFirst,let'ssquare
both
sidesa
-
V
a
+
x
=
x
2
一
V
a
+
x
=
a
-
x
2Next,Icouldsquareboth
sides
again,treating
the
equation:…Attention
Tran2sformerScaling
Laws
GPT-3
2020RLHF|ChatGPT
20222024Trainedtopredictthenext
word
in
a
sentence:Thecat
ischasing
the10010100101010
100101001100101001自然語言處理:人類語言的智能化
處理與分析,使計算機具備聽、說、
讀、寫、譯等人所具備的語言能力語言模型:自然語言統(tǒng)計建模,簡
單說,就是預測句子中的下一個單
詞是什么自然語言處理與語言模型NATURALLANGUAGE
PROCESSING(NLP)
FORARTIFICIALINTELLIGENCEdog
5%mouse70%
squirel
20%
boy
5%house
0%Language
ModelsThikpadmAnthropicAlWebGPTSErnie3.0TitanGopherGLaMBLOOMmTOBLOOMZ
養(yǎng)Galatica
XTO
排
9-10-NAVER11-12\InstructGPTCodeGenMT-NLGOPTGPT-NeoX-20BTk-InstructCohereWeLM
CmTII)wssHUAWEIYuLan-ChatStarCoderCodeGen2ChatGLMFalconPaLM2PythiaVicunaPanGu-ZInternLME2
QwenMistralE2Qwen2DeepSeek-V2XLLaMA3大語言模型:2018——2024OPT-IMLXZhao
et
al.A
Survey
of
Large
Language
Models.arXiv:2303.18223inspur
Yuan
1.0GGY4-6Bard0LLaMA周DeepseekMixtralGMiniCPMGemmaOGG(xSparrowFlan-T5Flan-PaLMLuminousNLLBAl21labs3AAIErnie
3.0Jurassic-1CPM-216
7-12-—
—2024—1-6→GPT-4身
0
LLaMA2PanGu-αHUAWEE2PLUGG
FLANGPT-3身Codex
竊
-
5-8CodeGeeXGLM
AlexaTM智譜·面aG
mT51-4GO◎UL2PaLMYaLM-
2023ChatGPT
身—2019—2020
2021G
T5
GGShardAlphaCodeChinchilla百源開照LaMDAPublicly
Available2022I1-3HyperCLOVA7-1011-12.Ai2X對齊訓練數據PromptRosponses軟件資源分配docker
kubernetes任務調度模型訓練預訓練
對齊訓練
SFTRLHFDPOBet
of
N
sam
plingData
Parallel
TensorParallelExpert
Parallel
ZeROPipelineParallelSoquene
ParalelFashAttention數據處理和管理Data
Processing
and
Managem
ent算力管理Com
puting
Managem
ent模型評測OpenEva
UltraEval
OpenCompassXChatbot
ArenaFlagEval
-
openLMLaderbard知識能力價值對齊負載均街性能監(jiān)控安全可信專業(yè)領域彈性擴展容錯機制大語言模型:技術棧通用模型行業(yè)模型Specialized
Model行業(yè)模型領域對齊訓練動態(tài)批處理模型量化模型剪枝算子優(yōu)化模型蒸餾性能監(jiān)控處理流程數據去重領域分類910B910A質量篩選版本控制slurm通用模型General-purposeModel預訓練數據數據分類行業(yè)對齊數據領域微調訓練應用層Application行業(yè)棋型部署
行業(yè)模型評測網頁
書籍
代碼
論文百科品AAMD語營檢測內容過濾M1350M1300模
型
部
著自主規(guī)劃圖文創(chuàng)作智能客服信息檢索H100A100工具調用代碼生成nVIDIA.評測數據行業(yè)數據硬件Ascond數據處理
預訓練
后訓練
應用部署數據治理
基座模型
對齊模型
紅隊測試數據要素
自監(jiān)督學習
■
微調&強化
·商業(yè)落地知識源頭
能力涌現
安全可信
模型壓縮o
訓練范式
o關鍵·預訓練——基座模型
●模型架構·后訓練——對齊模型
·訓練算法·推理訓練——推理模型·
擴展法則殺手锏:性能/成本曲線|性價比大語言模型:生命周期與范式The
bitter
lesson
is
based
on
the
histor-ical
observations
that1)Al
researchers
have
often
tried
to
build
knowledge
intotheir
agents,2)this
always
helps
in
the
short
term,and
is
personally
satisfying
to
the
researcher,but
3)in
the
longrun
it
plateaus
and
even
inhibits
furtherprogress,and
4)breakthrough
progresseventually
arrives
by
an
opposing
ap-
proach
based
on
scaling
computation
bysearch
and
learning.擴展法則The
BitterLessonSasha
Rushand
Daniel
Ritter.SpeculationsonTest-TimeScaling.2024[Sutton,2019]Two
Era'sAlignment
PipelinesHumanInstructions(-10k)
PPO
optinizationBase
Model
SFT
Model
AlignedModel成本較低大部分實驗室可做成本高昂(上千萬)
少數企業(yè)/實驗室可做NewSynthetieCompletionsxNroundsDPQ,PPORejoction
Samplng.ormutpeoptintzations
Aligned
ModelN+1-
Final
Model大語言模型:后訓練范式Aligned
ModelNHumanpreferences(~1M*?)Re-usepreferencepromptsReward
ModelBase
ModelInfercornectHuman+SyntheticInstructions(-1M+7initiatFTtrahingReward
Model/LLMJudge~Llama
3.1/Nemotron~InstructGPTHumanpreferencs(-100k)Re-use
preference
promptsSOpenAIQ*exp
d)Thederoninalorofafactonis7hasthan
3ines
she
munnetactlt4⑧
●urcaltenumr回四④
som
dinaler
is-7.-5eGPTain(l①
wothasme7=25①
a
7四②
x
-14●@
sox-7過程獎勵模型PRMReminder:AlphaZero推理語言模型?Sasha
Rushand
Daniel
Ritter.Speculations
on
Test-TimeScaling.2024MCTS大語言模型發(fā)展路線圖DeepSeek
V2-V3/R1技術原理DeepSeek效應未來展望03報告目錄2023.11DeepSeek
V12024.5DeepSeek
V2天邊的兩多云(國內外現狀)o模型架構:大部分企業(yè)采用已驗證架構(試錯成本高昂)【
不
敢
】o推理模型:大部分實驗室仍在苦苦猜測摸索Q*/01(OpenAl保密)【
不
知
】DeepSeek:2023——2024.11DeepSeek
R1-Lite2025.01DeepSeek
R12024.12DeepSeek
V3DeepSeek
V2主要創(chuàng)新o
DeepSeekMoEo
MLADeepSeekMoEo
稀疏激活:計算不隨規(guī)模呈線性增長o
相比傳統(tǒng)MoE:細粒度專家(共享+路由)o
路由&通信改造:·
Device-Limited
Routing·Auxiliary
Loss
for
Load
BalanceToken-Dropping
StrategyTransformerBlock×LFeed-Forward
NetworkRMS
NormAttentionDeepSeekMoEOOOO
OO00
Routed
ExpertOutput
Hidden
h{Shared
Expert1
N?
1
2
3
4
N-1
N,Router
dhl
Top-KInput
Hidden
utMulti-Head
LatentAttention(MLA)OCached
During
InferenceOutput
Hidden
u:OOOOOOO0Multi-HeadAttentionOO
0OLatent
c8LatentcOV2規(guī)模:236B
totalparameters,21B
activatedparameters,128K
context
window
Input
Hidden
heOOOO
OO00[lqS;a&concatenatelafapply
RoPE{[kS,;k{](
ooOconcatenatelkE回applyRoPEDeepSeek:
技術創(chuàng)新——模型架構|V2rocrhKeyscompresed
LatentKVQueriesMLA:低秩壓縮,降低KVcache占用空間ached
During
InferenceRMS
NormMuHeadAttention(MHA)!Grouped-queryAtention(GOA)!Mut-queryAttenton(MOA!MuuHeadLatentAttenton(MLA){k
匠{qS3OCoO{vH·Mixtral8x7BCommand
RLLaMA38BO
LLaMA
234BMistral
7BLLaMA133BLLaMA
213BLLaMA
270BO
LLaMA165BLLaMA
1
Family-LLaMA2FamilyLLaMA3
FamilyMixtral
FamilyCommand
R
FamilyQwen1.5
Family(a)
(b)殺手锏:性能/成本曲線|性價比KVCacheforGeneration(KB/Token)DeepSeek67Breducing
KV
cache
by93.3%100200300400MaximumGenerationThroughput(Tokens/Sec)DeepSeek67BDeepSeek-V20TrainingCosts(KGPU
Hours/T
Tokens)DeepSeek67Bsaving
42.5%oftrainingcosts050
100150DeepSeek-V2Mixtral8x22B
LLaMA
370BCommand
R+DBRXQwen1.572B
ODeepSeek:
技術創(chuàng)新——模型架構|V2訓練開銷存儲開銷生成速度0
20
40
60
80
100ActivatedParameters(Billions)Performance
(MMLU)807570656055576%of
maximum
throughputDeepSeek
67BGrok-1DeepSeek-V2DeepSeek-V2Qwen1.532B01
N?
1
2
3
4N--
1N,Router
dhhlTop-KOO0O
◎
InputHidden
uMulti-Head
Latent
Attention(MLA)OOcachedDuring
InferenceOutput
Hidden
u:
OOOO
OOO0Multi-Head
Attention{[qS,;ql}
O0O
{[k{,;k{J}[concatenatef
conctenotelDeepSeek
V3主要創(chuàng)新o
InfrastructuresoMulti-Token
Prediction
(MTP)Infrastructureso減少流水線氣泡o
高效節(jié)點間All-to-All通信o
FP8訓練o
低精度存儲與通信MTP:
一次預測多個topkenTransformerBlock
×LFeed-ForwardNetworkRMS
NormAttentionRMS
NormetMin
MaddouputHeoad-4MTPModue1oupurHeadfranfomerliockMTP
Modube2etoupgHeadTransformerlocktrngfrmerlock×LlherhaFmbeddlguebwr
mtDeepSeek:
技術創(chuàng)新——模型架構|V3V3規(guī)模:671Btotalparameters,37Bactivatedparameters,trainedon14.8TtokensImput
Hiden
h,Oo00'o000OO-0Olatent
c{
LatentcODeepSeekMoEOutput
Hidden
h{93
(qRouted
Expert
Shared
Expertkf|
回applyRoPE后fapplyRoPE{k
匠OO{v&B殺手锏:性能/成本曲線|性價比DeepSeek:
技術創(chuàng)新——模型架構|V3MMLU
Redux
ZeroEval
Score
VS
Input
API
Price($/1M
Tokens)Training
CostsPre-Training
Context
Extension
Post-TrainingTotalin
H800
GPU
Hours2664K119K5K2788Kin
USD$5.328M$0.238M$0.01M$5.576MTable
1|Training
costs
of
DeepSeek-V3,assumingtherentalprice
of
H800
is
$2per
GPUhour.Duringthe
pre-trainingstate,training
DeepSeek-V3oneachtrilliontokens
requiresonly
180K
H800
GPU
hours,i.e.,
3.7daysonourownclusterwith2048
H800GPUs.Consequently,our
pre-training
stageiscompleted
in
less>E.g.Llama3405B
used30.8M
GPU-hours,while
DeepSeek-V3looksto
be
a
stronger
model
at
only
2.8M
GPU-hours(~11X
less
compute).Super
interesting!And
DeepSeek
was
trained
in
H800's
which
areprobably
also
a
tad
(or
noticeably?)slower
than
Meta's
H100's.大規(guī)模高性能加速器
(折舊)大模型研發(fā)人員成本大模型架構技術探索成本
大模型數據成本大模型最終訓練成本DeepSeek:
技術創(chuàng)新——模型架構|V3
成本殺手锏:性能/成本曲線|性價比thantwomonthsandcosts2664K
GPU
hours.SebastianRaschka@rasbt大模型部署推理成本大模型研發(fā)成本成本-岡DeepSeek
V2-V3及R1在模型架構上選擇稀疏MoE模型而非稠密模型,并進行和積累了大量技術創(chuàng)新,包括MLA、FP8
訓練、MoE
All-to-AlI通信瓶頸解決、MTP等,
這些技術并不是所有都是原始創(chuàng)新,但是能夠進行如此多大模型架構底層創(chuàng)新的實驗室,在全世界可能也只有少數幾個;DeepSeek
所有模型架構上的創(chuàng)新均是圍繞“降本增效”:在基本不損害性能前提
下,盡可能通過算法挖掘和提升硬件訓練和解碼效率美國采取芯片禁令(全球三級管控)策略維持自己的Al領導地位,DeepSeek
算法繞過了美國的算力護城河DeepSeek:
技術創(chuàng)新——創(chuàng)新程度DeepSeek
R1主要創(chuàng)新o
DeepSeek-R1-Zero:
大規(guī)模RL
訓練,發(fā)現了RL
訓練的Scaling
Laws,RL訓練涌現“aha”時刻o
推理模型訓練技術框架:
4步法,有效解決了R1-Zero
存在問題,將推理與對齊合為一體o
強化學習訓練框架:GRPO,
來
自DeepSeekMath,降低了強化學習訓練成本o
推理模型蒸餾:
將大模型推理能力蒸餾到小模型,優(yōu)于小模型直接進行推理訓練(規(guī)模效應)為什么MCTS+PRM是“誤區(qū)”o
The
bitter
lesson:scalabilityo
OpenAl
競爭策略DeepSeek:
技術創(chuàng)新——推理模型|R1DeepSeek:
技術創(chuàng)新——推理模型|R1-ZeroLarge-scale
Reasoning-OrientedReinforcement
Learning3.通過prompt
策略引導模型思考和給出答案,避免基座
模型不能生成停止符使用標記<think></think><answer></answer>R1-Zero存在問題:poorreadability,language
mixingstepsDeepSeek-v3-Base
DeepSeek-R1-Zero2.RL
Training
Scaling
Law:
涌現reflection
、aha自動涌現出搜索、反思、頓悟、糾錯與testing-time
scaling
law—致,可從性能增長曲線和長
度增長曲線推出推理時scaling
lawA
conversation
between
User
and
Assistant.The
user
asks
a
question,and
the
Assistant
solves
it.The
assistant
firstthinks
aboutthereasoningprocess
inthe
mind
and
then
provides
the
userwith
the
answer.The
reasoning
process
and
answer
are
enclosed
within
<think></think>and<answer></answer>tags,respectively,i.e,<think>reasoningprocesshere</think><answer>answerhere</answer>.User:prompt.Assistant:Table1|TemplateforDeepSeek-R1-Zero.promptwillbe
replaced
with
the
specific
reasoningquestion
during
training.1.強化學習訓練規(guī)模大業(yè)內通常訓練幾十RL
steps,DeepSeek訓練幾千RL
Tülu
3最大發(fā)布模型只訓練了~50RL
stepsKerconnects.ai/p/deepseek-r1-recipe-for-01Fgure3/The
average
rspone
lknghfDwpskRI-Zme
onthe
trainingstduring
theRLpoces.DepSok-R1-ZronuhuralylearstosbvereasoningtaskswihmarethinkngtimeFgum2|AIMEaecurayafDwpskRI-ZcmduringtrainingForeachquotbnwsmple16responsesandakuletheowrallawerageaccuncytoensure
astulleevaluation.stepsDeepSeek-V3-base(200K
samples)Step3.
RejectionSamplingSFT
3/4reasoning
data(600K)1/4
general
instruction
data
(200K)Reasoning
Data長CoT
數據General-Purpose
ModelDeepSeek-R1Step
0.GeneratingLong
CoT
data
Step
4.General
RLRLHF
Preference
Tuning
with
safety
rewardso
DeepSeek-R1
不是唯一的推理模型框架,2025年將出現更多新的框架o
要復現上述框架,需要DeepSeek
開源相關數據Step
2.Reasoning-orientedRLStep3
Reasoning
Data
類似訓練R1-Zero
Math,Code,Logic直至訓練收斂
(600K
samples)Few-shot
ICL+
人工后期refining
Reasoning
RL
with
rule-based
rewardsDeepSeek:
技術創(chuàng)新——推理模型|R1
Recipe大規(guī)模強化學習DeepSeek-R1-Zero
中間推理模型Step
3
Instruction
DataWriting,QA,trans,etc.SFTCheckpoint
RL-tuned
ModelStep1.
ReasoningSFT
Cold
Start1.強化學習框架GRPO(DeepSeekMath)采用蒙特卡洛采用估算以取代Value模型,降低
計算和存儲開銷2.強化學習獎勵模型o
采用easily
verifiable
rewards rewardo
避免過程獎勵模型:計算復雜,容易reward●·AccuracyReferenceModelRewardModelqTrained
ModelsFrozenModelsA?A?AFigure4|DemonstrationofPPOandourGRPO.GRPOforegoesthevaluemodel,insteadestimatingthebaselinefromgroupscores,significantlyreducingtrainingresources.hackingDeepSeek:
技術創(chuàng)新——推理模型|RLFormat
reward·Language-consistency
rewardKLReference
ModelReward
ModelGroupComputationGAE
APolicyModelPolicyModelValue
Model0?0?0GRPO◆田-
rPPOr1T?|KLrgqV0Qwen2.5-Math-1.5B,SFTQwen2.5-14B,Qwen2.5-32B,Llama-3.1-8B,andStep
3
Reasoning
DataMath,Code,Logic(600K
samples)Step
3
Instruction
DataWriting,QA,trans,etc.(200K
samples)推理模型蒸餾到小模型o
reasoning能力可以蒸餾到小模型o
大模型蒸餾到小模型優(yōu)于小模型直接通過大規(guī)模RL訓練o
再次驗證了模型規(guī)模在AGI發(fā)展中的重要性o推理者同樣需要規(guī)模支撐DeepSeek:
技術創(chuàng)新——推理模型|推理能力蒸餾DeepSeek-R1-Distill-Qwen2.5DeepSeek-R1-Distill-LlamaLlama-3.3-70B-InstructQwen2.5-Math-7B,DeepSeekvs
OpenAICreated
by
pc■openAl-o1-1217MMLUDlamond囊uygnSource:DeepSeek
OHiclar
Website
Morecharts:殺手锏:性能/成本曲線|性價比DeepSeek:
技術創(chuàng)新——推理模型|R1Pricing:InputandOutput
PricesUSD
per
1MTokens■Input
price
■Output
pricecodstorceAcompectve
erooramming
plottormshere
coders
solheMATH-500AcolecticnAIME2024Amothor500
toughmothprobemssWE-bench
VerifiedDeepSeek-R1ondreosonlngAtest
ofGPOAModelsLogicalLevel
1Level
2Level
3OpenSource?Model
SizeDeepSeek-R1(API)76.10%90.48%77.14%61.70%Yes671BDeepSeck-R1(網頁)74.84%80.95%78.57%63.83%Yes671Bol-preview72.33%88.10%74.29%55.32%NoundisclosedDeepSeek-R1(非官方API-together)70.44%80.95%78.57%48.94%Yes671BQwQ-32B63.52%73.81%70.00%44.68%Yes32Bhunyuan-turbo-latest62.26%85.71%65.71%36.17%NoundisclosedGLM-Zero-preview61.64%71.43%71.43%38.30%NoundisclosedDoubao-pro-32k61.01%83.33%62.86%38.30%NoundisclosedYi-Lightning52.83%64.29%60.00%31.91%NoundisclosedDeepSeek-V2.5-121049.69%69.05%57.14%21.28%YesundisclosedErnie-4.0-Turbo-8k49.06%66.67%54.29%25.53%NoundisclosedDeepSeek-V349.06%66.67%52.86%27.66%Yes671BSenseChat-5-120247.17%64.29%50.00%27.66%NoundisclosedGPT-4-Turbo42.77%57.14%48.57%21.28%NoundisclosedSpark4.0Ultra39.62%57.14%44.29%17.02%NoundisclosedMoonshot-v1-32k38.99%45.24%48.57%19.15%NoundisclosedGPT-3.5-Turbo29.56%35.71%35.71%14.89%NoundisclosedDeepSeek-R1(網頁)平均思考時間Average
Times(s)AllCorrectWrongOverall147.26100.69285.83Level
183.5763.88167.25Level
2132.4991.98281.00Level3226.19158.37345.88DeepSeek:
技術創(chuàng)新——推理模型|R1TJUNLP實測DeepSeek-R1邏輯推理性能DeepSeek
R1是在探明方向
(OpenAl
o1引領和證實的方向)上進行0-1的創(chuàng)新突破,獨立探索出基于大規(guī)模強化學習的大語言模型推理技術路線,避開了過去一年
多(
自OpenAl
的Q*
在社交媒體討論)業(yè)內廣泛思索的通過在訓練中進行顯式搜索、
過程獎勵模型(即Search+PRM)
實現推理的“誤區(qū)”;貢
獻
:o獨立探索出推理技術路線o將技術路線公開發(fā)布(解惑了業(yè)內的“不知”)o模型開源
(MITLicense)Dee
pSeek
R1打破了美國第一梯隊企業(yè)以閉源形成的技術護城河,進一步動搖
了美國的"AIDominance"DeepSeek:
技術創(chuàng)新——創(chuàng)新程度大語言模型發(fā)展路線圖DeepSeek
V2-V3/R1技術原理DeepSeek
效應未來展望報告目錄Overnight,Microsoft,NVIDIA,andAmazonallconnectedtoDeepSeek!
Andrew
Ng:Al
inChina
isonthe
rise.New
InteligenoeSouree·Jan3116:49
文/AMSFT+0.35%
NVDA+1.71%AMZN
+195%
口unusual_whales@unusualwhales·Jan28BREAKING:Thisisnotamemecoin.Thisis
Nvidia,SNVDA,themostvaluablecompanyin
the
word
before
today.t
isdown
17%.It
lost$560
billion
in
marketcaptodaysofar,thelargest
in
market
history.<AppsTop
Charts
All
AppsFree
Apps
Paid
AppsMicrosoft,NVIDIA,andAmazonembraceDeepSeekR1,alongwithUSACloud
Computingplatforms.Andrew
NgandtheformerCEOofIntelpraise
DeepSeek's
innovativecapabilities.開源vs
閉
源創(chuàng)新&人才&Vision2
ChatGPTThe
official
app
by
OpenAI3
ThreadsConnect
andshare
ideasDeepSeek:
效應OnthelastdayofJanuary,theenthusiasmfrom
DeepSeekshows
nosigns
of
waning.算力價格戰(zhàn)認知誤區(qū)1
DeepSeek-AlAssistantIntelligent
AIAssistantOpenme17so.00s2.00s?.00S?.00s?.00$10.00$12.00
$14.00
$16.00
$18.00
S20.00
$22.00
$24.00
S26.00
S28.00
$30.00Price(USD
per
MTokens)產品:性價比永遠是王道
技術也是如此
數百億美元構建的前沿技術護城河一夜間被攻破DeepSeek
R1DeepSeek
V3Gemini1.5
Pro(Sep)
Qwen2.5
MaxLlama
3/370B
01-minio3-mini
Claude
3.5
Sonnet
(Oct)GPT-40(Nov'24)Mistral
Large
2(Nov
24)DeepSeek:
效應——算力價格戰(zhàn)AArtificial
Analysis015550-Llama
3.18B95-90-85-80-75-70-65-60-ArtificialAnalysisQualityIndexGPT-3
選擇閉源之后,大模型開源vs
閉源之爭、之戰(zhàn)一直存在DeepSeek
R1的開源發(fā)布,一舉趕超閉源大模型,是大模型開源史上的里程碑美國Al第一梯隊企業(yè)的前沿技術封閉被打破開源vs
閉源不僅涉及技術的公開性,也關乎Al安全治理Thiscoderepositoryandthemodelweightsare
licensed
underthe
MIT
License.DeepSeek-R1series
supportcommercialuse,allowforanymodificationsandderivativeworks,including,butnotlimitedto,distillationfor
trainingotherLLMs.Pleasenote
that:·DeepSeek-R1-Distill-Qwen-1.5B,DeepSeek-R1-Distll-Qwen-7B,DeepSeek-R1-Distill-Qwen-14BandDeepSeek-R1-Distil-Qwen-32BarederivedfromQwen-2.5series,whichareoriginallylicensedunderApache2.0
License,andnowfinetunedwith800ksamplescuratedwith
DeepSeek-R1.·DeepSeek-R1-Distll-Llama-8BisderivedfromLlama3.1-8B-Baseandis
originally
licensed
under
llama3.1
license.·DeepSeek-R1-Distll-Llama-70BisderivedfromLlama3.3-70B-Instructandis
originally
licensed
underlama3.3license.samaltmancO-HOST
·
4dagoyes,wearediscussing.ipersonallythinkwe
have
been
on
the
wrong
side
of
history
here
and
need
tofigureouta
different
open
source
strategy;not
everyone
at
openai
shares
this
view,and
it's
also
notourcurrenthighest
priority.白個
5
1
0
凸
2Share
…DeepSeek:
效應——開源
vs
閉源lolzinventor
·5d
agoWould
you
consider
releasing
some
model
weights,and
publishing
some
research?曰
164Award
Share
…OpenAI
CEO
Sam
Altman
IVerified7.LicenseDeepSeek:
效應——認知誤區(qū)如果ChatGPT刷新了我們對Al的認知,那么DeepSeek在某種程度上顛覆了:o
美國人對中國Al水平的認知:長久以來,美國認為中國在Al科技創(chuàng)新上更多是跟隨者角色o
大模型研發(fā)成本的認知:大模型研發(fā)成本需要數千萬乃至上億美元14.中
國
版
的Sora
模型何時到來,可以看中國
版
的ChatGPT
何時到來。過去
一年,國內
大語言模型發(fā)展迅速,甚至出現了百模大戰(zhàn)
的熱鬧景象,但“熱鬧”較多的是同質化競
爭,較少的是底層基礎技術的原創(chuàng)性突破。15.
國內和國外大模型的差距不在于模型能
力高低,也不在于應用,而在于底層核心技
術
。而底層核心技術突破的最主要障礙不是
算力受限,也不是數據規(guī)模和質量受限,而
是缺乏足夠數量的具有技術遠見、敢于技術
冒險的大模型人才。16
.
大模型技術仍然在不斷發(fā)展和突破中,
未來格局存在很多變數。大模型頂尖人才技術型人才:銳意進行大模型底層技術創(chuàng)
新和冒險(第
一
類人才)戰(zhàn)略型人才
:具有AGI技術遠見和vision
(第二類人才)為鞏固并提升我國在這
一
領域的
國際競爭力,可以從以下布局和規(guī)劃
著手。第
一
,進
一
步提升以大模型為
代表的前沿人工智能在國家科技和產
業(yè)發(fā)展中的戰(zhàn)略地位,成立人工智能
工
作
小
組
,
領
導AI
產
研
咨
詢
委
員
會
,
統(tǒng)籌資源,制定AI
政策和計劃,推進
人
工
智
能
技
術
創(chuàng)
新
和
產
業(yè)
發(fā)
展。
第
二,重點規(guī)劃和建設前沿人工智能相
關的國家基礎設施,包括超級智算網
絡、通用及行業(yè)數據基礎設施、大規(guī)
模人工智能軟件基礎平臺、人工智能
安全與測評基礎設施、大模型開源平
臺等。第三,開展大模型關鍵理論和
技術攻關,啃硬骨頭,探新疆域,研
發(fā)
經
得
起
實
踐
考
驗
的
硬
核
技
術
。
第
四,
培
育
和
建
立
大
模
型
創(chuàng)
新
發(fā)
展
生
態(tài),形成大模型技術創(chuàng)新氛圍,鼓勵
耐心資本敢投廣投大模型硬核技術創(chuàng)
業(yè)企業(yè)。第五,重視人工智能人才培
養(yǎng)和成長,培養(yǎng)
一
批具有長遠眼光
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護士資格證臨床實踐考試題及答案
- 地質災害防治工程師崗位面試問題及答案
- 醫(yī)院藥庫考試題目及答案
- 德州高一語文試題及答案
- 除塵工培訓試題及答案
- 創(chuàng)新性心理護理技術在精神科的應用
- 2026高校區(qū)域技術轉移轉化中心(福建)新型功能材料分中心招聘5人參考題庫必考題
- 上海煙草集團有限責任公司2026年應屆生招聘參考題庫附答案
- 北京中國石油大學教育基金會招聘2人考試備考題庫必考題
- 北京第七實驗學校(北京市平谷區(qū)國農港學校) 面向全國招聘參考題庫附答案
- 智能化項目驗收流程指南
- 搶劫案件偵查課件
- 2026年遼寧軌道交通職業(yè)學院單招職業(yè)技能測試題庫必考題
- 雨課堂在線學堂《中國古代舞蹈史》單元考核測試答案
- 老年人遠離非法集資講座
- 沙子石子采購合同范本
- 軍采協議供貨合同范本
- 2025年醫(yī)院年度應急演練計劃表
- 衛(wèi)生所藥品自查自糾報告
- 2024年新高考Ⅰ卷英語真題(原卷+答案)
- 面板數據估計量選擇及效率比較
評論
0/150
提交評論