DeepSeek原理與效應+DeepSeek深度分析解讀_第1頁
DeepSeek原理與效應+DeepSeek深度分析解讀_第2頁
DeepSeek原理與效應+DeepSeek深度分析解讀_第3頁
DeepSeek原理與效應+DeepSeek深度分析解讀_第4頁
DeepSeek原理與效應+DeepSeek深度分析解讀_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

深度解讀DeepSeek:

原理與效應熊德意天津大學dyxiong@https://dyxiong.github.iohttps://tjunlp-lab.github.io仁文伏羲

伏羲傳語天津大學自然語言處理實驗室The

Natural

Language

Processing

Laboratory

at

Tianjin

UniversityOpenEval營大語言模型發(fā)展路線圖DeepSeek

V2-V3/R1技術原理

DeepSeek效應未來展望03報告目錄生成式Al:2014——2024ENIAC

圖靈測試達特茅斯會議ELIZA

Al

寒冬I專家系統(tǒng)Al

寒冬II

統(tǒng)計方法

NN

再興起1945

1950

1956

19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI2014

2024生成式AI生成式AI:

使用生成式模型生成各類數據

(語言、語音、圖片、視頻等)o

Attention:

數據依存關系建模o

Transformer:

數據生成的統(tǒng)一架構o

Scaling

Laws:

數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o

01/R1:生成式求解問題——生成問題求解的過程和答案(推理)1414

Feature

Map1.hput

2.Convouional3.RNNmithatenion

4.Wordbymape

Feature

Eatraction

over

theimoge

Attention

Tran2sformerScalingLaws

|GPT-3

2020RLHF|ChatGPT2022Figure

L.Our

modellearmsawords/imagealignment.Thevisualized

attentional

maps(3)are

explained

in

Sctions3.1&5.42024water生成式Al:2014——2024ENIAC

圖靈測試達特茅斯會議

ELIZA

Al寒冬I專家系統(tǒng)Al寒冬II

統(tǒng)計方法NN再興起1945

1950

1956

19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI20142024生成式AI生成式Al:

使用生成式模型生成各類數據

(語言、語音、圖片、視頻等)o

Attention:

數據依存關系建模o

Transformer:

數據生成的統(tǒng)一架構o

Scaling

Laws:

數據學習、生成的擴展法則oRLHF:

生成與人類價值對齊的數據o

01/R1:

生成式求解問題——生成復雜問題的答案(推理)2021一ohaScaling

Laws

|GPT-3

2020RLHF|ChatGPT

2022Tran2sformerLakasr

KaisrGoogle

Bninlukanzkatserdgoogle.coAidamN.GomeeUniveniy

of

Torote

aidanecs.toranto,adAshishVaswanlGook

Bainavasvaniegoogle.coLion

Jooes

GoogleResanch

11iontgoogle.ccAttention

Is

All

You

NeedIⅢiPolosukhin111a.polopukhintpai1.c04Jkab

Uokoreir

Google

Research

szogoogle.comNiki

PrmarGoogleRescarchnikipagoogle.cAttentionNoamShareerGoogleBmin

men0gpogle.cPotionBror0生成式Al:2014——2024ENIAC

圖靈測試達特茅斯會議

ELIZAAl寒冬I專家系統(tǒng)Al寒冬II統(tǒng)計方法NN再興起1945

1950

1956

19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI2014

2024生成式AI生成式Al:

使用生成式模型生成各類數據

(語言、語音、圖片、視頻等)o

Attention:

數據依存關系建模o

Transformer:

數據生成的統(tǒng)一架構o

Scaling

Laws:

數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o

01/R1:生成式求解問題——生成復雜問題的答案(推理)Attention

Tran2sformerScaling

Laws|GPT-3

2020RLHF|ChatGPT

2022ComputePF-days.non-ermbedding2024Dataset

Size

tokensParametersnon-embeddingTastLoss圖靈測試達特茅斯會議ELIZA

Al寒冬I專家系統(tǒng)

Al寒冬II

統(tǒng)計方法NN

再興起E1945

1950

1956

19661974-19801980-19871987-1990s1990-2000s2006-20142024生成式AI生成式Al:使用生成式模型生成各類數據

(語言、語音、圖片、視頻等)o

Attention:數據依存關系建模o

Transformer:

數據生成的統(tǒng)一架構o

Scaling

Laws:

數據學習、生成的擴展法則o

RLHF:

生成與人類價值對齊的數據o

01/R1:生成式求解問題——生成復雜問題的答案(推理)Scaling

Laws|GPT-3RLHF|ChatGPT

01/R12020

2022

2024生成式AI:2014——2024andtaaagersd

poky

tanrrd

medetrertooenerlearinyadooithmTran2sformerAGI...ASIAtte01tion生成式Al:2014——2024ENIAC

圖靈測試達特茅斯會議

ELIZAAl寒冬I專家系統(tǒng)Al寒冬II統(tǒng)計方法NN再興起1945

1950

1956

19661974-19801980-19871987-1990s1990-2000s2006-AGI...ASI20142024生成式AI生成式Al:使用生成式模型生成各類數據

(語言、語音、圖片、視頻等)o

Attention:

數據依存關系建模o

Transformer:

數據生成的統(tǒng)一架構o

Scaling

Laws:

數據學習、生成的擴展法則oRLHF:生成與人類價值對齊的數據o01/R1:生成式求解問題——生成復雜問題的答案(推理)Questiom:Ifa>1,thenthesumof

thereal

solutions

of

va-va+x=xis

equal

toResponse

<think>Tosolvethe

equationva-Va+x=x,let's

start

by

squaring

both…

(va-Va+x)=x2

一a-va+x=x2Rearrangetoisolatethe

innersquare

root

terme(a-x2)2=a+x一a2

-2ax2+(x2)2=a+x一x?-2ax2

-x+(a2

-a)=0…Wait,wait.WaitThat'sanahamoment

Ican

flag

hereLet'sreevaluatethisstepby-step

to

identify

if

the

correct

sum

can

be

Westartedwith

the

equatioreVa-va+x=xFirst,let'ssquare

both

sidesa

-

V

a

+

x

=

x

2

V

a

+

x

=

a

-

x

2Next,Icouldsquareboth

sides

again,treating

the

equation:…Attention

Tran2sformerScaling

Laws

GPT-3

2020RLHF|ChatGPT

20222024Trainedtopredictthenext

word

in

a

sentence:Thecat

ischasing

the10010100101010

100101001100101001自然語言處理:人類語言的智能化

處理與分析,使計算機具備聽、說、

讀、寫、譯等人所具備的語言能力語言模型:自然語言統(tǒng)計建模,簡

單說,就是預測句子中的下一個單

詞是什么自然語言處理與語言模型NATURALLANGUAGE

PROCESSING(NLP)

FORARTIFICIALINTELLIGENCEdog

5%mouse70%

squirel

20%

boy

5%house

0%Language

ModelsThikpadmAnthropicAlWebGPTSErnie3.0TitanGopherGLaMBLOOMmTOBLOOMZ

養(yǎng)Galatica

XTO

9-10-NAVER11-12\InstructGPTCodeGenMT-NLGOPTGPT-NeoX-20BTk-InstructCohereWeLM

CmTII)wssHUAWEIYuLan-ChatStarCoderCodeGen2ChatGLMFalconPaLM2PythiaVicunaPanGu-ZInternLME2

QwenMistralE2Qwen2DeepSeek-V2XLLaMA3大語言模型:2018——2024OPT-IMLXZhao

et

al.A

Survey

of

Large

Language

Models.arXiv:2303.18223inspur

Yuan

1.0GGY4-6Bard0LLaMA周DeepseekMixtralGMiniCPMGemmaOGG(xSparrowFlan-T5Flan-PaLMLuminousNLLBAl21labs3AAIErnie

3.0Jurassic-1CPM-216

7-12-—

—2024—1-6→GPT-4身

0

LLaMA2PanGu-αHUAWEE2PLUGG

FLANGPT-3身Codex

-

5-8CodeGeeXGLM

AlexaTM智譜·面aG

mT51-4GO◎UL2PaLMYaLM-

2023ChatGPT

身—2019—2020

2021G

T5

GGShardAlphaCodeChinchilla百源開照LaMDAPublicly

Available2022I1-3HyperCLOVA7-1011-12.Ai2X對齊訓練數據PromptRosponses軟件資源分配docker

kubernetes任務調度模型訓練預訓練

對齊訓練

SFTRLHFDPOBet

of

N

sam

plingData

Parallel

TensorParallelExpert

Parallel

ZeROPipelineParallelSoquene

ParalelFashAttention數據處理和管理Data

Processing

and

Managem

ent算力管理Com

puting

Managem

ent模型評測OpenEva

UltraEval

OpenCompassXChatbot

ArenaFlagEval

-

openLMLaderbard知識能力價值對齊負載均街性能監(jiān)控安全可信專業(yè)領域彈性擴展容錯機制大語言模型:技術棧通用模型行業(yè)模型Specialized

Model行業(yè)模型領域對齊訓練動態(tài)批處理模型量化模型剪枝算子優(yōu)化模型蒸餾性能監(jiān)控處理流程數據去重領域分類910B910A質量篩選版本控制slurm通用模型General-purposeModel預訓練數據數據分類行業(yè)對齊數據領域微調訓練應用層Application行業(yè)棋型部署

行業(yè)模型評測網頁

書籍

代碼

論文百科品AAMD語營檢測內容過濾M1350M1300模

著自主規(guī)劃圖文創(chuàng)作智能客服信息檢索H100A100工具調用代碼生成nVIDIA.評測數據行業(yè)數據硬件Ascond數據處理

預訓練

后訓練

應用部署數據治理

基座模型

對齊模型

紅隊測試數據要素

自監(jiān)督學習

微調&強化

·商業(yè)落地知識源頭

能力涌現

安全可信

模型壓縮o

訓練范式

o關鍵·預訓練——基座模型

●模型架構·后訓練——對齊模型

·訓練算法·推理訓練——推理模型·

擴展法則殺手锏:性能/成本曲線|性價比大語言模型:生命周期與范式The

bitter

lesson

is

based

on

the

histor-ical

observations

that1)Al

researchers

have

often

tried

to

build

knowledge

intotheir

agents,2)this

always

helps

in

the

short

term,and

is

personally

satisfying

to

the

researcher,but

3)in

the

longrun

it

plateaus

and

even

inhibits

furtherprogress,and

4)breakthrough

progresseventually

arrives

by

an

opposing

ap-

proach

based

on

scaling

computation

bysearch

and

learning.擴展法則The

BitterLessonSasha

Rushand

Daniel

Ritter.SpeculationsonTest-TimeScaling.2024[Sutton,2019]Two

Era'sAlignment

PipelinesHumanInstructions(-10k)

PPO

optinizationBase

Model

SFT

Model

AlignedModel成本較低大部分實驗室可做成本高昂(上千萬)

少數企業(yè)/實驗室可做NewSynthetieCompletionsxNroundsDPQ,PPORejoction

Samplng.ormutpeoptintzations

Aligned

ModelN+1-

Final

Model大語言模型:后訓練范式Aligned

ModelNHumanpreferences(~1M*?)Re-usepreferencepromptsReward

ModelBase

ModelInfercornectHuman+SyntheticInstructions(-1M+7initiatFTtrahingReward

Model/LLMJudge~Llama

3.1/Nemotron~InstructGPTHumanpreferencs(-100k)Re-use

preference

promptsSOpenAIQ*exp

d)Thederoninalorofafactonis7hasthan

3ines

she

munnetactlt4⑧

●urcaltenumr回四④

som

dinaler

is-7.-5eGPTain(l①

wothasme7=25①

a

7四②

x

-14●@

sox-7過程獎勵模型PRMReminder:AlphaZero推理語言模型?Sasha

Rushand

Daniel

Ritter.Speculations

on

Test-TimeScaling.2024MCTS大語言模型發(fā)展路線圖DeepSeek

V2-V3/R1技術原理DeepSeek效應未來展望03報告目錄2023.11DeepSeek

V12024.5DeepSeek

V2天邊的兩多云(國內外現狀)o模型架構:大部分企業(yè)采用已驗證架構(試錯成本高昂)【

】o推理模型:大部分實驗室仍在苦苦猜測摸索Q*/01(OpenAl保密)【

】DeepSeek:2023——2024.11DeepSeek

R1-Lite2025.01DeepSeek

R12024.12DeepSeek

V3DeepSeek

V2主要創(chuàng)新o

DeepSeekMoEo

MLADeepSeekMoEo

稀疏激活:計算不隨規(guī)模呈線性增長o

相比傳統(tǒng)MoE:細粒度專家(共享+路由)o

路由&通信改造:·

Device-Limited

Routing·Auxiliary

Loss

for

Load

BalanceToken-Dropping

StrategyTransformerBlock×LFeed-Forward

NetworkRMS

NormAttentionDeepSeekMoEOOOO

OO00

Routed

ExpertOutput

Hidden

h{Shared

Expert1

N?

1

2

3

4

N-1

N,Router

dhl

Top-KInput

Hidden

utMulti-Head

LatentAttention(MLA)OCached

During

InferenceOutput

Hidden

u:OOOOOOO0Multi-HeadAttentionOO

0OLatent

c8LatentcOV2規(guī)模:236B

totalparameters,21B

activatedparameters,128K

context

window

Input

Hidden

heOOOO

OO00[lqS;a&concatenatelafapply

RoPE{[kS,;k{](

ooOconcatenatelkE回applyRoPEDeepSeek:

技術創(chuàng)新——模型架構|V2rocrhKeyscompresed

LatentKVQueriesMLA:低秩壓縮,降低KVcache占用空間ached

During

InferenceRMS

NormMuHeadAttention(MHA)!Grouped-queryAtention(GOA)!Mut-queryAttenton(MOA!MuuHeadLatentAttenton(MLA){k

匠{qS3OCoO{vH·Mixtral8x7BCommand

RLLaMA38BO

LLaMA

234BMistral

7BLLaMA133BLLaMA

213BLLaMA

270BO

LLaMA165BLLaMA

1

Family-LLaMA2FamilyLLaMA3

FamilyMixtral

FamilyCommand

R

FamilyQwen1.5

Family(a)

(b)殺手锏:性能/成本曲線|性價比KVCacheforGeneration(KB/Token)DeepSeek67Breducing

KV

cache

by93.3%100200300400MaximumGenerationThroughput(Tokens/Sec)DeepSeek67BDeepSeek-V20TrainingCosts(KGPU

Hours/T

Tokens)DeepSeek67Bsaving

42.5%oftrainingcosts050

100150DeepSeek-V2Mixtral8x22B

LLaMA

370BCommand

R+DBRXQwen1.572B

ODeepSeek:

技術創(chuàng)新——模型架構|V2訓練開銷存儲開銷生成速度0

20

40

60

80

100ActivatedParameters(Billions)Performance

(MMLU)807570656055576%of

maximum

throughputDeepSeek

67BGrok-1DeepSeek-V2DeepSeek-V2Qwen1.532B01

N?

1

2

3

4N--

1N,Router

dhhlTop-KOO0O

InputHidden

uMulti-Head

Latent

Attention(MLA)OOcachedDuring

InferenceOutput

Hidden

u:

OOOO

OOO0Multi-Head

Attention{[qS,;ql}

O0O

{[k{,;k{J}[concatenatef

conctenotelDeepSeek

V3主要創(chuàng)新o

InfrastructuresoMulti-Token

Prediction

(MTP)Infrastructureso減少流水線氣泡o

高效節(jié)點間All-to-All通信o

FP8訓練o

低精度存儲與通信MTP:

一次預測多個topkenTransformerBlock

×LFeed-ForwardNetworkRMS

NormAttentionRMS

NormetMin

MaddouputHeoad-4MTPModue1oupurHeadfranfomerliockMTP

Modube2etoupgHeadTransformerlocktrngfrmerlock×LlherhaFmbeddlguebwr

mtDeepSeek:

技術創(chuàng)新——模型架構|V3V3規(guī)模:671Btotalparameters,37Bactivatedparameters,trainedon14.8TtokensImput

Hiden

h,Oo00'o000OO-0Olatent

c{

LatentcODeepSeekMoEOutput

Hidden

h{93

(qRouted

Expert

Shared

Expertkf|

回applyRoPE后fapplyRoPE{k

匠OO{v&B殺手锏:性能/成本曲線|性價比DeepSeek:

技術創(chuàng)新——模型架構|V3MMLU

Redux

ZeroEval

Score

VS

Input

API

Price($/1M

Tokens)Training

CostsPre-Training

Context

Extension

Post-TrainingTotalin

H800

GPU

Hours2664K119K5K2788Kin

USD$5.328M$0.238M$0.01M$5.576MTable

1|Training

costs

of

DeepSeek-V3,assumingtherentalprice

of

H800

is

$2per

GPUhour.Duringthe

pre-trainingstate,training

DeepSeek-V3oneachtrilliontokens

requiresonly

180K

H800

GPU

hours,i.e.,

3.7daysonourownclusterwith2048

H800GPUs.Consequently,our

pre-training

stageiscompleted

in

less>E.g.Llama3405B

used30.8M

GPU-hours,while

DeepSeek-V3looksto

be

a

stronger

model

at

only

2.8M

GPU-hours(~11X

less

compute).Super

interesting!And

DeepSeek

was

trained

in

H800's

which

areprobably

also

a

tad

(or

noticeably?)slower

than

Meta's

H100's.大規(guī)模高性能加速器

(折舊)大模型研發(fā)人員成本大模型架構技術探索成本

大模型數據成本大模型最終訓練成本DeepSeek:

技術創(chuàng)新——模型架構|V3

成本殺手锏:性能/成本曲線|性價比thantwomonthsandcosts2664K

GPU

hours.SebastianRaschka@rasbt大模型部署推理成本大模型研發(fā)成本成本-岡DeepSeek

V2-V3及R1在模型架構上選擇稀疏MoE模型而非稠密模型,并進行和積累了大量技術創(chuàng)新,包括MLA、FP8

訓練、MoE

All-to-AlI通信瓶頸解決、MTP等,

這些技術并不是所有都是原始創(chuàng)新,但是能夠進行如此多大模型架構底層創(chuàng)新的實驗室,在全世界可能也只有少數幾個;DeepSeek

所有模型架構上的創(chuàng)新均是圍繞“降本增效”:在基本不損害性能前提

下,盡可能通過算法挖掘和提升硬件訓練和解碼效率美國采取芯片禁令(全球三級管控)策略維持自己的Al領導地位,DeepSeek

算法繞過了美國的算力護城河DeepSeek:

技術創(chuàng)新——創(chuàng)新程度DeepSeek

R1主要創(chuàng)新o

DeepSeek-R1-Zero:

大規(guī)模RL

訓練,發(fā)現了RL

訓練的Scaling

Laws,RL訓練涌現“aha”時刻o

推理模型訓練技術框架:

4步法,有效解決了R1-Zero

存在問題,將推理與對齊合為一體o

強化學習訓練框架:GRPO,

自DeepSeekMath,降低了強化學習訓練成本o

推理模型蒸餾:

將大模型推理能力蒸餾到小模型,優(yōu)于小模型直接進行推理訓練(規(guī)模效應)為什么MCTS+PRM是“誤區(qū)”o

The

bitter

lesson:scalabilityo

OpenAl

競爭策略DeepSeek:

技術創(chuàng)新——推理模型|R1DeepSeek:

技術創(chuàng)新——推理模型|R1-ZeroLarge-scale

Reasoning-OrientedReinforcement

Learning3.通過prompt

策略引導模型思考和給出答案,避免基座

模型不能生成停止符使用標記<think></think><answer></answer>R1-Zero存在問題:poorreadability,language

mixingstepsDeepSeek-v3-Base

DeepSeek-R1-Zero2.RL

Training

Scaling

Law:

涌現reflection

、aha自動涌現出搜索、反思、頓悟、糾錯與testing-time

scaling

law—致,可從性能增長曲線和長

度增長曲線推出推理時scaling

lawA

conversation

between

User

and

Assistant.The

user

asks

a

question,and

the

Assistant

solves

it.The

assistant

firstthinks

aboutthereasoningprocess

inthe

mind

and

then

provides

the

userwith

the

answer.The

reasoning

process

and

answer

are

enclosed

within

<think></think>and<answer></answer>tags,respectively,i.e,<think>reasoningprocesshere</think><answer>answerhere</answer>.User:prompt.Assistant:Table1|TemplateforDeepSeek-R1-Zero.promptwillbe

replaced

with

the

specific

reasoningquestion

during

training.1.強化學習訓練規(guī)模大業(yè)內通常訓練幾十RL

steps,DeepSeek訓練幾千RL

Tülu

3最大發(fā)布模型只訓練了~50RL

stepsKerconnects.ai/p/deepseek-r1-recipe-for-01Fgure3/The

average

rspone

lknghfDwpskRI-Zme

onthe

trainingstduring

theRLpoces.DepSok-R1-ZronuhuralylearstosbvereasoningtaskswihmarethinkngtimeFgum2|AIMEaecurayafDwpskRI-ZcmduringtrainingForeachquotbnwsmple16responsesandakuletheowrallawerageaccuncytoensure

astulleevaluation.stepsDeepSeek-V3-base(200K

samples)Step3.

RejectionSamplingSFT

3/4reasoning

data(600K)1/4

general

instruction

data

(200K)Reasoning

Data長CoT

數據General-Purpose

ModelDeepSeek-R1Step

0.GeneratingLong

CoT

data

Step

4.General

RLRLHF

Preference

Tuning

with

safety

rewardso

DeepSeek-R1

不是唯一的推理模型框架,2025年將出現更多新的框架o

要復現上述框架,需要DeepSeek

開源相關數據Step

2.Reasoning-orientedRLStep3

Reasoning

Data

類似訓練R1-Zero

Math,Code,Logic直至訓練收斂

(600K

samples)Few-shot

ICL+

人工后期refining

Reasoning

RL

with

rule-based

rewardsDeepSeek:

技術創(chuàng)新——推理模型|R1

Recipe大規(guī)模強化學習DeepSeek-R1-Zero

中間推理模型Step

3

Instruction

DataWriting,QA,trans,etc.SFTCheckpoint

RL-tuned

ModelStep1.

ReasoningSFT

Cold

Start1.強化學習框架GRPO(DeepSeekMath)采用蒙特卡洛采用估算以取代Value模型,降低

計算和存儲開銷2.強化學習獎勵模型o

采用easily

verifiable

rewards rewardo

避免過程獎勵模型:計算復雜,容易reward●·AccuracyReferenceModelRewardModelqTrained

ModelsFrozenModelsA?A?AFigure4|DemonstrationofPPOandourGRPO.GRPOforegoesthevaluemodel,insteadestimatingthebaselinefromgroupscores,significantlyreducingtrainingresources.hackingDeepSeek:

技術創(chuàng)新——推理模型|RLFormat

reward·Language-consistency

rewardKLReference

ModelReward

ModelGroupComputationGAE

APolicyModelPolicyModelValue

Model0?0?0GRPO◆田-

rPPOr1T?|KLrgqV0Qwen2.5-Math-1.5B,SFTQwen2.5-14B,Qwen2.5-32B,Llama-3.1-8B,andStep

3

Reasoning

DataMath,Code,Logic(600K

samples)Step

3

Instruction

DataWriting,QA,trans,etc.(200K

samples)推理模型蒸餾到小模型o

reasoning能力可以蒸餾到小模型o

大模型蒸餾到小模型優(yōu)于小模型直接通過大規(guī)模RL訓練o

再次驗證了模型規(guī)模在AGI發(fā)展中的重要性o推理者同樣需要規(guī)模支撐DeepSeek:

技術創(chuàng)新——推理模型|推理能力蒸餾DeepSeek-R1-Distill-Qwen2.5DeepSeek-R1-Distill-LlamaLlama-3.3-70B-InstructQwen2.5-Math-7B,DeepSeekvs

OpenAICreated

by

pc■openAl-o1-1217MMLUDlamond囊uygnSource:DeepSeek

OHiclar

Website

Morecharts:殺手锏:性能/成本曲線|性價比DeepSeek:

技術創(chuàng)新——推理模型|R1Pricing:InputandOutput

PricesUSD

per

1MTokens■Input

price

■Output

pricecodstorceAcompectve

erooramming

plottormshere

coders

solheMATH-500AcolecticnAIME2024Amothor500

toughmothprobemssWE-bench

VerifiedDeepSeek-R1ondreosonlngAtest

ofGPOAModelsLogicalLevel

1Level

2Level

3OpenSource?Model

SizeDeepSeek-R1(API)76.10%90.48%77.14%61.70%Yes671BDeepSeck-R1(網頁)74.84%80.95%78.57%63.83%Yes671Bol-preview72.33%88.10%74.29%55.32%NoundisclosedDeepSeek-R1(非官方API-together)70.44%80.95%78.57%48.94%Yes671BQwQ-32B63.52%73.81%70.00%44.68%Yes32Bhunyuan-turbo-latest62.26%85.71%65.71%36.17%NoundisclosedGLM-Zero-preview61.64%71.43%71.43%38.30%NoundisclosedDoubao-pro-32k61.01%83.33%62.86%38.30%NoundisclosedYi-Lightning52.83%64.29%60.00%31.91%NoundisclosedDeepSeek-V2.5-121049.69%69.05%57.14%21.28%YesundisclosedErnie-4.0-Turbo-8k49.06%66.67%54.29%25.53%NoundisclosedDeepSeek-V349.06%66.67%52.86%27.66%Yes671BSenseChat-5-120247.17%64.29%50.00%27.66%NoundisclosedGPT-4-Turbo42.77%57.14%48.57%21.28%NoundisclosedSpark4.0Ultra39.62%57.14%44.29%17.02%NoundisclosedMoonshot-v1-32k38.99%45.24%48.57%19.15%NoundisclosedGPT-3.5-Turbo29.56%35.71%35.71%14.89%NoundisclosedDeepSeek-R1(網頁)平均思考時間Average

Times(s)AllCorrectWrongOverall147.26100.69285.83Level

183.5763.88167.25Level

2132.4991.98281.00Level3226.19158.37345.88DeepSeek:

技術創(chuàng)新——推理模型|R1TJUNLP實測DeepSeek-R1邏輯推理性能DeepSeek

R1是在探明方向

(OpenAl

o1引領和證實的方向)上進行0-1的創(chuàng)新突破,獨立探索出基于大規(guī)模強化學習的大語言模型推理技術路線,避開了過去一年

多(

自OpenAl

的Q*

在社交媒體討論)業(yè)內廣泛思索的通過在訓練中進行顯式搜索、

過程獎勵模型(即Search+PRM)

實現推理的“誤區(qū)”;貢

:o獨立探索出推理技術路線o將技術路線公開發(fā)布(解惑了業(yè)內的“不知”)o模型開源

(MITLicense)Dee

pSeek

R1打破了美國第一梯隊企業(yè)以閉源形成的技術護城河,進一步動搖

了美國的"AIDominance"DeepSeek:

技術創(chuàng)新——創(chuàng)新程度大語言模型發(fā)展路線圖DeepSeek

V2-V3/R1技術原理DeepSeek

效應未來展望報告目錄Overnight,Microsoft,NVIDIA,andAmazonallconnectedtoDeepSeek!

Andrew

Ng:Al

inChina

isonthe

rise.New

InteligenoeSouree·Jan3116:49

文/AMSFT+0.35%

NVDA+1.71%AMZN

+195%

口unusual_whales@unusualwhales·Jan28BREAKING:Thisisnotamemecoin.Thisis

Nvidia,SNVDA,themostvaluablecompanyin

the

word

before

today.t

isdown

17%.It

lost$560

billion

in

marketcaptodaysofar,thelargest

in

market

history.<AppsTop

Charts

All

AppsFree

Apps

Paid

AppsMicrosoft,NVIDIA,andAmazonembraceDeepSeekR1,alongwithUSACloud

Computingplatforms.Andrew

NgandtheformerCEOofIntelpraise

DeepSeek's

innovativecapabilities.開源vs

源創(chuàng)新&人才&Vision2

ChatGPTThe

official

app

by

OpenAI3

ThreadsConnect

andshare

ideasDeepSeek:

效應OnthelastdayofJanuary,theenthusiasmfrom

DeepSeekshows

nosigns

of

waning.算力價格戰(zhàn)認知誤區(qū)1

DeepSeek-AlAssistantIntelligent

AIAssistantOpenme17so.00s2.00s?.00S?.00s?.00$10.00$12.00

$14.00

$16.00

$18.00

S20.00

$22.00

$24.00

S26.00

S28.00

$30.00Price(USD

per

MTokens)產品:性價比永遠是王道

技術也是如此

數百億美元構建的前沿技術護城河一夜間被攻破DeepSeek

R1DeepSeek

V3Gemini1.5

Pro(Sep)

Qwen2.5

MaxLlama

3/370B

01-minio3-mini

Claude

3.5

Sonnet

(Oct)GPT-40(Nov'24)Mistral

Large

2(Nov

24)DeepSeek:

效應——算力價格戰(zhàn)AArtificial

Analysis015550-Llama

3.18B95-90-85-80-75-70-65-60-ArtificialAnalysisQualityIndexGPT-3

選擇閉源之后,大模型開源vs

閉源之爭、之戰(zhàn)一直存在DeepSeek

R1的開源發(fā)布,一舉趕超閉源大模型,是大模型開源史上的里程碑美國Al第一梯隊企業(yè)的前沿技術封閉被打破開源vs

閉源不僅涉及技術的公開性,也關乎Al安全治理Thiscoderepositoryandthemodelweightsare

licensed

underthe

MIT

License.DeepSeek-R1series

supportcommercialuse,allowforanymodificationsandderivativeworks,including,butnotlimitedto,distillationfor

trainingotherLLMs.Pleasenote

that:·DeepSeek-R1-Distill-Qwen-1.5B,DeepSeek-R1-Distll-Qwen-7B,DeepSeek-R1-Distill-Qwen-14BandDeepSeek-R1-Distil-Qwen-32BarederivedfromQwen-2.5series,whichareoriginallylicensedunderApache2.0

License,andnowfinetunedwith800ksamplescuratedwith

DeepSeek-R1.·DeepSeek-R1-Distll-Llama-8BisderivedfromLlama3.1-8B-Baseandis

originally

licensed

under

llama3.1

license.·DeepSeek-R1-Distll-Llama-70BisderivedfromLlama3.3-70B-Instructandis

originally

licensed

underlama3.3license.samaltmancO-HOST

·

4dagoyes,wearediscussing.ipersonallythinkwe

have

been

on

the

wrong

side

of

history

here

and

need

tofigureouta

different

open

source

strategy;not

everyone

at

openai

shares

this

view,and

it's

also

notourcurrenthighest

priority.白個

5

1

0

2Share

…DeepSeek:

效應——開源

vs

閉源lolzinventor

·5d

agoWould

you

consider

releasing

some

model

weights,and

publishing

some

research?曰

164Award

Share

…OpenAI

CEO

Sam

Altman

IVerified7.LicenseDeepSeek:

效應——認知誤區(qū)如果ChatGPT刷新了我們對Al的認知,那么DeepSeek在某種程度上顛覆了:o

美國人對中國Al水平的認知:長久以來,美國認為中國在Al科技創(chuàng)新上更多是跟隨者角色o

大模型研發(fā)成本的認知:大模型研發(fā)成本需要數千萬乃至上億美元14.中

的Sora

模型何時到來,可以看中國

的ChatGPT

何時到來。過去

一年,國內

大語言模型發(fā)展迅速,甚至出現了百模大戰(zhàn)

的熱鬧景象,但“熱鬧”較多的是同質化競

爭,較少的是底層基礎技術的原創(chuàng)性突破。15.

國內和國外大模型的差距不在于模型能

力高低,也不在于應用,而在于底層核心技

。而底層核心技術突破的最主要障礙不是

算力受限,也不是數據規(guī)模和質量受限,而

是缺乏足夠數量的具有技術遠見、敢于技術

冒險的大模型人才。16

.

大模型技術仍然在不斷發(fā)展和突破中,

未來格局存在很多變數。大模型頂尖人才技術型人才:銳意進行大模型底層技術創(chuàng)

新和冒險(第

類人才)戰(zhàn)略型人才

:具有AGI技術遠見和vision

(第二類人才)為鞏固并提升我國在這

領域的

國際競爭力,可以從以下布局和規(guī)劃

著手。第

,進

步提升以大模型為

代表的前沿人工智能在國家科技和產

業(yè)發(fā)展中的戰(zhàn)略地位,成立人工智能

,

導AI

,

統(tǒng)籌資源,制定AI

政策和計劃,推進

創(chuàng)

業(yè)

發(fā)

展。

二,重點規(guī)劃和建設前沿人工智能相

關的國家基礎設施,包括超級智算網

絡、通用及行業(yè)數據基礎設施、大規(guī)

模人工智能軟件基礎平臺、人工智能

安全與測評基礎設施、大模型開源平

臺等。第三,開展大模型關鍵理論和

技術攻關,啃硬骨頭,探新疆域,研

發(fā)

。

四,

創(chuàng)

發(fā)

態(tài),形成大模型技術創(chuàng)新氛圍,鼓勵

耐心資本敢投廣投大模型硬核技術創(chuàng)

業(yè)企業(yè)。第五,重視人工智能人才培

養(yǎng)和成長,培養(yǎng)

批具有長遠眼光

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論