2025深度解讀DeepSeek原理與效應_第1頁
2025深度解讀DeepSeek原理與效應_第2頁
2025深度解讀DeepSeek原理與效應_第3頁
2025深度解讀DeepSeek原理與效應_第4頁
2025深度解讀DeepSeek原理與效應_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

深度解讀DeepSeek:原理與效應天津大學自然語言處理實驗室The

Natural

Language

Processing

LaboratoryatTianjin

University伏羲傳語01大語言模型發(fā)展路線圖02

DeepSeekV2-V3/R1技術原理03

DeepSeek效應04

未來展望報告目錄生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1

:生成式求解問題——生成問題求解的過程和答案(推理)生成式AIAttention

Transformer

Scaling

Laws

|

GPT-3

RLHF

|ChatGPT

o1/R120142017202020222024ENIAC

圖靈測試

達特茅斯會議

ELIZA

AI寒冬I

專家系統(tǒng)

AI寒冬II

統(tǒng)計方法

NN再興起1945195019561966

1974-1980

1980-1987

1987-1990s

1990-2000s2006-生成式AI:

2014——2024AGI

…ASII

20242014Attention

Transformer

Scaling

Laws

|GPT-3201420172020生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1

:生成式求解問題——生成復雜問題的答案(推理)生成式AIENIAC

圖靈測試

達特茅斯會議

ELIZA

AI寒冬I

專家系統(tǒng)

AI寒冬II

統(tǒng)計方法

NN再興起1945195019561966

1974-1980

1980-1987

1987-1990s

1990-2000s2006-生成式AI:

2014——2024AGI

…ASIRLHF

|ChatGPT

o1/R120222024I

20242014生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1

:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention

Transformer

Scaling

Laws

|

GPT-3

RLHF

|ChatGPT

o1/R120142017202020222024ENIAC

圖靈測試

達特茅斯會議

ELIZA

AI寒冬I

專家系統(tǒng)

AI寒冬II

統(tǒng)計方法

NN再興起1945195019561966

1974-1980

1980-1987

1987-1990s

1990-2000s2006-生成式AI:

2014——2024AGI

…ASII

20242014生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1

:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention

Transformer

Scaling

Laws

|

GPT-3

RLHF

|ChatGPT

o1/R120142017202020222024ENIAC

圖靈測試

達特茅斯會議

ELIZA

AI寒冬I

專家系統(tǒng)

AI寒冬II

統(tǒng)計方法

NN再興起1945195019561966

1974-1980

1980-1987

1987-1990s

1990-2000s2006-生成式AI:

2014——2024AGI

…ASII

2024PPO2014RMrkstep3step2step1SFTRM>>>>>>生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1

:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention

Transformer

Scaling

Laws

|

GPT-3

RLHF

|ChatGPT

o1/R120142017202020222024ENIAC

圖靈測試

達特茅斯會議

ELIZA

AI寒冬I

專家系統(tǒng)

AI寒冬II

統(tǒng)計方法

NN再興起1945195019561966

1974-1980

1980-1987

1987-1990s

1990-2000s2006-生成式AI:

2014——2024AGI

…ASII

20242014自然語言處理:

人類語言的智能化

處理與分析,使計算機具備聽、說、

讀、寫、譯等人所具備的語言能力語言模型:自然語言統(tǒng)計建模,簡

單說,就是預測句子中的下一個單

詞是什么自然語言處理與語言模型大語言模型:

2018——2024Zhaoetal.ASurvey

of

Large

LanguageModels.arXiv:2303.18223通用模型

行業(yè)模型行業(yè)模型Specialized

M

odel行業(yè)數(shù)據(jù)行業(yè)對齊數(shù)據(jù)通用模型General-purpose

M

odel數(shù)據(jù)處理和管理Data

Processing

and

M

anag

em

ent網(wǎng)頁數(shù)據(jù)分類論文處理流程質(zhì)量篩選對齊訓練數(shù)據(jù)Prom

pt

Responses

A

>

C

>

B

>

D評測數(shù)據(jù)知識能力專業(yè)領域百科語言檢測數(shù)據(jù)去重內(nèi)容過濾領域分類版本控制書籍

代碼硬件資源分配任務調(diào)度信息檢索大語言模型:技術棧算力管理Com

p

uting

M

anag

em

ent?open

compass

效chat

bot

Arena領域?qū)R訓練行業(yè)模型評測行業(yè)模型部署領域微調(diào)訓練應用層A

pp

lication本報告來源于三個皮匠報告站(),由用戶Id:107695下載,文檔Id:604088,下載日期:2025-02-10預訓練數(shù)據(jù)模型部署模型訓練對齊訓練預訓練Best

of

N

sam

plingSequence

Parallel代碼生成工具調(diào)用智能客服圖文創(chuàng)作自主規(guī)劃Pipeline

ParallelTensor

ParallelFlash

AttentionExpert

Parallel模型評測Data

Parallel動態(tài)批處理模型蒸餾模型量化模型剪枝性能監(jiān)控性能監(jiān)控價值對齊算子優(yōu)化容錯機制彈性擴展安全可信負載均衡軟件M

I

3

0

0M

I

3

5

0ZeROH

1

0

0RLH

F9

1

0

B9

1

0

AA10

0D

POSFTo

訓練范式?

預訓練——基座模型?

后訓練——對齊模型?

推理訓練——推理模型殺手锏:性能/成本曲線

|性價比o

關鍵?

模型架構(gòu)?

訓練算法?

擴展法則大語言模型:生命周期與范式后訓練數(shù)據(jù)處理應用部署預訓練

基座模型

自監(jiān)督學習

能力涌現(xiàn)

對齊模型

微調(diào)&強化

安全可信

紅隊測試

商業(yè)落地

模型壓縮

數(shù)據(jù)治理

數(shù)據(jù)要素

知識源頭擴展法則Sasha

Rush

and

Daniel

Ritter.

SpeculationsonTest-Time

Scaling.

2024成本較低大部分實驗室可做成本高昂(上千萬)少數(shù)企業(yè)/實驗室可做大語言模型:后訓練范式推理語言模型?Sasha

Rush

and

Daniel

Ritter.SpeculationsonTest-Time

Scaling.

2024過程獎勵模型PRMMCTS01大語言模型發(fā)展路線圖02

DeepSeekV2-V3/R1技術原理03

DeepSeek效應04

未來展望報告目錄天邊的兩多云(國內(nèi)外現(xiàn)狀)o模型架構(gòu):大部分企業(yè)采用已驗證架構(gòu)(試錯成本高昂)【不敢】o推理模型:大部分實驗室仍在苦苦猜測摸索Q*/o1(OpenAI保密)【不知】2024.11DeepSeek

R1-Lite2023.11DeepSeekV12025.01DeepSeek

R12024.5DeepSeekV22024.12DeepSeekV3DeepSeek:

2023——DeepSeekV2主要創(chuàng)新o

DeepSeekMoEo

MLADeepSeekMoEo

稀疏激活:計算不隨規(guī)模呈線性增長o

相比傳統(tǒng)MoE:細粒度專家(共享+路由)o

路由&通信改造:

Device-Limited

Routing

Auxiliary

Lossfor

Load

Balance

Token-Dropping

StrategyMLA:低秩壓縮,降低KVcache占用空間DeepSeek:技術創(chuàng)新——模型架構(gòu)

|V2V2規(guī)模:

236Btotal

parameters,

21B

activated

parameters,

128Kcontextwindow殺手锏:性能/成本曲線

|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)

|V2訓練開銷存儲開銷生成速度DeepSeekV3主要創(chuàng)新o

Infrastructureso

Multi-Token

Prediction

(MTP)Infrastructureso

減少流水線氣泡o

高效節(jié)點間All-to-All通信o

FP8訓練o

低精度存儲與通信MTP:一次預測多個topkenDeepSeek:技術創(chuàng)新——模型架構(gòu)

|V3V3規(guī)模:671Btotal

parameters,37B

activatedparameters,trainedon

14.8Ttokens殺手锏:性能/成本曲線

|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)

|V3大規(guī)模高性能加速器

(折舊)成本{大模型研發(fā)成本大模型研發(fā)人員成本大模型架構(gòu)技術探索成本大模型數(shù)據(jù)成本大模型最終訓練成本

大模型部署推理成本殺手锏:性能/成本曲線

|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)

|V3成本i.e.,3.7dayson

ourownclusterwith

2048

H800GPUs.

Consequently,

our

pre-training

stage

is

completed

in

lessDuringthe

pre-trainingstate,training

DeepSeek-V3oneachtrillion

tokens

requires

only

180K

H800

GPU

hours,thantwo

monthsandcosts

2664KGPU

hours.DeepSeekV2-V3及R1在模型架構(gòu)上選擇稀疏MoE模型而非稠密模型,并進行和積累了大量技術創(chuàng)新,包括MLA、

FP8訓練、

MoEAll-to-All通信瓶頸解決、

MTP等,這些技術并不是所有都是原始創(chuàng)新,但是能夠進行如此多大模型架構(gòu)底層創(chuàng)新的實驗室,在全世界可能也只有少數(shù)幾個;DeepSeek所有模型架構(gòu)上的創(chuàng)新均是圍繞“降本增效”:在基本不損害性能前提下,盡可能通過算法挖掘和提升硬件訓練和解碼效率美國采取芯片禁令(全球三級管控)策略維持自己的AI領導地位,

DeepSeek算法繞過了美國的算力護城河DeepSeek:技術創(chuàng)新——創(chuàng)新程度DeepSeek

R1主要創(chuàng)新o

DeepSeek-R1-Zero:大規(guī)模RL訓練,發(fā)現(xiàn)了RL訓練的Scaling

Laws

,

RL訓練涌現(xiàn)“aha”時刻o

推理模型訓練技術框架:4步法,有效解決了R1-Zero存在問題,將推理與對齊合為一體o

強化學習訓練框架:

GRPO,來自DeepSeekMath,降低了強化學習訓練成本o

推理模型蒸餾:將大模型推理能力蒸餾到小模型,優(yōu)于小模型直接進行推理訓練(規(guī)模效應)為什么MCTS+PRM是“誤區(qū)”oThebitter

lesson:scalabilityoOpenAI競爭策略DeepSeek:技術創(chuàng)新——推理模型

|

R13.通過prompt策略引導模型思考和給出答案,避免基座模型不能生成停止符使用標記<think></think><answer></answer>R1-Zero存在問題:poor

readability,

language

mixing2.

RLTraining

Scaling

Law:涌現(xiàn)reflection、aha自動涌現(xiàn)出搜索、反思、頓悟、糾錯與testing-timescaling

law一致,可從性能增長曲線和長

度增長曲線推出推理時scaling

law1.強化學習訓練規(guī)模大業(yè)內(nèi)通常訓練幾十RLsteps,

DeepSeek訓練幾千RLsteps

Tülu3最大發(fā)布模型只訓練了~50

RLstepsDeepSeek:技術創(chuàng)新——推理模型

|

R1-Zeroerconnects.ai/p/deepseek-r1-recipe-for-o1DeepSeek:技術創(chuàng)新——推理模型

|

R1

Recipeo

DeepSeek-R1不是唯一的推理模型框架,

2025年將出現(xiàn)更多新的框架o要復現(xiàn)上述框架,需要DeepSeek開源相關數(shù)據(jù)Step4.General

RLReasoning

RLwith

rule-based

rewardsRLHF

PreferenceTuningwith

safetyrewardsReasoning

Data

長CoT數(shù)據(jù)Step

3

Instruction

DataWriting,QA,trans,etc.(200K

samples)Step

3

Reasoning

Data

Math,Code,

Logic(600K

samples)Step2.

Reasoning-oriented

類似訓練R1-Zero直至訓練收斂Step

3.

Rejection

Sampling

?

reasoningdata(600K)

?general

instruction

dataGeneral-Purpose

ModelStep0.Generating

LongCoT

data

Few-shot

ICL

+人工后期refiningDeepSeek-R1-Zero

中間推理模型DeepSeek-R1DeepSeek-V3-baseSFTCheckpointRL-tuned

ModelStep

1.

Reasoning

SFT

Cold

StartSFT(200K)大規(guī)模強

化學習RL1.強化學習框架GRPO(DeepSeekMath)采用蒙特卡洛采用估算以取代Value模型,降低

計算和存儲開銷2.強化學習獎勵模型o采用easilyverifiable

rewards?

Accuracy

reward?

Format

reward?

Language-consistency

rewardDeepSeek:技術創(chuàng)新——推理模型

|

RLo避免過程獎勵模型:計算復雜,容易rewardhacking推理模型蒸餾到小模型oreasoning能力可以蒸餾到小模型o大模型蒸餾到小模型優(yōu)于小模型直接通過大規(guī)模RL訓練o再次驗證了模型規(guī)模在AGI發(fā)展中的重要性o推理者同樣需要規(guī)模支撐DeepSeek-R1-Distill-Qwen2.5

DeepSeek-R1-Distill-LlamaDeepSeek:技術創(chuàng)新——推理模型

|推理能力蒸餾Qwen2.5-Math-1.5B,Qwen2.5-Math-7B,Qwen2.5-

14B,

Qwen2.5-32B,

Llama-3.1-8B,andLlama-3.3-70B-InstructStep

3

Instruction

DataWriting,QA,trans,etc.(200K

samples)Step

3

Reasoning

Data

Math,Code,

Logic(600K

samples)SFT殺手锏:性能/成本曲線

|性價比DeepSeek:技術創(chuàng)新——推理模型

|

R1DeepSeek:技術創(chuàng)新——推理模型

|

R1TJUNLP實測DeepSeek-R1邏輯推理性能DeepSeek

R1是在探明方向(OpenAIo1引領和證實的方向)上進行0-1的創(chuàng)新突破

,獨立探索出基于大規(guī)模強化學習的大語言模型推理技術路線,避開了過去一年多(自OpenAI的Q*在社交媒體討論)業(yè)內(nèi)廣泛思索的通過在訓練中進行顯式搜索、過程獎勵模型(即Search+PRM)實現(xiàn)推理的“誤區(qū)”;貢獻:o獨立探索出推理技術路線o將技術路線公開發(fā)布(解惑了業(yè)內(nèi)的“不知”)o模型開源(MIT

License)DeepSeek

R1打破了美國第一梯隊企業(yè)以閉源形成的技術護城河

,進一步動搖

了美國的“AI

Dominance”DeepSeek:技術創(chuàng)新——創(chuàng)新程度01大語言模型發(fā)展路線圖02

DeepSeekV2-V3/R1技術原理03

DeepSeek效應04

未來展望報告目錄算力價格戰(zhàn)開源vs閉源認知誤區(qū)創(chuàng)新&人才&VisionDeepSeek:效應產(chǎn)品:性價比永遠是王道技術也是如此數(shù)百億美元構(gòu)建的前沿技術護城河一夜間被攻破DeepSeek:效應——算力價格戰(zhàn)GPT-3選擇閉源之后,大模型開源vs閉源之爭、之戰(zhàn)一直存在DeepSeek

R1的開源發(fā)布,一舉趕超閉源大模型,是大模型開源史上的里程碑美國AI第一梯隊企業(yè)的前沿技術封閉被打破開源vs閉源不僅涉及技術的公開性,也關乎AI安全治理DeepSeek:效應——開源vs閉源如果ChatGPT刷新了我們對AI的認知,那么DeepSeek在某種程度上顛覆了:o

美國人對中國AI水平的認知:長久以來,美國認為中國在AI科技創(chuàng)新上更多是跟隨者角色o

大模型研發(fā)成本的認知:大模型研發(fā)成本需要數(shù)千萬乃至上億美元DeepSeek:效應——認知誤區(qū)敏感,不需要設定過多的條條框框,只需要給定方向,最大限度激發(fā)創(chuàng)新潛能

o突破:通常要打破學科思維定勢,或者是本學科還沒有形成思維定勢的青年人才,或者與其他學科交叉o技術型人才可成長為戰(zhàn)略型人才,始終對新事物保持敏銳

,能長遠思考,具備遠大夢想

《關于Sora、國內(nèi)大模型及通用人工智能趨勢》

《認識大模型》(載于學習時報)技術型人才:銳意進行大模型底層技術創(chuàng)新和冒險(第一類人才)戰(zhàn)略型人才:具有AGI技術遠見和vision(第二類人才)DeepSeek:效應——創(chuàng)新&人才&Visiono第一類人才自我驅(qū)動性很強,技術

模型頂

才DeepSeekV3和R1的創(chuàng)新,從技術上看,是在探明方向上的較大創(chuàng)新,相比別人同期做的1-100要更創(chuàng)新,筆者將其定義為探明技術方向上的0-1創(chuàng)新(獨立探索出技術路線)

,但不是顛覆了原有技

術框架或者開辟了新的方向。探明方向上的0-1創(chuàng)新,如果有足夠多的第一類人才,加上足夠多的算力和高超的人才管理,是可以實現(xiàn)的,

DeepSeek的成功正是得益于此;技術方向已經(jīng)被探明了的“追趕”相對容易,難的是在前面面向未知開路,即在未探明方向、未有概

念上進行0到1創(chuàng)新、或者進行概念形成和驗證,這方面的創(chuàng)新是要更多膽量、更多vision、更多不計成本投入才能做到的,同時需要第二類人才與第一類人才緊密合作,形成雙反饋;來實現(xiàn)AGI可能還需要3-5個在未探明方向上進行0-1的創(chuàng)新突破;我國如果要在2030年實現(xiàn)“人工

智能理論、技術與應用總體達到世界領先水平”,需要更多企業(yè)、高校、研究機構(gòu)開展探明方向和未

探明方向上的0-1創(chuàng)新;DeepSeek:效應——創(chuàng)新&人才&Vision01大語言模型發(fā)展路線圖02

DeepSeekV2-V3/R1技術原理03

DeepSeek效應04

未來展望報告目錄2014-2024重要突破:1.

Attention2.Transformer3.Scaling

Law4.

RLHF5.未來AGI/ASI可能還需要3-5個重大

breakthroughs

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論