版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
深度解讀DeepSeek:原理與效應天津大學自然語言處理實驗室The
Natural
Language
Processing
LaboratoryatTianjin
University伏羲傳語01大語言模型發(fā)展路線圖02
DeepSeekV2-V3/R1技術原理03
DeepSeek效應04
未來展望報告目錄生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1
:生成式求解問題——生成問題求解的過程和答案(推理)生成式AIAttention
Transformer
Scaling
Laws
|
GPT-3
RLHF
|ChatGPT
o1/R120142017202020222024ENIAC
圖靈測試
達特茅斯會議
ELIZA
AI寒冬I
專家系統(tǒng)
AI寒冬II
統(tǒng)計方法
NN再興起1945195019561966
1974-1980
1980-1987
1987-1990s
1990-2000s2006-生成式AI:
2014——2024AGI
…ASII
20242014Attention
Transformer
Scaling
Laws
|GPT-3201420172020生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1
:生成式求解問題——生成復雜問題的答案(推理)生成式AIENIAC
圖靈測試
達特茅斯會議
ELIZA
AI寒冬I
專家系統(tǒng)
AI寒冬II
統(tǒng)計方法
NN再興起1945195019561966
1974-1980
1980-1987
1987-1990s
1990-2000s2006-生成式AI:
2014——2024AGI
…ASIRLHF
|ChatGPT
o1/R120222024I
20242014生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1
:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention
Transformer
Scaling
Laws
|
GPT-3
RLHF
|ChatGPT
o1/R120142017202020222024ENIAC
圖靈測試
達特茅斯會議
ELIZA
AI寒冬I
專家系統(tǒng)
AI寒冬II
統(tǒng)計方法
NN再興起1945195019561966
1974-1980
1980-1987
1987-1990s
1990-2000s2006-生成式AI:
2014——2024AGI
…ASII
20242014生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1
:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention
Transformer
Scaling
Laws
|
GPT-3
RLHF
|ChatGPT
o1/R120142017202020222024ENIAC
圖靈測試
達特茅斯會議
ELIZA
AI寒冬I
專家系統(tǒng)
AI寒冬II
統(tǒng)計方法
NN再興起1945195019561966
1974-1980
1980-1987
1987-1990s
1990-2000s2006-生成式AI:
2014——2024AGI
…ASII
2024PPO2014RMrkstep3step2step1SFTRM>>>>>>生成式AI:使用生成式模型生成各類數(shù)據(jù)(語言、語音、圖片、視頻等)oAttention:數(shù)據(jù)依存關系建模oTransformer:數(shù)據(jù)生成的統(tǒng)一架構(gòu)oScalingLaws:數(shù)據(jù)學習、生成的擴展法則oRLHF:生成與人類價值對齊的數(shù)據(jù)oo1/R1
:生成式求解問題——生成復雜問題的答案(推理)生成式AIAttention
Transformer
Scaling
Laws
|
GPT-3
RLHF
|ChatGPT
o1/R120142017202020222024ENIAC
圖靈測試
達特茅斯會議
ELIZA
AI寒冬I
專家系統(tǒng)
AI寒冬II
統(tǒng)計方法
NN再興起1945195019561966
1974-1980
1980-1987
1987-1990s
1990-2000s2006-生成式AI:
2014——2024AGI
…ASII
20242014自然語言處理:
人類語言的智能化
處理與分析,使計算機具備聽、說、
讀、寫、譯等人所具備的語言能力語言模型:自然語言統(tǒng)計建模,簡
單說,就是預測句子中的下一個單
詞是什么自然語言處理與語言模型大語言模型:
2018——2024Zhaoetal.ASurvey
of
Large
LanguageModels.arXiv:2303.18223通用模型
行業(yè)模型行業(yè)模型Specialized
M
odel行業(yè)數(shù)據(jù)行業(yè)對齊數(shù)據(jù)通用模型General-purpose
M
odel數(shù)據(jù)處理和管理Data
Processing
and
M
anag
em
ent網(wǎng)頁數(shù)據(jù)分類論文處理流程質(zhì)量篩選對齊訓練數(shù)據(jù)Prom
pt
Responses
A
>
C
>
B
>
D評測數(shù)據(jù)知識能力專業(yè)領域百科語言檢測數(shù)據(jù)去重內(nèi)容過濾領域分類版本控制書籍
代碼硬件資源分配任務調(diào)度信息檢索大語言模型:技術棧算力管理Com
p
uting
M
anag
em
ent?open
compass
效chat
bot
Arena領域?qū)R訓練行業(yè)模型評測行業(yè)模型部署領域微調(diào)訓練應用層A
pp
lication本報告來源于三個皮匠報告站(),由用戶Id:107695下載,文檔Id:604088,下載日期:2025-02-10預訓練數(shù)據(jù)模型部署模型訓練對齊訓練預訓練Best
of
N
sam
plingSequence
Parallel代碼生成工具調(diào)用智能客服圖文創(chuàng)作自主規(guī)劃Pipeline
ParallelTensor
ParallelFlash
AttentionExpert
Parallel模型評測Data
Parallel動態(tài)批處理模型蒸餾模型量化模型剪枝性能監(jiān)控性能監(jiān)控價值對齊算子優(yōu)化容錯機制彈性擴展安全可信負載均衡軟件M
I
3
0
0M
I
3
5
0ZeROH
1
0
0RLH
F9
1
0
B9
1
0
AA10
0D
POSFTo
訓練范式?
預訓練——基座模型?
后訓練——對齊模型?
推理訓練——推理模型殺手锏:性能/成本曲線
|性價比o
關鍵?
模型架構(gòu)?
訓練算法?
擴展法則大語言模型:生命周期與范式后訓練數(shù)據(jù)處理應用部署預訓練
基座模型
自監(jiān)督學習
能力涌現(xiàn)
對齊模型
微調(diào)&強化
安全可信
紅隊測試
商業(yè)落地
模型壓縮
數(shù)據(jù)治理
數(shù)據(jù)要素
知識源頭擴展法則Sasha
Rush
and
Daniel
Ritter.
SpeculationsonTest-Time
Scaling.
2024成本較低大部分實驗室可做成本高昂(上千萬)少數(shù)企業(yè)/實驗室可做大語言模型:后訓練范式推理語言模型?Sasha
Rush
and
Daniel
Ritter.SpeculationsonTest-Time
Scaling.
2024過程獎勵模型PRMMCTS01大語言模型發(fā)展路線圖02
DeepSeekV2-V3/R1技術原理03
DeepSeek效應04
未來展望報告目錄天邊的兩多云(國內(nèi)外現(xiàn)狀)o模型架構(gòu):大部分企業(yè)采用已驗證架構(gòu)(試錯成本高昂)【不敢】o推理模型:大部分實驗室仍在苦苦猜測摸索Q*/o1(OpenAI保密)【不知】2024.11DeepSeek
R1-Lite2023.11DeepSeekV12025.01DeepSeek
R12024.5DeepSeekV22024.12DeepSeekV3DeepSeek:
2023——DeepSeekV2主要創(chuàng)新o
DeepSeekMoEo
MLADeepSeekMoEo
稀疏激活:計算不隨規(guī)模呈線性增長o
相比傳統(tǒng)MoE:細粒度專家(共享+路由)o
路由&通信改造:
Device-Limited
Routing
Auxiliary
Lossfor
Load
Balance
Token-Dropping
StrategyMLA:低秩壓縮,降低KVcache占用空間DeepSeek:技術創(chuàng)新——模型架構(gòu)
|V2V2規(guī)模:
236Btotal
parameters,
21B
activated
parameters,
128Kcontextwindow殺手锏:性能/成本曲線
|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)
|V2訓練開銷存儲開銷生成速度DeepSeekV3主要創(chuàng)新o
Infrastructureso
Multi-Token
Prediction
(MTP)Infrastructureso
減少流水線氣泡o
高效節(jié)點間All-to-All通信o
FP8訓練o
低精度存儲與通信MTP:一次預測多個topkenDeepSeek:技術創(chuàng)新——模型架構(gòu)
|V3V3規(guī)模:671Btotal
parameters,37B
activatedparameters,trainedon
14.8Ttokens殺手锏:性能/成本曲線
|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)
|V3大規(guī)模高性能加速器
(折舊)成本{大模型研發(fā)成本大模型研發(fā)人員成本大模型架構(gòu)技術探索成本大模型數(shù)據(jù)成本大模型最終訓練成本
大模型部署推理成本殺手锏:性能/成本曲線
|性價比DeepSeek:技術創(chuàng)新——模型架構(gòu)
|V3成本i.e.,3.7dayson
ourownclusterwith
2048
H800GPUs.
Consequently,
our
pre-training
stage
is
completed
in
lessDuringthe
pre-trainingstate,training
DeepSeek-V3oneachtrillion
tokens
requires
only
180K
H800
GPU
hours,thantwo
monthsandcosts
2664KGPU
hours.DeepSeekV2-V3及R1在模型架構(gòu)上選擇稀疏MoE模型而非稠密模型,并進行和積累了大量技術創(chuàng)新,包括MLA、
FP8訓練、
MoEAll-to-All通信瓶頸解決、
MTP等,這些技術并不是所有都是原始創(chuàng)新,但是能夠進行如此多大模型架構(gòu)底層創(chuàng)新的實驗室,在全世界可能也只有少數(shù)幾個;DeepSeek所有模型架構(gòu)上的創(chuàng)新均是圍繞“降本增效”:在基本不損害性能前提下,盡可能通過算法挖掘和提升硬件訓練和解碼效率美國采取芯片禁令(全球三級管控)策略維持自己的AI領導地位,
DeepSeek算法繞過了美國的算力護城河DeepSeek:技術創(chuàng)新——創(chuàng)新程度DeepSeek
R1主要創(chuàng)新o
DeepSeek-R1-Zero:大規(guī)模RL訓練,發(fā)現(xiàn)了RL訓練的Scaling
Laws
,
RL訓練涌現(xiàn)“aha”時刻o
推理模型訓練技術框架:4步法,有效解決了R1-Zero存在問題,將推理與對齊合為一體o
強化學習訓練框架:
GRPO,來自DeepSeekMath,降低了強化學習訓練成本o
推理模型蒸餾:將大模型推理能力蒸餾到小模型,優(yōu)于小模型直接進行推理訓練(規(guī)模效應)為什么MCTS+PRM是“誤區(qū)”oThebitter
lesson:scalabilityoOpenAI競爭策略DeepSeek:技術創(chuàng)新——推理模型
|
R13.通過prompt策略引導模型思考和給出答案,避免基座模型不能生成停止符使用標記<think></think><answer></answer>R1-Zero存在問題:poor
readability,
language
mixing2.
RLTraining
Scaling
Law:涌現(xiàn)reflection、aha自動涌現(xiàn)出搜索、反思、頓悟、糾錯與testing-timescaling
law一致,可從性能增長曲線和長
度增長曲線推出推理時scaling
law1.強化學習訓練規(guī)模大業(yè)內(nèi)通常訓練幾十RLsteps,
DeepSeek訓練幾千RLsteps
Tülu3最大發(fā)布模型只訓練了~50
RLstepsDeepSeek:技術創(chuàng)新——推理模型
|
R1-Zeroerconnects.ai/p/deepseek-r1-recipe-for-o1DeepSeek:技術創(chuàng)新——推理模型
|
R1
Recipeo
DeepSeek-R1不是唯一的推理模型框架,
2025年將出現(xiàn)更多新的框架o要復現(xiàn)上述框架,需要DeepSeek開源相關數(shù)據(jù)Step4.General
RLReasoning
RLwith
rule-based
rewardsRLHF
PreferenceTuningwith
safetyrewardsReasoning
Data
長CoT數(shù)據(jù)Step
3
Instruction
DataWriting,QA,trans,etc.(200K
samples)Step
3
Reasoning
Data
Math,Code,
Logic(600K
samples)Step2.
Reasoning-oriented
類似訓練R1-Zero直至訓練收斂Step
3.
Rejection
Sampling
?
reasoningdata(600K)
?general
instruction
dataGeneral-Purpose
ModelStep0.Generating
LongCoT
data
Few-shot
ICL
+人工后期refiningDeepSeek-R1-Zero
中間推理模型DeepSeek-R1DeepSeek-V3-baseSFTCheckpointRL-tuned
ModelStep
1.
Reasoning
SFT
Cold
StartSFT(200K)大規(guī)模強
化學習RL1.強化學習框架GRPO(DeepSeekMath)采用蒙特卡洛采用估算以取代Value模型,降低
計算和存儲開銷2.強化學習獎勵模型o采用easilyverifiable
rewards?
Accuracy
reward?
Format
reward?
Language-consistency
rewardDeepSeek:技術創(chuàng)新——推理模型
|
RLo避免過程獎勵模型:計算復雜,容易rewardhacking推理模型蒸餾到小模型oreasoning能力可以蒸餾到小模型o大模型蒸餾到小模型優(yōu)于小模型直接通過大規(guī)模RL訓練o再次驗證了模型規(guī)模在AGI發(fā)展中的重要性o推理者同樣需要規(guī)模支撐DeepSeek-R1-Distill-Qwen2.5
DeepSeek-R1-Distill-LlamaDeepSeek:技術創(chuàng)新——推理模型
|推理能力蒸餾Qwen2.5-Math-1.5B,Qwen2.5-Math-7B,Qwen2.5-
14B,
Qwen2.5-32B,
Llama-3.1-8B,andLlama-3.3-70B-InstructStep
3
Instruction
DataWriting,QA,trans,etc.(200K
samples)Step
3
Reasoning
Data
Math,Code,
Logic(600K
samples)SFT殺手锏:性能/成本曲線
|性價比DeepSeek:技術創(chuàng)新——推理模型
|
R1DeepSeek:技術創(chuàng)新——推理模型
|
R1TJUNLP實測DeepSeek-R1邏輯推理性能DeepSeek
R1是在探明方向(OpenAIo1引領和證實的方向)上進行0-1的創(chuàng)新突破
,獨立探索出基于大規(guī)模強化學習的大語言模型推理技術路線,避開了過去一年多(自OpenAI的Q*在社交媒體討論)業(yè)內(nèi)廣泛思索的通過在訓練中進行顯式搜索、過程獎勵模型(即Search+PRM)實現(xiàn)推理的“誤區(qū)”;貢獻:o獨立探索出推理技術路線o將技術路線公開發(fā)布(解惑了業(yè)內(nèi)的“不知”)o模型開源(MIT
License)DeepSeek
R1打破了美國第一梯隊企業(yè)以閉源形成的技術護城河
,進一步動搖
了美國的“AI
Dominance”DeepSeek:技術創(chuàng)新——創(chuàng)新程度01大語言模型發(fā)展路線圖02
DeepSeekV2-V3/R1技術原理03
DeepSeek效應04
未來展望報告目錄算力價格戰(zhàn)開源vs閉源認知誤區(qū)創(chuàng)新&人才&VisionDeepSeek:效應產(chǎn)品:性價比永遠是王道技術也是如此數(shù)百億美元構(gòu)建的前沿技術護城河一夜間被攻破DeepSeek:效應——算力價格戰(zhàn)GPT-3選擇閉源之后,大模型開源vs閉源之爭、之戰(zhàn)一直存在DeepSeek
R1的開源發(fā)布,一舉趕超閉源大模型,是大模型開源史上的里程碑美國AI第一梯隊企業(yè)的前沿技術封閉被打破開源vs閉源不僅涉及技術的公開性,也關乎AI安全治理DeepSeek:效應——開源vs閉源如果ChatGPT刷新了我們對AI的認知,那么DeepSeek在某種程度上顛覆了:o
美國人對中國AI水平的認知:長久以來,美國認為中國在AI科技創(chuàng)新上更多是跟隨者角色o
大模型研發(fā)成本的認知:大模型研發(fā)成本需要數(shù)千萬乃至上億美元DeepSeek:效應——認知誤區(qū)敏感,不需要設定過多的條條框框,只需要給定方向,最大限度激發(fā)創(chuàng)新潛能
o突破:通常要打破學科思維定勢,或者是本學科還沒有形成思維定勢的青年人才,或者與其他學科交叉o技術型人才可成長為戰(zhàn)略型人才,始終對新事物保持敏銳
,能長遠思考,具備遠大夢想
《關于Sora、國內(nèi)大模型及通用人工智能趨勢》
《認識大模型》(載于學習時報)技術型人才:銳意進行大模型底層技術創(chuàng)新和冒險(第一類人才)戰(zhàn)略型人才:具有AGI技術遠見和vision(第二類人才)DeepSeek:效應——創(chuàng)新&人才&Visiono第一類人才自我驅(qū)動性很強,技術
大
模型頂
尖
人
才DeepSeekV3和R1的創(chuàng)新,從技術上看,是在探明方向上的較大創(chuàng)新,相比別人同期做的1-100要更創(chuàng)新,筆者將其定義為探明技術方向上的0-1創(chuàng)新(獨立探索出技術路線)
,但不是顛覆了原有技
術框架或者開辟了新的方向。探明方向上的0-1創(chuàng)新,如果有足夠多的第一類人才,加上足夠多的算力和高超的人才管理,是可以實現(xiàn)的,
DeepSeek的成功正是得益于此;技術方向已經(jīng)被探明了的“追趕”相對容易,難的是在前面面向未知開路,即在未探明方向、未有概
念上進行0到1創(chuàng)新、或者進行概念形成和驗證,這方面的創(chuàng)新是要更多膽量、更多vision、更多不計成本投入才能做到的,同時需要第二類人才與第一類人才緊密合作,形成雙反饋;來實現(xiàn)AGI可能還需要3-5個在未探明方向上進行0-1的創(chuàng)新突破;我國如果要在2030年實現(xiàn)“人工
智能理論、技術與應用總體達到世界領先水平”,需要更多企業(yè)、高校、研究機構(gòu)開展探明方向和未
探明方向上的0-1創(chuàng)新;DeepSeek:效應——創(chuàng)新&人才&Vision01大語言模型發(fā)展路線圖02
DeepSeekV2-V3/R1技術原理03
DeepSeek效應04
未來展望報告目錄2014-2024重要突破:1.
Attention2.Transformer3.Scaling
Law4.
RLHF5.未來AGI/ASI可能還需要3-5個重大
breakthroughs
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年浙江同濟科技職業(yè)學院單招職業(yè)傾向性考試題庫參考答案詳解
- 2026年吉林工業(yè)職業(yè)技術學院單招職業(yè)傾向性測試題庫及完整答案詳解1套
- 2026年陽光學院單招職業(yè)傾向性考試題庫及答案詳解一套
- 2026年廣東水利電力職業(yè)技術學院單招職業(yè)傾向性測試題庫及參考答案詳解1套
- 2026年撫州幼兒師范高等專科學校單招職業(yè)技能考試題庫參考答案詳解
- 2026年吉林工業(yè)職業(yè)技術學院單招職業(yè)傾向性測試題庫及參考答案詳解一套
- 2026年濰坊工商職業(yè)學院單招職業(yè)傾向性考試題庫含答案詳解
- 2026年湖南國防工業(yè)職業(yè)技術學院單招職業(yè)適應性測試題庫參考答案詳解
- 2026年石河子工程職業(yè)技術學院單招職業(yè)適應性測試題庫及答案詳解1套
- 2026年襄陽職業(yè)技術學院單招職業(yè)技能考試題庫及參考答案詳解1套
- 2025年大學本科三年級(建筑環(huán)境與能源應用工程)暖通空調(diào)設計測試題及答案
- 6第六章 項目管理架構(gòu)
- 2025年全新中醫(yī)藥學概論試題與答案
- 2026云上(貴州)數(shù)據(jù)開發(fā)有限公司第一次社會招聘18人考試筆試備考題庫及答案解析
- 2026年湖南電子科技職業(yè)學院單招職業(yè)技能考試題庫及參考答案詳解
- 2025秋小學湘科版(新教材)科學三年級上冊知識點及期末測試卷及答案
- 裝修工賠償協(xié)議書
- 2026年稅務風險培訓
- 2025重慶兩江新區(qū)公安機關輔警招聘56人備考題庫含答案詳解(完整版)
- 負債整合委托協(xié)議書
- 2026年上海市各區(qū)高三語文一模試題匯編之積累運用(學生版)
評論
0/150
提交評論