DeepSeek技術(shù)溯源及前沿探索3mb_第1頁
DeepSeek技術(shù)溯源及前沿探索3mb_第2頁
DeepSeek技術(shù)溯源及前沿探索3mb_第3頁
DeepSeek技術(shù)溯源及前沿探索3mb_第4頁
DeepSeek技術(shù)溯源及前沿探索3mb_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1浙江大學(xué)DS系列專題浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院人某省市部共建協(xié)同創(chuàng)新中心(浙江大學(xué))DeepSeek技術(shù)溯源及前沿探索Outline一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體2Language

Modeling對(duì)于任意的詞序列,計(jì)算出這個(gè)序列是一句話的概率我們每天都和語言模型打交道:Isawa

catIsawacatonthe

chairIsawacatrunningafter

adogIsawacatinmy

dreamIsawa

cacar語言模型:終極目標(biāo)3Sheismymom1 0 0 00 1 0 00 0 1 00 0 0 1One-hot

Encoding只有一個(gè)1,其余均為0One-hot

Encoding有什么缺點(diǎn)嗎?4編碼:讓計(jì)算機(jī)理解人類語言語言模型:基本任務(wù)游泳飛翔鯨魚0.990.990.050.1…海豚0.990.050.930.09…鸚鵡0.020.010.990.98…企鵝0.980.020.940.3…Word

Embedding用一個(gè)低維的詞向量表示一個(gè)詞能使距離相近的向量對(duì)應(yīng)的物體有相近的含義20維的向量用one-hot和word

embedding的方法分別可以表示多少單詞?編碼:讓計(jì)算機(jī)理解人類語言5Word

Embedding結(jié)合句子語境我們可以猜測(cè):tezgüino是一種由玉米制作的酒精類飲料(1)

(2) (3) (4)Abottleoftezgüinoisonthe

table.Everyonelikes

tezgüino.Tezgüinomakesyoudrunk.Wemake

tezgüinooutofcorn.A

bottle

of

isonthe

table.Everyone

likes

.

makesyou

drunk.We

make

outof

corn.1 1 1 11 0 0 00 1 0 11 1 1 0tezgüinomotoroiltortillaswine兩行內(nèi)容十分相近兩個(gè)單詞含義相近編碼:讓計(jì)算機(jī)理解人類語言6基于統(tǒng)計(jì)的N-gram

1970

after)語言模型:技術(shù)演化Before:P(小)

·

P

(貓|小)

·

P

(抓|小貓)

·

P

(老|小貓抓)

·

P

(鼠|小貓抓老)gram:P(小)

·

P

(貓|小)

·

P

(抓|貓)

·

P

(老|抓)

·

P(鼠|老)gram:P(小)

·

P

(貓|小)

·

P

(抓|小貓)

·

P

(老|貓抓)

·

P(鼠|抓老)基于神經(jīng)網(wǎng)絡(luò)的LSTM/GRU

(2000

after)Transformer(2017

after)7常見的深度學(xué)習(xí)模型框架,可用于解決

Seq2Seq

問題可以根據(jù)任務(wù)選擇不同的編碼器和解碼器(LSTM/GRU/Transformer)EncoderDecoderIampretty

smart!隱空間Representation我很聰明

!8Encoder-DecoderOutline一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體910Transformer:理論架構(gòu)創(chuàng)新自注意力機(jī)制:支持并行計(jì)算/全局上下文的理解能力多頭注意力:從多個(gè)角度捕捉復(fù)雜的語義關(guān)系前饋網(wǎng)絡(luò)/位置編碼/層歸一化:解決了傳統(tǒng)模型的諸多局限性大型語言模型簡(jiǎn)史TransformerGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o3DecoderAttentionIsAllYou

NeedEncoderNIPS

2017,引用量15萬+引入全新注意力機(jī)制,改變了深度學(xué)習(xí)模型的處理方式11Transformer

:

大模型的技術(shù)基座Transformer

:(自)注意力機(jī)制在理解語言任務(wù)時(shí),Attention

機(jī)制本質(zhì)上是捕捉單詞間的關(guān)系She

is

eating

a

green

apple.中國(guó)

南北

飲食文化

存在差異

,豆花有

南甜北咸

之分。南方人

一般

喜歡

甜豆花123 The

animal

didn't

cross

the

street

because

it

was

too

tired/wide1213Transformer

:(自)注意力機(jī)制ImageSketchGradient在理解圖像任務(wù)時(shí),Attention機(jī)制本質(zhì)上是一種圖像特征抽取14Transformer

:

訓(xùn)練機(jī)制場(chǎng)景:你在圖書館想找一本關(guān)于“機(jī)器學(xué)習(xí)基礎(chǔ)”的書Query:描述要找的書(精準(zhǔn)的需求描述)Key:書的索引編號(hào)(高效的書籍定位)Value:內(nèi)容的抽?。?/p>

由目標(biāo)任務(wù)驅(qū)動(dòng))大型語言模型簡(jiǎn)史預(yù)訓(xùn)練時(shí)代:大力出奇跡(“暴力美學(xué)”)BERT:BidirectionalEncoderRepresentations

TransformersGPT: GenerativePertained

Transformer自監(jiān)督算法:MLM/NTP/MAE解決海量數(shù)據(jù)標(biāo)注問題TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o315BERTOct2018RepresentatioGPTJun2018Generation16TheLLMEra–ParadigmShiftinMachineLearningBERT–

2018DistilBERT

–2019RoBERTa–2019ALBERT–

2019ELECTRA–2020ReDperBeEseRnTtat–io20n20…GPT–

2018GPT-2

–2019GPT-3

–2020GPT-Neo–

2021GPT-3.5(ChatGPT)

–2022LLaMA–

2023GPT-4–

2023…Generation17T5–

2019BART–

2019mT5–

2021…TheLLMEra–ParadigmShiftinMachineLearning自監(jiān)督學(xué)習(xí)(語言)Masked

Langauge

Modeling(MLM)

模型會(huì)不斷地在句子中‘挖去’一個(gè)單詞,根據(jù)剩下單詞的上下文來填空,即預(yù)測(cè)最合適的‘填空詞’出現(xiàn)的概率,這一過程為‘自監(jiān)督學(xué)習(xí)’原話:

一輛 列車

緩慢 行駛 在 崎嶇

的 山路上移除單詞:

一輛 列車

行駛 在 崎嶇

的 山路上預(yù)測(cè)填空:

一輛 列車

緩慢 行駛

崎嶇

山路上1819自監(jiān)督學(xué)習(xí)(圖像)Masked

AutoEncoders(MAE)通過隨機(jī)遮蓋部分輸入數(shù)據(jù)(如圖像)并重建缺失內(nèi)容,讓模型從上下文中學(xué)到圖像的深層特征,常用于計(jì)算機(jī)視覺任務(wù)。遮蓋圖像重建圖像20數(shù)據(jù)是燃料、模型是引擎、算力是加速器數(shù)據(jù):訓(xùn)練中使用了45TB數(shù)據(jù)、近

1

萬億個(gè)單詞(約1351萬本牛津詞典所包含單詞數(shù)量)以及數(shù)十億行源代碼。模型:包含了1750億參數(shù),將這些參數(shù)全部打印在A4紙,一疊加后,疊加高度將超過上海中心大廈632米高度。算力:

ChatGPT的訓(xùn)練門檻是1萬達(dá)V100芯片、約10億人民幣。大數(shù)據(jù)、大模型、大算力下以“共生則關(guān)聯(lián)”原則實(shí)現(xiàn)了統(tǒng)計(jì)關(guān)聯(lián)關(guān)系的挖掘。MCP神經(jīng)元PerceptronDNN神經(jīng)網(wǎng)絡(luò)早期前向神經(jīng)網(wǎng)絡(luò)seq2seq序列學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)RNNLSTMWord2vec詞向量單詞之間關(guān)聯(lián)關(guān)系TransformerSelf-supervisedPromptFine-tune語言大模型LLM人類反饋強(qiáng)化學(xué)習(xí)(InstructGPT)CodeX(CoT,120億參數(shù))引入Self-attentionChatGPT訓(xùn)練

transformer

的通用之力21大模型Large

Model大語言模型

(LLM)LargeLanguage

ModelBERT系列GPT系列3.5/4GPT-4oDeepseek-v3科學(xué)計(jì)算模型Science

Model多模態(tài)大模型(LMM)LargeMultimodal

ModelDDPMSAM交互式DemoSoraDALLE·3

inChatGPTAlpha系列AlphaStar魔獸爭(zhēng)霸氣象大模型藥物分子預(yù)測(cè)PanguLMMidjourneyGoogle

Bard文心一言AlphaGo圍棋機(jī)理技術(shù)產(chǎn)品AlphaFold蛋白質(zhì)預(yù)測(cè)GPT-o1/o3Deepseek-R1大模型脈絡(luò)22群雄(中美)爭(zhēng)霸O(shè)penAI最新15頁報(bào)告: DeepSeek縮小中美AI差距ASurveyonLargeLanguageModelswithsomeInsightsontheirCapabilitiesandLimitations23閉源

vs

開源國(guó)際企業(yè)某著名企業(yè)投資OpenAI的GPT-4.0系列閉源自研開源小模型Phi-3

Mini開源亞自研Titan系列閉源投資Anthropic的Claude

3.5系列閉源谷歌Gemini系列閉源Gemma系列開源METALlama3系列開源Mistral

AIMistral-Large閉源Mistral-Medium開源中某著名企業(yè)業(yè)阿里通義千問2.5系列基礎(chǔ)模型、行業(yè)模型開源Qwen

0.5b-110b系列開源模型開源華為盤古系列閉源騰訊混元基礎(chǔ)模型、行業(yè)模型閉源混元開源模型開源百度文心一言4.0模型閉源DeepSeek以一己之力改變了開源和閉源的力量對(duì)比:從6~12個(gè)月的代差縮短到1~3個(gè)月2412層,每層12個(gè)注意頭GPT-2做了以下改進(jìn):增加到

4

8

層,

使用1600維向量進(jìn)行詞嵌入;將層歸一化某著名企業(yè)到每個(gè)子塊的輸入,并在最終的自注意塊后增加一層歸一化;修改初始化的殘差

層權(quán)重,

縮放為原來的1/?,其中,?是殘差層的數(shù)量;特征向量維數(shù)從768擴(kuò)展到1600,詞表擴(kuò)大到50257。GPT-3做了以下優(yōu)化:增加到96層,每層有96個(gè)注意頭;單詞嵌入大小從1600增加到12888;上下文窗口大小從GPT-2

的1024增加到2048,并采用交替密度和局部帶狀稀疏注意模式。ChatGPT基于GPT-3.5:1.

ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練;2.

通過近端策略優(yōu)化算法進(jìn)行微調(diào),為信任域策略優(yōu)化算法帶來成本效益。模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6月1.17億約5GBGPT-22019年2月15億40GGPT-32020年5月1750億45TBChatGPT2022年11月千億級(jí)?百T級(jí)?摩爾定律(大模型時(shí)代)DeepSeek通過大幅提升模型訓(xùn)練、推理效率,緩解(???)了算力需求

?Outline一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體25大型語言模型簡(jiǎn)史GPT-3:語言模型的轉(zhuǎn)折點(diǎn)大語言模型:1750億參數(shù)涌現(xiàn)能力

:隨著模型規(guī)模增大而出現(xiàn)的新能力生成/創(chuàng)造:Artificial

Intelligence

(人工

=>

藝術(shù))TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o326大型語言模型簡(jiǎn)史ChatGPT:

人工智能的IPHONE時(shí)刻TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o327OpenAI技術(shù)白皮書GPT-3

SeriesGPT-3.5

SeriesTrainingon

codeLarge-scalelanguagemodel

pretrainingGPT-3

InitialLM+codetrainingtheninstruction

tuningCode-davinci-002RLHFInstruction

tuningCodexInitialCode-davinci-001Code-cushman-001InstructGPTInitialInstruct-davinci-betaText-davinci-001Text-davinci-002RLHFChatGPTText-davinci-003Davinci28Large-scalelanguagemodelpretrainingTrainingon

codeGPT-3Initial Instruction

tuningGPT-3SeriesCodexInitialDavinciInstructGPTInitialCode-davinci-001 Instruct-davinci-betaCode-cushman-001 Text-davinci-001LM+codetrainingtheninstruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF Text-davinci-002 RLHFText-davinci-003 ChatGPTGPT-3

Initial初代

GPT-3

展示了三個(gè)重要能力(來自于大規(guī)模的預(yù)訓(xùn)練)語言生成:來自語言建模的訓(xùn)練目標(biāo)(說人話)世界知識(shí):來自

3000

億單詞的訓(xùn)練語料庫(百曉生)上下文學(xué)習(xí):上下文學(xué)習(xí)可以泛化,仍然難以溯源(觸類旁通)初代

GPT-3

表面看起來很弱,但有非常強(qiáng)的潛力,展示出極為強(qiáng)大的“涌現(xiàn)”能力29GPT3InitialLarge-scalelanguagemodelpretrainingTrainingon

codeGPT-3Initial Instruction

tuningGPT-3SeriesCodexInitialDavinciInstructGPTInitialCode-davinci-001 Instruct-davinci-betaCode-cushman-001 Text-davinci-001LM+codetrainingtheninstruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF Text-davinci-002 RLHFText-davinci-003 ChatGPTCodex

InitialInstructGPT

Initial2020

-

2021

年,OpenAI

投入了大量的精力通過代碼訓(xùn)練和指令微調(diào)來增強(qiáng)

GPT-3。使用思維鏈進(jìn)行復(fù)雜推理的能力很可能是代碼訓(xùn)練的一個(gè)神奇副產(chǎn)物使用指令微調(diào)將

GPT-3.5

的分化到不同的技能樹(數(shù)學(xué)家/程序員/…)30Codex+

InstructLarge-scalelanguagemodelpretrainingTrainingon

codeGPT-3Initial Instruction

tuningGPT-3SeriesCodexInitialDavinciInstructGPTInitialCode-davinci-001 Instruct-davinci-betaCode-cushman-001 Text-davinci-001LM+codetrainingtheninstruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF Text-davinci-002 RLHFText-davinci-003 ChatGPTCode-davinci-002指令微調(diào)不會(huì)為模型注入新的能力(解鎖能力)指令微調(diào)犧牲性能換取與人類對(duì)齊(“對(duì)齊稅”)31GPT3.5Large-scalelanguagemodelpretrainingTrainingon

codeGPT-3Initial Instruction

tuningGPT-3SeriesCodexInitialDavinciInstructGPTInitialCode-davinci-001 Instruct-davinci-betaCode-cushman-001 Text-davinci-001LM+codetrainingtheninstruction

tuningCode-davinci-002GPT-3.5

SeriesRLHF Text-davinci-002 RLHFText-davinci-003 ChatGPTRLHFRLHF2022.11RLHF

(基于人類反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))觸發(fā)的能力:翔實(shí)的回應(yīng)公正的回應(yīng)拒絕不當(dāng)問題拒絕其知識(shí)范圍之外的問題32ChatGPT(技術(shù)到產(chǎn)品)大型語言模型簡(jiǎn)史多模態(tài)模型:連接文本、圖像及其他開源:Meta的LLaMA系列(普惠學(xué)術(shù)領(lǐng)域)GPT-4v:

視覺遇見語言(跨模態(tài))GPT-4o:

全模態(tài)前沿(交互能力)TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o333GPT-4可提供多模態(tài)能力zero-shot及few-shot的能力GPT-4邏輯推理能力的飛躍GPT-4的安全性已經(jīng)大幅提升更強(qiáng)的專屬能力(如編程)處理其它語言的能力處理更長(zhǎng)序列的能力GPT-4v(聽、說 看)2023.0634多模態(tài)輸入輸出(交互能力)響應(yīng)速度(接近人類響應(yīng))數(shù)學(xué)推理、編程等能力提升非英文文本性能大幅提升視覺和音頻理解能力成本優(yōu)勢(shì)GPT-4o生)352024.06推理能力大幅提升:數(shù)學(xué)和編程能力爆表更像人類一樣思考:全新安全訓(xùn)練方法

&

更強(qiáng)的“越獄”抵抗力GPT-o1生)362024.09Outline一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體37大型語言模型簡(jiǎn)史推理模型:從「生成」到「推理」的重心轉(zhuǎn)變OpenAI-o1/o3:推理能力的一大飛躍DeepSeek-V3/R1: 專家模型、強(qiáng)化學(xué)習(xí),開源,效率TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V32017201820182019201920202021

202220222023

202320242024202420251958JUNJUNOCTFEBOCTMAYSEP MARNOVFEB MARMARAPRDECJANDeepSeek-R1OpenAI-o33839DeepSeek-V3Base(671B/37B激活)階段1:

有監(jiān)督微調(diào)SFT強(qiáng)化學(xué)習(xí)

GRPO(規(guī)則獎(jiǎng)勵(lì))+語言一致性獎(jiǎng)勵(lì)階段2的模型生成推理SFT數(shù)據(jù)推理數(shù)據(jù)(60w樣本)冷啟動(dòng)階段(DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-V3SFT數(shù)據(jù)DeepSeek-V3Base(671B/37B激活)COTPrompting非推理數(shù)據(jù)(20w樣本)數(shù)據(jù)合并(80w樣本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT

(2epochs)DeepSeek-R1-Distill階段3:SFT(2epcohs)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek-R1基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)模型蒸餾(Distillation)DeepSeek模型并非是顛覆性基礎(chǔ)理論創(chuàng)新(Transformer-based),其對(duì)算法、模型和系統(tǒng)等進(jìn)行的系統(tǒng)級(jí)協(xié)同工程創(chuàng)新,打破了大語言模型以大算力為核心的預(yù)期天花板,為受限資源下探索通用人工智能開辟了新的道路。DeepSeek

技術(shù)全景圖DeepSeekStep1:DeepSeek-V3BaseStep2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DS-V3對(duì)標(biāo)GPT-4o生):混合專家模型:V3基座模型總共有6710億參數(shù),但是每次token僅激活8個(gè)專家、370億參數(shù)(~5.5%)。極致的工程優(yōu)化:多頭潛在注意力機(jī)制(MLA),使用FP8混合精度,DualPipe算法提升訓(xùn)練效率,將訓(xùn)練效率優(yōu)化到極致,顯存占用為其他模型的5%-13%

。DeepSeek

技術(shù)揭秘動(dòng)態(tài)路由機(jī)制和專家共享機(jī)制DeepSeekStep1:DeepSeek-V3

BaseStep2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill40基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘賦予DeepSeek-V3最基礎(chǔ)的推理能力:R1-Zero使用DeepSeek-V3-Base作為基礎(chǔ)模型

,

直接使

用GRPO

進(jìn)

強(qiáng)化

學(xué)

習(xí)來提

升模

的推理性能:準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracy

rewards)格式獎(jiǎng)勵(lì)(

Format

rewards

)人工標(biāo)注獎(jiǎng)勵(lì)模型獎(jiǎng)勵(lì)規(guī)則SFTRLHFGRPO0或

1引入人類偏好數(shù)據(jù)將知識(shí)抽象為獎(jiǎng)勵(lì)規(guī)則通過標(biāo)注將知識(shí)顯示化數(shù)據(jù)驅(qū)動(dòng)

+

知識(shí)引導(dǎo)DeepSeekStep1:DeepSeek-V3BaseStep2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill41基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘DeepSeek-V3Base(671B/37B激活)階段1:

有監(jiān)督微調(diào)SFT強(qiáng)化學(xué)習(xí)

GRPO(規(guī)則獎(jiǎng)勵(lì))+語言一致性獎(jiǎng)勵(lì)階段2:模型生成推理SFT數(shù)據(jù)推理數(shù)據(jù)(60w樣本)冷啟動(dòng)階段(DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-V3SFT數(shù)據(jù)DeepSeek-V3Base(671B/37B激活)COTPrompting非推理數(shù)據(jù)(20w樣本)數(shù)據(jù)合并(80w樣本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT

(2epochs)DeepSeek-R1-Distill階段3:SFT(2epcohs)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek-R1基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)模型蒸餾(Distillation)DS-R1對(duì)標(biāo)OpenAI-o1生):階段1:DeepSeek-R1-Zero生成少量推理數(shù)據(jù)

+SFT

=>

為V3植入初步推理能力(冷啟動(dòng))階段2:根據(jù)規(guī)則獎(jiǎng)勵(lì)直接進(jìn)行強(qiáng)化學(xué)習(xí)(GRPO)訓(xùn)練=>提升推理能力(多輪迭代,獲取大量推理數(shù)據(jù))階段3:迭代生成推理/非推理樣本微調(diào)

=>

增強(qiáng)全場(chǎng)景能力階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)

=>

人類偏好對(duì)齊

(RLHF)DeepSeekStep1:DeepSeek-V3BaseStep2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill42基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型DeepSeek

技術(shù)揭秘DeepSeek-R1-Distill模型:基于各個(gè)低參數(shù)量通用模型(千問、Llama等)使用DeepSeek-R1同款數(shù)據(jù)微調(diào)大幅提升低參數(shù)量模型性能知識(shí)蒸餾:老師教學(xué)生:

“解題思路”

,不僅給答案(硬標(biāo)簽),還教“為什么”(軟標(biāo)簽)模型瘦身:大幅壓縮參數(shù)(如671億→7億參數(shù)),手機(jī)也能跑AIDeepSeekStep1:DeepSeek-V3BaseStep2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill43基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型大模型應(yīng)用層垂直應(yīng)用教育醫(yī)療法律制造……客服服務(wù)(智能客服)OA類(WIKI等)數(shù)據(jù)經(jīng)營(yíng)分析運(yùn)營(yíng)工具(產(chǎn)品、渠道)GPT

Agent(基于Prompt的應(yīng)用,AutoGPT,AgentGPT等)大模型應(yīng)用開發(fā)框架(Langchain)大模型精調(diào)訓(xùn)練數(shù)據(jù)管理與生成精調(diào)pipeline基礎(chǔ)架構(gòu)及模型部署GPT4(公有云)LLMA(開源)Stable

Diffusion基礎(chǔ)模型應(yīng)用支持微調(diào)插件嵌入大模型中間層基礎(chǔ)模型層通用類DeepSeek

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論