詳解DeepSeek:模型訓練、優(yōu)化及數(shù)據(jù)處理的技術精髓_第1頁
詳解DeepSeek:模型訓練、優(yōu)化及數(shù)據(jù)處理的技術精髓_第2頁
詳解DeepSeek:模型訓練、優(yōu)化及數(shù)據(jù)處理的技術精髓_第3頁
詳解DeepSeek:模型訓練、優(yōu)化及數(shù)據(jù)處理的技術精髓_第4頁
詳解DeepSeek:模型訓練、優(yōu)化及數(shù)據(jù)處理的技術精髓_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DeepSeek是什么DeepSeek是杭州深度求索人工智能基礎技術研究有限公司推出的一款創(chuàng)新大語言模型。公司成立于2023年7月17日,由知名私募巨頭幻方量化孕育而生。DeepSeek致力于開發(fā)和應用先進的大語言模型技術深度小助手

聰明且低成本

聰明強大能干

中國本土AI深度思考聯(lián)網(wǎng)搜索DeepSeek:大語言模型的特點有哪些?內容token化大模型看到的世界與人看到的不太一樣訓練前需要將文本進行處理,比如切割稱為Token的基本單元;比如問ai一個英文單詞illegal中有幾個字母l,有些指令模型回答為2個;但deepseek

r1推理模型是可以回答正確!模型訓練存在endtime大模型訓練語料存在一個截止時間deepseek

R1雖然是25年1月發(fā)布,但它的知識庫截

止日期是2023年12月,這就意味著ds可以提供在此日期發(fā)布之前的公開信息和常識;需要經(jīng)過大量清洗、監(jiān)督微調、反饋強化學習。但對于之后的新聞、事件變化、新事物則無法直接獲取或驗證。解決辦法是開啟聯(lián)網(wǎng)模式或提示詞中補充說明無自我認識無自我意識網(wǎng)上有個段子是“有人問deepseek你是誰,然后回答是gpt”目前AI大模型不知道自己是誰,也不知道自己是采用什么模型。除非是廠商在后期再微調、或再訓練,如果大家問到類似的問題,可能目前的AI大模型會回答錯誤。解決辦法是少問AI是誰、采用什么模型上下文長度限定記憶力有限AI大模型目前的記憶力大概是64k

~

128k目前AI大模型均有上下文長度限定;deepseek

r1提供64k

token上下文長度,對應中文的話大約3萬~4萬字。目前還不能一次性投喂太長的文檔給它,比如:一本完成西游記、或者非常長的文檔讓它翻譯,AI它是沒有辦法完整讀完解決辦法是分成多次投喂回答輸出長度有限AI大模型目前的回答

4k

~

8k,2000~4000字目前AI大模型無法一次性完成萬字長文,也無法一次性輸出5千字,均是模型輸出長度限制所致;如果是輸出長文,可以嘗試先讓AI大模型先生成一個目錄,然后再根據(jù)目錄輸出對應模塊;如果是長文翻譯類,則多次輸入,或者拆解后多次調用API解決辦法是將任務分解成多次2019年

2020年

2022年3月

2024年5月

2024年7月補充1:ChatGPT需要上萬張NVIDIA

A100顯卡,國內主要玩家:百度、字節(jié)、騰訊、阿里、商湯、幻方補充2:nvidia官網(wǎng)/explore/discover投入10億手握萬卡GPT

3.5發(fā)布布局集卡V2發(fā)布

GPT

4o發(fā)布V3發(fā)布2024年底Llama-3.1發(fā)布2025年1月31號R1登錄nvidia官網(wǎng)DeepSeek發(fā)展由來來自杭州深度求索公司,系一家成立于2023年。使用數(shù)據(jù)蒸餾技術,得到更為精煉、有用的數(shù)據(jù)。由知名私募巨頭幻方量化全資孕育而生,專注于開發(fā)先進的大語言模型(LLM)和相關技術。DeepSeek

為什么火:

一個足夠優(yōu)秀的模型變得人人免費擁有一、技術突破:為什么DeepSeek的模型值得關注?模型架構與訓練效率優(yōu)化架構改進:MLA多層注意力架構、FP8混合精度訓練框架、DualPipe跨節(jié)點通信訓練策略:采用混合精度訓練(BF16+FP8)和梯度累積策略數(shù)據(jù)質量與領域適配數(shù)據(jù)篩選:多模態(tài)數(shù)據(jù)清洗領域微調:“領域漸進式微調”(Progressive

Domain

Fine-tuning)策略三、行業(yè)落地:DeepSeek推動的技術范式遷移從“通用模型”到“領域專家”傳統(tǒng)大模型(

GPT-3.5)依賴Prompt

Engineering適配行業(yè)需求,而DeepSeek通過預訓練階段嵌入領域知識,減少后期微調成本成本革命通過模型壓縮和高效推理框架,企業(yè)可基于單卡部署專業(yè)模型,推理成本降至GPT-4

API的1/50:某電商客服系統(tǒng)用DeepSeek-7B替代GPT-4,單次交互成本從0.06降至0.001,日均處理量提升10倍。二、開源生態(tài):DeepSeek如何改變開發(fā)者社區(qū)?開放模型與工具鏈全量開源:DeepSeek開源了完整訓練代碼、數(shù)據(jù)清洗Pipeline和領域微調工具包(

DeepSeek-Tuner),極大降低復現(xiàn)和二次開發(fā)門檻輕量化部署:提供模型壓縮工具(

4-bit量化適配TensorRT-LLM)社區(qū)驅動創(chuàng)新開發(fā)者基于DeepSeek模型快速構建垂直應用金融場景教育場景四、行業(yè)競爭格局:DeepSeek的“鯰魚效應”倒逼閉源模型降價DeepSeek的開源策略迫使國際廠商調整定價。例,Anthropic的Claude

3

Sonnet

API價格在

DeepSeek開源后下調催化國產(chǎn)AI芯片生態(tài)DeepSeek與華為昇騰、寒武紀等廠商深度合作,優(yōu)化模型在國產(chǎn)硬件的推理性能。例,

DeepSeek-7B在昇騰910上的吞吐量比A100高推動AGI技術民主化中小企業(yè)和研究機構可基于開源模型快速迭代,無需依賴巨頭API。例,非洲某初創(chuàng)團隊用

DeepSeek-7B開發(fā)本地化農業(yè)咨詢AI,成本僅為GPT-4方案的1/20技術挑戰(zhàn)長上下文理解:目前最大支持32K

tokens,相比Claude

100K仍有差

。多模態(tài)擴展:尚未開放圖像-文本聯(lián)合模型,需追趕GPT-4V、Gemini。商業(yè)化平衡開源模型可能導致企業(yè)版變現(xiàn)困難,需探索類似Red

Hat的“開源+服務”模式。挑戰(zhàn)及未來MLA多層注意力架構原先:每一層有值且內存挨個計算優(yōu)化:前后合并,使用時再放到內存中FP8混合精度訓練框架原先:32位、16位優(yōu)化:不該精確8位(近似值),需要精確還是32位每128個位,交給會計總賬合計保證精度Point1:大大壓縮計算量DualPipe跨節(jié)點通信原先:需要等前面stage完成才能干活優(yōu)化:優(yōu)化為雙路計算流水線,傳輸、計算同時進行計算+50%、傳輸+20%無輔助損失的負載均衡策略原先:每個worker干活一樣優(yōu)化:均衡派單,保證worker有活干跨節(jié)點全對全通信內核Point2:分布式并行提效Point3:模型大、數(shù)全、偏科模型夠大參數(shù)多Llama3.1:

405

BDeepseek:671

B數(shù)據(jù)全且精優(yōu)化:精選數(shù)據(jù)、清洗干凈MTP技術(Multi-Token

Prediction多令牌預測)傳統(tǒng):一次預測一個Token優(yōu)化:預測連續(xù)多個TokenR1蒸餾技術R1推理模型,給出計算邏輯推理V3提取推理思路+解題策略用大模型指導小模型訓練,降低推理成本DeepSeek心哪些創(chuàng)新大幅降低訓練成本DeepSeek

心技術架構1.模型架構多模態(tài)深度Transformer:支持文本、代碼、數(shù)學符號的統(tǒng)一理解與生成動態(tài)稀疏激活機制:采用MoE(Mixture

of

Experts)架構,實現(xiàn)萬億參數(shù)級高效推理2.

心技術突破超長上下文建模:支持128K+tokens窗口,精準捕捉長程依賴自研訓練框架:融合高效分布式訓練、混合精度優(yōu)化與災難性遺忘抑制技術強化學習對齊:基于人類反饋的強化學習(RLHF),提升結果安全性與實用性3.

心優(yōu)勢高效推理:單卡支持千億參數(shù)模型部署,推理速度提升3倍+多任務兼容:原生支持智能體(Agent)架構,實現(xiàn)工具調用與復雜推理持續(xù)進化:支持參數(shù)高效微調(PEFT),快速適配垂直領域需求4.應用場景智能問答|代碼生成|數(shù)據(jù)分析|科研計算|多模態(tài)交互傳

VS

MoE架構DeepSeek的心版本(不同版本功能亮點)——持續(xù)迭代的工程與創(chuàng)新版本原理重要功能特點關鍵指標提升DeepSeek

V1將多頭查詢(Q)分組共享鍵值(K/V),減少顯存占用基本沿用LLaMA奠定基礎GQA+多階段訓練訓練速度+20%DeepSeek

V2在潛在空間壓縮注意力頭維度(

64維→32維),通過低秩分解減少計算量提出DeepSeek

MoEMLA壓縮kv減少緩存效率革命MoE+潛在注意力推理成本-50%DeepSeek

V3熵最大化路由:約束路由器輸出的熵值,自然分散專家負載梯度掩碼:對過載專家暫停梯度更新,促使其“冷卻”MoE負載均衡優(yōu)化引入MTP技術負載均衡新范式無輔助損失均衡專家利用率+24%DeepSeek

R1動態(tài)路由架構:根據(jù)輸入類型(文本/代碼/數(shù)學)自動切換模型分支混合精度推理:FP16用于注意力計算,INT4用于FFN層,延遲降低35%冷啟動問題的強化學習全能選手動態(tài)路由+混合精度綜合任務得分+15%MHA和MQA的原理差異參考鏈接:/content/24/0203/15/170868_1113191680.shtmlGQA和MQA優(yōu)化后和原始模型推理速度對比MoE原理圖DeepSeek的心技術(架構示意圖)——持續(xù)迭代的工程與創(chuàng)新對Transformer框架內的注意力模塊和前

網(wǎng)絡(FFNs)進行了優(yōu)化,采用了我們提出的

多頭潛在注意力(MLA)

DeepSeekMoE技術。

在注意力機制方面,多頭注意力(MHA)的鍵值(KV)緩存對大型語言模型(LLMs)的推理效率構成了重大障礙。人們已經(jīng)探索了多種方法來解決這個問題,包括分組查詢注意力(GQA)和多查詢注意力(MQA)。然而,這些方法在試圖減少KV緩存時,往往會犧牲性能。為了實現(xiàn)兩全其美,我們引入了MLA,這是一種具備低秩鍵值聯(lián)合壓縮功能的注意力機制。實證研究表明,MLA相較于MHA具有更優(yōu)的性能,同時顯著減少了推理過程中的KV緩存,從而提高了推理效率。

對于前 網(wǎng)絡(FFNs),我們采用了DeepSeekMoE架構,該架構采用細粒度的專家分割和共享專家隔離策略,以實現(xiàn)更高的專家專業(yè)化潛力。與傳 的MoE架構相比,DeepSeekMoE架構具有顯著優(yōu)勢,使我們能夠以較低的成本訓練出強大的模型。由于我們在訓練過程中采用了專家并行策略,還設計了補充機制來控制通信開銷并確保負載均衡。參考文章:《DeepSeek-V2:A

Strong,Economical,and

Efficient

Mixture-of-Experts

Language

Model》DeepSeek的 心技術

--

MLA

減少kv

緩存占用空間對于DeepSeek-V2,我們設計了一種創(chuàng)新的注意力機制,稱為多頭潛在注意力(MLA)。MLA配備了低秩鍵值聯(lián)合壓縮功能,其性能優(yōu)于多頭注意力(MHA),但所需的鍵值緩存(KVcache)量顯著減少。不同注意力機制每個token的KV緩存比較在困難基準測試中,MLA與MHA的比較DeepSeek-V2的MLA性能優(yōu)于MHA,但所需的鍵值緩存(KV

cache)量顯著減少多頭注意力(MHA)、分組查詢注意力(GQA)、多查詢注意力(MQA)和多頭潛在注意力(MLA)的簡化示意圖通過將鍵和值聯(lián)合壓縮到一個潛在向量中,MLA在推理過程中顯著減少了鍵值緩存(KV

cache)——MLA改進MHA,從而壓縮KV緩存,提高推理速度

MLA誕生背景:傳

的Transformer模型通常采用多頭注意力(MHA),但在生成過程中,其龐大的鍵值(KV)緩存會成為限制推理效率的瓶頸。為了減少KV緩存,提出了多查詢注意力(MQA)和分組查詢注意力(GQA)它們需要的

KV緩存規(guī)模較小,但性能不及MHA。配備多頭注意力(MHA)、分組查詢注意力(GQA)和多查詢注意力(MQA)的70億參數(shù)密集型模型在個困難基準測試上的評估結果參考文章:《DeepSeek-V2:A

Strong,Economical,and

Efficient

Mixture-of-Experts

Language

Model》DeepSeek的 心技術

--

DeepSeekMoE細粒度分割與共享隔離基礎MoE基礎的MoE將原來的每個token的單個FFN層變成多個并行的FFN層(對應多個expert),并根據(jù)輸入生成一個路由到各個FFN的打分,選擇topN個Expert,實現(xiàn)在單token運算量沒有顯著提升的前提下,擴大模型的參數(shù)空間的目的。DeepSeek

MoEvsDeepSeekMoE相比MoE有2個 心優(yōu)化1、FFN維度調小,增加Expert數(shù)量(細粒度的Expert分割)將expert細分到更細的粒度,以實現(xiàn)更高的專家專業(yè)化程度和更準確的知識獲取1、增加提取公用Expert并共享化,其它Expert專注于差異化增加了幾個所有token走的公用Expert,通過讓所有token走這些Expert,讓這些Expert提取通用信息,隔離一些共享expert,以減輕路由專家之間的知識冗余,其他Expert就能更專注于提取差異化的信息。參考鏈接1:《DeepSeekMoE:Towards

Ultimate

Expert

Specialization

in

Mixture-of-Experts

Language

Models》參考鏈接2:《DeepSeek-V2:A

Strong,Economical,and

Efficient

Mixture-of-Experts

Language

Model》——細粒度expert分割,優(yōu)化路由,多級別負載均衡,提升模型性能為清晰展示,性能以最佳表現(xiàn)為基準進行了歸一化處理。所有對比模型的參數(shù)數(shù)量和激活參數(shù)數(shù)量均相同。發(fā)現(xiàn):細粒度的

expert分割和共享expert隔離有助于提升整體性能DeepSeekMoE的共享expert性能研究在不同禁用Top路由Expert比例下的堆疊損失。值得注意的是,DeepSeekMoE對禁用Top路由Expert的比例更為敏感,這表明DeepSeekMoE中被路由Eepert之間的冗余度較低。禁用Top路由不同比例expert的損失數(shù)據(jù)DeepSeek的 心技術

--

Multi-Token

預測(MTP)數(shù)據(jù)來源:《DeepSeek-V3

Technical

Report》——MTP一次預測多個token,訓練更長更多數(shù)據(jù),提升大模型的訓練和推理效率token-by-token生成序列主流大模型主流大模型token-by-token生成序列,而每次token生成需要頻繁與訪存交互,從而因為訪存效率形成訓練或推理的瓶頸vs單token優(yōu)化為多tokenMTP方法MTP主要

單token的生成,轉變成多token的生成,提升訓練和推理的性能;MTP使訓練信號更加密集,可能會提高數(shù)據(jù)效率;還使模型預先規(guī)劃,以便更好地預測未來的Token多標記預測(MTP)實現(xiàn)的示意圖,保留每個深度的每個標記預測的完整因果鏈DeepSeek的 心技術

--

DualPipe調度策略

+

細粒度的混合精度框架一對單獨的前向和后向計算塊的重疊策略(變換器塊的邊界未對齊)。橙色表示前向計算,綠色表示“針對輸入的后向計算”,藍色表示“針對權重的后向計算”,紫色表示管道并行(PP)通信,紅色表示屏障。全連接分發(fā)和管道并行通信均可被完全隱藏。示例:在兩個方向上,針對8個管道并行(PP)等級和20個微批次的雙管道(DualPipe)調度方案。反向方向的微批次與正向方向的微批次是對稱的,為簡化示意圖,我們省略了反向方向微批次的批次編號。由共享黑色邊框包圍的兩個單元格,其計算和通信過程是相互重疊的。不同管道并行方法中管道氣泡和內存使用的比較雙管道顯著減少了管道氣泡無論微批次數(shù)量何增加,管道氣泡和激活內存數(shù)據(jù)來源:《DeepSeek-V3

Technical

Report》不會增加——基礎設施方面進行一定優(yōu)化,提升效率管道并行算法DualPipe除了基礎架構,DeepSeek還在基礎設施方面進行了一定優(yōu)化。例 設計了一種創(chuàng)新的管道并行算法

DualPipe,在每一對前向和后向塊內重疊計算和通信,提高通信效率、加速了模型訓練細粒度的混合精度框架DeepSeek提出了一種用于FP8訓練的混合精度框架,其中大多數(shù)計算密集型操作在FP8精度下進行,而一些關鍵操作則戰(zhàn)略性地保持在原始數(shù)據(jù)格式以平衡訓練效率和數(shù)值穩(wěn)定性;訓練過程中,采用英偉達PTX(并行線程執(zhí)行)匯編級編程替代標準CUDA方案,實現(xiàn)了硬件級深度優(yōu)化,減少了計算冗余,提高了推理速度。通過與在不同規(guī)模下的兩個基準模型上進行BF16訓練作對比,對我們的FP8混合精度框架進行了驗證在小規(guī)模情況下,我們在1.33萬億個token上訓練一個包含約160億總參數(shù)的基準MoE模型在大規(guī)模情況下,我們在約0.9萬億個token上訓練一個包含約2300億總參數(shù)的基準MoE模型上圖展示了訓練曲線,并證明了通過高精度累積和細粒度量化策略,相對誤差保持在0.25%以下。BF16和FP8訓練的損失曲線對比DeepSeek的 心技術

--

R1-zero

基礎模型上的強化學習——R1-Zero驗證純強化學習(RL)對推理能力的提升強化學習算法:采用了群體相對策略優(yōu)化摒棄了通常與策略模型大小相同的評論家模型,而是從群體得分中估算基線最終實現(xiàn)訓練集上的平均響應長度持續(xù)提升,自然地學會了通過更多的思考時間來解決推理任務獎勵建模:準確性獎勵、格式獎勵訓練模板:要求先給出推理過程,然后給出最終答案R1-Zero的特別之處在于,其無需任何監(jiān)督微調數(shù)據(jù)即可獲得強大的推理能力,反映了模型僅通過強化學習就能有效學習和泛化的能力。盡管R1-Zero模型展現(xiàn)了強大的推理能力,但仍面臨可讀性差和語言混合等挑戰(zhàn),R1模型則通過冷啟動和多階段訓練解決了上述問題。數(shù)據(jù)來源:《DeepSeek-R1:Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》在強化學習過程中,DeepSeek-R1-Zero在訓練集上的平均響應長度DeepSeek-R1-Zero能夠自然地學會利用更多的思考時間來解決推理任務自我思考能力:自發(fā)學會了重新評估其初始回答,更多的思考時間這種“反思”的特性能夠一定程度解決大模型幻覺問題(大模型逐token輸出,過去沒有機制去糾正已經(jīng)輸出的錯誤,反而會繼續(xù)用錯誤掩蓋先前的問題,帶來幻覺問題)DeepSeek-R1-Zero與OpenAI

o1模型在推理相關基準測試上的比較DeepSeek-R1-Zero在訓練期間的AIME準確率對于每個問題,我們抽取16個回答并計算總體平均準確率,以確保評估的穩(wěn)定性。DeepSeek的 心技術

--

R1

具有冷啟動的強化學習——R1-Zero驗證純強化學習(RL)對推理能力的提升背景:盡管DeepSeek

-

R1

-

Zero展現(xiàn)出了強大的推理能力,并且能夠自主發(fā)展出出人意料且強大的推理行為,但它仍面臨一些問題。例

,DeepSeek

-

R1

-

Zero在可讀性差以及語言混雜等方面存在困難。為了使推理過程更具可讀性,并能與開源社區(qū)共享,我們探索了DeepSeek

-

R1方法,該方法利用帶有對人類友好的冷啟動數(shù)據(jù)的強化學習。數(shù)據(jù)來源:《DeepSeek-R1:Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》冷啟動機制可讀性增強性能提升基于長CoT示例的少樣本提示直接提示生成包含反思驗證的詳細答案整理DeepSeek-R1-Zero的規(guī)范化輸出人工標注后處理優(yōu)化推理強化學習優(yōu)化拒絕采樣與監(jiān)督微調推理數(shù)據(jù)構建引入語言一致性獎勵機制,著重提升模型的推理能力,尤其是在涉及有明確解決方案的明確定義問題的推理密集型任務中,例編程、數(shù)學、科學和邏輯推理等任務對RL訓練檢查點執(zhí)行拒絕采樣生成推理軌跡非推理數(shù)據(jù)整合在寫作、事實QA、自我認知和翻譯等領域,采用DeepSeek-V3流程和部分SFT數(shù)據(jù)全場景強化學習優(yōu)化人類偏好對齊,實施第二階段RL訓練,著重提升模型實用性、安全性和推理能力蒸餾:賦予小模型推理能力采用DeepSeek-R1生成的80萬訓練樣本,對Qwen和Llama等開源模型進行直接微調,旨在

DeekSeek-R1的推理能力遷移至計算效率更高的小型模型。實驗結果表明,這種直接知識蒸餾方法能顯著提升小型模型的推理性能。研究選用的基礎模型包括:Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-InstructDeepSeek-R1蒸餾模型與其他可比模型在推理相關基準測試上的比較上表所示,僅僅對DeepSeek-R1的輸出進行蒸餾,就能使高效的

DeepSeek-R1-7B(即DeepSeek-R1-蒸餾-Qwen-7B,下文類似簡稱)在各個方面優(yōu)于像GPT-4o-0513這樣的非推理模型。DeepSeek

-

R1

-

14B在所有評估指標上

超過了QwQ

-

32B

-

預覽版,而DeepSeek

-

R1

-

32B和DeepSeek

-

R1

-

70B在大多數(shù)基準測試中顯著超過o1-mini。這些結果展示了蒸餾的強大潛力。此外,我們發(fā)現(xiàn)對這些蒸餾模型應用強化學習(RL)能帶來顯著的進一步提升。我們認為這值得進一步探索,因此在此僅展示簡單監(jiān)督微調(SFT)蒸餾模型的結果。DeepSeek的應用場景——AI技術驅動的場景化賦能零售領域:數(shù)據(jù)驅動的精準運營客戶需求預測技術方案:融合Transformer時序模型與外部環(huán)境變量(天氣、節(jié)假日),動態(tài)預測區(qū)域級商品需求。結合聯(lián)邦學習技術,保護隱私的同時整合多門店數(shù)據(jù),提升預測泛化能力。業(yè)務價值:→降低預測誤差率、降低缺貨率;→支持動態(tài)補貨策略,降低倉儲成本。教育領域:自適應學習生態(tài)智能輔導系核心技術:多模態(tài)交互:語音識別(ASR)+手勢識別,支持低齡學生自然交互解題輔導。認知診斷:基于DKT(深度知識追蹤)模型量化學生知識狀態(tài),動態(tài)生成學習路徑圖譜。落地場景:→小學數(shù)學輔導場景,知識點掌握度預測準確率超90%;→

自動批改作文并生成多維反

(語法/邏輯/創(chuàng)意),節(jié)省教師70%批改時間。金融領域:智能風控系醫(yī)療領域:影像輔助診斷多模態(tài)圖神經(jīng)網(wǎng)絡+動態(tài)對抗訓練年損失減少億元級MoE架構+多模態(tài)對齊早期癌癥檢出率提升DeepSeek的技術發(fā)展趨勢——通用智能與垂直場景的雙重進化通用人工智能(AGI)的漸進式突破,推動科技新變革大模型持續(xù)擴展參數(shù)規(guī)模:千億級→萬億級參數(shù)演進,混合專家(MoE)架構提升效率能力泛化:從單模態(tài)到多模態(tài)

一建模(文本/圖像/視頻/傳感器數(shù)據(jù)聯(lián)合學習)自主決策能力增強世界模型構建:通過物理仿真與真實數(shù)據(jù)融合,提升對復雜環(huán)境的理解能力因果推理升級:從

計相關性向因果機制建??缭剑?/p>

反事實干預推演)人機協(xié)作深化具身智能:機器人+AI深度融合,實現(xiàn)物理世界交互(

倉儲分揀、實驗操作)倫理安全框架:構建價值觀對齊與風險可控的AGI系垂直領域AI的深度滲透,重塑行業(yè)格局行業(yè)大模型專業(yè)化領域知識注入(

醫(yī)療術語庫、零售供應鏈圖譜、教育知識圖譜)提升任務精度輕量化部署:模型蒸餾+硬件適配技術推動邊緣場景落地實時化與個性化AI推理加速:端側實時推理(<10ms延遲)支持毫秒級決策(

線下實時推薦)數(shù)據(jù)互通與個性化:聯(lián)邦學習保障隱私安全下的跨機構數(shù)據(jù)協(xié)同,支持個性化閉環(huán)增強系"感知-決策-執(zhí)行"全鏈路自動化(

教育場景的"學習-測評-推薦"閉環(huán))在線學習實現(xiàn)模型動態(tài)迭代(天級甚至小時級更新)訓練成本高昂訓練成本顯著降低超級App,DAU>=五千萬中小型App,DAU<=五千萬垂直AI通過領域知識增強精準性已進入快速發(fā)展進程比通用人工AGI快AGI提供通用認知能力2025年底進入快速發(fā)展進程比垂直領域AI慢數(shù)據(jù)參考:推理成本預降數(shù)十倍,2025中國

從“百模大戰(zhàn)”轉向應用大戰(zhàn)與同行技術的比較二、應用場景對比:垂直優(yōu)化與通用泛化三、創(chuàng)新能力對比:開源生態(tài)與技術前瞻性——性能、場景與創(chuàng)新的多維競爭力一、性能對比:效率與精度雙突破架構設計DeepSeek:采用混合專家(MoE)架構,激活參數(shù)僅占模型總量的5.5%(

DeepSeek-R1激活370億參數(shù),總量6710億),顯著降低計算資源消耗,推理延遲壓至10ms級GPT系列:基于純Transformer架構,依賴全參數(shù)激活(

GPT-4約1萬億參數(shù)),推理成本高且響應速度較慢Claude系列:強調安全對齊性,但模型靈活性和多任務處理能力受

,推理速度低于DeepSeek任務表現(xiàn)中文場景:DeepSeek在C-Eval(86.5%)、C-SimpleQA(64.1%)等中文評測中顯著優(yōu)于

GPT-4(中文任務偏差率降低30%+)代碼生成:HumanEval-Mul得分82.6%,超越GPT-4o(78.2%)和Claude3.5(80.1%),尤其在函數(shù)調用和API集成上表現(xiàn)突出多模態(tài)推理:Gemini在多模態(tài)任務領先,但DeepSeek通過強化學習后訓練(RLHF)在純文本邏輯推理(DROP

91.6%)上超越同類模型17資源效率訓練成本僅550萬美元(GPT-4估算超1億美元),單位算力能耗降低80%支持FP8量化和動態(tài)稀疏訓練,邊緣設備可部署百億參數(shù)模型(

零售終端AR推薦)模型心優(yōu)勢場景局限性DeepSeek中文任務、代碼生成、實時決策(零售庫存聯(lián)調、教育個性化推薦)多模態(tài)支持較弱,長上下文處理(64k

vs

Claude

200k)GPT系列創(chuàng)意寫作、長文本生成(法律文檔、學術

究)中文語義偏差,部署成本高(API價格超DeepSeek

10倍)Claude系列安全敏感場景(醫(yī)療咨詢、法律合規(guī))靈活性與創(chuàng)造力不足,推理速度慢Gemini多模態(tài)分析(視頻描述、跨媒體檢索)純文本任務表現(xiàn)平庸,模型臃腫技術突破低成本訓練僅用1/11算力(對比

Llama-3-405B)實現(xiàn)同等性能,F(xiàn)P8量化技術壓縮訓練能耗70%開源戰(zhàn)略完全開源模型代碼與訓練框架吸引超10萬開發(fā)者貢獻;降低企業(yè)AI開發(fā)成本未來方向AGI基座發(fā)萬億參數(shù)MoE架構+垂直領域AI中小公司

春筍般涌現(xiàn)各大模型按總分降序排列數(shù)據(jù)來源:《DeepSeek-V2:A

Strong,Economical,and

Efficient

Mixture-of-Experts

Language

Model》DeepSeek-V2與其他代表性開源模型的比較在

同開源模型中MMLU(大規(guī)模多任務語言理解評估基準)準確率與激活參數(shù)的關系DeepSeek-76B(稠密型)模型和

DeepSeek-V2模型的訓練成本及推理效率DeepSeek-R1性能評分數(shù)據(jù)來源:《DeepSeek-R1:Incentivizing

Reasoning

Capability

in

LLMs

via

Reinforcement

Learning》DeepSeek-R1蒸餾模型評估DeepSeek-R1與其他代表性模型的比較蒸餾模型與強化學習(RL:ReinforcementLearning)模型在推理相關基準測試中的比較何高效用好DeepSeek?(一)Step1:

前提需要先了解清楚大語言指令模型、推理模型工作原理與局限指令模型:open

ai的gpt4o、字節(jié)豆包,用于遵循指令生成任務;需要較完善的提示詞,才能激發(fā)模型的表現(xiàn)推理模型:deepseek

r1、gpt-o1專注于邏輯推理問題解決,自主處理多步驟、因果推斷或者解決復雜決策的清晰明確表達你的需求即可Step2:在和DS交流時,當它當成是你極其聰明超過10年工作經(jīng)驗的助理,需要交待清楚你的訴求是什么果需要分析的是23年12月之前的不太需要聯(lián)網(wǎng)模式;果是近期、或實時新聞事件則需要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論