deepseek對算力產(chǎn)業(yè)的影響_第1頁
deepseek對算力產(chǎn)業(yè)的影響_第2頁
deepseek對算力產(chǎn)業(yè)的影響_第3頁
deepseek對算力產(chǎn)業(yè)的影響_第4頁
deepseek對算力產(chǎn)業(yè)的影響_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

CONFIDENTIALDeepseek對中國算力產(chǎn)業(yè)的影響1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅(qū)動算力需求變革3-2-算力產(chǎn)業(yè)鏈的重構DeepSeek爆火--C端:Deepseek全球破圈,成為用戶規(guī)模增長最快的移動AI應用超級app增長1億用戶所用時間-3-App上線后同樣天數(shù)DeepSeek與ChatGPT移動端全球DAU對比情況DeepSeek爆火--B端:科技巨頭積極擁抱DeepSeek-4-DeepSeek明星產(chǎn)品:DeepSeek的LLM模型分為三個版本:基座模型V3、強化推理版R1-Zero、泛化推理版R1-5-DeepSeek爆火的原因:一流的性能表現(xiàn)、大幅降低的算力成本、開源模式高性能模型架構創(chuàng)新DeepSeek的模型架構創(chuàng)新,如MoE和FP8混合精度訓練,大幅提升模型性能和訓練效率。低成本實現(xiàn)高性能通過算法創(chuàng)新和硬件優(yōu)化,DeepSeek以低成本實現(xiàn)高性能,改變AI領域的競爭規(guī)則。開源策略推動技術普及DeepSeek采用開源策略,降低AI技術門檻,促進全球開發(fā)者參與,推動技術快速普及和迭代。-6-一流的性能表現(xiàn):DeepSeek-V3性能對齊海外領軍閉源模型-7--8-一流的性能表現(xiàn):DeepSeek-R1性能對標OpenAI-o1正式版DeepSeek-R1性能比肩OpenAI-o1。DeepSeek-R1在后訓練階段大規(guī)模使用了強化學習技術,在僅有極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學、代碼、自然語言推理等任務上,性能比肩OpenAI

o1正式版。R1

2024年AIME測試中取得了

79.8%

的成績,與

OpenAIo1

79.2%水平相當。在MATH-500

基準測試中,DeepSeek-R1

97.3%

的成績略微超越了o1

96.4%。在編程領域,該模型在Codeforces平臺上表現(xiàn)優(yōu)異。大幅降低的算力成本:訓練算力下降90%DeepSeek-V3和R1模型不僅性能出色,訓練成本也極低。V3模型僅用2048塊H800

GPU訓練2個月,消耗278.8萬GPU小時。相比之下,Llama3-405B消耗了3080萬GPU小時,是V3的11倍。按H800

GPU每小時2美金計算,V3的訓練成本僅為557.6萬美金,而同等性能的模型通常需要0.6-1億美金。R1模型在V3基礎上,通過引入大規(guī)模強化學習和多階段訓練,進一步提升了推理能力,成本可能更低。-9-API定價下降89%(V3)、96%(R1)-10-開源大模型:打破OpenAI等閉源模型生態(tài)DeepSeek

不僅開源了

R1-Zero和R1兩個

671B模型,還通過DeepSeek-R1

的輸出,蒸餾了

6

個小模型開源給社區(qū),其中

32B

70B

模型在多項能力上實現(xiàn)了對標

OpenAI

o1-mini

的效果。同時,DeepSeek

還修改了產(chǎn)品協(xié)議,支持用戶進行“模型蒸餾”,即允許用戶無限制商用,鼓勵蒸餾(用R1

輸出結果訓練其他模型),盡可能降低用戶使用壁壘,全球范圍出圈和更容易建立起廣泛繁榮的用戶生態(tài)。DeepSeek

V3與R1模型實現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:對大模型發(fā)展:這提升了世界對中國AI大模型能力的認知,一定程度打破了OpenAI與Anthropic等高級閉源模型的封閉生態(tài)。DeepSeek

R1在多個測試指標中對標OpenAIo1,通過模型開源,也將大模型平均水平提升至類OpenAI

o1等級。對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用戶針對自身需求蒸餾,或用自有數(shù)據(jù)訓練,從而適合具體下游場景;此外,模型訓推成本降低,將帶來使用場景的普及,帶動AIGC、端側等供給和需求。-11-1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅(qū)動算力需求變革3-12-算力產(chǎn)業(yè)鏈的重構中國智能算力市場規(guī)模持續(xù)增長,算力中心從訓練側向推理側轉移42%59%35%33%30%28%58%41%65%67%70%72%100%90%80%70%60%50%40%30%20%10%0%20222023202620272024 2025推理 訓練中國智能算力規(guī)模及預測,(FP16) 中國人工智能服務器工作負載預測,2022-20272604177251,0372,020+41%1,4602022 2023 2024 2025 2026 2027智能算力-13-訓練算力頭部集中,推理算力爆發(fā)式增長頭部企業(yè)仍持續(xù)加碼大模型訓練,追求更高性能的AGI目標。阿里:未來3年的AI

infra投資,超過去10年的infra投資字節(jié):24

年資本開支

800

億元,接近百度、阿里、騰訊三家的總和(約

1000

億元)。25

年,字節(jié)資本開支有望達到

1600

億元,其中約

900

億元將用于AI算力的采購,700

億元用于

IDC基建以及網(wǎng)絡設備。百度:在2月11日的阿聯(lián)酋迪拜World

Governments

Summit

2025峰會上,百度創(chuàng)始人李彥宏提到,百度需要繼續(xù)在芯片、數(shù)據(jù)中心和云基礎設施上加大投入,目的是為了開發(fā)下一代模型。硅谷四大科技巨頭(谷歌、微軟、Meta、亞馬遜)2025年合計資本開支超3,000億美元,重點投向AI數(shù)據(jù)中心建設。訓練算力仍有空間和前景頭部企業(yè)會持續(xù)進行教師模型的訓練:模型蒸餾的前提是有一個好的教師模型,字節(jié)、阿里、百度等已經(jīng)明確會持續(xù)加大投入;24年H2有些停滯的大模型訓練近期已經(jīng)重啟各模型廠商會借鑒deepseek的優(yōu)化方法如FP8精度訓練、跨節(jié)點通信等,與自身模型訓練結合,探索更高效的模型訓練方法多模態(tài)的模型對算力的消耗會是近十倍的增長推理算力爆發(fā)式增長:杰文斯悖論在推理側上演,開源模型和較低的推理成本,有助于應用的繁榮,助推推理算力增長“杰文斯悖論”指出成本下降將刺激資源需求更大增長-14-模型輕量化催生端側算力的崛起DeepSeek通過知識蒸餾技術,將大模型壓縮至輕量化版本,使其能夠在端側設備上高效運行。數(shù)據(jù)安全與隱私計算剛需本地化部署需求(如醫(yī)療數(shù)據(jù)脫敏處理)推動隱私計算技術發(fā)展,2024年數(shù)據(jù)治理市場規(guī)模超50億元。一體機等端側算力市場擴容國產(chǎn)deepseek一體機瘋狂上新:三大電信運營商、浪潮、壁仞、京東云、聯(lián)想、優(yōu)刻得、寶德、華鯤振宇、超聚變等均推出基于不同國產(chǎn)芯片的deepseek一體機工業(yè)質(zhì)檢、自動駕駛等場景需求推動邊緣AI服務器出貨量增長,2025年市場規(guī)模預計突破200億元。-15-從“算力堆砌”到“算效優(yōu)化”的產(chǎn)業(yè)轉型DeepSeek提出的“四兩撥千斤”的技術路徑推翻了統(tǒng)治了2023年-2024年的全球大模型產(chǎn)業(yè)的“暴力美學”邏輯,2025年再次進入算法創(chuàng)新階段算力、數(shù)據(jù)、算法的三角創(chuàng)新體系,在動態(tài)循環(huán)中再次進入算法創(chuàng)新階段:2022年:算法創(chuàng)新為主,ChatGPT發(fā)布,引發(fā)Transformer架構的風潮迭起2023年:數(shù)據(jù)創(chuàng)新為主,數(shù)據(jù)合成、數(shù)據(jù)標注等成為高質(zhì)量數(shù)據(jù)集建設的熱點方向2024年:算力創(chuàng)新為主,算力邁向超萬卡時代,算力運營商等產(chǎn)業(yè)新物種誕生2025年:再次進入算法創(chuàng)新階段算力堆砌的傳統(tǒng)模式大模型訓練和應用依賴于大規(guī)模的算力堆砌,通過不斷增加硬件資源來滿足算力需求算效優(yōu)化的必要性隨著技術發(fā)展和應用深化,算效優(yōu)化成為產(chǎn)業(yè)轉型的關鍵方向,通過提高算力的利用效率,降低能耗和成本-16-1DeepSeek的技術突破與市場定位目錄CONTENT2DeepSeek驅(qū)動算力需求變革3-17-算力產(chǎn)業(yè)鏈的重構DeepSeek通過PTX優(yōu)化等創(chuàng)新技術,降低了模型訓練對NV芯片的依賴,推動國產(chǎn)算力的應用落地CUDA

生態(tài)的封閉性導致其跨硬件平臺兼容性差,對國產(chǎn)

GPU的適配存在較大困難。PTX

算力優(yōu)化經(jīng)驗大幅降低了對高端GPU的依賴,對國產(chǎn)

GPU的底層接口適配有一定幫助(需要重新設計工具鏈,短期內(nèi)難以實現(xiàn)無縫遷移)DeepSeek通過PTX手動優(yōu)化跨芯片通信截至

2025

2

18日

,DeepSeek

已與

18家國產(chǎn)

AI

芯片企業(yè)完成適配,包括華為昇騰、沐曦、天數(shù)智芯、摩爾線程、海光信息、壁仞科技、太初元碁、云天勵飛、燧原科技、昆侖芯、靈汐科技、鯤云科技、希姆計算、算能、清微智能和芯動力等私有化部署及端側小模型大量涌現(xiàn),為國產(chǎn)芯片在實際場景的應用及試錯提供了大量機會,為國產(chǎn)芯片的設計、性能提升等提供空間芯片智算中心大模型AI應用英偉達

H800芯片互聯(lián)帶寬相比

H100被閹割,為彌補這一缺陷,DeepSeek

借助PTX

手動優(yōu)化跨芯片通信,保障數(shù)據(jù)傳輸效率。PTX

是CUDA編譯的中間代碼,處于高級編程語言(如

CUDA

C/C++)和底層機器碼(SASS)之間,起到在

CUDA

和最終機器碼之間的橋梁作用。借助

PTX,開發(fā)者能夠直接對

GPU

的寄存器分配、線程調(diào)度等硬件級操作進行控制,實現(xiàn)細粒度的性能優(yōu)化。在多GPU

協(xié)同訓練場景中,可通過

PTX

手動調(diào)整跨芯片通信效率,提升整體訓練效能。-18-DeepSeek采用FP8混合精度訓練取得較好效果,國內(nèi)芯片企業(yè)亟待增強對原生FP8支持在DeepSeek的訓練過程中,絕大多數(shù)核心計算核(即通用矩陣乘法GEMM操作)均以FP8精度實現(xiàn)。這些GEMM操作接受FP8張量作為輸入,并輸出BF16或FP32格式的結果。如下圖所示,與線性算子(Linear

operator)相關的三個GEMM運算——前向傳播(Fprop)、激活梯度反向傳播(Dgrad)和權重梯度反向傳播(Wgrad)——都采用FP8精度執(zhí)行。對以下模塊維持原有精度(如BF16或FP32):嵌入模塊(embedding

module)、輸出頭(outputhead)、混合專家門控模塊(MoE

gating

modules)、標準化算子(normalization

operators)以及注意力算子(attention

operators)。(盡管FP8格式具有計算效率優(yōu)勢,但由于部分算子對低精度計算較為敏感,仍需保持更高計算精度)采用FP8數(shù)據(jù)格式的整體混合精度框架原生支持FP8的3家-19-同時原生支持FP8、BF16、FP32的1家國內(nèi)芯片對三種計算精度的支持情況國內(nèi)AI芯片企業(yè)200多家DeepSeek采用FP8混合精度訓練取得較好效果:GPU訓練時間減少40%預訓練成本降至僅278.8萬H800

GPU小時訓練總費用為557.6萬美元,比同類模式便宜約10倍目前DS原生訓練和推理用的是FP32、BF16和FP8,三種格式,也是DS團隊探索出來效率最高的計算方式。如果不是原生支持FP8,而是需要通過其他計算精度的轉譯,至少損失30%性能和20%的智商目前國內(nèi)有200多家AI芯片公司,原生支持FP8計算格式的AI芯片只有3款,同時支持三種計算格式的國產(chǎn)AI芯片公司只有1款。芯片智算中心大模型AI應用智算中心分為三類A類B類C類預訓練用于訓練超大參數(shù)量的原創(chuàng)教師大模型,如移動的九天大模型、阿里的通義千問等萬卡以上H200、B200等最先進的芯片或國產(chǎn)高端芯片(針對有強信創(chuàng)需求的企業(yè))后訓練用于學生大模型的調(diào)優(yōu),訓練行業(yè)化、客制化大模型幾十臺到幾百臺為主A100/A800、H100/H800,或者采購部分高端國產(chǎn)卡推理用于推理的算力中心,針對模型在企業(yè)端現(xiàn)實場景的實際應用大小不等利舊原有設備或者經(jīng)營不善的B類3090/4090或910A、910B及其他國產(chǎn)卡定位 功能 規(guī)模 芯片-20-芯片智算中心大模型AI應用推理類智算中心爆發(fā)增長,超大規(guī)模智算中心建設加快-21-智算中心市場影響A類建設速度不減:頭部科技大廠仍計劃大量投資;超前建設的需要;下一輪AI技術的涌現(xiàn)(如多模態(tài)等)仍需要十倍左右的算力支撐;中美博弈(美國“星際之門”、歐洲“Invest

AI計劃”等)B類結構性過剩,建設減緩:規(guī)模小、位置偏僻、型號舊&性價比低、國產(chǎn)算力等類型的智算中心閑置狀況嚴重新建要看是不是有強主體包銷,如果有強主題的3-5年包銷合同,依然可以正常建設;如果是弱主體的客戶,甚至沒有客戶的前提下,建設可能會暫緩或者停滯C類爆發(fā)式增長:推理算力需求大幅增加,端側、邊緣側分布式算力部署快速增長,私有化部署1~10臺GPU服務器的小規(guī)模集群需求在內(nèi)部部署中爆發(fā)。算力包銷合同主題分強、弱兩類,市場上更多的是弱主體:強主體:各個參與方資質(zhì)和信譽主題都很強。央國企、A股上市公司承建、金融機構墊資、互聯(lián)網(wǎng)大廠包銷,這種主要是H系列為主,風險相對可控,互聯(lián)網(wǎng)大廠可以用來做B類或C類。弱主體:相對于強主體,出資方、承建方、包銷方相對來說資質(zhì)弱一些,比如包銷方是一些AI大模型創(chuàng)業(yè)公司、創(chuàng)新型實驗室或者,這類24年下半年已經(jīng)開始毀約,風險非常高,H系列租金每個月6~8w/臺。這類的算力中心風險非常大,需要注意,這類算力使用方,未來多轉向C類算力租賃。芯片智算中心大模型AI應用中國大模型主要有兩類玩家科技大廠AI創(chuàng)業(yè)公司企業(yè)類型典型玩家大模型玩家芯片智算中心大模型AI應用-22-Deepseek發(fā)布后科技大廠:擁抱DeepSeek,同時跟進類似的自研產(chǎn)品公司時間動作概況阿里1月29日阿里云

PAI

Model

Gallery

支持一鍵部署

DeepSeek-V3和

DeepSeek-R1阿里云發(fā)布開源的通用千問Qwen

2.5-Max

MoE(混合專家模型),它使用了與DeepSeek-R1類似的技術路線百度2月14日百度搜索全面接入

DeepSeek。百度宣布文心一言4月1日起開源免費,并計劃推出文心大模型

4.5

系列,于

6

30

日起正式開源騰訊/從云平臺騰訊云、騰訊云旗下大模型知識應用開發(fā)平臺知識引擎、國民應用微信、AI智能工作臺ima、主力AI應用元寶全方位擁抱DeepSeek,紛紛宣布接入R1模型華為/鴻蒙系統(tǒng)的小藝助手接入DeepSeek-R1;與硅基流動合作,基于昇騰云服務推出DeepSeek-R1/V3推理服務投資加大:前文已論述產(chǎn)品:科技大廠一方面擁抱DeepSeek,一方面跟進類似的自研產(chǎn)品芯片智算中心大模型AI應用國際大廠也加快了產(chǎn)品的推陳出新-23-OpenAI連續(xù)官宣GPT-4.5在幾周內(nèi)上線,GPT-5在幾個月內(nèi)上線,及模型路線規(guī)模的調(diào)整Deepseek發(fā)布后AI創(chuàng)業(yè)企業(yè):從參數(shù)競爭到進入理性期-24-公司時間動作概況零一萬物2月14日與蘇州高新區(qū)聯(lián)合成立的產(chǎn)業(yè)大模型基地正式授牌百川智能1月25日發(fā)布新模型Baichuan-M1-preview階躍星辰2月13日聯(lián)合研發(fā)的「AI兒科醫(yī)生」在北京兒童醫(yī)院上崗1月20日發(fā)布新語言大模型Step-2-mini和Step-2

文學大師版1月21日升級語音模型Step-Io

Audio,上新多模態(tài)理解大模型Step-Io

Vision1月22日發(fā)布視頻生成模型Step-Video

V2版本1月24日應用端「躍問」推出「躍問AI創(chuàng)意板」功能/「躍問」接入DeepSeek-R12月21日舉辦首屆“Step

Up

生態(tài)開放日”智譜華章2月11日創(chuàng)立發(fā)起人唐杰出席第三屆人工智能行動峰會邊會“人工智能技術進步與應用”并發(fā)言2月11日Agentic

GLM登陸三星最新款Galax

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論