AI ASIC市場規(guī)模快速增長穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)_第1頁
AI ASIC市場規(guī)??焖僭鲩L穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)_第2頁
AI ASIC市場規(guī)??焖僭鲩L穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)_第3頁
AI ASIC市場規(guī)??焖僭鲩L穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)_第4頁
AI ASIC市場規(guī)??焖僭鲩L穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

核心觀點AI

ASIC:價格、功耗優(yōu)勢顯著,市場規(guī)??焖僭鲩L。1)價格優(yōu)勢:由于

GPU

芯片強大的通用性、靈活性,其設計及流片成本較高,進而導致

GPU

平均單價較高;根據(jù)IDC統(tǒng)計數(shù)據(jù),2024年GPU平均單價為8001美元,AI

Asic

平均單價為

5236

美元,AI

ASIC

具備價格優(yōu)勢;2)功耗優(yōu)勢:由于

AI

AISC

芯片偏定制化設計,專為特定任務(例如AI大模型的訓練或推理)優(yōu)化,

因此其在執(zhí)行特定任務時功率較低。3)市場規(guī)模:根據(jù)IDC

披露數(shù)據(jù),2024

GPU、AI

ASIC

芯片市場規(guī)模分別為701、148

億美金,預計

2030

年分別增長至3263、838

億美金,對應

24-30

CAGR

分別為29.2%、33.5%。從出貨量來看,2024

GPU、AI

ASIC

芯片出貨量分別為876、283

萬顆,預計2030

年增長至

2982、1431

萬顆,對應

24-30

CAGR

分別為22.6%、31.0%,AIASIC

芯片占比穩(wěn)步提升。分領域來看,ASIC

芯片在訓練、訓練&推理雙

AI芯片領域,增速快于

GPU。復盤谷歌TPU

發(fā)展歷程,AI

ASIC

三大發(fā)展趨勢逐步明朗。我們對全球AI

ASIC

龍頭谷歌

TPU

進行復盤,AI

ASIC

芯片發(fā)展呈現(xiàn)三大發(fā)展趨勢。1)專用性持

續(xù)增強,顆粒度更細:特別是

TPUv5

分為了

TPUv5e

TPUv5p

兩個版本,

其中

TPUv5e

是訓推一體,強調成本效益,而

TPUv5p

性能強勁,專注于超

大基礎模型訓練,芯片應用場景更細分;2)更強的算力、HBM

和集群能力:單卡算力持續(xù)提升,選用更領先的

HBM(應對多模態(tài)任務),單

POD

芯片數(shù)量持續(xù)提升,集群拓展效率逐步接近線性;3)能效比持續(xù)提升:以單芯片封裝每瓦熱設計功耗所提供的峰值

FP8

Flops

衡量,Ironwood

峰值能效是上

一代

Trillium

2

倍,是

TPU

v2

29.3

倍;同時,TPU

v3

開始配套液冷,

液冷等新一代冷卻方式逐步應用。穩(wěn)定幣:香港政策落地,關注板塊投資機會。香港于

2025

5

月21

日正式

通過《穩(wěn)定幣條例》,解決穩(wěn)定幣行業(yè)長期存在的透明度不足、贖回風險等

問題,同時為合規(guī)機構開辟清晰的入場路徑。1)提升跨境支付效率和普惠

性:穩(wěn)定幣在交易速度、成本以及體制方面顯著優(yōu)于傳統(tǒng)跨境支付體系,繞

開SWIFT體系的低效性,重構全球金融包容性格局;2)賦能

RWA

資產鏈上

化與全球流通:穩(wěn)定幣通過價值錨定、效率革命、合規(guī)護航、流動性激活,

破解RWA項目的價格波動、跨境摩擦、信任缺失與門檻高等痛點。投資建議:看好

AI

ASIC

及穩(wěn)定幣。谷歌、亞馬遜、Meta

等公司紛紛加快

ASIC

芯片的自研和測試;國內受AI芯片禁令影響,英偉達先進

AI芯片對華出口

受限,互聯(lián)網大廠可能轉向AI

ASIC

芯片,服務器廠商有望充分受益;同時,國產算力芯片

25

年有望快速放量,建議關注海光信息等。同時,香港《穩(wěn)定幣條例》落地,穩(wěn)定幣有望提升跨境支付效率,建議關注新大陸等公司。風險提示:互聯(lián)網大廠

AI

ASIC

研發(fā)進展不及預期;云廠商資本開支投入不

及預期;穩(wěn)定幣發(fā)行進展不及預期。重點公司盈利預測及投資評級計算機行業(yè)

2025

7

月投資策略

優(yōu)于大市AI

ASIC

市場規(guī)模快速增長,穩(wěn)定幣產業(yè)鏈蓄勢待發(fā)資料來源:Wind、國信證券經濟研究所整理相關研究報告

《計算機行業(yè)

2025

6

月暨中期投資策略-AI產業(yè)快速迭代,持

續(xù)看好

Agent

和算力租賃》——2025-06-13《穩(wěn)定幣香港政策落地,關注板塊投資機會》——2025-06-04

《人工智能專題報告:國內大廠擴張資本開支,算力租賃訂單持

續(xù)落地》——2025-05-21《計算機行業(yè)

2025

年5

月投資策略暨財報總結-大廠布局

Agent產品,AI

應用快速落地》——2025-05-08《人工智能行業(yè)專題:2025Q1

海外大廠

CapEx

ROIC

總結梳理-20250505》——2025-05-05證券分析師:熊iong

l

i1@guosen.com.cnS0980519030002證券分析師:艾ix

ian@guosen.com.cnS0980524090001聯(lián)系人:藺亞嬰證券分析師:庫宏uhongyao@S0980520010001聯(lián)系人:云夢unmengze@聯(lián)系人:侯睿688041海光信息優(yōu)于大市136.10316,3421.692.3680.5357.67000997新大陸優(yōu)于大市32.7133,7591.181.4227.7223.04公司

公司投資昨收盤

總市值

EPS

PE

代碼

名稱評級(元)

(百萬元)

2025E

2026E

2025E

2026El

inyay

ing@guosen.com.cn

hourui3@guosen.com.cn市場走勢

行業(yè)研究

·行業(yè)月報

計算機優(yōu)于大市

·維持請務必閱讀正文之后的免責聲明及其項下所有內容資料來源:Wind、國信證券經濟研究所預測內容目錄AI

ASIC

芯片:市場規(guī)??焖僭鲩L,三大發(fā)展趨勢逐漸明朗

...........................5AI

Asic

芯片:價格、功率優(yōu)勢明顯,市場規(guī)模快速增長

....................................5復盤谷歌

TPU:更專用、強算力、大集群、高能效

..........................................8穩(wěn)定幣:香港政策落地,關注板塊投資機會

.......................................

17香港《穩(wěn)定幣條例》落地,以合規(guī)框架激活數(shù)字金融創(chuàng)新

...................................

17穩(wěn)定幣蓬勃發(fā)展,跨境支付+RWA

有望收益

................................................18投資建議:看好

AI

ASIC

及穩(wěn)定幣

................................................

20風險提示

.....................................................................

20請務必閱讀正文之后的免責聲明及其項下所有內容

2證券研究報告圖表目錄圖

1:

不同類型

AI

芯片對比

.................................................................

5圖2:

GPU

AI

ASIC

平均單價及預測

.........................................................6圖3:

AI

芯片算力和功率矩陣圖

..............................................................6圖4:

24Q4

各廠商

AI

芯片收入占比

...........................................................7圖5:

推理、訓練側芯片類型

TAM(2024vs2030)

...............................................7圖6:

GPU、AI

ASIC

芯片市場規(guī)模情況(單位:十億美金)

......................................7圖7:

GPU、AI

ASIC

芯片出貨量情況(單位:萬顆)

............................................7圖8:

谷歌

TPU

發(fā)展歷史

....................................................................

8圖9:

TPU

v1Floor

Plan

...................................................................

9圖

10:

TPU

v1Block

Diagram

...............................................................

9圖

11:

TPU

v1

TPU

v2

架構演進

............................................................9圖

12:

TPU

v2

芯片包含兩個相連的

Tensor

Core

..............................................10圖

13:

TPU

v2Floorplan

..................................................................10圖

14:

TPU

v3

延續(xù)

v2

架構,性能提升

.......................................................

10圖

15:

TPU

v4MXU

數(shù)量翻倍,峰值算力大幅提升

..............................................11圖

16:

谷歌超級計算機互聯(lián)結構(Cube)

....................................................11圖

17:

可重配置光互連技術提升計算機的穩(wěn)定性

..............................................11圖

18:

谷歌

TPU

v4

性能表現(xiàn)優(yōu)于英偉達

A100

.................................................12圖

19:

谷歌

TPU

v4

性能表現(xiàn)略遜于

H100,但功耗管理能力出色

.................................12圖20:

谷歌

TPU

v5e

架構

..................................................................12圖21:

谷歌

TPU

v4、TPU

v5e、TPU

v5p

參數(shù)對比

.............................................12圖22:

谷歌

TPU

v5e

單美元推理性能性價比提升

..............................................13圖23:

谷歌

TPU

v5e

延遲相較于

TPU

v4

進一步下降

...........................................13圖24:

TPU

v5e

Pod

可承載

2

萬億模型運行

...................................................

13圖25:

TPU

v6e(Trillium)同

TPU

v5e

參數(shù)對比

.............................................14圖26:

谷歌

Trillium

實現(xiàn)

99%的拓展效率(12

Pod)

........................................

14圖27:

谷歌

Trillum

TPU

v5p

拓展效率對比

................................................14圖28:

谷歌

Trillium

訓練效率對比(同

TPU

v5e)

............................................

14圖29:

谷歌

Trillium

MoE

架構模型訓練能力大幅提升

.......................................14圖30:

谷歌

Trillium

推理效率對比(同

TPU

v5e)

............................................

15圖31:

谷歌

Trillium

推理性價比對比(同

TPU

v5e)

..........................................15圖32:

TPUv4、TPUv5p、Ironwood

芯片參數(shù)對比

...............................................

15圖33:Ironwood(TPU

v7)峰值性能大幅提升

................................................16圖34:Ironwoord(TPU

v7)峰值能效大幅提升

...............................................16圖35:

各類穩(wěn)定幣占比

....................................................................17圖36:

USDT

USDC

對照表

.................................................................17圖37:

《穩(wěn)定幣條例》收益類型、政策要點及代表企業(yè)

........................................18請務必閱讀正文之后的免責聲明及其項下所有內容

3證券研究報告圖38:

穩(wěn)定幣利好“沙盒”參與者、跨境支付服務提供商、RWA項目方三種類型主體

..............18圖39:

穩(wěn)定幣支付縮短跨境交易結算時間

....................................................19圖40:

SWIFT

系統(tǒng)按貨幣統(tǒng)計平均匯款處理時間

...............................................

19圖41:

USDT

發(fā)行和流通過程

................................................................

19圖42:

穩(wěn)定幣全年每天

24

小時不間斷交易

...................................................19圖43:

RWA

項目實踐

.......................................................................20請務必閱讀正文之后的免責聲明及其項下所有內容

4證券研究報告AI

ASIC

芯片:市場規(guī)??焖僭鲩L,三大發(fā)展

趨勢逐漸明朗AI

Asic

芯片:

價格

、功率優(yōu)勢明顯

,市場規(guī)??焖僭鲩LAI

芯片分類:AI

芯片指專門用于運行人工智能算法且做了優(yōu)化設計的芯片,為滿

足不同場景下的人工智能應用需求,AI

芯片逐漸表現(xiàn)出專用性、多樣性的特點。

根據(jù)設計需求,AI

芯片主要分為中央處理器(CPU)、圖形處理器(GPU)、現(xiàn)場

可編程邏輯門陣列(FPGA)、專用集成電路(ASIC)等,相比于其他AI

芯片,ASIC具有性能高、體積小、功率低等特點。CPU->GPU->ASIC,ASIC

成為

AI

芯片重要分支。1)CPU

階段:尚未出現(xiàn)突破性的AI

算法,且能獲取的數(shù)據(jù)較為有限,傳統(tǒng)

CPU

可滿足算力要求;2)GPU

階段:2006年英偉達發(fā)布

CUDA

架構,第一次讓

GPU

具備了可編程性,GPU

開始大規(guī)模應用于AI

領域;3)ASIC

階段:2016

年,Google

發(fā)布

TPU

芯片(ASIC

類)

,ASIC

克服

GPU

價格昂貴、功耗高的缺點,ASIC

芯片開始逐步應用于AI領域,成為AI

片的重要分支。圖1:不同類型AI

芯片對比資料來源:AshutoshMishra

等著-《Artificial

IntelligenceandHardwareAccelerators》-2023

Springer

出版-P35,國信證券經

濟研究所整理優(yōu)勢一

:相比于

GPU

算力卡,AI

ASIC

芯片價格優(yōu)勢明顯由于

GPU

芯片強大的通用性、靈活性,其設計及流片成本較高,進而導致

GPU

平均單價較高。從歷史趨勢來看,根據(jù)IDC

統(tǒng)計數(shù)據(jù),2022-2024

年受AI

大模型

驅動,GPU

性能需求快速提升,進而導致

GPU

產品的平均單價快速提升(對應

22-24年

CAGR

53.1%)

,從短期來看,2024

GPU

平均單價為

8001

美元,AI

ASIC平均單價為

5236

美元,AI

ASIC

具備價格優(yōu)勢。從長期來看,根據(jù)

IDC

預測數(shù)據(jù),GPU

平均單價自

2025

年后穩(wěn)中有升,AI

ASIC

平均單價基本維穩(wěn),預計

2030

年GPU

AI

ASIC

平均單價分別為

10667、5851

美元,AI

ASIC

價格優(yōu)勢仍然明顯。請務必閱讀正文之后的免責聲明及其項下所有內容

5證券研究報告資料來源:

IDC,國信證券經濟研究所整理優(yōu)勢二:相比于

GPU

算力卡,AI

ASIC

芯片功率更低,能耗優(yōu)勢明顯由于AI

AISC

芯片偏定制化設計,專為特定任務(例如AI大模型的訓練或推理)

優(yōu)化,因此其在執(zhí)行特定任務時功率較低。根據(jù)IDC

統(tǒng)計數(shù)據(jù),在同等算力水平

下,AI

ASIC

的功率更低,能耗優(yōu)勢明顯(例如

Amazon

ASIC

芯片

Train

ium2

AMD

MI300A

比較,谷歌

ASIC

芯片

TPU

v6

AMD

MI325

比較,

Intel

的Gaudi3

同英偉達的

Blackw

ll

Ultra

比較)。資料來源:

IDC,國信證券經濟研究所整理AI

ASIC

市場規(guī)模:2024

148

億美金,預計

2030

年增長至

838

億美金ASIC

芯片在訓練、訓練&推理雙用AI

芯片領域,增速快于

GPU。根據(jù)IDC

披露數(shù)

據(jù),24Q4

英偉達、博通、AMD、Marvell、英特爾

AI

芯片收入占比分別為

86.5%、

7.6%、4.5%、1.3%、0.1%,其中英偉達和

AMD

GPU

算力卡,博通、Marvell

分請務必閱讀正文之后的免責聲明及其項下所有內容

6圖2:GPU

AIASIC

平均單價及預測圖3:AI

芯片算力和功率矩陣圖證券研究報告別為谷歌、亞馬遜定制

ASIC

芯片,英特爾為自研

ASIC

芯片,對博通、Marvell、

英特爾市占率進行加總,則

24Q4AI

ASIC

芯片占比為9.0%。分領域來看:

訓練用

AI

芯片:2024

年訓練用

AI

芯片

TAM

中,GPU、ASIC

分別為

350、66億美金,預計

2030

分別提升至

1559、354

億美金,對應

24-30

CAGR

為28.3%、

32.3%。

推理用

AI

芯片:2024

年推理用

AI

芯片

TAM

中,GPU、ASIC

分別為

119、44億美金,預計

2030

分別提升至

1392、272

億美金,對應

24-30

CAGR

為50.7%、

35.5%。

訓練&推理雙用

AI

芯片:2024

年訓練&推理雙用

AI

芯片

TAM

中,GPU、ASIC分別為

231、39

億美金,預計

2030

分別提升至

312、212

億美金,對應

24-30

CAGR

5.1%、32.6%。AI

ASIC

芯片市場規(guī)模、出貨量快速增長。從市場規(guī)模來看,根據(jù)IDC

披露數(shù)據(jù),

2024

GPU、AI

ASIC

芯片市場規(guī)模分別為

701、148

億美金,預計

2030

年分別

增長至

3263、838

億美金,對應

24-30

CAGR

分別為

29.2%、33.5%。從出貨量

來看,2024

GPU、AI

ASIC

芯片出貨量分別為

876、283

萬顆,預計

2030

年增

長至

2982、1431

萬顆,對應

24-30

CAGR

分別為

22.6%、31.0%,AI

ASIC

芯片

占比穩(wěn)步提升。請務必閱讀正文之后的免責聲明及其項下所有內容

7圖6:GPU、AIASIC

芯片市場規(guī)模情況(單位:十億美金)圖7:GPU、AIASIC

芯片出貨量情況(單位:萬顆)圖5:推理、訓練側芯片類型

TAM(2024vs2030)圖4:24Q4

各廠商AI

芯片收入占比資料來源:

IDC,國信證券經濟研究所整理資料來源:

IDC,國信證券經濟研究所整理資料來源:IDC,國信證券經濟研究所整理資料來源:IDC,國信證券經濟研究所整理證券研究報告復盤谷歌

TPU:更專用

、強算力

、大集群

、高能效谷歌

TPU

發(fā)展歷程:2015

年發(fā)布

TPU

v1,與使用通用

CPU

GPU

的神經網絡計算

相比,TPU

v1

帶來了

15-30

倍的性能提升和30-80

倍的能效提升,其以較低成本

支持谷歌的很多服務,僅可用于推理;18

年發(fā)布

TPU

v2,用于加速大量的機器學

習和人工智能工作負載,包括訓練和推理;20

年發(fā)布

TPU

v3,算力和功率大幅增

長,其采用了當時最新的液冷技術;22

年發(fā)布

TPU

v4(包括

TPU

v4i),應用

7nm工藝,晶體管數(shù)大幅提升,算力提升,功耗下降;23

年發(fā)布

TPU

v5e

TPU

v5p,

其中

TPU

v5e

專為提升大中型模型的訓練、推理性能以及成本效益所設計,使企

業(yè)能夠以更低的成本,訓練和部署更大、更復雜的AI模型;24

年發(fā)布第六代

TPU——Trillium,訓練、推理性能和能效比大幅提升,首次加入了專為

Transformer類大語言模型優(yōu)化的大規(guī)模

MLP(多層感知器)核心,與標準

TPU

核心協(xié)同工作,將

進一步提升大模型的訓練速度與效率,同時發(fā)布了基于Trillium

芯片的全新機架

系統(tǒng)

TPU

v6Pod,以滿足大規(guī)模集群部署的需要;25

年谷歌發(fā)布第七代

TPU——Ironwood,首款在其張量核和矩陣數(shù)學單元中支持

FP8

計算,同時

HBM

容量大幅

提升,可處理更大型的模型和數(shù)據(jù)集運算。圖8:谷歌

TPU

發(fā)展歷史資料來源:谷歌云,國信證券經濟研究所整理谷歌

TPU

v1:谷歌第一代

TPU

產品,僅可用于推理。TPU

v1

主要包括統(tǒng)一緩沖器

(Unified

Buffer)、矩陣乘法單元(MMU)、累加器(Accumulators)、激活流

水線電路(Activation

Pipeline)

、DDAM

等,其中統(tǒng)一緩沖器和矩陣乘法單元

面積占比最高,合計達53%。TPU

v1

工作流程:1)芯片啟動,緩沖區(qū)和

DDR3

為空

;2)用戶加載

TPU

編譯的

模型,將權重放入DDR3

內存;3)主機用輸入值填充激活緩沖區(qū);4)發(fā)送控制信

號將一層權重加載到矩陣乘法單元;5)主機觸發(fā)執(zhí)行,激活并通過矩陣乘法單元

傳播到累加器;6)通過激活流水線電路,新層替換緩沖區(qū)的舊層;7)重復步驟

4-7,直到最后一層;8)最后一層的激活被發(fā)送給主機。請務必閱讀正文之后的免責聲明及其項下所有內容

8證券研究報告資料來源:NorrieT

等-《TheDesignProcessforGoog

le’sTrainingChips:TPUv2and

TPUv3》-IEEE(2020)-P3,國信證券經濟研究所整理同時,TPU

v2

的內核數(shù)量和

MXU

利用率進一步提升。1)內核數(shù)量:TPU

v1

僅有

1

Tensor

Core,導致管道更為冗長

;TPU

v2

的內核數(shù)增加為

2

個,對編譯器

也更為友好。2)MXU

利用率:TPU

v1

MXU

包含

256*256

個乘積累加運算器,由

于部分卷積計算規(guī)模小于256*256,導致單個大核的利用率相對較低;而

TPU

v2谷歌

TPU

v2:架構大規(guī)模更新,增加訓練功能。谷歌

TPU

v2

是基于

TPU

v1

架構

的大規(guī)模更新,使其在推理的基礎上增加訓練功能,主要體現(xiàn)為以下三點:

更大的靈活性:訓練面對不同算法,需要更大的靈活性,TPU

v2

將ActivationStorage

和Accumulators

兩個相互獨立的緩沖區(qū)合并成一個

Vector

Memory,

進而提高可編程性;添加了可編程更高

Vector

Unit

,用于替代固定的

Act

ivat

ion

Pipe

l

ine。

更大的內存:訓練既需要讀取權重,也要寫入權重,所以將

DDR3

直接與VectorMemory

相連,并用

HBM

替代

DDR3,延遲更低,帶寬更大。

提供拓展能力(集群方案):為了加速訓練,通常會采用集群方案,添加

Interconnect

可以使其與其他

TPU

進行高效互換。圖11:TPUv1

TPUv2

架構演進資料來源:Norman

P.J

等-《

In-Datacenter

Performance

Analysis

ofa

Tensor

Processing

Unit》-ISCA(2017)-P3,國信證券經濟研究

所整理資料來源:Norman

P.J

等-《In-Datacenter

Performance

AnalysisofaTensorProcessingUnit》-ISCA(2017)-P3,國信證券經

濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容

9圖10:TPUv1

Block

Diagram圖9:TPUv1

Floor

Plan證券研究報告資料來源:Norr

ieT

等-《Goog

le’sTrainingChipsRevealed:TPUv2and

TPUv3》-IEEE(2020)-P49,

國信證券經濟研究所整理谷歌

TPU

v4:采用

7nm

生產工藝,性能大幅提升。從硬件提升來看,根據(jù)

GoogleCloud

數(shù)據(jù),TPU

v4

芯片包含

2

TensorCore,每個

TensorCore

包含

4

MXU,

TPU

v3

2

倍;同時,HBM

帶寬提升至

1200

GBps,相比上一代,提升

33.33%。

從峰值算力來看,TPU

v4

的峰值算力達

275TFLOPS,為

TPU

v3

峰值算力的

2.24

倍。谷歌

TPU

v3:延續(xù)

v2

架構,性能提升,首次采用液冷。TPU

V3

v2

架構的基礎上,矩陣乘法單元(MXU)數(shù)量提升翻倍,時鐘頻率加快

30%,內存帶寬加大

30%,HBM

容量翻倍,芯片間帶寬擴大了30%,可連接的節(jié)點數(shù)為先前

4

倍,性能大幅提

升;同時,首次采用液冷技術,峰值算力為

TPU

v2

2.67

倍,而

TDP

僅為

TPU

v2

1.61

倍,TDP

大幅優(yōu)化。圖14:TPUv3

延續(xù)

v2

架構,性能提升資料來源:Norrie

T

等-《The

Design

Process

for

Goog

le’s

TrainingChips:TPUv2and

TPUv3》-IEEE(2020)-P7,國信證券經濟研究所

整理資料來源

:NorrieT

等-《TheDesign

Processfor

Goog

le’sTrainingChips:TPUv2andTPUv3》-IEEE(2020)-P3,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容

10的單核

MXU

包含

128*128

個乘積累加運算器,在一定程度上,提升了MXU

利用率。圖12:TPUv2

芯片包含兩個相連的

TensorCore圖13:TPUv2

Floorp

lan證券研究報告資料來源:谷歌云,國信證券經濟研究所整理谷歌基于

TPU

v4

提出Cube

互聯(lián)架構(3D

拓撲架構),發(fā)布可重配置光互連技術。

谷歌提出將

4*4*4(64)個

TPU

v4

芯片連接成

1

個立方體結構(Cube),再將

4*4*4個立方體結構(Cube)連接成共有

4096

TPU

v4

芯片的超級計算機,其中物理

距離較近

TPU

v4

芯片(即同一個

Cube

中的

4*4*4

個芯片)采用常規(guī)電互聯(lián)方式,

距離較遠的

TPU(例如Cube

之間的互聯(lián))間用光互連。采用光互連技術可以有效

避免“芯片等數(shù)據(jù)”的情形出現(xiàn),進而提升計算效率。同時,TPU

v4

通過加入光

路開關(OCS)的方式,可以根據(jù)具體模型數(shù)據(jù)流來調整

TPU

之間的互聯(lián)拓撲,實

現(xiàn)最優(yōu)性能,根據(jù)《TPU

v4

:An

Optical

ly

Reconfigurable

Supercomputer

forMachine

Learning

with

Hardware

Support

for

Embeddings》數(shù)據(jù),可重配置光

互連技術可以將性能提升至先前的

1.2-2.3

倍。谷歌

TPU

v4

性能介于英偉達

A100

H100

之間。根據(jù)《TPU

v4:An

OpticallyReconfigurableSupercomputerforMachineLearn

ingwithHardwareSupportfor

Embeddings》數(shù)據(jù),TPU

v4

的性能表現(xiàn)在

BERT、ResNet、DLRM、RetinaNet、MaskRCNN

下分別為

A100

1.15x、1.67x、1.05x、1.87x

1.37x,性能表現(xiàn)優(yōu)

于英偉達

A100。同時,根據(jù)《AI

and

ML

Accelerator

Survey

and

Trends》數(shù)

據(jù),英偉達

H100

的峰值性能表現(xiàn)高于

TUP

v4,而

TUP

v4

作為

ASIC

芯片,在功

耗管理方面表現(xiàn)出色,峰值功率低于

H100。資料來源:NormanP.J

等-《TPUv4:AnOptical

lyReconfigurableSupercomputerforMach

ine

Learningwith

Hardware

Support

forEmbeddings》-ISCA(2023)-P3,國信證券經濟研究所整理資料來源:Norman

P.J

等-《TPU

v4:

An

Optical

ly

ReconfigurableSupercomputer

for

Mach

ine

Learning

with

Hardware

Support

forEmbeddings》-ISCA(2023)-P2,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容

11圖15:TPUv4MXU

數(shù)量翻倍,峰值算力大幅提升圖17:可重配置光互連技術提升計算機的穩(wěn)定性圖16:谷歌超級計算機互聯(lián)結構(Cube)證券研究報告谷歌

TPU

v5:分為

TPU

v5e

TPU

v5p

兩個版本。

TPU

v5e:訓推一體,強調成本效益“cost-efficient”和可拓展性。從芯

片架構來看,TPU

v5e

采用單

TensorCore

架構,每個

TensorCore

包含

4

矩陣乘法單元(MXU)、1

個向量單元和

1

個標量單元,基本延續(xù)了上一代的

架構。1)成本效益:TPU

v5e

HBM

顯存和帶寬降低(16GB

顯存基本可以承

載百億參數(shù)模型推理任務),且采用單

TensorCore

架構,成本大幅下降,同

時提升INT8

精度算力,結合軟硬件優(yōu)化,TPU

v5e

實現(xiàn)了每美元推理性價

比提升高達

2.5

倍,推理延遲降低

1.7

倍;2)可拓展性:根據(jù)谷歌云披露數(shù)

據(jù),單顆

TPU

v5e

芯片可以運行高達

130

億模型,可以拓展至

256

顆芯片,

運行2

萬億參數(shù)大模型。

TPU

v5p:專注于超大基礎模型訓練,算力、HBM、Pod

規(guī)模大幅提升,AI

型訓練速度、性價比表現(xiàn)出色。1)模型訓練速度:同

TPU

v4

相比,單一

Pod芯片數(shù)量從

4096

顆提升至

8960

顆,單卡算力、HBM

顯存是

TPU

v4

2

倍、

3

倍,根據(jù)谷歌云披露數(shù)據(jù),TPU

v5p

訓練速度是

TPU

v4

2.8

倍(以

1750億的

GPT-3

為例);2)性價比:根據(jù)谷歌云披露數(shù)據(jù),以

GPT-3

為例,TPU

v5p每美元芯片表現(xiàn)性價比是

TPU

v4

2.1

倍。資料來源:Norman

P.J

等-《TPU

v4:

An

Optical

ly

ReconfigurableSupercomputer

for

Mach

ine

Learning

with

Hardware

Support

forEmbeddings》-ISCA(2023)-P9,國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容

12資料來源:Reuther

A

等-《AI

and

ML

Accelerator

Survey

and

Trends》-IEEE(2022)-P3,國信證券經濟研究所整理圖19:谷歌

TPU

v4

性能表現(xiàn)略遜于H100,但功耗管理能力出色圖21:谷歌

TPUv4、TPUv5e、TPUv5p

參數(shù)對比圖18:谷歌

TPUv4

性能表現(xiàn)優(yōu)于英偉達A100資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理圖20:谷歌

TPUv5e

架構證券研究報告資料來源:谷歌云,國信證券經濟研究所整理谷歌

TPU

v6:發(fā)布第六代

TPU

Tri

llium(TPU

v6e),擁有接近線性的拓展能力,

訓練、推理性能大幅提升。Trillium(TPU

v6e)產品定位同

TPU

v5e

相同,訓推

一體算力卡,硬件架構延續(xù)了

TPU

v5e,在各精度算力、HBM

等維度做了大幅提升。1)接近線性的拓展能力:Trillium

通過高速芯片互聯(lián)、Jupiter

網絡連接,實現(xiàn)

在眾多

Trillium

主機上高效地分配工作負載,根據(jù)谷歌云披露數(shù)據(jù),3072

個Trillium(對應

12

Pod)對

1750

億的

GPT-3

模型進行預訓練,拓展效率達

99%。2)訓練、推理性能大幅提升:根據(jù)谷歌云披露數(shù)據(jù),相較于

TPU

v5e,Trillium對

GPT-3(1750

億參數(shù))、Llama-2(700

億參數(shù))等密集

LLM

的訓練速度分別提

3.24、4.0

倍,同時優(yōu)化對

MoE

架構模型的訓練能力;此外,與

TPU

v5e相比,Trillium

Stable

Diffusion

XL

上的離線推理相對吞吐量(每秒圖像數(shù))提高

3.1

倍,服務器推理相對吞吐量提高了2.9

倍。3)性比價持續(xù)提升:根據(jù)谷歌

云披露數(shù)據(jù),在

Trillium

上生成一千張圖像的成本,離線推理比

TPU

v5e

27%,

服務器推理

SDXL

TPU

v5e

22%。請務必閱讀正文之后的免責聲明及其項下所有內容

13圖23:谷歌

TPUv5e

延遲相較于

TPUv4

進一步下降圖22:谷歌

TPUv5e

單美元推理性能性價比提升圖24:TPUv5ePod

可承載

2

萬億模型運行資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理證券研究報告請務必閱讀正文之后的免責聲明及其項下所有內容

14圖29:谷歌

Trillium

MoE

架構模型訓練能力大幅提升圖26:谷歌

Trill

ium

實現(xiàn)

99%的拓展效率(12

Pod)圖28:谷歌

Trill

ium

訓練效率對比(同

TPUv5e)圖25:TPUv6e(Trill

ium)同

TPUv5e

參數(shù)對比圖27:谷歌

Trillum

TPUv5p

拓展效率對比資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理證券研究報告谷歌

TPU

v7:性能大幅提升,單

Pod

規(guī)模進一步擴大,能效表現(xiàn)優(yōu)秀。1)性能

大幅提升,單

Pod

規(guī)模進一步擴大:

Ironwood(TPU

v7)產品定位同

TPU

v5p

,為大規(guī)模的思考型

、推理型

AI

模型提供動力,單芯片峰值

Flops

4614

TFLOPS,約為

TPU

v5p

10x,HBM

容量、芯片間互聯(lián)(ICI)帶寬分別提升至

192GB、1.2TBps,單

Pod

尺寸進一步拓展至

9216

顆芯片,峰值性能大幅提升;2)能耗

表現(xiàn)優(yōu)秀:根據(jù)谷歌云披露數(shù)據(jù),以單芯片封裝每瓦熱設計功耗所提供的峰值

FP8Flops

衡量,

Ironwood

峰值能效是上一代

Trill

ium

2

倍,是

TPU

v2

29.3

倍。圖32:TPUv4、TPUv5p、Ironwood

芯片參數(shù)對比請務必閱讀正文之后的免責聲明及其項下所有內容

15圖31:谷歌

Trill

ium

推理性價比對比(同

TPUv5e)圖30:谷歌

Trill

ium

推理效率對比(同

TPUv5e)資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理證券研究報告通過復盤谷歌AI

ASIC

芯片發(fā)展歷史,AI

ASIC

芯片發(fā)展呈現(xiàn)出三個趨勢:

趨勢一:專用性持續(xù)增強,顆粒度更細。最初的

TPU

v1僅支持推理任務,TPUv2

可以支持訓練和推理任務,TPU

發(fā)展的前期是拓展芯片能力;2022

年谷歌

發(fā)布

TPU

v4

時,同時發(fā)布

TPU

v4i,其中

TPU

v4i

屬于lite

版本,適用于

推理任務。TPU

v5

分為了

TPU

v5e

TPU

v5p

兩個版本,其中

TPU

v5e

是訓

推一體,強調成本效益,而

TPU

v5p

性能強勁,專注于超大基礎模型訓練;

后續(xù)

Trill

ium、

Ironwood

分別走

TPU

v5e、TPU

v5p

路線,芯片應用場景更

細分,專用性顯著。

趨勢二:更強的算力、HBM

和集群能力。AI

ASIC

芯片的單卡算力持續(xù)提升,

選用更領先的

HBM(應對多模態(tài)任務)

,單

POD

芯片數(shù)量持續(xù)提升,集群拓

展效率逐步接近線性。

趨勢三:能效比持續(xù)提升。基于智算中心電力消耗巨大,AI

ASIC

芯片的能

效持續(xù)提升,例如以單芯片封裝每瓦熱設計功耗所提供的峰值

FP8Flops

量,

Ironwood

峰值能效是上一代

Trill

ium

2

倍,是

TPU

v2

29.3

;

同時,TPU

v3

開始配套液冷,液冷等新一代冷卻方式逐步應用。請務必閱讀正文之后的免責聲明及其項下所有內容

16圖34:Ironwoord(TPUv7)峰值能效大幅提升圖33:Ironwood(TPUv7)峰值性能大幅提升資料來源:谷歌云,國信證券經濟研究所整理資料來源:谷歌云,國信證券經濟研究所整理證券研究報告穩(wěn)定幣:香港政策落地,關注板塊投資機會香港《穩(wěn)定幣條例》

落地

以合規(guī)框架激活數(shù)字金融創(chuàng)新穩(wěn)定幣是一種旨在與某些資產(通常是貨幣)維持相對穩(wěn)定價值的虛擬資產。其

主要特征在于通過足額資產儲備或算法機制,將幣值保持與目標資產(如美元、

人民幣、黃金等)基本掛鉤,從而減小價格波動。穩(wěn)定幣既具備數(shù)字貨幣的便捷

性和透明度,又具備法幣資產的穩(wěn)定性,被廣泛用作區(qū)塊鏈生態(tài)中的“鏈上現(xiàn)金”。中心化模式的美元穩(wěn)定幣(USDT、USDC)為主導地位。按照維持價格穩(wěn)定的不同

機制劃分,穩(wěn)定幣的主要類型包括法幣支持型(以法幣為抵押,如

USDC、USDT、TUSD、GUSD)、加密貨幣支持型、商品支持型和算法型等。USDT、USDC作為美元

穩(wěn)定幣的代表,其監(jiān)管模式為香港法幣穩(wěn)定幣的合規(guī)化提供了參考范本,而香港

條例進一步強化了資本充足性(最低2500萬港元)與儲備隔離要求(定期審計

披露)。香港通過立法明確穩(wěn)定幣的定義與類型,為沙盒參與者的合規(guī)發(fā)行提供

了制度基礎,也為跨境支付、RWA等場景的落地鋪平了道路。香港于

2025

年5

21日正式通過《穩(wěn)定幣條例》,

旨在通過統(tǒng)一發(fā)牌制度、資

本與儲備監(jiān)管、跨境流通規(guī)范,解決穩(wěn)定幣行業(yè)長期存在的透明度不足、贖回風

險等問題,同時為合規(guī)機構開辟清晰的入場路徑,將香港打造成亞太地區(qū)穩(wěn)定幣

創(chuàng)新與監(jiān)管的標桿?!斗€(wěn)定幣條例》不僅是監(jiān)管框架,更是香港布局數(shù)字金融的

“場景激活器”。核心監(jiān)管邏輯:1)統(tǒng)一發(fā)牌制度:由香港金融管理局統(tǒng)一發(fā)牌,要求發(fā)行人實繳

資本≥2500萬港元,強化資本充足性;2)儲備資產隔離:穩(wěn)定幣需100%錨定

高流動性資產(如現(xiàn)金、國債),并通過獨立審計機構月度披露,確保每一枚穩(wěn)

定幣均有足額資產支撐;3)多法幣兼容:允許USDC、USDT等非港元穩(wěn)定幣合規(guī)

流通,同時支持未來港元穩(wěn)定幣(如圓幣科技HKDR)發(fā)行,形成“美元穩(wěn)定幣對

接國際市場+港元穩(wěn)定幣連接內地”的雙軌格局。主要受益方:

“沙盒”參與者、跨境支付服務提供商、RWA項目方三種類型主體

有望充分收益。請務必閱讀正文之后的免責聲明及其項下所有內容

17資料來源:銀銀平臺訂閱號,國信證券經濟研究所整理資料來源:CoinGecko,國信證券經濟研究所整理圖36:USDT

USDC

對照表圖35:各類穩(wěn)定幣占比證券研究報告資料來源:香港金管局官網,國信證券經濟研究所整理穩(wěn)定幣蓬勃發(fā)展

,跨境支付+RWA

有望收益跨境支付:支付效率與普惠性有望提升穩(wěn)定幣在交易速度、成本以及體制方面顯著優(yōu)于傳統(tǒng)跨境支付體系。穩(wěn)定幣基于

區(qū)塊鏈的點對點傳輸特性,既提升了全球資金流動效率、降低了交易成本,也拓

展了金融服務的覆蓋邊界。正顛覆傳統(tǒng)金融體系的“

中介依賴”模式,而香港憑

借區(qū)位優(yōu)勢與政策彈性,有望成為連接中國內地(C

IPS)與全球穩(wěn)定幣網絡的核

心樞紐。交易速度:繞開

SWIFT

體系的低效性。傳統(tǒng)跨境匯款依賴SWIFT電文系統(tǒng)與代

理銀行網絡,需經多級中轉,平均耗時1-3天,手續(xù)費高達5%-10%。穩(wěn)定幣基

于區(qū)塊鏈的點對點傳輸特性,實現(xiàn)了近乎實時的跨境轉賬(通常在幾秒至幾十秒

內完成)

,且

7×24小時運作,且單筆成本可壓縮至1

美元以內,若收發(fā)雙方

均接受穩(wěn)定幣結算,甚至可實現(xiàn)近乎零成本轉移。請務必閱讀正文之后的免責聲明及其項下所有內容

18圖38:穩(wěn)定幣利好“沙盒”參與者、跨境支付服務提供商、RWA項目方三種類型主體圖37:《穩(wěn)定幣條例》收益類型、政策要點及代表企業(yè)資料來源:香港金管局官網,國信證券經濟研究所整理證券研究報告減少限制:突破法幣兌換的中間壁壘。跨境交易涉及多幣種兌換時,傳統(tǒng)銀行體

系存在多重匯率加價(如美元→歐元→

日元需兩次兌換)

。穩(wěn)定幣作為錨定單一

法幣的數(shù)字等價物(如USDT錨定美元)

,可直接作為“

中間貨幣”完成多邊

兌換,減少匯率損失。普惠性:重構全球金融包容性格局。2022

年,全球范圍內仍有大約

17

億成年人

沒有銀行賬戶,但可通過智能手機使用穩(wěn)定幣錢包。2023

年,非洲數(shù)字支付的注

冊賬戶數(shù)達到了8.56

億個,占全球注冊賬戶的五成,并貢獻了全球注冊賬戶總增

長的

70%以上。這種“去中介化”模式使跨境支付從“精英服務”變?yōu)椤捌?/p>

惠工具”。RWA:賦能

RWA

資產鏈上化與全球流通我國RWA市場正處于快速發(fā)展期,呈現(xiàn)出多元且創(chuàng)新的態(tài)勢。穩(wěn)定幣通過價值錨

定、效率革命、合規(guī)護航、流動性激活,破解RWA項目的價格波動、跨境摩擦、

信任缺失與門檻高等痛點,有望使協(xié)鑫光伏、元隆文創(chuàng)等案例實現(xiàn)收益率提升、

成本下降、規(guī)模擴張、全球化滲透,為萬億級RWA市場奠定“技術+合規(guī)+

景”的落地基礎,推動傳統(tǒng)資產數(shù)字化轉型效率提升,重塑全球資產配置規(guī)則,請務必閱讀正文之后的免責聲明及其項下所有內容

19資料來源:Committee

on

Payments

and

MarketInfrastructures、

SwiftGP

I,國信證券經濟研究所整理資料來源:《Tether

白皮書:一種利用比特幣區(qū)塊鏈交易的法幣代幣》,國信證券經濟研究所整理圖40:SWIFT

系統(tǒng)按貨幣統(tǒng)計平均匯款處理時間圖42:穩(wěn)定幣全年每天

24

小時不間斷交易圖39:穩(wěn)定幣支付縮短跨境交易結算時間資料來源:Statrys,國信證券經濟研究所整理資料來源:VISA,國信證券經濟研究所整理圖41:USDT

發(fā)行和流通過程證券研究報告

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論