電子行業(yè)AI系列之NPU:專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器_第1頁
電子行業(yè)AI系列之NPU:專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器_第2頁
電子行業(yè)AI系列之NPU:專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器_第3頁
電子行業(yè)AI系列之NPU:專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器_第4頁
電子行業(yè)AI系列之NPU:專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

錄一、專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器、與GPU定位云端AI不同,NPU是端側(cè)AI時(shí)代新需求、NPU是專用加速芯片,適用于乘法累加運(yùn)算、NPU顯著提升AI模型運(yùn)行效率二、卡位端側(cè)下游,迎需求爆發(fā)三、產(chǎn)業(yè)趨勢:近存計(jì)算大趨勢,3D

DRAM+NPU方案有望受益四、海外大廠持續(xù)迭代推動(dòng)端側(cè)AI布局,國產(chǎn)廠商加速布局五、投資建議及風(fēng)險(xiǎn)提示23來源:《AI芯片:前沿技術(shù)與創(chuàng)新未來》,中泰證券研究所人工智能的發(fā)展主要依賴兩個(gè)領(lǐng)域的創(chuàng)新和演進(jìn):一是模仿人腦建立起來的數(shù)學(xué)模型和算法,其次是半導(dǎo)體集成電路AI芯片。AI的發(fā)展一直伴隨著半導(dǎo)體芯片的演進(jìn),1989年貝爾實(shí)驗(yàn)室的楊立昆(Yann

LeCun)等人一起開發(fā)了可以通過訓(xùn)練來識(shí)別手寫郵政編碼的神經(jīng)網(wǎng)絡(luò),但那個(gè)時(shí)期訓(xùn)練一個(gè)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional

Neural

Network,CNN)需要長達(dá)3天,因此無法實(shí)際使用。硬件計(jì)算能力的不足,導(dǎo)致了當(dāng)時(shí)AI科技泡沫的破滅。更高效的架構(gòu)有利于推動(dòng)AI加速成熟。英偉達(dá)早在1999年就發(fā)明了GPU,但直到2009年斯坦福大學(xué)才發(fā)表論文介紹了如何利用現(xiàn)代GPU實(shí)現(xiàn)遠(yuǎn)超過多核CPU的計(jì)算能力(超過70倍),把AI訓(xùn)練時(shí)間從幾周縮短到了幾小時(shí)。算力、模型一直是AI發(fā)展的要素,而芯片所代表的算力則是人工智能的底層基石。圖表:AI人工智能與半導(dǎo)體計(jì)算芯片發(fā)展歷程19401960198020002020突破模型“學(xué)習(xí)”的心理研究視覺皮層海馬位置細(xì)胞的時(shí)間編碼第一個(gè)晶體管感知器第一塊芯片第一塊CPU

(MCU)Hopfield網(wǎng)絡(luò)第一塊FPGA新的DNN算法第一塊GPU 類腦芯片神經(jīng)網(wǎng)絡(luò)芯片 基于深度學(xué)習(xí)的AI芯片4來源:《Competition

and

innovation

in

the

microprocessor

industry:

Does

AMD

spur

Intel

to

innovate

more》,JPR,Gartner,IDC,中泰證券研究所時(shí)間1970s-1980s1990s2000s2010s2020s階段性能提升初期競爭加劇,應(yīng)用拓展至個(gè)人/家用進(jìn)入多核時(shí)代,云服務(wù)興起異構(gòu)興起,數(shù)據(jù)中心需求增長架構(gòu)創(chuàng)新,ARM進(jìn)軍PC和服務(wù)器技術(shù)/供給端CPU由4位發(fā)展至32位,晶體管數(shù)量發(fā)展至120萬,傳統(tǒng)處理器架構(gòu)基本完善。1971-Intel4004-CPU誕生;1978-Intel8086-奠定X86指令集架構(gòu);1989-Intel80486實(shí)現(xiàn)了5級(jí)標(biāo)量流水線-CPU初步成熟。增至64位,晶體管數(shù)量發(fā)展至千萬級(jí);高速緩存技術(shù)取得突破。1993年Intel

推出Pentium系列采用了超標(biāo)量架構(gòu),能夠同時(shí)執(zhí)行多條指令,顯著提高了處理速度;1996年Intel增加MMX技術(shù)以增強(qiáng)對多媒體數(shù)據(jù)的處理能力;首次采用超標(biāo)量指令流水結(jié)構(gòu),被后續(xù)AMD銳龍和Intel酷睿等沿用;多家廠商加入競爭;1995年AMD推出支持X86的K5處理器,1994年IBM推出PowerPC

601

處理器被應(yīng)用于蘋果電腦,95年起PowerPC

603e被廣泛應(yīng)用于筆電。進(jìn)入多核時(shí)代,工藝制程進(jìn)步至納米級(jí)(最高至32nm),主頻突破1Ghz,采用多級(jí)緩存、超線程等技術(shù),計(jì)算性能大幅提升。2000年Intel發(fā)布Pentium

4,AMD

發(fā)布Athlon,突破1GHz;2001年IBM發(fā)布首款多核處理器;2002年我國發(fā)布首枚通用CPU;05-06年AMD/Intel

陸續(xù)推出雙核/多核處理器;07-10年,從雙核發(fā)展至八核乃至更多。工藝制程由32nm進(jìn)步至2020年的10nm;CPU

主頻突破3GHz,提升至16核心、32線程;CPU趨于模塊化的設(shè)計(jì)理念;CPU與GPU走向集成。2010年Intel推出首款桌面級(jí)6核處理器2011年AMD推出Bulldozer架構(gòu)FX系列,采用模塊化設(shè)計(jì);2016年左右多核技術(shù)走向普及(Intel/AMD堆核心數(shù));2017年AMD推出了Ryzen系列處理器,采用全新Zen架構(gòu)(chiplet設(shè)計(jì)),在高性能市場與Intel激烈競爭——AMD市占率觸底。架構(gòu)繼續(xù)優(yōu)化,ARM應(yīng)用至PC,工藝制程進(jìn)步至5nm;2020年Intel工藝瓶頸(7nm延期),導(dǎo)致Tick-Tock放緩,推動(dòng)行業(yè)轉(zhuǎn)向架構(gòu)優(yōu)化;2020年蘋果M1發(fā)布,5nm工藝,采用ARM架構(gòu),能效超越同期Intel筆記本CPU;2021年Arm發(fā)布Cortex-X2/A710架構(gòu),支持v9指令集,性能提升30%;2022年龍芯中科發(fā)布3A6000系列,基于LoongArch自主指令集,國產(chǎn)CPU擺脫X86/ARM依賴;2024年,高通發(fā)布驍龍X

Elite,應(yīng)用ARM架構(gòu),能效優(yōu)勢顯著。應(yīng)用/需求端PC-B端為主,少數(shù)走向小型企業(yè)乃至消費(fèi)者PC在家庭與辦公場景廣泛使用Windows

操作系統(tǒng)普及,辦公軟件和游戲高速發(fā)展云服務(wù)興起(06年誕生,09年起步入快速發(fā)展階段)促進(jìn)服務(wù)器需求并行計(jì)算軟件發(fā)展人工智能、深度學(xué)習(xí)等需求帶動(dòng)數(shù)據(jù)中心高增長。AI端側(cè)加速發(fā)展AI服務(wù)器需求爆發(fā)出貨量CAGR*/? +22%(1993-2000)? +8%2010-2016:-2.4%2016-2020:+7.5%-8.9%(2020-2023)*出貨量數(shù)據(jù)口徑:2016年以前為PC-based

CPU,2016年以后為PC+服務(wù)器

CPUCPU(Central

Processing

Unit)中央處理器:是計(jì)算機(jī)的運(yùn)算和控制核心(Control

Unit),是信息處理、程序運(yùn)行的最終執(zhí)行單元,主要功能是完成計(jì)算機(jī)的數(shù)據(jù)運(yùn)算以及系統(tǒng)控制功能。CPU早期的高增長主要源自技術(shù)進(jìn)步以及由此帶來的應(yīng)用拓展,2010年后則由需求端整體帶動(dòng)。CPU歷史上增速最高的時(shí)期是1990s,出貨量CAGR達(dá)到22%。供給端:AMD、IBM等芯片大廠加入競爭,多項(xiàng)核心技術(shù)取得重要突破;應(yīng)用端:PC由商用為主,向家庭場景普及,生產(chǎn)力(辦公軟件)與娛樂(游戲)應(yīng)用均蓬勃發(fā)展。2000s時(shí)代亦有良好增長,CAGR

8%,技術(shù)的加速迭代帶來應(yīng)用場景突破,云服務(wù)興起。2010年以后,CPU的增長主要在2020-2021年,疫情期間遠(yuǎn)程辦公場景帶來的PC和服務(wù)器需求增加。圖表:CPU發(fā)展脈絡(luò)梳理5來源:《The

history

of

GPU——Eras

andEnvironment》,中泰證券研究所?

與CPU串行計(jì)算不同,GPU側(cè)重并行計(jì)算。GPU(Graphics

Processing

Unit)最初是為了滿足計(jì)算機(jī)游戲等圖形處理需求而開發(fā)的,但憑借高并行計(jì)算和大規(guī)模數(shù)據(jù)處理能力,逐漸開始用于通用計(jì)算;GPGPU

(通用GPU)減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計(jì)算中,同時(shí)增加了專用向量、張量、矩陣運(yùn)算指令,提升了浮點(diǎn)運(yùn)算的精度和性能,以實(shí)現(xiàn)人工智能、專業(yè)計(jì)算等加速應(yīng)用。早期傳統(tǒng)圖形處理器階段(1980s-1990s中期以前):內(nèi)置了一系列專用運(yùn)算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等;固定功能階段(1999年):NV發(fā)布GeForce

256,

首次提出GPU概念,接管CPU的坐標(biāo)變換和光照計(jì)算功能;可編程shader階段(2000-2005):NV率先引入了可編程的頂點(diǎn)和像素shader,標(biāo)志著

GPU

從固定功能向可編程轉(zhuǎn)變;通用轉(zhuǎn)型階段(2006-2009):2006年NV推出CUDA平臺(tái),支持GPU通用編程,

開啟GPGPU時(shí)代,Tesla架構(gòu)首次采用統(tǒng)一shader模型,標(biāo)志著GPU從獨(dú)立功能單元轉(zhuǎn)變?yōu)橥ㄓ酶↑c(diǎn)處理器,能執(zhí)行更廣泛的任務(wù);計(jì)算shader階段(2009-2015):GPU突破傳統(tǒng)圖形處理的范疇,在非圖形任務(wù)中發(fā)揮作用,如流處理和物理加速,采用SIMD架構(gòu)與多線程管理;GPU在科學(xué)計(jì)算等領(lǐng)域得到應(yīng)用,軟件生態(tài)蓬勃發(fā)展,GPU成為一種重要的通用計(jì)算設(shè)備;光線追蹤與AI階段(2015-2020):光線追蹤是一種高質(zhì)量渲染方法,隨著

GPU

性能的大幅提升和硬件架構(gòu)的改進(jìn),得以在實(shí)時(shí)渲染中得到應(yīng)用,能呈現(xiàn)更逼真的圖像,以

NV為代表的公司將深度學(xué)習(xí)超級(jí)采樣(DLSS)技術(shù)引入

GPU,通過AI

技術(shù)實(shí)現(xiàn)了在保持高質(zhì)量圖像的同時(shí)提高渲染速度,廠商在

GPU

中增加了專門的光線追蹤加速器核心(如

NV的

RT

核心)和AI

處理核心(如

NV的

Tensor核心);Mesh

shader階段(2020-2023):GPU算力提升至新臺(tái)階,Mesh使

GPU

能夠更高效地處理復(fù)雜的幾何圖形,通過線程協(xié)作生成緊湊的網(wǎng)格(meshlets),減少了傳統(tǒng)方法中的冗余計(jì)算和數(shù)據(jù)的傳輸,在游戲、VR、AR等方面有重要應(yīng)用前景。6來源:《The

history

of

GPU——Eras

and

Environment》,中泰證券研究所圖表:GPU演變的六階段劃分圖表:Mesh

shader開啟時(shí)的幀率(FPS)提升730%來源:53AI,OneFlow公眾號(hào),中泰證券研究所7?

傳統(tǒng)CPU及GPU架構(gòu)在處理AI任務(wù)時(shí)面臨的瓶頸包括:算力、功耗、成本、內(nèi)存/帶寬瓶頸等。CPU的主要局限在于計(jì)算并行能力不足:傳統(tǒng)的

CPU

架構(gòu)在設(shè)計(jì)上更側(cè)重于順序執(zhí)行和復(fù)雜邏輯控制,其核心數(shù)量和并行處理能力相對有限,在處理

AI

相關(guān)任務(wù)時(shí)速度較慢,無法滿足AI

應(yīng)用的需求。GPU的主要局限在于功耗和成本:GPU擅長云端的大數(shù)據(jù)集計(jì)算,端側(cè)的計(jì)算數(shù)據(jù)量相對云端更小,同時(shí)對功耗有嚴(yán)格限制,疊加成本因素,端側(cè)應(yīng)用受限。CPU與GPU均有內(nèi)存及批處理限制問題:CPU和GPU計(jì)算過程均存在內(nèi)存瓶頸,需要采用批處理方式加載數(shù)據(jù)和權(quán)重進(jìn)行計(jì)算,難以同時(shí)滿足高吞吐量和低延遲的需求。特性NPUGPU設(shè)計(jì)初衷專用于神經(jīng)網(wǎng)絡(luò)計(jì)算最初用于圖形渲染,現(xiàn)廣泛用于通用計(jì)算計(jì)算能力高效的神經(jīng)網(wǎng)絡(luò)推理強(qiáng)大的并行計(jì)算能力,主要用于云端靈活性專用硬件,較低的靈活性通用性高,可以編程實(shí)現(xiàn)各種計(jì)算任務(wù)能效比高相對較低典型應(yīng)用深度學(xué)習(xí)推理,邊緣計(jì)算,實(shí)時(shí)處理圖形渲染,深度學(xué)習(xí)訓(xùn)練和推理,科學(xué)計(jì)算圖表:NPU與GPU區(qū)別來源:IDC,中泰證券研究所8NPU是專門的神經(jīng)網(wǎng)絡(luò)加速器,主要用于AI相關(guān)計(jì)算加速。NPU(Neural

Processing

Unit)即神經(jīng)網(wǎng)絡(luò)處理單元,采用專門優(yōu)化的神經(jīng)網(wǎng)絡(luò)計(jì)算架構(gòu),來處理特定的任務(wù),主要被用于加速計(jì)算。通過對NPU硬件層面優(yōu)化,能高效處理神經(jīng)網(wǎng)絡(luò)算法中矩陣乘法、卷積等數(shù)學(xué)運(yùn)算。相較于GPU和CPU,NPU在AI計(jì)算上性能和能效有了明顯提升,用來提高AI算法運(yùn)行效率。NPU最早來自FPGA,大廠持續(xù)更新迭代。早期NPU主要基于高度靈活性和可編程性的FPGA實(shí)現(xiàn)。2010年,斯坦福大學(xué)研究人員提出了一種基于FPGA的神經(jīng)網(wǎng)絡(luò)加速器,可以實(shí)現(xiàn)高效的神經(jīng)網(wǎng)絡(luò)計(jì)算,隨后使用FPGA設(shè)計(jì)NPU成為趨勢。2013年,谷歌論文中介紹一款名為“Tensor

Processing

Unit”(TPU)的定制ASIC芯片,推動(dòng)NPU發(fā)展。2018年,華為隨后也推出了AscendNPU,其獨(dú)特的“達(dá)芬奇架構(gòu)”支持廣泛的AI應(yīng)用場景。后續(xù)蘋果于2017年發(fā)布首款端側(cè)NPU芯片A11。圖表:CPU與NPU架構(gòu)來源:高通官網(wǎng),

chipsandcheese,中泰證券研究所9?

NPU泛指專門用于加速神經(jīng)網(wǎng)絡(luò)計(jì)算的處理器,主要用于推理場景,以高通NPU舉例,主要架構(gòu)資源包括:1)處理器執(zhí)行的三種指令集(

Scalar

、

Vector

、

Tensor

)、2)緊密耦合內(nèi)存(TCM)

、3)

DMA/BUS

L2

緩存:標(biāo)量指令集(Scalar):用于控制流和通用計(jì)算;32

位標(biāo)量單元,每線程上下文

32

個(gè)寄存器,功能強(qiáng)大,能夠獨(dú)立處理輕量級(jí)DSP任務(wù)向量指令集(Vector):用于通用數(shù)據(jù)并行計(jì)算,應(yīng)用于DNN工作負(fù)載;有

32

個(gè)

1024

位向量寄存器和對應(yīng)執(zhí)行管道,線程需請求訪問,減少寄存器文件需求和功耗張量指令集(Tensor):用于矩陣乘法和卷積層計(jì)算,為優(yōu)化機(jī)器學(xué)習(xí)矩陣乘法,加入張量協(xié)處理器,每秒可完成

16K

乘累加(MAC)操作,通過優(yōu)化數(shù)據(jù)局部性提升計(jì)算效率,如輸出固定、卷積激活重用等,軟件負(fù)責(zé)組織數(shù)據(jù)。緊密耦合內(nèi)存(TCM):位于多線程區(qū)域和張量計(jì)算區(qū)域之間,用于數(shù)據(jù)快速交互,帶寬高、可避免

DDR

延遲。DMA/BUS

L2

緩存:位于左側(cè),用于數(shù)據(jù)的傳輸和存儲(chǔ)。圖表:

Hexagon

NPU經(jīng)典架構(gòu)來源:《基于多塊卷積變分信息瓶頸的多變量動(dòng)態(tài)過程故障診斷》,中泰證券研究所圖表:CNN網(wǎng)絡(luò)結(jié)構(gòu)圖10NPU專用于AI運(yùn)算,核心是矩陣乘法運(yùn)算,CNN是主要算法之一,本質(zhì)上由大量的乘法累加計(jì)算組成。CNN是一種專門用于處理具有網(wǎng)格狀結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)算法,廣泛應(yīng)用于圖像分類、目標(biāo)檢測和語義分割等,包含卷積層、池化層和全連接層。以圖像處理為例,卷積神經(jīng)網(wǎng)絡(luò)需要將大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量。神經(jīng)網(wǎng)絡(luò)卷積層通過卷積核掃描圖片,提取圖片局部特征。再通過池化層對數(shù)據(jù)進(jìn)行降維和防止過擬合,最后在全連接層輸出。如圖所示,卷積的本質(zhì)就是簡單乘積和運(yùn)算,小矩陣(卷積核)上的元素和輸入矩陣對應(yīng)數(shù)據(jù)相乘并求和,輸出矩陣單個(gè)值,這個(gè)過程在輸入的矩陣上移動(dòng)進(jìn)行,從而生成整個(gè)更低維的輸出矩陣。相應(yīng)處理這種運(yùn)算的單元被稱為乘積累加器,MAC運(yùn)算的操作就是計(jì)算兩個(gè)數(shù)的乘積并將該乘積添加到累加器中,即a

a

+(

b

×

c

)。圖表:卷積層運(yùn)算步驟,由5*5轉(zhuǎn)換成3*3矩陣來源:百度智能云千帆社區(qū),Easyai,中泰證券研究所11NPU指令集(ISA)契合神經(jīng)網(wǎng)絡(luò)任務(wù)。NPU指令集經(jīng)過了專門的優(yōu)化,包含ADD加法、MULT矩陣乘法、DOT矩陣點(diǎn)乘、CONV卷積操作等指令,適合神經(jīng)網(wǎng)絡(luò)任務(wù),指令的執(zhí)行效率和吞吐量更高。卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)是MAC計(jì)算。卷積神經(jīng)網(wǎng)絡(luò)需要將大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量。神經(jīng)網(wǎng)絡(luò)卷積層通過卷積核掃描圖片,提取圖片局部特征。再通過池化層對數(shù)據(jù)進(jìn)行降維和防止過擬合,最后在全連接層輸出。如下圖所示,卷積的本質(zhì)就是簡單乘積和運(yùn)算,小矩陣(卷積核)上的元素和輸入矩陣對應(yīng)數(shù)據(jù)相乘并求和,輸出矩陣單個(gè)值,這個(gè)過程在輸入的矩陣上移動(dòng)進(jìn)行,從而生成整個(gè)更低維的輸出矩陣。相應(yīng)處理這種運(yùn)算的單元被稱為乘積累加器,MAC運(yùn)算的操作就是計(jì)算兩個(gè)數(shù)的乘積并將該乘積添加到累加器中。圖表:輸入矩陣和小矩陣相乘,生成輸出矩陣 圖表:CNN的矩陣乘加運(yùn)算示意來源:《基于多塊卷積變分信息瓶頸的多變量動(dòng)態(tài)過程故障診斷》,中泰證券研究所圖表:矩陣相乘示意圖12MAC(Multiply-Accumulate)是NPU中的基本單元,主要反應(yīng)NPU的算力水平,占芯片主要面積。MAC是相乘和相加的兩個(gè)過程(即a

a+

(

b

×

c)

),在硬件電路單元中稱為“乘數(shù)累加器”,因此可以通過一個(gè)MAC指令完成乘加兩個(gè)指令操作,適用于卷積運(yùn)算、點(diǎn)積運(yùn)算、矩陣運(yùn)算等,廣泛使用于神經(jīng)網(wǎng)絡(luò)加速以及其他需要高效數(shù)學(xué)計(jì)算的領(lǐng)域,本質(zhì)上MAC的運(yùn)算能力即反應(yīng)NPU的算力水平。一個(gè)典型的MAC陣列由多個(gè)MAC單元組成,每個(gè)MAC單元會(huì)獨(dú)立進(jìn)行乘法累加運(yùn)算,通過并行及流水線技術(shù)提升整體性能。假設(shè)一個(gè)4*4的MAC陣列,則表示4行4列共計(jì)16個(gè)MAC單元,如昇騰310包含64*64陣列即4096

MACs矩陣,特斯拉FSD為96*96陣列即9216

MACs。NPU使用MAC陣列做神經(jīng)網(wǎng)絡(luò)加速時(shí),如卷積運(yùn)算、矩陣運(yùn)算、點(diǎn)積運(yùn)算等均可分解成數(shù)個(gè)MAC指令從而提升效率。圖表:特斯拉Dojo

Core架構(gòu)來源:CSDN,中泰證券研究所13FLOPS(Floating

Point

Operations

Per

Second)即每秒浮點(diǎn)運(yùn)算次數(shù),代表浮點(diǎn)運(yùn)算速度。浮點(diǎn)計(jì)數(shù)是利用浮動(dòng)小數(shù)點(diǎn)的方式,使用不同長度的二進(jìn)制來表示一個(gè)數(shù)字,一般采用4個(gè)字節(jié)即32位二進(jìn)制來表達(dá)一個(gè)數(shù)字,因此FP32/FP64/FP16分別代表單精度、雙精度、半精度。FP64常用于對精度要求高的科學(xué)計(jì)算或超算,AI深度學(xué)習(xí)主要用FP32或FP16。算力(Tops)是衡量NPU性能的常見指標(biāo),理論峰值=MAC矩陣行*MAC矩陣列*主頻*2。MAC直接反映NPU算力水平:假設(shè)NPU內(nèi)置一個(gè)N*Y的MAC矩陣,則算力理論峰值=MAC矩陣行*MAC矩陣列*主頻*2,其中2為兩次運(yùn)算,即一次乘法加一次加法,主頻決定NPU及其MAC單元運(yùn)算的時(shí)鐘速度。以特斯拉FSD為例,每個(gè)NPU擁有96x96

MAC,主頻為2GHz,則單個(gè)NPU的TOPs為96

*96*

2

*

2G

=

36.86TOPS。圖表:不同數(shù)據(jù)格式的構(gòu)成與應(yīng)用

圖表:不同格式浮點(diǎn)表示數(shù)據(jù)格式 構(gòu)成 用途FP64 1位符號(hào)、11位指數(shù)、52位尾數(shù) 常用于對精度要求高的科學(xué)計(jì)算FP32 1位符號(hào)、8位指數(shù)、23位尾數(shù) 深度學(xué)習(xí)模型訓(xùn)練的常見格式TF321位符號(hào)、8位指數(shù)、10位尾數(shù)替代FP32數(shù)據(jù)格式實(shí)現(xiàn)深度學(xué)習(xí)和HPC計(jì)算加速FP161位符號(hào)、5位指數(shù)、10位尾數(shù)深度學(xué)習(xí)越來越偏向使用FP16BF161位符號(hào)、5位指數(shù)、7位尾數(shù)提升AI模型的推理速度和布置零后續(xù)INT88個(gè)bit表示一個(gè)字INT8精度相對較低,常用于AI模型的端側(cè)推理*圖中VGG/VocNet/YOLO

均為DNN(深度學(xué)習(xí)模型),分別用于人臉識(shí)別/多目標(biāo)識(shí)別/檢測圖像中的物體。來源:Efficient

Execution

ofDeep

Neural

Networks

on

MobileDevices

with

NPU,中泰證券研究所14圖表:對比CPU和NPU運(yùn)行3種DNN模型*的表現(xiàn)對于部分DNN模型,NPU單獨(dú)運(yùn)行即可在保持精度幾乎無損的同時(shí)顯著減少處理時(shí)間;三星NPU案例:運(yùn)行3種DNN模型,NPU

運(yùn)行速度比

CPU

95%甚至以上。但不同模型在

NPU

上的精度損失不同,VGG模型幾乎沒有損失,VocNet

精度損失

30%,YOLO

損失50%以上。精度損失一是因?yàn)镹PU特性,二也取決于模型種類。NPU

僅支持

FP16

運(yùn)算,并使用

FP16

存儲(chǔ)每一層的中間結(jié)果,浮點(diǎn)溢出或下溢會(huì)引起使用FP16

時(shí)的數(shù)值不穩(wěn)定性;VocNet

模型和

Yolo

模型比

VGG

模型更復(fù)雜,VGG

模型是比較從人臉圖像中提取的兩個(gè)特征向量之間的相似度,NPU

引入的小誤差可能會(huì)改變特征向量中的值,但絕大多數(shù)情況下不會(huì)影響結(jié)果,但VocNet

Yolo

特征向量中的每個(gè)值都代表一個(gè)物體的類別、位置或大小,NPU

引入的一個(gè)小誤差就可能完全改變預(yù)測結(jié)果。來源:

Efficient

Execution

of

Deep

Neural

Networks

on

Mobile

Devices

with

NPU,中泰證券研究所15圖表:NPU在YOLO模型各層上運(yùn)行的表現(xiàn) 圖表:利用MLMP算法分區(qū)運(yùn)行YOLO模型可兼容效率與精度Min-TimeMax-Accuracy?

對于精度影響較大的模型,采用分區(qū)運(yùn)行方案,仍能控制精度且減少處理時(shí)間:將NPU運(yùn)行精度較差的YOLO模型拆解至各層,NPU在其中很多層上的運(yùn)行仍具備較高性價(jià)比(時(shí)間大幅減少的同時(shí)精度影響很小)。采用MLMP(Machine

Learningbased

Model

Partition)算法將不同層分區(qū)在CPU和NPU上分別運(yùn)行,無論是對精度要求較高的應(yīng)用(

Max-Accuracy,如安全識(shí)別類應(yīng)用),還是對處理時(shí)間敏感的應(yīng)用(

Min-Time,如實(shí)時(shí)視頻處理),都能提供較好的支持。Min-Time場景:算法從所有層均從CPU上運(yùn)行開始,逐漸將處理時(shí)間長的層移到NPU

上以減少整體處理時(shí)間,NPU

承擔(dān)的負(fù)載會(huì)逐漸增加,直到達(dá)到精度要求的邊界;Max-Accuracy場景:算法從所有層在

NPU

上運(yùn)行開始,隨著時(shí)間約束的變化,將部分對精度影響較大且在

NPU

上運(yùn)行精度損失不可接受的層移到

CPU

上。目

錄一、專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器二、卡位端側(cè)下游,迎需求爆發(fā)Al端側(cè)爆發(fā)在即,NPU有望快速上量GenAI手機(jī):AI算力提升帶來需求端爆發(fā)AI

PC:個(gè)人大模型最佳載體之一,NPU滲透率望快速提升汽車:智駕滲透率提升+GenAI模型應(yīng)用,驅(qū)動(dòng)更高算力需求機(jī)器人:技術(shù)創(chuàng)新與需求共振迎爆發(fā)三、產(chǎn)業(yè)趨勢:近存計(jì)算大趨勢,3D

DRAM+NPU方案有望受益

四、海外大廠持續(xù)迭代推動(dòng)端側(cè)AI布局,國產(chǎn)廠商加速布局

五、投資建議及風(fēng)險(xiǎn)提示16來源:高通官網(wǎng),中泰證券研究所17?

NPU專為實(shí)現(xiàn)以低功耗加速AI推理而設(shè)計(jì),伴隨新AI應(yīng)用、模型與需求的發(fā)展,NPU有望快速上量。早期(2015年前)NPU面向音頻和語音AI,基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN),主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算;

2016

年起,順應(yīng)圖像和視頻AI

需求,出現(xiàn)基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度CNN

等復(fù)雜新模型,工作負(fù)載需大量張量數(shù)學(xué)運(yùn)算,NPU

增加張量加速器和卷積加速,配置大共享內(nèi)存和專用硬件提升性能,降低內(nèi)存帶寬占用和能耗;2023年后,LLM和LVM(大視覺)模型提升至百億級(jí)參數(shù)以上,除計(jì)算需求外,NPU還需考慮內(nèi)存和系統(tǒng)設(shè)計(jì),提高性能和能效。圖表:NPU迭代伴隨AI應(yīng)用場景的持續(xù)演進(jìn)來源:《基于多塊卷積變分信息瓶頸的多變量動(dòng)態(tài)過程故障診斷》,IDC,Counterpoint,中泰證券研究所18363.6%73.1%69.8%20.1%-50%10.3%

0%50%100%150%200%250%300%350%400%020040060080010001200140020232024E2025E2026E2027E2028EGenAIsmartphoneyoy-GenAI(右軸)Basicsmartphoneyoy-Basic(右軸)?

在智能手機(jī)上運(yùn)行端側(cè)生成式AI(如Stable

Diffusion和部分LLM)的AI

算力門檻約為30TOPS,旗艦智能機(jī)在2021-22年逐步達(dá)到這一標(biāo)準(zhǔn)、且仍在進(jìn)步,預(yù)計(jì)2025年將達(dá)到60TOPS以上。根據(jù)IDC預(yù)測,全球生成式AI智能手機(jī)的出貨量在2023-2028的CAGR將達(dá)到78%,2028年出貨量將增長至9.1億部;2024年是GenAI手機(jī)爆發(fā)元年(yoy:364%)。生成式AI應(yīng)用的繁榮,將驅(qū)動(dòng)所需算力的實(shí)質(zhì)性增長。根據(jù)高通白皮書,每天基于生成式AI的搜索查詢超過100億次,其中移動(dòng)端占比超過60%;智能手機(jī)基于精準(zhǔn)的端側(cè)用戶畫像,與大模型結(jié)合,伴隨對話功能的不斷改進(jìn),將逐步成為真正的個(gè)人助手。據(jù)Counterpoint預(yù)測,2027年GenAI手機(jī)端側(cè)整體AI算力將會(huì)達(dá)到50000EOPS以上。圖表:GenAI/Basic

smartphone出貨量(百萬臺(tái)) 圖表:旗艦智能手機(jī)AI峰值算力(TOPS)來源:Oppo官網(wǎng),中國三星公眾號(hào),OriginOS原系統(tǒng),安第斯智能云,IT之家,新浪財(cái)經(jīng),中國基金報(bào),上海證券報(bào),澎湃新聞,中泰證券研究所2023年起,國內(nèi)外手機(jī)廠商均逐步開始測試接入AI大模型。2024年端側(cè)內(nèi)嵌的大模型參數(shù)多數(shù)在30億左右,最高可跑通百億級(jí)以上。19圖表:手機(jī)廠商已普遍內(nèi)嵌AI大模型。202320242025OriginOS4搭載藍(lán)心大模型ColorOS14搭載AndesGPT大模型MagicOS

9.0支持30億參數(shù)的端側(cè)大語言模型iOS18發(fā)布AppleIntelligence大模型(端側(cè)30億),并積極與OPENAI和谷歌接觸YOYO智能體商店上線DeepSeek-R1嘗鮮版宣布折疊旗艦

OPPO

FindN5

接入

DeepSeek-R1Origin

OS5搭載全新藍(lán)心大模型矩陣(最高端側(cè)跑通130億參數(shù))OriginOS官宣將深度融合滿血版DeepSeekGalaxy

Z

系列首次引入谷歌Gemini

Nano大模型(端側(cè)約30億)推出自有生成式多模態(tài)AI模型Gauss2;Bixby接入智譜智能AI宣布年內(nèi)國行機(jī)引入通義大模型自研大模型Gauss與中國多廠商測試大模型大模型升級(jí)為AndesGPT-2.0(端側(cè)70億)逐步開始引入Harmony

OS4接入盤古大模型小藝接入DeepSeekHarmonyOS

NEXT搭載盤古大模型5.0(端側(cè)15-70億)來源:高通官網(wǎng),中泰證券研究所20?

如何分配工作負(fù)載:1、高通傳感器中樞:用戶與

AI

助手交談時(shí),語音通過

OpenAI

的自動(dòng)語音識(shí)別(ASR)生成式

AI

模型

Whisper

轉(zhuǎn)化為文本。2、NPU:AI

助手使用大語言模型

Llama

2

-

7B

生成文本回復(fù)。3、CPU

:運(yùn)行的開源TTS

模型,將文本轉(zhuǎn)化為語音。4、NPU:虛擬化身渲染須與語音輸出同步以實(shí)現(xiàn)真實(shí)用戶交互界面,借助音頻創(chuàng)建融合變形動(dòng)畫(blendshape)為嘴形和面部表情帶來合適動(dòng)畫效果。5、GPU:最終的虛擬化身渲染。圖表:AI助手如何利用高通AI引擎的多樣化處理器來源:高通官網(wǎng),中泰證券研究所21生成式AI用例分三類,且新應(yīng)用場景在不斷迭代出現(xiàn):1、按需型,由用戶觸發(fā)、需立即響應(yīng),如拍照、圖像編輯、代碼生成、文本創(chuàng)作等;2、持續(xù)型,運(yùn)行時(shí)間較長,如語音識(shí)別、實(shí)時(shí)翻譯、視頻通話的音視頻處理等;3、泛化型,后臺(tái)持續(xù)運(yùn)行,如始終開啟的預(yù)測性AI助手等。不同處理器的優(yōu)勢:CPU:順序控制和即時(shí)性-小模型GPU:并行數(shù)據(jù)流處理NPU:標(biāo)量、向量、和張量的數(shù)學(xué)運(yùn)算,可用于核心AI工作負(fù)載。?

疊加考慮手機(jī)、PC等終端的功耗和散熱限制,支持處理多樣性的異構(gòu)計(jì)算架構(gòu)能發(fā)揮不同處理器的優(yōu)勢。圖表:NPU主要承接低功耗下需要高峰值性能的AI功能*新款芯片部分?jǐn)?shù)據(jù)來自訪談口徑來源:IDC,高通/蘋果官網(wǎng),中泰證券研究所22圖表:主流智能手機(jī)的NPU芯片參數(shù)公司型號(hào)SOCNPU發(fā)布年份 制程 核心數(shù) 峰值算力(TOPS)所用內(nèi)存

內(nèi)存容量(GB)峰值內(nèi)存帶寬(GB/s)---高通驍龍

8Gen5驍龍

8Gen4驍龍

8Gen3驍龍

888驍龍

8Gen2驍龍

865HexagonTensorNPUHexagon8thGenHexagon

780Hexagon

780Hexagon

698暫未正式發(fā)布202420222021202120193nm3nm7nm5nm7nm7nm8 60(AI綜合算力:90)8 40(AI綜合算力:80)

LPDDR5x8 30(AI綜合算力:78)

LPDDR4X88815157LPDDR5LPDDR4XLPDDR524/32243224161696516844驍龍

855Hexagon

6907nm831634驍龍

820Hexagon

6802018201514nm40.5LPDDR4XLPDDR4826蘋果A18

ProA18A17

ProA16A15A14A13A12A112024202420232022202120202019201820173nm3nm3nm4nm5nm5nm7nm7nm10nm1616161616168823535351715.811650.6LPDDR5XLPDDR5XLPDDR5LPDDR5LPDDR4XLPDDR4XLPDDR4XLPDDR4XLPDDR4X888644432606051513434343434開始支持端側(cè)百億以上參數(shù)模型以順暢運(yùn)行GenAI模型的算力門檻30TOPS計(jì),高通/蘋果分別自2022/2023年起發(fā)布的芯片達(dá)到這一標(biāo)準(zhǔn)。2024年推出的Apple

Intelligence,有望成為蘋果AI創(chuàng)新大周期起點(diǎn)。1)大模型研發(fā)持續(xù)推進(jìn):從Core

ML架構(gòu)到MM1大模型再到端側(cè)OpenELM;2)芯片:A/M芯片均采用CPU+GPU+NPU架構(gòu),AI算力提升為端側(cè)AI提供硬件支持;3)強(qiáng)大AI技術(shù)體系:2010年以來收購了30+家AI初創(chuàng)公司。Apple

Intelligence元年,望成蘋果AI大周期起點(diǎn)來源:IDC,《AI

PC產(chǎn)業(yè)(中國)白皮書》,中泰證券研究所23AI

PC加速滲透。隨大模型計(jì)算負(fù)載部分下沉至本地,個(gè)人大模型的需求日益增長,其普惠要求正契合PC端優(yōu)勢。

AI

PC是包含AI模型、應(yīng)用以及硬件設(shè)備的混合體,能為用戶提供通用場景下的個(gè)性化服務(wù),提升生產(chǎn)力,同時(shí)降低大模型使用成本,并提升隱私保障度,據(jù)IDC預(yù)測,至28年預(yù)計(jì)AI

PC滲透率98%,當(dāng)年出貨量達(dá)到2.67億臺(tái)。NPU在AI

PC中的滲透率預(yù)計(jì)快速提升:根據(jù)IDC預(yù)測,

23-28年

AI

PC的CAGR

為42%,按搭載AI的加速器品種分類,同時(shí)搭載NPU和GPU的AI

PC的CAGR將達(dá)156%,僅搭載NPU的CAGR為58%,到2028年,將僅有5.2%的PC不配備NPU,NPU在PC中的滲透率達(dá)到94.8%。圖表:AI

PC出貨量(百萬臺(tái))預(yù)測-按加速器分類05020015010025030020232024E2025E2026E2027E2028ENPUOnly GPU

Only NPU+

GPUNPU+GPU

CAGR:156%NPUonly

CAGR:58%GPUonlyCAGR:-17%圖表:個(gè)人大模型助推PC產(chǎn)業(yè)生態(tài)迭代來源:IDC,高通/蘋果/intel官網(wǎng),中泰證券研究所24公司型號(hào)SOCNPU發(fā)布年份制程

核心數(shù)NPU峰值算力(TOPS)所用內(nèi)存內(nèi)存容量(GB)峰值內(nèi)存帶寬

NPU在SOC中(GB/s) 的面積占比高通驍龍

X

Plus驍龍

X

EliteHexagon8th

GenHexagon8th

Gen202420244nm4nm8/10124545LPDDR5xLPDDR5x64GB64GB136136蘋果M4

Max20243nm1638LPDDR5X128546M4

Pro20243nm1638LPDDR5X64273M420243nm1638LPDDR5X24120M3

Pro202320233nm3nm16161818LPDDR5LPDDR512836410154M320233nm1618LPDDR5241023%M2

Ultra20235nm3231.6LPDDR5192800M2Max20235nm1615.8LPDDR596410M2

Pro20235nm1615.8LPDDR532205M220225nm1615.8LPDDR5241024%M1

Ultra20225nm3222LPDDR5128819M1Max20215nm1611LPDDR564410M1

Pro20215nm1611LPDDR532200M120205nm1611LPDDR4X16686%第四代npu 20243nm2248LPDDR5x32136Intellunar

lakemeteor

lake第三代npu20237nm1411.5LPDDR5/5x64/96120"Strix

Point"AMDXDNA

220244nm1250LPDDR5x6451.2AMD"Hawk

Point"

銳龍804020234nm816LPDDR56451.2"Phoenix"

銳龍704020234nm810LPDDR5/5x6451.2圖表:主流PC

NPU芯片參數(shù)AI算力增加的同時(shí),

M3

MaxNPU面積占比縮小算力:AI

PC算力至少40TOPS,PC芯片算力提升趨勢明確。根據(jù)微軟定義,AI

PC(

Copilot+能本地運(yùn)行)的AI

算力至少要達(dá)到40

TOPS。高通驍龍X

Elite總算力高達(dá)75TOPS,NPU算力45TOPS,可在端側(cè)運(yùn)行130億參數(shù)模型;AMD

銳龍8040總算力39TOPS,基本符合微軟要求,NPU算力16TOPS;蘋果最新發(fā)布的M4芯片NPU算力已提升至38TOPS;24年英特爾Lunar

Lake、AMD

Strix

Point算力突破40TOPS。來源:高通官網(wǎng),黑芝麻智能招股書,中泰證券研究所25?

智駕滲透率快速攀升。全球/中國智能駕駛乘用車滲透率預(yù)計(jì)2028年達(dá)到88%/94%,銷量在23-28年間CAGR6.4%/6.9%。智駕:以高通智駕系統(tǒng)為例,其感知軟件棧和駕駛策略軟件棧需始終于本地運(yùn)行,因?yàn)橹邱{對時(shí)延的要求極其嚴(yán)苛,云端無法針對此類工作負(fù)載發(fā)揮任何作用,隨著智駕解決方案支持GenAI模型,汽車對端側(cè)算力的要求還會(huì)進(jìn)一步提升(傳統(tǒng)視覺模型如特斯拉Transformer模型僅10億參數(shù),而生成式大模型參數(shù)規(guī)模在1000億以上)。AI驅(qū)動(dòng)座艙:類似AI手機(jī)或PC內(nèi)的個(gè)人助手,車內(nèi)數(shù)字助手通過訪問用戶數(shù)據(jù)及車輛傳感器數(shù)據(jù),為用戶提供對應(yīng)定制化的駕乘和娛樂體驗(yàn)。圖表:全球及中國智能駕駛乘用車銷量及滲透率100%90%80%70%60%50%40%30%20%10%0%010203040506070802019 2020 2021 2022 2023 2024E2025E2026E

2027E2028E全球銷量(百萬)全球滲透率(右軸)中國銷量(百萬)中國滲透率(右軸)圖表:GenAI用于ADAS/AD,預(yù)測軌跡/行為以改進(jìn)駕駛策略來源:高通官網(wǎng),中泰證券研究所*新款芯片部分?jǐn)?shù)據(jù)來自訪談口徑26高通在2024年末發(fā)布的座艙與智駕芯片,應(yīng)用了增強(qiáng)的

Hexagon

NPU,較此前一代AI算力有大幅提升,且后期可繼續(xù)通過外掛NPU的方式繼續(xù)擴(kuò)展算力。Ride

Elite不再需要額外配備加速芯片,算力可以支持多達(dá)40個(gè)傳感器,包括20多個(gè)具有360o視野的16MP攝像頭和面向乘客的紅外攝像頭,確保了標(biāo)志、車道、物體以及手勢識(shí)別的精確性;支持從視覺感知到路徑規(guī)劃、定位和車輛控制在內(nèi)的完整端到端自動(dòng)駕駛系統(tǒng),這些功能可以同時(shí)且獨(dú)立地運(yùn)行。NPU

中集成的

Transformer

加速器和矢量引擎保證了低延遲和高精度的同時(shí),實(shí)現(xiàn)了功耗的優(yōu)化。Cockpit

Elite作為座艙芯片,可以在車輛本地處理具有數(shù)十億個(gè)參數(shù)的大型語言模型

(LLM),與Ride

Elite配對使用。圖表:高通車載NPU

芯片參數(shù)公司類別型號(hào)發(fā)布年份制程核心數(shù)場景驍龍Cockpit

Elite(8397)20244nm-配對Ride

Elite座艙驍龍

SA829520235nm8驍龍

SA815520217nm8高通智駕驍龍Ride

Elite(8797)(艙駕一體)20244nm-驍龍865020234nm驍龍854020235nm16針對L2+L3已應(yīng)用于零跑、大疆車載“成行8 平臺(tái)”,本田、通用、大眾、寶馬等預(yù)計(jì)25-26年逐步搭載。未量產(chǎn)來源:各公司官網(wǎng),中泰證券研究所。機(jī)器人產(chǎn)業(yè)進(jìn)入快速發(fā)展期,技術(shù)創(chuàng)新與市場需求共振驅(qū)動(dòng)行業(yè)爆發(fā)。國產(chǎn)機(jī)器人發(fā)展迅速,宇樹科技在機(jī)器狗方面全球領(lǐng)先,據(jù)智研瞻產(chǎn)業(yè)研究院的數(shù)據(jù),2024

年前三個(gè)季度,我國機(jī)器狗的銷量達(dá)到

2.33

萬臺(tái),同比增長

72.22%,關(guān)注國產(chǎn)供應(yīng)鏈發(fā)展機(jī)遇。NPU是機(jī)器人AI加速計(jì)算的重要芯片。NPU在機(jī)器人使用廣泛,有加速計(jì)算、降低系統(tǒng)功耗、實(shí)現(xiàn)實(shí)時(shí)交互和決策等優(yōu)勢在機(jī)器人進(jìn)行深度學(xué)習(xí)任務(wù),如語音識(shí)別、圖像分類、目標(biāo)跟蹤時(shí),NPU

能顯著加快計(jì)算速度,比傳統(tǒng)

CPU

GPU

更高效地處理大量數(shù)據(jù)。以家庭清潔機(jī)器人為例,通過

NPU

快速處理攝像頭采集的圖像數(shù)據(jù),識(shí)別家具、障礙物等物體,實(shí)現(xiàn)自主避障和路徑規(guī)劃。如宇樹科技在Go2中就使用一顆“國產(chǎn)6T芯片”。27圖表:宇樹科技機(jī)器人機(jī)器狗 圖表:Go2機(jī)器狗內(nèi)置“國產(chǎn)6T芯片”目

錄一、專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器二、卡位端側(cè)下游,迎需求爆發(fā)三、產(chǎn)業(yè)趨勢:近存計(jì)算大趨勢,3D

DRAM+NPU方案有望受益存算一體是NPU打破計(jì)算瓶頸的主要方式存內(nèi)計(jì)算難度大,近存計(jì)算和存內(nèi)處理是重要方向WOW

3D堆疊DRAM:AI低算力+超高寬帶存儲(chǔ)解決方案四、海外大廠持續(xù)迭代推動(dòng)端側(cè)AI布局,國產(chǎn)廠商加速布局五、投資建議及風(fēng)險(xiǎn)提示28來源:中泰證券研究所29除算力指標(biāo)外,內(nèi)存墻、功耗墻也影響NPU實(shí)際利用率。內(nèi)存墻是指在實(shí)際應(yīng)用中,NPU堆MAC單元能夠拉高算力指標(biāo),但會(huì)受內(nèi)存帶寬限制,導(dǎo)致數(shù)據(jù)的傳輸速率不足,MAC單元不斷等待,實(shí)際處理性能下降的現(xiàn)象;功耗墻是指計(jì)算單元存算分離設(shè)計(jì)導(dǎo)致數(shù)據(jù)重復(fù)搬移,共享困難,數(shù)據(jù)在多級(jí)存儲(chǔ)間傳輸,能耗大。隨著AI發(fā)展,端側(cè)數(shù)據(jù)量逐步提升,數(shù)據(jù)的傳輸速度不足以及能耗高也逐步成為限制NPU性能的瓶頸。存算一體及混合精度是解決NPU在AI計(jì)算瓶頸的主要方式?;旌暇仁峭ㄟ^軟件技術(shù),將不同精度的浮點(diǎn)數(shù)進(jìn)行數(shù)值計(jì)算,從而減少數(shù)據(jù)搬運(yùn),可以一定程度提高NPU效率。而存算一體則是從底層架構(gòu)上,徹底解決NPU的算力瓶頸,其核心是將計(jì)算和存儲(chǔ)融合,降低“內(nèi)存墻”問題,實(shí)現(xiàn)計(jì)算能效的數(shù)量級(jí)提升。谷歌基于邊緣設(shè)備運(yùn)行神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)1)62.7%的系統(tǒng)能耗是花費(fèi)在數(shù)據(jù)移動(dòng)上;2)數(shù)據(jù)移動(dòng)主要來自內(nèi)存中的簡單函數(shù),如乘累加等,因此解決內(nèi)存墻,核心是要將計(jì)算函數(shù)搬移到數(shù)據(jù)存儲(chǔ)的地方,而非把數(shù)據(jù)搬移到處理器中進(jìn)行計(jì)算。來源:知存科技,中泰證券研究所30?

存儲(chǔ)速度滯后于計(jì)算器速度,AI時(shí)代存儲(chǔ)帶寬制約算力芯片性能發(fā)揮。在過去二十年,處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右。結(jié)果長期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術(shù)提升算力,AI時(shí)代處理器計(jì)算技術(shù)能力大幅提升,同時(shí)大型

Transformer模型的參數(shù)數(shù)量呈指數(shù)級(jí)增長,每兩年增加

410

倍,而單個(gè)

GPU

內(nèi)存僅以每兩年

2

倍的速度擴(kuò)展,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,限制算力芯片性能發(fā)揮。圖表:處理器和存儲(chǔ)器速度失衡圖表:AI時(shí)代計(jì)算能力大幅提升圖表:每單元算力使用的帶寬和內(nèi)存均處于下降趨勢來源:知存科技,中泰證券研究所31?

傳統(tǒng)存算分離架構(gòu)帶來存儲(chǔ)墻問題。上世紀(jì)40年代開始計(jì)算機(jī)使用馮諾伊曼架構(gòu)——存算分離,即處理器和存儲(chǔ)器相互獨(dú)立,兩者通過總線連接。1)存算分離,數(shù)

據(jù)存算間傳輸造成延遲。處理器從外部存儲(chǔ)中調(diào)取數(shù)據(jù),計(jì)算完成后再傳輸?shù)絻?nèi)存中,一來一回都會(huì)造成延遲。2)數(shù)據(jù)在多級(jí)

存儲(chǔ)間傳輸。為了提升速度,馮諾依曼架構(gòu)對存儲(chǔ)進(jìn)行分級(jí),越往外的存儲(chǔ)介質(zhì)密度越大、速度越慢,越往內(nèi)的存儲(chǔ)密度越小,速度越快,因此數(shù)據(jù)需要在多級(jí)存儲(chǔ)之間搬運(yùn),能耗大。通常第一級(jí)存儲(chǔ)是速度最快、容量低,主要是SRAM片上緩存,第二級(jí)是傳統(tǒng)DDR。

3)存儲(chǔ)制程推進(jìn)慢于邏輯。目前DRAM制程最先進(jìn)仍在10-15nm左右,而邏輯制程已進(jìn)入3nm,主要是因存儲(chǔ)器制程縮小難度更大。隨著近幾年云計(jì)算和AI應(yīng)用發(fā)展,面對計(jì)算中心的數(shù)據(jù)洪流,存算分離架構(gòu)下數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸,“存儲(chǔ)墻”問題更加顯著。圖表:數(shù)據(jù)的傳輸速度慢圖表:數(shù)據(jù)的傳輸功耗大圖表:存算分離架構(gòu)來源:中國移動(dòng)研究院,中泰證券研究所32?

存算一體可有效克服馮諾依曼架構(gòu),可有效提升帶寬、緩解存儲(chǔ)墻問題,迎合AI時(shí)代需求。存算一體是一種新的架構(gòu),其核心理念是將計(jì)算和存儲(chǔ)融合,降低“存儲(chǔ)墻”問題,實(shí)現(xiàn)計(jì)算能效的數(shù)量級(jí)提升。從廣義而言,存算一體可分為三種:近存計(jì)算(PNM)、存內(nèi)處理(PIM)、存內(nèi)計(jì)算(CIM),狹義的存算一體主要指存內(nèi)計(jì)算。目前近存計(jì)算和存內(nèi)處理已開始商業(yè)化應(yīng)用,但存內(nèi)計(jì)算因設(shè)計(jì)等難度大,目前暫未商業(yè)化大規(guī)模使用。

近存計(jì)算:存算分離,通過封裝拉近存儲(chǔ)和計(jì)算單元的距離。

存內(nèi)計(jì)算:在存儲(chǔ)單元內(nèi)加了部分計(jì)算單元,存儲(chǔ)芯片有部分計(jì)算能力。

存內(nèi)計(jì)算:真正的存算一體,存儲(chǔ)單元和計(jì)算單位完全融合。圖表:存算一體三個(gè)類別來源:Rambus,中泰證券研究所33?

近存計(jì)算:通過封裝工藝?yán)鎯?chǔ)單元和計(jì)算單元距離,目前已大規(guī)模使用。近存計(jì)算不改變計(jì)算單元和存儲(chǔ)單元本身設(shè)計(jì)功能,通過采用先進(jìn)的封裝方式及合理的硬件布局和結(jié)構(gòu)優(yōu)化,通過芯片封裝和板卡組裝的方式,將存儲(chǔ)和計(jì)算單元集成,增強(qiáng)二者間通信寬帶,增大傳輸速率,近存計(jì)算本質(zhì)上屬于傳統(tǒng)馮諾依曼的存算分離架構(gòu),通過拉近存儲(chǔ)單元和計(jì)算單元的距離,對“存儲(chǔ)墻”進(jìn)行優(yōu)化。典型產(chǎn)品:HBM、3D堆疊DRAM和華邦CUBE產(chǎn)品均屬于近存計(jì)算。圖表:HBM是近存計(jì)算 圖表:HBM

VS

GDDR34?

WOW

3D堆疊DRAM與邏輯芯片是3D結(jié)構(gòu),屬于近存計(jì)算。

結(jié)構(gòu):屬于近存計(jì)算,DRAM與邏輯芯片采用3D堆疊工藝封裝在一起,在1片邏輯芯片上堆疊多層DRAM芯片,邏輯芯片指GPU、CPU、NPU等計(jì)算芯片、右圖中為紫色的Logic

Die,DRAM芯片圖中僅只有1層,實(shí)際可堆疊多層。

技術(shù):使用TSV硅通孔技術(shù)、Wafer

on

Wafer的混合鍵合工藝(Hybrid

Bonding)實(shí)現(xiàn)多層芯片之間的電氣連接。

性能特點(diǎn):以紫光國芯的WOW

3D堆疊DRAM產(chǎn)品

SeDRAM為例,通孔間距(Pitch)達(dá)到10μm以內(nèi)的級(jí)別,HBM的Pitch目前為幾十微米,因此WoW

3D堆疊DRAM的帶寬更高,另外功耗更低,屬于定制化產(chǎn)品,容量拓展性一般。圖表:紫光國芯的WOW

3D堆疊DRAM圖表:紫光國芯的WOW

3D堆疊DRAM性能特點(diǎn)相關(guān)內(nèi)容詳見中泰電子團(tuán)隊(duì)2025/2/20發(fā)布的報(bào)告《AI系列之存儲(chǔ):近存計(jì)算3D

DRAM,AI應(yīng)用星辰大?!穪碓矗鹤瞎鈬?,中泰證券研究所目

錄一、專為端側(cè)AI而生的神經(jīng)網(wǎng)絡(luò)加速器

二、卡位端側(cè)下游,迎需求爆發(fā)三、產(chǎn)業(yè)趨勢:近存計(jì)算大趨勢,3D

DRAM+NPU方案有望受益四、海外大廠持續(xù)迭代推動(dòng)端側(cè)AI布局,國產(chǎn)廠商加速布局NPU發(fā)展歷程:算力攀升,場景突破高通經(jīng)典架構(gòu):增加并行,加速特定硬件三星NPU迭代:算法優(yōu)化+更多MAC集成Intel

NPU迭代:增加計(jì)算引擎數(shù)和內(nèi)存帶寬多數(shù)端側(cè)NPU應(yīng)用集成SOC方案分立NPU:易于擴(kuò)展,適用汽車和工業(yè)端側(cè)AI工作負(fù)載華為昇騰NPU:自研達(dá)芬奇架構(gòu)瑞芯微:

RKNPU端側(cè)算力龍頭國產(chǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論