版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI芯片作為產(chǎn)業(yè)核心,也是技術(shù)要求和附加值最高的環(huán)節(jié),在AI產(chǎn)業(yè)鏈中的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位遠(yuǎn)遠(yuǎn)大于應(yīng)用層創(chuàng)新。騰訊發(fā)布的《中美兩國(guó)人工智能產(chǎn)業(yè)發(fā)展全面解讀》報(bào)告顯示,基礎(chǔ)層的處理器/芯片企業(yè)數(shù)量來看,中國(guó)有14家,美國(guó)33家。AI芯片產(chǎn)業(yè)生態(tài)梳理單擊此處添加標(biāo)題文字AI芯片作為產(chǎn)業(yè)核心,也是技術(shù)要求和附加值最高的環(huán)節(jié)Page
2目錄AI芯片分類1AI芯片產(chǎn)業(yè)生態(tài)2中國(guó)AI芯片公司3…
…
4Page2目錄AI芯片分類1AI芯片產(chǎn)業(yè)生態(tài)2中國(guó)AI2AI芯片產(chǎn)業(yè)生態(tài)梳理教學(xué)課件3Page
4AI芯片分類——從應(yīng)用場(chǎng)景分Cloud/DataCenter云端在深度學(xué)習(xí)的Training階段,由于對(duì)數(shù)據(jù)量及運(yùn)算量需求巨大,單一處理器幾乎不可能獨(dú)立完成一個(gè)模型的訓(xùn)練過程,Training環(huán)節(jié)目前只能在云端實(shí)現(xiàn),在設(shè)備端做Training目前還不是實(shí)際。在Inference階段,由于目前訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)模型大多仍非常復(fù)雜,其推理過程仍然是計(jì)算密集型和存儲(chǔ)密集型的,若部署到資源有限的終端用戶設(shè)備上難度很大,因此,云端推理目前在人工智能應(yīng)用中需求更為明顯。GPU、FPGA、ASIC(GoogleTPU1.0/2.0)等都已應(yīng)用于云端Inference環(huán)境。Device/Embedded設(shè)備端在設(shè)備端Inference領(lǐng)域,智能終端數(shù)量龐大且需求差異較大,如高級(jí)輔助駕駛ADAS、虛擬現(xiàn)實(shí)VR等設(shè)備對(duì)實(shí)時(shí)性要求很高,推理過程不能交由云端完成,要求終端設(shè)備本身需要具備足夠的推理計(jì)算能力,一些低功耗、低延遲、低成本的專用芯片也會(huì)有很大的市場(chǎng)需求。可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(設(shè)備端)”兩大類Page4AI芯片分類——從應(yīng)用場(chǎng)景分Cloud/Da4Page
5AI芯片分類——從技術(shù)架構(gòu)分通用芯片GPUFPGA基于FPGA的半定制化芯片深鑒科技DPU、百度XPU(256核、基于FPGA的云計(jì)算加速芯片(與賽靈思Xilinx合作)全定制化ASIC芯片TPU寒武紀(jì)Cambricon-1A等類腦計(jì)算芯片IBMTrueNorth、Westwell西井科技、高通Zeroth等Page5AI芯片分類——從技術(shù)架構(gòu)分通用芯片GPU基5Page
6AI芯片分類象限圖TrainingInferenceGPUTPU2.0VSCloud/DataCenterDevice/Embedded?GPU/FPGA/ASICFPGA/ASICPage6AI芯片分類象限圖TrainingInfer6Page
7AI芯片產(chǎn)業(yè)生態(tài)InferenceOnDevice設(shè)備端推理MobileADASCVNLPVRInferenceOnCloud云端推理GPUFPGAASICTrainingOnCloud云端訓(xùn)練GPUASICTPU1.0/2.0TPU2.0TrainingOnDevice設(shè)備端訓(xùn)練?Page7AI芯片產(chǎn)業(yè)生態(tài)MobileADASCVNL7Page
8Training訓(xùn)練CPUVS
GPU架構(gòu)ControlALUALUALUALUCacheDRAMDRAMCPUGPUPage8Training訓(xùn)練CPUVSGPU8Page
9CPU和GPU對(duì)比說明CPU架構(gòu)2007年以前,人工智能研究受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素,對(duì)于芯片并沒有特別強(qiáng)烈的需求,通用的CPU芯片即可提供足夠的計(jì)算能力。GoogleBrain項(xiàng)目,使用包含16000個(gè)CPU核的并行計(jì)算平臺(tái),訓(xùn)練超過10億個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)。CPU的串行結(jié)構(gòu)并不適用于深度學(xué)習(xí)所需的海量數(shù)據(jù)運(yùn)算需求,用CPU做深度學(xué)習(xí)訓(xùn)練效率很低,在早期使用深度學(xué)習(xí)算法進(jìn)行語(yǔ)音識(shí)別的模型中,擁有429個(gè)神經(jīng)元的輸入層,整個(gè)網(wǎng)絡(luò)擁有156M個(gè)參數(shù),訓(xùn)練時(shí)間超過75天。在內(nèi)部結(jié)構(gòu)上,CPU中70%晶體管都是用來構(gòu)建Cache(高速緩沖存儲(chǔ)器)和一部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分(ALU模塊)并不多,指令執(zhí)行是一條接一條的串行過程。GPU架構(gòu)GPU整個(gè)就是一個(gè)龐大的計(jì)算矩陣,GPU具有數(shù)以千計(jì)的計(jì)算核心、可實(shí)現(xiàn)10-100倍應(yīng)用吞吐量,還支持對(duì)深度學(xué)習(xí)至關(guān)重要的并行計(jì)算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。GPU由并行計(jì)算單元和控制單元以及存儲(chǔ)單元構(gòu)成,擁有大量的核(多達(dá)幾千個(gè))和大量的高速內(nèi)存,擅長(zhǎng)做類似圖像處理的并行計(jì)算,以矩陣的分布式形式來實(shí)現(xiàn)計(jì)算。同CPU不同的是,GPU的計(jì)算單元明顯增多,特別適合大規(guī)模并行計(jì)算。Page9CPU和GPU對(duì)比說明CPU架構(gòu)9Page
10通用計(jì)算GPU—NVIDIA一家獨(dú)大2010年NVIDIA就開始布局人工智能產(chǎn)品,2014年發(fā)布了新一代PASCALGPU芯片架構(gòu),這是NVIDIA的第五代GPU架構(gòu),也是首個(gè)為深度學(xué)習(xí)而設(shè)計(jì)的GPU,它支持所有主流的深度學(xué)習(xí)計(jì)算框架。2016年上半年,NVIDIA又針對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程推出了基于PASCAL架構(gòu)的TESLAP100芯片以及相應(yīng)的超級(jí)計(jì)算機(jī)DGX-1。DGX-1包含TESLAP100GPU加速器,采用NVLINK互聯(lián)技術(shù),軟件堆棧包含主要深度學(xué)習(xí)框架、深度學(xué)習(xí)SDK、DIGITSGPU訓(xùn)練系統(tǒng)、驅(qū)動(dòng)程序和CUDA,能夠快速設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)(DNN),擁有高達(dá)170TFLOPS的半精度浮點(diǎn)運(yùn)算能力,相當(dāng)于250臺(tái)傳統(tǒng)服務(wù)器,可以將深度學(xué)習(xí)的訓(xùn)練速度加快75倍,將CPU性能提升56倍。Page10通用計(jì)算GPU—NVIDIA一家獨(dú)大20110Page
11Training市場(chǎng)NVIDIA競(jìng)爭(zhēng)對(duì)手GoogleTraining市場(chǎng)目前能與NVIDIA競(jìng)爭(zhēng)的就是Google。今年5月份Google發(fā)布了TPU2.0,TPU(TensorProcessingUnit)是Google研發(fā)的一款針對(duì)深度學(xué)習(xí)加速的ASIC芯片,第一代TPU僅能用于推理,而目前發(fā)布的TPU2.0既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。TPU2.0包括了四個(gè)芯片,每秒可處理180萬億次浮點(diǎn)運(yùn)算。Google還找到一種方法,使用新的計(jì)算機(jī)網(wǎng)絡(luò)將64個(gè)TPU組合到一起,升級(jí)為所謂的TPUPods,可提供大約11500萬億次浮點(diǎn)運(yùn)算能力。Google表示,公司新的深度學(xué)習(xí)翻譯模型如果在32塊性能最好的GPU上訓(xùn)練,需要一整天的時(shí)間,而八分之一個(gè)TPUPod就能在6個(gè)小時(shí)內(nèi)完成同樣的任務(wù)。目前Google并不直接出售TPU芯片,而是結(jié)合其開源深度學(xué)習(xí)框架TensorFlow為AI開發(fā)者提供TPU云加速的服務(wù),以此發(fā)展TPU2的應(yīng)用和生態(tài),比如TPU2同時(shí)發(fā)布的TensorFlowResearchCloud(TFRC)。Page11Training市場(chǎng)NVIDIA競(jìng)爭(zhēng)對(duì)手G11Page
12傳統(tǒng)CPU/GPU廠家也進(jìn)入Training市場(chǎng)傳統(tǒng)CPU/GPU廠家Intel和AMD也在努力進(jìn)入這Training市場(chǎng),如Intel推出的XeonPhi+Nervana方案,AMD的下一代VEGA架構(gòu)GPU芯片等,但從目前市場(chǎng)進(jìn)展來看很難對(duì)NVIDIA構(gòu)成威脅。初創(chuàng)公司中,英國(guó)Graphcore公司
的IPU處理器(IntelligenceProcessingUnit)據(jù)介紹也同時(shí)支持Training和Inference。該IPU采用同構(gòu)多核架構(gòu),有超過1000個(gè)獨(dú)立的處理器;支持All-to-All的核間通信,采用BulkSynchronousParallel的同步計(jì)算模型;采用大量片上Memory,不直接連接DRAM??傊瑢?duì)于云端的Training(也包括Inference)系統(tǒng)來說,業(yè)界比較一致的觀點(diǎn)是競(jìng)爭(zhēng)的核心不是在單一芯片的層面,而是整個(gè)軟硬件生態(tài)的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨頭的競(jìng)爭(zhēng)也才剛剛開始。IntelXeonPhi+NervanaAMD下一代VEGA架構(gòu)GPU芯片Page12傳統(tǒng)CPU/GPU廠家也進(jìn)入Trainin12Page
13InferenceOnCloud云端推理—FPGA應(yīng)用相對(duì)于Training市場(chǎng)上NVIDIA的一家獨(dú)大,Inference市場(chǎng)競(jìng)爭(zhēng)則更為分散。業(yè)界所說的深度學(xué)習(xí)市場(chǎng)占比(Training占5%,Inference占95%),Inference市場(chǎng)競(jìng)爭(zhēng)必然會(huì)更為激烈。在云端推理環(huán)節(jié),雖然GPU仍有應(yīng)用,但并不是最優(yōu)選擇,更多的是采用異構(gòu)計(jì)算方案(CPU/GPU+FPGA/ASIC)來完成云端推理任務(wù)。FPGA領(lǐng)域,四大廠商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收購(gòu))在云端加速領(lǐng)域優(yōu)勢(shì)明顯。Altera在2015年12月被Intel收購(gòu),隨后推出了Xeon+FPGA的云端方案,同時(shí)與Azure、騰訊云、阿里云等均有合作;Xilinx則與IBM、百度云、AWS、騰訊云合作較深入,另外Xilinx還戰(zhàn)略投資了國(guó)內(nèi)AI芯片初創(chuàng)公司深鑒科技。目前來看,云端加速領(lǐng)域其他FPGA廠商與Xilinx和Altera還有很大差距。Page13InferenceOnCloud云端推13Page
14InferenceOnCloud云端推理—FPGA應(yīng)用時(shí)間公司內(nèi)容2015/06/10IBM在IBMPOWER系統(tǒng)上運(yùn)用XilinxFPGA加速工作負(fù)載處理技術(shù)2016/03/23FacebookFacebook開始采用CPU+FPGA服務(wù)器2016/09/30微軟微軟開始使用FPGA加速Bing搜索和Azure云計(jì)算2016/11/30亞馬遜AWS亞馬遜AWS推出FPGA云服務(wù)EC2F12017/01/20騰訊云騰訊云推出國(guó)內(nèi)首款高性能異構(gòu)計(jì)算基礎(chǔ)設(shè)施—FPGA云服務(wù)器2017/01/21阿里云阿里云發(fā)布異構(gòu)計(jì)算解決方案:彈性GPU實(shí)例和FPGA解決方案2017/05/25百度云百度對(duì)外正式發(fā)布FPGA云服務(wù)器Page14InferenceOnCloud云端推14Page
15InferenceOnCloud云端推理—ASIC應(yīng)用ASIC領(lǐng)域,應(yīng)用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0僅用于DatacenterInference應(yīng)用。它的核心是由65,536個(gè)8-bitMAC組成的矩陣乘法單元,峰值可以達(dá)到92TeraOps/second(TOPS)。有一個(gè)很大的片上存儲(chǔ)器,一共28MiB。它可以支持MLP,CNN和LSTM這些常見的神經(jīng)網(wǎng)絡(luò),并且支持TensorFLow框架。它的平均性能(TOPS)可以達(dá)到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5memory,這兩個(gè)數(shù)值可以達(dá)到大約GPU的70倍和CPU的200倍。TPU2.0既用于訓(xùn)練,也用于推理,上一節(jié)已經(jīng)做過介紹。國(guó)內(nèi)AI芯片公司寒武紀(jì)科技據(jù)報(bào)道也在自主研發(fā)云端高性能AI芯片,目前與科大訊飛、曙光等均有合作。Page15InferenceOnCloud云端推15Page
16InferenceOnDevice設(shè)備端推理設(shè)備端推理的應(yīng)用場(chǎng)景更為多樣化,智能手機(jī)、ADAS、智能攝像頭、語(yǔ)音交互、VR/AR等設(shè)備需求各異,需要更為定制化、低功耗、低成本的嵌入式解決方案,這就給了創(chuàng)業(yè)公司更多機(jī)會(huì),市場(chǎng)競(jìng)爭(zhēng)生態(tài)也會(huì)更加多樣化Page16InferenceOnDevice設(shè)備16Page
17InferenceOnDevice設(shè)備端推理——智能手機(jī)應(yīng)用華為2017年9月初發(fā)布的麒麟970AI芯片就搭載了神經(jīng)網(wǎng)絡(luò)處理器NPU(寒武紀(jì)IP)。蘋果2017年最新發(fā)布的A11仿生芯片也搭載了神經(jīng)網(wǎng)絡(luò)單元。高通從2014年開始也公開了NPU的研發(fā),并且在最新兩代驍龍8xx芯片上都有所體現(xiàn),Page17InferenceOnDevice設(shè)備17Page
18InferenceOnDevice設(shè)備端推理——自動(dòng)駕駛應(yīng)用NVIDIA去年發(fā)布自動(dòng)駕駛開發(fā)平臺(tái)DRIVEPX2,基于16nmFinFET工藝,功耗高達(dá)250W,采用水冷散熱設(shè)計(jì);支持12路攝像頭輸入、激光定位、雷達(dá)和超聲波傳感器;CPU采用兩顆新一代NVIDIATegra處理器,當(dāng)中包括了8個(gè)A57核心和4個(gè)Denver核心;GPU采用新一代Pascal架構(gòu),單精度計(jì)算能力達(dá)到8TFlops,超越TITANX,有后者10倍以上的深度學(xué)習(xí)計(jì)算能力。Intel收購(gòu)的Mobileye、高通收購(gòu)的NXP、英飛凌、瑞薩等汽車電子巨頭也提供ADAS芯片和算法。初創(chuàng)公司中,地平線的深度學(xué)習(xí)處理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平臺(tái)也是重點(diǎn)面向自動(dòng)駕駛領(lǐng)域。Page18InferenceOnDevice設(shè)備18Page
19InferenceOnDevice設(shè)備端推理——機(jī)器視覺應(yīng)用Intel收購(gòu)的Movidius是其中的一家芯片提供商,大疆無人機(jī)、??低暫痛笕A股份的智能監(jiān)控?cái)z像頭部分使用了Movidius的Myriad系列芯片。目前國(guó)內(nèi)做計(jì)算機(jī)視覺技術(shù)的公司中,商湯科技、Face++、云從、依圖等,未來有可能隨著其自身計(jì)算機(jī)視覺技術(shù)的積累漸深,部分公司向上游延伸去做CV芯片研發(fā)。國(guó)內(nèi)還有如人人智能、智芯原動(dòng)等創(chuàng)業(yè)公司提供攝像頭端的AI加速IP及芯片解決方案。Page19InferenceOnDevice設(shè)備19Page
20InferenceOnDevice設(shè)備端推理——其他應(yīng)用微軟為自身VR設(shè)備Hololens而研發(fā)的HPU芯片,這顆由臺(tái)積電代工的芯片能同時(shí)處理來自5個(gè)攝像頭、一個(gè)深度傳感器以及運(yùn)動(dòng)傳感器的數(shù)據(jù),并具備計(jì)算機(jī)視覺的矩陣運(yùn)算和CNN運(yùn)算的加速功能;語(yǔ)音交互設(shè)備芯片方面,國(guó)內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語(yǔ)音識(shí)別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案,實(shí)現(xiàn)設(shè)備的語(yǔ)音離線識(shí)別;在泛IOT領(lǐng)域,NovuMind設(shè)計(jì)了一種僅使用3×3卷積過濾器的AI芯片,第一款芯片原型預(yù)計(jì)今年底推出,預(yù)計(jì)可實(shí)現(xiàn)耗能不超過5瓦進(jìn)行15萬億次浮點(diǎn)運(yùn)算,可以廣泛應(yīng)用于各類小型的互聯(lián)網(wǎng)“邊緣”設(shè)備。Page20InferenceOnDevice設(shè)備20Page
21全新架構(gòu)——類腦計(jì)算芯片類腦芯片:是指參考人腦神經(jīng)元結(jié)構(gòu)和人腦感知認(rèn)知方式來設(shè)計(jì)的芯片,其目標(biāo)是開發(fā)出打破馮·諾依曼架構(gòu)體系的芯片。這一領(lǐng)域目前仍處于探索階段,如歐盟支持的SpiNNaker和BrainScaleS、斯坦福大學(xué)的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;國(guó)內(nèi)Westwell、清華大學(xué)、浙江大學(xué)、電子科技大學(xué)等也有相關(guān)研究??傮w來看,類腦計(jì)算芯片領(lǐng)域仍處于探索階段,距離規(guī)?;逃萌杂斜容^遠(yuǎn)的距離Page21全新架構(gòu)——類腦計(jì)算芯片類腦芯片:是指參考21Page
22全新架構(gòu)——類腦計(jì)算芯片IBM的TrueNorth,2014年公布。在一顆芯片上集成了4096個(gè)內(nèi)核,100萬個(gè)神經(jīng)元、2.56億個(gè)可編程突觸,使用了三星的28nm的工藝,國(guó)內(nèi)AI初創(chuàng)公司西井科技Westwell是用FPGA模擬神經(jīng)元以實(shí)現(xiàn)SNN的工作方式,有兩款產(chǎn)品:1、仿生類腦神經(jīng)元芯片DeepSouth(深南),第三代脈沖神經(jīng)網(wǎng)絡(luò)芯片SNN,2、深度學(xué)習(xí)類腦神經(jīng)元芯片DeepWell(深井),處理模式識(shí)別問題的通用智能芯片,Page22全新架構(gòu)——類腦計(jì)算芯片IBM的TrueN22Page
23中國(guó)AI芯片公司名稱成立時(shí)間估值A(chǔ)I產(chǎn)品技術(shù)特點(diǎn)投資方中科寒武紀(jì)2016北京10億美元@2017Cambricon-1A基于CNN卷積神經(jīng)網(wǎng)絡(luò)阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國(guó)科投資、中科圖靈、元禾原點(diǎn)、涌鏵投資聯(lián)合投資,成為全球AI芯片領(lǐng)域第一個(gè)獨(dú)角獸初創(chuàng)公司地平線機(jī)器人2015北京30億人民幣@2016BPU自研AI架構(gòu)IP(高斯、伯努利、貝葉斯架構(gòu))晨興資本、高瓴資本、紅杉資本、金沙江創(chuàng)投、線性資本、創(chuàng)新工場(chǎng)、真格基金、雙湖投資、青云創(chuàng)投及祥峰投資等深鑒科技2016北京10億人民幣@2017DPU基于FPGA深度學(xué)習(xí)處理單元聯(lián)發(fā)科、賽靈思、金沙江創(chuàng)投、高榕資本、清華控股、方和資本等。啟英泰倫2015成都CI1006語(yǔ)音識(shí)別ASIC芯片、支持DNN深度神經(jīng)網(wǎng)絡(luò)架構(gòu)ROOBO、匯聲信息等云知聲2012北京25億人民幣@2016UniOne、IVM、UniToy智能家電IVM芯片基于高通WIFI模組、UniToy兒童機(jī)器人基于Linux系統(tǒng)啟明創(chuàng)投、高通投資、明富投資、磐谷創(chuàng)投等西井科技2015上海DeepSouthDeepWell類腦神經(jīng)元芯片復(fù)興同浩、源政投資、合力投資、十維資本、明贏資本人人智能2016北京FaceOS基于ARM的人臉機(jī)芯ARM、英諾天使基金云飛勵(lì)天2014北京IPU視覺智能芯片松禾資本、深投控、紅秀盈信、山水從容投資、投控東海、真格基金NovuMind2015北京深度學(xué)習(xí)加速器芯片ASIC真格基金、寬帶資本、英諾天使基金、洪泰基金、臻云創(chuàng)投、極客幫創(chuàng)投等百度2001北京XPU基于FPGA的云計(jì)算加速芯片華為1987北京麒麟970NPUNPU基于寒武紀(jì)IP中星微1999北京星光智能一號(hào)NPU基于CNN卷積神經(jīng)網(wǎng)絡(luò)……Page23中國(guó)AI芯片公司名稱成立時(shí)間估值A(chǔ)I產(chǎn)品技23謝謝觀賞謝謝觀賞24AI芯片作為產(chǎn)業(yè)核心,也是技術(shù)要求和附加值最高的環(huán)節(jié),在AI產(chǎn)業(yè)鏈中的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位遠(yuǎn)遠(yuǎn)大于應(yīng)用層創(chuàng)新。騰訊發(fā)布的《中美兩國(guó)人工智能產(chǎn)業(yè)發(fā)展全面解讀》報(bào)告顯示,基礎(chǔ)層的處理器/芯片企業(yè)數(shù)量來看,中國(guó)有14家,美國(guó)33家。AI芯片產(chǎn)業(yè)生態(tài)梳理單擊此處添加標(biāo)題文字AI芯片作為產(chǎn)業(yè)核心,也是技術(shù)要求和附加值最高的環(huán)節(jié)Page
26目錄AI芯片分類1AI芯片產(chǎn)業(yè)生態(tài)2中國(guó)AI芯片公司3…
…
4Page2目錄AI芯片分類1AI芯片產(chǎn)業(yè)生態(tài)2中國(guó)AI26AI芯片產(chǎn)業(yè)生態(tài)梳理教學(xué)課件27Page
28AI芯片分類——從應(yīng)用場(chǎng)景分Cloud/DataCenter云端在深度學(xué)習(xí)的Training階段,由于對(duì)數(shù)據(jù)量及運(yùn)算量需求巨大,單一處理器幾乎不可能獨(dú)立完成一個(gè)模型的訓(xùn)練過程,Training環(huán)節(jié)目前只能在云端實(shí)現(xiàn),在設(shè)備端做Training目前還不是實(shí)際。在Inference階段,由于目前訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)模型大多仍非常復(fù)雜,其推理過程仍然是計(jì)算密集型和存儲(chǔ)密集型的,若部署到資源有限的終端用戶設(shè)備上難度很大,因此,云端推理目前在人工智能應(yīng)用中需求更為明顯。GPU、FPGA、ASIC(GoogleTPU1.0/2.0)等都已應(yīng)用于云端Inference環(huán)境。Device/Embedded設(shè)備端在設(shè)備端Inference領(lǐng)域,智能終端數(shù)量龐大且需求差異較大,如高級(jí)輔助駕駛ADAS、虛擬現(xiàn)實(shí)VR等設(shè)備對(duì)實(shí)時(shí)性要求很高,推理過程不能交由云端完成,要求終端設(shè)備本身需要具備足夠的推理計(jì)算能力,一些低功耗、低延遲、低成本的專用芯片也會(huì)有很大的市場(chǎng)需求??梢苑殖伞癈loud/DataCenter(云端)”和“Device/Embedded(設(shè)備端)”兩大類Page4AI芯片分類——從應(yīng)用場(chǎng)景分Cloud/Da28Page
29AI芯片分類——從技術(shù)架構(gòu)分通用芯片GPUFPGA基于FPGA的半定制化芯片深鑒科技DPU、百度XPU(256核、基于FPGA的云計(jì)算加速芯片(與賽靈思Xilinx合作)全定制化ASIC芯片TPU寒武紀(jì)Cambricon-1A等類腦計(jì)算芯片IBMTrueNorth、Westwell西井科技、高通Zeroth等Page5AI芯片分類——從技術(shù)架構(gòu)分通用芯片GPU基29Page
30AI芯片分類象限圖TrainingInferenceGPUTPU2.0VSCloud/DataCenterDevice/Embedded?GPU/FPGA/ASICFPGA/ASICPage6AI芯片分類象限圖TrainingInfer30Page
31AI芯片產(chǎn)業(yè)生態(tài)InferenceOnDevice設(shè)備端推理MobileADASCVNLPVRInferenceOnCloud云端推理GPUFPGAASICTrainingOnCloud云端訓(xùn)練GPUASICTPU1.0/2.0TPU2.0TrainingOnDevice設(shè)備端訓(xùn)練?Page7AI芯片產(chǎn)業(yè)生態(tài)MobileADASCVNL31Page
32Training訓(xùn)練CPUVS
GPU架構(gòu)ControlALUALUALUALUCacheDRAMDRAMCPUGPUPage8Training訓(xùn)練CPUVSGPU32Page
33CPU和GPU對(duì)比說明CPU架構(gòu)2007年以前,人工智能研究受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素,對(duì)于芯片并沒有特別強(qiáng)烈的需求,通用的CPU芯片即可提供足夠的計(jì)算能力。GoogleBrain項(xiàng)目,使用包含16000個(gè)CPU核的并行計(jì)算平臺(tái),訓(xùn)練超過10億個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)。CPU的串行結(jié)構(gòu)并不適用于深度學(xué)習(xí)所需的海量數(shù)據(jù)運(yùn)算需求,用CPU做深度學(xué)習(xí)訓(xùn)練效率很低,在早期使用深度學(xué)習(xí)算法進(jìn)行語(yǔ)音識(shí)別的模型中,擁有429個(gè)神經(jīng)元的輸入層,整個(gè)網(wǎng)絡(luò)擁有156M個(gè)參數(shù),訓(xùn)練時(shí)間超過75天。在內(nèi)部結(jié)構(gòu)上,CPU中70%晶體管都是用來構(gòu)建Cache(高速緩沖存儲(chǔ)器)和一部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分(ALU模塊)并不多,指令執(zhí)行是一條接一條的串行過程。GPU架構(gòu)GPU整個(gè)就是一個(gè)龐大的計(jì)算矩陣,GPU具有數(shù)以千計(jì)的計(jì)算核心、可實(shí)現(xiàn)10-100倍應(yīng)用吞吐量,還支持對(duì)深度學(xué)習(xí)至關(guān)重要的并行計(jì)算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。GPU由并行計(jì)算單元和控制單元以及存儲(chǔ)單元構(gòu)成,擁有大量的核(多達(dá)幾千個(gè))和大量的高速內(nèi)存,擅長(zhǎng)做類似圖像處理的并行計(jì)算,以矩陣的分布式形式來實(shí)現(xiàn)計(jì)算。同CPU不同的是,GPU的計(jì)算單元明顯增多,特別適合大規(guī)模并行計(jì)算。Page9CPU和GPU對(duì)比說明CPU架構(gòu)33Page
34通用計(jì)算GPU—NVIDIA一家獨(dú)大2010年NVIDIA就開始布局人工智能產(chǎn)品,2014年發(fā)布了新一代PASCALGPU芯片架構(gòu),這是NVIDIA的第五代GPU架構(gòu),也是首個(gè)為深度學(xué)習(xí)而設(shè)計(jì)的GPU,它支持所有主流的深度學(xué)習(xí)計(jì)算框架。2016年上半年,NVIDIA又針對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程推出了基于PASCAL架構(gòu)的TESLAP100芯片以及相應(yīng)的超級(jí)計(jì)算機(jī)DGX-1。DGX-1包含TESLAP100GPU加速器,采用NVLINK互聯(lián)技術(shù),軟件堆棧包含主要深度學(xué)習(xí)框架、深度學(xué)習(xí)SDK、DIGITSGPU訓(xùn)練系統(tǒng)、驅(qū)動(dòng)程序和CUDA,能夠快速設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)(DNN),擁有高達(dá)170TFLOPS的半精度浮點(diǎn)運(yùn)算能力,相當(dāng)于250臺(tái)傳統(tǒng)服務(wù)器,可以將深度學(xué)習(xí)的訓(xùn)練速度加快75倍,將CPU性能提升56倍。Page10通用計(jì)算GPU—NVIDIA一家獨(dú)大20134Page
35Training市場(chǎng)NVIDIA競(jìng)爭(zhēng)對(duì)手GoogleTraining市場(chǎng)目前能與NVIDIA競(jìng)爭(zhēng)的就是Google。今年5月份Google發(fā)布了TPU2.0,TPU(TensorProcessingUnit)是Google研發(fā)的一款針對(duì)深度學(xué)習(xí)加速的ASIC芯片,第一代TPU僅能用于推理,而目前發(fā)布的TPU2.0既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。TPU2.0包括了四個(gè)芯片,每秒可處理180萬億次浮點(diǎn)運(yùn)算。Google還找到一種方法,使用新的計(jì)算機(jī)網(wǎng)絡(luò)將64個(gè)TPU組合到一起,升級(jí)為所謂的TPUPods,可提供大約11500萬億次浮點(diǎn)運(yùn)算能力。Google表示,公司新的深度學(xué)習(xí)翻譯模型如果在32塊性能最好的GPU上訓(xùn)練,需要一整天的時(shí)間,而八分之一個(gè)TPUPod就能在6個(gè)小時(shí)內(nèi)完成同樣的任務(wù)。目前Google并不直接出售TPU芯片,而是結(jié)合其開源深度學(xué)習(xí)框架TensorFlow為AI開發(fā)者提供TPU云加速的服務(wù),以此發(fā)展TPU2的應(yīng)用和生態(tài),比如TPU2同時(shí)發(fā)布的TensorFlowResearchCloud(TFRC)。Page11Training市場(chǎng)NVIDIA競(jìng)爭(zhēng)對(duì)手G35Page
36傳統(tǒng)CPU/GPU廠家也進(jìn)入Training市場(chǎng)傳統(tǒng)CPU/GPU廠家Intel和AMD也在努力進(jìn)入這Training市場(chǎng),如Intel推出的XeonPhi+Nervana方案,AMD的下一代VEGA架構(gòu)GPU芯片等,但從目前市場(chǎng)進(jìn)展來看很難對(duì)NVIDIA構(gòu)成威脅。初創(chuàng)公司中,英國(guó)Graphcore公司
的IPU處理器(IntelligenceProcessingUnit)據(jù)介紹也同時(shí)支持Training和Inference。該IPU采用同構(gòu)多核架構(gòu),有超過1000個(gè)獨(dú)立的處理器;支持All-to-All的核間通信,采用BulkSynchronousParallel的同步計(jì)算模型;采用大量片上Memory,不直接連接DRAM??傊瑢?duì)于云端的Training(也包括Inference)系統(tǒng)來說,業(yè)界比較一致的觀點(diǎn)是競(jìng)爭(zhēng)的核心不是在單一芯片的層面,而是整個(gè)軟硬件生態(tài)的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨頭的競(jìng)爭(zhēng)也才剛剛開始。IntelXeonPhi+NervanaAMD下一代VEGA架構(gòu)GPU芯片Page12傳統(tǒng)CPU/GPU廠家也進(jìn)入Trainin36Page
37InferenceOnCloud云端推理—FPGA應(yīng)用相對(duì)于Training市場(chǎng)上NVIDIA的一家獨(dú)大,Inference市場(chǎng)競(jìng)爭(zhēng)則更為分散。業(yè)界所說的深度學(xué)習(xí)市場(chǎng)占比(Training占5%,Inference占95%),Inference市場(chǎng)競(jìng)爭(zhēng)必然會(huì)更為激烈。在云端推理環(huán)節(jié),雖然GPU仍有應(yīng)用,但并不是最優(yōu)選擇,更多的是采用異構(gòu)計(jì)算方案(CPU/GPU+FPGA/ASIC)來完成云端推理任務(wù)。FPGA領(lǐng)域,四大廠商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收購(gòu))在云端加速領(lǐng)域優(yōu)勢(shì)明顯。Altera在2015年12月被Intel收購(gòu),隨后推出了Xeon+FPGA的云端方案,同時(shí)與Azure、騰訊云、阿里云等均有合作;Xilinx則與IBM、百度云、AWS、騰訊云合作較深入,另外Xilinx還戰(zhàn)略投資了國(guó)內(nèi)AI芯片初創(chuàng)公司深鑒科技。目前來看,云端加速領(lǐng)域其他FPGA廠商與Xilinx和Altera還有很大差距。Page13InferenceOnCloud云端推37Page
38InferenceOnCloud云端推理—FPGA應(yīng)用時(shí)間公司內(nèi)容2015/06/10IBM在IBMPOWER系統(tǒng)上運(yùn)用XilinxFPGA加速工作負(fù)載處理技術(shù)2016/03/23FacebookFacebook開始采用CPU+FPGA服務(wù)器2016/09/30微軟微軟開始使用FPGA加速Bing搜索和Azure云計(jì)算2016/11/30亞馬遜AWS亞馬遜AWS推出FPGA云服務(wù)EC2F12017/01/20騰訊云騰訊云推出國(guó)內(nèi)首款高性能異構(gòu)計(jì)算基礎(chǔ)設(shè)施—FPGA云服務(wù)器2017/01/21阿里云阿里云發(fā)布異構(gòu)計(jì)算解決方案:彈性GPU實(shí)例和FPGA解決方案2017/05/25百度云百度對(duì)外正式發(fā)布FPGA云服務(wù)器Page14InferenceOnCloud云端推38Page
39InferenceOnCloud云端推理—ASIC應(yīng)用ASIC領(lǐng)域,應(yīng)用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0僅用于DatacenterInference應(yīng)用。它的核心是由65,536個(gè)8-bitMAC組成的矩陣乘法單元,峰值可以達(dá)到92TeraOps/second(TOPS)。有一個(gè)很大的片上存儲(chǔ)器,一共28MiB。它可以支持MLP,CNN和LSTM這些常見的神經(jīng)網(wǎng)絡(luò),并且支持TensorFLow框架。它的平均性能(TOPS)可以達(dá)到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5memory,這兩個(gè)數(shù)值可以達(dá)到大約GPU的70倍和CPU的200倍。TPU2.0既用于訓(xùn)練,也用于推理,上一節(jié)已經(jīng)做過介紹。國(guó)內(nèi)AI芯片公司寒武紀(jì)科技據(jù)報(bào)道也在自主研發(fā)云端高性能AI芯片,目前與科大訊飛、曙光等均有合作。Page15InferenceOnCloud云端推39Page
40InferenceOnDevice設(shè)備端推理設(shè)備端推理的應(yīng)用場(chǎng)景更為多樣化,智能手機(jī)、ADAS、智能攝像頭、語(yǔ)音交互、VR/AR等設(shè)備需求各異,需要更為定制化、低功耗、低成本的嵌入式解決方案,這就給了創(chuàng)業(yè)公司更多機(jī)會(huì),市場(chǎng)競(jìng)爭(zhēng)生態(tài)也會(huì)更加多樣化Page16InferenceOnDevice設(shè)備40Page
41InferenceOnDevice設(shè)備端推理——智能手機(jī)應(yīng)用華為2017年9月初發(fā)布的麒麟970AI芯片就搭載了神經(jīng)網(wǎng)絡(luò)處理器NPU(寒武紀(jì)IP)。蘋果2017年最新發(fā)布的A11仿生芯片也搭載了神經(jīng)網(wǎng)絡(luò)單元。高通從2014年開始也公開了NPU的研發(fā),并且在最新兩代驍龍8xx芯片上都有所體現(xiàn),Page17InferenceOnDevice設(shè)備41Page
42InferenceOnDevice設(shè)備端推理——自動(dòng)駕駛應(yīng)用NVIDIA去年發(fā)布自動(dòng)駕駛開發(fā)平臺(tái)DRIVEPX2,基于16nmFinFET工藝,功耗高達(dá)250W,采用水冷散熱設(shè)計(jì);支持12路攝像頭輸入、激光定位、雷達(dá)和超聲波傳感器;CPU采用兩顆新一代NVIDIATegra處理器,當(dāng)中包括了8個(gè)A57核心和4個(gè)Denver核心;GPU采用新一代Pascal架構(gòu),單精度計(jì)算能力達(dá)到8TFlops,超越TITANX,有后者10倍以上的深度學(xué)習(xí)計(jì)算能力。Intel收購(gòu)的Mobileye、高通收購(gòu)的NXP、英飛凌、瑞薩等汽車電子巨頭也提供ADAS芯片和算法。初創(chuàng)公司中,地平線的深度學(xué)習(xí)處理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平臺(tái)也是重點(diǎn)面向自動(dòng)駕駛領(lǐng)域。Page18InferenceOnDevice設(shè)備42Page
43InferenceOnDevice設(shè)備端推理——機(jī)器視覺應(yīng)用Intel收購(gòu)的Movidius是其中的一家芯片提供商,大疆無人機(jī)、海康威視和大華股份的智能監(jiān)控?cái)z像頭部分使用了Movidius的Myriad系列芯片。目前國(guó)內(nèi)做計(jì)算機(jī)視覺技術(shù)的公司中,商湯科技、Face++、云從、依圖等,未來有可能隨著其自身計(jì)算機(jī)視覺技術(shù)的積累漸深,部分公司向上游延伸去做CV芯片研發(fā)。國(guó)內(nèi)還有如人人智能、智芯原動(dòng)等創(chuàng)業(yè)公司提供攝像頭端的AI加速IP及芯片解決方案。Page19InferenceOnDevice設(shè)備43Page
44InferenceOnDevice設(shè)備端推理——其他應(yīng)用微軟為自身VR設(shè)備Hololens而研發(fā)的HPU芯片,這顆由臺(tái)積電代工的芯片能同時(shí)處理來自5個(gè)攝像頭、一個(gè)深度傳感器以及運(yùn)動(dòng)傳感器的數(shù)據(jù),并具備計(jì)算機(jī)視覺的矩陣運(yùn)算和CNN運(yùn)算的加速功能;語(yǔ)音交互設(shè)備芯片方面,國(guó)內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語(yǔ)音識(shí)別而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山泉小學(xué)教學(xué)常規(guī)管理制度(3篇)
- 項(xiàng)目管理制度及格式范文(3篇)
- 茶室品茗活動(dòng)策劃方案(3篇)
- 教育管理制度學(xué)習(xí)體會(huì)(3篇)
- 2026年河北唐山中心醫(yī)院腎內(nèi)科急聘英才1名考試參考試題及答案解析
- 2026年福建莆田礪志高級(jí)中學(xué)多學(xué)科教師招聘若干人備考考試題庫(kù)及答案解析
- 海南儋州市2026屆教育部直屬師范大學(xué)公費(fèi)師范畢業(yè)生供需見面招聘24人(一)備考考試題庫(kù)及答案解析
- 2026北京航空航天大學(xué)集成電路科學(xué)與工程學(xué)院聘用編科研助理F崗招聘1人備考考試題庫(kù)及答案解析
- 2025湖南郴州市永興縣基層醫(yī)療衛(wèi)生單位招聘專業(yè)技術(shù)人員選崗15人備考考試題庫(kù)及答案解析
- 2026北京北化化學(xué)科技有限公司招聘15人考試備考題庫(kù)及答案解析
- 2024-2025學(xué)年廣東省實(shí)驗(yàn)中學(xué)高一(上)期中語(yǔ)文試卷
- DB34T 1948-2013 建設(shè)工程造價(jià)咨詢檔案立卷標(biāo)準(zhǔn)
- 鋼鐵制造的工藝流程(內(nèi)部資料)課件
- DB31-T 1448-2023 監(jiān)獄場(chǎng)所消防安全管理規(guī)范
- 公司干部調(diào)研方案
- 無糾紛自愿離婚協(xié)議書
- 四川省高等教育自學(xué)考試畢業(yè)生登記表【模板】
- 專題五 以新發(fā)展理念引領(lǐng)高質(zhì)量發(fā)展
- GB/T 22417-2008叉車貨叉叉套和伸縮式貨叉技術(shù)性能和強(qiáng)度要求
- GB/T 1.1-2009標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫
- 長(zhǎng)興中學(xué)提前招生試卷
評(píng)論
0/150
提交評(píng)論