版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
電子行業(yè)芯片算力市場分析1.美國加強限制規(guī)則,海外高性能芯片進口受限1.1.從“性能指標”到“性能密度指標”,英偉達高端芯片進口受限范圍擴大2023年10月17日,美國商務部出臺了出口管制清單的ECNN3A090和4A090要求,以進一步限制高性能AI芯片的出口,同時將13家中國公司列入實體清單。修改后的出國管制設計產品包括但不限于:英偉達A100、A800、H100、H800、L40、L40S以及RTX4090產品。實際上,任何集成了一個或多個及以上的芯片的系統(tǒng),包括但不限于英偉達DGX、HGX系統(tǒng),都在新規(guī)涵蓋范圍之內。此前,2022年8月26日,美國政府要求英偉達停止向中國(包括中國香港)出口兩款用于人工智能發(fā)展的高端計算芯片,涉及英偉達A100和H100兩款芯片,以及未來推出峰值性能等同或超過A100的其他芯片。同時,英偉達應用這些高性能芯片的系統(tǒng)級產品也均在新的管制范圍內。2022年9月1日,英偉達發(fā)布聲明稱美國政府允許英偉達在2023年9月1日前,通過公司的香港工廠履行A100和H100的訂單和物流運輸,但售賣給中國的終端客戶仍需要受美國政府批準。限制強度加大,新增多款芯片受到新規(guī)限制。根據(jù)英偉達主要芯片規(guī)格,可以計算每種芯片的性能密度指標。在新規(guī)發(fā)布之前,超過舊規(guī)性能指標限制的芯片僅為英偉達A100,但當加入性能密度指標后,新規(guī)不僅限制了廠商出略低于性能標準的芯片以規(guī)避限制情況,同時針對數(shù)據(jù)中心芯片與非數(shù)據(jù)中心芯片進行了不同的限制約定,使更多的英偉達芯片受到禁令限制。1.2.人工智能大勢所趨,各地政策推進實施“1+N”政策體系全面推動人工智能產業(yè)。2017年國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,部委層面陸續(xù)出臺相關發(fā)展規(guī)劃、實施方案等落地政策,形成“1+N”政策體系,從相關法律法規(guī)和倫理規(guī)范、人工智能發(fā)展支持政策、標準和產權體系、監(jiān)管和評估體系以及AI人才培訓等五個角度全面推動人工智能健康快速發(fā)展。同時,各一二線城市均針對AI產業(yè)制定了產業(yè)規(guī)模目標和企業(yè)數(shù)量目標,其中北京市于2023年5月30日發(fā)布《北京市加快建設具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023-2025年)》與《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施》兩項重磅政策,以迅速建設具有全球廣泛影響力的人工智能創(chuàng)新策源地。算力發(fā)展目標明確,將帶動AI算力的迅速發(fā)展。2023年10月,工業(yè)和信息化部、中央網(wǎng)信辦、教育部、國家衛(wèi)生健康委、中國人民銀行、國務院國資委等六部門聯(lián)合發(fā)布《算力基礎設施高質量發(fā)展行動計劃》,在計算力、運載力、存儲力、應用賦能等方面提出了具體目標,以進一步加強算力資源配置,提升國內算力總體水平。智算的快速發(fā)展,一方面要求智算中心的建設需要更加合理,要兼顧東西部協(xié)同發(fā)展和資源的合理利用。另一方面,智能算力更多的采用AI芯片,帶來更大帶寬的網(wǎng)絡傳輸需求,這些都將顯著促進AI芯片和網(wǎng)絡技術的研發(fā)創(chuàng)新。2.構建完整的芯片生態(tài)系統(tǒng),“硬件+軟件”缺一不可芯片方面,英偉達通過“CPU+GPU+DPU”三芯布局,數(shù)據(jù)中心正成長為公司最大業(yè)務。CPU作為邏輯處理單元,能更好地處理各種需要快速邏輯判斷和并行處理能力的計算任務;GPU側重對圖像像素進行大規(guī)模的數(shù)據(jù)矩陣運算處理,與AI算法的并行結構運算匹配,GPU在AI領域有著先天優(yōu)勢;DPU則特別適合處理數(shù)據(jù)中心和網(wǎng)絡設備的需求,能有效處理數(shù)據(jù)包和協(xié)議。英偉達通過將CPU、GPU和DPU集成到同一平臺上,可以為客戶提供更全面、高效的計算解決方案。公司推出的GraceHopper超級芯片將Grace和Hopper架構相結合,為加速AI和高性能計算(HPC)應用提供CPU+GPU相結合的一致內存模型,并在大型服務器上廣泛部署。2021年及以前,游戲業(yè)務營收占比最高,但隨著AGI引爆算力需求,公司數(shù)據(jù)中心成長極快。根據(jù)公司2022年年報,其數(shù)據(jù)中心業(yè)務營收約150億美元(占比約56%),已成為公司最大業(yè)務。GPU領域深耕數(shù)十年,長期占據(jù)市場領導地位。1999年英偉達推出的首個GPU架構,開創(chuàng)了現(xiàn)代顯卡的時代,代表產品是GeForce256顯卡,此后其架構經(jīng)歷了多次變革迭代,GPU計算能力的不斷提升,從2017到2022這五年間,公司先后推出了Volta、Ampere、Hopper等針對高性能計算和AI訓練的架構,并以此為基礎發(fā)布了V100、A100、H100等高端GPU。通過不斷的技術革新,英偉達GPU產品向量雙精度浮點算力已從7.8TFLOPS增至30TFLOPS。根據(jù)JonPeddieResearch(JPR)報告顯示,2023年Q1,英偉達GPU市場份額達到84%,Q2達到80%,占據(jù)市場領導地位。2022年3月GTC2022大會上,英偉達正式發(fā)布了基于Hopper架構的面向數(shù)據(jù)中心的新一代頂級計算核心GH100、計算卡H100。在機器學習及人工智能領域開放產業(yè)聯(lián)盟MLCommons公布了最新的MLPerf基準評測中,英偉達H100TensorCoreGPU在每次AI推理測試中都展現(xiàn)出最高性能。得益于軟件優(yōu)化,該GPU的性能比去年9月份首次亮相時提高了54%,,A100則是英偉達于2020年推出的上一代數(shù)據(jù)中心專用GPU,但依然是目前AI訓練的主流芯片產品。根據(jù)NewStreetResearch的數(shù)據(jù),英偉達占據(jù)了可用于機器學習的圖形處理器市場的95%。NVLink是英偉達自研的高速互連技術,解決了多GPU并行計算時內存共享和通信的瓶頸問題,能有效提升數(shù)據(jù)中心的整體運算能力。PCIe是Intel主導的高速串行計算機擴展總線標準,是當前服務器主流的總線解決方案,PCIe標準迭代周期約為3年/代,PCIe3.0是目前消費市場的主流選擇,4.0于2017年正式推出,自2021年下半年開始在數(shù)據(jù)中心逐步應用,并逐漸從企業(yè)級市場下沉到消費市場。目前Intel/AMD等主流CPU廠商正快速推出PCIe5.0產品,用于AI的高性能企業(yè)級服務器通常采用PCIe5.0接口。NVLink是英偉達自研的高速接口,可以提供更強大的數(shù)據(jù)傳輸能力和更高的吞吐量,能有效縮短數(shù)據(jù)傳輸時間,滿足當前針對大數(shù)據(jù)和復雜運算的高帶寬需求。隨著NVIDIAGPU架構的更新和技術的不斷發(fā)展,NVLink的版本也在不斷演進,以滿足不斷增長的計算需求和提供更優(yōu)秀的性能。CUDA架構搭建英偉達軟件生態(tài),是英偉達AI解決方案的核心優(yōu)勢之一。CUDA(ComputeUnifiedDeviceArchitecture)是由英偉達公司推出的GPU加速平臺,在推出CUDA之前,程序員想要調用GPU的運算資源必須先編寫大量底層代碼,在開發(fā)和調試上需要花費大量的時間,而CUDA提供了易于使用的編程模型和軟件環(huán)境,允許開發(fā)者使用類似于C/C++的高層語言進行編程,使得開發(fā)者可以借助英偉達的圖形處理器(GPU)進行更為高效的并行運算。經(jīng)過多年優(yōu)化,目前CUDA已成為全球AI基礎設施,主流的AI框架、庫、工具都以CUDA為基礎進行開發(fā)。國內第一批大模型廠商使用的基本都是英偉達已經(jīng)構建完善的CUDA生態(tài)。即便競爭對手的GPU性能的硬件參數(shù)上比肩英偉達,如果缺乏CUDA的優(yōu)化,其性能依然無法達到英偉達GPU的水平?;谄洹靶酒?NVLink+CUDA”的生態(tài)系統(tǒng),英偉達穩(wěn)坐行業(yè)龍頭地位,產品全面覆蓋AI場景。公司20多年來始終引領GPU行業(yè)的發(fā)展,將GPU的主要應用場景從游戲以及畫圖等圖像顯示擴展到了以AI、云計算等大數(shù)據(jù)相關的并行計算領域。根據(jù)JonPeddieResearch發(fā)布的GPU市場數(shù)據(jù)統(tǒng)計報告,英偉達2022年全年PCGPU出貨量高達3034萬塊,是AMD的近4.5倍;截至2022年四季度,在獨立GPU市場,英偉達占據(jù)84%的市場份額,遠超同業(yè)競爭公司。3.華為昇騰軟硬件全面布局,構建國產AI算力基石3.1.昇騰生態(tài)包括全棧的AI計算基礎設施、行業(yè)應用及服務昇騰生態(tài)包括昇騰系列處理器、系列硬件、CANN異構計算架構、AI計算框架、應用使能、開發(fā)工具鏈、管理運維工具、行業(yè)應用及服務等全產業(yè)鏈。其硬件系統(tǒng)包括:基于華為達芬奇內核的昇騰系列處理器等多樣化AI算力;給予昇騰處理器的系列硬件產品,比如嵌入式模組、板卡、小站、服務器、集群等。其基礎軟件體系包括:異構計算架構CANN以及對應的驅動、運行時、加速庫、編譯器、調試調優(yōu)工具、開發(fā)工具鏈MindStudio和各種運維管理工具等;AI計算框架,包括開源的MindSpore,以及各種業(yè)界流行的框架,作為生態(tài)的有機組成部分。同時昇騰計算產業(yè)支持各種計算框架的對接?;谶_芬奇架構的昇騰芯片,運算性能優(yōu)異,可應用于AI訓練/推理場景。DaVinci架構是面向AI計算設計的架構,通過獨創(chuàng)的16*16*16的3DCube設計,每時鐘周期可以進行4096個16位半精度浮點MAC計算。同樣是完成4096次運算,2D結構需要64行*64列才能計算,3DCube只需要16*16*16的結構就能算出,因此在核數(shù)與頻率確定的情況下,每時鐘周期進行越多的計算則算力指標越高,而Davinci架構的3D設計實現(xiàn)了這一點。從性能指標上來看,昇騰910半精度FP16的運算性能可達320TFLOPS,整型INT8算力可達640TOPS,英偉達A100的FP16運算性能為312TFLOPS。計算代價大幅縮小,功耗水平明顯降低。Davinci架構的3D設計以最小的計算代價增加矩陣乘的算力,實現(xiàn)更高的AI能效。2018年10月華為聯(lián)合奧迪展示了L4級無人駕駛的路測,汽車上配備了華為的MDC車載計算單元,但根據(jù)第五屆世界互聯(lián)網(wǎng)大會上前華為公司董事兼華為企業(yè)BG總裁閻力大披露,支持L4級無人駕駛這樣非常復雜的邊緣計算場景時,昇騰310芯片組僅消耗共計200瓦的能耗,相比英偉達系列芯片均有大幅縮減。HCCS是華為自研的高速互連接口,可為內核、設備、集群提供系統(tǒng)內存的一致訪問,片間帶寬最高可達480Gbps,是業(yè)界主流CPU互聯(lián)速率的2倍多,HCCS單個AI處理器提供3條鏈路能實現(xiàn)最多4個鯤鵬920處理器互聯(lián)和最高256個物理核的NUMA架構。相比于英偉達NVLink與PCIe5.0,NVLink單條鏈路雙向帶寬最大為50GB/s,PCIe5.0僅為4GB/s,HCCS單條鏈路雙向帶寬可以達到20GB/s,HCCS在單一鏈路的單向/雙向互聯(lián)帶寬上比PCIe5.0更具優(yōu)勢,將有效提升多個AI處理器協(xié)同訓練的能力。CANN是華為針對AI場景推出的異構計算架構,通過提供多層次的編程接口,支持用戶快速構建基于異騰平臺的AI應用和業(yè)務。CANN支持端邊云全場景協(xié)同,支持超過10種設備形態(tài)、EMUI、Andriod、openEuler、UOS、Ubuntu、Debian、Suse等超過14種操作系統(tǒng)和多種AI計算框架,一套體系支持CPU、NPU等架構;軟件生態(tài)建設是華為的一大優(yōu)勢。為了幫助AI開發(fā)者更簡單、更高效的開發(fā)和使用AI技術,華為推出面向全流程開發(fā)工具鏈MindStudio。MindStudio針對算子開發(fā)、模型訓練、模型推理、應用開發(fā)、應用部署的所有全流程工具鏈進行整合,為開發(fā)者提供工程管理、編譯、調試、運行、性能分析等全流程開發(fā),提高開發(fā)效率。3.2.基于“自研芯片+自研接口+自研軟件生態(tài)”,華為推出全系列解決方案供開發(fā)者使用的高性能開發(fā)板Atlas200DK,Atlas200DK開發(fā)者套件(型號3000)是以Atlas200AI加速模塊(型號3000)為核心的開發(fā)者板形態(tài)終端類產品(其中Atlas200AI加速模塊是高性能AI計算模塊,集成了昇騰310AI處理器,芯片內置2個AIcore,可支持128位寬的LPDDR4X,最大算力為22TOPS)。訓練卡Atlas300T。Atlas300T訓練卡(型號9000)可以配合服務器為數(shù)據(jù)中心提供AI加速卡,單卡最高可提供220TFLOPSFP16算力。產品具有強算力、高度集成、高速帶寬等特點,可滿足大量人工智能訓練以及高性能計算領域的算力需求。推理卡Atlas300I。Atlas300I推理卡采用4個昇騰310AI處理器的PCIeHHHL卡,實現(xiàn)快速高效的推理計算、圖像識別及視頻處理等工作,支持多種規(guī)格的H.264、H.265視頻編解碼。Atlas800訓練服務器,8顆昇騰算力芯片+4顆鯤鵬CPU。Atlas800訓練服務器(型號:9000)是基于華為鯤鵬+昇騰處理器的AI訓練服務器,具有超強算力密度、超高能效與高速網(wǎng)絡帶寬等特點。該服務器廣泛應用于深度學習模型開發(fā)和訓練,適用于智慧城市、智慧醫(yī)療、天文探索、石油勘探等需要大算力的行業(yè)領域。Atlas800推理服務器,8顆昇騰推理卡+2顆鯤鵬CPU。Atlas800推理服務器(型號:3000)是基于昇騰處理器的推理服務器,最大可支持8個Atlas300I推理卡,提供強大的實時推理能力,廣泛應用于中心側AI推理場景。由數(shù)千顆昇騰處理器構成的Atlas900AI集群。Atlas900AI集群由數(shù)千顆昇騰處理器構成,整合HCCS、PCIe4.0和100GRoCE三種高速接口。其總算力達到256P~1024PFLOPS@FP16,相當于50萬臺PC的計算能力。它可以在60秒完成基于Resnet-50模型訓練,比第2名快15%,這可以讓使用者更快的進行AI訓練,高效地推進預測天氣、勘探石油、自動駕駛等等商用進程。4.科技巨頭紛紛布局算力芯片,AI浪潮勢不可擋4.1.AMD的“MI系列+InfinityFabric+ROCm平臺”,成為英偉達全球范圍內最強勁的對手RadeonInstinct系列是AMD專為數(shù)據(jù)中心和企業(yè)市場推出的GPU解決方案,旨在支持深度學習、高性能計算和科學研究等。從2017年發(fā)布RadeonInstinctMI6,到如今更新至RadeonInstinctMI300系列,采用高性能的GCN或RDNA架構,支持大規(guī)模的并行計算和機器學習任務。同時支持ROCm(RadeonOpenCompute)平臺,以提供開發(fā)和部署機器學習模型的工具和庫。2023年AMD公司推出RadeonInstinctMI300系列,正式邁進“百億億級計算”時代。AMDInstinctMI300系列加速器基于AMDCDNA3架構打造,包括AMDInstinctMI300AAPU加速器(創(chuàng)新的AI和HPC工作負載專用APU)和AMDInstinctMI300XGPU加速器,可為廣泛的AI和HPC工作負載提供領先的應用程序性能。隨著AI工作負載的擴展,AMDInstinctMI300X加速器提供了采用UBB業(yè)界標準OCP平臺設計的普適性解決方案,支持客戶將8個GPU整合為一個性能主導型節(jié)點,并且具有全互聯(lián)式點對點環(huán)形設計,單一平臺內的HBM3顯存總計可達到1.5TB——提供足以應對各類AI或HPC工作負載部署的性能密集型解決方案。2023年6月,AMD首席執(zhí)行官蘇姿豐(LisaSu)在舊金山舉行的發(fā)布會上表示,MI300X提供的HBM密度最高是英偉達Al芯片H100的2.4倍,其HBM帶寬最高是H100的1.6倍。MI300X是針對LLM的優(yōu)化版,擁有192GB的HBM3內存、5.2TB/秒的帶寬和896GB/秒的InfinityFabric帶寬。AMD將1530億個晶體管集成在共12個5納米的小芯片中。InfinityFabric是AMD的高速接口技術,用于連接CPU和GPU內部的不同部分,以及連接不同的CPU和GPU,理論峰值P2PI/O帶寬最高可達896GB/s,與NVLink旗鼓相當。多達8個InfinityFabric鏈接將AMDInstinctMI300X與節(jié)點中的第三代EPYC處理器和其他GPU相連,以實現(xiàn)統(tǒng)一的CPU內存/GPU顯存一致性和系統(tǒng)吞吐量最大化,通過加速器的強大性能使CPU代碼更簡化。ROCm是一個開源項目,支持多種加速器廠商和架構,提供了開放的可移植性和互操作性。作為一個開源平臺,任何CPU/GPU供應商都可以利用ROCm,這意味著用CUDA或其他平臺編寫的代碼可以移植到供應商中立的HIP格式,用戶可以從那里為ROCm平臺編譯代碼。ROCm平臺針對AMD的RedeonInstinct系列有優(yōu)化,并對主流機器學習框架都有所支持。AMD將AI方案部署到RadeonInstinct系列上,使開發(fā)者可以使用ROCm平臺在RadeonInstinct系列上實現(xiàn)更加高效和穩(wěn)定的運行。同時,ROCm平臺提供了對TensorFlow和PyTorch等主要機器學習框架的原生支持,從優(yōu)化的MIOpen庫到全面的MIVisionX計算機視覺和機器智能庫、實用程序和應用程序,AMD與人工智能開放社區(qū)廣泛合作,以促進和擴展機器和深度學習功能和優(yōu)化,從而幫助擴大加速計算所適用的工作負載。但在生態(tài)系統(tǒng)和性能上,ROCm還和CUDA有一定差距。相比于NVIDIA的CUDA,ROCm的生態(tài)系統(tǒng)相對較弱,且只支持Linux,同時更新速度較慢,生態(tài)不夠完善。而在性能上,在大部分應用場景中,盡管在測試中MI系列的理論性能高于NVIDIA的加速器,但由于ROCm平臺的優(yōu)化問題,AMD的程序性能普遍低于NVIDIA。4.2.特斯拉自研Dojo超算服務器,芯片間高帶寬互連為其一大特色特斯拉自研宏、微架構提高運行效率與可編程性,D1芯片在算力、互聯(lián)帶寬具有很強的優(yōu)勢。與Nvidia,Google等廠商的計算集群相比,Dojo在互連、內存訪問以及互聯(lián)和內存訪問的IO上是對稱的,這就使得其具有獨一檔的ScaleOut(橫向拓展)的能力,從而提高系統(tǒng)運行效率。微架構上,D1芯片內部核心TrainingNode采用了圖靈完備的SMT+SIMD設計,其可編程性有可能會強于英偉達的TensorCore架構和華為的Cube架構,并且為每一個Node設計了上下左右各64bit的片上NoC通道,這使得Node之間核心堆疊和數(shù)據(jù)傳輸?shù)碾y度大大降低。D1芯片采用臺積電7nm制程,算力達22.6TFLOPS,總互連帶寬可達16TB/s,遠超英偉達A100的600GB/s、華為昇騰910的90GB/s。其組成的機柜集群DojoExaPOD算力在BF16/FP32精度下可達到1.1ExaFLOPs,相當于約3200片A100的算力,并擁有1.3TB的高速SRAM和13TB的高帶寬DRAM。同時,美國時間2023年8月28日,特斯拉上線了由1萬片H100組成的超級計算機,將用來訓練包括FSD自動駕駛系統(tǒng)在內的各種AI應用。目前,特斯拉的AI訓練方向主要為自動駕駛,其硬件Hardware4.0已經(jīng)搭載自研FSD2.0。特斯拉將加快Dojo建設更新,全新版本Dojo性能將提升近十倍。據(jù)特斯拉AI官方賬號在Twitter上披露的算力預期圖顯示,預計在2024年10月,Dojo整體算力規(guī)模達到100EFLOPs,相當于約30萬塊A100的算力總和。在2022年AIDay上,特斯拉公布了Dojo的未來路線規(guī)劃,同時宣布公司正在研發(fā)全新版本的Dojo構建,包括DojoD2芯片、DojoTrainingTileV2、DipV2和DNICV2。通過硬件研發(fā)更新,全新版本Dojo超級計算機將在性能上提升近十倍。馬斯克在Twitter上曾表示,DojoV1主要面向大量的視頻數(shù)據(jù)訓練而優(yōu)化,并不是面向通用人工智能(AGI),但DojoV2將突破這一點。因此,Dojo未來有望成為特斯拉的AI支柱,依靠其強大算力,特斯拉擁有的海量數(shù)據(jù)將充分釋放其功能,Dojo可全方面促進特斯拉前沿科技領域如自動駕駛、人形機器人、SpaceX等領域。自主研發(fā)FSD2.0芯片推動HW4.0更新,助力特斯拉自動駕駛突破。特斯拉在自動駕駛領域多年來不斷探索,處于行業(yè)前列,其依賴于FSD芯片與HW硬件。2023年2月HW4.0發(fā)布,其搭載了FSD2.0芯片。FSD2.0芯片的ARMCortex-A72CPU內核由12個增加至20個,運行頻率在1.37GHz-2.35GHz之間,采用7nm工藝,算力預測最多達到216TOPS,仍低于英偉達Orin254TOPS。顯存方面,特斯拉成為第一個在車載領域用GDRR的公司。通過FSD2.0芯片更新升級以及HW4.0架構調整,特斯拉自動駕駛有望突破。4.3.Intel推出GPU系列芯片和oneAPI開發(fā)平臺,完善其AI數(shù)據(jù)中心布局英特爾在數(shù)據(jù)中心的布局主要通過優(yōu)化其至強系列CPU與推出數(shù)據(jù)中心GPUmax系列和flax系列以及對標DPU的IPU數(shù)據(jù)接口芯片來實現(xiàn)。在英特爾2022年投資者會議上,英特爾DCAI公布了2022年至2024年下一代英特爾?至強產品的路線圖。數(shù)據(jù)中心GPUmax系列有max1550與max1100兩個系列,其專為AI和科學計算領域的數(shù)據(jù)密集型計算模型提供突破性性能。在2021年6月,英特爾首度提出IPU的產品概念。IPU可以釋放CPU的計算資源,以便于解決現(xiàn)代工作負載挑戰(zhàn),幫助提升云服務的性能。英特爾IPU既有基于FPGA的方案,如OakSpringsCanyon,也有基于ASIC的方案,如MountEvans。在軟件生態(tài)上,英特爾推出了與英偉達的CUDA和AMD的ROCm對標的oneAPI。oneAPI是由英特爾提出的一種開放的、統(tǒng)一的編程模型,它旨在簡化在英特爾芯片上進行并行計算的復雜性。優(yōu)點是它可以跨CPU、GPU、FPGA和其他硬件架構運行。通過這種方式,一套代碼就可以應用于多種硬件平臺,實現(xiàn)跨平臺的并行計算,大大提高了開發(fā)效率和應用性能,其精簡程度對標英偉達CUDA架構與AMD的ROCm。4.4.Google推出CloudTPU解決方案,更專注于機器學習領域GoogleCloudTPUv5e專為提供大中型訓練與推理所需的成本效益和性能而設計。性能上,TPUv5e能夠平衡性能、靈活性和效率,允許多達256個芯片互連,聚合帶寬超過400Tb/s和100petaOps的INT8性能,更加高的帶寬,對于大模型的數(shù)據(jù)傳輸非常有利。CloudTPUv5e通過基準測試顯示,大模型的訓練速度提高了5倍。在推理指標方面,CloudTPUv5e也實現(xiàn)了巨大的提升,能夠每秒實時處理1000秒的內部語音到文本和情感預測模型。和英偉達通用型GPU相比,谷歌TPU更加專注深度學習領域,可加快深度學習運算速度,降低功耗。英偉達的A100和H100屬于廣義上的通用型GPU,GPU具有通用計算能力,適用于高性能計算、深度學習以及大規(guī)模數(shù)據(jù)分析等多種計算工作負載,而不僅僅是深度學習。谷歌TPU采用低精度計算,在幾乎不影響深度學習處理效果的前提下大幅降低了功耗、加快運算速度,尤其對于中型LLM設計者來說完全夠用,因此他們可能不需要依賴高性能的英偉達A100/H100。同時,TPU使用了脈動陣列等設計來優(yōu)化矩陣乘法與卷積運算。TensorFlow框架的廣泛性、泛用性為Google構筑AI護城河。TensorFlow是由Google團隊開發(fā)的最重要的深度學習框架,也是全世界使用人數(shù)最多、社區(qū)最為龐大的一個框架。Tensorflow靈活的架構可以部署在一個或多個CPU、GPU的臺式及服務器中,支持多家NVIDIA、AMD等多家廠商的GPU加速器,或者使用單一的API應用在移動設備中。Google以軟件優(yōu)勢帶動硬件發(fā)展,以TensorFlow框架助力CloudTPU。Google的CloudTPU系列加速器經(jīng)過優(yōu)化,可加速和擴展使用TensorFlow編程的特定ML工作負載。CloudTPU還簡化了對ML計算資源的計算和管理,可使得ML模型加速最優(yōu)化,并根據(jù)需求動態(tài)調整容量;CloudTPU的大規(guī)模、高集群的ML模型已經(jīng)過多年優(yōu)化,無需投入專門的能源、冷卻、網(wǎng)絡和存儲設備等方面的精力、時間和專業(yè)知識來進行設計、安裝和維護。4.5.Meta2020年推出第一代MTIA方案,側重于處理低/中復雜度模型作為Facebook母公司,META在AR/VR頭顯全球市場上有明顯份額優(yōu)勢,并開發(fā)有Llama2、Falcon40B、StableDiffusion等LLM模型;為實現(xiàn)差異化競爭、提高公司核心實力,META在AI、AR芯片生態(tài)領域持續(xù)探索自研,目前已推出AI推理定制芯片MTIAv1、RSC超算集群與深度學習框架Pytorch、Caffe2go等。2020年Meta推出第一代MTIA全棧解決方案,包括MTIA芯片、PyTorch與推薦模型,目前側重于處理低/中復雜度的AI模型。其中,加速器采用臺積電7nm工藝制造,具備800MHz的運行功率,在INT8、FP16精度下分別能夠提供102.4TOPS、51.2TFLOPS算力。MTIA第一代致力于提高推薦模型效率、應用于廣告及其他新聞推送,采用開源芯片架構RISC-V,功耗僅有25瓦,遠低于英偉達等主流廠商的芯片產品;在基準測試中第一代MTIA芯片處理低/中等復雜度的AI模型效率高于GPU,在這方面相較競品芯片有明顯優(yōu)勢。根據(jù)Facebook官網(wǎng)披露,RSCAI服務器系列由META與PenguinComputing、英偉達、PureStorage合作組裝,于2022年1月首次亮相。目前,RSC包含2000個英偉達DGXA100系統(tǒng)和16000個英偉達A100GPU,能實現(xiàn)近5exaflops的混合精度算力,已用于推動包括生成式AI在內的多領域前沿研究。Meta將RSC應用于訓練有650億參數(shù)的大語言模型LLaMA并將該模型作為門控版本分享給研究社區(qū),以幫助研究人員在無大量硬件的情況下對特定任務進行研究、微調。5.AI產業(yè)帶動國內算力數(shù)據(jù)中心建設,大規(guī)模招標陸續(xù)啟動AI產業(yè)崛起,國產AI芯片和服務器的需求在快速增長。2023年11月29日,在AICC2023中國人工智能算力大會上,國際數(shù)據(jù)公司(IDC)與浪潮信息聯(lián)合發(fā)布《2023-2024中國人工智能計算力發(fā)展評估報告》。根據(jù)報告,2023年中國AI服務器市場規(guī)模將達91億美元,同比增長82.5%,智能算力規(guī)模預計達到414.1EFLOPS,同比增長59.3%。在GPU、CPU領域,國產廠商如華為、中科曙光、兆芯、海光等紛紛推出自主研發(fā)的芯片產品,打破了國外廠商在高端芯片市場的壟斷。在算力需求不斷增長的大背景下,數(shù)據(jù)中心的建設也在加速進行。新技術和新應用的快速發(fā)展,如工業(yè)互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等,加上ChatGPT技術的推廣,對數(shù)據(jù)資源的存儲、計算和應用需求提出了更高要求。國內外的數(shù)據(jù)中心建設有望迎來一個高峰期。根據(jù)《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》、《數(shù)字中國發(fā)展報告(2022年)》以及共研產業(yè)咨詢數(shù)據(jù),到2023年,我國數(shù)據(jù)中心機架行業(yè)市場規(guī)模將達到750萬架,市場規(guī)模預計將達到2470.1億元人民幣。2023年10月15日,中國電信官網(wǎng)披露,AI算力服務器(2023-2024年)集中采購項目總計4157臺,預計采購總額超過80億元,根據(jù)評審結果,超聚變、浪潮、新華三等廠商入圍,并顯著增加了對訓練型服務器的投資。這一采購規(guī)模與2021-2022年僅采購1268臺GPU型服務器相比,有顯著增長。具體到各標包的分布,標包1和標包2均屬于I系列服務器,包括2073臺訓練型風冷服務器、125臺訓練型液冷服務器和1182臺InfiniBand交換機。而標包3和標包4則為G系列服務器,分別包括1048臺訓練型風冷服務器和929臺訓練型液冷服務器。中標廠商主要為國內服務器集成商,為國產芯片導入營造良好的環(huán)境。超聚變、浪潮信息、紫光華山、寧暢、中興通訊、烽火通信和聯(lián)想在I系列風冷和液冷服務器的投標中各占一席之地,超聚變在風冷服務器和液冷服務器的中標金額和市場份額中均是第一。另一方面,在G系列服務器的標包中,華鯤振宇、昆侖、烽火通信、寶德計算、新華三、湘江鯤鵬、DCN和黃河信產等公司均成為中標候選人。6.重點公司分析6.1.興森科技興森科技是國內領先的印制電路板(PCB)樣板及批量板的設計和制造服務提供商,公司于2012年開始涉足CSP封裝基板領域,是國內IC封裝基板行業(yè)的先行者之一。目前,公司在薄板加工能力和精細路線能力方面居于國內領先地位,并與國內外主流的芯片廠商、封裝廠建立了合作關系,積極投入FCBGA封裝基板領域。6.2.新益昌新益昌是國內領先的LED和半導體固晶機綜合解決方案提供商,隨近年來3C電子產品需求增加,同時以云計算、大數(shù)據(jù)、新能源及可穿戴設備等為主的新型應用領域強勁需求下,半導體市場出現(xiàn)巨大需求。根據(jù)WSTS預測,2024年全球半導體銷售額預計可回升至5760億美元。其中,半導體封裝環(huán)節(jié)的重點是固晶及焊線環(huán)節(jié),固晶環(huán)節(jié)對設備的超高精度、定位能力具有極高的要求,技術壁壘很高,是公司的核心競爭力所在。根據(jù)公司2023半年報披露,公司憑借過硬的產品質量和技術創(chuàng)新能力以及配套服務能力,在半導體封裝領域為晶導微、燦瑞科技、揚杰科技、通富微、固锝電子、華天科技等知名公司在內的龐大優(yōu)質客戶群體提供定制化服務。目前,公司半導體固晶設備近年來客戶導入順利,受到業(yè)內認可,業(yè)務收入快速增長,根據(jù)公司12月27日發(fā)布的自愿披露訂單情況,公司截至12月26日,固晶機板塊在手訂單共計4.13億元。6.3.天承科技天承科技成立于2010年,主要經(jīng)營PCB所需要的專用電子化學品的研發(fā)、生產和銷售(功能濕電子化學品)。PCB專用電子化學品專用性強、品種多,公司經(jīng)過多年積累,目前技術已經(jīng)涵蓋水平沉銅、電鍍、垂直沉銅、化學沉錫、去膜、棕化、粗化、微蝕等多個PCB制作工藝流程,技術指標與應用性能達到行業(yè)先進水平,能夠滿足下游廠商對于生產高頻高速PCB、HDI、多層軟板及軟硬結合板等高端PCB需求,同時公司也解決了觸摸屏金屬網(wǎng)格沉銅,品牌知名度較高。6.4.德邦科技公司以其在高端電子封裝材料研發(fā)及產業(yè)化領域的專業(yè)實力,已被認定為國家級的專精特新“小巨人”企業(yè),其業(yè)務聚焦于集成電路封裝材料、智能終端封裝材料、新能源應用材料及高端裝備應用材料等四大類別。這些產品廣泛用于不同的封裝工藝環(huán)節(jié)和應用場景,如晶圓加工、芯片級封裝、功率器件封裝、板級封裝、模組及系統(tǒng)集成封裝等,在國家集成電路產業(yè)基金的重點支持下,已在集成電路封裝、智能終端封裝、動力電池封裝、光伏疊瓦封裝等領域取得顯著的技術突破。6.5.華海誠科公司是一家專注于半導體封裝材料的研發(fā)及產業(yè)化的國家級專精特新“小巨人”企業(yè),以其在環(huán)氧塑封料領域的顯著成就而聞名。在先進封裝領域,華海誠科也取得了顯著進展。據(jù)公司業(yè)績會披露,其應用于QN封裝的產品已通過通富微電和長電科技等知名企業(yè)的驗收,并開始小批量銷售。此外,跟據(jù)公司招股書,FC底填膠等多款產品也已進入小批量生產和銷售階段,而應用于FCBGA的產品和液態(tài)塑封材料(LMC)目前正處于客戶驗證階段,2021年,公司成為長電科技、華天科技等多家知名封裝企業(yè)的主要內資供應商。6.6.英維克液冷系統(tǒng)是一種先進的散熱技術,它通過利用液體的高導熱系數(shù),有效提升了散熱效率,尤其在處理高功率、高熱量的AI服務器和GPU/CPU等高性能計算設備時表現(xiàn)卓越。2005年創(chuàng)立以來,深圳英維克公司在精密溫控節(jié)能設備領域持續(xù)發(fā)展和創(chuàng)新,成為該領域在國內的技術領導者。最初,該公司專注于為信息和通信行業(yè)提供溫控解決方案,產品范圍涵蓋了通信基站、戶外機柜和數(shù)據(jù)中心節(jié)能空調等,根據(jù)公司2020年報披露,公司與華為、中興等行業(yè)巨頭建立了深入合作關系。2013年,英維克洞察市場前景,進入儲能溫控領域,到2020年,已牢固占據(jù)行業(yè)領先地位。2015年,公司進一步擴張,設立深圳科泰,進軍新能源車空調領域,并于2018年收購上海科泰,拓展至軌道交通領域。在不斷拓寬溫控解決方案的同時,公司通過構建平臺化解決方案,發(fā)揮了協(xié)同效應,增強了市場競爭力。6.7.飛榮達自1993年成立以來,公司在電子輔料產品生產領域取得了顯著發(fā)展。自2000年開始,公司著手開發(fā)國際主流品牌的電磁屏蔽和導熱材料與相關散熱解決方案,逐步擴展其產品線至金屬屏蔽器件、導電布襯墊、導熱界面器件等,拓展應用至計算機和手機等高端領域。據(jù)公司公告與2022年年報,在通信基站領域,通過與中興通訊的合作,公司成功開發(fā)并試制了3DVC技術樣機,標志著5G基站首次采用這一先進的散熱技術。在服務器領域,飛榮達向包括華為和超聚變在內的多個知名客戶提供了一系列散熱與電磁屏蔽解決方案和產品。其產品線涵蓋單相和兩相液冷模組、軸流風扇以及專門設計的散熱器等,以滿足客戶多樣化的散熱需求。公司不僅擁有華為、中興、微軟等國內外大型企業(yè)客戶,還成功擴展至Facebook和Google等全球知名企業(yè)。這一廣泛的客戶基礎證明了其產品的實力和市場認可度。飛榮達的優(yōu)勢還體現(xiàn)在其完整的散熱產業(yè)鏈布局上,公司不僅在散熱器件和材料領域具有強勁競爭力,而且上下游一體化的產業(yè)鏈布局進一步增強了公司在整個散熱行業(yè)的綜合競爭優(yōu)勢。隨著液冷散熱市場的不斷擴大及市場潛力逐步釋放,飛榮達有望獲得顯著的市場機遇。6.8.思泉新材思泉新材是一家專注于熱管理材料的多元化功能性材料提供商,在電子電氣產品穩(wěn)定性及可靠性提升方面表現(xiàn)卓越。其主營業(yè)務包括研發(fā)、生產和銷售熱管理材料、磁性材料、納米防護材料等。作為國內電子電氣功能性材料領域的領先高新技術企業(yè),思泉新材在自主研發(fā)和技術創(chuàng)新方面具有顯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026山東臨沂市臨沭縣部分事業(yè)單位招聘綜合類崗位工作人員27人筆試備考試題及答案解析
- 八一活動策劃方案部隊(3篇)
- 少兒模特活動策劃方案(3篇)
- 2026河南洛陽古都麗景控股集團有限公司招聘9人備考考試題庫及答案解析
- 2026河南鄭州市科學技術館招聘1人備考考試題庫及答案解析
- 2026江蘇省人民醫(yī)院臨床醫(yī)學研究院(I期研究中心)派遣制人員招聘1人筆試模擬試題及答案解析
- 《液壓與氣壓傳動》 課件 單元11 液壓系統(tǒng)的使用、維護與故障診斷
- 中醫(yī)護理學護理發(fā)展
- 化學品專項培訓
- 化妝造型培訓
- 2025房屋購買借款合同
- 建筑工程施工質量控制問題及優(yōu)化對策研究
- 公司合作項目參與人員證明書(6篇)
- 停車場地租用合同書
- 2025年福建廈門高三一模高考數(shù)學試卷試題(含答案詳解)
- 喉返神經(jīng)損傷預防
- 《汽車用先進高強鋼 薄板和薄帶 擴孔試驗方法》
- 脾破裂手術配合
- 2023年高級售后工程師年度總結及下一年展望
- 【語文】湖南省長沙市實驗小學小學四年級上冊期末試卷(含答案)
- 阿米巴經(jīng)營模式-人人都是經(jīng)營者推行授課講義課件
評論
0/150
提交評論