版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
證
券
研
究
報
告AI云計算新范式:規(guī)模效應(yīng)+AI
Infra+ASIC芯片——GenAI系列報告之五十四2025.03.281重點報告回顧?
我們近期已發(fā)布多篇深度報告,圍繞重點標(biāo)的AI布局及進(jìn)展,從底層硬件至上層應(yīng)用進(jìn)行全方位梳理:1.
騰訊AI詳細(xì)梳理:《騰訊控股(00700)點評:AI應(yīng)用+云業(yè)務(wù)有望迎來價值重估》2.
阿里云深度:《阿里巴巴-W(09988)深度:AI開啟阿里云新成長(阿里巴巴深度之三暨GenAI系列報告之39)》3.
字節(jié)AI詳細(xì)梳理:《豆包大模型升級,字節(jié)AI產(chǎn)業(yè)鏈?zhǔn)崂怼?/p>
GenAI之四十四》4.
金山云深度:《金山小米生態(tài)核心云廠,AI+智駕乘風(fēng)而上》5.
美股云行業(yè)季度總結(jié):《云廠Capex指引仍樂觀,AI應(yīng)用ROI路線清晰或?qū)⒂瓉泶呋拦稍朴嬎愫突ヂ?lián)網(wǎng)巨頭24Q4總結(jié)》、《北美云廠Capex加速,AI降本增效初步體現(xiàn)——
美股云計算和互聯(lián)網(wǎng)巨頭24Q3總結(jié)》6.
谷歌深度:《谷歌:AI征途換檔提速,云業(yè)務(wù)驅(qū)動成長》7.
META深度:《Meta
Platforms
(META):廣告推薦應(yīng)用+開源模型+算力,AI布局解析》8.
博通深度:《博通:軟硬一體的AI賣鏟人》9.
AI應(yīng)用深度:2024年總結(jié)-《AI應(yīng)用:商業(yè)化初露鋒芒——AI應(yīng)用深度之二暨GenAI系列報告之三十九》、2023年總結(jié)-《AI應(yīng)用:從生產(chǎn)力工具到交互體驗升級——生成式AI2024年投資策略》
證券研究報告2核心觀點:???AI云計算新范式:規(guī)模效應(yīng)+AI
Infra能力+算力自主化。云計算在AI收入拉動下營收增速回暖、Capex增長加速已成為市場共識。(詳見此前相關(guān)報告總結(jié)。)但對于AI云時代競爭格局以及云廠利潤率還有分歧,也是本報告的重點。1)更強的規(guī)模效應(yīng);2)AI
infra能力;3)算力自主化為云廠中長期降本方向。規(guī)模效應(yīng):更高的初始投入,更高的算力利用率。(1)AI云更高的資本密集度。(2)AI服務(wù)器/網(wǎng)絡(luò)設(shè)備使用年限更短、成本占比明顯提升。多租戶+多場景(含自有場景)+自有模型平抑需求峰谷,降低產(chǎn)能空置率、攤薄單位計算成本,實現(xiàn)更高的ROI。以騰訊、阿里、谷歌等為代表的大型云廠商/互聯(lián)網(wǎng)巨頭具備龐大的內(nèi)部工作負(fù)載稟賦+AI大模型的優(yōu)勢,有望降低單位計算成本。AI
Infra:實現(xiàn)計算性能挖潛。AI
Infra定位于算力與應(yīng)用之間的“橋梁”角色的基礎(chǔ)軟件設(shè)施層,體現(xiàn)在:1)硬件集群的組網(wǎng)構(gòu)建、算力調(diào)度系統(tǒng);2)大模型+AI開發(fā)工具,增強大模型對于算力計算效率的挖潛;3)針對應(yīng)用的定向優(yōu)化等工作。盡管模型開源,但針對特定模型推理的優(yōu)化能力、AI工具豐富度差異仍會放大云廠對同一開源模型優(yōu)化后的推理成本差距。以谷歌、字節(jié)火山引擎、阿里云、DeepSeek等為代表的廠商已在AI
Infra領(lǐng)域發(fā)布訓(xùn)練/推理側(cè)工具。?算力自主化:海外ASIC芯片趨勢啟示。強大的工程能力或有望彌補ASIC和GPU硬件生態(tài)差距。ASIC架構(gòu):基于脈動陣列的定制架構(gòu)為重要路線;ASIC開發(fā)生態(tài):谷歌和AWS均基于XLA,Meta
MTIA
v2軟件堆棧基于Triton。ASIC芯片的確定性來自:(1)供給端,芯片設(shè)計制造專業(yè)分工:降低ASIC與GPU在代工制造、后端封裝設(shè)計上的差距,ASIC輔助設(shè)計博通、邁威爾等崛起。(2)需求端:牧本擺動,有望從標(biāo)準(zhǔn)化到定制化:架構(gòu)創(chuàng)新,催生新的定制化芯片,并再度基于新的芯片進(jìn)行算法創(chuàng)新升級,以實現(xiàn)芯片性價比優(yōu)勢;商業(yè)上可行:具備龐大算力需求的云廠可覆蓋開發(fā)定制化芯片的成本。ASIC制造模式:云廠前端設(shè)計+IC輔助設(shè)計支持。??推薦(1)互聯(lián)網(wǎng)云計算:騰訊控股,阿里巴巴,金山云;谷歌、微軟、META、亞馬遜;(2)ASIC輔助設(shè)計:博通。風(fēng)險提示:內(nèi)容和互聯(lián)網(wǎng)平臺監(jiān)管環(huán)境變化風(fēng)險;大模型性能進(jìn)步不及預(yù)期;AI應(yīng)用落地進(jìn)展不及預(yù)期風(fēng)險
證券研究報告3主要內(nèi)容1.
AI云計算新范式:規(guī)模效應(yīng)+AI
Infra能力+算力自主化2.
規(guī)模效應(yīng):資本密集度+多租戶+內(nèi)部負(fù)載的削峰填谷3.
AIInfra:實現(xiàn)計算性能挖潛4.
算力自主化:海外ASIC芯片趨勢啟示5.
重點標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.
重點公司估值表及風(fēng)險提示41.1
云計算:計算資源公共化,AI云聚焦于AI算力+工具?
云計算是將計算資源變成可租用的公共服務(wù),強調(diào)集中管理和動態(tài)分配虛擬化計算資源,以按需自助服務(wù)、彈性擴展和按使用量計費為核心特征的標(biāo)準(zhǔn)化服務(wù)模式,實現(xiàn)相對企業(yè)自建數(shù)據(jù)中心的性價比優(yōu)勢。?
傳統(tǒng)云計算指基于CPU服務(wù)器,主要為傳統(tǒng)工作負(fù)載提供支持。AI云的區(qū)別在于,硬件平臺基于GPU服務(wù)器,主要提供包括MaaS層在內(nèi)的各環(huán)節(jié)AI工具及服務(wù)。圖:云計算按服務(wù)方式的分層基礎(chǔ)設(shè)施即服務(wù)平臺即服務(wù)大模型即服務(wù)MaaS(AI云提供)軟件即服務(wù)IaaSPaaSSaaS應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息應(yīng)用程序數(shù)據(jù)信息云用戶管理大模型API/開源模型大模型API/開源模型運行環(huán)境中間件運行環(huán)境中間件運行環(huán)境中間件運行環(huán)境中間件云服務(wù)商全棧管理操作系統(tǒng)數(shù)據(jù)庫操作系統(tǒng)數(shù)據(jù)庫操作系統(tǒng)數(shù)據(jù)庫操作系統(tǒng)數(shù)據(jù)庫虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器虛擬化軟件服務(wù)器云服務(wù)商提供網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備網(wǎng)絡(luò)設(shè)備存儲設(shè)備存儲設(shè)備存儲設(shè)備存儲設(shè)備機房基礎(chǔ)設(shè)施機房基礎(chǔ)設(shè)施機房基礎(chǔ)設(shè)施機房基礎(chǔ)設(shè)施
證券研究報告
資料:CSDN,申萬宏源研究51.1
云計算:AI時代云需求明確提升,重點關(guān)注未來競爭?
AI對于算力基礎(chǔ)設(shè)施的需求明確提升,各云廠在AI云收入拉動下營收增速回暖、Capex將增長加速已成為市場共識。?
本報告則旨在聚焦于未來的AI云競爭,在規(guī)模效應(yīng)、AI
Infra能力、算力自主化三大層面討論AI云競爭格局變化和未來利潤率趨勢。表:國內(nèi)及海外主要云廠商營收增速回暖(單位:美股標(biāo)的為億美元,其他標(biāo)的為億人民幣)公司2023年云收入2023年YoY云收入占比
2024年云收入
2024年YoY云收入占比
云經(jīng)營利潤率亞馬遜微軟智能云谷歌阿里巴巴金山云中國移動中國聯(lián)通中國電信9087973319947083351097213%16%35%11%11%100%8%1,0769564321,135781,00468619%20%31%8%10%20%17%17%17%37%17%12%100%10%18%22%37%40%以上14%26%2%-14%66%42%68%9%-6%14%19%1,139表:國內(nèi)及海外主要云廠商Capex同比增速大幅提升公司23Q323Q424Q124Q224Q324Q4微軟亞馬遜Meta70%-24%-30%11%-57%237%61%69%-12%-15%45%28%33%90%79%5%-2%91%221%226%57%78%54%36%91%75%121%-22%79%81%41%97%91%94%谷歌62%30%阿里巴巴騰訊控股百度240%114%-53%259%386%-36%
證券研究報告資料:各公司財報,申萬宏源研究61.2
AI云新范式:更多競爭要素,看好互聯(lián)網(wǎng)云/大型云?
對于云計算而言,云服務(wù)工具/資源的豐富度、計算資源的利用率為云廠商盈利核心。?
相對傳統(tǒng)云,AI云計算出現(xiàn)新范式:云技術(shù)重新進(jìn)入快速迭代階段、資本更為密集,對云廠商的資本密集度、產(chǎn)能利用率、云基礎(chǔ)設(shè)施能力、工具和生態(tài)的豐富度、自研芯片布局等維度均提出新要求。?
AI云實現(xiàn)盈利的門檻將進(jìn)一步提升,看好擁有技術(shù)能力、云多租戶、內(nèi)部負(fù)載規(guī)模效應(yīng)的互聯(lián)網(wǎng)云/大型云。圖:AI云相對傳統(tǒng)云,在資本開支、產(chǎn)能利用率、技術(shù)能力等方面提出更高要求核心競爭要素傳統(tǒng)云計算AI云計算資本密集型,以CPU服務(wù)器為主2023年海外大型云/互聯(lián)網(wǎng)巨頭Capex總和為1534億美元以GPU服務(wù)器為主,單集群Capex更龐大2024年海外大型云/互聯(lián)網(wǎng)巨頭Capex總和為2504億美元規(guī)模效應(yīng)-資本密集度IT設(shè)備成本占比約為40%-50%,基建、運維占比相對高,對產(chǎn)能空置有一定容忍度IT設(shè)備成本占比約為60%-70%,折舊壓力更大,對產(chǎn)能空置容忍度很低,擁有內(nèi)部負(fù)載/自研大模型/云多租戶十分重要規(guī)模效應(yīng)-產(chǎn)能利用率AI云的基礎(chǔ)設(shè)施能力仍在快速迭代,且各廠商能力差異大,體現(xiàn)在大模型推理成本等領(lǐng)域AIInfra-云基礎(chǔ)設(shè)施能力傳統(tǒng)云基礎(chǔ)設(shè)施強調(diào)穩(wěn)定性及服務(wù),虛擬化、容器等技術(shù)已趨于成熟AI
Infra-工具/生態(tài)豐富度主要提供數(shù)據(jù)分析工具、Devops平臺等除傳統(tǒng)工具外,競爭格局還受到云廠商提供的AI工具豐富度影響服務(wù),工具豐富度算力自主化自研ASIC芯片主要云廠商亞馬遜、阿里巴巴、谷歌等均主要云廠商谷歌、亞馬遜、阿里巴巴等均在針對特定工作負(fù)載自研AI
ASIC芯片在自研CPU等芯片資料:申萬宏源研究
證券研究報告7注:本表內(nèi)海外大型云/互聯(lián)網(wǎng)巨頭包括微軟、亞馬遜、谷歌、META1.2
AI云ROI:更強的規(guī)模效應(yīng)、AI
Infra能力、算力自主化?
AI云利潤率將由三大方向影響,不同能力、規(guī)模間的AI云利潤率或?qū)⒗_較為明顯的差距。?
1)需求側(cè)-規(guī)模效應(yīng)提升算力利用率:增加工作負(fù)載保證集群滿負(fù)載、實現(xiàn)算力需求削峰填谷;?
2)供給側(cè)-AI
Infra能力提升硬件計算效能:對應(yīng)用程序/大模型至硬件間的組網(wǎng)、軟件算法進(jìn)行優(yōu)化;?
3)長期供給側(cè)-算力自主化降低硬件成本:中長期維度降本途徑。圖:AI云的ROI主要由規(guī)模效應(yīng)、AI
Infra優(yōu)化、算力自主化帶來應(yīng)用程序-AI云工程棧規(guī)模效應(yīng)AIInfra能力算力自主化應(yīng)用程序-算力負(fù)載前提條件
軟件技術(shù)、業(yè)務(wù)運營導(dǎo)向軟硬件技術(shù)、研發(fā)導(dǎo)向硬件技術(shù)、研發(fā)導(dǎo)向規(guī)模效應(yīng):提升產(chǎn)能利用率?
自研/投資大模型?
云多租戶需求量MaaS/PaaS算力平臺?
ASIC芯片設(shè)計能力?
開發(fā)生態(tài)構(gòu)建能力核心因素降本方式?
AIInfra工程能力?
龐大而穩(wěn)定的AI內(nèi)部工作負(fù)載AI
Infra能力:計算效能挖潛提升產(chǎn)能利用率:削峰填谷,平穩(wěn)地工作負(fù)載,攤薄折舊成本提升計算效能,提升同等芯片在單位時間內(nèi)可完成的訓(xùn)練/推理任務(wù)量降低硬件采購成本,提升單位資本開支可獲取的算力GPU/ASIC硬件平臺算力自主化:自研ASIC芯片
證券研究報告資料:申萬宏源研究8主要內(nèi)容1.
AI云計算新范式:規(guī)模效應(yīng)+AI
Infra能力+算力自主化2.
規(guī)模效應(yīng):資本密集度+多租戶+內(nèi)部負(fù)載的削峰填谷3.
AIInfra:實現(xiàn)計算性能挖潛4.
算力自主化:海外ASIC芯片趨勢啟示5.
重點標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.
重點公司估值表及風(fēng)險提示92.1
資本密集度:構(gòu)建AI云集群的支出量級仍在不斷擴大?
海外:根據(jù)各企業(yè)指引,2024年谷歌、微軟、亞馬遜、META的Capex總計2504億美元;若假設(shè)2025年(即FY25Q3-FY26Q2)微軟保持FY25Q2的資本開支水平,則四家巨頭的Capex預(yù)計將接近3400億美元,同比增速有望達(dá)到35%。隨著各家Capex已達(dá)到較高基數(shù)水平,預(yù)計26年增速或有所放緩。?
國內(nèi):阿里巴巴指引25-27年資本開支將達(dá)到3800億元,年均將接近1300億元;騰訊指引Capex將占營收的低兩位數(shù)百分比(Low
Teens)。圖:海外主要互聯(lián)網(wǎng)云巨頭資本開支快速增長圖:國內(nèi)主要互聯(lián)網(wǎng)云巨頭資本開支快速增長(億美元)微軟AmazonMetaGoogle合計同比(億人民幣)阿里騰訊百度30090%80%70%60%50%4003503002502502001501005040%
20030%20%10%0%1501005000-10%18Q1
18Q3
19Q1
19Q3
20Q1
20Q3
21Q1
21Q3
22Q1
22Q3
23Q1
23Q3
24Q1
24Q3CY2022Q3CY2023Q1CY2023Q3CY2024Q1CY2024Q3
證券研究報告資料:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究102.1
資本密集度:AI視頻/Agent到來將提升算力需求量級?
AI應(yīng)用即將走向AI
Agent、視頻、3D等模態(tài),對算力的消耗量級將進(jìn)一步提升:文字交互的推理單次請求目前僅為數(shù)百Tokens的計算量,但AI
Agent的復(fù)雜任務(wù)規(guī)劃、多步推理,以及視頻和3D工具的單次推理,消耗Tokens的量級將相對文字交互明確提升。?
此外,AI有望拉動國內(nèi)企業(yè)上云需求,進(jìn)一步帶動云計算Capex提升。表:圖片/視頻生成及AIAgent預(yù)計將帶來更高量級算力需求功能文字對話圖片生成視頻生成模型價格具體消耗谷歌輸入:0.1美元/百萬Tokens;4字符/Token,100Tokens大約相當(dāng)于60-80英文單詞,每輪對話生成300個單詞,則消耗大約500TokensGemini2.0Flash
輸出:0.4美元/百萬Tokens谷歌
Imagen3谷歌
Veo2生成圖片:0.04美元/圖片生成視頻:0.5美元/s按同等價格算約等同于10萬Tokens文字輸出算力8s視頻價格為4美元,按同等價格算約等同于1000萬Tokens文字輸出算力越復(fù)雜的任務(wù)需要的大模型推理步數(shù)更多。AI
Agent完成某一簡單代碼開發(fā)需要約20步,則算力消耗為單步推理的20倍以上(多步推理還需考慮狀態(tài)維持開銷、動態(tài)規(guī)劃損耗等算力消耗),復(fù)雜代碼開發(fā)則需要更多推理步數(shù)。AI
Agent基于基礎(chǔ)大模型參照文字對話消耗3D模型生成Meshy生成模型+紋理:0.4美元/個按同等價格算,約等同于100萬Tokens文字輸出算力
證券研究報告資料:谷歌、Meshy官網(wǎng),申萬宏源研究112.2
產(chǎn)能利用率:AI云IT設(shè)備折舊壓力大,空置容忍度更低?
對比傳統(tǒng)云計算,AI云廠將面臨更大的折舊壓力,利潤率將對產(chǎn)能利用率更為敏感,將形成更強規(guī)模效應(yīng)。?
1)AI云的IT設(shè)備在建設(shè)成本的占比提升:AI服務(wù)器+網(wǎng)絡(luò)設(shè)備折舊周期更短,通常折舊年限在5-6年,而基礎(chǔ)設(shè)施折舊年限通常超過15年;短折舊項占比更高,AI云廠面臨更大的折舊壓力。?
2)AI服務(wù)器實際折舊周期更短:不同于發(fā)展成熟的CPU,GPU/ASIC仍處于高速更新迭代階段,可能加速折舊。以亞馬遜FY24Q4財報為例,重新將部分IT設(shè)備折舊年限從6年縮短至5年。表
:折舊期限更短的IT設(shè)備在自建AIDC成本占比重中更高,產(chǎn)能空置的容忍度大幅降低典型傳統(tǒng)數(shù)據(jù)中心建設(shè)成本占比30%-40%典型AI數(shù)據(jù)中心建設(shè)成本占比25%-35%基礎(chǔ)設(shè)施IT設(shè)備40%-50%60%-70%服務(wù)器/IT設(shè)備:存儲及網(wǎng)絡(luò)/IT設(shè)備:運維及人工60%-70%30%-40%80%-90%10%-20%10%-20%5%-10%表
:FY24Q4亞馬遜縮短部分服務(wù)器及網(wǎng)絡(luò)設(shè)備折舊年限至5年,季度折舊攤銷成本環(huán)比加速增加單位:百萬美元
3Q22A4Q22A1Q23A2Q23A3Q23A4Q23A1Q24A2Q24A3Q24A4Q24A亞馬遜QoQ谷歌103273933279021301208117.0%360211123-7.9%2635115894.2%28247.2%38749.2%26233.9%121314.7%317112.3%39211.2%28589.0%131148.1%33164.6%595952.0%31349.7%11684-10.9%34132.9%120383.0%37088.6%63805.9%36377.8%1344211.7%3,9857.5%1563116.3%4205QoQ微軟-8.4%3648-26.8%35495.5%60271.1%73836827QoQMETAQoQ30.8%2329-2.7%252415.7%4027-7.5%446033747.7%9.3%8.4%10.7%10.8%資料:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究
證券研究報告12注:微軟的折舊中包含收購暴雪動視后的無形資產(chǎn)折舊等2.2
產(chǎn)能利用率:短期GPU供不應(yīng)求利潤率向好,供需平衡后產(chǎn)能利用率影響將凸顯?
AI云計算需求供不應(yīng)求,拉動云廠營業(yè)利潤率自23Q3后明確回暖。H100等GPU租賃價格保持在較高水平,為核心云廠帶來了較為豐厚的投資回報率;此外北美云廠疊加北美宏觀經(jīng)濟從23Q3后從悲觀預(yù)期中逐漸修復(fù)。?
盡管當(dāng)前云廠營業(yè)利潤率對折舊成本抬升仍不敏感,但仍需關(guān)注,隨著臺積電COWOS產(chǎn)能逐漸釋放,GPU將從緊缺逐漸轉(zhuǎn)向平衡,GPU租賃價格或有所回落,屆時云廠AI算力產(chǎn)能利用率對利潤率影響將更明確體現(xiàn)。表
:AI算力供不應(yīng)求+需求回暖,主要云廠利潤率持續(xù)提升后仍保持較高水平單位:億美元CY23Q174.54CY23Q280.31CY23Q384.11CY23Q491.92CY24Q195.74CY24Q2103.4728.8%11.3%262.8118.7%35.5%35.0%237.8519.6%CY24Q3113.5335.0%17.1%274.5219.1%38.1%34.0%240.9220.4%43.6%CY24Q4119.5530.1%17.5%287.8618.9%36.9%31.0%255.4418.7%42.5%營收同比增速營業(yè)利潤率營收谷歌云28.1%2.6%28.0%4.9%22.5%3.2%25.7%9.4%28.4%9.4%213.5415.8%24.0%221.4012.2%24.2%230.5912.3%30.3%30.0%200.1318.5%44.5%242.0413.2%29.6%31.0%215.2520.1%250.3717.2%37.6%35.0%221.4121.4%亞馬遜AWSAzure同比增速營業(yè)利潤率營收增速營收182.44198.89微軟智能云同比增速營業(yè)利潤率營收(億人民幣)185.82251.23276.48280.66255.95265.49296.10317.42阿里云營收YoY-2.1%2.1%4.1%1.5%2.3%5.1%2.6%8.4%3.4%5.6%5.9%8.8%7.1%9.0%13.1%9.9%EBITAMargin資料:谷歌、微軟、亞馬遜、阿里巴巴財報,Bloomberg,申萬宏源研究
證券研究報告13注:微軟智能云業(yè)務(wù)在Azure之外還包括服務(wù)器產(chǎn)品等其他業(yè)務(wù)2.3
如何實現(xiàn)規(guī)模效應(yīng)?多租戶+內(nèi)部負(fù)載均衡算力需求?
對于大模型/云廠商而言,應(yīng)用訪問需求在日內(nèi)呈現(xiàn)明顯周期性和波動性:1)日間算力需求高峰期:盡可能實現(xiàn)訪問請求量相對穩(wěn)定減少波動性,避免峰值需求過高偏離可服務(wù)量,擁有云多租戶/大規(guī)模用戶的AI應(yīng)用至關(guān)重要。2)夜間算力需求低谷期:盡可能增加時效性要求偏低的任務(wù)負(fù)載,平抑需求周期性。圖:DeepSeek應(yīng)用推理節(jié)點數(shù)量按需彈性變化,日間需求平穩(wěn)并跑滿產(chǎn)能,夜間實現(xiàn)彈性調(diào)整夜間算力彈性調(diào)整:DeepSeek動態(tài)調(diào)整節(jié)點數(shù)量降低夜間GPU使用量日內(nèi)需求穩(wěn)定并發(fā):龐大的用戶體量保持實際訪問量接近峰值可服務(wù)訪問量,減少波動性
證券研究報告資料:知乎@DeepSeek,申萬宏源研究142.3
如何實現(xiàn)規(guī)模效應(yīng)?多租戶+內(nèi)部負(fù)載均衡算力需求?
云多租戶/大規(guī)模AI應(yīng)用平抑波動性:以互聯(lián)網(wǎng)云為代表的云廠,對AI布局較早并已吸引眾多AI初創(chuàng)公司客戶,旗下?lián)碛杏脩粢?guī)模較大的AI應(yīng)用(豆包、騰訊元寶)以及內(nèi)部AI負(fù)載,可實現(xiàn)日內(nèi)需求的穩(wěn)定性。?
內(nèi)部負(fù)載調(diào)度均衡平抑周期性:互聯(lián)網(wǎng)云廠擁有較為旺盛的非實時算力需求,包括大模型/多模態(tài)工具/推薦系統(tǒng)的訓(xùn)練迭代需求、數(shù)據(jù)分析處理需求等,可以運行于算力需求低谷期,可平抑需求的周期性。表:多租戶/應(yīng)用+非實時內(nèi)部負(fù)載將幫助AI云算力實現(xiàn)削峰填谷整體需求日間需求波動夜間需求填補較長時間維度內(nèi)對客戶需求的準(zhǔn)確估算擁有云多租戶、自有業(yè)務(wù)的非實時AI算力需求對AI云的要求擁有云多租戶、大規(guī)模AI應(yīng)用由于夜間推理訪問量較少,1)可運行時效性要求較低的AI工作負(fù)載,包括模型訓(xùn)練、離線推理、推薦系統(tǒng)訓(xùn)練等,填補夜間算力空閑時間。2)可通過大幅降價吸引云租戶業(yè)績運行工作負(fù)載。實際滿足算力需求的大數(shù)定律,擁有云多租戶、應(yīng)用用戶數(shù)量大的AI應(yīng)用,可以保持在大部分時間段的負(fù)載相對穩(wěn)定,而租戶、應(yīng)用用戶少的情況下更可能出現(xiàn)的需求波動性,導(dǎo)致算力空載。根據(jù)云客戶或自身需提升產(chǎn)能利用率
求設(shè)計集群規(guī)模,減方式少因租戶不足而帶來的產(chǎn)能空置
證券研究報告
資料:申萬宏源研究152.4
互聯(lián)網(wǎng)云:閉源大模型將影響云競爭格局、算力需求量?
閉源模型仍為主要模式,云廠商可通過自研大模型+投資大模型廠商形成模型獨占,獲取更大市場份額,增加云客戶數(shù)量、提升對于云廠的算力需求量。海外TOP3閉源廠商(OpenAI-微軟+甲骨文、谷歌、Anthropic-亞馬遜)+以阿里為代表國內(nèi)大模型云廠。?
但開源模型亦逐漸走向繁榮,一定程度上縮小大模型能力差距對云廠競爭格局的影響力。DeepSeek接力META的Llama系列大模型,領(lǐng)導(dǎo)開源生態(tài)逐漸走向繁榮,此外阿里、谷歌等廠商也開源部分模型構(gòu)建開發(fā)者生態(tài),預(yù)計閉源與開源兩大路徑將共存。表
:主要大模型性能排名Arena
Score排名模型Grok-3-Preview-02-24GPT-4.5-PreviewArena分?jǐn)?shù)1412141114021384138013771363135713521336131813111309130512711269模型廠商xAIOpenAIxAI谷歌谷歌OpenAIDeepSeek谷歌OpenAI阿里巴巴DeepSeek智譜AIAnthropic階躍星辰騰訊是否開源閉源閉源閉源閉源閉源閉源開源閉源閉源閉源開源閉源閉源閉源閉源開源12345678910131416182834chocolate
(EarlyGrok-3)Gemini-2.0-Flash-Thinking-Exp-01-21Gemini-2.0-Pro-Exp-02-05ChatGPT-4o-latest
(2025-01-29)DeepSeek-R1Gemini-2.0-Flash-001o1-2024-12-17Qwen2.5-MaxDeepSeek-V3GLM-4-Plus-0111Claude3.7SonnetStep-2-16K-ExpHunyuan-Large-2025-02-10Meta-Llama-3.1-405B-Instruct-bf16Meta資料:Hugging
Face,申萬宏源研究
證券研究報告16注:時間截止2025年3月,并未包括字節(jié)跳動與百度等公司的大模型2.4
互聯(lián)網(wǎng)云:龐大的工作負(fù)載+潛在AI應(yīng)用將攤薄成本?
互聯(lián)網(wǎng)云公司擁有龐大的可遷移至AI芯片的內(nèi)部工作負(fù)載,以META為例,2022年開始將推薦系統(tǒng)負(fù)載轉(zhuǎn)移至GPU服務(wù)器上,此外搜索引擎、大模型訓(xùn)練推理、潛在爆款A(yù)I應(yīng)用均可運行于AI芯片,具備規(guī)模效應(yīng)。?
內(nèi)部負(fù)載/全球性應(yīng)用可調(diào)節(jié)算力芯片工作峰谷。1)任務(wù)調(diào)整:將時效性要求更低的負(fù)載(例如大模型/推薦系統(tǒng)訓(xùn)練迭代、數(shù)據(jù)分析處理)用于閑時。2)全球布局的企業(yè),日間與夜間工作負(fù)載的時差可以被平抑。表:國內(nèi)互聯(lián)網(wǎng)云廠商擁有龐大工作負(fù)載,可有效攤薄成本AI芯片布局大模型及AI開發(fā)框架已推出的核心AI應(yīng)用可在AI芯片上運行的內(nèi)部工作負(fù)載??云計算:火山引擎推薦系統(tǒng):應(yīng)用矩陣抖音、TikTok、剪映、今日頭條等的AI推薦算法??大模型:豆包;多模態(tài)BuboGPT開發(fā)平臺:Coze
AI平臺???AI視頻工具:即夢外購:根據(jù)Omdia,2024年公司購買了23萬片H100字節(jié)跳動阿里巴巴騰訊AIChatbot:豆包AIAgent平臺:小悟空??云計算:阿里云外購:采購英偉達(dá)芯片自研AI芯片:12nm
含光800(推理)等??AIChatbot:通義??大模型:24年5月發(fā)布通義千問2.5推薦系統(tǒng):電商平臺淘寶、阿里國際站等的AI推薦算法電商助手:淘寶問問(ToC)、AI生意助手(ToB)開發(fā)平臺:百煉AI平臺?AI助手:承擔(dān)Apple
Intelligence的大模型/算力支持自研CPU:倚天系列?開源大模型社區(qū):魔塔社區(qū)??大模型:24年11月推出Huanyuan
large
389B
MoE開源模型????AIChatbot:混元助手、騰訊元寶AI視頻平臺:騰訊智影AIAgent平臺:騰訊元器AI筆記:Ima
copilot??云計算:騰訊云外購:根據(jù)Omdia,2024年公司購買了23萬片H100自研AI芯片:紫霄(推理)等推薦系統(tǒng):微信視頻號、騰訊視頻等的AI推薦算法開發(fā)平臺:騰訊云AI平臺?搜索引擎:微信搜一搜的AI搜索算法?大模型:24年6月發(fā)布文心4.0
Turbo深度學(xué)習(xí)框架:飛槳開發(fā)平臺:千帆????AI搜索:百度AI智能問答AIChatbot:文心一言AIAgent平臺:文心智能體自動駕駛:蘿卜快跑???云計算:百度云外購:采購英偉達(dá)芯片自研AI芯片:7nm
昆侖芯二代搜索引擎:百度搜索的AI搜索算法推薦系統(tǒng):應(yīng)用矩陣百度地圖、等的AI推薦算法百度??
證券研究報告資料:字節(jié)跳動、阿里巴巴、騰訊、百度官網(wǎng)及財報,Omdia,申萬宏源研究172.4
互聯(lián)網(wǎng)云:龐大的工作負(fù)載+潛在AI應(yīng)用將攤薄成本表:海外互聯(lián)網(wǎng)巨頭/大型云廠商擁有多租戶/龐大內(nèi)部工作負(fù)載,可有效攤薄成本AI芯片布局大模型及開發(fā)框架AI研發(fā)布局模式已推出的核心AI應(yīng)用現(xiàn)有業(yè)務(wù)生態(tài)協(xié)同大模型:OpenAI推出GPT系列模型,2023年3月推出GPT-4,24年5月推出GPT-4o,24年9月推出GPT-o1開發(fā)平臺:Azure
AIStudio,包括GPT系列獨家模型及第三方大模型大比例持股體外公司+深度合作。辦公:推出Microsoft
3652023年向OpenAI投資100億美
Copilot云計算:Microsoft
Azure辦公軟件:Microsoft
365、Office外購:根據(jù)Omdia,24年購買約48.5萬張H100芯片元,為OpenAI主要的算力提供
CRM/ERP:推出Dynamic微軟谷歌自研:2023年11月發(fā)布Maia100芯片商365
copilot操作系統(tǒng):Windows瀏覽器:Edge自研:招攬Inflection
AI核心團(tuán)
編程工具:Github
Copilot隊,布局大模型搜索引擎:必應(yīng)集成ChatGPT
搜索引擎:Bing外購:根據(jù)Omdia,24年購買約16.9萬張H100;辦公:推出Duet
AI,定價30
云計算:Google
Cloud大模型:2023年12月推出首個旗下部門自研:此前有Google
美元/月辦公軟件:Workspace操作系統(tǒng):安卓自研:2016年推出第一代TPU,
多模態(tài)大模型Gemini,24年底TPUv6
Trilium已上線谷歌云,性
開始發(fā)布Gemini
2.0系列能出色。TPU芯片可基本支撐自研
深度學(xué)習(xí)框架:TensorFlowBrain、Deepmind等多個AI研
搜索:AI搜索功能AI發(fā)部門/全資子公司,分立運營;
Overview,至24年10月,已
瀏覽器:Chrome2023年4月起整合為單一AI研發(fā)
覆蓋10億用戶部門Google
Deepmind
應(yīng)用:NotebookLM搜索引擎:Google應(yīng)用矩陣:谷歌地圖、Youtube、大模型的訓(xùn)練和推理(兩大主流框架之一)、JAX通信:自研OCS通信系統(tǒng),通信性
開發(fā)平臺:Vertex
AI其他:編程工具Alphacode等
Play
store、Gmail能出色AI推薦系統(tǒng)升級:截至24年10月,AI全年已提升外購:根據(jù)Omdia,2024年購買
大模型(開源):2023年7月開約22.4萬張H100芯片;計劃在25
源Llama2,2024年推出Llama3,F(xiàn)acebook
/Ins使用時長社交應(yīng)用:Facebook、Instagram等元宇宙:旗下VR設(shè)備品牌Quest以及內(nèi)容平臺旗下部門自研:AI業(yè)務(wù)均由旗下
8%/6%AI部門進(jìn)行研發(fā),為直屬部門模
METAAI助手:已集成于社交年底擁有130萬塊GPULlama4正在10萬卡集群上訓(xùn)練,Meta自研:2024年發(fā)布MTIA
v2芯片,
Llama4
mini已完成訓(xùn)練陸續(xù)應(yīng)用于推薦系統(tǒng)等的推理負(fù)載
深度學(xué)習(xí)框架:Pytorch(兩大中,26年將應(yīng)用于訓(xùn)練及推理負(fù)載
主流框架之一)式軟件中,至24Q4
MAU超7億廣告創(chuàng)意及投放:推出輔助廣告內(nèi)容生成工具、AI廣告投放工具電商:為電商運營提供一系列外購:根據(jù)Omdia,2024年購買
自研大模型:2023年12月推出
旗下部門自研+持股重點公司:
AI功能支持,以及導(dǎo)購助手約19.6萬張H100Titan系列AI模型旗下AI部門完成自研大模型研發(fā);Rufus;自研:2020年推出Trainium,23
大模型(Anthropic):24年開
重點投資Anthropic,2023-24
生成式助手:面向企業(yè)端的云計算:AWS電商平臺:亞馬遜商城亞馬遜年推出Trainium2,Rainier項目正
始持續(xù)更新Claude3.5系列構(gòu)建數(shù)十萬卡Tranium2集群;Tranium3將于25年底發(fā)布年投資80億美元,并提供算力支
AmazonQ;開發(fā)平臺:Bedrock
AI搭載自研
持;谷歌也參與Anthropic多輪
廣告:輔助廣告內(nèi)容生成工具;及第三方模型投資通過AI實現(xiàn)廣告智能投放提升效率
證券研究報告
資料:谷歌、亞馬遜、微軟、Meta、蘋果公司官網(wǎng),Omdia,申萬宏源研究18主要內(nèi)容1.
AI云計算新范式:規(guī)模效應(yīng)+AI
Infra能力+算力自主化2.
規(guī)模效應(yīng):資本密集度+多租戶+內(nèi)部負(fù)載的削峰填谷3.
AIInfra:實現(xiàn)計算性能挖潛4.
算力自主化:海外ASIC芯片趨勢啟示5.
重點標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.
重點公司估值表及風(fēng)險提示193.1
AIInfra:從算力到應(yīng)用的基礎(chǔ)設(shè)施軟件/工具?
AI
Infra定位于算力與應(yīng)用之間的“橋梁”角色的基礎(chǔ)軟件設(shè)施層,包括:1)算力硬件層面的組網(wǎng)、算力資源調(diào)度等,實現(xiàn)集群高效率;2)模型層面提供的工具庫、框架庫的豐富度及有效性,幫助云客戶實現(xiàn)高效資源調(diào)用;3)針對具體應(yīng)用的定向優(yōu)化。?
各廠商間AI
Infra能力有較大差距。不同于開發(fā)生態(tài)十分成熟、潛能已充分挖掘的CPU,GPU/ASIC硬件的開發(fā)生態(tài)仍在不斷迭代豐富中,不同AI
Infra工程能力的團(tuán)隊對于算力硬件的利用率有較明顯差距。表:AIInfra從硬件平臺到軟件工具應(yīng)用程序-AI云工程棧AI
Infra能力層所處層次主要工作AI
Infra具體能力/實現(xiàn)方式以谷歌/DeepSeek為例的典型工作應(yīng)用程序-算力負(fù)載提供資源管理、運營管理、運維管理等運營能力?
谷歌:根據(jù)具體使用場景,基于大模型能力開發(fā)AI
Agent、AI應(yīng)用(NotebookLM)等針對具體的應(yīng)用進(jìn)行定向優(yōu)化,降低推理成本等應(yīng)用管理層主要為軟件、算法能力。1)提供AI框架庫、開發(fā)資源庫、工具庫;2)針對大模型進(jìn)行計算效率的算力優(yōu)化、負(fù)載均衡、擁塞控制等?
谷歌:1)提供Tensorflow深度學(xué)習(xí)框架庫以及眾多工具;2)針對大模型進(jìn)行定制化優(yōu)化。?
DeepSeek:針對大模型進(jìn)行專家并行、數(shù)據(jù)并行等方面的優(yōu)化提供模型開發(fā)和應(yīng)用所需的各種基礎(chǔ)工具和組件MaaS/PaaS模型管理層算力管理層算力平臺?
谷歌:1)組網(wǎng):通過OCS組建TPU集群;2)通過Pathway實現(xiàn)異構(gòu)計算資源大規(guī)模編排調(diào)度;?
DeepSeek:構(gòu)建Fire-Flyer
AI-HPC集群,在組網(wǎng)、通信方面定向優(yōu)化;主要為通信優(yōu)化、算力資源調(diào)度、提供計算、存儲、網(wǎng)絡(luò)、
管理能力。安全等基礎(chǔ)資源和服務(wù)包括通信組網(wǎng)、異構(gòu)計算協(xié)調(diào)、容器管理、彈性部署等GPU/ASIC硬件平臺
證券研究報告資料:谷歌、DeepSeek官網(wǎng),申萬宏源研究203.1
AIInfra:優(yōu)化主要由云廠/互聯(lián)網(wǎng)/大模型廠商完成?
具體看,從硬件到大模型的訓(xùn)練推理仍有AI框架庫、AI資源庫、底層算子等生態(tài)層次,英偉達(dá)CUDA生態(tài)提供眾多AI
Infra工具,能夠提供較好的計算利用率,但以出售硬件產(chǎn)品為目的的英偉達(dá),在AI
Infra優(yōu)化上進(jìn)一步算力挖潛的動機略顯不足。因此云廠商/互聯(lián)網(wǎng)/大模型廠商將承擔(dān)主要的AI
Infra優(yōu)化、計算效能挖潛任務(wù)。圖:基于英偉達(dá)GPU的開發(fā)工程棧,DeepSeek自PTX層定制算子優(yōu)化算法工程?高級封裝的算子易開發(fā)性計算利用率相對低應(yīng)用/模型層:應(yīng)用程序/大模型AI框架庫基于下游用戶場景設(shè)計特定算法,并向用戶提供相應(yīng)服務(wù)??AI框架庫(高維抽象):從數(shù)學(xué)表達(dá)到計算圖:1)張量計算引擎,2)高層算子,例如全連接、卷積、optimizer等谷歌:TensorFlow、JAXMETA:PyTorch基本計算資源庫(低維抽象):例如cuDNN最基礎(chǔ)庫,包含前向、后向卷積、激活函數(shù)、歸一化、張量變換等深度學(xué)習(xí)庫:cuDNN、CUTLASS、TensorRT機器學(xué)習(xí)庫:cuML、cuDF等CUDA-XLibraries底層硬件算子庫(Kernel)驅(qū)動GPU計算單元執(zhí)行Kernel核函數(shù)功能,完成計算CUDA
工具包:CUDA驅(qū)動:CUDACUDA編譯器、開發(fā)者工具等存儲管理等???底層的算法撰寫高開發(fā)維護(hù)難度PTX(并行線程執(zhí)行):英偉達(dá)GPU中間指令集架構(gòu)更精細(xì)地算力利用低級機器代碼:流處理匯編或英偉達(dá)SASS(Stream
Assembly
Code)GPU硬件
證券研究報告
資料:英偉達(dá)官網(wǎng),申萬宏源研究213.2
DeepSeek啟示:AI
Infra能力對推理成本影響重大?
AI
Infra能力正拉開AI應(yīng)用/大模型API的單次推理成本差距。英偉達(dá)GPU提供的開發(fā)工具適用于標(biāo)準(zhǔn)化通用需求,易開發(fā)性出色,但大模型至硬件調(diào)用間仍有多個步驟可實現(xiàn)成本優(yōu)化,優(yōu)化與否將拉開成本差距。?
DeepSeek測算的應(yīng)用理論利潤率出色,一大核心在于其針對特定DeepSeek
R1大模型進(jìn)行充分優(yōu)化。而同為DeepSeek
R1模型搭載于第三方大模型平臺,若未進(jìn)行充分優(yōu)化,則其推理成本仍將相對較高。例如大模型平臺公司潞晨科技停用DeepSeekR1API接口,或為成本側(cè)難以復(fù)制DeepSeek的優(yōu)化措施,成本仍較高。圖:DeepSeek列舉的DeepSeek應(yīng)用理論收入及成本對比,可實現(xiàn)利潤/成本=545%的理論比例資料:《DeepSeek-V3/R1推理系統(tǒng)概覽》,申萬宏源研究
證券研究報告22注:僅為理論測算,未考慮收費服務(wù)的折扣以及實際收費Tokens占比,實際場景中比例將低于此3.2
DeepSeek:AI
Infra優(yōu)化深入AI工程棧全環(huán)節(jié)?
從算力硬件到大模型的API調(diào)用,其中的眾多環(huán)節(jié)可均有較大優(yōu)化空間,AI
Infra能力體現(xiàn)在針對改善存儲瓶頸、提升通信效率、提升計算單元效率等方面,實際上是對已有GPU性能的進(jìn)一步發(fā)掘:1)讓大模型推理/訓(xùn)練中計算、通信、存取方式更簡潔,減少算法粗糙下的算力浪費;2)根據(jù)具體的GPU(如英偉達(dá)H100)的微架構(gòu)設(shè)計,針對性實現(xiàn)優(yōu)化。圖:DeepSeek開源周發(fā)布了各環(huán)節(jié)算法工程優(yōu)化的工具
證券研究報告資料:DeepSeek官網(wǎng),中存算,申萬宏源研究233.3
互聯(lián)網(wǎng)云:在AI
Infra領(lǐng)域已有較深技術(shù)積累?
AI
Infra能力的積累通常需要具備前沿大模型開發(fā)經(jīng)驗,即完成了構(gòu)建AI算力集群→基于集群的大模型訓(xùn)練→提供大模型API推理服務(wù)→構(gòu)建上層AI應(yīng)用的全工作棧。?
大模型廠商/互聯(lián)網(wǎng)云已積累較強的AI
Infra能力,發(fā)布較多AI
Infra成果,包括實現(xiàn)萬卡集群的高利用率、提供豐富的大模型訓(xùn)練和推理工具提升開發(fā)效率等,已具備較為明確的優(yōu)勢。表:字節(jié)、騰訊、阿里巴巴、DeepSeek在AI
Infra上的主要工作平臺IaaS重要AI
Infra工作MaaS/PaaS重要AI
Infra工作MegaScale大模型訓(xùn)練框架G?del實現(xiàn)萬卡集群的資源調(diào)度字節(jié)跳動
自2022年開始在字節(jié)跳動內(nèi)部各數(shù)據(jù)中心批量部署,火山引擎
G?del
調(diào)度器已經(jīng)被驗證可以在高峰期提供
>60%的CPU
利用率和
>95%的GPU利用率。MegaScale系統(tǒng)在12,288個GPU上訓(xùn)練175BLLM模型時,模型FLOPs利用率(MFU)達(dá)到了55.2%,比起英偉達(dá)的Megatron-LM,提升了1.34倍。高性能網(wǎng)絡(luò)IHNTACO大模型推理加速套件單集群支持萬卡規(guī)模,單機支持3.2T大帶寬,通信占比低
同樣以
Llama-3.170B為例,使用
TACO-LLM
部署的騰訊騰訊云平臺至6%,訓(xùn)練效率提升
20%。成本低至
<$0.5/1Mtokens,相比直接調(diào)用
MaaSAPI的成本節(jié)約超過60%+,且使用方式、調(diào)用接口保持一致,支持無縫切換。靈駿計算集群+HPN
7.0組網(wǎng)架構(gòu)訓(xùn)練框架PAI-ChatLearn靈駿計算集群提供可擴容到
10萬張GPU卡規(guī)模的能力,相比于當(dāng)前的SOTA
系統(tǒng),ChatLearn在
7B+7B規(guī)模有阿里巴巴阿里云同時在萬卡的規(guī)模下性能線性增長率達(dá)到了
96%,性能網(wǎng)115%的加速,在
70B+70B規(guī)模有
208%的加速。同時絡(luò)吞吐的有效使用率也達(dá)到了99%。Fire-Flyer
AI-HPC集群ChatLearn可以擴展到更大規(guī)模,如:300B+300B(Policy+Reward)。HAI
LLM訓(xùn)練框架在DL訓(xùn)練中部署含1萬個PCIeA100GPU的Fire-Flyer
2,包括HAI
Scale算子庫等,針對專家并行、流水線并行、DeepSeek
實現(xiàn)了接近NVIDIA
DGX-A100的性能,同時將成本降低
張量并行等領(lǐng)域的通信、計算能力進(jìn)行大量優(yōu)化。近一半,能源消耗降低了40%。
證券研究報告資料:阿里云、火山引擎、騰訊云、DeepSeek官網(wǎng),申萬宏源研究243.3
字節(jié):MegaScale針對萬卡集群訓(xùn)練大幅提升MFU?
模型訓(xùn)練兩大挑戰(zhàn):1)實現(xiàn)高訓(xùn)練效率:體現(xiàn)在MFU(模型計算利用率),即實際吞吐量/理論最大吞吐量,與集合通信、算法優(yōu)化、數(shù)據(jù)預(yù)處理等相關(guān),2)保持高訓(xùn)練效率:體現(xiàn)在降低初始化時間和容錯修復(fù)能力。?
字節(jié)算法優(yōu)化:Transformer
Block
并行、滑動窗口的Attention、LAMB優(yōu)化器。實現(xiàn)初始化時間大幅優(yōu)化,2048卡GPU集群初始化時間從1047秒下降到5秒以下。實現(xiàn)高效容錯管理:自動檢測故障并實現(xiàn)快速恢復(fù)工作。?
網(wǎng)絡(luò)優(yōu)化:1)基于博通Tomahawk
4的交換機,優(yōu)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);2)降低ECMP哈希沖突:將數(shù)據(jù)密集型節(jié)點都安排在一個ToR交換機上;3)擁塞控制:將往返時延精確測量與顯式擁塞通知的快速擁塞響應(yīng)能力結(jié)合。圖:字節(jié)在2024年2月提出的MegaScale訓(xùn)練框架的MFU相對英偉達(dá)的Megatron-LM大幅優(yōu)化,萬卡集群MFU達(dá)到55.2%
證券研究報告資料:《MegaScale:
Scaling
Large
Language
Model
Training
toMore
Than2510,000
GPUs》,申萬宏源研究3.3
阿里云:PAI-ChatLearn實現(xiàn)RLHF訓(xùn)練效率提升?
PAI-ChatLearn
是阿里云
PAI
團(tuán)隊自研的、靈活易用的、支持大規(guī)模
Alignment
高效訓(xùn)練的框架。?
ChatLearn通過對
Alignment
訓(xùn)練流程進(jìn)行合理的抽象和解耦,提供靈活的資源分配和并行調(diào)度策略。ChatLearn提供了RLHF、DPO、OnlineDPO、GRPO等對齊訓(xùn)練,同時也支持用戶自定義大模型訓(xùn)練流程。相比于當(dāng)時的SOTA
系統(tǒng),ChatLearn在7B+7B規(guī)模有115%的加速,在70B+70B規(guī)模有208%
的加速。圖:阿里巴巴2024年8月開源的大規(guī)模對齊訓(xùn)練框架PAI-ChatLearn在Llama2模型
RLHF訓(xùn)練中實現(xiàn)更高效率
證券研究報告
資料:GitHub,阿里云官網(wǎng),申萬宏源研究26主要內(nèi)容1.
AI云計算新范式:規(guī)模效應(yīng)+AI
Infra能力+算力自主化2.
規(guī)模效應(yīng):資本密集度+多租戶+內(nèi)部負(fù)載的削峰填谷3.
AIInfra:實現(xiàn)計算性能挖潛4.
算力自主化:海外ASIC芯片趨勢啟示5.
重點標(biāo)的:互聯(lián)網(wǎng)云廠+ASIC芯片6.
重點公司估值表及風(fēng)險提示274.1
ASIC
VS
GPU:架構(gòu)、生態(tài)、成本對比?
從IC設(shè)計思路來看,GPU為自下而上,即基于已設(shè)計的硬件平臺作工具豐富、生態(tài)適配工作支持上層應(yīng)用;ASIC(專用集成電路)則是自上而下,基于現(xiàn)有應(yīng)用/工作負(fù)載進(jìn)行芯片架構(gòu)設(shè)計,通過更定制化、針對性的架構(gòu)設(shè)計匹配算法提升計算效能,但將犧牲通用性,完成非特定任務(wù)的效率較差。?
但云客戶更傾向于使用開發(fā)生態(tài)成熟、具備易開發(fā)性的英偉達(dá)GPU,預(yù)計在較長時間內(nèi)仍將為云服務(wù)的首選。有望形成英偉達(dá)GPU仍占據(jù)公有云市場、ASIC芯片在巨頭內(nèi)部負(fù)載形成替代的并行格局。圖:主要的AI算力芯片分類通用性CPUGPUFPGAASIC??馮諾依曼架構(gòu),串行計算為主計算單元占比較低,重在控制??馮諾依曼架構(gòu),并行計算為主計算單元占比很高??哈佛架構(gòu),無須共享內(nèi)存可重構(gòu)邏輯單元??非馮諾依曼架構(gòu)計算單元占比高芯片架構(gòu)標(biāo)準(zhǔn)化硬件,用戶基于架構(gòu)固定的標(biāo)準(zhǔn)化硬件,用戶基于架構(gòu)固定的可編程硬件,可靈活根據(jù)應(yīng)用/工定制化硬件,根據(jù)應(yīng)用/工作負(fù)載特應(yīng)用構(gòu)建開發(fā)生態(tài)硬件構(gòu)建應(yīng)用/工作負(fù)載硬件構(gòu)建應(yīng)用/工作負(fù)載作負(fù)載在使用過程中改變硬件架構(gòu)點設(shè)計硬件架構(gòu)僅英偉達(dá)的CUDA較成熟,其他GPU廠商生態(tài)成熟度較低十分成熟可適用主流編程語言生態(tài)成熟度相對較低??通用性較強,并行計算能力出色適用于AI功耗較高,編程難度中等??計算效能出眾功耗低,成本更低僅在特定類別的工作負(fù)載表現(xiàn)出色,靈活性差,編程難度高??通用性最強,編程難度低計算能力弱,不適用于AI計算??靈活性好,多用于推理環(huán)節(jié)峰值計算能力較弱相對優(yōu)劣勢
證券研究報告
資料:寒武紀(jì)招股說明書,申萬宏源研究284.2
ASIC:架構(gòu)+生態(tài)大相徑庭,將成為GPU的有力補充?
GPU與ASIC在架構(gòu)及開發(fā)生態(tài)上有著明確差異:?架構(gòu)存在差異:GPU基于通用并行計算向AI轉(zhuǎn)變,內(nèi)部設(shè)計通常為大量并行計算核+小型AI加速單元TensorCore;TPU等則為僅針對AI算力需求場景直接設(shè)計內(nèi)部架構(gòu),代表架構(gòu)有大型脈動陣列等。?開發(fā)生態(tài)存在差異:英偉達(dá)具備完整成熟的CUDA開發(fā)生態(tài),AMD
GPU/ASIC廠商開發(fā)生態(tài)均不完善。圖:各家GPU/ASIC芯片對比NVIDIA
H100
NVIDIA
B200
NVIDIA
B300AMDMI325xTPUv5pTPUv6eTrainium2
METAMTIA
v2
微軟
Maia100推出時間芯片制程20224nm20244nm20244nm20245nm20235nm20244nm20235nm20245nm20235nm峰值計算性能-BF/FP16(TFlops)990225033751300459926431177800功耗700WHBM3801000WHBM3e1921200WHBM3e2881000WHBM3e256---90WLPDDR5128860WHBM3e64存儲類型存儲(GB)內(nèi)存帶寬HBM2e96HBM332HBM3963.35TB/s8TB/s8TB/s6TB/s2765GB/s1640GB/s4000GB/s204.8GB/s1600GB/sNVLink900GB/sNVLink1800GB/sNVLink1800GB/sInfinity
FabricLink896GB/sICILinks600GB/sICILinks3584GB/sNeuronLink768GB/s卡間通信帶寬-600GB/s計算強度-FP16峰值性能/存儲12.411.711.75.14.828.94.51.412.5(Flops/GB)芯片架構(gòu)+開發(fā)生態(tài)ComputeDie數(shù)量HBMStacks數(shù)量162828481612241414大量并行大量并行CUDA大量并行CUDA
大量并行運算核
少量大型脈動陣
少量大型脈動
少量大型脈動陣
多核CPU+多核計算單元微架構(gòu)CUDA核核多核AI加速單元核+TensorCore
+MatrixCore列單元陣列單元列單元AI加速單元+TensorCore
+TensorCore開發(fā)生態(tài)CUDACUDACUDARocmXLAXLAXLATritonTriton
證券研究報告
資料:英偉達(dá)、谷歌、AMD、亞馬遜、META、微軟官網(wǎng),申萬宏源研究294.2
ASIC架構(gòu):基于脈動陣列的定制架構(gòu)為重要路線?
GPU為馮諾依曼架構(gòu),運算中與寄存器需要高頻數(shù)據(jù)交換,對存儲容量要求較高。GPU主要是針對數(shù)據(jù)并行執(zhí)行,
控制單元較小,
執(zhí)行單元眾多,
同時有大量的寄存器文件用于在多個執(zhí)行線程上隱藏延遲。?
谷歌TPU、AWS
Tranium2均基于脈動陣列架構(gòu),專為矩陣計算設(shè)計,計算結(jié)果可以直接向下一個計算單元遞推,直到該維度的矩陣結(jié)果計算完畢,再與寄存器作數(shù)據(jù)存取,減少不必要的全局?jǐn)?shù)據(jù)交換等。圖:脈動陣列架構(gòu)專用于大型矩陣計算,可降低存儲消耗
證券研究報告資料:亞馬遜官網(wǎng),申萬宏源研究304.2
ASIC開發(fā)生態(tài):谷歌和AWS均基于脈動陣列+XLA?
開發(fā)生態(tài)應(yīng)在硬件架構(gòu)/計算架構(gòu)ROI提升的方向逐漸成熟,國內(nèi)AI算力+海外云廠ASIC芯片等均具備潛力。DeepSeek實際證明擁有強大的工程團(tuán)隊,有能力為其他AI芯片構(gòu)建相對可用的開發(fā)生態(tài)(但易開發(fā)性預(yù)計仍有明顯差距。?
XLA為谷歌為TPU構(gòu)建的編譯器,并陸續(xù)結(jié)合JAX等AI框架形成開發(fā)生態(tài),逐漸走向成熟,同為脈動陣列架構(gòu)的AWS
Tranium2同樣采用XLA,將加速相關(guān)生態(tài)更新迭代。圖:谷歌TPU/亞馬遜Trainuim基于XLA的開發(fā)生態(tài)棧JAXTraining
StackPyTorchTraining
StackLLM
ReferenceImplementationMaxTextJAX
Core
LibrariesPyTorch
&
Hugging
FaceLibraries核心資源庫OptaxAQTOrbaxFlaxJAXXLATPUPyTorch/PyTorch
XLAXLAAI框架庫編譯器硬件TPU/Trainium
證券研究報告資料:谷歌官網(wǎng),申萬宏源研究314.2
ASIC開發(fā)生態(tài):META
MTIA
v2軟件堆?;赥riton?
Triton為OpenAI于2021年7月推出的類似Python的開源編程語言,旨在降低GPU的編程難度,但Triton并不非常依賴單一廠商的GPU,可拓展至MTIA
v2等非GPU硬件架構(gòu)。?
Pytorch正致力于推廣Triton,已經(jīng)在英偉達(dá)GPU上實現(xiàn)無CUDA條件下較高的硬件效率。MTIA
v2基于Triton,并提供Triton-MTIA編譯器進(jìn)一步優(yōu)化軟件堆棧。圖:MTIA
v2軟件堆棧主要基于Triton編程語言圖:Pytorch使用無CUDA的Triton編譯語言實現(xiàn)較高的GPU調(diào)用效率資料:Pytorch官網(wǎng),申萬宏源研究
證券研究報告32注:LLM模型選用Meta的Llama3-8B和IBM的Granite-8B代碼模型,推理計算使用FP164.2
ASIC成本:具備性價比,但使用范圍相對局限?
我們簡單測算各家芯片的制造成本,主要根據(jù)各芯片具體的存儲容量、晶圓尺寸等進(jìn)行測算,并根據(jù)英偉達(dá)、博通、Marvell/AIChip大致的毛利率進(jìn)行估計,大致推測各家芯片的價格。?
ASIC芯片在特定任務(wù)部署中實際具備性價比,但受限于開發(fā)生態(tài):1)開發(fā)過程中,生態(tài)不成熟存在開發(fā)效率損失,一定程度提升隱性成本。2)場景限于云廠內(nèi)部負(fù)載,云客戶基于其開發(fā)的難度較大。表:各家GPU/ASIC芯片預(yù)計的成本拆分對比測算單位:美元H100B200TPUv5p
TPUv6eTrainium2亞馬遜-AIChip/Marvell廠商英偉達(dá)英偉達(dá)谷歌-博通
谷歌-博通制程4nm9904nm22505nm4594nm9265nm峰值計算性能-BF16/FP16(TFlops)431存儲(GB)96192963296存儲類型HBM3HBM3eHBM2eHBM3HBM3預(yù)計存儲成本1150135027002150100080040055011501000預(yù)計制造、封測等成本總成本250048501800950215047%~53%4400預(yù)計業(yè)務(wù)毛利率估算的各家芯片單價85%~90%
85%~90%
65%~70%
65%~70%18000
33000
6000
3100資料:英偉達(dá)、谷歌、AMD、亞馬遜、META、微軟官網(wǎng),申萬宏源研究
證券研究報告33注:成本及單價僅為估算,實際價格與成本為動態(tài)變化4.2
ASIC成本:典型訓(xùn)練場景具備性價比芯片產(chǎn)品NVIDIA
H100NVIDIA
B200GPUNVIDIA
GB200SuperchipGoogle/博通
TPUAWS/MarvellTrainium2v5p訓(xùn)練LLama3
405B模型所需的FP16算力總量
(ZFLOPS)單卡FP16峰值性能(TOPS)計算性能使用效率(%)平均計算性能(TFLOPS)單卡單日算力(PFLPOS)1800099040%396342148212218000225040%9007776018661018000500040%2000172800414741800045940%18415863381471800065040%2602246453933集群單日算力(ZFLOPS)大模型訓(xùn)練所需的運行天數(shù)(24000卡集群)算力芯片硬件成本AIAI芯片數(shù)量-算力集群芯片數(shù)量-每臺服務(wù)器24000824000824000362400082400016服務(wù)器數(shù)量-算力集群30001800014430003300026466770000252430006000481500440071AIAI芯片價格(美元/片)芯片+CPU價格(萬美元)-每臺服務(wù)器AI折舊年限芯片+CPU的成本(億美元)-算力集群43.3479.34168.3414.5410.64算力集群中AI算力硬件年折舊費用(億美元)10.819.842.13.62.7能源成本AI設(shè)計功耗700W1.46.21000W2.38.62400W2.197.21.2700W0.76.2700W0.911.81.5每瓦特AI計算性能
(TFLOPS/Watt)服務(wù)器中AI計算單元功耗(千瓦)電源使用效率(PUE)1.51.41.3AI服務(wù)器電力功耗(千瓦)AI集群電力功耗(千千瓦)9.327.912.036.1116.677.88.124.217.726.6AI算力集群運行成本
(不包括網(wǎng)絡(luò)和基建等)電價(千瓦時/美元)耗電量(萬千瓦時)0.10587590.10334330.10324320.1010971100.1085185能源成本(萬美元)集群算力硬件折舊成本(萬美元)AI計算總成本(萬美元)650708524557500533468578243328資料:《Scaling
Lawsfor
NeuralLanguageModels》,英偉達(dá)、谷歌、亞馬遜官網(wǎng),申萬宏源研究34
證券研究報告注:標(biāo)紅為非官方公布的假設(shè)數(shù)據(jù),僅用以本表格進(jìn)行計算4.3
為什么ASIC增長趨勢明顯?從供需兩端出發(fā)?
上游供給:芯片設(shè)計制造分工化:全球芯片設(shè)計制造分工化以及ASIC輔助設(shè)計的成熟,大幅降低了ASIC與GPU之間在代工制造、后端封裝設(shè)計等領(lǐng)域的差距,差異集中在前端設(shè)計和軟件開發(fā)生態(tài)。?
云廠需求:1)技術(shù)/架構(gòu)演進(jìn):牧本擺動本質(zhì)為針對通用芯片的算法演進(jìn)迭代陷入停滯后,需要在架構(gòu)上進(jìn)行創(chuàng)新,催生新的定制化芯片,并再度基于新的芯片進(jìn)行算法創(chuàng)新升級,以實現(xiàn)芯片性價比優(yōu)勢。當(dāng)前正處于重要節(jié)點。2)商業(yè)化驅(qū)動:算力需求量級提升,具備龐大算力需求的廠商足以覆蓋開發(fā)定制化芯片的成本。圖:云廠開發(fā)自研ASIC芯片已具備商業(yè)化、技術(shù)驅(qū)動力牧本擺動:按需定制化設(shè)計算力的端到端方案在算力上游供給:芯片設(shè)計制造行業(yè)的分工化云廠需求:技術(shù)/架構(gòu)演進(jìn)驅(qū)動中的效能、利用率正體現(xiàn)優(yōu)勢推理側(cè)對算力芯片要求或更低:大模型推理算法相對訓(xùn)練更固定,對于芯片性能、開發(fā)生態(tài)靈活性要求可略降低芯片制造與IC設(shè)計的分工:半導(dǎo)體產(chǎn)業(yè)正從Sharing
foundry到Sharing
design
house轉(zhuǎn)變,共享代工廠+后端設(shè)計封裝等鏈路。算力開支量級上升:AIASIC輔助設(shè)計企業(yè)逐漸成熟:博通、AIChip為代表的企業(yè)已經(jīng)在TPU、Trainium的設(shè)計和制造中積累了豐富經(jīng)驗和制造流程管理能力。達(dá)到重新設(shè)計一款芯片的綜合成本臨界點。云廠需求:商業(yè)化驅(qū)動單芯片的價格更低:成本側(cè)后續(xù)有望實現(xiàn)量產(chǎn)爬坡。
證券研究報告資料:申萬宏源研究354.4
如何設(shè)計制造ASIC?云廠前端設(shè)計+IC輔助設(shè)計支持?
云廠:僅維持相對精簡的IC設(shè)計團(tuán)隊,無須困擾于龐雜的芯片制造流程。云廠可根據(jù)自有業(yè)務(wù)場景的算力需求進(jìn)行前端設(shè)計(邏輯設(shè)計、仿真驗證等)等環(huán)節(jié),并避免在主業(yè)之外形成龐大半導(dǎo)體業(yè)務(wù)部門。?
IC輔助設(shè)計:提供后端設(shè)計、制造流片等環(huán)節(jié)支持。博通、Marvell、AIChip通常提供IC設(shè)計所需的IP核等,并完成后端設(shè)計、封裝測試設(shè)計等,全流程跟蹤、優(yōu)化晶圓廠代工流片的制造流程,最終向云廠交付。圖:ASIC芯片設(shè)計流程,輔助設(shè)計廠商可輔助完成后端設(shè)計到流片管理等環(huán)節(jié)應(yīng)用公司完成ASIC輔助設(shè)計廠商完成:根據(jù)客戶的設(shè)計,提供IP核支持、封裝設(shè)計、流片等生產(chǎn)環(huán)節(jié)管理后端設(shè)計前端設(shè)計流片封裝測試量產(chǎn)??????工藝選型?????封裝設(shè)計仿真可靠性方案工程批設(shè)計系統(tǒng)級分裝封裝量產(chǎn)管理??????晶圓測試成品測試測試工程開發(fā)測試量產(chǎn)管理ATE設(shè)備研發(fā)產(chǎn)品認(rèn)證分析??????訂單管理質(zhì)量管控計劃管理DPPM優(yōu)化良
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林省白山市部分學(xué)校2025-2026學(xué)年高一上學(xué)期1月期末英語試卷(含答案)
- 貴州省安順市2025-2026年高二上地理期末試卷(含答案)
- 廣東省肇慶市2025-2026學(xué)年高三上學(xué)期二模語文試卷(含答案)
- 化工企業(yè)罐車知識課件教學(xué)
- 助力尼帕病毒檢測與疫苗研發(fā)義翹神州現(xiàn)貨供應(yīng)G蛋白和Fusion蛋白
- 化工企業(yè)員工培訓(xùn)課件
- 飛盤運動科普
- 飛機配送員培訓(xùn)課件教案
- 民用無人機現(xiàn)狀、發(fā)展趨勢及無人機關(guān)鍵技術(shù)
- 飛機相關(guān)知識課件
- 中考語文文言文150個實詞及虛詞默寫表(含答案)
- 國企員工總額管理辦法
- 企業(yè)級AI大模型平臺落地框架
- 常見傳染病的預(yù)防與護(hù)理
- 蘇教版六年級數(shù)學(xué)上冊全冊知識點歸納(全梳理)
- 中鐵物資采購?fù)稑?biāo)
- 泄漏管理培訓(xùn)課件
- 服裝廠員工績效考核與獎懲制度
- 茜草素的藥代動力學(xué)和藥效學(xué)研究
- T-CPQS C010-2024 鑒賞收藏用潮流玩偶及類似用途產(chǎn)品
- 林業(yè)管理制度
評論
0/150
提交評論