電子-如何測算文本大模型AI訓(xùn)練端算力需求_第1頁
電子-如何測算文本大模型AI訓(xùn)練端算力需求_第2頁
電子-如何測算文本大模型AI訓(xùn)練端算力需求_第3頁
電子-如何測算文本大模型AI訓(xùn)練端算力需求_第4頁
電子-如何測算文本大模型AI訓(xùn)練端算力需求_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

證券研究報(bào)告行業(yè)研究行業(yè)專題報(bào)告證券研究報(bào)告行業(yè)研究行業(yè)專題報(bào)告 強(qiáng)于大市(維持評級)一年內(nèi)行業(yè)相對大盤走勢強(qiáng)于大市(維持評級)一年內(nèi)行業(yè)相對大盤走勢團(tuán)隊(duì)成員rzq團(tuán)隊(duì)成員rzq30466@相關(guān)報(bào)告投資要點(diǎn):>需求側(cè):ScalingLaw驅(qū)動大模型算力需求不減1、半導(dǎo)體板塊再度活躍,消費(fèi)回暖趨勢進(jìn)一步明確-半導(dǎo)體系列跟蹤——2024.06.031、半導(dǎo)體板塊再度活躍,消費(fèi)回暖趨勢進(jìn)一步明確-半導(dǎo)體系列跟蹤——2024.06.03MiniLED或迎機(jī)遇——2024.06.013、巨頭輪番入場,AIPC爆發(fā)在即——消費(fèi)電子系列跟蹤——2024.06.01基本原理是,模型的最終性能主要與計(jì)算量、模型參數(shù)量和數(shù)據(jù)大小三者相關(guān),當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)因素都呈現(xiàn)冪律關(guān)系。因此,為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大。從大模型數(shù)量上看,近年來呈現(xiàn)爆發(fā)式增長趨勢。且由于尖端AI模型對于資源投入的大量需求,產(chǎn)業(yè)界對于大模型的影響力逐步加深。我們統(tǒng)計(jì)了產(chǎn)業(yè)界諸多公開披露的大模型訓(xùn)練數(shù)據(jù),從大模型算力需求來看,GPT-3到GPT-4參數(shù)上從175B快速提升到1.8TB(提升9倍訓(xùn)練數(shù)據(jù)量(Token數(shù))同方向快速增長,由0.3TB提升至13TB(提升42倍)。絕對值上看,根據(jù)我們的非完全統(tǒng)計(jì)情況,國內(nèi)外主流大模型在參數(shù)量上基本已來到千億量級,在預(yù)訓(xùn)練數(shù)據(jù)規(guī)模上均已來到個(gè)位數(shù)乃至十位數(shù)的TB量級。>供給側(cè):黃氏定律推動英偉達(dá)GPU一路高歌英偉達(dá)GPU持續(xù)引領(lǐng)全球AI算力發(fā)展,雖然“摩爾定律”逐步放緩,但“黃氏定律”仍在支撐英偉達(dá)GPU算力快速提升,一方面,英偉達(dá)尋求制程工藝迭代、更大的HBM容量和帶寬、雙die設(shè)計(jì)等方法,另一方面,數(shù)據(jù)精度的降低起到關(guān)鍵作用,Blackwell首度支持FP4新格式,雖然低精度可能會存在應(yīng)用上的局限性,但不失為一種算力提升策略。若僅考慮英偉達(dá)FP16算力,A100/H100/GB200產(chǎn)品的FP16算力分別為前代產(chǎn)品的2.5/6.3/2.5倍,在數(shù)量級上持續(xù)爆發(fā),自2017年至今,GB200的FP16算力已達(dá)到V100的40倍。與之對比,AI大模型參數(shù)的爆發(fā)速度相對更快,以GPT為例,2018年至2023年,GPT系列模型從1億參數(shù)規(guī)模大幅提升至18000億。相較于AI大模型由ScalingLaw驅(qū)動的參數(shù)爆發(fā),GPU算力增速仍亟待提升。>結(jié)論:預(yù)計(jì)24-26年全球文本大模型訓(xùn)練卡需求為271/592/1244萬張我們根據(jù)側(cè)算力供給需求公式,需求側(cè)假設(shè)行業(yè)依然沿ScalingLaw發(fā)展方向進(jìn)一步增長,供給側(cè)通過對英偉達(dá)GPU的FP16算力、訓(xùn)練市場、算力利用率等進(jìn)行假設(shè),推導(dǎo)得出GPU需求量。以英偉達(dá)Hopper/Blackwell/下一代GPU卡FP16算力衡量,我們認(rèn)為2024-2026年全球文本大模型AI訓(xùn)練側(cè)GPU需求量為271/592/1244萬張。>建議關(guān)注-算力芯片:寒武紀(jì)海光信息龍芯中科-服務(wù)器產(chǎn)業(yè)鏈:工業(yè)富聯(lián)滬電股份深南電路勝宏科技>風(fēng)險(xiǎn)提示AI需求不及預(yù)期風(fēng)險(xiǎn)、ScalingLaw失效風(fēng)險(xiǎn)、GPU技術(shù)升級不及預(yù)期的風(fēng)險(xiǎn)、測算模型假設(shè)存在偏差風(fēng)險(xiǎn)。221如何測算文本大模型AI訓(xùn)練側(cè)算力需求? 32需求側(cè):ScalingLaw驅(qū)動大模型算力需求不減 52.1ScalingLaw帶動大模型參數(shù)爆發(fā) 52.2大模型廠商持續(xù)涌現(xiàn),AI大模型數(shù)量激增 63供給側(cè):黃氏定律推動英偉達(dá)GPU一路高歌 83.1GPU:算力底層硬科技,支撐AI大模型發(fā)展 83.2算力利用率:來自通信、存儲等多維度的綜合影響 94文本大模型AI訓(xùn)練側(cè)對GPU的需求量如何求解? 125風(fēng)險(xiǎn)提示 14圖表1:文本大模型AI訓(xùn)練側(cè)算力供給需求公式 3圖表2:海外主流AI大模型訓(xùn)練側(cè)算力供給需求情況 4圖表3:國內(nèi)主流AI大模型訓(xùn)練側(cè)算力供給需求情況 4圖表4:各類別主流機(jī)器學(xué)習(xí)模型計(jì)算量 4圖表5:大模型訓(xùn)練的ScalingLaw 5圖表6:與Chinchilla數(shù)據(jù)優(yōu)化模型一致所需的數(shù)據(jù)集大小 6圖表7:各領(lǐng)域知名機(jī)器學(xué)習(xí)模型數(shù)量 6圖表8:各地區(qū)知名機(jī)器學(xué)習(xí)模型數(shù)量 6圖表9:各領(lǐng)域主流機(jī)器學(xué)習(xí)模型參數(shù)量 7圖表10:各領(lǐng)域主流機(jī)器學(xué)習(xí)模型計(jì)算量 7圖表11:英偉達(dá)AI性能提升-10年1000倍 8圖表12:英偉達(dá)AI性能提升-8年1000倍 8圖表13:國內(nèi)外各廠商算力芯片參數(shù)對比 9圖表14:英偉達(dá)FP16性能代際提升情況 9圖表15:AI訓(xùn)練實(shí)驗(yàn)數(shù)據(jù)中反映的算力利用率情況(例1) 10圖表16:AI訓(xùn)練實(shí)驗(yàn)數(shù)據(jù)中反映的算力利用率情況(例2) 10圖表17:PTD-P和ZeRO-3模型的單芯片吞吐量情況 11圖表18:530B參數(shù)的Megatron-LM和MegaScale模型的算力利用率(MFU)情況 圖表19:全球文本大模型AI訓(xùn)練側(cè)算力需求-供給測算 13331如何測算文本大模型A對于AI訓(xùn)練側(cè)算力,我們核心需要解決的問題是——當(dāng)前蓬勃發(fā)展的AI大模型應(yīng)用,到底帶來多少GPU需求量。我們整理出算力供給需求公式,并分類討論公式中的核心參數(shù)變化趨勢,以此給出我們的判斷?;诔醪椒治?,我們將核心需要解決的問題進(jìn)一步拆解如下:1、需求側(cè),單個(gè)大模型訓(xùn)練計(jì)算量是否仍有提升空間?大模型數(shù)量如何演變?2、供給側(cè),GPU在實(shí)際應(yīng)用中性能提升速度如何?圖表1:文本大模型AI訓(xùn)練側(cè)算力供給需求公式來源:NVIDIA&StanfordUniversity&MicrosoftResearch《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》,新智元,CIBA新經(jīng)濟(jì),華福證券研究所從大模型算力需求來看,GPT-3到GPT-4歷時(shí)三年代際升級效果顯著。參數(shù)上從175B參數(shù)快速提升到1.8TB參數(shù)(提升9倍訓(xùn)練數(shù)據(jù)量(Token數(shù))同方向快速增長,由0.3TB提升至13TB(提升42倍)。絕對值上看,根據(jù)我們的非完全統(tǒng)計(jì)情況,國內(nèi)外主流大模型在參數(shù)量上基本已來到千億量級,在預(yù)訓(xùn)練數(shù)據(jù)規(guī)模上均已來到個(gè)位數(shù)乃至十位數(shù)的TB量級。從GPU供給端來看,算力利用率穩(wěn)步提升,不同芯片種類之間體現(xiàn)出差異。GPT-3到GPT-4明顯看到算力利用率由21.3%提升至34%(32-36%區(qū)間,本文取中值粗略計(jì)算趨勢上較為明確。橫向?qū)Ρ劝l(fā)現(xiàn),相較于OpenAI的GPT系列,谷歌利用TPU訓(xùn)練的Gropher和PaLM明顯在算力利用率上更勝一籌,我們認(rèn)為谷歌自研TPU在自有大模型訓(xùn)練上展現(xiàn)出獨(dú)特的優(yōu)勢。圖表2:海外主流AI大模型訓(xùn)練側(cè)算力供給需求情況來源:OpenAI《LanguageModelsareFew-ShotLearners》,Google《PaLM:ScalingLanguageModelingwithPathways》,英偉達(dá),谷歌研究院,騰訊科技,機(jī)器之心,中關(guān)村在線,河北省科學(xué)技術(shù)廳,華福證券研究所注1:由于各公司對于大模型的訓(xùn)練數(shù)據(jù)披露口徑不一,以上為本文非完全統(tǒng)計(jì)注2:GPT4算力利用率在32-36%區(qū)間,本文取中值粗略計(jì)算注3:英偉達(dá)V100理論峰值為官網(wǎng)所示“深度學(xué)習(xí)|NVLink版本”性能圖表3:國內(nèi)主流AI大模型訓(xùn)練側(cè)算力供給需求情況來源:騰訊云,通義千問公眾號&GitHub網(wǎng)頁,新聞晨報(bào),市界,IT之家,華爾街見聞,新浪科技,鈦媒體,華福證券研究所注1:由于各公司對于大模型的訓(xùn)練數(shù)據(jù)披露口徑不一,以上為本文非完全統(tǒng)計(jì)注2:騰訊混元參數(shù)量披露口徑較為模糊,分別為超千億參數(shù)/萬億參數(shù),在本圖中不涉及左側(cè)第二列單位圖表4:各類別主流機(jī)器學(xué)習(xí)模型計(jì)算量來源:HAI《2024AIIndexReport》,華福證券研究所4552需求側(cè):ScalingLaw驅(qū)動大模型算力需求不減2.1ScalingLaw帶動大模型參數(shù)爆發(fā)ScalingLaw是深度學(xué)習(xí)領(lǐng)域的一個(gè)重要概念,它描述了模型性能與模型規(guī)模(如參數(shù)數(shù)量、數(shù)據(jù)規(guī)模和計(jì)算資源)之間的關(guān)系。ScalingLaw的基本原理是,模型的最終性能主要與計(jì)算量、模型參數(shù)量和數(shù)據(jù)大小三者相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。如下圖所示,對于計(jì)算量、模型參數(shù)量和數(shù)據(jù)規(guī)模1)當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)因素都呈現(xiàn)冪律關(guān)系。(2)如模型的參數(shù)固定,無限堆數(shù)據(jù)并不能無限提升模型的性能,模型最終性能會慢慢趨向一個(gè)固定的值。因此,為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大。圖表5:大模型訓(xùn)練的ScalingLaw來源:OpenAI《ScalingLawsforNeuralLanguageModels》,PaperWeekly,ExparaAcademy,華福證券研究所ScalingLaw仍然是當(dāng)下驅(qū)動行業(yè)發(fā)展的重要標(biāo)準(zhǔn)。假定計(jì)算量整體放大10倍,不同廠商在參數(shù)量和數(shù)據(jù)規(guī)模上各有權(quán)衡。OpenAI認(rèn)為模型參數(shù)更重要,模型參數(shù)應(yīng)放大100.73(5.32)倍,數(shù)據(jù)放大100.27(1.86)倍;后來DeepMind和Google分別在Chinchilla和PaLM模型的工作中,認(rèn)為模型參數(shù)量與數(shù)據(jù)同等重要,兩者都應(yīng)該分別放大100.5(3.16)倍。其中,DeepMind提出的datascalinglaw(也稱為Chinchilla或Hoffmanscalinglaws)認(rèn)為應(yīng)該使用1,400B(1.4T)tokens來訓(xùn)練參數(shù)量大小為70B的大語言模型最佳。若在Chinchillascalinglaws的基礎(chǔ)之上推斷,單位參數(shù)大約需要20個(gè)token來進(jìn)行訓(xùn)練。66圖表6:與Chinchilla數(shù)據(jù)優(yōu)化模型一致所需的數(shù)據(jù)集大小來源:AlanD.Thompson《Chinchilladata-optimalscalinglaws:InplainEnglish》,華福證券研究所2.2大模型廠商持續(xù)涌現(xiàn),AI大模型數(shù)量激增大模型數(shù)量呈現(xiàn)爆發(fā)式增長趨勢,23年產(chǎn)業(yè)界大模型突出重圍。在2014年之前,學(xué)術(shù)界一直引領(lǐng)著機(jī)器學(xué)習(xí)模型的發(fā)布。此后產(chǎn)業(yè)界開始興起,到目前已經(jīng)逐漸來到領(lǐng)跑者的位置。2023年,產(chǎn)業(yè)界發(fā)布了51個(gè)知名機(jī)器學(xué)習(xí)模型,而學(xué)術(shù)界僅發(fā)布了15個(gè)?,F(xiàn)在,尖端AI模型需要大量的數(shù)據(jù)、計(jì)算能力和投資,而這些都是學(xué)術(shù)界所不具備的。從地區(qū)劃分來看,根據(jù)研究人員所屬機(jī)構(gòu)所在地劃分,2023年,美國以61個(gè)知名機(jī)器學(xué)習(xí)模型居首,中國以15個(gè)緊隨其后,歐洲市場總體模型數(shù)量之和略高于中國。圖表7:各領(lǐng)域知名機(jī)器學(xué)習(xí)模型數(shù)量來源:HAI《2024AIIndexReport》,華福證券研究所圖表8:各地區(qū)知名機(jī)器學(xué)習(xí)模型數(shù)量來源:HAI《2024AIIndexReport》,華福證券研究所注:根據(jù)研究人員所屬機(jī)構(gòu)所在地劃分圖表9:各領(lǐng)域主流機(jī)器學(xué)習(xí)模型參數(shù)量來源:HAI《2024AIIndexReport》,華福證券研究所圖表10:各領(lǐng)域主流機(jī)器學(xué)習(xí)模型計(jì)算量來源:HAI《2024AIIndexReport》,華福證券研究所788 3供給側(cè):黃氏定律推動英偉達(dá)GPU一路高歌3.1GPU:算力底層硬科技,支撐AI大模型發(fā)展作為GPU行業(yè)龍頭,英偉達(dá)“黃氏定律”持續(xù)奏效。英偉達(dá)23Q3發(fā)文,在過去十年中,英偉達(dá)GPUAI處理能力增長了1000倍。雖然“摩爾定律”逐步放緩,但“黃氏定律”意味著“單芯片推理性能”中看到的加速不會逐漸消失,而是會繼續(xù)顯現(xiàn)。24Q1GTC大會上英偉達(dá)進(jìn)一步披露,從16年P(guān)ascalGPU的19TFlops到24年BlackwellGPU的20PFlops,英偉達(dá)用8年將單卡AI訓(xùn)練性能提升了1000倍。圖表11:英偉達(dá)AI性能提升-10年1000倍來源:英偉達(dá),華福證券研究所圖表12:英偉達(dá)AI性能提升-8年1000倍來源:英偉達(dá),機(jī)器之心,華福證券研究所除了得益于制程工藝迭代、更大的HBM容量和帶寬、雙die設(shè)計(jì)外,數(shù)據(jù)精度的降低起到關(guān)鍵作用,Blackwell首度支持FP4新格式。多數(shù)訓(xùn)練是在FP16精度下進(jìn)行,但實(shí)際上不需要用這么高的精度去處理所有參數(shù)。英偉達(dá)一直在探索怎么通過混合精度操作來在降低內(nèi)存占用的同時(shí)確保吞吐量不受影響。BlackwellGPU內(nèi)置的第二代Transformer引擎,利用先進(jìn)的動態(tài)范圍管理算法和細(xì)粒度縮放技術(shù)(微型tensor縮放)來優(yōu)化性能和精度,并首度支持FP4新格式,使得FP4Tensor核性能、HBM模型規(guī)模和帶寬都實(shí)現(xiàn)翻倍。降精度的難點(diǎn)是兼顧用戶對準(zhǔn)確率的需求。FP4并不在什么時(shí)候都有效,英偉達(dá)專門強(qiáng)調(diào)的是對混合專家模型(MoE)和大語言模型(LLM)帶來的增益。圖表13:國內(nèi)外各廠商算力芯片參數(shù)對比來源:英偉達(dá)官網(wǎng),AMD官網(wǎng),寒武紀(jì)官網(wǎng),新智元,量子位,硬件世界,AI科技評論等,華福證券研究所若僅考慮英偉達(dá)FP16算力,代際提升速度依然很快。英偉達(dá)A100/H100/GB200產(chǎn)品的FP16算力分別為前代產(chǎn)品的2.5/6.3/2.5倍,在數(shù)量級上持續(xù)爆發(fā),自2017年至今,GB200的FP16算力已達(dá)到V100的40倍。與之對比,AI大模型參數(shù)的爆發(fā)速度相對更快,以GPT為例,2018年至2023年,GPT系列模型從1億參數(shù)規(guī)模大幅提升至18000億。相較于AI大模型由ScalingLaw驅(qū)動的參數(shù)爆發(fā),GPU算力增速仍亟待提升。圖表14:英偉達(dá)FP16性能代際提升情況來源:英偉達(dá),機(jī)器之心,華福證券研究所注:代際提升倍數(shù)算法=新產(chǎn)品FP16性能/老產(chǎn)品FP16性能3.2算力利用率:來自通信、存儲等多維度的綜合影響除了以上所討論的理論峰值之外,算力利用率也影響實(shí)際算力表現(xiàn)。在本文圖表1公式中,我們明確列示了算力利用率對訓(xùn)練存在的影響。算力利用率(MFU)是實(shí)際吞吐量與理論最大吞吐量之比。訓(xùn)練大語言模型并非簡單的并行任務(wù),需要在多個(gè)GPU之間分布模型,并且這些GPU需要頻繁通信才能共同推進(jìn)訓(xùn)練進(jìn)程。這個(gè)衡量訓(xùn)練效率的指標(biāo)有影響。9根據(jù)NVIDIA、StanfordUniversity、MicrosoftResearch聯(lián)合發(fā)表的論文《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》,文中采用A100GPU集群作為實(shí)驗(yàn)設(shè)施,實(shí)驗(yàn)過程中單芯片實(shí)際吞吐量如下圖所示,集群吞吐量可以通過GPU用量×單芯片實(shí)際吞吐量計(jì)算得到。已知A100峰值FP16吞吐量達(dá)到312TFlops,下圖中“AchievedteraFLOP/sperGPU”可以理解為“theoreticalpeakFLOP/s”與算力利用率的乘積,從結(jié)果來看,本次實(shí)驗(yàn)中AI訓(xùn)練的普遍算力利用率基本處于44%-52%的區(qū)間。該數(shù)據(jù)與我們在圖表2和圖表3中統(tǒng)計(jì)得到的部分大模型算力利用率情況基本相仿。圖表15:AI訓(xùn)練實(shí)驗(yàn)數(shù)據(jù)中反映的算力利用率情況(例1)來源:NVIDIA&StanfordUniversity&MicrosoftResearch《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》,華福證券研究所另外,根據(jù)字節(jié)、北大聯(lián)合發(fā)表的《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》,字節(jié)提出了一個(gè)名為MegaScale的生產(chǎn)系統(tǒng),旨在解決在萬卡集群上訓(xùn)練大模型時(shí)面臨的效率和穩(wěn)定性挑戰(zhàn)。在12288塊GPU上訓(xùn)練1750億參數(shù)大語言模型時(shí),MegaScale實(shí)現(xiàn)了55.2%的算力利用率(MFU是英偉達(dá)Megatron-LM的1.34倍。從結(jié)果來看,本次實(shí)驗(yàn)中AI訓(xùn)練的普遍算力利用率基本處于40%-66%的區(qū)間,比前述論文對比,已經(jīng)有了較大的提升。圖表16:AI訓(xùn)練實(shí)驗(yàn)數(shù)據(jù)中反映的算力利用率情況(例2)來源:ByteDance&PekingUniversity《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》,華福證券研究所我們通過以上兩篇論文給出的訓(xùn)練結(jié)果對比大致可以了解到,在控制其他條件不變的前提下:(1)大模型的改進(jìn)對算力利用率有較大提升。字節(jié)MegaScale是在英偉達(dá)Megatron-LM的基礎(chǔ)上改進(jìn)的。具體改進(jìn)包括,算法和系統(tǒng)組件的共同設(shè)計(jì)、通信和計(jì)算重疊的優(yōu)化、操作符優(yōu)化、數(shù)據(jù)流水線優(yōu)化以及網(wǎng)絡(luò)性能調(diào)優(yōu)等。如圖表18所示,MegaScale在不同情形下的算力利用率(MFU)均顯著高于Megatron-LM。(2)大模型參數(shù)量越多,算力利用率越高。如圖表17所示,PTD-P和ZeRO-3模型在530B參數(shù)體量下每GPU實(shí)際達(dá)到的算力均高于175B對應(yīng)算力。圖表17:PTD-P和ZeRO-3模型的單芯片吞吐量情況來源:NVIDIA&StanfordUniversity&MicrosoftResearch《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》,華福證券研究所圖表18:530B參數(shù)的Megatron-LM和MegaScale模型的算力利用率(MFU)情況來源:ByteDance&PekingUniversity《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》,華福證券研究所 本文按第一章所示“文本大模型AI訓(xùn)練側(cè)算力供給需求公式”,逐步拆解計(jì)算過程。首先,測算AI大模型所需要的計(jì)算量,隨后通過單GPU算力供給能力、算力利用率等數(shù)值的假設(shè),逐步倒推得到GPU需求數(shù)量。一、AI大模型訓(xùn)練側(cè)需求1、每參數(shù)每token所需計(jì)算量:我們參考OpenAI在2020年提出的ScalingLaw,論文指出:對于Decoder-only的模型,計(jì)算量C、模型參數(shù)量N、數(shù)據(jù)規(guī)模D三者滿足C≈6ND,即每參數(shù)每token所需計(jì)算量為6Flops。2、大模型參數(shù)量*token數(shù):首先,我們將大模型劃分為三個(gè)梯隊(duì),可以理解為以GPT為代表的“第一梯隊(duì)”(23年發(fā)布的GPT-4已達(dá)到萬億參數(shù)水平行業(yè)內(nèi)其他知名大模型作為“第二梯隊(duì)”。根據(jù)HAI《2024AIIndexReport》,2023年全球知名大模型共89個(gè),我們將其定義為“第一/二梯隊(duì)”大模型數(shù)量之和。我們對于2024-2026年大模型數(shù)量給出如下預(yù)測:假設(shè)隨著AI訓(xùn)練所需計(jì)算量持續(xù)爆發(fā),訓(xùn)練成本持續(xù)提升,疊加行業(yè)競爭加劇,我們預(yù)計(jì)第一梯隊(duì)數(shù)量或?qū)⒂兴鶞p少;假設(shè)大模型從通用向垂直行業(yè)延伸的趨勢持續(xù)演繹,第二梯隊(duì)及其他大模型數(shù)量或?qū)⒊掷m(xù)上升。此外,我們認(rèn)為ScalingLaw仍將持續(xù)存在,各梯隊(duì)大模型參數(shù)或?qū)⒊掷m(xù)通過提升參數(shù)量、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模(token數(shù))帶動計(jì)算量提升,進(jìn)而提升大模型性能,按過往提升速度大致推斷未來增長情況,而參數(shù)量與預(yù)訓(xùn)練數(shù)據(jù)規(guī)模(token數(shù))的關(guān)系參考Chinchilla法則進(jìn)行假設(shè)預(yù)測。二、AI大模型訓(xùn)練側(cè)供給1、GPU計(jì)算性能:鑒于英偉達(dá)當(dāng)前在AI訓(xùn)練卡方面的龍頭地位以及長期以來較高的市占率情況,我們以英偉達(dá)訓(xùn)練卡性能來進(jìn)行粗略估算。我們基于圖表14中的數(shù)據(jù),英偉達(dá)V100至GB200在FP16算力代際提升方面,新產(chǎn)品分別為前代產(chǎn)品的2.5/6.3/2.5倍。由于AI訓(xùn)練端對于數(shù)據(jù)精度的要求一般為FP16/INT8,暫時(shí)不考慮FP4架構(gòu)的大規(guī)模使用。我們假設(shè)未來英偉達(dá)新產(chǎn)品的FP16算力在Blackwell架構(gòu)的基礎(chǔ)上延續(xù)過往倍增趨勢。此外,從英偉達(dá)已有產(chǎn)品的實(shí)際產(chǎn)能情況看,大部分產(chǎn)品實(shí)際應(yīng)用到產(chǎn)業(yè)界會比發(fā)布時(shí)間有較大的延遲,主要由于產(chǎn)能方面的緊缺性。據(jù)Digitimes,23H2英偉達(dá)H100GPU的交貨時(shí)間達(dá)到11個(gè)月,進(jìn)入2024年以來,交貨時(shí)間顯著縮短,逐步縮短到僅2-3個(gè)月(8-12周)。由此我們假設(shè),2023/2024年分別以Ampere/Hopper為主,后續(xù)逐步升級迭代。2、訓(xùn)練時(shí)間&算力利用率:我們假設(shè)AI大模型訓(xùn)練卡長期供不應(yīng)求,全年算力設(shè)施接近滿負(fù)荷運(yùn)轉(zhuǎn),由此假設(shè)全年有效訓(xùn)練時(shí)間為350天。我們參考GPT大模型的算力利用率情況,我們認(rèn)為GPT與英偉達(dá)GPU的適配程度以及訓(xùn)練效率或?yàn)樾袠I(yè)前沿水平,因此我們假設(shè)行業(yè)一般水平在未來幾年維持在30-42%區(qū)間。三、結(jié)論:以英偉達(dá)Hopper/Blackwell/下一代GPU卡FP16算力衡量,我們認(rèn)為2024-2026年全球文本大模型AI訓(xùn)練側(cè)GPU需求量為271/592/1244萬張。圖表19:全球文本大模型AI訓(xùn)練側(cè)算力需求-供給測算來源:NVIDIA&StanfordUniversity&MicrosoftResearch《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》,OpenAI《ScalingLawsforNeuralLanguageModels》,HAI《2024AIIndexReport》,英偉達(dá),Digitimes,華爾街見聞等,華

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論