ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報告_第1頁
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報告_第2頁
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報告_第3頁
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報告_第4頁
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報告_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

[編號ODCC-2024-05008]開放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會2024.08發(fā)布OCCH2024-05003版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點的,應(yīng)注明OCCH2024-05003編寫組 1 1 3 4(一)單數(shù)據(jù)中心物理資源受限 4 5 6 6 7 11 13 14(三)從對稱傳輸?shù)讲粚ΨQ傳輸 (二)跨域集合通信算子,完成數(shù)據(jù)并行過程 19 202.可靠擁塞檢測,精準(zhǔn)識別擁塞報文,從而做出正確的調(diào)整 3.快速擁塞感知,及時做出擁塞控制響應(yīng),避免擁塞導(dǎo)致性 OCCH2024-05003AI模型的發(fā)展正在以驚人的速度推進(jìn),預(yù)計在未來五年內(nèi),其參數(shù)數(shù)量將達(dá)到數(shù)萬億級別。為了滿足如此龐大的計算需求,AI集群正在不斷升級。然而,單一AI集群受到電力供應(yīng)等物理因素題,難以承載大規(guī)模的AI訓(xùn)練任務(wù)。為應(yīng)對這些AI集群建設(shè)的需求,通過整合跨地理位置的計算資源(例如跨數(shù)據(jù)OCCH2024-05003OCCH2024-05003跨集群訓(xùn)練(RegionScaleAI)技術(shù)需求報告一、大模型發(fā)展迅猛,AI集群規(guī)模日益擴(kuò)大2022年11月,OpenAI推出了ChatGPT,這款應(yīng)用迅速成為歷史上增長最快的消費軟件,僅在兩個月內(nèi)就吸引了超過1億用戶。并能夠準(zhǔn)確理解語言的復(fù)雜性。ChatGPT的問世被視為生成式AI模型利用自注意力機(jī)制,能夠更有效地處理長序列數(shù)據(jù),并解決了RNN在長距離依賴關(guān)系處理上的局限性。這種架構(gòu)允許模型在訓(xùn)練架構(gòu)的GPT系列模型,通過大規(guī)模的數(shù)據(jù)和參數(shù)訓(xùn)練,展示了強(qiáng)大1OCCH2024-05003模型的開發(fā),推動了生成式AI技術(shù)的迅猛發(fā)展。以O(shè)penAI、Meta過增加模型的規(guī)模和復(fù)雜度以獲得更好的性能。如圖2所示。以尚未發(fā)布,但OpenAI表示其性能遠(yuǎn)超GPT-4,預(yù)計使用了30萬億2(二)大模型需要大規(guī)模集群的支撐模型規(guī)模的增加意味著訓(xùn)練這些模型所需的計算能力也在顯著增長。粗略地說,計算需求可以用公式F=6PD來表示,其中F代表計算能力需求增加了10000倍。AI集群作為算力基礎(chǔ)設(shè)施,通過將多個計算機(jī)節(jié)點/訓(xùn)練加速卡連接起來,形成協(xié)同工作的計算環(huán)境,盡管用于人工智能訓(xùn)練的加速器也在不斷發(fā)展,例如Nvidia最群的規(guī)模從數(shù)千個加速器增加到數(shù)萬個,甚至3二、單集群訓(xùn)練在大模型時代面臨挑戰(zhàn)(一)單數(shù)據(jù)中心物理資源受限將AI集群建設(shè)在單個數(shù)據(jù)中心內(nèi)會受到物4OCCH2024-05003隨著未來集群規(guī)模達(dá)到十萬卡級別,AI集群的電力需求將超過程工作。一個大型AI集群的建設(shè)從規(guī)劃到投入使在快速變化的AI領(lǐng)域,計算需求可能在短時間內(nèi)劇增,而單個數(shù)據(jù)(二)單點算力資源碎片化響整體運營成本。整合集群中的碎片算力來承載云上大規(guī)模A5OCCH2024-05003些集群分布零散且規(guī)模較小,難以單獨應(yīng)對大規(guī)模AI訓(xùn)練的三、RegionScaleAI成為未來發(fā)展的新趨勢RegionscaleAI指的是在一定距離范圍內(nèi),如Region級別,整個機(jī)房、單個地理位置,而是通過跨地理位置,如跨DC,或跨AZ集群進(jìn)行訓(xùn)練。如圖5所示。6聯(lián)合多個AI集群:利用多個分布在不同位置的AI集群的計算的訓(xùn)練卡的訓(xùn)練任務(wù),這意味著可以處理非常龐大和復(fù)雜的AI模型提高資源利用率:通過整合和優(yōu)化分布在不同區(qū)域的計算資源,Ultra跨多個數(shù)據(jù)中心進(jìn)行分布式聯(lián)合訓(xùn)練。Gemini團(tuán)隊在其文章《AFamilyofHighlyCapableMultimodal加速器由高速芯片間互連進(jìn)行通信,但在GeminiUltra這樣大規(guī)模接起來,聯(lián)合完成訓(xùn)練。(二)業(yè)界研究給RegionScaleAI帶來啟示7OCCH2024-05003“Singularity”框架。如圖6所示。這一框架旨在支持全球范圍(Planet-scale)內(nèi)AI任務(wù)調(diào)度,支持任務(wù)的可搶占、可遷移和彈性伸縮。Singularity框架通過將單個的高效遷移和彈性伸縮。8OCCH2024-05003group)來實現(xiàn)高效的訓(xùn)練。如圖7所示,在每個分區(qū)組內(nèi),兩個訓(xùn)練卡共同持有模型狀態(tài)的完整副本,而在每個復(fù)制組(replicationgroup)中的訓(xùn)練卡則持有模型狀態(tài)的相同部分。這種模型切分布放DeepSpeed,主要針對同構(gòu)數(shù)據(jù)中心的部署情況進(jìn)行設(shè)計,對計算資9OCCH2024-05003決方案,如圖8所示,通過將IP和光網(wǎng)絡(luò)層的功能融合,簡化了網(wǎng)OCCH2024-05003絡(luò)信號調(diào)制為不同波長的光信號,再通過無源的合分波光纖/設(shè)備將多路400G彩光信號復(fù)用到一條光纖中,再通過可插拔模塊化的開圖9RON技術(shù)方案四、RegionScaleAI對計算與網(wǎng)絡(luò)提出新的需求(一)從帶寬無收斂組網(wǎng)到帶寬有收斂組網(wǎng)采用無收斂的組網(wǎng)方式,以保證能夠高效地傳輸AI模型參數(shù)數(shù)據(jù)。這是因為AI參數(shù)同步過程往往涉及大規(guī)模的數(shù)據(jù)傳輸,對網(wǎng)絡(luò)帶寬節(jié)點需要與另一集群中的訓(xùn)練節(jié)點進(jìn)行參數(shù)同步,這就要求AI流量OCCH2024-05003AI流量。這意味著,跨集群訓(xùn)練過程中,網(wǎng)絡(luò)帶寬將會有收斂點。圖10帶寬收斂網(wǎng)絡(luò)(二)從短距離傳輸?shù)介L距離傳輸AI流量由單集群的數(shù)據(jù)中心內(nèi)傳輸,擴(kuò)展到跨集群的數(shù)據(jù)中心間傳輸時,傳輸距離顯著增加,這對AI訓(xùn)練性能帶來了影響,主要OCCH2024-05003圖11影響吞吐的因素?zé)o論是TCP還是RoCEv2協(xié)議,都遵循BDP理論,需要將報文填滿的負(fù)載均衡策略可能失效。在單集群環(huán)境中,參數(shù)面通常采用leaf-spine這樣的兩層clos拓?fù)?,流量沖突主要集中在特定單一的位OCCH2024-05003(三)從對稱傳輸?shù)讲粚ΨQ傳輸置為16。在這種配置下,模型被均勻地切OCCH2024-05003且,DP和TP都通過集合通信AllReduce操作在相應(yīng)的GPU之間進(jìn)行數(shù)據(jù)交換。常見的AllReduce算子實現(xiàn)包括Half-doubling算法和圖12DP/PP/TP三維并行模型切分圖13AllReduce算子實現(xiàn)這種訓(xùn)練卡數(shù)量的差異導(dǎo)致集合通信的雙邊不對等關(guān)系。如圖1示,AllReduceHalf-doubling算法中,紅色通信代表跨域長距傳輸,OCCH2024-05003圖14集合通信雙邊不對等—AllReduceHD布放和調(diào)度方案,將模型均勻切分到訓(xùn)練卡上,性能較弱的訓(xùn)練卡圖15集合通信雙邊不對等—AllReduceRingOCCH2024-05003五、RegionScaleAI技術(shù)展望(一)基于算力感知的模型布放和算力調(diào)度度策略。例如,在流水并行模式中,所有PP平面都使用相OCCH2024-05003(二)跨域集合通信算子,完成數(shù)據(jù)并行過程的AllReduce操作中。首先,將AllReduce集合通信算子采用分段處文提到的Half-doubling類型的算法,存在跨域全量卡同時互發(fā)數(shù)據(jù)OCCH2024-05003圖16HD算法跨域全量卡數(shù)據(jù)傳輸OCCH2024-05003(三)高吞吐長距確定性傳輸互聯(lián)帶寬是長距傳輸基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論