下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
關(guān)于GPU間通信技術(shù)的研究文獻綜述 深度學習模型通常都是使用GPU進行訓(xùn)練的,因為GPU具有比CPU更高的計算能力,而目前學術(shù)界和業(yè)界的主流深度學習模型通常都是由更多的參數(shù)量結(jié)合更大規(guī)模的訓(xùn)練數(shù)據(jù)來訓(xùn)練得到。這些模型由于訓(xùn)練和部署周期過長,無法滿足實際需求,為了加快節(jié)奏,需要借助更多的GPU來進行并行訓(xùn)練,這就涉及到GPU之間的通信技術(shù)了REF_Ref72884225\r\h[11]。1.1GPU間直接通信 GPU直接通信(GPUDirect)技術(shù)使得多個GPU、存儲設(shè)備都可以直接讀寫主機和設(shè)備內(nèi)存,減少了很多的沒有必要的CPU開銷和內(nèi)存拷貝,提高了通信速度,進而提升了性能REF_Ref73280224\r\h[12]。對于多設(shè)備訓(xùn)練來說,GPUDirect提供的最為重要的功能便是GPUDirectP2P(peer-to-peer)技術(shù)。GPUDirectP2P提出之前,在同一個PCIe節(jié)點內(nèi)的兩個GPU,如果其中一個GPU想要將計算結(jié)果或者數(shù)據(jù)傳播到另一個GPU中,需要先將數(shù)據(jù)拷貝到CPU內(nèi)存,CPU再將數(shù)據(jù)傳送到另一個GPU之中,由此可以看出數(shù)據(jù)傳輸帶寬會受到CPU的限制,而且額外的CPU流程控制時間開銷和內(nèi)存拷貝也使得GPU間總的通信代價很大。如圖2.3所示GPUDirectP2P使得同一PCIe總線上的GPU之間可以直接進行內(nèi)存訪問和拷貝。圖2.3GPUDirectP2P通信技術(shù)1.2NVLink 在GPUDirectP2P技術(shù)中,GPU之間通過PCIe總線相連,而目前服務(wù)器中使用較多的是PCIe3.0*16版的總線,最高單向帶寬只有16GB/s,滿足不了日益整張的模型參數(shù)數(shù)量,會逐漸成為多設(shè)備訓(xùn)練系統(tǒng)的瓶頸。為了提高GPU之間的通信帶寬,充分發(fā)揮GPU的性能,NVIDIA近年來發(fā)布了一種新的架構(gòu)——NVLinkREF_Ref73280315\r\h[13]。 NVLink1.0是與P100GPU一起發(fā)布的,一塊GPU上可以集成4條NVLink總線,這樣可以使得整個芯片的帶寬的單向帶寬達到80GB/s,相當于PCIe帶寬的5倍。 NVLink2.0是與TeslaV100GPU一起發(fā)布的,速度相比1.0提高了25%,同時一塊GPU上可以集成6條NVLink總線,總的單向帶寬可以達到150GB/s,相當于PCIe帶寬的10倍。1.3GPU拓撲結(jié)構(gòu) 服務(wù)器上GPU拓撲結(jié)構(gòu)對多設(shè)備訓(xùn)練的速度影響是很大的REF_Ref72884523\r\h[14],在編寫多設(shè)備訓(xùn)練圖2.4不同總線的有效帶寬(GB/s)代碼時要注意盡量避開那些帶寬比較小的GPU互聯(lián)通路,不同GPU互聯(lián)通路的有效帶寬如圖2.4所示。圖2.5雙CPU四GPU拓撲連接圖 不同機器上的GPU拓撲結(jié)構(gòu)的不同會較大程度上影響多設(shè)備訓(xùn)練系統(tǒng)性能的優(yōu)越。比如圖2.5和圖2.6列出了目前存在的兩種服務(wù)器的GPU拓撲結(jié)構(gòu),前者GPU間通信會通過PCIe總線和QPI總線,帶寬不會超過10GB/s,后者則經(jīng)過NVSwitch支持任意兩個GPU之間通過NVLink交換數(shù)據(jù),帶寬可以達到前者的十幾倍。圖2.6全NVLink拓撲連接圖參考文獻DenilM,ShakibiB,DinhL,etal.PredictingParametersinDeepLearning[J].UniversityofBritishColumbia,2013.ZhangZ,YinL,YPeng,etal.AQuickSurveyonLargeScaleDistributedDeepLearningSystems[C]//2018IEEE24thInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2018.朱泓睿,元國軍,姚成吉,譚光明,王展,戶忠哲,張曉揚,安學軍.分布式深度學習訓(xùn)練網(wǎng)絡(luò)綜述[J].計算機研究與發(fā)展,2021,58(01):98-115.PangB,NijkampE,WuYN.DeepLearningWithTensorFlow:AReview[J].JournalofEducationalandBehavioralStatistics,2020,45.BarbourAD,ResnickSI.AdventuresinStochasticProcesses[J].JournaloftheAmericanStatisticalAssociation,1993,88(424):1474.SvozilD,KvasnickaVandPospichalJ,1997.Introductiontomulti-layerfeed-forwardneuralnetworks.Chemometricsandintelligentlaboratorysystems,39(1),pp.43-62.肖桐,朱靖波.機器翻譯:基礎(chǔ)與模型[M].
北京:
機械工業(yè)出版社,
2021:
317-320ZhangD,YinJ,ZhuXandZhangC,2018.Networkrepresentationlearning:Asurvey.IEEEtransactionsonBigData,6(1),pp.3-28.DevlinJ,ChangMW,LeeK,etal.2018.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805.XingC,WangD,LiuC.andLinY,2015.Normalizedwordembeddingandorthogonaltransformforbilingualwordtranslation.InProceedingsofthe2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(pp.1006-1011).SergeevA,BalsoMD.Horovod:fastandeasydistributeddeeplearninginTensorFlow[J].2018.LiA,SongSL,ChenJ,etal.2019.EvaluatingmodernGPUinterconnect:Pcie,nvlink,nv-sli,nvswitchandgpudirect.IEEETransactionsonParallelandDistributedSystems,31(1),pp.94-110.VerbraekenJ,WoltingM,KatzyJ,etal.2020.Asurveyondistributedmachinelearning.ACMComputingSurveys(CSUR),53(2),pp.1-33.WangG,VenkataramanS,PhanishayeeA,etal.Blink:FastandGenericCollectivesforDistributedML[J].2019.CoatesA,CarpenterB,CaseC,etal.largescaledistributeddeepnetworks.2011.JingK,XuJ,HeB.ASurveyonNeuralNetworkLanguageModels[J].2019.BengioY,DucharmeR,VincentP,etal.A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 31831-2025LED室內(nèi)照明應(yīng)用技術(shù)要求
- CCAA - 2019年11月環(huán)境管理體系基礎(chǔ)答案及解析 - 詳解版(80題)
- 河南省鄭州七中2025-2026學年上學期八年級期末語文試題(無答案)
- 養(yǎng)老院老人健康監(jiān)測人員激勵制度
- 企業(yè)員工培訓(xùn)與素質(zhì)發(fā)展計劃目標制度
- 人教版(2024)七年級上冊英語期末復(fù)習:作文 專項練習題匯編(含答案+范文)
- 老年終末期認知障礙用藥安全管理策略
- 老年終末期患者共病管理的藥物相互作用個體化監(jiān)測方案
- 電子商務(wù)交易安全防護措施指南
- 老年終末期壓瘡護理與認知障礙患者適配策略
- 廣東物業(yè)管理辦法
- 業(yè)務(wù)規(guī)劃方案(3篇)
- 大客戶開發(fā)與管理課件
- 上海物業(yè)消防改造方案
- 供應(yīng)商信息安全管理制度
- 2025年農(nóng)業(yè)機械化智能化技術(shù)在農(nóng)業(yè)防災(zāi)減災(zāi)中的應(yīng)用報告
- 發(fā)展與安全統(tǒng)籌策略研究
- 移動式壓力容器安全技術(shù)監(jiān)察規(guī)程(TSG R0005-2011)
- 綠化工程監(jiān)理例會會議紀要范文
- 高速液壓夯實地基技術(shù)規(guī)程
- 白內(nèi)障培訓(xùn)課件
評論
0/150
提交評論