【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】

上傳人：E*** IP屬地：湖北上傳時間：2026-02-01 格式：DOCX 頁數(shù)：5 大小：589.33KB 積分：8.4 舉報 版權(quán)申訴

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】_第2頁

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】_第3頁

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】_第4頁

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】_第5頁

全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

關(guān)于GPU間通信技術(shù)的研究文獻綜述深度學習模型通常都是使用GPU進行訓(xùn)練的，因為GPU具有比CPU更高的計算能力，而目前學術(shù)界和業(yè)界的主流深度學習模型通常都是由更多的參數(shù)量結(jié)合更大規(guī)模的訓(xùn)練數(shù)據(jù)來訓(xùn)練得到。這些模型由于訓(xùn)練和部署周期過長，無法滿足實際需求，為了加快節(jié)奏，需要借助更多的GPU來進行并行訓(xùn)練，這就涉及到GPU之間的通信技術(shù)了REF_Ref72884225\r\h[11]。1.1GPU間直接通信 GPU直接通信(GPUDirect)技術(shù)使得多個GPU、存儲設(shè)備都可以直接讀寫主機和設(shè)備內(nèi)存，減少了很多的沒有必要的CPU開銷和內(nèi)存拷貝，提高了通信速度，進而提升了性能REF_Ref73280224\r\h[12]。對于多設(shè)備訓(xùn)練來說，GPUDirect提供的最為重要的功能便是GPUDirectP2P(peer-to-peer)技術(shù)。GPUDirectP2P提出之前，在同一個PCIe節(jié)點內(nèi)的兩個GPU，如果其中一個GPU想要將計算結(jié)果或者數(shù)據(jù)傳播到另一個GPU中，需要先將數(shù)據(jù)拷貝到CPU內(nèi)存，CPU再將數(shù)據(jù)傳送到另一個GPU之中，由此可以看出數(shù)據(jù)傳輸帶寬會受到CPU的限制，而且額外的CPU流程控制時間開銷和內(nèi)存拷貝也使得GPU間總的通信代價很大。如圖2.3所示GPUDirectP2P使得同一PCIe總線上的GPU之間可以直接進行內(nèi)存訪問和拷貝。圖2.3GPUDirectP2P通信技術(shù)1.2NVLink 在GPUDirectP2P技術(shù)中，GPU之間通過PCIe總線相連，而目前服務(wù)器中使用較多的是PCIe3.0*16版的總線，最高單向帶寬只有16GB/s，滿足不了日益整張的模型參數(shù)數(shù)量，會逐漸成為多設(shè)備訓(xùn)練系統(tǒng)的瓶頸。為了提高GPU之間的通信帶寬，充分發(fā)揮GPU的性能，NVIDIA近年來發(fā)布了一種新的架構(gòu)——NVLinkREF_Ref73280315\r\h[13]。 NVLink1.0是與P100GPU一起發(fā)布的，一塊GPU上可以集成4條NVLink總線，這樣可以使得整個芯片的帶寬的單向帶寬達到80GB/s，相當于PCIe帶寬的5倍。 NVLink2.0是與TeslaV100GPU一起發(fā)布的，速度相比1.0提高了25%，同時一塊GPU上可以集成6條NVLink總線，總的單向帶寬可以達到150GB/s，相當于PCIe帶寬的10倍。1.3GPU拓撲結(jié)構(gòu) 服務(wù)器上GPU拓撲結(jié)構(gòu)對多設(shè)備訓(xùn)練的速度影響是很大的REF_Ref72884523\r\h[14]，在編寫多設(shè)備訓(xùn)練圖2.4不同總線的有效帶寬(GB/s)代碼時要注意盡量避開那些帶寬比較小的GPU互聯(lián)通路，不同GPU互聯(lián)通路的有效帶寬如圖2.4所示。圖2.5雙CPU四GPU拓撲連接圖不同機器上的GPU拓撲結(jié)構(gòu)的不同會較大程度上影響多設(shè)備訓(xùn)練系統(tǒng)性能的優(yōu)越。比如圖2.5和圖2.6列出了目前存在的兩種服務(wù)器的GPU拓撲結(jié)構(gòu)，前者GPU間通信會通過PCIe總線和QPI總線，帶寬不會超過10GB/s，后者則經(jīng)過NVSwitch支持任意兩個GPU之間通過NVLink交換數(shù)據(jù)，帶寬可以達到前者的十幾倍。圖2.6全NVLink拓撲連接圖參考文獻DenilM,ShakibiB,DinhL,etal.PredictingParametersinDeepLearning[J].UniversityofBritishColumbia,2013.ZhangZ,YinL,YPeng,etal.AQuickSurveyonLargeScaleDistributedDeepLearningSystems[C]//2018IEEE24thInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2018.朱泓睿,元國軍,姚成吉,譚光明,王展,戶忠哲,張曉揚,安學軍.分布式深度學習訓(xùn)練網(wǎng)絡(luò)綜述[J].計算機研究與發(fā)展,2021,58(01):98-115.PangB,NijkampE,WuYN.DeepLearningWithTensorFlow:AReview[J].JournalofEducationalandBehavioralStatistics,2020,45.BarbourAD,ResnickSI.AdventuresinStochasticProcesses[J].JournaloftheAmericanStatisticalAssociation,1993,88(424):1474.SvozilD,KvasnickaVandPospichalJ,1997.Introductiontomulti-layerfeed-forwardneuralnetworks.Chemometricsandintelligentlaboratorysystems,39(1),pp.43-62.肖桐,朱靖波.機器翻譯：基礎(chǔ)與模型[M].

北京:

機械工業(yè)出版社,

2021:

317-320ZhangD,YinJ,ZhuXandZhangC,2018.Networkrepresentationlearning:Asurvey.IEEEtransactionsonBigData,6(1),pp.3-28.DevlinJ,ChangMW,LeeK,etal.2018.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805.XingC,WangD,LiuC.andLinY,2015.Normalizedwordembeddingandorthogonaltransformforbilingualwordtranslation.InProceedingsofthe2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(pp.1006-1011).SergeevA,BalsoMD.Horovod:fastandeasydistributeddeeplearninginTensorFlow[J].2018.LiA,SongSL,ChenJ,etal.2019.EvaluatingmodernGPUinterconnect:Pcie,nvlink,nv-sli,nvswitchandgpudirect.IEEETransactionsonParallelandDistributedSystems,31(1),pp.94-110.VerbraekenJ,WoltingM,KatzyJ,etal.2020.Asurveyondistributedmachinelearning.ACMComputingSurveys(CSUR),53(2),pp.1-33.WangG,VenkataramanS,PhanishayeeA,etal.Blink:FastandGenericCollectivesforDistributedML[J].2019.CoatesA,CarpenterB,CaseC,etal.largescaledistributeddeepnetworks.2011.JingK,XuJ,HeB.ASurveyonNeuralNetworkLanguageModels[J].2019.BengioY,DucharmeR,VincentP,etal.A

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】

文檔簡介

溫馨提示

最新文檔

評論

【《關(guān)于GPU間通信技術(shù)的研究文獻綜述》1300字】

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔