CN113988266B 基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(南京大學(xué))_第1頁(yè)
CN113988266B 基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(南京大學(xué))_第2頁(yè)
CN113988266B 基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(南京大學(xué))_第3頁(yè)
CN113988266B 基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(南京大學(xué))_第4頁(yè)
CN113988266B 基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(南京大學(xué))_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN113988266B(21)申請(qǐng)?zhí)?02111282366.9(22)申請(qǐng)日2021.11.01(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)道163號(hào)(74)專利代理機(jī)構(gòu)南京鐘山專利代理有限公司基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法(57)摘要本發(fā)明公開了基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,包括各分布式節(jié)點(diǎn)運(yùn)行深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)的訓(xùn)練精準(zhǔn)度;運(yùn)用事先部署于各分布式節(jié)點(diǎn)的自適應(yīng)梯度壓縮算法針對(duì)不同的網(wǎng)絡(luò)狀況產(chǎn)生壓縮率調(diào)整決策;針對(duì)產(chǎn)生的壓縮率調(diào)整決策,在各個(gè)分布式節(jié)點(diǎn)中自適應(yīng)改變當(dāng)前梯度壓縮率;分布式梯度通信過(guò)程完成后,各分布式節(jié)點(diǎn)保存當(dāng)前輪數(shù)的通信時(shí)間,重復(fù)進(jìn)行下一輪的分布式神經(jīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。本發(fā)明結(jié)合分布式深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的多維度評(píng)估特征進(jìn)行自適應(yīng)地調(diào)整梯度通信壓縮率,適用各分布式節(jié)點(diǎn)運(yùn)行深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)各分布式節(jié)點(diǎn)運(yùn)行深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)的訓(xùn)練精準(zhǔn)度結(jié)合之前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,運(yùn)用事先部署于各分布式節(jié)點(diǎn)的自適應(yīng)梯度壓縮算法針對(duì)不同的網(wǎng)絡(luò)狀況產(chǎn)生壓縮率調(diào)整決策針對(duì)產(chǎn)生的壓縮率調(diào)整決策,在各個(gè)分布式節(jié)點(diǎn)中自適應(yīng)改變當(dāng)前梯度壓縮率分布式梯度通信過(guò)程完成后,各分布式節(jié)點(diǎn)保存當(dāng)前輪數(shù)的通信時(shí)間,重復(fù)進(jìn)行下一輪的分布式神經(jīng)網(wǎng)絡(luò)訓(xùn)練CN113988266B權(quán)利要求21.基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,包括:S1,針對(duì)復(fù)雜網(wǎng)絡(luò),各分布式節(jié)點(diǎn)獨(dú)立運(yùn)行所持的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)的訓(xùn)練精準(zhǔn)度,所述復(fù)雜網(wǎng)絡(luò)包括靜態(tài)網(wǎng)絡(luò)場(chǎng)景和動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景;S2,結(jié)合之前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,運(yùn)用事先部署于各分布式節(jié)點(diǎn)的自適應(yīng)梯度壓縮算法針對(duì)不同的網(wǎng)絡(luò)狀況產(chǎn)生壓縮率調(diào)整決策;步驟S2包含以下步驟:S21,針對(duì)靜態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集上一輪數(shù)段的模型精準(zhǔn)度和梯度通信時(shí)間,其中靜態(tài)網(wǎng)絡(luò)場(chǎng)景是指網(wǎng)絡(luò)帶寬不隨著時(shí)間發(fā)生變化;S22,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于強(qiáng)化學(xué)習(xí)思想構(gòu)建的深度決策網(wǎng)絡(luò)模型,該深度決策網(wǎng)絡(luò)模型用于在線實(shí)時(shí)產(chǎn)生梯度壓縮調(diào)整策略,以適應(yīng)不斷變化的模型精準(zhǔn)度;其中深度決策網(wǎng)絡(luò)模型的輸入為上一輪數(shù)中的訓(xùn)練精準(zhǔn)度和通信時(shí)間,將二者歸一化后生成對(duì)應(yīng)的獎(jiǎng)勵(lì)值,通過(guò)模型訓(xùn)練產(chǎn)生輸出,輸出相應(yīng)的基于原梯度壓縮值變化的多種S23,針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,其中動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景是指網(wǎng)絡(luò)帶寬伴隨時(shí)間發(fā)生變化;S24,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于訓(xùn)練精準(zhǔn)度和通信時(shí)間增長(zhǎng)速度的自適應(yīng)壓縮率算法,通過(guò)比較訓(xùn)練精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度來(lái)以一定的概率進(jìn)行壓縮值的改變;S3,針對(duì)產(chǎn)生的壓縮率調(diào)整決策,在各個(gè)分布式節(jié)點(diǎn)中自適應(yīng)改變當(dāng)前梯度壓縮率,即Top-k中k的大?。籗4,在分布式通信過(guò)程中各個(gè)節(jié)點(diǎn)完成針對(duì)壓縮梯度的聚合更新,并保存當(dāng)前輪數(shù)的通信時(shí)間,隨后各節(jié)點(diǎn)根據(jù)更新后的梯度獨(dú)立運(yùn)行更新所持有的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型;S5,重復(fù)S1至S4的操作。2.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方3.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方絡(luò)學(xué)習(xí)模型訓(xùn)練初期,深度決策網(wǎng)絡(luò)模型尚未訓(xùn)練完畢,其進(jìn)行隨機(jī)決策,當(dāng)深度決策網(wǎng)絡(luò)模型訓(xùn)練完畢后,根據(jù)輸入的訓(xùn)練精準(zhǔn)度和通信時(shí)間產(chǎn)生對(duì)應(yīng)的決策。4.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,步驟S22中,將精準(zhǔn)度和通信時(shí)間歸一化后生成獎(jiǎng)勵(lì)值并作為獎(jiǎng)勵(lì)函數(shù)中N(·)表示歸一化函數(shù),μ表示每輪運(yùn)算的訓(xùn)練準(zhǔn)確率,v表示每輪梯度通信的時(shí)間間獎(jiǎng)勵(lì)、通信時(shí)間獎(jiǎng)勵(lì)的影響系數(shù)。法,其特征在于,步驟S22中,歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)中針對(duì)訓(xùn)練精準(zhǔn)度應(yīng)具體化為:N(x)=(Accu-Accum.n)/(Accumax-Accu.nAccu為每一輪運(yùn)算的訓(xùn)練精準(zhǔn)度,Accumin為一輪運(yùn)算中可能出現(xiàn)的最小精準(zhǔn)度,而3Accuma則表示相應(yīng)的一輪運(yùn)算中可能出現(xiàn)的最大精準(zhǔn)度;歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)針對(duì)通信時(shí)間中應(yīng)具體化為:N'(x)=(Delaymax-Delay)/(Delaymax-Delaym.Delaymax表示以任意限定范圍內(nèi)的壓縮比率來(lái)壓縮梯度,運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最長(zhǎng)訓(xùn)練時(shí)間,Delaym.n則表示相應(yīng)的運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最短訓(xùn)練時(shí)間,Delay表示一輪運(yùn)行所需要的通信時(shí)間。6.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,步驟S24中,采用比例法計(jì)算描摹一段運(yùn)行輪數(shù)內(nèi)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的訓(xùn)練精準(zhǔn)度和通信時(shí)間增長(zhǎng)速度;訓(xùn)練精準(zhǔn)度的增長(zhǎng)速度利用最近的相鄰兩輪精準(zhǔn)度差值的絕對(duì)值除以特定輪數(shù)內(nèi)連續(xù)相鄰輪數(shù)內(nèi)精準(zhǔn)度的差值的絕對(duì)值之和得出;通信時(shí)間的增長(zhǎng)速度利用最近的相鄰兩輪通信時(shí)間差值的絕對(duì)值除以特定輪數(shù)內(nèi)連續(xù)相鄰輪數(shù)內(nèi)通信時(shí)間的差值的絕對(duì)值之和得出;通過(guò)比較精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度確定當(dāng)前情況下精準(zhǔn)度和通信時(shí)間對(duì)壓縮率變化的側(cè)重關(guān)系,從而以一定的概率進(jìn)行啟發(fā)式動(dòng)態(tài)改變壓縮率的大小。7.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,步驟S3中,自適應(yīng)調(diào)整梯度壓縮率的范圍需確保壓縮對(duì)于模型訓(xùn)練時(shí)間的減少,且壓縮率不會(huì)低于設(shè)定的極端最低值,如若執(zhí)行動(dòng)態(tài)變化后的壓縮比率超過(guò)了可接受的范圍,則將梯度壓縮率設(shè)置在可接受的范圍邊界。8.根據(jù)權(quán)利要求1所述的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,步驟S1,步驟S4中保存相應(yīng)的精準(zhǔn)度和通信時(shí)間以適用于不同的網(wǎng)絡(luò)環(huán)在靜態(tài)網(wǎng)絡(luò)中,保存完畢上一輪的訓(xùn)練精準(zhǔn)度和通信時(shí)間并且在本輪執(zhí)行使用完后即可丟棄;而在動(dòng)態(tài)網(wǎng)絡(luò)中,設(shè)置一個(gè)隊(duì)列,連續(xù)保存若干輪的訓(xùn)練精準(zhǔn)度和通信時(shí)間,當(dāng)隊(duì)列滿后出隊(duì),丟棄最早入隊(duì)的相關(guān)信息。4方法技術(shù)領(lǐng)域[0001]本發(fā)明屬于分布式機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法。背景技術(shù)[0002]隨著計(jì)算機(jī)硬件(GPU)的快速發(fā)展,深度學(xué)習(xí)迎來(lái)了復(fù)興浪潮,其可被廣泛應(yīng)用于自然語(yǔ)言,圖像識(shí)別,情感分析等多方面技術(shù)處理。但是由于普通的深度神經(jīng)網(wǎng)絡(luò)包含百萬(wàn)至千萬(wàn)量級(jí)的參數(shù)設(shè)置,因此在模型訓(xùn)練時(shí)需要大量時(shí)間。作為替代方案,分布式深度神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)可以通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割,將其部署至其余的工作節(jié)點(diǎn),從而將單個(gè)GPU的[0003]通過(guò)應(yīng)用分布式工作節(jié)點(diǎn),可以緩解深度神經(jīng)網(wǎng)絡(luò)對(duì)于強(qiáng)大的計(jì)算力需求。但是當(dāng)分布式神經(jīng)網(wǎng)絡(luò)遇到惡劣的網(wǎng)絡(luò)條件,由于不穩(wěn)定的網(wǎng)絡(luò)帶寬和訓(xùn)練中部分節(jié)點(diǎn)的滯后,會(huì)導(dǎo)致網(wǎng)絡(luò)通信時(shí)間呈倍數(shù)的增長(zhǎng)。在這種情況下,由分布式工作節(jié)點(diǎn)所帶來(lái)的加速效益會(huì)被網(wǎng)絡(luò)通信開銷所嚴(yán)重制約。[0004]現(xiàn)有的減少分布式通信開銷的方法包括量化和壓縮。量化方法減少了每個(gè)梯度的位寬,從而減少通信總量以加快訓(xùn)練速度。然而,它們可能不可避免地導(dǎo)致測(cè)試精度下降。盡管最近的工作致力于保持測(cè)試精準(zhǔn)度的精確性,但它們會(huì)延長(zhǎng)訓(xùn)練時(shí)間。和量化相比,稀疏化可以通過(guò)減少傳輸梯度的數(shù)量來(lái)靈活地減少訓(xùn)練時(shí)間。Top-k選取梯度的絕對(duì)大小前k%個(gè)數(shù)目用來(lái)進(jìn)行通信聚合,作為典型的稀疏化方法代表,也潛藏著損害測(cè)試精準(zhǔn)度的風(fēng)險(xiǎn)。對(duì)于傳統(tǒng)的使用固定壓縮比的Top-k方法而言,如果這個(gè)固定壓縮比值小,即k值小,測(cè)試精準(zhǔn)度與梯度未壓縮的方法相比可能會(huì)下降,否則可能會(huì)由于梯度排序操作的高計(jì)算成本而延長(zhǎng)訓(xùn)練時(shí)間。[0005]分布式深度神經(jīng)網(wǎng)絡(luò)的通信方法主要可被劃分為兩種:All-Reduce和ParameterServer方法。Al1-Reduce主要應(yīng)用于同步通信,在這之中廣泛使用的技術(shù)是RingAl1-Reduce,通過(guò)梯度規(guī)約操作,可以使各個(gè)分布式節(jié)點(diǎn)得到所有節(jié)點(diǎn)的梯度聚合后的全局梯度值。而ParameterServer操作,即參數(shù)服務(wù)器可以支持同步和異步兩種通信模式,其可被部署于CPU或者GPU中。各個(gè)節(jié)點(diǎn)將計(jì)算完成的梯度發(fā)送至參數(shù)服務(wù)器后,參數(shù)服務(wù)器將根據(jù)通信模式的不同種類,決定是否設(shè)置同步屏障。針對(duì)同步通信,同步屏障的設(shè)置可以使參數(shù)服務(wù)器在完成來(lái)自所有梯度的聚合操作前,各個(gè)工作節(jié)點(diǎn)保持等待狀態(tài),而異步通信則不需要等待。在完成聚合后,參數(shù)服務(wù)器將聚合后的全局梯度返回給各個(gè)工作節(jié)點(diǎn),從而之后進(jìn)行下一輪的運(yùn)算。發(fā)明內(nèi)容[0006]本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)上述現(xiàn)有技術(shù)的不足,提供基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,減少訓(xùn)練時(shí)間的同時(shí)保持較高測(cè)試精準(zhǔn)度,5甚至超越已有的未壓縮方法的測(cè)試精準(zhǔn)度,解決現(xiàn)有復(fù)雜網(wǎng)絡(luò)狀況中自適應(yīng)分布式梯度壓縮算法難以實(shí)現(xiàn)測(cè)試精準(zhǔn)度和訓(xùn)練時(shí)間的高效益問(wèn)題。[0008]基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,其特征在于,包[0009]S1,針對(duì)復(fù)雜網(wǎng)絡(luò)(含靜態(tài)網(wǎng)絡(luò)場(chǎng)景和動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景),各分布式節(jié)點(diǎn)獨(dú)立運(yùn)行所持的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)的訓(xùn)練精準(zhǔn)度;[0010]S2,結(jié)合之前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,運(yùn)用事先部署于各分布式節(jié)點(diǎn)的自適應(yīng)梯度壓縮算法針對(duì)不同的網(wǎng)絡(luò)狀況產(chǎn)生壓縮率調(diào)整決策;[0011]S3,針對(duì)產(chǎn)生的壓縮率調(diào)整決策,在各個(gè)分布式節(jié)點(diǎn)中自適應(yīng)改變當(dāng)前梯度壓縮[0012]S4,在分布式通信過(guò)程中各個(gè)節(jié)點(diǎn)完成針對(duì)壓縮梯度的聚合更新,并保存當(dāng)前輪數(shù)的通信時(shí)間。隨后各節(jié)點(diǎn)根據(jù)更新后的梯度獨(dú)立運(yùn)行更新所持有的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模[0013]上述的步驟S1中,各個(gè)分布式節(jié)點(diǎn)獨(dú)立運(yùn)行模型,并且采用同步通信方式。[0014]上述的步驟S2包含以下步驟:[0015]S21,針對(duì)靜態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集上一輪數(shù)段的模型精準(zhǔn)度和梯度通信時(shí)間,其中靜態(tài)網(wǎng)絡(luò)場(chǎng)景是指網(wǎng)絡(luò)帶寬不隨著時(shí)間發(fā)生變化;[0016]S22,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于強(qiáng)化學(xué)習(xí)思想構(gòu)建的深度決策網(wǎng)絡(luò)模型,該深度決策網(wǎng)絡(luò)模型用于在線實(shí)時(shí)產(chǎn)生梯度壓縮調(diào)整策略,以適應(yīng)不斷變化的模型精準(zhǔn)度;[0017]其中深度決策網(wǎng)絡(luò)模型的輸入為上一輪數(shù)中的訓(xùn)練精準(zhǔn)度和通信時(shí)間,將二者歸一化后生成對(duì)應(yīng)的獎(jiǎng)勵(lì)值,通過(guò)模型訓(xùn)練產(chǎn)生輸出,輸出相應(yīng)的基于原梯度壓縮值變化的多種動(dòng)作;[0018]S23,針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,其中動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景是指網(wǎng)絡(luò)帶寬伴隨時(shí)間發(fā)生變化;[0019]S24,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于訓(xùn)練精準(zhǔn)度和通信時(shí)間增長(zhǎng)速度的自適應(yīng)壓縮率算法,其中增長(zhǎng)速度采取比例法進(jìn)行描摹,如采用最近兩個(gè)相鄰輪數(shù)的訓(xùn)練精準(zhǔn)度之差絕對(duì)值除以前若干輪相鄰輪數(shù)訓(xùn)練精準(zhǔn)度之差的絕對(duì)值之和來(lái)獲取相應(yīng)的比例從而描摹增長(zhǎng)速度。通過(guò)比較訓(xùn)練精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度來(lái)以一定的概率進(jìn)行壓縮值的改變。[0020]上述的步驟S22所述的深度決策網(wǎng)絡(luò)模型是采用DQN方法進(jìn)行構(gòu)建,在深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型訓(xùn)練初期,深度決策網(wǎng)絡(luò)模型尚未訓(xùn)練完畢,其進(jìn)行隨機(jī)決策,當(dāng)深度決策網(wǎng)絡(luò)模型訓(xùn)練完畢后,根據(jù)輸入的訓(xùn)練精準(zhǔn)度和通信時(shí)間產(chǎn)生對(duì)應(yīng)的決策。[0021]上述的步驟S22中,將精準(zhǔn)度和通信時(shí)間歸一化后生成獎(jiǎng)勵(lì)值并作為獎(jiǎng)勵(lì)函數(shù)中[0024]上述的步驟S22中,歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)場(chǎng)景中針對(duì)訓(xùn)練精準(zhǔn)度應(yīng)具體化6[0025]N(x)=(Accu-Accumin)/(Accumax-Accumi);[0026]Accu為每一輪運(yùn)算的訓(xùn)練精準(zhǔn)度,Accuin為一輪運(yùn)算中可能出現(xiàn)的最小精準(zhǔn)度,而Accum則表示相應(yīng)的一輪運(yùn)算中可能出現(xiàn)的最大精準(zhǔn)度;[0027]歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)場(chǎng)景針對(duì)通信時(shí)間中應(yīng)具體化為:[0028]N(x)=(Delaymx-Delay)/(Delaymx-Delaym:in);[0029]Delaymax表示以任意限定范圍內(nèi)的壓縮比率來(lái)壓縮梯度,運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最長(zhǎng)訓(xùn)練時(shí)間,Delaym.n則表示相應(yīng)的運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最短訓(xùn)練時(shí)間,Delay表示一輪運(yùn)行所需要的通信時(shí)間。[0030]上述的步驟S24中,計(jì)算一段模型運(yùn)行輪數(shù)內(nèi)的訓(xùn)練精準(zhǔn)度和通信時(shí)間增長(zhǎng)速度;[0031]訓(xùn)練精準(zhǔn)度的增長(zhǎng)速度利用最近的相鄰兩輪精準(zhǔn)度差值的絕對(duì)值除以特定輪數(shù)內(nèi)連續(xù)相鄰輪數(shù)內(nèi)精準(zhǔn)度的差值的絕對(duì)值之和得出;[0032]通信時(shí)間的增長(zhǎng)速度利用最近的相鄰兩輪通信時(shí)間差值的絕對(duì)值除以特定輪數(shù)內(nèi)連續(xù)相鄰輪數(shù)內(nèi)通信時(shí)間的差值的絕對(duì)值之和得出;[0033]通過(guò)比較精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度確定當(dāng)前情況下精準(zhǔn)度和通信時(shí)間對(duì)壓縮率變化的側(cè)重關(guān)系,從而以一定的概率進(jìn)行啟發(fā)式動(dòng)態(tài)改變壓縮率的大小。[0034]上述的步驟S3中,自適應(yīng)調(diào)整梯度壓縮率的范圍需確保壓縮對(duì)于模型訓(xùn)練時(shí)間的減少,且壓縮率不會(huì)低于設(shè)定的極端最低值,如若執(zhí)行動(dòng)態(tài)變化后的壓縮比率超過(guò)了可接受的范圍,則將梯度壓縮率設(shè)置在可接受的范圍邊界。[0035]上述的步驟S1,步驟S4中保存相應(yīng)的精準(zhǔn)度和通信時(shí)間以適用于不同的網(wǎng)絡(luò)環(huán)[0036]在靜態(tài)網(wǎng)絡(luò)場(chǎng)景中,保存完畢上一輪的訓(xùn)練精準(zhǔn)度和通信時(shí)間并且在本輪執(zhí)行使用完后即可丟棄;而在動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景中,設(shè)置一個(gè)隊(duì)列,連續(xù)保存若干輪的訓(xùn)練精準(zhǔn)度和通[0037]本發(fā)明具有以下有益效果:[0038]本發(fā)明結(jié)合分布式深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的多維度評(píng)估特征進(jìn)行自適應(yīng)地調(diào)整梯度通信壓縮率,適用于復(fù)雜的實(shí)時(shí)網(wǎng)絡(luò)情況,減少分布式深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間,提升測(cè)試數(shù)據(jù)集的精準(zhǔn)度。[0039](1)本發(fā)明深入的探究壓縮率和一系列深度神經(jīng)網(wǎng)絡(luò)模型的特征,比如訓(xùn)練精準(zhǔn)度、測(cè)試精準(zhǔn)度,訓(xùn)練損失值以及訓(xùn)練時(shí)間,通過(guò)大量的實(shí)驗(yàn)結(jié)果分析,本發(fā)明首次提出了結(jié)合訓(xùn)練精準(zhǔn)度和通信時(shí)間來(lái)進(jìn)行自適應(yīng)壓縮率調(diào)整。[0040](2)本發(fā)明提出的自適應(yīng)分布式梯度壓縮算法分別應(yīng)用于靜態(tài)網(wǎng)絡(luò)和動(dòng)態(tài)網(wǎng)絡(luò),其中在靜態(tài)網(wǎng)絡(luò)中以DQN為基礎(chǔ)進(jìn)行優(yōu)化,而動(dòng)態(tài)網(wǎng)絡(luò)中以訓(xùn)練精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度為基礎(chǔ)進(jìn)行優(yōu)化。該算法在保證模型收斂性的同時(shí)探索最佳的訓(xùn)練時(shí)間和測(cè)試精準(zhǔn)度權(quán)衡點(diǎn)。[0041](3)本發(fā)明提出的自適應(yīng)分布式梯度壓縮算法可以實(shí)現(xiàn)訓(xùn)練時(shí)間和測(cè)試精準(zhǔn)度的高效率,即在維持著較少訓(xùn)練時(shí)間的同時(shí)保持著較高的模型測(cè)試精準(zhǔn)度,甚至在某些情況下,超越原有的未壓縮情況下的測(cè)試精準(zhǔn)度。7附圖說(shuō)明[0042]圖1是本發(fā)明的基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法的[0043]圖2是本發(fā)明的一個(gè)靜態(tài)網(wǎng)絡(luò)場(chǎng)景中自適應(yīng)梯度壓縮示例。[0044]圖3是本發(fā)明的一個(gè)動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景中自適應(yīng)梯度壓縮示例。具體實(shí)施方式[0045]以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作進(jìn)一步詳細(xì)描述。[0046]如圖1所示,基于Top-k的支持復(fù)雜網(wǎng)絡(luò)狀況的自適應(yīng)分布式梯度壓縮方法,包括:[0047]S1,各分布式節(jié)點(diǎn)運(yùn)行深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,完成梯度計(jì)算過(guò)程,保存當(dāng)前輪數(shù)的訓(xùn)練精準(zhǔn)度;[0048]實(shí)施例中,各個(gè)分布式節(jié)點(diǎn)獨(dú)立運(yùn)行模型,并且將之后得到的壓縮后梯度以同步通信方式進(jìn)行聚合。[0049]S2,結(jié)合之前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)間,運(yùn)用事先部署于各分布式節(jié)點(diǎn)的自適應(yīng)梯度壓縮算法針對(duì)不同的網(wǎng)絡(luò)狀況產(chǎn)生壓縮率調(diào)整決策,包含以下步驟:[0050]S21,針對(duì)靜態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集上一輪數(shù)段的模型精準(zhǔn)度和梯度通信時(shí)間,其中靜態(tài)網(wǎng)絡(luò)場(chǎng)景是指網(wǎng)絡(luò)帶寬不隨著時(shí)間發(fā)生變化;[0051]S22,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于強(qiáng)化學(xué)習(xí)思想構(gòu)建的深度決策網(wǎng)絡(luò)模型,該深度決策網(wǎng)絡(luò)模型用于在線實(shí)時(shí)產(chǎn)生梯度壓縮調(diào)整策略,以適應(yīng)不斷變化的模型精準(zhǔn)度;[0052]其中深度決策網(wǎng)絡(luò)模型的輸入為上一輪數(shù)中的訓(xùn)練精準(zhǔn)度和通信時(shí)間,將二者歸一化后生成對(duì)應(yīng)的獎(jiǎng)勵(lì)值,通過(guò)模型訓(xùn)練產(chǎn)生輸出,輸出相應(yīng)的基于原梯度壓縮值變化的[0053]實(shí)施例中,所述的深度決策網(wǎng)絡(luò)模型是采用DQN方法進(jìn)行構(gòu)建,在深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型訓(xùn)練初期,深度決策網(wǎng)絡(luò)模型尚未訓(xùn)練完畢,其進(jìn)行隨機(jī)決策,當(dāng)深度決策網(wǎng)絡(luò)模型訓(xùn)練完畢后,根據(jù)輸入的訓(xùn)練精準(zhǔn)度和通信時(shí)間產(chǎn)生對(duì)應(yīng)的決策。[0054]實(shí)施例中,將精準(zhǔn)度和通信時(shí)間歸一化后生成獎(jiǎng)勵(lì)值并作為獎(jiǎng)勵(lì)函數(shù)中的一部[0057]歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)場(chǎng)景中針對(duì)訓(xùn)練精準(zhǔn)度應(yīng)具體化為:[0059]Accu為每一輪運(yùn)算的訓(xùn)練精準(zhǔn)度,Accumin為一輪運(yùn)算中可能出現(xiàn)的最小精準(zhǔn)度,而Accum則表示相應(yīng)的一輪運(yùn)算中可能出現(xiàn)的最大精準(zhǔn)度;[0060]歸一化函數(shù)N(·)在靜態(tài)網(wǎng)絡(luò)場(chǎng)景針對(duì)通信時(shí)間中應(yīng)具體化為:[0061]N(x)=(Delaymx-Delay)/(Delaymx-Delaym:in);[0062]Delaymax表示以任意限定范圍內(nèi)的壓縮比率來(lái)壓縮梯度,運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最長(zhǎng)訓(xùn)練時(shí)間,Delaym.n則表示相應(yīng)的運(yùn)行完成完整的全體數(shù)據(jù)集所需要的最短訓(xùn)練時(shí)間,Delay表示一輪(即一個(gè)小部分?jǐn)?shù)據(jù)集)運(yùn)行所需要的通信時(shí)間。8[0063]S23,針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景,各節(jié)點(diǎn)收集前若干輪數(shù)段的訓(xùn)練精準(zhǔn)度和梯度通信時(shí)[0064]S24,在各個(gè)分布式節(jié)點(diǎn)中運(yùn)行基于訓(xùn)練精準(zhǔn)度和通信時(shí)間增長(zhǎng)速度的自適應(yīng)壓差絕對(duì)值除以前若干輪相鄰輪數(shù)訓(xùn)練精準(zhǔn)度之差的絕對(duì)值之和來(lái)獲取相應(yīng)的比例從而描[0065]通過(guò)比較精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度確定當(dāng)前情況下精準(zhǔn)度和通信時(shí)間對(duì)壓[0067]精準(zhǔn)度的增長(zhǎng)速度利用最近的相鄰兩輪精準(zhǔn)度差值的絕對(duì)值除以特定輪數(shù)內(nèi)連[0068]通信時(shí)間的增長(zhǎng)速度利用最近的相鄰兩輪通信時(shí)間差值的絕對(duì)值除以特定輪數(shù)[0069]通過(guò)比較精準(zhǔn)度和通信時(shí)間的增長(zhǎng)速度確定當(dāng)前情況下精準(zhǔn)度和通信時(shí)間對(duì)壓[0070]S3,針對(duì)產(chǎn)生的壓縮率調(diào)整決策,在各個(gè)分布式節(jié)點(diǎn)中自適應(yīng)改變當(dāng)前梯度壓縮[0074]實(shí)施例中,所述步驟S1,步驟S4中保存相應(yīng)的精準(zhǔn)度和通信時(shí)間適用于不同的網(wǎng)用CIFAR-10數(shù)據(jù)集在ResNet-18,VGG-19深度網(wǎng)絡(luò)模型上運(yùn)行,CIFAR-100數(shù)據(jù)集在于靜態(tài)網(wǎng)絡(luò)場(chǎng)景的最終測(cè)試精準(zhǔn)度,表2是本發(fā)明和現(xiàn)存梯度壓縮算法適用于動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景的最終測(cè)試精準(zhǔn)度,表3是本發(fā)明應(yīng)用于靜態(tài)網(wǎng)絡(luò)場(chǎng)景與現(xiàn)存梯度壓縮算法的運(yùn)行時(shí)間9加速比,表4是本發(fā)明應(yīng)用于動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景與現(xiàn)存梯度壓縮算法的運(yùn)行時(shí)間加速比。[0079]表1靜態(tài)網(wǎng)絡(luò)場(chǎng)景下各梯度壓縮算法最后二十輪訓(xùn)練周期的平均測(cè)試精準(zhǔn)度[0081]表2動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景下各梯度壓縮算法最后二十輪訓(xùn)練周期的平均測(cè)試精準(zhǔn)度[0083]表3靜態(tài)網(wǎng)絡(luò)場(chǎng)景下各梯度壓縮算法相對(duì)于未壓縮的加速比[0086]表4動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景下各梯度壓縮算法相對(duì)于未壓縮的加速比網(wǎng)絡(luò)模型[0088]表1,表2,表3,表4中出現(xiàn)的各種梯度壓縮算法中Baseline為沒(méi)有進(jìn)行梯度壓縮的算法,Top0.001即指Top-k壓縮算法中將k設(shè)置為0.001,Top0.15即指Top-k壓縮算法中將k設(shè)置為0.15,DA2,DA4,DA5是現(xiàn)存的動(dòng)態(tài)調(diào)整壓縮率算法,AdaTopK是本發(fā)明命名的自適應(yīng)[0089]圖2是自適應(yīng)梯度壓縮算法適應(yīng)用于靜態(tài)網(wǎng)絡(luò)場(chǎng)景中的示例。為了簡(jiǎn)化說(shuō)明,此示例只設(shè)置當(dāng)前位于第t時(shí)刻的情況。在靜態(tài)網(wǎng)絡(luò)場(chǎng)景中的神經(jīng)網(wǎng)絡(luò)決策模型是采用DQN方法進(jìn)行構(gòu)建,在分布式模型訓(xùn)練初期,神經(jīng)網(wǎng)絡(luò)決策模型尚未訓(xùn)練完畢,其進(jìn)行隨機(jī)決策,當(dāng)神經(jīng)網(wǎng)絡(luò)決策模型訓(xùn)練完畢后,根據(jù)輸入的訓(xùn)練精準(zhǔn)度和通信時(shí)間產(chǎn)生對(duì)應(yīng)的決策。[0090]在完成歸一化,將計(jì)算得出對(duì)應(yīng)的模型精準(zhǔn)度獎(jiǎng)勵(lì)A(yù)cc-Reward和通信時(shí)間獎(jiǎng)勵(lì)[0091]圖3是自適應(yīng)梯度壓縮算法適應(yīng)用于動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景中的示例。為了簡(jiǎn)化說(shuō)明,此示例只設(shè)置當(dāng)前位于第t時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論