版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利GO6N3/084(2023.GO6N3/082(2023.地址韓國京畿道水原市公司11286專利代理師方成張川緒提供深度神經(jīng)網(wǎng)絡(luò)的權(quán)重的平衡修剪的系開始對權(quán)重進(jìn)行分組開始對權(quán)重進(jìn)行分組應(yīng)用掩蔽函數(shù)對每個組的非零權(quán)重進(jìn)行計數(shù)計算多個組之間的方差最小化結(jié)束一種提供深度神經(jīng)網(wǎng)絡(luò)的權(quán)重的平衡修剪DNN的權(quán)重劃分為多個組,在每個組中確定非零21.一種提供深度神經(jīng)網(wǎng)絡(luò)的權(quán)重的平衡修剪的系統(tǒng),所述系統(tǒng)包括:多個并行處理元件;存儲器,存儲深度神經(jīng)網(wǎng)絡(luò)的權(quán)重,其中,在存儲器中,深度神經(jīng)網(wǎng)絡(luò)的權(quán)重被劃分為多個權(quán)重組;權(quán)重掩蔽器,掩蔽深度神經(jīng)網(wǎng)絡(luò)的所述多個權(quán)重組中的每個權(quán)重組中的權(quán)重;以及損失確定器,基于深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)損失減去掩蔽的所述多個權(quán)重組中的非零權(quán)重的計數(shù)的方差,來確定深度神經(jīng)網(wǎng)絡(luò)的損失,其中,通過損失確定器利用具有所述多個權(quán)重組中的非零權(quán)重的計數(shù)的方差等于0的約束使用拉格朗日乘子,使深度神經(jīng)網(wǎng)絡(luò)的損失最小化,其中,通過反向傳播重新訓(xùn)練所述多個權(quán)重組和拉格朗日乘子,其中,后處理過程被應(yīng)用以實現(xiàn)每個權(quán)重組具有完全相同數(shù)量的非零權(quán)重,以平衡將被分配給所述多個并行處理元件的非零權(quán)重的數(shù)量,其中,具有相同數(shù)量的非零權(quán)重的所述多個權(quán)重組被分配給所述多個并行處理元件,以確保所述多個并行處理元件具有相同量的工作負(fù)荷。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,損失確定器還基于深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)損失減去與拉格朗日乘子相乘的所述多個權(quán)重組中的非零權(quán)重的計數(shù)的方差,來確定深度神經(jīng)網(wǎng)絡(luò)的損失。3.根據(jù)權(quán)利要求2所述的系統(tǒng),其中,權(quán)重掩蔽器將每個權(quán)重組中的權(quán)重與掩蔽函數(shù)相乘。4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中,掩蔽函數(shù)是可微分的。5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,掩蔽函數(shù)的銳度是可選擇地可控的,掩蔽函數(shù)的寬度是可選擇地可控的。6.一種提供深度神經(jīng)網(wǎng)絡(luò)的權(quán)重的平衡修剪的方法,所述方法包括:通過存儲器存儲深度神經(jīng)網(wǎng)絡(luò)的權(quán)重;在存儲器中,將深度神經(jīng)網(wǎng)絡(luò)的權(quán)重劃分為多個組;通過權(quán)重掩蔽器將掩蔽函數(shù)應(yīng)用于每個組中的權(quán)重;在掩蔽函數(shù)被應(yīng)用之后,確定每個組中的非零權(quán)重的數(shù)量的計數(shù);確定所述多個組中的非零權(quán)重的計數(shù)的方差;通過損失確定器利用具有所述多個組中的非零權(quán)重的計數(shù)的方差等于0的約束使用拉格朗日乘子,使深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)最小化;通過反向傳播重新訓(xùn)練權(quán)重的所述多個組和拉格朗日乘子,其中,后處理過程被應(yīng)用以實現(xiàn)每個組具有完全相同數(shù)量的非零權(quán)重,以平衡將被分配給多個并行處理元件的非零權(quán)重的數(shù)量,其中,具有相同數(shù)量的非零權(quán)重的所述多個組被分配給所述多個并行處理元件,以確保所述多個并行處理元件具有相同量的工作負(fù)荷。7.根據(jù)權(quán)利要求6所述的方法,其中,拉格朗日乘子被用于乘以所述多個組中的非零權(quán)重的計數(shù)的方差。8.根據(jù)權(quán)利要求6所述的方法,還包括:確定重新訓(xùn)練的權(quán)重的模式;3如果所述多個組中的第一組比所述模式具有更多的非零權(quán)重,則將應(yīng)用于第一組的掩蔽函數(shù)調(diào)整為0,直到第一組的非零權(quán)重的計數(shù)等于重新訓(xùn)練的權(quán)重的模式的非零權(quán)重的如果所述多個組中的第二組比所述模式具有更少的非零權(quán)重,則將應(yīng)用于第二組的掩蔽函數(shù)調(diào)整為1,直到第二組的非零權(quán)重的計數(shù)等于重新訓(xùn)練的權(quán)重的模式的非零權(quán)重的計數(shù)為止。9.根據(jù)權(quán)利要求6所述的方法,其中,掩蔽函數(shù)是可微分的。10.根據(jù)權(quán)利要求9所述的方法,其中,掩蔽函數(shù)的銳度是可選擇地可控的,掩蔽函數(shù)的寬度是可選擇地可控的。11.根據(jù)權(quán)利要求6所述的方法,其中,重新訓(xùn)練權(quán)重和拉格朗日乘子的步驟還包括:通過反向傳播重新訓(xùn)練權(quán)重、掩蔽函數(shù)的寬度和拉格朗日乘子。12.根據(jù)權(quán)利要求11所述的方法,其中,使用梯度下降技術(shù)來更新權(quán)重和掩蔽函數(shù)的寬度,使用梯度上升技術(shù)來更新拉格朗日乘子。4提供深度神經(jīng)網(wǎng)絡(luò)的權(quán)重的平衡修剪的系統(tǒng)和方法[0001]本申請要求于2018年9月24日提交到美國專利商標(biāo)局并且被分配序列號62/735,846的美國臨時專利申請以及于2018年11月9日提交到美國專利商標(biāo)局并且被分配序列號16/186,470的美國非臨時專利申請的優(yōu)先權(quán),所述美國臨時專利申請和所述美國非臨時專利申請的全部內(nèi)容通過引用整體包含于此。技術(shù)領(lǐng)域[0002]在此公開的主題涉及神經(jīng)網(wǎng)絡(luò)。更具體地,在此公開的主題涉及提供深度神經(jīng)網(wǎng)絡(luò)(DNN)的權(quán)重的平衡修剪(balancedpruning)的系統(tǒng)和方法。背景技術(shù)[0003]神經(jīng)網(wǎng)絡(luò)硬件被設(shè)計為加速深度神經(jīng)網(wǎng)絡(luò)的計算。然而,硬件加速器在處理稀疏參數(shù)(sparseparameters)方面效率不高,并且平衡神經(jīng)網(wǎng)絡(luò)參數(shù)的稀疏度以確保并行處理元件具有相同量的工作負(fù)荷是一個難題。稀疏度被用于減小參數(shù)大小并提高深度神經(jīng)網(wǎng)絡(luò)的計算效率。發(fā)明內(nèi)容[0004]示例實施例提供一種提供深度神經(jīng)網(wǎng)絡(luò)(DNN)的權(quán)重的平衡修剪的系統(tǒng),所述系統(tǒng)可包括:權(quán)重掩蔽器和損失確定器。權(quán)重掩蔽器可掩蔽DNN的多個權(quán)重組中的權(quán)重的每個組中的權(quán)重;損失確定器可基于DNN的網(wǎng)絡(luò)損失減去所述多個權(quán)重組中的非零權(quán)重的計數(shù)格朗日乘子相乘的所述多個權(quán)重組中的非零權(quán)重的計數(shù)的方差,來確定DNN的損失。在另一實施例中,權(quán)重掩蔽器可將權(quán)重的每個組中的權(quán)重與掩蔽函數(shù)相乘。在另一實施例中,掩蔽函數(shù)可以是可微分的。[0005]示例實施例提供一種提供深度神經(jīng)網(wǎng)絡(luò)(DNN)的權(quán)重的平衡修剪的方法,所述方法可包括:將DNN的權(quán)重劃分為多個組;通過權(quán)重掩蔽器將掩蔽函數(shù)應(yīng)用于每個組中的權(quán)重;在掩蔽函數(shù)被應(yīng)用之后,確定每個組中的非零權(quán)重的數(shù)量的計數(shù);確定每個組中的非零權(quán)重的計數(shù)的方差;通過損失確定器利用具有每個組中的非零權(quán)重的計數(shù)的方差等于0的約束使用拉格朗日乘子,使DNN的損失函數(shù)最小化;通過反向傳播重新訓(xùn)練權(quán)重和拉格朗日乘子。在一個實施例中,拉格朗日乘子可被用于乘以每個組中的非零權(quán)重的計數(shù)的方差。在另一實施例中,后處理可包括:確定重新訓(xùn)練的權(quán)重的模式;如果所述多個組中的組在平衡修剪之后具有更多的非零權(quán)重,則將應(yīng)用于該組的掩蔽函數(shù)調(diào)整為0,直到該組的非零權(quán)重的計數(shù)等于重新訓(xùn)練的權(quán)重的模式為止;以及如果所述多個組中的組在平衡修剪之后具有更少的非零權(quán)重,則將應(yīng)用于該組的掩蔽函數(shù)調(diào)整為1,直到該組的非零權(quán)重的計數(shù)等于重新訓(xùn)練的權(quán)重的模式為止。5附圖說明[0006]在以下部分中,將參照附圖中示出的示例性實施例來描述在此公開的主題的方[0007]圖1描述根據(jù)在此公開的主題的示例閾值函數(shù)的曲線圖;[0008]圖2是根據(jù)在此公開的主題的用于DNN的平衡自修剪的方法的流程圖;[0009]圖3是根據(jù)在此公開的主題的后處理方法的示例實施例的流程圖;[0010]圖4描述根據(jù)在此公開的主題的平衡自修剪器的示例實施例。具體實施方式[0011]在以下具體實施方式中,闡述了許多具體細(xì)節(jié)以便提供對本公開的透徹理解。然而,本領(lǐng)域技術(shù)人員將理解,可在沒有這些具體細(xì)節(jié)的情況下實踐公開的方面。在其他實例中,沒有詳細(xì)描述公知的方法、過程、組件和電路,以不模糊在此公開的主題。此外,描述的方面可被實現(xiàn)為在任何成像裝置或系統(tǒng)(包括但不限于智能電話、用戶設(shè)備(UE)和/或膝上型計算機(jī))中。[0012]貫穿本說明書的對“一個實施例”或“實施例”的引用表示:結(jié)合該實施例描述的特定特征、結(jié)構(gòu)或特性可包括在在此公開的至少一個實施例中。因此,貫穿本說明書的不同地方短語“在一個實施例中”或“在實施例中”或“根據(jù)一個實施例”(或具有類似含義的其他短語)的出現(xiàn)可不一定都指示同一實施例。此外,在一個或多個實施例中,可以以任何合適的方式組合特定的特征、結(jié)構(gòu)或特性。在這方面,如在此使用的,詞“示例性”表示“用作示例、實例或說明”。在此描述為“示例性”的任何實施例不應(yīng)被解釋為一定比其他實施例優(yōu)選或有利。此外,根據(jù)在此的討論的上下文,單數(shù)術(shù)語可包括相應(yīng)的復(fù)數(shù)形式,并且復(fù)數(shù)術(shù)語可爾可互換的使用不應(yīng)被認(rèn)為彼此不一致。[0013]還應(yīng)注意,在此示出和討論的各種附圖(包括組件圖)僅為了說明的目的,并且不按比例繪制。類似地,各種波形和時序圖僅為了說明的目的而被示出。例如,為了清楚起見,一些元件的尺寸可能相對于其他元件被夸大。此外,如果認(rèn)為合適,則在附圖中重復(fù)參考標(biāo)號以指示相應(yīng)的和/或類似的元件。[0014]在此使用的術(shù)語僅為了描述一些示例實施例的目的,而不意在限制要求權(quán)利的主題。除非上下文另有清楚地指示,否則如在這里使用的單數(shù)形式也意在包括復(fù)數(shù)形式。還將理解,當(dāng)在本說明書中使用術(shù)語“包括”和/或“包含”時,表明存在陳述的特征、整體、步驟、操作、元件和/或組件,但不排除存在或增加一個或多個其他特征、整體、步驟、操作、元件、組件和/或它們的組。除非這樣清楚地定義,否則在此使用的術(shù)語“第一”、“第二”等用作它們之后的名詞的標(biāo)簽,并且不表示任何類型的順序(例如,空間、時間、邏輯等)。此外,可在兩個或更多個附圖之間使用相同的參考標(biāo)號來表示具有相同或相似功能的部件、組件、塊、電路、單元或模塊。然而,這樣的用法僅為了簡化說明和易于討論,并不表示這樣的組件或單元的構(gòu)造或結(jié)構(gòu)細(xì)節(jié)在所有實施例之間都是相同的或者這樣共同引用的部件/模塊是實6現(xiàn)在此公開的多個示例實施例中的一些示例實施例的唯一方式。元件或?qū)訒r,它可直接“在”該另一元件或?qū)由?、直接連接到或者直接結(jié)合到該另一元件或同的元件。如在此使用的,術(shù)語“和/或”包括相關(guān)聯(lián)的所列項中的一個或多全部組合。[0016]除非另有定義,否則在此使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與由本主題所屬領(lǐng)域的普通技術(shù)人員通常理解的含義相同的含義。還將理解,除非在此清楚地如此定義,否則術(shù)語(諸如通用詞典中定義的術(shù)語)應(yīng)被解釋為具有與它們在相關(guān)領(lǐng)域的上下文中的含義一致的含義,并且將不被理想化或過于形式化地解釋。[0017]如在此使用的,術(shù)語“模塊”表示被配置為提供在此結(jié)合模塊描述的功能的軟件、固件和/或硬件的任何組合。軟件可被實現(xiàn)為軟件包、代碼和/或指令集或指令,并且如在此描述的任何實施方式中使用的術(shù)語“硬件”可單獨(dú)地包括例如硬連線電路、可編程電路、狀態(tài)機(jī)電路和/或存儲由可編程電路執(zhí)行的指令的固件,或者可包括硬連線電路、可編程電路、狀態(tài)機(jī)電路和/或所述固件的任何組合。模塊可共同地或單獨(dú)地被實現(xiàn)為形成較大系統(tǒng)和/或功能塊可被實現(xiàn)為可包括提供在此結(jié)合各種組件和/或功能塊描述的功能的軟件、固件和/或硬件的模塊。[0018]在此公開的主題涉及對深度神經(jīng)網(wǎng)絡(luò)(DNN)的權(quán)重進(jìn)行稀疏化的方法和系統(tǒng)。使用在此公開的主題處理的DNN模型的稀疏度(sparsity)針對每個組具有相同數(shù)量的非零權(quán)重。組可基于DNN硬件架構(gòu)來創(chuàng)建,并且可依賴于激活和權(quán)重如何從存儲器被提取到處理元件。在訓(xùn)練階段期間,DNN模型權(quán)重和權(quán)重閾值參數(shù)被同時訓(xùn)練,使得DNN模型可達(dá)到最大訓(xùn)練準(zhǔn)確度和最小數(shù)量的非零權(quán)重。同時,通過強(qiáng)制使組之間的非零權(quán)重的數(shù)量的方差接近于零,每個組內(nèi)的非零權(quán)重的數(shù)量近似相同。在訓(xùn)練的結(jié)束時,后處理過程可被應(yīng)用以實現(xiàn)每個組具有完全相同數(shù)量的非零權(quán)重的結(jié)果作為最佳平衡的稀疏度。[0019]在此公開的主題提供自動修剪方法,其中,自動修剪方法同時訓(xùn)練參數(shù),減少非零參數(shù)的數(shù)量,并平衡硬件處理元件的非零參數(shù)的數(shù)量,以增加系統(tǒng)的處理元件的利用率。后處理步驟是訓(xùn)練結(jié)束時的用于調(diào)整權(quán)重使得所有組具有完全相同數(shù)量的權(quán)重以實現(xiàn)非零權(quán)重的最佳平衡(perfectbalance)的過程。[0020]DNN模型的訓(xùn)練可以是尋求使預(yù)測與地面真值具有最小差的一組權(quán)重參數(shù)的數(shù)值[0025]為了執(zhí)行稀疏化,修剪函數(shù)可被應(yīng)用于權(quán)重,使得具有低于閾值的大小的權(quán)重被設(shè)置為0并且具有高于閾值的大小的權(quán)重不受影響。為了具有可訓(xùn)練的修剪函數(shù),該函數(shù)需要第一階可微分。在一個實施例中,可被使用的閾值函數(shù)或修剪函數(shù)是7外,閾值函數(shù)h(w)具有大于連續(xù)權(quán)重值的第一集合103的連續(xù)權(quán)重值的第二集合104的值1,并且具有小于連續(xù)權(quán)重值的第一集合103的連續(xù)權(quán)重值的第三集合105的值1。閾值函數(shù)h(w)的第一邊界101a在連續(xù)權(quán)重值的第一集合103與連續(xù)權(quán)重值的第二集合104之間。第二和第二邊界101b的區(qū)域中,閾值函數(shù)h(w)的值在0和1之間轉(zhuǎn)變。當(dāng)閾值函數(shù)h(w)的邊界101a和邊界101b的銳度),h(w)=0.5處的第一邊界101a與第二邊界101b之間的[0032]圖2是根據(jù)在此公開的主題的用于DNN的平衡自修剪的方法200的流程圖。在201,方法200開始。為了將稀疏權(quán)重分配給多個處理元件(PE),在202,DNN的權(quán)重被劃分成多個組。[0035]如果權(quán)重的大小大于閾值,則等式(5)的掩蔽函數(shù)返回1,如果權(quán)重的大小小于閾之間的非零權(quán)重的計數(shù)的方差。在206,訓(xùn)練問題可用公式表示為具有硬約束(hard8(ADMM)來解決這種具有硬約束的最小化問題。在本質(zhì)上,可使用拉格朗日乘子來連接等式[0042]在207,三個參數(shù)w、β和λ是可訓(xùn)練的并且在反向傳播中被更新??墒褂锰荻认陆导夹g(shù)來更新參數(shù)w和β,然而,可使用梯度上升技術(shù)來更新拉格朗日參數(shù)(或拉格朗日乘子)λ,例如:[0044]因為等式8中的總損失正在減小并且拉格朗日乘子λ正在增大,所以這嚴(yán)格執(zhí)行等式7中的硬約束。在208,方法200結(jié)束。使用以上的方法200,訓(xùn)練將最終收斂到具有組之間的近似平衡的稀疏度的最小值。[0045]為了達(dá)到確實平衡的稀疏度,后處理方法可被應(yīng)用。在平衡自修剪(即,圖2)之后,非零權(quán)重的數(shù)量可具有部分稀疏模式。后處理處理可被應(yīng)用于選擇性地將邊緣權(quán)重(fringeweight)的遮罩(mask)設(shè)置為0或1以實現(xiàn)確實的稀疏平衡。[0046]圖3是根據(jù)在此公開的主題的后處理方法300的示例實施例的流程圖。在301,方法個組的權(quán)重的總數(shù)等于1024。在207的平衡自修剪之后的結(jié)果可以是大多數(shù)組具有500個非零權(quán)重的模式,而在一些組中權(quán)重可全部為零。[0047]在303,為了實現(xiàn)確實的稀疏度平衡,如果組比所述模式具有更多的非零權(quán)重,則該組的最小值非零權(quán)重的遮罩將被設(shè)置為0,直到該組的非零權(quán)重的數(shù)量等于所述模式的非零權(quán)重的數(shù)量為止。[0048]在304,如果組比所述模式具有更少的非零權(quán)重,則將最大值(掩蔽的)零權(quán)重重置(即,去掩蔽)為非零,直到該組的非零權(quán)重的數(shù)量等于所述模式的非零權(quán)重的數(shù)量為止。因為使用軟掩蔽函數(shù)(諸如,等式(5)中的軟掩蔽函數(shù))掩蔽權(quán)重,所以后處理是可行的。在305,方法300結(jié)束。[0049]圖4描述根據(jù)在此公開的主題的平衡自修剪器的示例實施例。平衡自修剪器400可包括存儲器401、掩蔽器402和損失確定器403。在一些實施例中,平衡自修剪器400可包括可提供控制和迭代類型的功能的控制器404.在另一實施例中,平衡自修剪器400可被實現(xiàn)為狀態(tài)機(jī)。在一個實施例中,平衡自修剪器400可被實現(xiàn)為最小化模塊,是被配置為提供平衡自修剪器400的最小化和算術(shù)功能的軟件、固件和/或硬件的任何組合。在另一實施例中,平衡自修剪器400的功能塊中的一個或多個可以是模塊,在這種情況下,這樣的模塊可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電梯生產(chǎn)及售后管理制度
- 濟(jì)寧市安全生產(chǎn)晨會制度
- 建筑業(yè)安全生產(chǎn)培訓(xùn)制度
- 糧庫安全生產(chǎn)責(zé)任人制度
- 安全生產(chǎn)排資金管理制度
- 餐飲類生產(chǎn)安全責(zé)任制度
- 餐飲具集中消毒生產(chǎn)制度
- 公司生產(chǎn)廢棄物處理制度
- 電線生產(chǎn)一物一碼管理制度
- 雅居樂財務(wù)制度
- 神經(jīng)病學(xué)教學(xué)課件:阿爾茨海默病
- LY/T 1598-2011石膏刨花板
- GB/T 31588.1-2015色漆和清漆耐循環(huán)腐蝕環(huán)境的測定第1部分:濕(鹽霧)/干燥/濕氣
- GB/T 21268-2014非公路用旅游觀光車通用技術(shù)條件
- GB/T 1040.1-2018塑料拉伸性能的測定第1部分:總則
- GA/T 1495-2018道路交通安全設(shè)施基礎(chǔ)信息采集規(guī)范
- 《大數(shù)據(jù)管理》課程教學(xué)大綱
- 夜間綜合施工專項專題方案公路
- ★神東煤炭集團(tuán)xx煤礦礦井災(zāi)害預(yù)防與處理計劃
- Q∕GDW 11421-2020 電能表外置斷路器技術(shù)規(guī)范
- 液化氣站建設(shè)可行性研究報告
評論
0/150
提交評論