CN114078195B 分類模型的訓練方法、超參數(shù)的搜索方法以及裝置 (華為技術有限公司)_第1頁
CN114078195B 分類模型的訓練方法、超參數(shù)的搜索方法以及裝置 (華為技術有限公司)_第2頁
CN114078195B 分類模型的訓練方法、超參數(shù)的搜索方法以及裝置 (華為技術有限公司)_第3頁
CN114078195B 分類模型的訓練方法、超參數(shù)的搜索方法以及裝置 (華為技術有限公司)_第4頁
CN114078195B 分類模型的訓練方法、超參數(shù)的搜索方法以及裝置 (華為技術有限公司)_第5頁
已閱讀5頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

(19)國家知識產(chǎn)權局(12)發(fā)明專利(10)授權公告號CN114078195B(65)同一申請的已公布的文獻號(73)專利權人華為技術有限公司為總部辦公樓(72)發(fā)明人周彧聰鐘釗(74)專利代理機構北京龍雙利達知識產(chǎn)權代理有限公司11329專利代理師王龍華王君第27頁.FORFINE-TUNING.ICLR.2024,第1頁-第20頁.分類模型的訓練方法、超參數(shù)的搜索方法以及裝置本申請涉及人工智能技術領域公開了一種分類模型的訓練方法、超參數(shù)的搜索方法以及裝置,訓練方法包括獲取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)用于控制所述待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參數(shù)進行更新,得到訓練后的分類模型,所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同?;诒精@取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)用于控制待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變線性層,所述縮放線性不變性線性層使得所述待分類模型的權重乘以任意縮放系數(shù)時輸出的預測分類結果保持不變根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參數(shù)進行更新,得到訓練后的分類模型,所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同2獲取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)為等效學習率,所述目標超參數(shù)根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型3.如權利要求1或2所述的訓練方法,其特征在于,所述縮放不變性線性層根據(jù)以下公通過以下公式對所述更新后的權重參數(shù)進行處理,使得所述獲取目標超參數(shù)的候選值,所述目標超參數(shù)為等效學習率,所述目標超參數(shù)用于控制不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類根據(jù)所述候選值與目標訓練方式,得到所述待訓練分類模型的性能參數(shù),所述目標訓7.如權利要求5或6所述的搜索方法,其特征在于,所述獲取目標超參數(shù)的候選值,包3根據(jù)當前訓練步數(shù)、預先配置的訓練步數(shù)以及所述待訓練分類模型的精度的變化趨勢練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索范圍,若所述當前訓練步數(shù)小于所述預先配置的訓練步數(shù),則將范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所述目練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索范圍,若所述當前訓練步數(shù)等于所述預先配置的訓練步數(shù),則將所述目標超參數(shù)的初始搜索范圍的上邊界更新為第一候選值,所述目標超參數(shù)的搜索范圍的下邊界更新為第二候選通過以下公式對所述更新后的權重參數(shù)進行處理,使得所述處理單元,用于根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參4根據(jù)所述目標超參數(shù)和所述目標訓練方式通過反向傳播算通過以下公式對所述更新后的權重參數(shù)進行處理,使得所述處理單元,用于根據(jù)所述候選值與目標訓練方式,得到所述待訓練分類模型的性能參數(shù),所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同,根據(jù)當前訓練步數(shù)、預先配置的訓練步數(shù)以及所述待訓練分若所述當前訓練步數(shù)小于所述預先配置的訓練步數(shù),則將范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所述目若所述當前訓練步數(shù)等于所述預先配置的訓練步數(shù),則將范圍的上邊界更新為第一候選值,所述目標超參數(shù)的搜索范圍的下邊界更新為第二候選5目標超參數(shù)的候選值相鄰的候選值。23.如權利要求17或18、20至22中任一項所述的搜索裝置,其特征在于,所述縮放不變性線性層根據(jù)以下公式得到所述預測分類結果:其中,Y表示第i次迭代更新的權重參數(shù)對應的預測分類結果;W表示所述第i次迭代更24.如權利要求17或18、20至22中任一項所述的搜索裝置,其特征在于,所述目標訓練方式包括:通過以下公式對所述更新后的權重參數(shù)進行處理,使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同:表示所述待訓練分類模型的初始權重模長。處理器,用于執(zhí)行所述存儲器存儲的程序,當所述處理器執(zhí)行所述存儲器存儲的程序時,所述處理器用于執(zhí)行權利要求1至4中任一項所述的訓練方法。處理器,用于執(zhí)行所述存儲器存儲的程序,當所述處理器執(zhí)行所述存儲器存儲的程序時,所述處理器用于執(zhí)行權利要求5至12中任一項所述的搜索方法。27.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有程序指令,當所述程序指令由處理器運行時,實現(xiàn)權利要求1至4中任一項所述的訓練方法。28.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有程序指令,當所述程序指令由處理器運行時,實現(xiàn)權利要求5至12中任一項所述的搜索方法。6技術領域[0001]本申請涉及人工智能領域,并且更具體地,涉及一種分類模型的訓練方法、超參數(shù)的搜索方法以及裝置。背景技術[0002]人工智能(artificialintelligence,AI)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結果的理的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式作出反應的智能機器。人工智能也就是研究各種智能機器的設計原理與實現(xiàn)方法,使機器具有感知、推理與決策的功能。人工智能領域的研究包括機器人,自然語言處理,計算機視覺,決策與推理,人機交互,推薦與搜[0003]神經(jīng)網(wǎng)絡中通常包含數(shù)百萬或者更多的可訓練的參數(shù)權重,這些參數(shù)可以通過一系列優(yōu)化算法進行訓練;這些參數(shù)中還包含一些需要事先確定的參數(shù),稱為超參數(shù)(Hyper-parameter)。超參數(shù)對神經(jīng)網(wǎng)絡的訓練效果有著顯著的影響,不合適的超參數(shù)往往會導致神經(jīng)網(wǎng)絡訓練不收斂或者訓練效果較差;但是,目前超參數(shù)的設定通常依賴人工經(jīng)驗,并且需要多次調(diào)整,從而消耗大量人力和計算資源。[0004]因此,如何有效的降低訓練分類模型所消耗的計算資源成為了亟需解決的技術問發(fā)明內(nèi)容[0005]本申請?zhí)峁┮环N分類模型的訓練方法、超參數(shù)的搜索方法以及裝置,通過本申請實施例提供的分類模型的訓練方法能夠在確保分類模型的精度的情況下,降低訓練分類模型所消耗的計算資源。[0006]進一步,本申請實施例提供的超參數(shù)的搜索方法可以能夠減少超參數(shù)的搜索空[0008]獲取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)用于控制所述待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參數(shù)進行更新,得到訓練后的分類模型,所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同。[0009]應理解,當神經(jīng)網(wǎng)絡具有縮放不變性時,其權重參數(shù)的步長反比于權重參數(shù)模長的平方;其中,縮放不變性是指權重w乘以任意縮放系數(shù),該層的輸出y可以保持不變。權重衰減超參數(shù)的作用主要是約束參數(shù)的模長,從而避免步長隨著權重參數(shù)的模長的增長而急7以及采用了目標訓練方式即將待訓練分類模型更新前與更新后的權重參數(shù)的模長進行固數(shù)是根據(jù)所述目標超參數(shù)和所述目標訓練方式通過反向傳播算8步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層用于使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;[0024]根據(jù)所述候選值與目標訓練方式,得到所述待訓練分類模型的性能參數(shù),所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同,所述性能參數(shù)包括所述待訓練分類模型的精度;[0025]根據(jù)所述性能參數(shù)從所述候選值中確定所述目標超參數(shù)的目標值。[0026]需要說明的是,在本申請的實施例中通過采用縮放不變性線性層可以替換待訓練分類模型中的分類層,從而使得待分類訓練模型中的各個層均具有縮放不變性,即縮放不敏感性。[0027]應理解,在本申請的實施例中通過采用目標訓練方式可以將待訓練分類模型中包括的兩個重要的超參數(shù)即學習率與權重衰減等效替換為目標超參數(shù);由于通過目標訓練方式可以使得待訓練分類模型更新前與更新后的權重參數(shù)的模長相同;因此,在對待訓練分類模型的權重參數(shù)進行更新時可以僅需要對目標超參數(shù)進行搜索從而確定目標超參數(shù)的目標值,其中,目標超參數(shù)可以是指等效學習率,等效學習率在待訓練分類模型中的作用可以看作是與學習率的作用相同或者相近,等效學習率用于控制待訓練分類模型的梯度更新[0028]在本申請的實施例中,通過在待訓練分類模型中采用縮放不變性線性層可以替換待訓練分類模型中的分類層,使得待訓練分類模型的各個層均具有縮放不變性;進一步,通過采用目標訓練方式,使得僅調(diào)整一個目標超參數(shù)就能夠達到正常訓練下調(diào)整兩個超參數(shù)(學習率和權重衰減)所能達到的最優(yōu)精度;即將兩個超參數(shù)的搜索過程等效替換為一個目標超參數(shù)的搜索過程,從而縮減超參數(shù)的搜索維度,提高目標超參數(shù)的搜索效率;同時,同[0029]結合第二方面,在第二方面的某些實現(xiàn)方式中,所述目標值對應的所述待訓練分類模型的精度大于所述候選值中其它候選值對應的所述待訓練分類模型的精度。[0030]在本申請的實施例中,目標超參數(shù)的目標值可以是指在對待訓練分類模型分配目標超參數(shù)的各個候選值時,使得待訓練分類模型的模型精度達到最優(yōu)精度對應的候選值。[0031]結合第二方面,在第二方面的某些實現(xiàn)方式中,所述獲取目標超參數(shù)的候選值,包[0032]根據(jù)所述目標超參數(shù)的初始搜索范圍進行均勻劃分,得到所述目標超參數(shù)的候選值。[0033]在本申請的實施例中目標超參數(shù)的候選值可以是根據(jù)用戶設置的初始搜索范圍進行均勻劃分,得到的目標超參數(shù)的多個候選值。[0034]在一種可能的實現(xiàn)方式中,除了上述對初始搜索范圍進行均勻劃分得到多個候選值外,也可以采用其它方式對初始搜索范圍進行劃分。[0036]根據(jù)當前訓練步數(shù)、預先配置的訓練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索范圍。[0037]在一種可能的實現(xiàn)方式中,根據(jù)當前訓練步數(shù)、預先配置的訓練步數(shù)以及待訓練分類模型的精度的單調(diào)性更新目標超參數(shù)的初始搜索范圍。9的訓練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索搜索范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所的訓練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索訓練方式對待訓練分類模型的權重進行迭代更新可以使得更新前與更新后的權重參數(shù)的放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不數(shù),所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同,類模型的權重參數(shù)進行更新時可以僅需要對目標超參數(shù)進行搜索從而確定目標超參數(shù)的標超參數(shù)的搜索過程,從而縮減超參數(shù)的搜索維度,提高目標超參數(shù)的搜索效率;同時,同[0066]結合第四方面,在第四方面的某些實現(xiàn)方式中,所述目標值對應的所述待訓練分類模型的精度大于所述候選值中其它候選值對應的所述待訓練分類模型的精度。[0067]在本申請的實施例中,目標超參數(shù)的目標值可以是指在對待訓練分類模型分配目標超參數(shù)的各個候選值時,使得待訓練分類模型的模型精度達到最優(yōu)精度對應的候選值。[0069]根據(jù)所述目標超參數(shù)的初始搜索范圍進行均勻劃分,得到所述目標超參數(shù)的候選值。[0070]在本申請的實施例中目標超參數(shù)的候選值可以是根據(jù)用戶設置的初始搜索范圍進行均勻劃分,得到的目標超參數(shù)的多個候選值。[0072]根據(jù)當前訓練步數(shù)、預先配置的訓練步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標超參數(shù)的初始搜索范圍。[0073]在本申請的實施例中,為了使得在進行目標超參數(shù)搜索時能夠快速搜索到目標超參數(shù)的目標值即最優(yōu)目標超參數(shù),則可以根據(jù)待訓練分類模型的性能參數(shù)的單調(diào)性對目標超參數(shù)的初始搜索范圍進行更新,縮減目標超參數(shù)的搜索范圍,提高目標超參數(shù)的搜索效率。[0075]若所述當前訓練步數(shù)小于所述預先配置的訓練步數(shù),則將所述目標超參數(shù)的初始搜索范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所述目標超參數(shù)的候選值。[0077]若所述當前訓練步數(shù)等于所述預先配置的訓練步數(shù),則將所述目標超參數(shù)的初始搜索范圍的上邊界更新為第一候選值,所述目標超參數(shù)的搜索范圍的下邊界更新為第二候選值,所述第一候選值與所述第二候選值是指與所述待訓練分類模型的最優(yōu)精度對應的所述目標超參數(shù)的候選值相鄰的候選值。[0078]結合第四方面,在第四方面的某些實現(xiàn)方式中,所述縮放不變性線性層根據(jù)以下公式得到所述預測分類結果:代更新的權重參數(shù);X表示待分類特征;S表示尺度常數(shù)。[0082]通過以下公式對所述更新后的權重參數(shù)進行處理,使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同:[0084]其中,W:+1表示第i+1次迭代更新的權重參數(shù);W表示第i次迭代更新的權重參數(shù);Norm,表示所述待訓練分類模型的初始權重模長。[0085]在本申請的實施例中,在待訓練分類模型的各個層具有縮放不變性時,通過目標訓練方式對待訓練分類模型的權重進行迭代更新可以使得更新前與更新后的權重參數(shù)的模長相同;即通過目標訓練方式可以實現(xiàn)了權重衰減的效果,同時也不再需要人工調(diào)節(jié)。用于執(zhí)行所述存儲器存儲的程序,當所述存儲器存儲的程序被所述處理器執(zhí)行時,所述處理器用于:獲取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)用于控制所述待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參數(shù)進行更新,得到訓練后的分類模型,所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同。[0087]在一種可能的實現(xiàn)方式中,上述搜索裝置中包括的處理器還用于執(zhí)行第一方面中的任意一種實現(xiàn)方式中訓練方法。[0088]應理解,在上述第一方面中對相關內(nèi)容的擴展、限定、解釋和說明也適用于第三方面中相同的內(nèi)容。于執(zhí)行所述存儲器存儲的程序,當所述存儲器存儲的程序被所述處理器執(zhí)行時,所述處理器用于:獲取目標超參數(shù)的候選值,所述目標超參數(shù)用于控制待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述候選值與目標訓練方式,得到所述待訓練分類模型的性能參數(shù),所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同,所述性能參數(shù)包括所述待訓練分類模型的精度;根據(jù)所述性能參數(shù)從所述候選值中確定所述目標超參數(shù)的目標值。[0090]在一種可能的實現(xiàn)方式中,上述搜索裝置中包括的處理器還用于執(zhí)行第二方面中的任意一種實現(xiàn)方式中搜索方法。[0091]應理解,在上述第二方面中對相關內(nèi)容的擴展、限定、解釋和說明也適用于第三方面中相同的內(nèi)容。[0092]第七方面,提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)存儲用于設備執(zhí)行的程序代碼,該程序代碼包括用于執(zhí)行上述第一方面以及第一方面中任意一種實現(xiàn)方式中的訓練方法。[0093]第八方面,提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)存儲用于設備執(zhí)行的程序代碼,該程序代碼包括用于執(zhí)行上述第二方面以及第二方面中任意一種實現(xiàn)方式中的搜索方法。[0094]第九方面,提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)存儲用于設備執(zhí)行的程序代碼,該程序代碼包括用于執(zhí)行上述第一方面以及第一方面中任意一種實現(xiàn)方式中的訓練方法。[0095]第十方面,提供了一種包含指令的計算機程序產(chǎn)品,當該計算機程序產(chǎn)品在計算機上運行時,使得計算機執(zhí)行上述第二方面以及第二方面中任意一種實現(xiàn)方式中的搜索方[0096]第十一方面,提供了一種芯片,所述芯片包括處理器與數(shù)據(jù)接口,所述處理器通過所述數(shù)據(jù)接口讀取存儲器上存儲的指令,執(zhí)行上述第一方面以及第一方面中任意一種實現(xiàn)方式中的訓練方法。[0097]可選地,作為一種實現(xiàn)方式,所述芯片還可以包括存儲器,所述存儲器中存儲有指令,所述處理器用于執(zhí)行所述存儲器上存儲的指令,當所述指令被執(zhí)行時,所述處理器用于執(zhí)行上述第一方面以及第一方面中任意一種實現(xiàn)方式中的訓練方法。[0098]第十二方面,提供了一種芯片,所述芯片包括處理器與數(shù)據(jù)接口,所述處理器通過所述數(shù)據(jù)接口讀取存儲器上存儲的指令,執(zhí)行上述第二方面以及第二方面中任意一種實現(xiàn)方式中的搜索方法。[0099]可選地,作為一種實現(xiàn)方式,所述芯片還可以包括存儲器,所述存儲器中存儲有指令,所述處理器用于執(zhí)行所述存儲器上存儲的指令,當所述指令被執(zhí)行時,所述處理器用于執(zhí)行上述第二方面以及第二方面中任意一種實現(xiàn)方式中的搜索方法。附圖說明[0100]圖1是本申請實施例提供的超參數(shù)的搜索方法的系統(tǒng)架構的示意圖;[0101]圖2是本申請實施例提供的一種系統(tǒng)架構的示意圖;[0102]圖3是本申請實施例提供的一種芯片的硬件結構的示意圖;[0103]圖4是本申請實施例提供了一種系統(tǒng)架構的示意圖;[0104]圖5是本申請實施例提供的分類模型的訓練方法的示意性流程圖;[0105]圖6是本申請實施例提供的基于縮放不變性線性層與模長固定方式對待訓練分類模型的權重進行迭代更新的示意圖;[0106]圖7是本申請實施例提供的超參數(shù)的搜索方法的示意性流程圖;[0107]圖8是本申請實施例提供的超參數(shù)的搜索方法的示意圖;[0108]圖9是本申請實施例提供的分類模型的訓練裝置的示意性框圖;[0109]圖10是本申請實施例提供的超參數(shù)的搜索裝置的示意性框圖;[0110]圖11是本申請實施例提供的分類模型的訓練裝置的硬件結構示意圖;[0111]圖12是本申請實施例提供的超參數(shù)的搜索裝置的硬件結構示意圖。具體實施方式[0112]下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行描述;顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。[0113]首先對本申請實施例中涉及的概念進行簡單的說明。[0115]在機器學習中,超參數(shù)是指在開始學習過程之前設置值的參數(shù),而不是通過訓練得到的參數(shù)數(shù)據(jù)。通常情況下,可以對超參數(shù)進行優(yōu)化,給學習機選擇一組最優(yōu)超參數(shù),以提高學習的性能和效果。[0117]學習率是指訓練神經(jīng)網(wǎng)絡時的一個重要的超參數(shù);學習率可以用于控制神經(jīng)網(wǎng)絡訓練過程中梯度更新的步長。[0119]權重衰減是指訓練神經(jīng)網(wǎng)絡時的一個重要的超參數(shù);權重衰減可以用于控制對權重大小的約束強度。[0120]下面結合圖1對本申請實施例中超參數(shù)的搜索方法的系統(tǒng)架構進行說明。[0121]如圖1所示,系統(tǒng)架構100中可以包括等效學習率搜索模塊110以及縮放不變訓練模塊111;其中,等效學習率搜索模塊110用于優(yōu)化神經(jīng)網(wǎng)絡模型的超參數(shù),從而得到神經(jīng)網(wǎng)絡模型對應的最優(yōu)精度以及最優(yōu)精度對應的最優(yōu)模型權重??s放不變訓練模塊111用于根據(jù)輸入的不同的等效學習率超參數(shù)對神經(jīng)網(wǎng)絡模型的權重進行迭代更新,得到神經(jīng)網(wǎng)絡模型的參數(shù)。[0122]需要說明的是,等效學習率超參數(shù)可以用于控制神經(jīng)網(wǎng)絡訓練過程中梯度更新的步長,通過在神經(jīng)網(wǎng)絡通過僅調(diào)整等效學習率超參數(shù),使得神經(jīng)網(wǎng)絡模型能夠達到正常訓練下調(diào)整學習率和權重衰減兩個超參數(shù)所能達到的模型最優(yōu)精度。[0123]示例性地,如圖1所示,等效學習率搜索模塊110以及縮放不變訓練模塊111可以部署于云或者服務器中。[0124]圖2示出了本申請實施例提供的一種系統(tǒng)架構200。[0125]在圖2中,數(shù)據(jù)采集設備260用于采集訓練數(shù)據(jù)。針對本申請實施例的待訓練分類模型來說,可以通過數(shù)據(jù)采集設備260采集的訓練數(shù)據(jù)對待訓練分類模型進行訓練。[0126]示例性地,在本申請的實施例中對于待訓練分類模型來說,訓練數(shù)據(jù)可以包括待分類數(shù)據(jù)以及待分類數(shù)據(jù)對應的樣本標簽。[0127]在采集到訓練數(shù)據(jù)之后,數(shù)據(jù)采集設備260將這些訓練數(shù)據(jù)存入數(shù)據(jù)庫230,訓練設備220基于數(shù)據(jù)庫230中維護的訓練數(shù)據(jù)訓練得到目標模型/規(guī)則201。[0128]下面對訓練設備220基于訓練數(shù)據(jù)得到目標模型/規(guī)則201進行描述。[0129]例如,訓練設備220對輸入的待訓練分類模型的訓練數(shù)據(jù)進行處理,將待訓練分類模型輸出的待分類數(shù)據(jù)對應的預測分類結果與待分類數(shù)據(jù)對應的真值進行對比,直到訓練設備220輸出的預測分類結果與真值的差值小于一定的閾值,從而完成分類模型的訓練。[0130]需要說明的是,在實際的應用中,所述數(shù)據(jù)庫230中維護的訓練數(shù)據(jù)不一定都來自于數(shù)據(jù)采集設備260的采集,也有可能是從其他設備接收得到的。[0131]另外需要說明的是,訓練設備220也不一定完全基于數(shù)據(jù)庫230維護的訓練數(shù)據(jù)進行目標模型/規(guī)則201的訓練,也有可能從云端或其他地方獲取訓練數(shù)據(jù)進行模型訓練,上述描述不應該作為對本申請實施例的限定。[0132]根據(jù)訓練設備220訓練得到的目標模型/規(guī)則201可以應用于不同的系統(tǒng)或設備中,如應用于圖2所示的執(zhí)行設備210,所述執(zhí)行設備210可以是終端,如手機終端,平板電腦,筆記本電腦,增強現(xiàn)實(augmentedreality,AR)/虛擬現(xiàn)實(virtualreality,VR),車載終端等,還可以是服務器,或者,云端服務器等。在圖2中,執(zhí)行設備210配置輸入/輸出(input/output,I/0)接口212,用于與外部設備進行數(shù)據(jù)交互,用戶可以通過客戶設備240向I/0接口212輸入數(shù)據(jù),所述輸入數(shù)據(jù)在本申請實施例中可以包括:客戶設備輸入的訓練[0133]預處理模塊213和預處理模塊214用于根據(jù)I/0接口212接收到的輸入數(shù)據(jù)進行預處理;在本申請實施例中,也可以沒有預處理模塊213和預處理模塊214(也可以只有其中的一個預處理模塊),而直接采用計算模塊211對輸入數(shù)據(jù)進行處理。[0134]在執(zhí)行設備210對輸入數(shù)據(jù)進行預處理,或者在執(zhí)行設備210的計算模塊211執(zhí)行計算等相關的處理過程中,執(zhí)行設備210可以調(diào)用數(shù)據(jù)存儲系統(tǒng)250中的數(shù)據(jù)、代碼等以用于相應的處理,也可以將相應處理得到的數(shù)據(jù)、指令等存入數(shù)據(jù)存儲系統(tǒng)250中。[0135]最后,I/0接口212將處理結果,比如,將目標超參數(shù)的目標值返回給客戶設備2從而提供給用戶。[0136]值得說明的是,訓練設備220可以針對不同的目標或稱不同的任務,基于不同的訓練數(shù)據(jù)生成相應的目標模型/規(guī)則201,該相應的目標模型/規(guī)則201即可以用于實現(xiàn)上述目標或完成上述任務,從而為用戶提供所需的結果。[0137]在圖2中所示情況下,在一種情況下,用戶可以手動給定輸入數(shù)據(jù),該手動給定可以通過I/0接口212提供的界面進行操作。[0138]另一種情況下,客戶設備240可以自動地向I/0接口212發(fā)送輸入數(shù)據(jù),如果要求客戶設備240自動發(fā)送輸入數(shù)據(jù)需要獲得用戶的授權,則用戶可以在客戶設備240中設置相應權限。用戶可以在客戶設備240查看執(zhí)行設備210輸出的結果,具體的呈現(xiàn)形式可以是顯示、聲音、動作等具體方式??蛻粼O備240也可以作為數(shù)據(jù)采集端,采集如圖所示輸入I/0接口212的輸入數(shù)據(jù)及輸出I/0接口212的輸出結果作為新的樣本數(shù)據(jù),并存入數(shù)據(jù)庫230。當然,也可以不經(jīng)過客戶設備240進行采集,而是由I/0接口212直接將如圖所示輸入I/0接口212的輸入數(shù)據(jù)及輸出I/0接口212的輸出結果,作為新的樣本數(shù)據(jù)存入數(shù)據(jù)庫130。[0139]值得注意的是,圖2僅是本申請實施例提供的一種系統(tǒng)架構的示意圖,圖中所示設行設備210是外部存儲器;在其它情況下,也可以將數(shù)據(jù)存儲系統(tǒng)250置于執(zhí)行設備210中。[0140]圖3是本申請實施例提供的一種芯片的硬件結構的示意圖。[0141]圖3所示的芯片可以包括神經(jīng)網(wǎng)絡處理器300(neural-networkprocessingunit,NPU);該芯片可以被設置在如圖2所示的執(zhí)行設備210中,用以完成計算模塊211的計算工作。該芯片也可以被設置在如圖2所示的訓練設備220中,用以完成訓練設備220的訓練工作并輸出目標模型/規(guī)則201。[0142]NPU300作為協(xié)處理器掛載到主中央處理器(centralprocessingunit,CPU)上,由主CPU分配任務。NPU300的核心部分為運算電路303,控制器304控制運算電路303提取存儲器(權重存儲器或輸入存儲器)中的數(shù)據(jù)并進行運算。[0143]在一些實現(xiàn)中,運算電路303內(nèi)部包括多個處理單元(processengine,PE)。在一些實現(xiàn)中,運算電路303是二維脈動陣列;運算電路303還可以是一維脈動陣列或者能夠執(zhí)行例如乘法和加法這樣的數(shù)學運算的其它電子線路。在一些實現(xiàn)中,運算電路303是通用的矩陣處理器。[0144]舉例來說,假設有輸入矩陣A,權重矩陣B,輸出矩陣C;運算電路303從權重存儲器302中取矩陣B相應的數(shù)據(jù),并緩存在運算電路303中每一個PE上;運算電路303從輸入存儲器301中取矩陣A數(shù)據(jù)與矩陣B進行矩陣運算,得到的矩陣的部分結果或最終結果,保存在累加器308(accumulator)中。[0145]向量計算單元307可以對運算電路303的輸出做進一步處理,如向量乘,向量加,指數(shù)運算,對數(shù)運算,大小比較等等。例如,向量計算單元307可以用于神經(jīng)網(wǎng)絡中非卷積/非FC層的網(wǎng)絡計算,如池化(pooling),批歸一化(batchnormalization),局部響應歸一化(localresponsenormalization)等。[0146]在一些實現(xiàn)種,向量計算單元307能將經(jīng)處理的輸出的向量存儲到統(tǒng)一存儲器306。例如,向量計算單元307可以將非線性函數(shù)應用到運算電路303的輸出,例如累加值的向量,用以生成激活值。在一些實現(xiàn)中,向量計算單元307生成歸一化的值、合并值,或二者[0147]在一些實現(xiàn)中,處理過的輸出的向量能夠用作到運算電路303的激活輸入,例如用于在神經(jīng)網(wǎng)絡中的后續(xù)層中的使用。[0148]統(tǒng)一存儲器306用于存放輸入數(shù)據(jù)以及輸出數(shù)據(jù)。權重數(shù)據(jù)直接通過存儲單元訪問控制器305(directmemoryaccesscontroller,DMAC)將外部存儲器中的輸入數(shù)據(jù)存入到輸入存儲器301和/或統(tǒng)一存儲器306、將外部存儲器中的權重數(shù)據(jù)存入權重存儲器302,以及將統(tǒng)一存儲器306中的數(shù)據(jù)存入外部存儲器。取指存儲器309之間進行交互。[0150]與控制器304連接的取指存儲器309(instructionfetchbuffer)用于存儲控制器304使用的指令;控制器304用于調(diào)用取指存儲器309中緩存的指令,實現(xiàn)控制該運算加速器的工作過程。[0151]一般地,統(tǒng)一存儲器306,輸入存儲器301,權重存儲器302以及取指存儲器309均為片上(On-Chip)存儲器,外部存儲器為該NPU外部的存儲器,該外部存儲器可以為雙倍數(shù)據(jù)率同步動態(tài)隨機存儲器(doubledataratesynchronousdynamicrandomaccess[0152]示例性地,本申請實施例中的待訓練分類模型的權重參數(shù)的迭代更新的相關運算可以由運算電路303或向量計算單元307執(zhí)行。[0153]上文中介紹的圖2中的執(zhí)行設備210能夠執(zhí)行本申請實施例的超參數(shù)的搜索方法的各個步驟,3所示的芯片也可以用于執(zhí)行本申請實施例的超參數(shù)的搜索方法的各個步驟。[0154]圖4所示是本申請實施例提供了一種系統(tǒng)架構。該系統(tǒng)架構400可以包括本地設備420、本地設備430以及執(zhí)行設備410和數(shù)據(jù)存儲系統(tǒng)450,其中,本地設備420和本地設備430通過通信網(wǎng)絡與執(zhí)行設備410連接。[0155]示例性地,執(zhí)行設備410可以由一個或多個服務器實現(xiàn)。[0156]可選的,執(zhí)行設備410可以與其它計算設備配合使用。例如:數(shù)據(jù)存儲器、路由器、負載均衡器等設備。執(zhí)行設備410可以布置在一個物理站點上,或者,分布在多個物理站點上。執(zhí)行設備410可以使用數(shù)據(jù)存儲系統(tǒng)450中的數(shù)據(jù),或者,調(diào)用數(shù)據(jù)存儲系統(tǒng)450中的程序代碼來實現(xiàn)本申請實施例的組合優(yōu)化任務的處理方法。[0157]需要說明的是,上述執(zhí)行設備410也可以稱為云端設備,此時執(zhí)行設備410可以部署在云端。[0158]在一個示例中,執(zhí)行設備410可以執(zhí)行以下過程:獲取待訓練分類模型的目標超參數(shù),所述目標超參數(shù)用于控制所述待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述目標超參數(shù)與目標訓練方式對所述待訓練分類模型的權重參數(shù)進行更新,得到訓練后的分類模型,所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同。[0159]在一種可能的實現(xiàn)方式中,本申請實施例的分類模型的訓練方法可以是在云端執(zhí)行的離線方法,比如,可以由上述執(zhí)行設備410中執(zhí)行本申請實施例的訓練方法。[0160]在一種可能的實現(xiàn)方式中,本申請實施例的分類模型的訓練方法可以是由本地設備420或者本地設備430執(zhí)行。[0161]在一個示例中,執(zhí)行設備410可以執(zhí)行以下過程:獲取目標超參數(shù)的候選值,所述目標超參數(shù)用于控制待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;根據(jù)所述候選值與目標訓練方式,得到所述待訓練分類模型的性能參數(shù),所述目標訓練方式使得所述待訓練分類模型更新前與更新后的權重參數(shù)的模長相同,所述性能參數(shù)包括所述待訓練分類模型的精度;根據(jù)所述性能參數(shù)從所述候選值中確定所述目標超參數(shù)的目標值。[0162]在一種可能的實現(xiàn)方式中,本申請實施例的超參數(shù)的搜索方法可以是在云端執(zhí)行的離線方法,比如,可以由上述執(zhí)行設備410中執(zhí)行本申請實施例的搜索方法。[0163]在一種可能的實現(xiàn)方式中,本申請實施例的超參數(shù)的搜索方法可以是由本地設備420或者本地設備430執(zhí)行。[0164]例如,用戶可以操作各自的用戶設備(例如,本地設備420和本地設備430)與執(zhí)行設備410進行交互。每個本地設備可以表示任何計算設備,例如,個人計算機、計算機工作戴設備、機頂盒、游戲機等。每個用戶的本地設備可以通過任何通信機制/通信標準的通信的任意組合。[0165]下面結合圖5至圖8詳細闡述本申請實施例的技術方案。[0166]圖5是本申請實施例提供的分類模型的訓練方法的示意性流程圖。在一些示例中,該訓練方法500可以由圖2中的執(zhí)行設備210、圖3所示的芯片以及圖4中的執(zhí)行設備410或者本地設備等設備執(zhí)行。圖5中的方法500可以包括步驟S510至步驟S520,下面分別對這些步驟進行詳細的描述。[0167]S510、獲取待訓練分類模型的目標超參數(shù)。[0168]其中,目標超參數(shù)用于控制待訓練分類模型的梯度更新步長,待訓練分類模型包括縮放不變性線性層,縮放不變性線性層使得待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變。[0169]需要說明的是,當神經(jīng)網(wǎng)絡的參數(shù)具有縮放不變性時,其權重參數(shù)的效步長反比于權重參數(shù)模長的平方;其中,縮放不變性是指權重w乘以任意縮放系數(shù),該層的輸出y可以保持不變。權重衰減超參數(shù)的作用主要是約束參數(shù)的模長,從而避免步長隨著權重參數(shù)的模長的增長而急劇減小。但是,由于權重衰減是一種隱式的約束,權重參數(shù)的模長還是會隨作用可以看作是與學習率的作用相同或者相近,等效學習率用[0174]其中,目標訓練方式使得待訓練分類模型更新前與更新后的權重參數(shù)的模長相類結果與樣本特征對應的真值的差異小于或者等于預設范圍;其中,目標超參數(shù)可以是指以及采用了目標訓練方式即將待訓練分類模型更新前與更新后的權重參數(shù)的模長進行固地設備等設備執(zhí)行。圖7中的方法600可以包括步驟S610至步驟S630,下面分別對這些步驟[0194]其中,目標訓練方式使得待訓練分類模型更新前與更新后的權重參數(shù)的模長相對待訓練分類模型進行訓練時可以僅需要對目標超參數(shù)進行搜索從而確定目標超參數(shù)的訓練方式對待訓練分類模型的權重進行迭代更新可以使得更新前與更新后的權重參數(shù)的[0209]在本申請的實施例中目標超參數(shù)的候選值可以是根據(jù)用戶設置的初始搜索范圍步數(shù)以及所述待訓練分類模型的精度的變化趨勢更新所述目標搜索范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所[0218]示意性地,圖6是本申請實施例提供的基于縮放不變性線性層對待訓練分類模型[0220]圖6所示的待訓練分類模型的權重訓練方法,可以通過目標訓練方式即顯示的固再需要人工調(diào)節(jié)。由于采用圖6所示的神經(jīng)網(wǎng)絡的權重訓練的方法的前提是神經(jīng)網(wǎng)絡需要[0222]示意性地,縮放不變性線性層可以采用以下公式對第一權重參數(shù)與特征進行處[0228]示例性地,可以根據(jù)預測結果Y?與特征X對應的真值之間的差異對第一權重參數(shù)[0230]示意性地,可以采用以下公式對更新后的第i+1次迭代更新的權重參數(shù)進行模長的等效學習率的范圍為[LRin,LRmax];劃分數(shù)為K;搜索輪數(shù)為T;每輪搜索訓練步數(shù)為E;并[0240]例如,可以對等效學習率的范圍進行均勻劃分,從而得到K個等效學習率的候選[0244]步驟五:若當前訓練步數(shù)小于最大訓練步數(shù)E,則將等效學習率的范圍上界更新[0245]步驟六:若當前訓練步數(shù)等于最大訓練步[0246]步驟七:若當前最高精度大于全局最優(yōu)精度,則更新全局最優(yōu)精度和全局最優(yōu)模[0247]在本申請的實施例中,可以通過利用待訓練分類模型的精度關于等效學習率的單峰趨勢,對等效學習率的范圍進行均勻劃分,從而能夠快速確定在當前訓練輪數(shù)下的最優(yōu)的等效學習率的范圍;換而言之,可以通過最優(yōu)的等效學習率在不同訓練輪數(shù)下的單調(diào)性,分階段快速縮減最優(yōu)的等效學習率范圍,從而快速搜索得到最優(yōu)的等效學習率。[0248]在一個示例中,將本申請實施例提供的超參數(shù)的搜索方法應用于ImageNet圖像分類任務上的超參數(shù)優(yōu)化;以深度神經(jīng)網(wǎng)絡是ResNet50為例進行舉例說明。[0249]步驟一:先設定目標超參數(shù)的初始參數(shù),比如,學習率的范圍可以是[0.1,3.2],劃分數(shù)K=5,搜索輪數(shù)T=2,每輪搜索步數(shù)E={25000,125000},接下來開始執(zhí)行目標超參數(shù)的搜索。[0251]示例性地,在學習率的范圍為[0.1,3.2]內(nèi)均勻取5個點,分別用圖6所示的訓練方法進行深度神經(jīng)網(wǎng)絡的權重參數(shù)的訓練,訓練輪數(shù)可以為25000,并得到每個學習率候選值對應的測試精度。[0252]例如,最優(yōu)的精度為74.12,對應的學習率為1.55;則可以將學習率的范圍更新為[0.1,1.55],更新最優(yōu)精度為74.12。[0254]示例性地,在學習率的范圍為[0.1,1.55]內(nèi)均勻取5個點,分別用圖6所示的訓練方法進行深度神經(jīng)網(wǎng)絡的權重參數(shù)的訓練,訓練輪數(shù)可以為125000,并得到每個學習率候選值對應的測試精度。[0255]例如,最優(yōu)的精度為77.64,對應的學習率為1.0875,更新最優(yōu)精度為77.64。[0257]例如,最優(yōu)學習率為1.0875,對應的深度神經(jīng)網(wǎng)絡的最優(yōu)精度為77.64,返回對應的深度神經(jīng)網(wǎng)絡的模型權重。[0258]表1[0259]模型BaselineBayesianBayesianCostOurMethodOurMethodCost模型176.377.6643577.646模型272.072.3463572.6346模型374.775.9343076.0486[0260]表1示出了在不同模型中通過未采用超參數(shù)優(yōu)化、采用貝葉斯超參數(shù)優(yōu)化以及采用本申請?zhí)岢龅某瑓?shù)的搜索方法對應的模型精度以及資源開銷的測試結果。[0261]其中,模型1表示殘差模型(例如,ResNet50);模型2表示MobileNetV2模型;模型3表示MobileNetV2×1.4.Baseline表示未進行超參數(shù)優(yōu)化時的精度(單位為:%),Bayesian代表采用了貝葉斯優(yōu)化方法進行超參數(shù)優(yōu)化后的精度(單位為:%),BayesianCost代表采用貝葉斯優(yōu)化方法的資源開銷(單位為:相比于單次訓練開銷的倍數(shù)),OurMethod表示應用本申請的方法進行超參數(shù)優(yōu)化后的精度(單位為:%),OurMethodCost表示采用本申請?zhí)岢龅某瑓?shù)的搜索方法進行超參數(shù)優(yōu)化的資源開銷(單位為:相比于單次訓練開銷的倍數(shù))。[0264]上文結合圖1至圖8,詳細描述了本申請實施例提供的分類模型的訓練方法以及超控制所述待訓練分類模型的梯度更新步長,所述待訓練分類模型包括縮放不變性線性層,所述縮放不變性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果保持不變;處理單元720用于根據(jù)所述目標超參數(shù)與目標訓練方式對所述待[0276]在一個示例中,訓練裝置700可以用于執(zhí)行圖5或者圖6中任意一個所示的訓練方以是指訓練裝置700中通信接口或者收發(fā)器;處理單元720可以是訓練裝置700中具有計算性線性層使得所述待訓練分類模型的權重參數(shù)乘以任意縮放系數(shù)時輸出的預測分類結果搜索范圍的上邊界更新為所述當前訓練步數(shù)中所述待訓練分類模型的最優(yōu)精度對應的所類結果:[0296]在一個示例中,搜索裝置800可以用于執(zhí)行圖7或者圖8中任意一個所示的搜索方器910中存儲的程序被處理器920執(zhí)行時,處理器920用于執(zhí)行本申請實施例的分類模型的[0306]處理器920可以采用通用的中央處理器(centralprocessingunit,CPU),微處理多個集成電路,用于執(zhí)行相關程序以實現(xiàn)本申請方法實施例的分類模型的訓練方法。[0307]處理器920還可以是一種集成電路芯片,具有信號的處理能力。在實現(xiàn)過程中,本申請的分類模型的訓練方法的各個步驟可以通過處理器920中的硬件的集成邏輯電路或者軟件形式的指令完成。[0308]上述處理器920還可以是通用處理器、數(shù)字信號處理器(digitalsignalprocessing,DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(fieldprogrammablegatearray,FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結合本申請實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器910,處理器920讀取存儲器910中的信息,結合其硬件完成本申請實施中圖9所示的訓練裝置中包括的單元所需執(zhí)行的功能,或者,執(zhí)行本申請方法實施例的圖5或者圖6所示的分類模型的訓練方法。[0309]通信接口930使用例如但不限于收發(fā)器一類的收發(fā)裝置,來實現(xiàn)訓練裝置900與其他設備或通信網(wǎng)絡之間的通信。[0310]總線940可包括在訓練裝置900各個部件(例如,存儲器910、處理器920、通信接口930)之間傳送信息的通路。[0311]圖12是本申請實施例提供的超參數(shù)的搜索裝置的硬件結構示意圖。[0312]圖12所示的搜索裝置1000包括存儲器1010、處理器1020、通信接口1030以及總線1040。其中,存儲器1010、處理器1020、通信接口1030通過總線1040實現(xiàn)彼此之間的通信連[0313]存儲器1010可以是只讀存儲器(readonlymemory,ROM),靜態(tài)存儲設備,動態(tài)存儲設備或者隨機存取存儲器(randomaccessmemory,RAM)。存儲器1010可以存儲程序,當存儲器1010中存儲的程序被處理器1020執(zhí)行時,處理器1020用于執(zhí)行本申請實施例的超參數(shù)的搜索方法的各個步驟;例如,執(zhí)行圖7至圖8所示的各個步驟。[0314]應理解,本申請實施例所示的搜索裝置可以是服務器,也可以是配置于服務器中的芯片。[0315]其中,搜索裝置可以為具有超參數(shù)的搜索功能的設備,例如,可以包括當前技術已知的任何設備;或者,搜索裝置還可以是指具有超參數(shù)的搜索功能的芯片。搜索裝置中可以包括存儲器和處理器;存儲器可以用于存儲程序代碼,處理器可以用于調(diào)用存儲器存儲的程序代碼,以實現(xiàn)計算設備的相應功能。計算設備中包括的處理器和存儲器可以通過芯片[0316]例如,存儲器可以用于存儲本申請實施例中提供的超參數(shù)的搜索方法的相關程序指令,處理器可以用于調(diào)用存儲器中存儲的超參數(shù)的搜索方法的相關程序指令。[0317]處理器1020可以采用通用的中央處理器(centralprocessingunit,CPU),微處理器,應用專用集成電路(applicationspecificintegratedcircuit,ASIC),或者一個或多個集成電路,用于執(zhí)行相關程序以實現(xiàn)本申請方法實施例的超參數(shù)的搜索方法。[0318]處理器1020還可以是一種集成電路芯片,具有信號的處理能力。在實現(xiàn)過程中,本申請的超參數(shù)的搜索方法的各個步驟可以通過處理器1020中的硬件的集成邏輯電路或者軟件形式的指令完成。[0319]上述處理器1020還可以是通用處理器、數(shù)字信號處理器(digitalsignalprocessing,DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(fieldprogrammablegatearray,FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結合本申請實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器1010,處理器1020讀取存儲器1010中的信息,結合其硬件完成本申請實施中圖10所示的搜索裝置中包括的單元所需執(zhí)行的功能,或者,執(zhí)行本申請方法實施例的圖7至圖8所示的超參數(shù)的搜索方[0320]通信接口1030使用例如但不限于收發(fā)器一類的收發(fā)裝置,來實現(xiàn)搜索裝置1000與其他設備或通信網(wǎng)絡之間的通信。[0321]總線1040可包括在搜索裝置1000各個部件(例如,存儲器1010、處理器1020、通信接口1030)之間傳送信息的通路。[0322]應注意,盡管上述訓練裝置900與搜索裝置1000僅僅示出了存儲器、處理器、通信接口,但是在具體實現(xiàn)過程中,本領域的技術人員應當理解,訓練裝置900與搜索裝置1000還可以包括實現(xiàn)正常運行所必須的其他器件。同時,根據(jù)具體需要本領域的技術人員應當理解,上述訓練裝置900與搜索裝置1000還可包括實現(xiàn)其他附加功能的硬件器件。此外,本領域的技術人員應當理解,上述搜索裝置700也可僅僅包括實現(xiàn)本申請實施例所必須的器件,而不必包括圖11或圖12中所示的全部器件。[0323]示例性地,本申請實施例還提供了一種芯片,該芯片包括收發(fā)單元和處理單元。其中,收發(fā)單元可以是輸入輸出電路、通信接口;處理單元為該芯片上集成的處理器或者微處理器或者集成電路;該芯片可以執(zhí)行上述方法實施例中的訓練方法。[0324]示例性地,本申請實施例還提供了一種芯片,該芯片包括收發(fā)單元和處理單元。其中,收發(fā)單元可以是輸入輸出電路、通信接口;處理單元為該芯片上集成的處理器或者微處理器或者集成電路;該芯片可以執(zhí)行上述方法實施例中的搜索方法。[0325]示例性地,本申請實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有指令,該指令被執(zhí)行時執(zhí)行上述方法實施例中的訓練方法。[0326]示例性地,本申請實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有指令,該指令被執(zhí)行時執(zhí)行上述方法實施例中的搜索方法。[0327]示例性地,本申請實施例還提供了一種包含指令的計算機程序產(chǎn)品,該指令被執(zhí)行時執(zhí)行上述方法實施例中的訓練方法。[0328]示例性地,本申請實施例還提供了一種包含指令的計算機程序產(chǎn)品,該指令被執(zhí)行時執(zhí)行上述方法實施例中的搜索方法。[0329]應理解,本申請實施例中的處理器可以為中央處理單元(centralprocessingunit,CPU),該處理器還可以是其他通用處理器、數(shù)字信號處理器(digitalsignal成可編程門陣列(fieldprogrammablegatearray,FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。[0330]還應理解,本申請實施例中的存儲器可以是易失性存儲器或非易失性存儲器,或可包括易失性和非易失性存儲器兩者。其中,非易失性存儲器可以是只讀存儲器(read-onlymemory,ROM)、可編程只讀存儲器(erasablePROM,EPROM)、電可擦除可編程只讀存儲器(electrical閃存。易失性存儲器可以是隨機存取存儲器(randomaccessmemory,RAM),其用作外部高速緩存。通過示例性但不是限制性說明,許多形式的隨機存取存儲器(randomaccessmemory,RAM)可用,例如靜態(tài)隨機存取存儲器(staticRAM,SRAM)、動態(tài)隨機存取存儲器(DRAM)、同步動態(tài)隨機存取存儲器(synchronousDRAM,SDRAM)、雙倍數(shù)據(jù)速率同步動態(tài)隨機存取存儲器(doubledatarateSDRAM,DDRSDRAM)、增強型同步動態(tài)隨機存取存儲器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論