CN119806846B 一種飛行器實時資源分配方法及系統(tǒng)(西北工業(yè)大學(xué))_第1頁
CN119806846B 一種飛行器實時資源分配方法及系統(tǒng)(西北工業(yè)大學(xué))_第2頁
CN119806846B 一種飛行器實時資源分配方法及系統(tǒng)(西北工業(yè)大學(xué))_第3頁
CN119806846B 一種飛行器實時資源分配方法及系統(tǒng)(西北工業(yè)大學(xué))_第4頁
CN119806846B 一種飛行器實時資源分配方法及系統(tǒng)(西北工業(yè)大學(xué))_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利地址710068陜西省西安市友誼西路127號盧俊杰(特殊普通合伙)50307GO6N3/045(2023.GO6N3/092(2023.審查員楊美琴本發(fā)明公開了一種飛行器實時資源分配方飛行器資源分配導(dǎo)致資源限制與需求沖突的技輸入層輸入層激活函數(shù)激活函數(shù)隱藏層隱藏層隱藏層隱藏層128個128個激活函數(shù)激活函數(shù)輸出層輸出層2構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,并定義狀態(tài)空間;通過將飛行器的任獲取飛行器的狀態(tài)和動作之間的價值函數(shù),通過所述價值函數(shù)使飛行器做出資源分配進行動態(tài)規(guī)劃算法初始化定義;包括定義動態(tài)規(guī)劃中狀態(tài)變量、采用分布式計算,在每個任務(wù)子隊列中同時使用動態(tài)規(guī)劃算法執(zhí)行選擇的動作at,觀察下一狀態(tài)St+1和獲得的即時獎勵rt+1;根據(jù)當(dāng)前飛行器任務(wù)隊列和資源狀態(tài)矩陣R構(gòu)成狀態(tài)空間S;其中,任務(wù)隊列3Q={T?,T?,…Tn},T表示任務(wù)隊列中的第n個飛行器任務(wù);將飛行器任務(wù)T分配到資源R,中,定義為動作空間A,動作空間A={a1,a2,…,am},帶寬資源。MHz,任務(wù)內(nèi)存需求Mi∈[10,50],單位為MB,任務(wù)帶寬需求Bi∈[1,10],單位為任務(wù)截止時間Di∈[1,10],單位為s;Rtotal-m=500MB;總帶寬資源Rtotal-b=200Mbps;從所述經(jīng)驗回放緩沖區(qū)中隨機采樣一批經(jīng)驗四元組(St,at,rt+1,S的參數(shù)。雙深度Q網(wǎng)絡(luò)估計當(dāng)前狀態(tài)St的價值函數(shù)Q(St,at)與下一狀態(tài)St+1的目標(biāo)價值函數(shù)S100,使用目標(biāo)網(wǎng)絡(luò)計算所采樣的經(jīng)驗四元組中下一個狀態(tài)St+1的最大價值函數(shù)S200,使用主網(wǎng)絡(luò)估計所采樣經(jīng)驗四元組當(dāng)前狀態(tài)St的價值函數(shù)Q(st,at);4Qnew(St,at)=(1-α)Qoa(St,at)+α(r估計,Qnew(St,at)表示更新后的Q值估計,α為權(quán)重因子,且α∈(0,1),rt+1表示在當(dāng)前狀態(tài)St執(zhí)行動作at后,環(huán)境返回的獎勵值,Q(St+1,at+1)表示目標(biāo)價值函數(shù),St+1表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大的動作,Y為折扣因子,且S400,獲取均方誤差損失函數(shù),其公式為:示當(dāng)前狀態(tài)下可選動作,Yt+1表示在狀態(tài)St執(zhí)行動作at后,環(huán)境返回的獎勵值,Y為折扣因子,且Y∈(0,1),St+1表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大絡(luò)參數(shù),Q(St+1,at+1,θ-)表示狀態(tài)St+1下目標(biāo)網(wǎng)絡(luò)的Q值估計;S500,根據(jù)隨機梯度下降法更新主網(wǎng)絡(luò)的參數(shù),其公式為:其中,θ(i+1)表示經(jīng)過一次梯度下降更新后主網(wǎng)絡(luò)的新參數(shù)值,θ(i)表示在當(dāng)前迭代步S600,將主網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);S700,通過GPU并行訓(xùn)練對雙深度Q網(wǎng)絡(luò)訓(xùn)練進行加速;所述通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策,包括:利用訓(xùn)練完成的雙深度Q網(wǎng)絡(luò)模型,輸入系統(tǒng)某個時刻t的狀態(tài)St;雙深度Q網(wǎng)絡(luò)模型根據(jù)輸入狀態(tài)St輸出最優(yōu)動作at,得到最優(yōu)飛行器實時資源分配決6.根據(jù)權(quán)利要求1所述的飛行器實時資源分配方法,其特征在于,所述通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策后,還包括:S100根據(jù)神經(jīng)元對損失函數(shù)的梯度衡量其對結(jié)果的貢獻(xiàn)度;所述神經(jīng)元對損失函數(shù)的梯度通過下式表示:;其中,θi={θi?,θi?,…},表示與某一神經(jīng)元相關(guān)的網(wǎng)絡(luò)S200,根據(jù)所有神經(jīng)元對損失函數(shù)的梯度設(shè)定合適剪枝閾值,并以此為依據(jù)刪除貢獻(xiàn)度小的神經(jīng)元和鏈接;S300使用線性量化技術(shù)將雙深度Q網(wǎng)絡(luò)模型中使用32位浮點數(shù)表示的權(quán)重轉(zhuǎn)化為8位5所述進行動態(tài)規(guī)劃算法初始化定義;包括定義動態(tài)規(guī)劃中狀態(tài)變量、定義動態(tài)規(guī)劃中定義動態(tài)規(guī)劃中狀態(tài)變量為Si;Si表示分配用于第i個任務(wù)到第N個任務(wù)的資源量;定義動態(tài)規(guī)劃中決策變量為Ri;Ri表示分配給第i個任務(wù)的資源量,Ri∈[0,Si];并定義動態(tài)規(guī)劃算法中分配資源量Ri給任務(wù)Ti的收益函數(shù)為9i,公式為:8.根據(jù)權(quán)利要求1所述的飛行器實時資源分配方法,其特征在于,所述采用分布式計采用分布式計算,由獨立的計算節(jié)點處理動態(tài)規(guī)劃算法同時對n個優(yōu)先級任務(wù)子隊列6其中,Si表示分配用于第i個任務(wù)到第N個任務(wù)的資源量,Ri表示分配給第i個任務(wù)的采用啟發(fā)式搜索與動態(tài)規(guī)劃相結(jié)合的策略,優(yōu)先考慮高收益路徑;動態(tài)規(guī)劃路徑定義為i的任務(wù)的總實際收益,h(j)表示剩余任務(wù)的總預(yù)估收益,H(i,j)表示從優(yōu)先級最高的7技術(shù)領(lǐng)域[0001]本發(fā)明涉及飛行器控制技術(shù)領(lǐng)域,更具體地,涉及一種飛行器實時資源分配方法及系統(tǒng)。背景技術(shù)[0002]飛行器實時控制系統(tǒng)是現(xiàn)代航空航天領(lǐng)域的重要組成部分,其功能涵蓋飛行姿態(tài)調(diào)整、路徑規(guī)劃、導(dǎo)航控制等關(guān)鍵環(huán)節(jié)。隨著飛行器功能的日益復(fù)雜化,控制系統(tǒng)所面臨的實時性和任務(wù)多樣性需求逐步提高,這對飛行器實時控制軟件動態(tài)資源的分配與調(diào)度能力提出了更高要求。資源分配的合理性直接影響控制系統(tǒng)的整體性能,尤其是在高動態(tài)、復(fù)雜任務(wù)環(huán)境中,如何高效分配有限的計算資源以應(yīng)對實時性挑戰(zhàn),已成為當(dāng)前研究的重點和難點。[0003]飛行器實時控制軟件的核心需求集中體現(xiàn)在實時性與高效性上。實時性要求系統(tǒng)能夠迅速響應(yīng)外界環(huán)境的變化以及內(nèi)部命令的調(diào)整,這對于保障飛行安全至關(guān)重要。高效性則體現(xiàn)在系統(tǒng)需要在有限的處理能力和存儲資源條件下,最大化任務(wù)執(zhí)行速度和資源利用率,以確保各類控制任務(wù)能夠在最佳時間點完成,避免延誤或資源浪費。飛行器實時控制軟件的動態(tài)資源分配是實現(xiàn)飛行器實時控制軟件實時性和高效性的關(guān)鍵技術(shù)。飛行器資源分配的核心在于如何合理調(diào)度有限的計算資源、存儲空間和網(wǎng)絡(luò)帶寬,以支持多任務(wù)的并行處理和數(shù)據(jù)的快速流轉(zhuǎn)。但是,現(xiàn)有飛行器實時控制軟件實時資源分配面臨諸多挑戰(zhàn),飛行器的資源如處理器速度、內(nèi)存大小及其能耗等都有固定上限,而控制軟件需要在這些有限資源下完成復(fù)雜的數(shù)據(jù)處理和任務(wù)調(diào)度,這就導(dǎo)致了資源限制與需求沖突,可能會造成發(fā)明內(nèi)容[0004]本發(fā)明的目的在于提供一種飛行器實時資源分配方法及系統(tǒng),用于解決現(xiàn)有飛行器資源分配導(dǎo)致資源限制與需求沖突的技術(shù)問題。有鑒于此,本發(fā)明通過以下方案予以實現(xiàn)。[0006]構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,并定義狀態(tài)空間;通過將飛行器的任務(wù)需求分配至系統(tǒng)總體資源定義動作空間,并根據(jù)動態(tài)資源分配目標(biāo)定義獎勵函數(shù);[0007]搭建飛行器的實時控制軟件環(huán)境;準(zhǔn)備雙深度Q網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),并構(gòu)建雙深度Q網(wǎng)絡(luò)結(jié)構(gòu);[0008]構(gòu)建經(jīng)驗回放緩沖區(qū),進行所述雙深度Q網(wǎng)絡(luò)訓(xùn)練,并更新主網(wǎng)絡(luò)的參數(shù);[0009]獲取飛行器的狀態(tài)和動作之間的價值函數(shù),通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策;[0010]使用動態(tài)規(guī)劃實時細(xì)化分配資源,實現(xiàn)滿足資源約束條件下的最大化任務(wù)收益,完成飛行器實時資源分配。8對不斷發(fā)展的飛行器控制算法時,能夠通過在全新環(huán)境下進行訓(xùn)練迭代來快速優(yōu)化更新,[0016]根據(jù)當(dāng)前飛行器任務(wù)隊列Q和資源狀態(tài)矩陣R構(gòu)成狀態(tài)空間S;其中,任務(wù)隊列A={a?,a?,…,am},其中,am表示第m種將飛行器任務(wù)T分配到資源R;的方法,資源R;={Rcj,Rmj,Rbj},Rc;表示被分配的系統(tǒng)計算資源,Rm;表示被分配的系統(tǒng)內(nèi)存資9MHz,任務(wù)內(nèi)存需求M∈[10,50],單位為MB,任務(wù)帶寬需求B∈[1,10],單位為任[0021]準(zhǔn)備系統(tǒng)資源數(shù)據(jù):總計算資源Rtotal-c=4000MHz;總內(nèi)存資源Rtotal-m=500MB;總帶寬資源Rtotal-b=200Mbps;[0027]將每個智能體的狀態(tài)輸入雙深度Q網(wǎng)絡(luò),在當(dāng)前的動作集合空間中根據(jù)[0035]從所述經(jīng)驗回放緩沖區(qū)中隨機采樣一批經(jīng)驗四元組(st,at,rt+1,St+1);對于采樣的任一經(jīng)驗四元組,利用雙深度Q網(wǎng)絡(luò)估計當(dāng)前狀態(tài)價值函數(shù)Q(st,at)與下一狀態(tài)的隨機采樣一批經(jīng)驗四元組(st,at,rt+1,St+1);對于采樣的任一經(jīng)驗四元組,利用雙深度Q網(wǎng)絡(luò)估計當(dāng)前狀態(tài)價值函數(shù)Q(st,αt)與下一狀態(tài)的St+1的目標(biāo)價值函數(shù)Q(st+1,at+1);[0037]S100,使用目標(biāo)網(wǎng)絡(luò)計算所采樣的經(jīng)驗四元組中下一個狀態(tài)St+1的最大價值函數(shù)Q(s,a)對應(yīng)的動作at+1;[0038]S200,使用主網(wǎng)絡(luò)估計所采樣經(jīng)驗四元組當(dāng)前狀態(tài)St的價值函數(shù)Q(st,at);[0039]S300,使用下一個狀態(tài)St+1執(zhí)行動作at+1的目標(biāo)價值函數(shù)Q(st+1,at+1)更新當(dāng)前狀態(tài)St的價值函數(shù)Q(st,at)值,其公式[0040]Qnew(St,at)=(1-的Q值估計,Qnew(St,at)表示更新后的Q值估計,α為權(quán)重因子,且α∈(0,1),rt+1表示在當(dāng)前狀態(tài)St執(zhí)行動作at后,環(huán)境返回的獎勵值,Q(St+1,a+1)表示目標(biāo)價值函數(shù),St+1表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大的動作,γ為折扣因子,且扣因子,且∈(0,1),st+1表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大絡(luò)參數(shù),Q(St+1,at+1,θ-)表示狀態(tài)St+1下目標(biāo)網(wǎng)絡(luò)的Q值估計;[0045]S500,根據(jù)隨機梯度下降法更新主網(wǎng)絡(luò)的參數(shù),其公式為:[0048]S600,將主網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);[0049]S700,通過GPU并行訓(xùn)練對雙深度Q網(wǎng)絡(luò)訓(xùn)練進行加速;[0051]利用訓(xùn)練完成的雙深度Q網(wǎng)絡(luò)模型,輸入系統(tǒng)某個時刻t的狀態(tài)St;[0052]雙深度Q網(wǎng)絡(luò)模型根據(jù)輸入狀態(tài)st輸出最優(yōu)動作at,得到最優(yōu)飛行器實時資源分配決策。[0053]進一步地,本發(fā)明的飛行器實時資源分配方法中,所述通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策后,還包括:[0054]S100根據(jù)神經(jīng)元對損失函數(shù)的梯度衡量其對結(jié)果的貢獻(xiàn)度;所述神經(jīng)元對損失函[0057]S300使用線性量化技術(shù)將雙深度Q網(wǎng)絡(luò)模型中使用32位浮點數(shù)表示的權(quán)重轉(zhuǎn)化為[0064]采用分布式計算,在每個任務(wù)子隊列中同時使用動態(tài)規(guī)劃算法,按照從優(yōu)先級順任務(wù)權(quán)重;[0085]主網(wǎng)絡(luò)的參數(shù)更新模塊,用于:構(gòu)建經(jīng)驗回放緩沖區(qū),進行所述雙深度Q網(wǎng)絡(luò)訓(xùn)練,并更新主網(wǎng)絡(luò)的參數(shù);[0086]最優(yōu)決策模塊,用于:獲取飛行器的狀態(tài)和動作之間的價值函數(shù),通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策;[0087]動態(tài)規(guī)劃模塊,用于:使用動態(tài)規(guī)劃實時細(xì)化分配資源,實現(xiàn)滿足資源約束條件下的最大化任務(wù)收益,完成飛行器實時資源分配。[0088]與現(xiàn)有技術(shù)相比,本發(fā)明的飛行器實時資源分配系統(tǒng)的有益效果與上述技術(shù)方案所述的飛行器實時資源分配方法的有益效果相同,此處不再贅述。附圖說明[0089]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:[0090]圖1為本發(fā)明構(gòu)建的雙深度Q網(wǎng)絡(luò)結(jié)構(gòu)示意圖;[0091]圖2為本發(fā)明的雙深度Q網(wǎng)絡(luò)訓(xùn)練過程示意圖;[0092]圖3為本發(fā)明飛行器實時資源分配方法的整體過程示意圖;[0093]圖4為本發(fā)明與現(xiàn)有技術(shù)的性能對比柱狀示意圖。具體實施方式[0094]為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。一個元件上或者間接在該另一個元件上。當(dāng)一個元件被稱為是“連接于”另一個元件,它可以是直接連接到另一個元件或間接連接至該另一個元件上。[0097]飛行器實時控制軟件的核心需求集中體現(xiàn)在實時性與高效性上。實時性要求系統(tǒng)能夠迅速響應(yīng)外界環(huán)境的變化以及內(nèi)部命令的調(diào)整,這對于保障飛行安全至關(guān)重要。高效性則體現(xiàn)在系統(tǒng)需要在有限的處理能力和存儲資源條件下,最大化任務(wù)執(zhí)行速度和資源利用率,以確保各類控制任務(wù)能夠在最佳時間點完成,避免延誤或資源浪費。飛行器實時控制軟件的動態(tài)資源分配是實現(xiàn)飛行器實時控制軟件實時性和高效性的關(guān)鍵技術(shù)。飛行器資源分配的核心在于如何合理調(diào)度有限的計算資源、存儲空間和網(wǎng)絡(luò)帶寬,以支持多任務(wù)的并行處理和數(shù)據(jù)的快速流轉(zhuǎn)。但是,現(xiàn)有飛行器實時控制軟件實時資源分配面臨諸多挑戰(zhàn),飛行器的資源如處理器速度、內(nèi)存大小及其能耗等都有固定上限,而控制軟件需要在這些有限資源下完成復(fù)雜的數(shù)據(jù)處理和任務(wù)調(diào)度,這就導(dǎo)致了資源限制與需求沖突,可能會造成[0098]為了解決上述技術(shù)問題,本發(fā)明提供了一種飛行器實時資源分配方法,包括:[0099]構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,并定義狀態(tài)空間;通過將飛行器的任務(wù)需求分配至系統(tǒng)總體資源定義動作空間,并根據(jù)動態(tài)資源分配目標(biāo)定義獎勵函數(shù);[0100]搭建飛行器的實時控制軟件環(huán)境;準(zhǔn)備雙深度Q網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),并構(gòu)建雙深度Q網(wǎng)絡(luò)結(jié)構(gòu);[0101]構(gòu)建經(jīng)驗回放緩沖區(qū),進行所述雙深度Q網(wǎng)絡(luò)訓(xùn)練,并更新主網(wǎng)絡(luò)的參數(shù);[0102]獲取飛行器的狀態(tài)和動作之間的價值函數(shù),通過所述價值函數(shù)使飛行器做出資源分配最優(yōu)決策;[0103]使用動態(tài)規(guī)劃實時細(xì)化分配資源,實現(xiàn)滿足資源約束條件下的最大化任務(wù)收益,完成飛行器實時資源分配。[0104]采用上述技術(shù)方案的情況下,本發(fā)明的飛行器實時資源分配方法中,通過構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,定義狀態(tài)空間,并通過將飛行器的任務(wù)需求分配至系統(tǒng)總體資源,定義動作空間,根據(jù)動態(tài)資源分配目標(biāo)定義了獎勵函數(shù);進一步地,在構(gòu)建雙深度Q網(wǎng)絡(luò)結(jié)構(gòu)和經(jīng)驗回放緩沖區(qū)后,進行所述雙深度Q網(wǎng)絡(luò)訓(xùn)練,并更新了主網(wǎng)絡(luò)的參數(shù);進而通過獲取飛行器的狀態(tài)和動作之間的價值函數(shù),使飛行器做出資源分配最優(yōu)決策;進一步地,還使用動態(tài)規(guī)劃實時細(xì)化分配資源,實現(xiàn)滿足資源約束條件下的最大化任務(wù)收益,完成飛行器實時資源分配。通過上述技術(shù)方案,本發(fā)明結(jié)合了深度強化學(xué)習(xí)對復(fù)雜非線性問題的自適應(yīng)學(xué)習(xí)能力和動態(tài)規(guī)劃在實時決策中的快速優(yōu)化優(yōu)勢,通過雙向協(xié)同機制實現(xiàn)了高效的實時資源分配,相較于現(xiàn)有技術(shù)在任務(wù)完成率、資源利用率、平均響應(yīng)時間方面有顯著提升,加強了飛行器對當(dāng)前資源限制與需求,及多任務(wù)并發(fā)這兩個問題的處理能力;本發(fā)明的上述技術(shù)方案具有的自適應(yīng)策略能通過實時監(jiān)控運行環(huán)境,動態(tài)調(diào)整算法參數(shù)以適應(yīng)環(huán)境變化,提升飛行器在復(fù)雜環(huán)境中的適應(yīng)能力,同時基于強化學(xué)習(xí)的實時資源分配策略在面對不斷發(fā)展的飛行器控制算法時,能夠通過在全新環(huán)境下進行訓(xùn)練迭代來快速優(yōu)化更新,從而支持新型算法的高效運行,提升飛行器性能;進一步地,對于飛行器實際運行過程中遇到的突發(fā)情況,本發(fā)明能夠啟動應(yīng)急處理方案,確保飛行器系統(tǒng)在遇到突發(fā)任務(wù)或單點故障時仍能繼續(xù)運行或安全降落,在遇到突發(fā)任務(wù)時能夠快速反應(yīng),顯著提高飛行器的安全性能與反應(yīng)能力。本發(fā)明通過上述技術(shù)方案,解決了現(xiàn)有飛行器資源分配導(dǎo)致資源限制與需求沖突的技術(shù)問題,可有效避免飛行器關(guān)鍵任務(wù)延遲、系統(tǒng)崩潰,甚至造成安全事故等問題。[0105]為了更好地理解本發(fā)明,下面結(jié)合具體實施例進一步闡明本發(fā)明的內(nèi)容,但本發(fā)明的內(nèi)容不僅僅局限于下面的實施例。[0107]本實施例提供了一種飛行器實時資源分配方法,包括:[0108]步驟1,構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,并定義狀態(tài)空間;通過將飛行器的任務(wù)需求分配至系統(tǒng)總體資源定義動作空間,并根據(jù)動態(tài)資源分配目標(biāo)定義獎勵[0109]步驟2,搭建飛行器的實時控制軟件環(huán)境;準(zhǔn)備雙深度Q網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),并構(gòu)建雙[0110]步驟3,構(gòu)建經(jīng)驗回放緩沖區(qū),進行所述雙深度Q網(wǎng)絡(luò)訓(xùn)練,并更新主網(wǎng)絡(luò)的參數(shù);[0115]S100,構(gòu)建飛行器的任務(wù)優(yōu)先級隊列和資源狀態(tài)矩陣,并定義狀態(tài)空間;通過將飛行器的任務(wù)需求分配至系統(tǒng)總體資源定義動作空間,并根據(jù)動態(tài)資源分配目標(biāo)定義獎勵函資源狀態(tài)矩陣R構(gòu)成狀態(tài)空間S;其中,任務(wù)隊列Q={T?,T?,…Tn},T表示任務(wù)隊列Q中的[0121]S103,將飛行器任務(wù)T分配到資源R;中,定義為動作空間A,動作空間R;={Rcj,Rmj,Rbj},Rc;表示被分配的系統(tǒng)計算資源,Rm;表示被分配的系統(tǒng)內(nèi)存資基礎(chǔ)上,引入任務(wù)完成時間和任務(wù)優(yōu)先級的綜合考量定義獎勵函數(shù)r,獎勵函數(shù)r通過下式,單位MHz,任務(wù)內(nèi)存需求M∈[10,50],單位為MB,任務(wù)帶寬需求B∈[1,10],單位為Mbps,任務(wù)截止時間D?∈[1,10],單位為s;[0126]S202,準(zhǔn)備系統(tǒng)資源數(shù)據(jù):總計算資源Rtotal-c=4000MHz;總內(nèi)存資源Rtotal-m=500MB;總帶寬資源Rtotal-b=200Mbps;[0133]S311,將每個智能體的狀態(tài)輸入雙深度Q網(wǎng)絡(luò),在當(dāng)前的動作集合空間中根據(jù)[0139]S316,確定智能體的訓(xùn)練經(jīng)驗四元組為(st,at,rt+1,St+1),并將該四元組[0141]S320,從所述經(jīng)驗回放緩沖區(qū)中隨機采樣一批經(jīng)驗四元組對[0143]S321,使用目標(biāo)網(wǎng)絡(luò)計算所采樣的經(jīng)驗四元組中下一個狀態(tài)St+1的最大價值函數(shù)[0145]S323,使用下一個狀態(tài)St+1執(zhí)行動作at+1的目標(biāo)價值函數(shù)Q(st+1,at+1)更新當(dāng)[0146]Qnew(St,at)=(1-表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大的動作,γ為折扣因子,且扣因子,且∈(0,1),st+1表示當(dāng)前狀態(tài)的下一個狀態(tài),at+1表示狀態(tài)St+1下使得Q最大前時間步,若滿足t<T,則t=t+1,轉(zhuǎn)跳到到狀態(tài)和動作之間的價值函數(shù)Q(s,a),該函數(shù)可以指導(dǎo)飛行器做出在雙深度Q網(wǎng)絡(luò)基礎(chǔ)上[0161]S600,根據(jù)所有神經(jīng)元對損失函數(shù)的梯度設(shè)定合適剪枝閾值,并以此為依據(jù)刪除[0162]S700使用線性量化技術(shù)將雙深度Q網(wǎng)絡(luò)模型中使用32位浮點數(shù)表示的權(quán)重轉(zhuǎn)化為[0163]設(shè)定浮點參數(shù)和定點參數(shù)的最值為Rmax、Rmin、Qmin、Qmax,則有:[0166]S800,請參閱圖3,使用動態(tài)規(guī)劃實時細(xì)化分配資源,實現(xiàn)滿足資源約束條件下的[0172]S811,若足夠則使用預(yù)留資源量應(yīng)對突發(fā)情況;若不夠則釋放當(dāng)前執(zhí)行非關(guān)鍵任[0179]S823,定義動態(tài)規(guī)劃中決策變量為R;R表示分配給第i個任務(wù)的資源量,合路徑收益,j表示剩余任務(wù)個數(shù)。[0188]本實施例的飛行器實時資源分配方法采用分布式感知網(wǎng)絡(luò),將資源狀態(tài)劃分為不同的區(qū)域子網(wǎng),各子網(wǎng)獨立監(jiān)控并上傳資源使用數(shù)據(jù),主節(jié)點根據(jù)全局資源狀態(tài)優(yōu)化分配策略,本實施例的技術(shù)方案具備自適應(yīng)策略,自適應(yīng)策略能通過實時監(jiān)控運行環(huán)境,動態(tài)調(diào)整算法參數(shù)以適應(yīng)環(huán)境變化。請參閱圖4,圖4為本實施例與其他現(xiàn)有技術(shù)性能對比柱狀示意圖,從圖4中可以看出,本實施例的技術(shù)方案的任務(wù)完成率達(dá)到了97.8%,顯著高于其他算法,說明本實施例對資源的動態(tài)分配策略有效保障了任務(wù)的完成;本實施例分配方法的資源利用率為92.5%,表明本實施例能夠在有限的資源條件下最大化資源使用效率;分配方法的響應(yīng)時間僅為18.4毫秒,遠(yuǎn)低于其他算法,體現(xiàn)了本實施例的技術(shù)方案在實時性方面具有顯著優(yōu)勢。[0189]進一步地,結(jié)合圖1至圖3對本發(fā)明的上述技術(shù)方案進行說明,圖1為本發(fā)明構(gòu)建的數(shù)和輸出層,狀態(tài)向量維度為13,動作向量維度為10,每個隱藏層包含128個神經(jīng)元,激活函數(shù)為ReLU函數(shù)。[0190]請參閱圖2,圖2為雙深度Q網(wǎng)絡(luò)訓(xùn)練過程示意圖,從圖2可以看出,從經(jīng)驗回放緩沖區(qū)采樣訓(xùn)練經(jīng)驗四元組,基于經(jīng)驗回放緩沖區(qū)的數(shù)據(jù),利用雙深度Q網(wǎng)絡(luò)(主網(wǎng)絡(luò))估計當(dāng)前狀態(tài)st價值函數(shù)Q(st,at)并通過目標(biāo)網(wǎng)絡(luò)估計下一狀態(tài)的St+1的目標(biāo)價值函數(shù)Q(St+1,at+1),并使用目標(biāo)價值函數(shù)Q(st+1,at+1)更新當(dāng)前狀態(tài)St的價值函數(shù)Q(st,at),通過目標(biāo)價值函數(shù)Q(st+1,at+1)與更新后的價值函數(shù)Q(st,at)計算最小化均方誤差損失函數(shù),對所得最小化均方誤差損失函數(shù),使用隨機梯度下降法更新主網(wǎng)絡(luò)的參數(shù),定期將主網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);進一步地,構(gòu)建經(jīng)驗回放緩沖區(qū)的過程中,將每個智能體的狀態(tài)輸入雙深度Q網(wǎng)絡(luò)(主網(wǎng)絡(luò)),在當(dāng)前的動作集合空間中根據(jù)ε-greedy貪婪算法來進行動作的選擇(即貪婪動作選擇),并反饋給環(huán)境;進一步地,在訓(xùn)練完成的雙深度Q網(wǎng)絡(luò)模型基礎(chǔ)上進行模型輕量化設(shè)計,輕量化設(shè)計包括神經(jīng)元剪枝技術(shù)與量化技術(shù),剪枝技術(shù)即:將均方誤差損失函數(shù)對與神經(jīng)元相關(guān)的網(wǎng)絡(luò)參數(shù)求梯度,通過梯度絕對值大小比較得到每個神經(jīng)元的貢獻(xiàn)度,以設(shè)定的剪枝閾值為依據(jù)刪除低貢獻(xiàn)的冗余神經(jīng)元和無效連接;量化技術(shù)即:通過線性量化技術(shù)將雙深度Q網(wǎng)絡(luò)模型中使用32位浮點數(shù)表示的權(quán)重轉(zhuǎn)化為8位或16位整數(shù)。[0191]請參閱圖3,圖3為飛行器實時資源分配方法的整體過程示意圖,現(xiàn)有飛行器可以包括資源感知模塊、智能決策模塊和任務(wù)優(yōu)先級調(diào)度模塊;在飛行器啟動后,判斷是否發(fā)生突發(fā)情況,如果判斷為否(N),可直接通過智能決策模塊,使用雙深度Q網(wǎng)絡(luò)訓(xùn)練的最優(yōu)資源分配策略,完成資源分配,如果判斷為是(Y),一方面,通過資源感知模塊,計算突發(fā)事件所需資源量,并判斷預(yù)留資源量是否足夠,另一方面,通過任務(wù)優(yōu)先級調(diào)度模塊,進行突發(fā)事件優(yōu)先級評估,并對被移除資源的非關(guān)鍵性任務(wù)優(yōu)先級評估,進而根據(jù)優(yōu)先級評估將任務(wù)隊列分為任務(wù)子隊列,進而采用分布式計算,任務(wù)子隊列由獨立的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論