??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析-_第1頁
??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析-_第2頁
??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析-_第3頁
??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析-_第4頁
??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析-_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2024-04指揮控制與仿真??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析?蘇炯銘,羅俊仁,陳少飛,項鳳濤(國防科技大學智能科學學院,湖南長沙410073)摘要:以深度強化學習為核心的智能博弈技術(shù)在游戲領(lǐng)域內(nèi)的突破和進展為??毡錋I的研究提供了借鑒。智能體架構(gòu)設(shè)計是需要解決的關(guān)鍵問題,良好的架構(gòu)能夠降低算法訓(xùn)練的復(fù)雜度和難度,加快策略收斂。提出基于隨機博弈的??湛缬騾f(xié)同決策博弈模型,分析了相關(guān)的均衡解概念;在分析典型智能體框架基礎(chǔ)上,針對??毡逋蒲輿Q策博弈過程,提出基于多智能體分層強化學習的智能體雙層架構(gòu),能夠有效解決智能體間協(xié)作和維度災(zāi)難問題;從兵力協(xié)同、智能體網(wǎng)絡(luò)設(shè)計、對手建模和訓(xùn)練機制共4個方面分析了關(guān)鍵技術(shù)。期望為海空兵棋AI設(shè)計實現(xiàn)提供架構(gòu)指導(dǎo)。關(guān)鍵詞:??毡?;跨域協(xié)同;兵棋推演;多智能體;智能博弈;模型架構(gòu);分層強化學習傳統(tǒng)作戰(zhàn)推演中智能體通常采用規(guī)則和分層狀態(tài)機等決策機制,推演采用基于事件驅(qū)動的仿真機制,智[1][2?4][7]、王者榮耀[8]等一系列游戲博弈中取得重大突破和進展,其對抗水平基本達到或超越了人類。其中星際爭霸等即時策略游戲與兵棋推演CommNet[9]?基金項目:國家自然科學基金(61806212、62376280)為智能博弈。羅俊仁(1989—),男,博士研究生。COMA)[11]、MADDPG[12]、VDN[13]、QMIX[14]、QTRAN[15]等。這些以深度強化學習為核心的智能博弈技術(shù)發(fā)展為利用兵棋的智能作戰(zhàn)推演提供了新的解決途徑。本文首先基于隨機博弈理論建立??湛缬騾f(xié)同決策博弈模型及解概念;其次,在分析典型兵棋AI框架的基礎(chǔ)上,提出??毡錋I“雙層架構(gòu)”設(shè)計方案;最后,從兵力協(xié)同、智能體網(wǎng)絡(luò)設(shè)計、對手建模和訓(xùn)練機制方面分析了關(guān)鍵技術(shù)。1海空跨域協(xié)同決策博弈模型計算機兵棋一般由棋子、棋盤和規(guī)則組成,正在由傳統(tǒng)的回合制向即時對抗的方向發(fā)展。即時對抗型兵棋允許雙方同時開展軍事行動,并即時進行裁決計算,36蘇炯銘,等:??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析第46卷其運行模式更像是一種即時策略游戲,只不過兵種、武器裝備性能參數(shù)和裁決規(guī)則等是對真實戰(zhàn)爭的抽象和描述。星際爭霸等游戲問題與兵棋博弈對抗問題在科學問題本質(zhì)上具有很大的一致性,但也有明顯的區(qū)表1即時策略游戲與??毡逋蒲輰Ρ认嗨菩耘c區(qū)別比較項即時策略游戲??毡逋蒲菹嗨菩孕畔⒉煌耆珷顟B(tài)高復(fù)雜高動態(tài)決策搜索空間巨大策略自適應(yīng)策略協(xié)同長時決策由于存在戰(zhàn)爭迷霧,對對手狀態(tài)感知具有不完全性,相當于對環(huán)境狀態(tài)部分可觀。狀態(tài)包括環(huán)境、己方和敵方智能體的狀態(tài),維度隨智能體數(shù)量增加而增加,智能體還可能生成和消亡。由于作戰(zhàn)實體異構(gòu)、數(shù)量多、可選動作多,組合爆炸問題使得決策空間巨大。能采用的戰(zhàn)術(shù)戰(zhàn)法很多,可能會相互克制,沒有絕對必勝的制勝策略,可能存在多個均衡解,策略需要自適應(yīng)調(diào)整、多兵種協(xié)同協(xié)作配合,形成體系優(yōu)勢。大規(guī)模異構(gòu)作戰(zhàn)實體之間需要在時域、空域、任務(wù)域等方面進行協(xié)同配合。在對抗過程中都需要進行多次決策。相對對稱,不同種族符合平衡性設(shè)計。通常高度不對稱,兵棋推演雙方在能力、單元組成、起始位置和最終目標上存在差異。效果即時性效果隨機性決策頻率動作效果則在毫秒至秒級。隨機性較小。即時策略游戲AI的指令生成間隔時間是幾十至幾百毫秒。軍事行動具有更加稀疏且延時的作戰(zhàn)效果。比如使用導(dǎo)彈是兵棋中常見的作戰(zhàn)方式,而導(dǎo)彈發(fā)射動作的效果往往要等待數(shù)秒或數(shù)分鐘或更長的導(dǎo)彈飛行時間,最終擊中/未擊中目標后才能獲取。隨機性較大,兵棋推演在所有攻擊裁決過程中均受到隨機因素的影響,即隨機性較高,結(jié)果差距較大,可能產(chǎn)生壓制甚至消滅對方的戰(zhàn)果,也可能不產(chǎn)生任何效果。兵棋棋子的決策間隔時間可能更長,達到數(shù)秒或更長時間。從博弈論角度對海空兵棋推演決策問題進行建模主要包括兩方面內(nèi)容:一是博弈模型,二是解的概念。針對典型??章?lián)合作戰(zhàn)場景,將??章?lián)合作戰(zhàn)決策過程描述為在戰(zhàn)場狀態(tài)空間、決策動作空間上的多步強化學習過程,其中作戰(zhàn)實體作為智能體進行描述。決策的最終目標是使得我方智能體的累計獎勵最大。??章?lián)合作戰(zhàn)決策過程。零和隨機博弈中我方智能體接收到環(huán)境狀態(tài)信息和獎勵之后,進行聯(lián)合行動決策,生成下一步的聯(lián)合動作,同樣敵方智能體也將生成其聯(lián)合動作,雙方在戰(zhàn)場環(huán)境中相互對抗,都試圖獲取最方的獎勵之和為零,交戰(zhàn)結(jié)果最終只會一勝一負或平,不會出現(xiàn)共贏的情況。隨機博弈模型可以采用五元組進行形式化描述為S1;?Ai表示己方智能體i的動作空間,N表示己方智能體數(shù)量;?Bj表示敵方智能體j的動作空間,M表示敵方智能體數(shù)量;r(sar(sar(sar(sar(sar(sar(sar(sap(s2h(si),htai))p(s3h(s2)htai2))P(sk+ih(p(s2h(si),htai))p(s3h(s2)htai2))A=aaAaANM→S:表示環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù);N隨機博弈模型具有馬爾科夫性,環(huán)境狀態(tài)和獎勵只與當前的狀態(tài)和聯(lián)合動作相關(guān)。在時間t步己方的收益為己方所有智能體收益的是說整體收益并不等于部分收益之和,它們之間的關(guān)系可能是線性或非線性關(guān)系,甚至是時變的。由于環(huán)境狀態(tài)轉(zhuǎn)移的隨機性(來自于作戰(zhàn)效果的隨機性與不確定性在一次有限時步T的對抗過程完成后,己方采用策略π的總收益期望(不考慮折扣因最優(yōu)響應(yīng)類解基于智能體間相互的最優(yōu)響應(yīng),如體得到的期望回報最大;不唯一性,均衡解不唯一,每類似地可以定義敵方的收益和總收益期望。路徑上的均衡行為,即難以處理臨時干擾導(dǎo)致的策略最優(yōu)響應(yīng)類解衡和顫抖手完美均衡解決。解的概念適用博弈模型說明假設(shè)解2個智能體之間的相互最優(yōu)響應(yīng)。獨立納什均衡解多人一般和博弈隨機博弈每個智能體的策略是其他智能體策略的最優(yōu)響應(yīng),是解的泛化情形。分為純策略納什均衡和混合策略納什均衡。博弈可能有多個納什均衡,但是每個均衡解的期望收益不同。獨立多人一般和博弈隨機博弈用于處理行動概率為無理數(shù),計算系統(tǒng)無法完全表達的情形;納什均衡解難以計算求解,是納什均衡能不接近于真實的納什均衡解。能不接近于真實的納什均衡解。獨立相關(guān)均衡解多人一般和正則式博弈隨機博弈相關(guān)均衡能夠得到比納什均衡更大的期望回報??紤]策略之間的相關(guān)性,一般需要外部協(xié)調(diào)者,是納什均衡的推廣。無憾類解遺憾值表示智能體在過去的事件中選擇了不同的行動(或策略獲得的獎勵與本可獲得的獎勵之間的差異值。遺憾值的定義有多種方法,隨機博弈中智能π表示智能體采用策略π其他智能體采用聯(lián)合策π表示采用聯(lián)合策略時智能體i的收益值。無憾解要求對任意智能體策略的平均遺憾值接小于等于本文采用紅藍雙方團隊隨機博弈納什均衡作為模)從博弈論的視角分析,考慮整個序貫決策問題的是?完全問題,求解非常困難,在多項式時間內(nèi)并無有效的方法能夠求解,最壞的情況下仍需要指數(shù)級是?完全問題,求解非常困難,在多項式時間內(nèi)并無有效的方法能夠求解,最壞的情況下仍需要指數(shù)級時間。從強化學習視角分析,博弈雙方的目標都是要最大化自己的總收益期望,得到一個最佳的策略,以輸出最優(yōu)的聯(lián)合動作。當前兵棋的研發(fā)模式主要包含三類,即知識驅(qū)示?。知識驅(qū)動的兵棋研發(fā)利用人類推演經(jīng)驗形成知識庫,進而實現(xiàn)給定狀態(tài)下的智能體決策。數(shù)據(jù)驅(qū)動的兵棋主要采用深度強化學習為基礎(chǔ)進行策略學習,是當前的主流決策技術(shù)。主要包括深度強化學習、多智能體深度強化學習、分層深度強化學習等方法。本文采用的知識與數(shù)據(jù)混合驅(qū)動框架結(jié)合了兩38蘇炯銘,等:??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析第46卷者的優(yōu)勢。表3不同類型兵棋AI優(yōu)缺點對比Tab.3ComparisonofadvantagesanddisadvantagesofdifferenttypesofWargameAI框架類型典型算法類型優(yōu)點缺點典型智能體知識驅(qū)動型的方法。實現(xiàn)相對簡單,不需要借助于大量的數(shù)據(jù)進行策略的訓(xùn)練與學習,具有較強的可解釋性。受限于人類本身的推演水平,同時環(huán)境遷移與適應(yīng)能力較差。信息工程大學的“兵棋分隊院自動化研究所的“兵棋群院自動化研究所的“兵棋群數(shù)據(jù)驅(qū)動型獨立強化學習方法?;诼?lián)合動作的強化學習方法。多智能體強化學習。分層強化學習。緩解不完全信息、高維狀態(tài)空間等問題。能較好處理非穩(wěn)態(tài)環(huán)境和信度分配問題。可以實現(xiàn)大規(guī)模異構(gòu)作戰(zhàn)實體的協(xié)同配合,緩解學習不穩(wěn)定不收斂、聯(lián)合狀態(tài)和動作空間呈指數(shù)方式增加爆炸問題。通過分層降低決策緩解維數(shù)災(zāi)難問題每個智能體將其他智能體視為環(huán)境的一部分,環(huán)境具有非穩(wěn)態(tài)特性,缺乏理論上的收斂性保證,使得學習不穩(wěn)定。每個智能體都獨立地計算納什均衡策略,它們的策略組合可能也不是全體的納什均衡。隨著智能體數(shù)量的增加,聯(lián)合狀態(tài)、動作空間呈指數(shù)方式增加,采用策略梯度優(yōu)化的方法在計算上非常困難。仍面臨非平穩(wěn)環(huán)境和信度分配問題,并且可能收斂到多個均衡解,而不同的均衡解所對應(yīng)的期望收益不同。難以確定分層層數(shù)、各層學習目標等。近端策略優(yōu)化PPO算法[21]、DQN算法[22]。QMIX算法[14]、WQMIX算法[23]。HIRO算法[24]。知識與數(shù)據(jù)混合驅(qū)動型在作戰(zhàn)的不同階段或場景采用不同的算識與機器學習算法設(shè)計融合。加快訓(xùn)練算法收斂。知識。武警警官學院開發(fā)的分隊/??毡錋I由多個決策智能體組成,這些子智能體具有分層結(jié)構(gòu),上層智能體對下層智能體進行指導(dǎo),下層智能體實現(xiàn)上層智能體的決策,同層智能體進行協(xié)同合作。上層任務(wù)決策與下層動作決策采用異步執(zhí)行方式,一般上層任務(wù)決策時間間隔較大,而下層動作決策時間間隔較小。上層任務(wù)決策的時間間隔與任務(wù)完成時間相關(guān),下層動作決策時間間隔與作戰(zhàn)實體類型、任務(wù)類型、態(tài)勢感知信息處理速度等因素相關(guān)。智能體的雙層架構(gòu)借鑒了聯(lián)合作戰(zhàn)任務(wù)規(guī)劃和指揮控制過程。在聯(lián)合作戰(zhàn)任務(wù)規(guī)劃中,一般也是采用分層的方式逐層分解進行詳細規(guī)劃,從作戰(zhàn)目標分析到作戰(zhàn)行動制定(形成作戰(zhàn)方案)到作戰(zhàn)任務(wù)設(shè)計(形成作戰(zhàn)計劃)到計劃執(zhí)行與行動控制(作戰(zhàn)計劃執(zhí)行與臨機規(guī)劃決策)等。非分層的強化學習方法采用端到端的方式從狀態(tài)到動作輸出,決策行為隱含在神經(jīng)網(wǎng)絡(luò)之中,難以解釋各層級兵力的作戰(zhàn)意圖。如圖2所示,??毡錋I整體架構(gòu)分為“雙層架下層為某類作戰(zhàn)實體的決策智能體,分別用于控制作戰(zhàn)飛機、艦艇和常導(dǎo)等力量實現(xiàn)上層智能體分配的作能體的實際架構(gòu)層數(shù)和決策智能體分類還可以按需進行擴展。下層智能體的分類主要考慮的是各軍兵種,如空軍、海軍、常導(dǎo)和戰(zhàn)略支援部隊等。這使得每類智能體的作戰(zhàn)實體屬性大致相同,具有類似的作戰(zhàn)決策空間,有利于算法的動作探索和利用,增強智能體的泛化能力,即在新的作戰(zhàn)裝備加入之后,智能體還能夠具有較好的決策性能,或者只需要少量的訓(xùn)練就能使智能體的策略穩(wěn)定收斂。多智能體分層強化學習架構(gòu)采用多智能體方法,實現(xiàn)異構(gòu)作戰(zhàn)單元之間的協(xié)作配合,使得下層智能體更貼近無人平臺自主應(yīng)用;分層強化學習方法,實現(xiàn)對復(fù)雜決策問題的分而治之,同時與真實場景指揮決策體系對應(yīng),使得智能體更貼近真實戰(zhàn)場的各級指揮員,提供指揮輔助決策,增強決策的可解釋性。第2期指揮控制與仿真39敵情、我情、戰(zhàn)場敵情、我情、戰(zhàn)場環(huán)境和獎勵感知聯(lián)合動作At??諏购?章?lián)合作戰(zhàn)仿真推演系統(tǒng)我方作戰(zhàn)實體敵方作戰(zhàn)實體我方作戰(zhàn)任務(wù)決策智能體作戰(zhàn)任務(wù)M??毡逋蒲葜悄荏w我方作戰(zhàn)任務(wù)決策智能體作戰(zhàn)任務(wù)M戰(zhàn)場狀態(tài)特征st獎勵值Rt對手模型上層下層飛機飛機決策智能體艦艇決艦艇決策智能體常導(dǎo)常導(dǎo)決策智能體圖2具有雙層結(jié)構(gòu)的海空兵棋AI架構(gòu)2.3智能體典型模塊設(shè)計1)戰(zhàn)場環(huán)境狀態(tài)空間表示??諔?zhàn)場環(huán)境隨作戰(zhàn)過程快速動態(tài)變化,因此需要對環(huán)境狀態(tài)建立相關(guān)模型。主要包括對戰(zhàn)場空間劃分,對敵我雙方作戰(zhàn)實體種類、位置和狀態(tài)建模以及對戰(zhàn)場環(huán)境建模等。環(huán)境模型表現(xiàn)的是當前戰(zhàn)場在某一時刻的靜態(tài)狀態(tài),建模輸出可以是統(tǒng)計量和或狀態(tài)量。2)智能體動作空間表示動作空間主要包括上層任務(wù)決策空間和下層動作決策空間。上層任務(wù)決策空間建模主要建立??章?lián)合作戰(zhàn)任務(wù)模型,主要要素包括任務(wù)類型、任務(wù)開始時間、任務(wù)目標、任務(wù)區(qū)域等。下層動作決策空間建模主要建立各類型作戰(zhàn)實體動作模型,如機動、導(dǎo)彈發(fā)射、雷達開關(guān)、干擾機開關(guān)等。由于作戰(zhàn)實體的種類和數(shù)量較多,其決策空間組合以后變得非常大,通過分層結(jié)構(gòu)設(shè)計,能夠大大減少其決策空間,降低策略學習難3)獎勵函數(shù)塑造為緩解強化學習在??章?lián)合作戰(zhàn)中出現(xiàn)的獎勵延遲和稀疏等問題,需要進行兩方面建模:一是真實作戰(zhàn)毀傷效果獎勵建模,如采用得分的形式進行獎勵反饋;二是對如偵察、機動等無毀傷作戰(zhàn)行動的獎勵建模,通過獎勵塑造等方式構(gòu)建獎勵函數(shù)模型。獎勵函數(shù)值中真實作戰(zhàn)毀傷效果獎勵主要用于反饋上層決策,指導(dǎo)任務(wù)優(yōu)化;無毀傷作戰(zhàn)行動的獎勵主要用于反饋下層行動決策,優(yōu)化作戰(zhàn)實體的具體動作。4)信息交互設(shè)計智能體之間的信息交互關(guān)系采用同一層的智能體之間進行信息交互共享(便于智能體之間相互協(xié)調(diào)配合信息從上層智能體往下層智能體方向單向流動的方式。值得注意的是,戰(zhàn)場態(tài)勢(敵情、我情和戰(zhàn)場環(huán)境)信息同步至各個層次的智能體,作為決策的主要依據(jù)。多智能體強化學習信息流和輸入輸出如圖3和表4所示,上層智能體和下層智能體都采用深度神經(jīng)網(wǎng)絡(luò)進行設(shè)計,以處理高維復(fù)雜戰(zhàn)場空間特征和離散/連續(xù)的兵棋棋子動作決策空間。表4智能體輸入輸出項分析輸入輸出項描述戰(zhàn)場狀態(tài)序列情況等。己方棋子動作序列任務(wù)目標己方棋子的歷史動作序列信息。達成狀態(tài)目標,如毀傷敵方特定目標或達成獎勵目標,如獲得規(guī)定的獎勵。棋子動作1)作戰(zhàn)飛機棋子的動作主要包括飛行的航向、速關(guān)等;彈等;跡等。獎勵信息從當前狀態(tài)到最終狀態(tài)的獎勵和。3??湛缬騾f(xié)同兵棋AI關(guān)鍵技術(shù)3.1面向兵力協(xié)同的多智能強化學習訓(xùn)練面向兵力協(xié)同的多智能體強化學習方法訓(xùn)練架構(gòu)主要有3類,這類方法主要采用端到端的方式進行決策控制,并不類似于人的分階段分模塊的OODA決策 40蘇炯銘,等:海空跨域協(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析第46卷??毡逋蒲葜悄荏w下步對手棋子動作特征表征序列下層智能體3下層智能體3下層智能體2上層智能體\上層智能體棋棋子圖3多智能體強化學習信息流圖狀態(tài)策略策略error值函數(shù)TD勵A(yù)ctorcritic獎error值函數(shù)TD勵A(yù)ctorcritic獎動作動作動作噪聲噪聲略網(wǎng)絡(luò)輸入輸入略網(wǎng)絡(luò)噪聲對手建模戰(zhàn)場空間表征建模戰(zhàn)場狀態(tài)序列棋子動作子動作己方棋子動作序列獎勵信息下層智能體1動作a)AC架構(gòu)b)Actor架構(gòu)對手建模戰(zhàn)場空間表征建模戰(zhàn)場狀態(tài)序列棋子動作子動作己方棋子動作序列獎勵信息下層智能體1動作h關(guān)于條件目標獎勵的離線策略訓(xùn)練利用重新標記目標的離線策略訓(xùn)練RllμlnR,RiRhC)分層架構(gòu):HIR圖43種典型的智能體架構(gòu)略的方法,被廣泛應(yīng)用于多智能體問題的解決方法網(wǎng)絡(luò),負責對Actor生成動作的優(yōu)劣進行評價并生成網(wǎng)絡(luò)輸入狀態(tài),輸出動作,以深度神經(jīng)網(wǎng)絡(luò)進行函數(shù)擬合,對于連續(xù)動作深度神經(jīng)網(wǎng)絡(luò)輸出層可以用tanh或于可以在回合結(jié)束后進行更新,比傳統(tǒng)的策略梯度算第2期指揮控制與仿真41決策Transformer決策Transformer模型層感知器網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)等,如圖Actor架構(gòu)采用同一個策略網(wǎng)絡(luò)控制所有智能體的動作。其中典型的方法有共享參數(shù)多智能體策略下索的方式主要有以下兩種:第一種是策略梯度優(yōu)化方法,在動作上添加噪聲進行探索,不同的動作帶來不同的獎勵,通過獎勵的大小來計算梯度,再反向傳遞梯度,更新策略網(wǎng)絡(luò)的權(quán)重;第二種方式是進化策略方法,直接擾動神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù),不同的權(quán)重參數(shù)帶來不同的獎勵,通過獎勵大小對應(yīng)的權(quán)重按照一定的比例更新策略網(wǎng)絡(luò)的權(quán)重,進化策略方法一般采用并行所示。3)分層架構(gòu)分層強化學習通過將任務(wù)分解成多個子任務(wù)來提高學習效率和性能,從而解決復(fù)雜任務(wù)的強化學習問兩類?;谶x項的方法使用選項來表示可選的動作,可以在不同的任務(wù)中重復(fù)使用,從而提高學習效率和泛化性能。基于子目標的方法將任務(wù)分解成一系列子目標,直接學習子目標的策略和價值函數(shù),從而使智能體能夠更好地理解任務(wù)的結(jié)構(gòu)和目標,靈活應(yīng)對不同的任務(wù)和環(huán)境。如圖4c)所示,HIRO是一種基于子目層的策略記為μhi。上層的策略在一個較為粗粒度的抽象層級上為下層的策略設(shè)定目標,這里的目標直接對應(yīng)著下層策略應(yīng)當達到的狀態(tài)。3.2面向智能體網(wǎng)絡(luò)的決策Transformer[25]的提出,突破了傳統(tǒng)的馬爾科夫決策過程框架。與傳統(tǒng)的擬合值函數(shù)或者計算策略梯度的強化學習方法不同,決策Transformer通過對獎勵、狀態(tài)、動作軌跡的聯(lián)合分布建模替代傳統(tǒng)的強化學習算法,利用生成式預(yù)訓(xùn)練Transformer模型輸出最優(yōu)動作,通過對自回歸模型指定期望回報,生成相應(yīng)模型處理主要流程如下:采用線性層將輸入轉(zhuǎn)化為嵌入向量,將時間t轉(zhuǎn)化為位置向量,并進行層歸一化處Transformer模型學習內(nèi)部隱藏狀態(tài);選擇用于動作預(yù)測的隱藏狀態(tài);采用線性解碼層預(yù)測最優(yōu)動作輸出。GPT等大模型系列技術(shù)都基于Transformer網(wǎng)絡(luò)結(jié)構(gòu),已在自然語言處理領(lǐng)域取得重大進展和突破,在決策下步對手棋子動作線性編碼層GPT模型線性解碼層決策輸出下步對手棋子動作線性編碼層GPT模型線性解碼層決策輸出戰(zhàn)場特征表征序列己方棋子動作序列獎勵信息圖5智能體決策Transformer模型領(lǐng)域正在深入研究之中。其主要優(yōu)勢有:1)打破馬爾科夫性,決策具有更加長遠的視角,這使得當前決策不僅僅與當前狀態(tài)相關(guān),并且與其歷史狀態(tài)、動作和獎勵相關(guān),能提高決策的準確性;2)決策更加靈活多變,這使得在決策時即使當前狀態(tài)相同,其決策輸出也不一定相同,增加了其決策的靈活性和多樣性,避免了決策輸出的僵化和固定,使得敵方更難以應(yīng)對;3)適應(yīng)戰(zhàn)場空間的局部可觀測性,針對戰(zhàn)爭迷霧下戰(zhàn)場狀態(tài)部分局部可觀問題,與只考慮當前狀態(tài)相比,考慮多步的歷史狀態(tài)、動作和獎勵獲取的信息更多,決策結(jié)果也將更先,可以解決循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體存在的長距離依賴問題,擁有更好的記憶力,能夠記住更長距離的信能優(yōu)秀:難以受到數(shù)據(jù)集中劣質(zhì)樣本的影響,對稀疏獎勵問題的表現(xiàn)很好,并且樣本利用率高,有一定的泛化能力。3.3面向智能藍軍的對手建模對手建模主要是建立對手的決策模型,對未來敵方的行動進行預(yù)測,從而提升我方智能體決策的針對性,實現(xiàn)對敵方?jīng)Q策的利用。可以采用基于深度神經(jīng)對對手的行動做出明確的預(yù)測來重建對手的決策過程。深度神經(jīng)網(wǎng)絡(luò)預(yù)測對手行為的優(yōu)點在于不需要相關(guān)領(lǐng)域的專家知識,選擇所有影響參與者決策的因素作為輸入節(jié)點,通過反復(fù)對局來訓(xùn)練該網(wǎng)絡(luò),具有很強的抗干擾性,但其訓(xùn)練過程依賴于大量的樣本數(shù)據(jù)。3.4策略空間響應(yīng)預(yù)言機訓(xùn)練機制Oracle,PSRO)是一類基于元博弈理論發(fā)展起來的博弈對抗策略迭代式求解機制,與聯(lián)盟訓(xùn)練機制不同,其具有理論支撐和收斂性保證,典型方法如下:1)生成式PSRO生成式PSRO方法[26]有三個組成部分:PSRO構(gòu)成的主驅(qū)動器模塊、一個并發(fā)學習生成模型的搜索增強 42蘇炯銘,等:??湛缬騾f(xié)同兵棋AI架構(gòu)設(shè)計及關(guān)鍵技術(shù)分析第46卷最佳響應(yīng)生成模塊,以及帶有生成世界狀態(tài)采樣的搜索模塊。通過增加一個新的搜索過程與世界狀態(tài)的生成采樣來增強PSRO,并設(shè)計了兩個新的基于納什談判解的元策略求解器。2)正則化PSRO以雙預(yù)言機為代表的一種常見的策略探索方法是添加最能響應(yīng)當前均衡的策略,但該方法可能會出現(xiàn)過擬合。正則化PSRO方法[27]采用基于正則化復(fù)制動態(tài)的元策略求解器,根據(jù)后悔標準截斷策略的迭代探索過程。3)DynaPSRO基于博弈的決策涉及對世界動態(tài)和智能體之間策略互動的推理。DynaPSRO方法[28]協(xié)同學習經(jīng)驗博弈和世界模型,經(jīng)驗博弈推動世界模型更廣泛地考慮多樣性策略引起的博弈動態(tài),世界模型通過規(guī)劃指導(dǎo)經(jīng)驗博弈有效地發(fā)現(xiàn)新策略,在部分可觀一般和博弈中可以計算出更低的遺憾解。4)自確認PSRO求解大策略空間正則式博弈的納什均衡充滿挑戰(zhàn),開放式學習框架提供了一種有效的方法。以往的研究無一例外地將多樣性作為促進策略提升的渠道。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論