CN116306966B 一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法(大連理工大學(xué))_第1頁(yè)
CN116306966B 一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法(大連理工大學(xué))_第2頁(yè)
CN116306966B 一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法(大連理工大學(xué))_第3頁(yè)
CN116306966B 一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法(大連理工大學(xué))_第4頁(yè)
CN116306966B 一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法(大連理工大學(xué))_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(12)發(fā)明專利(56)對(duì)比文件(74)專利代理機(jī)構(gòu)遼寧鴻文知識(shí)產(chǎn)權(quán)代理有限公司21102一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)(57)摘要本發(fā)明屬于人工智能與多智能體協(xié)同領(lǐng)域,涉及一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)作,學(xué)習(xí)到高級(jí)的合作策略。包括以下步驟:動(dòng)態(tài)訓(xùn)練是否結(jié)束是否21.一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法,其特征在于,包括以下步驟:步驟1:根據(jù)環(huán)境和智能體系統(tǒng)的通信限制條件,實(shí)時(shí)提取智能體通信域內(nèi)的可通信智根據(jù)交互環(huán)境中的通信限制下的通信域建立通信圖G:=(J,E,w),其中G表示通信立的過(guò)程為,Vi,j∈J,i≠j,3Cij∈E若智能體j∈d,其中d為智能體i的受限通信域;步驟2:根據(jù)步驟1的通信圖,將智能體本地的觀測(cè)信息編碼,并基于其和相應(yīng)的權(quán)重生成器生成通信圖的權(quán)重以控制智能體間通信的程度;具體如下:利用編碼網(wǎng)絡(luò)將智能體i的本地觀測(cè)信息o;編碼為觀測(cè)編碼e,,再根據(jù)權(quán)重生成器生成通信圖各邊的權(quán)重;若使用可學(xué)習(xí)的權(quán)重生成器,首先使用一個(gè)線性變換W,將觀測(cè)編碼映射至高維空間以增強(qiáng)網(wǎng)絡(luò)表達(dá)能力,隨后利用一單層非線性網(wǎng)絡(luò)將相應(yīng)的可通信智能體兩兩之間計(jì)算通信系數(shù)c:其中a(·)表示單層的非線性網(wǎng)絡(luò),④表示相連拼接操作,e和e分別表示任意可通信的智能體i和智能體j,i,j∈J;最后對(duì)每一個(gè)智能體的所有可通信智能體的權(quán)重進(jìn)行softmax歸一化以確??赏卣剐裕浩渲衱,,表示智能體i和智能體j之間的通信權(quán)重,LeakyReLU()表示非線性激活函數(shù),exp(·)表示指數(shù)符號(hào);若使用相似性度量的權(quán)重生成器,則將非線性網(wǎng)絡(luò)a(·)替換為內(nèi)積相似性度量:其中F為一線性嵌入操作,可將觀測(cè)編碼映射至高維空間;步驟3:基于步驟2的通信圖的權(quán)重和步驟1的通信圖進(jìn)行智能體間的觀測(cè)信息編碼的生成智能體的通信消息:其中m;表示智能體i在當(dāng)前時(shí)刻獲取的通信消息;步驟4:每個(gè)智能體根據(jù)本地交互數(shù)據(jù)和通信消息以及歷史信息利用動(dòng)作價(jià)值估計(jì)網(wǎng)絡(luò)來(lái)完成個(gè)體動(dòng)作價(jià)值估計(jì);具體如下:3根據(jù)步驟3獲得的通信消息與智能體的本地觀測(cè)數(shù)據(jù)和歷史數(shù)據(jù),生成當(dāng)前時(shí)刻的信息表征h:其中GRU(·)表示門控循環(huán)單元循環(huán)神經(jīng)網(wǎng)絡(luò),e{和m分別表示當(dāng)前t時(shí)刻智能體i的步驟5:超網(wǎng)絡(luò)將所有的步驟4生成的動(dòng)作價(jià)值估計(jì)匯總,并基于全局信息完成智能體步驟6:根據(jù)聯(lián)合動(dòng)作與環(huán)境的交互獲取的獎(jiǎng)勵(lì)值,對(duì)超網(wǎng)絡(luò)進(jìn)行參數(shù)更新,再將獎(jiǎng)勵(lì)的信度分配值反向傳播至各個(gè)智能體的動(dòng)作價(jià)值估計(jì)網(wǎng)絡(luò)中并更新其網(wǎng)絡(luò)參數(shù);具體如根據(jù)步驟5獲得的聯(lián)合動(dòng)作價(jià)值估計(jì)與實(shí)際獲取獎(jiǎng)勵(lì)之間的偏差,計(jì)算時(shí)序差分損失L:步驟7:重復(fù)步驟1至步驟6至各個(gè)智能體動(dòng)作價(jià)值估計(jì)4技術(shù)領(lǐng)域[0001]本發(fā)明屬于人工智能與多智能體協(xié)同領(lǐng)域,特別涉及一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法。背景技術(shù)[0002]多智能體協(xié)同主要是在交互環(huán)境中,包含多個(gè)智能體的智能體系統(tǒng)不斷與環(huán)境進(jìn)行交互以最大化系統(tǒng)獲得的收益,其中每個(gè)智能體都進(jìn)行獨(dú)立的策略決策,他們協(xié)同自治地完成團(tuán)隊(duì)目標(biāo)。多智能體協(xié)同技術(shù)在智慧城市,智能交通,車路協(xié)同,無(wú)人機(jī)控制等領(lǐng)域中發(fā)揮著至關(guān)重要的作用,可以用于多個(gè)獨(dú)立終端的通信協(xié)調(diào),最優(yōu)化資源分配,集群路徑規(guī)劃等任務(wù)中。[0003]近年來(lái),多智能體協(xié)同方法已經(jīng)取得了很大的進(jìn)步,但是隨著多智能體規(guī)模的增加,聯(lián)合的合作策略空間搜索復(fù)雜度指數(shù)級(jí)上升,再加上智能體獨(dú)立決策帶來(lái)的非平穩(wěn)性,以及多個(gè)智能體間的復(fù)雜的耦合關(guān)系,大大限制了相關(guān)算法的發(fā)展。因此,多智能體強(qiáng)化學(xué)習(xí)算法作為一種自適應(yīng)促進(jìn)智能體協(xié)作的行之有效的方法逐漸得到越來(lái)越多的關(guān)注,它可以直接在訓(xùn)練階段,利用智能體與環(huán)境的交互數(shù)據(jù)中進(jìn)行試錯(cuò)學(xué)習(xí),具有較強(qiáng)的可拓展性,具有重大的發(fā)展前景。[0004]目前多智能體協(xié)同研究的主要方法一般分為三類,(1)每一個(gè)獨(dú)立決策的智能體都在本地建立對(duì)其他智能體策略的建模,并基于本地的交互信息與建模策略進(jìn)行個(gè)體決策。(2)利用超網(wǎng)絡(luò)在集中式訓(xùn)練階段進(jìn)行團(tuán)隊(duì)整體獎(jiǎng)勵(lì)的分解,以進(jìn)行智能體間的合理信用分配,從而基于強(qiáng)化學(xué)習(xí)方法隱式地促進(jìn)智能體之間的合作。(3)使能智能體之間的有效通信,每個(gè)智能體基于本地?cái)?shù)據(jù)和通信消息進(jìn)行決策從而達(dá)成合作。第一類方法通過(guò)主動(dòng)建模的方法來(lái)減少智能體決策過(guò)程中,其他動(dòng)態(tài)策略帶來(lái)的非平穩(wěn)性,但是隨著智能體數(shù)目的增加,建模的難度也會(huì)指數(shù)級(jí)增加,并且無(wú)法應(yīng)對(duì)復(fù)雜的合作任務(wù)。第二類算法通過(guò)直接與任務(wù)相關(guān)的團(tuán)隊(duì)獎(jiǎng)勵(lì)值來(lái)引導(dǎo)智能體合作,通過(guò)超網(wǎng)絡(luò)將團(tuán)隊(duì)獎(jiǎng)勵(lì)值的合理分解,可以使得多智能體系統(tǒng)的聯(lián)合行為策略收斂到滿足單調(diào)性限制的合作策略。第三類方法通過(guò)通信的方式,人為劃定或通過(guò)設(shè)計(jì)的特定網(wǎng)絡(luò)來(lái)生成通信消息,通過(guò)傳遞有效的消息,可以促進(jìn)智能體協(xié)同地完成團(tuán)隊(duì)目標(biāo)。在實(shí)際應(yīng)用中,由于第二類方法和第三類算法因?yàn)榫哂羞m宜的學(xué)習(xí)成本以及較強(qiáng)的泛化性,故而在大規(guī)模多智能體協(xié)同上具有更高的應(yīng)用價(jià)值。[0005]近年來(lái)流行的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方法主要是采用中心化訓(xùn)練,分布式執(zhí)行的范式來(lái)訓(xùn)練與部署智能體決策模型。在訓(xùn)練過(guò)程中,通過(guò)將所有智能體決策形成的聯(lián)合動(dòng)作與環(huán)境交互獲得的獎(jiǎng)勵(lì)信號(hào)進(jìn)行分解,實(shí)現(xiàn)智能體間的信度分配,通過(guò)在環(huán)境中不斷試錯(cuò)促進(jìn)各個(gè)個(gè)體策略網(wǎng)絡(luò)收斂到有效聯(lián)合合作策略。獎(jiǎng)勵(lì)信息的分解依賴于訓(xùn)練階段中可獲得全局智能體系統(tǒng)信息的超網(wǎng)絡(luò),其應(yīng)當(dāng)具備表征完整策略空間的能力。而在執(zhí)行階段,中心化的超網(wǎng)絡(luò)將會(huì)被移除,每個(gè)智能體僅依賴于自身的策略網(wǎng)絡(luò)進(jìn)行動(dòng)作的選擇。Rashid等人提出了一種多智能體值分解框架,該框架通過(guò)一個(gè)非負(fù)權(quán)重的非線性的超網(wǎng)絡(luò)將各個(gè)智能體獨(dú)立的Q函數(shù)進(jìn)行整合,從而在獎(jiǎng)勵(lì)信號(hào)的反向更新過(guò)程中實(shí)現(xiàn)信用分配5(TabishRashid,MikayelSamvelyan,ChristianSchroeder,GregoryFoerster,ShimonWhitesonQMMulti-agentReinforcementLearning[C]//Proceedingsofthe35thInternati略空間表征的難度(TWang,TGupta,BPeng,AMahajan,SWhiteson,andCZhang.2021.RODE:LearningRolestoDecomposeMulti-agentTasks[C]//InProceedingsoftheInternationalConferenceonRepresentations.OpenReview.)。通信學(xué)習(xí)是多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的另一重要的研究方數(shù)來(lái)作為通信消息,同時(shí)將從其他智能體處獲得的消息作為自身Q函數(shù)的偏置實(shí)現(xiàn)穩(wěn)定的動(dòng)作價(jià)值估計(jì),并通過(guò)引入通信正則來(lái)降低通信成本(LeiYuaZhang,ChengheWang,ZongzhangZhang,YangYu,andChongjieZhang.2022.Multi-AgentIncentiveCommunicationviaDecentralizedTeammate[0006]本發(fā)明針對(duì)以上問(wèn)題,提出了一種基于動(dòng)態(tài)圖通信的多智能體強(qiáng)化學(xué)習(xí)協(xié)同方通訊域要求來(lái)智能體的的自適應(yīng)通信,并在訓(xùn)練階段利用超網(wǎng)絡(luò)進(jìn)行智能體間的信用分6[0012]步驟3:基于步驟2的通信圖的權(quán)重和步驟1的通信圖進(jìn)行智能體間的觀測(cè)信息編[0013]步驟4:每個(gè)智能體根據(jù)本地交互數(shù)據(jù)和通信消息以及歷史信息利用動(dòng)作價(jià)值估[0014]步驟5:超網(wǎng)絡(luò)將所有的步驟4生成的動(dòng)作價(jià)值估計(jì)匯總,并基于全局信息完成智信圖G:=(3,E,w),其中G表示通信圖,碼為觀測(cè)編碼e,再根據(jù)權(quán)重生成器生成通信圖各邊的權(quán)重。通信的智能體i和智能體j,i,j∈J。最后對(duì)每一個(gè)智能體的所有可通信智能體的權(quán)重進(jìn)行7[0032]其中GRU(·)表示門控循環(huán)單元神經(jīng)網(wǎng)絡(luò),e和m{分別表示當(dāng)前t時(shí)刻智能體i的8附圖說(shuō)明[0054]其中a(·)表示單層的非線性網(wǎng)絡(luò),④表示相連拼接操作,e和e分別表示任意可通信的智能體i和智能體j,i,j∈J。最后對(duì)每一個(gè)智能體的所有可通信智能體的權(quán)重進(jìn)行[0057]若使用相似性度量的權(quán)重生成器,則將上述的非線性網(wǎng)絡(luò)替換為內(nèi)積相似性度9[0061]如圖2所示,根據(jù)步驟1獲得的通信圖和步驟2獲得的通信權(quán)重,生成智能體的通信[0063]再如圖2所示,將對(duì)應(yīng)的消息發(fā)送給對(duì)應(yīng)的玩家單位。[0065]如圖2所示,根據(jù)步驟3獲得的通信消息與智能體的本地觀測(cè)數(shù)據(jù)和歷史數(shù)據(jù),利用圖2中的GRU網(wǎng)絡(luò)生成當(dāng)前時(shí)刻的信息表征h:觀測(cè)信息、通信消息,h-1表示智能體歷史信息。再利用圖2所示的動(dòng)作價(jià)值估計(jì)網(wǎng)絡(luò)基于此進(jìn)行動(dòng)作價(jià)值估計(jì):[0069]其中a表示智能體i的可選動(dòng)作,0表示智能體的動(dòng)作價(jià)值估計(jì)網(wǎng)絡(luò)的參數(shù)。[0070]再根據(jù)獲得的個(gè)體動(dòng)作價(jià)值估計(jì),進(jìn)行聯(lián)合動(dòng)作價(jià)值估計(jì):[0072]其中s表示智能體系統(tǒng)的整體狀態(tài),Qto表示聯(lián)合動(dòng)作的價(jià)值估計(jì),a表示智能體系統(tǒng)的聯(lián)合動(dòng)作。[0073]4、反向更新各網(wǎng)絡(luò)可學(xué)習(xí)參數(shù)[0074]如圖2所示,根據(jù)步驟5獲得的聯(lián)合動(dòng)作價(jià)值估計(jì)與實(shí)際從游戲系統(tǒng)獲取的獎(jiǎng)勵(lì)之作價(jià)值估計(jì)網(wǎng)絡(luò),以及超網(wǎng)絡(luò)的參數(shù),s表示下一時(shí)刻狀態(tài),a表示下一時(shí)刻的聯(lián)合動(dòng)作價(jià)值估計(jì),Qtot表示動(dòng)作價(jià)值估計(jì)網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò),γ表示折扣系數(shù)。[0078]如圖3所示,將上述步驟訓(xùn)練的收斂模型或到達(dá)指定訓(xùn)練步數(shù)的n個(gè)個(gè)體網(wǎng)絡(luò)以及權(quán)重生成器,去除超網(wǎng)絡(luò)并

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論