強(qiáng)化學(xué)習(xí)基本原理與編程實(shí)現(xiàn)10多智能體_第1頁
強(qiáng)化學(xué)習(xí)基本原理與編程實(shí)現(xiàn)10多智能體_第2頁
強(qiáng)化學(xué)習(xí)基本原理與編程實(shí)現(xiàn)10多智能體_第3頁
強(qiáng)化學(xué)習(xí)基本原理與編程實(shí)現(xiàn)10多智能體_第4頁
強(qiáng)化學(xué)習(xí)基本原理與編程實(shí)現(xiàn)10多智能體_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多智家物條金物物智體智能2CollegeofArtificialIn按照任務(wù)的類型可以分為三完全協(xié)作多智能體系完全競爭多智能體系混合策略多智能體系L.Busoniu,R.Babuska,B.D.AComprehensiveSurveyofMulti- mentCollegeofArtificial 強(qiáng)化學(xué)習(xí)算法用于多智能體系統(tǒng)決策過程假設(shè)環(huán)境是靜態(tài)的。從單智體的視角看,其他智能體都是動(dòng)態(tài)的環(huán)境博弈論:無狀態(tài)轉(zhuǎn)移的策略博弈(多智能體之間的交互,如協(xié)作和競爭博弈:涉及狀態(tài)轉(zhuǎn)移的CollegeofArtificial 根據(jù)參與人行動(dòng)的先后順序

表述(normalform):矩陣博弈型表述(extensiveform):博弈樹根據(jù)參與人對(duì)特征 空間是否已知完美信息博弈:參與不完美信息博弈:參與人對(duì)相關(guān)信息并不完全知道,如牌類游戲完美信息靜態(tài)博弈,完美信CollegeofArtificial 參與者:參與博弈的智能體動(dòng)作空間:參與博弈的智能體i的動(dòng)作記 聯(lián)合動(dòng)作為:n個(gè)參與者的行動(dòng)的有序

表示可供i擇的所用行動(dòng)的集策略:參與者在當(dāng)前情況下動(dòng)作空間上的分布。我們 表示第i個(gè)玩家的策略純策略 ):玩家i選擇某一行為的概率為1,而其他動(dòng)作選擇概率為 ):玩家i選擇某一行為的概率小于1 CollegeofArtificial 回報(bào)函數(shù):參與者在聯(lián)合行 下所獲得的回報(bào),記值函數(shù):參與者在聯(lián)合策略下的值函CollegeofArtificialIn例子:困

參與者動(dòng)作空間:{坦白,抵賴回報(bào)函數(shù):如上回報(bào)矩策略:兩個(gè)如何是選擇坦白還是抵

零和博 之博弈論的CollegeofArtificial 在博弈論中,玩家的函數(shù)依賴于其他玩家的策略因此,玩家不能只簡單地最大化個(gè)人的收益,因?yàn)橥婕彝煌瑫r(shí)實(shí)現(xiàn)個(gè) Bestresponse:當(dāng)其他玩家策略固定時(shí),最好的策略之R *)R ')'A 均衡策略:當(dāng)所有玩家都是bestresponse時(shí),稱 均衡

CollegeofArtificialIn均衡策略(Nash個(gè)人是理性用 示略則略應(yīng)滿:困境的均衡策略是什么“坦白,坦白”對(duì)于來說是均衡策CollegeofArtificial 矩陣博弈:雙人聯(lián)合行為對(duì)所對(duì)應(yīng)的元素構(gòu)成矩陣,因此稱為矩陣博雙人策略為對(duì)于玩家i來說,值函數(shù)為 雙人矩陣博弈的均衡是指策略 ,滿足求解雙人零和矩陣博弈中的均衡等價(jià)于求解下列方程的最小解 CollegeofArtificial 求解雙人零和矩陣博弈中 均衡等價(jià)于求解下列方程的最小解轉(zhuǎn)化為線性規(guī)劃的方給定一 的矩陣 線性優(yōu)化問題現(xiàn)實(shí)的多智能體涉及到轉(zhuǎn)態(tài)的轉(zhuǎn)移!如何去描述 博

CollegeofArtificial 博弈隨機(jī)博弈博弈n為玩家的個(gè)數(shù)。聯(lián)合動(dòng)作空

聯(lián)合策

來描述。其聯(lián)合狀態(tài)轉(zhuǎn)移概聯(lián)合立即回報(bào)局部策

每個(gè)智能體的行為值聯(lián)合策略下的行為值函CollegeofArtificial 智智能體智能體聯(lián)合動(dòng)環(huán)境智能體CollegeofArtificialIn對(duì)于智能體iV(s)Etr(t1)|s(0)s t 其中 ,n多智能體的值函數(shù)的大小不僅依賴于自己的策略

,還依賴于其他智能體的策 CollegeofArtificial 多智能體強(qiáng)化學(xué)習(xí)的Qlearning算基于值函數(shù)的多智能體強(qiáng)化學(xué)習(xí)CollegeofArtificialIn與單估計(jì)的值函數(shù)Q(s,a)不對(duì)于每個(gè)智能體,估計(jì)聯(lián)合動(dòng)作值函數(shù):Q(s,對(duì)于智能體i,估計(jì)依賴于動(dòng)作 的行為值函數(shù)因此,智能體i在更新行為值函數(shù)的時(shí)候,必須觀測其他智能體的動(dòng)CollegeofArtificialIn多智能體強(qiáng)化學(xué)習(xí)的Qlearning算如何得到下一個(gè)狀態(tài)處Qk(s,a)Qk(s,a)Rk(s,a)Vk(s')Qk(s,對(duì)手建模的 )

c(s,akk計(jì)算值函k

k

Vk(s)maxQ(s,ak)

akA

F(s,ak)Q(s,ak,akCollegeofArtificialIn多智能體強(qiáng)化學(xué)習(xí)的Qlearning算如何得到下一個(gè)狀態(tài)處的值Qk(s,a)Qk(s,a)Rk(s,a)Vk(s')Qk(s,假設(shè)對(duì)手按照某種規(guī)則選擇動(dòng)作,如零和博弈中的最小最大Vk(s)mina'maxAaQs,a,a假設(shè)智能體在下一個(gè)狀態(tài)處都執(zhí)行均衡策略,Nash-Q/相關(guān)均衡/Stackelberg,QnVk(s)Nashk(s,QnCollegeofArtificialIn完全協(xié)作強(qiáng)化學(xué)習(xí)算mentLearningofDronesformentLearningofDronesforField

CollegeofArtificial

完全競爭:MinimaxQlearning算 CollegeofArtificialIn混合任務(wù) Q學(xué)CollegeofArtificial 混合任務(wù):朋友或敵人Q學(xué)對(duì)于一般和隨機(jī)博弈,對(duì)于玩家i他玩家或者是朋友或者是敵人。玩家的朋友被當(dāng)成是合作伙伴,一起工作共同最大化玩家的值;而對(duì)于玩家的敵人,則敵人一起令玩家iCollegeofArtificialIn4.混合任務(wù):WoLF策略爬山算前面三種強(qiáng)化學(xué)習(xí)算法需要智能體維持它們的Q函數(shù)。每個(gè)玩家的Q函數(shù)包括其他玩家 “WinorLearnFast”:當(dāng)學(xué)習(xí)者做得比期望的差很多時(shí),需要快速學(xué)習(xí)(快速調(diào)整權(quán)重當(dāng)做得比期望的好時(shí),謹(jǐn)慎學(xué)習(xí)(謹(jǐn)慎調(diào)整權(quán)重)hill-climbing:策略爬山算法策略爬山算法僅僅能保證在靜態(tài)環(huán)境下對(duì)于單智能體收斂到CollegeofArtificial 混合任務(wù):WoLF策略爬山CollegeofArtificialIn基于微分對(duì)策運(yùn)動(dòng)學(xué)方性能指標(biāo)函數(shù):定義雙人-零和微分對(duì)策 得到Hamilton-Jacobi-IsaacsCollegeofArtificial 第九次作分組閱讀多智能體強(qiáng)化Multi-AgentActor-Criticfor petitiveActor-Attention-CriticforMulti-AgentRein mentLearning03CounterfactualMulti-Agent QMIX:MonotonicValueFunctionFactorisationforDeepMulti-Agent mentGrandmaster

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論