強(qiáng)化學(xué)習(xí) 課件 第4章 基于價(jià)值的強(qiáng)化學(xué)習(xí)_第1頁(yè)
強(qiáng)化學(xué)習(xí) 課件 第4章 基于價(jià)值的強(qiáng)化學(xué)習(xí)_第2頁(yè)
強(qiáng)化學(xué)習(xí) 課件 第4章 基于價(jià)值的強(qiáng)化學(xué)習(xí)_第3頁(yè)
強(qiáng)化學(xué)習(xí) 課件 第4章 基于價(jià)值的強(qiáng)化學(xué)習(xí)_第4頁(yè)
強(qiáng)化學(xué)習(xí) 課件 第4章 基于價(jià)值的強(qiáng)化學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章基于價(jià)值的強(qiáng)化學(xué)習(xí)北京大學(xué)余欣航目錄狀態(tài)-動(dòng)作價(jià)值函數(shù)SarsaQ-learningDQN狀態(tài)-動(dòng)作價(jià)值函數(shù)環(huán)境已知的MDP問(wèn)題

環(huán)境未知的MDP問(wèn)題

與環(huán)境交互

如何學(xué)習(xí)

時(shí)間差分學(xué)習(xí)(Temporal-Differencelearning)

狀態(tài)-動(dòng)作價(jià)值函數(shù)的引入

狀態(tài)-動(dòng)作價(jià)值函數(shù)

SarsaSarsa

估計(jì)作為目標(biāo)值預(yù)測(cè)值Q表(Q-table)

…-2102-1101-1……Q表Sarsa算法流程

Sarsa舉例

Step1:初始化Q表上下左右開(kāi)始0000一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000

Q表

上下左右開(kāi)始0000.1一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000Q表Step5:利用Q表求出最佳策略上下左右開(kāi)始-11.5-12一個(gè)香蕉-1-301空區(qū)域-130-1兩個(gè)香蕉0-1-1-3炸彈區(qū)域0000三個(gè)香蕉0000Q表中狀態(tài)??所在行的最大值所對(duì)應(yīng)的動(dòng)作??即為當(dāng)前狀態(tài)下的最佳策略Q表n-stepSarsa

Q-learningQ-learning

目標(biāo)值預(yù)測(cè)值Q-learning算法流程

Q-learning舉例

Step1:初始化Q表上下左右開(kāi)始0000一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000

Q表Step2:狀態(tài)??下選擇動(dòng)作??

上下左右開(kāi)始0000.1一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000Q表Step4:利用Q表求出最佳策略上下左右開(kāi)始-11.5-12一個(gè)香蕉-1-301空區(qū)域-130-1兩個(gè)香蕉0-1-1-3炸彈區(qū)域0000三個(gè)香蕉0000

Q表Q-learning與SarsaSarsa和Q-learning是兩種常用的無(wú)模型強(qiáng)化學(xué)習(xí)算法兩種算法均基于Q表,適合狀態(tài)和動(dòng)作離散的問(wèn)題Sarsa中從環(huán)境產(chǎn)生數(shù)據(jù)的策略和更新Q值的策略相同(on-policy);Q-learning中從環(huán)境產(chǎn)生數(shù)據(jù)的策略和更新Q值策略不同(off-policy)Q-learning通常收斂更快,實(shí)際中更常用懸崖尋路問(wèn)題目標(biāo)是從起點(diǎn)移動(dòng)到終點(diǎn)可以采取上、下、左、右四種動(dòng)作進(jìn)行移動(dòng)到達(dá)除懸崖以外的方格獎(jiǎng)勵(lì)為-1到達(dá)懸崖獎(jiǎng)勵(lì)為-100并返回起點(diǎn)離開(kāi)方格的動(dòng)作會(huì)保持當(dāng)前狀態(tài)不動(dòng)并獎(jiǎng)勵(lì)-1懸崖尋路問(wèn)題:Q-learning和Sarsa的表現(xiàn)Q-leaning:沿著最短路徑進(jìn)行Q值的學(xué)習(xí),容易進(jìn)入懸崖,導(dǎo)致每次迭代的累積獎(jiǎng)勵(lì)較少迭代速度較快Sarsa:沿著較長(zhǎng)但安全的路徑進(jìn)行Q值的學(xué)習(xí),每次迭代的累積獎(jiǎng)勵(lì)較多迭代速度較慢Q-learningSarsaDQNQ表的局限性在Q-learning和Sarsa中,狀態(tài)和動(dòng)作離散,使用Q表來(lái)保存Q值當(dāng)狀態(tài)或動(dòng)作數(shù)量很大或者為連續(xù)值時(shí),使用Q表不再有效吃豆人馬里奧兄弟

值函數(shù)近似

Q表值函數(shù)近似

Q-tableDeepQNetwork一種結(jié)合了深度學(xué)習(xí)和Q-learning的強(qiáng)化學(xué)習(xí)算法適合狀態(tài)數(shù)量很大,動(dòng)作數(shù)量較少的問(wèn)題,例如Atari游戲使用深度神經(jīng)網(wǎng)絡(luò)近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.DeepQNetwork

如何訓(xùn)練

DQN算法流程

DQN的改進(jìn)使用神經(jīng)網(wǎng)絡(luò)近似Q值時(shí),強(qiáng)化學(xué)習(xí)過(guò)程并不穩(wěn)定甚至?xí)l(fā)散,主要原因有:數(shù)據(jù)存在一定相關(guān)性數(shù)據(jù)非平穩(wěn)分布目標(biāo)Q值和預(yù)測(cè)Q值存在參數(shù)聯(lián)系針對(duì)上述問(wèn)題,后續(xù)學(xué)者對(duì)DQN做出了一些改進(jìn):經(jīng)驗(yàn)回放(experiencereplay):應(yīng)對(duì)數(shù)據(jù)相關(guān)性和非平穩(wěn)分布問(wèn)題目標(biāo)網(wǎng)絡(luò)(targetnetwork):引入新網(wǎng)絡(luò)計(jì)算目標(biāo)Q值,減輕與預(yù)測(cè)Q值的參數(shù)聯(lián)系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.經(jīng)驗(yàn)回放樣本緩存區(qū)(replaybuffer):與環(huán)境交互時(shí),將產(chǎn)生的數(shù)據(jù)存儲(chǔ)在緩存區(qū)中均勻地隨機(jī)采樣一批數(shù)據(jù)提供給神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練若緩存區(qū)數(shù)據(jù)已滿,用新數(shù)據(jù)覆蓋最舊的數(shù)據(jù)帶經(jīng)驗(yàn)回放的DQN算法流程

目標(biāo)網(wǎng)絡(luò)目標(biāo)Q值和預(yù)測(cè)Q值之間存在參數(shù)聯(lián)系,每次更新的目標(biāo)都是固定上次更新的參數(shù)得來(lái)的,優(yōu)化目標(biāo)跟著優(yōu)化過(guò)程一直在變,迭代難以收斂:引入一個(gè)與原始網(wǎng)絡(luò)結(jié)構(gòu)一樣的模型,稱為目標(biāo)網(wǎng)絡(luò)(targetnetwork),原模型稱為表現(xiàn)網(wǎng)絡(luò)(behaviornetwork),目標(biāo)網(wǎng)絡(luò)計(jì)算Q-learning中的目標(biāo)Q值,每當(dāng)完成一定輪數(shù)迭代,表現(xiàn)網(wǎng)絡(luò)的參數(shù)同步給目標(biāo)網(wǎng)絡(luò)targetnetworkbehaviornetworkUpdatetargetQpredictQMSE預(yù)測(cè)Q值(predictQ):目標(biāo)Q值(targetQ):

帶經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)的DQN算法流程

DQN的表現(xiàn)右圖展示的是DQN在50多種Atari游戲上的表現(xiàn)圖中可以看到:DQN幾乎在所有游戲的表現(xiàn)上都高于歷史最好的強(qiáng)化學(xué)習(xí)方法對(duì)于半數(shù)以上的游戲,DQN的表現(xiàn)已經(jīng)超越了人類狀態(tài)與動(dòng)作連續(xù)的MDPDQN能處理離散動(dòng)作空間的MDP問(wèn)題,但不能處理連續(xù)動(dòng)作空間的MDP問(wèn)題例如自動(dòng)駕駛問(wèn)題:狀態(tài)連續(xù):傳感器捕捉到的當(dāng)前路況圖像動(dòng)作連續(xù):操作方向盤(pán)、踩油門、剎車等動(dòng)作,方向盤(pán)轉(zhuǎn)動(dòng)的角度與加速度都是連續(xù)的NAF

GuS,LillicrapT,SutskeverI,etal.Continuousdeepq-learningwithmodel-basedacceleration[C]//InternationalConferenceonM

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論