深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第10章 強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐_第1頁(yè)
深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第10章 強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐_第2頁(yè)
深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第10章 強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐_第3頁(yè)
深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第10章 強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐_第4頁(yè)
深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第10章 強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐第十章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第2頁(yè)10.4策略梯度強(qiáng)化學(xué)習(xí)方法10.1強(qiáng)化學(xué)習(xí)概述10.3表格型強(qiáng)化學(xué)習(xí)方法10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論10.5實(shí)踐項(xiàng)目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第3頁(yè)10.1強(qiáng)化學(xué)習(xí)概述機(jī)器學(xué)習(xí)回顧無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)分類回歸……聚類……DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第4頁(yè)10.1強(qiáng)化學(xué)習(xí)概述機(jī)器學(xué)習(xí)與其他機(jī)器學(xué)習(xí)的關(guān)系DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第5頁(yè)10.1強(qiáng)化學(xué)習(xí)概述機(jī)器學(xué)習(xí)系統(tǒng)兩部分三要素環(huán)境智能體狀態(tài)/觀測(cè)值動(dòng)作獎(jiǎng)勵(lì)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第6頁(yè)10.1強(qiáng)化學(xué)習(xí)概述MountainCar環(huán)境:整個(gè)游戲智能體:小車動(dòng)作:向左施力、向右施力、不施力獎(jiǎng)勵(lì)信號(hào):是否到達(dá)右側(cè)山峰旗幟處狀態(tài):小車的位置MountainCar兩部分三要素環(huán)境智能體狀態(tài)/觀測(cè)值動(dòng)作獎(jiǎng)勵(lì)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第7頁(yè)10.1強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)目標(biāo)智能體唯一目標(biāo):最大化長(zhǎng)期總收益策略價(jià)值函數(shù)價(jià)值函數(shù)環(huán)境建模(可選)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第8頁(yè)10.1強(qiáng)化學(xué)習(xí)概述監(jiān)督學(xué)習(xí)玩MountainCar神經(jīng)網(wǎng)絡(luò)各方向施力的概率反向傳播在MountainCar中,無法定義正確動(dòng)作的標(biāo)簽。即使定義了標(biāo)簽,數(shù)據(jù)之間的序貫性也使得模型難以訓(xùn)練DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第9頁(yè)10.1強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)玩MountainCar右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:讓智能體嘗試游玩,對(duì)狀態(tài)、動(dòng)作進(jìn)行采樣,游戲結(jié)束后對(duì)每個(gè)動(dòng)作進(jìn)行獎(jiǎng)懲DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第10頁(yè)10.1強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)面臨的問題右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:1.輸入的數(shù)據(jù)間具有強(qiáng)烈的序貫性2.訓(xùn)練過程中存在獎(jiǎng)勵(lì)延遲現(xiàn)象DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第11頁(yè)10.1強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)學(xué)習(xí)方式探索與利用舊飯店吃好吃的探索新飯店優(yōu)秀的探店博主應(yīng)用層DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第12頁(yè)10.1強(qiáng)化學(xué)習(xí)概述按環(huán)境模型分類環(huán)境建模(可選)基于模型無模型1.動(dòng)態(tài)規(guī)劃2.…1.Q-learning2.DQN3.…DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第13頁(yè)10.1強(qiáng)化學(xué)習(xí)概述按學(xué)習(xí)目標(biāo)分類對(duì)智能體的訓(xùn)練可以分為基于價(jià)值和基于策略策略價(jià)值函數(shù)價(jià)值函數(shù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第14頁(yè)10.1強(qiáng)化學(xué)習(xí)概述按學(xué)習(xí)目標(biāo)分類確定性策略隨機(jī)性策略DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第15頁(yè)10.1強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)分類強(qiáng)化學(xué)習(xí)有模型無模型基于價(jià)值基于策略動(dòng)態(tài)規(guī)劃……Q-learning……策略梯度……DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第16頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論馬爾可夫過程(MP)馬爾科夫性質(zhì):一個(gè)隨機(jī)過程在給定現(xiàn)在狀態(tài)和所有過去狀態(tài)的情況下,其未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài)馬爾科夫過程:一個(gè)滿足馬爾科夫性質(zhì)的隨機(jī)過程。其未來的轉(zhuǎn)移和過去是獨(dú)立的DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第17頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論機(jī)器人回收問題回收機(jī)器人狀態(tài)高電平低電平動(dòng)作搜索等待充電DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第18頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論馬爾可夫決策過程(MDP)

p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1sas’P(s’|s,a)R(s,a,s’)高搜索高α1高搜索低1-α1低搜索高1-β-3低搜索低β1高等待高1-1高等待低0-1低等待高0-1低等待低1-1低充電高10低充電低00狀態(tài)轉(zhuǎn)移過程折扣累計(jì)回報(bào)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第19頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論值函數(shù)狀態(tài)值函數(shù)動(dòng)作值函數(shù)s0(r1,s1)(r3,s3)s0(r2,s2)(r4,s4)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第20頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論有模型方法α與β均為已知參數(shù),問題的全局信息已知。智能體無需與環(huán)境進(jìn)行互動(dòng)。此時(shí)問題為一動(dòng)態(tài)規(guī)劃問題,可以很方便求解。通過策略迭代方法或值迭代方法求解狀態(tài)值函數(shù)V,從而獲得最優(yōu)解。有模型強(qiáng)化學(xué)習(xí)策略評(píng)估策略改善動(dòng)態(tài)規(guī)劃DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第21頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論動(dòng)態(tài)規(guī)劃障礙物R:-1終點(diǎn)R:1/people/karpathy/reinforcejs/gridworld_dp.htmlDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第22頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論動(dòng)態(tài)規(guī)劃策略評(píng)估策略更新DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第23頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論動(dòng)態(tài)規(guī)劃策略評(píng)估策略更新DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第24頁(yè)10.2強(qiáng)化學(xué)習(xí)基礎(chǔ)理論動(dòng)態(tài)規(guī)劃算法收斂?jī)?yōu)點(diǎn)缺點(diǎn)1.難以處理連續(xù)動(dòng)作與連續(xù)狀態(tài)問題2.需要環(huán)境模型完全已知,這在實(shí)踐中幾乎無法做到1.在數(shù)學(xué)上可以精確表達(dá)與分析2.處理小規(guī)模問題時(shí),表現(xiàn)穩(wěn)定且收斂速度較快DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第25頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法無模型方法p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1α與β均為未知參數(shù),這時(shí)需要智能體與環(huán)境進(jìn)行交互,從而選擇合適的策略使得獎(jiǎng)勵(lì)最大化無模型強(qiáng)化學(xué)習(xí)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第26頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法表格型思想搜索等待充電高000低000Q表格狀態(tài)值函數(shù)動(dòng)作值函數(shù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第27頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法蒙特卡洛思想

累計(jì)折扣收益累計(jì)折扣收益期望近似狀態(tài)值函數(shù)蒙特卡洛方法難以應(yīng)用于無終止的問題,但其思想可以與其他方法結(jié)合DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第28頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法時(shí)序差分(TD)蒙特卡洛方法

時(shí)序差分法TD(0)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第29頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法基于時(shí)序差分法的Sarsa算法時(shí)序差分法TD(0)

Sarsa算法

TDtargetSarsa算法需要用到s,a,r,s’,a’五個(gè)參數(shù),故名SarsaTDerrorDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第30頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法基于時(shí)序差分法的Q-learningQ-learningSarsa算法

異策略off-policy相較于Sarsa,Q-learing更具有試探性

同策略on-policyDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第31頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第32頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題

【解】可將該網(wǎng)格游戲看成是一個(gè)馬爾科夫決策過程,其中狀態(tài)空間包括當(dāng)前位置、陷阱位置、目標(biāo)位置以及空位置,并將兩個(gè)陷阱位置設(shè)為同一個(gè)狀態(tài),決策空間包括上下左右四個(gè)動(dòng)作,分別用0,1,2,3表示,如下圖所示。

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第33頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題(Sarsa)

第1次迭代:設(shè)置初始位置的狀態(tài)動(dòng)作值函數(shù)取值均為0,如下表所示:

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第34頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題(Sarsa)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第35頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題(Sarsa)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第36頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題(Sarsa)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第37頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法尋路問題算法結(jié)果DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第38頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法值函數(shù)近似替代方法表格型Q函數(shù)線性Q函數(shù)非線性Q函數(shù)深度學(xué)習(xí)Q函數(shù)簡(jiǎn)單復(fù)雜

TDerror損失函數(shù)最小化Sarsa算法

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第39頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DQN目標(biāo)函數(shù)經(jīng)驗(yàn)回放機(jī)制網(wǎng)絡(luò)設(shè)計(jì)

預(yù)測(cè)網(wǎng)絡(luò)目標(biāo)網(wǎng)絡(luò)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第40頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DQNQ表格神經(jīng)網(wǎng)絡(luò)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第41頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DQNDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第42頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DDQN通過Q-eval選取最大Q值對(duì)應(yīng)動(dòng)作根據(jù)動(dòng)作計(jì)算Q-target目標(biāo)函數(shù):Q-eval–Q-target

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第43頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DDQNDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第44頁(yè)10.3表格型強(qiáng)化學(xué)習(xí)方法DRQNReplayMemory經(jīng)驗(yàn)池存儲(chǔ)內(nèi)存有限LSTM記憶DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第45頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法基于策略的強(qiáng)化學(xué)習(xí)方法Q-learning

由價(jià)值函數(shù)產(chǎn)生策略基于策略

價(jià)值不同采取動(dòng)作概率不同DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第46頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法隨機(jī)性策略與確定性策略隨機(jī)性策略確定性策略輸出動(dòng)作概率分布輸出確定動(dòng)作DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第47頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法隨機(jī)性策略方法梯度下降法蒙特卡洛思想目標(biāo)函數(shù)

評(píng)價(jià)函數(shù)策略梯度定理

評(píng)價(jià)函數(shù)動(dòng)作值函數(shù)

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第48頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法Actor-Critic蒙特卡洛梯度下降法蒙特卡洛方法帶來較大的噪聲和誤差,無法相對(duì)準(zhǔn)確地描述動(dòng)作值函數(shù)

演員評(píng)論家算法

ActorCriticDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第49頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法Actor-CriticMC-AC算法A3C算法/princewen/tensorflow_practice/tree/master/RL/Basic-AC-DemoA2C算法DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第50頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法MountainCarTRPO算法AC算法訓(xùn)練過程中采用固定步長(zhǎng)使得算法存在發(fā)散的可能性PPO算法獎(jiǎng)勵(lì)函數(shù)單調(diào)不減重要性采樣保守策略迭代KL散度替換訓(xùn)練步長(zhǎng)TRPO的近似版本目標(biāo)函數(shù)引入KL散度目標(biāo)函數(shù)修剪項(xiàng)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第51頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法DQN與AC的優(yōu)缺點(diǎn)DQNAC確定性策略和off-policy隨機(jī)性策略和on-policy算法收斂快無法處理連續(xù)問題可以處理連續(xù)問題算法收斂慢DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第52頁(yè)10.3策略梯度強(qiáng)化學(xué)習(xí)方法DDPGDQNACDDPGDPG早前的研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論