《機器學習》課件-第6章 強化學習_第1頁
《機器學習》課件-第6章 強化學習_第2頁
《機器學習》課件-第6章 強化學習_第3頁
《機器學習》課件-第6章 強化學習_第4頁
《機器學習》課件-第6章 強化學習_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025/9/13計算機應用技術研究所11機器學習MachineLearning2025/9/13計算機應用技術研究所2第6章強化學習

2025/9/13

基本強化學習2

示例強化學習3

強化學習概述14

本章學習內容2025/9/13計算機應用技術研究所4強化學習概述2025/9/13計算機應用技術研究所5強化學習概述

強化學習基本知識馬爾科夫模型強化學習計算方式強化學習概述

強化學習主要通過不斷獲取外部環(huán)境反饋信息的方式實現對連續(xù)多步自動決策問題的優(yōu)化求解,所要解決的問題形式和所涉及的基本概念與前述監(jiān)督學習和無監(jiān)督學習方式都有著較大差異。

強化學習的具體過程主要是智能體與其外部環(huán)境之間進行不斷地動態(tài)交互過程,通常采用馬爾可夫模型表示這種動態(tài)交互過程并通過策略迭代、值迭代和策略搜索等方式進行優(yōu)化計算,獲得最優(yōu)的連續(xù)性多步決策。72025/9/13強化學習引入

序貫決策過程是在游戲博弈或對弈等應用場合完成任務時需要連續(xù)進行多步決策的過程;

序貫決策問題是如何讓計算機像人類一樣能夠自動進行合理的序貫決策。

強化學習的目標是通過機器學習方式有效解決序貫決策問題,或者說通過機器學習方式實現對連續(xù)多步自動決策問題的優(yōu)化求解。82025/9/13強化學習特點

區(qū)別于監(jiān)督學習以明確的樣本標簽作為經驗數據或先驗知識直接告訴模型該如何完成指定任務,強化學習主要通過學習先驗知識尋找最優(yōu)決策過程。

強化學習使用的經驗數據或先驗知識則較為模糊,通常是由智能體所處環(huán)境提供的某種反饋信息。

92025/9/13強化學習構成

如上圖所示:強化學習系統(tǒng)主要包括智能體、動作、系統(tǒng)環(huán)境

、狀態(tài)、獎勵或反饋這五個基本要素。

102025/9/13強化學習構成

智能體是行為的執(zhí)行者,在實際應用中可能是一個游戲玩家、一個棋手或一輛自動駕駛的汽車等;

動作是智能體發(fā)出的行為,例如在自動駕駛任務中汽車向右轉彎便是一個動作;

系統(tǒng)環(huán)境是智能體所處的外部環(huán)境,也是智能體的交互對象,例如在自動駕駛任務中系統(tǒng)環(huán)境便是實際的交通環(huán)境。

112025/9/13強化學習構成

狀態(tài)是智能體當前所處的可觀察狀態(tài),如自動駕駛任務中的汽車速度、汽車與路邊的距離等。

獎勵或反饋是系統(tǒng)環(huán)境能夠對智能體的行為做出的某種合理評價。例如可將汽車自動駕駛的安全行駛里程數作為反饋信息。

強化學習的目標是使得智能體的動作滿足某一任務需求,例如希望自動駕駛汽車能夠通過一系列自動操作安全駕駛到目的地。122025/9/13強化學習模型

通過能否建立環(huán)境模型,將強化學習劃分為兩種:有模型強化學習和無模型強化學習。

有模型強化學習:強化學習通過建立環(huán)境模型來對智能體和系統(tǒng)環(huán)境進行模擬,并且系統(tǒng)環(huán)境滿足已知且有限。

132025/9/13強化學習模型

系統(tǒng)環(huán)境有限指的是動作集合,獎勵集合,狀態(tài)集合為有限集。

系統(tǒng)環(huán)境已知指的是在智能體選擇某一動作時環(huán)境給予的獎勵值為已知,并且在動作執(zhí)行后環(huán)境的狀態(tài)改變?yōu)橐阎?/p>

不能或難以建立環(huán)境模型的強化學習稱為無模型強化學習。142025/9/13值函數引入

值函數描述了從當前動作開始到將來的某一個動作執(zhí)行完畢為止所獲累計獎勵值,故值函數是對多次連續(xù)動作滿意度的度量。

由于強化學習的目的是使得智能體一系列的動作滿足任務需求,故通常將值函數作為強化學習優(yōu)化計算的目標函數。152025/9/13面臨的挑戰(zhàn)

強化學習的目的是使得智能體一系列的動作滿足任務需求,能夠綜合考慮一段時間內智能體的相關動作是否能得到最優(yōu)的回報,根據累計回報確定最優(yōu)策略。然而,強化學習在解決序貫決策問題也面臨著如下挑戰(zhàn):

(1)收斂速度慢

(2)探索未知和利用已知的平衡

(3)時間權重分配162025/9/13收斂速度慢

收斂速度慢與維數災難問題有著密切的關系。多數強化學習算法收斂到最優(yōu)解的理論保障都是建立在任意狀態(tài)都能被無限次訪問到這個前提條件之上。

當問題環(huán)境比較復雜或出現維數災難問題時,智能體的探索策略不能保證每個狀態(tài)都能在有限的時間內被訪問足夠多的次數,因而智能體沒有足夠經驗能夠在這些較少遇到的狀態(tài)下做出正確決策,導致算法的收斂速度較慢。172025/9/13探索平衡

強化學習會經常面臨利用已經學到知識還是對未知知識進行探索的平衡難題。產生這個問題的根源在于難以權衡長期利益和短期利益。

一方面為了獲得較高的獎賞,智能體需要利用學到的經驗在已經探索過的動作中貪心地選擇一個獲益最大的動作;

另一方面,為了發(fā)現更好的策略,智能體需要擴大探索范圍,嘗試以前沒有或較少試過的動作。若不能權衡好兩者的關系,智能體就處于進退兩難境地。182025/9/13時間權重分配

由于強化學習具有回報延遲的特點,即環(huán)境反饋給智能體的信息比較稀疏且有一定延時,故當智能體收到一個獎賞信號時,決定先前的哪些行為應分配到多大權重有時比較困難。

例如,某籃球隊若在比賽最后一刻壓哨絕殺獲得比賽勝利,則難以量化計算之前的每個決策對于這個勝利結果究竟做出多少貢獻。2025/9/13計算機應用技術研究所19強化學習概述強化學習基本知識馬爾科夫模型強化學習計算方式馬爾科夫鏈

馬爾科夫過程

對于給定的有限狀態(tài)集合和狀態(tài)轉移概率分布,從某一個狀態(tài)出發(fā)所能獲得的馬爾可夫鏈可能不只一條。

為表示所有可能存在的馬爾可夫鏈狀態(tài)轉移過程,通常使用馬爾可夫過程定量表示這種由多個馬爾可夫鏈并發(fā)形成的狀態(tài)轉移過程。

馬爾科夫過程

馬爾科夫過程

馬爾科夫決策過程

馬爾科夫決策過程

上圖表示一個狀態(tài)空間規(guī)模為4的馬爾科夫決策過程強化學習狀態(tài)轉移

確定轉移

隨機轉移

累計反饋

累計反饋

累計反饋

累計反饋

強化學習中確定累計反饋的基本流程圖

累計反饋

強化學習策略

在某個狀態(tài)下選擇某個或某些動作的方式被稱為強化學習的策略。

其中選擇某個或某些確定動作的策略稱為確定策略,從多個可能動作中依概率選擇某個或某些動作的策略稱

為隨機策略。

確定策略

隨機策略

累計反饋期望

累計反饋期望

累計反饋期望

動作值函數

動作值函數

動作值函數

最優(yōu)值函數

最優(yōu)值函數

例題

【例】如下圖a所示棋盤,智能體從左下角的“開始”位置出發(fā),到達“終點”位置則任務結束。智能體到達終點時給予反饋值100,其他動作給予的反饋值為0,折扣因子為0.9。若采用如圖b所示的策略選擇動作,試求智能體位于“開始”位置時的狀態(tài)值函數和動作值函數取值。

例題

圖a

圖b

例題

例題

2025/9/13計算機應用技術研究所49強化學習概述

強化學習基本知識馬爾可夫模型強化學習計算方式強化學習計算方式

有模型強化學習

有模型強化學習

無模型強化學習

分層方法

狀態(tài)空間分解又稱為任務分解,是指通過分治法將整個狀態(tài)空間分解成為多個子空間,再分別實現對各個子空間上問題的求解;

狀態(tài)抽象是指忽略狀態(tài)中的非相關元素,實現降低狀態(tài)維的效果;

動作抽象是指將MDP中僅考慮單步時間內完成的元動作擴展到多步的抽象動作情形。

啟發(fā)式方法

啟發(fā)式方法

啟發(fā)式函數

啟發(fā)函數的選擇對強化學習的效果具有很大影響。目前主要通過兩種方式確定啟發(fā)函數。

第一種方式是直接基于領域先驗知識構造啟發(fā)函數。

第二種方式是通過在學習過程中獲得的信息構造啟發(fā)函數。

啟發(fā)式函數

啟發(fā)函數的構造過程可大致分為兩個基本階段:

第一階段是結構提取階段,完成的任務是根據值函數實現領域結構的提取;

第二階段是啟發(fā)式構造階段,完成的任務是根據提取到的領域結構構造啟發(fā)式函數。下圖表示啟發(fā)函數構造的基本流程。

2025/9/13

強化學習概述1示范強化學習3基本強化學習2

本章學習內容2025/9/13計算機應用技術研究所60基本強化學習2025/9/13計算機應用技術研究所61

基本強化學習

值迭代學習哈時序差分學習

Q學習值迭代學習

值迭代學習

值迭代學習

值迭代學習

值迭代學習

冗余值迭代

冗余值迭代

冗余值迭代

冗余值迭代

冗余值迭代

例題

例題

例題

例題

例題

第二次迭代:

由于與終點位置相鄰處的最優(yōu)動作已確定,故這些位置的狀態(tài)值函數不再發(fā)生變化。其他位置逐一嘗試四個動作,從中選擇最優(yōu)動作并更新狀態(tài)值函數取值。如下圖所示:

例題

同理可得第三次迭代如下所示:

由于第三次迭代結果與第二次迭代結果相同,故可認為已求得最優(yōu)狀態(tài)值函數和最優(yōu)策略。2025/9/13計算機應用技術研究所78基本強化學習

值迭代學習時序差分學習

Q學習

時序差分學習

時序差分學習的基本思想是首先通過模擬一段時序中的狀態(tài)變化方式估計動作值函數的取值,然后,在每執(zhí)行一次或幾次狀態(tài)轉移之后根據所得新狀態(tài)的價值對估計值進行迭代更新。單步時序差分

單步時序差分

單步時序差分

單步時序差分

Sarsa算法

Sarsa算法步驟

Sarsa算法步驟

例題

例題

例題

【解】可將該網格游戲看成是一個馬爾科夫決策過程,其中狀態(tài)空間包括當前位置、陷阱位置、目標位置以及空位置,并將兩個陷阱位置設為同一個狀態(tài),決策空間包括上下左右四個動作,分別用0,1,2,3表示,如下圖所示。

例題

例題

例題

例題

此時一個情節(jié)結束,第一輪迭代結束。

例題

例題

例題

例題

例題

例題

多步時序差分

多步時序差分

TD(λ)算法

2025/9/13計算機應用技術研究所103

基本強化學習

值迭代學習時序差分學習

Q學習Q學習

Q學習算法過程

Q學習算法過程

例題

例題

例題

例題

例題

例題

例題

例題

例題

例題

例題

如下圖中箭頭所示的智能體從2號房間到室外的最優(yōu)路徑。2025/9/13

本章學習內容

強化學習概述1

基本強化學習24

示范強化學習32025/9/13計算機應用技術研究所119示范強化學習2025/9/13計算機應用技術研究所120

示范強化學習

模仿強化學習逆向強化學習2025/9/13模仿強化學習

模仿學習是通過觀察和效仿其它個體行為以改善自身行為的一種學習方式。

在模仿強化學習中,通常稱被模仿對象為示教者。模仿強化學習的基本模仿思路是讓指示教者提供作為示教信息或模仿范例的決策過程數據,智能體從示教者提供的示教信息中學習。2025/9/13模仿強化學習

2025/9/13模仿強化學習

2025/9/13例題

【例】假設模仿強化學習的目標是讓機器人學會像人類一樣能夠直立行走,則該學習過程中的示教者可以是人也可以是已掌握直立行走行為的其它機器人。 【解】上圖表示機器人模仿學習的基本流程2025/9/13例題

模仿強化學習

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論