版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
工業(yè)大數(shù)據(jù)與人工智能HFUT123.3.1.強化學習基本概念3.3.2.馬爾科夫決策過程3.3.3.價值函數(shù)與策略3.3.4.動態(tài)規(guī)劃與蒙特卡洛方法3.3.5.Q-learning與策略梯度3.3.強化學習策略迭代價值迭代蒙特卡羅Q-Learning策略梯度第三章
機器學習基礎33.3.6.深度強化學習3.3.7.多智能體強化學習3.3.強化學習深度強化學習簡介深度強化學習算法分類常見深度強化學習算法多智能體強化學習簡介多智能體強化學習算法分類常見多智能體強化學習算法第三章
機器學習基礎4強化學習基本概念
強化學習(ReinforcementLearning)是一種機器學習方法,強化學習的基本思想是通過智能體與環(huán)境的交互來學習如何做出決策以達到最大化累積獎勵的目標。智能體學習玩掃雷游戲就是一個典型的強化學習案例,迷你掃雷游戲是一個經典的單人游戲,玩家需要根據(jù)已知的雷區(qū)信息推斷雷的位置并標記,同時避免揭開雷區(qū)。5強化學習基本概念獎勵函數(shù)是強化學習中的重要組成部分,它根據(jù)智能體的動作和環(huán)境的狀態(tài)給出獎勵或懲罰。軌跡(Trajectory)是智能體與環(huán)境交互的歷史記錄,包括狀態(tài)、動作和獎勵的序列。這個序列記錄了從初始狀態(tài)到最終狀態(tài)的過程,有時也稱為片段(Episode)或者回合。6馬爾科夫決策過程
7馬爾科夫決策過程
8馬爾科夫決策過程
9馬爾科夫決策過程
10馬爾科夫決策過程
解決馬爾可夫決策過程的關鍵是利用貝爾曼方程來更新和優(yōu)化價值函數(shù),進而得到最優(yōu)策略。為了計算價值函數(shù)和動作價值函數(shù),有兩種簡單方法:窮舉法,即計算所有可能軌跡的概率并根據(jù)計算出的概率和回報來估計價值函數(shù)。利用蒙特卡羅方法通過采樣大量的軌跡來估計價值函數(shù)。這兩種方法都有各自的優(yōu)缺點,實際應用中需要根據(jù)具體情況選擇合適的方法。11價值函數(shù)與策略
價值函數(shù)預測智能體進入某個狀態(tài)后未來可能獲得的獎勵,并且用這個預測來評估當前狀態(tài)的好壞。價值函數(shù)的值越大,說明智能體進入這個狀態(tài)越有利。在強化學習中有兩種重要的價值函數(shù):V函數(shù)和Q函數(shù)。V函數(shù)考慮的是在某個狀態(tài)下采取某個動作,從當前時間開始未來可以獲得的期望獎勵。12價值函數(shù)與策略
而Q函數(shù)則考慮的是在某個狀態(tài)下采取某個動作后,從當前時間開始未來可以獲得的期望獎勵。13價值函數(shù)與策略
14動態(tài)規(guī)劃與蒙特卡洛方法:策略迭代
15動態(tài)規(guī)劃與蒙特卡洛方法:策略迭代
16動態(tài)規(guī)劃與蒙特卡洛方法:價值迭代
17動態(tài)規(guī)劃與蒙特卡洛方法:蒙特卡洛
18Q-learning與策略梯度:Q-Learning
19Q-learning與策略梯度:策略梯度
策略梯度方法通過針對期望回報進行梯度下降直接優(yōu)化策略參數(shù)的方式來提升智能體的表現(xiàn)。
在策略梯度方法的演變過程中,最初的REINFORCE算法通過計算策略梯度并沿梯度方向更新參數(shù)來改進策略。20深度強化學習簡介
深度強化學習(DeepReinforcementLearning,DRL)是深度學習與強化學習融合的成果,它巧妙結合了深度神經網絡的強大特征表達力和強化學習在序列決策上的優(yōu)勢,使智能體能夠自我學習,在與環(huán)境的持續(xù)互動中不斷優(yōu)化其決策策略。深度強化學習結合了深度學習和強化學習的優(yōu)勢,利用深度神經網絡強大的表征能力去擬合值函數(shù)、策略等,實現(xiàn)了端到端的學習。這種方法在解決高維狀態(tài)動作空間任務方面效果顯著,并且在現(xiàn)實場景中取得了廣泛應用。其中,DQN算法通過端到端學習,在Atari視頻游戲中取得了超越人類的成績,標志著深度強化學習的蓬勃發(fā)展。21深度強化學習算法分類
深度強化學習方法可以按照研究目標分為四類:解決高維狀態(tài)動作空間任務上的算法收斂問題。解決復雜應用場景下的算法樣本效率提高問題。解決獎勵函數(shù)稀疏或難以定義情況下的算法探索問題。解決多任務場景下的算法泛化性能增強問題。22常見深度強化學習算法值函數(shù)算法
值函數(shù)算法通過神經網絡輸出所有可能動作的價值,然后根據(jù)最高價值來選擇動作。這種算法偏向于基于最高價值的決策,即選擇具有最高價值的動作,這樣的決策更為準確和可靠。傳統(tǒng)的值函數(shù)算法在處理高維狀態(tài)動作空間任務時學習效果不佳,因為它使用表格法進行價值函數(shù)評估。而深度強化學習(DRL)中的值函數(shù)算法,尤其是像DQN這樣的代表性算法,通過深度學習模型(比如深度卷積神經網絡)直接從高維感官輸入中學習控制策略,從而極大地提高了對復雜任務的價值函數(shù)估計精度和穩(wěn)定性。23常見深度強化學習算法
24多智能體強化學習簡介
多智能體強化學習(MARL)算法的設計和優(yōu)化需充分考慮智能體間的交互效應,包括但不限于合作學習、聯(lián)盟形成、對手預測、以及環(huán)境和其他智能體策略的不確定性,傳統(tǒng)的強化學習方法在多智能體決策中表現(xiàn)一般。在實踐中,深度多智能體強化學習(DeepMARL)采用深度神經網絡來表征復雜的策略和價值函數(shù),以應對大規(guī)模、高維度的狀態(tài)和動作空間?,F(xiàn)有工作主要關注的五個研究方向:學習框架,環(huán)境非平穩(wěn)問題,獎勵設計,通信學習,可擴展性。25多智能體強化學習算法分類基于價值分解的方法基于Actor-Critic的方法基于經驗回放的方法26常見多智能體強化學習算法1.VDNVDN(Value-DecompositionNetworks)是一種基于價值分解的方法的算法,它采用了價值分解的方法,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025重慶市大足區(qū)國衡商貿有限責任公司招聘派遣制人員1人備考筆試試題及答案解析
- 化肥營銷策劃方案書
- 數(shù)據(jù)庫備份策略與實現(xiàn)方案
- 深度解析(2026)《GBT 26120-2010低壓不銹鋼螺紋管件》(2026年)深度解析
- 2025廣東東莞市大灣區(qū)大學教學綜合事務崗招聘1人模擬筆試試題及答案解析
- 深度解析(2026)《GBT 25900-2010信息技術 信息處理用維吾爾文、哈薩克文、柯爾克孜文字型 白體、黑體》
- 2025年河南對外經濟貿易職業(yè)學院招聘工作人員10名參考考試試題及答案解析
- 國際關系理論中的“后自由國際秩序”敘事適用性爭議-基于2023年《國際組織》《國際安全》期刊辯論
- 四川鍋爐高級技工學校2025年下半年面向社會公開考核招聘中職教育專業(yè)技術人才(16人)參考考試試題及答案解析
- 2025廣東珠海市某事業(yè)單位誠聘質量管理崗位1人參考筆試題庫附答案解析
- 2026班級馬年元旦主題聯(lián)歡晚會 教學課件
- 2025年沈陽華晨專用車有限公司公開招聘備考筆試題庫及答案解析
- 高層建筑消防安全教育培訓課件(香港大埔區(qū)宏福苑1126火災事故警示教育)
- 學堂在線 雨課堂 學堂云 研究生學術與職業(yè)素養(yǎng)講座 章節(jié)測試答案
- 低壓電纜敷設方案設計
- 原發(fā)性肝癌病人的護理原發(fā)性肝癌病人的護理
- TWSJD 002-2019 醫(yī)用清洗劑衛(wèi)生要求
- GB/T 7324-2010通用鋰基潤滑脂
- 新能源有限公司光伏電站現(xiàn)場應急處置方案匯編
- 公路市政項目施工現(xiàn)場管理實施細則
- TSG11-2020 鍋爐安全技術規(guī)程
評論
0/150
提交評論