下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
摘要強化學習是機器學習的一個重要分支,它是一種以環(huán)境反饋作為輸入的,特殊的、適應環(huán)境的學習。它將環(huán)境抽象成若干狀態(tài),通過不斷試錯強化而產(chǎn)生狀態(tài)到行為的最優(yōu)化映射。然而實際環(huán)境的狀態(tài)數(shù)無限或連續(xù)或狀態(tài)不完全可知,因此很難以用數(shù)學模型精確定義系統(tǒng)。加上強化學習算法的收斂性較慢,因此如何能夠優(yōu)化的建立環(huán)境模型,如何提高算法效率就成為強化學習面臨的主要問題。本次課題首先介紹強化學習的概念、建立系統(tǒng)模型,再介紹幾種經(jīng)典的強化學習算法,接著介紹目前解決若干問題而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型進行算法改進。關鍵詞:強化學習;蒙特卡諾法;TD算法;Q學習;Sasar學習;POMDP模型;PSR模型;HRL模型強化學習技術是從控制理論、統(tǒng)計學、心理學等相關學科發(fā)展而來的,在人工智能、機器學習和自動控制等領域中得到廣泛的研究和應用,并被認為是設計智能系統(tǒng)的核心技術之一。強化學習的理論基礎:1.強化學習問題的框架:我們將有智能的學習體稱為agent,將系統(tǒng)分成若干個狀態(tài),每個狀態(tài)S可以有不同的動作選擇,對應的每個選擇也就有一個值函數(shù)Q(s,a)。Agent選擇一個動作a作用于環(huán)境,環(huán)境接收該動作后狀態(tài)發(fā)生變化(S’),同時產(chǎn)生一個強化信號r(獎賞)給agent,agent根據(jù)這個獎賞評價剛才的動作的好壞進而修改該動作值,并選擇下一動作a’。對于一個強化學習系統(tǒng)來講,其目標是學習一個行為策略:π:S->A,使系統(tǒng)選擇的動作能夠獲得環(huán)境獎賞的累計值Σr最大。當一個動作導致環(huán)境給正的獎賞時這種動作的趨勢就被加強,反之則減弱。強化學習的目的就是要學習從狀態(tài)到動作的最佳映射,以便使獎勵信號最大化?!?0,11】強化學習的框架如圖:2.環(huán)境的描述:通常,我們從五個角度對環(huán)境進行分析:【4】角度一:離散狀態(tài)vs連續(xù)狀態(tài)角度二:狀態(tài)完全可感知vs狀態(tài)部分可感知角度三:插曲式vs非插曲式角度四:確定性vs不確定性角度五:靜態(tài)vs動態(tài)在強化學習中,我們首先考慮最簡單的環(huán)境模型隨機、離散狀態(tài)、離散時間對其數(shù)學建模。我們通常用馬爾科夫模型:馬爾科夫狀態(tài):一個狀態(tài)信號保留了所有的相關信息,則就是馬兒科夫的。馬兒科夫決策過程(MDP)【2】:MDP的本質(zhì)是:當狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當前狀態(tài)和選擇的動作,而與歷史狀態(tài)和動作無關。強化學習主要研究在P和R函數(shù)未知的情況下系統(tǒng)如何學習最優(yōu)的行為策略。用rt+1表示t時刻的即時獎賞【7】,用Rt表示t時刻的累計獎賞,則Rt為t時刻開始到最后的所有獎賞和,而越后續(xù)的動作對當前影響要比t時刻獎賞逐漸減小,因此越往后的獎賞加上了一個折扣γ,這樣,t時刻的獎賞總和就是Rt=rt+1+γrt+2+γ2rt+3+…=rt+1+γRt+1(1)t時刻狀態(tài)s的狀態(tài)值(表示狀態(tài)s如何優(yōu)秀)用Vπ(s)表示,它用t時刻選擇各個動作的獎賞的數(shù)學期望來表示。Vπ(s)=Eπ{Rt|st=s}=Eπ{rt+1+γV(st+1)|st=s}=Vπ(s’)](2)注意到這里兩式都是一個遞推式,稱為Bellman等式,寫成這種形式非常便于從狀態(tài)s轉(zhuǎn)換到s’時計算狀態(tài)值。強化學習問題是要尋求一個最優(yōu)的策略π*,在上面的等式中表現(xiàn)為尋求狀態(tài)值的最優(yōu)值,在不斷學習強化的過程中對狀態(tài)s獲得一個最優(yōu)值V*(s),它表示在狀態(tài)s下選取最優(yōu)的那個動作而獲得的最大的累計獎賞回報。因此在最優(yōu)策略π*下,狀態(tài)s的最優(yōu)值定義為:V*(s)=E{rt+1+γV(st+1)|st=s}=Vπ(s’)](3)各種算法的最終目的便是計算各狀態(tài)的最優(yōu)值,并根據(jù)最優(yōu)值去指導動作。經(jīng)典的強化學習算法回顧:動態(tài)規(guī)劃算法【1】:動態(tài)規(guī)劃的思想,根
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇淮安市洪澤區(qū)中醫(yī)院招聘合同制專業(yè)技術人員2人(第二批)備考考試試題及答案解析
- 團結(jié)部門的活動策劃方案
- 2025四川綿陽市中心醫(yī)院合同制工勤人員招聘3人參考考試試題及答案解析
- 2025福建福州市園開港灣經(jīng)貿(mào)有限公司招聘1人參考筆試題庫附答案解析
- 2025江蘇南通市蘇錫通科技產(chǎn)業(yè)園區(qū)招商服務有限公司第二批次招聘延期模擬筆試試題及答案解析
- 2025湖南郴州市第四人民醫(yī)院招聘(引進)高層次專業(yè)技術人才24人參考考試試題及答案解析
- 深度解析(2026)《GBT 25728-2024糧油機械 氣壓磨粉機》
- 2025人民網(wǎng)寧夏分公司招聘媒介顧問2人參考筆試題庫附答案解析
- 2026年河北張家口經(jīng)開區(qū)編辦青年就業(yè)見習崗位招聘備考筆試試題及答案解析
- 2025青海海南州同德縣人民醫(yī)院招聘消防專職人員1人參考筆試題庫附答案解析
- 【年產(chǎn)5000噸氯化苯的工藝設計11000字(論文)】
- 光伏電站巡檢與維護
- 小學校本課程-1藍色國土教學設計學情分析教材分析課后反思
- 廣州市荔灣區(qū)事業(yè)單位招聘事業(yè)編制人員考試真題2022
- GB/T 19867.4-2008激光焊接工藝規(guī)程
- 上下班交通安全知識考試試卷
- 食堂消毒表格
- 模具定期保養(yǎng)點檢表
- 電工基礎(第六版)課后習題答案
- 快消品年度工作計劃
- 醫(yī)院后勤設備安全運維管理
評論
0/150
提交評論