下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
文末送書如何使用深度強(qiáng)化學(xué)習(xí)算法解決實(shí)際問題在使用深度強(qiáng)化學(xué)習(xí)(DeepReinforcementLearning,DRL)算法解決實(shí)際問題的過程中,明確任務(wù)需求并初步完成問題定義后,就可以為相關(guān)任務(wù)選擇合適的DRL算法了。以DeepMind的里程碑工作AlphaGo為起點(diǎn),每年各大頂級會議DRL方向的論文層出不窮,新的DRL算法如雨后春筍般不斷涌現(xiàn),大有“亂花漸欲迷人眼”之勢。然而,落地工作中的算法選擇并不等同于在這個(gè)急劇膨脹的“工具箱”中做大海撈針式的一對一匹配,而是需要根據(jù)任務(wù)自身的特點(diǎn)從DRL算法本源出發(fā)進(jìn)行由淺入深、粗中有細(xì)的篩選和迭代。在介紹具體方法之前,筆者先嘗試按照自己的理解梳理近年來DRL領(lǐng)域的發(fā)展脈絡(luò)。1DRL算法的發(fā)展脈絡(luò)盡管DRL算法已經(jīng)取得了長足進(jìn)步,但筆者認(rèn)為其尚未在理論層面取得質(zhì)的突破,而只是在傳統(tǒng)強(qiáng)化學(xué)習(xí)理論基礎(chǔ)上引入深度神經(jīng)網(wǎng)絡(luò),并做了一系列適配和增量式改進(jìn)工作。總體上,DRL沿著Model-Based和Model-Free兩大分支發(fā)展。前者利用已知環(huán)境模型或者對未知環(huán)境模型進(jìn)行顯式建模,并與前向搜索(LookAheadSearch)和軌跡優(yōu)化(TrajectoryOptimization)等規(guī)劃算法結(jié)合達(dá)到提升數(shù)據(jù)效率的目的。作為當(dāng)前學(xué)術(shù)界的研究熱點(diǎn),Model-BasedDRL尚未在實(shí)踐中得到廣泛應(yīng)用,這是由于現(xiàn)實(shí)任務(wù)的環(huán)境模型通常十分復(fù)雜,導(dǎo)致模型學(xué)習(xí)的難度很高,并且建模誤差也會對策略造成負(fù)面影響。在筆者看來,任何Model-FreeDRL算法都可以解構(gòu)為“基本原理—探索方式—樣本管理—梯度計(jì)算”的四元核心組件。其中按照基本原理,Model-Free
DRL又存在兩種不同的劃分體系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。如圖1所示,DQN、DDPG和A3C作為這兩種彼此交織的劃分體系下的經(jīng)典算法框架,構(gòu)成了DRL研究中的重要節(jié)點(diǎn),后續(xù)提出的大部分新算法基本都是立足于這三種框架,針對其核心組件所進(jìn)行的迭代優(yōu)化或者拆分重組。圖1
Model-FreeDRL的發(fā)展脈絡(luò)和四元核心組件解構(gòu)方法圖1中幾個(gè)關(guān)鍵術(shù)語的解釋是:Off-Policy指算法中采樣策略與待優(yōu)化策略不同;On-Policy指采樣策略與待優(yōu)化策略相同或差異很??;Value-Based指算法直接學(xué)習(xí)狀態(tài)-動(dòng)作組合的值估計(jì),沒有獨(dú)立策略;Policy-Based指算法具有獨(dú)立策略,同時(shí)具備獨(dú)立策略和值估計(jì)函數(shù)的算法又被稱為Actor-Critic算法。關(guān)于上述Model-Free
DRL算法的四元核心組件,其中:基本原理層面依然進(jìn)展緩慢,但卻是DRL算法將來大規(guī)模推廣的關(guān)鍵所在;探索方式的改進(jìn)使DRL算法更充分地探索環(huán)境,以及更好地平衡探索和利用,從而有機(jī)會學(xué)到更好的策略;樣本管理的改進(jìn)有助于提升DRL算法的樣本效率,從而加快收斂速度,提高算法實(shí)用性;梯度計(jì)算的改進(jìn)致力于使每一次梯度更新都更穩(wěn)定、無偏和高效。總體而言,DRL算法正朝著通用化和高效化的方向發(fā)展,期待未來會出現(xiàn)某種“超級算法”,能夠廣泛適用于各種類型的任務(wù),并在絕大多數(shù)任務(wù)中具有壓倒式的性能優(yōu)勢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 41771.10-2025現(xiàn)場設(shè)備集成第10部分:行規(guī)基金會現(xiàn)場總線HSE
- 晉城社工考試真題及答案
- 對國內(nèi)視頻網(wǎng)站盈利模式研究-以樂視為例
- 2025年高職餐飲(餐飲服務(wù)技能)試題及答案
- 高二地理(水循環(huán))2026年下學(xué)期期中測試卷
- 2025-2026年高二化學(xué)(有機(jī)化學(xué))上學(xué)期期末測試卷
- 2025年大學(xué)中醫(yī)學(xué)(中醫(yī)內(nèi)科學(xué))試題及答案
- 2025年大學(xué)林學(xué)(森林旅游學(xué))試題及答案
- 2026年學(xué)前教育(幼兒教育)考題及答案
- 中職第三學(xué)年(汽車美容與裝潢)汽車美容護(hù)理2026年階段測試題及答案
- 高中生審美教育
- 洗煤廠消防安全培訓(xùn)課件
- 抗菌藥物處方權(quán)培訓(xùn)課件
- 2026屆山東省濟(jì)南市歷城二中化學(xué)高一第一學(xué)期期末預(yù)測試題含解析
- 安全經(jīng)費(fèi)提取及使用臺賬
- 《深圳市海綿城市建設(shè)專項(xiàng)規(guī)劃及實(shí)施方案》圖集
- 員工技術(shù)培養(yǎng)合同范本
- 熱力供應(yīng)監(jiān)控計(jì)劃可行性研究報(bào)告
- 《病區(qū)醫(yī)院感染管理規(guī)范》試題及答案
- 全國碩士研究生2024年-管理類綜合能力真題(管理類聯(lián)考)
- 長津湖課件教學(xué)課件
評論
0/150
提交評論