版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
魏巍研究背景與意義研究背景與意義第一部分第二部分第三部分第四部分研究背景與意義強(qiáng)化學(xué)習(xí)的來源與兩個(gè)領(lǐng)域密切相關(guān):心理學(xué)中的動(dòng)物學(xué)習(xí)和最優(yōu)控制的優(yōu)化理論。強(qiáng)化學(xué)習(xí)的來源與兩個(gè)領(lǐng)域密切相關(guān):心理學(xué)中的動(dòng)物學(xué)習(xí)和最優(yōu)控制的優(yōu)化理論。1954年Minsky首次提出“強(qiáng)化”和“強(qiáng)化學(xué)習(xí)”的概念和術(shù)語。1965年在控制理論中Waltz和傅京孫也提出這一概lDQN(2015-Nature)lPPO(2017-ML)lTD3(2018-ICML)lQMIX(2018-ICML)l智能對(duì)戰(zhàn)(圍棋等)l機(jī)器人控制(mujoco等)l街機(jī)游戲(atari等)l角色扮演游戲(RLCraft等)l多智能體游戲(MPE、SMAC等) ?。?!l股票交易策略l風(fēng)險(xiǎn)管理l個(gè)性化治療ll股票交易策略l風(fēng)險(xiǎn)管理l個(gè)性化治療l藥物發(fā)現(xiàn)l無人機(jī)空戰(zhàn)l軍事推演l運(yùn)動(dòng)控制l路徑規(guī)劃l交通管理l生產(chǎn)優(yōu)化l設(shè)備維護(hù) 從理論邁向?qū)嶋H的挑戰(zhàn)高性能樣本效率安全約束Sim2Real離線策略高性能樣本效率安全約束Sim2Real從理論邁向?qū)嶋H的挑戰(zhàn)高性能樣本效率安全約束Sim2Real離線策略高性能樣本效率安全約束Sim2Real【1970ManagementScience】【2017ICML】CPO【1970ManagementScience】【2017ICML】CPO【2021AAAI】【2021AAAI】【2015JMLR】北大研究團(tuán)隊(duì)滿足安全約束且保證聯(lián)合性能提具有獨(dú)立的研究問題、研究內(nèi)容、研究方法以 具有獨(dú)立的研究問題、研究內(nèi)容、研究方法以 一般取零或者正數(shù)?risk-neutral:風(fēng)險(xiǎn)中性,取期望,即總結(jié)不確定結(jié)果的結(jié)果來總結(jié)了不確定的結(jié)果(風(fēng)險(xiǎn)零容忍)小的結(jié)果(風(fēng)險(xiǎn)最小化)狀態(tài)的部分可觀測st一般取零或者正數(shù)?risk-neutral:風(fēng)險(xiǎn)中性,取期望,即總結(jié)不確定結(jié)果的結(jié)果來總結(jié)了不確定的結(jié)果(風(fēng)險(xiǎn)零容忍)小的結(jié)果(風(fēng)險(xiǎn)最小化)狀態(tài)的部分可觀測st≠ot?平穩(wěn)環(huán)境:部分可觀測、不確定問題,環(huán)境存在潛在MDP,但由于智能體感知能力有限(感知范圍、觀測噪聲)無法獲得完整、準(zhǔn)確的環(huán)境信息信念例如環(huán)境中其它智能體也在更新策略,只有通過通信等方式獲取它們當(dāng)面對(duì)復(fù)雜噪聲環(huán)境時(shí),現(xiàn)有強(qiáng)化學(xué)習(xí)方法在學(xué)習(xí)信念狀態(tài)的的概率描述,無法提供一個(gè)包含隱藏狀態(tài)的有界區(qū)創(chuàng)新點(diǎn)引入了集員濾波,設(shè)計(jì)了一種集員信念狀態(tài)學(xué)習(xí)方法,并提出了基于集員信念狀態(tài)的強(qiáng)化學(xué)習(xí)算法(S主要貢獻(xiàn)狀態(tài)估計(jì)模型構(gòu)建輸入t時(shí)刻的觀測值ot和觀測噪聲的形狀矩陣M,得出(求解半定規(guī)劃問題)包含真實(shí)狀態(tài)的中心值t和形狀矩陣pt輸入t1時(shí)刻的狀態(tài)的中心值t-1和形狀矩陣pt-1,基于預(yù)測模型得出預(yù)測狀態(tài)的中心值t/(t-1)和形狀矩陣pt/(t-1)整體流程圖整體流程圖MountainHikeTask任務(wù)上的實(shí)驗(yàn)結(jié)果WeiWei,LijunZhang,LinLi,HuizhongSong,JiyeLiang*.Set-membershipBeliefState-basedReinforcementLearningforPOMDPs.ICML2023.創(chuàng)新點(diǎn)主要貢獻(xiàn)在基準(zhǔn)任務(wù)上驗(yàn)證了該方法的有效性,驗(yàn)證了局部交互的去中心化解決思路:引入空間指數(shù)衰減解決思路:引入空間指數(shù)衰減假設(shè),基克服安全約束引起的全局耦合和“狀態(tài)-克服安全約束引起的全局耦合和“狀態(tài)-動(dòng)作”空間大小的指數(shù)增長對(duì)方法應(yīng)用的限制?基于這些假設(shè),量化截?cái)鄡?yōu)勢函數(shù)的信息損失結(jié)合優(yōu)勢截?cái)嘟?、置信域方法界,分析局部依賴的性能下界和安全約束邊界給出局部依賴策略的性能基于動(dòng)力學(xué)和策略的空間相關(guān)性假設(shè),結(jié)合截?cái)鄡?yōu)勢函數(shù)界和置信區(qū)域方法界,獲得了證明了所提方法可滿足安全約相比于IPPO和HAPPO,安全學(xué)習(xí)方法Scal-MAPPO-L(一半的通信)和MAPPO-L均獲取了更高的性能且具有更少的約束違背;當(dāng)k>2時(shí),算法展現(xiàn)出了與MAPPO-L(集中式算法)相近的性能。LijunZhang,LinLi,WeiWei*,HuizhongSong,YaodongYangOptimizationforSafeMulti-agentReinforcementLearning.NeurIPS2024.離線強(qiáng)化學(xué)習(xí)面臨的基本挑戰(zhàn)之一是分布偏移(Distributionshift)離線強(qiáng)化學(xué)習(xí)面臨的基本挑戰(zhàn)之一是分布偏移(Distributionshift)4.不確定性度量(Uncertainty-base將學(xué)習(xí)策略約束到行為策略的一定范圍內(nèi)新視角:域自適應(yīng) 新視角:域自適應(yīng)延伸至表征更加全面的多個(gè)潛在分布Qi,H.,Su,Y.,Kumar,A.,andLevine,S.Datad現(xiàn)有方法大多顯式地為OOD動(dòng)作劃分邊界,這對(duì)邊界附近的創(chuàng)新點(diǎn)提出了一種能夠直接從經(jīng)驗(yàn)數(shù)據(jù)中自適應(yīng)提取知識(shí)來隱式地泛化到鄰近的未知狀態(tài)-動(dòng)作對(duì)的方法。我們軟化了這具體實(shí)現(xiàn):對(duì)抗數(shù)據(jù)劃分框架對(duì)于所有train/val劃分下的Dv都約束:先在訓(xùn)練子集Dt上學(xué)一個(gè)好的初始參數(shù)理論分析推導(dǎo)了一般性的基于元學(xué)習(xí)框架的offlineRL泛除了常數(shù)C,我們的方法隱式地減小了第一項(xiàng),增大了第二項(xiàng),因此方法的有效性具有理論綜合表現(xiàn)最優(yōu)Convergence.Runtime.DaWang,LinLi,WeiWei*,QixianYu,JianyeHao,JiyeLiang.ImprovingGeneralizationinOfflineReinforcementLearningviaAdversarialDataSplitting.ICML2024.第四部分梁吉業(yè)教授魏巍教授游秀副教授李琳博士李風(fēng)嬌博士馬億博士梁吉業(yè)教授魏巍教授王達(dá)張鈺嘉張利軍吳建國宋慧忠亓雅杰馮宇軒博士生博士生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年區(qū)域性特色產(chǎn)業(yè)發(fā)展項(xiàng)目可行性研究報(bào)告
- 2025年消費(fèi)電子產(chǎn)品研發(fā)與生產(chǎn)基地建設(shè)項(xiàng)目可行性研究報(bào)告
- 2025年職業(yè)技能培訓(xùn)認(rèn)證體系建設(shè)項(xiàng)目可行性研究報(bào)告
- 偽造拆遷協(xié)議書
- 中鐵戰(zhàn)略協(xié)議書
- 瑜伽教練合同范本
- 借用水源協(xié)議書
- 漁政執(zhí)法考試試題及答案
- 客服代表崗位英語面試題及技巧含答案
- 教育輔導(dǎo)班教學(xué)主任面試題及答案
- 《電子商務(wù)師(四級(jí))理論知識(shí)鑒定要素細(xì)目表》
- 高通量測序平臺(tái)考核試卷
- 2024-2030年中國花卉電商行業(yè)發(fā)展前景預(yù)測及投資策略研究報(bào)告
- T/CI 475-2024廚余垃圾廢水處理工程技術(shù)規(guī)范
- T/CNCA 054-2023管道輸煤工程設(shè)計(jì)規(guī)范
- 工程招投標(biāo)與監(jiān)理實(shí)務(wù)整體介紹吳莉四川交通04課件
- 2025+CSCO宮頸癌診療指南解讀
- DG-TJ08-2207-2024城市供水管網(wǎng)泵站遠(yuǎn)程監(jiān)控系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 機(jī)器學(xué)習(xí)與隨機(jī)微分方程的深度集成方法-全面剖析
- 《TSGD7003-2022壓力管道定期檢驗(yàn)規(guī)則-長輸管道》
- GB/T 45355-2025無壓埋地排污、排水用聚乙烯(PE)管道系統(tǒng)
評(píng)論
0/150
提交評(píng)論