【《最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述》4200字】_第1頁
【《最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述》4200字】_第2頁
【《最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述》4200字】_第3頁
【《最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述》4200字】_第4頁
【《最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述》4200字】_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-PAGE53-最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述目錄TOC\o"1-3"\h\u6423最大熵強(qiáng)化學(xué)習(xí)基礎(chǔ)理論概述 1318241.1引論 1270311.2標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)框架和概率圖模型 1281861.3最大熵強(qiáng)化學(xué)習(xí)理論框架 220401.3.1最大熵強(qiáng)化學(xué)習(xí)概率圖模型 2242811.3.2概率推斷 4237321.3.3最大熵強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)與最優(yōu)策略 7194161.4小結(jié) 111.1引論機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域近些年受到越來越廣泛的關(guān)注,其原因?yàn)橐韵聝牲c(diǎn):1)機(jī)器人系統(tǒng)內(nèi)部本身存在的摩擦力和噪聲等因素提高了傳統(tǒng)控制方法的控制難度,增加了傳統(tǒng)控制方法的局限性;2)深度強(qiáng)化學(xué)習(xí)方法是一種基于“經(jīng)驗(yàn)”的控制方法,其避免了機(jī)器人系統(tǒng)復(fù)雜的動(dòng)力學(xué)建模和設(shè)計(jì),在無需知道機(jī)器人系統(tǒng)任何先驗(yàn)知識的情況下,憑借機(jī)器人智能體與外界環(huán)境不斷地交互而學(xué)得有關(guān)外部環(huán)境的知識,直到學(xué)到最優(yōu)的控制策略。系統(tǒng)和任務(wù)越復(fù)雜,深度強(qiáng)化學(xué)習(xí)方法就越適用,例如空間連續(xù)型機(jī)械臂。最大熵強(qiáng)化學(xué)習(xí)方法由于其樣本效率高以及最大熵策略探索能力好,在不需要進(jìn)行任何的額外操作和人工干預(yù)下,已經(jīng)被廣泛用于傳統(tǒng)剛性機(jī)械臂任務(wù)。因此,本文研究的是在最大熵強(qiáng)化學(xué)習(xí)框架下的連續(xù)型機(jī)械臂控制任務(wù)。1.2標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)框架和概率圖模型在標(biāo)準(zhǔn)最優(yōu)控制和深度強(qiáng)化學(xué)習(xí)框架下,通常用表示狀態(tài),表示動(dòng)作,狀態(tài)和動(dòng)作都可能是連續(xù)或離散的;表示轉(zhuǎn)移概率模型,其一般都是未知的,狀態(tài)通常是跟著轉(zhuǎn)移概率模型改變;表示一個(gè)片段(episode)的訓(xùn)練步長,表示每當(dāng)訓(xùn)練完時(shí)間步長之后,環(huán)境就會(huì)重置并重新開始訓(xùn)練時(shí)間步長;是折扣因子,表示越是未來的狀態(tài)和動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)對當(dāng)前的累計(jì)回報(bào)影響越小。表示智能體在狀態(tài),策略參數(shù)向量為下選擇動(dòng)作時(shí),從外界中得到的立即獎(jiǎng)勵(lì)。圖1.1為標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)框架的概率圖模型,該模型能清晰地描述狀態(tài)、動(dòng)作、策略分布、轉(zhuǎn)移概率分布和下一個(gè)狀態(tài)兩兩之間的關(guān)系。圖STYLEREF1\s2.SEQ圖\*ARABIC\s11標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)概率圖模型根據(jù)圖1.1的馬爾可夫決策過程的概率圖模型,可以求出在當(dāng)前策略下的軌跡分布,表示當(dāng)前策略下的軌跡。(2-1)因此,標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)可以變?yōu)橐韵聝?yōu)化問題:(2-2)其中,表示在策略下狀態(tài)動(dòng)作對的概率分布。該優(yōu)化問題的目標(biāo)是找到一組最優(yōu)參數(shù)向量使得在當(dāng)前策略下的預(yù)期累積回報(bào)最大,若以深度神經(jīng)網(wǎng)絡(luò)來表示策略分布,該參數(shù)向量為深度神經(jīng)網(wǎng)絡(luò)的一組權(quán)重和偏差參數(shù)。1.3最大熵強(qiáng)化學(xué)習(xí)理論框架1.3.1最大熵強(qiáng)化學(xué)習(xí)概率圖模型人們的行為總是隨機(jī)的,不同的人做某個(gè)相同任務(wù)可能有不同的解決方法,即使相同的人做同一個(gè)任務(wù)多次時(shí)也能表現(xiàn)出不同的行為,這體現(xiàn)出人類的“智能”。當(dāng)我們在做某個(gè)任務(wù)時(shí),不同人表現(xiàn)出不同的行為,有些人能很快地做完這個(gè)任務(wù),而有些人在中間可能走了很多“彎路”才完成這個(gè)任務(wù),這種“彎路”被傳統(tǒng)強(qiáng)化學(xué)習(xí)算法認(rèn)定為“錯(cuò)誤”。但往往現(xiàn)實(shí)生活中這種“錯(cuò)誤”是必須的,人們通常只關(guān)注是否完成任務(wù),而很少關(guān)注是否以最優(yōu)最快的方式完成某個(gè)任務(wù),這些“錯(cuò)誤”最終都能完成目標(biāo),證明它們都是“好”的,而非最優(yōu)的。最優(yōu)行為通常只有一種,而這種“好”行為可能有幾十或幾百種,能大大增加任務(wù)的完成率。人類智能體很多時(shí)候也只能表現(xiàn)出這種“好”行為,而不都是最優(yōu)行為,這種情況隨著任務(wù)越復(fù)雜出現(xiàn)的頻率越高,因?yàn)槿蝿?wù)越復(fù)雜,越難發(fā)現(xiàn)完成任務(wù)的最優(yōu)行為。而最大熵強(qiáng)化學(xué)習(xí)的目標(biāo)就是找出這種“更智能”的控制策略,該策略是隨機(jī)策略,具有表示所有“好”行為的能力,但它表示出最優(yōu)行為的可能性最大。為此,最大熵強(qiáng)化學(xué)習(xí)框架引入了一個(gè)最優(yōu)性變量的概念,該變量是一個(gè)二值變量,表示當(dāng)前的行為是否是“好”行為。當(dāng)時(shí),表示在時(shí)刻智能體在嘗試完成目標(biāo),其行為是最優(yōu)或次優(yōu)行為;反之當(dāng)時(shí),表示在當(dāng)前時(shí)刻智能體沒有嘗試完成任務(wù),其在做一些無用甚至影響訓(xùn)練過程的行為。最大熵強(qiáng)化學(xué)習(xí)的概率圖模型如圖1.2所示。圖STYLEREF1\s2.SEQ圖\*ARABIC\s12最大熵強(qiáng)化學(xué)習(xí)的概率圖模型與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)一樣,首先求出最大熵強(qiáng)化學(xué)習(xí)框架下的軌跡分布,該分布表示所有“好”軌跡的概率分布,此時(shí)我們不關(guān)心標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)框架下的軌跡分布。為了更好地求出,本文引入了一個(gè)假設(shè):(2-3)該假設(shè)表示當(dāng)前狀態(tài)和當(dāng)前動(dòng)作是“好”的概率,它與立即獎(jiǎng)勵(lì)的指數(shù)形式成正比。這個(gè)假設(shè)是合理的,因?yàn)榱⒓椽?jiǎng)勵(lì)一般都為負(fù),如果有時(shí)候獎(jiǎng)勵(lì)為正,則指數(shù)的括號里會(huì)多減去一項(xiàng)最大的獎(jiǎng)勵(lì),這也能使得指數(shù)括號里總為負(fù)。根據(jù)式2-3,我們將進(jìn)行以下變形:(2-4)表示在軌跡發(fā)生的概率。由此,推導(dǎo)出最大熵強(qiáng)化學(xué)習(xí)的軌跡分布,其正比于軌跡的累積回報(bào)的指數(shù)值,表示累積回報(bào)越大的軌跡發(fā)生的概率更高。所有“好”的軌跡的累積獎(jiǎng)勵(lì)差距不大,所以它們的概率也相差不大,但一些“不好”的和無用的甚至影響訓(xùn)練過程的軌跡的累積回報(bào)與“好”軌跡差距很大,通過指數(shù)形式這種差距在概率分布體現(xiàn)的更加明顯,這樣就能成功的篩選出“好”軌跡,讓“好”軌跡出現(xiàn)的概率越大,“不好”的軌跡出現(xiàn)的概率越小,這樣就成功地反映出了最大熵的核心思想-學(xué)到所有“好”的行為。1.3.2概率推斷為了求解該軌跡分布,我們先詳細(xì)介紹以下三個(gè)概率分布:1)反向概率分布:該分布表示在當(dāng)前的狀態(tài)和動(dòng)作下,智能體從當(dāng)前到訓(xùn)練結(jié)束一直都表現(xiàn)出“好”行為的概率;2)近最優(yōu)策略分布:該分布表示智能體總是以“好”的行為完成任務(wù)的前提下,在當(dāng)前狀態(tài)下的智能體的動(dòng)作分布。把它稱為近最優(yōu)策略是因?yàn)閭鹘y(tǒng)的最優(yōu)策略是確定性的策略,總能得到最大的獎(jiǎng)勵(lì),而這個(gè)策略并不能得到和確定性最優(yōu)策略一樣大的獎(jiǎng)勵(lì),但它能完成任務(wù);3)前向概率分布:該分布表示智能體在當(dāng)前時(shí)刻之前都表現(xiàn)出“好”行為前提下,當(dāng)前狀態(tài)的分布。反向概率分布根據(jù)馬爾可夫性,得出:(2-5)其中為轉(zhuǎn)移概率分布,是最大熵強(qiáng)化學(xué)習(xí)框架下引入的一個(gè)假設(shè),為下一時(shí)刻的反向概率分布。不是策略分布,才是策略分布,描述的是在當(dāng)前狀態(tài)下的動(dòng)作分布。該分布通常被假設(shè)為均勻分布,均勻分布體現(xiàn)為一個(gè)常數(shù),對于推斷來說常數(shù)可以忽略,因此不會(huì)影響推導(dǎo)過程與結(jié)果。由式2-5可知,反向概率分布可以從最后時(shí)刻到最初時(shí)刻不斷反向迭代計(jì)算,即:(2-6)另外,(2-7)根據(jù)上式2-6和2-7,可得:(2-8)顧名思義,softmax不是真正的最大化,它只有當(dāng)函數(shù)值很大時(shí),它才表現(xiàn)出真正最大化的功能;當(dāng)函數(shù)值很小時(shí),它就為softmax。當(dāng)函數(shù)值都很大時(shí),針對離散動(dòng)作,主要由最大的值決定,因?yàn)橹笖?shù)放大了最大的值在積分中的影響,所以當(dāng)值越來越大時(shí),逐漸逼近最大的值。根據(jù)式2-3,2-6和2-7,狀態(tài)動(dòng)作值函數(shù)可以表示為以下形式:(2-9)假設(shè)分布為任意分布,此時(shí)不是常數(shù)項(xiàng),不能忽略。根據(jù)式2-6和2-7,狀態(tài)值函數(shù)為:(2-10)給出狀態(tài)動(dòng)作值函數(shù)的新定義:(2-11)根據(jù)以上兩式,可推出:(2-12)由式2-11可知,當(dāng)動(dòng)作先驗(yàn)分布為任意分布時(shí),定義一個(gè)替代獎(jiǎng)勵(lì)函數(shù):(2-13)此時(shí)式2-11可變?yōu)椋?-14)對比式2-14和2-9、式2-12和2-8可知,動(dòng)作先驗(yàn)分布為任意分布時(shí)的值函數(shù)和,與動(dòng)作先驗(yàn)分布為均勻分布時(shí)的形式一樣,唯一區(qū)別在于獎(jiǎng)勵(lì)函數(shù)的形式不一樣,前者比后者多一項(xiàng)。所以,將動(dòng)作先驗(yàn)分布設(shè)為均勻分布不會(huì)影響整體推導(dǎo)過程與結(jié)果。近策略最優(yōu)分布(2-15)則策略分布為,又根據(jù)式2-7,可推出:(2-16)式2-16清晰地描述策略分布與值函數(shù)和優(yōu)勢函數(shù)之間的關(guān)系,可以看出行為越“好“,則優(yōu)勢函數(shù)越大,概率就越高,且當(dāng)前行為的概率以指數(shù)形式升高。此外,我們可以在策略分布表達(dá)式中添加一個(gè)溫度系數(shù),(2-17)當(dāng)時(shí),該策略分布為隨機(jī)策略,隨著的下降趨近于0時(shí),該策略分布會(huì)趨近于確定性的貪婪策略。前向概率分布(2-18)式2-18能看出當(dāng)前時(shí)刻前向概率分布可由上一時(shí)刻前向概率分布算出,而初始時(shí)刻狀態(tài)的邊緣分布通常已知,所以與反向概率分布相反,前向概率分布可以從初始時(shí)刻到當(dāng)前狀態(tài)不斷地迭代計(jì)算出來。根據(jù)前向概率分布和反向概率分布,可以計(jì)算出在整條軌跡都“好”的情況下當(dāng)前狀態(tài)的概率分布,即:(2-19)1.3.3最大熵強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)與最優(yōu)策略我們引入一個(gè)推斷問題,該推斷問題的目標(biāo)是求得,即當(dāng)智能體總是執(zhí)行“好”行為時(shí)候的軌跡分布。為了求出,首先求出邊緣條件動(dòng)作分布或策略和邊緣狀態(tài)條件分布。此時(shí)邊緣狀態(tài)條件分布不是轉(zhuǎn)移概率模型,該分布代表的是在總是幸運(yùn)或者行為總是“好”的情況即得到高回報(bào)下,下一個(gè)時(shí)刻狀態(tài)的概率分布,但通常不會(huì)一直這么幸運(yùn),所以這個(gè)分布不可取。人們通常想要的是在不總是幸運(yùn)或行為不總是“好”的情況下仍然得到高的獎(jiǎng)勵(lì),此時(shí)的分布是,所以不能通過上述方法計(jì)算。取而代之的是在轉(zhuǎn)移概率模型不變的情況下,用另一個(gè)分布來逼近分布。為此,下面引入變分推斷。假設(shè)用一個(gè)分布來逼近分布,首先做如下推導(dǎo):(2-20)所以:(2-21)其中表示分布的熵,描述分布的混亂程度;而分布和之間距離用KL散度描述,(2-22)又因?yàn)榉植己偷腒L散度非負(fù),所以式2-22的結(jié)論可變?yōu)椋海?-23)綜合式2-22和2-23,若一個(gè)分布能最大化證據(jù)下界(EvidenceLowerBound,ELOB),則相當(dāng)于該分布能最小化分布和的KL散度,所以為了使分布逼近分布只需要找一個(gè)能最大化的分布,這就是變分推斷的基本原理。下面用變分推斷的方法找出一個(gè)分布來逼近分布,讓,綜合式2-21和2-23能得到:(2-24)由于初始狀態(tài)邊緣分布和轉(zhuǎn)移概率模型總是不變的,分別為和,又根據(jù)概率圖模型:(2-25)根據(jù)上式2-24和2-25,能推出:(2-26)所以該優(yōu)化問題由找出一個(gè)分布來逼近分布變?yōu)檎乙粋€(gè)分布能最大化ELOB:(2-27)因此,該優(yōu)化問題變?yōu)椋海?-28)目的是找出一個(gè)分布來最大化預(yù)期累積回報(bào)與該分布的熵的累積期望,式2-28是最大熵強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)。相比于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí),該優(yōu)化問題增加了分布的熵項(xiàng),正是由于這一項(xiàng)的存在,使得訓(xùn)練出的最優(yōu)策略具有表示多種“好”行為的能力。有了最大熵強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù),需要進(jìn)一步求出最優(yōu)策略的一般形式。下面用歸納總結(jié)的方式求出了最大熵策略的一般形式,根據(jù)式2-26,當(dāng)時(shí),該目標(biāo)函數(shù)變?yōu)椋海?-29)其中;又因?yàn)楫?dāng)時(shí),,所以。若要找一個(gè)策略最大化式2-29的結(jié)論,只需要找一個(gè)策略最小化:(2-30)所以最優(yōu)的策略為:(2-31)則此時(shí)最優(yōu)的目標(biāo)函數(shù)為:(2-32)一般的,在任意時(shí)刻時(shí),目標(biāo)函數(shù)為:(2-33)其中:(2-34)式2-34與標(biāo)準(zhǔn)鉑爾曼備份方程類似,不同的是這里的狀態(tài)值函數(shù)是近似最大化(softmax),而鉑爾曼備份方程中的狀態(tài)值函數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論