機(jī)器模式識(shí)別 6_第1頁
機(jī)器模式識(shí)別 6_第2頁
機(jī)器模式識(shí)別 6_第3頁
機(jī)器模式識(shí)別 6_第4頁
機(jī)器模式識(shí)別 6_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)與模式識(shí)別第五章深度學(xué)習(xí)第五章

深度學(xué)習(xí)定義:人工智能領(lǐng)域革命性技術(shù),模擬人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從大量數(shù)據(jù)中自動(dòng)提取特征與模式核心能力:為復(fù)雜任務(wù)提供解決方案,覆蓋圖像識(shí)別、自然語言處理、時(shí)間序列數(shù)據(jù)處理等領(lǐng)域典型應(yīng)用計(jì)算機(jī)視覺自然語言處理醫(yī)療領(lǐng)域2第五章

深度學(xué)習(xí)3第五章

深度學(xué)習(xí)

5.1卷積神經(jīng)網(wǎng)絡(luò)

5.2循環(huán)神經(jīng)網(wǎng)絡(luò)

5.3深度強(qiáng)化學(xué)習(xí)45.1.1卷積神經(jīng)網(wǎng)絡(luò)簡介卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)是近幾年發(fā)展起來并引起人們廣泛重視的一種高效識(shí)別方法。定義:深度前饋人工神經(jīng)網(wǎng)絡(luò),人工神經(jīng)元可響應(yīng)周圍單元,適用于大型圖像處理一種層次模型,每層數(shù)據(jù)的形式都是一個(gè)三維張量(Tensor)?;具壿嫞呵梆佭\(yùn)算(逐層抽取高層語義信息)→反向傳播(更新參數(shù))→網(wǎng)絡(luò)收斂優(yōu)勢:避免圖像復(fù)雜前期預(yù)處理,直接輸入原始圖像,在模式分類領(lǐng)域應(yīng)用廣泛分類:一維(序列數(shù)據(jù))、二維(圖像文本識(shí)別)、三維(醫(yī)學(xué)圖像、視頻識(shí)別)55.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)6(a)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(b)把神經(jīng)元設(shè)計(jì)成3個(gè)維度(c)卷積神經(jīng)網(wǎng)絡(luò)CNN神經(jīng)元為3個(gè)維度(width、height、depth),適配圖像輸入CNN的基本體系結(jié)構(gòu)通常由三種層構(gòu)成,分別是卷積層(ConvolutionalLayer)、池化層(PoolingLayer)和全連接層(Fully-ConnectedLayer)。5.1卷積神經(jīng)網(wǎng)絡(luò)7圖5-1-2CNN概念示范圖核心層:卷積層、池化層、全連接層,卷積層與池化層組成卷積組逐層提取特征,全連接層完成分類參數(shù)優(yōu)化:通過權(quán)值共享與局部感知減少模型的復(fù)雜度,提升訓(xùn)練效率5.1.2卷積層

5.1.2.1卷積層介紹卷積層是卷積神經(jīng)網(wǎng)絡(luò)中的基礎(chǔ)操作,甚至在網(wǎng)絡(luò)最后起分類作用的全連接層在工程實(shí)現(xiàn)時(shí)也是由卷積操作替代的。主要作用:抽取特征,使網(wǎng)絡(luò)具有轉(zhuǎn)移不變性,兼具降維作用主要參數(shù):卷積窗口(常用3×3、5×5)、步長、padding(非padding、zero-padding、mean-padding)激活函數(shù):常用ReLU激活函數(shù)卷

的,也

的。多通道卷積即每個(gè)通道對應(yīng)一個(gè)卷積核,結(jié)果相加后經(jīng)激活函數(shù)處理。85.1.2.1卷積層介紹運(yùn)算流程:①選擇(x,y)坐標(biāo)→②核中心對齊坐標(biāo)→③核與輸入對應(yīng)位置乘積求和(核輸出)→④存儲(chǔ)核輸出→⑤按步長滑動(dòng)計(jì)算9(a)卷積過程(b)卷積計(jì)算圖5-1-3卷積操作以3×3卷積核在5×5圖像上的運(yùn)算為例5.1.2.1卷積層介紹1.局部感知:每個(gè)神經(jīng)元僅感知局部區(qū)域,如1000×1000圖像中神經(jīng)元連接10×10像素,參數(shù)減少至原來的萬分之一10圖5-1-4(b)

局部連接卷積層的神經(jīng)元是三維的,也具有深度。卷積層的參數(shù)包含一系列過濾器(Filter,也叫卷積核),每個(gè)過濾器都訓(xùn)練一個(gè)深度,有幾個(gè)過濾器,輸出單元就具有多少深度。圖5-1-5過濾器(卷積核)5.1.2.1卷積層介紹1.局部感知:用以下公式計(jì)算一個(gè)維度(寬或高)內(nèi)一個(gè)輸出單元里可以有幾個(gè)隱藏單元:(W=輸入大小,F(xiàn)=感受野,P=補(bǔ)零數(shù)量,S=步幅)11圖5-1-7隱藏單元輸出大小舉例5.1.2.1卷積層介紹2.權(quán)值共享:為了進(jìn)一步減少參數(shù),將同一卷積核應(yīng)用于全圖(相當(dāng)于對圖像做一個(gè)全圖濾波),提取特征與位置無關(guān)12如圖5-1-8所示,展示了一個(gè)3×3的卷積核在5×5的圖像上做卷積的過程。每個(gè)卷積都是一種特征提取方式,就像一個(gè)篩子,將圖像中符合條件的部分篩選出來。得到的圖像大小為5-3+1=3,即3×3的圖像。5.1.2.1卷積層介紹3.多個(gè)卷積核:添加多個(gè)卷積核(如32個(gè))學(xué)習(xí)多種特征,提升特征表達(dá)能力13圖5-1-9多個(gè)卷積核5.1.2.1卷積層介紹3.多個(gè)卷積核:圖5-1-10展示了在4個(gè)通道上的卷積操作,有兩個(gè)卷積核,生成兩個(gè)通道。計(jì)算公式如下:14圖5-1-10多卷積核操作5.1.2.1卷積層介紹3.多個(gè)卷積核15圖5-1-11卷積過程5.1.2.2激活函數(shù)核心作用:引入非線性因素,解決線性模型表達(dá)力不足問題,使網(wǎng)絡(luò)能處理非線性可分樣本關(guān)鍵性質(zhì):需滿足非線性、連續(xù)可微、范圍不飽和、單調(diào)性、原點(diǎn)附近近似線性等常用激活函數(shù)sigmoid函數(shù):已被淘汰,缺點(diǎn)為飽和時(shí)梯度?。ㄌ荻群纳ⅲ?、輸出不以0為中心tanh函數(shù):仍存在飽和問題165.1.2.2激活函數(shù)常用激活函數(shù)ReLU函數(shù):優(yōu)勢為x>0時(shí)梯度恒為1(無梯度耗散)、增大網(wǎng)絡(luò)稀疏性、運(yùn)算量小,缺點(diǎn)為可能出現(xiàn)“死亡神經(jīng)元”LeakyReLU函數(shù):改善了ReLU的死亡特性但損失稀疏性Maxout函數(shù):Maxout泛化ReLU和LeakyReLU的死亡特性,但損失稀疏性,且參數(shù)翻倍175.1.2.2激活函數(shù)激活函數(shù)選擇:保證數(shù)據(jù)的輸入與輸出也是可微的,運(yùn)算特征是不斷進(jìn)行循環(huán)計(jì)算的主流選擇:ReLU函數(shù)(需合理設(shè)置學(xué)習(xí)率,避免死亡神經(jīng)元)歸一化要求:sigmoid函數(shù)、tanh函數(shù)需輸入歸一化,ReLU函數(shù)無需場景適配:特征差異明顯用tanh函數(shù),需細(xì)微分類用sigmoid函數(shù)185.1.3池化層

核心作用:降低卷積層輸出的特征維度,改善過擬合,實(shí)現(xiàn)空間不變性(旋轉(zhuǎn)、平移、伸縮)

輔助作用:減少參數(shù)與計(jì)算量,提升模型泛化能力

常用的池化有平均池化(Mean-pooling)、最大池化(Max-pooling)和隨機(jī)池化(Stochastic-pooling)3種。19圖5-1-12最大池化5.1.3池化層平均池化:計(jì)算區(qū)域平均值,擅長保留背景信息最大池化:選取區(qū)域最大值,擅長提取紋理特征隨機(jī)池化:按元素值概率隨機(jī)選擇,平衡特征提取效果20池化層位于兩個(gè)卷積層之間,特征圖數(shù)量與前一卷積層一致平均池化減小鄰域受限導(dǎo)致的方差誤差,最大池化減小卷積參數(shù)誤差導(dǎo)致的均值偏移5.1.4全連接層連接方式:將前一層所有的神經(jīng)元與當(dāng)前層的每個(gè)神經(jīng)元相連接,即每層節(jié)點(diǎn)與上一層所有節(jié)點(diǎn)相連,且不保存空間信息核心角色:分類器,綜合前層提取的特征,將分布式特征映射到樣本標(biāo)記空間21圖5-1-13全連接圖5.1.4全連接層計(jì)算原理:由于需要對W和b進(jìn)行更新,還要向前傳遞梯度,所以我們需要計(jì)算如下3個(gè)偏導(dǎo)數(shù):對上一層的輸出(當(dāng)前層的輸入)求導(dǎo)

若我們一次訓(xùn)練16張圖片,即batch_size=16,則我們可以把計(jì)算轉(zhuǎn)換為如下圖的矩陣形式。22圖5-1-16反向傳播計(jì)算轉(zhuǎn)換示意圖5.1.4全連接層計(jì)算原理:由于需要對W和b進(jìn)行更新,還要向前傳遞梯度,所以我們需要計(jì)算如下3個(gè)偏導(dǎo)數(shù):對權(quán)重系數(shù)W求導(dǎo)對偏置系數(shù)b求導(dǎo)23圖5-1-17權(quán)重求導(dǎo)計(jì)算示意圖圖5-1-18偏置求導(dǎo)計(jì)算示意圖5.1.4全連接層在實(shí)際使用中,全連接層可由卷積操作實(shí)現(xiàn):前層是全連接層的全連接層可以轉(zhuǎn)換為卷積核為1×1的卷積;前層是卷積層的全連接層可以轉(zhuǎn)換為卷積核為h×w的全局卷積,h和w分別為前層卷積結(jié)果的高和寬。一些性能優(yōu)異的網(wǎng)絡(luò)模型(如SesNet和GoogLeNet等)均用全局平均池化取代FC來融合學(xué)到的深度特征,提升預(yù)測性能245.1.5經(jīng)典CNN模型

5.1.5.1AlexNet背景:2012年由亞里克斯提出,LeNet加寬版,首次用GPU加速創(chuàng)新核心:ReLU作為激活函數(shù)使用Dropout隨機(jī)忽略一部分神經(jīng)元,防過擬合重疊最大池化LRN層數(shù)據(jù)增強(qiáng)25AlexNet的主要特點(diǎn)5.1.5.1AlexNet結(jié)構(gòu):65萬個(gè)神經(jīng)元、5個(gè)卷積層(3個(gè)后接池化層)、3個(gè)全連接層26圖5-1-19AlexNet結(jié)構(gòu)模型圖5.1.5.2VGGNet核心特點(diǎn):反復(fù)堆疊3×3卷積核與2×2最大池化,構(gòu)建16~19層網(wǎng)絡(luò),VGG16包含16層,VGG19包含19層。優(yōu)勢:擴(kuò)展性強(qiáng),遷移泛化效果好;使用多個(gè)小卷積核替代大卷積核,減少參數(shù)且增加非線性映射27圖5-1-20VGGNet模型的結(jié)構(gòu)圖5.1.5.3GoogLeNet核心創(chuàng)新:Inception模塊:Inception結(jié)構(gòu)一分為四,做一些不同大小的多尺度卷積,之后再池化堆疊特征圖。全局平均池化替代全連接層增加輔助softmax,防梯度消失28圖5-1-22GoogLeNet的Inception結(jié)構(gòu)5.1.5.3GoogLeNet優(yōu)勢:GoogLeNet做了更加大膽的網(wǎng)絡(luò)結(jié)構(gòu)嘗試,雖然深度有22層,但卻比AlexNet和VGGNet小很多,GoogLeNet的參數(shù)為500萬個(gè),AlexNet的參數(shù)個(gè)數(shù)是GoogLeNet的12倍,VGGNet的參數(shù)個(gè)數(shù)又是AlexNet的3倍,因此在內(nèi)存或計(jì)算資源有限時(shí),GoogLeNet是比較好的選擇;從模型結(jié)果來看,GoogLeNet的性能更加優(yōu)越。29參數(shù)少、性能優(yōu),適配資源有限場景5.1.5.4ResNet核心解決:深層網(wǎng)絡(luò)訓(xùn)練集準(zhǔn)確率下降問題(不是由于過擬合造成的)創(chuàng)新結(jié)構(gòu):殘差單元(identitymapping和residualmapping)、shortcut連接,使原始輸入信息直接連接直接至后續(xù)層,使得網(wǎng)絡(luò)后面的層也可以學(xué)習(xí)殘差規(guī)模:最深達(dá)152層,通過殘差學(xué)習(xí)發(fā)揮深度優(yōu)勢30圖5-1-23ResNet結(jié)構(gòu)圖5.1.5.4ResNet31圖5-1-24各類CNN模型圖5.2循環(huán)神經(jīng)網(wǎng)絡(luò)

5.2.1簡單循環(huán)網(wǎng)絡(luò)簡單循環(huán)網(wǎng)絡(luò)(SimpleRecurrentNetwork,SRN)是最簡單的一種循環(huán)神經(jīng)網(wǎng)絡(luò),它的基本結(jié)構(gòu)如圖5-2-1所示(黑色方塊表示一個(gè)延時(shí)器)基本結(jié)構(gòu):多層感知器隱含層增加反饋連接,含延時(shí)器,可視為時(shí)間維度權(quán)值共享的前向神經(jīng)網(wǎng)絡(luò)32圖5-2-1簡單循環(huán)網(wǎng)絡(luò)5.2.1.1簡單循環(huán)網(wǎng)絡(luò)的前向傳播過程簡單循環(huán)網(wǎng)絡(luò)在自然語言處理領(lǐng)域的應(yīng)用十分廣泛,下面以機(jī)器翻譯為例介紹簡單循環(huán)網(wǎng)絡(luò)的使用過程。前向傳播過程中核心公式如下:其中W為是狀態(tài)-狀態(tài)權(quán)重矩陣,U是狀態(tài)-輸入權(quán)重矩陣f為激活函數(shù)(通常選擇tanh函數(shù)),V為輸出-狀態(tài)權(quán)重矩陣,g為輸出層激活函數(shù)(一般采用softmax函數(shù))33隱含層值ht依賴xt與ht-1過程特點(diǎn):t時(shí)刻輸出受前面所有輸入影響,可建模時(shí)序關(guān)系5.2.1.2簡單循環(huán)網(wǎng)絡(luò)的訓(xùn)練過程假定使用交叉煽損失函數(shù),在t時(shí)刻的損失函數(shù)和總損失分別如下:優(yōu)化算法:梯度下降法,權(quán)值矩陣更新34圖5-2-3按時(shí)間維度展開的前向神經(jīng)網(wǎng)絡(luò)5.2.1.2簡單循環(huán)網(wǎng)絡(luò)的訓(xùn)練過程梯度計(jì)算采用隨時(shí)間反向傳播(BPTT)算法,分成以下三步:前向計(jì)算t時(shí)刻隱含層的值ht、輸出值

和損失函數(shù)值Lt。反向計(jì)算在t時(shí)刻的損失函數(shù)Lt關(guān)于k(k≤t)時(shí)刻的加權(quán)輸入zk的偏導(dǎo)值,稱為誤差項(xiàng)值δt,k。計(jì)算損失函數(shù)關(guān)于每個(gè)權(quán)值矩陣的梯度。355.2.1.3簡單循環(huán)網(wǎng)絡(luò)的長期依賴問題問題表現(xiàn):過“深”的結(jié)構(gòu)使模型喪失了“記憶”之前信息的能力,使優(yōu)化變得極其困難。外在表現(xiàn)為序列較長時(shí),訓(xùn)練易出現(xiàn)梯度消失或梯度爆炸臨時(shí)解決方案:合理初始化權(quán)值:避免手動(dòng)調(diào)參,最簡單的方法是令權(quán)值矩陣W=I,同時(shí)令f'(zi)=I,即為了能建模非線性關(guān)系,更換策略為36對于記憶容量的問題,一個(gè)解決方案是選擇性遺忘和更新,如引入門機(jī)制來控制信息的累積速度。5.2.2長短期記憶網(wǎng)絡(luò)一種采用機(jī)制緩解梯度消失和梯度爆炸問題的典型循環(huán)神經(jīng)網(wǎng)絡(luò)。37圖5-2-4LSTM的門機(jī)制通過門機(jī)制與長期狀態(tài)實(shí)現(xiàn)長時(shí)記憶5.2.2.1門機(jī)制LSTM網(wǎng)絡(luò)里的“門”是一種軟(Soft)“門”,取值是在[0,1]內(nèi)部連續(xù)的值,表示允許部分信息通過。為了控制信息傳遞,LSTM使用了三個(gè)門:遺忘門,控制上一時(shí)刻的內(nèi)部單元ct-1

有多少信息傳到了當(dāng)前時(shí)刻的內(nèi)部單元ct;輸入門,負(fù)責(zé)控制把當(dāng)前單元狀態(tài)的候選狀態(tài)

輸入長期狀態(tài)ct輸出門,負(fù)責(zé)控制是否把長期狀態(tài)ct輸出到當(dāng)前時(shí)刻隱含層的值ht385.2.2.2長短期記憶網(wǎng)絡(luò)的前向傳播過程39圖5-2-5LSTM在t時(shí)刻的總體結(jié)構(gòu)5.2.2.2長短期記憶網(wǎng)絡(luò)的前向傳播過程計(jì)算遺忘門ft,控制ct-1的保留比例計(jì)算輸入門it:計(jì)算候選狀態(tài)

:計(jì)算單元狀態(tài)ct:計(jì)算輸出門ot:隱含層的值ht:405.2.2.3長短期記憶網(wǎng)絡(luò)的訓(xùn)練過程定義損失函數(shù):總損失定義如下,其中Lt為t時(shí)刻交叉熵?fù)p失使用梯度下降算法優(yōu)化權(quán)重使損失函數(shù)最小化,梯度更新公式如下LSTM網(wǎng)絡(luò)使用BPTT算法計(jì)算梯度,需優(yōu)化8個(gè)權(quán)重參數(shù),分別是:遺忘門、輸入門、輸出門、候選狀態(tài)的權(quán)重矩陣與偏置415.2.2.3長短期記憶網(wǎng)絡(luò)的訓(xùn)練過程

通過BPTT算法計(jì)算L關(guān)于各個(gè)權(quán)重參數(shù)的梯度,主要有以下3步前向計(jì)算每個(gè)時(shí)刻的每個(gè)單元的輸出值反向計(jì)算總誤差項(xiàng)值δt,k,根據(jù)誤差項(xiàng)來計(jì)算每個(gè)權(quán)重參數(shù)的梯度425.2.2.4長短期記憶網(wǎng)絡(luò)的變體門控制循環(huán)單元(GatedRecurrentUnit,GRU)網(wǎng)絡(luò)是一種比LSTM更加簡單和有效的循環(huán)神經(jīng)網(wǎng)絡(luò)GRU將輸入門和遺忘門合并成一個(gè)門—更新門zt,同時(shí)完成遺忘和輸入任務(wù);引入了重置門rt,用來控制當(dāng)前時(shí)刻隱含層的值ht與上一時(shí)刻的值ht-1的線性依賴關(guān)系435.2.2.4長短期記憶網(wǎng)絡(luò)的變體候選狀態(tài)定義為隱含層輸出44圖5-2-6GRU基本結(jié)構(gòu)參數(shù)更少,訓(xùn)練效率更高5.2.3雙向循環(huán)網(wǎng)絡(luò)和多層循環(huán)網(wǎng)絡(luò)

5.2.3.1雙向循環(huán)網(wǎng)絡(luò)結(jié)構(gòu):兩層循環(huán)神經(jīng)網(wǎng)絡(luò)組成,它們的輸入相同,只是信息傳遞的方向不同(正向、反向)45圖5-2-7按時(shí)間展開的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)適用場景:需結(jié)合上下文的任務(wù)(如文本補(bǔ)全、語義分析)5.2.3雙向循環(huán)網(wǎng)絡(luò)和多層循環(huán)網(wǎng)絡(luò)

5.2.3.1雙向循環(huán)網(wǎng)絡(luò)隱含層值計(jì)算:

(正向)

(反向)最終465.2.3雙向循環(huán)網(wǎng)絡(luò)和多層循環(huán)網(wǎng)絡(luò)

5.2.3.2多層循環(huán)網(wǎng)絡(luò)結(jié)構(gòu):多個(gè)循環(huán)網(wǎng)絡(luò)堆疊,第l層輸入為第l-1層輸出47圖5-2-8按時(shí)間展開的堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)適配復(fù)雜時(shí)序任務(wù)5.2.3雙向循環(huán)網(wǎng)絡(luò)和多層循環(huán)網(wǎng)絡(luò)

5.2.3.2多層循環(huán)網(wǎng)絡(luò)隱含層值計(jì)算:l=1時(shí),

485.3深度強(qiáng)化學(xué)習(xí)又稱增強(qiáng)學(xué)習(xí),是指一類在與環(huán)境(Environment)的不斷交互中學(xué)習(xí)從狀態(tài)(State)到行為的映射的方法。在訓(xùn)練過程中,智能體(Agent)根據(jù)環(huán)境反饋(Reward)的獎(jiǎng)勵(lì)學(xué)習(xí)出一組行為策略,以最大化其所獲得的獎(jiǎng)勵(lì)總值。495.3.1強(qiáng)化學(xué)習(xí)定義智能體主要進(jìn)行學(xué)習(xí)和決策環(huán)境受智能體動(dòng)作的影響,反饋相應(yīng)的獎(jiǎng)勵(lì)或懲罰50圖5-3-1智能體與環(huán)境的交互示意強(qiáng)化學(xué)習(xí)是一種通用的學(xué)習(xí)框架,能用于解決通用人工智能問題。5.3.1強(qiáng)化學(xué)習(xí)定義強(qiáng)化學(xué)習(xí)包括以下5個(gè)基本要素:狀態(tài)S是智能體所處的環(huán)境信息動(dòng)作A是智能體的動(dòng)作空間,a是智能體采取的行為策略

是狀態(tài)s到動(dòng)作a的映射狀態(tài)轉(zhuǎn)移概率

,是智能體根據(jù)當(dāng)前狀態(tài)st做出一個(gè)動(dòng)作at

之后,環(huán)境在下一個(gè)時(shí)刻轉(zhuǎn)變?yōu)闋顟B(tài)st+1的概率。即時(shí)獎(jiǎng)勵(lì)

,環(huán)境反饋智能體的一個(gè)獎(jiǎng)勵(lì),與下一時(shí)刻的狀態(tài)st+1有關(guān)515.3.1強(qiáng)化學(xué)習(xí)定義智能體的目標(biāo)就是學(xué)習(xí)一種策略,使預(yù)期回報(bào)最大化。智能體的策略通常分為確定性策略(DeterministicPolicy)和隨機(jī)性策略(Stoc-hasticPolicy)。確定性策略是指從狀態(tài)空間到動(dòng)作空間的映射函數(shù)π:S→A,是確定的。隨機(jī)性策略表示在給定環(huán)境狀態(tài)時(shí),智能體的動(dòng)作選擇是一種概率分布。為了形式化強(qiáng)化學(xué)習(xí)問題,介紹馬爾可夫過程(MarkovProcess)和馬爾可夫決策過程(MarkovDecisionProcess,MDP)。525.3.1強(qiáng)化學(xué)習(xí)定義馬爾可夫性質(zhì):隨機(jī)變量序列下一時(shí)刻的狀態(tài)st+1

只取決于當(dāng)前狀態(tài)st,而與t-1及t-1之前的狀態(tài)都沒有關(guān)聯(lián)性,即馬爾可夫決策過程是在馬爾可夫過程中加入動(dòng)作a,即下一時(shí)刻的狀態(tài)st+1和當(dāng)前時(shí)刻的狀態(tài)st以及動(dòng)作at相關(guān):智能體從初始環(huán)境s0選擇動(dòng)作a0并執(zhí)行,就到達(dá)下一個(gè)狀態(tài)s1,并反饋智能體一個(gè)即時(shí)獎(jiǎng)勵(lì)r1,然后智能體又根據(jù)狀態(tài)s1

選擇動(dòng)作a1,到達(dá)下一個(gè)狀態(tài)s2,并反饋獎(jiǎng)勵(lì)r2。依此類推535.3.1強(qiáng)化學(xué)習(xí)定義給定策略π(a|s),智

環(huán)

計(jì)

獎(jiǎng)

勵(lì)

報(bào)(Return),即如果環(huán)境中沒有終止?fàn)顟B(tài)(如終身學(xué)習(xí)的機(jī)器人),即T=+∞,則稱為持續(xù)性的任務(wù),通過折扣率來降低遠(yuǎn)期回報(bào)的權(quán)重。折扣回報(bào)(DiscountedReturn)定義為545.3.1.1目標(biāo)函數(shù)一個(gè)策略πθ(a|s)的期望回報(bào)(ExpectedReturn)為

強(qiáng)化學(xué)習(xí)的目標(biāo)就是學(xué)習(xí)到一個(gè)策略πθ(a|s)來最大化期望回報(bào),其中,θ是策略函數(shù)的參數(shù)。55優(yōu)化目標(biāo)函數(shù)的過程中會(huì)涉及幾個(gè)概念,如狀態(tài)值函數(shù)、狀態(tài)-動(dòng)作值函數(shù)等5.3.1.2值函數(shù)根據(jù)輸入不同,值函數(shù)(ValueFunction)可分為狀態(tài)值函數(shù)和狀態(tài)

動(dòng)作值函數(shù)。狀態(tài)值函數(shù)用于評估智能體在給定狀態(tài)下的好壞程度,定義如下:565.3.1.3Q函數(shù)狀態(tài)-動(dòng)作值函數(shù)(State-ActionValueFunction)也常被稱為Q函數(shù)(Q-Function),指當(dāng)智能體執(zhí)行到某一步時(shí),估計(jì)在當(dāng)前狀態(tài)下執(zhí)行該動(dòng)作的好壞程度。這是關(guān)于Q函數(shù)的貝爾曼方程。狀態(tài)值函數(shù)和Q函數(shù)都可以用貝爾曼方程來表示。57事實(shí)上,狀態(tài)值函數(shù)和Q函數(shù)相類似,區(qū)別在于Q函數(shù)多考慮了當(dāng)前時(shí)刻下執(zhí)行動(dòng)作所帶來的影響。5.3.2強(qiáng)化學(xué)習(xí)求解方法求解強(qiáng)化學(xué)習(xí)等同于優(yōu)化貝爾曼方程。無論采用何種方法來求解強(qiáng)化學(xué)習(xí)任務(wù),其核心都是計(jì)算最優(yōu)值函數(shù)或最優(yōu)策略。而值函數(shù)則是對最優(yōu)策略的表達(dá),即最優(yōu)策略就是使值函數(shù)最大的策略。隨機(jī)初始化一個(gè)策略并計(jì)算該策略的值函數(shù),根據(jù)值函數(shù)來設(shè)置新的策略;反復(fù)迭代,直到收斂。動(dòng)態(tài)規(guī)劃(DynamicProgramming,DP)法蒙特卡羅法(MonteCarloMethod)時(shí)序差分學(xué)習(xí)法(Temporal-differenceLearningMethod)585.3.2強(qiáng)化學(xué)習(xí)求解方法動(dòng)態(tài)規(guī)劃(DynamicProgramming,DP)法適合求解馬爾可夫決策過程已知的強(qiáng)化學(xué)習(xí)任務(wù)。核心思想:使用值函數(shù)來組織和構(gòu)建對較優(yōu)策略的搜索。主要有:59策略迭代:由策略評估和策略改進(jìn)相互組合而成。策略評估,用貝爾曼方程迭代計(jì)算Vπ(s)。策略改進(jìn),根據(jù)值函數(shù)來更新策略5.3.2強(qiáng)化學(xué)習(xí)求解方法動(dòng)態(tài)規(guī)劃(DynamicProgramming,DP)法值迭代:將策略評估和策略改進(jìn)這兩個(gè)過程合并,直接計(jì)算出最優(yōu)策略。

假設(shè)最優(yōu)策略π*對應(yīng)的值函數(shù)稱為最優(yōu)值函數(shù),那直接用貝爾曼最優(yōu)方程迭代計(jì)算最優(yōu)值函數(shù)605.3.2強(qiáng)化學(xué)習(xí)求解方法蒙特卡羅法(MonteCarloMethod)適用場景:模型未知,基于采樣學(xué)習(xí),即模型無關(guān)強(qiáng)化學(xué)習(xí)首先從初始狀態(tài)到終止?fàn)顟B(tài)進(jìn)行完整的數(shù)據(jù)采樣,得到N個(gè)軌跡

隨后通過大量的反饋,近似估計(jì)Q函數(shù)為進(jìn)行策略改進(jìn),然后在新的策略下重新通過采樣來估計(jì)Q函數(shù),并不斷重復(fù),直至收斂。61需要大量計(jì)算資源和存儲(chǔ)資源5.3.2強(qiáng)化學(xué)習(xí)求解方法時(shí)序差分學(xué)習(xí)法(Temporal-differenceLearningMethod)融合動(dòng)態(tài)規(guī)劃與蒙特卡羅的優(yōu)點(diǎn),是目前強(qiáng)化學(xué)習(xí)求解的主要方法通過模擬一段軌跡,每行動(dòng)一步或者幾步,就利用貝爾曼方程來評估行動(dòng)前狀態(tài)的價(jià)值。當(dāng)時(shí)序差分學(xué)習(xí)法中每次更新的動(dòng)作數(shù)為最大步數(shù)時(shí),就等價(jià)于蒙特卡羅法。分為兩種:固定策略(以SARSA算法為代表)、非固定策略(以Q學(xué)習(xí)算法為代表)。625.3.2強(qiáng)化學(xué)習(xí)求解方法時(shí)序差分學(xué)習(xí)法(Temporal-differenceLearningMethod)固定策略(以SARSA算法為代表)Q函數(shù)更新公式采樣與優(yōu)化策略均為ε-貪心算法63時(shí)序差分學(xué)習(xí)法只需要一步,其總回報(bào)依賴馬爾可夫性質(zhì)來進(jìn)行近似估計(jì)。5.3.2強(qiáng)化學(xué)習(xí)求解方法時(shí)序差分學(xué)習(xí)法(Temporal-differenceLearningMethod)

非固定策略(以Q學(xué)習(xí)算法為代表)其思想是從當(dāng)前狀態(tài)開始的所有后續(xù)步驟中以最大化總獎(jiǎng)勵(lì)的期望值為目標(biāo)來尋找最優(yōu)策略。Q代表智能體在給定狀態(tài)下所采取動(dòng)作的“質(zhì)量”。Q函數(shù)的估計(jì)方法為直接估計(jì)最優(yōu)狀態(tài)值函數(shù)Q*(s,a)645.3.3深度Q網(wǎng)絡(luò)以用一個(gè)復(fù)雜的函數(shù)(如深度神經(jīng)網(wǎng)絡(luò))來擬合策略函數(shù)或者值函數(shù),如圖5-3-2所示的深度強(qiáng)化學(xué)習(xí),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論