《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第1頁
《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第2頁
《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第3頁
《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第4頁
《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩217頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)應(yīng)用技術(shù)研究所1機(jī)器學(xué)習(xí)MachineLearning

計(jì)算機(jī)應(yīng)用技術(shù)研究所第7章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)常用模型2

深度學(xué)習(xí)基本知識(shí)3

神經(jīng)網(wǎng)絡(luò)概述1

本章學(xué)習(xí)內(nèi)容計(jì)算機(jī)應(yīng)用技術(shù)研究所計(jì)算機(jī)應(yīng)用技術(shù)研究所神經(jīng)網(wǎng)絡(luò)概述計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)概述

神經(jīng)元與感知機(jī)前饋網(wǎng)絡(luò)模型模型訓(xùn)練基本流程

神經(jīng)元與感知機(jī)生物神經(jīng)元基本結(jié)構(gòu)人工神經(jīng)元的結(jié)構(gòu)生物神經(jīng)元與人工神經(jīng)元對(duì)比對(duì)單個(gè)神經(jīng)元而言,其輸入信息來自多個(gè)不同的神經(jīng)元計(jì)算機(jī)應(yīng)用技術(shù)研究所神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

單極性閾值函數(shù)圖像雙極性閾值函數(shù)圖像神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

tanh激活函數(shù)

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所感知機(jī)模型帶偏置感知機(jī)

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)元與感知機(jī)計(jì)算機(jī)應(yīng)用技術(shù)研究所簡單的感知機(jī)模型線性可分的二分類問題使用感知機(jī)模型可解決下圖所示二維平面中線性可分的二分類問題,但感知機(jī)模型難以解決線性不可分問題和多分類任務(wù)。

例題

計(jì)算機(jī)應(yīng)用技術(shù)研究所

例題計(jì)算機(jī)應(yīng)用技術(shù)研究所

例題計(jì)算機(jī)應(yīng)用技術(shù)研究所

例題計(jì)算機(jī)應(yīng)用技術(shù)研究所

計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)概述

神經(jīng)元與感知機(jī)前饋網(wǎng)絡(luò)模型模型訓(xùn)練基本流程

前饋網(wǎng)絡(luò)模型通常將此類沒有環(huán)路或回路的人工神經(jīng)網(wǎng)絡(luò)稱為前饋網(wǎng)絡(luò)模型。感知機(jī)是一種最簡單的前饋網(wǎng)絡(luò)模型。單隱層MLP模型在感知機(jī)模型的基礎(chǔ)之上添加隱含層,通常將此類模型稱為多層感知機(jī)模型(MLP)。

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

原始數(shù)據(jù)分布映射后數(shù)據(jù)分布

前饋網(wǎng)絡(luò)模型

單隱層MLP模型BP神經(jīng)網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

梯度的逐層求解過程

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

前饋網(wǎng)絡(luò)模型

例題

例題

例題

例題

例題

例題

計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)概述

神經(jīng)元與感知機(jī)前饋網(wǎng)絡(luò)模型模型訓(xùn)練基本流程模型訓(xùn)練基本流程與其它機(jī)器學(xué)習(xí)模型的構(gòu)造過程類似,構(gòu)建一個(gè)滿足實(shí)際任務(wù)需求的人工神經(jīng)網(wǎng)絡(luò)需要考慮多方面因素。其中直接影響網(wǎng)絡(luò)模型性能因素包括訓(xùn)練樣本集的大小及樣本質(zhì)量、網(wǎng)絡(luò)模型結(jié)構(gòu)、優(yōu)化目標(biāo)函數(shù)形式和模型優(yōu)化算法。在模型的訓(xùn)練構(gòu)造過程中通常綜合考慮這些因素。模型訓(xùn)練基本流程如下圖所示,構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型大致可分為數(shù)據(jù)準(zhǔn)備與預(yù)處理、模型初始化、確定優(yōu)化目標(biāo)、模型優(yōu)化求解和驗(yàn)證模型性能這五個(gè)基本步驟。構(gòu)造神經(jīng)網(wǎng)絡(luò)模型流程圖模型訓(xùn)練基本流程、數(shù)據(jù)準(zhǔn)備與預(yù)處理首先需要針對(duì)任務(wù)需求收集樣本并對(duì)其進(jìn)行標(biāo)注樣本增強(qiáng)方式實(shí)現(xiàn)對(duì)訓(xùn)練樣本集擴(kuò)充將帶標(biāo)注樣本劃分為兩部分,其中一部分樣本作為訓(xùn)練集用于模型訓(xùn)練,其余部分作為測試集用于驗(yàn)證模型性能對(duì)數(shù)據(jù)進(jìn)行特征提取等預(yù)處理采用合適方式對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行編碼模型訓(xùn)練基本流程二、模型初始化模型初始化參數(shù)一般有:連接權(quán)重、偏置項(xiàng)、超參數(shù)。這種建立初始網(wǎng)絡(luò)模型結(jié)構(gòu)和模型參數(shù)進(jìn)行初始賦值的過程通常稱之為模型初始化過程。模型初始化過程確定了模型優(yōu)化過程從何處開始,從一組較好的模型參數(shù)開始的訓(xùn)練過程通常能夠避免參數(shù)陷入局部最優(yōu)并獲得性能較好的優(yōu)化模型。模型訓(xùn)練基本流程三、確定優(yōu)化目標(biāo)初始模型的模型性能通常難以滿足任務(wù)需求,需對(duì)其進(jìn)行優(yōu)化。為此,需要根據(jù)某一原則構(gòu)造用于模型優(yōu)化的目標(biāo)函數(shù)。針對(duì)不同類型的實(shí)際任務(wù),通常所使用的目標(biāo)函數(shù)形式也有所不同。模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程神經(jīng)網(wǎng)絡(luò)作為一類具體的機(jī)器學(xué)習(xí)模型,與其他機(jī)器學(xué)習(xí)模型一樣有時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象,可通過在模型優(yōu)化的目標(biāo)函數(shù)中添加正則化項(xiàng)以約束模型參數(shù)的取值,降低模型容量實(shí)現(xiàn)消除或緩解過擬合現(xiàn)象的效果。模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程四、模型優(yōu)化求解確定了目標(biāo)函數(shù)之后,在初始網(wǎng)絡(luò)模型參數(shù)均為已知的條件下,可將訓(xùn)練樣本輸入網(wǎng)絡(luò)模型進(jìn)行前向計(jì)算求得目標(biāo)函數(shù)具體取值,并可使用梯度下降、牛頓迭代或隨機(jī)梯度下降等模型優(yōu)化算法對(duì)目標(biāo)函數(shù)進(jìn)行迭代優(yōu)化計(jì)算逐步逼近最優(yōu)模型參數(shù)。優(yōu)化算法主要是依據(jù)梯度和誤差進(jìn)行參數(shù)更新。模型訓(xùn)練基本流程

模型訓(xùn)練基本流程

模型訓(xùn)練基本流程五、驗(yàn)證模型性能驗(yàn)證模型確定優(yōu)化模型的性能是否滿足任務(wù)需求。若模型性能未達(dá)到任務(wù)需求,則需重新設(shè)定超參數(shù)并構(gòu)造優(yōu)化模型;若優(yōu)化模型已達(dá)到給定任務(wù)需求,則可直接輸出該優(yōu)化模型并用于解決實(shí)際任務(wù)。模型訓(xùn)練基本流程

神經(jīng)網(wǎng)絡(luò)常用模型2

深度學(xué)習(xí)基本知識(shí)3

神經(jīng)網(wǎng)絡(luò)概述14

本章學(xué)習(xí)內(nèi)容計(jì)算機(jī)應(yīng)用技術(shù)研究所神經(jīng)網(wǎng)絡(luò)常用模型計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)常用模型

徑向基網(wǎng)絡(luò)自編碼器玻爾茲曼機(jī)徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)機(jī)器學(xué)習(xí)中回歸任務(wù)的本質(zhì)是根據(jù)已知離散數(shù)據(jù)集求解與之相符的連續(xù)函數(shù),基本求解思路是對(duì)已知的離散數(shù)據(jù)進(jìn)行擬合,使得擬合函數(shù)與已知離散數(shù)據(jù)的誤差在某種度量意義下達(dá)到最小。RBF網(wǎng)絡(luò)對(duì)于此類問題的求解思路則是通過對(duì)已知離散數(shù)據(jù)進(jìn)行插值的方式確定網(wǎng)絡(luò)模型參數(shù)。徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)正規(guī)化徑向基網(wǎng)絡(luò)

廣義徑向基網(wǎng)絡(luò)由于正規(guī)化徑向基網(wǎng)絡(luò)的隱含層神經(jīng)元數(shù)據(jù)與訓(xùn)練樣本數(shù)一致,在大樣本量情況下模型過于復(fù)雜,難以進(jìn)行有效訓(xùn)練,通過減少隱含層神經(jīng)元數(shù)目所得到的徑向基網(wǎng)絡(luò)通常稱之為廣義徑向基網(wǎng)絡(luò)。正規(guī)化徑向基網(wǎng)絡(luò)與廣義徑向基網(wǎng)絡(luò)模型如下圖所示:徑向基網(wǎng)絡(luò)

輸出層神經(jīng)元數(shù)目與訓(xùn)練樣本標(biāo)簽的編碼方式有關(guān),若樣本標(biāo)簽采用獨(dú)熱式編碼方式,則輸出層神經(jīng)元數(shù)目與分類問題的類別數(shù)相同。徑向基網(wǎng)絡(luò)廣義徑向基網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)包括隱含層各神經(jīng)元所對(duì)應(yīng)的徑向基函數(shù)中心、擴(kuò)展常數(shù)以及隱含層與輸出層之間的連接權(quán)重。其中徑向基函數(shù)中心和擴(kuò)展常數(shù)決定了對(duì)原始數(shù)據(jù)分布進(jìn)行非線性映射的效果,隱含層與輸出層之間的連接權(quán)重則決定了線性分類器的決策邊界。這些可學(xué)習(xí)參數(shù)共同決定了原始數(shù)據(jù)空間中非線性決策邊界的具體形式。徑向基網(wǎng)絡(luò)

徑向基網(wǎng)絡(luò)

計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)常用模型

徑向基網(wǎng)絡(luò)自編碼器玻爾茲曼機(jī)自編碼器在機(jī)器學(xué)習(xí)任務(wù)中經(jīng)常需要采用某種方式對(duì)數(shù)據(jù)進(jìn)行有效編碼,例如對(duì)原始數(shù)據(jù)進(jìn)行特征提取便是幾乎所有機(jī)器學(xué)習(xí)問題均需解決的編碼任務(wù)。除此之外,對(duì)數(shù)據(jù)進(jìn)行降維處理或稀疏編碼也是常見的編碼任務(wù)。通常對(duì)數(shù)據(jù)進(jìn)行編碼時(shí)需要按照編碼要求將原始數(shù)據(jù)轉(zhuǎn)化為特定形式的編碼數(shù)據(jù),并要求編碼數(shù)據(jù)盡可能多地保留原始數(shù)據(jù)信息,對(duì)這樣的編碼數(shù)據(jù)進(jìn)行分析處理不僅會(huì)更加方便,而且可保證分析處理的結(jié)果較為準(zhǔn)確。自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器

自編碼器使用梯度下降法對(duì)上述目標(biāo)函數(shù)進(jìn)行優(yōu)化計(jì)算并結(jié)合反向傳播算法更新模型參數(shù),進(jìn)行1千次左右迭代后模型基本收斂,獲得所求降噪自編碼器。使用該降噪自編碼器可得下圖所示的降噪效果:計(jì)算機(jī)應(yīng)用技術(shù)研究所

神經(jīng)網(wǎng)絡(luò)常用模型

徑向基網(wǎng)絡(luò)自編碼器玻爾茲曼機(jī)玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練構(gòu)造通常使用目標(biāo)函數(shù)最小化的優(yōu)化計(jì)算方式實(shí)現(xiàn)。前述各類前饋神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練構(gòu)造均從誤差最小化的角度設(shè)計(jì)目標(biāo)函數(shù),對(duì)此類目標(biāo)函數(shù)進(jìn)行優(yōu)化所模型后可保證在訓(xùn)練集上的整體預(yù)測誤差達(dá)到最小且具備一定的泛化能力。事實(shí)上,還可從系統(tǒng)穩(wěn)定性角度出發(fā)設(shè)計(jì)目標(biāo)函數(shù)。由于系統(tǒng)越穩(wěn)定則其能量越低,故為得到一個(gè)穩(wěn)定的模型輸出,可設(shè)計(jì)與網(wǎng)絡(luò)模型相關(guān)的能量函數(shù)作為網(wǎng)絡(luò)模型優(yōu)化的目標(biāo)函數(shù),由此實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化求解。玻爾茲曼機(jī)便是此類神經(jīng)網(wǎng)絡(luò)的代表模型。玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)由以上分析可知,玻爾茲曼機(jī)的各神經(jīng)元均傾向于選擇使得網(wǎng)絡(luò)能量降低的輸出值,故該網(wǎng)絡(luò)模型的能量函數(shù)取值呈現(xiàn)總體下降趨勢,但亦存在能量函數(shù)取值上升的可能性。這樣可有效避免網(wǎng)絡(luò)模型的優(yōu)化計(jì)算陷入局部最優(yōu)。玻爾茲曼機(jī)

玻爾茲曼機(jī)對(duì)于第一個(gè)問題,可在玻爾茲曼機(jī)的訓(xùn)練過程中采用最大似然估計(jì)法求解連接權(quán)重,即將玻爾茲曼機(jī)的連接權(quán)重設(shè)置為使得訓(xùn)練集中所有狀態(tài)向量出現(xiàn)概率最大時(shí)的權(quán)重。對(duì)于第二個(gè)問題,可在玻爾茲曼機(jī)的訓(xùn)練過程中采用模擬退火算法對(duì)玻爾茲曼機(jī)的能量函數(shù)進(jìn)行最小化的優(yōu)化計(jì)算獲得確定的穩(wěn)態(tài)模型。玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)由以上分析可知,若直接從某一較低溫度開始運(yùn)行模型,則模型達(dá)到穩(wěn)態(tài)時(shí)所對(duì)應(yīng)的能量函數(shù)取值很有可能是局部最小值。為避免這種情況發(fā)生,可從某個(gè)較高的溫度開始運(yùn)行模型并逐步降低溫度,由此以較大概率獲得全局最優(yōu)模型。模擬退火算法正是基于這種思想一種啟發(fā)式優(yōu)化搜索算法。玻爾茲曼機(jī)

玻爾茲曼機(jī)

玻爾茲曼機(jī)

例題

例題

例題

例題

例題

神經(jīng)網(wǎng)絡(luò)常用模型2

深度學(xué)習(xí)基本知識(shí)3

神經(jīng)網(wǎng)絡(luò)概述1

本章學(xué)習(xí)內(nèi)容計(jì)算機(jī)應(yīng)用技術(shù)研究所深度學(xué)習(xí)基本知識(shí)計(jì)算機(jī)應(yīng)用技術(shù)研究所

深度學(xué)習(xí)基本知識(shí)

淺層學(xué)習(xí)與深度學(xué)習(xí)深度堆棧網(wǎng)絡(luò)DBN模型及學(xué)習(xí)算法淺層學(xué)習(xí)與深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型作為一個(gè)通用逼近函數(shù)具有非常強(qiáng)大的擬合能力,由于隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)模型通常會(huì)變得難以收斂且計(jì)算量巨大,故具有強(qiáng)大擬合能力的淺層網(wǎng)絡(luò)是很長一段時(shí)期最主要的研究對(duì)象。對(duì)于大多數(shù)神經(jīng)網(wǎng)絡(luò)模型而言,其根本目的在于模擬適用于某個(gè)任務(wù)的映射函數(shù),如針對(duì)于二分類問題的MLP模型其實(shí)相當(dāng)于從樣本輸入到樣本標(biāo)簽類別的映射函數(shù),正規(guī)化徑向基網(wǎng)絡(luò)則相當(dāng)于從樣本輸入到樣本對(duì)應(yīng)取值之間的映射函數(shù)。淺層學(xué)習(xí)與深度學(xué)習(xí)從理論上看,神經(jīng)元數(shù)目足夠多的神經(jīng)網(wǎng)絡(luò)模型可以逼近任意函數(shù)。神經(jīng)網(wǎng)絡(luò)模型增加神經(jīng)網(wǎng)絡(luò)的隱含層層數(shù)比直接增加某一隱含層的結(jié)點(diǎn)數(shù)目更能提高模型的擬合能力,這是因?yàn)樘砑与[含層不僅增加了模型的數(shù)據(jù)處理神經(jīng)元數(shù)目,還添加了一層嵌套的非線性映射函數(shù)。淺層學(xué)習(xí)與深度學(xué)習(xí)以使用簡單函數(shù)逼近復(fù)雜函數(shù)過程為例。下圖表示使用簡單函數(shù)逼近復(fù)雜函數(shù)的一個(gè)簡單實(shí)例,若使用單層多結(jié)點(diǎn)模型逼近這一復(fù)雜函數(shù),則表示形式通常較為復(fù)雜,如下圖所示。若用多層模型,則可較為簡單的表示該復(fù)雜函數(shù)。簡單函數(shù)對(duì)復(fù)雜函數(shù)的逼近

多層模型表示復(fù)雜函數(shù)淺層學(xué)習(xí)與深度學(xué)習(xí)數(shù)據(jù)處理層數(shù)較少的神經(jīng)網(wǎng)絡(luò)模型容量較低,基于此類模型的機(jī)器學(xué)習(xí)一般統(tǒng)稱為淺層學(xué)習(xí)。雖然從理論上講淺層學(xué)習(xí)模型可以逼近任意函數(shù),但其模型容量或靈活性遠(yuǎn)不及具有較深層次的網(wǎng)絡(luò)模型,難以滿足對(duì)復(fù)雜任務(wù)求解的需求。計(jì)算機(jī)硬件巨大進(jìn)步和大數(shù)據(jù)技術(shù)的發(fā)展使得對(duì)較深層次網(wǎng)絡(luò)模型的訓(xùn)練構(gòu)造成為可能,可通過深度學(xué)習(xí)技術(shù)構(gòu)造深度網(wǎng)絡(luò)模型用于解決比較復(fù)雜的實(shí)際問題。淺層學(xué)習(xí)與深度學(xué)習(xí)深度學(xué)習(xí)是與淺層學(xué)習(xí)相對(duì)應(yīng)的概念,深度網(wǎng)絡(luò)模型通常包含多層數(shù)據(jù)處理神經(jīng)元,故此類模型的容量要比淺層學(xué)習(xí)模型大得多。但隨著網(wǎng)絡(luò)層數(shù)加深,深度網(wǎng)絡(luò)模型易出現(xiàn)網(wǎng)絡(luò)性能的退化、容易陷入局部最優(yōu)等問題。所謂退化,是指神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練集與測試集上所表現(xiàn)出的性能隨著網(wǎng)絡(luò)層數(shù)加深而降低的現(xiàn)象。理論上講,網(wǎng)絡(luò)層數(shù)越深則模型容量越大,網(wǎng)絡(luò)模型應(yīng)更易出現(xiàn)過擬合現(xiàn)象,但退化網(wǎng)絡(luò)模型會(huì)出現(xiàn)嚴(yán)重欠擬合現(xiàn)象。淺層學(xué)習(xí)與深度學(xué)習(xí)導(dǎo)致模型退化的直接原因是模型訓(xùn)練過程中產(chǎn)生的梯度消失現(xiàn)象,即深度模型前幾層參數(shù)的梯度接近于0。如果模型訓(xùn)練出現(xiàn)梯度消失現(xiàn)象,則每次參數(shù)更新均無法有效改變模型前幾層的參數(shù),故無論是訓(xùn)練過程還是測試過程,網(wǎng)絡(luò)前幾層的參數(shù)均接近于初始狀態(tài)。因此,訓(xùn)練過程中一旦出現(xiàn)梯度消失現(xiàn)象,則整個(gè)網(wǎng)絡(luò)模型在訓(xùn)練和測試過程中都無法取得良好的性能。淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)對(duì)于過于復(fù)雜的函數(shù),難免會(huì)存在多個(gè)方向上梯度取值均為0的非最優(yōu)點(diǎn),如局部最小值點(diǎn)和鞍點(diǎn)等。下圖(左、右)分別展示了三維空間中函數(shù)局部最小值點(diǎn)和鞍點(diǎn),由于函數(shù)在這些點(diǎn)處對(duì)于任意參數(shù)的梯度取值均為0,故在模型優(yōu)化過程中一旦陷入局部最小值點(diǎn)或鞍點(diǎn),則參數(shù)取值很難再發(fā)生變化。此時(shí)模型雖并未達(dá)到最優(yōu)狀態(tài),但模型參數(shù)已收斂,故難以保證所求模型滿足實(shí)際需求。淺層學(xué)習(xí)與深度學(xué)習(xí)根據(jù)上述思想,人們提出了多種對(duì)深度網(wǎng)絡(luò)模型參數(shù)進(jìn)行初始化的方案。其中最著名的是對(duì)深度網(wǎng)絡(luò)模型進(jìn)行逐層訓(xùn)練。由于神經(jīng)網(wǎng)絡(luò)模型前一層的輸出信號(hào)即為之后一層的輸入信號(hào),故可考慮從輸入數(shù)據(jù)開始逐步訓(xùn)練淺層學(xué)習(xí)模型,再將前一個(gè)淺層學(xué)習(xí)模型中某一層的輸出作為下一個(gè)淺層學(xué)習(xí)模型的輸入并對(duì)該模型進(jìn)行訓(xùn)練,重復(fù)上述過程直至構(gòu)建了多個(gè)淺層學(xué)習(xí)模型,最后通過某些技巧將這些訓(xùn)練好的淺層模型進(jìn)行堆疊便可獲得一個(gè)初始參數(shù)較優(yōu)的深度網(wǎng)絡(luò)模型。上述過程即相當(dāng)于對(duì)深度網(wǎng)絡(luò)模型進(jìn)行逐層訓(xùn)練。淺層學(xué)習(xí)與深度學(xué)習(xí)通常采用基于無監(jiān)督學(xué)習(xí)的自編碼器等淺層學(xué)習(xí)模型作為用于堆疊的模型,因?yàn)榇祟悳\層學(xué)習(xí)模型的學(xué)習(xí)成本較低,并可通過學(xué)習(xí)獲得對(duì)輸入數(shù)據(jù)的良好特征表示,采用此類模型進(jìn)行堆疊可在學(xué)習(xí)成本較低的情況下獲得較優(yōu)的深度網(wǎng)絡(luò)模型初始參數(shù)。淺層學(xué)習(xí)與深度學(xué)習(xí)深度網(wǎng)絡(luò)模型的特點(diǎn)是能夠逐層對(duì)數(shù)據(jù)進(jìn)行處理并獲得原始數(shù)據(jù)的深層表示。為了得到對(duì)數(shù)據(jù)的深層表示,通常僅對(duì)編碼器部分進(jìn)行堆疊,下一個(gè)編碼器的輸入是為前一個(gè)編碼器的輸出,利用多個(gè)訓(xùn)練好的編碼器進(jìn)行堆疊便可得到一個(gè)參數(shù)較優(yōu)的深度網(wǎng)絡(luò)模型。淺層學(xué)習(xí)與深度學(xué)習(xí)通過自編碼器進(jìn)行堆疊所獲得的深度網(wǎng)絡(luò)模型稱之為深度堆棧網(wǎng)絡(luò)。與上述方法類似,也可通過對(duì)受限玻爾茲曼機(jī)進(jìn)行堆疊獲得參數(shù)較優(yōu)的深度網(wǎng)絡(luò)模型,通常稱此類網(wǎng)絡(luò)模型為深度置信網(wǎng)絡(luò)。下圖(左,右)分別表示深度堆棧網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)的基本結(jié)構(gòu)。深度堆棧網(wǎng)絡(luò)

深度置信網(wǎng)絡(luò)淺層學(xué)習(xí)與深度學(xué)習(xí)使用逐層訓(xùn)練方式所獲得的深度學(xué)習(xí)模型僅為初始模型,還需使用帶標(biāo)注樣本集在此基礎(chǔ)上對(duì)模型參數(shù)做進(jìn)一步優(yōu)化計(jì)算獲得滿足實(shí)際需求的深度網(wǎng)絡(luò)模型。除了賦予深度學(xué)習(xí)模型一組較優(yōu)初始參數(shù)之外,還可考慮修改模型的激活函數(shù)以緩解梯度消失,解決退化問題。亦可使用隨機(jī)梯度下降算法等具有一定隨機(jī)性的模型優(yōu)化算法對(duì)模型參數(shù)進(jìn)行更新,在一定程度上賦予模型跳出局部最優(yōu)的能力。淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)與深度自編碼器類似,DBM模型也包含多個(gè)隱含層,其網(wǎng)絡(luò)結(jié)構(gòu)如右圖所示。DBM模型同層結(jié)點(diǎn)單元之間無連接,只有相鄰兩層之間的神經(jīng)元才進(jìn)行互連。DBM是一種基于能量最小化的模型,在完成對(duì)訓(xùn)練樣本集數(shù)據(jù)分布的擬合并達(dá)到能量最低的穩(wěn)態(tài)之后,DBM可獲得關(guān)于原始數(shù)據(jù)較好的特征表示。深度堆棧網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)分別使用訓(xùn)練好的深層自編碼器和一種改進(jìn)的玻爾茲曼機(jī)進(jìn)行堆疊。深度生成模型還可用于生成虛擬樣本實(shí)現(xiàn)樣本增強(qiáng),例如生成式對(duì)抗網(wǎng)絡(luò)作為一種深度生成模型,主要用于生成所需的虛擬樣本。淺層學(xué)習(xí)與深度學(xué)習(xí)

淺層學(xué)習(xí)與深度學(xué)習(xí)

計(jì)算機(jī)應(yīng)用技術(shù)研究所

深度學(xué)習(xí)基本知識(shí)

淺層學(xué)習(xí)與深度學(xué)習(xí)深度堆棧網(wǎng)絡(luò)DBN模型及學(xué)習(xí)算法深度堆棧網(wǎng)絡(luò)深度網(wǎng)絡(luò)模型隱含層功能是逐層對(duì)輸入數(shù)據(jù)進(jìn)行有效編碼從而獲得原始數(shù)據(jù)的高層特征表示。然而,由于深度學(xué)習(xí)中存在模型退化和易陷入局部最優(yōu)等問題,若不對(duì)傳統(tǒng)的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行合理調(diào)整就直接通過優(yōu)化算法進(jìn)行訓(xùn)練,則所得深度網(wǎng)絡(luò)模型將無法達(dá)到所需性能。解決上述問題最簡單的思路就是賦予模型一組較好的初始參數(shù)。為得到一組較好的初始參數(shù),可用多個(gè)訓(xùn)練好的自編碼器進(jìn)行堆疊。由自編碼器堆疊而成的深度網(wǎng)絡(luò)模型通常稱之為深度堆棧網(wǎng)絡(luò)(DSN)。深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)堆疊過程完成之后所得的深度網(wǎng)絡(luò)模型僅能獲得關(guān)于原始數(shù)據(jù)的高層特征表示,還需在其后添加一層輸出層,由此獲得深度堆棧網(wǎng)絡(luò)的完整結(jié)構(gòu)。例如對(duì)于k個(gè)類別的多分類任務(wù),可在堆疊所得網(wǎng)絡(luò)的最后添加包含k個(gè)使用softmax激活函數(shù)的神經(jīng)元作為輸出結(jié)點(diǎn),獲得完整的深度堆棧網(wǎng)絡(luò)。深度堆棧網(wǎng)絡(luò)與普通的深層前饋網(wǎng)絡(luò)模型具有相同的拓?fù)浣Y(jié)構(gòu),但普通的深層前饋網(wǎng)絡(luò)的所有參數(shù)通常均由隨機(jī)初始化方式得到,而深度堆棧網(wǎng)絡(luò)從輸入層開始到最后一個(gè)隱含層之間的連接權(quán)重均通過逐層訓(xùn)練方式獲得,只有隱含層到輸出層之間的連接權(quán)重需要通過隨機(jī)初始化等方式得到。深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)首先使用訓(xùn)練樣本構(gòu)建用于堆疊的第一個(gè)自編碼器(下圖左)。設(shè)置該自編碼器包含一個(gè)256個(gè)神經(jīng)元的隱含層。深度堆棧網(wǎng)絡(luò)模型如下圖(右)所示。第一個(gè)自編碼器

深度堆棧網(wǎng)絡(luò)深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)完成第一個(gè)自編碼器的訓(xùn)練過程之后,使用該編碼器對(duì)所有訓(xùn)練樣本的編碼結(jié)果組成訓(xùn)練集,并重復(fù)上述步驟完成對(duì)第二個(gè)自編碼器的訓(xùn)練。以此類推,共構(gòu)建5個(gè)用于堆疊的自編碼器。通過對(duì)這些自編碼器進(jìn)行堆疊獲得如下圖所示深度堆棧網(wǎng)絡(luò),其中第5個(gè)隱含層到輸出層之間的連接權(quán)重通過隨機(jī)初始化方法獲得,其余連接權(quán)重均通過訓(xùn)練獲得。深度堆棧網(wǎng)絡(luò)

深度堆棧網(wǎng)絡(luò)使用自編碼器進(jìn)行堆疊的優(yōu)勢主要體現(xiàn)在兩個(gè)方面:第一,自編碼器與深層神經(jīng)網(wǎng)絡(luò)隱含層的功能類似,都可獲得關(guān)于原始數(shù)據(jù)較好的特征表示,只不過自編碼器所獲得的特征表示形式并非高層特征,但通過堆疊可解決這一問題;第二,自編碼器采用無監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練,構(gòu)造成本較低。在實(shí)際應(yīng)用過程中,還可通過深度自編碼器進(jìn)行堆疊,但深度自編碼器的層數(shù)不宜過多,因?yàn)閷哟芜^深時(shí)同樣會(huì)出現(xiàn)退化和易陷入局部最優(yōu)等問題。計(jì)算機(jī)應(yīng)用技術(shù)研究所

深度學(xué)習(xí)基本知識(shí)

淺層學(xué)習(xí)與深度學(xué)習(xí)深度堆棧網(wǎng)絡(luò)DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法深度置信網(wǎng)絡(luò)(DBN)是除深度堆棧網(wǎng)絡(luò)之外另一類常見深度生成模型。與深度堆棧網(wǎng)絡(luò)類似,DBN模型也是通過逐層堆疊方式構(gòu)造,與深度堆棧網(wǎng)不同的是用于堆疊形成DBN模型的基本組件是一種名為受限玻爾茲曼機(jī)(RBM)的改進(jìn)玻爾茲曼機(jī)(BM)模型。BM模型雖然能夠較好地?cái)M合訓(xùn)練數(shù)據(jù)集概率分布,但模型訓(xùn)練過程耗時(shí)過長。主要原因是模型中神經(jīng)元兩兩之間均存在雙向連接且在訓(xùn)練過程中涉及無約束的自由運(yùn)行階段。為降低模型訓(xùn)練難度,人們在BM模型基礎(chǔ)之上提出RBM模型。RBM模型與BM模型的最大區(qū)別在于同層神經(jīng)元間不存在相互連接。

DBN模型及學(xué)習(xí)算法下圖(左,右)分別表示BM模型和RBM模型:與自編碼器類似,RBM亦采用無監(jiān)督學(xué)習(xí)方式訓(xùn)練并能獲得數(shù)據(jù)輸入的特征表示,故亦可將RBM作為堆疊組件。由通過RBM堆疊所獲得的深層神經(jīng)網(wǎng)絡(luò)便是DBN模型。事實(shí)上,采用RBM作為堆疊組件的DBN模型早于深度堆棧網(wǎng)絡(luò)。

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法將訓(xùn)練好的一組RBM模型逐層堆疊,便可獲得一個(gè)DBN模型。DBN模型的網(wǎng)絡(luò)結(jié)構(gòu)如右圖所示,其中頂端兩個(gè)隱含層神經(jīng)元之間為無向邊連接,其余相鄰網(wǎng)絡(luò)層級(jí)之間均通過自頂向下的有向邊進(jìn)行連接,即使用有向連接的logistic信度網(wǎng)絡(luò)代替用于堆疊的RBM模型且網(wǎng)絡(luò)權(quán)重為相應(yīng)受限玻爾茲曼機(jī)的對(duì)應(yīng)權(quán)重。

DBN模型及學(xué)習(xí)算法如右圖所示,logistic信度網(wǎng)絡(luò)是一類單向連接的網(wǎng)絡(luò)模型。與DBN模型類似,logistic信度網(wǎng)絡(luò)也是一個(gè)隨機(jī)網(wǎng)絡(luò),該模型中各神經(jīng)元的激活概率由Sigmoid函數(shù)確定。由于Sigmoid函數(shù)有時(shí)亦稱之為logistic函數(shù),logistic信度網(wǎng)絡(luò)由此得名。logistic信度網(wǎng)絡(luò)的無環(huán)連接方式使得該網(wǎng)絡(luò)中各神經(jīng)元取值的概率計(jì)算較為簡便。

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法深度前饋網(wǎng)絡(luò)模型與DBN模型分別從兩個(gè)不同方向利用這組用于堆疊的RBM模型,DBN模型更注重利用RBM模型的解碼能力,即從數(shù)據(jù)的高層數(shù)據(jù)表示恢復(fù)出原始數(shù)據(jù),而基于DBN模型所定義的深度前饋網(wǎng)絡(luò)則利用RBM模型的編碼能力,通過對(duì)原始數(shù)據(jù)的逐層編碼從而獲得其高層特征表示。與深度堆棧網(wǎng)絡(luò)一樣,基于DBN模型所定義的深度前饋網(wǎng)絡(luò)只是一個(gè)初始網(wǎng)絡(luò)模型,若想達(dá)到理想效果,還需使用監(jiān)督學(xué)習(xí)方法對(duì)其參數(shù)進(jìn)行微調(diào)。

DBN模型及學(xué)習(xí)算法

DBN模型及學(xué)習(xí)算法

當(dāng)模型參數(shù)收斂時(shí),記錄所有訓(xùn)練樣本所對(duì)應(yīng)的隱含層狀態(tài)并組成訓(xùn)練集用于訓(xùn)練下一個(gè)RBM模型,以此類推便可構(gòu)造一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論