【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第1頁(yè)
【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第2頁(yè)
【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第3頁(yè)
【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第4頁(yè)
【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述目錄TOC\o"1-3"\h\u30123MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述 1231101.1MLP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 1101881.1.1感知機(jī) 1209031.1.2多層感知機(jī)神經(jīng)網(wǎng)絡(luò) 3203511.2神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí) 629871.2.1訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù) 6323161.2.2損失函數(shù) 663331.2.3梯度下降 7318141.2.4神經(jīng)網(wǎng)絡(luò)權(quán)重初始值 7234151.2.5Mini-batch學(xué)習(xí) 8306411.2.6神經(jīng)網(wǎng)絡(luò)的深度 8123061.2.7防止過(guò)擬合 9多層感知機(jī)(Multi-LayerPerceptron,MLP)神經(jīng)網(wǎng)絡(luò),它是由多層感知機(jī)堆疊構(gòu)造的神經(jīng)網(wǎng)絡(luò),它是神經(jīng)網(wǎng)絡(luò)算法中的一種。機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、MLP神經(jīng)網(wǎng)絡(luò)概念的從屬關(guān)系:機(jī)器學(xué)習(xí)→神經(jīng)網(wǎng)絡(luò)→MLP神經(jīng)網(wǎng)絡(luò),它們之間很多屬性是相通的。感知機(jī)是神經(jīng)網(wǎng)絡(luò)算法的起源,也是MLP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。本章從感知機(jī)說(shuō)起,然后講述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)原理;通過(guò)層層推進(jìn),對(duì)本文MLP神經(jīng)網(wǎng)絡(luò)模型的重要參數(shù)背后的原理進(jìn)行解釋,也為后面的策略優(yōu)化研究打下理論基礎(chǔ)。1.1MLP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)1.1.1感知機(jī)Frank在1957年提出感知機(jī)算法(Perceptron),這個(gè)感知機(jī)算法的靈感來(lái)源于生物神經(jīng)元的工作原理。圖3-1展示了感知機(jī)的基本結(jié)構(gòu),圓形表示結(jié)點(diǎn),箭頭方向表示數(shù)據(jù)的流動(dòng)方向:圖3-1感知機(jī)的基本結(jié)構(gòu)x1、x2、x3表示輸入特征。w1、w2、w3表示每個(gè)特征的權(quán)重參數(shù),用于控制各個(gè)特征的重要性。b表示偏置參數(shù),用于控制感知機(jī)被激活的容易程度。Z表示輸入特征的總和,只有當(dāng)這個(gè)總和超過(guò)某一個(gè)閾值的時(shí)候,感知機(jī)才會(huì)被“激活”。這個(gè)過(guò)程,用數(shù)學(xué)表示:Z=x或者寫成矩陣形式:Z=Wy^=fZ公式(3-2)中f是激活函數(shù),它的作用在于決定如何來(lái)激活輸入特征總和Z。在這個(gè)例子中,感知機(jī)使用階躍函數(shù)作為激活函數(shù),它以0為閾值,只有當(dāng)Z>0,才會(huì)輸出1;否則輸出0。感知機(jī)只有一層功能神經(jīng)元,它只能用于簡(jiǎn)單的線性分類學(xué)習(xí)。但是對(duì)于非線性問(wèn)題,感知機(jī)是不能解決的,這是感知機(jī)的一個(gè)主要限制。圖3-2XOR分類問(wèn)題圖3-2XOR分類問(wèn)題,任何線性超平面都不可以把這兩類分開。XOR分類問(wèn)題的解決方案是疊加感知機(jī)。1.1.2多層感知機(jī)神經(jīng)網(wǎng)絡(luò)多層感知機(jī)(Multi-LayersPerceptron,MLP)神經(jīng)網(wǎng)絡(luò)和感知機(jī)之間的一個(gè)主要區(qū)別就是增加了隱藏層,這就增加了具有激活函數(shù)的功能神經(jīng)元,從而大大提高了它們學(xué)習(xí)非線性的決策邊界。這種包含了隱藏層的神經(jīng)網(wǎng)絡(luò),被稱為深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)。圖3-3多層感知機(jī)(MLP)神經(jīng)網(wǎng)絡(luò)圖3-3中,網(wǎng)絡(luò)的第一層是輸入層(inputlayer);中間層被稱為隱藏層(hiddenlayer),在隱藏層的結(jié)點(diǎn),也可以被稱作神經(jīng)元。在隱藏層的每一個(gè)神經(jīng)元對(duì)前一層與之連接的神經(jīng)元輸入的信息進(jìn)行處理,并產(chǎn)生激活值傳到下一層。最后一層是輸出層(outputlayer),用來(lái)處理來(lái)自前一層的激活值,以產(chǎn)出輸出變量的預(yù)測(cè)值。同一層神經(jīng)元之間沒(méi)有連接。每一層的神經(jīng)元都連接到上一層的每個(gè)神經(jīng)元,該層被稱為全連接層或密集層(Dense)。MLP神經(jīng)網(wǎng)絡(luò)是全連接層的神經(jīng)網(wǎng)絡(luò),每個(gè)連接都有一個(gè)權(quán)重。直觀上,我們可以把隱藏層的每一個(gè)神經(jīng)元看作一個(gè)感知機(jī),每一個(gè)感知機(jī)構(gòu)造一個(gè)超平面,而輸出值是對(duì)各個(gè)感知機(jī)結(jié)果的匯總,得到?jīng)Q策邊界。圖3-4XOR問(wèn)題的兩層神經(jīng)網(wǎng)絡(luò)為了理解神經(jīng)網(wǎng)絡(luò)的計(jì)算本質(zhì),我們把這些層從0(輸入層)到L(輸出層)編號(hào),考慮網(wǎng)絡(luò)中第l層的第兩個(gè)結(jié)點(diǎn)(l>0)。這個(gè)結(jié)點(diǎn)生成的激活函數(shù)值ail表示為從前一層的結(jié)點(diǎn)接收到的輸入函數(shù)。令wijl表示從第(l-1)層的第j個(gè)節(jié)點(diǎn)到第l層的第i個(gè)節(jié)點(diǎn)的連接權(quán)重。同樣地,讓我們把這個(gè)節(jié)點(diǎn)的偏置項(xiàng)表示為bil。激活值ail可以表示為ail圖3-5具有(l-1)個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)參數(shù)的示意圖圖片來(lái)源:數(shù)據(jù)挖掘?qū)д?北京:機(jī)械工業(yè)出版社.2019ADDINEN.CITE<EndNote><Cite><Author>陳封能</Author><Year>2016</Year><RecNum>609</RecNum><DisplayText><styleface="superscript">[2]</style></DisplayText><record><rec-number>609</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620006228">609</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">陳封能</style></author></authors><translated-authors><author><styleface="normal"font="default"charset="134"size="100%">段磊</style></author></translated-authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">數(shù)據(jù)挖掘?qū)д?lt;/style></title></titles><dates><year>2016</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">機(jī)械工業(yè)出版社</style></publisher><urls></urls><language>Chinese</language></record></Cite></EndNote>[2]其中,z被稱作線性預(yù)測(cè)器,f(.)是把z轉(zhuǎn)換成a的激活函數(shù)。在輸入層,aj0=xj,中輸出結(jié)點(diǎn),aL=y^。神經(jīng)網(wǎng)絡(luò)有多種激活函數(shù),圖3-6是經(jīng)常會(huì)使用到的激活函數(shù):圖3-6神經(jīng)網(wǎng)絡(luò)常用的激活函數(shù)本文使用ReLU(RectifiedLinearUnit,修正線性單元)函數(shù)作為隱藏層的激活函數(shù)。ReLU函數(shù)表示當(dāng)輸入大于0時(shí),之間輸出該值;當(dāng)輸入小于等于0時(shí),輸出0。它的公式如下:f(x)=xifx>00ifx≤0圖3-7ReLu激活函數(shù)ReLu的作用是會(huì)使一部分神經(jīng)元的輸出為0。通過(guò)減少輸出值,降低模型的復(fù)雜程度,從而讓過(guò)擬合的程度降低。1.2神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)1.2.1訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)機(jī)器學(xué)習(xí)中,數(shù)據(jù)需要分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。為什么要把數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)?機(jī)器學(xué)習(xí)的最終目標(biāo)是追求模型的泛化能力。泛化能力是指模型在新數(shù)據(jù)上的學(xué)習(xí)能力。新數(shù)據(jù)指的是訓(xùn)練數(shù)據(jù)以外的數(shù)據(jù)。模型的泛化能力越高,表示模型在新數(shù)據(jù)上學(xué)習(xí)能力越強(qiáng)。1.2.2損失函數(shù) 在神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)是指以損失函數(shù)為基準(zhǔn),根據(jù)這個(gè)基準(zhǔn)尋找能使損失函數(shù)的值,盡量達(dá)到最小化的參數(shù)的過(guò)程。損失函數(shù)(lossfunction)是通過(guò)比對(duì)輸出值和真實(shí)標(biāo)簽的差異來(lái)檢驗(yàn)優(yōu)化的結(jié)果。E(w,b)=k=1其中,yk是第k個(gè)訓(xùn)練實(shí)例的真實(shí)標(biāo)簽,y^k=aL,由xk產(chǎn)生。損失函數(shù)可以使用任意函數(shù),但一般使用均方誤差和交叉熵誤差。本文采用均方誤差(MeanSquaredError,MES)用來(lái)做損失函數(shù),計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出和真實(shí)標(biāo)簽之間的各個(gè)元素之差,再求平均。E(w,b)=11.2.3梯度下降神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是要尋找能使損失函數(shù)的值達(dá)到最小化的參數(shù),為了達(dá)到這個(gè)目標(biāo),我們梯度下降(gradientdescentmethod)對(duì)模型進(jìn)行優(yōu)化。權(quán)重參數(shù)wijl和偏置項(xiàng)bil使用以下的公式迭代更新:wijlbil其中λ表示學(xué)習(xí)率的超參數(shù)。該等式表示將參數(shù)(w,b)在最小化損失函數(shù)的方向上更新迭代。梯度下降優(yōu)化算法(gradientdescentoptimizationalgorithms)有多種,包括Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam等ADDINEN.CITE<EndNote><Cite><Author>Ruder</Author><RecNum>620</RecNum><DisplayText><styleface="superscript">[34]</style></DisplayText><record><rec-number>620</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620093130">620</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>SebastianRuder</author></authors></contributors><titles><title>Anoverviewofgradientdescentoptimizationalgorithms</title></titles><volume>arXiv:1609.04747v2</volume><dates><year>2017</year><pub-dates><date>15Jun2017</date></pub-dates></dates><urls></urls><language>English</language></record></Cite></EndNote>[34]。本文采用近年來(lái)最常用的Adam(adaptivemomentestimation),該算法能計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率,而且計(jì)算高效,適合解決含大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題ADDINEN.CITEADDINEN.CITE.DATA[16,37]。1.2.4神經(jīng)網(wǎng)絡(luò)權(quán)重初始值梯度下降需要一個(gè)合適的初始點(diǎn),這個(gè)初始點(diǎn)是由神經(jīng)網(wǎng)絡(luò)權(quán)重初始值決定的。如果我們把梯度下降比喻成下山,那么權(quán)重初始值就是下山的初始點(diǎn)。為了避免梯度消失或梯度爆炸,權(quán)重初始值不能過(guò)大或過(guò)小,要對(duì)權(quán)重的方差有所控制;為了防止“權(quán)重均一化”,權(quán)重初始值必須是隨機(jī)數(shù)。權(quán)重初始值通常與激活函數(shù)配套使用。KaimingHe在2015ADDINEN.CITE<EndNote><Cite><Author>KaimingHe</Author><Year>2015</Year><RecNum>626</RecNum><DisplayText><styleface="superscript">[27]</style></DisplayText><record><rec-number>626</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620116494">626</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>KaimingHe,XiangyuZhang,ShaoqingRen,JianSun</author></authors></contributors><titles><title>DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification</title><secondary-title>MicrosoftResearch</secondary-title></titles><periodical><full-title>MicrosoftResearch</full-title></periodical><volume>arXiv:1502.01852v1[cs.CV]</volume><dates><year>2015</year></dates><urls></urls><language>English</language></record></Cite></EndNote>[27]年論文中提出,在使用ReLU激活函數(shù)情況下,對(duì)比Xavier和He兩種初始化在22層神經(jīng)網(wǎng)絡(luò)中的表現(xiàn),結(jié)果顯示He初始化梯度下降更快。He權(quán)重初始值的作用是使輸入和輸出的方差一致,從而讓得各層的激活值呈現(xiàn)出具有相同廣度的分布,避免了梯度消失。本文使用了ReLu激活函數(shù),也選擇He初始化作為配套。1.2.5Mini-batch學(xué)習(xí)計(jì)算損失函數(shù)時(shí),我們要將所有的訓(xùn)練數(shù)據(jù)作為對(duì)象。如何理解這句話呢?我們用數(shù)據(jù)舉一個(gè)例子:如果訓(xùn)練數(shù)據(jù)200個(gè),那么我們就要把這200個(gè)損失函數(shù)的總和作為學(xué)習(xí)的目標(biāo)。但是,當(dāng)數(shù)據(jù)規(guī)模增加到幾百萬(wàn)、幾千萬(wàn)條,要計(jì)算全部數(shù)據(jù)的損失函數(shù)是不現(xiàn)實(shí)的。目前,主流的做法是從全部數(shù)據(jù)中選出一部分,用這部分選出來(lái)的數(shù)據(jù)作為全部樣本數(shù)據(jù)的“近似”。我們把這種從訓(xùn)練數(shù)據(jù)隨機(jī)選出一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)的方法,稱為“mini-batch”學(xué)習(xí),也就是小批量學(xué)習(xí)。Batch-size是指每次訓(xùn)練樣本的數(shù)量。一個(gè)epoch是指完成一輪訓(xùn)練。在本文的模型中,batch-size設(shè)置為1024,epoch設(shè)置為5,表示每次訓(xùn)練數(shù)據(jù)是1024個(gè)樣本,一共訓(xùn)練5輪。1.2.6神經(jīng)網(wǎng)絡(luò)的深度從神經(jīng)網(wǎng)絡(luò)的深度來(lái)看,在ILSVRC(ImageNetLargeScaleVisualRecognitionChallenge)比賽中,最前幾名的方法多基于深度學(xué)習(xí),并且有逐漸加深網(wǎng)絡(luò)的層的趨勢(shì)。隱藏層的數(shù)量越多,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征層次越深,這種模型稱為深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork)。如今深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能的主流算法。為什么要加深呢?加深神經(jīng)網(wǎng)絡(luò),即增加了隱藏層的數(shù)目,相應(yīng)的神經(jīng)元的個(gè)數(shù)、連接權(quán)、激活函數(shù)、以及閾值等參數(shù)就會(huì)隨之增加,模型的復(fù)雜度也隨之增加。從理論上說(shuō),參數(shù)越多的模型,它的復(fù)雜度越高,這就意味著模型的可以完成更加復(fù)雜的學(xué)習(xí)任務(wù)ADDINEN.CITE<EndNote><Cite><Author>周志華</Author><Year>2016</Year><RecNum>655</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>655</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620276655">655</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">周志華</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">機(jī)器學(xué)習(xí)</style></title></titles><dates><year>2016</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">清華大學(xué)出版社</style></publisher><urls></urls><language>Chinese</language></record></Cite></EndNote>[15]。雖然加深神經(jīng)網(wǎng)絡(luò)可以提高模型的學(xué)習(xí)能力,但同時(shí)模型的高度復(fù)雜性容易導(dǎo)致過(guò)擬合。所以,我們先以兩層神經(jīng)網(wǎng)絡(luò)作為模型,然后根據(jù)訓(xùn)練結(jié)果再嘗試加深。1.2.7防止過(guò)擬合過(guò)擬合是指模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)比測(cè)試數(shù)據(jù)的好。神經(jīng)網(wǎng)絡(luò)防止過(guò)擬合的方法,普遍使用的是dropout,它的作用隨機(jī)刪除神經(jīng)元。通過(guò)dropout,每次訓(xùn)練都會(huì)產(chǎn)生獨(dú)特的較小的神經(jīng)網(wǎng)絡(luò)。圖3-9dropout刪除神經(jīng)元示意圖圖片來(lái)源:N.Srivastava(2014):Dropout:AsiMLPewaytopreventneuralnetworksfromoverfittings.TheJournalofMachiningLearningResearch,1958ADDINEN.CITE<EndNote><Cite><Author>N.Srivastava</Author><Year>2014</Year><RecNum>618</RecNum><DisplayText><styleface="superscript">[30]</style></DisplayText><record>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論