【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】

上傳人：E*** IP屬地：湖北上傳時(shí)間：2025-11-11 格式：DOC 頁(yè)數(shù)：9 大?。?.35MB 積分：13 舉報(bào) 版權(quán)申訴

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第2頁(yè)

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第3頁(yè)

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第4頁(yè)

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】_第5頁(yè)

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述目錄TOC\o"1-3"\h\u30123MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述 1231101.1MLP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 1101881.1.1感知機(jī) 1209031.1.2多層感知機(jī)神經(jīng)網(wǎng)絡(luò) 3203511.2神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí) 629871.2.1訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù) 6323161.2.2損失函數(shù) 663331.2.3梯度下降 7318141.2.4神經(jīng)網(wǎng)絡(luò)權(quán)重初始值 7234151.2.5Mini-batch學(xué)習(xí) 8306411.2.6神經(jīng)網(wǎng)絡(luò)的深度 8123061.2.7防止過(guò)擬合 9多層感知機(jī)（Multi-LayerPerceptron，MLP）神經(jīng)網(wǎng)絡(luò)，它是由多層感知機(jī)堆疊構(gòu)造的神經(jīng)網(wǎng)絡(luò)，它是神經(jīng)網(wǎng)絡(luò)算法中的一種。機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、MLP神經(jīng)網(wǎng)絡(luò)概念的從屬關(guān)系：機(jī)器學(xué)習(xí)→神經(jīng)網(wǎng)絡(luò)→MLP神經(jīng)網(wǎng)絡(luò)，它們之間很多屬性是相通的。感知機(jī)是神經(jīng)網(wǎng)絡(luò)算法的起源，也是MLP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。本章從感知機(jī)說(shuō)起，然后講述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)原理；通過(guò)層層推進(jìn)，對(duì)本文MLP神經(jīng)網(wǎng)絡(luò)模型的重要參數(shù)背后的原理進(jìn)行解釋，也為后面的策略優(yōu)化研究打下理論基礎(chǔ)。1.1MLP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)1.1.1感知機(jī)Frank在1957年提出感知機(jī)算法（Perceptron），這個(gè)感知機(jī)算法的靈感來(lái)源于生物神經(jīng)元的工作原理。圖3-1展示了感知機(jī)的基本結(jié)構(gòu)，圓形表示結(jié)點(diǎn)，箭頭方向表示數(shù)據(jù)的流動(dòng)方向：圖3-1感知機(jī)的基本結(jié)構(gòu)x1、x2、x3表示輸入特征。w1、w2、w3表示每個(gè)特征的權(quán)重參數(shù)，用于控制各個(gè)特征的重要性。b表示偏置參數(shù)，用于控制感知機(jī)被激活的容易程度。Z表示輸入特征的總和，只有當(dāng)這個(gè)總和超過(guò)某一個(gè)閾值的時(shí)候，感知機(jī)才會(huì)被“激活”。這個(gè)過(guò)程，用數(shù)學(xué)表示：Z=x或者寫成矩陣形式：Z=Wy^=fZ公式（3-2）中f是激活函數(shù)，它的作用在于決定如何來(lái)激活輸入特征總和Z。在這個(gè)例子中，感知機(jī)使用階躍函數(shù)作為激活函數(shù)，它以0為閾值，只有當(dāng)Z>0，才會(huì)輸出1；否則輸出0。感知機(jī)只有一層功能神經(jīng)元，它只能用于簡(jiǎn)單的線性分類學(xué)習(xí)。但是對(duì)于非線性問(wèn)題，感知機(jī)是不能解決的，這是感知機(jī)的一個(gè)主要限制。圖3-2XOR分類問(wèn)題圖3-2XOR分類問(wèn)題，任何線性超平面都不可以把這兩類分開。XOR分類問(wèn)題的解決方案是疊加感知機(jī)。1.1.2多層感知機(jī)神經(jīng)網(wǎng)絡(luò)多層感知機(jī)（Multi-LayersPerceptron，MLP）神經(jīng)網(wǎng)絡(luò)和感知機(jī)之間的一個(gè)主要區(qū)別就是增加了隱藏層，這就增加了具有激活函數(shù)的功能神經(jīng)元，從而大大提高了它們學(xué)習(xí)非線性的決策邊界。這種包含了隱藏層的神經(jīng)網(wǎng)絡(luò)，被稱為深度神經(jīng)網(wǎng)絡(luò)（DeepNeuralNetwork,DNN）。圖3-3多層感知機(jī)（MLP）神經(jīng)網(wǎng)絡(luò)圖3-3中，網(wǎng)絡(luò)的第一層是輸入層（inputlayer）；中間層被稱為隱藏層（hiddenlayer），在隱藏層的結(jié)點(diǎn)，也可以被稱作神經(jīng)元。在隱藏層的每一個(gè)神經(jīng)元對(duì)前一層與之連接的神經(jīng)元輸入的信息進(jìn)行處理，并產(chǎn)生激活值傳到下一層。最后一層是輸出層（outputlayer）,用來(lái)處理來(lái)自前一層的激活值，以產(chǎn)出輸出變量的預(yù)測(cè)值。同一層神經(jīng)元之間沒(méi)有連接。每一層的神經(jīng)元都連接到上一層的每個(gè)神經(jīng)元，該層被稱為全連接層或密集層（Dense）。MLP神經(jīng)網(wǎng)絡(luò)是全連接層的神經(jīng)網(wǎng)絡(luò)，每個(gè)連接都有一個(gè)權(quán)重。直觀上，我們可以把隱藏層的每一個(gè)神經(jīng)元看作一個(gè)感知機(jī)，每一個(gè)感知機(jī)構(gòu)造一個(gè)超平面，而輸出值是對(duì)各個(gè)感知機(jī)結(jié)果的匯總，得到?jīng)Q策邊界。圖3-4XOR問(wèn)題的兩層神經(jīng)網(wǎng)絡(luò)為了理解神經(jīng)網(wǎng)絡(luò)的計(jì)算本質(zhì)，我們把這些層從0（輸入層）到L（輸出層）編號(hào)，考慮網(wǎng)絡(luò)中第l層的第兩個(gè)結(jié)點(diǎn)（l>0）。這個(gè)結(jié)點(diǎn)生成的激活函數(shù)值ail表示為從前一層的結(jié)點(diǎn)接收到的輸入函數(shù)。令wijl表示從第（l-1）層的第j個(gè)節(jié)點(diǎn)到第l層的第i個(gè)節(jié)點(diǎn)的連接權(quán)重。同樣地，讓我們把這個(gè)節(jié)點(diǎn)的偏置項(xiàng)表示為bil。激活值ail可以表示為ail圖3-5具有（l-1）個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)參數(shù)的示意圖圖片來(lái)源：數(shù)據(jù)挖掘?qū)д?北京：機(jī)械工業(yè)出版社.2019ADDINEN.CITE<EndNote><Cite><Author>陳封能</Author><Year>2016</Year><RecNum>609</RecNum><DisplayText><styleface="superscript">[2]</style></DisplayText><record><rec-number>609</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620006228">609</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">陳封能</style></author></authors><translated-authors><author><styleface="normal"font="default"charset="134"size="100%">段磊</style></author></translated-authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">數(shù)據(jù)挖掘?qū)д?lt;/style></title></titles><dates><year>2016</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">機(jī)械工業(yè)出版社</style></publisher><urls></urls><language>Chinese</language></record></Cite></EndNote>[2]其中，z被稱作線性預(yù)測(cè)器，f(.)是把z轉(zhuǎn)換成a的激活函數(shù)。在輸入層，aj0=xj,中輸出結(jié)點(diǎn)，aL=y^。神經(jīng)網(wǎng)絡(luò)有多種激活函數(shù)，圖3-6是經(jīng)常會(huì)使用到的激活函數(shù)：圖3-6神經(jīng)網(wǎng)絡(luò)常用的激活函數(shù)本文使用ReLU（RectifiedLinearUnit，修正線性單元）函數(shù)作為隱藏層的激活函數(shù)。ReLU函數(shù)表示當(dāng)輸入大于0時(shí)，之間輸出該值；當(dāng)輸入小于等于0時(shí)，輸出0。它的公式如下：f(x)=xifx>00ifx≤0圖3-7ReLu激活函數(shù)ReLu的作用是會(huì)使一部分神經(jīng)元的輸出為0。通過(guò)減少輸出值，降低模型的復(fù)雜程度，從而讓過(guò)擬合的程度降低。1.2神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)1.2.1訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)機(jī)器學(xué)習(xí)中，數(shù)據(jù)需要分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。為什么要把數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)？機(jī)器學(xué)習(xí)的最終目標(biāo)是追求模型的泛化能力。泛化能力是指模型在新數(shù)據(jù)上的學(xué)習(xí)能力。新數(shù)據(jù)指的是訓(xùn)練數(shù)據(jù)以外的數(shù)據(jù)。模型的泛化能力越高，表示模型在新數(shù)據(jù)上學(xué)習(xí)能力越強(qiáng)。1.2.2損失函數(shù) 在神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)是指以損失函數(shù)為基準(zhǔn)，根據(jù)這個(gè)基準(zhǔn)尋找能使損失函數(shù)的值，盡量達(dá)到最小化的參數(shù)的過(guò)程。損失函數(shù)（lossfunction）是通過(guò)比對(duì)輸出值和真實(shí)標(biāo)簽的差異來(lái)檢驗(yàn)優(yōu)化的結(jié)果。E(w,b)=k=1其中，yk是第k個(gè)訓(xùn)練實(shí)例的真實(shí)標(biāo)簽，y^k=aL，由xk產(chǎn)生。損失函數(shù)可以使用任意函數(shù)，但一般使用均方誤差和交叉熵誤差。本文采用均方誤差（MeanSquaredError,MES）用來(lái)做損失函數(shù)，計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出和真實(shí)標(biāo)簽之間的各個(gè)元素之差，再求平均。E(w,b)=11.2.3梯度下降神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是要尋找能使損失函數(shù)的值達(dá)到最小化的參數(shù)，為了達(dá)到這個(gè)目標(biāo)，我們梯度下降（gradientdescentmethod）對(duì)模型進(jìn)行優(yōu)化。權(quán)重參數(shù)wijl和偏置項(xiàng)bil使用以下的公式迭代更新：wijlbil其中λ表示學(xué)習(xí)率的超參數(shù)。該等式表示將參數(shù)(w,b)在最小化損失函數(shù)的方向上更新迭代。梯度下降優(yōu)化算法（gradientdescentoptimizationalgorithms）有多種，包括Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam等ADDINEN.CITE<EndNote><Cite><Author>Ruder</Author><RecNum>620</RecNum><DisplayText><styleface="superscript">[34]</style></DisplayText><record><rec-number>620</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620093130">620</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>SebastianRuder</author></authors></contributors><titles><title>Anoverviewofgradientdescentoptimizationalgorithms</title></titles><volume>arXiv:1609.04747v2</volume><dates><year>2017</year><pub-dates><date>15Jun2017</date></pub-dates></dates><urls></urls><language>English</language></record></Cite></EndNote>[34]。本文采用近年來(lái)最常用的Adam（adaptivemomentestimation），該算法能計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率，而且計(jì)算高效，適合解決含大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題ADDINEN.CITEADDINEN.CITE.DATA[16,37]。1.2.4神經(jīng)網(wǎng)絡(luò)權(quán)重初始值梯度下降需要一個(gè)合適的初始點(diǎn)，這個(gè)初始點(diǎn)是由神經(jīng)網(wǎng)絡(luò)權(quán)重初始值決定的。如果我們把梯度下降比喻成下山，那么權(quán)重初始值就是下山的初始點(diǎn)。為了避免梯度消失或梯度爆炸，權(quán)重初始值不能過(guò)大或過(guò)小，要對(duì)權(quán)重的方差有所控制；為了防止“權(quán)重均一化”，權(quán)重初始值必須是隨機(jī)數(shù)。權(quán)重初始值通常與激活函數(shù)配套使用。KaimingHe在2015ADDINEN.CITE<EndNote><Cite><Author>KaimingHe</Author><Year>2015</Year><RecNum>626</RecNum><DisplayText><styleface="superscript">[27]</style></DisplayText><record><rec-number>626</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620116494">626</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>KaimingHe,XiangyuZhang,ShaoqingRen,JianSun</author></authors></contributors><titles><title>DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification</title><secondary-title>MicrosoftResearch</secondary-title></titles><periodical><full-title>MicrosoftResearch</full-title></periodical><volume>arXiv:1502.01852v1[cs.CV]</volume><dates><year>2015</year></dates><urls></urls><language>English</language></record></Cite></EndNote>[27]年論文中提出，在使用ReLU激活函數(shù)情況下，對(duì)比Xavier和He兩種初始化在22層神經(jīng)網(wǎng)絡(luò)中的表現(xiàn)，結(jié)果顯示He初始化梯度下降更快。He權(quán)重初始值的作用是使輸入和輸出的方差一致，從而讓得各層的激活值呈現(xiàn)出具有相同廣度的分布，避免了梯度消失。本文使用了ReLu激活函數(shù),也選擇He初始化作為配套。1.2.5Mini-batch學(xué)習(xí)計(jì)算損失函數(shù)時(shí)，我們要將所有的訓(xùn)練數(shù)據(jù)作為對(duì)象。如何理解這句話呢？我們用數(shù)據(jù)舉一個(gè)例子：如果訓(xùn)練數(shù)據(jù)200個(gè)，那么我們就要把這200個(gè)損失函數(shù)的總和作為學(xué)習(xí)的目標(biāo)。但是，當(dāng)數(shù)據(jù)規(guī)模增加到幾百萬(wàn)、幾千萬(wàn)條，要計(jì)算全部數(shù)據(jù)的損失函數(shù)是不現(xiàn)實(shí)的。目前，主流的做法是從全部數(shù)據(jù)中選出一部分，用這部分選出來(lái)的數(shù)據(jù)作為全部樣本數(shù)據(jù)的“近似”。我們把這種從訓(xùn)練數(shù)據(jù)隨機(jī)選出一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)的方法，稱為“mini-batch”學(xué)習(xí)，也就是小批量學(xué)習(xí)。Batch-size是指每次訓(xùn)練樣本的數(shù)量。一個(gè)epoch是指完成一輪訓(xùn)練。在本文的模型中，batch-size設(shè)置為1024，epoch設(shè)置為5，表示每次訓(xùn)練數(shù)據(jù)是1024個(gè)樣本，一共訓(xùn)練5輪。1.2.6神經(jīng)網(wǎng)絡(luò)的深度從神經(jīng)網(wǎng)絡(luò)的深度來(lái)看，在ILSVRC（ImageNetLargeScaleVisualRecognitionChallenge）比賽中，最前幾名的方法多基于深度學(xué)習(xí)，并且有逐漸加深網(wǎng)絡(luò)的層的趨勢(shì)。隱藏層的數(shù)量越多，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征層次越深，這種模型稱為深度神經(jīng)網(wǎng)絡(luò)（deepneuralnetwork）。如今深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能的主流算法。為什么要加深呢？加深神經(jīng)網(wǎng)絡(luò)，即增加了隱藏層的數(shù)目，相應(yīng)的神經(jīng)元的個(gè)數(shù)、連接權(quán)、激活函數(shù)、以及閾值等參數(shù)就會(huì)隨之增加，模型的復(fù)雜度也隨之增加。從理論上說(shuō)，參數(shù)越多的模型，它的復(fù)雜度越高，這就意味著模型的可以完成更加復(fù)雜的學(xué)習(xí)任務(wù)ADDINEN.CITE<EndNote><Cite><Author>周志華</Author><Year>2016</Year><RecNum>655</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>655</rec-number><foreign-keys><keyapp="EN"db-id="fr2trwfrn555w9er5rtvwr2lwefeeerdtfpp"timestamp="1620276655">655</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">周志華</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">機(jī)器學(xué)習(xí)</style></title></titles><dates><year>2016</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">清華大學(xué)出版社</style></publisher><urls></urls><language>Chinese</language></record></Cite></EndNote>[15]。雖然加深神經(jīng)網(wǎng)絡(luò)可以提高模型的學(xué)習(xí)能力，但同時(shí)模型的高度復(fù)雜性容易導(dǎo)致過(guò)擬合。所以，我們先以兩層神經(jīng)網(wǎng)絡(luò)作為模型，然后根據(jù)訓(xùn)練結(jié)果再嘗試加深。1.2.7防止過(guò)擬合過(guò)擬合是指模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)比測(cè)試數(shù)據(jù)的好。神經(jīng)網(wǎng)絡(luò)防止過(guò)擬合的方法，普遍使用的是dropout，它的作用隨機(jī)刪除神經(jīng)元。通過(guò)dropout,每次訓(xùn)練都會(huì)產(chǎn)生獨(dú)特的較小的神經(jīng)網(wǎng)絡(luò)。圖3-9dropout刪除神經(jīng)元示意圖圖片來(lái)源:N.Srivastava(2014):Dropout:AsiMLPewaytopreventneuralnetworksfromoverfittings.TheJournalofMachiningLearningResearch,1958ADDINEN.CITE<EndNote><Cite><Author>N.Srivastava</Author><Year>2014</Year><RecNum>618</RecNum><DisplayText><styleface="superscript">[30]</style></DisplayText><record>

人人文庫(kù)> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

【《MLP神經(jīng)網(wǎng)絡(luò)模型理論基礎(chǔ)概述》3300字】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔