【《DNN深度神經(jīng)網(wǎng)絡(luò)分析概述》3900字】_第1頁(yè)
【《DNN深度神經(jīng)網(wǎng)絡(luò)分析概述》3900字】_第2頁(yè)
【《DNN深度神經(jīng)網(wǎng)絡(luò)分析概述》3900字】_第3頁(yè)
【《DNN深度神經(jīng)網(wǎng)絡(luò)分析概述》3900字】_第4頁(yè)
【《DNN深度神經(jīng)網(wǎng)絡(luò)分析概述》3900字】_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[6]。(a)表達(dá)能力偏弱(b)表達(dá)能力與數(shù)據(jù)模態(tài)匹配(c)表達(dá)能力過(guò)強(qiáng)圖2-5不同模型訓(xùn)練情況線性模型缺點(diǎn)很多,那么可以在線性模型的基礎(chǔ)上增加一個(gè)非線性函數(shù),將其轉(zhuǎn)換為非線性模型。這樣就可以解決我們的問(wèn)題。我們把這個(gè)非線性函數(shù)稱為激活函數(shù),用??表示。而且激活函數(shù)可以把一個(gè)區(qū)間很大的數(shù),去擠壓到0到1區(qū)間,方便后續(xù)進(jìn)行計(jì)算。如Sigmoid函數(shù)(目前已很少使用),ReLU函數(shù),Tanh函數(shù),這些激活函數(shù)在后續(xù)的LSTM和CNN中也起到了非常重要的作用。因此函數(shù)可以表達(dá)成(2-2)不難看出,機(jī)器學(xué)習(xí)實(shí)際上是讓機(jī)器去為了實(shí)現(xiàn)功能來(lái)不斷自我學(xué)習(xí)來(lái)調(diào)節(jié)權(quán)重和偏置參數(shù)來(lái)進(jìn)行符合預(yù)期的預(yù)測(cè)。其實(shí)整個(gè)神經(jīng)網(wǎng)絡(luò)就是一個(gè)大的函數(shù)。在了解了機(jī)器大致如何進(jìn)行訓(xùn)練,當(dāng)前就要解決實(shí)現(xiàn)整個(gè)函數(shù)的計(jì)算。要通過(guò)計(jì)算機(jī)自我學(xué)習(xí)訓(xùn)練去不斷調(diào)整各個(gè)權(quán)重與偏置,最后得到一個(gè)滿意的數(shù)據(jù)。就需要測(cè)試集和訓(xùn)練集的參與了。假如目前所需數(shù)據(jù)中有100張已經(jīng)識(shí)別出來(lái)的0-9的各種各樣的圖片,如果希望神經(jīng)網(wǎng)絡(luò)可以去識(shí)別更多的數(shù)字,就需要用這100張圖片去訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò),使其不斷調(diào)整參數(shù)來(lái)進(jìn)行最后良好的輸出。訓(xùn)練過(guò)程中可以拿出90張當(dāng)作訓(xùn)練集,把它們送入給神經(jīng)網(wǎng)絡(luò)并且訓(xùn)練出對(duì)應(yīng)的權(quán)重和偏置,然后和最后結(jié)果進(jìn)行對(duì)比調(diào)整,接下來(lái)再用剩下的10張圖片做測(cè)試集輸入來(lái)看網(wǎng)絡(luò)訓(xùn)練后的結(jié)果是否符合預(yù)期的正確結(jié)果。因此現(xiàn)在的大數(shù)據(jù)可以起到很好的訓(xùn)練作用,并且可以提供出來(lái)更多訓(xùn)練好的模型提供使用。1.2梯度下降法前面文章中介紹過(guò),全連接就是每個(gè)神經(jīng)元與它下一層所有神經(jīng)元去連接,每一個(gè)連接都有一個(gè)權(quán)重值,可以把權(quán)重理解為連接的強(qiáng)弱,把偏置理解為神經(jīng)元是否更容易被激活。譬如上文中最后希望它輸出一個(gè)9,可是開(kāi)始的神經(jīng)網(wǎng)絡(luò)的偏置和權(quán)重都是隨機(jī)的,因此計(jì)算機(jī)得不出來(lái)我們想要的結(jié)果,也就是最后輸出層的9這個(gè)神經(jīng)元的激活值去接近1,其他神經(jīng)元的激活值接近0。需要告訴計(jì)算機(jī)讓它應(yīng)該如何去進(jìn)行調(diào)整,因此引申出來(lái)一個(gè)函數(shù)——損失函數(shù)或者叫代價(jià)函數(shù),譬如均方差MSE讓每一個(gè)輸出的激活值去減去計(jì)算機(jī)想要的其對(duì)應(yīng)的激活值的平方和再求平均(2-3)這個(gè)值越小,計(jì)算機(jī)的訓(xùn)練結(jié)果就與實(shí)際結(jié)果越接近。均方差在本項(xiàng)目實(shí)現(xiàn)的后續(xù)代碼中起到了很重要的作用。但是單純的得出來(lái)這個(gè)數(shù)值并沒(méi)有用,最后計(jì)算機(jī)的目的是去改變這些權(quán)重和偏置。因此不可能讓計(jì)算機(jī)對(duì)如此多的權(quán)重偏置值進(jìn)行漫無(wú)目的的猜測(cè),需要得出一個(gè)新方法——梯度下降法。例如,應(yīng)該如何去找一個(gè)一元函數(shù)的最小值,通過(guò)微分求導(dǎo)就可以做到。但是如果函數(shù)很復(fù)雜,存在多個(gè)極小值點(diǎn),計(jì)算起來(lái)就相對(duì)麻煩了,更不要提計(jì)算機(jī)要計(jì)算成千上萬(wàn)元的損失函數(shù)了。所以可以在一個(gè)小區(qū)間內(nèi)去找到如何運(yùn)動(dòng)才能使函數(shù)值變小,進(jìn)而就會(huì)逐漸找到一個(gè)局部最小值,一個(gè)二元函數(shù),可以理解為把一個(gè)小球丟在任意一個(gè)位置讓其自動(dòng)滾下山的行為。函數(shù)的梯度指出了函數(shù)的最陡增長(zhǎng)方向,沿著梯度的負(fù)方向走,函數(shù)值就會(huì)降落的最快。而且這個(gè)梯度向量的長(zhǎng)度代表了這個(gè)最陡的斜坡到底有多陡。于是就可以找到這么一個(gè)向量,它能指出哪個(gè)方向下山最快,路有多陡。如圖2-6所示,圖2-6非凸函數(shù)實(shí)例于是計(jì)算機(jī)可以得出如何具體改變每一項(xiàng)參數(shù)來(lái)讓損失函數(shù)的值下降的最快。最后收斂到局部最小值。在前文的公式中不難看出,如果一個(gè)神經(jīng)元的激活值比較大,那么那一項(xiàng)的權(quán)重就會(huì)產(chǎn)生更大的影響。換句話說(shuō),梯度向量的每一項(xiàng)大小告訴計(jì)算機(jī)代價(jià)函數(shù)對(duì)于每個(gè)參數(shù)有多敏感。之后計(jì)算機(jī)對(duì)著成千上萬(wàn)個(gè)訓(xùn)練樣本都這樣算一遍,然后取平均,這樣就得到了整個(gè)網(wǎng)絡(luò)的權(quán)重偏置值。1.3反向傳播法可是計(jì)算機(jī)如何去求這個(gè)復(fù)雜的梯度呢?這就要用到另一個(gè)新方法——反向傳播法。前面文章中提到了一個(gè)公式(2-4)也就是說(shuō),如果想增大一個(gè)激活值,我們有三種方法,第一就是增加權(quán)重,第二是增加偏置,第三就是增加上一層的激活值。反之,如果希望這個(gè)激活值減小,就需要減少這三項(xiàng)。例如,想要識(shí)別一個(gè)數(shù)字2,就要求最后輸出層的2這個(gè)神經(jīng)元的激活值去接近1,其他神經(jīng)元的激活值接近0。于是要讓倒數(shù)第二層去實(shí)現(xiàn)這個(gè)目標(biāo),計(jì)算機(jī)對(duì)倒數(shù)第二層的激活值調(diào)整就有了不同的想法,如圖2-7圖2-7數(shù)字2對(duì)應(yīng)調(diào)整上一層激活值也就是說(shuō),倒數(shù)第二層需要變化去盡可能的符合最后一層的輸出,計(jì)算機(jī)把所有的改變值綜合起來(lái),就得到了一連串的對(duì)倒數(shù)第二層的改動(dòng)的變化量。于是可以繼續(xù)通過(guò)倒數(shù)第三層去改變倒數(shù)第二層,這就是反向傳播的基本原理。計(jì)算機(jī)對(duì)其他所有的訓(xùn)練樣本過(guò)一次反向傳播,然后得到它們的權(quán)重偏置取平均,于是就可以得到之前文章中給過(guò)的負(fù)梯度了。然而實(shí)際上如果梯度下降的每一步都用上每一個(gè)訓(xùn)練樣本來(lái)計(jì)算會(huì)很費(fèi)時(shí)間,所以可以使用小批量隨機(jī)梯度下降來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò)。之前的訓(xùn)練可以看成是一個(gè)登山隊(duì)員一步一步緩慢的沿著最陡的峭壁下山一樣,他提前已經(jīng)規(guī)劃好了方向。但是隨機(jī)梯度下降可以看作是一個(gè)漫無(wú)目的的下山過(guò)程,這樣會(huì)很快的到達(dá)局部最低點(diǎn)。為了更好的理解反向傳播的具體原理,可以先用一個(gè)訓(xùn)練樣本的梯度傳播去了解它,如圖2-8所示圖2-8梯度傳播樣本是輸出的實(shí)際值,是計(jì)算機(jī)得出的輸出值,是倒數(shù)第一層的激活值,是倒數(shù)第二層的激活值,是最后一層的權(quán)重,設(shè)(2-5)也就是說(shuō),=,損失函數(shù)為(2-6)同理由前面決定。如果現(xiàn)在想要理解,損失函數(shù)對(duì)權(quán)重的變化有多敏感,即,于是根據(jù)鏈?zhǔn)椒▌t,可以得出(2-7)對(duì)各個(gè)部分求導(dǎo)(2-8)也就是說(shuō),如果輸出結(jié)果與實(shí)際結(jié)果差值越大,對(duì)損失函數(shù)的影響越大。其次就是求激活函數(shù)的導(dǎo)數(shù),這也是為什么在后續(xù)大部分激活函數(shù)的使用中不會(huì)選擇sigmoid函數(shù)的原因,它的導(dǎo)數(shù)會(huì)造成一個(gè)問(wèn)題,叫做梯度彌散,梯度彌散和梯度爆炸的概念會(huì)在后面LSTM中提到,總之最好使用ReLU之類的導(dǎo)數(shù)圖形比較好的激活函數(shù)。的結(jié)果就是,不難看出來(lái)前一層的激活值對(duì)后續(xù)權(quán)重對(duì)損失函數(shù)的影響。計(jì)算偏置的影響和計(jì)算權(quán)重很類似。了解了一個(gè)訓(xùn)練樣本的概念之后,總的損失函數(shù)就是許多訓(xùn)練樣本所有損失的總平均。這就是反向傳播的基本概念,之所以介紹梯度下降法和反向傳播,是因?yàn)楹罄m(xù)的C

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論