交叉熵?fù)p失函數(shù)_第1頁(yè)
交叉熵?fù)p失函數(shù)_第2頁(yè)
交叉熵?fù)p失函數(shù)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1.從方差代價(jià)函數(shù)說(shuō)起代價(jià)函數(shù)經(jīng)常用方差代價(jià)函數(shù)(即采用均方誤差MSE),比如對(duì)于一個(gè)神經(jīng)元(單輸入單輸出,sigmoid函數(shù)),定義其代價(jià)函數(shù)為:其中y是我們期望的輸出,a為神經(jīng)元的實(shí)際輸出【 a=(z), where z=wx+b 】。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過(guò)程中,我們通過(guò)梯度下降算法來(lái)更新w和b,因此需要計(jì)算代價(jià)函數(shù)對(duì)w和b的導(dǎo)數(shù):然后更新w、b:w w - * C/w = w - * a *(z)b b - * C/b = b - * a * (z)因?yàn)閟igmoid函數(shù)的性質(zhì),導(dǎo)致(z)在z取大部分值時(shí)會(huì)很?。ㄈ缦聢D標(biāo)出來(lái)的兩端,幾近于平坦),這樣會(huì)使得w和b更新非常慢(因?yàn)?* a * (

2、z)這一項(xiàng)接近于0)。注:這里其實(shí)就是sigmoid的飽和性質(zhì)所致,使得一些靠近最大或最小的地方的梯度近似于0,對(duì)于w和b的更新的非常的緩慢。所以才會(huì)出深度學(xué)習(xí)中的一些其他的非線性激活函數(shù),如:ReLU,maxout , etc2.交叉熵代價(jià)函數(shù)(cross-entropy cost function)為了克服這個(gè)缺點(diǎn),引入了交叉熵代價(jià)函數(shù)(下面的公式對(duì)應(yīng)一個(gè)神經(jīng)元,多輸入單輸出):其中y為期望的輸出,a為神經(jīng)元實(shí)際輸出【a=(z), where z=Wj*Xj+b】與方差代價(jià)函數(shù)一樣,交叉熵代價(jià)函數(shù)同樣有兩個(gè)性質(zhì): 非負(fù)性。(所以我們的目標(biāo)就是最小化代價(jià)函數(shù)) 當(dāng)真實(shí)輸出a與期望輸出y接近的

3、時(shí)候,代價(jià)函數(shù)接近于0.(比如y=0,a0;y=1,a1時(shí),代價(jià)函數(shù)都接近0)。另外,它可以克服方差代價(jià)函數(shù)更新權(quán)重過(guò)慢的問(wèn)題。我們同樣看看它的導(dǎo)數(shù):可以看到,導(dǎo)數(shù)中沒(méi)有(z)這一項(xiàng),權(quán)重的更新是受(z)y這一項(xiàng)影響,即受誤差的影響。所以當(dāng)誤差大的時(shí)候,權(quán)重更新就快,當(dāng)誤差小的時(shí)候,權(quán)重的更新就慢。這是一個(gè)很好的性質(zhì)。3.總結(jié) 當(dāng)我們用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù)時(shí),最好使用交叉熵代價(jià)函數(shù)來(lái)替代方差代價(jià)函數(shù),以避免訓(xùn)練過(guò)程太慢。 不過(guò),你也許會(huì)問(wèn),為什么是交叉熵函數(shù)?導(dǎo)數(shù)中不帶(z)項(xiàng)的函數(shù)有無(wú)數(shù)種,怎么就想到用交叉熵函數(shù)?這自然是有來(lái)頭的,更深入的討論就不寫(xiě)了,少年請(qǐng)自行了解。 另

4、外,交叉熵函數(shù)的形式是ylna+(1y)ln(1a)而不是 alny+(1a)ln(1y),為什么?因?yàn)楫?dāng)期望輸出的y=0時(shí),lny沒(méi)有意義;當(dāng)期望y=1時(shí),ln(1-y)沒(méi)有意義。而因?yàn)閍是sigmoid函數(shù)的實(shí)際輸出,永遠(yuǎn)不會(huì)等于0或1,只會(huì)無(wú)限接近于0或者1,因此不存在這個(gè)問(wèn)題。4.還要說(shuō)說(shuō):log-likelihood cost對(duì)數(shù)似然函數(shù)也常用來(lái)作為softmax回歸的代價(jià)函數(shù),在上面的討論中,我們最后一層(也就是輸出)是通過(guò)sigmoid函數(shù),因此采用了交叉熵代價(jià)函數(shù)。而深度學(xué)習(xí)中更普遍的做法是將softmax作為最后一層,此時(shí)常用的是代價(jià)函數(shù)是log-likelihood cost。In fact, its useful to think of a softmax output layer with log-likelihood cost as being quite similar to a sigmoid output layer with cross-entropy cost。其實(shí)這兩者是一致的,logistic回歸用的就是sigmoid函數(shù),softmax回

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論