數(shù)據(jù)挖掘RNN算法講課_第1頁
數(shù)據(jù)挖掘RNN算法講課_第2頁
數(shù)據(jù)挖掘RNN算法講課_第3頁
數(shù)據(jù)挖掘RNN算法講課_第4頁
數(shù)據(jù)挖掘RNN算法講課_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄1:深度學(xué)習(xí)發(fā)展史2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)3:循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)第一頁1第二頁,共30頁。1:深度學(xué)習(xí)發(fā)展史第二頁2第三頁,共30頁。深度學(xué)習(xí)發(fā)展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…機(jī)器學(xué)習(xí)第一次浪潮:機(jī)器學(xué)習(xí)第二次浪潮淺層學(xué)習(xí)模型(ShallowLearning)深度學(xué)習(xí)模型(DeepLearning)FirstWinterofNNSecondWinterofNN第三頁3第四頁,共30頁。synapsedendriteCellbodySynapticterminalsAxon軸突末梢突觸樹突細(xì)胞體軸突w1x1xnΣ線性動(dòng)態(tài)系統(tǒng)激勵(lì)函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cellbody樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元神經(jīng)元模型第四頁4第五頁,共30頁。yθyaxox2x1xnw1w2wn???w1x1xnΣ激勵(lì)函數(shù)o=f(net)wnnet=WTX

典型的激勵(lì)函數(shù)(ActivationFunction):線性函數(shù),非線性斜面函數(shù),階躍函數(shù),S型函數(shù)等。神經(jīng)元模型第五頁5第六頁,共30頁。InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神經(jīng)網(wǎng)絡(luò)一般形式?

Nonlinearity非線性

?ParallelProcessing并行處理?Input—OutputMapping輸入輸出匹配

?Adaptivity自適應(yīng)性ocx2x1xnw1w2wn???第六頁6第七頁,共30頁。2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)第七頁7第八頁,共30頁。神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)相似之處:不同之處:模擬人腦的分層網(wǎng)絡(luò)結(jié)構(gòu);強(qiáng)調(diào)深度的重要性;突出特征學(xué)習(xí)的重要性;(逐層抽象)訓(xùn)練機(jī)制;第八頁8第九頁,共30頁。為什么需要深度?深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力第九頁9第十頁,共30頁。3:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)第十頁10第十一頁,共30頁。遞歸神經(jīng)網(wǎng)絡(luò)模型遞歸神經(jīng)網(wǎng)絡(luò)吸收了HMM模型的有限序列關(guān)聯(lián)的思想。神經(jīng)網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)能夠更好的表達(dá)有限的觀察值背后的復(fù)雜分布。遞歸神經(jīng)網(wǎng)絡(luò)(RNN),是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱:一種是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork);一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork);第十一頁11第十二頁,共30頁。遞歸神經(jīng)網(wǎng)絡(luò)模型時(shí)序擴(kuò)展第十二頁12第十三頁,共30頁。RecurrentNeuralNetwork針對對象:序列數(shù)據(jù)。例如文本,是字母和詞匯的序列;語音,是音節(jié)的序列;視頻,是圖像的序列;氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等,也都是序列數(shù)據(jù)。核心思想:樣本間存在順序關(guān)系,每個(gè)樣本和它之前的樣本存在關(guān)聯(lián)。通過神經(jīng)網(wǎng)絡(luò)在時(shí)序上的展開,我們能夠找到樣本之間的序列相關(guān)性。RNN是一類擴(kuò)展的人工神經(jīng)網(wǎng)絡(luò),它是為了對序列數(shù)據(jù)進(jìn)行建模而產(chǎn)生的。第十三頁13第十四頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型激活函數(shù)RNN常用的激活函數(shù)是tanh和sigmoid。第十四頁14第十五頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型softmaxSoftmax函數(shù)是sigmoid函數(shù)的一個(gè)變種,通常我們將其用在多分類任務(wù)的輸出層,將輸入轉(zhuǎn)化成標(biāo)簽的概率。本質(zhì)就是將一個(gè)K維的任意實(shí)數(shù)向量壓縮(映射)成另一個(gè)K維的實(shí)數(shù)向量,其中向量中的每個(gè)元素取值都介于(0,1)之間。

第十五頁15第十六頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型簡單循環(huán)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重在時(shí)域上不變。第十六頁16第十七頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTTBP回顧:定義損失函數(shù)E

來表示輸出

和真實(shí)標(biāo)簽y的誤差,通過鏈?zhǔn)椒▌t自頂向下求得E對網(wǎng)絡(luò)權(quán)重的偏導(dǎo)。沿梯度的反方向更新權(quán)重的值,直到E收斂。 BPTT的本質(zhì)其實(shí)和BP很像,就是加上了時(shí)序演化。定義權(quán)重U,V,W。

定義損失函數(shù):我們將整個(gè)序列作為一次訓(xùn)練,所以需要對每個(gè)時(shí)刻的誤差進(jìn)行求和。第十七頁17第十八頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTT目前的任務(wù)是求E對于U,V,W的梯度。定義E對于W的梯度(U,V同理):(1)求E對于V的梯度。先求E3

對于V的梯度:WVU其中:求和可得。第十八頁18第十九頁,共30頁。其中:依賴于,而又依賴于和W

,依賴關(guān)系一直傳遞到t=0的時(shí)刻。因此,當(dāng)我們計(jì)算對于W的偏導(dǎo)數(shù)時(shí),不能把看作是常數(shù)項(xiàng)!循環(huán)神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTT(2)求E對于W

的梯度。注意,現(xiàn)在情況開始變得復(fù)雜起來。先求E3

對于W的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時(shí)。注意到:求和可得。第十九頁19第二十頁,共30頁。同樣:依賴于,而又依賴于和U

。類似求W,當(dāng)我們計(jì)算對于U的偏導(dǎo)數(shù)時(shí),也不能把看作是常數(shù)項(xiàng)!循環(huán)神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTT(3)求E對于U的梯度。情況與W類似。先求E3

對于U的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時(shí)。注意到:求和可得。第二十頁20第二十一頁,共30頁。循環(huán)神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTT參數(shù)意義:Whv:輸入層到隱含層的權(quán)重參數(shù),Whh:隱含層到隱含層的權(quán)重參數(shù),Woh:隱含層到輸出層的權(quán)重參數(shù),bh:隱含層的偏移量,bo輸出層的偏移量,h0:起始狀態(tài)的隱含層的輸出,一般初始為0。

第二十一頁21第二十二頁,共30頁。遞歸神經(jīng)網(wǎng)絡(luò)模型隨時(shí)間反向傳播算法BPTT面臨的問題:梯度消失問題梯度爆炸問題解決方案:選擇其他的激活函數(shù)。例如ReLU。引入改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)制,例如LSTM,GRU。現(xiàn)在在自然語言處理上應(yīng)用十分廣的的就是LSTM。第二十二頁22第二十三頁,共30頁。THANKSLSTM網(wǎng)絡(luò)長短期記憶網(wǎng)絡(luò)–通暢叫做”LSTMs”–是一種特殊的RNNs,它能夠?qū)W習(xí)長期依賴。LSTM由Hochreiter&Schmidhuber(1997)引入,后來在很多人的努力下變得越來越精煉和流行第二十三頁23第二十四頁,共30頁。ft,it,ot分別為遺忘門、輸入門、輸出門第二十四頁24第二十五頁,共30頁。LSTMs的核心過程LSTM的第一步就是決定什么信息應(yīng)該被神經(jīng)元遺忘。這是一個(gè)被稱為“遺忘門層”的Sigmod層組成的。它輸入ht?1和xt,然后在Ct?1的每個(gè)神經(jīng)元狀態(tài)輸出0~1之間的數(shù)字。“1”表示“完全保留這個(gè)”,“0”表示“完全遺忘這個(gè)”。第二十五頁25第二十六頁,共30頁。下一步就是決定我們要在神經(jīng)元細(xì)胞中保存什么信息,這包括兩個(gè)部分。首先,一個(gè)被稱為“遺忘門層”的Sigmod層決定我們要更新的數(shù)值。然后,一個(gè)tanh層生成一個(gè)新的候選數(shù)值,Ct?,它會被增加到神經(jīng)元狀態(tài)中。第二十六頁26第二十七頁,共30頁。下一步我們就去做。我們給舊的狀態(tài)乘以一個(gè)ft,遺忘掉我們之前決定要遺忘的信息,然后我們增加it?Ct?。這是新的候選值,是由我們想多大程度上更新每個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論