深度學(xué)習(xí)常用詞匯

上傳人：w*** IP屬地：貴州上傳時(shí)間：2020-06-22 格式：DOC 頁數(shù)：16 大?。?0.50KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、激活函數(shù)（Activation Function）為了讓神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)復(fù)雜的決策邊界（decision boundary），我們在其一些層應(yīng)用一個(gè)非線性激活函數(shù)。最常用的函數(shù)包括 sigmoid、tanh、ReLU（Rectified Linear Unit 線性修正單元）以及這些函數(shù)的變體。AdadeltaAdadelta 是一個(gè)基于梯度下降的學(xué)習(xí)算法，可以隨時(shí)間調(diào)整適應(yīng)每個(gè)參數(shù)的學(xué)習(xí)率。它是作為 Adagrad 的改進(jìn)版提出的，它比超參數(shù)（hyperparameter）更敏感而且可能會太過嚴(yán)重地降低學(xué)習(xí)率。Adadelta 類似于 rmsprop，而且可被用來替代 vanilla SG

2、D。論文：Adadelta：一種自適應(yīng)學(xué)習(xí)率方法（ADADELTA: An Adaptive Learning Rate Method）技術(shù)博客：斯坦福 CS231n：優(yōu)化算法（http:/cs231n.github.io/neural-networks-3/）技術(shù)博客：梯度下降優(yōu)化算法概述（/optimizing-gradient-descent/）AdagradAdagrad 是一種自適應(yīng)學(xué)習(xí)率算法，能夠隨時(shí)間跟蹤平方梯度并自動適應(yīng)每個(gè)參數(shù)的學(xué)習(xí)率。它可被用來替代vanilla SGD (/dee

3、p-learning-glossary/#sgd)；而且在稀疏數(shù)據(jù)上更是特別有用，在其中它可以將更高的學(xué)習(xí)率分配給更新不頻繁的參數(shù)。論文：用于在線學(xué)習(xí)和隨機(jī)優(yōu)化的自適應(yīng)次梯度方法（Adaptive Subgradient Methods for Online Learning and Stochastic Optimization）技術(shù)博客：斯坦福 CS231n：優(yōu)化算法（http:/cs231n.github.io/neural-networks-3/）技術(shù)博客：梯度下降優(yōu)化算法概述（/optimizing-gradient-descen

4、t/）AdamAdam 是一種類似于 rmsprop 的自適應(yīng)學(xué)習(xí)率算法，但它的更新是通過使用梯度的第一和第二時(shí)刻的運(yùn)行平均值（running average）直接估計(jì)的，而且還包括一個(gè)偏差校正項(xiàng)。論文：Adam：一種隨機(jī)優(yōu)化方法（Adam: A Method for Stochastic Optimization）技術(shù)博客：梯度下降優(yōu)化算法概述（/optimizing-gradient-descent/）仿射層（Affine Layer）神經(jīng)網(wǎng)絡(luò)中的一個(gè)全連接層。仿射（Affine）的意思是前面一層中的每一個(gè)神經(jīng)元都連接到當(dāng)前層中的每一個(gè)神

5、經(jīng)元。在許多方面，這是神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)層。仿射層通常被加在卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)做出最終預(yù)測前的輸出的頂層。仿射層的一般形式為 y = f(Wx + b)，其中 x 是層輸入，w 是參數(shù)，b 是一個(gè)偏差矢量，f 是一個(gè)非線性激活函數(shù)。注意機(jī)制（Attention Mechanism）注意機(jī)制是由人類視覺注意所啟發(fā)的，是一種關(guān)注圖像中特定部分的能力。注意機(jī)制可被整合到語言處理和圖像識別的架構(gòu)中以幫助網(wǎng)絡(luò)學(xué)習(xí)在做出預(yù)測時(shí)應(yīng)該關(guān)注什么。技術(shù)博客：深度學(xué)習(xí)和自然語言處理中的注意和記憶（/2016/01/attention-and-memory-in-deep

6、-learning-and-nlp/）AlexnetAlexnet 是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的名字，這種架構(gòu)曾在 2012 年 ILSVRC 挑戰(zhàn)賽中以巨大優(yōu)勢獲勝，而且它還導(dǎo)致了人們對用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò)（CNN）的興趣的復(fù)蘇。它由 5 個(gè)卷積層組成。其中一些后面跟隨著最大池化（max-pooling）層和帶有最終 1000 條路徑的 softmax (1000-way softmax)的 3個(gè)全連接層。Alexnet 被引入到了使用深度卷積神經(jīng)網(wǎng)絡(luò)的 ImageNet 分類中。自編碼器（Autoencoder）自編碼器是一種神經(jīng)網(wǎng)絡(luò)模型，它的目標(biāo)是預(yù)測輸入自身，這通常通過網(wǎng)絡(luò)中某個(gè)地方

7、的瓶頸（bottleneck）實(shí)現(xiàn)。通過引入瓶頸，我們迫使網(wǎng)絡(luò)學(xué)習(xí)輸入更低維度的表征，從而有效地將輸入壓縮成一個(gè)好的表征。自編碼器和 PCA 等降維技術(shù)相關(guān)，但因?yàn)樗鼈兊姆蔷€性本質(zhì)，它們可以學(xué)習(xí)更為復(fù)雜的映射。目前已有一些范圍涵蓋較廣的自編碼器存在，包括降噪自編碼器（Denoising Autoencoders）、變自編碼器（Variational Autoencoders）和序列自編碼器（Sequence Autoencoders）。降噪自編碼器論文：Stacked Denoising Autoencoders: Learning Useful Representations in a

8、Deep Network with a Local Denoising Criterion 變自編碼器論文：Auto-Encoding Variational Bayes 序列自編碼器論文：Semi-supervised Sequence Learning平均池化（Average-Pooling）平均池化是一種在卷積神經(jīng)網(wǎng)絡(luò)中用于圖像識別的池化（Pooling）技術(shù)。它的工作原理是在特征的局部區(qū)域上滑動窗口，比如像素，然后再取窗口中所有值的平均。它將輸入表征壓縮成一種更低維度的表征。反向傳播（Backpropagation）反向傳播是一種在神經(jīng)網(wǎng)絡(luò)中用來有效地計(jì)算梯度的算法，或更一般而言，是一

9、種前饋計(jì)算圖（feedforward computational graph）。其可以歸結(jié)成從網(wǎng)絡(luò)輸出開始應(yīng)用分化的鏈?zhǔn)椒▌t，然后向后傳播梯度。反向傳播的第一個(gè)應(yīng)用可以追溯到 1960 年代的 Vapnik 等人，但論文 Learning representations by back-propagating errors常常被作為引用源。技術(shù)博客：計(jì)算圖上的微積分學(xué)：反向傳播（http:/colah.github.io/posts/2015-08-Backprop/）通過時(shí)間的反向傳播（BPTT：Backpropagation Through Time）通過時(shí)間的反向傳播是應(yīng)用于循環(huán)神經(jīng)網(wǎng)

10、絡(luò)（RNN）的反向傳播算法。BPTT 可被看作是應(yīng)用于 RNN 的標(biāo)準(zhǔn)反向傳播算法，其中的每一個(gè)時(shí)間步驟（time step）都代表一個(gè)計(jì)算層，而且它的參數(shù)是跨計(jì)算層共享的。因?yàn)?RNN 在所有的時(shí)間步驟中都共享了同樣的參數(shù)，一個(gè)時(shí)間步驟的錯(cuò)誤必然能通過時(shí)間反向到之前所有的時(shí)間步驟，該算法也因而得名。當(dāng)處理長序列（數(shù)百個(gè)輸入）時(shí)，為降低計(jì)算成本常常使用一種刪節(jié)版的 BPTT。刪節(jié)的 BPTT 會在固定數(shù)量的步驟之后停止反向傳播錯(cuò)誤。論文：Backpropagation Through Time: What It Does and How to Do It分批標(biāo)準(zhǔn)化（BN：Batch Norm

11、alization）分批標(biāo)準(zhǔn)化是一種按小批量的方式標(biāo)準(zhǔn)化層輸入的技術(shù)。它能加速訓(xùn)練過程，允許使用更高的學(xué)習(xí)率，還可用作規(guī)范器（regularizer）。人們發(fā)現(xiàn)，分批標(biāo)準(zhǔn)化在卷積和前饋神經(jīng)網(wǎng)絡(luò)中應(yīng)用時(shí)非常高效，但尚未被成功應(yīng)用到循環(huán)神經(jīng)網(wǎng)絡(luò)上。論文：分批標(biāo)準(zhǔn)化：通過減少內(nèi)部協(xié)變量位移（Covariate Shift）加速深度網(wǎng)絡(luò)訓(xùn)練（Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift）論文：使用分批標(biāo)準(zhǔn)化的循環(huán)神經(jīng)網(wǎng)絡(luò)（Batch Normalized Re

12、current Neural Networks）雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bidirectional RNN）雙向循環(huán)神經(jīng)網(wǎng)絡(luò)是一類包含兩個(gè)方向不同的 RNN 的神經(jīng)網(wǎng)絡(luò)。其中的前向 RNN 從起點(diǎn)向終點(diǎn)讀取輸入序列，而反向 RNN 則從終點(diǎn)向起點(diǎn)讀取。這兩個(gè) RNN 互相彼此堆疊，它們的狀態(tài)通常通過附加兩個(gè)矢量的方式進(jìn)行組合。雙向 RNN 常被用在自然語言問題中，因?yàn)樵谧匀徽Z言中我們需要同時(shí)考慮話語的前后上下文以做出預(yù)測。論文：雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bidirectional Recurrent Neural Networks）CaffeCaffe 是由伯克利大學(xué)視覺和學(xué)習(xí)中心開發(fā)的一種深度學(xué)習(xí)框架。

13、在視覺任務(wù)和卷積神經(jīng)網(wǎng)絡(luò)模型中，Caffe 格外受歡迎且性能優(yōu)異.分類交叉熵?fù)p失（Categorical Cross-Entropy Loss）分類交叉熵?fù)p失也被稱為負(fù)對數(shù)似然（negative log likelihood）。這是一種用于解決分類問題的流行的損失函數(shù)，可用于測量兩種概率分布（通常是真實(shí)標(biāo)簽和預(yù)測標(biāo)簽）之間的相似性。它可用 L = -sum(y * log(y_prediction) 表示，其中 y 是真實(shí)標(biāo)簽的概率分布（通常是一個(gè)one-hot vector），y_prediction 是預(yù)測標(biāo)簽的概率分布，通常來自于一個(gè) softmax。信道（Channel）深度學(xué)習(xí)模型的

14、輸入數(shù)據(jù)可以有多個(gè)信道。圖像就是個(gè)典型的例子，它有紅、綠和藍(lán)三個(gè)顏色信道。一個(gè)圖像可以被表示成一個(gè)三維的張量（Tensor），其中的維度對應(yīng)于信道、高度和寬度。自然語言數(shù)據(jù)也可以有多個(gè)信道，比如在不同類型的嵌入（embedding）形式中。卷積神經(jīng)網(wǎng)絡(luò)（CNN/ConvNet：Convolutional Neural Network）CNN 使用卷積連接從輸入的局部區(qū)域中提取的特征。大部分 CNN 都包含了卷積層、池化層和仿射層的組合。CNN 尤其憑借其在視覺識別任務(wù)的卓越性能表現(xiàn)而獲得了普及，它已經(jīng)在該領(lǐng)域保持了好幾年的領(lǐng)先。技術(shù)博客：斯坦福CS231n類用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò)（htt

15、p:/cs231n.github.io/neural-networks-3/）技術(shù)博客：理解用于自然語言處理的卷積神經(jīng)網(wǎng)絡(luò)（/2015/11/understanding-convolutional-neural-networks-for-nlp/）深度信念網(wǎng)絡(luò)（DBN：Deep Belief Network）DBN 是一類以無監(jiān)督的方式學(xué)習(xí)數(shù)據(jù)的分層表征的概率圖形模型。DBN 由多個(gè)隱藏層組成，這些隱藏層的每一對連續(xù)層之間的神經(jīng)元是相互連接的。DBN 通過彼此堆疊多個(gè) RBN（限制波爾茲曼機(jī)）并一個(gè)接一個(gè)地訓(xùn)練而創(chuàng)建。論文：深度信念網(wǎng)絡(luò)的一種快速學(xué)習(xí)

16、算法（A fast learning algorithm for deep belief nets）Deep Dream這是谷歌發(fā)明的一種試圖用來提煉深度卷積神經(jīng)網(wǎng)絡(luò)獲取的知識的技術(shù)。這種技術(shù)可以生成新的圖像或轉(zhuǎn)換已有的圖片從而給它們一種幻夢般的感覺，尤其是遞歸地應(yīng)用時(shí)。代碼：Github 上的 Deep Dream（/google/deepdream）技術(shù)博客：Inceptionism：向神經(jīng)網(wǎng)絡(luò)掘進(jìn)更深（/2015/06/inceptionism-going-deeper-into-neura

17、l.html）DropoutDropout 是一種用于神經(jīng)網(wǎng)絡(luò)防止過擬合的正則化技術(shù)。它通過在每次訓(xùn)練迭代中隨機(jī)地設(shè)置神經(jīng)元中的一小部分為 0 來阻止神經(jīng)元共適應(yīng)（co-adapting），Dropout 可以通過多種方式進(jìn)行解讀，比如從不同網(wǎng)絡(luò)的指數(shù)數(shù)字中隨機(jī)取樣。Dropout 層首先通過它們在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用而得到普及，但自那以后也被應(yīng)用到了其它層上，包括輸入嵌入或循環(huán)網(wǎng)絡(luò)。論文：Dropout: 一種防止神經(jīng)網(wǎng)絡(luò)過擬合的簡單方法（Dropout: A Simple Way to Prevent Neural Networks from Overfitting）論文：循環(huán)神經(jīng)網(wǎng)絡(luò)

18、正則化（Recurrent Neural Network Regularization）嵌入（Embedding）一個(gè)嵌入映射到一個(gè)輸入表征，比如一個(gè)詞或一句話映射到一個(gè)矢量。一種流行的嵌入是詞語嵌入（word embedding，國內(nèi)常用的說法是：詞向量），如 word2vec 或 GloVe。我們也可以嵌入句子、段落或圖像。比如說，通過將圖像和他們的文本描述映射到一個(gè)共同的嵌入空間中并最小化它們之間的距離，我們可以將標(biāo)簽和圖像進(jìn)行匹配。嵌入可以被明確地學(xué)習(xí)到，比如在 word2vec 中；嵌入也可作為監(jiān)督任務(wù)的一部分例如情感分析（Sentiment Analysis）。通常一個(gè)網(wǎng)絡(luò)的輸入層

19、是通過預(yù)先訓(xùn)練的嵌入進(jìn)行初始化，然后再根據(jù)當(dāng)前任務(wù)進(jìn)行微調(diào)（fine-tuned）。梯度爆炸問題（Exploding Gradient Problem）梯度爆炸問題是梯度消失問題（Vanishing Gradient Problem）的對立面。在深度神經(jīng)網(wǎng)絡(luò)中，梯度可能會在反向傳播過程中爆炸，導(dǎo)致數(shù)字溢出。解決梯度爆炸的一個(gè)常見技術(shù)是執(zhí)行梯度裁剪（Gradient Clipping）。論文：訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的困難之處（On the difficulty of training Recurrent Neural Networks）微調(diào)（Fine-Tuning）Fine-Tuning 這種技術(shù)是

20、指使用來自另一個(gè)任務(wù)（例如一個(gè)無監(jiān)督訓(xùn)練網(wǎng)絡(luò)）的參數(shù)初始化網(wǎng)絡(luò)，然后再基于當(dāng)前任務(wù)更新這些參數(shù)。比如，自然語言處理架構(gòu)通常使用 word2vec 這樣的預(yù)訓(xùn)練的詞向量（word embeddings），然后這些詞向量會在訓(xùn)練過程中基于特定的任務(wù)（如情感分析）進(jìn)行更新。梯度裁剪（Gradient Clipping）梯度裁剪是一種在非常深度的網(wǎng)絡(luò)（通常是循環(huán)神經(jīng)網(wǎng)絡(luò)）中用于防止梯度爆炸（exploding gradient）的技術(shù)。執(zhí)行梯度裁剪的方法有很多，但常見的一種是當(dāng)參數(shù)矢量的 L2 范數(shù)（L2 norm）超過一個(gè)特定閾值時(shí)對參數(shù)矢量的梯度進(jìn)行標(biāo)準(zhǔn)化，這個(gè)特定閾值根據(jù)函數(shù)：新梯度=梯度*閾值

21、/L2范數(shù)（梯度）new_gradients = gradients * threshold / l2_norm(gradients)確定。論文：訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的困難之處（On the difficulty of training Recurrent Neural Networks）GloVeGlove 是一種為話語獲取矢量表征（嵌入）的無監(jiān)督學(xué)習(xí)算法。GloVe 的使用目的和 word2vec 一樣，但 GloVe 具有不同的矢量表征，因?yàn)樗窃诠铂F(xiàn)（co-occurrence）統(tǒng)計(jì)數(shù)據(jù)上訓(xùn)練的。論文：GloVe：用于詞匯表征（Word Representation）的全局矢量（Glo

22、bal Vector）（GloVe: Global Vectors for Word Representation ）GoogleLeNetGoogleLeNet 是曾贏得了 2014 年 ILSVRC 挑戰(zhàn)賽的一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。這種網(wǎng)絡(luò)使用 Inception 模塊（Inception Module）以減少參數(shù)和提高網(wǎng)絡(luò)中計(jì)算資源的利用率。論文：使用卷積獲得更深（Going Deeper with Convolutions）GRUGRU（Gated Recurrent Unit：門控循環(huán)單元）是一種 LSTM 單元的簡化版本，擁有更少的參數(shù)。和 LSTM 細(xì)胞（LSTM cell）一樣

23、，它使用門控機(jī)制，通過防止梯度消失問題（vanishing gradient problem）讓循環(huán)神經(jīng)網(wǎng)絡(luò)可以有效學(xué)習(xí)長程依賴（long-range dependency）。GRU 包含一個(gè)復(fù)位和更新門，它們可以根據(jù)當(dāng)前時(shí)間步驟的新值決定舊記憶中哪些部分需要保留或更新。論文：為統(tǒng)計(jì)機(jī)器翻譯使用 RNN 編碼器-解碼器學(xué)習(xí)短語表征（Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation）技術(shù)博客：循環(huán)神經(jīng)網(wǎng)絡(luò)教程，第 4 部分：用 Python 和 Thean

24、o 實(shí)現(xiàn) GRU/LSTM RNN（/2015/10/recurrent-neural-network-tutorial-part-4-implementing-a-grulstm-rnn-with-python-and-theano/）Highway LayerHighway Layer是使用門控機(jī)制控制通過層的信息流的一種神經(jīng)網(wǎng)絡(luò)層。堆疊多個(gè) Highway Layer 層可讓訓(xùn)練非常深的網(wǎng)絡(luò)成為可能。Highway Layer 的工作原理是通過學(xué)習(xí)一個(gè)選擇輸入的哪部分通過和哪部分通過一個(gè)變換函數(shù)（如標(biāo)準(zhǔn)的仿射層）的門控函數(shù)來進(jìn)行學(xué)習(xí)。Highway

25、 Layer 的基本公式是 T * h(x) + (1 - T) * x；其中 T 是學(xué)習(xí)過的門控函數(shù)，取值在 0 到 1 之間；h(x) 是一個(gè)任意的輸入變換，x 是輸入。注意所有這些都必須具有相同的大小。論文：Highway NetworksICML即國際機(jī)器學(xué)習(xí)大會（International Conference for Machine Learning），一個(gè)頂級的機(jī)器學(xué)習(xí)會議。ILSVRC即 ImageNet 大型視覺識別挑戰(zhàn)賽（ImageNet Large Scale Visual Recognition Challenge），該比賽用于評估大規(guī)模對象檢測和圖像分類的算法。它是

26、計(jì)算機(jī)視覺領(lǐng)域最受歡迎的學(xué)術(shù)挑戰(zhàn)賽。過去幾年中，深度學(xué)習(xí)讓錯(cuò)誤率出現(xiàn)了顯著下降，從 30% 降到了不到 5%，在許多分類任務(wù)中擊敗了人類。Inception模塊（Inception Module）Inception模塊被用在卷積神經(jīng)網(wǎng)絡(luò)中，通過堆疊 11 卷積的降維（dimensionality reduction）帶來更高效的計(jì)算和更深度的網(wǎng)絡(luò)。論文：使用卷積獲得更深（Going Deeper with Convolutions）KerasKears 是一個(gè)基于 Python 的深度學(xué)習(xí)庫，其中包括許多用于深度神經(jīng)網(wǎng)絡(luò)的高層次構(gòu)建模塊。它可以運(yùn)行在 TensorFlow 或 Theano

27、上。LSTM長短期記憶（Long Short-Term Memory）網(wǎng)絡(luò)通過使用內(nèi)存門控機(jī)制防止循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）中的梯度消失問題（vanishing gradient problem）。使用 LSTM 單元計(jì)算 RNN 中的隱藏狀態(tài)可以幫助該網(wǎng)絡(luò)有效地傳播梯度和學(xué)習(xí)長程依賴（long-range dependency）。論文：長短期記憶（LONG SHORT-TERM MEMORY）技術(shù)博客：理解 LSTM 網(wǎng)絡(luò)（http:/colah.github.io/posts/2015-08-Understanding-LSTMs/）技術(shù)博客：循環(huán)神經(jīng)網(wǎng)絡(luò)教程，第 4 部分：用 Pyth

28、on 和 Theano 實(shí)現(xiàn) GRU/LSTM RNN（/2015/10/recurrent-neural-network-tutorial-part-4-implementing-a-grulstm-rnn-with-python-and-theano/）最大池化（Max-Pooling）池化（Pooling）操作通常被用在卷積神經(jīng)網(wǎng)絡(luò)中。一個(gè)最大池化層從一塊特征中選取最大值。和卷積層一樣，池化層也是通過窗口（塊）大小和步幅尺寸進(jìn)行參數(shù)化。比如，我們可能在一個(gè) 1010 特征矩陣上以 2 的步幅滑動一個(gè) 22 的窗口，然后選取每個(gè)窗口的 4 個(gè)值中的最

29、大值，得到一個(gè) 55 特征矩陣。池化層通過只保留最突出的信息來減少表征的維度；在這個(gè)圖像輸入的例子中，它們?yōu)檗D(zhuǎn)譯提供了基本的不變性（即使圖像偏移了幾個(gè)像素，仍可選出同樣的最大值）。池化層通常被安插在連續(xù)卷積層之間。MNISTMNIST數(shù)據(jù)集可能是最常用的一個(gè)圖像識別數(shù)據(jù)集。它包含 60,000 個(gè)手寫數(shù)字的訓(xùn)練樣本和 10,000 個(gè)測試樣本。每一張圖像的尺寸為 2828像素。目前最先進(jìn)的模型通常能在該測試集中達(dá)到 99.5% 或更高的準(zhǔn)確度。動量（Momentum）動量是梯度下降算法（Gradient Descent Algorithm）的擴(kuò)展，可以加速和阻抑參數(shù)更新。在實(shí)際應(yīng)用中，在梯度下

30、降更新中包含一個(gè)動量項(xiàng)可在深度網(wǎng)絡(luò)中得到更好的收斂速度（convergence rate）。論文：通過反向傳播（back-propagating error）錯(cuò)誤學(xué)習(xí)表征多層感知器（MLP：Multilayer Perceptron）多層感知器是一種帶有多個(gè)全連接層的前饋神經(jīng)網(wǎng)絡(luò)，這些全連接層使用非線性激活函數(shù)（activation function）處理非線性可分的數(shù)據(jù)。MLP 是多層神經(jīng)網(wǎng)絡(luò)或有兩層以上的深度神經(jīng)網(wǎng)絡(luò)的最基本形式。負(fù)對數(shù)似然（NLL：Negative Log Likelihood）參見分類交叉熵?fù)p失（Categorical Cross-Entropy Loss）。神經(jīng)網(wǎng)絡(luò)

31、機(jī)器翻譯（NMT：Neural Machine Translation）NMT 系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語言（如英語和法語）之間的翻譯。NMT 系統(tǒng)可以使用雙語語料庫進(jìn)行端到端的訓(xùn)練，這有別于需要手工打造特征和開發(fā)的傳統(tǒng)機(jī)器翻譯系統(tǒng)。NMT 系統(tǒng)通常使用編碼器和解碼器循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，它可以分別編碼源句和生成目標(biāo)句。論文：使用神經(jīng)網(wǎng)絡(luò)的序列到序列學(xué)習(xí)（Sequence to Sequence Learning with Neural Networks）論文：為統(tǒng)計(jì)機(jī)器翻譯使用 RNN 編碼器-解碼器學(xué)習(xí)短語表征（Learning Phrase Representations using RNN

32、 Encoder-Decoder for Statistical Machine Translation）神經(jīng)圖靈機(jī)（NTM：Neural Turing Machine）NTM 是可以從案例中推導(dǎo)簡單算法的神經(jīng)網(wǎng)絡(luò)架構(gòu)。比如，NTM 可以通過案例的輸入和輸出學(xué)習(xí)排序算法。NTM 通常學(xué)習(xí)記憶和注意機(jī)制的某些形式以處理程序執(zhí)行過程中的狀態(tài)。論文：神經(jīng)圖靈機(jī)（Neural Turing Machines）非線性（Nonlinearity）參見激活函數(shù)（Activation Function）。噪音對比估計(jì)（NCE：noise-contrastive estimation）噪音對比估計(jì)是一種通常

33、被用于訓(xùn)練帶有大輸出詞匯的分類器的采樣損失（sampling loss）。在大量的可能的類上計(jì)算 softmax 是異常昂貴的。使用 NCE，我們可以將問題降低成二元分類問題，這可以通過訓(xùn)練分類器區(qū)別對待取樣和真實(shí)分布以及人工生成的噪聲分布來實(shí)現(xiàn)。論文：噪音對比估計(jì)：一種用于非標(biāo)準(zhǔn)化統(tǒng)計(jì)模型的新估計(jì)原理（Noise-contrastive estimation: A new estimation principle for unnormalized statistical models ）論文：使用噪音對比估計(jì)有效地學(xué)習(xí)詞向量（Learning word embeddings effici

34、ently with noise-contrastive estimation）池化參見最大池化（Max-Pooling）或平均池化（Average-Pooling）。受限玻爾茲曼機(jī)（RBN：Restricted Boltzmann Machine）RBN 是一種可被解釋為一個(gè)隨機(jī)人工神經(jīng)網(wǎng)絡(luò)的概率圖形模型。RBN 以無監(jiān)督的形式學(xué)習(xí)數(shù)據(jù)的表征。RBN 由可見層和隱藏層以及每一個(gè)這些層中的二元神經(jīng)元的連接所構(gòu)成。RBN 可以使用對比散度（contrastive divergence）進(jìn)行有效的訓(xùn)練，這是梯度下降的一種近似。第六章：動態(tài)系統(tǒng)中的信息處理：和諧理論基礎(chǔ) 論文：受限玻爾茲曼機(jī)簡介（

35、An Introduction to Restricted Boltzmann Machines）循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN：Recurrent Neural Network）RNN 模型通過隱藏狀態(tài)（或稱記憶）連續(xù)進(jìn)行相互作用。它可以使用最多 N 個(gè)輸入，并產(chǎn)生最多 N 個(gè)輸出。比如，一個(gè)輸入序列可能是一個(gè)句子，其輸出為每個(gè)單詞的詞性標(biāo)注（part-of-speech tag）（N 到 N）；一個(gè)輸入可能是一個(gè)句子，其輸出為該句子的情感分類（N 到 1）；一個(gè)輸入可能是單個(gè)圖像，其輸出為描述該圖像所對應(yīng)一系列詞語（1 到 N）。在每一個(gè)時(shí)間步驟中，RNN 會基于當(dāng)前輸入和之前的隱藏狀態(tài)計(jì)算新的隱藏

36、狀態(tài)記憶。其中循環(huán)（recurrent）這個(gè)術(shù)語來自這個(gè)事實(shí)：在每一步中都是用了同樣的參數(shù)，該網(wǎng)絡(luò)根據(jù)不同的輸入執(zhí)行同樣的計(jì)算。技術(shù)博客：了解 LSTM 網(wǎng)絡(luò)（http:/colah.github.io/posts/2015-08-Understanding-LSTMs/）技術(shù)博客：循環(huán)神經(jīng)網(wǎng)絡(luò)教程第1部分介紹 RNN （/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/）遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network）遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)

37、網(wǎng)絡(luò)的樹狀結(jié)構(gòu)的一種泛化（generalization）。每一次遞歸都使用相同的權(quán)重。就像 RNN 一樣，遞歸神經(jīng)網(wǎng)絡(luò)可以使用向后傳播（backpropagation）進(jìn)行端到端的訓(xùn)練。盡管可以學(xué)習(xí)樹結(jié)構(gòu)以將其用作優(yōu)化問題的一部分，但遞歸神經(jīng)網(wǎng)絡(luò)通常被用在已有預(yù)定義結(jié)構(gòu)的問題中，如自然語言處理的解析樹中。論文：使用遞歸神經(jīng)網(wǎng)絡(luò)解析自然場景和自然語言（Parsing Natural Scenes and Natural Language with Recursive Neural Networks ）ReLU即線性修正單元（Rectified Linear Unit）。ReLU 常在深度神經(jīng)網(wǎng)

38、絡(luò)中被用作激活函數(shù)。它們的定義是 f(x) = max(0, x) 。ReLU 相對于 tanh 等函數(shù)的優(yōu)勢包括它們往往很稀疏（它們的活化可以很容易設(shè)置為 0），而且它們受到梯度消失問題的影響也更小。ReLU 主要被用在卷積神經(jīng)網(wǎng)絡(luò)中用作激活函數(shù)。ReLU 存在幾種變體，如Leaky ReLUs、Parametric ReLU (PReLU) 或更為流暢的 softplus近似。論文：深入研究修正器（Rectifiers）：在 ImageNet 分類上超越人類水平的性能（Delving Deep into Rectifiers: Surpassing Human-Level Perform

39、ance on ImageNet Classification）論文：修正非線性改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型（Rectifier Nonlinearities Improve Neural Network Acoustic Models ）論文：線性修正單元改進(jìn)受限玻爾茲曼機(jī)（Rectified Linear Units Improve Restricted Boltzmann Machines ）殘差網(wǎng)絡(luò)（ResNet）深度殘差網(wǎng)絡(luò)（Deep Residual Network）贏得了 2015 年的 ILSVRC 挑戰(zhàn)賽。這些網(wǎng)絡(luò)的工作方式是引入跨層堆棧的快捷連接，讓優(yōu)化器可以學(xué)習(xí)更容易的殘差映

40、射（residual mapping）而非更為復(fù)雜的原映射（original mapping）。這些快捷連接和 Highway Layer 類似，但它們與數(shù)據(jù)無關(guān)且不會引入額外的參數(shù)或訓(xùn)練復(fù)雜度。ResNet 在 ImageNet 測試集中實(shí)現(xiàn)了 3.57% 的錯(cuò)誤率。論文：用于圖像識別的深度殘差網(wǎng)絡(luò)（Deep Residual Learning for Image Recognition）RMSPropRMSProp 是一種基于梯度的優(yōu)化算法。它與 Adagrad 類似，但引入了一個(gè)額外的衰減項(xiàng)抵消 Adagrad 在學(xué)習(xí)率上的快速下降。 PPT：用于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò) 講座6a 技術(shù)博客

41、：斯坦福CS231n：優(yōu)化算法（http:/cs231n.github.io/neural-networks-3/）技術(shù)博客：梯度下降優(yōu)化算法概述（/optimizing-gradient-descent/）序列到序列（Seq2Seq）序列到序列（Sequence-to-Sequence）模型讀取一個(gè)序列（如一個(gè)句子）作為輸入，然后產(chǎn)生另一個(gè)序列作為輸出。它和標(biāo)準(zhǔn)的 RNN 不同；在標(biāo)準(zhǔn)的 RNN 中，輸入序列會在網(wǎng)絡(luò)開始產(chǎn)生任何輸出之前被完整地讀取。通常而言，Seq2Seq 通過兩個(gè)分別作為編碼器和解碼器的 RNN 實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯是一

42、類典型的 Seq2Seq 模型。論文：使用神經(jīng)網(wǎng)絡(luò)的序列到序列學(xué)習(xí)（Sequence to Sequence Learning with Neural Networks）隨機(jī)梯度下降（SGD：Stochastic Gradient Descent）隨機(jī)梯度下降是一種被用在訓(xùn)練階段學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的基于梯度的優(yōu)化算法。梯度通常使用反向傳播算法計(jì)算。在實(shí)際應(yīng)用中，人們使用微小批量版本的 SGD，其中的參數(shù)更新基于批案例而非單個(gè)案例進(jìn)行執(zhí)行，這能增加計(jì)算效率。vanilla SGD 存在許多擴(kuò)展，包括動量（Momentum）、Adagrad、rmsprop、Adadelta 或 Adam。論文：用于在線學(xué)習(xí)和隨機(jī)優(yōu)化的自適應(yīng)次梯度方法（Adaptive Subgradient Methods for Online Learning and Stochas

人人文庫> 全部分類> 應(yīng)用文書 > 事務(wù)文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)常用詞匯

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)常用詞匯

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔