下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
典型深度學習網(wǎng)絡概述目錄TOC\o"1-3"\h\u2068典型深度學習網(wǎng)絡概述 1290521.1深度學習的基礎原理 1126731.2激活函數(shù) 158001.3代價函數(shù) 2270721.4四種典型的深度神經(jīng)網(wǎng)絡 31.1深度學習的基礎原理圖2-1是基礎的神經(jīng)網(wǎng)絡結構,由輸入層、隱藏層、輸出層組成。網(wǎng)絡的每一層由多個神經(jīng)元共同連接組成,每層的各個神經(jīng)元與上一層的其他神經(jīng)元和下一層的其他神經(jīng)元相互連接,每個神經(jīng)元接受上一層的信息輸入,以一定的計算法則求和輸出,并使用激活函數(shù)將輸入信號激活為輸出函數(shù),繼續(xù)新的信息輸出。如果不使用激活函數(shù),那么神經(jīng)網(wǎng)絡處理非線性模型能力將大大減弱,所以引入激活函數(shù)能夠讓神經(jīng)網(wǎng)絡的功能更強大。圖2-1DNN的結構1.2激活函數(shù)在人工神經(jīng)網(wǎng)絡中,節(jié)點的激活函數(shù)定義了給定輸入或輸入集合時該節(jié)點的輸出。一個標準集成電路可以被看作是一個激活函數(shù)的數(shù)字網(wǎng)絡,根據(jù)輸入可以是開(1)或關(0)。這類似于神經(jīng)網(wǎng)絡中的線性感知器的行為。然而,只有非線性激活函數(shù)允許這樣的網(wǎng)絡使用少量節(jié)點來計算非平凡問題,這樣的函數(shù)具有非線性。常用的激活函數(shù)的主要類型有sigmoid函數(shù)、tanh函數(shù)、ReLU函數(shù):1.sigmoid函數(shù):S它能夠?qū)⒁粋€輸入的連續(xù)真實值轉(zhuǎn)化成0和1之間的輸出,尤其當一個輸入的真實值是非常大的一個負數(shù)時,輸出可以轉(zhuǎn)化成0;若它是非常大的一個正數(shù),其輸出將會是1.sigmoid函數(shù)的缺點是:1.在一個深度的神經(jīng)網(wǎng)絡中,當梯度逆向傳播時會導致一個梯度的爆炸和另一個梯度的消失,其中一個梯度爆炸事件發(fā)生的可能性和概率是極為微小,而另一個梯度的消失事件發(fā)生的可能性和概率是比較大的;2.sigmoid的輸出不是零均值(zero-centered)。這種新的情況是不容易被廣泛采用的,因為它可能會直接導致后一層信號神經(jīng)元把從上一層信號輸出的非零均值的數(shù)字信號轉(zhuǎn)換成下一層的信號輸入;3.其解析式中包括了一個冪運算,在使用計算機程序求解冪的過程中運算相對來說比較費工。對于一些規(guī)模比較大的深度網(wǎng)絡結構,這樣就可能會較大程度地增加了深度神經(jīng)網(wǎng)絡訓練的時間。2.tanh函數(shù):S它與sigmoid函數(shù)有非常相似的函數(shù)曲線,可以通過平移運算實現(xiàn)相互之間的變換。不過tanh函數(shù)另外有兩個優(yōu)勢:零均值,且在原點附近更接近恒等函數(shù)的形式。均值不為0就意味著自帶了一個偏移值,在計算時是額外的負擔,這會使得收斂變得更慢;更接近恒等函數(shù)意味著在幾何變換運算中更具有優(yōu)勢,比如在激活值較低時可以利用恒等函數(shù)的某些性質(zhì),直接進行矩陣運算。所以在具體應用場景中,tanh函數(shù)比sigmoid函數(shù)更優(yōu)越,訓練相對容易。但是tanh函數(shù)和sigmoid函數(shù)具有相同的缺點,在其飽和區(qū)接近于0,都容易產(chǎn)生后續(xù)梯度消失、計算量大的問題。3.ReLU函數(shù)SReLU函數(shù)其實就是一個取最大值函數(shù),它的計算速度非???,只需要判斷輸入是否大于0,并且它在大型網(wǎng)絡的訓練中,收斂速度遠快于sigmoid和tanh。但是ReLU函數(shù)輸出不是零均值,而且當輸入非常大或者非常小時,大部分的神經(jīng)元都會出現(xiàn)飽和狀態(tài),失去梯度因而無法學習。1.3代價函數(shù)為了找到合適的權重和偏置值,使得對于所有的輸入值,輸出值都能近似等于真實值,我們定義一個代價函數(shù)來評估當前網(wǎng)絡結構的優(yōu)劣,代價函數(shù)的定義是所有樣本誤差值的平均,常用的代價函數(shù)有二次代價函數(shù)、交叉熵代價函數(shù)等,令C表示代價函數(shù),x表示樣本,y表示實際值,a表示輸出值,n表示樣本數(shù)。分別介紹如下:二次代價函數(shù):C=交叉熵代價函數(shù):C=?在神經(jīng)網(wǎng)絡中,若輸出神經(jīng)元是線性函數(shù),代價函數(shù)應當選用二次代價函數(shù);若輸出神經(jīng)元是Sigmoid函數(shù),應當選用交叉熵代價函數(shù)。優(yōu)化網(wǎng)絡的一個基本原則就是最小化代價函數(shù)。常用的運算方式有梯度下降法(gradientdescent)、LS、牛頓法和擬牛頓法等方式,梯度下降法和最小二乘法相比,前者在計算時需要先選擇一定的步長,而LS不需要。梯度下降方法主要是迭代求解,最小二乘法則主要是對其進行計算解析。當樣品數(shù)量不太多且存在解析解時,最小二乘法相對于梯度下降方法來說更加具有優(yōu)勢,計算的速度也更快。但當樣本數(shù)量很大時,用LS法會涉及到求解一個超級大的可逆矩陣,這時我們求解解析解的過程會很難或者非常緩慢,所以使用迭代的梯度下降方法來求解。梯度下降法和牛頓法都是采取了迭代求解的方式,不過梯度下降法是梯度求解,而牛頓法/擬牛頓法是通過二階的海森矩陣的逆矩陣或偽逆矩陣求解。比較兩者而言,使用牛頓法/擬牛頓法能夠更快地收斂結果,但是每次完整迭代的時間比梯度下降法長。當損失值減小到一定程度時,可以認為此時的神經(jīng)網(wǎng)絡的參數(shù)值較理想;但是高精度伴隨著低效率,為了提高精度,需要經(jīng)過多次的迭代訓練,訓練時間增加,因此實際訓練時需要考慮綜合的效率。1.4四種典型的深度神經(jīng)網(wǎng)絡經(jīng)典深度神經(jīng)網(wǎng)絡可被大致劃分為四種網(wǎng):卷積神經(jīng)網(wǎng)絡(CNN);生成對抗網(wǎng)絡(GAN);深度強化學習(RL);循環(huán)神經(jīng)網(wǎng)絡(RNN)。下面對它們依次進行簡要的介紹:1.卷積神經(jīng)網(wǎng)絡:CNN主要用于處理圖像以及視頻內(nèi)容,它具有兩大特點:可以將包含大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量,即高像素降維成低像素;即使圖像經(jīng)過旋轉(zhuǎn)、翻折等處理,也能夠保留圖片的有效特征。CNN目前被廣泛用于人臉識別、自動駕駛、圖片美化等多個領域。經(jīng)典的CNN結構一般有三個部分:卷積層、池化層、全連接層。卷積層的主要功能是,提取圖像中的局部特征;池化層通過給數(shù)據(jù)降維,避免發(fā)生過擬合;全連接層與傳統(tǒng)神經(jīng)網(wǎng)絡的部分相似,用來輸出想要的結果。CNN的構建是基于人類對視覺原理的研究,通過模仿人類大腦的可視皮層對圖像的分級處理,構造多層網(wǎng)絡結構,底層的結構識別圖片的基礎特征,通過多個層級的相互組合,在最頂層實現(xiàn)分類的功能。2.生成對抗網(wǎng)絡:GAN是一種非監(jiān)督性深度學習的方法,通過允許兩個神經(jīng)網(wǎng)絡之間相互競爭的形式來進行深度學習:一個生成器是通過計算機生成的數(shù)據(jù)(絕大多數(shù)情況下都是圖片),目的主要是為了騙過判別器;判別器判斷此張圖片是真正存在的還是機器生成的,目的主要是為了找出生成器所做的虛假數(shù)據(jù)。生成器從潛在的空間中隨機地取樣數(shù)據(jù)作為輸入,所得到的結果盡量與模擬訓練集中的現(xiàn)實數(shù)據(jù)相同;而判別器的輸入則為真實的數(shù)據(jù)或者生成器的輸出,目標就是盡可能多地判斷每一個生成器的輸入都是否真實,而且每一個生成器都需要盡可能多地迷惑于判別器。兩個網(wǎng)絡之間相互抵制、不斷地調(diào)整各自的參數(shù),最終目標就是使得判別網(wǎng)絡無法判斷出每一個生成網(wǎng)絡的輸出結果是否真實。GAN的主要技術優(yōu)點如下:它具有強大的數(shù)據(jù)建模和分析能力;可以用來訓練任意一種類型的生成器網(wǎng)絡,而其它框架則是所需要的生成器網(wǎng)絡必須具有一個指定的函數(shù)形式;不必再通過馬爾科夫鏈進行反復采樣。GAN的缺點就是:由于訓練的過程困難而且不穩(wěn)定,需要在生成器和判別儀之間建立良好的同步,特別是在實際的訓練中容易導致造成判別器收斂、生成器卻發(fā)散的局面;模式缺失:GAN的學習和訓練處理過程中很容易導致發(fā)生模式缺失,生成器退化。GAN目前主要應用在生成圖片、轉(zhuǎn)換圖片風格、編輯照片等領域。3.強化學習:RL、監(jiān)督學習、非監(jiān)督學習三種學習方法共同組了成機器學習這個領域,與兩者不同的地方就是,無需使用帶標簽的輸入以及最優(yōu)解輸出,并且也不必再精確地糾正非最優(yōu)解,通過直接接受到學習環(huán)境給予輸出的獎勵或者是反饋來獲取學習的信息,然后進行模型的參數(shù)更新。目前RL主要用于游戲、機器人等領域。主流強化學習算法大概可被分為兩類:有模型(Model-Based)學習和免模型(Model-Free)學習:有模型強化學習(model-based)依賴于對環(huán)境的一個提前感覺和認知,可以通過提前考慮來進行規(guī)劃,但劣勢之處就是如果強化模型與真實的世界不相符,那么它們在實際應用的場景下就會顯得表現(xiàn)出來的不好;免模型強化學習雖然放棄了傳統(tǒng)的模型學習,在效率上遠遠不如前者,但是這種學習方式的設計可實現(xiàn)性較強,也比較容易在真實的場景下進行調(diào)整達到很好的狀態(tài),所以免模型學習的方法越來越受到人們的歡迎,得到了更加廣泛的研究開發(fā)和應用測試。有模型學習的常見算法主要有純規(guī)劃等,免模型學習的常見算法主要有Q-learning、策略優(yōu)化等。4.循環(huán)神經(jīng)網(wǎng)絡:RNN適用于解決一些相互依賴的數(shù)據(jù)流,例如文本生成、語音識別、機器翻譯等。它跟傳統(tǒng)網(wǎng)絡的最大不同是每次都會把前一次的輸出結果,輸入下一次的隱藏層里,進入新的訓練進程。RNN的組成部分有編碼器、解碼器。RNN的缺陷主要有:訓練需要投入大量成本和時間;難以對較長時間內(nèi)的輸入順序進行處理,因為短期記憶對RNN的影響程度較深。比較常用的RNN的優(yōu)化算法有:1.長短期記憶網(wǎng)絡(LSTM):由于RNN有一套固定不變的邏輯,即輸入越晚,對網(wǎng)絡的影響越大,輸入越早,對網(wǎng)絡影響越小。這導致RNN難以處理長期時間關聯(lián),而LSTM改變了這個規(guī)則,省略不重要的信息,保留較長序列數(shù)據(jù)中重要的信息。2.門控循環(huán)單元網(wǎng)絡(GRU):GRU是LSTM的一個變體,同意具有LSTM記住重點、省略不重要信息的特點,而且在長時期處理的時候也不會丟失重要信息。5.深度網(wǎng)絡的特點:歸納來看,深度學習有如下的優(yōu)點:1.學習能力強,應用范圍廣:由于網(wǎng)絡結構復雜,在理論上可以映射得到任何一個函數(shù),可以處理非常復雜的實際問題;2.由于深度學習是由數(shù)據(jù)驅(qū)動,上限高:當輸入的信息越多,表現(xiàn)就會變得更好,而且這種表現(xiàn)的上限可以通過調(diào)整參數(shù)進一步提高;3.具有良好的可移植性:許多平臺具有專業(yè)的基于深度學習處理的框架,可以直接進行調(diào)用,而且它們還可以與很多平臺兼容。但是,深度學習也有一些不可避免的缺陷:1.計算量大,便攜性差:分析和處理數(shù)據(jù)時就需要大量的計算能力,需要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廚師烹飪技藝與食品安全管理方案面試題
- 2026年經(jīng)濟大勢解析如何推進高質(zhì)量的共同富裕
- 設備檢修培訓課件
- 設備故障培訓課件教學
- 2026程序員進階教程代碼優(yōu)化與調(diào)試實操題集
- 安全員A證考試考前沖刺練習題含答案詳解【典型題】
- 2025民航職業(yè)技能鑒定檢測卷含答案詳解(典型題)
- 安全員A證考試題庫(得分題)打印含答案詳解(滿分必刷)
- 安全員A證考試練習題含完整答案詳解(奪冠)
- 安全員A證考試預測復習附參考答案詳解(考試直接用)
- 快遞配送外包合同范本
- 火龍罐的市場前景分析
- 設備技術員轉(zhuǎn)正述職報告
- 驗貨執(zhí)行合同書
- 2026年張家界航空工業(yè)職業(yè)技術學院單招職業(yè)技能筆試備考試題及答案詳解
- 終止妊娠藥物課件
- 2025年無人駕駛公共交通項目可行性研究報告
- 北京市朝陽區(qū)2026屆高三上英語期末考試試題含解析
- 亞急性硬化性全腦炎2-
- GB/T 6462-2025金屬和氧化物覆蓋層厚度測量顯微鏡法
- 工程量鑒定合同范本
評論
0/150
提交評論