第六章 卷積神經(jīng)網(wǎng)絡原理與實踐_第1頁
第六章 卷積神經(jīng)網(wǎng)絡原理與實踐_第2頁
第六章 卷積神經(jīng)網(wǎng)絡原理與實踐_第3頁
第六章 卷積神經(jīng)網(wǎng)絡原理與實踐_第4頁
第六章 卷積神經(jīng)網(wǎng)絡原理與實踐_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

卷積神經(jīng)網(wǎng)絡原理與實踐講師:XX匯報時間:XXXX目錄CONTENTS視覺先驗與卷積思想經(jīng)典CNN演進高效與輕量化訓練技巧與調優(yōu)應用拓展與實戰(zhàn)總結與前沿視覺先驗與卷積思想01圖像局部性與參數(shù)災難從圖像的兩大先驗出發(fā),揭示全連接網(wǎng)絡的固有缺陷,引出卷積設計的核心動機。局部相關性圖像中相鄰像素構成有意義的局部特征(如邊緣、角點)。平移不變性物體的特征表示不應隨其在圖像中的位置變化而改變。全連接層的困境處理高分辨率圖像時,參數(shù)量爆炸,且無法有效利用空間結構信息,導致嚴重的過擬合風險。卷積核幾何與滑動計算核心參數(shù)卷積核大小(KernelSize):定義感受野,如3x3。步幅(Stride):滑動步長,控制輸出尺寸下采樣。填充(Padding):邊緣補零,保持輸入輸出尺寸一致。輸出尺寸計算

(O:輸出尺寸,I:輸入尺寸,K:核大小,P:填充,S:步幅)多通道卷積與參數(shù)張量輸入特征圖(C_inxHxW)卷積核(C_outxC_inxKxK)輸出特征圖(C_outxH'xW')參數(shù)量

計算量(FLOPs)

池化層:降維與不變性增強通過下采樣減少特征圖空間尺寸,降低參數(shù)量和計算量,同時增強模型對微小變形的魯棒性。最大池化(MaxPooling)取窗口內的最大值,保留最顯著的特征響應。平均池化(AveragePooling)取窗口內的平均值,保留背景信息,平滑特征。經(jīng)典CNN演進02經(jīng)典之路:LeNet-5與手寫數(shù)字識別歷史意義LeNet-5是CNN的開山之作,其在MNIST數(shù)據(jù)集上將測試誤差降至0.7%,證明了CNN在實際應用中的巨大潛力。LeNet-5架構輸入32x32Conv16@28x28Pool16@14x14Conv216@10x10Pool216@5x5FC120-84-10(Conv:卷積,Pool:池化,FC:全連接)AlexNet:深度、ReLU與歷史突破AlexNet在2012年ImageNet競賽中以巨大優(yōu)勢獲勝,開啟了深度學習時代。其核心在于更深的網(wǎng)絡、ReLU激活函數(shù)和GPU并行訓練。性能飛躍ImageNetTop-5錯誤率從26%降至15%更深的網(wǎng)絡(5Conv+3FC)更強的特征表達能力ReLU激活函數(shù)緩解梯度消失,加速訓練Dropout正則化有效防止過擬合VGG:小核的深層堆疊哲學VGG通過反復堆疊3x3的小卷積核,證明了增加網(wǎng)絡深度是提升性能的有效途徑。3x3Conv(stride1)3x3Conv(stride1)5x5Conv(近似)更多非線性(更多ReLU)VGG-16配置示例(部分)224x224x3112x112x6456x56x12828x28x256Inception:并行與多尺度特征融合并行多分支在同一層并行使用不同大小的卷積核(1x1,3x3,5x5)和池化,提取多尺度特征。1x1瓶頸層在3x3和5x5卷積前使用1x1卷積降維,大幅減少計算量,實現(xiàn)稀疏結構轉為密集計算。ResNet:殘差學習與恒等映射

革命性突破成功訓練152層的極深網(wǎng)絡,ImageNetTop-5錯誤率降至3.6%以下。殘差網(wǎng)絡變體與進化WideResNet增加網(wǎng)絡寬度(通道數(shù)),而非深度。在CIFAR數(shù)據(jù)集上,WRN-40-4比ResNet-1001表現(xiàn)更好,訓練更快。ResNeXt引入“基數(shù)”概念,在殘差塊中使用分組卷積。通過多分支結構提升性能,而無需大幅增加參數(shù)。Pre-Activation將BN和ReLU移至卷積層之前,形成“BN-ReLU-Conv”結構,改善梯度流動,使訓練更穩(wěn)定。高效與輕量化03高效之路:深度可分離卷積將標準卷積分解為兩步,在保持性能的同時,大幅減少參數(shù)量和計算量,是移動端輕量級網(wǎng)絡的核心。DepthwiseConv逐通道濾波,一個卷積核負責一個通道。PointwiseConv1x1卷積,跨通道組合特征。MobileNetV2:倒置殘差與線性瓶頸低維(輸入)擴展(1x1)高維深度卷積(3x3)高維投影(1x1Linear)低維低維(跳躍連接)倒置殘差先通過1x1卷積擴展通道數(shù),提取特征后再壓縮回低維,與輸入相加。線性瓶頸在最后的投影層去除非線性激活函數(shù),以保護低維特征信息,避免信息丟失。注意力機制:Squeeze-and-Excitation(SE)SE模塊通過顯式建模通道間的相互依賴關系,自適應地重新校準通道特征響應,是一種即插即用的模塊。Squeeze(壓縮)通過全局平均池化,將空間維度壓縮,獲得全局通道描述符。Excitation(激勵)通過兩層全連接網(wǎng)絡,學習通道權重,對特征進行重標定。混合注意力:通道與空間結合通道與空間注意力,實現(xiàn)全方位特征校準。CBAM(ConvolutionalBlockAttentionModule)是典型代表。通道注意力關注“什么”特征是有意義的,為不同通道分配權重??臻g注意力關注“哪里”是有意義的區(qū)域,為不同空間位置分配權重。神經(jīng)架構搜索(NAS):自動化設計NAS旨在通過算法自動搜索最優(yōu)網(wǎng)絡結構,降低人工設計成本,并針對特定硬件進行優(yōu)化。定義搜索空間預設可能的網(wǎng)絡結構組合。執(zhí)行搜索策略使用RL、進化算法等尋找最優(yōu)結構。評估與輸出在驗證集上評估性能,輸出最優(yōu)模型。訓練技巧與調優(yōu)04訓練技巧:數(shù)據(jù)增強通過對訓練圖像進行隨機變換,人為地擴充數(shù)據(jù)集,是提高模型泛化能力、防止過擬合的有效且必要手段。隨機裁剪/縮放隨機翻轉/旋轉顏色抖動MixUp/CutMix策略化搜索(如AutoAugment)可自動找到最優(yōu)增強策略,在CIFAR-10上降低1.3%錯誤率。訓練技巧:批量歸一化(BN)不推薦Conv->ReLU->BNBN層放在激活函數(shù)之后,可能破壞已學習到的特征分布。推薦Conv->BN->ReLUBN層放在卷積之后、激活之前,穩(wěn)定梯度流動,加速收斂。注意:訓練時使用當前批次的統(tǒng)計量,推理時使用訓練期間累積的移動平均值。訓練技巧:學習率調度學習率熱身(Warm-up)訓練初期,學習率從0線性增加到預設值,避免模型因大學習率而發(fā)散,使訓練更穩(wěn)定。余弦退火(CosineAnnealing)學習率按余弦函數(shù)曲線衰減,有助于在訓練末期探索更優(yōu)的局部極小值,可提升0.3%的精度。訓練技巧:標簽平滑One-hot硬標簽易使模型過度自信。標簽平滑將目標分布調整為硬標簽和均勻分布的混合,提升泛化性。雙重增益提升ImageNet驗證集0.2%精度,并改善模型置信度校準。標簽分布對比原始One-Hot標簽平滑后標簽(ε=0.1)訓練技巧:混合精度訓練利用半精度浮點數(shù)(FP16)進行前向和后向計算,同時保持主權重為單精度(FP32),以加速訓練并減少顯存占用。FP16計算前向/后向FP32主權重更新與備份損失縮放保持梯度穩(wěn)定1.5-2x訓練速度提升~50%顯存占用減少應用拓展與實戰(zhàn)05跨界應用:一維CNN與文本分類將詞向量序列視為一維圖像,使用1D卷積捕捉局部n-gram特征,在文本分類任務中表現(xiàn)出色。性能與效率在AG-news數(shù)據(jù)集上達到92%準確率,訓練速度比LSTM快3倍??缃鐟茫赫Z義分割與FCN全卷積網(wǎng)絡(FCN)將分類網(wǎng)絡的全連接層替換為卷積層,實現(xiàn)像素級預測,并通過反卷積上采樣恢復空間分辨率。關鍵:跳躍連接融合深層語義特征和淺層細節(jié)特征,顯著提升分割邊緣的精度??缃鐟茫耗繕藱z測與YOLOYOLO(YouOnlyLookOnce)將目標檢測視為單階段的回歸問題,直接在輸出層回歸邊界框位置和類別概率,實現(xiàn)端到端的實時檢測。實時性能PASCALVOC數(shù)據(jù)集上mAP達63%,速度比兩階段方法快約5倍??缃鐟茫喝四樧R別與度量學習通過CNN將人臉圖像映射到一個嵌入空間,使得同一人臉距離近,不同人臉距離遠。人臉圖像CNN映射128維嵌入三元組損失(TripletLoss)優(yōu)化“同類相近,異類相遠”,在LFW數(shù)據(jù)集上準確率達99.2%??缃鐟茫横t(yī)學影像與可解釋性在醫(yī)療等高風險領域,模型的可解釋性至關重要??梢暬ぞ撸ㄈ鏕rad-CAM)能高亮病灶區(qū)域,幫助醫(yī)生驗證AI決策的合理性。負責任AI建立醫(yī)生對AI系統(tǒng)的信任,是AI輔助診斷成功落地的關鍵??偨Y與前沿06CNN設計范式回顧深度可分離提升參數(shù)與計算效率殘差連接解決梯度退化,訓練極深網(wǎng)絡注意力機制自適應校準特征,提升表征能力多尺度并行融合不同感受野信息合理組合這些范式,可在ImageNet上實現(xiàn)同等精度下40%的計算量減少。前沿挑戰(zhàn):VisionTransformerViT將圖像切分為序列,通過自注意力機制建模全局依賴,挑戰(zhàn)了CNN在視覺領域的統(tǒng)治地位。優(yōu)劣權衡ViT缺乏CNN的局部歸納偏置,但在大規(guī)模數(shù)據(jù)上預訓練后,性能可超越CNN,展現(xiàn)出更強的通用建模能力。前沿趨勢:自監(jiān)督與知識蒸餾自監(jiān)督預訓練利用無標簽數(shù)據(jù)學習通用表征,提升數(shù)據(jù)效率和下游任務性能。知識蒸餾將大模型(教師)的知識遷移到小模型(學生),實現(xiàn)模型壓縮。兩者協(xié)同,可在低資源場景下實現(xiàn)高性能模型的部署。前沿落地:神經(jīng)壓縮與邊緣部署為了在資源受限的邊緣設備上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論