深度學習在圖像理解中的應用課件_第1頁
深度學習在圖像理解中的應用課件_第2頁
深度學習在圖像理解中的應用課件_第3頁
深度學習在圖像理解中的應用課件_第4頁
深度學習在圖像理解中的應用課件_第5頁
已閱讀5頁,還剩162頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、深度學習在圖像理解中的應用深度學習在圖像理解中的應用圖像理解的定義傳統(tǒng)圖像理解技術(shù) 深度學習基礎(chǔ)知識深度學習圖像理解技術(shù) 圖像理解進階圖像理解的定義傳統(tǒng)圖像理解技術(shù) 深度學習基礎(chǔ)知識圖像理解的定義互聯(lián)網(wǎng)中的圖像理解圖像理解的研究內(nèi)容圖像理解的定義互聯(lián)網(wǎng)中的圖像理解圖像是互聯(lián)網(wǎng)最大的多媒體載體圖像是互聯(lián)網(wǎng)最大的多媒體載體互聯(lián)網(wǎng)圖像的多樣性證件照自拍照商品照景點照活動照特殊照片互聯(lián)網(wǎng)圖像的多樣性證件照自拍照商品照景點照活動照特殊照片一圖勝萬言一圖勝萬言一圖勝萬言第三世界美帝國主義中國制造日本文化滲透.一圖勝萬言第三世界圖像搜索與標簽領(lǐng)域圖像搜索與標簽領(lǐng)域商品搜索與推薦領(lǐng)域商品搜索與推薦領(lǐng)域人臉/文

2、本等特定領(lǐng)域人臉/文本等特定領(lǐng)域視頻領(lǐng)域視頻領(lǐng)域圖像處理領(lǐng)域圖像處理領(lǐng)域圖像理解的定義互聯(lián)網(wǎng)中的圖像理解圖像理解的研究內(nèi)容圖像理解的定義互聯(lián)網(wǎng)中的圖像理解圖像理解的研究內(nèi)容圖像理解是計算機視覺領(lǐng)域的基礎(chǔ)技術(shù)圖像理解研究圖像的類型,圖像中物體的位置,物體之間的關(guān)系等woman 0.95; dog 0.93; tv 0.97a woman is sitting front a dog and a tv.識別檢測分割圖像問答定義圖像理解的研究內(nèi)容圖像理解是計算機視覺領(lǐng)域的基礎(chǔ)技術(shù)woma圖像分類圖像分類是所有研究的基礎(chǔ)圖像分類圖像分類是所有研究的基礎(chǔ)圖像分類圖像分類無處不在圖像分類圖像分類無處不在圖

3、像分類14,197,122 images21841 synsets1,034,908 with boxes1000 classes126W trainset2017 最后一屆圖像分類14,197,122 images圖像分類webvision 2.4 million of images from flickrweekly supervisedMNIST: 10 classes, 60000 imagesPASCAL VOC: 20 classesCIFAR: 10 classes, 60000 imagesPlaces205 scenes2.5 million images圖像分類webvis

4、ion 2.4 million of i圖像分類圖像分類物體檢測物體檢測物體檢測物體檢測物體分割物體分割物體檢測/分割MSCOCO: 330K images (200K labeled)1.5 million object instances 80 object categories91 stuff categories 5 captions per image物體檢測/分割MSCOCO: 330K images (2圖像問答圖像問答圖像問答108,077 Images5.4 Million Region Descriptions1.7 Million Visual Question Answ

5、ers圖像問答108,077 Images圖像理解的研究內(nèi)容類別X區(qū)域woman 0.95; dog 0.93; tv 0.97a woman is sitting front a dog and a tv.識別檢測分割圖像問答像素語義圖像理解的研究內(nèi)容類別X區(qū)域woman 0.95; dog 圖像理解的研究內(nèi)容圖像理解的研究內(nèi)容圖像理解的定義OCR人臉識別/檢索商品檢索圖像標簽行為識別智能鑒黃圖像理解的定義OCR人臉識別/檢索商品檢索圖像標簽行為識別智互聯(lián)網(wǎng)圖像開放平臺互聯(lián)網(wǎng)圖像開放平臺圖像理解的定義傳統(tǒng)圖像理解技術(shù)深度學習基礎(chǔ)知識深度學習圖像理解技術(shù) 圖像理解進階圖像理解的定義傳統(tǒng)圖像理解

6、技術(shù)深度學習基礎(chǔ)知識傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述圖像分類的基本方法圖像搜索系統(tǒng)傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述圖像分類圖像分類圖像分類F(x)XYC(x)圖像分類F(x)XYC(x)圖像分類問題描述F(x) representation learning如何獲得更好的特征:將原始輸入轉(zhuǎn)化為特征向量C(x) classification learning如何學習目標函數(shù):基于特征向量學一個優(yōu)化問題F(x)XYC(x)圖像分類問題描述F(x) representation le相似圖像檢索問題描述給定輸入圖像x和圖像庫X從X中找出與x最相似的一組圖像y問題抽象F(x): 抽取x和X的圖像特

7、征C(x): 計算x和X兩組特征之間相似度相似度排序相似圖像檢索問題描述相似圖像檢索圖像指紋低頻信息能夠提供近似的形狀和紋理信息圖像灰度化后縮放到8*8大??;計算圖像平均值,比較每個像素與平均值大小輸出0/1;組合64維0/1值得到圖像指紋;計算hash向量的漢明距離優(yōu)點:速度快,存儲小,對圖像縮放顏色變化不敏感缺點:平移/噪聲PHash: DCT變換抽取低頻特征dHash: 計算相鄰像素點 hash = I(x+1) - I(x)相似圖像檢索圖像指紋相似圖像檢索顏色直方圖兩幅相似的圖像之間具有類似的顏色直方圖F(x): 抽取圖像顏色直方圖特征C(x): 計算兩組直方圖之間距離優(yōu)點:特征提取簡

8、單,相似度計算方便,對圖像旋轉(zhuǎn)、尺度等變化不敏感缺點:顏色相似,沒有形狀信息顏色空間:RGB,YUV,Gray特征空間:特征量化,顏色矩,顏色熵,分塊直方圖,顏色聚類相似圖像檢索顏色直方圖優(yōu)點:特征提取簡單,相似度計算方便,對相似圖像檢索F(x) :圖像灰度值hash指紋dct變換顏色直方圖C(x):歐式距離漢明距離余弦距離相似圖像檢索F(x) :相似圖像檢索視角,遮擋,類內(nèi)相似性,類間相似性等相似圖像檢索視角,遮擋,類內(nèi)相似性,類間相似性等傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述圖像分類的基本方法圖像搜索系統(tǒng)傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述圖像特征將一副圖像轉(zhuǎn)化為一個數(shù)學表達(vector)相似

9、的圖像具有相似的表達不相似的圖像具有相異的表達一個好的特征描述子:魯棒:對尺度,遮擋,光照等不敏感;準確:個體鑒別信息;高效:快速計算;存儲空間小;方便查詢;全局特征與局部特征兩種圖像特征將一副圖像轉(zhuǎn)化為一個數(shù)學表達(vector)全局特征如何使特征具有本體不變性:gradiant filter:鄰域不變性wavelet filetr: 高頻低頻分離全局特征如何使特征具有本體不變性:wavelet filetGabor:以高低函數(shù)為窗函數(shù)的 短時傅立葉變換Uncertainty Relation for Resolution in Space, Spatial Frequency, and O

10、rientation Optimized by Two-dimensional Visual Cortical Filters, J. G. Daugman, 1985全局特征Gabor:以高低函數(shù)為窗函數(shù)的 短時傅立葉變換UncerLBP:統(tǒng)計鄰域的圖像變化分塊計算lbp分塊統(tǒng)計直方圖直方圖串聯(lián)LTPLLEMulti-Block LBPCLBP.Face Recognition with Local Binary Patterns, T. Ahonen, A. Hadid, and M. Pietikine, ECCV2004全局特征LBP:統(tǒng)計鄰域的圖像變化分塊計算lbpFace Reco

11、g全局特征HOG 梯度方向直方圖圖像歸一化計算圖像梯度按梯度方向統(tǒng)計直方圖串聯(lián)鄰域塊直方圖,并歸一化全局特征HOG 梯度方向直方圖gistcentristModeling the shape of the scene: a holistic representation of the spatial envelope, Aude OlivaAntonio Torralba, IJCV01Evaluation of GIST descriptors for web-scale image search, Douze, Jegou, Sandhawalia, Amsaleg, Schmid, CI

12、VR09CENTRIST: A Visual Descriptor for Scene Categorization, PAMI 05全局特征gistcentristModeling the shape全局特征如何應對圖像旋轉(zhuǎn)變化圖像分塊全局特征如何應對圖像旋轉(zhuǎn)變化局部特征如何應對圖像旋轉(zhuǎn)變化局部特征檢測更魯棒的圖像特征描述子局部特征如何應對圖像旋轉(zhuǎn)變化局部特征使用最廣泛的局部特征: SIFT特征點檢測:金字塔匹配鄰域插值去除邊緣點極大值抑制基于特征點計算極值點基于hessian計算曲率Distinctive image features from scale-invariant keypoi

13、nts, Lowe, IJCV04.局部特征使用最廣泛的局部特征: SIFTDistinctiv局部特征使用最廣泛的局部特征: SIFT特征描述:統(tǒng)計關(guān)鍵點鄰域的梯度方向生成梯度方向直方圖,基于主方向旋轉(zhuǎn)圖像分塊統(tǒng)計梯度直方圖,組合鄰域直方圖為特征描述子,并歸一化通常每個特征點,選取鄰域4*4塊,每塊對應8維直方圖,共128維特征局部特征使用最廣泛的局部特征: SIFT生成梯度方向直方圖,局部特征描述子SIFT加速 - SURF不建立金字塔,而改變kernel通過hessian矩陣計算極值點計算harr小波響應,只有水平和垂直兩個方向從一個扇形方向開始,以固定步長進行旋轉(zhuǎn),找到其中最大響應的扇

14、形為主方向特征描述子維度為4*4*4=64維速度是SIFT的3-7倍;大部分情況下它和SIFT的性能相當SURF: speeded up robust features, Bay, Tuytelaars, Van Gool, ECCV06.局部特征描述子SIFT加速 - SURFSURF: spe局部特征描述子SIFT加速 - DAISYsift特征點旋轉(zhuǎn)時,需要重新計算梯度直方圖daisyk通過高斯核卷積替代方向投影,實現(xiàn)快速計算DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo. Engin Tola,

15、Vincent Lepetit, Pascal Fua. PAMI10局部特征描述子SIFT加速 - DAISYDAISY: A局部特征特征點檢測XY特征描述子局部特征特征點檢測XY特征描述子特征點檢測提供旋轉(zhuǎn)不變性減少特征描述子數(shù)目重復性:相同的區(qū)域能被重復檢測,且不受旋轉(zhuǎn)模糊光照等影響可區(qū)分:基于檢測子抽取的特征能夠相互匹配數(shù)量適宜:減少匹配復雜度和提升精度速度快:檢測速度越快越好特征點檢測提供旋轉(zhuǎn)不變性特征點檢測傳統(tǒng)的特征檢測子Maximally Stable Extremal Regions (MSER)Difference of Gaussians (DoG)Harris-Affin

16、e and Hessian-AffineA Comparison of Affine Region Detectors, K. Mikolajczyk, TuytelaarsC. SchmidA. ZissermanJ. MatasF. SchaffalitzkyT. KadirL. Van Gool, IJCV2004特征點檢測傳統(tǒng)的特征檢測子A Comparison of A特征點檢測Harris角點一個patch向各方向移動時,patch內(nèi)圖像灰度沒有變化,則patch內(nèi)不存在角點一個patch向某個方向移動時,patch內(nèi)圖像灰度發(fā)生了變化,而在另一些方向上沒 有發(fā)生變化,則窗口內(nèi)的圖

17、像可能是一條直線特征點檢測Harris角點特征點檢測Fast/AGAST若某像素點與其周圍領(lǐng)域內(nèi)足夠多的像素點處于不同的區(qū)域,則該像素點可能為角點取每個像素p為中心的16鄰域點迭代計算:計算p1/p9與中心p的像素差,均超過閾值計算p1/p9/p5/p13與中心p的像素差,至少3個超過閾值計算p1-p16與中心p的像素差,至少9個超過閾值對所有特征點進行非極大值抑制Faster and better: A machine learning approach to corner detection, Edward Rosten,Reid Porter,Tom Drummond, PAMI2010

18、特征點檢測Fast/AGASTFaster and bett特征點檢測fast相比于SIFT/SURF不具備尺度不變性對噪聲更加敏感對旋轉(zhuǎn)放射變換敏感特征點檢測fast相比于SIFT/SURF特征描述子二進制描述子:SIFT和SURF float特征維度過高PCA特征降維hash二值化BRIEF在特征點鄰域內(nèi)任意比較點對大小獲得0/1編碼,每個patch獲得N維0/1向量BRISK以特征點為圓心,構(gòu)建多個不同半徑的離散化Bresenham同心圓,然后再每一個 同心圓上獲得具有相同間距的N個采樣點FREAK越靠近中心的區(qū)域采樣更密集,四周區(qū)域采樣稀疏,隨機對比各區(qū)域的像素得到一 組2值特征特征描

19、述子二進制描述子:特征描述子ORB (Oriented FAST and Rotated BRIEF):增加FAST的旋轉(zhuǎn)不變性:角點的灰度與質(zhì)心之間存在一個偏移增加BRIEF的旋轉(zhuǎn)不變性BRIEF描述子是一個長度為n的二值碼串,該2n點可以組成矩陣根據(jù)角點方向投影每組向量到對應的角度空間ORB: An efficient alternative to SIFT or SURF. Ethan Rublee, Vincent Rabaud, Kurt Konolige, Gary Bradski. ICCV2011特征描述子ORB (Oriented FAST and Ro圖像特征圖像檢測子和描

20、述子緊密關(guān)聯(lián)檢測子越多,抽取特征時間越長,噪聲也越多;檢測子越少,有效匹配對數(shù)越少;加速和場景緊密相關(guān)FAST+ORB在物體跟蹤與匹配上很有效SIFT在圖像檢索中很有效SIFTSURFORBBRISKmatch time2.93match pairs1723/9202633/1173500/213660/313feature dim12864256256圖像特征圖像檢測子和描述子緊密關(guān)聯(lián)SIFTSURFORBBR分類器與降維低維特征包含信息太少高維特征包含噪聲和冗余非線性空間的表達能力減小計算量分類器與降維低維特征包含信息太少分類器與降維PCALLE獲得最進鄰點基于近鄰

21、點計算出局部重建權(quán)值矩陣基于局部重建權(quán)值矩陣和近鄰點得到投影點分類器與降維PCALLE分類器與降維Sparse Coding基于一組給定的隨機patches,學習一個字典對其中每個向量,解一個LASSO使得迭代優(yōu)化固定字典f,優(yōu)化a固定a,優(yōu)化字典對于輸入的原始特征,計算基于字典的系數(shù)a作為降維后的表達分類器與降維Sparse Coding迭代優(yōu)化分類器與降維Sparse Coding稀疏模型:f(x)=稀疏響應:a = f(x)Local coordinate codingHierarchical sparse codingSuper-Vector CodingVQ coding分類器與降維

22、Sparse Coding分類器與降維SVM分類器與降維SVM小結(jié)全局特征 局部特征Harris Fast DoG Hessian LoH MSER.輸入圖像特征濾波器分塊輸入圖像特征點檢測特征描述子Gabor LBP HOGGist CHOG.SIFT SURF DAISY BRIEF ORB BRISK.小結(jié)全局特征 局部特征Harris Fast DoG 小結(jié)特征抽取XY分類器特征降維小結(jié)特征抽取XY分類器特征降維小結(jié)特征抽取XY分類器特征降維小結(jié)特征抽取XY分類器特征降維傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述圖像分類的基本方法圖像搜索系統(tǒng)傳統(tǒng)圖像理解技術(shù)圖像分類的問題描述評價指標召回率re

23、call:預測正確的正樣本 / 所有正樣本正確率precision:預測正確的正樣本 / 所有預測為正確的樣本F-score:召回與正確的調(diào)和平均mAP: 每個候選的檢索正確率的平均(Mean Average Precision)img1有4個相似圖,檢索rank在1,2,4,7;ap = (1/1+2/2+3/4+4/7)/4=0.83img2有4個相似圖,檢索rank在1,3,5,6;ap = (1/1+2/3+3/5+4/6)/4=0.73mAP = (0.83+0.73)/2=0.78評價指標召回率recall:預測正確的正樣本 / 所有正樣本相關(guān)數(shù)據(jù)庫UKBench/stewe/uk

24、bench/640*480圖像,每組4張Stanford Mobile Visual Search/rb470rw0983包括8種場景,如CD封面、油畫等,采自不同相機(手機),共500張圖Oxford Buildingshttp:/www.robots.ox.ac.uk/vgg/data/oxbuildings/VGG組從Flickr搜集了5062張建筑物圖像Oxford Parishttp:/www.robots.ox.ac.uk/vgg/data/parisbuildings/VGG組從Flickr搜集了6412張巴黎旅游圖片INRIA Holidayshttp:/lear.inrial

25、pes.fr/jegou/data.php來自Flickr60K共1491張圖,500張query和991張相關(guān)圖像相關(guān)數(shù)據(jù)庫UKBench相似圖像檢索如何將不定長的特征投影到定長的空間?如何進行海量比對?輸入圖像最近鄰查找排序特征抽取相似圖像檢索如何將不定長的特征投影到定長的空間?輸入圖像最近BoW(Bag of Visual Word)特征抽?。簩τ柧殘D象集進行預處理后抽取SIFT特征構(gòu)造碼本:K-means對所有SIFT特征進行聚類得到字典字典的維度對應聚類中心特征抽?。耗0迕糠鶊D像的每個SIFT特征投影到K維字典中,對應第K維向量+1向量歸一化K維字典對應K維特征向量缺點:由于后臺數(shù)據(jù)

26、集一直更新,k-means重新聚類的代價太大字典過大,單詞缺乏一般性,對噪聲敏感,計算量大;字典太小,單詞區(qū)分性能差, 對相似的目標特征無法表示圖像表示成一個無序局部特征集的特征包方法,丟掉了空間特征信息BoW(Bag of Visual Word)特征抽?。簩τ朧LAD(Vector of Locally Aggregated Descriptors)BOV僅僅保存了字典中圖像特征的分布特征抽?。簩τ柧殘D象集進行預處理后抽取SIFT特征構(gòu)造碼本:K-means對所有SIFT特征進行聚類得到字典字典的維度對應聚類中心特征抽?。河嬎忝扛眻D像的SIFT特征在每個字典下與字典中心的偏差向量歸一化K維

27、字典對應K*128維特征VLAD(Vector of Locally AggregaFV(Fisher Vector)FV進一步存儲二階矩特征抽?。簩τ柧殘D象集進行預處理后抽取SIFT特征構(gòu)造碼本:GMM對所有SIFT特征進行聚類得到字典字典的維度對應聚類中心特征抽取:計算每副圖像的SIFT特征在每個高斯模型下的均值和方差向量歸一化K維字典對應K*2*128維特征FV(Fisher Vector)FV進一步存儲二階矩比較BoW和FV比較BoW和FV結(jié)果對比結(jié)果對比快速搜索倒排索引query的SIFT描述子投影到到字典中,以字典中心描述該圖像為:(Y:X1, X2,.)查找模板庫中分別包含每個字

28、典中心的樣本合并快速搜索倒排索引快速搜索KD樹搜索:按照特征每一維度開始檢索快速搜索KD樹搜索:按照特征每一維度開始檢索快速搜索product quantization快速搜索product quantization重排序RANSAC幾何校驗針對量化檢索到的圖像,進行重排序隨機計算任意兩張圖像之間任意兩組SIFT特征匹配,以匹配點為基準重新投影其他特征點;判斷投影特征點是否重疊重排序RANSAC幾何校驗圖像檢索pipeline訓練集:從所有商品圖像中抽取局部特征描述;計算k-mean聚類;模板集:基于聚類計算模板計算fv特征向量量化驗證集:抽取局部特征描述,計算fv特征并量化比較模板集的量化表

29、選取最大10候選幾何校驗重排序圖像檢索pipeline訓練集:圖像檢索部署每幅圖像對應一個圖像識別指紋;在圖像云平臺服務(wù)中,無需構(gòu)建倒排表,開發(fā)者增、刪圖像時,后臺只需在數(shù)據(jù) 庫對應的增加、刪除指紋即可。識別過程時,只需比對開發(fā)者數(shù)據(jù)庫中的指紋即可。圖像檢索部署每幅圖像對應一個圖像識別指紋;傳統(tǒng)圖像理解方法總結(jié)圖像分類圖像特征學習局部特征全局特征典型應用:圖像搜索圖像特征抽取向量量化快速搜索重排序傳統(tǒng)圖像理解方法總結(jié)圖像分類相似圖像檢索角度,遮擋,遮擋,類內(nèi)相似性,類間相似性等相似圖像檢索角度,遮擋,遮擋,類內(nèi)相似性,類間相似性等什么是圖像理解 傳統(tǒng)圖像理解技術(shù)深度學習基礎(chǔ)知識深度學習圖像理解

30、技術(shù) 圖像理解進階什么是圖像理解 傳統(tǒng)圖像理解技術(shù)深度學習基礎(chǔ)知識深度學習圖像圖像理解如果沒有人工設(shè)計的特征會如何:設(shè)計一組非線性函數(shù)來同時學習特征表示和分類器如果更深的網(wǎng)絡(luò)是否會效果更好:更深層的非線性表示圖像理解如果沒有人工設(shè)計的特征會如何:設(shè)計一組非線性函數(shù)來同AlexNetAlexNet深度學習基礎(chǔ)知識深度學習的基礎(chǔ)模塊深度學習的模型設(shè)計深度學習的訓練技巧深度學習基礎(chǔ)知識深度學習的基礎(chǔ)模塊多層感知機(multilayer perceptron)多層感知機(multilayer perceptron)基礎(chǔ)模型結(jié)構(gòu)卷積層(Convolutional Layer)池化層(Pooling La

31、yer)全連接層(Fully-connected Layer)激活函數(shù)(activtion function)基礎(chǔ)模型結(jié)構(gòu)卷積層(Convolutional Layer)全連接層y = W*x+b沒有考慮局部信息特征存在冗余全連接層y = W*x+b局部連接層參數(shù)大大減少局部fliter之間沒有聯(lián)系局部連接層參數(shù)大大減少卷積層保持輸入圖像的大小連接隱含層與每個小patch共享參數(shù)卷積層保持輸入圖像的大小全連接 vs 卷積層卷積層優(yōu)點:filter為底層特征不同層之間參數(shù)共享,減少冗余參數(shù)量少,計算量少全連接層優(yōu)點:全連接是卷積核為h*w的卷積冗余特征也會有幫助(global polling?)

32、局部特征映射到全局空間全連接 vs 卷積層卷積層優(yōu)點:池化層增大感受野去噪池化層增大感受野批量歸一化層(Batch Normalization)減小每個minibatch方差,加速訓練批量歸一化層(Batch Normalization)減小每DNN的基礎(chǔ)模塊如何獲得每個結(jié)點的參數(shù)?每次迭代:前向:Forward Propagation后向:Backward Propagation更新參數(shù)DNN的基礎(chǔ)模塊如何獲得每個結(jié)點的參數(shù)?前向(Forward Propagation)在測試時,只需要前向y對應輸出的特征/分類結(jié)果前向(Forward Propagation)在測試時,只需損失函數(shù)(Los

33、s Function)訓練過程中,需要給定loss function迭代優(yōu)化預測y與給定y之間error損失函數(shù)(Loss Function)訓練過程中,需要給定l回退(Backward Propagation)通過誤差回傳來更新參數(shù)回退(Backward Propagation)通過誤差回傳SGD基于每個minibatch,更新每個權(quán)重(SGD)通常會帶上MomentumSGD通常會帶上Momentum有監(jiān)督學習與無監(jiān)督學習有監(jiān)督學習通常指給定標簽無監(jiān)督學習的典型是auto-encoder,利用反向傳播算法,讓目標值等于輸入值有監(jiān)督學習與無監(jiān)督學習有監(jiān)督學習通常指給定標簽深度學習基礎(chǔ)知識深度

34、學習的基礎(chǔ)模塊深度學習的模型設(shè)計深度學習的訓練技巧深度學習基礎(chǔ)知識深度學習的基礎(chǔ)模塊非線性特征非線性特征線性投影非線性激活函數(shù)線性投影非線性激活函數(shù)相比于傳統(tǒng)分類聯(lián)合學習:同時更新所有模塊參數(shù)相比于傳統(tǒng)分類聯(lián)合學習:同時更新所有模塊參數(shù)相比于傳統(tǒng)分類共享特征:全局特征與局部特征的層級學習相比于傳統(tǒng)分類共享特征:全局特征與局部特征的層級學習相比于傳統(tǒng)分類深度非線性,學習能力更強一個三層的NN可以表示任意分類函數(shù)多任務(wù)學習可以共同完成相比于傳統(tǒng)分類深度非線性,學習能力更強模型設(shè)計越深,越寬多分支(multi-path, multi-scale)殘差慎用激活函數(shù)稀疏連接模型設(shè)計越深,越寬典型模型設(shè)計

35、典型模型設(shè)計典型模型設(shè)計典型模型設(shè)計典型網(wǎng)絡(luò)典型網(wǎng)絡(luò)典型網(wǎng)絡(luò)典型網(wǎng)絡(luò)深度學習基礎(chǔ)知識深度學習的基礎(chǔ)模塊深度學習的模型設(shè)計深度學習的訓練技巧深度學習基礎(chǔ)知識深度學習的基礎(chǔ)模塊激活函數(shù)激活函數(shù)學習率學習率注意力機制注意力機制Bilinear CNNsBilinear CNNs其他預訓練基于imagenet訓練的結(jié)果優(yōu)于直接訓練數(shù)據(jù)分布迭代選擇分布均衡的數(shù)據(jù)/更準確的數(shù)據(jù)無監(jiān)督訓練增加無監(jiān)督loss或弱監(jiān)督數(shù)據(jù)其他預訓練小結(jié)網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)學習優(yōu)化方法模型表達能力減少冗余,快速計算減少過擬合容易優(yōu)化超參數(shù)調(diào)節(jié)聯(lián)合學習注意力機制小結(jié)網(wǎng)絡(luò)結(jié)構(gòu)什么是圖像理解 傳統(tǒng)圖像理解技術(shù) 深度學習基礎(chǔ)知識深度學習圖像理

36、解技術(shù) 圖像理解進階什么是圖像理解 傳統(tǒng)圖像理解技術(shù) 深度學習基礎(chǔ)知識深度學習圖像分類深度學習圖像分類深度學習圖像分類深度學習圖像分類深度學習圖像理解圖像分類框架模型加速與優(yōu)化圖像檢測/分割圖像分類應用場景深度學習圖像理解圖像分類框架圖像檢索數(shù)據(jù)搜集數(shù)據(jù)清洗模型訓練圖片索引重排序圖像檢索數(shù)據(jù)搜集數(shù)據(jù)清洗模型訓練圖片索引重排序數(shù)據(jù)搜集有監(jiān)督學習主要依賴分類標簽模型提取特征能力的上限,體現(xiàn)在標簽體系質(zhì)量上標簽體系建立多層標簽體系:長褲,上衣多類標簽體系:花紋,V領(lǐng)語義信息:潮款,年輕數(shù)據(jù)搜集有監(jiān)督學習主要依賴分類標簽數(shù)據(jù)清洗人工清洗:解決標注和類別不一致的問題模型預測人工標注模型自動更新種子樣本人

37、工標注,初始化模型模型預測增加高置信度樣本finetune模型迭代數(shù)據(jù)清洗人工清洗:解決標注和類別不一致的問題模型訓練模型結(jié)構(gòu)模型學習能力pretrain model考察flops模型訓練模型結(jié)構(gòu)模型訓練triplet loss兼顧分類網(wǎng)絡(luò)和類間差a的設(shè)計hard sample mining模型訓練triplet loss模型訓練TriHard loss對于每一個訓練batch,隨機挑選 P 個ID的樣本,每個ID隨機挑選 K 張不同的圖片, 即一個batch含有 PK 張圖片。對于batch中的每一張圖片 a ,我們可以挑選一個最難的正樣本和一個最難的負樣本 和 a 組成一個三元組。模型訓練

38、TriHard loss模型訓練Quadruplet loss四張圖片為圖片 a ,正樣本 p,負樣本n1 和負樣本n2組成其中 n1 和 n2 是兩張不同類別的圖片Margin sample mining loss模型訓練Quadruplet loss模型訓練multi-task同時出多標簽模型訓練multi-task重排序基于k階導數(shù)編碼計算出馬氏距離和杰卡德距離的加權(quán)和重排序基于k階導數(shù)編碼深度學習圖像理解圖像分類框架模型加速與優(yōu)化圖像檢測/分割圖像分類應用場景深度學習圖像理解圖像分類框架模型加速pruning model模型加速pruning model模型加速lowbit model激活函數(shù):ReLU - Hard TanH低比特近似估計模型加速lowbit model模型加速deep hash模型加速deep hash模型加速deep hash模型加速deep hash模型加速模型pruning有效但費力離散情況下難以找到最優(yōu)解deephash不一定要end2end模型加速模型pruning有效但費力深度學習圖像理解圖像分類框架模型加速與優(yōu)化物體檢測/分割圖像分類應用場景深度學習圖像理解圖像分類框架物體檢測/分割檢測/分割的目的是為了精細分類/去除背景物

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論