【《單任務學習方法理論基礎概述》2000字】_第1頁
【《單任務學習方法理論基礎概述》2000字】_第2頁
【《單任務學習方法理論基礎概述》2000字】_第3頁
全文預覽已結(jié)束

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單任務學習方法理論基礎概述雖然本文主要研究多任務學習方法,但在特征處理方面需要借鑒許多單任務處理的手段,因此本節(jié)對相關(guān)的單任務學習方法做了一些研究,具體如下。1圖像分類方法圖像分類是計算機視覺中的一個非常基礎的任務,圖像分類問題就是從固定的一組分類中,給輸入圖像分配具體類別標簽的任務。早期的圖像分類任務使用的是傳統(tǒng)的機器學習方法,例如KNN臨近算法和SVM支持向量機算法,完整建立圖像識別模型一般包括底層特征學習、特征編碼、空間約束、分類器設計、模型融合等幾個階段,這種傳統(tǒng)的圖像分類方法在PASCALVOC競賽中的圖像分類算法中被廣泛使用。深度學習技術(shù)出現(xiàn)后,AlexKrizhevsky在2012年ILSVRC提出的AlexNet模型取得了歷史性的突破REF_Ref66985040\r\h[33],效果大幅度超越傳統(tǒng)方法,獲得了ILSVRC2012冠軍,這也是首次將深度學習用于大規(guī)模圖像分類中。從AlexNet之后,涌現(xiàn)了一系列CNN模型,不斷地在ImageNet上刷新成績,隨著模型變得越來越深以及精妙的結(jié)構(gòu)設計,Top-5的錯誤率也越來越低。而在同樣的ImageNet數(shù)據(jù)集上,人眼的辨識錯誤率大概在5.1%,也就是深度學習模型的識別能力已經(jīng)超過了人眼。現(xiàn)在使用較為廣泛的圖像分類方法通常是基于神經(jīng)網(wǎng)絡的算法,在卷積神經(jīng)網(wǎng)絡中,首先需要使用卷積、池化等操作對輸入圖像進行特征提取,然后將提取的特征排成一列向量與輸出神經(jīng)元相連接,通過Softmax計算每個神經(jīng)元所屬類別的概率,最后通過最大概率值所在的類別來預測該圖像所屬的類別。ResNet是2015年ImageNet圖像分類、圖像物體定位和圖像物體檢測比賽的冠軍。針對隨著網(wǎng)絡訓練加深導致準確度下降的問題,ResNet提出了殘差學習方法來減輕訓練深層網(wǎng)絡的困難。2017年,在ILSVRC圖像分類比賽的最后一年SENet獲得了冠軍。這個結(jié)構(gòu)僅僅使用了“特征重標定”的策略來對特征進行處理,通過學習獲取每個特征通道的重要程度,根據(jù)重要性去降低或者提升相應的特征通道的權(quán)重。細粒度分類是圖片分類的一個分支,由于類別間的相似性非常大,一般人比較難區(qū)分。受神經(jīng)樹研究的啟發(fā),提出了結(jié)合注意力卷積的二叉神經(jīng)樹結(jié)構(gòu)ACNetREF_Ref66987513\r\h[34]用于細粒度分類,在樹結(jié)構(gòu)的邊上結(jié)合了注意力卷積操作,這樣的結(jié)構(gòu)讓算法有類似于神經(jīng)網(wǎng)絡的表達能力,而且能夠從粗到細的層級進行特征學習。該模型在三個數(shù)據(jù)集CUB-200-2011、StanfordCars和Aircraft上達到了當年最優(yōu)的水平。2語義分割方法語義分割是計算機視覺中的一個非常重要的分支,也是相對來說最為困難的一項任務。語義分割是預測圖像中每個像素所屬的類別。出現(xiàn)在深度學習之前的傳統(tǒng)分割方法包括基于圖像灰度閾值的分割方法、基于邊緣檢測的分割方法、分水嶺圖像分割算法REF_Ref67071178\r\h[35]、基于小波分析和變換的圖像分割方法、圖論方法REF_Ref67071081\r\h[36]等。深度學習出現(xiàn)之后,圖像分割算法又得到了許多改進,全卷積神經(jīng)網(wǎng)絡(FullyConvolutionalNetworks,F(xiàn)CN)對圖像進行了像素級別的分類,解決了語義級別的圖像分割問題,且可以接受任意大小的圖像作為輸入。FCN的出色之處在于,其利用了現(xiàn)存的CNN網(wǎng)絡作為其模塊之一來產(chǎn)生層次化的特征。作者將現(xiàn)存的知名的分類模型包括AlexNet、Vgg16、GoogLeNetREF_Ref66985221\r\h[37]和ResNet等轉(zhuǎn)化為全卷積模型:將其全連接層均替換為卷積層,輸出空間映射而不是分類分數(shù)。這些映射由小步幅卷積上采樣(又稱反卷積)得到,來產(chǎn)生密集的像素級別的標簽。SegNet網(wǎng)絡應用了編碼器-解碼器結(jié)構(gòu),在編碼器階段使用卷積層和池化層對輸入圖像提取特征,在解碼器階段使用卷積層和上采樣層將特征圖逐漸恢復至輸入圖像大小,并在解碼器之后使用Softmax來產(chǎn)生每個像素點屬于各個類別的概率,其結(jié)構(gòu)如圖2-5所示。圖2-5語義分割網(wǎng)絡結(jié)構(gòu)REF_Ref62491591\r\h[4]Fig.2-5ThestructureofsemanticsegmentationnetworkREF_Ref62491591\r\h[4]3目標檢測方法目標檢測也是計算機視覺中的一個重要的任務。目標檢測是基于圖像分類,對圖像中的主體對象進行分類和識別的過程。最簡單的目標檢測方法是對圖像內(nèi)的各個子區(qū)域使用圖像分類器,將輸入圖像分割成不同的區(qū)域,然后對這些不同的區(qū)域逐個進行分類操作。這樣會導致對大量區(qū)域進行不必要的計算,且無法滿足不同縱橫比的要求。區(qū)域建議方法更關(guān)注于感興趣的區(qū)域,首先需要使用選擇性搜索算法創(chuàng)建區(qū)域建議,即提供圖像中可能包含對象的部分,再在這些感興趣的區(qū)域中進行圖像分類。FasterR-CNN提出了用一個非常小的區(qū)域建議網(wǎng)絡RPN來代替選擇性搜索來尋找感興趣的區(qū)域。像FasterR-CNN這種檢測算法需要分兩步完成,首先需要獲取候選區(qū)域,然后對候選區(qū)域進行分類的算法稱為one-stage算法,這類算法還有R-CNNREF_Ref67902054\r\h[38]、FastR-CNN、SPP-NetREF_Ref67902055\r\h[39]等?;趨^(qū)域的檢測器是很準確的,但需要付出極大的計算代價。另一種目標檢測方法首先在各個特征圖上預先設置不同比例不同大小的預選框,然后對這些預選框進行圖像分類。這種算法稱為two-stage。在這種算法中通常需要為每個特征圖預先設置一些矩形框,這些框稱為預選框。如果某個預選框與真實框重合度較高,則認為這是一個正例,否則該預選框就指向背景,作為負例。SSD是一種典型的目標檢測算法,使用Vgg16網(wǎng)絡作為特征提取器的單次檢測器,并在該網(wǎng)絡之后添加自定義卷積層,并使用卷積核執(zhí)行預測。為了避免卷積層降低空間維度和分辨率,SSD使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論