版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于深度學(xué)習(xí)的細(xì)粒度圖像檢索研究發(fā)展文獻(xiàn)綜述目錄TOC\o"1-3"\h\u12647基于深度學(xué)習(xí)的細(xì)粒度圖像檢索研究發(fā)展文獻(xiàn)綜述 1240861.1梯度下降(gradientdescent) 125171.2反向傳播算法(BP算法) 3111721.3基于CNN的方法簡(jiǎn)介 626562參考文獻(xiàn) 14近十年來(lái)深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)上獲得了顯著的突破,使得人們的目光也著重于深度學(xué)習(xí)能否在其他相關(guān)方面做出成果,緊接著便把目光落到了圖像檢索上面。這里就要提到與深度學(xué)習(xí)迫切相關(guān)的機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)最早起源于1936年的線(xiàn)性判別分析,這是一種有監(jiān)督的數(shù)據(jù)降維算法,通過(guò)線(xiàn)性變換將向量投射到低維空間中,保證同一類(lèi)下的樣本數(shù)據(jù)盡量相似而不同種類(lèi)樣本數(shù)據(jù)各不相同。之后另外一個(gè)著名的成果就是logistic回歸(logisticregression),即便是現(xiàn)在的機(jī)器學(xué)習(xí)研究中也離不開(kāi)有關(guān)logistics回歸的討論,而logistics回歸更像一種最典型也是最基本的機(jī)器學(xué)習(xí)算法。1.1梯度下降(gradientdescent)梯度下降在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中應(yīng)用十分的廣泛,不論是在多元線(xiàn)性還是Logistic回歸中,它的主要目的是通過(guò)該點(diǎn),尋找下降最快的方向,來(lái)尋找一個(gè)收斂路線(xiàn)直到收斂到全局最小值或者局部最小值。梯度下降的方法雖然并不算復(fù)雜,但其梯度下降的思路在后續(xù)其他機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中也可以參考和應(yīng)用。梯度下降的思路來(lái)自于類(lèi)似于從山的某一高度的位置進(jìn)行下山操作。在兩個(gè)參數(shù)的梯度下降則類(lèi)似于顯示的等高線(xiàn)模擬下山操作,而單參數(shù)的梯度下降則是在直角坐標(biāo)系中的函數(shù)優(yōu)化操作。本文用兩個(gè)參數(shù)的梯度下降來(lái)舉例,類(lèi)似于一個(gè)人在山上意圖進(jìn)行下山操作,但是由于無(wú)法得知方向來(lái)了解到下山最快的方向路徑,所以需要在四面八方的各個(gè)方向進(jìn)行測(cè)試,其中一條路線(xiàn)則是通向下山最快的途徑。所以人需要對(duì)四周進(jìn)行測(cè)試,來(lái)尋找那個(gè)最“陡峭”的路線(xiàn)。確定到最優(yōu)下山方向后進(jìn)行一小段位移,然后再次進(jìn)行方向測(cè)試尋找最“陡峭”的方向,確認(rèn)后再次進(jìn)行小段位移。之后則是不斷重復(fù)這個(gè)過(guò)程,直到達(dá)到最低點(diǎn)無(wú)法再下降為止。在這個(gè)通俗表達(dá)中是使用下山這一操作來(lái)模擬的梯度下降,在代數(shù)中則是把這個(gè)可微分的函數(shù)當(dāng)作“山”,把人的位置作為當(dāng)前函數(shù)的所在值,函數(shù)在該點(diǎn)的微分則是下山過(guò)程中的“陡峭”程度,而我們最終尋找的梯度則是下山過(guò)程中最優(yōu)路線(xiàn)。我們利用這個(gè)不斷尋找各個(gè)點(diǎn)梯度的思路并更新函數(shù)的新的已知最小值最終得到局部最小值的過(guò)程就是梯度下降在雙參數(shù)的表達(dá)。梯度下降的數(shù)學(xué)表達(dá)是:Θ1=Θ0+α▽J(Θ)→evaluatedatΘ0(1.1)在公式1.1中,J是關(guān)于Θ的一個(gè)函數(shù),我們當(dāng)前所處的位置為Θ0點(diǎn),要從這個(gè)點(diǎn)走到J的最小值點(diǎn),也就是山底。首先我們先確定前進(jìn)的方向,也就是梯度的反向,梯度和微分本身則是一個(gè)向量▽J(Θ)=?δΘ0?δJ?,δΘ1?δJ??(1.2)δΘ0?δJ?=m1?∑i=1m?(hΘ?(x(i))?y(i)) (1.3)δΘ1?δJ?=m1?∑i=1m?(hΘ?(x(i))?y(i))x1(I)(1.4)?其中的α則是學(xué)習(xí)率,決定了在梯度下降過(guò)程中該點(diǎn)更新的速度,也就是前文所提到的步長(zhǎng)。因而我們可以根據(jù)α控制單次更新的更新速率,即數(shù)值的變化速度,若α的數(shù)值過(guò)大,則可能因?yàn)樵诟逻^(guò)程中直接越過(guò)最低點(diǎn)導(dǎo)致結(jié)果無(wú)法收斂,而α數(shù)值過(guò)小則會(huì)導(dǎo)致更新速率過(guò)慢降低了梯度下降的效率。梯度下降在處理線(xiàn)性數(shù)據(jù)中是一個(gè)很好的思路,但也有其局限性,例如無(wú)法顧及到全局最小值。因?yàn)槲覀兯鶊?zhí)行的函數(shù)不一定只有唯一的極小值,即最小值,可能會(huì)存在多個(gè)極小值,而梯度下降法會(huì)在局部最小值停止無(wú)法繼續(xù)執(zhí)行梯度下降。例如我們?cè)谙律竭^(guò)程中會(huì)遇到一個(gè)山麓盆地,但是如果按照梯度下降的方案,會(huì)在這個(gè)盆地,也就是局部最小值停止算法和數(shù)值更新。但是這并非我們期望的最小值,是簡(jiǎn)單的梯度下降算法無(wú)法解決的弊端。在1980年之前,大概有關(guān)的ML相關(guān)算法都是零碎化的,難以形成統(tǒng)一的理論體系,或者再某一個(gè)體系上進(jìn)一步獲得突破進(jìn)展。除了上述提到的logistics回歸和相關(guān)的梯度下降,還有1958年提出的感知器模型,僅僅是簡(jiǎn)單的作為人工神經(jīng)網(wǎng)絡(luò)的初號(hào)機(jī)。另外則是1967年出現(xiàn)的KNN算法,這是一種給予模板的匹配算法,直到現(xiàn)在仍然作為廣泛了解和學(xué)習(xí)作為機(jī)器學(xué)習(xí)的入門(mén)基礎(chǔ)。從1980年開(kāi)始,機(jī)器學(xué)習(xí)成為了一個(gè)獨(dú)立的熱點(diǎn)研究方向,各種機(jī)器學(xué)習(xí)的策略層出不窮,為后面的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。決策樹(shù)的3種典型實(shí)現(xiàn):ID3[9],CART[10],C4.5[11]是1980年代到1990年代初期的重要成果,雖然簡(jiǎn)單,但可解釋性強(qiáng),這使得決策樹(shù)至今在一些問(wèn)題上仍被使用。1986年出現(xiàn)的反向傳播算法策略(Backpropagationalgorithm)是一個(gè)真正意義上可以用于多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的底層算法,在現(xiàn)在機(jī)器學(xué)習(xí)中仍然被廣泛使用,配合前饋運(yùn)算一起成為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)手段。1.2反向傳播算法(BP算法)反向傳播算法出自于Rumelhart、Hinton和Williams提出的一般Delta法則,本質(zhì)上是一個(gè)梯度下降算法的變種,但是在網(wǎng)絡(luò)中加入了隱層的存在,對(duì)神經(jīng)網(wǎng)絡(luò)的運(yùn)算和訓(xùn)練利用這種簡(jiǎn)單的計(jì)算偏導(dǎo)數(shù)的算法來(lái)對(duì)權(quán)重計(jì)算損失函數(shù)的梯度,最終實(shí)現(xiàn)更新權(quán)值最小化函數(shù)。神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)算法一般是SGD(隨機(jī)梯度下降)。SGD需要用到損失函數(shù)C關(guān)于各個(gè)權(quán)重參數(shù)wjk反向傳播算法主要分為正向傳播和反向傳播的兩個(gè)過(guò)程,它的主要思想是:(1)將訓(xùn)練集得到的數(shù)據(jù)結(jié)果傳入到人工神經(jīng)網(wǎng)絡(luò)的輸入層,利用隱藏層進(jìn)行處理,最后再傳入到輸出層并得到最終結(jié)果,這是人工神經(jīng)網(wǎng)絡(luò)的正向傳播;(2)由于人工神經(jīng)網(wǎng)絡(luò)的最終輸出結(jié)果與實(shí)際數(shù)據(jù)有誤差,則通過(guò)計(jì)算估計(jì)值與實(shí)際值之間的誤差,并將該誤差從獲得最終結(jié)果的輸出層向隱藏層進(jìn)行反向傳播,直至傳播到輸入層。在傳播過(guò)程中會(huì)不斷對(duì)隱藏層的參數(shù)進(jìn)行更新和修正,每一輪樣本數(shù)據(jù)的輸入可以對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行一次訓(xùn)練和參數(shù)的更新,最終通過(guò)不斷進(jìn)行更新和訓(xùn)練使得樣本數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)數(shù)據(jù)達(dá)到誤差極小的收斂。如果用一個(gè)多層的神經(jīng)網(wǎng)絡(luò)進(jìn)行舉例,則是首先將得到的樣本向量化X后傳入到第一層神經(jīng)網(wǎng)絡(luò),各層網(wǎng)絡(luò)的基本計(jì)算公式為: Z[L]=W[L]AA[L]=gL(在公式1.5和1.6中,此時(shí)假定網(wǎng)絡(luò)使用的gL為激活函數(shù),此處使用的是ReLU單元,同理還可以使用logistics函數(shù)和sigmoid函數(shù)作為激活函數(shù)。L是所處的網(wǎng)絡(luò)層數(shù),默認(rèn)輸入樣本的層數(shù)即輸入層的層數(shù)為0,樣本數(shù)據(jù)均已向量化。W[L]為各神經(jīng)網(wǎng)絡(luò)層對(duì)應(yīng)的各神經(jīng)元的權(quán)重的矩陣,b[L]為該層神經(jīng)網(wǎng)絡(luò)的偏置,A[L?1]為上一層神經(jīng)網(wǎng)絡(luò)處理后得到的數(shù)據(jù),圖2-3一個(gè)多層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)經(jīng)過(guò)正向反饋的多層神經(jīng)網(wǎng)絡(luò)的計(jì)算后,最終會(huì)得到一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)樣本預(yù)測(cè)的輸出y,根據(jù)這個(gè)得到的預(yù)測(cè)輸出,可以與實(shí)際樣本的結(jié)果進(jìn)行損失函數(shù)計(jì)算L(y,dZ[L]=ddw[L]=dz[L]db[L]=dzda[L?1]=w[L對(duì)各個(gè)式子進(jìn)行向量化后方便計(jì)算的則是:dZ[L]=ddw[L]=dzdb[L]=1mppda[L?1]=w[L]?dz[本質(zhì)上的運(yùn)算法則則是通過(guò)得到的損失函數(shù)L(y,y)作為反向運(yùn)算的開(kāi)始,因?yàn)樵谡蜻\(yùn)算中會(huì)得到w[L]1989年,LeCun[12]設(shè)計(jì)出了第一個(gè)真正意義上的CNN,這也是深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的雛形。這個(gè)CNN主要用于手寫(xiě)阿拉伯的數(shù)字分類(lèi)識(shí)別,也算是真正地開(kāi)創(chuàng)了深度學(xué)習(xí)的先河。在此后的十年里,深度學(xué)習(xí)和深層人工神經(jīng)網(wǎng)絡(luò)的理論和技術(shù)得到了巨大的豐富和發(fā)展,但仍然還是有許多客觀因素嵌制了深度學(xué)習(xí)的相關(guān)發(fā)展速度。其問(wèn)題在于與SVM等機(jī)器學(xué)習(xí)算法的較量中處于下風(fēng)。原因主要有:算法本身的問(wèn)題,如梯度消失問(wèn)題,導(dǎo)致深層網(wǎng)絡(luò)難以訓(xùn)練。訓(xùn)練樣本數(shù)的限制。計(jì)算能力的限制。直到2006年,情況才慢慢改觀。之后則出現(xiàn)了許多著名的深度學(xué)習(xí)網(wǎng)絡(luò)模型,下圖則是近現(xiàn)代深度學(xué)習(xí)網(wǎng)絡(luò)模型發(fā)展的時(shí)間軸。圖2-4近代深度學(xué)習(xí)網(wǎng)絡(luò)發(fā)展時(shí)間軸1.3基于CNN的方法簡(jiǎn)介近些年來(lái),卷積神經(jīng)網(wǎng)絡(luò)這種深度學(xué)習(xí)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺(jué)方面的研究領(lǐng)域獲得了突飛猛進(jìn)的發(fā)展,它的實(shí)驗(yàn)實(shí)際成果要遠(yuǎn)遠(yuǎn)優(yōu)于人工設(shè)計(jì)視覺(jué)特征?;贑NN的圖像檢索模型網(wǎng)絡(luò)可以用來(lái)提取圖像特征向量,并使用歐氏距離或最近鄰(ApproximateNearestNeighbor,ANN)查找算法進(jìn)行圖像檢索檢索。只是在卷積神經(jīng)網(wǎng)絡(luò)下的圖像檢索任務(wù)一般直接使用預(yù)訓(xùn)練好的CNN模型或自行進(jìn)行略微修改和補(bǔ)正后的模型,應(yīng)用于特定的圖像檢索和分類(lèi)任務(wù),而并非自己手動(dòng)從零開(kāi)始進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型的搭建和調(diào)配。這些方法的大部分操作仍然是將圖像輸入到網(wǎng)絡(luò)中進(jìn)行一次前饋運(yùn)算來(lái)獲取描述符。另外有關(guān)基于圖像分塊的方法則是將圖像在網(wǎng)絡(luò)中進(jìn)行多次輸入,類(lèi)似于SIFT的模型方法。CNN區(qū)別于其他神經(jīng)網(wǎng)絡(luò)模型,它是一種含有大量卷積運(yùn)算的人工神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)在特定的任務(wù)需求中有更加突出的表現(xiàn)效果,尤其是在計(jì)算機(jī)視覺(jué)方面,例如圖像分類(lèi)、圖像檢索、目標(biāo)圖像切割、目標(biāo)識(shí)別、目標(biāo)跟蹤等于計(jì)算機(jī)視覺(jué)息息相關(guān)的領(lǐng)域。圖2-5AlexNet網(wǎng)絡(luò)結(jié)構(gòu)例如圖中的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)[4]、Inception結(jié)構(gòu)、ResNetBlock網(wǎng)絡(luò)結(jié)構(gòu),都是近代以來(lái)著名的深度學(xué)習(xí)網(wǎng)絡(luò)模型。其中AlexNet是2012年ImageNet項(xiàng)目大規(guī)模識(shí)別挑戰(zhàn)的項(xiàng)目領(lǐng)跑者,在比賽中取得了輝煌的成績(jī)。其首次使用了ReLU單元作為卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù),并在識(shí)別項(xiàng)目中的最后測(cè)試結(jié)果成功論證了ReLU單元作為激活函數(shù)在深層的卷積神經(jīng)網(wǎng)絡(luò)效果遠(yuǎn)遠(yuǎn)超越之前使用的Sigmoid,也順帶成功解決了Sigmoid乃至深層卷積神經(jīng)網(wǎng)絡(luò)在歷年以來(lái)一直被困惑的梯度消失問(wèn)題。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)也開(kāi)創(chuàng)性地使用了Dropout(隨機(jī)失活),通過(guò)忽略一部分神經(jīng)元,雖然也造成了一定的其他問(wèn)題,但也成功一定程度上解決了過(guò)擬合(overfiting)這個(gè)困惑所有機(jī)器學(xué)習(xí)和深度學(xué)習(xí)多年的問(wèn)題。AlexNet網(wǎng)絡(luò)模型也提出了LRN層,對(duì)神經(jīng)元之間提出了競(jìng)爭(zhēng)機(jī)制,類(lèi)似于池化層的最大池化效果,把對(duì)結(jié)果影響較小的神經(jīng)元進(jìn)行忽略,使對(duì)結(jié)果影響大的神經(jīng)元的權(quán)重更大,從而增強(qiáng)了神經(jīng)網(wǎng)絡(luò)模型的泛化效果。AlexNet網(wǎng)絡(luò)模型的另一個(gè)優(yōu)勢(shì)則是對(duì)數(shù)據(jù)處理樣本量進(jìn)行了增強(qiáng),通過(guò)隨機(jī)地從原始256×256的圖像中隨機(jī)截取224×224大小的區(qū)域(以及各種反轉(zhuǎn)鏡像等處理過(guò)的圖像),相當(dāng)于增加了2000倍的數(shù)據(jù)集。這個(gè)在當(dāng)時(shí)并沒(méi)有突出的公用數(shù)據(jù)集的情況下,通過(guò)人工策略的方式簡(jiǎn)單放大數(shù)據(jù)集,本身足夠大的數(shù)據(jù)集在避免過(guò)擬合當(dāng)中就可以是一個(gè)非常優(yōu)秀的策略,這個(gè)擴(kuò)大數(shù)據(jù)及的方式使得過(guò)擬合程度再次降低,再次提高了模型的泛化能力。卷積神經(jīng)網(wǎng)絡(luò)的基本網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、卷積層、池化層、激活函數(shù)層、全連接層。輸入層主要是對(duì)模型進(jìn)行預(yù)處理操作,包括去均值、歸一化、PCA/SVD降維等預(yù)處理方式。下圖是關(guān)于去均值化和歸一化的直觀表達(dá)。圖2-6AlexNet網(wǎng)絡(luò)結(jié)構(gòu)卷積層主要由多個(gè)過(guò)濾器構(gòu)成,而過(guò)濾器是由多個(gè)卷積核構(gòu)成。卷積核本身則是一個(gè)略微較小的矩陣,里面含有的參數(shù)構(gòu)成了卷積核。多個(gè)卷積核構(gòu)成的過(guò)濾器則可以與輸入的向量矩陣進(jìn)行卷積操作。通常過(guò)濾器是含有多個(gè)層,而過(guò)濾器的層數(shù)與輸入矩陣的層數(shù)息息相關(guān),例如第一層的卷積層的過(guò)濾核則是三層,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行處理時(shí)圖像通常有三層顏色通道,在進(jìn)行向量化后的圖像本質(zhì)是由三層構(gòu)成的大型矩陣,因而三層的過(guò)濾層可以與圖像最原始的矩陣進(jìn)行卷積操作。卷積核的參數(shù)不同提取到的特征不同,一個(gè)卷積層可以有多個(gè)卷積核,低層的卷積層提取到的是邊框、顏色等簡(jiǎn)單特征;中層提取到低層特征的集合;高層提取到圖像的全局特征。卷積操作則是通過(guò)過(guò)濾器對(duì)圖像的矩陣進(jìn)行一個(gè)矩陣乘法的操作,例如:1、在圖像的某個(gè)位置上覆蓋卷積核;2、將卷積核與對(duì)應(yīng)圖像的區(qū)域進(jìn)行一個(gè)矩陣乘法,也就是對(duì)應(yīng)數(shù)值相乘;3、將所得到的的乘積進(jìn)行相加操作,求和結(jié)果就是目標(biāo)值;4、之后對(duì)卷積核進(jìn)行移動(dòng)直到最整個(gè)圖像完成卷積操作。下圖則是單層對(duì)3×3輸入圖像卷積操作的實(shí)例。圖2-7卷積操作實(shí)例過(guò)濾器的卷積是多次對(duì)矩陣進(jìn)行矩陣乘法,而卷積后的輸出矩陣則是與卷積核的大小和移動(dòng)步長(zhǎng)有關(guān)。因?yàn)榫矸e操作需要覆蓋該圖像的所有位置,因而需要對(duì)卷積核在圖像矩陣上進(jìn)行移動(dòng),而每次移動(dòng)的長(zhǎng)度就是步長(zhǎng)。根據(jù)步長(zhǎng)、卷積核大小、圖像矩陣大小、我們可以根據(jù)公式得到卷積后矩陣的維度:nw[L在公式1.15中,nw[L]為l層卷積后得到的輸出矩陣的維度,pl為l層padding的填充規(guī)格,fl為卷積核窗口的維度,Padding是卷積過(guò)程中對(duì)原圖像矩陣/輸入矩陣的填充。Padding對(duì)于卷積層和過(guò)濾器來(lái)說(shuō)是必要的,因?yàn)榫矸e的核心是對(duì)輸入矩陣的簡(jiǎn)化信息提取,所以在卷積過(guò)程中是一個(gè)圖像維度不斷降低的過(guò)程,在多次卷積后圖像會(huì)顯著變小,對(duì)于深層的卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)會(huì)導(dǎo)致后續(xù)卷積難度加大或者無(wú)法卷積。另外的問(wèn)題是由于卷積是一個(gè)信息提取的過(guò)程,在卷積過(guò)程中由于過(guò)濾器根據(jù)步長(zhǎng)移動(dòng),會(huì)導(dǎo)致輸入矩陣在一定程度上邊緣信息無(wú)法被卷積,從而導(dǎo)致了信息丟失。而矩陣的中間部分會(huì)被卷積核多次卷積操作,導(dǎo)致該信息被提取過(guò)多。為了平衡這一卷積的弊端,一般會(huì)才去padding(填充)來(lái)對(duì)輸入矩陣進(jìn)行填充后再進(jìn)行卷積操作。Padding的規(guī)格因需要卷積的矩陣而異,填充的信息也通常是0。至此則出現(xiàn)了兩種卷積方式,第一種是valid卷積,指對(duì)輸入矩陣不padding的卷積操作,第二種則是same卷積,這種是采取padding操作,使最終的輸出矩陣的維度與輸入矩陣保持一致。此時(shí)這種padding的規(guī)格是有嚴(yán)格的規(guī)定,可以根據(jù)公式1.16得到padding的規(guī)格:(N+2P-F+1)=N (1.16)在卷積層完成卷積操作后,我們可以得到一個(gè)輸出矩陣,將這個(gè)輸出矩陣用池化層進(jìn)行池化(Pooling)操作。池化層本身類(lèi)似于一個(gè)過(guò)濾器,池化則是一種簡(jiǎn)單的固定參數(shù)的卷積。通常來(lái)講池化分為兩種,一種是最大池化,是指在特征圖中提取該過(guò)濾器的最大值然后投放到池特征圖。另外一種則是平均池化,是在特征圖中利用池化過(guò)濾器的參數(shù)進(jìn)行取平均操作,然后投放到特征圖。通過(guò)池化我們可以保留特征圖中的關(guān)鍵特征,無(wú)視無(wú)關(guān)特征,并將矩陣的規(guī)格再一次縮小,減小了特征圖的維度,為后續(xù)計(jì)算減輕了壓力。同時(shí)這個(gè)操作也成功減少了模型需要訓(xùn)練的參數(shù)數(shù)量,降低了模型的復(fù)雜度,使得本身較為復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)模型稍微簡(jiǎn)單化,起到了稀疏模型的作用,加強(qiáng)模型的泛化能力。最后也根據(jù)池化引入了幾個(gè)不同的特性,例如平行不變性、旋轉(zhuǎn)不變性、和尺度不變性。下圖給出的則是關(guān)于池化和不變性的直觀表達(dá)。圖2-8最大池化的平移不變性圖2-9最大池化的旋轉(zhuǎn)不變性圖2-10最大池化的尺度不變性在經(jīng)過(guò)一次卷積和池化操作后,我們需要對(duì)得到的特征圖進(jìn)行激活函數(shù)層的過(guò)濾。激活函數(shù)層主要是使用一定的激活函數(shù)對(duì)特征圖做一次非線(xiàn)性的映射。由于在沒(méi)有使用激活函數(shù)之前特征圖進(jìn)行的影射都是f(x)=x的單純線(xiàn)性映射,這樣會(huì)使得每一層之間的關(guān)系完全是線(xiàn)性關(guān)系,這樣情況下的每一層輸出都是上一層的線(xiàn)性函數(shù)。在這種線(xiàn)性關(guān)系下無(wú)論有多少中間層,輸入和輸出線(xiàn)性關(guān)系,會(huì)導(dǎo)致中間層的處理效果相當(dāng)不明顯,因而需要一個(gè)激活層來(lái)改變特征圖之間的關(guān)系。而我們常用的激活函數(shù)是1、sigmoid它的表達(dá)式是公式1.17:(1.17)2、tanh它的數(shù)學(xué)表達(dá)式是公式1.18: (1.18)根據(jù)他們的數(shù)學(xué)表達(dá)式,我們可以粗略畫(huà)出他們的函數(shù)圖像:圖2-11Sigmoid函數(shù)和tanh函數(shù)的圖像3、ReLu其中現(xiàn)在經(jīng)常使用的是ReLU激活單元,它的函數(shù)體是如下的:relux=x,&x>00,&x≤0 而ReLU的函數(shù)圖像則是:圖2-12ReLU的函數(shù)圖像ReLU函數(shù)的優(yōu)點(diǎn)在于他會(huì)增加前一層甚至是整個(gè)神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性特征,同時(shí)為了保留特征圖的信息,在對(duì)正值沒(méi)有做任何的修改直接映射過(guò)去,在輸入較大的情況下不會(huì)出現(xiàn)梯度消失的問(wèn)題,也同時(shí)解決了神層神經(jīng)網(wǎng)絡(luò)面臨的收斂滿(mǎn)訓(xùn)練耗費(fèi)長(zhǎng)的難題。ReLU激活單元主要還是用在卷積神經(jīng)網(wǎng)絡(luò)的的隱層的激活函數(shù),對(duì)于擁有冗余數(shù)據(jù)的特征圖完全可以通過(guò)一個(gè)0矩陣來(lái)實(shí)現(xiàn)過(guò)濾。卷積神經(jīng)網(wǎng)絡(luò)反復(fù)迭代訓(xùn)練的過(guò)程,實(shí)際上相當(dāng)于在不斷試探如何用一個(gè)稀疏矩陣表達(dá)圖像特征,因?yàn)閿?shù)據(jù)的稀疏特性的存在,所以這種方法可以在提高訓(xùn)練速度的同時(shí)又保證模型的效果。經(jīng)過(guò)多個(gè)中間隱層卷積層的處理過(guò)后,最后的則是全連接層。全連接層則是將經(jīng)過(guò)處理后得到的多維特征圖投放映射到一個(gè)低維的隱層特征空間,是將卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的分布式結(jié)構(gòu)特征映射到標(biāo)本空間的作用。下圖是卷積后經(jīng)過(guò)全連接層的直觀體現(xiàn)圖2-13全連接層參考文獻(xiàn)[1]MUENSTEREROJ,LACHERM,ZOELLERC,etal.GoogleGlassinpediatricsurgery:anexploratorystudy[J].Internationaljournalofsurgery,2014,12(4):281–289.[2]KatoT.Databasearchitectureforcontent-basedimageretrieval[J].ProceedingsofSPIE-TheInternationalSocietyforOpticalEngineering,1992,1(1662):112-123.[3]WAHC,BRANSONS,WELINDERP,etal.Thecaltech-ucsdbirds-200-2011dataset[J].2011[4]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.[S.l.]:[s.n.],2012:1097–1105.[5]XieL,WangJ,ZhangB,etal.Fine-grainedimagesearch[J].IEEETransactionsonMultimedia,2015,17(5):636-647.[6]LoweDG.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].InternationalJournalofComputerVision,2004,60(2):91-110.[7]SivicJ,ZissermanA.VideoGoogle:Atextretrievalapproachtoobjectmatchinginvideos[C].IEEEInternationalConferenceonComputerVision,Nice,France,2003:1470-1477.[8]KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C].InternationalConferenceonNeuralInformationProcessingSystems,LakeTahoe,Nevada,USA,2012:1097-1105.[9]Rosenblatt,F.(1958)."ThePerceptron:AProbalisticModelForInformationStorageAndOrganizationInTheBrain".PsychologicalReview.65(6):386–408.[10]Quinlan,J.R.1986.InductionofDecisionTrees.Mach.Learn.1,1(Mar.1986),81–106[11]Breiman,L.,Friedman,J.Olshen,R.andStoneC.ClassificationandRegressionTrees,Wadsworth,1984.[12]Y.LeCun,B.Boser,J.S.Denker,D.Henderson,R.E.Howard,W.Hubbard,L.D.Jackel,BackpropagationAppliedtoHandwrittenZipCodeRecognition.1989.[13]JianlongFu,HeliangZheng,TaoMei.LookClosertoSeeBetter:RecurrentAttentionConvolutionalNeuralNetworkforFine-grainedImageRecognition[C]//2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR).IEEE,2017.[14]3DObjectRepresentationsforFine-GrainedCategorizationJonathanKrause,MichaelStark,JiaDeng,LiFei-Fei4thIEEEWorkshopon3DRepresentationandRecognition,atICCV2013(3dRR-13).Sydney,Australia.Dec.8,2013.[15]YairMovshovitz-Attias,AlexanderToshev,ThomasKLeung,Sergey
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 放射科重點(diǎn)病例隨訪(fǎng)與反饋記錄
- 代理銷(xiāo)售協(xié)議2026年數(shù)據(jù)安全協(xié)議
- 衡器廠(chǎng)衡器數(shù)據(jù)管理細(xì)則
- 某發(fā)動(dòng)機(jī)廠(chǎng)夏季防暑降溫方案
- 某輪胎廠(chǎng)簾布裁斷操作制度
- 化工設(shè)備管理課件
- 化工職業(yè)健康培訓(xùn)
- 化工生產(chǎn)質(zhì)量管理培訓(xùn)
- 生成式人工智能在歷史課堂中對(duì)中學(xué)生學(xué)習(xí)風(fēng)格適配的實(shí)證研究教學(xué)研究課題報(bào)告
- 2026年制造缺陷對(duì)材料力學(xué)性能的影響
- 2026 年初中英語(yǔ)《狀語(yǔ)從句》專(zhuān)項(xiàng)練習(xí)與答案 (100 題)
- 2026年遼寧省盤(pán)錦市高職單招語(yǔ)文真題及參考答案
- 簡(jiǎn)愛(ài)插圖本(英)夏洛蒂·勃朗特著宋兆霖譯
- 焊接專(zhuān)業(yè)人才培養(yǎng)方案
- 第二屆全國(guó)技能大賽江蘇省選拔賽焊接項(xiàng)目評(píng)分表
- 糖尿病護(hù)士年終總結(jié)
- 第20課 《美麗的小興安嶺》 三年級(jí)語(yǔ)文上冊(cè)同步課件(統(tǒng)編版)
- 糖尿病基礎(chǔ)知識(shí)培訓(xùn)2
- 研學(xué)旅行概論第六章
- GB/T 22176-2023二甲戊靈乳油
- 根據(jù)信用證制作商業(yè)發(fā)票、裝箱單、裝船通知
評(píng)論
0/150
提交評(píng)論