卷積神經(jīng)網(wǎng)絡(luò)教程 (CNN) 使用 TensorFlow 在 Python 中開(kāi)發(fā)圖像分類(lèi)器_第1頁(yè)
卷積神經(jīng)網(wǎng)絡(luò)教程 (CNN) 使用 TensorFlow 在 Python 中開(kāi)發(fā)圖像分類(lèi)器_第2頁(yè)
卷積神經(jīng)網(wǎng)絡(luò)教程 (CNN) 使用 TensorFlow 在 Python 中開(kāi)發(fā)圖像分類(lèi)器_第3頁(yè)
卷積神經(jīng)網(wǎng)絡(luò)教程 (CNN) 使用 TensorFlow 在 Python 中開(kāi)發(fā)圖像分類(lèi)器_第4頁(yè)
卷積神經(jīng)網(wǎng)絡(luò)教程 (CNN) 使用 TensorFlow 在 Python 中開(kāi)發(fā)圖像分類(lèi)器_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

在這篇博客中,讓我們討論什么是卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及

卷積神經(jīng)網(wǎng)絡(luò)背后的架構(gòu)——旨在解決

圖像識(shí)別系統(tǒng)和分類(lèi)問(wèn)題。

卷積神經(jīng)網(wǎng)絡(luò)在圖像和視頻識(shí)別、推薦系統(tǒng)和自然語(yǔ)言處理方面有著廣泛的應(yīng)用。我們將檢查以下概念:計(jì)算機(jī)如何讀取圖像?為什么不是全連接網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?卷積神經(jīng)網(wǎng)絡(luò)的起源卷積神經(jīng)網(wǎng)絡(luò)如何工作?卷積神經(jīng)網(wǎng)絡(luò)示例圖像的卷積ReLu層池化層堆疊層數(shù)使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)圖像用例:CIFAR10圖像分類(lèi)器計(jì)算機(jī)如何讀取圖像?考慮這張紐約天際線(xiàn)的圖像,第一眼你會(huì)看到很多建筑物和顏色。那么計(jì)算機(jī)是如何處理這張圖像的呢?圖像分為3個(gè)顏色通道,即紅、綠和藍(lán)。每個(gè)顏色通道都映射到圖像的像素。

然后,計(jì)算機(jī)識(shí)別與每個(gè)像素相關(guān)的值并確定圖像的大小。然而,對(duì)于黑白圖像,只有一個(gè)通道,概念是相同的。為什么不是全連接網(wǎng)絡(luò)?當(dāng)涉及到卷積神經(jīng)網(wǎng)絡(luò)時(shí),我們無(wú)法使用全連接網(wǎng)絡(luò),原因如下!考慮下圖:在這里,我們考慮了大小為28x28x3像素的圖像輸入。如果我們將其輸入到卷積神經(jīng)網(wǎng)絡(luò),則第一個(gè)隱藏層本身將有大約2352個(gè)權(quán)重。但這種情況并不實(shí)用。現(xiàn)在,看看這個(gè):任何通用輸入圖像的大小至少為200x200x3像素。第一個(gè)隱藏層的大小變成了驚人的120,000。如果這只是第一個(gè)隱藏層,想象一下處理整個(gè)復(fù)雜圖像集所需的神經(jīng)元數(shù)量。這會(huì)導(dǎo)致過(guò)度擬合并且不切實(shí)際。因此,我們無(wú)法利用完全連接的網(wǎng)絡(luò)。什么是卷積神經(jīng)網(wǎng)絡(luò)?卷積神經(jīng)網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)一樣,由具有可學(xué)習(xí)權(quán)重和偏差的神經(jīng)元組成。每個(gè)神經(jīng)元接收多個(gè)輸入,對(duì)它們進(jìn)行加權(quán)求和,將其傳遞給激活函數(shù)并以輸出響應(yīng)。整個(gè)網(wǎng)絡(luò)具有損失

函數(shù),我們?yōu)樯窠?jīng)網(wǎng)絡(luò)開(kāi)發(fā)的所有提示和技巧仍然適用于卷積神經(jīng)網(wǎng)絡(luò)。很簡(jiǎn)單,對(duì)吧?神經(jīng)網(wǎng)絡(luò),顧名思義,是一種模仿大腦結(jié)構(gòu)的機(jī)器學(xué)習(xí)技術(shù)。它由稱(chēng)為神經(jīng)元的學(xué)習(xí)單元網(wǎng)絡(luò)組成。這些神經(jīng)元學(xué)習(xí)如何將

輸入信號(hào)

(例如貓的圖片)轉(zhuǎn)換為相應(yīng)的

輸出信號(hào)

(例如標(biāo)簽“貓”),形成自動(dòng)識(shí)別的基礎(chǔ)。我們以自動(dòng)圖像識(shí)別為例。確定圖片是否包含貓的過(guò)程涉及

激活函數(shù)。如果圖片與神經(jīng)元之前見(jiàn)過(guò)的貓圖像相似,“貓”標(biāo)簽就會(huì)被激活。因此,神經(jīng)元接觸到的標(biāo)記圖像越多,它就越能學(xué)會(huì)如何識(shí)別其他未標(biāo)記的圖像。我們稱(chēng)之為訓(xùn)練神經(jīng)元的過(guò)程

。卷積神經(jīng)網(wǎng)絡(luò)的起源神經(jīng)網(wǎng)絡(luò)的智能是不可思議的。雖然Rosenblatt早在20世紀(jì)60年代就開(kāi)始研究人工神經(jīng)網(wǎng)絡(luò),但直到2000年代末,使用神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)才開(kāi)始興起。關(guān)鍵的推動(dòng)因素是計(jì)算能力和數(shù)據(jù)集的規(guī)模,而谷歌在深度學(xué)習(xí)方面的開(kāi)創(chuàng)性研究。2012年7月,谷歌的研究人員將先進(jìn)的神經(jīng)網(wǎng)絡(luò)暴露于從?網(wǎng)絡(luò)上截取的一系列未標(biāo)記的靜態(tài)圖像視頻。令他們驚訝的是,他們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)自己學(xué)習(xí)了一個(gè)貓檢測(cè)神經(jīng)元,這支持了“互聯(lián)網(wǎng)是由貓組成的”這一流行說(shuō)法。卷積神經(jīng)網(wǎng)絡(luò)如何工作?

在卷積神經(jīng)網(wǎng)絡(luò)中我們應(yīng)該理解四個(gè)分層概念:

卷積,熱盧,匯集和全連接(全連接層)。讓我們首先看一個(gè)簡(jiǎn)單的例子:CNN示例:考慮下圖:這里,有X和O的多種演繹。這使得計(jì)算機(jī)很難識(shí)別。但目標(biāo)是,如果輸入信號(hào)看起來(lái)像以前看過(guò)的圖像,“圖像”參考信號(hào)將混合到輸入信號(hào)中,或與輸入信號(hào)進(jìn)行卷積。然后將所得的輸出信號(hào)傳遞到下一層。因此,計(jì)算機(jī)可以理解每個(gè)像素。在本例中,白色像素為-1,而黑色像素為1。這正是我們?cè)诨径诸?lèi)中實(shí)現(xiàn)區(qū)分像素的方法?,F(xiàn)在,如果我們通常搜索并比較普通圖像和另一個(gè)“x”再現(xiàn)之間的值,我們會(huì)得到很多丟失的像素。那么,我們?cè)撊绾谓鉀Q這個(gè)問(wèn)題呢?我們采用稱(chēng)為過(guò)濾器的小塊像素并嘗試匹配

將它們放在相應(yīng)的附近位置,看看我們是否得到匹配。通過(guò)這樣做,卷積神經(jīng)網(wǎng)絡(luò)在發(fā)現(xiàn)相似性方面比直接嘗試匹配整個(gè)圖像要好得多。圖像的卷積卷積具有平移不變性的良好特性

。直觀(guān)上,這意味著每個(gè)卷積濾波器代表一個(gè)感興趣的特征(例如字母中的像素),并且卷積神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)哪些特征構(gòu)成最終的參考(即字母表)。我們有4個(gè)卷積步驟:將特征和圖像對(duì)齊將每個(gè)圖像像素乘以相應(yīng)的特征像素將值相加并求出總和將總和除以特征中的像素總數(shù)考慮上圖-正如您所看到的,我們已經(jīng)完成了前2個(gè)步驟。我們考慮了一張?zhí)卣鲌D像和其中的一個(gè)像素。我們將其與現(xiàn)有圖像相乘,并將乘積存儲(chǔ)在另一個(gè)緩沖區(qū)特征圖像中。通過(guò)這張圖片,我們完成了最后2個(gè)步驟。我們將得出總和的值相加。然后,我們將該數(shù)字除以特征圖像中的像素總數(shù)。完成后,獲得的最終值將放置在濾波圖像的中心,如下所示:

現(xiàn)在,我們可以移動(dòng)這個(gè)

濾鏡,并對(duì)圖像中的任何像素執(zhí)行相同的操作。為了更清楚起見(jiàn),讓我們考慮另一個(gè)例子:如您所見(jiàn),執(zhí)行前4個(gè)步驟后,我們的值為0.55!我們采用該值并將其放置在圖像中,如前所述。這是在下圖中完成的:類(lèi)似地,我們將特征移動(dòng)到圖像中的每個(gè)其他位置,并查看該特征如何與該區(qū)域匹配。因此,完成此操作后,我們將得到輸出:這里我們只考慮一種過(guò)濾器。類(lèi)似地,我們將與其他每個(gè)過(guò)濾器執(zhí)行相同的卷積以獲得該過(guò)濾器的卷積。輸出信號(hào)強(qiáng)度不取決于特征所在的位置,而僅取決于特征是否存在。因此,字母表可能位于不同的位置

,卷積神經(jīng)網(wǎng)絡(luò)算法仍然能夠識(shí)別它。ReLU層ReLU是一種激活函數(shù)。但是,什么是激活函數(shù)?整流線(xiàn)性單元(ReLU)變換函數(shù)僅在輸入高于一定量時(shí)才激活節(jié)點(diǎn),而輸入低于零時(shí),輸出為零,但當(dāng)輸入上升到一定閾值以上時(shí),與輸入呈線(xiàn)性關(guān)系。因變量??紤]下面的例子:我們考慮了一個(gè)具有上述值的簡(jiǎn)單函數(shù)。因此,只有當(dāng)該值是由因變量獲得時(shí),該函數(shù)才會(huì)執(zhí)行操作。對(duì)于本示例,獲得以下值:為什么這里需要ReLU?主要目的是消除卷積中的所有負(fù)值。所有正值保持不變,但所有負(fù)值都更改為零,如下所示:因此,在處理這個(gè)特定功能后,我們得到以下輸出:現(xiàn)在,類(lèi)似地,我們也對(duì)所有其他特征圖像執(zhí)行相同的過(guò)程:來(lái)自卷積層的輸入可以被“平滑”,以降低濾波器對(duì)噪聲和變化的敏感性。

這種平滑過(guò)程稱(chēng)為

子采樣,可以通過(guò)對(duì)信號(hào)樣本取平均值或取最大值來(lái)實(shí)現(xiàn)。池化層在這一層中,我們將圖像堆??s小到更小的尺寸。池化是在經(jīng)過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論