《人工智能技術(shù)基礎(chǔ)》課件-第八章 計(jì)算機(jī)視覺_第1頁
《人工智能技術(shù)基礎(chǔ)》課件-第八章 計(jì)算機(jī)視覺_第2頁
《人工智能技術(shù)基礎(chǔ)》課件-第八章 計(jì)算機(jī)視覺_第3頁
《人工智能技術(shù)基礎(chǔ)》課件-第八章 計(jì)算機(jī)視覺_第4頁
《人工智能技術(shù)基礎(chǔ)》課件-第八章 計(jì)算機(jī)視覺_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)基礎(chǔ)第八章計(jì)算機(jī)視覺01什么是計(jì)算機(jī)視覺02計(jì)算機(jī)視覺的行業(yè)應(yīng)用03計(jì)算機(jī)視覺的發(fā)展歷史04計(jì)算機(jī)視覺的實(shí)現(xiàn)方法與流程05計(jì)算機(jī)視覺案例實(shí)戰(zhàn)什么是計(jì)算機(jī)視覺?眼睛感知設(shè)備對周圍環(huán)境進(jìn)行圖像捕獲大腦解釋設(shè)備理解圖像內(nèi)容人類視覺系統(tǒng)感知設(shè)備解釋設(shè)備計(jì)算機(jī)視覺(ComputerVision,CV)是一門研究如何使機(jī)器能“看”的科學(xué),是用攝影機(jī)等成像設(shè)備代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量,并使用計(jì)算機(jī)對成像設(shè)備中獲得的圖像或者視頻進(jìn)行處理、分析和理解。簡而言之,計(jì)算機(jī)視覺就是讓計(jì)算機(jī)具備人類的“眼力”,讓計(jì)算機(jī)“看懂”這個世界。計(jì)算機(jī)視覺系統(tǒng)ComputervisionImageProcessing理解圖像內(nèi)容輸出不一定是圖像處理圖像輸入輸出均是圖像調(diào)整圖像對比度調(diào)整亮度銳化平滑調(diào)整尺寸、旋轉(zhuǎn)、高斯模糊貓狗識別輸出的是概率圖像內(nèi)容是貓或者狗的概率人臉檢測輸出的人臉在圖像中的坐標(biāo)計(jì)算機(jī)視覺vs圖像處理圖像亮度和對比度增強(qiáng)圖像模糊圖像邊緣檢測計(jì)算機(jī)視覺vs圖像處理計(jì)算機(jī)視覺深度學(xué)習(xí)方法計(jì)算機(jī)視覺vs機(jī)器視覺ComputervisionMachinevision機(jī)器視覺偏重于計(jì)算機(jī)視覺技術(shù)工程化,能夠自動獲取和分析特定的圖像,以控制相應(yīng)的行為計(jì)算機(jī)視覺是采用圖像處理、模式識別、人工智能技術(shù)相結(jié)合的手段,著重于一幅或多幅圖像的計(jì)算機(jī)分析計(jì)算機(jī)視覺的重點(diǎn)是圖像分析和理解機(jī)器視覺重點(diǎn)是工程應(yīng)用,強(qiáng)調(diào)實(shí)時性、高精度和高速度計(jì)算機(jī)視覺為機(jī)器視覺提供圖像分析理論與算法基礎(chǔ)機(jī)器視覺為計(jì)算機(jī)視覺提供傳感器模型、系統(tǒng)構(gòu)造以及實(shí)現(xiàn)手段機(jī)器視覺是指在工業(yè)環(huán)境中使用計(jì)算機(jī)視覺,使其成為計(jì)算機(jī)視覺的子類別計(jì)算機(jī)視覺的研發(fā)在個人PC或者云端CV與AI相關(guān)領(lǐng)域的關(guān)系人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)計(jì)算機(jī)視覺第八章計(jì)算機(jī)視覺01什么是計(jì)算機(jī)視覺02計(jì)算機(jī)視覺的行業(yè)應(yīng)用03計(jì)算機(jī)視覺的發(fā)展歷史04計(jì)算機(jī)視覺的實(shí)現(xiàn)方法與流程05計(jì)算機(jī)視覺案例實(shí)戰(zhàn)計(jì)算機(jī)視覺的行業(yè)應(yīng)用安防金融互聯(lián)網(wǎng)醫(yī)療醫(yī)療企業(yè)代表第八章計(jì)算機(jī)視覺01什么是計(jì)算機(jī)視覺02計(jì)算機(jī)視覺的行業(yè)應(yīng)用03計(jì)算機(jī)視覺的發(fā)展歷史04計(jì)算機(jī)視覺的實(shí)現(xiàn)方法與流程05計(jì)算機(jī)視覺案例實(shí)戰(zhàn)20世紀(jì)50年代20世紀(jì)50年代1957年,世界上第一幅數(shù)字圖像在NIST誕生20世紀(jì)50年代20世紀(jì)50年代1959年,生物學(xué)家DavidHubel和TorstenWiesel將電極植入貓的視覺皮層[2],發(fā)現(xiàn)視覺與大腦皮層的神經(jīng)元有關(guān)系。這一結(jié)論是深度學(xué)習(xí)背后的核心原理。20世紀(jì)60年代20世紀(jì)60年代1963年,麻省理工學(xué)院的LawrenceRoberts在他的博士學(xué)位論文中描述了從二維圖像中獲取有關(guān)對象的三維信息的過程,將視覺世界簡化成幾何圖形。他的論文被認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域的第一篇博士論文。20世紀(jì)60年代20世紀(jì)60年代1966年,麻省理工學(xué)院AI實(shí)驗(yàn)室的SeymourPapert教授決定啟動“TheSummerVisionProject”,希望在幾個月內(nèi)解決機(jī)器視覺問題。由于目標(biāo)過于激進(jìn),最終導(dǎo)致項(xiàng)目失敗。該項(xiàng)目中羅列的部分問題,至今仍然無法解決。然而,該項(xiàng)目被認(rèn)為是計(jì)算機(jī)視覺學(xué)科的起源。20世紀(jì)60年代20世紀(jì)60年代1969年,貝爾實(shí)驗(yàn)室的WillardBoyle和GeorgeE.Smith,發(fā)明了電荷耦合器件(CCD),一種能夠?qū)⒐庑盘栟D(zhuǎn)換為電信號的傳感器,這項(xiàng)技術(shù)迅速成為捕獲高質(zhì)量數(shù)字圖像的首選技術(shù)。二十年后的2009年,二人因?yàn)樗麄兊陌l(fā)明而獲得了諾貝爾物理學(xué)獎。

/prizes/physics/2009/press-release/20世紀(jì)70年代20世紀(jì)70年代1976年,RaymondKurzweil推出了Kurzweil閱讀機(jī),該機(jī)器能夠?qū)崿F(xiàn)光學(xué)字符識別(OCR,OpticalCharacterRecognition)功能,是計(jì)算機(jī)視覺的第一個商業(yè)化應(yīng)用。20世紀(jì)80年代20世紀(jì)80年代1980年,神經(jīng)網(wǎng)絡(luò)領(lǐng)域的先驅(qū)KunihikoFukushima發(fā)明了“Neocognitron”[5],這是一種深層的神經(jīng)網(wǎng)絡(luò),具有通過學(xué)習(xí)識別視覺模式的能力。該結(jié)構(gòu)被認(rèn)為是第一個面向計(jì)算機(jī)視覺領(lǐng)域的多層神經(jīng)網(wǎng)絡(luò)。/w/index.php?title=Deep_learning&oldid=100641658020世紀(jì)90年代20世紀(jì)90年代1998年,經(jīng)過幾年的持續(xù)研究,YannLeCun團(tuán)隊(duì)提出了LeNet-5卷積神經(jīng)網(wǎng)絡(luò)模型用于識別手寫字符,該模型對深度學(xué)習(xí)領(lǐng)域影響深遠(yuǎn)。21世紀(jì)21世紀(jì)2009年,斯坦福李飛飛教授團(tuán)隊(duì)發(fā)布ImageNet大規(guī)模圖像庫。/index21世紀(jì)(ILSVRC,ImageNetLargeScaleVisualRecognitionChallenge)深度神經(jīng)網(wǎng)絡(luò)模型名稱研究機(jī)構(gòu)ILSVRC年份分類錯誤率AlexNet多倫多大學(xué)SuperVision團(tuán)隊(duì)201216.4%ZFNetClarifai公司201311.74%GoogLeNet谷歌20146.66%ResNet微軟亞洲研究院20153.56%Trimps-Soushen公安部第三研究所20162.991%SENetMomenta公司和牛津大學(xué)20172.251%

今天今天今天,百花齊放今天:百花齊放百家爭鳴/area/computer-vision第八章計(jì)算機(jī)視覺01什么是計(jì)算機(jī)視覺02計(jì)算機(jī)視覺的行業(yè)應(yīng)用03計(jì)算機(jī)視覺的發(fā)展歷史04計(jì)算機(jī)視覺的實(shí)現(xiàn)方法與流程05計(jì)算機(jī)視覺案例實(shí)戰(zhàn)計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程

圖像讀取與顯示

攝像頭獲取圖像色彩空間轉(zhuǎn)換尺寸調(diào)整對比度調(diào)整亮度調(diào)整銳化圖像濾波HAAR特征HOG特征

機(jī)器學(xué)習(xí)方法

深度學(xué)習(xí)方法圖像采集圖像預(yù)處理特征提取模型學(xué)習(xí)計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:圖像采集圖像采集計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:圖像采集圖像采集成像設(shè)備輸出的數(shù)字圖像,可保存為BMP、PNG、JPG、GIF、SVG、TIF等圖像格式數(shù)字圖像的關(guān)鍵指標(biāo):圖像尺寸圖像數(shù)據(jù)類型分辨率圖像采集:圖像尺寸

像素坐標(biāo)系圖像采集:坐標(biāo)系坐標(biāo)系圖像采集:坐標(biāo)系圖像數(shù)據(jù)類型圖像采集:圖像數(shù)據(jù)類型二值圖像灰度(黑白)圖像彩色圖像彩色圖像圖像采集:圖像數(shù)據(jù)類型-彩色圖像彩色圖像的像素需要三個數(shù)值來表示,每個數(shù)值對應(yīng)一種顏色(紅色、綠色或者藍(lán)色)紅色(R)、綠色(G)和藍(lán)色(B)是RGB顏色空間中三種顏色通道,通過三種顏色的組合可以形成各種顏色,每種顏色采用8-bit表示,數(shù)值范圍為0~255,三個數(shù)值的組合構(gòu)成了一個像素彩色圖像圖像采集:圖像數(shù)據(jù)類型-彩色圖像800×600彩色圖像,有480000個像素,每個像素包含3個數(shù)值,每個數(shù)值8-bit,保存這一副圖像需要800×600×3×8-bit=11520000-bit=11250Kb=1406.25KB=1.373MB一副尺寸為800×600的彩色圖像,需要占用多大存儲空間?

黑白圖像圖像采集:圖像數(shù)據(jù)類型-黑白圖像每個像素以一個數(shù)值來表示該數(shù)值可以是一個8-bit的無符號整數(shù),也可以是一個16-bit的無符號整數(shù),由成像設(shè)備決定。如果是8-bit的整數(shù),那么數(shù)值范圍0~255如果是16-bit的整數(shù),那么數(shù)值范圍是0-65535黑白圖像圖像采集:圖像數(shù)據(jù)類型-黑白圖像800×600黑白圖像,有480000個像素,每個像素包含1個數(shù)值,每個數(shù)值8-bit,保存這一副圖像需要800×600×1×8-bit=3840000-bit=3750Kb=468.75KB=0.4578MB一副尺寸為800×600的黑白圖像,假設(shè)采用8bit像素,需要占用多大存儲空間?

二值圖像圖像采集:圖像數(shù)據(jù)類型-二值圖像這種數(shù)據(jù)類型的圖像像素值只有兩種,1和0。其中,0用黑色表示,1用白色表示。二值圖像圖像采集:圖像數(shù)據(jù)類型-二值圖像800×600二值圖像,有480000個像素,每個像素包含1個數(shù)值,每個數(shù)值1-bit,保存這一副圖像需要800×600×1×1-bit=480000-bit=468.75Kb=58.59KB=0.0572MB一副尺寸為800×600的二值圖像,需要占用多大存儲空間?

計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:圖像預(yù)處理圖像采集提供的眾多圖像可能在格式、顏色、尺寸等方面不統(tǒng)一,如果不做任何處理而直接進(jìn)行特征提取,那么提取特征的精度、復(fù)雜度以及模型學(xué)習(xí)的精度可能得不到保障。比如,模型訓(xùn)練時采用的圖像尺寸為256×256,而采集的圖像尺寸是1024×800為了降低特征提取算法的復(fù)雜度,提升特征提取算法和模型學(xué)習(xí)的精度,我們需要在進(jìn)行特征提取之前進(jìn)行圖像預(yù)處理。經(jīng)過圖像預(yù)處理之后的圖像,允許應(yīng)用通用算法,而不需要為每一種數(shù)據(jù)源單獨(dú)設(shè)計(jì)一套算法。常見的預(yù)處理技術(shù)圖像預(yù)處理:常見的圖像預(yù)處理技術(shù)ABC圖像類型轉(zhuǎn)換圖像類型轉(zhuǎn)換圖像幾何變換圖像幾何變換圖像增強(qiáng)圖像增強(qiáng)常見的預(yù)處理技術(shù)圖像預(yù)處理:圖像類型轉(zhuǎn)換圖像類型轉(zhuǎn)換彩色轉(zhuǎn)黑白黑白轉(zhuǎn)二值彩色轉(zhuǎn)黑白常見的預(yù)處理技術(shù)圖像預(yù)處理:圖像幾何轉(zhuǎn)換圖像幾何變換放大縮小旋轉(zhuǎn)裁剪平移常見的預(yù)處理技術(shù)圖像預(yù)處理:圖像幾何轉(zhuǎn)換圖像增強(qiáng)圖像增強(qiáng)點(diǎn)操作模板操作所謂點(diǎn)操作,是指以像素為基本單元,僅利用單個像素的信息,無需其他相鄰像素的信息,通過計(jì)算修改像素值,而無需更改圖像的大小、幾何形狀或局部結(jié)構(gòu)所謂模板操作,是指以一個模板選取的多個像素為基本單元,將相鄰的多個像素組合在一起考慮,根據(jù)這些像素的統(tǒng)計(jì)特性或局部運(yùn)算來進(jìn)行操作計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取什么是特征?特征提取的目的在于從輸入的數(shù)據(jù)源中提取特征,然后將特征送入機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練或推理,以實(shí)現(xiàn)不同目的的計(jì)算機(jī)視覺任務(wù),比如圖像分類。提取特征的質(zhì)量直接影響模型學(xué)習(xí)的精度計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取特征提取“小蝌蚪找媽媽”頭頂上有兩只大眼睛嘴巴又闊又大有四條腿肚皮是白的穿著綠衣服唱起歌來“咯咯咯”的在計(jì)算機(jī)視覺中,特征就是圖像中的興趣點(diǎn)(pointsofinterest)興趣點(diǎn)有比較顯著的特點(diǎn)通過這些特點(diǎn)能夠?qū)崿F(xiàn)圖像之間的區(qū)分。對于一幅圖像而言,常見的特征有:邊緣、角點(diǎn)、直線段、圓、孔、橢圓、顏色、角度、光強(qiáng)等。計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取特征提取特征提取方法手工提取自動提取手工提取特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法自動提取特征的深度學(xué)習(xí)方法計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取傳統(tǒng)方法特征提取傳統(tǒng)的機(jī)器學(xué)習(xí)以分離的方式執(zhí)行特征提取和模型構(gòu)建,并且每個模塊都是逐步構(gòu)建的。通過將原始數(shù)據(jù)轉(zhuǎn)換到不同的域(例如統(tǒng)計(jì)、頻域和時頻域)中提取手工特征,以獲取需要專家級領(lǐng)域知識的代表性信息。執(zhí)行特征選擇以改善相關(guān)性并減少特征之間的虛假冗余。計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取傳統(tǒng)方法特征提取傳統(tǒng)的機(jī)器學(xué)習(xí)通常是最多只有三層(例如輸入層、輸出層和一個隱藏層)的淺層結(jié)構(gòu)。模型的性能不僅取決于優(yōu)化算法,比如BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)和邏輯回歸(LogicRegression),而且還受到手工提取特征的嚴(yán)重影響。通常,特征提取和選擇非常耗時,并且高度依賴領(lǐng)域?qū)I(yè)知識。計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取深度學(xué)習(xí)方法特征提取深度學(xué)習(xí)通過端到端優(yōu)化來調(diào)整參數(shù),將特征提取和模型學(xué)習(xí)集成到一起基于傳統(tǒng)機(jī)器學(xué)習(xí)的計(jì)算機(jī)視覺實(shí)現(xiàn)流程手工提取的特征需要送入SVM、BP神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)算法中進(jìn)行推理或者訓(xùn)練基于深度學(xué)習(xí)的計(jì)算機(jī)視覺實(shí)現(xiàn)流程特征提取、特征學(xué)習(xí)和模型構(gòu)建均集成在一個深度神經(jīng)網(wǎng)絡(luò)模型中,模型訓(xùn)練完畢之后即為訓(xùn)練或者推理的結(jié)果,而不再需要人工干預(yù)基于傳統(tǒng)機(jī)器學(xué)習(xí)的計(jì)算機(jī)視覺實(shí)現(xiàn)流程計(jì)算機(jī)視覺的實(shí)現(xiàn)方法和流程:特征提取深度學(xué)習(xí)方法第八章計(jì)算機(jī)視覺01什么是計(jì)算機(jī)視覺02計(jì)算機(jī)視覺的行業(yè)應(yīng)用03計(jì)算機(jī)視覺的發(fā)展歷史04計(jì)算機(jī)視覺的實(shí)現(xiàn)方法與流程05計(jì)算機(jī)視覺案例實(shí)戰(zhàn)1909年,匈

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論