人工智能與未來(lái) 課件 8.2 計(jì)算機(jī)視覺(jué)概述_第1頁(yè)
人工智能與未來(lái) 課件 8.2 計(jì)算機(jī)視覺(jué)概述_第2頁(yè)
人工智能與未來(lái) 課件 8.2 計(jì)算機(jī)視覺(jué)概述_第3頁(yè)
人工智能與未來(lái) 課件 8.2 計(jì)算機(jī)視覺(jué)概述_第4頁(yè)
人工智能與未來(lái) 課件 8.2 計(jì)算機(jī)視覺(jué)概述_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ComputerVision第8章

計(jì)算機(jī)視覺(jué)2035主講:王紅梅目錄CONTENTS8.18.28.38.4計(jì)算機(jī)視覺(jué)那些事計(jì)算機(jī)視覺(jué)概述人臉識(shí)別原理人臉識(shí)別實(shí)現(xiàn)8.506擴(kuò)展:空間智能8.2.1什么是計(jì)算機(jī)視覺(jué)?8.2.2計(jì)算機(jī)視覺(jué)要解決的問(wèn)題是什么?8.2.3我們?nèi)祟惾绾巍翱词澜纭保?.2.4人類如何教會(huì)機(jī)器“看世界”?8.2.5機(jī)器要認(rèn)識(shí)什么?8.2.6計(jì)算機(jī)視覺(jué)的處理方法8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用8.2.8人臉識(shí)別、計(jì)算機(jī)機(jī)視覺(jué)和人工智能之間的關(guān)系

我們?nèi)祟愅ㄟ^(guò)視覺(jué)可以和客觀世界進(jìn)行溝通和交流。討論:(1)你有沒(méi)有通過(guò)視覺(jué)進(jìn)行交流過(guò),舉個(gè)例子唄!

(2)在交流的過(guò)程中,都會(huì)發(fā)生什么?試著描述。8.2.1什么是計(jì)算機(jī)視覺(jué)?

與人類和世界進(jìn)行溝通和交流的情況類似。計(jì)算機(jī)視覺(jué)(ComputerVision,簡(jiǎn)稱CV)是讓機(jī)器通過(guò)模擬人類視覺(jué)來(lái)和世界溝通與交流的方式,具體來(lái)說(shuō)就是通過(guò)數(shù)字圖像或視頻等視覺(jué)信息來(lái)模擬人類視覺(jué)的過(guò)程,以達(dá)到對(duì)物體的理解、識(shí)別、分類、跟蹤、重建等目的的技術(shù)。8.2.1什么是計(jì)算機(jī)視覺(jué)?

計(jì)算機(jī)視覺(jué)要解決的問(wèn)題主要是讓機(jī)器能看見(jiàn)世界中的客觀對(duì)象和對(duì)對(duì)象有一定的理解能力。

換句話說(shuō)計(jì)算機(jī)視覺(jué)要研究的問(wèn)題:(1)機(jī)器“看見(jiàn)”世界的能力,(2)機(jī)器“看懂”和“理解”世界的能力(3)機(jī)器能進(jìn)行“溝通”和“交互”的能力。說(shuō)到這個(gè)問(wèn)題,要先從我們?nèi)祟惾绾握J(rèn)識(shí)世界說(shuō)起。8.2.2計(jì)算機(jī)視覺(jué)要解決的問(wèn)題是什么?8.2.3我們?nèi)祟惾绾巍翱词澜纭保?/p>

從最早感知光線的生物三葉蟲(chóng)到我們?nèi)祟?,自然界?jīng)歷了5億4千萬(wàn)年的努力,而這大部分的時(shí)間都是在完成人類大腦內(nèi)視覺(jué)處理器官的進(jìn)化,而不是眼睛本身。8.2.3我們?nèi)祟惾绾巍翱词澜纭保?/p>

在這個(gè)非常漫長(zhǎng)的過(guò)程,“視覺(jué)”從眼睛采集數(shù)據(jù)開(kāi)始,而大腦才是它呈現(xiàn)意義的地方,8.2.3我們?nèi)祟惾绾巍翱词澜纭保?/p>

(a)寶寶水杯

(b)媽媽的水杯

(c)爸爸的水杯幼年時(shí)期認(rèn)識(shí)的各種水杯8.2.3我們?nèi)祟惾绾巍翱词澜纭保?/p>

當(dāng)我們認(rèn)識(shí)足夠多的水杯后,下次再見(jiàn)到一個(gè)水杯,不用告訴我們這是水杯,我們就可以認(rèn)識(shí)到它是個(gè)水杯了,甚至還可以表達(dá)出一些需求,媽媽,我想要這個(gè)水杯

李飛飛在TED的演講中,講到3歲的孩子,他通過(guò)眼睛要看到3億張的圖片,并把它們存入大腦,3歲以后的孩子對(duì)世界的認(rèn)識(shí)基本就建立起來(lái)了。人類對(duì)現(xiàn)實(shí)世界的認(rèn)識(shí)其實(shí)就是建立在先認(rèn)識(shí)、后識(shí)別的基礎(chǔ)上。8.2.3我們?nèi)祟惾绾巍翱词澜纭保?/p>

人類經(jīng)過(guò)上億年的進(jìn)化,我們才具備用眼看世界和識(shí)別世界的能力,其實(shí)機(jī)器對(duì)世界的認(rèn)識(shí),也同樣是經(jīng)過(guò)先認(rèn)識(shí),再識(shí)別的過(guò)程。8.2.3我們?nèi)祟惾绾巍翱词澜纭保?.2.4人類如何教會(huì)機(jī)器“看世界”?1839年能記錄圖像,照相機(jī)的發(fā)明1957年圖像數(shù)字化20世紀(jì)60年代(1)三維視覺(jué)理解的研究(2)發(fā)明了圖像傳感器1959年二維圖像的分析和識(shí)別20世紀(jì)90年代特征識(shí)別2009年高質(zhì)量數(shù)據(jù)集ImageNet2006年至今深度學(xué)習(xí)在視覺(jué)中的應(yīng)用

(一)出現(xiàn)有標(biāo)注的高質(zhì)量數(shù)據(jù)集

2009年,李飛飛教授等發(fā)布了ImageNet數(shù)據(jù)集。8.2.4人類如何教會(huì)機(jī)器“看世界”?

(一)出現(xiàn)有標(biāo)注的高質(zhì)量數(shù)據(jù)集

ImageNet數(shù)據(jù)集包含了1400多萬(wàn)幅圖片。2萬(wàn)多個(gè)類別的大型數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)集是一個(gè)用于圖像識(shí)別和分類的大型數(shù)據(jù)庫(kù),?包含了大量的標(biāo)注圖片,?用于訓(xùn)練和測(cè)試圖像識(shí)別算法。?ImageNet數(shù)據(jù)集的規(guī)模和多樣性對(duì)于推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展起到了重要作用,?使得研究人員能夠開(kāi)發(fā)出更加準(zhǔn)確的圖像識(shí)別和分類算法。8.2.4人類如何教會(huì)機(jī)器“看世界”?

(二)2010年-至今深度學(xué)習(xí)在視覺(jué)中流行,在應(yīng)用上百花齊放

2012年,AlexKrizhevsky、IlyaSutskever和GeoffreyHinton創(chuàng)造了一個(gè)“大型的深度卷積神經(jīng)網(wǎng)絡(luò)”,也即現(xiàn)在眾所周知的AlexNet。8.2.4人類如何教會(huì)機(jī)器“看世界”?(三)計(jì)算機(jī)視覺(jué)應(yīng)用系統(tǒng)主要包括圖像采集、預(yù)處理、特征提取、圖像識(shí)別和決策判斷等模塊。圖像采集預(yù)處理特征提取圖像識(shí)別輸出結(jié)果場(chǎng)景決策判斷8.2.4人類如何教會(huì)機(jī)器“看世界”?過(guò)程舉個(gè)例子:高鐵出現(xiàn)時(shí)人臉識(shí)別

8.2.5機(jī)器要認(rèn)識(shí)什么?

機(jī)器認(rèn)識(shí)對(duì)象,其實(shí)是對(duì)對(duì)應(yīng)圖像的認(rèn)識(shí),更準(zhǔn)確地說(shuō)是對(duì)從圖像中提取出來(lái)的特征的認(rèn)識(shí),如人臉的輪廓、眼、鼻子、嘴巴、眉毛等特征,或是花朵的顏色、形狀等特征。

8.2.5機(jī)器要認(rèn)識(shí)什么?

要得到圖像就需要圖像采集系統(tǒng)了。對(duì)可見(jiàn)光的處理是計(jì)算機(jī)視覺(jué)的一個(gè)非常重要的應(yīng)用,攝像頭是可見(jiàn)光范圍內(nèi)常用的采集傳感器。但在實(shí)際應(yīng)用中的光學(xué)采集傳感器還有很多,如雷達(dá)傳感器、紅外傳感器等,他們的作用范圍也不相同。

8.2.5機(jī)器要認(rèn)識(shí)什么?

在本章,提到的傳感器采集的數(shù)據(jù)主要是基于攝像頭的光敏傳感器采集的可見(jiàn)光范圍的圖像。

8.2.5機(jī)器要認(rèn)識(shí)什么?

采集后,顯示的是數(shù)字圖像。數(shù)字圖像由像素構(gòu)成,其中每個(gè)像素有位置值和顏色值兩個(gè)屬性,位置用x、y表示,顏色用RGB表示。機(jī)器就是通過(guò)對(duì)這些像素值進(jìn)行計(jì)算處理來(lái)認(rèn)識(shí)圖像。

8.2.6計(jì)算機(jī)視覺(jué)的處理方法計(jì)算機(jī)視覺(jué)的處理自動(dòng)學(xué)習(xí)特征,但需要大量數(shù)據(jù)和計(jì)算資源傳統(tǒng)基于特征學(xué)習(xí)的方法基于關(guān)鍵點(diǎn)的特征基于紋理的特征基于區(qū)域的特征基于顏色和形狀的特征基于多尺度提取圖像特征深度學(xué)習(xí)方法卷積神經(jīng)網(wǎng)絡(luò)(CNN)生成對(duì)抗網(wǎng)絡(luò)(GAN)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)Transformer架構(gòu)等端到端,速度更快,使用更為簡(jiǎn)單和高效,尤其在嵌入式設(shè)備中,被廣泛使用

以人臉識(shí)別為例,在機(jī)器實(shí)現(xiàn)人臉識(shí)別的的過(guò)程中,人們提出了很多有效的方法,主要經(jīng)歷了三個(gè)階段。

8.2.6計(jì)算機(jī)視覺(jué)的處理方法

第一個(gè)階段:基于幾何特征的人臉識(shí)別方法,20世紀(jì)60至80年代思想:每個(gè)人的面部幾何結(jié)構(gòu)都是獨(dú)特的

8.2.6計(jì)算機(jī)視覺(jué)的處理方法第二個(gè)階段:自動(dòng)化與算法化,20世紀(jì)90年代至21世紀(jì)初(a)原圖

(b)多個(gè)找人臉的滑動(dòng)窗口

(c)找到人臉通過(guò)滑動(dòng)窗口來(lái)進(jìn)行人臉識(shí)別

8.2.6計(jì)算機(jī)視覺(jué)的處理方法第三個(gè)階段:深度學(xué)習(xí)方法,自21世紀(jì)初至今

楊立昆所開(kāi)發(fā)的手寫(xiě)字識(shí)別技術(shù),基于神經(jīng)網(wǎng)絡(luò)算法,成功地將郵局提供的9000份掃描件進(jìn)行了識(shí)別,該技術(shù)亦被稱為L(zhǎng)eNet。

自2012年李飛飛的ImageNet數(shù)據(jù)集問(wèn)世以來(lái),楊立昆的學(xué)弟,更確切地說(shuō)是辛頓的學(xué)生們,持續(xù)在大數(shù)據(jù)識(shí)別領(lǐng)域進(jìn)行深入研究。隨后,AlexNet誕生,它基于海量數(shù)據(jù),在英偉達(dá)的圖形處理單元上對(duì)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了驗(yàn)證。數(shù)據(jù)算法算力

之后,深度學(xué)習(xí)方法在人類識(shí)別中取得了巨大成功,并大規(guī)模走向商業(yè)使用,基于特定數(shù)據(jù)集LFW(LabeledFacesintheWild,自然環(huán)境下帶標(biāo)注人臉數(shù)據(jù)集)上的識(shí)別率均在99%以上。研究表明,人類的識(shí)別率為97%左右,可見(jiàn)機(jī)器人臉識(shí)別遠(yuǎn)超人類人臉識(shí)別的水平。

8.2.6計(jì)算機(jī)視覺(jué)的處理方法第三個(gè)階段:深度學(xué)習(xí)方法,自21世紀(jì)初至今

8.2.6計(jì)算機(jī)視覺(jué)的處理方法第三個(gè)階段:深度學(xué)習(xí)方法,自21世紀(jì)初至今模型訓(xùn)練人臉識(shí)別準(zhǔn)備階段實(shí)施階段如何認(rèn)識(shí)人臉?解決這是誰(shuí)的臉?解決深度學(xué)習(xí)的人臉識(shí)別流程(1)講述李飛飛自身成長(zhǎng)的勵(lì)志書(shū)(2)講述人工智能發(fā)展(3)講述計(jì)算機(jī)視覺(jué)的發(fā)展...圖書(shū)推薦

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用是什么?

在哪里?

是什么?在哪里?

像素的歸屬問(wèn)題計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。分類

定位

檢測(cè)

分割計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用1.

分類(Classification)問(wèn)題:圖片里是什么?例子:給你一張圖,判斷是“貓”還是“狗”。技術(shù)本質(zhì):算法給整張圖打一個(gè)標(biāo)簽,像老師批改選擇題(單選)。實(shí)際應(yīng)用:相冊(cè)自動(dòng)分類(貓/狗/風(fēng)景)、垃圾郵件過(guò)濾(正常/垃圾)。關(guān)鍵特點(diǎn):只關(guān)心“是什么”,不關(guān)心“在哪里”或“有多少”。計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用2.定位(Localization)問(wèn)題:目標(biāo)在哪里?(通常已知類別)例子:已知圖中有貓,用框標(biāo)出貓的位置。技術(shù)本質(zhì):在分類基礎(chǔ)上加一個(gè)邊界框,像用筆圈出答案。實(shí)際應(yīng)用:人臉識(shí)別時(shí)框出人臉、自動(dòng)駕駛中標(biāo)記車輛位置。關(guān)鍵特點(diǎn):通常針對(duì)單個(gè)目標(biāo),既要分類也要定位。計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用3.檢測(cè)(Detection)問(wèn)題:圖中是什么?它們?cè)谀睦铮坷樱阂粡埥志皥D中找出所有的車、行人、紅綠燈,并分別標(biāo)出位置和類別。技術(shù)本質(zhì):多目標(biāo)定位+分類,像在一群小朋友中找出所有戴紅帽子的并點(diǎn)名。實(shí)際應(yīng)用:自動(dòng)駕駛、安防監(jiān)控(識(shí)別多個(gè)人或物體)。關(guān)鍵特點(diǎn):處理多個(gè)目標(biāo),輸出一堆邊界框和類別標(biāo)簽。計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用4.分割(Segmentation)問(wèn)題:每個(gè)像素歸屬問(wèn)題?例子:把照片中的貓的每一根毛發(fā)、腳爪的像素都精確標(biāo)出來(lái),其他背景排除。技術(shù)本質(zhì):給每個(gè)像素分類,像用彩色筆給不同區(qū)域涂色(貓涂藍(lán)色、狗涂青色)。細(xì)分類型:語(yǔ)義分割和實(shí)例分割:實(shí)際應(yīng)用:醫(yī)學(xué)圖像(標(biāo)記腫瘤區(qū)域)、地圖分割等。關(guān)鍵特點(diǎn):像素級(jí)精度,比檢測(cè)的邊界框更精細(xì)。計(jì)算機(jī)視覺(jué)關(guān)于圖像識(shí)別主要有四大任務(wù),分別為分類、定位、檢測(cè)和分割,不同任務(wù)解決不一樣的問(wèn)題。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用技術(shù)關(guān)聯(lián):這些任務(wù)通常共用底層技術(shù)(如卷積神經(jīng)網(wǎng)絡(luò)CNN)來(lái)完成,四個(gè)任務(wù)難度遞增:(1)分類是基礎(chǔ),(2)檢測(cè)=分類+定位的多次應(yīng)用,(3)分割需要更精細(xì)的處理。根據(jù)應(yīng)用的目的和場(chǎng)景不同

(1)圖像分類(2)目標(biāo)檢測(cè)(3)目標(biāo)跟蹤(4)語(yǔ)義分割(5)實(shí)例分割有時(shí)候還會(huì)有些應(yīng)用上的細(xì)分

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用(1)圖像分類。是一種利用計(jì)算機(jī)技術(shù)對(duì)圖像進(jìn)行處理、分析和理解,按照一定的分類規(guī)則將圖像自動(dòng)分到一組預(yù)定義類別中的過(guò)程。超市購(gòu)物時(shí)能自動(dòng)進(jìn)行水果分類

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用(2)目標(biāo)檢測(cè)。是指在圖像或視頻中識(shí)別出目標(biāo)物體所在的位置,并標(biāo)注出其所屬的類別。(3)目標(biāo)跟蹤。目標(biāo)跟蹤是指計(jì)算機(jī)視覺(jué)系統(tǒng)發(fā)現(xiàn)目標(biāo)后,能在后續(xù)時(shí)間內(nèi),不管目標(biāo)位置是否發(fā)生變化,始終“看到”目標(biāo)并獲得目標(biāo)的實(shí)時(shí)位置、形態(tài)等信息。目標(biāo)跟蹤相當(dāng)于動(dòng)態(tài)進(jìn)行目標(biāo)檢測(cè)。自動(dòng)駕駛中的目標(biāo)檢測(cè)

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用(4)語(yǔ)義分割

語(yǔ)義分割旨在將輸入圖像中的每個(gè)像素標(biāo)記為屬于哪個(gè)語(yǔ)義類別。與目標(biāo)檢測(cè)和圖像分類不同,語(yǔ)義分割不僅可以識(shí)別圖像中的物體,還可以為每個(gè)像素分配標(biāo)簽,從而提供更詳細(xì)和準(zhǔn)確的圖像理解。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用(4)語(yǔ)義分割

主要應(yīng)用:適用于對(duì)圖像進(jìn)行精細(xì)分割和像素級(jí)分類的場(chǎng)景,例如自動(dòng)駕駛中的道路分割、醫(yī)學(xué)圖像中的病灶分割、地理信息系統(tǒng)中的土地分類等。

8.2.7計(jì)算機(jī)視覺(jué)的任務(wù)、分類及應(yīng)用(5)實(shí)例分割

實(shí)例分割是結(jié)合目標(biāo)檢測(cè)和語(yǔ)義分割的一個(gè)更高層級(jí)的任務(wù),旨在檢測(cè)圖像中的物體的同時(shí)將

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論