版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章計(jì)算機(jī)視覺及應(yīng)用——趙克玲本章目標(biāo)了解計(jì)算機(jī)視覺的定義及基本原理理解圖像的特征及圖像分類的技術(shù)原理理解基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與特征提取了解計(jì)算機(jī)視覺的應(yīng)用視覺視覺可以分為視感覺和視知覺感覺是較低層次的,主要接收外部刺激,對(duì)外部刺激是基本不加區(qū)別地完全接收;知覺則處于較高層次,要確定有外界刺激的哪些部分組合成關(guān)心的目標(biāo),將外部刺激轉(zhuǎn)化為有意義的內(nèi)容。視覺的最終目的從狹義上說是要能對(duì)客觀場景做出對(duì)觀察者有意義的解釋和描述;從廣義上將,還包括基于這些解釋和描述并根據(jù)周圍環(huán)境和觀察者的意愿來制定出行為規(guī)劃,并作用于周圍的世界,這實(shí)際上也是計(jì)算機(jī)視覺的目標(biāo)。計(jì)算機(jī)視覺計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是指用攝影機(jī)和計(jì)算機(jī)代替人眼對(duì)目標(biāo)進(jìn)行分類、識(shí)別、跟蹤和測(cè)量、空間重建等機(jī)器視覺,并進(jìn)一步做圖像處理,用計(jì)算機(jī)出來成為更適合人眼觀測(cè)或傳送給儀器檢測(cè)的圖像。視覺眼睛機(jī)器視覺攝像頭計(jì)算機(jī)視覺的四個(gè)步驟計(jì)算機(jī)視覺的硬件構(gòu)成機(jī)器視覺的硬件構(gòu)成也可以大概說成是攝像機(jī)和電腦。作為圖像采集設(shè)備,除了攝像機(jī)之外,還有圖像采集卡,光源等設(shè)備。計(jì)算機(jī)視覺的軟件開發(fā)工具計(jì)算機(jī)的軟件開發(fā)工具包括C、C++、VisualC++、C#、Java、BASIC、FORTARN等。常用的圖像處理算法軟件,例如國外的OpenCV和Matlab,國內(nèi)的通用圖像處理系統(tǒng)ImageSys開發(fā)平臺(tái)等機(jī)器視覺就是,利用攝像機(jī)和計(jì)算機(jī)等硬件,實(shí)現(xiàn)對(duì)目標(biāo)的圖像采集、分類、識(shí)別跟蹤、測(cè)量,并利用計(jì)算機(jī)軟件開發(fā)工具,進(jìn)行處理從而得到所需的檢測(cè)圖像計(jì)算機(jī)中圖像的表示
圖像表示是圖像信息在計(jì)算機(jī)中的表示和存儲(chǔ)方式。圖像表示和圖像運(yùn)算一起組成圖像模型,是模式分析中的重要組成部分。計(jì)算機(jī)和數(shù)碼相機(jī)等數(shù)碼設(shè)備中的圖像都是數(shù)字圖像,在拍攝照片或者掃描文件時(shí)輸入的是連續(xù)模擬信號(hào),需要經(jīng)過采樣和量化,將輸入的模擬信號(hào)轉(zhuǎn)化為最終的數(shù)字信號(hào)。計(jì)算機(jī)中色彩的表示
照片分黑白和彩色,在圖像中,我們有相應(yīng)的灰度圖像和彩色圖像。對(duì)于灰度圖像只有明暗的區(qū)別,只需要一個(gè)數(shù)字就可以表示出不同的灰度,通常我們用0表示最暗的黑色,255表示最亮的白色,介于0-255之間的則表示不同明暗程度的灰色。特殊RGB值對(duì)應(yīng)的顏色計(jì)算機(jī)中圖像文件格式
圖像文件格式是記錄和存儲(chǔ)影像信息的格式。對(duì)數(shù)字圖像進(jìn)行存儲(chǔ)、處理、傳播,必須采用一定的圖像格式,也就是把圖像的像素按照一定的方式進(jìn)行組織和存儲(chǔ),把圖像數(shù)據(jù)存儲(chǔ)成文件就得到圖像文件。
圖像文件格式有很多,主要格式有:BMP、TIFF、GIF、PNG、JPEG等,現(xiàn)在開發(fā)的幾乎所有的圖像處理軟件都支持這些格式。計(jì)算機(jī)中視頻文件格式
視頻文件格式是指視頻保存的一種格式,視頻是現(xiàn)在電腦中多媒體系統(tǒng)中的重要一環(huán)。為了適應(yīng)儲(chǔ)存視頻的需要,人們?cè)O(shè)定了不同的視頻文件格式來把視頻和音頻放在一個(gè)文件中,以方便同時(shí)回放。常用的視頻文件格式有:AVI、WMV、MPEG等常用圖像處理方法
圖像處理的基本算法包括:圖像增強(qiáng),去噪聲處理,圖像分割、邊緣檢測(cè)、特征提取、幾何變換等,經(jīng)典算法有,Hough(哈夫)變換,傅里葉變換,小波(wavelet)變換、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、遺傳算法等還包含許多處理細(xì)節(jié)。圖像分類圖像分類是指根據(jù)各自在圖像信息中所反映的不同特征,把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。它利用計(jì)算機(jī)對(duì)圖像進(jìn)行定量分析,把圖像或圖像中的每個(gè)像元或區(qū)域劃歸為若干個(gè)類別中的某一種,以代替人的視覺判讀。
鳶尾花的分類
在鳶尾花特征的提取中,我們通過測(cè)量花瓣的長和寬,從一個(gè)鳶尾花樣本中提取一個(gè)二維的特征向量,隨后這個(gè)特征向量被輸入到分類器,經(jīng)過一系列計(jì)算,分類器就可以判斷出這朵鳶尾花的類別。
特征是在分類器乃至于所有人工智能系統(tǒng)中非常重要的概念,對(duì)同樣的事物,我們可以提取出各種各樣的特征,我們需要根據(jù)物體和數(shù)據(jù)本身具有的特點(diǎn),考慮不同類別之間的差異,并在此基礎(chǔ)上設(shè)計(jì)出有效的特征。特征的質(zhì)量很大程度上決定了分類器最終分類的好壞。特征提取圖像特征
圖像特征是指圖像的原始特性或?qū)傩裕饕袌D像的顏色特征、紋理特征、形狀特征和空間關(guān)系特征。顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì);紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì);形狀特征有兩類表示方法,一類是輪廓特征,另一類是區(qū)域特征,圖像的輪廓特征主要針對(duì)物體的外邊界,而圖像的區(qū)域特征則關(guān)系到整個(gè)形狀區(qū)域;空間關(guān)系特征,是指圖像中分割出來的多個(gè)目標(biāo)之間的相互的空間位置或相對(duì)方向關(guān)系,這些關(guān)系也可分為連接/鄰接關(guān)系、交疊/重疊關(guān)系和包含/包容關(guān)系等。特征提取
通過對(duì)圖像的特征分析,計(jì)算機(jī)就可以識(shí)別物體,對(duì)物體分類或者對(duì)物體是否符合標(biāo)準(zhǔn)進(jìn)行判別實(shí)現(xiàn)質(zhì)量監(jiān)控等,也就是所謂的圖像的特征提取。常用的特征提取方法有:傅里葉(Fourier)變換法、窗口傅里葉(Fourier)變換、小波變換法、最小二乘法、邊界方向直方圖法、基于Tamura紋理特征的紋理特征提取等。方向梯度直方圖方向梯度直方圖(HOG)是一種經(jīng)典的圖像特征,在物體識(shí)別和物體檢測(cè)中有較好的應(yīng)用。方向梯度直方圖使用邊緣檢測(cè)技術(shù)和一些統(tǒng)計(jì)學(xué)方法,可以表示出圖像中物體的輪廓。由于不同的物體輪廓有所不同,因此我們可以利用方向梯度直方圖特征區(qū)分圖像中不同的物體。方向梯度直方圖的原理就是利用卷積運(yùn)算,從圖像中提取一些邊緣特征,然后通過劃分,將這些特征劃分為若干區(qū)域,并對(duì)邊緣特征按照方向和幅度進(jìn)行統(tǒng)計(jì),形成直方圖,最后我們將所有區(qū)域內(nèi)的直方圖拼接起來,即形成了特征向量。卷積運(yùn)算在圖像處理以及其他許多領(lǐng)域有著廣泛的應(yīng)用,卷積和加減乘除一樣,是通過兩個(gè)函數(shù)f和g生成第三個(gè)函數(shù)的一種數(shù)學(xué)算子,是數(shù)字信號(hào)處理中常用到的運(yùn)算。參與卷積運(yùn)算的可以是向量,矩陣或者三階張量。向量的卷積運(yùn)算卷積運(yùn)算
對(duì)于矩陣的卷積運(yùn)算,在大矩陣中將截取的與小矩陣大小一致的矩陣部分向橫向和縱向兩個(gè)方向進(jìn)行滑動(dòng),進(jìn)行卷積運(yùn)算。即對(duì)應(yīng)位置的去求內(nèi)積然后進(jìn)行相加,得到的結(jié)果仍然是一個(gè)矩陣。由此,我們可以知道,矩陣間的卷積是利用與小矩陣相同的矩陣部分在大矩陣中沿橫向和縱向兩個(gè)方向滑動(dòng),可以設(shè)置它的步長(默認(rèn)步長是1),然后依次去滑動(dòng)。矩陣的卷積運(yùn)算對(duì)于三維張量的卷積運(yùn)算也是同樣的理念。在這里,我們討論一種簡單的情形,當(dāng)兩個(gè)張量的通道數(shù)相同時(shí),滑動(dòng)操作和矩陣卷積一樣,只需要在長和寬兩個(gè)方向上進(jìn)行,卷積的結(jié)果是一個(gè)通道數(shù)為1的三維張量。當(dāng)兩個(gè)張量的通道數(shù)相同的時(shí)候,滑動(dòng)操作和矩陣卷積是一樣的,只需要在長和寬兩個(gè)方向進(jìn)行。最終卷積的結(jié)果就是一個(gè)通道數(shù)為1的三維張量,這樣通過卷積運(yùn)算我們就可以去提取圖像的特征。三維張量的卷積運(yùn)算通過卷積計(jì)算,我們可以將原圖像變換成為一幅新圖像,這幅新圖像比原圖像更清楚的表現(xiàn)了某些性質(zhì),我們就可以把它當(dāng)作原圖像的一個(gè)特征,這里的小矩陣就叫做卷積核。卷積核中的元素可以是任意實(shí)數(shù)。利用卷積提取圖像特征基于深度神經(jīng)網(wǎng)絡(luò)圖像分類AlexNet這個(gè)神經(jīng)網(wǎng)絡(luò)的主體是由五個(gè)卷積層和三個(gè)全連接層組成,五個(gè)卷積層位于網(wǎng)絡(luò)的最前端,依次對(duì)于圖像進(jìn)行變換以提取特征,每個(gè)卷積層之后都有一個(gè)ReLU非線性激活層,作為激活層完成非線性變換,在第1、2、5個(gè)層之后連接有最大池化層,它的作用就是降低特征圖的分辨率。那么經(jīng)過五個(gè)卷積層以及相連的非線性激活層與池化層之后,特征圖最終就被轉(zhuǎn)換成了4096維的特征向量,在經(jīng)過兩次全連接層和ReLU的變換之后,成為最終的特征向量,最后再經(jīng)過一個(gè)全連接層和一個(gè)softmax歸一化指數(shù)層后,就得到了對(duì)于圖片所屬類別的預(yù)測(cè)。卷積層是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中在處理圖像的時(shí)候十分常用的一種層,當(dāng)一個(gè)深度神經(jīng)網(wǎng)絡(luò)以卷積層為主體的時(shí)候我們也稱其為卷積神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)中的卷積層就是采用卷積運(yùn)算,然后對(duì)原始圖像或者是上一層的特征來進(jìn)行變換的層,在前面我們學(xué)習(xí)了卷積核去提取邊緣特征,一種特定的卷積核可以對(duì)圖像進(jìn)行一種特定的變換,從而提取出某種特定的特征。我們通常使用多個(gè)卷積核對(duì)輸入的圖像進(jìn)行不同的卷積運(yùn)算。(1)卷積層全連接層表示在圖片分類任務(wù)中,輸入圖像在經(jīng)過若干個(gè)卷積層之后,會(huì)將特征圖轉(zhuǎn)換為特征向量,如果需要對(duì)特征向量進(jìn)行變換,經(jīng)常用到的就是全連接層,在全連接層我們會(huì)使用若干個(gè)維數(shù)相同的向量,與輸入的向量做內(nèi)積的操作,會(huì)將所有結(jié)果拼接成一個(gè)向量作為輸出。具體來說,如果一個(gè)全連接層以一個(gè)向量X作為輸入,我們會(huì)用總共K個(gè)維數(shù)相同的參數(shù)向量W與輸入的向量X做內(nèi)積運(yùn)算,再在結(jié)果上加上一個(gè)標(biāo)量b,即完成Y=X*W+b的運(yùn)算,最后我們將K個(gè)標(biāo)量的結(jié)果y,組成整個(gè)向量Y作為這一層的輸出。(2)全連接層歸一化指數(shù)層的作用就是完成多類線性分類器中的規(guī)劃指數(shù)函數(shù)的計(jì)算,是分類網(wǎng)絡(luò)的最后一層,它是一個(gè)長度和類別的個(gè)數(shù)相等的特征向量作為輸入,這個(gè)特征向量通常來自于一個(gè)全連接層的輸出,輸出圖像屬于各個(gè)類別的概率。(3)歸一化指數(shù)層在每次做完卷積層之后還要加一個(gè)激活函數(shù),即需要在每一個(gè)卷積層后面都連接一個(gè)非線性的激活層,不論是卷積運(yùn)算還是全連接的運(yùn)算,它們都是關(guān)于自變量的一次函數(shù),也就是所謂的線性函數(shù),線性函數(shù)有一個(gè)性質(zhì),若干線性計(jì)算的復(fù)合仍然是線性的,我們?cè)诿看尉€性運(yùn)算之后再進(jìn)行一次非線性的運(yùn)算,每次變換的下偶哦可以保留。常用到的有sigmod和ReLU等函數(shù)。(4)非線性激活層在卷積運(yùn)算的時(shí)候我們會(huì)將卷積核滑過圖像或者是特征圖的每一個(gè)像素,如果圖像或者特征圖的分辨率很大的話,那么卷積層的計(jì)算量就會(huì)很大,所以為了解決這個(gè)問題我們通常會(huì)在幾個(gè)卷積層之后插入池化層,降低特征圖的分辨率。
(5)池化層目標(biāo)檢測(cè)檢測(cè)則是用來判斷固定的區(qū)域中是否包含物體,并且還要判斷出其中的物體是屬于哪一類的。隨著互聯(lián)網(wǎng)的發(fā)展,視頻數(shù)量日益增長,視頻內(nèi)容日漸豐富,視頻技術(shù)的應(yīng)用日趨廣泛,面對(duì)浩如煙海的視頻資源,如何讓計(jì)算機(jī)自動(dòng)且準(zhǔn)確的分析內(nèi)容,從而方便我們使用呢?視頻理解作為這一切的基礎(chǔ),理所當(dāng)然的成為計(jì)算機(jī)視覺領(lǐng)域的熱門方向,從光流特征到軌跡特征,從傳統(tǒng)方法到深度學(xué)習(xí),新方法的出現(xiàn)不斷推動(dòng)著視頻理解技術(shù)的發(fā)展。視頻行為識(shí)別視頻的本質(zhì)是連續(xù)播放的圖片,由于人眼具有視覺暫留機(jī)制,即光對(duì)視網(wǎng)膜所產(chǎn)生的視覺在光停止作用后,仍保留一段時(shí)間,這樣我們就產(chǎn)生了一個(gè)畫面延續(xù)的感覺,形成動(dòng)態(tài)的效果。行為是人類在執(zhí)行某一個(gè)任務(wù)的時(shí)候所發(fā)生的一連串的動(dòng)作,視頻行為識(shí)別是計(jì)算機(jī)分析給定的視頻數(shù)據(jù),辨別出用戶行為的過程。視頻行為識(shí)別,在很多領(lǐng)域都有重要的應(yīng)用價(jià)值。在視頻處理中,采用光流來描述運(yùn)動(dòng)的情況,光流描述的是三維的運(yùn)動(dòng)點(diǎn)投影到二維圖像之后的相應(yīng)的一些投影點(diǎn)的運(yùn)動(dòng)。
1.視頻的表示我們可以將視頻的信息分為靜態(tài)和動(dòng)態(tài)兩個(gè)方面,靜態(tài)信息指圖像中物體的外觀,包含場景和物體,可以通過靜態(tài)圖片幀獲得,動(dòng)態(tài)信息指視頻序列中物體的運(yùn)動(dòng)信息,包含觀察者和物體的運(yùn)動(dòng),可以通過光流灰度圖來獲得。視頻行為識(shí)別中廣泛應(yīng)用的是雙流卷積神經(jīng)網(wǎng)絡(luò),就是利用這兩個(gè)不同的網(wǎng)絡(luò)來實(shí)時(shí)同時(shí)處理靜態(tài)和動(dòng)態(tài)信息。對(duì)于單個(gè)彩色圖像幀作為輸入的網(wǎng)絡(luò)叫做空間卷積神經(jīng)網(wǎng)絡(luò),而把多幀的光流圖像作為輸入的網(wǎng)絡(luò)稱為時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)。針對(duì)長視頻中的行為識(shí)別任務(wù),我們
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電纜耐壓測(cè)試操作規(guī)范
- 省級(jí)科普基地項(xiàng)目申請(qǐng)材料
- 小學(xué)英語六年級(jí)期末復(fù)習(xí)資料全解析
- 2025航空維修保養(yǎng)領(lǐng)域市場深度研究及行業(yè)發(fā)展前景與融資資本分析
- 2025航空煤油市場供需平衡預(yù)測(cè)分析投資布局趨勢(shì)報(bào)告
- 城市水利設(shè)施維護(hù)檢查表及評(píng)價(jià)標(biāo)準(zhǔn)
- 2025航空服務(wù)業(yè)市場供需現(xiàn)狀競爭格局投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025航海運(yùn)輸領(lǐng)域風(fēng)險(xiǎn)投資發(fā)展分析及融資策略研究報(bào)告
- 2025航海行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析投資策略研究報(bào)告
- 2025航海業(yè)市場深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025年河北承德市啟明學(xué)校公開招聘教師15名(公共基礎(chǔ)知識(shí))測(cè)試題附答案解析
- 市政道路工程施工組織設(shè)計(jì)
- 2025年福建省公安特警招聘52人備考?xì)v年題庫附答案解析(奪冠)
- 產(chǎn)后康復(fù)中心合作協(xié)議(醫(yī)療版)
- 國網(wǎng)湖南省電力有限公司2026年第一批招聘高校畢業(yè)生考試筆試考試參考題庫及答案解析
- 基建工程索賠管理人員索賠證據(jù)收集與審核指南
- 2025年北京公共交通控股集團(tuán)有限公司校園招聘筆試試題及答案
- AI智能生產(chǎn)平臺(tái)-AI+質(zhì)量管理
- 2025-2026學(xué)年人教版一年級(jí)美術(shù)上冊(cè)全冊(cè)教案
- 地理信息系統(tǒng)gis第5章-GIS空間分析-課課件
- 中考語文專題復(fù)習(xí)-邊塞類詩歌內(nèi)容精講
評(píng)論
0/150
提交評(píng)論