下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
動(dòng)作識(shí)別算法國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述人體動(dòng)作識(shí)別(humanactionrecognition)在無(wú)人機(jī)、安防監(jiān)控和體育比賽等多個(gè)領(lǐng)域都有著非常廣泛的應(yīng)用,一直是計(jì)算機(jī)視覺(jué)中的一個(gè)熱門(mén)研究領(lǐng)域,在學(xué)術(shù)界得到了廣泛關(guān)注,研究人員發(fā)表在人工智能和計(jì)算機(jī)視覺(jué)相關(guān)的國(guó)際會(huì)議(CVPR,NIPS,ECCV)和期刊(JMLR,IJCV)的論文中,人體動(dòng)作識(shí)別方向占有很大的比重,每年該領(lǐng)域都會(huì)涌現(xiàn)出很多優(yōu)秀的研究成果。人體動(dòng)作識(shí)別的研究方法有很多種,但都可以將它們歸類(lèi)為基于傳統(tǒng)機(jī)器學(xué)習(xí)理論的動(dòng)作識(shí)別方法或者基于深度學(xué)習(xí)理論的動(dòng)作識(shí)別方法[REF_Ref71189665\r\h14]。兩種動(dòng)作識(shí)別方法的主要區(qū)別在特征的獲取階段?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別方法流程如圖1.1(a)所示,首先需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后再對(duì)特征進(jìn)行提取,最后根據(jù)每個(gè)動(dòng)作的不同特征,進(jìn)行特征選擇從而完成動(dòng)作識(shí)別?;谏疃葘W(xué)習(xí)的動(dòng)作識(shí)別方法流程如圖1.1(b)所示,不需要再像基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別方法那樣手工設(shè)計(jì)特征,而是根據(jù)識(shí)別任務(wù)的需求構(gòu)建相應(yīng)的多層神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),提取數(shù)據(jù)集中視頻幀的空間特征和連續(xù)視頻幀之間的時(shí)間特征,利用特征融合的方式使神經(jīng)網(wǎng)絡(luò)從低維到高維學(xué)習(xí)到的特征端到端地對(duì)動(dòng)作進(jìn)行識(shí)別。(a)基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別方法流程(b)基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法流程圖1.1基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的動(dòng)作識(shí)別方法流程Figure1.1Processofactionrecognitionmethodbasedonmachinelearninganddeeplearning(1)基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別算法研究現(xiàn)狀基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別算法處理流程為:首先提取視頻區(qū)域的局部高維視覺(jué)特征,然后組成固定大小的視頻幀級(jí)描述,最后使用分類(lèi)器對(duì)動(dòng)作進(jìn)行預(yù)測(cè)和分類(lèi)。基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別算法視頻預(yù)處理、特征提取和特征選擇都需要人工設(shè)計(jì),其中特征提取有兩種表示方式:自上而下提取全局特征的整體表示方法和自下而上提取特征的局部表示方法。整體表示方式首先進(jìn)行人體定位,然后對(duì)背景提取,追蹤人體目標(biāo),最后進(jìn)行ROI編碼操作。局部表示方式首先對(duì)STIP[REF_Ref71189795\r\h15]、HoG[REF_Ref71189808\r\h16]、HoF[REF_Ref71189820\r\h17]等時(shí)空興趣點(diǎn)檢測(cè),然后對(duì)鄰域特征點(diǎn)計(jì)算,最后將特征整合?;跈C(jī)器學(xué)習(xí)的動(dòng)作識(shí)別算法中有許多較為經(jīng)典的算法,例如,H.Wang等人先后提出了一種密集軌跡(DT)算法[REF_Ref71189877\r\h18]和基于DT算法改進(jìn)的密集軌跡(iDT)算法[REF_Ref71189885\r\h19]。DT算法由五個(gè)流程組成,首先對(duì)視頻每一幀圖片中的特征點(diǎn)進(jìn)行密集采樣,接著對(duì)采樣到的特征點(diǎn)在時(shí)間維度上跟蹤,然后基于時(shí)間維度形成的軌跡下提取和編碼特征,最后采用支持向量機(jī)(SVM)[REF_Ref71189892\r\h20]進(jìn)行分類(lèi)訓(xùn)練。iDT算法在DT算法的基礎(chǔ)上主要有以下改進(jìn):從光流圖像中消除相機(jī)移動(dòng)的影響;特征正則化從DT算法對(duì)特征進(jìn)行L2范數(shù)歸一化改進(jìn)為先對(duì)特征L1正則化后,再對(duì)特征的每個(gè)維度開(kāi)平方;特征編碼方式改進(jìn)為FisherVector編碼。iDT算法在機(jī)器學(xué)習(xí)動(dòng)作識(shí)別領(lǐng)域達(dá)到了前所未有的效果,但因?yàn)槠漭^高的特征維度,在實(shí)際工程中很難應(yīng)用,并且這些手工制作的功能在遇到大規(guī)模動(dòng)作識(shí)別數(shù)據(jù)集時(shí),其魯棒性并不令人滿(mǎn)意。(2)基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法研究現(xiàn)狀得益于近些年來(lái)深度學(xué)習(xí)理論的發(fā)展以及計(jì)算機(jī)設(shè)備計(jì)算能力的提升,動(dòng)作識(shí)別領(lǐng)域的研究成果上升到了一個(gè)新的高度。工業(yè)界對(duì)于動(dòng)作識(shí)別準(zhǔn)確率的要求隨著科技的發(fā)展越來(lái)越高,但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法因?yàn)轸敯粜圆缓?、泛化能力比較弱,所以達(dá)不到工業(yè)界的需求,因此動(dòng)作識(shí)別算法采用深度學(xué)習(xí)方法相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法具有很大的優(yōu)勢(shì)。目前學(xué)術(shù)界提出的基于深度學(xué)習(xí)的動(dòng)作識(shí)別領(lǐng)域主要有四種基本算法,如表中1.1所示,C3D、Two-StreamCNN動(dòng)作識(shí)別算法都是由卷積神經(jīng)網(wǎng)絡(luò)組成,而CNN-LSTM動(dòng)作識(shí)別算法在提取時(shí)間特征時(shí)使用的是LSTM長(zhǎng)短期記憶網(wǎng)絡(luò),與前三者不同的是,GCN動(dòng)作識(shí)別算法采用的是圖卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以很好地解決圖(Graph)類(lèi)型數(shù)據(jù)的學(xué)習(xí)任務(wù),而人體結(jié)構(gòu)可以簡(jiǎn)化為由若干個(gè)骨骼關(guān)鍵點(diǎn)組成的骨架圖,因此利用GCN圖卷積神經(jīng)網(wǎng)絡(luò)能夠達(dá)到動(dòng)作識(shí)別的目的。表1.1基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法網(wǎng)絡(luò)類(lèi)型Table1.1Networktypesofactionrecognitionalgorithmsbasedondeeplearning算法網(wǎng)絡(luò)類(lèi)型3D卷積神經(jīng)網(wǎng)絡(luò)(C3D)CNN雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-StreamCNN)CNN卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合(CNN-LSTM)圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)CNN和LSTMGCND.Tran[REF_Ref71190773\r\h21]提出的C3D動(dòng)作識(shí)別算法將3×3卷積擴(kuò)展到3×3×3卷積,相比于之前的2D卷積神經(jīng)網(wǎng)絡(luò)只提取視頻中每一幀圖片的空間特征,額外考慮了視頻幀與幀之間的時(shí)間特征。Z.Qiu[REF_Ref71190780\r\h22]針對(duì)C3D算法中計(jì)算量較大的問(wèn)題將3×3×3卷積替換為1×3×3的空間維度的卷積和一個(gè)3×1×1的時(shí)間維度得到了P3D算法,該算法在比C3D算法計(jì)算量少的情況下,較C3D算法識(shí)別準(zhǔn)確率高。SimonyanK[REF_Ref71190788\r\h23]首先提出了雙流卷積神經(jīng)網(wǎng)絡(luò)動(dòng)作識(shí)別方法,指的是兩個(gè)不同用途的卷積神經(jīng)網(wǎng)絡(luò)作為兩個(gè)分支,一個(gè)分支的卷積神經(jīng)網(wǎng)絡(luò)用來(lái)提取視頻幀與幀之間的光流特征,另外一個(gè)分支的卷積神經(jīng)網(wǎng)絡(luò)用來(lái)提取視頻每一幀圖片的空間特征,接著將光流特征和空間特征融合,送入Softmax分類(lèi)器輸出類(lèi)別分?jǐn)?shù),得到分類(lèi)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)相結(jié)合的動(dòng)作識(shí)別算法中兩個(gè)網(wǎng)絡(luò)有著不同的用途,卷積神經(jīng)網(wǎng)絡(luò)用來(lái)提取視頻中每一幀圖片的空間特征,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)用來(lái)提取連續(xù)視頻幀之間的時(shí)間特征,與雙流卷積神經(jīng)網(wǎng)絡(luò)中兩個(gè)分支網(wǎng)絡(luò)并聯(lián)的方式不同,該算法中兩個(gè)網(wǎng)絡(luò)的連接方式是前后級(jí)聯(lián)。J.Y.-H.Ng[REF_Ref71190797\r\h24]關(guān)注圖像的深度特征,將空間特征利用卷積神經(jīng)網(wǎng)絡(luò)提取之后,使用了5層的LSTM網(wǎng)絡(luò)提取了深度特征,獲得了較好的效果。基于圖卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法面向的是骨骼關(guān)鍵點(diǎn)類(lèi)型的數(shù)據(jù),需要首先將人體骨骼關(guān)鍵點(diǎn)建立成圖結(jié)構(gòu),然后提取一幀骨骼關(guān)鍵點(diǎn)坐標(biāo)的時(shí)間特征和相鄰視頻幀之間相同骨骼關(guān)鍵點(diǎn)的空間特征,隨著網(wǎng)絡(luò)層數(shù)的增加學(xué)習(xí)更高層次的特征圖,接著送入Softmax分類(lèi)器對(duì)動(dòng)作進(jìn)行分類(lèi)。YanS[REF_Ref71190805\r\h25]等人首先利用圖卷積神經(jīng)網(wǎng)絡(luò)解決骨骼關(guān)鍵點(diǎn)樣本的動(dòng)作識(shí)別問(wèn)題,通過(guò)重新采樣函數(shù)和權(quán)重函數(shù)提出了更適用于人體骨骼關(guān)鍵點(diǎn)的圖卷積公式,在公開(kāi)數(shù)據(jù)集上取得了不錯(cuò)的效果?;谏疃葘W(xué)習(xí)的動(dòng)作識(shí)別方法不像基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別方法再預(yù)先對(duì)數(shù)據(jù)進(jìn)行處理,只需要設(shè)計(jì)好神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò)去提取特征,訓(xùn)練和測(cè)試的時(shí)候是端到端進(jìn)行的,并且在保證數(shù)據(jù)集規(guī)模的情況下,模型會(huì)具有很好的魯棒性,而基于機(jī)器學(xué)習(xí)的動(dòng)作識(shí)別方法在小型數(shù)據(jù)集上識(shí)別效果較好,但是在處理大型數(shù)據(jù)集時(shí)模型表現(xiàn)往往會(huì)比較差,所以目前主流的動(dòng)作識(shí)別方法大都是基于深度學(xué)習(xí)來(lái)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的。參考文獻(xiàn)鄭偉,劉學(xué)彬,任保飛.淺談家用服務(wù)機(jī)器人的現(xiàn)在和未來(lái)[J].內(nèi)蒙古煤炭經(jīng)濟(jì),2017,(9):34-35.王田苗,陶永,陳陽(yáng).服務(wù)機(jī)器人技術(shù)研究現(xiàn)狀與發(fā)展趨勢(shì)[J].中國(guó)科學(xué):信息科學(xué),2012,42(9):1049-1066.楊賽烽,高彬,馮仕民,丁恩杰,陳慶峰.基于三維骨骼節(jié)點(diǎn)的人體行為識(shí)別方法[J].傳感技術(shù)學(xué)報(bào),2018,31(12):1834-1841.BlankM,GorelickL,ShechtmanE,etal.Actionsasspace-timeshapes[C]//TenthIEEEInternationalConferenceonComputerVision(ICCV'05)Volume1.IEEE,2005,2:1395-1402.LaptevI,MarszalekM,SchmidC,etal.Learningrealistichumanactionsfrommovies[C]//2008IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2008:1-8.SoomroK,ZamirAR,ShahM.UCF101:Adatasetof101humanactionsclassesfromvideosinthewild[J].arXivpreprintarXiv:1212.0402,2012.KuehneH,JhuangH,GarroteE,etal.HMDB:alargevideodatabaseforhumanmotionrecognition[C]//2011InternationalConferenceonComputerVision.IEEE,2011:2556-2563.ShahroudyA,LiuJ,NgTT,etal.Nturgb+d:Alargescaledatasetfor3dhumanactivityanalysis[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:1010-1019.DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//2005IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition(CVPR'05).IEEE,2005,1:886-893.梁榮健,張濤,王學(xué)謙.家用服務(wù)機(jī)器人綜述[J].智慧健康,2016,2(2):1-9.IwataH,SuganoS.DesignofhumansymbioticrobotTWENDY-ONE[C]//IEEEInternationalConferenceonRobotics&Automation.IEEE,2009.沈應(yīng)龍.國(guó)際服務(wù)機(jī)器人產(chǎn)業(yè)的趨勢(shì)與未來(lái)[J].世界科學(xué),2014(08):20-22.梁榮健,張濤,王學(xué)謙.家用服務(wù)機(jī)器人綜述[J].智慧健康,2016,2(02):1-9.朱煜,趙江坤,王逸寧,等.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(6):848-857.LaptevI.Onspace-timeinterestpoints[J].Internationaljournalofcomputervision,2005,64(2-3):107-123.DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//2005IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition(CVPR'05).IEEE,2005,1:886-893.DalalN,TriggsB,SchmidC.Humandetectionusingorientedhistogramsofflowandappearance[C]//Europeanconferenceoncomputervision.Springer,Berlin,Heidelberg,2006:428-441.WangH,Kl?serA,SchmidC,etal.Densetrajectoriesandmotionboun
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來(lái)五年在線(xiàn)親子旅游企業(yè)縣域市場(chǎng)拓展與下沉戰(zhàn)略分析研究報(bào)告
- 2025-2030物品配送行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030物業(yè)租賃行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030牛奶奶酪酸奶市場(chǎng)供需分析及投資評(píng)估規(guī)劃分析研究年報(bào)
- 園林綠化工程施工方案及預(yù)算范本
- 三網(wǎng)融合技術(shù)實(shí)施方案
- 建筑施工項(xiàng)目安全生產(chǎn)管理規(guī)范
- 上海市2023年房屋租賃新規(guī)解讀
- 百米短跑專(zhuān)項(xiàng)訓(xùn)練與技術(shù)指導(dǎo)
- 幼兒教師專(zhuān)業(yè)技能考核評(píng)分細(xì)則
- DB51-T 401-2025 禾本科牧草栽培技術(shù)規(guī)程 黑麥草屬
- 企業(yè)負(fù)責(zé)人安全培訓(xùn)考試題庫(kù)
- 單值-移動(dòng)極差控制圖(自動(dòng)版)
- JGT124-2017 建筑門(mén)窗五金件 傳動(dòng)機(jī)構(gòu)用執(zhí)手
- 《GNSS基礎(chǔ)知識(shí)》課件
- 第7課-離子推進(jìn)技術(shù)(推力器)
- 大學(xué)德語(yǔ)四級(jí)詞匯
- 用友PDM操作手冊(cè)
- 某項(xiàng)目標(biāo)底及投標(biāo)報(bào)價(jià)測(cè)算分析報(bào)告
- 中國(guó)抑郁癥防治指南
- 科創(chuàng)板股票投資知識(shí)測(cè)試題目
評(píng)論
0/150
提交評(píng)論