【《視頻人體行為識別問題分析的國內(nèi)外文獻(xiàn)綜述》2700字】_第1頁
【《視頻人體行為識別問題分析的國內(nèi)外文獻(xiàn)綜述》2700字】_第2頁
【《視頻人體行為識別問題分析的國內(nèi)外文獻(xiàn)綜述》2700字】_第3頁
【《視頻人體行為識別問題分析的國內(nèi)外文獻(xiàn)綜述》2700字】_第4頁
【《視頻人體行為識別問題分析的國內(nèi)外文獻(xiàn)綜述》2700字】_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

視頻人體行為識別問題研究的國內(nèi)外文獻(xiàn)綜述視頻人體行為識別的研究方法主要分為傳統(tǒng)方法和深度學(xué)習(xí)[6]的方法。傳統(tǒng)方法主要包含特征提取和行為分類兩個(gè)步驟。而深度學(xué)習(xí)方法一般是端到端的識別方法,即從特征的自主學(xué)習(xí)到行為分類一步完成。下面將分別簡述行為識別領(lǐng)域具有代表性的傳統(tǒng)方法和深度學(xué)習(xí)方法。。1.1傳統(tǒng)算法特征提?。阂曨l信號的空間特征和時(shí)間特征對于視頻特征提取都很重要,傳統(tǒng)的特征描述算法也都是重點(diǎn)考慮時(shí)間維度上和空間維度上的特征。特征提取的方法可以分為全局特征提取和局部特征提取。全局特征提取的主要思想是把視頻幀當(dāng)做一個(gè)整體,一般先采用背景減圖或目標(biāo)跟蹤的算法把視頻中的人先定位出來,然后再對這種定位出來的目標(biāo)區(qū)域進(jìn)行編碼形成視頻人體行為的全局特征。全局特征提取的經(jīng)典方法包括光流法[7]、運(yùn)動(dòng)能量圖[8](MotionEnergyImage,MEI)、運(yùn)動(dòng)歷史圖[9](MotionHistoryImage,MHI)等。全局特征提取的缺點(diǎn)是特征提取結(jié)果的好壞是以視頻人體定位的精確與否為前提的,并且這種全局特征對于噪聲和遮擋等問題的魯棒性非常的差。局部特征提取的主要思想是利用視頻中各個(gè)獨(dú)立的小圖像塊,通常的做法是先在視頻中提取一些時(shí)空興趣點(diǎn),然后在這些時(shí)空興趣點(diǎn)周圍提取相應(yīng)的圖像塊,接下來就利用這些圖像塊組合成為一個(gè)人體行為動(dòng)作。局部特征提取的經(jīng)典方法包括3DHarris[10],時(shí)空興趣點(diǎn)[11](Space-TimeInterestPoints,STIP),灰度圖像梯度的直方圖[12](HistogramofOrientedGradients,HOG),密集軌跡算法[13](DenseTrajectories,DT)及改善的密集軌跡算法[14](ImprovedDenseTrajectories,IDT)等。因?yàn)榫植刻卣魈崛∷惴ㄊ翘崛〕鲆曨l中的某一個(gè)小塊來描述人體行為,所以這種方法的缺點(diǎn)是對視頻中全局的人體行為表征得不夠好。行為分類:在視頻行為識別中傳統(tǒng)的行為分類算法主要有兩個(gè)方向,即直接分類法和時(shí)域狀態(tài)空間融合模型的方法。直接分類法首先考慮到經(jīng)過特征提取和特征編碼之后的特征包含很多噪聲以及冗余的特征。所以直接分類法的主要思想是先用主成分分析等算法對行為特征進(jìn)行降維處理,這樣不僅可以減少噪聲還可以降低計(jì)算的復(fù)雜度,然后接下來的步驟就是用傳統(tǒng)分類算法如K近鄰法[15],支持向量機(jī)[16](SupportVectorMachine,SVM)等進(jìn)行行為分類。而時(shí)域狀態(tài)空間融合模型的主要思想是利用動(dòng)態(tài)時(shí)間規(guī)劃[17](DynamicTimeWarping,DTW)對不同尺度的時(shí)間維度進(jìn)行對齊,或者利用生成模型如隱馬爾科夫模型[18](HiddenMarkovModel,HMM)和條件隨機(jī)場[19](ConditionalRandomFields,CRF)進(jìn)行分類判斷。在行為識別的傳統(tǒng)方法中最好的方法是iDT算法,它的主要思想是采用全局特征提取的方法和時(shí)空體積的方法,行為分類用的是RBF-SVM分類器。綜上可得,傳統(tǒng)方法需要人工提取特征,例如手動(dòng)提取時(shí)空興趣點(diǎn)和圖像塊等等。這些人工步驟不僅復(fù)雜耗時(shí),泛化性差,而且提取到的特征往往不是最好的。傳統(tǒng)方法的特征提取一般都是根據(jù)特征工程師的工程經(jīng)驗(yàn)和先驗(yàn)知識而進(jìn)行的,因此帶有很強(qiáng)的個(gè)人主觀性,不完全符合數(shù)據(jù)特征的客觀規(guī)律。相比而言,深度學(xué)習(xí)算法能夠通過深層網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)特征的自主學(xué)習(xí),根據(jù)目標(biāo)函數(shù)來指導(dǎo)網(wǎng)絡(luò)參數(shù)的更新,即由機(jī)器本身決定什么特征才是最應(yīng)該學(xué)習(xí)的。所以,深度學(xué)習(xí)算法高效,客觀而且準(zhǔn)確。下面將簡單介紹行為識別領(lǐng)域的深度學(xué)習(xí)算法。1.2深度學(xué)習(xí)近些年來,深度學(xué)習(xí)算法在學(xué)術(shù)界和工業(yè)界引起了廣泛的關(guān)注。在深度學(xué)習(xí)算法中,利用卷積神經(jīng)網(wǎng)絡(luò)[19](ConvolutionalNeuralNetwork,CNN)來提取視頻圖像的特征已經(jīng)是目前一個(gè)常規(guī)而有效的做法,深層的卷積層和不斷提升的計(jì)算性能使得計(jì)算機(jī)在圖像視頻識別領(lǐng)域的準(zhǔn)確率不斷提高甚至超過人類。視頻人體行為識別相對于圖像識別有著明顯的不同,圖像只具備空間的特征,但是視頻的空間特征和時(shí)間特征都很重要。因此,如何設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò)來學(xué)習(xí)視頻的時(shí)間和空間特征是一個(gè)重要的問題,目前深度學(xué)習(xí)應(yīng)用于視頻人體行為識別的主流方法可以分為三類:3DCNN的方法(三維卷積法),CNN與RNN結(jié)合的方法以及雙流法。D.Tran等人提出的C3D[20]是3DCNN法的代表方法,因?yàn)?D卷積核比2D卷積核多了一個(gè)時(shí)間維度,因此3D卷積核這種視頻特征描述具備全面,高效和通用等特點(diǎn)。但是C3D網(wǎng)絡(luò)參數(shù)太多且無法在大型數(shù)據(jù)集上預(yù)訓(xùn)練,因此容易產(chǎn)生過擬合問題。J.Donahue等人提出的LRCN網(wǎng)絡(luò)[21]是CNN與RNN結(jié)合方法的代表方法,作者考慮到真實(shí)的視頻行為識別場景應(yīng)該滿足網(wǎng)絡(luò)的輸入輸出都是變長的,并且認(rèn)為時(shí)序特征的自主學(xué)習(xí)和建模對于視頻數(shù)據(jù)至關(guān)重要,因此考慮用LSTM網(wǎng)絡(luò)[22]和CNN網(wǎng)絡(luò)相結(jié)合來自主學(xué)習(xí)和表達(dá)視頻的時(shí)空特征。但是LRCN選用的CNN網(wǎng)絡(luò)是層數(shù)較淺的AlexNet網(wǎng)絡(luò),沒有充分學(xué)習(xí)低層的空間特征。K.Simonyan等人提出的two-stream網(wǎng)絡(luò)[23]是雙流法的代表方法。該論文的主要思想是用兩個(gè)并行的分支網(wǎng)絡(luò)來分別學(xué)習(xí)視頻的時(shí)間特征和空間特征。該方法用單幀的RGB圖像輸入到CNN網(wǎng)絡(luò)來學(xué)習(xí)和提取視頻圖像的空間特征,另外用同樣的CNN網(wǎng)絡(luò)來處理多幀的光流圖來自主學(xué)習(xí)和提取時(shí)間特征。但是雙流法用CNN網(wǎng)絡(luò)來學(xué)習(xí)時(shí)序特征,這并不是最好的選擇,并且用兩個(gè)同樣的CNN網(wǎng)絡(luò)學(xué)習(xí)不同數(shù)據(jù)的特征,這是不合理的。因此,根據(jù)上面對經(jīng)典的傳統(tǒng)方法和深度學(xué)習(xí)方法的調(diào)研和優(yōu)缺點(diǎn)分析,可以看出傳統(tǒng)方法步驟繁瑣且準(zhǔn)確率不高,模型的泛化性能差。而深度學(xué)習(xí)算法能自主學(xué)習(xí)視頻行為的特征,不僅方便高效而且準(zhǔn)確率高。但是,目前的深度學(xué)習(xí)主流算法沒有高效的利用視頻的低層時(shí)空特征和高層時(shí)序特征,并且沒有實(shí)現(xiàn)多模態(tài)數(shù)據(jù)之間的優(yōu)勢互補(bǔ)。因此本論文也是針對深度學(xué)習(xí)算法當(dāng)前的主要問題對行為識別進(jìn)行研究。參考文獻(xiàn)陳煌平,邱衛(wèi)根.基于視覺的人體行為識別算法研究綜述[J].計(jì)算機(jī)應(yīng)用研究:2018.04.王晶晶.復(fù)雜擁擠環(huán)境下協(xié)同視頻監(jiān)控中目標(biāo)跟蹤算法研究[D].中國科學(xué)技術(shù)大學(xué),2016.N.DawarandN.Kehtarnavaz,"Actiondetectionandrecognitionincontinuousactionstreamsbydeeplearning-basedsensingfusion,"IEEESensorsJournal,vol.18,no.23,pp.9660-9668,2018.A.A.Liu,N.Xu,W.Z.Nieetal.,"Mufti-domainandmufti-tasklearningforhumanactionrecognition,"IEEETransactionsonImagesProcessing,vol.28no.2,pp.853-867,2019.董珂.基于Kinect的人體行為識別研究[D].武漢科技大學(xué),2015.吳珍珍,鄧輝舫.利用骨架模型和格拉斯曼流形的3D人體動(dòng)作識別[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(20):214-220.T.Kerola,N.Inoue,andK.Shinoda.Spectralgraphskeletonsfor3dactionrecognition[C].InACCV,pages417-432,2015.E.IjjinaandC.Mohan.Humanactionrecognitionbasedonmocapinformationusingconvolutionneuralnetworks[C].InInt'lConf.MachineLearingandApplications,pages159-164,Dec.2014.F.Ofli,R.Chaudhry,G.Kurillo,R.Videl,andR.Bajcsy.Sequenceofthemostinformativejoints(smij):Anewrepresentationforhumanskeletalactionrecognition[J].JournalofVisualCommunicationandImageRepresentation,25(1):24-38,2014.Newell,Alejandro,KaiyuYangandJiaDeng.“StackedHourglassNetworksforHumanPoseEstimation.”ECCV(2016).模式識別國家重點(diǎn)實(shí)驗(yàn)室[EB/OL]./CN/model/index.shtm1,2018.G.Willems,T.Tuytelarrs,andL.Gool.Anefficientdenseandscale-invariantspatiotemporalinterestpointdetector[C].InECCV,pages650-663,2008.ZhuY,ChenW,GuoG.FusingSpatiotemporalFeaturesandJointsfor3DActionRecognition[C].Proc.oftheIEEEConferenceonComputerVisionandPatternRecog-nitionWorkshops.2013,486-491.HuJF,ZhengWS,LaiJ,eta1.Exemplar-BasedRecognitionofHuman-ObjectInteractions[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,2015,26(4):1-1.KoppulaHS,GuptaR,SaxenaA.LearningHumanActivitiesandObjectAffordancesfromRGB-DVideos[J].InternationalJournalofRoboticsResearch,2013,32(8):951-970.KeY.,SukthankarR.,HebertM.,Spatio-temporalshapeandflowcorrelationforactionrecognition.ComputerVisionandPatternRecognition(CVPR),2007,1-8.KrizhevskyA.,SutskeverL,HintonG.E.,ImageNetclassificationwithdeepconvolutionalneuralnetworks,NIPS,2012.HuangKQ,RenWQ,TanTN.AReviewonImageObjectClassificationandDetection[J].ChineseJournalofComputers,2014.LazebnikS,SchmidC,PonceJ.BeyondBagsofFeatures:SpatialPyramidMatchingforRecognizingNaturalSceneCategories[C].Proc.oftheComputerVisionandPatternRecognition,2006IEEEComputerSocietyConferenceon.2006,2169-2178.RyooMS,AggarwalJK.HierarchicalRecognizingofHumanActivitiesInteractingwithObjects[C].Proc.oftheIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.2007,1-8.LiuJ,KuipersB,SavareseS.Recognizinghumanactionsbyattributes[C].Proc.OftheTheIEEEConferenceonComputerVisionandPatternRecognition,CVPR2011,ColoradoSpring,Co,Usa,20-25June.2011,3337-3344.Sun

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論