畢業(yè)論文-基于kinect的3D人臉識別技術(shù)_第1頁
畢業(yè)論文-基于kinect的3D人臉識別技術(shù)_第2頁
畢業(yè)論文-基于kinect的3D人臉識別技術(shù)_第3頁
畢業(yè)論文-基于kinect的3D人臉識別技術(shù)_第4頁
畢業(yè)論文-基于kinect的3D人臉識別技術(shù)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于kinect的3D人臉識別技術(shù)摘要 在2D人臉識別技術(shù)不斷發(fā)展的今天,深度學(xué)習(xí)的出現(xiàn)讓2D人臉識別技術(shù)的準(zhǔn)確率已經(jīng)達(dá)到了97.54%,2D技術(shù)的發(fā)展空間越來越小。而隨著3D技術(shù)也越來越成熟,將3D技術(shù)融合到人臉識別技術(shù)中是一種新的發(fā)展方向。而現(xiàn)階段,kinect這種體積輕巧,價(jià)格便宜,捕獲3D數(shù)據(jù)效率高而且分辨率不低的設(shè)備成了許多研究人員的研究對象。 在本文中我們也利用了kinect設(shè)備完成了一個(gè)基于kinect的3D人臉識別研究的過程。首先通過kinect設(shè)備采集了一批數(shù)據(jù),接著實(shí)現(xiàn)了一種基于熵圖和顯著性圖,利用HOG特征算子,和隨機(jī)森林分類器和SVM分類器進(jìn)行識別的算法系統(tǒng)。 通過我們的實(shí)驗(yàn),利用隨機(jī)森林分類器實(shí)現(xiàn)的分類器準(zhǔn)確率只有73%,而利用SVM分類器達(dá)到的準(zhǔn)確率有83.19%。但是因?yàn)椴杉瘮?shù)據(jù)的范圍小,以及算法的不完善性,我們的系統(tǒng)還有很大的提升空間。關(guān)鍵詞:kinect,RGB-D,顯著性,熵圖,隨機(jī)森林,SVM,人臉識別Abstract Withthefastdevelopmentofthefacerecognitionbased2Ddata,thedeeplearningtechnologymakestheaccuracyofthefacerecognitionbased2Ddatahavereachedin97.54%andthedevelopmentofthe2Dtechnologyinfacerecognitionhasreachedthebottleneck.However,withthe3Dtechnologybecomingmoreandmoremature,itisanewdevelopmentdirectiontofusethe3Dtechnologyintofacerecognitiontechnology.Inthemeanwhile,theKinectwhichisportable,inexpensiveandhashighcapturingrateandmoderatedefinitionbecomestheresearchobjectofmanyresearchers. Inourpaper,weusedtheKinectequipmenttofinishaprojectwhichisaboutfacerecognitionbased3Ddata.Firstofall,wecollectedenoughRGB-DdatausingKinect.Thenweimplementedthealgorithmsystemwhichisbasedtheentropymapandthevisualsaliencymap,getsthefeaturevectorusingtheHOGdescriptorandusingrandomdecisionforestandsupportvectormachinetoclassifythedata. Theresultofourexperimentisnotverywell.Theaccuracyoftherecognitionwithrandomdecisionforestclassifierreachesonly73%.However,theaccuracyoftherecognitionwithsupportvectormachinereaches83.19%.Becauseofthesmallscaleinthedatabaseandtheimperfectalgorithm,oursystemcanstillmakegreatprogress.Keywords:Kinect,RGB-D,salience,entropy,RDF,SVM,facerecognition緒論研究背景隨著人們對人工智能,機(jī)器學(xué)習(xí)算法的研究的不斷深入,其分支領(lǐng)域中的計(jì)算機(jī)視覺中的人臉識別技術(shù)也得到了充分的發(fā)展和巨大的進(jìn)步。并且隨著技術(shù)的日益成熟,他已經(jīng)逐漸應(yīng)用到人們的日常生活之中,例如手機(jī)上的人臉識別解鎖,或者是公安系統(tǒng)的人臉識別追蹤等包含身份鑒定,電子商務(wù),視頻監(jiān)控,人機(jī)交互,企業(yè)安全與管理,信息安全,刑事偵破,出入口控制等各方面領(lǐng)域。然而現(xiàn)階段的人臉識別的主要技術(shù)全是基于RGB的2D圖像,當(dāng)香港中文大學(xué)的湯曉鷗教授帶領(lǐng)自己的團(tuán)隊(duì)利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)了人臉識別在LFW數(shù)據(jù)庫上的正確率高達(dá)97.45%【1】的時(shí)候,代表著2D人臉識別技術(shù)已經(jīng)逐漸走向技術(shù)的終點(diǎn)。基于RGB的2D人臉識別技術(shù)會(huì)受到光照,姿勢,表情,偽裝等各種不利因素的影響,對于一張給定的圖像來說,能夠選擇一個(gè)好的算法摒除這些不利因素的理想至關(guān)重要。然而,由于固有的2D圖像的信息缺失性,現(xiàn)今還沒有一個(gè)技術(shù)能夠同時(shí)消除所有這些不利因素的影響。傳統(tǒng)的方法往往都只能解決一個(gè)或兩個(gè)問題。例如,光照圓錐體方法【2】將光照建模為線性函數(shù),他們的實(shí)驗(yàn)成果告訴我們在相同姿勢但是不同光照條件下的人臉圖片集全都在一個(gè)低維度的凸錐上,而這個(gè)凸錐能夠從一些訓(xùn)練圖片上學(xué)習(xí)得到。雖然這個(gè)方法能夠用阿里產(chǎn)生在不同光照下的人臉圖像,但是它是基于人臉是凸?fàn)畹牟⑶乙笥?xùn)練照片全都是在點(diǎn)光源下獲得。稀疏表達(dá)分類器方法【3】可以處理譬如戴眼鏡的人臉偽裝問題。在這些問題之中,毫無疑問姿勢問題是相當(dāng)困難的一個(gè)問題,例如Gross在【4】中構(gòu)建了一個(gè)從所有觀察點(diǎn)得到的2D人臉模型的特征光域,這個(gè)方法要求大量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)需要包含不同姿勢和不同姿勢之間高密度的對應(yīng)圖片,這些都是很難實(shí)現(xiàn)的。但是,隨著3D技術(shù)的發(fā)展和普及,利用3D信息進(jìn)行人臉識別的技術(shù)也開始了他們的旅程。最可靠的處理姿勢問題的方法便是具有深度信息的3D人臉模型了。人臉的幾何特征對于光照和其他圖像條件具有不變性,然而2D圖像卻是例如光照等條件的直接函數(shù)。利用3D人臉模型可以生成在不同光照條件下的人臉圖片。另外,3D數(shù)據(jù)也能用來進(jìn)行人臉姿勢矯正或者用來生成各種新的人臉姿勢圖片。而且每個(gè)人的人臉3D模型都具有良好的可區(qū)分性,加上2D的RGB紋理信息,可以使人臉識別技術(shù)跨越又一個(gè)技術(shù)瓶頸。所以利用3D信息進(jìn)行人臉識別是人臉識別技術(shù)的一個(gè)值得研究的發(fā)展方向。要想讓3D人臉識別技術(shù)得以普及與應(yīng)用,首先便要考慮3D信息的獲取問題,當(dāng)下已經(jīng)有多種3D掃描儀,但是許多高分辨率的掃描儀價(jià)格昂貴,獲取速率慢,無法滿足實(shí)際的實(shí)時(shí)應(yīng)用需求,也會(huì)因?yàn)閮r(jià)格而影響了其推廣的程度。例如,被用在著名的人臉識別挑戰(zhàn)(FaceRecognitionGrandChallenge)的Minolta掃描儀,需要花費(fèi)2.5秒的時(shí)間捕獲一張3D圖片。而便宜的掃描儀所得到的3D信息分辨率又太低,無法滿足實(shí)際的研究需求。但是自從微軟公司退出kinect體感設(shè)備以來,這些問題便有了一個(gè)折衷的解法。Kinect體感設(shè)備所獲取的3D圖片具有512*424分辨率,捕獲率達(dá)到30幀,且價(jià)格為2800人民幣。是現(xiàn)下比較合適的研究3D人臉識別的工具。1.2相關(guān)工作自從kinect設(shè)備普及以來,利用kinect進(jìn)行3D人臉識別研究的工作也越來越多。趙啟軍教授及其團(tuán)隊(duì)在【5】中提出了一種簡單的利用RGB-D數(shù)據(jù)進(jìn)行人臉識別的思路。他們分別將2D紋理數(shù)據(jù)和深度數(shù)據(jù)進(jìn)行分類檢測,最后通過加權(quán)融合將兩種數(shù)據(jù)的分類結(jié)果結(jié)合起來得到最后的結(jié)果。根據(jù)其實(shí)驗(yàn)結(jié)果,利用2D紋理數(shù)據(jù)在各種人臉角度下得到的平均識別率是93.4%,利用深度數(shù)據(jù)得到的平均識別率是87.1%,而融合2D和3D結(jié)果得到的平均識別率是96.7%。從實(shí)驗(yàn)結(jié)果可以看出附加的深度數(shù)據(jù)對提升識別率有顯著的改善。BillyY.L.Li等人在【6】中提出了一種算法,該算法首先利用人臉對稱性獲得了一張合格的正臉,并對正臉進(jìn)行平滑處理,在經(jīng)過這樣一系列的預(yù)處理工作后,分別對深度數(shù)據(jù)以及經(jīng)過判別彩色空間變換(DCST)處理的紋理數(shù)據(jù)進(jìn)行多模稀疏矩陣編碼。最后得到在RGB-D數(shù)據(jù)下的識別率可以達(dá)到96.7%而單獨(dú)利用富含噪聲的深度數(shù)據(jù)可以達(dá)到88.7%的識別率。Rahul,Aditya和Phalguni在【7】中的算法是基于經(jīng)過改進(jìn)的對RGB圖像的SURF特征描述算子。其中,這些RGB圖像是與通過利用深度和彩色圖像來自動(dòng)生成的訓(xùn)練圖像的增強(qiáng)體結(jié)合得到的圖像。他們的算法在CurtinFace數(shù)據(jù)庫上對30度偏角的圖像識別率達(dá)到了98.07%,在EURECOM數(shù)據(jù)庫上達(dá)到了89.28%的識別率,而在15度偏角的Internal數(shù)據(jù)庫上達(dá)到了98.00%的識別率及30度偏角的Internal數(shù)據(jù)庫上的81.00%的識別率。1.3研究內(nèi)容 基于kinect的3D人臉識別技術(shù)同時(shí)利用kinect獲取的深度數(shù)據(jù)和彩色紋理數(shù)據(jù)來進(jìn)行人臉識別的研究,希望能夠找到一種好的方法能夠充分利用深度數(shù)據(jù)提升人臉識別的效果,突破2D人臉識別所具有的局限性。首先,我們利用kinect手動(dòng)進(jìn)行了數(shù)據(jù)的采集過程,以獲取試驗(yàn)樣本。在實(shí)驗(yàn)樣本獲取過程中如何得到一張穩(wěn)定且包含完整臉部3D信息的數(shù)據(jù)是我們研究與實(shí)現(xiàn)的內(nèi)容。在采集到完整的樣本后,我們提出了一種將RGB紋理信息和3D深度數(shù)據(jù)融合的算法并進(jìn)行了實(shí)現(xiàn)與實(shí)驗(yàn)。1.4本文組織 本文為基于kinect的3D人臉識別系統(tǒng)提供了各個(gè)環(huán)節(jié)的處理方法?;趉inectv2.0開發(fā)工具包,及OpenCV庫實(shí)現(xiàn)了基于kinect的3D人臉識別過程。第二章論述了利用kinect獲取穩(wěn)定3D數(shù)據(jù)的算法,以及利用深度熵圖結(jié)合2D紋理熵圖和顯著性圖結(jié)合的識別過程,利用hog特征算子提取特征,最后利用決策樹進(jìn)行分類識別過程。第三章描述了各個(gè)模塊部分的設(shè)計(jì)和實(shí)現(xiàn),詳細(xì)闡述了人臉識別過程中的圖像預(yù)處理,特征提取以及分類識別過程。第四章則給出了相應(yīng)的訓(xùn)練過程以及實(shí)驗(yàn)結(jié)果。在論文的第五章則給出了我們的實(shí)驗(yàn)結(jié)果以及我們工作中的不足和需要改進(jìn)的地方。2,相關(guān)技術(shù)基礎(chǔ) 本章節(jié)主要對實(shí)現(xiàn)kinect3D人臉識別系統(tǒng)中用到的各種關(guān)鍵技術(shù)做了簡要的介紹。首先是軟件開發(fā)工具庫OpenCV視覺庫以及Kinect開發(fā)工具庫。接著對人臉識別工程用使用的熱熵圖和顯著性圖進(jìn)行了簡介,然后對用于訓(xùn)練的Hog特征提取算子做了介紹,以及最后介紹了我們的分類識別算法隨機(jī)森林。2.1,OpenCV庫與kinect開發(fā)工具庫 OpenCV(OpenSourceComputerVisionLibrary)是一個(gè)基于BSD許可(開源)發(fā)行的跨平臺(tái)計(jì)算機(jī)視覺庫【8】,該庫支持多種運(yùn)行環(huán)境,包含Linux、Windows和MacOS操作系統(tǒng)上,并且現(xiàn)在也有android版本的OpenCV庫。它輕量級而且高效,既提供了C++實(shí)現(xiàn)接口,也提供了Python、Ruby、MATLAB等語言的接口。該庫在圖像處理和計(jì)算機(jī)視覺方面的很多通用算法。開發(fā)者可以調(diào)用OpenCV提供的相應(yīng)接口,實(shí)現(xiàn)快速開發(fā)計(jì)算機(jī)視覺項(xiàng)目的目標(biāo),并且由于該視覺庫的快平臺(tái)性能和高運(yùn)行效率及低容量讓它在世界各地贏得了大量的用戶。該項(xiàng)目主要由英特爾公司在1999年啟動(dòng),并且不斷在更新和優(yōu)化,陷入經(jīng)已經(jīng)更新到3.1版本,經(jīng)過多年的試錯(cuò)和改進(jìn),該視覺庫十分穩(wěn)定高效。 Kinect設(shè)備是微軟公司在2010年對XBOX360體感周邊外設(shè)正式發(fā)布的名字。雖然該設(shè)備是專門為了體感游戲開發(fā)的硬件設(shè)備,但是由于它的強(qiáng)大功能,及便攜性,低價(jià)格使其同樣適合于3D人臉識別的研究與開發(fā)。Kinect在視覺方面能夠捕獲包括彩色幀,深度幀以及紅外幀等多種圖像幀?,F(xiàn)在kinect設(shè)備已經(jīng)發(fā)展到kinectv2.0的水平,并且為開發(fā)者提供了在Windows平臺(tái)上使用的一個(gè)開發(fā)工具包。Kinectv2.0主要是針對現(xiàn)有的win8和win10設(shè)計(jì),內(nèi)含驅(qū)動(dòng)程序,豐富的原始感測數(shù)據(jù)流程式開發(fā)接口,該開發(fā)工具提供了包含c++,c#以及VisualBasic等多種開發(fā)語言。并且經(jīng)歷過kinectv1.0的改進(jìn)與優(yōu)化,kinectv2.0功能更加強(qiáng)大,運(yùn)行更加穩(wěn)健。除了開發(fā)教程以外,微軟公司也為開發(fā)者提供了一系列的樣例代碼,能夠讓我們結(jié)合API文檔更快的上手使用kinect的各個(gè)功能。在本系統(tǒng)中,我們主要利用到了kinect中的彩色幀獲取,人臉檢測功能,深度幀獲取以及各種坐標(biāo)映射功能。由于kinect捕獲的彩色幀是1920*1080,而深度幀數(shù)據(jù)時(shí)512*424,所以我們在利用kinect獲取數(shù)據(jù)時(shí)需要注意圖片不同數(shù)據(jù)的對應(yīng)問題。2.2,熱熵圖和顯著性圖 在本文中的實(shí)驗(yàn)數(shù)據(jù)預(yù)處理過程中,將原始的彩色紋理數(shù)據(jù)轉(zhuǎn)變成了熱熵圖和顯著性圖兩種圖像,而將深度數(shù)據(jù)直接轉(zhuǎn)化成了熱熵圖。2.3,HOG特征算子 HOG【9】(HistogramofOrientedGradient)指的是方向梯度直方圖,是一種在計(jì)算機(jī)視覺和圖像處理中經(jīng)常用到并且用來進(jìn)行物體檢測的特征描述符。HOG的基本原理是通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。 HOG特征的主要思想是因?yàn)樵谝环鶊D像中,梯度或者是邊緣的方向密度分布可以很好地描述出局部目標(biāo)的表象和形狀。與其他各種特征例如Gabor【10】特征,LBF【11】特征等相比,他也有很多優(yōu)點(diǎn):比如,因?yàn)镠OG的操作對象是圖像的局部方格單元,所以該特征對圖像的集合和光學(xué)形變能夠保持非常良好的不變性;其次,在粗的空域抽樣,精細(xì)的方向抽樣以及較強(qiáng)的局部光學(xué)歸一化條件下,行人正在大體保持直立姿勢的條件下可以被允許有一些細(xì)微的肢體動(dòng)作,而不影響最后的檢測效果。該特征有Daltal提出,主要步驟是將樣本圖像分為若干個(gè)像素單元,并把梯度方向平均劃分為多個(gè)區(qū)間,然后在每個(gè)單元里面對所有像素的梯度方向在各個(gè)方向區(qū)間進(jìn)行直方圖統(tǒng)計(jì),在得到一個(gè)多維的特征向量后,把每相鄰的單元構(gòu)成一個(gè)區(qū)間,把一個(gè)區(qū)間內(nèi)的特征向量聯(lián)起來得到多維的特征向量,用區(qū)間對樣本圖像進(jìn)行掃描,掃描步長為一個(gè)單元。最后將所有塊的特征串聯(lián)起來,就得到了人體的特征。 雖然HOG特征算子一般用來行人檢測,目標(biāo)檢測等方面,主要以HOG和SVM結(jié)合為主,但是本實(shí)驗(yàn)將HOG特征算子提取出的特征與隨機(jī)森林分裂器結(jié)合,算是一種大膽嘗試和創(chuàng)新。2.4,隨機(jī)決策森林分類器 隨機(jī)決策森林【12】(Randomdecisionforest)從其命名就可以知道該分類器是由隨機(jī)方式建立的多個(gè)決策樹的集合。在隨機(jī)森林中,其中的每一顆決策樹是獨(dú)立的?;镜姆诸愃枷刖褪窃谔卣鬏斎氲椒诸惼鲿r(shí),讓隨機(jī)森林中的每一棵樹單獨(dú)進(jìn)行一次判斷,每一棵樹都會(huì)得到一個(gè)分類結(jié)果,最后統(tǒng)計(jì)所有的樹的結(jié)果,選擇預(yù)測結(jié)果最多的一類為分類結(jié)果。 隨機(jī)森林中的決策樹一般都是比較脆弱的,但是當(dāng)他們組合起來時(shí)功能十分強(qiáng)大。隨機(jī)森林相比于其他分類器有以下優(yōu)點(diǎn):例如它能夠處理高維度的數(shù)據(jù),并且不需要進(jìn)行特征選擇過程;隨機(jī)森林在訓(xùn)練完成后能夠分析出訓(xùn)練特征中比較重要的部分;隨機(jī)森林訓(xùn)練數(shù)據(jù)速度快;而且在訓(xùn)練過程中可以檢測到特征間的相互影響關(guān)系;還有實(shí)現(xiàn)簡單和能夠并行運(yùn)算等等。3,系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)3.1,需求分析 在基于kinect的3D人臉識別系統(tǒng)中,為了后面的實(shí)現(xiàn)需要的實(shí)驗(yàn)樣本,同時(shí)也是為了使用過程中保持?jǐn)?shù)據(jù)樣本的獲取一致性,我們需要自己采集RGB-D數(shù)據(jù)。對于采集數(shù)據(jù)過程,我們自己規(guī)定了采集的方式,采集的數(shù)據(jù)的格式以及采集到的數(shù)據(jù)的保存方式。進(jìn)入人臉識別的研究過程。首先第一步是將所獲得的數(shù)據(jù)進(jìn)行圖像預(yù)處理,根據(jù)算法的要求,要對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行兩種預(yù)處理,一種是獲得深度圖和彩色圖的熵圖,另一種是獲得深度圖的顯著性圖。第二步則是將獲得的熵圖和顯著性圖作為輸入數(shù)據(jù)提取出hog特征,分別對獲得的深度熵圖,彩色熵圖,彩色顯著性圖提取特征。最后則是利用得到的三種特征數(shù)據(jù)結(jié)合起來進(jìn)行隨機(jī)森林分類器的訓(xùn)練與實(shí)現(xiàn)。3.2,總體設(shè)計(jì)框架 如下圖3333,是系統(tǒng)的設(shè)計(jì)框架。3.3,數(shù)據(jù)的獲取 由于直接用kinect接口獲取的彩色圖尺寸為1920*1080,而深度圖尺寸為512*424,兩者無法直接匹配,所以我們的數(shù)據(jù)獲取需要在使用kinect的坐標(biāo)映射功能獲取一張同尺寸的彩色圖和深度圖。因?yàn)閗inect接口中自帶檢臉工具,所以我們可以直接獲得臉部圖像。另外,kinect獲取的深度數(shù)據(jù)是目標(biāo)到kinect傳感器的距離,其數(shù)據(jù)不具有一致性,所以我們需要將這些不穩(wěn)定不一致的數(shù)據(jù)歸一化。以下是具體的數(shù)據(jù)獲取的過程和步驟: 需要從Kinect獲得的主要數(shù)據(jù)包括:1,原始大小人臉框、5個(gè)面部特征點(diǎn)、擴(kuò)大后人臉框分別在彩色幀(1920×1080)中位置(txt文件形式)2,原始大小人臉框、5個(gè)面部特征點(diǎn)、擴(kuò)大后人臉框分別在深度幀(512×424)中位置(txt文件形式)3,頭部偏轉(zhuǎn)角(轉(zhuǎn)換成roll、yaw、pitch)4,原始大小人臉位置的深度信息(txt文件形式)5,三個(gè)角度(左、中、右)的原始大小彩色人臉幀、擴(kuò)大后的彩色人臉幀6,三個(gè)角度(左、中、右)的原始大小人臉pcd文件步驟一:獲取深度幀中的人臉:首先在彩色圖上檢出人臉區(qū)域,同時(shí)得到深度圖上每個(gè)點(diǎn)的三維坐標(biāo),遍歷深度圖上所有點(diǎn),對應(yīng)判斷其是否在彩色圖的人臉區(qū)域范圍內(nèi),若是,則歸為人臉區(qū)域,從而在深度圖中確定出人臉區(qū)域。步驟二:基于深度數(shù)據(jù)恢復(fù)深度圖從獲得的原始深度數(shù)據(jù)中恢復(fù)深度圖的處理實(shí)際上對應(yīng)像素歸一化到0~255的過程。步驟三:人來矯正從后續(xù)配準(zhǔn)環(huán)節(jié)可以了解到,配準(zhǔn)的兩份點(diǎn)云模型如果有較多的初始重疊部分會(huì)帶來更佳的配準(zhǔn)效果,因此在獲取數(shù)據(jù)部分,可以對人臉進(jìn)行矯正。從Kinect獲得的深度值是基于攝像頭到目標(biāo)位置的距離,換言之,坐標(biāo)系位于攝像頭,因此首先需要將三維坐標(biāo)系轉(zhuǎn)換到以鼻尖為原點(diǎn)的坐標(biāo)系,隨后應(yīng)用歐拉角對每個(gè)點(diǎn)進(jìn)行旋正處理。從圖中可以看出,當(dāng)目標(biāo)者側(cè)臉時(shí),矯正算法能較好的恢復(fù)到正臉模型。步驟四:點(diǎn)云配準(zhǔn)點(diǎn)云配準(zhǔn)的初始目的在于,從Kinect錄取到的單幀人臉信息不完整,基于此提出的想法是從多個(gè)角度獲取臉部點(diǎn)云數(shù)據(jù)(pcd文件),然后進(jìn)行一一融合,從而得到完整的人臉點(diǎn)云圖。實(shí)現(xiàn)方式是基于PCL的ICP算法。ICP算法是一種點(diǎn)集對點(diǎn)集配準(zhǔn)方法,簡單理解就是有兩個(gè)點(diǎn)集source和target,target不變,source經(jīng)過旋轉(zhuǎn)(Rotation)和平移(Translation)甚至加上尺度(Scale)變換,使得變換后的source點(diǎn)集盡量和target點(diǎn)集重合。具體步驟如下:從其中一個(gè)數(shù)據(jù)源source出發(fā),分析其最能代表兩個(gè)數(shù)據(jù)源場景共同點(diǎn)的關(guān)鍵點(diǎn)k在每個(gè)關(guān)鍵點(diǎn)Ki處,算出一個(gè)特征描述子fi從這組特征描述子{fi}和它們在a和b中的XYZ坐標(biāo)位置,基于fi和XYZ的相似度,找出一組對應(yīng)由于實(shí)際數(shù)據(jù)源是有噪的,所以不是所有的對應(yīng)都有效,這就需要一步一步排除對匹配起負(fù)作用的對應(yīng)從剩下的較好對應(yīng)中,估計(jì)出一個(gè)變換配準(zhǔn)前進(jìn)行離群點(diǎn)處理,能較好的減弱離群點(diǎn)對于配準(zhǔn)的影響。如下圖:3.4,圖像預(yù)處理 本實(shí)驗(yàn)的圖像預(yù)處理分為兩個(gè)部分,第一個(gè)部分是熵圖的獲取,熵圖總共需要獲取四張熵圖,分別是RGB三通道的熵圖以及深度D的熵圖。第二個(gè)部分是顯著性圖的獲取,他是對彩色紋理圖部分的圖像映射處理。3.4.1,深度圖和彩色圖轉(zhuǎn)換為熵圖 熵被定義為對隨機(jī)變量不確定性的度量值【13】,熵的計(jì)算公式為H其中p(xi)表示隨機(jī)變量X取值為xi的概率值。一張圖片的可視化的熵圖是該圖片的一種紋理特征,并且可以從中提取出有用的信息。如下圖4(a)4(b)是一張人臉彩色圖以及相對應(yīng)的熵圖。而4(d)和4( 下面將介紹將彩色圖和深度圖轉(zhuǎn)化為熵圖的具體算法: 假設(shè)Irgb(x,y)代表一張彩色圖,而Id(x,y)則代表一張圖深度圖。每一張圖片大小為M*N。深度圖和彩色圖都擁有相同范圍的(x,y)坐標(biāo)點(diǎn)。即x∈1,Mandy∈[1,N]。讓H(Ij)代表第j張圖片Ij的可視化熵圖。其中Ij既可以是深度圖也可以是彩色RGB圖或者是這兩種圖的部分圖像。但是其坐標(biāo)點(diǎn)都必須要在x∈1,Mandy∈[1,N]內(nèi)。我們將分別從彩色圖Irgb和深度圖Id中提取出兩部分熵圖。從彩色圖Irgb中我們提取的兩張圖像塊分別是P1,其大小為M2*N2,其中心點(diǎn)在[M2,NEE1和E2代表著彩色圖Irgb的兩張熵圖,而E3和E3.4.2,彩色圖轉(zhuǎn)換為顯著性圖 除了上面得到的熵圖,我們還需要利用彩色圖的顯著性圖來計(jì)算人臉中有用部分的信息??梢暬娘@著性圖是將圖片中能夠吸引人注意力的部分表示出來的圖片【14】。整張圖片中可視化的吸引注意力的分布最后表達(dá)出來就是一張可視化顯著性圖片。 現(xiàn)在假設(shè)I(x,y)代表著彩色圖,彩色圖相對應(yīng)的顯著性圖則由一個(gè)密度函數(shù)S(?)代表,該函數(shù)將一張圖片上的每個(gè)坐標(biāo)點(diǎn)的值設(shè)為與該像素點(diǎn)吸引注意力的能力成正比。圖4(c)是可視化的顯著性圖的一個(gè)示例。實(shí)現(xiàn)可視化顯著性的顯著性圖有多種方法。而我們則選用了基于【15】而實(shí)現(xiàn)的計(jì)算彩色RGB圖的可視化顯著性圖。其中可視化彩色圖和深度圖所代表的性質(zhì)是不一樣的。其中彩色圖代表著圖片的強(qiáng)度信息,而深度圖代表著距離信息。因?yàn)榭梢暬娘@著性圖是專門為了彩色圖設(shè)計(jì)的,所以將這種函數(shù)用于深度圖會(huì)產(chǎn)生一個(gè)不規(guī)則的輸出。因此,我們在利用顯著性圖的特征的時(shí)候,僅僅是處理了彩色圖而沒有處理深度圖。我們通過如下函數(shù)提前彩色圖IS3.5,圖像特征提取 HOG特征描述符會(huì)產(chǎn)生給定圖像的所有像素點(diǎn)的大小和方向的梯度的直方圖。這個(gè)特征描述符擁有特定的長度并且十分強(qiáng)健,現(xiàn)已經(jīng)在許多應(yīng)用中成功使用,例如目標(biāo)檢測和識別【16,17】。在我們的實(shí)驗(yàn)中,HOG特征算子被用來提取熵圖和可視化特征圖。其中熵圖是從圖像塊P1-P4 現(xiàn)假設(shè)D(?)代表HOG特征直方圖。我們的算法利用以下公式來計(jì)算熵圖的F在這里,F(xiàn)i代表著用熵圖Ei提取到的HOG特征。F1,F(xiàn)2捕獲了傳統(tǒng)的紋理信息,但是,我們需要將熵圖用來生成特征描述符,使其對類內(nèi)變化更加強(qiáng)健,而不是直接使用可視化信息。而F3,F(xiàn)4則代表著最新的3D深度信息。前面已經(jīng)說過,原始的深度信息對于特征提取可能沒有什么作用,所以我們需要首先將深度圖轉(zhuǎn)化為熵圖,最后再用HOGFF=[特征向量F被用作多分類器的輸入。這一內(nèi)容將在下一小節(jié)講述。3.6,分類器的實(shí)現(xiàn) 一個(gè)多分類器,例如最鄰近算法,隨機(jī)決策森林【12】,還有支持向量機(jī)對于一個(gè)給定的樣例可以用來建立其獨(dú)立性。但是,用來人臉識別的分類器應(yīng)該具有對大量的類別都具有強(qiáng)健的識別性,輕量級的計(jì)算的特性,并且還要有高精度。在這些選擇之中,隨機(jī)決策森林擁有這些分類器特性的所有效果,它能夠產(chǎn)生非線性地決策邊界,并且比支持向量機(jī)更好的能夠處理多分類問題。不像最鄰近分類器,隨機(jī)決策森林對邊界同樣很強(qiáng)健,因?yàn)樯种械拿恳豢脴涠贾焕昧擞?xùn)練集中的一部分來訓(xùn)練。因此,由于一些散落在邊界外的數(shù)據(jù)點(diǎn)而讓決策樹的集合做出錯(cuò)誤的判斷的概率是非常低的。因此,在本文中,我們選擇了隨機(jī)決策森林作為最后的分類器的實(shí)現(xiàn)。在隨機(jī)決策森林的訓(xùn)練中,森林中數(shù)的數(shù)量和被用來訓(xùn)練一棵單獨(dú)的樹的訓(xùn)練數(shù)據(jù)中的部分?jǐn)?shù)據(jù)控制了森林的泛華能力。我們通過利用訓(xùn)練樣本和一些查找來獲得這些所需的參數(shù)。在這里,每一個(gè)特征描述符都是一個(gè)數(shù)據(jù)點(diǎn),而主體分類數(shù)量就是類的標(biāo)簽,因此分類的數(shù)量等于主體的數(shù)量。最后訓(xùn)練好的隨機(jī)決策森林會(huì)被用來作為最終的輸入數(shù)據(jù)的識別。3.7,本章小結(jié) 本章討論了利用kinect進(jìn)行3D人臉識別的具體流程,每一個(gè)步驟所利用到了具體算法和工具。第一步利用kinect接口獲取了彩色和深度數(shù)據(jù),并利用pcb庫進(jìn)行了點(diǎn)云配準(zhǔn),得到最后的穩(wěn)定的歸一化的數(shù)據(jù)。第二步將深度數(shù)據(jù)轉(zhuǎn)化為熵圖,將彩色數(shù)據(jù)轉(zhuǎn)化為顯著性圖和熵圖。第三步將預(yù)處理后的圖像提取HOG特征算子,然后組合成為特征向量。第四步利用第三步得到的特征向量進(jìn)行訓(xùn)練與評估。在下一節(jié)中我們將對系統(tǒng)流程的每一個(gè)步驟給出具體的實(shí)驗(yàn)結(jié)果,并進(jìn)行相應(yīng)的評估。4,實(shí)驗(yàn)與評估5,總結(jié)與展望致謝 在華中科技大學(xué)生活的四年里,我從一個(gè)懵懵懂懂的青少年成長成了一個(gè)歷經(jīng)風(fēng)風(fēng)雨雨的男人。學(xué)會(huì)了承擔(dān)責(zé)任的苦于累,學(xué)會(huì)了面對困難的決心與志氣,學(xué)會(huì)了朋友之間的溝通與交流,學(xué)會(huì)了不斷追求勇于改變現(xiàn)狀的熱血,找到了充實(shí)快樂生活的訣竅,找到了自己的方向與目標(biāo),找到了對未來的希冀與期盼。最重要的是我們掌握了如何學(xué)習(xí)這個(gè)世界的能力,這也是在大學(xué)中我獲得的最珍貴的財(cái)富。我們的青春不再迷茫,我們的未來不再縹緲,無論未來有多少荊棘,我也會(huì)義無反顧的走下去。 在此,我要感謝項(xiàng)目組彭敏學(xué)姐,張杰學(xué)長,王暉學(xué)長,趙飛學(xué)長給我的技術(shù)上或者思想上的指導(dǎo)與幫助,是他們陪我度過了大學(xué)里最充實(shí)的一段歲月。他們教給我的知識讓我在研究領(lǐng)域上有了一個(gè)巨大的進(jìn)步。 我要感謝華中科技大學(xué)給我提供了一個(gè)如此良好的學(xué)習(xí)環(huán)境,讓我認(rèn)識了這么多優(yōu)秀的人,讓我看見了這么多為了自己心中的理想和目標(biāo)而不斷追求和努力的人,讓我沒有辦法渾渾噩噩,沒有辦法墮落。感謝我遇到的每一個(gè)人。 我還要感謝互聯(lián)網(wǎng)中心的許煒老師,他給我指引了學(xué)習(xí)和生活的方向,感謝他在我精神世界留下的一顆種子,讓我在面對生活的方方面面的同時(shí),能夠不斷成長。 感謝我的父母讓我有一個(gè)健康的家庭環(huán)境,讓我能夠簡單幸福的成長。參考文獻(xiàn)YiSun,XiaogangWang,XiaoouTang.DeepLearningFaceRepresentationfromPredicting10,000Classes.InProc.CVPR,2014,pp.1891-1898.A.Georghiades,P.Belhumeur,andD.Kriegman.Fromfewtomany:Illuminationconemodelsforfacerecognitionundervariablelightingandpose.IEEETrans.onPatternAnal.andMachineIntel.,23(6):643–660,2001.J.Wright,A.Yang,A.Ganesh,S.Sastry,andY.Ma.Robustfacerecognitionviasparserepresentation.IEEETrans.OnPatternAnal.andMachineIntel.,31(2):210–227,2009.R.Gross,I.Matthews,andS.Baker.Appearance-basedfacerecognitionandlight-fields.IEEETrans.onPatternAnal.andMachineIntel.,26(4):449–465,2004.GaoliSang,JingLi,andQijunZhao.Pose-invariantfacerecognitionviaRGB-Dimages,ComputationalIntelligenceandNeuroscience,vol.2016,2016.B.Li,A.Mian,W.Liu,andA.Krishna.UsingKinectforfacerecognitionundervaryingposes,expressions,illuminationanddisguise.InIEEEWinterConferenceonApplicationsofComputerVision,pages186–192,Jan2013.RahulAjmera, AdityaNigamand PhalguniGupta.3DFaceRecognitionusingKinect.InICVGIP’14Proceedingsofthe2014I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論