版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
II第1章緒論研究的背景及意義研究背景會(huì)議是日常生活中常見的交流形式,隨著信息技術(shù)和社會(huì)經(jīng)濟(jì)的飛速發(fā)展,企業(yè)內(nèi)部、行業(yè)之間的會(huì)議也與日俱增,會(huì)議規(guī)模也越來越大。這也給會(huì)議簽到方式帶來了很大的挑戰(zhàn)。以往的簽到方式常采用簽名、輸入簽到碼或者短信驗(yàn)證碼進(jìn)行簽到,這些方法存在許多問題,如驗(yàn)證流程繁瑣、容易出錯(cuò),以及需要人的較多參與REF_Ref30670\r\h[1]。無論是在效率還是安全性上,傳統(tǒng)簽到方式難以滿足人們的需求。人們逐漸開始尋求一種兼顧效率與安全的會(huì)議簽到方式。人臉生物學(xué)特征具有唯一性且很難被復(fù)制,同時(shí)深度學(xué)習(xí)方法被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,人臉識(shí)別得到快速發(fā)展。憑借安全高效非接觸的優(yōu)勢(shì),人臉識(shí)別被應(yīng)用到生活中許許多多的場(chǎng)景中,例如在車站安檢、學(xué)校門口、銀行等都可以見到人臉識(shí)別設(shè)備的身影。人臉識(shí)別僅需通過攝像頭捕捉面部照片,非接觸式簽到可有效降低因接觸而傳播疾病的風(fēng)險(xiǎn)。此外,人臉特征難以偽造,可確保身份的唯一性與真實(shí)性,杜絕代簽或冒用風(fēng)險(xiǎn),提高了會(huì)議的安全性。而且,人臉識(shí)別的自動(dòng)化流程可大幅縮短簽到時(shí)間,提升會(huì)議入場(chǎng)效率,尤其適用于大規(guī)模REF_Ref30857\r\h[2]、高頻次的會(huì)議場(chǎng)景。會(huì)議人臉簽到常受到光照、角度的限制,識(shí)別效果不佳,并且多數(shù)的人臉識(shí)別模型龐大。因此,會(huì)議系統(tǒng)中人臉識(shí)別深度學(xué)習(xí)模型的優(yōu)化也成為當(dāng)前信息技術(shù)領(lǐng)域的一個(gè)重要方向,設(shè)計(jì)出識(shí)別準(zhǔn)確率更高、模型更加輕量化的人臉識(shí)別模型也成為了研究熱點(diǎn)。研究意義隨著時(shí)代的發(fā)展,人們對(duì)于會(huì)議的效率和安全性提出了更高的要求,基于深度學(xué)習(xí)的會(huì)議人臉簽到系統(tǒng)正是針對(duì)這一需求進(jìn)行設(shè)計(jì)的,能夠讓會(huì)議更加高效安全。一方面,一般的手工簽到效率低下,基于深度學(xué)習(xí)的人臉識(shí)別算法可以實(shí)現(xiàn)快速核驗(yàn),大大縮短與會(huì)者的入場(chǎng)時(shí)間,實(shí)現(xiàn)優(yōu)化現(xiàn)場(chǎng)人流管理REF_Ref11380\r\h[3],對(duì)于大規(guī)模會(huì)議場(chǎng)景也具有適用性。另一方面,在傳統(tǒng)的簽到方式中,線下簽到常依賴于人工核驗(yàn),存在身份冒用的風(fēng)險(xiǎn)。而該系統(tǒng)利用人臉的唯一性與不可復(fù)制性,能夠很大程度地避免代簽REF_Ref31082\r\h[4]、偽造、冒名頂替行為。同時(shí)系統(tǒng)人臉識(shí)別相較于指紋識(shí)別,人臉圖片錄入無需直接接觸,能夠降低因?yàn)榻佑|簽到設(shè)備而感染的風(fēng)險(xiǎn),對(duì)于維護(hù)公共衛(wèi)生安全有積極意義。不僅如此,通過調(diào)整人臉相似度判別閾值、更改數(shù)據(jù)庫規(guī)模等,系統(tǒng)可以靈活滿足小型會(huì)議到大型會(huì)議的不同需求REF_Ref30670\r\h[1]。本文系統(tǒng)中的人臉識(shí)別部分具有很強(qiáng)的可擴(kuò)展性,可以運(yùn)用到各種需要使用人臉識(shí)別的場(chǎng)景。在優(yōu)化會(huì)議管理方式之外,還可以為會(huì)展、校園、政務(wù)等場(chǎng)景提供身份認(rèn)證方案。比如,在高校課堂REF_Ref31134\r\h[5]中替代人工點(diǎn)名,智慧政務(wù)平臺(tái)中通過刷臉登錄辦事從而減少需要攜帶的身份認(rèn)證材料。從長(zhǎng)遠(yuǎn)來看,人臉簽到這一非接觸式簽到的衛(wèi)生優(yōu)勢(shì)REF_Ref31186\r\h[6]也更加符合公共健康管理的趨勢(shì)。因此,本文中系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)不僅滿足了人們對(duì)于會(huì)議效率和安全與日俱增的需求,還具備可擴(kuò)展性,可以滿足人臉身份認(rèn)證的多樣化場(chǎng)景,而且有利于公共健康衛(wèi)生的管理。國(guó)內(nèi)外研究現(xiàn)狀人臉識(shí)別是圖像領(lǐng)域的經(jīng)典問題REF_Ref31248\r\h[7],最早提出于上世紀(jì)五六十年代REF_Ref31291\r\h[8],其發(fā)展經(jīng)歷了從傳統(tǒng)方法到深度學(xué)習(xí)方法的革新,隨著技術(shù)演進(jìn)顯著提高了識(shí)別精讀和多元化場(chǎng)景的適應(yīng)能力,逐步解決了光照、姿態(tài)、遮擋等復(fù)雜場(chǎng)景下的識(shí)別難題。傳統(tǒng)人臉識(shí)別研究現(xiàn)狀早期人臉識(shí)別算法有基于幾何特征方法、基于模板匹配方法、基于代數(shù)特征方法等類型REF_Ref3792\r\h[9]。其中,幾何特征方法在測(cè)量出面部關(guān)鍵特征之間的距離、角度、比例之后就可以構(gòu)建出人臉特征向量進(jìn)行識(shí)別?;谀0迤ヅ涞娜四樧R(shí)別方法則是先構(gòu)建出一個(gè)標(biāo)準(zhǔn)的人臉模板,再將待識(shí)別的人臉圖像與之進(jìn)行匹配,計(jì)算兩者間的相似度判斷是否為同一個(gè)人?;诖鷶?shù)特征的方法利用線性代數(shù)將的矩陣分解和特征提取技術(shù),將人臉圖像轉(zhuǎn)換為低維、具有判別性的特征向量,如有主成分分析法(PCA)。后續(xù)發(fā)展階段出現(xiàn)了人工特征與分類器結(jié)合的方法,如支持向量機(jī)、貝葉斯等。但上述方法都存在受圖像質(zhì)量、姿態(tài)、表情、光照的影響比較大的問題。基于深度學(xué)習(xí)的人臉識(shí)別研究現(xiàn)狀深度學(xué)習(xí)為人臉識(shí)別提供了新的范本,深度學(xué)習(xí)通過端到端特征學(xué)習(xí)與多層非線性映射,突破了傳統(tǒng)方法的性能瓶頸。2D人臉識(shí)別方法眾多同時(shí)發(fā)展得更加成熟,廣泛應(yīng)用于門禁、支付等場(chǎng)景。豐富的人臉識(shí)別比賽、大規(guī)模開源數(shù)據(jù)集促使其不斷突破,如今的識(shí)別準(zhǔn)確率幾乎與人類無異。2014年Facebook提出的DeepFace方法使用200萬的大規(guī)模數(shù)據(jù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),在LFW上達(dá)到97.35%準(zhǔn)確率REF_Ref27349\r\h[10],逼近人類水平。2015年Google提出了FaceNet網(wǎng)絡(luò)結(jié)構(gòu),并且引入Triplet損失函數(shù),在2億的超大規(guī)模數(shù)據(jù)集上訓(xùn)練后在LFW等人臉測(cè)試集上均取得當(dāng)時(shí)的最好效果REF_Ref27401\r\h[11]。2019年提出的ArcFace引入加性角度裕度損失,直接在角(?。┛臻g中最大化決策邊界,在LFW上的準(zhǔn)確率高達(dá)99.83%。當(dāng)下基于深度學(xué)習(xí)的人臉識(shí)別方法正朝著輕量化、3D人臉識(shí)別技術(shù)以及混合架構(gòu)的方向發(fā)展。在輕量化方面的進(jìn)展,例如適用于移動(dòng)端的MobileFaceNetsREF_Ref31454\r\h[12]模型大小僅4MB,但識(shí)別精度比肩FaceNet等大模型。真實(shí)的人臉存在于三維空間中,3D人臉識(shí)別基于采集的人臉數(shù)據(jù)進(jìn)行3D重建,相較于2D人臉識(shí)別多了一維度,表達(dá)效果更好。3D人臉識(shí)別的識(shí)別準(zhǔn)確率和活體檢測(cè)率比2D人臉識(shí)別都要更高,安全性也更高。當(dāng)前研究進(jìn)一步探索多模態(tài)融合、對(duì)抗防御與隱私保護(hù)、動(dòng)態(tài)人臉識(shí)別REF_Ref31500\r\h[13],推動(dòng)人臉識(shí)別向高魯棒、低資源、合規(guī)化方向發(fā)展。本文主要的工作內(nèi)容本文主要圍繞提升人臉識(shí)別算法精度和將其集成至?xí)h簽到系統(tǒng),設(shè)計(jì)并實(shí)現(xiàn)人人臉識(shí)別會(huì)議簽到系統(tǒng)。因MobileFaceNets模型大小僅4MB,且推理速度快,適用于移動(dòng)端設(shè)備,本文所選取其作為基準(zhǔn)模型。原MobileFaceNets種使用的是PReLU激活函數(shù),在復(fù)雜光照以及低分辨率場(chǎng)景下存在特征表達(dá)能力不足的問題,所以本文提出了將PReLU激活函數(shù)替換為具有平滑性、自適應(yīng)特性的Swish激活函數(shù)的改進(jìn)思路。在訓(xùn)練過程中對(duì)人臉數(shù)據(jù)增強(qiáng),對(duì)訓(xùn)練圖像數(shù)據(jù)進(jìn)行隨機(jī)水平翻轉(zhuǎn)、隨機(jī)對(duì)比度調(diào)整、隨機(jī)顏色強(qiáng)度調(diào)整等處理,提升模型的泛化能力REF_Ref31546\r\h[14],提高了MobileFaceNets在LFW上的識(shí)別準(zhǔn)確率。在優(yōu)化了人臉識(shí)別模型之后,緊接著就是將其集成到會(huì)議簽到系統(tǒng)中。針對(duì)會(huì)議簽到系統(tǒng)應(yīng)該具備的基本功能進(jìn)行分析,然后確定技術(shù)選型開始實(shí)現(xiàn)該系統(tǒng)。系統(tǒng)中的人臉識(shí)別簽到流程為人臉檢測(cè),提取目標(biāo)匹配人臉的主要特征,然后跟已知圖像庫中的人臉特征進(jìn)行匹配,計(jì)算特征向量間的余弦相似度REF_Ref31588\r\h[15],與預(yù)設(shè)閾值進(jìn)行比對(duì),最后根據(jù)匹配結(jié)果生成簽到記錄。論文組織結(jié)構(gòu)各章節(jié)結(jié)構(gòu)安排如下:第1章:介紹設(shè)計(jì)并實(shí)現(xiàn)的研究背景、意義、傳統(tǒng)人臉識(shí)別及基于深度學(xué)習(xí)的人臉識(shí)別研究現(xiàn)狀,以及本文的主要工作和組織結(jié)構(gòu)。第2章:本章主要介紹基于深度學(xué)習(xí)的人臉識(shí)別的基礎(chǔ)理論,包括神經(jīng)網(wǎng)絡(luò)基礎(chǔ)和深度學(xué)習(xí)框架。在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)中包括多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)和MobileNetV2。深度學(xué)習(xí)框架介紹部分講述了框架產(chǎn)生的背景和當(dāng)前流行的一些框架,再針對(duì)本文中使用的PaddlePaddle深度學(xué)習(xí)框架進(jìn)行詳細(xì)展開。第3章:本章先介紹了本文實(shí)驗(yàn)中所用的基本模型MobileFaceNets的網(wǎng)絡(luò)結(jié)構(gòu),以及其中重要的兩個(gè)部分:深度可分離卷積和ArcNet。接著介紹了原MobileFaceNets中PReLU激活函數(shù)的不足,使用Swish激活函數(shù)進(jìn)行改進(jìn)的優(yōu)點(diǎn)。第4章:本章介紹了人臉識(shí)別實(shí)驗(yàn)配置、數(shù)據(jù)集、訓(xùn)練過程、模型評(píng)估等,并展示了改進(jìn)前后的MobileFaceNets在人臉識(shí)別任務(wù)上的效果,根據(jù)結(jié)果分析改進(jìn)后模型準(zhǔn)確率的提升效果。第5章:本章介紹了會(huì)議人臉簽到系統(tǒng)的架構(gòu)、功能、數(shù)據(jù)庫設(shè)計(jì)和系統(tǒng)的主要模塊。
基礎(chǔ)理論和相關(guān)技術(shù)本章先介紹了神經(jīng)網(wǎng)絡(luò)基礎(chǔ),包括了卷積神經(jīng)網(wǎng)絡(luò),多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),殘差網(wǎng)絡(luò),以及MobileNetV2網(wǎng)絡(luò)架構(gòu);然后介紹了深度學(xué)習(xí)框架產(chǎn)生背景及常用的框架,并對(duì)其中的PaddlePaddle深度學(xué)習(xí)框架進(jìn)行詳細(xì)介紹,為后文實(shí)驗(yàn)奠定理論基礎(chǔ)。2.1神經(jīng)網(wǎng)絡(luò)基礎(chǔ)理論2.1.1多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNNREF_Ref5487\r\h[16])是一種級(jí)聯(lián)式人臉檢測(cè)框架(其流程圖如REF_Ref20421\h圖STYLEREF1\s2-1所示),專為解決人臉檢測(cè)與關(guān)鍵點(diǎn)定位的聯(lián)合優(yōu)化問題而設(shè)計(jì)。MTCNN有三個(gè)子網(wǎng)絡(luò):ProposalNetwork(P-NetREF_Ref5527\r\h[17])、RefineNetwork(R-NetREF_Ref5527\r\h[17])、OutputNetwork(O-NetREF_Ref5527\r\h[17]),三個(gè)子網(wǎng)對(duì)人臉的處理精細(xì)程度依次升高。使用圖像金字塔將輸入的原始圖像縮放到不同尺寸之后,將圖像送入子網(wǎng)訓(xùn)練。先使用P-Net網(wǎng)絡(luò)生成一些可能包含人臉區(qū)域的候選框。P-Net的檢測(cè)較為粗略,接著使用R-Net篩去大量的非人臉框。最后輸入到O-Net網(wǎng)絡(luò),輸出最終的人臉邊界框和關(guān)鍵點(diǎn)坐標(biāo)。經(jīng)過每個(gè)子網(wǎng),網(wǎng)絡(luò)輸入圖像尺寸越來越大,卷積層的通道數(shù)也越多,深度也越深,人臉識(shí)別準(zhǔn)確率越高REF_Ref8877\r\h[18]。圖STYLEREF1\s2-SEQ圖\*ARABIC\s11MTCNN級(jí)聯(lián)框架的流程圖2.1.2殘差網(wǎng)絡(luò)(ResNet)深度學(xué)習(xí)中網(wǎng)絡(luò)層數(shù)越多可能會(huì)導(dǎo)致性能退化。殘差網(wǎng)絡(luò)就是解決深度學(xué)習(xí)中網(wǎng)絡(luò)性能退化的一個(gè)代表性解決方案。殘差網(wǎng)絡(luò)引入了殘差結(jié)構(gòu)(REF_Ref20594\h圖STYLEREF1\s2-2)和恒等映射。恒等映射通過引入跳躍連接,允許輸入直接傳遞到輸出,與經(jīng)過卷積層處理的特征相加,從而緩解了梯度消失和梯度爆炸問題,并有助于保留低級(jí)特征。殘差網(wǎng)絡(luò)可以訓(xùn)練非常深的網(wǎng)絡(luò),同時(shí)提高模型表達(dá)能力和性能。圖STYLEREF1\s2-SEQ圖\*ARABIC\s12殘差結(jié)構(gòu)2.1.3MobileNetV2MobileNetV2REF_Ref9067\r\h[19]是Google在2018年推出的一款專為移動(dòng)設(shè)備和嵌入式系統(tǒng)設(shè)計(jì)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型(完整的MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)如下REF_Ref23204\h表STYLEREF1\s2-1所示),在提高模型的效率和準(zhǔn)確性的同時(shí)保持低計(jì)算成本和小內(nèi)存占用。與MobileNetV1相比,MobileNetV2的不同體現(xiàn)在其創(chuàng)新性地引入了“倒置殘差結(jié)構(gòu)”和“線性瓶頸層”。表STYLEREF1\s2-SEQ表\*ARABIC\s11MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu),其中t是擴(kuò)展因子,c是輸出特征矩陣深度channel,n是bottleneck的重復(fù)次數(shù),s是步距(針對(duì)第一層,其他為1)InputOperatortcns2242×3conv2d-32121122×32bottleneck116111122×16bottleneck62422562×24bottleneck63232282×32bottleneck66442282×64bottleneck69631142×96bottleneck61603272×160bottleneck63201172×320conv2d1×1-12801172×1280avgpool7×7--1-1×1×kconv2d1×1-k-在傳統(tǒng)的殘差結(jié)構(gòu)中,先降維再升維,形成一個(gè)兩頭大中間小的瓶頸結(jié)構(gòu)。而在MobileNetV2中,先升維再降維,中間層通道數(shù)較多,形成一個(gè)兩頭小中間大的倒置的瓶頸結(jié)構(gòu),如REF_Ref20807\h圖STYLEREF1\s2-3所示。圖STYLEREF1\s2-SEQ圖\*ARABIC\s13傳統(tǒng)殘差結(jié)構(gòu)和倒置殘差結(jié)構(gòu)圖2-6來自/qq_51872445/article/details/140593549圖2-6來自/qq_51872445/article/details/140593549在MobileNetV2中,倒置殘差結(jié)構(gòu)首先通過1×1的逐點(diǎn)卷積擴(kuò)展輸入通道數(shù),然后通過3×3的深度可分離卷積進(jìn)行特征提取,最后再次通過1×1的逐點(diǎn)卷積壓縮至與原來相同的通道數(shù)。另外,倒置殘差結(jié)構(gòu)中使用ReLU6激活函數(shù),其表達(dá)式為: ReLU6x=minmax0,x,6 公式(STYLEREF1\s2-SEQ公式\*ARABIC\s11)在倒置殘差結(jié)構(gòu)中,ReLU6激活函數(shù)通常應(yīng)用于擴(kuò)張層和深度可分離卷積層之后。在擴(kuò)張層中,ReLU6有助于非線性特征的提?。辉谏疃瓤煞蛛x卷積層后,ReLU6則幫助提取更豐富的空間特征和保持計(jì)算效率。MobileNetV2中shortcut連接條件為:stride=1且輸入特征矩陣與輸出特征矩陣shape相同,如REF_Ref20898\h圖STYLEREF1\s2-4所示。這與ResNet的連接條件有所不同。圖STYLEREF1\s2-SEQ圖\*ARABIC\s14MobileNetV2中shortcut連接條件2.2深度學(xué)習(xí)框架2.2.1深度學(xué)習(xí)框架理論為了避免寫大量的重復(fù)代碼,提高工作效率,深度學(xué)習(xí)框架就誕生了。深度學(xué)習(xí)框架的產(chǎn)生不僅可以簡(jiǎn)化開發(fā)流程,還能自動(dòng)利用GPU/TPU的并行計(jì)算能力,通過計(jì)算圖優(yōu)化(如算子融合、內(nèi)存管理)提升效率。當(dāng)前最為流行的深度學(xué)習(xí)框架有Pytorch、Tensorflow、PaddlePaddle等等。每種框架都有自身的優(yōu)勢(shì)。Pytorch框架的優(yōu)點(diǎn)在于動(dòng)態(tài)計(jì)算圖(即時(shí)執(zhí)行),便于調(diào)試和靈活建模,學(xué)術(shù)界廣泛采用,是豐富的科研代碼庫。同時(shí),其與Python生態(tài)無縫集成。Pytorch適用于研究原型開發(fā)、動(dòng)態(tài)網(wǎng)絡(luò)(如RNN)。Tensorflow框架有著成熟的生態(tài)系統(tǒng)(TFX、TFLite、TFServing)支持工業(yè)級(jí)部署。其優(yōu)勢(shì)在于靜態(tài)計(jì)算圖優(yōu)化(通過tf.function兼容動(dòng)態(tài)圖),多語言支持(Python/C++/JS),適用于生產(chǎn)環(huán)境部署、跨平臺(tái)場(chǎng)景。飛槳(PaddlePaddle)是由百度研發(fā)的開源框架,是中國(guó)第一個(gè)自主研發(fā)、功能完善并且開源開放的深度學(xué)習(xí)平臺(tái)?。其集深度學(xué)習(xí)訓(xùn)練和預(yù)測(cè)框架、模型庫、工具組件等于一體,并且由于是國(guó)產(chǎn)的深度學(xué)習(xí)平臺(tái),其中文文檔以及社區(qū)支持完善,易用性很高。2.2.2PaddlePaddle深度學(xué)習(xí)框架飛槳(PaddlePaddle)的多端部署能力十分強(qiáng)大,處于業(yè)界領(lǐng)先地位。飛槳的基礎(chǔ)模型庫如REF_Ref21003\h圖STYLEREF1\s2-5所示,開發(fā)套件如REF_Ref21084\h圖STYLEREF1\s2-6所示。隨著飛槳的不斷迭代更新,飛槳成了越來越多的開發(fā)者的選擇。截至2022年12月,基于飛槳構(gòu)建的模型就高達(dá)67萬個(gè)。飛槳為開發(fā)者實(shí)現(xiàn)想法賦能,也幫助了很多行業(yè)實(shí)現(xiàn)智能化升級(jí)。飛槳的模型庫算法總數(shù)達(dá)270多個(gè),服務(wù)了農(nóng)業(yè)、金融、工業(yè)等諸多領(lǐng)域。飛槳率先在業(yè)內(nèi)實(shí)現(xiàn)動(dòng)靜統(tǒng)一的框架設(shè)計(jì),提供一體化API,靈活并且性能高。飛槳提供了大規(guī)模分布式訓(xùn)練和工業(yè)級(jí)數(shù)據(jù)處理的能力,并且支持稠密參數(shù)和系數(shù)參數(shù)場(chǎng)景的超大規(guī)模深度學(xué)習(xí)并行訓(xùn)練,支持萬億規(guī)模參數(shù)、數(shù)百個(gè)節(jié)點(diǎn)的高效并行訓(xùn)練REF_Ref15863\r\h[20]。飛槳在大規(guī)模分布式訓(xùn)練技術(shù)上達(dá)到國(guó)際領(lǐng)先水平。圖STYLEREF1\s2-SEQ圖\*ARABIC\s15PaddlePaddle模型庫圖STYLEREF1\s2-SEQ圖\*ARABIC\s16PaddlePaddle開發(fā)套件2.3本章小結(jié)本章介紹了人臉識(shí)別基礎(chǔ)理論,包括神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)框架的基本知識(shí)。其中對(duì)MTCNN,ResNet以及MobileNetV2進(jìn)行了詳細(xì)介紹。同時(shí)本文還闡述了深度學(xué)習(xí)框架的產(chǎn)生背景及其帶來的好處,分析了多種主流深度學(xué)習(xí)框架的各自特點(diǎn)和適用場(chǎng)景。
基于深度學(xué)習(xí)的人臉識(shí)別算法深度學(xué)習(xí)人臉識(shí)別算法眾多,但其中有的算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜需要大量的計(jì)算資源。MobileFaceNets的出現(xiàn)提供了輕量級(jí)人臉識(shí)別模型,其精度比肩FaceNet,DeepFace等大模型。本章主要介紹了MobileFaceNets的網(wǎng)絡(luò)架構(gòu),同時(shí)還介紹了網(wǎng)絡(luò)中重要的兩個(gè)部分:深度可分離卷積和ArcNet。3.1網(wǎng)絡(luò)架構(gòu)3.1.1MobileFaceNets網(wǎng)絡(luò)結(jié)構(gòu)MobileFaceNets(網(wǎng)絡(luò)結(jié)構(gòu)如REF_Ref23605\h表STYLEREF1\s3-1所示)是在MobileNetV2基礎(chǔ)上演變而來的,是專為人臉識(shí)別任務(wù)設(shè)計(jì)的兼顧精度和速度的輕量級(jí)人臉識(shí)別網(wǎng)絡(luò),模型大小只有4MB,精度比肩FaceNet,DeepFace等大模型。表STYLEREF1\s3-SEQ表\*ARABIC\s11MobileFaceNets網(wǎng)絡(luò)結(jié)構(gòu)InputOperatortcns1122×3conv3×3-6412562×64depthwiseconv3×3-6411562×64bottleneck26452282×64bottleneck412812142×128bottleneck212861142×128bottleneck41281272×128bottleneck21282172×128conv1×1-5121172×512linearGDCConv7×7-5121112×512linearconv1×1-12811普通的MobileNet,例如MobileNetV1,ShuffleNet和MobileNetV2都存在全局平均池化層,研究人員觀察到,具有全局平均池化層的CNN的準(zhǔn)確性要低于沒有全局平均池化層的CNN。在MobileFaceNets中采用全局DepthwiseConvolution(表示為GDConv)代替全局平均池化。GDConv卷積核與輸入特征圖大小一樣,pad=0,stride=1。輸出計(jì)算如下: Gm=i,jKi,j,m?Fi,j,m 公式(STYLEREF1\s3-SEQ公式\*ARABIC\s1F是輸入的特征映射,尺寸為W×H×M;K是逐深度卷積核,尺寸為W×H×M;G是輸出,尺寸為1×H×M。其中在G的第m個(gè)通道上只有一個(gè)元素GmMobileNetV2里面提出的residualbottlenecks仍然是MobileFaceNets網(wǎng)絡(luò)結(jié)構(gòu)主要的構(gòu)建模塊,但在MobileFaceNets中擴(kuò)展因子會(huì)比MobileNetV2中的小得多。MobileFaceNets中使用PReLU激活函數(shù)。3.1.2MobileFaceNets中的深度可分離卷積深度可分離卷積既能減少計(jì)算量,又能保持良好的特征提取能力,MobileFaceNets中的倒置殘差模塊正是用到了這一卷積操作。深度可分離卷積將標(biāo)準(zhǔn)卷積拆分為深度卷積和逐點(diǎn)卷積。深度卷積不會(huì)改變通道數(shù)。在深度卷積中,對(duì)于輸入的每一個(gè)通道都會(huì)使用一個(gè)獨(dú)立的卷積核,最后將每個(gè)卷積核處理得到的特征圖進(jìn)行拼接,得到通道數(shù)與輸入通道數(shù)一致的特征圖。深度卷積示意圖如REF_Ref21221\h圖STYLEREF1\s3-1中DepthwiseConvolution所示,標(biāo)準(zhǔn)卷積與深度卷積的對(duì)比示意圖如REF_Ref21221\h圖STYLEREF1\s3-1所示。逐點(diǎn)卷積其實(shí)就是1×1卷積,通過該操作一方面可以實(shí)現(xiàn)通道融合,另一方面可以改變輸出通道數(shù),輸出通道數(shù)就等于卷積核的個(gè)數(shù)。圖STYLEREF1\s3-SEQ圖\*ARABIC\s11標(biāo)準(zhǔn)卷積和深度卷積圖3-1來自/p/166736637圖3-1來自/p/1667366373.1.3MobileFaceNets中的ArcNet在MobileFaceNets中,ArcNet起到了將ArcFaceREF_Ref4974\r\h[21]邏輯嵌入到網(wǎng)絡(luò)中的作用在ArcNet的forward方法中,實(shí)現(xiàn)了ArcFace的核心邏輯:1.對(duì)輸入特征input和權(quán)重self.weight進(jìn)行歸一化。2.計(jì)算余弦相似度cos。3.添加角度間隔margin,生成新的相似度phi。4.根據(jù)標(biāo)簽label,將目標(biāo)類別的相似度替換為phi,其他類別的相似度保持為cos。5.將最終的相似度乘以一個(gè)縮放因子scale,以增強(qiáng)數(shù)值穩(wěn)定性。ArcNet的輸出是一個(gè)經(jīng)過ArcFace調(diào)整后的相似度向量,它與標(biāo)簽label一起被用于計(jì)算交叉熵?fù)p失。換句話說,ArcNet將ArcFace的邏輯嵌入到了模型的最后一層,使得模型能夠?qū)W習(xí)到更具判別性的特征表示。3.2MobileFaceNets優(yōu)化3.2.1MobileFaceNets中的PReLU激活函數(shù)MobileFaceNets是針對(duì)移動(dòng)設(shè)備及低算力場(chǎng)景優(yōu)化的人臉識(shí)別架構(gòu),其設(shè)計(jì)目標(biāo)是在確保識(shí)別精度的前提下實(shí)現(xiàn)模型輕量化。網(wǎng)絡(luò)性能與激活函數(shù)的選擇密切相關(guān),MobileFaceNets中的PReLU激活函數(shù)直接影響模型特征表達(dá)能力。PReLU是ReLU的多個(gè)變體之一,ReLU的表達(dá)式為: ReLU=max0,x 公式(STYLEREF1\s3-SEQ公式\*ARABIC\s12)當(dāng)輸入為負(fù)數(shù)時(shí),ReLU直接輸出0。當(dāng)輸入為非負(fù)時(shí),ReLU的輸出值即為輸入值。ReLU在負(fù)輸入部分統(tǒng)一輸出為0會(huì)帶來梯度消失問題REF_Ref9736\r\h[22]。針對(duì)這一問題,PReLU通過引入可學(xué)習(xí)參數(shù)α進(jìn)行改進(jìn),其表達(dá)式定義為: PReLU=maxαx,x 公式(STYLEREF1\s3-SEQ公式\*ARABIC\s13)式中α通常是小于1的常數(shù),當(dāng)輸入小于0時(shí)輸出的是αx,而不是像ReLU一樣直接輸出0。當(dāng)輸入非負(fù)時(shí),PReLU的輸出與ReLU一樣。PReLU在處理負(fù)輸入時(shí)比ReLU更加靈活有效,能夠改進(jìn)梯度消失問題,同時(shí)可學(xué)習(xí)參數(shù)α也使得網(wǎng)絡(luò)可以自適應(yīng)調(diào)整激活函數(shù)的形狀,讓模型更加靈活。但PReLU在負(fù)區(qū)間固定斜率為α,非負(fù)區(qū)間斜率為1,分段線性導(dǎo)致梯度曲線不平滑,深層網(wǎng)絡(luò)中可能會(huì)出現(xiàn)梯度震蕩,收斂速度慢。3.2.2使用Swish激活函數(shù)優(yōu)化后的人臉識(shí)別結(jié)果Swish激活函數(shù)是GoogleResearch提出的非線性激活函數(shù),其可表示為公式3-4: Swishx=x?σβx 公式(STYLEREF1\s3-4)其中的β可學(xué)習(xí)或是固定,σ(x)是Sigmoid函數(shù)(公式3-5)。 Sigmoidx=11+e?x 公式(Swish的導(dǎo)數(shù)形式為公式3-6。通過使用Sigmoid作為軟門控調(diào)節(jié)輸出,Swish具備連續(xù)可微的“自門控”特性,因此能夠捕捉更加精細(xì)的人臉特征復(fù)雜非線性關(guān)系。 Swis?'x=σβx+βx?σβx1?σβxSwish在負(fù)區(qū)間保留了類似LeakyReLU的微小梯度,能夠緩解神經(jīng)元失活。在正區(qū)間,隨著輸入增大梯度趨近于1,通過Sigmoid加權(quán)后更加平緩,能夠避免梯度爆炸,提升訓(xùn)練穩(wěn)定性。本文的實(shí)驗(yàn)表明,在保持MobileFaceNets原始架構(gòu)不變的情況下,將PReLU替換為Swish激活函數(shù)的改進(jìn)方案在LFW標(biāo)準(zhǔn)測(cè)試集上人臉識(shí)別準(zhǔn)確率獲得顯著提升。3.3本章小結(jié)本章主要介紹了本文使用的在深度學(xué)習(xí)基礎(chǔ)上的人臉識(shí)別模型,詳細(xì)介紹了MobileFaceNets網(wǎng)絡(luò)結(jié)構(gòu),以及網(wǎng)絡(luò)中重要的卷積操作深度可分離卷積,介紹了原網(wǎng)絡(luò)結(jié)構(gòu)中使用的PReLU激活函數(shù)的不足,以及替換后的Swish激活函數(shù)的優(yōu)點(diǎn)和表現(xiàn)性能。
人臉識(shí)別實(shí)驗(yàn)與結(jié)果分析網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)、損失函數(shù)、優(yōu)化策略都會(huì)影響人臉識(shí)別模型性能。本章在MobileFaceNets模型的基礎(chǔ)上開展實(shí)驗(yàn),研究Swish激活函數(shù)替換PReLU激活函數(shù)后模型在識(shí)別準(zhǔn)確率上的性能變化。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)集為emore數(shù)據(jù)集,測(cè)試集為L(zhǎng)FW,同時(shí)還有自收集的人臉照片來測(cè)試訓(xùn)練完成后的模型表現(xiàn)。通過比較替換激活函數(shù)前后訓(xùn)練過程中的準(zhǔn)確率、損失曲線以及學(xué)習(xí)率變化,證明Swish激活函數(shù)在緩解梯度消失、增強(qiáng)特征表達(dá)能力方面優(yōu)于原有的PReLU激活函數(shù),為后續(xù)會(huì)議人臉簽到部分提供算法支持。4.1實(shí)驗(yàn)配置本文的實(shí)驗(yàn)環(huán)境的基本信息為:2核CPU,TeslaV100-SXM2-32GBAI加速卡,總16GB顯存,PaddlePaddle2.4.0框架,Python.2數(shù)據(jù)集本文實(shí)驗(yàn)中訓(xùn)練數(shù)據(jù)使用emore數(shù)據(jù)集,一共有85742個(gè)人,共5822653張圖片,但由于受限于計(jì)算機(jī)資源,選取了前10000個(gè)人,共758253張圖片。實(shí)驗(yàn)中使用lfw-align-128數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。lfw-align-128是LFW數(shù)據(jù)集經(jīng)過對(duì)齊和尺寸調(diào)整(128×128像素)后的版本,包含6000對(duì)測(cè)試對(duì),其中正樣本3000對(duì),負(fù)樣本3000對(duì)。同時(shí)將收集的身邊人臉和網(wǎng)絡(luò)中搜集的明星人臉圖片一共40張作為自定義測(cè)試集。4.3訓(xùn)練過程4.3.1損失函數(shù)在模型訓(xùn)練的過程中,本文選取了交叉熵?fù)p失函數(shù)(CrossEntropyLoss)。對(duì)于多分類任務(wù)(假設(shè)有K個(gè)類別),交叉熵?fù)p失函數(shù)定義為: Loss=?1Ni=1Nk=1Kyi,klogyi,k 公式(其中,yi,k為真實(shí)標(biāo)簽的one-hot編碼(若第i個(gè)樣本屬于第k類,則yi,k=1,否則為0),yi,k Loss=?1Ni=1Nlogyi,ci 公式(STYLEREF1\s4其中ci本文的人臉識(shí)別在訓(xùn)練過程中是一個(gè)多分類問題,訓(xùn)練集一共10000個(gè)類別。原MobileFaceNets輸出128維特征向量,為了獲得更細(xì)粒度的特征區(qū)分和更強(qiáng)的魯棒性,本文中輸入的圖像在經(jīng)過MobileFaceNets的處理后輸出512維特征向量。4.3.2優(yōu)化器與學(xué)習(xí)率在模型訓(xùn)練過程中,本文采用Momentum優(yōu)化器。其中動(dòng)量系數(shù)為0.9,在加速梯度下降的同時(shí)保持參數(shù)更新時(shí)的方向穩(wěn)定。為了防止模型過擬合,優(yōu)化器配置L2權(quán)重衰減策略,衰減系數(shù)設(shè)置為1×10-6。學(xué)習(xí)率調(diào)度采用分階段衰減策略(StepDecay),初始學(xué)習(xí)率設(shè)置為1×10-3。每個(gè)epoch訓(xùn)練結(jié)束后,學(xué)習(xí)率衰減為原來的0.8倍,其更新公式可表示為: lrt=lrt?1×γepoc?/step_size 公式(STYLEREF1\s4-SEQ公式\*ARABIC\s13其中衰減系數(shù)γ=0.8,step_size=1表示每個(gè)epoch后觸發(fā)衰減機(jī)制。這種動(dòng)態(tài)調(diào)整策略在訓(xùn)練初期保持較大學(xué)習(xí)率來加速模型的收斂速度,在訓(xùn)練中后期逐步細(xì)化參數(shù)調(diào)整幅度,有效平衡了收斂速度與模型精度的關(guān)系。實(shí)驗(yàn)設(shè)置總訓(xùn)練輪次為50個(gè)epoch,batch_size大小為64,在保證顯存利用率的同時(shí)確保參數(shù)更新的穩(wěn)定性。4.4模型評(píng)估在模型驗(yàn)證階段,本文采用LFW數(shù)據(jù)集作為測(cè)試集。對(duì)于每個(gè)測(cè)試樣本對(duì)(包含正樣本對(duì)與負(fù)樣本對(duì)),計(jì)算其對(duì)應(yīng)特征向量的余弦相似度,并通過相似度閾值判定是否屬于同一身份。最終以最大驗(yàn)證準(zhǔn)確率(Accuracy)作為核心評(píng)價(jià)指標(biāo),同時(shí)記錄達(dá)到最優(yōu)性能時(shí)的判定閾值。4.5實(shí)驗(yàn)與分析本文的網(wǎng)絡(luò)模型采用的是MobileFaceNets,將標(biāo)準(zhǔn)卷積模塊中的PReLU激活函數(shù)替換為Swish激活函數(shù),初始學(xué)習(xí)率為0.001,在emore數(shù)據(jù)集上選取了10000個(gè)人的照片訓(xùn)練,在每個(gè)epoch結(jié)束后對(duì)當(dāng)前模型在LFW上進(jìn)行測(cè)試準(zhǔn)確率,改進(jìn)前準(zhǔn)確率變化曲線(REF_Ref21323\h圖STYLEREF1\s4-1)、損失下降曲線(REF_Ref21345\h圖STYLEREF1\s4-2)、學(xué)習(xí)率變化曲線(REF_Ref21368\h圖STYLEREF1\s4-3)如下,改進(jìn)后上述指標(biāo)變化圖像為REF_Ref21466\h圖STYLEREF1\s4-4,REF_Ref21473\h圖STYLEREF1\s4-5,REF_Ref21476\h圖STYLEREF1\s4-6。圖STYLEREF1\s4-SEQ圖\*ARABIC\s11準(zhǔn)確率變化曲線(改前)圖STYLEREF1\s4-SEQ圖\*ARABIC\s12準(zhǔn)確率變化曲線(改后)圖STYLEREF1\s4-SEQ圖\*ARABIC\s13損失下降曲線(改前)圖STYLEREF1\s4-SEQ圖\*ARABIC\s14損失下降曲線(改后)圖STYLEREF1\s4-SEQ圖\*ARABIC\s15學(xué)習(xí)率變化曲線(改前)圖STYLEREF1\s4-SEQ圖\*ARABIC\s16學(xué)習(xí)率變化曲線(改后)在50epoch訓(xùn)練結(jié)束后,在LFW數(shù)據(jù)集上進(jìn)行測(cè)試模型的識(shí)別準(zhǔn)確率,同時(shí)在自收集的40張人臉照片上使用模型進(jìn)行身份預(yù)測(cè),記錄下改進(jìn)前后在LFW上的準(zhǔn)確率、人臉相似度閾值、自收集數(shù)據(jù)集上的準(zhǔn)確率如REF_Ref24360\h表STYLEREF1\s4-1所示:表STYLEREF1\s4-SEQ表\*ARABIC\s11MobileFaceNets改進(jìn)前后對(duì)比LFW數(shù)據(jù)集上的準(zhǔn)確率判定為同一人的最優(yōu)閾值自收集40張人臉數(shù)據(jù)上的預(yù)測(cè)準(zhǔn)確率使用PReLU的MobileFaceNets79.35%0.65659282.5%使用Swish的MobileFaceNets82.65%,0.65586590%從實(shí)驗(yàn)結(jié)果可以看出,Swish激活函數(shù)使模型在LFW上準(zhǔn)確率提升3.3個(gè)百分點(diǎn),在自收集數(shù)據(jù)集上,改進(jìn)模型準(zhǔn)確率提升7.5個(gè)百分點(diǎn),證明Swish激活對(duì)復(fù)雜光照、遮擋等實(shí)際場(chǎng)景具有更強(qiáng)的特征適應(yīng)能力,驗(yàn)證了其非線性表達(dá)能力對(duì)深度特征的增強(qiáng)作用。Swish的連續(xù)可導(dǎo)特性有效緩解了PReLU在零值處的梯度突變問題,提升了反向傳播穩(wěn)定性。4.6本章小結(jié)本章通過系統(tǒng)性實(shí)驗(yàn)驗(yàn)證了Swish激活函數(shù)對(duì)MobileFaceNets人臉識(shí)別模型性能的優(yōu)化效果模型性能顯著提升。在標(biāo)準(zhǔn)測(cè)試集LFW上,Swish激活函數(shù)使模型識(shí)別準(zhǔn)確率從79.35%提升至82.65%,相對(duì)提升3.3個(gè)百分點(diǎn),驗(yàn)證其在多分類任務(wù)中的非線性表達(dá)能力。在自收集的40張人臉數(shù)據(jù)集(含逆光、遮擋、側(cè)臉等挑戰(zhàn)樣本)中,準(zhǔn)確率從82.5%提升至90%,證明Swish對(duì)復(fù)雜場(chǎng)景特征提取的魯棒性。
會(huì)議人臉簽到系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)為驗(yàn)證本文改進(jìn)版MobileFaceNets算法的實(shí)際應(yīng)用效果,本章設(shè)計(jì)并實(shí)現(xiàn)了一套基于B/S架構(gòu)的會(huì)議人臉簽到系統(tǒng)。系統(tǒng)整合了人臉識(shí)別、地理位置定位、數(shù)據(jù)可視化等關(guān)鍵技術(shù),支持人臉、地圖坐標(biāo)簽到方式與會(huì)議管理。本章將從系統(tǒng)設(shè)計(jì)、開發(fā)環(huán)境、功能模塊實(shí)現(xiàn)等方面展開闡述。本系統(tǒng)的開發(fā)工具為IDEA、VSCode,開發(fā)環(huán)境為JDK1.8,Mysql8.0.12,Redis5.0.14,Node14.19.0。5.1系統(tǒng)設(shè)計(jì)5.1.1系統(tǒng)架構(gòu)設(shè)計(jì)系統(tǒng)采用前后端分離的B/S架構(gòu)(REF_Ref21587\h圖STYLEREF1\s5-1),前端基于Vue2框架實(shí)現(xiàn)交互界面,后端通過SpringBoot提供RESTfulAPI服務(wù),數(shù)據(jù)庫采用MySQL8.0,結(jié)合Redis緩存優(yōu)化高并發(fā)場(chǎng)景性能。圖STYLEREF1\s5-SEQ圖\*ARABIC\s11軟件架構(gòu)圖5.1.2功能模塊設(shè)計(jì)人臉識(shí)別會(huì)議簽到系統(tǒng)的功能如REF_Ref21656\h圖STYLEREF1\s5-2所示,其中系統(tǒng)的核心功能模塊包括:會(huì)議管理:會(huì)議創(chuàng)建、編輯、刪除,參會(huì)人員導(dǎo)入,查看以及導(dǎo)出簽到情況。多模態(tài)簽到:人臉實(shí)時(shí)識(shí)別簽到、照片上傳驗(yàn)證、手動(dòng)簽到。數(shù)據(jù)可視化:條形圖和餅狀圖展示各季度會(huì)議預(yù)定次數(shù)情況。用戶中心:人臉綁定、角色權(quán)限管理(管理員/普通用戶)。圖STYLEREF1\s5-SEQ圖\*ARABIC\s12系統(tǒng)功能模塊圖5.1.3數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫共有employee、meeting、sys_role等9張表,ER圖如REF_Ref21747\h圖STYLEREF1\s5-3所示。圖STYLEREF1\s5-SEQ圖\*ARABIC\s13ER圖5.2系統(tǒng)模塊系統(tǒng)包括登錄注冊(cè)、人臉綁定、人臉識(shí)別簽到、會(huì)議管理等模塊。5.2.1登錄模塊在登錄模塊中提供兩種方式進(jìn)行登錄,賬號(hào)密碼登錄和人臉登錄。其中人臉方式登錄中,未打開攝像頭時(shí)會(huì)進(jìn)行提示,攝像頭開啟后點(diǎn)擊人臉簽到即可生成對(duì)應(yīng)的特征向量,將該特征向量與數(shù)據(jù)庫中的人臉特征向量比對(duì),以大于相似度閾值的身份登錄系統(tǒng)。人臉識(shí)別部分流程圖如REF_Ref21822\h圖STYLEREF1\s5-4所示。圖STYLEREF1\s5-SEQ圖\*ARABIC\s14人臉識(shí)別部分流程圖5.2.2會(huì)議簽到模塊對(duì)于用戶參與的會(huì)議,正在進(jìn)行中的會(huì)議顯示“正在簽到”,點(diǎn)擊簽到后跳轉(zhuǎn)到簽到頁面,簽到方式可以選擇上傳照片或者實(shí)時(shí)拍攝人臉圖像簽到。根據(jù)當(dāng)前用戶人臉圖像生成對(duì)應(yīng)的特征向量,將該特征向量與數(shù)據(jù)庫中的人臉特征向量比對(duì),以大于相似度閾值的身份完成簽到,記錄簽到狀態(tài)。對(duì)于可能突發(fā)的無法簽到的情況,會(huì)議發(fā)起者可進(jìn)行手動(dòng)補(bǔ)簽操作完成簽到。5.2.3系統(tǒng)管理后臺(tái)系統(tǒng)管理員有注冊(cè)審批、部門管理、員工管理、會(huì)議室管理等功能。注冊(cè)審批功能用于管理注冊(cè)賬號(hào)的審批通過與否。部門管理用于增加、修改、刪除各部門。員工管理可對(duì)員工的人臉照片、姓名、賬號(hào)等信息進(jìn)行增刪改操作。會(huì)議室管理可對(duì)各會(huì)議室信息進(jìn)行增刪改查操作,會(huì)議室信息包括會(huì)議室房間號(hào)、會(huì)議室名稱、可容納人數(shù)、占用狀態(tài)等。5.3本章小結(jié)本章設(shè)計(jì)并實(shí)現(xiàn)了一套完整的會(huì)議人臉簽到系統(tǒng),主要工作包括:1、采用改進(jìn)版MobileFaceNets優(yōu)化人臉識(shí)別性能。2、構(gòu)建前后端分離架構(gòu),通過JWT+Redis保障系統(tǒng)安全性。3、實(shí)現(xiàn)多模態(tài)簽到方式,滿足復(fù)雜會(huì)議場(chǎng)景需求,系統(tǒng)仍存在移動(dòng)端適配不足、多人同時(shí)簽到響應(yīng)延遲等問題,后續(xù)可通過引入WebSocket實(shí)時(shí)通信、模型輕量化進(jìn)一步優(yōu)化。
結(jié)論本文實(shí)驗(yàn)驗(yàn)證了Swish激活函數(shù)對(duì)MobileFaceNets模型的改進(jìn)效果,并將改進(jìn)后的模型集成到會(huì)議人臉簽到系統(tǒng)中。但改進(jìn)后的人臉識(shí)別模型,會(huì)議簽到系統(tǒng)仍存在不足。(1)在人臉識(shí)別模型方面存在以下問題:一是數(shù)據(jù)集泛化能力受限。雖然模型在LFW測(cè)試集和自建數(shù)據(jù)集上表現(xiàn)良好,但由于受限于計(jì)算資源只選取了10000個(gè)人的照片,相較于MS-Celeb-1M等百萬級(jí)數(shù)據(jù)集,模型對(duì)復(fù)雜人臉特征的覆蓋能力有限。并且實(shí)驗(yàn)中測(cè)試場(chǎng)景單一,自建數(shù)據(jù)集僅含40張人臉圖像,未涵蓋遮擋、極端光照、大角度姿態(tài)等實(shí)際場(chǎng)景,模型魯棒性驗(yàn)證不充分。二是動(dòng)態(tài)閾值適應(yīng)性不足。實(shí)驗(yàn)采用固定最優(yōu)閾值進(jìn)行判定,但實(shí)際應(yīng)用中不同場(chǎng)景的最佳閾值存在差異。對(duì)于低分辨率人臉驗(yàn)證任務(wù)中,需將閾值調(diào)整至0.5以下才能保持較好的識(shí)別準(zhǔn)確率。針對(duì)上述存在的不足,未來研究可從構(gòu)建多模態(tài)訓(xùn)練數(shù)據(jù),增強(qiáng)模型對(duì)復(fù)雜場(chǎng)景的泛化能力,通過引入自適應(yīng)閾值機(jī)制,結(jié)合場(chǎng)景特征動(dòng)態(tài)調(diào)整判定閾值。(2)在會(huì)議系統(tǒng)中有以下可以改進(jìn)的方向:在本文中實(shí)現(xiàn)的會(huì)議人臉簽到系統(tǒng),人臉登錄時(shí)需要點(diǎn)擊拍照確認(rèn)后開始識(shí)別,在實(shí)際的應(yīng)用場(chǎng)景中可能更需要自動(dòng)捕捉人臉實(shí)現(xiàn)無感化簽到,因此可以在這方面進(jìn)行改進(jìn),比如研究基于邊緣計(jì)算的高效人臉檢測(cè)與跟蹤算法,在本地設(shè)備實(shí)時(shí)預(yù)篩選人臉區(qū)域,減少云端傳輸延遲。同時(shí),設(shè)計(jì)多模態(tài)交互策略,當(dāng)檢測(cè)到用戶進(jìn)入會(huì)議區(qū)域時(shí),通過語音提示或屏幕動(dòng)態(tài)引導(dǎo)用戶自然看向攝像頭,實(shí)現(xiàn)“無感觸發(fā)-主動(dòng)引導(dǎo)”的簽到體驗(yàn)。
參考文獻(xiàn)徐建峰,孫浩,陸萍,等.基于深度學(xué)習(xí)的人臉識(shí)別會(huì)議考勤系統(tǒng)開發(fā)[J].現(xiàn)代計(jì)算機(jī),2020,26(13):86-89.袁梓倩.基于人臉聚類檢索的大規(guī)模會(huì)議簽到系統(tǒng)的研究[D].湖北:中南財(cái)經(jīng)政法大學(xué),2020.王磊.基于深度學(xué)習(xí)的人臉識(shí)別會(huì)議
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 計(jì)算機(jī)及外部設(shè)備裝配調(diào)試員成果強(qiáng)化考核試卷含答案
- 鉀肥生產(chǎn)工安全素養(yǎng)模擬考核試卷含答案
- 老年癡呆患者醫(yī)患溝通:可視化工具的認(rèn)知輔助策略
- 交通擁堵治理措施制度
- 云安全防護(hù)解決方案
- 網(wǎng)絡(luò)安全漏洞掃描流程及應(yīng)對(duì)措施
- 《守護(hù)家庭安全:科學(xué)防范居家觸電風(fēng)險(xiǎn)》教學(xué)設(shè)計(jì)
- 微生物與感染病學(xué):尿液檢查鑒別課件
- 2026年及未來5年市場(chǎng)數(shù)據(jù)中國(guó)高壓電器檢測(cè)行業(yè)市場(chǎng)全景評(píng)估及投資前景展望報(bào)告
- 2026年及未來5年市場(chǎng)數(shù)據(jù)中國(guó)智慧銀行建設(shè)行業(yè)市場(chǎng)深度分析及投資策略研究報(bào)告
- 線纜及線束組件檢驗(yàn)標(biāo)準(zhǔn)
- 人教部編版語文三年級(jí)下冊(cè)生字表筆順字帖可打印
- 口述史研究活動(dòng)方案
- 別克英朗說明書
- 地下管線測(cè)繪課件
- 房屋租賃合同txt
- 珍稀植物移栽方案
- THBFIA 0004-2020 紅棗制品標(biāo)準(zhǔn)
- GB/T 34336-2017納米孔氣凝膠復(fù)合絕熱制品
- GB/T 10046-2008銀釬料
- 中層管理干部領(lǐng)導(dǎo)力提升課件
評(píng)論
0/150
提交評(píng)論