版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN120088331B(65)同一申請的已公布的文獻(xiàn)號大道999號(74)專利代理機(jī)構(gòu)南昌大牛知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)36135(54)發(fā)明名稱一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法本申請屬于計(jì)算機(jī)視覺技術(shù)領(lǐng)域,公開了一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法,該方法包括:獲取輸入圖像及其對應(yīng)的人體掩碼;提取圖像和掩碼的特征并進(jìn)行編碼;構(gòu)建掩碼感知圖卷積網(wǎng)絡(luò),利用掩碼信息構(gòu)建圖卷積網(wǎng)絡(luò)的鄰接矩陣,并施加掩碼約束損失,以增強(qiáng)圖像人體區(qū)域特征的表示能力;構(gòu)建骨骼先驗(yàn)解耦網(wǎng)絡(luò),利用SMPL模型的骨架和頂點(diǎn)信息作為先驗(yàn),結(jié)合交叉注意力機(jī)制,通過圖像特征引導(dǎo)SMPL骨骼節(jié)點(diǎn)特征的多模態(tài)數(shù)據(jù)增強(qiáng);最終輸出三維關(guān)節(jié)位置坐標(biāo)和形體網(wǎng)格頂點(diǎn)坐標(biāo)。本方法通過掩碼感知圖卷積增強(qiáng)局部特征一21.一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法,其特征在于,所述方法b)通過掩碼感知圖卷積網(wǎng)絡(luò)的特征編碼層,分別對所述RGB圖像和人體掩碼進(jìn)行特征提取,得到圖像特征和掩碼特征,以及分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列,具體包括:采用卷積操作將圖像特征和掩碼特征的通道維度降至預(yù)設(shè)維度D;將降維后的圖像特征圖和掩碼特征圖分別重新的寬度,token序列包含一個(gè)學(xué)習(xí)的相機(jī)token標(biāo)記;對圖像token序列和掩碼token序列分別應(yīng)用線性投影操作;為經(jīng)過線性投影的圖像token序列和掩碼token序列添加位置編碼P,以獲得包含空間位置信息的圖像token序列和掩碼token序列;c)通過掩碼感知圖卷積網(wǎng)絡(luò)的鄰接矩陣構(gòu)建層,根據(jù)所述圖像token序列和掩碼token序列,構(gòu)建掩碼感知的鄰接矩陣,并利用圖卷積網(wǎng)絡(luò)更新所述圖像token序列和所述d)通過骨骼先驗(yàn)解耦網(wǎng)絡(luò)的SMPL形體擬合層,基于SMPL模型的骨架和頂點(diǎn)信息作為先驗(yàn),結(jié)合所述增強(qiáng)的圖像特征,通過解碼器結(jié)構(gòu)預(yù)測得到三維關(guān)節(jié)位置坐標(biāo)和形體網(wǎng)格的頂點(diǎn)進(jìn)行下采樣和維度提升得到;將所述可學(xué)習(xí)的關(guān)節(jié)點(diǎn)特征和頂點(diǎn)特征輸入解碼器進(jìn)行特征建模;所述解碼器包含結(jié)構(gòu)感知的多頭自注意力層和交叉注意力層;所述多頭自注意力層利用基于SMPL骨架結(jié)構(gòu)的預(yù)定義邊連接矩陣,并結(jié)合掩碼加權(quán)融入注意力權(quán)重計(jì)算;所述交叉注意力層利用所述增強(qiáng)的圖像特征作為鍵向量和值向量,利用所述關(guān)節(jié)點(diǎn)特征和頂點(diǎn)特征作為查詢向量,執(zhí)行交叉注意力計(jì)算。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟b)中,分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列的步驟之后還將添加位置編碼P后的圖像token序列和掩碼token序列并行輸入至Transformer編碼利用所述Transformer編碼器的自注意力機(jī)制分別對圖像token序列和掩碼token序列內(nèi)部進(jìn)行空間關(guān)系建模,輸出編碼后的圖像token序列和掩碼token序列。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,步驟c)中,構(gòu)建掩碼感知的鄰接矩陣的步驟具體包括:通過計(jì)算所述圖像token序列和掩碼token序列之間的哈達(dá)瑪積,生成初始掩碼感知矩利用人體解析模型提取原始掩碼M作為篩選條件,對所述初始掩碼感知矩陣進(jìn)行處理:對于原始掩碼M中對應(yīng)位置值為零的token之間的連接關(guān)系進(jìn)行過濾,并為背景區(qū)域的連接關(guān)系賦予由預(yù)設(shè)比例因子控制的權(quán)重,得到過濾后的矩陣;對所述過濾后的矩陣進(jìn)行權(quán)重歸一化處理,生成用于圖卷積網(wǎng)絡(luò)的掩碼感知的鄰接矩4.根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟c)之后還包括:3所述掩碼約束損失的計(jì)算包括:識別出在所述原始掩碼M中具有相同非零標(biāo)簽值的token對(ij),并最小化所述token對所對應(yīng)對解碼器輸出的關(guān)節(jié)點(diǎn)特征和頂點(diǎn)特征進(jìn)行回歸,得到初始的用于約束預(yù)測的三維關(guān)節(jié)點(diǎn)坐標(biāo)和形體網(wǎng)格頂點(diǎn)坐標(biāo)與真值坐標(biāo)的幾何一致性的3D7.一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體度降至預(yù)設(shè)維度D;將降維后的圖像特征圖和掩碼特征圖分別重新組織為長度為HW+1的圖經(jīng)過線性投影的圖像token序列和掩碼token序列添加位置編碼P,以獲得包含空間位置信4進(jìn)行特征建模;所述解碼器包含結(jié)構(gòu)感知的多頭自注意力層和交叉注意力層;所述多頭自注意力層利用基于SMPL骨架結(jié)構(gòu)的預(yù)定義邊連接矩陣,并結(jié)合掩碼加權(quán)融入注意力權(quán)重計(jì)算;所述交叉注意力層利用所述增強(qiáng)的圖像特征作為鍵向量和值向量,利用所述關(guān)節(jié)點(diǎn)特征和頂點(diǎn)特征作為查詢向量,執(zhí)行交叉注意力計(jì)算。8.一種電子設(shè)備,其特征在于,包括處理器,存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法的步驟。5一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及計(jì)算機(jī)視覺和人工智能技術(shù)領(lǐng)域,具體涉及一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法。背景技術(shù)[0002]人體動(dòng)作捕捉技術(shù)在虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、人機(jī)交互、電影動(dòng)畫制作、醫(yī)療康復(fù)等領(lǐng)域具有廣泛的應(yīng)用前景。該技術(shù)旨在精確地獲取、記錄并重建人體的運(yùn)動(dòng)姿態(tài)和形狀。[0003]傳統(tǒng)的人體動(dòng)作捕捉方法通常依賴于光學(xué)標(biāo)記點(diǎn)、慣性傳感器或多攝像頭陣列等硬件設(shè)備。這些方法雖然能達(dá)到較高的精度,但存在成本高昂、需要穿戴特殊設(shè)備、對環(huán)境要求苛刻、設(shè)置復(fù)雜等缺點(diǎn),限制了其在消費(fèi)級場景和戶外環(huán)境中的應(yīng)用。[0004]近年來,基于單張RGB圖像的單目視覺人體動(dòng)作捕捉技術(shù)因其低成本、便捷性和無需特殊設(shè)備的優(yōu)勢而備受關(guān)注。其目標(biāo)是從單張圖像中直接估計(jì)人體的三維關(guān)節(jié)位置和三維網(wǎng)格模型(如SMPL模型)。然而,單目視覺方法面臨著固有的挑戰(zhàn):深度模糊性(同一二維姿態(tài)可能對應(yīng)多種三維姿態(tài))、自遮擋和外部遮擋、復(fù)雜背景干擾、光照變化以及人體自身的多樣性。[0005]現(xiàn)有單目方法大致可分為兩類:基于優(yōu)化的方法和基于回歸的方法?;趦?yōu)化的方法通常先檢測二維關(guān)節(jié)點(diǎn),然后通過優(yōu)化算法擬合統(tǒng)計(jì)人體模型(如SMPL)參數(shù)以匹配二維觀測。這類方法對二維檢測精度依賴性強(qiáng),且優(yōu)化過程可能陷入局部最優(yōu)?;诨貧w的方法則嘗試直接從圖像特征端到端地預(yù)測三維關(guān)節(jié)位置或SMPL模型參數(shù)。例如,HMR(HumanMeshRecovery)等方法使用編碼器提取圖像特征,然后通過回歸器預(yù)測SMPL參數(shù)。后續(xù)研究通過引入時(shí)間信息(用于視頻)、改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)(如Transformer、GCN)或利用更強(qiáng)的先驗(yàn)知識來提升性能。[0006]然而,現(xiàn)有方法仍存在一些局限性:[0007]1.特征表示能力不足:傳統(tǒng)的CNN特征可能難以有效區(qū)分前景人體和復(fù)雜背景,尤其是在存在干擾物或人體區(qū)域占比較小的情況下。全局特征可能忽略局部細(xì)節(jié),導(dǎo)致姿態(tài)或形狀估計(jì)不準(zhǔn)確。[0008]2.幾何一致性缺乏:直接回歸坐標(biāo)或參數(shù)可能導(dǎo)致生成的姿態(tài)不符合人體運(yùn)動(dòng)學(xué)約束,或者形體網(wǎng)格出現(xiàn)局部扭曲、不連貫等問題。如何有效利用人體固有的結(jié)構(gòu)先驗(yàn)仍是挑戰(zhàn)。[0009]3.對干擾的魯棒性差:背景噪聲、遮擋、光照變化以及人體在圖像中尺度變化等因素,都可能導(dǎo)致現(xiàn)有方法的性能顯著下降。[0010]一些方法嘗試?yán)脠D卷積網(wǎng)絡(luò)(GCN)建模關(guān)節(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系,或者利用注意力機(jī)制增強(qiáng)特征,但往往未充分結(jié)合掩碼信息來精確聚焦人體區(qū)域并抑制背景干擾。同時(shí),如何將SMPL等骨骼先驗(yàn)信息更有效地融入特征學(xué)習(xí)過程以指導(dǎo)幾何一致性的恢復(fù),仍有改進(jìn)空間。6[0011]因此,開發(fā)一種能夠有效利用圖像掩碼信息聚焦人體區(qū)域、增強(qiáng)特征表示能力,并結(jié)合骨骼結(jié)構(gòu)先驗(yàn)保證幾何一致性,從而提升單目三維人體動(dòng)作捕捉精度的新方法具有重要的研究意義和應(yīng)用價(jià)值。發(fā)明內(nèi)容[0012]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法及系統(tǒng),旨在提高從單張圖像恢復(fù)三維人體關(guān)節(jié)位置和形體網(wǎng)格的精度。[0013]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面提供了一種人體動(dòng)作捕捉方法,所述方法包[0015]b)通過掩碼感知圖卷積網(wǎng)絡(luò)的特征編碼層,分別對所述RGB圖像和人體掩碼進(jìn)行特征提取,得到圖像特征和掩碼特征,以及分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列;[0016]c)通過掩碼感知圖卷積網(wǎng)絡(luò)的鄰接矩陣構(gòu)建層,根據(jù)所述圖像token序列和掩碼token序列,構(gòu)建掩碼感知的鄰接矩陣,并利用圖卷積網(wǎng)絡(luò)更新所述圖像token序列和所述[0017]d)通過骨骼先驗(yàn)解耦網(wǎng)絡(luò)的SMPL形體擬合層,基于SMPL模型的骨架和頂點(diǎn)信息作為先驗(yàn),結(jié)合所述增強(qiáng)的圖像特征,通過解碼器結(jié)構(gòu)預(yù)測得到三維關(guān)節(jié)位置坐標(biāo)和形體網(wǎng)格頂點(diǎn)坐標(biāo)。[0018]作為本申請第一方面的一種可選實(shí)施方式,步驟b)中,分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列的步驟包括:采用卷積操作將圖像特征和掩碼特征的通道維度降至預(yù)設(shè)維度D;將降維后的圖像特征圖和掩碼特征圖分別重新組織為長度為HW+1的圖像token序列和掩碼token序列,其中H表示圖像的高度,W表示圖像的寬度,token序列包含一個(gè)學(xué)習(xí)的相機(jī)token標(biāo)記;對圖像token序列和掩碼token序列分別應(yīng)用線性投影操作;為經(jīng)過線性投影的圖像token序列和掩碼token序列添加位置編碼P,以獲得包含空間位置信息的圖像token序列和掩碼token序[0019]作為本申請第一方面的一種可選實(shí)施方式,步驟b)中,分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列的步驟之后還包括:將添加位置編碼P后的圖像token序列和掩碼token序列并行輸入至Transformer編碼器中;利用所述Transformer編碼器的自注意力機(jī)制分別對圖像token序列和掩碼token序列內(nèi)部進(jìn)行空間關(guān)系建模,輸出編碼后的圖像token序列和掩碼token序列。[0020]作為本申請第一方面的一種可選實(shí)施方式,步驟c)中,構(gòu)建掩碼感知的鄰接矩陣的步驟具體包括:通過計(jì)算所述圖像token序列和掩碼token序列之間的哈達(dá)瑪積,生成初始掩碼感知矩陣;利用人體解析模型提取原始掩碼M作為篩選條件,對所述初始掩碼感知矩陣進(jìn)行處理:對于原始掩碼M中對應(yīng)位置值為零的token之間的連接關(guān)系進(jìn)行過濾,并為背景區(qū)域的連接關(guān)系賦予由預(yù)設(shè)比例因子β控制的權(quán)重,得到過濾后的矩陣;對所述過濾后的矩陣進(jìn)行權(quán)重歸一化處理,生成用于圖卷積網(wǎng)絡(luò)的掩碼感知的鄰接矩陣。78指令,程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。[0035](1)提高精度和魯棒性:通過引入掩碼感知圖卷積網(wǎng)絡(luò),利用掩碼信息指導(dǎo)圖卷積網(wǎng)絡(luò)聚焦于人體區(qū)域的特征學(xué)習(xí),有效抑制了復(fù)雜背景的干擾,增強(qiáng)了對人體關(guān)鍵特征的表達(dá)能力。同時(shí),對鄰接矩陣進(jìn)行基于掩碼的裁剪,降低了冗余信息的影響,提高了模型在遮擋、噪聲等干擾下的魯棒性。[0036](2)增強(qiáng)幾何一致性:結(jié)合骨骼先驗(yàn)解耦網(wǎng)絡(luò)(SMPL模型),將人體固有的骨架結(jié)構(gòu)和頂點(diǎn)拓?fù)湫畔⒆鳛橄闰?yàn)條件融入解碼器。通過結(jié)構(gòu)感知的自注意力機(jī)制和圖像特征的指導(dǎo),優(yōu)化了預(yù)測的3D關(guān)節(jié)點(diǎn)和頂點(diǎn)坐標(biāo)與真實(shí)人體幾何形態(tài)的一致性。[0037](3)更精確的動(dòng)作捕捉:綜合利用了圖像的視覺特征(通過掩碼感知圖卷積網(wǎng)絡(luò)增強(qiáng))和人體的結(jié)構(gòu)先驗(yàn)(通過SMPL模型集成),使得模型不僅能估計(jì)出準(zhǔn)確的3D關(guān)節(jié)點(diǎn)位置,還能恢復(fù)出更符合人體運(yùn)動(dòng)學(xué)和解剖學(xué)約束的形體網(wǎng)格姿態(tài),從而實(shí)現(xiàn)更精準(zhǔn)的人體動(dòng)作附圖說明[0038]圖1為本發(fā)明第一實(shí)施例提供的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法的流程圖;[0039]圖2為本發(fā)明第一實(shí)施例提供的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法的整體模型過程圖;[0040]圖3為本發(fā)明第一實(shí)施例中的掩碼感知圖卷積學(xué)習(xí)過程圖;[0041]圖4為本發(fā)明第一實(shí)施例中的三維姿態(tài)和形體恢復(fù)過程圖;[0042]圖5為本發(fā)明第一實(shí)施例中的SMPL模型人體關(guān)節(jié)連接矩陣的示意圖;[0043]圖6為本發(fā)明實(shí)施例提供的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施方式[0044]下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施[0045]本申請的說明書和權(quán)利要求書中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便本申請的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,說明確具體的限定。[0047]請參閱圖1,為本發(fā)明第一實(shí)施例提出的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法的流程圖,該方法包括以下步驟。請參閱圖2,為本發(fā)明第一實(shí)施例提供9的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法的整體模型過程圖,該整體模型架構(gòu)主要包括掩碼感知圖卷積學(xué)習(xí)過程(參考步驟S2、步驟S3和步驟S4)和骨骼先驗(yàn)解耦過程(參考步驟S5)。[0049]需要說明的是,為了方便理解本方法的總體框架,對本方法進(jìn)行描述。形式上,對于給定一張圖片I∈R224×224×3,其目標(biāo)旨在恢復(fù)出該圖片的三維關(guān)節(jié)位置坐標(biāo)sJ∈RK×3和形體網(wǎng)格頂點(diǎn)坐標(biāo)S∈RV×3,其中K表示三維人體關(guān)節(jié)點(diǎn)的個(gè)數(shù),V=6890,表示估計(jì)的人體網(wǎng)格頂點(diǎn)。在該框架中,本方法首先利用現(xiàn)有的人體解析模型,對輸入的單張圖像提取其掩碼信息,并作為指導(dǎo)信息用于后續(xù)的特征建模。[0050]S2:分別對RGB圖像和人體掩碼進(jìn)行特征提取,得到圖像特征和掩碼特征;[0051]S3:分別對圖像特征和掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列;[0052]S4:根據(jù)圖像token序列和掩碼token序列,構(gòu)建掩碼感知的鄰接矩陣,并利用圖卷積網(wǎng)絡(luò)更新圖像token序列和鄰接矩陣,得到增強(qiáng)的圖像特征。[0053]需要說明的是,輸入的RGB圖像和解析得到的掩碼信息分別通過干網(wǎng)絡(luò)提取其靜態(tài)特征。此外,為了保持空間一致性,本方法在特征中加入位置編碼,以便每個(gè)Token具有位置信息感知能力。隨后經(jīng)過編碼器提取到的圖像特征f1和掩碼特征fM一同被放入掩碼感知圖卷積學(xué)習(xí)網(wǎng)絡(luò),用于建立token節(jié)點(diǎn)之間的關(guān)聯(lián)信息。[0054]在本實(shí)施方式中,步驟S3采用卷積操作將圖像特征和掩碼特征的通道維度降至預(yù)設(shè)維度D;將降維后的圖像特征圖和掩碼特征圖分別重新組織為長度為HW+1的圖像token序列和掩碼token序列,其中H表示圖像的高度,W表示圖像的寬度,token序列包含一個(gè)學(xué)習(xí)的相機(jī)token標(biāo)記;對圖像token序列和掩碼token序列分別應(yīng)用線性投影操作;為經(jīng)過線性投影的圖像token序列和掩碼token序列添加位置編碼P,以獲得包含空間位置信息的圖像token序列和掩碼token序列。[0055]在本實(shí)施方式中,該步驟S3之后還包括將添加位置編碼P后的圖像token序列和掩碼token序列并行輸入至Transformer編碼器中;利用Transformer編碼器的自注意力機(jī)制分別對圖像token序列和掩碼token序列內(nèi)部進(jìn)行空間關(guān)系建模,輸出編碼后的圖像token序列和掩碼token序列。[0056]在本實(shí)施方式中,步驟S4構(gòu)建掩碼感知的鄰接矩陣的步驟具體包括:通過計(jì)算編碼后的圖像特征序列與編碼后的掩碼特征序列之間的哈達(dá)瑪積,生成初始的掩碼感知矩陣;利用人體解析模型提取的原始掩碼M作為篩選條件,對初始掩碼感知矩陣進(jìn)行處理:對于原始掩碼M中對應(yīng)位置值為零的token之間的連接關(guān)系進(jìn)行過濾,并為背景區(qū)域的連接關(guān)系賦予由預(yù)設(shè)比例因子β控制的權(quán)重,得到過濾后的矩陣;對過濾后的矩陣進(jìn)行權(quán)重歸一化處理,生成用于圖卷積網(wǎng)絡(luò)的掩碼感知的鄰接矩陣。[0057]在本實(shí)施方式中,該步驟S4之后還包括計(jì)算掩碼約束損失;掩碼約束損失的計(jì)算包括:識別出在原始掩碼M中具有相同非零標(biāo)簽值的token對(i,j),并最小化token對所對應(yīng)的增強(qiáng)的圖像特征之間的歐式距離。[0058]具體地,掩碼感知圖卷積學(xué)習(xí)網(wǎng)絡(luò)由以下三個(gè)部分組成:特征編碼層、鄰接矩陣構(gòu)本方法采用1×1卷積將提取的圖像特征在通道維度上進(jìn)行降維,使其特征維度縮減至D=[0064]為了有效地建立RGB特征與掩碼特征之間的復(fù)雜關(guān)系,一種常見且直觀的方法是(GCN),以增強(qiáng)對每個(gè)token之間關(guān)系的建模能力。在該方法中像中的每個(gè)token的掩碼感知矩陣Ai;∈RL×L(其中L=H×W)。其計(jì)算方式如公式(2)所[0069]其中,被設(shè)置為0.1,它是用于控制背景區(qū)域權(quán)重相對于目標(biāo)區(qū)域權(quán)重的比例。的增強(qiáng)的圖像特征fou將融合來自圖結(jié)構(gòu)和原始輸入特征的信息,從而能夠有效地捕捉到了提升模型在token特征學(xué)習(xí)過程中的局部一致性,本方法在輸出特征上施加了一個(gè)掩碼力層利用增強(qiáng)的圖像特征作為鍵向量和值向量,利用關(guān)節(jié)點(diǎn)特征和頂點(diǎn)特征作為查詢向[0084]在先前的HMR方法中,圖像特征通過后續(xù)的多個(gè)線性層的方法回歸人體的相機(jī)參[0085]設(shè)定可學(xué)習(xí)的關(guān)節(jié)點(diǎn)特征Fj={1,f2,…,fv,}∈RN〉×D和一組可學(xué)習(xí)的頂點(diǎn)特征[0086]在解碼器的設(shè)計(jì)中,本研究引入了結(jié)構(gòu)感知的多頭步提升模型的表達(dá)能力,邊連接矩陣通過掩碼加權(quán)的方式將其融入注意力權(quán)重的計(jì)算中。進(jìn)而獲得預(yù)測的3D關(guān)節(jié)點(diǎn)坐標(biāo)J?D∈RN×3損失,使用相機(jī)參數(shù)對估計(jì)的3D關(guān)節(jié)投影到2D獲得關(guān)節(jié)點(diǎn)JzD∈RN×2以進(jìn)行監(jiān)督:[0093]綜上,結(jié)合掩碼約束損失Lmask,總損失如公式(9)所示:[0095]其中λ2D,λ3D,mask分別表示訓(xùn)練中2D坐標(biāo),3D坐標(biāo)、掩碼約束的權(quán)重值。[0096]本研究所提出的方法的訓(xùn)練流程如下所示:[0097]輸入:訓(xùn)練集D,人體解析模型hnet,CNN網(wǎng)絡(luò)FCNN,圖卷積網(wǎng)絡(luò)FGcN,編碼器E,[0098]1.使用人體解析模型提取訓(xùn)練集的人體部件解析圖:Mask(D)←hnet(D);[0099]2.fori=0in[1,epochs[0100]3.通過CNN編碼器分別提取圖像I和掩碼M的特征:[0101]4.對{fl,fM}經(jīng)過Transformer編碼器E進(jìn)行特征編碼;[0102]5.通過公式(2,3,4)對{fl,fM}構(gòu)建掩碼感知矩陣Aij;[0103]6.使用圖卷積網(wǎng)絡(luò)進(jìn)行fl特征更新:f1←FGcn(fl,Aij);[0104]7.通過公式(6)計(jì)算掩碼約束損失Lmask:Lmask←{fl,Mask(D)};[0105]8.SMPL參數(shù)化模型進(jìn)行下采樣輸入至解碼器中進(jìn)行關(guān)節(jié)特征學(xué)習(xí);[0106]9.圖像的特征fl指導(dǎo)關(guān)節(jié)點(diǎn)特征的學(xué)習(xí)進(jìn)行回歸出三維人體姿態(tài)信息;[0107]10.通過公式(9)損失計(jì)算進(jìn)行模型參數(shù)更新;[0109]綜上,本實(shí)施例提出了一種基于掩碼感知圖卷積與骨骼先驗(yàn)的人體動(dòng)作捕捉方法,該方法主要包括兩個(gè)核心過程:掩碼感知圖卷積學(xué)習(xí)(Mask-awareGraphConvolutionLearning,MGCL)過程和骨骼先驗(yàn)解耦過程。具體而言,MGCL通過提取RGB圖像和掩碼的靜態(tài)特征,并利用卷積降維至512維后展平成token序列,結(jié)合位置編碼保留空間信息,并通過Transformer編碼器優(yōu)化特征表達(dá)。隨后,利用掩碼感知矩陣構(gòu)建GCN鄰接矩陣,并施加掩碼約束損失,以增強(qiáng)局部一致性。在骨骼先驗(yàn)解耦過程中,引入SMPL骨骼先驗(yàn)?zāi)P?,將其骨架和頂點(diǎn)信息作為特征學(xué)習(xí)的先驗(yàn)知識。解碼器結(jié)構(gòu)結(jié)合多頭自注意力和交叉注意力機(jī)制,利用預(yù)定義鄰接矩陣,并通過掩碼加權(quán)融合注意力權(quán)重。最終,在圖像特征的指導(dǎo)下,采用交叉注意力機(jī)制對SMPL骨骼節(jié)點(diǎn)特征進(jìn)行多模態(tài)數(shù)據(jù)增強(qiáng),從而優(yōu)化三維坐標(biāo)預(yù)測的幾何一致性。[0110]實(shí)施例2[0111]請參閱圖6,所示為本申請第二實(shí)施例提出的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉系統(tǒng)的結(jié)構(gòu)示意圖,該系統(tǒng)包括以下關(guān)鍵模塊:[0112]圖像獲取模塊100,用于獲取單張RGB圖像;[0113]掩碼提取模塊200,用于提取所述RGB圖像對應(yīng)的人體掩碼;[0114]掩碼感知圖卷積模塊300,包括:[0115]特征編碼單元301,用于分別對所述RGB圖像和人體掩碼進(jìn)行特征提取,得到圖像特征和掩碼特征,以及分別對所述圖像特征和所述掩碼特征進(jìn)行編碼,得到包含空間位置信息的圖像token序列和掩碼token序列;以及[0116]鄰接矩陣構(gòu)建單元302,用于根據(jù)所述圖像token序列和掩碼token序列,構(gòu)建掩碼感知的鄰接矩陣,并利用圖卷積網(wǎng)絡(luò)更新所述圖像token序列,得到增強(qiáng)的圖像特征;[0117]骨骼先驗(yàn)解耦模塊400,包括SMPL形體擬合單元401,用于基于SMPL模型的骨架和頂點(diǎn)信息作為先驗(yàn),結(jié)合所述增強(qiáng)的圖像特征,通過解碼器結(jié)構(gòu)預(yù)測得到三維關(guān)節(jié)位置坐標(biāo)和形體網(wǎng)格頂點(diǎn)坐標(biāo)。[0118]本申請實(shí)施例中的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉系統(tǒng)可為非移動(dòng)電子設(shè)備。示例性的,移動(dòng)電子設(shè)備可以為手機(jī)、平板電腦、筆記本電腦、掌上電UMPC)、上網(wǎng)本或者個(gè)人數(shù)字助理(personaldigitalassistcomputer,PC)等,本申請實(shí)施例不作具體限定。[0119]本申請實(shí)施例中的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉系統(tǒng)可以為具有操作系統(tǒng)的裝置。該操作系統(tǒng)可以為安卓(Android)操作系統(tǒng),可以為ios操作系統(tǒng),還可以為其他可能的操作系統(tǒng),本申請實(shí)施例不作具體限定。[0120]本申請實(shí)施例提供的一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉系統(tǒng)能夠?qū)崿F(xiàn)圖1的方法實(shí)施例中一種基于掩碼感知圖卷積和骨骼先驗(yàn)的人體動(dòng)作捕捉方法實(shí)[0121]可選地,本申請實(shí)施例還提供一種電子設(shè)備,包括處理器,存儲(chǔ)器,存儲(chǔ)在存儲(chǔ)器上并可在所述處理器上運(yùn)行的程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)訓(xùn)師培訓(xùn)制度及流程
- 優(yōu)化培訓(xùn)流程管理制度
- 產(chǎn)科巾幗文明崗培訓(xùn)制度
- 技術(shù)售后培訓(xùn)管理制度
- 售樓部培訓(xùn)期間獎(jiǎng)金制度
- 養(yǎng)殖場生物安全培訓(xùn)制度
- 婦科內(nèi)鏡培訓(xùn)管理制度
- 遺傳咨詢科培訓(xùn)制度
- 二手中介新人培訓(xùn)制度
- 編程教師培訓(xùn)制度及流程
- 深圳加油站建設(shè)項(xiàng)目可行性研究報(bào)告
- 浙江省交通設(shè)工程質(zhì)量檢測和工程材料試驗(yàn)收費(fèi)標(biāo)準(zhǔn)版浙價(jià)服定稿版
- GB/T 33092-2016皮帶運(yùn)輸機(jī)清掃器聚氨酯刮刀
- 中學(xué)主題班會(huì)課:期末考試應(yīng)試技巧點(diǎn)撥(共34張PPT)
- 紅樓夢研究最新課件
- 吊索具報(bào)廢標(biāo)準(zhǔn)
- 給紀(jì)檢監(jiān)察部門舉報(bào)材料
- 低壓電工安全技術(shù)操作規(guī)程
- 新增影像1spm12初學(xué)者指南.starters guide
- GA∕T 1577-2019 法庭科學(xué) 制式槍彈種類識別規(guī)范
- 水環(huán)境保護(hù)課程設(shè)計(jì)報(bào)告
評論
0/150
提交評論