版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
(12)發(fā)明專利(22)申請日2025.01.03(43)申請公布日2025.04.2596號(72)發(fā)明人黃章進殷博偉限公司34321(56)對比文件權(quán)利要求書2頁說明書5頁附圖1頁基于高斯?jié)姙R與三平面的單目視頻人臉重本發(fā)明公開了一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,包括如下步到參數(shù)化模型顯式表達的mesh,3DMM高斯球的位置初步變化;S2、初始化3D高斯球,3D用若干正則化項約束表情編碼器得到的3D高斯從每個不同人臉表情視頻幀中從每個不同人臉表情視頻幀中捏取30MM模型參數(shù),將中性表情的參數(shù)對應(yīng)的mesh點坐標作為每個30高斯球初始化位當(dāng)前幀的優(yōu)化細節(jié),控制3D高斯球的細節(jié)幾何變化利用圖像級損失,位置正則化,尺度正則化和拉營拉斯正則化優(yōu)化30高斯球的幾何信息和顏色信息,并用高斯波洲方式演染擅定視角和表情下的表情編碼上增加循環(huán)一致性損失,通過計算輸入圖像表情編碼結(jié)果和同表情下的遍染圖表情編碼結(jié)果的損失,關(guān),與相機位婆無關(guān)用每一幀對應(yīng)的參數(shù)控制3D高變化。到每幀表情編碼。21.一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,其特征在于,包括如下步驟:S1、3DMM模塊從單目人臉視頻的每一幀中得到參數(shù)化模型顯式表達的mesh,3DMM模塊帶動3D高斯球的位置初步變化;S2、初始化3D高斯球,3D高斯球數(shù)量為mesh中點的數(shù)量,位置為中性表情下mesh中點的S3、3D高斯球通過優(yōu)化得到每個球的粗略屬性,并通過表情編碼器將輸入人臉表情圖片編碼,并通過三平面框架解碼得到3D高斯球的各個屬性的細節(jié)變化;S4、通過循環(huán)一致性模塊保證表情編碼器的結(jié)果僅與人臉表情相關(guān);S5、利用若干正則化項約束表情編碼器得到的3D高斯球?qū)傩约毠?jié)變化;所述表情編碼器由一個卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,步幅為2,通道維度為(3,32,64,128,256),并在后續(xù)添加一個輸出維度為128的全連接層:同時設(shè)計一個三平面解碼網(wǎng)絡(luò),三平面解碼網(wǎng)絡(luò)的表情編碼θ輸入到基于StyleGAN的2D卷積網(wǎng)絡(luò)中,生成三平面特征Hxy,Hyz,Hzx,對于規(guī)范空間中的每個3D高斯位置,利用位置參數(shù),通過投影到每個三平面上查詢?nèi)齻€特征向量Fxy,Fyz,Fzx,將特征向量Fxy,Fyz,Fzx聚合得到一個合并的特征向量F,特征向量F通過輕量級多層感知機進一步處理,生成細U={μ+Hde1ta,ri,Sbase+S;所述循環(huán)一致性模塊中的表情編碼器僅與面部表情相關(guān),從新視角渲染出的表情結(jié)果輸入到表情編碼器中,并設(shè)計了一個循環(huán)一致性損失:在最終渲染的新視角頭像上執(zhí)行一個額外編碼步驟,并共享表情編碼器框架。2.根據(jù)權(quán)利要求1所述的一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,其特征在于,所述3DMM模型輸入人臉表情圖片,輸出用于3D面部重建的點、表情系數(shù)和身份系數(shù)。3.根據(jù)權(quán)利要求1所述的一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,其特征在于,所述S2中3D高斯?jié)姙R采用基于點的場景表示,每個點對應(yīng)一個3D高斯球,3其中,屬性集u表示3D高斯球的屬性,3DGS表示3D高斯?jié)姙R操作,I表示渲染頭像,屬性集進行微分地柵格化并通過相機投影的內(nèi)參K和外參E描述,損失函數(shù)定義為:4.根據(jù)權(quán)利要求1所述的一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,其特征在于,所述若干正則化項包括細節(jié)變化正則化和拉普拉斯正則化;細節(jié)變化正則化中設(shè)置有位置和尺度參數(shù),細節(jié)變化正則化中設(shè)計一個正則化損失函數(shù),約束位置和尺度參數(shù)變化趨近于零,正則化損失表述為:拉普拉斯正則化,在訓(xùn)練過程中最小化在標準空間中3D高斯位置的拉普拉斯算子與初始網(wǎng)格定義的3D高斯位置之間的差異,為每個三角面單獨計算損失項,采用L2正則化懲罰3D高斯點與基礎(chǔ)模板網(wǎng)格之間的距離,表示為Llap,并將相同的拉普拉斯正則化器應(yīng)用于4基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及計算機視覺技術(shù)領(lǐng)域,尤其涉及一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法。背景技術(shù)[0002]從單目視頻創(chuàng)建逼真的3D頭部頭像一直以來是計算機圖形學(xué)中的一個挑戰(zhàn)性問題。從任意視角渲染栩栩如生的頭像能夠在游戲、視頻會議、增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)等多個領(lǐng)域提供豐富的應(yīng)用場景。對于這些應(yīng)用,問題的關(guān)鍵在于能否重建出高質(zhì)量3D頭部頭像,并將其拓展至新姿勢和表情下。[0003]通常,3D頭部頭像的重建被視為一項基礎(chǔ)任務(wù),近來,神經(jīng)輻射場及其變體在靜態(tài)場景重建方面取得了顯著成效,后續(xù)的研究進一步將神經(jīng)輻射場拓展至數(shù)字人建模領(lǐng)域,盡管這些方法在新視角合成方面表現(xiàn)出色,但往往缺乏可控性,限制了其對新姿勢和表情的泛化能力,近期在3D高斯?jié)姙R方面的進展在新視角合成的渲染質(zhì)量上已超越神經(jīng)輻射參數(shù),利用阿爾法混合將高斯球潑濺為最終渲染圖像。由于渲染質(zhì)量上的提高,3D高斯?jié)姙R迅速被應(yīng)用于數(shù)字人領(lǐng)域和虛擬頭像生成領(lǐng)域中。[0004]目前,大多數(shù)方法依賴于3D可變形模型,該模型通過一個包含身份和面部表情的參數(shù)化空間緊湊地描述虛擬頭像,通過在一個通用的姿勢空間中優(yōu)化頭像,能夠通過單目視頻追蹤生成新的姿勢和表情,然而,我們發(fā)現(xiàn),從單目視頻中提取的面部幾何形狀的精度有限,這對虛擬頭像生成任務(wù)構(gòu)成了瓶頸。此外,網(wǎng)絡(luò)輸入和監(jiān)督信息的不足可能導(dǎo)致過擬合問題。對3D高斯點云的缺乏約束可能導(dǎo)致渲染過程中出現(xiàn)圖像偽影和圖像割裂。發(fā)明內(nèi)容[0005]本發(fā)明的一個目的在于提出一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,本發(fā)明提出的方案單目視頻人臉重建和驅(qū)動領(lǐng)域具有重要的應(yīng)用潛力,可以為相關(guān)領(lǐng)域的研究和應(yīng)用提供更準確、穩(wěn)定的解決方案。[0006]根據(jù)本發(fā)明實施例的一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方[0007]S1、3DMM模塊從單目人臉視頻的每一幀中得到參數(shù)化模型顯式表達的mesh,3DMM模塊帶動3D高斯球的位置初步變化;[0009]S3、3D高斯球通過優(yōu)化得到每個球的粗略屬性,并通過表情編碼器將輸入人臉表情圖片編碼,并通過三平面框架解碼得到3D高斯球的各個屬性的細節(jié)變化;[0010]S4、通過循環(huán)一致性模塊保證表情編碼器的結(jié)果僅與人臉表情相關(guān);[0011]S5、利用若干正則化項約束表情編碼器得到的3D高斯球?qū)傩约毠?jié)變化。5身份系數(shù)。屬性集進行微分地柵格化并通過相機投影的內(nèi)參K和外參E描述,損失函數(shù)定義為:[0022]同時設(shè)計一個三平面解碼網(wǎng)絡(luò),三平面解碼網(wǎng)絡(luò)的表情編碼θ輸入到基于向量Fxy,Fyz,Fzx聚合得到一個合并的特征向量F,特征向量F通過輕量級多層感知機進3/5頁6[0030]在最終渲染的新視角頭像上執(zhí)行一個額外編碼步驟,并共享表情編碼器框架。可選的,所述若干正則化項包括細節(jié)變化正則化和拉普拉斯正則化;[0031]細節(jié)變化正則化中設(shè)置有位置和尺度參數(shù),細節(jié)變化正則化中設(shè)計一個正則化損失函數(shù),約束位置和尺度參數(shù)變化趨近于零,正則化損失表述為:[0033]拉普拉斯正則化,在訓(xùn)練過程中最小化在標準空間中3D高斯位置的拉普拉斯算子與初始網(wǎng)格定義的3D高斯位置之間的差異,為每個三角面單獨計算損失項,采用L2正則化懲罰3D高斯點與基礎(chǔ)模板網(wǎng)格之間的距離,表示為Llap,并將相同的拉普拉斯正則化器應(yīng)用于3D高斯點的尺度和RGB值。[0034]本發(fā)明的有益效果是:[0035]本發(fā)明方案在單目視頻人臉重建和驅(qū)動方面具有顯著的優(yōu)勢,通過設(shè)計了基于三平面的表情編碼器模塊可以得到3DMM模型無法表示的細節(jié)表達,利用循環(huán)一致性模塊保證了表情編碼的準確性,針對表情編碼解碼出的細節(jié)變化無約束問題設(shè)計了正則化項約束了表情編碼器得到的3D高斯球細節(jié)變化,因此,本發(fā)明提出的方案單目視頻人臉重建和驅(qū)動領(lǐng)域具有重要的應(yīng)用潛力,可以為相關(guān)領(lǐng)域的研究和應(yīng)用提供更準確、穩(wěn)定的解決方案。附圖說明[0036]附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:[0037]圖1為本發(fā)明提出的一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法的流程圖。具體實施方式[0038]現(xiàn)在結(jié)合附圖對本發(fā)明作進一步詳細的說明。這些附圖均為簡化的示意圖,僅以示意方式說明本發(fā)明的基本結(jié)構(gòu),因此其僅顯示與本發(fā)明有關(guān)的構(gòu)成。[0039]參考圖1,一種基于高斯?jié)姙R與三平面的單目視頻人臉重建與驅(qū)動方法,包括如下[0040]S1、3DMM模塊從單目人臉視頻的每一幀中得到參數(shù)化模型顯式表達的mesh,3DMM模塊帶動3D高斯球的位置初步變化;[0042]S3、3D高斯球通過優(yōu)化得到每個球的粗略屬性,并通過表情編碼器將輸入人臉表情圖片編碼,并通過三平面框架解碼得到3D高斯球的各個屬性的細節(jié)變化;[0043]S4、通過循環(huán)一致性模塊保證表情編碼器的結(jié)果僅與人臉表情相關(guān);[0044]S5、利用若干正則化項約束表情編碼器得到的3D高斯球?qū)傩约毠?jié)變化。和身份系數(shù)。[0046]本實施方式中,S2中3D高斯?jié)姙R采用基于點的場景表示,每個點對應(yīng)一個3D高斯7[0051]其中,Igt表示輸入的真實頭像。[0052]本實施方式中,表情編碼器由一個卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,步幅為2,通道維度為(3,[0056]同時設(shè)計一個三平面解碼網(wǎng)絡(luò),三平面解碼網(wǎng)絡(luò)的表情編碼θ輸入到基于位置,利用位置參數(shù),通過投影到每個三平面上查詢?nèi)齻€特向量Fxy,Fyz,Fzx聚合得到一個合并的特征向量F,特征向量F通過輕量級多層感知機進懲罰3D高斯點與基礎(chǔ)模板網(wǎng)格之間的距離,表示為Llap,并將相同的拉普拉斯正則化器應(yīng)8[0065]實施方式中提出了一種新穎的單目視頻人臉重建與驅(qū)動方法,框架提高了單目視頻人臉重建與驅(qū)動的質(zhì)量,減少了圖像偽影與圖像割裂問題,針對細節(jié)表達不明確問題提出了三平面框架下的表情編碼器,通過額外的細節(jié)變化,為3DMM模型驅(qū)動的3D高斯球提供了細節(jié)表達,表情編碼器的結(jié)果應(yīng)僅與表情相關(guān)而與相機位姿無關(guān),提出循環(huán)一致性模塊使得表情編碼結(jié)果更加準確,本發(fā)明提出若干正則化項,約束了表情編碼器得到的細節(jié)變[0067]實施例采用PyTorch框架實現(xiàn)了本發(fā)明方案,并在單塊Nvidia3090顯卡上進行了所有實驗,輸入視頻圖像大小為512×512,在訓(xùn)練階段,使用Adam優(yōu)化器對網(wǎng)絡(luò)進行優(yōu)化,初始學(xué)習(xí)率為1e-4,訓(xùn)練的最大輪數(shù)為30000,損失函數(shù)為圖像層級損失和正則化項損失[0068]本發(fā)明方案分別報告了在NeRFace數(shù)據(jù)級下人臉圖像重建指標包括峰值信噪比、結(jié)構(gòu)相似性指數(shù)以及學(xué)習(xí)感知圖像塊相似性,每個視頻片段包含大約2,000到3,500幀,選擇最后350幀作為測試片段,而前面的幀則用于訓(xùn)練。本發(fā)明方案[0071]本發(fā)明提出的方法在NeRFace數(shù)據(jù)集上表現(xiàn)出色,顯著超越了現(xiàn)有技術(shù),在單目視頻人臉重建和驅(qū)動方面取得了最佳結(jié)果。[0072]綜上所述,本發(fā)明方案在單目視頻人臉重建和驅(qū)動方面具有顯著的優(yōu)勢,通過設(shè)計了基于三平面的表情編碼器模塊可以得到3DMM模型無法表示的細節(jié)表達,利用循環(huán)一致性模塊保證了表情編碼的準確性,針對表情編碼解碼出的細節(jié)變化無約束問題設(shè)計了正則化項約束了表情編碼器得到的3D高斯球細節(jié)變化,因此,本發(fā)明提出的方案單目視頻人臉重建和驅(qū)動領(lǐng)域具有重要的應(yīng)用潛力,可以為相關(guān)領(lǐng)域的研究和應(yīng)用提供更準確、穩(wěn)定的解決方案。[0073]以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。9從每個不同人臉表情視頻幀中從每個不同人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 托運物品活動策劃方案(3篇)
- 燒烤氣氛活動策劃方案(3篇)
- 監(jiān)獄戒毒場所后勤管理制度(3篇)
- 針灸推拿科管理制度目錄(3篇)
- 《GA 2114-2023警用服飾 禮服女皮鞋》專題研究報告
- 獸藥GMP培訓(xùn)課件
- 《GA 425.9-2003指紋自動識別系統(tǒng)基礎(chǔ)技術(shù)規(guī)范 第9部分:指紋圖像數(shù)據(jù)轉(zhuǎn)換的技術(shù)條件》專題研究報告
- 2026河北石家莊城市更新集團有限公司勞務(wù)派遣制人員招聘6人參考題庫附答案
- 交通警察執(zhí)法規(guī)范制度
- 2026湖北省定向鄭州大學(xué)選調(diào)生招錄備考題庫附答案
- 2025年秋招機械工程師筆試真題及答案
- 動力電池儲能車間事故應(yīng)急處置預(yù)案
- 床上擦浴及洗頭課件
- JIS K 6253-1-2012 硫化橡膠或熱塑性橡膠硬度測定.第1部分-一般指南
- 圓柱齒輪減速機維修課件
- 河道整治施工過程中的風(fēng)險控制方案
- 小學(xué)心理教學(xué)工作總結(jié)
- GB/T 5576-2025橡膠和膠乳命名法
- 【語文】荊州市小學(xué)三年級上冊期末試卷(含答案)
- 壓瘡及失禁性皮炎護理
- 儲備園長筆試題目及答案
評論
0/150
提交評論