CN120088867A 人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì) (北京大學(xué)深圳研究生院)_第1頁
CN120088867A 人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì) (北京大學(xué)深圳研究生院)_第2頁
CN120088867A 人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì) (北京大學(xué)深圳研究生院)_第3頁
CN120088867A 人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì) (北京大學(xué)深圳研究生院)_第4頁
CN120088867A 人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì) (北京大學(xué)深圳研究生院)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局務(wù)所(普通合伙)44268儲介質(zhì)文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)2獲取文本信息和場景圖像;將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列。2.根據(jù)權(quán)利要求1所述的人體動作序列的生成方法,其特征在于,將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列的步驟包將所述文本信息輸入所述動作規(guī)劃模型的大語言模型進(jìn)行任務(wù)分解處理,獲得多個動作描述信息;將所述場景圖像和所述多個動作描述信息輸入所述動作規(guī)劃模型的3D場景感知模型進(jìn)行軌跡規(guī)劃處理,獲得與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡;將所述多個動作描述信息和所有人體關(guān)鍵點的軌跡輸入所述動作規(guī)劃模型的動作生成模型進(jìn)行動作生成處理,獲得所述人體動作序列。3.根據(jù)權(quán)利要求2所述的人體動作序列的生成方法,其特征在于,將所述文本信息輸入所述動作規(guī)劃模型的大語言模型進(jìn)行任務(wù)分解處理,獲得多個動作描述信息的步驟包括:將所述文本信息輸入所述大語言模型的任務(wù)規(guī)劃器進(jìn)行任務(wù)分解處理,獲得多個子任將所述多個子任務(wù)輸入所述大語言模型的子任務(wù)執(zhí)行器進(jìn)行動作識別處理,獲得所述多個動作描述信息。4.根據(jù)權(quán)利要求2所述的人體動作序列的生成方法,其特征在于,將所述場景圖像和所述多個動作描述信息輸入所述動作規(guī)劃模型的3D場景感知模型進(jìn)行軌跡規(guī)劃處理,獲得與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡的步驟包括:將所述場景圖像輸入所述3D場景感知模型的查詢對象模塊進(jìn)行識別處理,獲得點云數(shù)將所述點云數(shù)據(jù)輸入所述3D場景感知模型的目標(biāo)地圖生成模塊進(jìn)行提取處理,生成目標(biāo)地圖;將所述點云數(shù)據(jù)輸入所述3D場景感知模型的避障地圖生成模塊進(jìn)行提取處理,生成避障地圖;將所述目標(biāo)位置、所述起始位置、所述目標(biāo)地圖、所述避障地圖和所述多個動作描述信息輸入所述3D場景感知模型的軌跡生成模塊進(jìn)行軌跡規(guī)劃,生成與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡。5.根據(jù)權(quán)利要求2所述的人體動作序列的生成方法,其特征在于,將所述多個動作描述信息和所有人體關(guān)鍵點的軌跡輸入所述動作規(guī)劃模型的動作生成模型進(jìn)行動作生成處理,獲得所述人體動作序列的步驟包括:采用所述動作生成模型中人體運(yùn)動擴(kuò)散模型的動作插值方法將目標(biāo)動作描述信息和與所述目標(biāo)動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡進(jìn)行動作生成處理,獲得子動作序列,其中,所述目標(biāo)動作描述信息是所述多個動作描述信息中的任意一個動作描述信息;將所有的子動作序列進(jìn)行合并處理,獲得所述人體動作序列。6.根據(jù)權(quán)利要求5所述的人體動作序列的生成方法,其特征在于,所述人體動作序列的3生成方法還包括:采用梯度引導(dǎo)模型優(yōu)化所述動作插值方法。7.根據(jù)權(quán)利要求1所述的人體動作序列的生成方法,其特征在于,所述人體動作序列的生成方法還包括動作規(guī)劃模型的訓(xùn)練步驟,所述動作規(guī)劃模型的訓(xùn)練步驟包括:獲取訓(xùn)練數(shù)據(jù)集和真實標(biāo)簽集,其中,每個訓(xùn)練數(shù)據(jù)均與所述真實標(biāo)簽集中的其中一個真實標(biāo)簽存在一一對應(yīng)的關(guān)系,每個所述訓(xùn)練數(shù)據(jù)均包括文本訓(xùn)練信息和場景訓(xùn)練圖將目標(biāo)訓(xùn)練數(shù)據(jù)輸入原始動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出預(yù)測動作序列,所述目標(biāo)訓(xùn)練數(shù)據(jù)為所述訓(xùn)練數(shù)據(jù)集中的任意一個訓(xùn)練數(shù)據(jù);基于所述預(yù)測動作序列和所述目標(biāo)訓(xùn)練數(shù)據(jù)對應(yīng)的真實標(biāo)簽計算第一損失函數(shù);基于所述第一損失函數(shù)調(diào)整所述原始動作規(guī)劃模型的模型參數(shù),獲得所述動作規(guī)劃模獲取模塊,用于獲取文本信息和場景圖像;輸出模塊,用于將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動9.一種終端設(shè)備,其特征在于,包括:處理器和存儲器,該存儲器用于存儲計算機(jī)程序,所述處理器用于調(diào)用并運(yùn)行所述存儲器中存儲的計算機(jī)程序,執(zhí)行上述權(quán)利要求1至7任一項所述的人體動作序列的生成方法的步驟。10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,用于存儲計算機(jī)程序,所述計算機(jī)程序使得計算機(jī)執(zhí)行上述權(quán)利要求1至7任一項所述的人體動作序列的生成方法的步驟。4人體動作序列的生成方法、裝置、設(shè)備及存儲介質(zhì)技術(shù)領(lǐng)域[0001]本申請涉及人體動作生成技術(shù)領(lǐng)域。更具體地說,本申請涉及一種人體動作序列背景技術(shù)[0002]傳統(tǒng)的人體動作序列的生成方法是通過獲取文本信號;將該文本信號輸入到動作生成模型中,生成與該文本信號對應(yīng)的動作序列;其中,該動作生成模型包括文本編碼器以及動作解碼器;該文本編碼器用于對文本信號進(jìn)行編碼;該文本編碼器輸出的隱空間表示符合統(tǒng)一的概率分布;該動作解碼器用于將該文本編碼器輸出的特征向量解碼為動作序列。但是,該動作生成模型對人體周圍環(huán)境信息的理解能力有限,導(dǎo)致人體動作的生成質(zhì)量發(fā)明內(nèi)容質(zhì),其能夠提高人體動作的生成質(zhì)量以及提高模型的泛化能力。本申請實施例主要通過下述技術(shù)方案實現(xiàn):本申請實施例的第一方面,提供了一種人體動作序列的生成方法,包括:獲取文本信息和場景圖像;將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處[0004]根據(jù)本申請的一個實施例,將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列的步驟包括:將所述文本信息輸入所述動作規(guī)劃模型的大語言模型進(jìn)行任務(wù)分解處理,獲得多個動作描述信息;將所述場景圖像和所述多個動作描述信息輸入所述動作規(guī)劃模型的3D場景感知模型進(jìn)行軌跡規(guī)劃處理,獲得與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡;將所述多個動作描述信息和所有人體關(guān)鍵點的軌跡輸入所述動作規(guī)劃模型的動作生成模型進(jìn)行動作生成處理,獲得所述人體動作序列。[0005]根據(jù)本申請的一個實施例,將所述文本信息輸入所述動作規(guī)劃模型的大語言模型進(jìn)行任務(wù)分解處理,獲得多個動作描述信息的步驟包括:將所述文本信息輸入所述大語言模型的任務(wù)規(guī)劃器進(jìn)行任務(wù)分解處理,獲得多個子任務(wù);將所述多個子任務(wù)輸入所述大語言模型的子任務(wù)執(zhí)行器進(jìn)行動作識別處理,獲得所述多個動作描述信息。[0006]根據(jù)本申請的一個實施例,將所述場景圖像和所述多個動作描述信息輸入所述動作規(guī)劃模型的3D場景感知模型進(jìn)行軌跡規(guī)劃處理,獲得與每個動作描述信息對應(yīng)的人體關(guān)5鍵點的軌跡的步驟包括:將所述場景圖像輸入所述3D場景感知模型的查詢對象模塊進(jìn)行識別處理,獲得點云數(shù)據(jù)、目標(biāo)位置和起始位置;將所述點云數(shù)據(jù)輸入所述3D場景感知模型的目標(biāo)地圖生成模塊進(jìn)行提取處理,生成目標(biāo)地圖;將所述點云數(shù)據(jù)輸入所述3D場景感知模型的避障地圖生成模塊進(jìn)行提取處理,生成避障地圖;將所述目標(biāo)位置、所述起始位置、所述目標(biāo)地圖、所述避障地圖和所述多個動作描述信息輸入所述3D場景感知模型的軌跡生成模塊進(jìn)行軌跡規(guī)劃,生成與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡。[0007]根據(jù)本申請的一個實施例,將所述多個動作描述信息和所有人體關(guān)鍵點的軌跡輸入所述動作規(guī)劃模型的動作生成模型進(jìn)行動作生成處理,獲得所述人體動作序列的步驟包采用所述動作生成模型中人體運(yùn)動擴(kuò)散模型的動作插值方法將目標(biāo)動作描述信息和與所述目標(biāo)動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡進(jìn)行動作生成處理,獲得子動作序列,其中,所述目標(biāo)動作描述信息是所述多個動作描述信息中的任意一個動作描述信息;將所有的子動作序列進(jìn)行合并處理,獲得所述人體動作序列。[0008]根據(jù)本申請的一個實施例,所述人體動作序列的生成方法還包括:采用梯度引導(dǎo)模型優(yōu)化所述動作插值方法。[0009]根據(jù)本申請的一個實施例,所述人體動作序列的生成方法還包括動作規(guī)劃模型的訓(xùn)練步驟,所述動作規(guī)劃模型的訓(xùn)練步驟包括:獲取訓(xùn)練數(shù)據(jù)集和真實標(biāo)簽集,其中,每個訓(xùn)練數(shù)據(jù)均與所述真實標(biāo)簽集中的其中一個真實標(biāo)簽存在一一對應(yīng)的關(guān)系,每個所述訓(xùn)練數(shù)據(jù)均包括文本訓(xùn)練信息和場景訓(xùn)練圖像;將目標(biāo)訓(xùn)練數(shù)據(jù)輸入原始動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出預(yù)測動作序列,所述目標(biāo)訓(xùn)練數(shù)據(jù)為所述訓(xùn)練數(shù)據(jù)集中的任意一個訓(xùn)練數(shù)據(jù);基于所述預(yù)測動作序列和所述目標(biāo)訓(xùn)練數(shù)據(jù)對應(yīng)的真實標(biāo)簽計算第一損失函數(shù);基于所述第一損失函數(shù)調(diào)整所述原始動作規(guī)劃模型的模型參數(shù),獲得所述動作規(guī)劃模型。[0010]本申請實施例的第二方面,提供了一種人體動作序列的生成裝置,包括:獲取模塊,用于獲取文本信息和場景圖像;輸出模塊,用于將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列。[0011]本申請實施例的第三方面,提供了一種終端設(shè)備,包括:處理器和存儲器,該存儲器用于存儲計算機(jī)程序,所述處理器用于調(diào)用并運(yùn)行所述存儲器中存儲的計算機(jī)程序,執(zhí)行上述本申請實施例第一方面提供的人體動作序列的生成方法的步驟。[0012]本申請實施例的第四方面,提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)用于存儲計算機(jī)程序,所述計算機(jī)程序使得計算機(jī)執(zhí)行上述本申請實施例第一方面提供的人體動作序列的生成方法的步驟。6[0013]本申請實施例的有益效果包括:本申請實施例采用文本信息和場景圖像結(jié)合使用,使得動作規(guī)劃模型能夠理解人體周圍環(huán)境信息。具體的,本申請實施例通過獲取文本信息和場景圖像;將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列。由此,與現(xiàn)有技術(shù)相比,本申請實施例能夠增強(qiáng)動作規(guī)劃模型對環(huán)境信息的理解能力,從而提高人體動作的生成質(zhì)量,以及提高模型的泛化能力。附圖說明[0014]為了更清楚地說明本申請實施例或傳統(tǒng)技術(shù)中的技術(shù)方案,下面將對實施例或傳統(tǒng)技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0015]圖1為本申請的人體動作序列的生成方法在一些實施例中的流程圖;圖2為本申請的人體動作序列的生成方法在一些實施例中的原理示意圖;圖3為本申請的目標(biāo)位置在一些實施例中的參考圖;圖4為本申請的目標(biāo)地圖在一些實施例中的參考圖;圖5為本申請的避障地圖在一些實施例中的參考圖;圖6為本申請的人體關(guān)鍵點的軌跡在一些實施例中的參考圖;圖7為本申請的人體動作序列的生成裝置在一些實施例中的原理框圖;圖8為本申請的終端設(shè)備在一些實施例中的原理框圖。具體實施方式[0016]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本申請的具體實施方式做詳細(xì)的說明。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本申請。但是本申請能夠以很多不同于在此描述的其它方式來實施,本領(lǐng)域技術(shù)人員可以在不違背本申請內(nèi)涵的情況下做類似改進(jìn),因此本申請不受下面公開的具體實施例的限制。被描述為“示例性的”或者“例如”的任何實施例或設(shè)計方案不應(yīng)被解釋為比其它實施例或呈現(xiàn)相關(guān)概念。一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單[0020]除非另有定義,本申請的說明書所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本申請的7技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。在本申請的說明書中所使用的術(shù)語只是為了描述具體的實施方式的目的,不是旨在于限制本申請。本申請的說明書所使用的術(shù)語“及/或”包括一個或多個相關(guān)的所列項目的任意的和所有的組合。[0021]以下結(jié)合附圖對本申請的具體實施方式進(jìn)行進(jìn)一步的說明。[0022]參考圖1所示,為本申請實施例第一方面提供的一種人體動作序列的生成方法的[0023]所述文本信息是用戶指令,是一段文本形式的動作描述信息。示例性的,所述文本[0024]所述場景圖像是3D(3Dimensions,三維)場景圖像,可以參考圖2中的“輸入場[0025]S2、將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成[0026]所述動作規(guī)劃模型包括大語言模型、3D(3Dimensions,三維)場景感知模型和動作生成模型,其中,所述大語言模型負(fù)責(zé)將復(fù)雜動作分解為簡單動作的組合,以及生成子任務(wù)的人體關(guān)鍵點控制信息;所述3D場景感知模型負(fù)責(zé)感知所述場景圖像中可通行的部分,以及動作交互的目標(biāo)所在的位置;所述動作生成模型用于根據(jù)所述大語言模型和所述3D場景感知模型提供信息生成各子任務(wù)的全身動作序列,并將其合成為完整的輸出最終的動作序列。[0027]在其他實施方式中,所述動作規(guī)劃模型可以使用VLM(Vision-LanguageModel,視覺語言模型)模型來代替。S21、將所述文本信息輸入所述動作規(guī)劃模型的大語言模型進(jìn)行任務(wù)分解處理,獲得多個動作描述信息。[0029]所述大語言模型可以是由LMP(LanguageModelProgram,語言模型程序)來實現(xiàn),每個LMP負(fù)責(zé)獨特的功能(例如進(jìn)行任務(wù)分解、進(jìn)行文本拓展或者調(diào)用感知模塊),并且,每個LMP能調(diào)用其他的LMP來為任務(wù)服務(wù)。進(jìn)一步地,所述S21步驟包括:S211、將所述文本信息輸入所述大語言模型的任務(wù)規(guī)劃器進(jìn)行任務(wù)分解處理,獲得多個子任務(wù)。[0030]所述S211步驟,首先將所述文本信息作為復(fù)雜或抽象的目標(biāo)任務(wù),接著由所述任務(wù)規(guī)劃器將所述目標(biāo)任務(wù)分解為多個子任務(wù)。所述多個子任務(wù)相對于所述目標(biāo)任務(wù)來說,是簡單的子任務(wù),可以稱為子任務(wù)序列。所述多個子任務(wù)可以是走向某個地方,與某物體交饑餓”,則文本信息對應(yīng)的多個子任務(wù)為三個子任務(wù),具體的,第一可食用的食品”,參考圖2中的a1;第二個子任務(wù)為“一個人彎身撿起可食用的食品”,參考圖2中的a2;第三個子任務(wù)為“一個人正在吃他手上的食品”,參考圖2中的a3。[0032]S212、將所述多個子任務(wù)輸入所述大語言模型的子任務(wù)執(zhí)行器進(jìn)行動作識別處理,獲得所述多個動作描述信息。8[0033]應(yīng)當(dāng)理解的是,所述子任務(wù)執(zhí)行器對每個子任務(wù)均進(jìn)行動作識別處理,獲得與每個子任務(wù)對應(yīng)的動作描述信息。[0034]示例性的,參考圖2所示,所述第一個子任務(wù)對應(yīng)的動作描述信息為“一個人走”,參考圖2中的b1;當(dāng)?shù)诙€子任務(wù)a2為“一個人彎身撿起可食用的食品”時,則所述第二個子任務(wù)對應(yīng)的動作描述信息為“一個三個子任務(wù)對應(yīng)的動作描述信息為“一個人正在吃”,參考圖2中的b3。[0035]在其他實施方式中,所述大語言模型可以用LLMAgent(LargeLanguageModelAgent,大型語言模型代理)來替代。[0036]S22、將所述場景圖像和所述多個動作描述信息輸入所述動作規(guī)劃模型的3D場景感知模型進(jìn)行軌跡規(guī)劃處理,獲得與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡。S221、將所述場景圖像輸入所述3D場景感知模型的查詢對象模塊進(jìn)行識別處理,[0038]所述查詢對象模塊為parse_query_obj函數(shù)。所述parse_query_obj函數(shù)用于從所述場景圖像中獲取所述點云數(shù)據(jù)、所述目標(biāo)位置和所述起始位置。示例性的,當(dāng)所述文本信息為“一個人感到饑餓”時,所述目標(biāo)位置為食品所在的位置,所述食品所在的位置可以參考圖3中的標(biāo)號c。[0039]所述目標(biāo)位置可以是非常規(guī)物體的位置。[0040]進(jìn)一步地,所述查詢對象模塊引用了支持開放詞匯查詢的OpenScene方法(OpenScene方法是一個針對3D場景理解的開源項目,采用零樣本學(xué)習(xí)方法,通過開放詞匯查詢執(zhí)行一系列新穎的3D場景理解任務(wù))來獲得所述點云數(shù)據(jù)中每個點所屬的物體類別,接著,所述查詢對象模塊還引用了DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪聲的基于密度的聚類方法)聚類算法來過濾產(chǎn)生的噪聲和獲取所述目標(biāo)位置(也即物體的位置)。[0041]應(yīng)當(dāng)理解的是,基于OpenScene的開放詞匯查詢特性,除了查詢所述目標(biāo)位置外,還能查詢物體部件的位置,例如與門交互需要定位門把手的位置而不是整個門,這樣可以讓生成的動作更加真實。[0042]在其他實施方式中,所述查詢對象模塊獲得所述目標(biāo)位置的步驟包括:S2211、確定所述目標(biāo)位置的正向提示詞。[0043]S2212、確定所述目標(biāo)位置的負(fù)向提示詞。[0044]S2213、基于所述正向提示詞和所述負(fù)向提示詞在所述場景圖像中查找所述目標(biāo)[0045]S222、將所述點云數(shù)據(jù)輸入所述3D場景感知模型的目標(biāo)地圖生成模塊進(jìn)行提取處[0046]所述目標(biāo)地圖生成模塊為get_target_map函數(shù)。所述get_target_map函數(shù)用于從所述點云數(shù)據(jù)中獲取目標(biāo)地圖。所述目標(biāo)地圖可以參考圖4所示。9[0049]S2223、基于所述最終位置修改所述第一空地圖,獲得所述目標(biāo)地圖。S22221、獲取所述目標(biāo)位置在所述點云數(shù)據(jù)的最大坐標(biāo)點和最小坐標(biāo)點。[0051]S22222、基于所述最大坐標(biāo)點和所述最小坐標(biāo)點獲取所述目標(biāo)位置在所述點云數(shù)據(jù)的第一中心坐標(biāo)點。[0052]S22223、將所述第一中心坐標(biāo)點沿Z軸方向移動第二預(yù)設(shè)數(shù)值,再將移動后的所述第一中心坐標(biāo)點的Z軸坐標(biāo)數(shù)值與所述最大坐標(biāo)點的Z軸坐標(biāo)數(shù)值相加,獲得第二中心坐標(biāo)點。所述第二預(yù)設(shè)數(shù)值為20。在其他實施方式中,所述第二預(yù)設(shè)數(shù)值的具體數(shù)值可以由本領(lǐng)域技術(shù)人員根據(jù)實際需求來設(shè)置。[0053]S22224、將所述第二中心坐標(biāo)點作為所述最終位置。[0054]所述第一中心坐標(biāo)點和所述第二中心坐標(biāo)點均是三維坐標(biāo)點。[0055]S223、將所述點云數(shù)據(jù)輸入所述3D場景感知模型的避障地圖生成模塊進(jìn)行提取處[0056]所述避障地圖生成模塊為get_avoidance_map函數(shù)。所述get_avoidance_map函數(shù)用于從所述點云數(shù)據(jù)中獲取避障地圖。所述避障地圖可以參考圖5所示。[0057]應(yīng)當(dāng)理解的是,所述避障地圖和所述目標(biāo)地圖均為體素圖。[0059]S2232、基于所述點云數(shù)據(jù)對所述第二空地圖進(jìn)行[0060]所述S2232步驟指的是將所述點云數(shù)據(jù)中所有可見的障礙物加入所述第二空地[0061]S2233、獲取所述目標(biāo)位置的第三中心坐標(biāo)點。[0062]所述第三中心坐標(biāo)點是三維坐標(biāo)點。[0063]S2234、基于所述第三中心坐標(biāo)點、所述待處理地圖和第三預(yù)設(shè)數(shù)值,獲取重點避障物的位置。[0064]S2235、基于所述重點避障物的位置生成所述避障地圖。[0065]S224、將所述目標(biāo)位置、所述起始位置、所述目標(biāo)地圖、所述避障地圖和所述多個動作描述信息輸入所述3D場景感知模型的軌跡生成模塊進(jìn)行軌跡規(guī)劃,生成與每個動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡。所述S224步驟可以理解為圖2[0066]所述軌跡生成模塊為specify_pelvis_trajectory函數(shù)。所述specify_pelvis_trajectory函數(shù)用于生成一條平滑的人體關(guān)鍵點的軌跡。[0067]所述人體關(guān)鍵點的軌跡可以參考圖6中的標(biāo)號d所示。S2241、所述軌跡生成模塊將所述目標(biāo)地圖和所述避障地圖中每個對應(yīng)位置的值[0069]應(yīng)當(dāng)理解的是,所述目標(biāo)地圖中交互目標(biāo)所在的位置值較小,而所述避障地圖中障礙物所在的位置值較大。[0070]所述避障地圖中每個對應(yīng)位置的值,可以是所述避障地圖中每個對應(yīng)位置在世界坐標(biāo)系中的x軸和y軸坐標(biāo),并將z軸坐標(biāo)設(shè)置為0.5。[0071]在其他實施方式中,所述目標(biāo)地圖中每個對應(yīng)位置的值的獲取方式可以與所述避障地圖中每個對應(yīng)位置的值的獲取方式相同。[0072]S2242、所述軌跡生成模塊基于所述目標(biāo)位置、所述起始位置、所有位置的通行代價和所述多個動作描述信息進(jìn)行軌跡規(guī)劃,生成與每個動作描述信息對應(yīng)的人體關(guān)鍵點的[0073]進(jìn)一步地,所述軌跡生成模塊可以采用optimize(優(yōu)化)方法來實現(xiàn)所述S2242步驟。[0074]進(jìn)一步地,所述optimize方法可以是Python(Python是一種編程語言)中SciPy(ScientificPython,科學(xué)計算庫)庫的方法。[0075]所述人體關(guān)鍵點指的是人體的根節(jié)點和手等關(guān)鍵點。[0076]所述人體關(guān)鍵點的軌跡可以理解為人體各關(guān)節(jié)點的控制信息。所述人體各關(guān)節(jié)點為人體各關(guān)節(jié)點的數(shù)量。[0077]進(jìn)一步地,在所述S2241的判斷所述避障地圖是否為空值,在所述避障地圖為空值的情況下,將默認(rèn)體素作S2243、將所有的人體關(guān)鍵點的軌跡執(zhí)行去除零元素和Z軸恒定為第一預(yù)設(shè)數(shù)值操作,再將處理后的所有的人體關(guān)鍵點的軌跡用于執(zhí)行S23步驟。[0078]所述S2243步驟能夠?qū)⑸傻能壽E轉(zhuǎn)換為動作生成模型所需要的數(shù)據(jù)格式。[0079]在其他實施方式中,所述3D場景感知模型可以采用神經(jīng)輻射場(NeuralRadiance[0080]S23、將所述多個動作描述信息和所有人體關(guān)鍵點的軌跡輸入所述動作規(guī)劃模型的動作生成模型進(jìn)行動作生成處理,獲得所述人體動作序列。[0081]所述動作生成模型為generate_motion函數(shù)。所述generate_motion函數(shù)是一個用于在Blender(Blender是一款開源三維圖形圖像軟件)中生成人物動作的函數(shù)。DiffusionModel)的動作插值方法將目標(biāo)動作描述信息和與所述目標(biāo)動作描述信息對應(yīng)的人體關(guān)鍵點的軌跡進(jìn)行動作生成處理,獲得子動作序列,其中,所述目標(biāo)動作描述信息是所述多個動作描述信息中的任意一個動作描述信息。[0083]為了讓相鄰的兩個子動作序列無縫銜接,所述人體運(yùn)動擴(kuò)散模型將下一個子動作序列的第一幀動作替換成當(dāng)前子動作序列的最后一幀動作。[0084]S232、將所有的子動作序列進(jìn)行合并處理,獲得所述人體動作序列。[0085]本申請實施例使用所述動作插值方法計算每個子動作序列中從第一幀到最后一幀的變換矩陣,并將每個子動作序列對應(yīng)的變換矩陣應(yīng)用到之后生成的目標(biāo)動作序列中;待將所有的變換矩陣應(yīng)用到目標(biāo)動作序列之后,將所述目標(biāo)動作序列作為所述人體動作序列。至此,便將所有的子動作序列合并為完整的長動作序列。[0086]所述人體動作序列是復(fù)雜的人體動作序列。11[0087]在其他實施方式中,所述動作生成模型可以使用強(qiáng)化學(xué)習(xí)方法實現(xiàn)類似的功能。[0088]本申請實施例采用文本信息和場景圖像結(jié)合使用,使得動作規(guī)劃模型能夠理解人體周圍環(huán)境信息。由此,與現(xiàn)有技術(shù)相比,本申請實施例能夠增強(qiáng)動作規(guī)劃模型對環(huán)境信息的理解能力,從而提高人體動作的生成質(zhì)量,以及提高模型的泛化能力。[0089]在長時間復(fù)雜人體動作生成方面,本申請實施例結(jié)合了大語言模型的任務(wù)分解能力,通過將復(fù)雜動作拆解為多個子任務(wù),并結(jié)合3D場景感知模塊(也即所述3D場景感知模型)自動識別與任務(wù)相關(guān)的物體和場景位置,增強(qiáng)了所述動作規(guī)劃模型對環(huán)境信息的理解能力。本申請實施例克服了傳統(tǒng)方法中訓(xùn)練數(shù)據(jù)稀缺、場景信息不足的問題,能夠生成更加自然、準(zhǔn)確的長時間復(fù)雜動作序列。本申請實施例可以用于游戲、動畫等產(chǎn)業(yè)人體動作的批量自動化生成。[0090]在一些實施方式中,所述文本信息可以表述成T,所述場景圖像可以表述成S,所述人體動作序列可以表述成,其中,S∈R(N×6)代表N個點組成的帶有RGB顏色的[0091]本申請實施例使用SMP-X模型來表示人體姿態(tài)和形狀。SMPL-X人體網(wǎng)格全局方向的連續(xù)表示,β∈R10是身體形狀參數(shù),p∈RJ×3是關(guān)節(jié)軸角旋轉(zhuǎn),J為人體關(guān)鍵點的數(shù)量(也可以理解為人體關(guān)節(jié)的數(shù)量),F是可微線性蒙皮參數(shù)。通常,在實施的過程中并不直接生成完整的SMPL-X形狀參數(shù),而是生成22個人體關(guān)鍵點的世界坐標(biāo)p∈R22×3,然后將其提升為SMPL-X的完整參數(shù)。該任務(wù)流程可以用以下的公式來表述:C;為第i個人體關(guān)鍵點,H;為所述人體動作序列中第i幀動作。[0092]在一些實施方式中,所述人體動作序列的生成方法還包括:S3、采用梯度引導(dǎo)模型優(yōu)化所述動作插值方法。[0093]本申請實施例還計算生成的關(guān)節(jié)點和關(guān)節(jié)點控制信息的距離,并計算所述梯度引導(dǎo)模型生成既符合所述動作描述信息又符合空間控制信息(也即人體各關(guān)節(jié)點的控制信息)的子動作序列。[0094]在一些實施方式中,所述人體動作序列的生成方法還包括動作規(guī)劃模型的訓(xùn)練步驟,所述動作規(guī)劃模型的訓(xùn)練步驟包括:S24、獲取訓(xùn)練數(shù)據(jù)集和真實標(biāo)簽集,其中,每個訓(xùn)練數(shù)據(jù)均與所述真實標(biāo)簽集中的其中一個真實標(biāo)簽存在一一對應(yīng)的關(guān)系,每個所述訓(xùn)練數(shù)據(jù)均包括文本訓(xùn)練信息和場景訓(xùn)練圖像。[0095]S25、將目標(biāo)訓(xùn)練數(shù)據(jù)輸入原始動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出預(yù)測動作序列,所述目標(biāo)訓(xùn)練數(shù)據(jù)為所述訓(xùn)練數(shù)據(jù)集中的任意一個訓(xùn)練數(shù)據(jù)。[0096]所述原始動作規(guī)劃模型包括原始大語言模型、原始3D場景感知模型和原始動作生成模型。[0097]S26、基于所述預(yù)測動作序列和所述目標(biāo)訓(xùn)練數(shù)據(jù)對應(yīng)的真實標(biāo)簽計算第一損失[0098]所述第一損失函數(shù)的計算公式為:L=Lre+Lv;其中,L為所述第一損失函數(shù);為所述預(yù)測動作序列;X1:N為所述目標(biāo)訓(xùn)練數(shù)據(jù)對應(yīng)的真實標(biāo)簽;N為所述預(yù)測動作序列的幀數(shù)。為所述預(yù)測動作序列的速度;V1:N為所述目標(biāo)訓(xùn)練數(shù)據(jù)對應(yīng)的真實標(biāo)簽的速度;N為所述預(yù)測動作序列的幀數(shù)。[0101]S27、基于所述第一損失函數(shù)調(diào)整所述原始動作規(guī)劃模型的模型參數(shù),獲得所述動作規(guī)劃模型。[0102]參考圖7所示,為本申請實施例第二方面提供的一種人體動作序列的生成裝置的原理框圖。在圖7中,所述人體動作序列的生成裝置100包括:獲取模塊101,用于獲取文本信息和場景圖像;輸出模塊102,用于將所述文本信息和所述場景圖像輸入動作規(guī)劃模型進(jìn)行任務(wù)分解和動作生成處理,輸出人體動作序列。[0103]本申請實施例的第三方面提供了一種終端設(shè)備,所述終端設(shè)備的原理框圖可以如圖8所示。所述終端設(shè)備包括通過系統(tǒng)總線連接的處理器、存儲傳感器。其中,所述處理器用于提供計算和控制能力。所述存儲器包括非易失性存儲介質(zhì)和內(nèi)存儲器。所述非易失性存儲介質(zhì)存儲有操作系統(tǒng)和計算機(jī)程序。所述內(nèi)存儲器為非易失性存儲介質(zhì)中的操作系統(tǒng)和計算機(jī)程序的運(yùn)行提供環(huán)境。所述終端設(shè)備的網(wǎng)絡(luò)接口,用于與外部的終端通過網(wǎng)絡(luò)連接通信。所述計算機(jī)程序被所述處理器執(zhí)行時,實現(xiàn)人體動作序列的生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論