CN120259827A 基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛 (張家港港務(wù)集團(tuán)有限公司港埠分公司)_第1頁(yè)
CN120259827A 基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛 (張家港港務(wù)集團(tuán)有限公司港埠分公司)_第2頁(yè)
CN120259827A 基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛 (張家港港務(wù)集團(tuán)有限公司港埠分公司)_第3頁(yè)
CN120259827A 基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛 (張家港港務(wù)集團(tuán)有限公司港埠分公司)_第4頁(yè)
CN120259827A 基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛 (張家港港務(wù)集團(tuán)有限公司港埠分公司)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(71)申請(qǐng)人張家港港務(wù)集團(tuán)有限公司港埠分公司地址215633江蘇省蘇州市金港鎮(zhèn)香山北路100號(hào)GO6N3/0464(2023.01)(74)專(zhuān)利代理機(jī)構(gòu)北京格式化知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)16096專(zhuān)利代理師孫敬霞(54)發(fā)明名稱(chēng)基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛本公開(kāi)提供了一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛。本公開(kāi)一實(shí)施例中,基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法包括:獲取連續(xù)多幀多模態(tài)數(shù)據(jù),通過(guò)多模態(tài)數(shù)據(jù)獲得3D體素特征和多視角圖像特征,基于3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型,利用動(dòng)態(tài)高斯參數(shù)化模型和多視角圖像特征生成多視角高斯特征并將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間,從而獲得BEV特征,3D體素特征采用動(dòng)態(tài)體素化得到,并且該動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率。本獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀多模態(tài)獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀多模態(tài)21.一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法,其特征在于,所述方法包括:獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀所述多模態(tài)數(shù)據(jù)包括點(diǎn)云、多視角圖利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征和多視角圖像特征,所述3D體素特征中包含基于所述多視角圖像得到的語(yǔ)義標(biāo)簽,所述3D體素特征通過(guò)動(dòng)態(tài)體素化得到,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;利用所述動(dòng)態(tài)高斯參數(shù)化模型和所述多視角圖像特征生成多視角高斯特征,并將所述多視角高斯特征投影至動(dòng)態(tài)分辨率鳥(niǎo)瞰圖BEV空間以獲得BEV特征。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述3D體素特征通過(guò)如下方式得到:對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行動(dòng)態(tài)體素化以得到第一3D體素特征,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;通過(guò)2D分割模型基于所述多視角圖像得到2D語(yǔ)義標(biāo)簽;將所述2D語(yǔ)義標(biāo)簽投影至所述第一3D體素特征描述的3D體素空間并通過(guò)可變形卷積補(bǔ)償傳感器時(shí)空偏差以獲得第二3D體素特征,所述第二3D體素特征中包含用基于所述多視角圖像得到的語(yǔ)義標(biāo)簽。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參通過(guò)輕量化MLP網(wǎng)絡(luò)將所述3D體素特征轉(zhuǎn)換為高斯球體參數(shù);基于圖卷積網(wǎng)絡(luò)優(yōu)化相鄰體素的所述高斯球體參數(shù)以獲得所述動(dòng)態(tài)高斯參數(shù)化模型。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述高斯球體參數(shù)可以包括位置、協(xié)方差矩陣、語(yǔ)義概率,所述語(yǔ)義概率表示高斯球體所屬的語(yǔ)義類(lèi)別及其概率值。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多視角高斯特征通過(guò)可微分高斯濺射得到。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述多視角高斯特征投影至動(dòng)態(tài)分7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述BEV特征包括BEV語(yǔ)義特征矩陣和實(shí)時(shí)獲取高精度地圖和車(chē)輛狀態(tài)信息;基于所述BEV特征、所述高精度地圖和所述車(chē)輛狀態(tài)信息生成局部路徑;通過(guò)所述局部路徑與結(jié)合動(dòng)態(tài)高斯模型的障礙物運(yùn)動(dòng)預(yù)測(cè)得到車(chē)輛控制指令。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法通過(guò)基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型實(shí)現(xiàn),所述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型通過(guò)聯(lián)合損失函數(shù)訓(xùn)練得到,所述聯(lián)合損失函數(shù)包括:3D體素?fù)p失函數(shù)和2D渲染損失函數(shù),所述聯(lián)合損失函數(shù)包含動(dòng)態(tài)權(quán)重,所述動(dòng)態(tài)權(quán)重包括遮擋系數(shù)和運(yùn)動(dòng)顯著性因子。9.一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置,其特征在于,包括:數(shù)據(jù)獲取單元,用于獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀所述多模態(tài)數(shù)據(jù)3體素化單元,用于利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征,所述3D體素特征中包含基于所述多視角圖像得到的語(yǔ)義標(biāo)簽,所述3D體素特征通過(guò)動(dòng)態(tài)體素化得到,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;圖像特征提取單元,用于利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得多視角圖像特征;高斯構(gòu)建單元,用于基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;高斯特征提取單元,用于利用所述動(dòng)態(tài)高斯參數(shù)化模型和所述多視角圖像特征生成多視角高斯特征;BEV特征提取單元,用于將所述多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間以獲得BEV特征。10.一種車(chē)輛,所述車(chē)輛裝載有多視角攝像頭組、激光雷達(dá)、慣性測(cè)量單元IMU和全球?qū)Ш叫l(wèi)星系統(tǒng)GNSS,其特征在于,所述車(chē)輛包括權(quán)利要求9所述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置。4基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和車(chē)輛技術(shù)領(lǐng)域[0001]本公開(kāi)涉及自動(dòng)駕駛技術(shù)領(lǐng)域,尤其涉及一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融背景技術(shù)[0002]在現(xiàn)有自動(dòng)駕駛系統(tǒng)中,基于激光雷達(dá)(LiDAR)點(diǎn)云的三維場(chǎng)景感知多采用固定分辨率體素網(wǎng)格化處理方法。[0003]由于體素網(wǎng)格分辨率固定且與場(chǎng)景稀疏性解耦,在諸如空曠道路、低障礙密度環(huán)境等點(diǎn)云分布稀疏區(qū)域仍需維持高分辨率體素劃分,導(dǎo)致無(wú)效內(nèi)存占用顯著增加,嚴(yán)重制約諸如車(chē)載嵌入式計(jì)算單元邊緣計(jì)算設(shè)備的實(shí)時(shí)處理能力,難以滿足自動(dòng)駕駛系統(tǒng)的低延遲要求。[0004]同時(shí),針對(duì)車(chē)輛、行人等動(dòng)態(tài)目標(biāo)的建模精度受限于固定體素粒度,在目標(biāo)邊緣區(qū)域易產(chǎn)生體素化模糊效應(yīng),致使諸如車(chē)輛后視鏡曲面結(jié)構(gòu)、行人肢體運(yùn)動(dòng)姿態(tài)等關(guān)鍵幾何細(xì)節(jié)丟失,進(jìn)而降低目標(biāo)識(shí)別與運(yùn)動(dòng)預(yù)測(cè)的準(zhǔn)確性,增加復(fù)雜交通場(chǎng)景下的安全風(fēng)險(xiǎn)。[0005]也即,三維場(chǎng)景感知采用固定分辨率體素化方法難以有效平衡計(jì)算資源分配與場(chǎng)景表征精度間的矛盾,尤其在動(dòng)態(tài)目標(biāo)密集且空間結(jié)構(gòu)復(fù)雜的城區(qū)道路場(chǎng)景中,更為突出。因此,亟需一種新的3D場(chǎng)景感知技術(shù)以在保證感知精度的同時(shí)優(yōu)化計(jì)算資源利用率,從而提升自動(dòng)駕駛系統(tǒng)的可靠性和安全性。發(fā)明內(nèi)容[0006]有鑒于此,本公開(kāi)提供了一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法、裝置和[0007]根據(jù)本公開(kāi)的第一方面,提供了一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法,所述方法包括:獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀所述多模態(tài)數(shù)據(jù)包括點(diǎn)云、多視利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征和多視角圖像特征,所述3D體素特征中包含基于所述多視角圖像得到的語(yǔ)義標(biāo)簽,所述3D體素特征通過(guò)動(dòng)態(tài)體素化得到,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;利用所述動(dòng)態(tài)高斯參數(shù)化模型和所述多視角圖像特征生成多視角高斯特征,并將所述多視角高斯特征投影至動(dòng)態(tài)分辨率鳥(niǎo)瞰圖BEV空間以獲得BEV特征。[0008]本公開(kāi)第一方面的一些實(shí)施方式中,所述3D體素特征通過(guò)如下方式得到:對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行動(dòng)態(tài)體素化以得到第一3D體素特征,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;通過(guò)2D分割模型基于所述多視角圖像得到2D語(yǔ)義標(biāo)簽;5將所述2D語(yǔ)義標(biāo)簽投影至所述第一3D體素特征描述的3D體素空間并通過(guò)可變形卷積補(bǔ)償傳感器時(shí)空偏差以獲得第二3D體素特征,所述第二3D體素特征中包含用基于所述多視角圖像得到的語(yǔ)義標(biāo)簽。[0009]本公開(kāi)第一方面的一些實(shí)施方式中,所述基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型,包括:通過(guò)輕量化MLP網(wǎng)絡(luò)將所述3D體素特征轉(zhuǎn)換為高斯球體參數(shù);基于圖卷積網(wǎng)絡(luò)優(yōu)化相鄰體素的所述高斯球體參數(shù)以獲得所述動(dòng)態(tài)高斯參數(shù)化模型。[0010]本公開(kāi)第一方面的一些實(shí)施方式中,所述高斯球體參數(shù)可以包括位置、協(xié)方差矩陣、語(yǔ)義概率,所述語(yǔ)義概率表示高斯球體所屬的語(yǔ)義類(lèi)別及其概率值。[0011]本公開(kāi)第一方面的一些實(shí)施方式中,所述多視角高斯特征通過(guò)可微分高斯濺射得[0012]本公開(kāi)第一方面的一些實(shí)施方式中,所述將所述多視角高斯特征投影至動(dòng)態(tài)分辨[0013]本公開(kāi)第一方面的一些實(shí)施方式中,所述BEV特征包括BEV語(yǔ)義特征矩陣和實(shí)時(shí)深獲取高精度地圖和車(chē)輛狀態(tài)信息;基于所述BEV特征、所述高精度地圖和所述車(chē)輛狀態(tài)信息生成局部路徑;通過(guò)所述局部路徑與結(jié)合動(dòng)態(tài)高斯模型的障礙物運(yùn)動(dòng)預(yù)測(cè)得到車(chē)輛控制指令。[0014]本公開(kāi)第一方面的一些實(shí)施方式中,所述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法通過(guò)基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型實(shí)現(xiàn),所述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型通過(guò)聯(lián)合損失函數(shù)訓(xùn)練得到,所述聯(lián)合損失函數(shù)包括:3D體素?fù)p失函數(shù)和2D渲染損失函數(shù),所述聯(lián)合損失函數(shù)包含動(dòng)態(tài)權(quán)重,所述動(dòng)態(tài)權(quán)重包括遮擋系數(shù)和運(yùn)動(dòng)顯著性[0015]根據(jù)本公開(kāi)的第二方面,提供了一種基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置,數(shù)據(jù)獲取單元,用于獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀所述多模態(tài)體素化單元,用于利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征,所述3D體素特征中包含基于所述多視角圖像得到的語(yǔ)義標(biāo)簽,所述3D體素特征通過(guò)動(dòng)態(tài)體素化得到,所述動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;圖像特征提取單元,用于利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得多視角圖像特征,高斯構(gòu)建單元,用于基于所述3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;高斯特征提取單元,用于利用所述動(dòng)態(tài)高斯參數(shù)化模型和所述多視角圖像特征生成多視角高斯特征;BEV特征提取單元,用于將所述多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間以獲得[0016]本公開(kāi)的第三方面,提供了一種車(chē)輛,所述車(chē)輛裝載有多視角攝像頭組、激光雷達(dá)、慣性測(cè)量單元IMU和全球?qū)Ш叫l(wèi)星系統(tǒng)GNSS,所述車(chē)輛包括上述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置。[0017]由上述技術(shù)方案可以看出,本公開(kāi)實(shí)施例使用連續(xù)多幀多模態(tài)數(shù)據(jù)經(jīng)動(dòng)態(tài)體素6化、高斯參數(shù)模型構(gòu)建以及動(dòng)態(tài)分辨率BEV空間的投影獲得BEV特征,實(shí)現(xiàn)了自適應(yīng)體素化的三維場(chǎng)景感知,可以在保證感知精度的同時(shí)優(yōu)化計(jì)算資源利用率,從而有效提升自動(dòng)駕駛系統(tǒng)的可靠性和安全性。附圖說(shuō)明[0018]為了更清楚地說(shuō)明本公開(kāi)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本公開(kāi)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0019]圖1為本公開(kāi)實(shí)施例適用的系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法的流程示意圖3為本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置的結(jié)構(gòu)示意圖4為本公開(kāi)實(shí)施例提供的電子設(shè)備的示意性結(jié)構(gòu)框圖。具體實(shí)施方式[0020]下面將結(jié)合本公開(kāi)實(shí)施例中的附圖,對(duì)本公開(kāi)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本公開(kāi)一部分實(shí)施例,而不是全部的實(shí)施例?;诒竟_(kāi)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本公開(kāi)保護(hù)的范圍。[0021]在本公開(kāi)實(shí)施例中使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本公開(kāi)。在本公開(kāi)實(shí)施例和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。[0022]取決于語(yǔ)境,如在此所使用的詞果檢測(cè)(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時(shí)”或“響應(yīng)于確定”或“當(dāng)檢測(cè)(陳述的條件或事件)時(shí)”或“響應(yīng)于檢測(cè)(陳述的條件或事件)”。[0023]為便于理解,先對(duì)本公開(kāi)實(shí)施例適用的系統(tǒng)架構(gòu)做示例性說(shuō)明。[0024]圖1示出了本公開(kāi)實(shí)施例適用的系統(tǒng)結(jié)構(gòu)示意圖。參見(jiàn)圖1,本公開(kāi)實(shí)施例適用的系統(tǒng)可以包括電子設(shè)備和連接在所述電子設(shè)備上的外圍傳感器組件,外圍傳感器組件包括但不限于多視角攝像頭組、激光雷達(dá)、慣性測(cè)量單元(IMU,InertialMeasurementUnit)和全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS,GlobalNavigationSatelliteSystem)。[0025]多視角攝像頭組可用于采集車(chē)輛所處環(huán)境的多視角圖像,激光雷達(dá)可用于采集車(chē)輛所處環(huán)境的點(diǎn)云,IMU可用于測(cè)量車(chē)輛所處環(huán)境的IMU數(shù)據(jù),GNSS可用于采集車(chē)輛所處環(huán)[0026]多視角攝像頭組可以實(shí)現(xiàn)為但不限于六視角攝像頭組,該六視角攝像頭組包括前方視角攝像頭、后方視角攝像頭、左方視角攝像頭、右方視角攝像頭、上方視角攝像頭、下方視角攝像頭。具體應(yīng)用中,可以在車(chē)輛四周均勻部署攝像頭以使這些攝像頭無(wú)死角覆蓋車(chē)7輛四周,每個(gè)攝像頭捕獲車(chē)輛四周環(huán)境的圖像中包含車(chē)輛周?chē)鷪?chǎng)景的一部分。[0027]GNSS數(shù)據(jù)可以包括但不限于諸如GPS、北斗等衛(wèi)星定位系統(tǒng)生成的原始觀測(cè)數(shù)據(jù)與導(dǎo)航信息。其中,導(dǎo)航信息中可以包含車(chē)輛的經(jīng)緯度等地理位置信息。[0028]IMU數(shù)據(jù)可以包括但不限于車(chē)輛的三軸加速度、三軸角速度等,IMU數(shù)據(jù)可用于確定車(chē)輛瞬時(shí)運(yùn)動(dòng)狀態(tài),輔助定位、姿態(tài)估計(jì)等。示例性地,IMU數(shù)據(jù)可用于確定車(chē)輛的橫滾[0029]參見(jiàn)圖1,本公開(kāi)實(shí)施例適用的系統(tǒng)還可包括:可從云端獲取高清地圖的通信組件。示例性地,該通信組件可以包括但不限于車(chē)載通信模塊(TelematicsControlUnit,TCU)??色@取高清地圖的云端可以是但不限于靠近車(chē)輛的緩存高精地圖數(shù)據(jù)的邊緣計(jì)算節(jié)[0030]本公開(kāi)實(shí)施例適用的系統(tǒng)還可包括:用于為電子設(shè)備提供車(chē)輛狀態(tài)信息的組件,車(chē)輛狀態(tài)信息可用于路徑規(guī)劃和駕駛決策。示例性地,車(chē)輛狀態(tài)信息可以包括但不限于車(chē)輛動(dòng)力學(xué)狀態(tài)信息、車(chē)輛運(yùn)動(dòng)狀態(tài)信息、車(chē)輛集合約束信息等,車(chē)輛動(dòng)力學(xué)狀態(tài)信息可以包身俯仰角等。車(chē)輛運(yùn)動(dòng)狀態(tài)信息可以包括但不限于車(chē)輛當(dāng)前的行駛速度、行駛方向等。車(chē)輛幾何約束信息可以包括但不限于結(jié)構(gòu)參數(shù)、運(yùn)動(dòng)學(xué)約束參數(shù)等,結(jié)構(gòu)參數(shù)包括但不限于軸側(cè)翻閾值)、最大航向角速度等。[0031]本公開(kāi)實(shí)施例適用的系統(tǒng)可以是但不限于任何需要3D場(chǎng)景感知的系統(tǒng)。例如,該系統(tǒng)可以是但不限于自動(dòng)駕駛系統(tǒng)、智能輔助駕駛系統(tǒng)等。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本公開(kāi)實(shí)施例適用的系統(tǒng)不限于圖1所示的架構(gòu)。[0032]本公開(kāi)實(shí)施例可應(yīng)用于諸如多個(gè)輪式移動(dòng)機(jī)器人、輪式移動(dòng)機(jī)器人、移動(dòng)機(jī)器人、車(chē)輛、飛行器、船、智能軌道快運(yùn)系統(tǒng)(ART,A當(dāng)然,本公開(kāi)實(shí)施例還可應(yīng)用于其他任意涉及例如車(chē)輛等設(shè)備的自動(dòng)駕駛場(chǎng)景,對(duì)于本公開(kāi)實(shí)施例的應(yīng)用場(chǎng)景和適用領(lǐng)域,本公開(kāi)不作限制。[0034]圖2示出了本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法的流程示意圖。本公開(kāi)實(shí)施例的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法可以通過(guò)下文的電子設(shè)備執(zhí)行,該電子設(shè)備可以實(shí)現(xiàn)為但不限于裝載于車(chē)輛中的域控制器。參見(jiàn)圖2,該基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法可以包括:步驟201,獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀多模態(tài)數(shù)據(jù)包括點(diǎn)云、步驟202,利用連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征和多視角圖像特征,3D體素特征中包含基于多視角圖像得到的語(yǔ)義標(biāo)簽且3D體素特征通過(guò)動(dòng)態(tài)體素化得到,動(dòng)態(tài)體素化8基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;步驟203,基于3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;步驟204,利用動(dòng)態(tài)高斯參數(shù)化模型和多視角圖像特征生成多視角高斯特征,并將多視角高斯特征投影至動(dòng)態(tài)分辨率鳥(niǎo)瞰圖(BEV,Bird's-EyeView)空間以獲得BEV特征。[0035]本公開(kāi)實(shí)施例使用連續(xù)多幀多模態(tài)數(shù)據(jù)經(jīng)動(dòng)態(tài)體素化、高斯參數(shù)模型構(gòu)建以及動(dòng)態(tài)分辨率BEV空間的投影獲得BEV特征,實(shí)現(xiàn)了自適應(yīng)體素化的三維場(chǎng)景感知,可以在保證感知精度的同時(shí)優(yōu)化計(jì)算資源利用率,從而提升自動(dòng)駕駛系統(tǒng)的可靠性和安全性。[0036]步驟201中,每幀多模態(tài)數(shù)據(jù)中還可以包括高清地圖,該高清地圖可以是局部高清地圖。[0037]本公開(kāi)實(shí)施例中,多視角圖像可以包括多個(gè)視角下同時(shí)拍攝的車(chē)輛四周環(huán)境的圖像。具體地,車(chē)輛四周環(huán)境的多視角圖像可以通過(guò)前述的多視角攝像頭組采集并通過(guò)車(chē)載網(wǎng)絡(luò)傳輸?shù)接蚩刂破?,域控制器在接收到各個(gè)車(chē)載攝像頭采集的圖像后,可以對(duì)這些圖像進(jìn)行時(shí)間戳對(duì)齊以形成車(chē)輛四周環(huán)境的多視角圖像。[0038]步驟201中,車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù)可以通過(guò)前述的多視角攝像頭[0039]步驟202中,動(dòng)態(tài)體素化在將連續(xù)三維空間離散化為體素的同時(shí)可以根據(jù)場(chǎng)景特征動(dòng)態(tài)調(diào)整體素粒度。[0040]基于八叉樹(shù)稀疏體素編碼,也即采用八叉樹(shù)對(duì)體素的位置、屬性等信息進(jìn)行壓縮存儲(chǔ)。八叉樹(shù)(Octree)是一種樹(shù)狀數(shù)據(jù)結(jié)構(gòu),每個(gè)節(jié)點(diǎn)(非葉子節(jié)點(diǎn))將三維空間均分為8個(gè)子立方體(Octant),遞歸細(xì)分直至滿足終止條件(如達(dá)到最小體素尺寸或數(shù)據(jù)密度要求),其僅對(duì)包含數(shù)據(jù)的區(qū)域(非空節(jié)點(diǎn))進(jìn)行存儲(chǔ),避免對(duì)空白區(qū)域的冗余表示。例如,在空曠區(qū)域保留粗粒度父節(jié)點(diǎn),在密集區(qū)域細(xì)分至子節(jié)點(diǎn)。使用八叉樹(shù)數(shù)據(jù)結(jié)構(gòu)并通過(guò)稀疏編碼優(yōu)[0041]根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率,也即依據(jù)多模態(tài)數(shù)據(jù)計(jì)算得到的點(diǎn)云密度、表面曲率等指標(biāo)實(shí)時(shí)調(diào)節(jié)局部分辨率。具體地,在復(fù)雜區(qū)域(如物體邊緣、紋理豐富處)采用高分辨率,簡(jiǎn)單區(qū)域(如平坦表面、空曠空間)采用低分高于第一閾值、局部表面曲率極值大于第二閾值的區(qū)域)的分辨率(即,體素網(wǎng)格大小)取第一預(yù)設(shè)值(例如,0.05m3),稀疏區(qū)域(即,點(diǎn)云密度低于或等于第一閾值、表面曲率極值小于或等于第二閾值的區(qū)域)的分辨率(即體素網(wǎng)格大小)取第二預(yù)設(shè)值(例如,0.2m3),第二預(yù)設(shè)值大于第一預(yù)設(shè)值。[0042]根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率,可以實(shí)現(xiàn)分辨率控制。由此,僅對(duì)必要區(qū)域分配計(jì)算資源,避免全局均勻細(xì)分帶來(lái)的冗余開(kāi)銷(xiāo),內(nèi)存與精度可以得到有效平衡,實(shí)驗(yàn)發(fā)現(xiàn)GPU內(nèi)存占用可以降低約50%左右,同時(shí)遠(yuǎn)距離(例如,80m外)的諸如交通標(biāo)志等物體的檢測(cè)誤差小于0.3m。3D體素特征(VoxelFeatures)是通過(guò)將三維空間劃分為規(guī)則的網(wǎng)格單元(即體素),并在每個(gè)單元內(nèi)提取幾何、語(yǔ)義或統(tǒng)計(jì)信息形成的結(jié)構(gòu)化數(shù)據(jù)表示。步驟202中的3D體素特征不僅包含例如點(diǎn)密度、法向量、曲率、占據(jù)概率等幾何特征,還可以包括諸如類(lèi)別標(biāo)[0043]進(jìn)一步地,步驟202中可以通過(guò)如下步驟al~a3獲得3D體素特征:9步驟a1,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行動(dòng)態(tài)體素化以得到第一3D體素特征,動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;步驟a2,通過(guò)2D分割模型基于多視角圖像得到2D語(yǔ)義標(biāo)簽;該2D語(yǔ)義標(biāo)簽可以是但不限于像素級(jí)2D語(yǔ)義標(biāo)簽,可以包括但不限于車(chē)道線、交通標(biāo)志等。[0044]2D分割模型可以實(shí)現(xiàn)為但不限于諸如掩模區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(MaskR-CNN,MaskRegion-basedConvolutionalNeuralNetwork)、通用分割模型2(SAM2,Segment[0045]步驟a3,將2D語(yǔ)義標(biāo)簽投影至第一3D體素特征描述的3D體素空間并通過(guò)可變形卷積補(bǔ)償傳感器時(shí)空偏差以獲得第二3D體素特征,第二3D體素特征中包含用基于多視角圖像得到的語(yǔ)義標(biāo)簽。[0046]這里,第二3D體素特征即為步驟202中包含語(yǔ)義標(biāo)簽的3D體素特征。[0047]傳感器時(shí)空偏差是指由于傳感器(如攝像頭、激光雷達(dá))在時(shí)間和空間上的不同步或安裝位置差異導(dǎo)致的數(shù)據(jù)不匹配。[0048]將2D語(yǔ)義標(biāo)簽投影至3D體素空間,通過(guò)可變形卷積補(bǔ)償傳感器時(shí)空偏差,可以實(shí)現(xiàn)跨模態(tài)投影對(duì)齊,同時(shí)進(jìn)行多模態(tài)對(duì)齊優(yōu)化,從而獲得時(shí)空對(duì)齊的3D體素特征。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),該方式可以使激光雷達(dá)與攝像頭的時(shí)空對(duì)齊誤差小于0.1m。而目前已公開(kāi)的相關(guān)技術(shù)中激光雷達(dá)與攝像頭的數(shù)據(jù)融合時(shí)空對(duì)齊誤差通常都大于0.3m??梢?jiàn),本公開(kāi)實(shí)施例的上述方式可以顯著降低激光雷達(dá)與攝像頭的時(shí)空對(duì)齊誤差,提升3D體素特征的時(shí)空對(duì)齊精度。[0049]上述的動(dòng)態(tài)體素化獲得包含語(yǔ)義標(biāo)簽的3D體素特征,可以根據(jù)場(chǎng)景特征自適應(yīng)調(diào)整分辨率,能夠在保證精度的同時(shí)減少內(nèi)存占用和冗余數(shù)據(jù)。[0050]步驟202中,多視角圖像特征可以是但不限于多視角圖像特征矩陣,多視角圖像特征矩陣是通過(guò)整合多個(gè)視角的圖像特征形成的高維矩陣,其中融合有不同視角下的幾何、語(yǔ)義與空間信息。示例性地,可以針對(duì)多視角圖像中每個(gè)視角的圖像使用諸如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、VisionTransformer等深度學(xué)習(xí)模型提取其深層特征圖,該深層特征圖即為單一視角的圖像特征,通過(guò)將各視角的深層特征圖融合即可得到多視角圖像特征矩陣。對(duì)于獲得多視角圖像特征的具體方式,本公開(kāi)實(shí)施例不做限制。[0051]步驟203中,可以通過(guò)輕量化多層感知器(MLP)網(wǎng)絡(luò)將3D體素特征轉(zhuǎn)換為高斯球體參數(shù),基于圖卷積網(wǎng)絡(luò)優(yōu)化相鄰體素的高斯球體參數(shù)以獲得動(dòng)態(tài)高斯參數(shù)化模型。[0052]具體地,通過(guò)輕量化MLP網(wǎng)絡(luò)將3D體素特征轉(zhuǎn)換為高斯球體參數(shù)可以包括:3D體素特征中的每個(gè)體素映射為一組高斯球體并通過(guò)輕量化MLP網(wǎng)絡(luò)預(yù)測(cè)相應(yīng)的高斯球體參數(shù)。高斯球體(GaussianSpheres)是高斯函數(shù)在三維空間中的表現(xiàn)形式,結(jié)合體素的結(jié)構(gòu)化優(yōu)勢(shì)和高斯模型的表達(dá)能力,可實(shí)時(shí)重建與渲染,實(shí)時(shí)更新動(dòng)態(tài)目標(biāo)(例如,車(chē)輛、行人等)的位置和旋轉(zhuǎn)等高斯球體參數(shù),實(shí)現(xiàn)高效、動(dòng)態(tài)的三維場(chǎng)景表示。位置表示高斯球體的中心坐標(biāo),表示高斯球體在三維空間中的幾何中心位置,通常以均值向量μ=(x,y,z)描述。[0054]協(xié)方差矩陣用于描述高斯球體在空間中的形狀(即,尺度)與方向(即,旋轉(zhuǎn)),可分解為尺度和旋轉(zhuǎn)。尺度表示高斯球體沿三個(gè)坐標(biāo)軸的擴(kuò)展范圍,通過(guò)縮放矩陣定義協(xié)方差矩陣的對(duì)角線元素,與旋轉(zhuǎn)參數(shù)結(jié)合生成協(xié)方差矩陣,決定高斯球體的空間覆蓋形狀(比如,橢球或扁平圓盤(pán)等)。旋轉(zhuǎn)表示高斯球體的空間朝向,通常用四元數(shù)或旋轉(zhuǎn)矩陣表示,控制協(xié)方差矩陣的非對(duì)角線元素。素特征中的每個(gè)體素(即,體素錨點(diǎn))轉(zhuǎn)換為高斯球體的同時(shí)為高斯球體賦予語(yǔ)義概率,以擴(kuò)展高斯球體參數(shù)的內(nèi)容。[0056]具體地,本公開(kāi)實(shí)施例的輕量化MLP網(wǎng)絡(luò)可以實(shí)現(xiàn)為但不限于包含3層全連接的時(shí)更新)和擴(kuò)展需求(即,包含語(yǔ)義概率)的同時(shí)降低模型復(fù)雜度,減少存儲(chǔ)空間的占用和計(jì)算資源的消耗。[0057]步驟203中,圖卷積網(wǎng)絡(luò)優(yōu)化包括:構(gòu)建體素鄰接圖,通過(guò)空間依賴(lài)傳播修正遮擋區(qū)域(如被樹(shù)木遮擋的車(chē)輛等)的高斯球體參數(shù)。引入圖卷積網(wǎng)絡(luò)(GCN)對(duì)相鄰體素的高斯球體參數(shù)進(jìn)行聯(lián)合優(yōu)化,可以實(shí)現(xiàn)空間依賴(lài)建模,在獲得可實(shí)時(shí)更新位置與旋轉(zhuǎn)的動(dòng)態(tài)高斯參數(shù)化模型的同時(shí)提升遮擋區(qū)域的幾何一致性。[0058]步驟203中,動(dòng)態(tài)高斯參數(shù)化模型結(jié)合了體素化空間表征與高斯動(dòng)態(tài)參數(shù)化的雙重特性,不僅可以快速更新移動(dòng)物體的幾何形態(tài)和外部輪廓細(xì)節(jié),同時(shí)保持靜態(tài)背景的高效表征。具體地,動(dòng)態(tài)高斯參數(shù)化模型可實(shí)現(xiàn)多尺度場(chǎng)景建模(如車(chē)輛所處環(huán)境中靜物(例如,道路、建筑物等)的整體結(jié)構(gòu)及其表面紋理細(xì)節(jié)等),同時(shí)每個(gè)體素的高斯球體參數(shù)可獨(dú)立調(diào)整,可實(shí)時(shí)更新位置與旋轉(zhuǎn),僅需更新受場(chǎng)景變化影響的局部體素區(qū)域,顯著降低計(jì)算開(kāi)銷(xiāo)。例如,可以?xún)H針對(duì)車(chē)輛所處場(chǎng)景的動(dòng)態(tài)目標(biāo)(如,車(chē)輛、行人等)相關(guān)體素的高斯參數(shù)進(jìn)行更新而非全局模型,對(duì)諸如道路、建筑物等靜物可做更新。[0059]步驟203,通過(guò)將3D體素特征構(gòu)建為動(dòng)態(tài)高斯參數(shù)化模型,可以有效提升定位精度,尤其是動(dòng)態(tài)目標(biāo)的定位精度,同時(shí)優(yōu)化軌跡連續(xù)性。經(jīng)驗(yàn)證,通過(guò)將3D體素特征構(gòu)建為動(dòng)態(tài)高斯參數(shù)化模型,可以將動(dòng)態(tài)目標(biāo)(例如,車(chē)輛、行人等)的定位誤差從0.5m降至0.2m,定位誤差降低約60%,變道車(chē)輛軌跡斷裂率從15%降至3%。而相關(guān)技術(shù)采用的靜態(tài)模型(如PointPillars)在因固定參數(shù)導(dǎo)致形變誤差大于或等于0.5m??梢?jiàn),步驟203可以在減少存儲(chǔ)空間占用和降低計(jì)算資源消耗的同時(shí)提升定位精度,特別是動(dòng)態(tài)目標(biāo)的定位精度。[0060]步驟204中,動(dòng)態(tài)高斯參數(shù)化模型結(jié)合多視角圖像特征,通過(guò)可微分高斯濺射(DifferentiableGaussianSplatting)能夠生成多視角一致的高斯特征表示(即多視角高斯特征)。[0061]多視角高斯特征由多個(gè)視角的高斯特征圖融合而成,每個(gè)視角的高斯特征圖包含分高斯濺射得到??晌⒎指咚篂R射(DifferentiableGaussianSplatting)是將3D高斯投影到2D圖像平面,生成每個(gè)像素的高斯混合特征。其中,通過(guò)自動(dòng)微分框架計(jì)算投影過(guò)程的梯度,支持反向傳播優(yōu)化高斯參數(shù)。[0062]步驟204中,可以基于Transformer架構(gòu)將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間,以平衡計(jì)算開(kāi)銷(xiāo)與定位精度。具體地,可以采用分層Transformer架構(gòu)將多視角高斯11特征通過(guò)幾何引導(dǎo)的注意力機(jī)制投影到動(dòng)態(tài)分辨率的BEV空間。[0063]一些示例中,動(dòng)態(tài)分辨率BEV空間中,可以通過(guò)輕量級(jí)卷積網(wǎng)絡(luò)分析初始BEV特征得到分辨率調(diào)整掩碼M∈[0,1]H×W,分辨率調(diào)整掩碼的值越大表示需要更高分辨率,根據(jù)分[0064]步驟204中,將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間,可整不同區(qū)域的BEV分辨率構(gòu)建BEV空間,BEV空間中距離車(chē)輛當(dāng)前位置不超過(guò)預(yù)定閾值的區(qū)[0065]具體地,可以使用諸如MobileNetV3、EfficientNet-Lite、ResNet-50等輕量級(jí)網(wǎng)絡(luò)預(yù)測(cè)BEV網(wǎng)格的重要性分?jǐn)?shù),根據(jù)BEV網(wǎng)格的重要性分?jǐn)?shù)動(dòng)態(tài)劃分區(qū)域并按照各區(qū)域的重要性程度為其分配分辨率,從而實(shí)現(xiàn)BEV空間的構(gòu)建。高重要性區(qū)域分配高分辨率,低重要性區(qū)域可以分配較低的分辨率。例如,高分辨率區(qū)域可以是距離車(chē)輛當(dāng)前位置不超過(guò)預(yù)定閾值(例如,60米)的區(qū)域,其分辨率可以為0.1m/物理世界距離。低分辨率區(qū)域可以為距離車(chē)輛當(dāng)前位置不超過(guò)預(yù)定閾值(例如,60米)的區(qū)域,其分辨率可以為0.5m/物理世界距離。[0066]此外,還可基于任務(wù)需求(如障礙物密度、注意力權(quán)重)動(dòng)態(tài)劃分BE[0067]步驟204中,BEV特征可以包括BEV語(yǔ)義特征矩與實(shí)時(shí)深度圖的結(jié)合,可實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)對(duì)環(huán)境的語(yǔ)義-幾何一體化建模。BEV語(yǔ)義特征矩陣為二維網(wǎng)格化特征圖,每個(gè)網(wǎng)格編碼三維空間中的語(yǔ)義類(lèi)別標(biāo)簽(如道路、車(chē)輛、行人)、概率分布(如車(chē)輛存在的置信度)等信息。在BEV空間中,每個(gè)網(wǎng)格存儲(chǔ)高度信息(如地面高度)或距離信息(如到自車(chē)的水平距離),通常以三維點(diǎn)云或深度編碼形式表示,也即實(shí)時(shí)深度圖。[0068]需要說(shuō)明的是,前述針對(duì)本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法中各個(gè)步驟的具體實(shí)施方式的描述僅作為示例,并非用于限制本公開(kāi)實(shí)施例的具體實(shí)現(xiàn)方式。[0069]本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法可應(yīng)用于各種特定任務(wù),例如基于BEV特征的目標(biāo)檢測(cè)與分割、基于BEV特征的運(yùn)動(dòng)預(yù)測(cè)、基于BEV特征的路徑規(guī)劃與駕駛決策、利用BEV特征構(gòu)建車(chē)輛周?chē)呔鹊貓D等。[0070]進(jìn)一步地,本公開(kāi)實(shí)施例的方法還可以包括:獲取高精度地圖和車(chē)輛狀態(tài)信息;基于BEV特征、高精度地圖和車(chē)輛狀態(tài)信息生成局部路徑;通過(guò)局部路徑與結(jié)合動(dòng)態(tài)高斯模型的障礙物運(yùn)動(dòng)預(yù)測(cè)得到車(chē)輛控制指令。其中,車(chē)輛控制指令是但不限于關(guān)于轉(zhuǎn)向、制動(dòng)、油門(mén)等的指令。由此,可通過(guò)前述的BEV特征進(jìn)行路徑規(guī)劃和駕駛決策,在保證精度的同時(shí)降低了計(jì)算資源的消耗并減少了內(nèi)存占用,可通過(guò)邊緣計(jì)算實(shí)現(xiàn)。同時(shí),通過(guò)局部路徑與結(jié)合動(dòng)態(tài)高斯模型的障礙物運(yùn)動(dòng)預(yù)測(cè)得到車(chē)輛控制指令,可以進(jìn)一步降低速度誤差,使得速度誤差降低至小于0.2m/s。[0071]本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法可以方便地進(jìn)行在線學(xué)習(xí)和自適應(yīng)調(diào)整從而能夠不斷優(yōu)化,適應(yīng)各種不同場(chǎng)景和各類(lèi)特定任務(wù)的需求。[0072]本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法可通過(guò)基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型實(shí)現(xiàn),該基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型可以包括體素化模塊、多視角圖像特征提取模塊、動(dòng)態(tài)高斯參數(shù)化模型構(gòu)建模塊、多視角高斯特征生成模塊和BEV特征提取模塊。其中,體素化模塊可用于利用所述連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征,多視角圖像特征提取模塊可用于利用連續(xù)多幀多模態(tài)數(shù)據(jù)中的多視角圖像獲得多視角圖像特征,動(dòng)態(tài)高斯參數(shù)化模型構(gòu)建模塊可用于基于3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型,多視角高斯特征生成模塊可用于利用動(dòng)態(tài)高斯參數(shù)化模型和多視角圖像特征生成多視角高斯特征,BEV特征提取模塊可用于將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間[0073]具體應(yīng)用中,基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型中的各個(gè)模塊分別可以通過(guò)機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)。[0074]該基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型可通過(guò)聯(lián)合損失函數(shù)訓(xùn)練得到,所述聯(lián)合損失函數(shù)包括:3D體素?fù)p失函數(shù)和2D渲染損失函數(shù),所述聯(lián)合損失函數(shù)包含動(dòng)態(tài)權(quán)重,所述動(dòng)態(tài)權(quán)重包括遮擋系數(shù)和運(yùn)動(dòng)顯著性因子。通過(guò)聯(lián)合損失函數(shù)中增加動(dòng)態(tài)權(quán)重,可以區(qū)域?qū)W習(xí),從而提升關(guān)鍵區(qū)域檢測(cè)精度。由此,可將雨霧場(chǎng)景目標(biāo)檢測(cè)性能下降幅度從20%收窄至8%,從而有效提升極端場(chǎng)景的魯棒性。[0075]該基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型可采用時(shí)序一致性自監(jiān)督的方式訓(xùn)練得到。具體地,利用連續(xù)幀點(diǎn)云運(yùn)動(dòng)約束生成偽標(biāo)簽,結(jié)合標(biāo)注數(shù)據(jù)(大約占總量的20%)與偽標(biāo)簽(大約占數(shù)據(jù)總量的80%)形成基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合模型的訓(xùn)練樣本。由此,可以通過(guò)時(shí)序一致性約束(例如,相鄰幀深度差異<0.1m)提升泛化能力,同時(shí)降低標(biāo)注成本。[0076]圖3示出了本公開(kāi)實(shí)施例提供的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置的結(jié)構(gòu)示意圖。參見(jiàn)圖3,本公開(kāi)實(shí)施例的基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置300可以包括:數(shù)據(jù)獲取單元301,用于獲取車(chē)輛所處環(huán)境的連續(xù)多幀多模態(tài)數(shù)據(jù),每幀多模態(tài)數(shù)體素化單元302,用于利用連續(xù)多幀多模態(tài)數(shù)據(jù)獲得3D體素特征,3D體素特征中包含基于多視角圖像得到的語(yǔ)義標(biāo)簽,3D體素特征通過(guò)動(dòng)態(tài)體素化得到,動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;圖像特征提取單元303,用于利用連續(xù)多幀多模態(tài)數(shù)據(jù)獲得多視角圖像特征;高斯構(gòu)建單元304,用于基于3D體素特征構(gòu)建動(dòng)態(tài)高斯參數(shù)化模型;高斯特征提取單元305,用于利用動(dòng)態(tài)高斯參數(shù)化模型和多視角圖像特征生成多視角高斯特征;BEV特征提取單元306,用于將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間以獲得[0077]進(jìn)一步地,體素化單元302具體可以用于通過(guò)如下方式得到3D體素特征:對(duì)多模態(tài)數(shù)據(jù)進(jìn)行動(dòng)態(tài)體素化以得到第一3D體素特征,動(dòng)態(tài)體素化基于八叉樹(shù)稀疏體素編碼并根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)調(diào)整分辨率;通過(guò)2D分割模型基于多視角圖像得到2D語(yǔ)義標(biāo)簽;將2D語(yǔ)義標(biāo)簽投影至第一3D體素特征描述的3D體素空間并通過(guò)可變形卷積補(bǔ)償傳感器時(shí)空偏差以獲得第二3D體素特征,第二3D體素特征中包含用基于多視角圖像得到的語(yǔ)義標(biāo)簽。[0078]進(jìn)一步地,高斯構(gòu)建單元304具體可以用于:通過(guò)輕量化MLP網(wǎng)絡(luò)將3D體素特征轉(zhuǎn)換為高斯球體參數(shù);基于圖卷積網(wǎng)絡(luò)優(yōu)化相鄰體素的高斯球體參數(shù)以獲得動(dòng)態(tài)高斯參數(shù)化模型。[0079]進(jìn)一步地,高斯特征提取單元305具體可以用于通過(guò)可微分高斯濺射得到多視角高斯特征。[0080]進(jìn)一步地,BEV特征提取單元306具體可以用于基于Transformer架構(gòu)將多視角高斯特征投影至動(dòng)態(tài)分辨率BEV空間。[0081]進(jìn)一步地,基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置300還可以包括:路徑規(guī)劃單元307和駕駛決策單元308;數(shù)據(jù)獲取單元301,還可以用于獲取高精度地圖和車(chē)輛狀態(tài)信息;路徑規(guī)劃單元307,用于基于BEV特征、高精度地圖和車(chē)輛狀態(tài)信息生成局部路徑;駕駛決策單元308,用于通過(guò)局部路徑與結(jié)合動(dòng)態(tài)高斯模型的障礙物運(yùn)動(dòng)預(yù)測(cè)得到車(chē)輛控制指[0082]具體應(yīng)用中,基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置300可以通過(guò)軟件、硬件或兩者的結(jié)合來(lái)實(shí)現(xiàn)。示例性地,基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合裝置300可以實(shí)現(xiàn)為下述的電子設(shè)備400或運(yùn)行于下述電子設(shè)備400中的軟件。[0083]另外,本公開(kāi)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,程序包括指令,指令在由一個(gè)或者多個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)前述基于動(dòng)態(tài)高斯建模的多模態(tài)數(shù)據(jù)融合方法的步驟。[0084]圖4示出了本公開(kāi)實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。參見(jiàn)圖4,電子設(shè)備400可以包括:一個(gè)或多個(gè)處理器401,還包括存儲(chǔ)一個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論