CN120107866B 一種基于視頻建圖的gis數(shù)字孿生場(chǎng)景構(gòu)建方法 (山東飛鳶空間信息科技有限公司)_第1頁(yè)
CN120107866B 一種基于視頻建圖的gis數(shù)字孿生場(chǎng)景構(gòu)建方法 (山東飛鳶空間信息科技有限公司)_第2頁(yè)
CN120107866B 一種基于視頻建圖的gis數(shù)字孿生場(chǎng)景構(gòu)建方法 (山東飛鳶空間信息科技有限公司)_第3頁(yè)
CN120107866B 一種基于視頻建圖的gis數(shù)字孿生場(chǎng)景構(gòu)建方法 (山東飛鳶空間信息科技有限公司)_第4頁(yè)
CN120107866B 一種基于視頻建圖的gis數(shù)字孿生場(chǎng)景構(gòu)建方法 (山東飛鳶空間信息科技有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專(zhuān)利(10)授權(quán)公告號(hào)CN120107866B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專(zhuān)利權(quán)人山東飛鳶空間信息科技有限公司地址250101山東省濟(jì)南市高新區(qū)新濼大街1166號(hào)奧盛大廈2號(hào)樓2728室審查員王永貴(74)專(zhuān)利代理機(jī)構(gòu)濟(jì)南誠(chéng)智商標(biāo)專(zhuān)利事務(wù)所有專(zhuān)利代理師韓亞林一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法(57)摘要本發(fā)明提供一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法;涉及數(shù)字孿生場(chǎng)景構(gòu)建技術(shù)領(lǐng)域。本發(fā)明掃描采集真實(shí)場(chǎng)景視頻;將真實(shí)場(chǎng)景視頻切分成多個(gè)視頻切片;確定每個(gè)視頻切片的中間視頻幀,用中間視頻幀定義視頻切片的局部坐標(biāo)系,將第一個(gè)視頻切片的局部坐標(biāo)系作為全局坐標(biāo)系;將視頻切片輸入到預(yù)訓(xùn)練的多視圖圖像轉(zhuǎn)點(diǎn)云模型中,基于視頻切片生產(chǎn)相應(yīng)局部幾何結(jié)構(gòu)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云;記錄對(duì)應(yīng)全部視頻幀的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,將局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云輸入到坐標(biāo)轉(zhuǎn)換模型得到局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云;按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到21.一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,包括:掃描采集真實(shí)場(chǎng)景視頻;設(shè)定長(zhǎng)度的滑動(dòng)窗口按照設(shè)定的步長(zhǎng)將真實(shí)場(chǎng)景視頻切分成多個(gè)視頻切片;確定每個(gè)視頻切片的中間視頻幀,將中間視頻幀中局部幾何結(jié)構(gòu)所處的坐標(biāo)系定義為視頻切片的局部坐標(biāo)系,其中,第一個(gè)滑動(dòng)窗口所切分的視頻切片的局部坐標(biāo)系作為全局坐標(biāo)系;將任意視頻切片輸入到預(yù)訓(xùn)練的多視圖圖像轉(zhuǎn)點(diǎn)云模型中,多視圖圖像轉(zhuǎn)點(diǎn)云模型基于視頻切片生產(chǎn)相應(yīng)局部幾何結(jié)構(gòu)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,所述局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云使用視頻切片的局部坐標(biāo)系坐標(biāo);記錄對(duì)應(yīng)全部視頻幀的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,將局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云作為輸入,輸入到坐標(biāo)轉(zhuǎn)換模型,所述坐標(biāo)轉(zhuǎn)換模型將全部的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的點(diǎn)云坐標(biāo)轉(zhuǎn)換到所述全局坐標(biāo)系得到局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云;按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到一起,得到GIS數(shù)字孿生場(chǎng)景。2.根據(jù)權(quán)利要求1所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,所述真實(shí)場(chǎng)景視頻的各個(gè)視頻幀中的局部幾何結(jié)構(gòu)隨真實(shí)場(chǎng)景視頻時(shí)間軸的連續(xù)變化而連續(xù)變化。3.根據(jù)權(quán)利要求1所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,所述多視圖圖像轉(zhuǎn)點(diǎn)云模型包含:圖像嵌入層,位置編碼器,基于視覺(jué)Transformer的多視圖圖像編碼器,基于雙向視覺(jué)Transformer的多視圖圖像交互解碼器和局部點(diǎn)云預(yù)測(cè)頭;所述圖像嵌入層處理視頻幀得到視頻幀patch嵌入,所述位置編碼器采用旋轉(zhuǎn)位置編碼給視頻幀patch嵌入添加旋轉(zhuǎn)位置編碼得到視頻幀特征;對(duì)于每個(gè)視頻切片,所述多視圖圖像編碼器的視覺(jué)Transformer編碼視頻切片中視頻幀的視頻幀特征得到表征視頻切片的視頻幀中局部幾何結(jié)構(gòu)的編碼視頻幀特征和表征視頻幀的局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征;所述多視圖圖像交互解碼器通過(guò)多層雙向視覺(jué)Transformer交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征,得到中間視頻幀和各非中間視頻幀多層的解碼視頻幀特征和解碼位置特征;局部點(diǎn)云預(yù)測(cè)頭將多層解碼視頻幀特征和解碼位置特征通過(guò)特征金字塔進(jìn)行融合,而后預(yù)測(cè)頭將融合特征映射成逐像素的局部點(diǎn)云坐標(biāo)和置信度;將局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云作為輸入,輸入到坐標(biāo)轉(zhuǎn)換模型,所述坐標(biāo)轉(zhuǎn)換模型將全部局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的點(diǎn)云坐標(biāo)轉(zhuǎn)換到全局坐標(biāo)系,得到局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云。4.根據(jù)權(quán)利要求3所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,所述多視圖圖像編碼器包含多層視覺(jué)Transformer,在每層視覺(jué)Transformer中,視覺(jué)Transformer對(duì)任意視頻幀的視頻幀特征進(jìn)行自注意力,對(duì)該視頻幀的自注意力后的視頻幀特征分別與其他視頻幀的視頻幀特征進(jìn)行交叉注意力,得到多組組合視頻幀特征,將多組組合視頻幀特征通過(guò)池化操作聚合得到聚合視頻幀特征;將聚合視頻幀特征和自注意力后的該視頻幀的視頻幀特征相加結(jié)合而后歸一化輸入到殘差結(jié)構(gòu)的前饋網(wǎng)絡(luò)中進(jìn)行進(jìn)一步處理,得到結(jié)合視頻切片內(nèi)整體局部幾何結(jié)構(gòu)信息特征,包括:編碼視頻幀特征和視頻幀局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征。35.根據(jù)權(quán)利要求4所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,將述多視圖圖像交互解碼器的多層雙向視覺(jué)Transformer與多視圖圖像編碼器的視覺(jué)Transformer的結(jié)構(gòu)一致,但在計(jì)算時(shí)交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征的位置實(shí)現(xiàn)雙向信息交換得到中間視頻幀和各非中間視頻幀多層的解碼6.根據(jù)權(quán)利要求3所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在于,局標(biāo)點(diǎn)云。7.根據(jù)權(quán)利要求3所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在點(diǎn)云模型的第一損失函數(shù)為:,其中,X;視頻幀F(xiàn)對(duì)應(yīng)的真實(shí)場(chǎng)景點(diǎn)云的局部坐標(biāo),X為多視圖圖像轉(zhuǎn)點(diǎn)云模型預(yù)測(cè)的視頻幀iF′對(duì)應(yīng)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的局部坐標(biāo),xi,J×;|表示求預(yù)測(cè)局部坐標(biāo)和真實(shí)局部坐標(biāo)兩者之間的L1距離,H(C)表示求局部坐8.根據(jù)權(quán)利要求3所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,其特征在云的全局坐標(biāo),1客為坐標(biāo)轉(zhuǎn)換模型預(yù)測(cè)的視頻幀F(xiàn)′對(duì)應(yīng)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云45一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及GIS數(shù)字孿生場(chǎng)景構(gòu)建技術(shù)領(lǐng)域,尤其涉及一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法。背景技術(shù)[0002]隨著數(shù)字孿生技術(shù)在智慧城市、工業(yè)檢測(cè)、自動(dòng)駕駛等領(lǐng)域的廣泛應(yīng)用,如何高效、精確地將真實(shí)物理場(chǎng)景映射為GIS數(shù)字孿生場(chǎng)景模型成為關(guān)鍵技術(shù)挑戰(zhàn)。[0003]近年來(lái),深度學(xué)習(xí)技術(shù)(如視覺(jué)Transformer)在多視圖幾何建模中展現(xiàn)出潛力,能夠通過(guò)端到端訓(xùn)練隱式建模多視圖間的幾何關(guān)聯(lián)。然而,現(xiàn)有方法仍存在以下問(wèn)題:局部與全局坐標(biāo)系的割裂:多數(shù)方法將多視圖圖像直接映射到全局坐標(biāo)系,但視頻流中局部幾何結(jié)構(gòu)的連續(xù)變化易導(dǎo)致全局坐標(biāo)預(yù)測(cè)的不確定性。動(dòng)態(tài)場(chǎng)景的幾何一致性:難以建模視頻幀間局部幾何結(jié)構(gòu)的空間關(guān)聯(lián)性,導(dǎo)致點(diǎn)云拼接時(shí)出現(xiàn)錯(cuò)位或空洞。跨模態(tài)映射的精度瓶頸:圖像到點(diǎn)云的映射依賴(lài)手工設(shè)計(jì)特征或固定深度估計(jì)網(wǎng)絡(luò),難以適應(yīng)復(fù)雜場(chǎng)景的幾何[0004]針對(duì)上述問(wèn)題,本發(fā)明提出一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,結(jié)合滑動(dòng)窗口局部幾何建模與深度學(xué)習(xí)驅(qū)動(dòng)的多視圖特征交互,實(shí)現(xiàn)高精度、高效率的場(chǎng)景數(shù)發(fā)明內(nèi)容[0005]為了解決上述技術(shù)問(wèn)題或者至少部分地解決上述技術(shù)問(wèn)題,本發(fā)明提供一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法。[0006]第一方面,本發(fā)明提供一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,包括:[0008]設(shè)定長(zhǎng)度的滑動(dòng)窗口按照設(shè)定的步長(zhǎng)將真實(shí)場(chǎng)景視頻切分成多個(gè)視頻切片;[0009]確定每個(gè)視頻切片的中間視頻幀,將中間視頻幀中局部幾何結(jié)構(gòu)所處的坐標(biāo)系定義為視頻切片的局部坐標(biāo)系,其中,第一個(gè)滑動(dòng)窗口所切分的視頻切片的局部坐標(biāo)系作為全局坐標(biāo)系;[0010]將任意視頻切片輸入到預(yù)訓(xùn)練的多視圖圖像轉(zhuǎn)點(diǎn)云模型中,多視圖圖像轉(zhuǎn)點(diǎn)云模型基于視頻切片生產(chǎn)相應(yīng)局部幾何結(jié)構(gòu)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,所述局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云使用視頻切片的局部坐標(biāo)系坐標(biāo);[0011]記錄對(duì)應(yīng)全部視頻幀的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,將局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云作為輸入,輸入到坐標(biāo)轉(zhuǎn)換模型,所述坐標(biāo)轉(zhuǎn)換模型將全部的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的點(diǎn)云坐標(biāo)轉(zhuǎn)換到所述全局坐標(biāo)系得到局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云;[0012]按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到一起,得到GIS數(shù)字孿生場(chǎng)景。[0013]更進(jìn)一步的,所述真實(shí)場(chǎng)景視頻的各個(gè)視頻幀中的局部幾何結(jié)構(gòu)隨真實(shí)場(chǎng)景視頻6[0015]所述圖像嵌入層處理視頻幀得到視頻幀patch嵌入,所述位置編碼器采用旋轉(zhuǎn)位視圖圖像編碼器的視覺(jué)Transformer編碼視頻切片中視頻幀的視頻幀特征得到表征視頻切片的視頻幀中局部幾何結(jié)構(gòu)的編碼視頻幀特征和表征視頻幀的局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征;所述多視圖圖像交互解碼器通過(guò)多層雙向視覺(jué)Transformer交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征,得到中間視頻幀和各非中間視頻幀多層的解碼視頻幀特征和解碼位置特征[0016]更進(jìn)一步的,所述多視圖圖像編碼器包含多層視覺(jué)Transformer,在每層視覺(jué)頻幀特征和自注意力后的該視頻幀的視頻幀特征相加結(jié)合而后歸一化輸入到殘差結(jié)構(gòu)的視頻幀特征和視頻幀局部幾何結(jié)構(gòu)在視頻切片的局部坐視圖圖像交互解碼器,所述多視圖圖像交互解碼器的多層雙向視覺(jué)Transformer與多視圖圖像編碼器的視覺(jué)Transformer的結(jié)構(gòu)一致,但在計(jì)算時(shí)交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征的位置實(shí)現(xiàn)雙向信息交換得到中間視頻幀和各非中間[0019]更進(jìn)一步的,所述多視圖圖像轉(zhuǎn)點(diǎn)云模型使用真實(shí)場(chǎng)景點(diǎn)云的局部坐標(biāo)進(jìn)行訓(xùn),其中,X視頻幀F(xiàn)對(duì)應(yīng)的真實(shí)場(chǎng)景點(diǎn)云的局部坐標(biāo),x為多視圖圖像轉(zhuǎn)點(diǎn)云模型預(yù)測(cè)的視頻幀'F對(duì)應(yīng)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的7示求局部坐標(biāo)預(yù)測(cè)置信度矩陣C熵,訓(xùn)練調(diào)整多視圖圖像轉(zhuǎn)點(diǎn)云模型參數(shù)最小化第一損幀F(xiàn)i對(duì)應(yīng)的真實(shí)場(chǎng)景點(diǎn)云的全局坐標(biāo),為坐標(biāo)轉(zhuǎn)換模型預(yù)測(cè)的視頻幀F(xiàn)對(duì)應(yīng)的局部8片,以中間幀為局部坐標(biāo)系基準(zhǔn),確保局部幾何結(jié)構(gòu)的連續(xù)性與一致性。[0027]本申請(qǐng)實(shí)現(xiàn)多視圖圖像點(diǎn)云轉(zhuǎn)換的Transformer架構(gòu):設(shè)計(jì)包含旋轉(zhuǎn)位置編碼、多視圖交叉注意力機(jī)制的視覺(jué)Transformer模型,顯式建模視頻切片內(nèi)多幀的幾何關(guān)聯(lián),生成高置信度的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云。全局坐標(biāo)轉(zhuǎn)換的漸進(jìn)式拼接策略:通過(guò)置信度引導(dǎo)的坐標(biāo)轉(zhuǎn)換模型,逐步將局部點(diǎn)云對(duì)齊至全局坐標(biāo)系,避免累積誤差,提升大范圍場(chǎng)景的建圖魯棒性。該方法在技術(shù)層面深度融合了SLAM的實(shí)時(shí)性與深度學(xué)習(xí)的高精度優(yōu)勢(shì),為GIS數(shù)字孿生場(chǎng)景構(gòu)建提供了一種可擴(kuò)展、端到端的解決方案,尤其適用于動(dòng)態(tài)環(huán)境、大尺度場(chǎng)景的實(shí)時(shí)數(shù)字化需求。通過(guò)引入旋轉(zhuǎn)位置編碼、雙向Transformer交互解碼機(jī)制,顯著提升了局部幾何結(jié)構(gòu)重建的準(zhǔn)確性與全局拼接的穩(wěn)定性,為智慧城市、自動(dòng)駕駛等領(lǐng)域的高精度地圖構(gòu)建提供了新的技術(shù)路徑。附圖說(shuō)明[0028]此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本發(fā)明的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本發(fā)明的原理。[0029]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0030]圖1為本發(fā)明實(shí)施例提供的一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法的流程圖;[0031]圖2為本發(fā)明實(shí)施例提供的模型整體的架構(gòu)圖;[0032]圖3為本發(fā)明實(shí)施例提供的多視圖圖像編碼器的示意圖;[0033]圖4為本發(fā)明實(shí)施例提供的多視圖圖像交互解碼器的原理圖;[0034]圖5為本發(fā)明實(shí)施例提供的局部點(diǎn)云預(yù)測(cè)頭的示意圖;[0035]圖6為本發(fā)明實(shí)施例提供的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建裝置的示意圖。具體實(shí)施方式[0036]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有述要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。[0038]實(shí)施例1[0039]如圖1所示,本發(fā)明技術(shù)實(shí)現(xiàn)一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法,本發(fā)明包括以下幾個(gè)步驟:[0040]掃描采集真實(shí)場(chǎng)景視頻F。掃描使得真實(shí)場(chǎng)景視頻F的視頻幀具有如下性質(zhì):視9頻幀中的真實(shí)場(chǎng)景的各個(gè)局部幾何結(jié)構(gòu)隨真實(shí)場(chǎng)景視頻F時(shí)間軸的連續(xù)變化而連續(xù)變化,即真實(shí)場(chǎng)景視頻F中不存在局部幾何結(jié)構(gòu)的空間跳躍。[0041]設(shè)定長(zhǎng)度的滑動(dòng)窗口按照設(shè)定的步長(zhǎng)將真實(shí)場(chǎng)景視頻F切分成多個(gè)視頻切片F(xiàn)',i∈{1,2,….I},其中,I為真實(shí)場(chǎng)景視頻F的視頻切片的總數(shù);任意視頻切片F(xiàn)中的全部視頻幀的局部幾何結(jié)構(gòu)在空間上相關(guān)聯(lián)。[0042]確定每個(gè)視頻切片的中間視頻幀midFi,將中間視頻幀中的局部幾何結(jié)構(gòu)所處的坐標(biāo)系定義為視頻切片的局部坐標(biāo)系,其中,第一個(gè)滑動(dòng)窗口所切分的視頻切片的局部坐標(biāo)系作為全局坐標(biāo)系。[0043]將任意視頻切片輸入到預(yù)訓(xùn)練的多視圖圖像轉(zhuǎn)點(diǎn)云模型中,多視圖圖像轉(zhuǎn)點(diǎn)云模型基于視頻切片生產(chǎn)相應(yīng)局部幾何結(jié)構(gòu)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的坐標(biāo)以視頻切片相應(yīng)的局部坐標(biāo)系為參考。[0044]具體實(shí)施過(guò)程中,所述多視圖圖像轉(zhuǎn)點(diǎn)云模型包含:圖像嵌入層,位置編碼器,基于視覺(jué)Transformer的多視圖圖像編碼器,基于雙向視覺(jué)Transformer的多視圖圖像交互解碼器和局部點(diǎn)云預(yù)測(cè)頭。[0045]所述多視圖圖像轉(zhuǎn)點(diǎn)云模型的原理如下:所述圖像嵌入層處理視頻切片的各個(gè)視頻幀得到視頻幀patch嵌入,所述位置編碼器采用旋轉(zhuǎn)位置編碼給視頻幀patch嵌入添加旋轉(zhuǎn)位置編碼得到視頻幀特征,對(duì)于第i個(gè)視頻切片F(xiàn)i中的第j個(gè)視頻幀F(xiàn)i,其視頻幀特征表示為F。右上標(biāo)j表示視頻切片中視頻幀的索引,其中,右上標(biāo)為mid時(shí)表示中間視頻幀。[0046]對(duì)于每個(gè)視頻切片,所述多視圖圖像編碼器的視覺(jué)Transformer編碼視頻切片中視頻幀的視頻幀特征得到表征視頻切片的視頻幀中局部幾何結(jié)構(gòu)的編碼視頻幀特征和表征視頻幀的局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征。[0047]具體實(shí)施過(guò)程中,所述多視圖圖像編碼器包含多層視覺(jué)Transformer。[0048]在每層視覺(jué)Transformer中,首先,視覺(jué)Transformer對(duì)輸入的任意視頻幀的視頻幀特征進(jìn)行自注意力,對(duì)該視頻幀的自注意力后的視頻幀特征分別與所處視頻切片中其他視頻幀的視頻幀特征進(jìn)行交叉注意力,得到多組組合視頻幀特征,將多組組合視頻幀特征通過(guò)池化操作聚合得到該視頻幀的聚合視頻幀特征;將該視頻幀的聚合視頻幀特征和自注意力后的該視頻幀的視頻幀特征相加結(jié)合而后歸一化,并輸入到殘差結(jié)構(gòu)的前饋網(wǎng)絡(luò)中進(jìn)行進(jìn)一步處理,前饋網(wǎng)絡(luò)輸出結(jié)合視頻切片內(nèi)整體局部幾何結(jié)構(gòu)信息的該視頻幀的特征,包括:編碼視頻幀特征和視頻幀局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征。多視圖圖像編碼器最終的視覺(jué)Transformer得到表征視頻切片的視頻幀中局部幾何結(jié)構(gòu)的編碼視頻幀特征和表征視頻幀的局部幾何結(jié)構(gòu)在視頻切片的局部坐標(biāo)系下的編碼位置特征。[0049]以中間視頻幀為例說(shuō)明:視覺(jué)Transformer對(duì)中間視頻幀的視頻幀特征進(jìn)行自注意力:[0052]通過(guò)線(xiàn)性映射歸一化的中間視頻幀的視頻幀特征得到其自注意力查詢(xún)、自注意力[0056]其次,視覺(jué)Transfor[0057]mia.1=crossAttention(norm(mia?),norm([0058]其中,crossAttention()表示交叉注意力,miap3,p為中間視頻幀和非中間視頻幀[0059]通過(guò)線(xiàn)性映射歸一化的自注意力后的中間視頻幀的視頻幀特征得到其交叉注意和交叉注意力值V.;[0067]如圖4所示,將各個(gè)視頻幀的編碼視頻幀特征和編碼位置特征經(jīng)線(xiàn)性層映射給多視圖圖像交互解碼器,所述多視圖圖像交互解碼器通過(guò)多層雙向視覺(jué)Transformer交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征,多層雙向視覺(jué)Transformer與多視圖圖像編碼器的視覺(jué)Transformer的結(jié)構(gòu)一致,但在交換中間視頻幀和非中間視頻幀的編碼視頻幀特征和編碼位置特征的位置時(shí),通過(guò)雙向交叉注意力實(shí)現(xiàn)雙向信息交換,得到中間視頻幀和各非中間視頻幀多層的解碼視頻幀特征和解碼位置特征。通過(guò)這一過(guò)[0068]如圖5所示,局部點(diǎn)云預(yù)測(cè)頭將多層解碼視頻幀特征和解碼位置特征通過(guò)特征金距離和局部坐標(biāo)預(yù)測(cè)置信度的熵決定。訓(xùn)練所述多視圖圖像轉(zhuǎn)點(diǎn)云模型的第一損失函數(shù)部坐標(biāo),x為多視圖圖像轉(zhuǎn)點(diǎn)云模型預(yù)測(cè)的視頻幀F(xiàn)1對(duì)應(yīng)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的局部坐標(biāo),x|,x;|表示求預(yù)測(cè)局部坐標(biāo)和真實(shí)局部坐標(biāo)兩者之間的L1距離,視圖圖像轉(zhuǎn)點(diǎn)云模型的結(jié)構(gòu)一致,相應(yīng)的包含:點(diǎn)云嵌入層,位置編碼器,基于視覺(jué)被轉(zhuǎn)為局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云和未被轉(zhuǎn)為局部幾何結(jié)[0075]可以看出只是對(duì)象從視頻幀編程點(diǎn)云幀,坐標(biāo)參考從局部坐標(biāo)系變成全局坐標(biāo)局坐標(biāo)預(yù)測(cè)置信度的熵決定。訓(xùn)練所述坐標(biāo)轉(zhuǎn)換模型的第二損失函數(shù)為:,其中,X視頻幀F(xiàn)1對(duì)應(yīng)的真實(shí)場(chǎng)景點(diǎn)云的全局坐標(biāo),X為坐標(biāo)轉(zhuǎn)換模型預(yù)測(cè)的視頻幀F(xiàn)對(duì)應(yīng)的局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云的全局坐[0077]按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到一起,得到GIS數(shù)字[0079]參閱圖6所示,本發(fā)明實(shí)施例提供一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建裝本發(fā)明實(shí)施例中的一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法對(duì)應(yīng)的軟件程序、計(jì)算[0085]按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到一起,得到GIS數(shù)字[0086]當(dāng)然,本發(fā)明實(shí)施例所提供的一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建裝存儲(chǔ)單元,其存儲(chǔ)的計(jì)算機(jī)程序不限于如上所述的方法操作,還可以執(zhí)行本發(fā)明任意實(shí)施例所提供的一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法中的相關(guān)操作。[0088]本發(fā)明實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí),實(shí)現(xiàn)所述的基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方[0090]設(shè)定長(zhǎng)度的滑動(dòng)窗口按照設(shè)定的步長(zhǎng)將真實(shí)場(chǎng)景視頻切分成多個(gè)視頻切片;[0091]確定每個(gè)視頻切片的中間視頻幀,將中間視頻幀中局部幾何結(jié)構(gòu)所處的坐標(biāo)系定義為視頻切片的局部坐標(biāo)系,其中,第一個(gè)滑動(dòng)窗口所切分的視頻切片的局部坐標(biāo)系作為全局坐標(biāo)系;[0092]將任意視頻切片輸入到預(yù)訓(xùn)練的多視圖圖像轉(zhuǎn)點(diǎn)云模型中,多視圖圖像轉(zhuǎn)點(diǎn)云模型基于視頻切片生產(chǎn)相應(yīng)局部幾何結(jié)構(gòu)的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,所述局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云使用視頻切片的局部坐標(biāo)系坐標(biāo);[0093]記錄對(duì)應(yīng)全部視頻幀的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云,將局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云作為輸入,輸入到坐標(biāo)轉(zhuǎn)換模型,所述坐標(biāo)轉(zhuǎn)換模型將全部的局部幾何結(jié)構(gòu)局部坐標(biāo)點(diǎn)云的點(diǎn)云坐標(biāo)轉(zhuǎn)換到所述全局坐標(biāo)系得到局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云;[0094]按照全局坐標(biāo)將各個(gè)局部幾何結(jié)構(gòu)全局坐標(biāo)點(diǎn)云拼接組合到一起,得到GIS數(shù)字孿生場(chǎng)景。[0095]本發(fā)明實(shí)施例所提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)的計(jì)算機(jī)程序不限于如上所述的方法操作,還可以執(zhí)行本發(fā)明任意實(shí)施例所提供的一種基于視頻建圖的GIS數(shù)字孿生場(chǎng)景構(gòu)建方法中的相關(guān)操作。[0096]在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露的結(jié)構(gòu)和方法,可以通過(guò)其它的一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論