CN114494708B 基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(中山大學(xué))_第1頁(yè)
CN114494708B 基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(中山大學(xué))_第2頁(yè)
CN114494708B 基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(中山大學(xué))_第3頁(yè)
CN114494708B 基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(中山大學(xué))_第4頁(yè)
CN114494708B 基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(中山大學(xué))_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專(zhuān)利GO6VGO6N(56)對(duì)比文件(72)發(fā)明人胡建芳李世順審查員田媛媛限公司44245GO6V10/77(2022.01)權(quán)利要求書(shū)2頁(yè)說(shuō)明書(shū)9頁(yè)附圖2頁(yè)基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置(57)摘要圖像符征點(diǎn)特世本發(fā)明公開(kāi)了一種基于多模態(tài)特征融合點(diǎn)用預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖和點(diǎn)云特征利用特征融合模塊進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的度的位置將原點(diǎn)云Transformer模型的輸出和中圖像符征點(diǎn)特世Vewpooling全連接局金連接腐全連接房分貴解碼器3線性層編碼版解碼器3線性層編碼版磁性層線性層磁性層全連接房全連基廚檢連接分類(lèi)器2也云拍樣自注意力模塊全連接房全連基廚檢連接分類(lèi)器221.基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,包括下述步驟:利用預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提?。焕妙A(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提??;將圖像特征和點(diǎn)云特征利用特征融合模塊進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通路,所述第一通路為從所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原多視角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加;所述第二通路是從所述點(diǎn)云Transformer模型獲得的特征,也在中間對(duì)應(yīng)尺度的位置將原點(diǎn)云Transformer模型的輸出和中間結(jié)果進(jìn)行疊加;進(jìn)行多模態(tài)特征融合的具體步驟為:將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的特征圖通過(guò)第一編碼器降維后形成n*1維度的第一向量,將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的點(diǎn)云特征作為n*1維度的第二向量,將所述第一向量和第二向量拼接為2n*1維度第三向量;所述第三向量經(jīng)過(guò)第一解碼器得到4n*1維度的第四向量和n/2*1維度的第五向量,所述第四向量作為第一通路的輸入,所述第五向量作為第二通路的輸入;在第一通路中,將第四向量與所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)應(yīng)尺度的第一全連接層的輸出進(jìn)行第一次疊加,然后經(jīng)過(guò)第二編碼器變?yōu)閚/2*1維度的向量;在第二通路中,將n/2*1維度的第五向量與點(diǎn)云Transformer模型對(duì)應(yīng)尺度的第一全連接層的輸出進(jìn)行第一次疊加;將兩個(gè)通路第一次疊加后的向量進(jìn)行拼接形成n*1維度的第六向量,所述第六向量經(jīng)過(guò)第二解碼器解碼成4n*1維度的第七向量和n/4*1維度的第八向量;在第一通道中,將第七向量與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第二全連接層輸出的向量進(jìn)行疊加,疊加后得到的向量Transformer模型相同維度的第二全連接層的輸出進(jìn)行疊加就,得到n/4*1維度的第十向?qū)⒌诰畔蛄亢偷谑蛄科唇有纬蒼/2*1維度的第十一向量,所述第十一向量經(jīng)過(guò)第三解碼器形成兩個(gè)設(shè)定維度的向量;將兩個(gè)設(shè)定維度的向量分別與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第三全連接層和點(diǎn)云Transformer模型的第三全連接層的輸出進(jìn)行拼接,然后統(tǒng)一經(jīng)過(guò)一個(gè)全連接層得到設(shè)定維度的向量;將多視角卷積神經(jīng)網(wǎng)絡(luò)模型最后的設(shè)定維度的向量與點(diǎn)云Transformer模型最后的設(shè)定維度的向量以及上段獲得的設(shè)定維度的向量進(jìn)行分類(lèi)任務(wù)。2.根據(jù)權(quán)利要求1所述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,在進(jìn)行圖像特征提取時(shí),給定輸入的K個(gè)不同位置的投影來(lái)模擬K個(gè)位置的照相機(jī)視角得到的圖像利用共享權(quán)重的VGGNet分別提取K個(gè)視角圖像的特征圖,這個(gè)特征圖通過(guò)視角池化操作,將每個(gè)位置的所有視角結(jié)果的最大值保留,得到基于圖像輸入的特征。3.根據(jù)權(quán)利要求2所述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,所述K選取為12,12個(gè)視角每個(gè)之間間隔30°,并從平面上方30°向下指向網(wǎng)格質(zhì)心。4.根據(jù)權(quán)利要求1所述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,所述圖像特征通過(guò)三個(gè)全連接層,將提取的特征圖的維度降低到設(shè)定維度,這最后的三個(gè)全連接層的輸出分別作為多模態(tài)特征融合模塊多視角卷積輸入的通路的對(duì)應(yīng)尺寸的輸入。35.根據(jù)權(quán)利要求1所述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,在進(jìn)行點(diǎn)首先,將點(diǎn)云數(shù)據(jù)輸入進(jìn)入一個(gè)編碼器,所述編碼器由四層注意力機(jī)制組成;然后,將四層注意力操作的結(jié)果進(jìn)行拼接,再經(jīng)過(guò)線性變換、批歸一化、非線性激活以及Dropout層獲得點(diǎn)的特征;最后,通過(guò)最大值池化和平均值池化后進(jìn)行拼接得到n*1的全局特征向量,所述全局特征向量會(huì)作為特征融合模塊的第二個(gè)輸入。6.根據(jù)權(quán)利要求5所述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,所述全局特征向量會(huì)按照原模型的后續(xù)操作,經(jīng)過(guò)全連接層從n*1的向量變?yōu)閚/2*1的向量然后是n/4*1的向量最后轉(zhuǎn)化為設(shè)定維度的向量,這后續(xù)的三個(gè)全連接層也會(huì)分別輸入給特征融合模塊的點(diǎn)云Transformer輸入通路的對(duì)應(yīng)尺度的位置。7.基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置,其特征在于,應(yīng)用于權(quán)利要求1-6中任一項(xiàng)所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,其特征在于,包括圖像特征提取模塊、點(diǎn)云特征提取模塊、多模態(tài)特征融合模塊;所述圖像特征提取模塊,用于通過(guò)預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提取;所述點(diǎn)云特征提取模塊,用于通過(guò)預(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提取;所述多模態(tài)特征融合模塊,用于將圖像特征和點(diǎn)云特征進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通路,所述第一通路為從所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原多視角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加;所述第二通路是從所述點(diǎn)云Transformer模型獲得的特征,也在中間對(duì)應(yīng)尺度的位置將原點(diǎn)云Transformer模型的輸出和中間結(jié)果進(jìn)行疊加。與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行如權(quán)利要求1-6中任意一項(xiàng)所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法。9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有程序,其特征在于,所述程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法。4技術(shù)領(lǐng)域[0001]本發(fā)明涉及計(jì)算機(jī)視覺(jué)3D點(diǎn)云數(shù)據(jù)的分類(lèi)的技術(shù)領(lǐng)域,具體涉及一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置。背景技術(shù)[0002]3D點(diǎn)云數(shù)據(jù)分類(lèi)任務(wù)是點(diǎn)云數(shù)據(jù)處理的重要任務(wù)之一。隨著3D點(diǎn)云數(shù)據(jù)獲取渠道越來(lái)越多,對(duì)于3D點(diǎn)云數(shù)據(jù)的處理也逐漸熱門(mén)。由于3D點(diǎn)云數(shù)據(jù)的無(wú)序性、噪聲干擾以及遮擋關(guān)系,使得處理這類(lèi)數(shù)據(jù)有很大的挑戰(zhàn)。在之前提出的3D點(diǎn)云數(shù)據(jù)分類(lèi)模型中,主要有三種方式:基于多視角、基于體素、基于點(diǎn)的方法。基于多視角的方法主要是通過(guò)多個(gè)視角的圖像分別進(jìn)行卷積提取特征來(lái)進(jìn)行分類(lèi)?;隗w素的方法主要是用體積表示。但是體積數(shù)據(jù)可能增長(zhǎng)很快,規(guī)模很大,處理時(shí)間很長(zhǎng)?;邳c(diǎn)的方法又可以分為逐點(diǎn)的全連接網(wǎng)絡(luò)、在自然語(yǔ)言處理取得了很好的效果。由于其關(guān)注了全局的信息,并且對(duì)輸入順序不敏感,因此用于處理點(diǎn)云數(shù)據(jù)有優(yōu)勢(shì)。[0003]現(xiàn)有技術(shù)中,ICCV2015的論文for3DShapeRecognition》提出了多視角的卷積神經(jīng)網(wǎng)絡(luò),用于對(duì)3D點(diǎn)云數(shù)據(jù)進(jìn)行分類(lèi)。該模型將點(diǎn)云數(shù)據(jù)通過(guò)多個(gè)角度的投影得到多視角的2D圖像,然后卷積神經(jīng)網(wǎng)絡(luò)提取特征。再經(jīng)過(guò)將多個(gè)視圖的每個(gè)元素的最大值保留作為view-pooling的輸出。最后通過(guò)另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)。另一篇出自(ComputationalVisualMedia)的論文《PCT:PointCloudTransformer》則提出了直接處理3D點(diǎn)云數(shù)據(jù)的方法。論文使用Transformer模型對(duì)3D點(diǎn)云數(shù)據(jù)直接處理。由于Transformer的核心部分為自注意力機(jī)制,其對(duì)輸入序列順序不敏感,即無(wú)論以何種順序輸入,都能提取到有效信息。因此用于處理3D點(diǎn)云這種無(wú)序數(shù)據(jù)有很大的幫助。通過(guò)注意力機(jī)制的編碼后,得到點(diǎn)云數(shù)據(jù)的隱空間表示。然后對(duì)這個(gè)隱空間的表示進(jìn)行解碼即可進(jìn)行不同的任務(wù),如點(diǎn)云分類(lèi)、點(diǎn)云分割等。[0004]但是,使用多視角卷積的方法由于使用了某個(gè)視角的特征的最大值進(jìn)行保留,會(huì)造成一定的信息損失問(wèn)題。對(duì)于一些其他未保留的視角的信息就難以兼顧。同時(shí),卷積操作依賴(lài)于卷積核所提供的感受野,難以對(duì)全局的特征進(jìn)行提取。而使用點(diǎn)云transformer的方法能夠較好的關(guān)注全局關(guān)聯(lián),但是transformer對(duì)于底層信息的建模能力并不如傳統(tǒng)的CNN合理地組合各個(gè)要素形成一個(gè)物體。發(fā)明內(nèi)容[0005]本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法及裝置,本發(fā)明通過(guò)點(diǎn)云數(shù)據(jù)和點(diǎn)云渲染生成的灰度圖像數(shù)據(jù)提取多模態(tài)的特征,并且利用不同模態(tài)的特征進(jìn)行融合,實(shí)現(xiàn)互補(bǔ)以達(dá)到更好的點(diǎn)云分類(lèi)任務(wù)效5[0006]為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:[0007]本發(fā)明一方面提供了一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,包括下述步[0008]利用預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提??;[0009]利用預(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提?。籟0010]將圖像特征和點(diǎn)云特征利用特征融合模塊進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通路,所述第一通路為從所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原多視角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加;所述第二通路是從所述點(diǎn)云Transformer模型獲得的特征,也在中間對(duì)應(yīng)尺度的位置將原點(diǎn)云Transformer模型的輸出和中間結(jié)果進(jìn)行疊加。[0011]作為優(yōu)選的技術(shù)方案,在進(jìn)行圖像特征提取時(shí),給定輸入的K個(gè)不同位置的投影來(lái)模擬K個(gè)位置的照相機(jī)視角得到的圖像利用共享權(quán)重的VGGNet分別提取K個(gè)視角圖像的特征圖,這個(gè)特征圖通過(guò)視角池化操作,將每個(gè)位置的所有視角結(jié)果的最大值保留,得到基于圖像輸入的特征。[0012]作為優(yōu)選的技術(shù)方案,所述K選取為12,12個(gè)視角每個(gè)之間間隔30°,并從平面上方[0013]作為優(yōu)選的技術(shù)方案,所述圖像特征通過(guò)三個(gè)全連接層,將提取的特征圖的維度降低到設(shè)定維度,這最后的三個(gè)全連接層的輸出分別作為多模態(tài)特征融合模塊多視角卷積輸入的通路的對(duì)應(yīng)尺寸的輸入。[0014]作為優(yōu)選的技術(shù)方案,在進(jìn)行點(diǎn)云特征提取時(shí),具體步驟如下:[0015]首先,將點(diǎn)云數(shù)據(jù)輸入進(jìn)入一個(gè)編碼器,所述編碼器由四層注意力機(jī)制組成;[0016]然后,將四層注意力操作的結(jié)果進(jìn)行拼接,再經(jīng)過(guò)線性變換、批歸一化、非線性激活以及Dropout層獲得點(diǎn)的特征;[0017]最后,通過(guò)最大值池化和平均值池化后進(jìn)行拼接得到n*1的全局特征向量,所述全局特征向量會(huì)作為特征融合模塊的第二個(gè)輸入。[0018]作為優(yōu)選的技術(shù)方案,所述全局特征向量會(huì)按照原模型的后續(xù)操作,經(jīng)過(guò)全連接層從n*1的向量變?yōu)閚/2*1的向量然后是n/4*1的向量最后轉(zhuǎn)化為設(shè)定維度的向量,這后續(xù)的三個(gè)全連接層也會(huì)分別輸入給特征融合模塊的點(diǎn)云Transformer輸入通路的對(duì)應(yīng)尺度的位置。[0019]作為優(yōu)選的技術(shù)方案,進(jìn)行多模態(tài)特征融合的具體步驟為:[0020]將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的特征圖通過(guò)第一編碼器降維后形成n*1維度的第一向量,將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的點(diǎn)云特征作為n*1維度的第二向量,將所述第一向量和第二向量拼接為2n*1維度第三向量;[0021]所述第三向量經(jīng)過(guò)第一解碼器得到4n*1維度的第四向量和n/2*1維度的第五向量,所述第四向量作為第一通路的輸入,所述第五向量作為第二通路的輸入;在第一通路中,將第四向量與所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)應(yīng)尺度的第一全連接層的輸出進(jìn)行第一次疊加,然后經(jīng)過(guò)第二編碼器變?yōu)閚/2*1維度的向量;在第二通路中,將n/2*1維度的第五向量與點(diǎn)云Transformer模型對(duì)應(yīng)尺度的第一全連接層的輸出進(jìn)行第一次疊加;6[0022]將兩個(gè)通路第一次疊加后的向量進(jìn)行拼接形成n*1維度的第六向量,所述第六向量經(jīng)過(guò)第二解碼器解碼成4n*1維度的第七向量和n/4*1維度的第八向量;在第一通道中,將第七向量與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第二全連接層輸出的向量進(jìn)行疊加,疊加后得到的向量經(jīng)過(guò)第三編碼器得到n/4*1維度的第九向量;在第二通路中,將第八向量與點(diǎn)云Transformer模型相同維度的第二全連接層的輸出進(jìn)行疊加就,得到n/4*1維度的第十向[0023]將第九向量和第十向量拼接形成n/2*1維度的第十一向量,所述第十一向量經(jīng)過(guò)第三解碼器形成兩個(gè)設(shè)定維度的向量;將兩個(gè)設(shè)定維度的向量分別與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第三全連接層和點(diǎn)云Transformer模型的第三全連接層的輸出進(jìn)行拼接,然后統(tǒng)一經(jīng)過(guò)一個(gè)全連接層得到設(shè)定維度的向量;[0024]將多視角卷積神經(jīng)網(wǎng)絡(luò)模型最后的設(shè)定維度的向量與點(diǎn)云Transformer模型最后的設(shè)定維度的向量以及上段獲得的設(shè)定維度的向量進(jìn)行分類(lèi)任務(wù)。[0025]本發(fā)明另一方面提供了一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置,應(yīng)用于所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法,包括圖像特征提取模塊、點(diǎn)云特征提取模塊、多模態(tài)特征融合模塊;[0026]所述圖像特征提取模塊,用于通過(guò)預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提取;[0027]所述點(diǎn)云特征提取模塊,用于通過(guò)預(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提取;[0028]所述多模態(tài)特征融合模塊,用于將圖像特征和點(diǎn)云特征進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通路,所述第一通路為從所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原多視角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加;所述第二通路是從所述點(diǎn)云Transformer模型獲得的特征,也在中間對(duì)應(yīng)尺度的位置將原點(diǎn)云Transformer模型的輸出和中間結(jié)果進(jìn)行疊加。[0029]本發(fā)明又一方面提供了一種電子設(shè)備,所述電子設(shè)備包括:[0032]所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法。[0033]本發(fā)明再一方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有程序,所述程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法。[0034]本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:[0035]本發(fā)明使用特征融合的思想對(duì)現(xiàn)有模型實(shí)現(xiàn)進(jìn)行融合,將不同的模型提取到的信息進(jìn)行結(jié)合。通過(guò)設(shè)計(jì)的多模態(tài)特征融合模塊將兩個(gè)模型的優(yōu)點(diǎn)缺點(diǎn)進(jìn)行互補(bǔ):多視角卷積模型較多關(guān)注底層信息,點(diǎn)云Transformer模型較多關(guān)注高層語(yǔ)義信息,對(duì)最終的分類(lèi)效果有提升。[0036]本發(fā)明克服了現(xiàn)有技術(shù)各自的缺點(diǎn),提高了3D點(diǎn)云數(shù)據(jù)分類(lèi)的效果。通過(guò)多模態(tài)7特征融合的方式將兩個(gè)模型提取到的特征進(jìn)行結(jié)合,從而將不同層次的特征都考慮,促進(jìn)分類(lèi)效果。附圖說(shuō)明[0037]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0038]圖1為本發(fā)明實(shí)施例基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法的流程圖;[0039]圖2是本發(fā)明實(shí)施例提供的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)系統(tǒng)的結(jié)構(gòu)示意[0040]圖3是本發(fā)明實(shí)施例電子設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式[0041]為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)中的實(shí)施例能理解為對(duì)本專(zhuān)利的限制。顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。[0042]在本申請(qǐng)中提及“實(shí)施例”意味著,結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性可以包含在本申請(qǐng)的至少一個(gè)實(shí)施例中。在說(shuō)明書(shū)中的各個(gè)位置出現(xiàn)該短語(yǔ)并不一定均是指相同的實(shí)施例,也不是與其它實(shí)施例互斥的獨(dú)立的或備選的實(shí)施例。本領(lǐng)域技術(shù)人員顯式地和隱式地理解的是,本申請(qǐng)所描述的實(shí)施例可以與其它實(shí)施例相結(jié)合。[0043]與二維圖像相比,三維形狀通常具有更復(fù)雜的結(jié)構(gòu)信息,這使得單一的模態(tài)難以完整地描述三維形狀,雖然不同的模態(tài)有不同的表征,但它們的特征應(yīng)該具有很強(qiáng)的相關(guān)性。本發(fā)明使用不同模態(tài)的特征融合,但是不同模態(tài)的特征之間維度差別很多,使用encoder將高緯度信息降維,融合之后再用deconder將維度還原,減少特征的信息減少。[0044]多視角卷積神經(jīng)網(wǎng)絡(luò)模型MVCNN使用多視圖CNN以端到端方式融合多個(gè)2D特征投影生成的特征。首先將三維形狀投影到多個(gè)視圖中,將多個(gè)視圖放在基礎(chǔ)的2D圖像CNN之中,同一個(gè)3D形狀的每一張視角圖像各自獨(dú)立地經(jīng)過(guò)第一段的CNN1卷積網(wǎng)絡(luò),在一個(gè)叫做分支,共享相同的CNN1里的參數(shù),在View-pooling層中,逐元素取最大值操作。最后使用Softmax進(jìn)行分類(lèi)。[0045]PCT主要是通過(guò)使用transformer固有的順序不變性來(lái)避免定義點(diǎn)云數(shù)據(jù)的順序和通過(guò)attention機(jī)制來(lái)進(jìn)行特征學(xué)習(xí)。首先,self-attention將輸入詞嵌入和位置編碼的總和作為輸入,通過(guò)訓(xùn)練有素的線性層為每個(gè)單詞計(jì)算三個(gè)向量:query,key和value。然后,可以通過(guò)匹配(點(diǎn)積)查詢(xún)和key向量來(lái)獲取任意兩個(gè)word之間的attention權(quán)重。最后,attentionfeature定義為所有value向量與attention權(quán)重的加權(quán)和,得到attentionfeature之后使用卷積層以及softmax進(jìn)行分類(lèi).8[0046]請(qǐng)參閱圖1,為本發(fā)明實(shí)施例提供的一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法[0048]該步驟中,利用預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提取,具體的,給定輸入的12個(gè)不同位置的投影來(lái)模擬12個(gè)位置的照相機(jī)視角得到的圖像(12個(gè)視角每個(gè)之間間隔30°,并從平面上方30°向下指向網(wǎng)格質(zhì)心)利用共享權(quán)重的VGGNet分別提取12個(gè)視角圖像的特征,這個(gè)特征圖通過(guò)ViewPooling(視角池化)操作,將每個(gè)位置的所有視角結(jié)果的最大值保留,得到基于圖像輸入的特征F?;對(duì)于這個(gè)特征圖,會(huì)作為多模態(tài)特征融合模塊的第一個(gè)輸入。與此同時(shí),這個(gè)特征通過(guò)三個(gè)全連接層,將維度從25088*1變?yōu)?096*1、4096*1最后40*1。這最后的三個(gè)全連接層的輸出會(huì)分別作為多模態(tài)特征融合模塊多視角卷積神經(jīng)網(wǎng)絡(luò)模型輸入的通路的對(duì)應(yīng)尺寸的輸入。[0050]利用預(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提??;具體的,包括下述步驟:[0051]S21、將點(diǎn)云數(shù)據(jù)輸入進(jìn)入一個(gè)編碼器,其由四層注意力機(jī)制組成;由于注意力操作是兩兩之間進(jìn)行注意力打分操作,因此能忽略順序來(lái)進(jìn)行學(xué)習(xí)。[0052]S22、將四層注意力操作的結(jié)果進(jìn)行拼接,再經(jīng)過(guò)線性變換(Linear)、批歸一化(BatchNorm)、非線性激活(ReLU)[0053]S33、通過(guò)最大值池化和平均值池化后進(jìn)行拼接得到1024*1的全局特征向量F?。同樣,這個(gè)向量會(huì)作為特征融合模塊的第二個(gè)輸入。與此同時(shí),這個(gè)向量也會(huì)按照原模型的后續(xù)操作,經(jīng)過(guò)全連接層從1024*1的向量變?yōu)?12*1的向量然后是256*1的向量最后轉(zhuǎn)化為40*1的向量。這后續(xù)的三個(gè)全連接層也會(huì)分別輸入給特征融合模塊的點(diǎn)云Transformer模塊輸入通路的對(duì)應(yīng)尺度的位置。[0055]本步驟中,是將上述的兩個(gè)提取的特征進(jìn)行多模態(tài)特征融合,共同促進(jìn)最終分類(lèi)的效果。請(qǐng)?jiān)俅螀㈤唸D1,整體框架為兩個(gè)通路,第一通路(多視角卷積神經(jīng)網(wǎng)絡(luò)模型輸入的通路)為從上述多視角卷積模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原來(lái)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加。第二通路(點(diǎn)云Transformer模型輸入的通路)是從上述的點(diǎn)云Transformer模型獲得的特征。也在中間對(duì)應(yīng)尺度的位置將原模型的輸出和中間結(jié)果進(jìn)行疊加。[0057]S31、將上述的多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取到的特征圖(維度512*7*7)通過(guò)一個(gè)編碼器1形成1024*1的第一向量。本實(shí)施例中,解碼器的構(gòu)造和編碼器一樣都是多層全連接層,通過(guò)數(shù)據(jù)驅(qū)動(dòng)自行學(xué)習(xí)參數(shù)。這里降維的目的是因?yàn)槎嘁暯蔷矸e模型獲得的特征維度較高,而且兩個(gè)不同模態(tài)的特征維度差別較大,需要通過(guò)編碼器進(jìn)行降維。對(duì)于通過(guò)點(diǎn)云Transformer得到的特征也為一個(gè)1024*1的第二向量。[0058]進(jìn)一步的,將這兩個(gè)通路獲得的第一向量和第二向量拼接為一個(gè)2048*1的第三向量。所述第三向量經(jīng)過(guò)解碼器1得到4096*1維度的第四向量(多視角卷積神經(jīng)網(wǎng)絡(luò)模型輸入的通路部分)以及512*1維度的第五向量(點(diǎn)云Transformer模型輸入的通路部分)。9[0059]先看多視角卷積輸入通路,這里將多視角卷積輸入通路的向量維度升高的原因是為了減少信息的損失,同時(shí)也保證維度的一致。得到了4096*1的第四向量之后,將上述多視角卷積神經(jīng)網(wǎng)絡(luò)模型的對(duì)應(yīng)尺度的第一全連接層的輸出與這個(gè)向量進(jìn)行第一次疊加;然后經(jīng)過(guò)編碼器2將維度變?yōu)?12*1的向量。對(duì)于點(diǎn)云Transformer輸入通路的512*1的第五向量,也將點(diǎn)云Transformer模型的對(duì)應(yīng)尺度的第一全連接層的輸出與這個(gè)第五向量進(jìn)行第一次疊加。[0060]S32、接下來(lái)與第一次兩個(gè)通路的向量拼接一樣,這里也將兩個(gè)512*1的向量進(jìn)行拼接,形成1024*1的第六向量。所述第六向量再經(jīng)過(guò)一個(gè)解碼器2形成一個(gè)4096*1維度的第七向量(多視角卷積輸入的通路部分)以及一個(gè)256*1維度的第八向量(點(diǎn)云Transformer輸入的通路部分)。多視角卷積輸入通路部分仍然是將這個(gè)第七向量和對(duì)應(yīng)維度的多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第二全連接層輸出向量疊加,經(jīng)過(guò)編碼器3得到256*1的第九向量。點(diǎn)云Transformer輸入通路也將點(diǎn)云Transformer模型相同維度的第二全連接層的輸出進(jìn)行疊[0061]S33、將兩個(gè)通路的256*1向量拼接形成512*1的第十一向量經(jīng)過(guò)解碼器3形成兩個(gè)40*1的向量(分別給兩個(gè)通路)。兩個(gè)通路的向量分別與各自原模型對(duì)應(yīng)尺度的全連接層的輸出向量進(jìn)行拼接,然后統(tǒng)一經(jīng)過(guò)一個(gè)全連接層得到40*1的向量。[0062]S44、將模型一最后的40*1的向量與模型二最后的40*1的向量以及上段獲得的40*1的向量進(jìn)行分類(lèi)任務(wù)。整體的流程如圖2所示。通過(guò)特征融合的方式,將兩個(gè)原來(lái)模型的優(yōu)缺點(diǎn)進(jìn)行互補(bǔ),從而能提高分類(lèi)的準(zhǔn)確率。[0063]在本發(fā)明的另一個(gè)實(shí)施例中將對(duì)一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置進(jìn)行介紹,相關(guān)內(nèi)容請(qǐng)參見(jiàn)上述方法實(shí)施例。[0064]參見(jiàn)圖2,為本實(shí)施例提供的一種基于持續(xù)學(xué)習(xí)的圖像分類(lèi)裝置的結(jié)構(gòu)示意圖,該[0065]所述圖像特征提取模塊,用于通過(guò)預(yù)先設(shè)立的多視角卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像特征提取;[0066]所述點(diǎn)云特征提取模塊,用于通過(guò)預(yù)先設(shè)立的點(diǎn)云Transformer模型對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行點(diǎn)云特征提取;[0067]所述多模態(tài)特征融合模塊,用于將圖像特征和點(diǎn)云特征進(jìn)行多模態(tài)特征融合,根據(jù)融合后的特征得到點(diǎn)云數(shù)據(jù)分類(lèi)結(jié)果;所述特征融合模塊包括第一通路和第二通路,所述第一通路為從所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型獲得的特征圖進(jìn)行輸入,并在中間使用對(duì)應(yīng)尺寸將原多視角卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)和特征融合模塊的中間結(jié)果進(jìn)行疊加;所述第二通路是從所述點(diǎn)云Transformer模型獲得的特征,也在中間對(duì)應(yīng)尺度的位置將原點(diǎn)云Transformer模型的輸出和中間結(jié)果進(jìn)行疊加。[0068]在本實(shí)例的第一種可能的實(shí)現(xiàn)方式中,所述圖像特征提取模塊在提取特征時(shí):[0069]給定輸入的K個(gè)不同位置的投影來(lái)模擬K個(gè)位置的照相機(jī)視角得到的圖像利用共享權(quán)重的VGGNet分別提取K個(gè)視角圖像的特征圖,這個(gè)特征圖通過(guò)視角池化操作,將每個(gè)位置的所有視角結(jié)果的最大值保留,得到基于圖像輸入的特征。[0070]更進(jìn)一步的,所述圖像特征通過(guò)三個(gè)全連接層,將維度從25088*1變?yōu)?096*1、4096*1最后40*1,這最后的三個(gè)全連接層的輸出分別作為多模態(tài)特征融合模塊多視角卷積輸入的通路的對(duì)應(yīng)尺寸的輸入。[0071]在本實(shí)例的第二種可能的實(shí)現(xiàn)方式中,所述在進(jìn)行點(diǎn)云特征提取模型在進(jìn)行點(diǎn)云特征提取時(shí):[0073]然后,將四層注意力操作的結(jié)果進(jìn)行拼接,再經(jīng)過(guò)線性變換、批歸一化、非線性激活以及Dropout層獲得點(diǎn)的特征;[0074]最后,通過(guò)最大值池化和平均值池化后進(jìn)行拼接得到1024*1的全局特征向量,所述全局特征向量會(huì)作為特征融合模塊的第二個(gè)輸入。[0075]更進(jìn)一步的,所述全局特征向量會(huì)按照原模型的后續(xù)操作,經(jīng)過(guò)全連接層從1024*1的向量變?yōu)?12*1的向量然后是256*1的向量最后轉(zhuǎn)化為40*1的向量,這后續(xù)的三個(gè)全連接層也會(huì)分別輸入給特征融合模塊的點(diǎn)云Transformer輸入通路的對(duì)應(yīng)尺度的位置。[0076]在本實(shí)例的第三種可能的實(shí)現(xiàn)方式中,所述多模態(tài)特征融合進(jìn)行多模態(tài)特征融合的具體步驟為:[0077]將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的特征圖通過(guò)第一編碼器降維后形成1024*1維度的第一向量,將所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型提取的點(diǎn)云特征作為1024*1維度的第二向量,將所述第一向量和第二向量拼接為2048*1維度第三向量;[0078]所述第三向量經(jīng)過(guò)第一解碼器得到4096*1維度的第四向量和512*1維度的第五向量,所述第四向量作為第一通路的輸入,所述第五向量作為第二通路的輸入;在第一通路中,將第四向量與所述多視角卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)應(yīng)尺度全連接層的輸出進(jìn)行第一次疊加,然后經(jīng)過(guò)第二編碼器變?yōu)?12*1維度的向量;在第二通路中,將512*1維度的第五向量與點(diǎn)云Transformer模型對(duì)應(yīng)尺度的全連接層的輸出進(jìn)行第一次疊加;[0079]將兩個(gè)通路第一次疊加后的向量進(jìn)行拼接形成1024*1維度的第六向量,所述第六向量經(jīng)過(guò)第二解碼器解碼成4096*1維度的第七向量和256*1維度的第八向量;在第一通道中,將第七向量與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第二全連接層輸出的向量進(jìn)行疊加,疊加后得到的向量經(jīng)過(guò)第三編碼器得到256*1維度的第九向量;在第二通路中,將第八向量與點(diǎn)云Transformer模型相同維度的第二全連接層的輸出進(jìn)行疊加就,得到256*1維度的第十向[0080]將第九向量和第十向量拼接形成512*1維度的第十一向量,所述第十一向量經(jīng)過(guò)第三解碼器形成兩個(gè)40*1維度的向量;將兩個(gè)40*1維度的向量分別與多視角卷積神經(jīng)網(wǎng)絡(luò)模型的第三全連接層和點(diǎn)云Transformer模型的第三全連接層的輸出進(jìn)行拼接,然后統(tǒng)一經(jīng)過(guò)一個(gè)全連接層得到40*1維度的向量;[0081]將多視角卷積神經(jīng)網(wǎng)絡(luò)模型最后的40*1維度的向量與點(diǎn)云Transformer模型最后的40*1維度的向量以及上段獲得的40*1維度的向量進(jìn)行分類(lèi)任務(wù)。[0082]需要說(shuō)明的是,本發(fā)明的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置與本發(fā)明的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法一一對(duì)應(yīng),在上述基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法的實(shí)施例闡述的技術(shù)特征及其有益效果均適用于基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置的實(shí)施例中,具體內(nèi)容可參見(jiàn)本發(fā)明方法實(shí)施例中[0083]此外,上述實(shí)施例的基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)裝置的實(shí)施方式中,各程序模塊的邏輯劃分僅是舉例說(shuō)明,實(shí)際應(yīng)用中可以根據(jù)需要,例如出于相應(yīng)硬件的配置要11求或者軟件的實(shí)現(xiàn)的便利考慮,將上述功能分配由不同的程序模塊完成,即將所述基于持續(xù)學(xué)習(xí)的圖像分類(lèi)裝置的內(nèi)部結(jié)構(gòu)劃分成不同的程序模塊,以完成以上描述的全部或者部分功能。[0084]如圖3所示,在一個(gè)實(shí)施例中,提供了一種基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)方法的電子設(shè)備,所述電子設(shè)備300可以包括第一處理器301、第一存儲(chǔ)器302和總線,還可以包括存儲(chǔ)在所述第一存儲(chǔ)器302中并可在所述第一處理器301上運(yùn)行的計(jì)算機(jī)程序,如基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)程序303。[0085]其中,所述第一存儲(chǔ)器302至少包括一種類(lèi)型的可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)盤(pán)等。所述第一存儲(chǔ)器302在一些實(shí)施例中可以是電子設(shè)備300的內(nèi)部存儲(chǔ)單元,例如該電子設(shè)備300的移動(dòng)硬盤(pán)。所述第一存儲(chǔ)器302在另一些實(shí)施例中也可以是電子設(shè)備300的外部存儲(chǔ)設(shè)備,例如電子設(shè)備300上配備的插接式移動(dòng)硬盤(pán)、智能存儲(chǔ)卡(SmartMediaCard,器302還可以既包括電子設(shè)備300的內(nèi)部存儲(chǔ)單元也包括外部存儲(chǔ)設(shè)備。所述第一存儲(chǔ)器302不僅可以用于存儲(chǔ)安裝于電子設(shè)備300的應(yīng)用軟件及各類(lèi)數(shù)據(jù),例如基于多模態(tài)特征融合點(diǎn)云數(shù)據(jù)分類(lèi)程序303的代碼等,還可以用于暫時(shí)地存儲(chǔ)已經(jīng)輸出或者將要輸出的數(shù)據(jù)。[0086]所述第一處理器301在一些實(shí)施例中可以由集成電路組成,例如可以由單個(gè)封裝的集成電路所組成,也可以是由多個(gè)相同功能或不同功能封裝的集成電路

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論