版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN114693952B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(43)申請(qǐng)公布日2022.07.01(73)專利權(quán)人安徽理工大學(xué)地址232001安徽省淮南市山南新區(qū)泰豐大街168號(hào)段秀真王晶晶(54)發(fā)明名稱一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法本發(fā)明提供一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,屬于圖像顯著性檢測(cè)技術(shù),所述方法利用SwinTransformer提取包含全局上下文信息的RGB和Depth特征,用于給出場(chǎng)景的顯著性目標(biāo)推理。本發(fā)明主要通過探索RGB和Depth模態(tài)之間的差異性分析顯著性在這兩個(gè)模態(tài)的聯(lián)系和區(qū)別,并設(shè)計(jì)一個(gè)差異性融合網(wǎng)絡(luò)融合跨模態(tài)特征用于捕獲完整的顯著目標(biāo)。本發(fā)明包括以下幾個(gè)步驟:(1)采用SwinTransformer提取跨模態(tài)特征;(2)使用雙向融合方式融合RGB和Depth特征生成(4)利用該差異性融合跨模態(tài)特征;(5)使用目級(jí)聯(lián)聚合解碼器對(duì)融合的跨模態(tài)特征進(jìn)行顯著性的推理和解碼,生成預(yù)測(cè)的顯著性圖。21.一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,其特征在于,該方法包含以下步驟:1)利用深度學(xué)習(xí)中的SwinTransformer網(wǎng)絡(luò)作為RGB和Depth編碼器用于提取RGB和Depth圖像的層次化視覺特征,其中,SwinTransformer編碼器由四個(gè)基本的SwinS=MLP(LN(W(LN(F?))+F?))+W(LN(F?))+F公式(1)ST=MLP(LN(W(LN(S))+S))+W(LN(S))+S,公式(2)2)跨模態(tài)雙向融合模塊用于初步融合跨模態(tài)的特征,為下一階段的三流差異性監(jiān)督機(jī)制做好準(zhǔn)備;3)構(gòu)建三流差異性監(jiān)督機(jī)制用于實(shí)現(xiàn)多模態(tài)之間的差異性融合,表示為三個(gè)分支,分3.1)構(gòu)建三流差異性監(jiān)督機(jī)制中的RGB分支,并采用級(jí)聯(lián)聚合解碼器預(yù)測(cè)顯著性圖;在RGB特征輸入到CAD之前,利用ASPP技術(shù)強(qiáng)化RGB特征的感受野,增強(qiáng)RGB特征的全局信息,并使用顯著目標(biāo)分割圖Sc進(jìn)行監(jiān)督學(xué)習(xí),RGB分支的操作描述如下所示:3.2)采用級(jí)聯(lián)聚合解碼器預(yù)測(cè)顯著性圖,在Depth特征輸入到級(jí)聯(lián)聚合解碼器之前,利用ASPP技術(shù)強(qiáng)化Depth特征的感受野,增強(qiáng)Depth特征的全局信息,并使用顯著目標(biāo)分割圖Sc-進(jìn)行監(jiān)督學(xué)習(xí),Depth分支的操作描述如下所示:3.3)基于步驟2.2所生成的跨模態(tài)融合特征,使用獲取到的四個(gè)融合特征,構(gòu)建Fusion分支,并使用顯著目標(biāo)邊緣分割圖像進(jìn)行監(jiān)督學(xué)習(xí),利用級(jí)聯(lián)聚合解碼器整合四個(gè)尺度特征,預(yù)測(cè)顯著目標(biāo)邊緣圖,F(xiàn)usion分支定義如下:4)探索三流差異性監(jiān)督機(jī)制去生成RGB顯著性預(yù)測(cè)圖,和Depth顯著性預(yù)測(cè)圖和預(yù)測(cè)的顯著目標(biāo)分割圖,并設(shè)計(jì)一個(gè)差異性監(jiān)督模塊,利用5)將得到的級(jí)聯(lián)聚合解碼器的第二層特征和第一層特征進(jìn)行聚合,在利用sigmoid激32.基于權(quán)利要求1所述一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,2.1)首先,使用一個(gè)3×3卷積操作用于增強(qiáng)感受野信公式(6)公式(7)3.基于權(quán)利要求1所述一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,公式(8)4.3)設(shè)計(jì)一個(gè)級(jí)聯(lián)聚合解碼器結(jié)構(gòu)用于顯著性目標(biāo)的推理,并4.4)使用級(jí)聯(lián)聚合解碼器采用自頂向下方式逐級(jí)聚合多尺度特征,并通過空間注意機(jī)F?=UP(F?+F?×SA(F?)4方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及計(jì)算機(jī)視覺和圖像處理領(lǐng)域,特別地涉及一種基于多模態(tài)差異性融合背景技術(shù)[0002]隨著信息技術(shù)的發(fā)展和進(jìn)步,以及日常生活中的多媒體數(shù)據(jù)量(圖片、文本、音頻、視頻等)的爆炸式增長(zhǎng),促進(jìn)了圖像處理技術(shù)的蓬勃發(fā)展。顯著性目標(biāo)檢測(cè)技術(shù)作為圖像處理領(lǐng)域的一個(gè)非常重要的技術(shù),主要分析圖像中的最引人注意的目標(biāo)或者區(qū)域,并自動(dòng)將顯著目標(biāo)從背景中分離。作為最基礎(chǔ)的密度預(yù)測(cè)任務(wù)之一,其被廣泛應(yīng)用在許多其他的下顯著性目標(biāo)檢測(cè)也被廣泛應(yīng)用在許多社交媒體的分析和采集過程中,例如手機(jī)拍照技術(shù)中[0003]早期的顯著性目標(biāo)檢測(cè)方法大多是針對(duì)RGB圖像,并且能夠取得令人滿意的結(jié)果。通常,現(xiàn)實(shí)的RGB場(chǎng)景更多是包含一些具有挑戰(zhàn)性的場(chǎng)景,比如低對(duì)比度,多目標(biāo),透明物體,復(fù)雜背景等,面對(duì)這些挑戰(zhàn)性場(chǎng)景,基于RGB顯著性目標(biāo)檢測(cè)很難準(zhǔn)確有效地檢測(cè)出顯著目標(biāo)并完整地分割出來。面對(duì)這一問題,深度圖像(Depthmap)被使用到顯著性檢測(cè)領(lǐng)域。通過利用Depthmap中的空間信息和3D布局等信息去提供補(bǔ)充線索,從而幫助顯著性目標(biāo)檢測(cè)方法有效地處理這些挑戰(zhàn)性場(chǎng)景,這種技術(shù)被稱為RGB-D顯著性目標(biāo)檢測(cè)。[0004]隨著深度采集設(shè)備(比如MicrosoftKinect,HuaweiMate30,iPhoneXR等)的普及,深度信息能夠使用較低的代價(jià)獲取。這種現(xiàn)象也加速了RGB-D顯著性檢測(cè)的蓬勃發(fā)展。目前,大多數(shù)的RGB-D顯著性目標(biāo)檢測(cè)方法通過整合RGB特征和Depth特征獲取增益信息去提升顯著性檢測(cè)的性能。但是,這些方法大多是利用無差別地融合方式去整合RGB特征和Depth特征,這種做法將RGB信息和Depth信息視為同等地位。但是,人類視覺機(jī)[0005]針對(duì)上述所提出的問題,本發(fā)明設(shè)計(jì)一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,利用RGB模態(tài)和Depth模態(tài)之間的差異性分析給出場(chǎng)景的顯著性目標(biāo)。利用這種模態(tài)之間的差異性分別優(yōu)化RGB流和Depth流的顯著性推理過程,最后,通過融合RGB和Depth模態(tài)之間的差異性,得出最終的顯著性結(jié)果。具體地,本發(fā)明設(shè)計(jì)一個(gè)三流的差異性監(jiān)督機(jī)制,通過RGB流,Depth流和融合流分別進(jìn)行顯著性和邊緣的推理,并通過整合這些推理結(jié)果實(shí)施跨模態(tài)的差異性融合。發(fā)明內(nèi)容[0006]針對(duì)以上提出的問題,本發(fā)明提供一種基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法,具體采用的技術(shù)方案如下:[0007]1.獲取并整理用于訓(xùn)練和測(cè)試的RGB-D數(shù)據(jù)集。5[0010]2.本發(fā)明利用深度學(xué)習(xí)中的Swi[0013]ST=MLP(LN(W(LN(S))+S))+W(LN(S))+S公式(2)基于轉(zhuǎn)換窗口自注意力機(jī)制。[0015]2.2基于步驟2.1,可以得到RGB和Depth編碼器的輸出,分別記作,RGB特征[0016]3.基于步驟2所生成的RGB和Depth特征,本發(fā)明設(shè)計(jì)一個(gè)跨模態(tài)雙向融合模塊公式(3)[0020]3.2將步驟3.1所生成的增強(qiáng)RGB特征通過連接操作進(jìn)行融公式(4)[0024]4.1基于步驟6性圖。[0027]4.2基于步驟2中的SwinTransformer所生成的Depth特征構(gòu)建三流差異特征輸入到級(jí)聯(lián)聚合解碼器之前,本發(fā)明利用ASPP技術(shù)強(qiáng)化Depth特征的感受野,增強(qiáng)[0030]4.3基于步驟3所生成的跨模態(tài)融合特征,使用獲取到的四個(gè)融合特征,[0033]5.1利用交互式方法分別約束RGB特征和Depth特征,具體而言,使用約束7[0038]公式(10)[0040]6.基于步驟4和步驟5,本發(fā)明設(shè)計(jì)一個(gè)級(jí)聯(lián)聚合解碼器結(jié)構(gòu)用于顯著性推理。并將該級(jí)聯(lián)聚合解碼器結(jié)構(gòu)嵌入三流差異性監(jiān)督機(jī)制和最后的顯著性結(jié)果預(yù)測(cè)。[0041]6.1級(jí)聯(lián)聚合解碼器采用自頂向下方式逐級(jí)聚合多尺度特征,并通過空間注意機(jī)制生成注意力掩碼圖用于增強(qiáng)下一級(jí)特征,其定義如下:[0042]F?=UP(F?)+F?×SA(F?)公[0044]6.2重復(fù)上述步驟6.1操作,可以得到最到級(jí)聯(lián)聚合解碼器的第二層特征,第一層特征,最后,利用sigmoid激活函數(shù)用于級(jí)聯(lián)聚合解碼器的對(duì)底層特征,得到最終的預(yù)測(cè)[0045]7)通過本發(fā)明預(yù)測(cè)出來的顯著圖SDre與人工標(biāo)注的顯著目標(biāo)分割圖SGT進(jìn)行損失函數(shù)的計(jì)算,并通過Adam優(yōu)化器和反向傳播算法逐步更新本發(fā)明提出的模型的參數(shù)權(quán)重,最終確定RGB-D顯著性目標(biāo)檢測(cè)算法的結(jié)構(gòu)和參數(shù)權(quán)重。[0046]8)在步驟2-6確定模型的結(jié)構(gòu)和參數(shù)權(quán)重的基礎(chǔ)上,對(duì)步驟1所涉及到的測(cè)試集上指標(biāo)進(jìn)行評(píng)估。[0047]本發(fā)明基于SwinTransformer網(wǎng)絡(luò)實(shí)施的RGB和Depth多模態(tài)顯著性目標(biāo)檢測(cè)。主要從多模態(tài)數(shù)據(jù)之間的差異性角度出發(fā),提出一種新穎的基于多模態(tài)差異性融合網(wǎng)絡(luò)的RGB-D顯著性目標(biāo)檢測(cè)方法。該方法通過分別從RGB分支,Depth分支和Fusion分支預(yù)測(cè)不同模態(tài)對(duì)于顯著性的理解和推理,并通過提出的多模態(tài)差異性融合模塊整合多模態(tài)的差異[0048](1)本發(fā)明采用SwinTransformer作為編碼器提取RGB和Depth特征,基于SwinTransformer的多模態(tài)特征能夠提取到全局上下文依賴關(guān)系。(2)本發(fā)明設(shè)計(jì)一個(gè)三流差異性監(jiān)督機(jī)制,分別用于感知RGB模態(tài)和Depth模態(tài)對(duì)于顯著性表達(dá)方面的存在的差異。(3)本發(fā)明設(shè)計(jì)一個(gè)多模態(tài)差異性融合模塊,用于融合RGB和Depth模態(tài)之間的差異性,達(dá)到相互增強(qiáng)的效果。附圖說明[0049]圖1表示本發(fā)明的總體結(jié)構(gòu)示意圖[0050]圖2表示本發(fā)明提出的雙向融合模塊示意圖[0051]圖3表示本發(fā)明提出的多模態(tài)差異性融合模塊[0052]圖4表示本發(fā)明提出的級(jí)聯(lián)聚合解碼器[0053]圖5表示本發(fā)明與其他RGB-D顯著性目標(biāo)檢測(cè)方法的結(jié)果對(duì)比圖具體實(shí)施方式[0054]下面將結(jié)合本發(fā)明實(shí)例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,此外,所敘述的實(shí)例僅僅是本發(fā)明一部分實(shí)例,而不是所有的實(shí)例?;诒景l(fā)明中8的實(shí)例,本研究方向普通技術(shù)人員在沒有付出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)例,[0059]2.本發(fā)明利用深度學(xué)習(xí)中的SwinTransformer網(wǎng)絡(luò)作為本發(fā)明的主干網(wǎng)絡(luò)用于提[0060]2.1分別構(gòu)建兩個(gè)基于SwinTransformer的編碼器提取RGB特征和Depth特征,其[0061]S=MLP(LN(W(LN(F?))+F?))+W(LN(F?))+F。[0064]2.2基于步驟2.1,可以得到RGB和Depth編碼器的輸出,分別記作,RGB特征[0065]3.基于步驟2所生成的RGB和Depth特征,本發(fā)明設(shè)計(jì)一個(gè)跨模態(tài)雙向融合模塊[0069]3.2將步驟3.1所生成的增強(qiáng)RGB特征通過連接操作進(jìn)行融9[0076]4.2基于步驟2中的SwinTransformer所生成的特征輸入到級(jí)聯(lián)聚合解碼器之前,本發(fā)明利用ASPP技術(shù)強(qiáng)化Depth特征的感受野,增強(qiáng)下所示:[0079]4.3基于步驟3所生成的跨模態(tài)融合特征,使用獲取到的四個(gè)融合特征,[0082]5.1利用交互式方法分別約束RGB特征和Depth特征,具體而言,使用約束[0087]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年度醫(yī)保政策法規(guī)考試真題試卷含答案
- 2025體外循環(huán)在成人心臟手術(shù)實(shí)踐指南課件
- 云南國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院《數(shù)控編程與加工(軍工零件)》2024-2025 學(xué)年第一學(xué)期期末試卷(制造專業(yè))
- 順德區(qū)托幼機(jī)構(gòu)保健員崗位培訓(xùn)理倫試題
- 施工單位安全方針目標(biāo)和計(jì)劃
- 車隊(duì)崗前安全業(yè)務(wù)培訓(xùn)課件
- 母嬰保健技術(shù)考試試題及答案
- 技工院校教師職業(yè)能力比賽思政類試題
- 車間食品安全培訓(xùn)知識(shí)課件
- 2026年陜西省執(zhí)業(yè)藥師繼續(xù)教育專業(yè)課考試試題及答案
- 低空智能-從感知推理邁向群體具身
- 福建國(guó)有資產(chǎn)管理公司招聘面試題及答案
- 四川省2025年高職單招職業(yè)技能綜合測(cè)試(中職類)電子信息類試卷
- 2025年熔化焊接與熱切割作業(yè)考試題庫及答案
- 賬務(wù)清理合同(標(biāo)準(zhǔn)版)
- 質(zhì)量互變課件
- 幼兒園重大事項(xiàng)社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估制度(含實(shí)操模板)
- 2026年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫附答案
- 2025至2030中國(guó)應(yīng)急行業(yè)市場(chǎng)深度分析及發(fā)展趨勢(shì)與行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 2025年中厚鋼板行業(yè)分析報(bào)告及未來發(fā)展趨勢(shì)預(yù)測(cè)
- 基于多因素分析的新生兒重癥監(jiān)護(hù)室患兒用藥系統(tǒng)風(fēng)險(xiǎn)評(píng)價(jià)模型構(gòu)建與實(shí)證研究
評(píng)論
0/150
提交評(píng)論