CN114897690B 一種基于串行高頻注意力的輕量化圖像超分辨率方法(南京大學(xué))_第1頁(yè)
CN114897690B 一種基于串行高頻注意力的輕量化圖像超分辨率方法(南京大學(xué))_第2頁(yè)
CN114897690B 一種基于串行高頻注意力的輕量化圖像超分辨率方法(南京大學(xué))_第3頁(yè)
CN114897690B 一種基于串行高頻注意力的輕量化圖像超分辨率方法(南京大學(xué))_第4頁(yè)
CN114897690B 一種基于串行高頻注意力的輕量化圖像超分辨率方法(南京大學(xué))_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利地址210023江蘇省南京市棲霞區(qū)仙林大武港山公司32112GO6N3/0464(2023一種基于串行高頻注意力的輕量化圖像超一種基于串行高頻注意力的輕量化圖像超1的權(quán)重來(lái)加強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像高頻邊緣信息的恢復(fù)。本發(fā)明方法能夠充分利用注意力機(jī)用可訓(xùn)練的拉普拉斯邊緣檢測(cè)算子大幅度增強(qiáng)般方法中重建的圖像邊緣信息模糊的問(wèn)題取得像超分辨率方法,能夠降低72%的最大顯存占否元算子測(cè)試篩選最優(yōu)元算子測(cè)試篩選最優(yōu)算子集合設(shè)計(jì)基于高頻注意力的網(wǎng)絡(luò)配對(duì)的低分辨率高分辨率圖片訓(xùn)練是21.一種基于串行高頻注意力的輕量化圖像超分辨率方法,其特征是搭建接著經(jīng)過(guò)增強(qiáng)殘差塊E(·)實(shí)現(xiàn)對(duì)邊緣圖2.根據(jù)權(quán)利要求1所述的一種基于串行高頻注意力的輕量化圖像超分辨率方法,其特31)使用3x3卷積核大小的卷積層;2)激活函數(shù)選擇LeakyReLU;3)避免使用綁定的算子;4)上采樣模塊采用亞像素卷積。3.根據(jù)權(quán)利要求2所述的一種基于串行高頻注意力的輕量化圖像超分辨率方法,其特個(gè)的算子來(lái)搭建高頻注意力模塊HFAB。4技術(shù)領(lǐng)域[0001]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖像理解,尤其是圖像超分辨率技術(shù),用于引導(dǎo)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)關(guān)注高頻特征從而增強(qiáng)重建質(zhì)量,為一種基于串行高頻注意力的輕量化圖像超分辨率方法。背景技術(shù)[0002]輕量化圖像超分辨率是指利用運(yùn)行速度快、占用顯存少的模型,將低分辨率圖像恢復(fù)成清晰的高分辨率圖像的技術(shù)。該技術(shù)不僅可以直接用于現(xiàn)實(shí)生活圖像質(zhì)量增強(qiáng),還可為小物體目標(biāo)檢測(cè)、分割、人體關(guān)鍵點(diǎn)檢測(cè)等下游任務(wù)提供有效的預(yù)處理手段。在實(shí)際應(yīng)用場(chǎng)景中,很多時(shí)候我們希望模型能夠在更快地重建圖片,比如用于診斷患者病情的核磁共振圖像超分、Microsoft365里面DesignIdeas的超分、水下巡航環(huán)境圖像超分以及目標(biāo)檢測(cè)預(yù)處理。這些實(shí)際需求使得輕量化圖像超分辨率成為了一大研究熱點(diǎn)。[0003]自深度學(xué)習(xí)誕生以來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法在圖像超分辨率領(lǐng)域取得了巨大進(jìn)展。SRCNN創(chuàng)造性地設(shè)計(jì)了三層CNN學(xué)習(xí)低分辨到高分辨的映射,相比傳統(tǒng)方法取的損失函數(shù)以及最近熱門(mén)的注意力機(jī)制,促進(jìn)了圖像超分辨率領(lǐng)域的發(fā)展。[0004]注意力機(jī)制已經(jīng)在各項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù)中被證明了有效性,它的目標(biāo)是引導(dǎo)網(wǎng)絡(luò)關(guān)注重要的信號(hào)同時(shí)降低對(duì)不重要信號(hào)的關(guān)注度。自從SENet在圖像分類任務(wù)中取得巨大成功以來(lái),圖像超分辨率的研究者們提出了多種注意力機(jī)制的變體。殘差通道注意力網(wǎng)絡(luò)RCAN(ResidualChannelAttentionNetworks)首先將通道注意力融入了殘差塊中。殘差非局部注意力網(wǎng)絡(luò)RNAN(ResidualNon-LocalAttentionNetworks)引入了局部和全局的注意力機(jī)制對(duì)中間的特征進(jìn)行尺度縮放。二階注意力網(wǎng)絡(luò)SAN(Second-orderAttentionNetwork)利用特征的二階統(tǒng)計(jì)信息設(shè)計(jì)了通道注意力機(jī)制,取得了比一階通道注意力機(jī)制更好的效果。殘差特征聚合網(wǎng)絡(luò)RFA(ResidualFeatureAggregationNetwork)提出了增強(qiáng)空間注意力機(jī)制來(lái)獲得具有更大感受野的特征圖。整體注意力網(wǎng)絡(luò)HAN(HolisticAttentionNetwork)提出了層注意力機(jī)制和通道-空間注意力機(jī)制來(lái)對(duì)不同卷積層、不同通道、不同空間的元素進(jìn)行建模。盡管這些注意力機(jī)制方法取得了極大的進(jìn)步,但是多分支結(jié)構(gòu)和不高效的算子,比如7x7卷積,在輕量化圖像超分辨任務(wù)中是次優(yōu)的。性能強(qiáng)大且效率高的注意力機(jī)制模塊有待進(jìn)一步深入研究。發(fā)明內(nèi)容[0005]本發(fā)明要解決的問(wèn)題是:目前常用的注意力機(jī)制顯存占用過(guò)大、推理速度太慢以及對(duì)高頻特征的引導(dǎo)不明顯。[0006]本發(fā)明的技術(shù)方案為:一種基于串行高頻注意力的輕量化圖像超分辨率方法,搭建基于高頻注意力的圖像超分辨率模型,低分辨率圖像經(jīng)過(guò)特征提取后,經(jīng)過(guò)高頻學(xué)習(xí),然后重建為高分辨率圖像,高頻學(xué)習(xí)模塊包括串行的ERB+HFAB結(jié)構(gòu),ERB+HFAB結(jié)構(gòu)在每個(gè)增5強(qiáng)殘差塊ERB之后連接有一個(gè)高頻注意力模塊HFAB檢測(cè)卷積、升維卷積、批歸一化層和Sigmoid層構(gòu)成,通過(guò)為每個(gè)像素學(xué)習(xí)一個(gè)0到1的權(quán)重來(lái)加強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像高頻邊緣信息的恢復(fù),首先對(duì)輸入特征圖卷積降維,然后經(jīng)過(guò)邊緣檢測(cè)卷積得到粗略的邊緣圖,接著經(jīng)過(guò)增強(qiáng)殘差塊實(shí)現(xiàn)對(duì)邊緣圖的細(xì)化,再通過(guò)升維卷積將維度變換回輸入空間,最后經(jīng)過(guò)批歸一化層BN達(dá)到Sigmoid函數(shù)的非飽和點(diǎn),送入Sigmoid函數(shù)為每個(gè)像素學(xué)習(xí)一個(gè)0到1的權(quán)重,得到注意力圖,將注意力圖和輸入特征圖逐像素相乘,實(shí)現(xiàn)特征的修正;圖像超分辨率模型訓(xùn)練時(shí)利用L1損失函數(shù)計(jì)算重建的高分辨率圖像與高清圖像正樣本的距離,并以此推導(dǎo)網(wǎng)絡(luò)各層參數(shù)的梯度,使用Adam優(yōu)化器進(jìn)行監(jiān)督訓(xùn)練。[0007]本發(fā)明在設(shè)計(jì)高頻注意力模塊時(shí),首先測(cè)試元算子的推理時(shí)間,篩選出效率最高的算子搭建注意力模塊;其次通過(guò)對(duì)顯存的分析采用串行的結(jié)構(gòu)降低顯存占用而非并行的結(jié)構(gòu);然后通過(guò)顯式引入可學(xué)習(xí)的拉普拉斯邊緣檢測(cè)算子增強(qiáng)對(duì)高頻特征的學(xué)習(xí);最后引入批歸一化層加快模塊收斂。[0008]本發(fā)明具有以下突出創(chuàng)新點(diǎn):(1)本發(fā)明發(fā)現(xiàn)3x3卷積效率更高并且能帶來(lái)更大的感受野,采用3x3卷積進(jìn)行升維降維而不是現(xiàn)有方法所用的1x1卷積;(2)本發(fā)明方法采用完全串行的結(jié)構(gòu)來(lái)降低顯存占用和提高推理速度,而不是現(xiàn)有注意力模塊所采用的并行結(jié)構(gòu);(3)本發(fā)明方法在注意力模塊中應(yīng)用了可學(xué)習(xí)的拉普拉斯邊緣檢測(cè)算子來(lái)增強(qiáng)高頻區(qū)域的特征;(4)本發(fā)明方法發(fā)現(xiàn)批歸一化層在注意力模塊中有助于網(wǎng)絡(luò)收斂,而現(xiàn)有注意力機(jī)制的注意力模塊都沒(méi)有采用批歸一化層。[0009]本發(fā)明的有益效果為:[0010]1.本發(fā)明的注意力模塊效率更高,最大顯存占用相比現(xiàn)有方法下降了72%,推理速度提升了38%,能夠很好的滿足輕量化圖像超分辨任務(wù)。[0011]2.本發(fā)明的重建質(zhì)量更高,能夠改善重建的圖像邊緣信息模糊的問(wèn)題,取得更好的重建質(zhì)量,由峰值信噪比PSNR判斷,本發(fā)明方法在Set5、Set14、B100、Urban100以及Manga109五個(gè)數(shù)據(jù)集上都取得了最高的重建質(zhì)量。附圖說(shuō)明[0012]圖1為本發(fā)明的流程圖。[0013]圖2為本發(fā)明在GTX1080Ti上對(duì)元算子推理時(shí)間的測(cè)試。[0014]圖3為本發(fā)明對(duì)串行和并行模塊的顯存分析。[0015]圖4為本發(fā)明提出的基于高頻注意力的網(wǎng)絡(luò)結(jié)構(gòu)。[0016]圖5為本發(fā)明采用的增強(qiáng)殘差塊ERB和普通殘差塊RB的對(duì)比圖。具體實(shí)施方式[0017]本發(fā)明提出了基于串行高頻注意力的輕量化圖像超分辨率方法,能夠大幅度提高重建質(zhì)量同時(shí)保障模型的推理效率。本發(fā)明方法搭建基于高頻注意力的圖像超分辨率模型,低分辨率圖像經(jīng)過(guò)特征提取后,經(jīng)過(guò)高頻學(xué)習(xí),然后重建為高分辨率圖像,本發(fā)明的核心在于構(gòu)建了一個(gè)串行高頻注意力模塊,由降維卷積、邊緣檢測(cè)卷積、升維卷積、批歸一化層和Sigmoid層構(gòu)成,通過(guò)為每個(gè)像素學(xué)習(xí)一個(gè)0到1的權(quán)重來(lái)加強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像高6頻邊緣信息的恢復(fù)。[0018]圖1展示了搭建基于高頻注意力的圖像超分辨率模選擇高效的算子對(duì)構(gòu)建輕量化圖像超分辨模型是十分必要的,能夠在相同的模型容量下,的算子得到新模型,然后通過(guò)差值求得每個(gè)算子的近似推理時(shí)間。設(shè)定輸入圖像大小為推理時(shí)間顯著優(yōu)于PReLU;[0027]M由四個(gè)部分構(gòu)成:輸入特征所占顯存Minput,輸出特征所占用顯存Moutput,未來(lái)會(huì)被訪問(wèn)而暫存特征所占用顯以及模型參數(shù)所占用的顯存Mnet,定義為:[0029]輕量化圖像超分辨率任務(wù)中,模型占用的顯存相比特征占用的顯存可以忽略不7串行結(jié)構(gòu)和RFDN所采用的融合并行拓?fù)浣Y(jié)構(gòu),如圖3所示。為了方便描述,假設(shè)特征圖在經(jīng)過(guò)3x3卷積后各維度大小不變。多個(gè)中間特征沿著通道維度拼接,1x1卷積用于拼接后將特征圖個(gè)數(shù)縮減到與輸入圖像通道數(shù)一致。因?yàn)镽eLU函數(shù)可以直接在原特征圖上進(jìn)行,意味著ReLU層的輸入輸出共享顯存,所以圖中略去了激活層。對(duì)于卷積核大小為Cn×Cout×K×K的卷積,輸入和輸出特征不能共享顯存,因?yàn)槊總€(gè)像素點(diǎn)需要被Cout×K×K次訪問(wèn)以及Winograd算法。[0030]首先考慮圖3中(a)的串行結(jié)構(gòu)。在串行結(jié)構(gòu)中,每個(gè)結(jié)點(diǎn)只與當(dāng)前的輸入輸出特征圖相關(guān),除此之外的前繼層特征圖在前向傳播后都可以不用保存,因此每個(gè)卷積結(jié)點(diǎn)的顯存占用大致為Minput+Moutput,堆疊相同的串行結(jié)構(gòu)只會(huì)增加網(wǎng)絡(luò)參數(shù)量,其帶來(lái)的顯存可[0031]再考慮圖3中(b)基于特征融合的并行結(jié)構(gòu)。與1x1卷積融合層相關(guān)的特征圖在初始計(jì)算結(jié)束后都將保存在顯存中,所以會(huì)導(dǎo)致Mkept顯著增加。以第二個(gè)3x3卷積層為例,將會(huì)有三個(gè)特征占用顯存:卷積層的輸入,卷積層的輸出以及將會(huì)用于融合的第一個(gè)卷積層的輸入,因此該結(jié)點(diǎn)的顯存占用將會(huì)是輸入特征圖占用顯存的3倍。同樣,在特征拼接層,3個(gè)特征沿著通道維度進(jìn)行拼接所占用的顯存將會(huì)是6×Minpute設(shè)有N個(gè)相同大小的特征參與融合,那么拼接結(jié)點(diǎn),設(shè)索引為i,所占用的顯存Mparale為2×N×M;iute于是融合并行結(jié)構(gòu)所占用顯存Moara?e?與簡(jiǎn)單串行結(jié)構(gòu)所占用顯存Mseria)的比值關(guān)系為:[0033]即至少是N倍的關(guān)系,上述分析在RFDN模型上已經(jīng)得到了很好的驗(yàn)證:400K串行結(jié)構(gòu)占用顯存約為30M,帶有全局融合的RFDN并行結(jié)構(gòu)占用顯存約為200M,大約為7倍的最大顯存占用。為了盡可能降低最大顯存占用,本發(fā)明在設(shè)計(jì)網(wǎng)絡(luò)block時(shí)應(yīng)首先考慮串行結(jié)構(gòu),避免在某個(gè)節(jié)點(diǎn)使用多個(gè)并行連接。[0034]步驟3:基于串行高頻注意力模塊的模型設(shè)計(jì)。經(jīng)過(guò)前2個(gè)步驟的分析后,根據(jù)所確定的算子和特征融合結(jié)構(gòu),搭建基于高頻注意力的圖像超分辨率模型,尤其是其中的高頻[0035]本發(fā)明以增強(qiáng)殘差塊ERB(enhancedresidualblock)為基礎(chǔ)構(gòu)建網(wǎng)絡(luò),如圖5所示,圖5(a)為殘差塊RB,圖5(b)顯示了增強(qiáng)殘差塊ERB。ERB和RB的重建精度相當(dāng),但ERB中的兩個(gè)跳躍連接在推理階段可以和并行的卷積合并,減少了訪存開(kāi)銷,而在RB中,跳躍連接中間是非線性操作,不能合并,ERB相比RB能夠提升10%的推理速度。本發(fā)明圖像超分辨率模型整體結(jié)構(gòu)與現(xiàn)有方法基本一致,不同的是高頻學(xué)習(xí)部分,本發(fā)明設(shè)計(jì)了串行的ERB+HFAB結(jié)構(gòu),每個(gè)ERB后都應(yīng)用了一個(gè)高頻注意力模塊HFAB來(lái)增強(qiáng)高頻信息。[0036]高頻注意力模塊HFAB的任務(wù)是為特征圖上的每個(gè)像素點(diǎn)都賦予一個(gè)0到1的權(quán)重,來(lái)代表它們?cè)谀P蛯W(xué)習(xí)過(guò)程中的重要性。HFAB所希望達(dá)到的目標(biāo)是邊緣細(xì)節(jié)像素在恢復(fù)過(guò)程中能夠被更加精細(xì)的修復(fù)。為了達(dá)到這個(gè)目標(biāo),在HFAB模塊中引入了Laplacian算子來(lái)引導(dǎo)分支對(duì)邊緣細(xì)節(jié)的關(guān)注。Laplacian算子卷積模板定義為:8緣圖Fk:[0043]接著經(jīng)過(guò)增強(qiáng)殘差塊E([0054]步驟4:模型的訓(xùn)練。每次迭代批FeatureDistillationNetwork)降低了72%的顯存占用以及提升了38%的推理速度。9元算子測(cè)試篩選最優(yōu)元算子測(cè)試篩選最優(yōu)的網(wǎng)絡(luò)辨率圖片訓(xùn)練次數(shù)是在測(cè)試集合上得到重建結(jié)果圖1時(shí)間(毫秒)(浮點(diǎn)運(yùn)算量/時(shí)間)空洞卷積存訪問(wèn)。普通3×3卷積計(jì)算密度是空洞率大于1的空洞卷積的2.5倍。groups=4groups=8現(xiàn)是Winograd算法55,組卷積涉及到內(nèi)存塊的合并;(2)對(duì)比A2-1、A3-1、A4-1可以看出3×3卷積的效率遠(yuǎn)遠(yuǎn)高于1×1和5×5卷積,底層對(duì)3×3做了特殊的并行優(yōu)化。groups=41.98groups=641.31_PReLU較慢。C2C4C5(1)逐

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論