版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
(19)國家知識產權局(12)發(fā)明專利(22)申請日2023.09.04(43)申請公布日2023.12.05地址710072陜西省西安市友誼西路務所(普通合伙)61290GO6V10/40(2022.01)GO6V10/774(2022.01)GO6V20/10(2022.01)(56)對比文件權利要求書2頁說明書7頁附圖1頁聯(lián)聯(lián)本發(fā)明公開了一種基于對比學習預訓練的遙感圖像描述生成方法,首先構建中文數據集,2獲取公開的具有英文文本描述的遙感圖像數據集,利用機器翻譯算法將其翻譯成中文步驟2-1:構建無標簽多模態(tài)、多季節(jié)遙感圖像數據集作為預訓練數據集D,包含N個樣步驟2-2:對于每個輸入樣本x,對x;應用從T中隨機采樣得到的不同的兩個圖像增強在對比表征空間中的表征向量f和fk+,其過程表示為fk+=E(k+,θk)步驟2-4:在訓練過程中,查詢編碼器采用梯度更新策其中,是一個溫度超參數,用于控制樣本對之間的相似性;樣本對之間的相似性使用將步驟2中預訓練得到的查詢編碼器和鍵編碼器的參數初始化當前模型中的視覺特征3將特征向量fg∈c×h×w展平并進行位置嵌入轉換為f?∈c×hw,應用注意力機制對展利用提取到的視覺特征,通過循環(huán)神經網絡建立圖像特征2.根據權利要求1所述的一種基于對比學習預訓練的遙感圖像描述生成方法,其特征利用Transformer解碼器將視覺特征向量f解碼為遙感圖像的自然語言描述;對于給定的目標描述序列S=[s?,S?,.…,s┐],首先對輸入的序列進行詞嵌入表示和位h'=Attention(W?WeSomask,WkWeSomask3.根據權利要求1所述的一種基于對比學習預訓練的遙感圖像描述生成方法,其特征4.根據權利要求1所述的一種基于對比學習預訓練的遙感圖像描述生成方法,其特征4技術領域[0001]本發(fā)明屬于計算機視覺技術領域,具體涉及一種遙感圖像描述生成方法。背景技術[0002]遙感圖像描述生成是一種利用計算機視覺和自然語言處理技術,自動為遙感圖像生成文字描述的方法。遙感圖像是通過衛(wèi)星、無人機或其他傳感器獲取的地球表面的圖像量的圖像數據并理解其中的內容仍然是一項挑戰(zhàn)。傳統(tǒng)上,遙感圖像的解釋和分析需要由專業(yè)人員手動進行,這是一項費時費力的任務。隨著計算機視覺和自然語言處理的進步,研究者開始探索如何利用機器學習和深度學習技術自動為遙感圖像生成文字描述。利用遙感圖像描述生成技術,可以實現自動化地解釋和理解遙感圖像,從而加快對地球表面的分析和監(jiān)測過程。這項技術有助于各個領域的專業(yè)人員更有效地利用遙感數據,為決策制定提供重要支持。然而,仍然存在一些挑戰(zhàn),如與遙感圖像中復雜的語義信息相關的描述生成和模型泛化能力的改進等,這需要進一步的研究和探索。[0003]遙感圖像描述生成任務不僅要求算法對遙感圖像中的地物元素、關系、位置、場景等要素進行理解,并且要求算法以符合人類語法規(guī)則的自然語言進行描述。一種常見的方法是將遙感圖像與大規(guī)模標注的遙感圖像數據集配對,并使用卷積神經網絡(CNN)提取圖變種(如長短期記憶網絡-LSTM)來生成與圖像相關的文字描述。Zhang等人在文獻“ZHANGX,WANGX,TANGX,etal.Descriptiongenerationforremotesensingimagesusingattributeattentionmechanism[J].RemoteSensing,2019,11(6):612."引入了一種屬性注意力機制,利用來自不同CNN層的特征來指導解碼過程中的注意力計算。Lu等人在文獻“LUX,WANGB,ZHENGX.Soundactiveattentionframeworkforremotesensingimagecaptioning[J].IEEETransactionsonGeoscie58(3):1985-2000.”提出了一種新穎的聲音主動注意力框架用于更具體的描述生成,通過捕獲解譯人員感興趣的對象來生成句子。Wang等人在文獻“WANGQ,HUANGW,ZHANGX,al.GLCM:Global-localcaptioningmodelforremotesensingimagecaptioning[J].IEEETransactionsonCybernetics,2022.”基于注意力機制,充分利用全局特征和局部特征來生成更準確的描述。[0004]然而上述遙感圖像描述生成方法都是利用在ImageNet上預訓練的卷積神經網絡來提取視覺特征。由于自然圖像數據與遙感圖像數據之間的數據分布不一致、圖像要素差異大等問題,利用ImageNet上預訓練的卷積神經網絡來提取遙感圖像特征不是一個合適的選擇,會引入歸納偏置,導致算法性能的下降。此外,大部分遙感圖像描述生成任務的數據集都是用英文描述的,導致現有算法無法生成中文描述,這不利于遙感圖像描述生成算法在國內的應用。5語言特征之間的映射并解碼;本發(fā)明方法有效提升了模型對遙感圖像特征的理解和提取,[0010]步驟2-1:構建無標簽多模態(tài)、多季節(jié)遙感圖像數據集作為預訓練數據集D,包含N[0011]步驟2-2:對于每個輸入樣本x,對x;應用從T中隨機采樣得到的不同的兩個圖像兩個在對比表征空間中的表征向量f和fk+,其過程表示為如下形式:fkj,j≠i;通過特征提取網絡E將數本之間的距離;[0022]將步驟2中預訓練得到的查詢編碼器和鍵編碼器的參數初始化當前模型中的視覺6特征提取器G,同時凍結其中前三個階段的參數不參與下游任務訓練;將由G提取到的特征fg,利用注意力機制來關注和增強語義特征得到fa;具體如下:[0023]給定一張輸入圖片input∈C×H×W,利用預訓練的提取器G得到視覺特征向量fg:[0026]G使用由多個重復的殘差塊組成的ResNet網絡結構,殘差結構計算過程如下:[0028]其中,x(1-1)表示第1-1層的輸出,F(·)表示由卷積層-批歸一化-激活函數組成的非線性函數;[0029]將特征向量fg∈c×h×w展平并進行位置嵌入轉換為fs∈c×hw,應用注意力機制對展平后的特征向量f,進行增強得到視覺特征向量fa:可學習線性變換矩陣,W°表示所有注意力頭合并后的變換矩陣;h?,h?,…,h表示不同的注意力頭;[0033]步驟4:自然語言解碼;[0034]利用提取到的視覺特征,通過循環(huán)神經網絡建立圖像特征與語言特征之間的映射并解碼;在解碼階段,首先將圖像特征輸入到解碼器的初始狀態(tài)中,隨后在每個時間步,解碼器會生成一個概率分布,用來表示當前時間步下一個生成的單詞或者單詞序列;生成過程會迭代進行,直至生成一個特殊的結束符號或者達到預設的最大生成長度。[0036]利用Transformer解碼器將視覺特征向量f解碼為遙感圖像的自然語言描述;[0037]對于給定的目標描述序列S=[s?,S?,…,s],首先對輸入的序列進行詞嵌入表示和位置編碼,得到詞向量表征;然后對序列進行掩碼自注意力計算得到序列特征信息h':[0039]h'=FFN(LN(h'+矩陣,mask表示掩碼矩陣,將t時刻之后的單詞向量置零;隨后,將序列特征信息h與視覺特征向量fa進行跨模態(tài)多頭注意力計算,得到語義注意力特征f。,最后輸入到一個全連接層進行單詞預測:[0042]其中,pi,代表模型j時刻生成的第i個單詞的概率,取最大值對應的索引即得到j[0043]進一步地,使用交叉熵損失訓練模型:7升了模型對遙感圖像特征的理解和提取,進而提升了模型對遙感圖像的描述生成的準確附圖說明遙感圖像數據集SSL4EO-S12,通過對比學習通過構建正負樣本對來利用大規(guī)模的無標簽遙8本x,對x;應用從t中隨機采樣得到的不同的兩個圖像增強操作,得到兩個增強視角的正樣的表征向量f和fk+,其過程可以表示為自與其他樣本增強得到視圖經過鍵編碼器得到的表征構成負樣本fkj,j≠i。通過特征提取網絡E將數據投影到對比表征空間,使得正樣本之間距離比較近,負樣本之間的距離比較9[0069]將步驟2中預訓練得到的編碼器參數來初始化當前模型中的視覺特征提取器G,同時凍結其中前三個階段的參數不參與下游任務訓練,以保持提取器對低級特征的提取能征向量fg:機制對展平后的特征向量f進行增強得到視覺特征向量fa:像的自然語言描述。對于給定的目標描述序列[0088]本發(fā)明是在Linuxversion5.0.0-23-generic(buildd@lgw01-amd64-030)(gcc[0089]實驗中的中文數據集構建基于公開英文遙感圖像描述數據集NWPU-Captio
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 模型攻擊防御技術探索-第3篇
- 數據備份與恢復方案設計要點
- 2026年數據分析基礎概念與原理題解
- 2026年國際貿易實務操作報關員考試模擬卷
- 2026年電氣工程師技能進階全題型試題集
- 2026年軟件工程原理與項目管理試題集
- 2026年銀行金融測試銀行業(yè)務知識招聘筆試練習題
- 2026年國際商務談判技巧與文化差異應對考核題
- 2026年財務報告編制與財務分析技能測試
- 2026年藝術鑒賞能力與文化修養(yǎng)測試題
- 2026上海市事業(yè)單位招聘筆試備考試題及答案解析
- 高支模培訓教學課件
- GB/T 21558-2025建筑絕熱用硬質聚氨酯泡沫塑料
- 企業(yè)中長期發(fā)展戰(zhàn)略規(guī)劃書
- 道路運輸春運安全培訓課件
- IPC-6012C-2010 中文版 剛性印制板的鑒定及性能規(guī)范
- 機器人手術術中應急預案演練方案
- 2025年度護士長工作述職報告
- 污水處理藥劑采購項目方案投標文件(技術標)
- 醫(yī)院信訪應急預案(3篇)
- 2025年領導干部任前廉政知識測試題庫(附答案)
評論
0/150
提交評論