WO2025139962A1 圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置 (蘇州鎂伽科技有限公司)_第1頁(yè)
WO2025139962A1 圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置 (蘇州鎂伽科技有限公司)_第2頁(yè)
WO2025139962A1 圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置 (蘇州鎂伽科技有限公司)_第3頁(yè)
WO2025139962A1 圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置 (蘇州鎂伽科技有限公司)_第4頁(yè)
WO2025139962A1 圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置 (蘇州鎂伽科技有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(43)國(guó)際公布日(10)國(guó)際公布號(hào)(21)國(guó)際申請(qǐng)?zhí)枺篜CT/CN2024/140309(22)國(guó)際申請(qǐng)日:2024年12月18日(18.12.2024)(25)申請(qǐng)語(yǔ)言:中文(26)公布語(yǔ)言:中文(30)優(yōu)先權(quán):202311813675.32023年12月27日(27.12.2023)CNMEGAROBOTECHNOLOGIESCO.貿(mào)易試驗(yàn)區(qū)蘇州片區(qū)蘇州工業(yè)園區(qū)玲瓏街88號(hào)215000(CN)。區(qū)玲瓏街88號(hào)215000(CN)。韓曉(HAN,Xiao);中州片區(qū)蘇州工業(yè)園區(qū)玲瓏街88號(hào)215000(CN)。中國(guó)北京市朝陽(yáng)區(qū)建國(guó)門外大街22號(hào)賽特廣場(chǎng)七層100004(CN)。(81)指定國(guó)(除另有指明,要求每一種可提供的國(guó)家保護(hù)):AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CCV,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE(54)Title:IMAGEPROCESSINGMODELTRAININGMETHOD,ANDIMAGEPROCESSING(54)發(fā)明名稱:圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置sampletag,thefirstimagecomprsampletagcomprisingauthenicitS120Usingatexcomprisingsecondtextgenerandthenegativesampleta$130Inputboththetextdeterminationmodel,sothatthetextde(57)Abstract:Thepresentapplicationprovidesanapparatus.Theimageprocessingmodelcompisesatextrecognitiobeingusedtoperformtextrecognitiononanimage,andthetextdeterminationmodelbeingusedtoevatextintheimage.Themethodcomprises:acobtainingasecondi[見(jiàn)續(xù)頁(yè)]GB,GD,GE,GH,GM,GT,HN,HR,HU,IDIR,IS,IT,JM,JO,JP,KE,KG,KH,KN,KP,KLA,LC,LK,LR,LS,LU,LY,MA,MD,MGMU,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SASE,SG,SK,SL,ST,SV,SY,TH,TJUA,UG,US,UZ,VC,VN,WS,ZA,ZM(84)指定國(guó)(除另有指明,要求每一種可提供的地區(qū)NA,RW,SC,SD,SL,ST,SZ,TZ,UG,ZM,ZW),歐亞(AM,AZ,BY,KG,KZ,RU,TJ,TM),歐洲(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GBHU,IE,IS,IT,LT,LU,LV,MC,ME,MK,MTPL,PT,RO,RS,SE,SI,SK,SM,TR),OAPI(BFCG,CI,CM,GA,GN,GQ,GW,KM,ML(57)摘要:本申請(qǐng)?zhí)峁┝艘环N圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置。圖像處理模型包括文本檢測(cè)模型和文本判斷模型,文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性。該方法包括:獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽;利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽;將第一圖像和第二圖像均輸入到文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,利用損失值訓(xùn)練圖像處理模型。該方案有效地節(jié)省了工作人員的精力,加速了模型訓(xùn)練的速度。1WO2025/139962圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置本申請(qǐng)要求于2023年12月27日提交中國(guó)專利局、申請(qǐng)?zhí)枮?02311813675.3、發(fā)明名稱為“圖像處理模型的訓(xùn)練方法、圖像處理方法及裝置”的中國(guó)專利申請(qǐng)的優(yōu)先權(quán),其全部?jī)?nèi)容通過(guò)引用結(jié)合在本申請(qǐng)中。5技術(shù)領(lǐng)域本申請(qǐng)涉及圖像處理領(lǐng)域,更在一種可能的實(shí)現(xiàn)中涉及一種圖像處理模型的訓(xùn)練方法、圖像處理方法、圖像處理模型的訓(xùn)練裝置、圖像處理裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。背景技術(shù)隨著科技的發(fā)展,圖像處理技術(shù)越來(lái)越多地應(yīng)用于各個(gè)領(lǐng)域。因?yàn)閳D像中的文本攜載更明晰的信息,所以關(guān)于圖像中的文本處理一直是大家關(guān)注的熱點(diǎn)。相關(guān)技術(shù)中,一些人工智能模型已經(jīng)應(yīng)用于圖像中的文本處理,其具有準(zhǔn)確度15高、速度快等優(yōu)點(diǎn)。但因?yàn)槲谋揪哂凶煮w、字形、大小等各種變化,通常需要針對(duì)特定的應(yīng)用場(chǎng)景訓(xùn)練專用的人工智能模型。在模型的訓(xùn)練時(shí),常規(guī)方法是依靠人工對(duì)收集的大量圖像數(shù)據(jù)進(jìn)行標(biāo)注,然后基于標(biāo)注結(jié)果進(jìn)行訓(xùn)練。上述人工標(biāo)注的過(guò)程耗時(shí)費(fèi)力,導(dǎo)致訓(xùn)練周期也較長(zhǎng)。發(fā)明內(nèi)容考慮到上述問(wèn)題而提出了本申請(qǐng)。根據(jù)本申請(qǐng)一個(gè)方面,提供了一種圖像處理模型的訓(xùn)練方法,圖像處理模型包括文本檢測(cè)模型和文本判斷模型,文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,25文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性,所述訓(xùn)練方法包括:步驟S110,獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,第一圖像中包括第一文本,正樣本標(biāo)簽包括第一文本的真實(shí)性的信息;步驟S120,利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,第二圖像中包括利用文本生成工具所生成的第二文本,負(fù)樣本標(biāo)簽包括2第二文本的真實(shí)性的信息和文本識(shí)別信息;步驟S130,將第一圖像和第二圖像均輸入到文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,5計(jì)算圖像處理模型的損失值,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。在一種可能的實(shí)現(xiàn)方式中,損失值包括文本判斷模型的第一損失值和文本檢測(cè)模型的第二損失值,步驟S130包括:首先,將第一圖像和第二圖像均輸入到文本判斷模型,10以由文本判斷模型輸出檢測(cè)結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽和檢測(cè)結(jié)果,計(jì)算文本判斷模型的第一損失值,利用第一損失值調(diào)整文本判斷模型對(duì)應(yīng)的參數(shù),以訓(xùn)練文本判斷模型;然后,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于負(fù)樣本標(biāo)簽和文本識(shí)別結(jié)果,計(jì)算文本檢測(cè)模型的第二損失值,利15用第二損失值調(diào)整文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練文本檢測(cè)模型。在一種可能的實(shí)現(xiàn)方式中,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型,包括:利用損失值同時(shí)調(diào)整文本判斷模型對(duì)應(yīng)的參數(shù)和文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。在一種可能的實(shí)現(xiàn)方式中,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果20和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,包括:基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽和檢測(cè)結(jié)果,計(jì)算文本判斷模型的第一損失值;基于負(fù)樣本標(biāo)簽和文本識(shí)別結(jié)果,計(jì)算文本檢測(cè)模型的第二損失值;基于第一損失值和第二損失值,計(jì)算圖像處理模型的損失值。在一種可能的實(shí)現(xiàn)方式中,基于第一損失值和第二損失值,計(jì)算圖像處理25模型的損失值,包括:對(duì)第一損失值和第二損失值進(jìn)行加權(quán)求和,以將所計(jì)算的和確定為圖像處理模型的損失值。在一種可能的實(shí)現(xiàn)方式中,文本檢測(cè)模型和文本判斷模型具有共享權(quán)重網(wǎng)在一種可能的實(shí)現(xiàn)方式中,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,包括:WO2025/1399623獲取背景圖像;利用文本生成工具,生成第二文本并獲得第二文本對(duì)應(yīng)的負(fù)樣本標(biāo)簽;將第二文本映射到背景圖像,以生成第二圖像。根據(jù)本申請(qǐng)的又一個(gè)方面,提供了一種圖像處理方法,處理方法包括:獲取待處理圖像,待處理圖像中包括文本;將待處理圖像輸入上述訓(xùn)練方法所訓(xùn)5練的圖像處理模型,以輸出待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。根據(jù)本申請(qǐng)的又一個(gè)方面,提供了一種圖像處理模型的訓(xùn)練裝置,圖像處理模型包括文本檢測(cè)模型和文本判斷模型,文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性;訓(xùn)練裝置包括:10第一獲取模塊,用于獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,第一圖像中包括第一文本,正樣本標(biāo)簽包括第一文本的真實(shí)性的信息;第二獲取模塊,用于利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,第二圖像中包括利用文本生成工具所生成的第二文本,所述負(fù)樣本標(biāo)簽包括所述第二文本的真實(shí)性的信息和文本識(shí)別信息;15訓(xùn)練模塊,用于將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。20根據(jù)本申請(qǐng)的又一個(gè)方面,提供了一種圖像處理裝置,處理裝置包括:第三獲取模塊,用于獲取待處理圖像,待處理圖像中包括文本;處理模塊,用于將待處理圖像輸入上述訓(xùn)練方法所訓(xùn)練的圖像處理模型,以輸出待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。根據(jù)本申請(qǐng)的又一個(gè)方面,提供了一種電子設(shè)備,包括處理器和存儲(chǔ)器,25存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序指令,計(jì)算機(jī)程序指令被處理器運(yùn)行時(shí)用于執(zhí)行上述圖像處理模型的訓(xùn)練方法和/或圖像處理方法。根據(jù)本申請(qǐng)的再一個(gè)方面,提供了一種存儲(chǔ)介質(zhì),在存儲(chǔ)介質(zhì)上存儲(chǔ)了程序指令,程序指令在運(yùn)行時(shí)用于執(zhí)行上述圖像處理模型的訓(xùn)練方法和/或圖像處理方法。4WO2025/139962圖2示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的第二圖像;圖4示出了根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的第二圖像;圖5示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的圖像處理模型的訓(xùn)練裝置的示意性25圖6示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的圖像處理裝置的示意性框圖;圖7示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的電子設(shè)備的示意性框圖。5描述根據(jù)本申請(qǐng)的示例實(shí)施例。顯然,所描述的實(shí)施例僅僅是本申請(qǐng)的一部分實(shí)施例,而不是本申請(qǐng)的全部實(shí)施例,應(yīng)理解,本申請(qǐng)不受這里描述的示例實(shí)施例的限制?;诒旧暾?qǐng)中描述的本申請(qǐng)實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有付出創(chuàng)造性勞動(dòng)的情況下所得到的所有其它實(shí)施例都應(yīng)落入本申請(qǐng)的保護(hù)范圍之為了至少部分地解決上述技術(shù)問(wèn)題,根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種圖像處理模型的訓(xùn)練方法。該圖像處理模型用于對(duì)包括文本的圖像進(jìn)行處理。圖像處理模型包括文本識(shí)別模型文本檢測(cè)模型和文本檢測(cè)模型文本判斷模型。文本識(shí)別模型文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別。在一種可能的實(shí)現(xiàn)10中,文本檢測(cè)模型可以對(duì)圖像進(jìn)行文本定位并識(shí)別所定位的文本。文本檢測(cè)模型可以包括卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)和鏈接時(shí)序分類模型。文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性。文本判斷模型可以用來(lái)區(qū)分輸入的圖像是否為合成的假圖像。文本判斷模型可以包括指針生成網(wǎng)絡(luò) (PGNet)、深度雙邊網(wǎng)絡(luò)(DBNet)、基于字符區(qū)域感知的文本檢測(cè)(CRAFT)15等網(wǎng)絡(luò)模型,也可以是全卷積單階段目標(biāo)檢測(cè)(FCOS)、實(shí)時(shí)目標(biāo)檢測(cè)(YOLO)等目標(biāo)檢測(cè)網(wǎng)絡(luò)模型。文本判斷模型能夠輔助文本檢測(cè)模型進(jìn)行更準(zhǔn)確的文本識(shí)別。圖1示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的圖像處理模型的訓(xùn)練方法的示意性流程圖。如圖1所示,該方法包括步驟S110、步驟S120和步驟S130。20步驟S110,獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽。第一圖像中包括第一文本。正樣本標(biāo)簽包括第一文本的真實(shí)性的信息。第一圖像可以為原始采集的或者原始采集的圖像經(jīng)處理獲得的、包括工業(yè)領(lǐng)域中有限的字符集的圖像,例如,帶有生產(chǎn)日期的圖像或者帶有產(chǎn)品編號(hào)的圖像等。第一圖像可以是RGB圖像或灰度圖像。第一圖像可以是圖像采集裝25置直接采集到的原始圖像,也可以是對(duì)原始圖像進(jìn)行預(yù)處理操作后的圖像。該預(yù)處理操作可以包括為了改善圖像的視覺(jué)效果,提高其清晰度,或是突出圖像中的文本的所有操作。示例性而非限制性地,預(yù)處理操作可以包括對(duì)原始圖像的數(shù)字化、幾何變換、歸一化、濾波等操作。第一圖像中包括第一文本。因?yàn)榈谝粓D像是原始采集的或者原始采集的圖像經(jīng)處理獲得的,所以其中的第一文6本包括真實(shí)字符。該真實(shí)字符可以包括數(shù)字和字母等。第一圖像具有相對(duì)應(yīng)的正樣本標(biāo)簽,正樣本標(biāo)簽可以指示第一文本的真實(shí)性。如前所述,因?yàn)榈谝粓D像均為真實(shí)圖像,所以第一文本均為真實(shí)文本。步驟S120,利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,5其中,第二圖像中包括利用文本生成工具所生成的第二文本。負(fù)樣本標(biāo)簽包括第二文本的真實(shí)性的信息和文本識(shí)別信息。在本申請(qǐng)的實(shí)施例中,可以在工業(yè)場(chǎng)景中采集少量的干凈背景的圖像,其中不包括任何文本。然后,可以利用文本生成工具在圖像中的指定位置自動(dòng)生成各種類型的文本內(nèi)容。圖2示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的第二圖像。圖210所示第二圖像中的文本為經(jīng)文本生成工具生成的字符。為方便描述,在下文中稱利用文本生成工具所生成的第二文本中的字符為人工字符。文本生成工具可以包括但不限于TTF文本生成工具。在本申請(qǐng)的實(shí)施例中,對(duì)文本生成工具的種類不做任何限定。凡是可以自動(dòng)化生成文本內(nèi)容的工具均在本申請(qǐng)保護(hù)范15第二圖像中的人工字符可以是與第一圖像中的第一文本中的真實(shí)字符相對(duì)應(yīng)的。例如,第二圖像中的人工字符具有與第一圖像中的真實(shí)字符相同的字體、形狀或大小等樣式。由此,有助于文本判斷模型和文本檢測(cè)模型分別進(jìn)行文本檢測(cè)和文本識(shí)別。第二圖像也具有其對(duì)應(yīng)的負(fù)樣本標(biāo)簽。負(fù)樣本標(biāo)簽可以指示第二文本的的20真實(shí)性的信息以及文本識(shí)別信息。其中,因?yàn)榈诙D像是利用文本生成工具生成的,所以其中的第二文本可以認(rèn)為是假的,即第二圖像也是假的。文本識(shí)別信息可以包括圖像中的文本位置信息、文本內(nèi)容信息等??梢岳斫?,文本生成工具在第二圖像中生成人工字符的同時(shí),即可同時(shí)生成對(duì)應(yīng)的負(fù)樣本標(biāo)簽。由此,避免了人工收集大量包括文本的圖像以及對(duì)該圖像進(jìn)行標(biāo)注的過(guò)程。25步驟S130,將第一圖像和第二圖像均輸入到文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。7模型的損失值可以用來(lái)衡量模型預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異程度。損失值越小,表示模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽越接近,也就意味著模型的性能越好。當(dāng)模型的損失值較大時(shí),可以調(diào)整模型的參數(shù),從而提高模型的準(zhǔn)確性和泛化能力。5文本判斷模型輸出的檢測(cè)結(jié)果可以表示輸入圖像為真圖像或者假圖像。其中,真圖像為其中包括真實(shí)字符的圖像,假圖像為其中包括人工字符的圖像。第一圖像相對(duì)應(yīng)的正樣本標(biāo)簽可以表示第一圖像為真圖像,第二圖像相對(duì)應(yīng)的負(fù)樣本標(biāo)簽可以表示第二圖像為假圖像。因此可以根據(jù)正樣本標(biāo)簽、負(fù)樣本標(biāo)簽以及文本判斷模型輸出的檢測(cè)結(jié)果計(jì)算文本判斷模型的損失函數(shù)的損失值。10可以基于該損失值對(duì)文本判斷模型的參數(shù)進(jìn)行調(diào)整,直至文本判斷模型輸出的檢測(cè)結(jié)果較大概率地與輸入圖像的標(biāo)簽相一致,即文本判斷模型能夠準(zhǔn)確地檢測(cè)出圖像中的文本的真實(shí)性為止。文本檢測(cè)模型輸出圖像的文本識(shí)別結(jié)果,具體可以包括文本在圖像中的位置以及文本的具體內(nèi)容等。第二圖像相對(duì)應(yīng)的負(fù)樣本標(biāo)簽可以表示第二圖像中15人工字符的在第二圖像中的位置和具體內(nèi)容??梢愿鶕?jù)負(fù)樣本標(biāo)簽以及文本檢測(cè)模型輸出的文本識(shí)別結(jié)果計(jì)算文本檢測(cè)模型的損失函數(shù)的損失值??梢曰谠摀p失值對(duì)文本檢測(cè)模型的參數(shù)進(jìn)行調(diào)整,直至文本檢測(cè)模型輸出的文本識(shí)別結(jié)果較大概率地與第二圖像的負(fù)樣本標(biāo)簽相一致,即文本檢測(cè)模型能夠準(zhǔn)確地識(shí)別出圖像中的文本為止。20訓(xùn)練好的文本判斷模型和訓(xùn)練好的文本檢測(cè)模型構(gòu)成了訓(xùn)練好的圖像處理模型。上述訓(xùn)練圖像處理模型的過(guò)程中,不僅利用了包括人工字符的第二圖像,也利用了包括真實(shí)字符的第一圖像。如果僅利用第二圖像進(jìn)行模型訓(xùn)練,其對(duì)真實(shí)圖像雖然具備一定的識(shí)別能力,但是識(shí)別精度較低。在上述實(shí)施例中,利25用文本生成工具獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,基于第一圖像和其對(duì)應(yīng)的正樣本標(biāo)簽以及第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽訓(xùn)練圖像處理模型。由此,基于文本生成工具所生成的語(yǔ)義標(biāo)簽來(lái)進(jìn)行圖像處理模型的訓(xùn)練。該方案有效地節(jié)省了工作人員的精力,加速了模型訓(xùn)練的速度。在一些實(shí)施例中,圖像處理模型中的文本檢測(cè)模型和文本判斷模型具有共8享權(quán)重網(wǎng)絡(luò)。文本檢測(cè)模型和文本判斷模型都是神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元相互連接形成的。每個(gè)神經(jīng)元在接收到輸入后,會(huì)進(jìn)行線性加權(quán)處理。這些線性加權(quán)處理可以通過(guò)權(quán)重來(lái)表示。其中,當(dāng)一個(gè)神經(jīng)元有兩個(gè)輸入時(shí),每5個(gè)輸入都會(huì)乘以一個(gè)關(guān)聯(lián)的權(quán)重,然后加在一起作為輸出的結(jié)果。這些權(quán)重在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中可以通過(guò)隨機(jī)初始化,并在模型訓(xùn)練過(guò)程中進(jìn)行更新。在文本檢測(cè)模型和文本判斷模型中包括共享權(quán)重的網(wǎng)絡(luò)。換言之,這部分共享權(quán)重網(wǎng)絡(luò)之間的權(quán)重保持一致。在訓(xùn)練過(guò)程中,共享權(quán)重網(wǎng)絡(luò)中的一個(gè)網(wǎng)絡(luò)的神經(jīng)元的權(quán)重改變,則另一個(gè)網(wǎng)絡(luò)的對(duì)應(yīng)神經(jīng)元的權(quán)重也相應(yīng)地改變。例10如,該共享權(quán)重網(wǎng)絡(luò)可以稱為骨干網(wǎng)絡(luò),可以用于提取圖像的特征。圖3示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的利用圖像處理模型進(jìn)行圖像處理的示意圖。在圖3中,第一共享權(quán)重網(wǎng)絡(luò)和第一子網(wǎng)絡(luò)構(gòu)成文本檢測(cè)模型。可以理解,第一子網(wǎng)絡(luò)可以是文本檢測(cè)模型的下游任務(wù)網(wǎng)絡(luò)。第二共享權(quán)重網(wǎng)絡(luò)和第二子網(wǎng)絡(luò)構(gòu)成文本判斷模型。因?yàn)槲谋九袛嗄P陀糜跈z測(cè)圖像中的文本的真15實(shí)性,所以第二子網(wǎng)絡(luò)可以利用判別器實(shí)現(xiàn)。如圖3所示,將第二圖像和第一圖像分別輸入到第一共享權(quán)重網(wǎng)絡(luò)和第二共享權(quán)重網(wǎng)絡(luò)。對(duì)于經(jīng)第一共享權(quán)重網(wǎng)絡(luò)計(jì)算的第二圖像,將輸入到第一子網(wǎng)絡(luò)和第二子網(wǎng)絡(luò)二者。而對(duì)于經(jīng)第二共享權(quán)重網(wǎng)絡(luò)計(jì)算的第一圖像,將僅輸入到第二子網(wǎng)絡(luò)。從文本判斷模型角度來(lái)說(shuō),其接收了第一圖像和第二圖像,分別輸出了二者的真實(shí)性。從文本檢測(cè)20模型角度來(lái)說(shuō),其僅接收了第二圖像,輸出了第二圖像中的文本識(shí)別結(jié)果。在一種可能的實(shí)現(xiàn)方式中,文本識(shí)別結(jié)果可以包括圖像中的文本的位置信息、文本中每個(gè)字符的位置信息以及文本內(nèi)容信息。可以理解文本的位置信息可以利用文本的外接矩形款來(lái)表示。為方便描述,以下稱該矩形框?yàn)槲谋究颉T谝环N可能的實(shí)現(xiàn)中,可以利用該文本框的對(duì)頂角的頂點(diǎn)的坐標(biāo)來(lái)表示,例如25左上頂點(diǎn)坐標(biāo)和右下頂點(diǎn)坐標(biāo)。替代地,該文本框也可以利用其中心點(diǎn)以及其長(zhǎng)和寬來(lái)表示。字符的位置信息可以利用字符的中心位置的坐標(biāo)來(lái)表示。文本內(nèi)容信息表示了文本可以包括哪些字符,例如諸如1、2、3等的數(shù)字字符和諸如a、b、c等的英文字符等?;谏鲜鰣D像處理模型的輸出結(jié)果以及上述正樣本標(biāo)簽和負(fù)樣本標(biāo)簽,能夠?qū)D像處理模型進(jìn)行訓(xùn)練。9在一些實(shí)施例中,步驟S120中獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,包擾信號(hào),同時(shí)還具有類似真實(shí)場(chǎng)景下圖像的特征。圖4示出了根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的第二圖像。如圖4所示,第二圖像中的文本是利用文本生成工具生20圖像收集的速度,并且進(jìn)一步提高了圖像處理模型的訓(xùn)練效率。將第一圖像和第二圖像分別輸入文本判斷模型,以由文本判斷模型輸出各自的檢測(cè)結(jié)果。根據(jù)文本判斷模型輸出的檢測(cè)結(jié)果、第一圖像對(duì)應(yīng)的正樣本標(biāo)簽和第二圖像對(duì)應(yīng)的負(fù)樣本標(biāo)簽計(jì)算文本判斷模型的第一損失值?;谠摰谝粨p失值可以更新文本判斷模型的參數(shù)。經(jīng)過(guò)多次不斷重復(fù)的計(jì)算、更新等步驟,以完成文本判斷模型的訓(xùn)練。5在文本判斷模型訓(xùn)練完成之后,僅將第二圖像輸入文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果。再根據(jù)文本檢測(cè)模型輸出的文本識(shí)別結(jié)果和負(fù)樣本標(biāo)簽,計(jì)算文本檢測(cè)模型的第二損失值,并利用第二損失值完成文本檢測(cè)模型的訓(xùn)練。在上述實(shí)施例中,首先對(duì)文本判斷模型訓(xùn)練,而后再對(duì)文本檢測(cè)模型進(jìn)行10訓(xùn)練,保證了二者的訓(xùn)練效果。特別地,對(duì)于文本判斷模型和文本檢測(cè)模型具有共享權(quán)重網(wǎng)絡(luò)的實(shí)施例,在文本判斷模型完成訓(xùn)練后,文本檢測(cè)模型可以直接利用文本判斷模型的部分參數(shù)進(jìn)行訓(xùn)練,由此加快了圖像處理模型的訓(xùn)練速在一些實(shí)施例中,步驟S130中利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),15以訓(xùn)練圖像處理模型,包括:利用損失值同時(shí)調(diào)整文本判斷模型對(duì)應(yīng)的參數(shù)和文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。在上述實(shí)施例中,文本判斷模型和文本檢測(cè)模型可以在不同的計(jì)算單元上同時(shí)進(jìn)行訓(xùn)練。換言之,將圖像處理模型作為一個(gè)整體進(jìn)行訓(xùn)練。同時(shí)訓(xùn)練文本判斷模型和文本檢測(cè)模型,可以有效地簡(jiǎn)化圖像處理模型的訓(xùn)練流程,加快20圖像處理模型訓(xùn)練過(guò)程的速度,提升了訓(xùn)練效率。在一些實(shí)施例中,步驟S130中基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,包括以下步驟S131至步驟在步驟S131,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽和檢測(cè)結(jié)果,計(jì)算文本判斷模型的第一損失值。在步驟S132,基于負(fù)樣本標(biāo)簽和文本識(shí)別結(jié)果,計(jì)算文本檢25測(cè)模型的第二損失值。在步驟S133,基于第一損失值和第二損失值,計(jì)算圖像處理模型的損失值。第一損失值表示了檢測(cè)結(jié)果與正樣本標(biāo)簽和負(fù)樣本標(biāo)簽之間的差異,由此,表示了文本判斷模型的檢測(cè)準(zhǔn)確度。在一種可能的實(shí)現(xiàn)方式中,可以使用交叉熵?fù)p失函數(shù)計(jì)算上述第一損失值。WO2025/139962相對(duì)于真實(shí)文本框的偏移量。可以使用回歸損失函數(shù)來(lái)計(jì)算文本框回歸損型來(lái)確定。在一種可能的實(shí)現(xiàn)中,如采用PGNet作為文本檢測(cè)模型,則可以采用PGNet中的損失函數(shù)??梢岳斫?,該待處理圖像可以是RGB圖像或灰度圖像。待處理圖像可以15像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。該方案保證根據(jù)本申請(qǐng)的再一方面,還提供了一種圖像處理模型的訓(xùn)練裝置。該圖20檢測(cè)圖像中的文本的真實(shí)性。圖5示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的圖像處理模型的訓(xùn)練裝置的示意性框圖。如圖5所示,訓(xùn)練裝置500包括第一獲取模塊510、第二獲取模塊520和訓(xùn)練模塊530。第一獲取模塊510用于獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,第一圖像中包括第一文本,正樣本標(biāo)簽包括第一文本的真實(shí)性的信息。第二獲取模塊520第二文本的真實(shí)性的信息和文本識(shí)別信息。訓(xùn)練模塊530用于將第一圖像和第二圖像均輸入到文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型。根據(jù)本申請(qǐng)的再一方面,還提供了一種圖像處理裝置。圖6示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的圖像處理裝置的示意性框圖。如圖6所示,圖像處理裝置5600包括第三獲取模塊610和處理模塊620。第三獲取模塊610用于獲取待處理圖像,待處理圖像中包括文本。處理模塊620用于將待處理圖像輸入如上述訓(xùn)練方法所訓(xùn)練的圖像處理模型,以輸出待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。根據(jù)本申請(qǐng)?jiān)僖环矫?,還提供了一種電子設(shè)備700。圖7示出了根據(jù)本申10請(qǐng)一個(gè)實(shí)施例的電子設(shè)備700的示意性框圖。如圖7所示,電子設(shè)備700包括處理器710和存儲(chǔ)器720。其中,存儲(chǔ)器720中存儲(chǔ)有計(jì)算機(jī)程序指令,計(jì)算機(jī)程序指令被處理器運(yùn)行時(shí)用于執(zhí)行上述圖像處理模型的訓(xùn)練方法和/或圖像處理方法。此外,根據(jù)本申請(qǐng)又一方面,還提供了一種存儲(chǔ)介質(zhì),在存儲(chǔ)介質(zhì)上存15儲(chǔ)了程序指令,在程序指令被計(jì)算機(jī)或處理器運(yùn)行時(shí)使得計(jì)算機(jī)或處理器執(zhí)行本申請(qǐng)實(shí)施例的上述圖像處理模型的訓(xùn)練方法和/或圖像處理方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本申請(qǐng)實(shí)施例的上述圖像處理模型的訓(xùn)練裝置和/或圖像處理裝置的相應(yīng)模塊或上述電子設(shè)備中的相應(yīng)模塊。存儲(chǔ)介質(zhì)例如可以包括平板電腦的存儲(chǔ)部件、個(gè)人計(jì)算機(jī)的硬盤、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀20存儲(chǔ)器(EPROM)、便攜式緊致盤只讀存儲(chǔ)器(CD-ROM)、USB存儲(chǔ)器、或者上述存儲(chǔ)介質(zhì)的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的任意組合。本領(lǐng)域普通技術(shù)人員通過(guò)閱讀上述圖像處理模型的訓(xùn)練方法和/或圖像處理方法的具體描述,能夠理解上述圖像處理模型的訓(xùn)練裝置圖像處理裝置、電25子設(shè)備和存儲(chǔ)介質(zhì)的具體實(shí)現(xiàn)和有益效果,為了簡(jiǎn)潔,在此不再贅述。實(shí)施例1:一種圖像處理模型的訓(xùn)練方法,所述圖像處理模型包括文本檢測(cè)模型和文本判斷模型,所述文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,所述文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性;所述訓(xùn)練方法包括:步驟S110,獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,所述第一圖像中包括第一文本,所述正樣本標(biāo)簽包括所述第一文本的真實(shí)性的信息;步驟S120,利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,所述第二圖像中包括利用所述文本生成工具所生成的第二文本,所述負(fù)5樣本標(biāo)簽包括所述第二文本的真實(shí)性的信息和文本識(shí)別信息;步驟S130,將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由所述文本判斷模型輸出檢測(cè)結(jié)果,將所述第二圖像輸入到文本檢測(cè)模型,以由所述文本識(shí)別模型輸出文本識(shí)別結(jié)果,基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽、所述文本識(shí)別結(jié)果和所述檢測(cè)結(jié)果,計(jì)算所述圖像處理模型的損失值,10利用所述損失值調(diào)整所述圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型。實(shí)施例2:根據(jù)實(shí)施例1介紹的圖像處理模型的訓(xùn)練方法,所述損失值包括所述文本判斷模型的第一損失值和所述文本檢測(cè)模型的第二損失值,所述步驟S130包括:首先,將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由15所述文本判斷模型輸出所述檢測(cè)結(jié)果,基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽和所述檢測(cè)結(jié)果,計(jì)算所述文本判斷模型的第一損失值,利用所述第一損失值調(diào)整所述文本判斷模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述文本判斷模型;然后,將所述第二圖像輸入到所述文本檢測(cè)模型,以由所述文本檢測(cè)模型輸出所述文本識(shí)別結(jié)果,基于所述負(fù)樣本標(biāo)簽和所述文本識(shí)別結(jié)果,計(jì)算所述20文本檢測(cè)模型的第二損失值,利用所述第二損失值調(diào)整所述文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述文本檢測(cè)模型。實(shí)施例3:根據(jù)實(shí)施例1-2中任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法,所述利用所述損失值調(diào)整所述圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型,包括:25利用所述損失值同時(shí)調(diào)整所述文本判斷模型對(duì)應(yīng)的參數(shù)和所述文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型。實(shí)施例4:根據(jù)實(shí)施例1-3中任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法,所述基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽、所述文本識(shí)別結(jié)果和所述檢測(cè)結(jié)果,計(jì)算所述圖像處理模型的損失值,包括:WO2025/139962基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽和所述檢測(cè)結(jié)果,計(jì)算所述文本判斷模型的第一損失值;基于所述負(fù)樣本標(biāo)簽和所述文本識(shí)別結(jié)果,計(jì)算所述文本檢測(cè)模型的第二損失值;5基于所述第一損失值和所述第二損失值,計(jì)算所述圖像處理模型的損失值。實(shí)施例5:根據(jù)實(shí)施例1-4中任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法,所述基于所述第一損失值和所述第二損失值,計(jì)算所述圖像處理模型的損失值,包括:對(duì)所述第一損失值和所述第二損失值進(jìn)行加權(quán)求和,以將所計(jì)算的和確定10為所述圖像處理模型的損失值。實(shí)施例6:根據(jù)實(shí)施例1-5中任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法,所述文本檢測(cè)模型和所述文本判斷模型具有共享權(quán)重網(wǎng)絡(luò)。實(shí)施例7:根據(jù)實(shí)施例1-6中任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法,所述獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,包括:利用文本生成工具,生成所述第二文本并獲得所述第二文本對(duì)應(yīng)的負(fù)樣本將所述第二文本映射到所述背景圖像,以生成所述第二圖像。實(shí)施例8:一種圖像處理方法,所述處理方法包括:20獲取待處理圖像,所述待處理圖像中包括文本;將所述待處理圖像輸入如實(shí)施例1-7任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法所訓(xùn)練的圖像處理模型,以輸出所述待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。實(shí)施例9:一種圖像處理模型的訓(xùn)練裝置,所述圖像處理模型包括文本檢25測(cè)模型和文本判斷模型,所述文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,所述文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性;所述訓(xùn)練裝置包括:第一獲取模塊,用于獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,所述第一圖像中包括第一文本,所述正樣本標(biāo)簽包括所述第一文本的真實(shí)性的信息;WO2025/13996210實(shí)施例10:一種圖像處理裝置,所述處理裝置包括:處理模塊,用于將所述待處理圖像輸入如實(shí)施例1-7任一實(shí)施例介紹的圖15實(shí)施例11:一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有1-7任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法和/或如實(shí)理方法。實(shí)施例12:一種存儲(chǔ)介質(zhì),在所述存儲(chǔ)介質(zhì)上存儲(chǔ)了程序指令,所述程20序指令在運(yùn)行時(shí)用于執(zhí)行如實(shí)施例1-7任一實(shí)施例介紹的圖像處理模型的訓(xùn)練方法和/或如實(shí)施例8所述的圖像處理方法。WO2025/139962所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本申請(qǐng)的范圍。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃5分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)設(shè)備,或一些特征可以忽略,或不執(zhí)行。在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本申請(qǐng)的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。10類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本申請(qǐng)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在對(duì)本申請(qǐng)的示例性實(shí)施例的描述中,本申請(qǐng)的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該本申請(qǐng)的方法解釋成反映如下意圖:即所要求保護(hù)的本申請(qǐng)要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如相應(yīng)的權(quán)利要求書(shū)所反映的那樣,其發(fā)15明點(diǎn)在于可以用少于某個(gè)公開(kāi)的單個(gè)實(shí)施例的所有特征的特征來(lái)解決相應(yīng)的技術(shù)問(wèn)題。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本申請(qǐng)的單獨(dú)實(shí)施例。本領(lǐng)域的技術(shù)人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及20如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意25味著處于本申請(qǐng)的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。本申請(qǐng)的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本申請(qǐng)實(shí)施例的圖像處理模型的訓(xùn)練裝置和圖像處理裝置中的一些模塊的一些或者全部功能。本申請(qǐng)還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本申請(qǐng)的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣5的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本申請(qǐng)進(jìn)行說(shuō)明而不是對(duì)本申請(qǐng)進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名以上所述,僅為本申請(qǐng)的具體實(shí)施方式或?qū)唧w實(shí)施方式的說(shuō)明,本申請(qǐng)的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本申請(qǐng)揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本申請(qǐng)的保護(hù)范圍之內(nèi)。本申請(qǐng)的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。WO2025/139962權(quán)利要求1.一種圖像處理模型的訓(xùn)練方法,其特征在于,所述圖像處理模型包括文本檢測(cè)模型和文本判斷模型,所述文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,所述文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性;5所述訓(xùn)練方法包括:步驟S110,獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,所述第一圖像中包括第一文本,所述正樣本標(biāo)簽包括所述第一文本的真實(shí)性的信息;步驟S120,利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,所述第二圖像中包括利用所述文本生成工具所生成的第二文本,所述負(fù)10樣本標(biāo)簽包括所述第二文本的真實(shí)性的信息和文本識(shí)別信息;步驟S130,將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由所述文本判斷模型輸出檢測(cè)結(jié)果,將所述第二圖像輸入到文本檢測(cè)模型,以由所述文本識(shí)別模型輸出文本識(shí)別結(jié)果,基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽、所述文本識(shí)別結(jié)果和所述檢測(cè)結(jié)果,計(jì)算所述圖像處理模型的損失值,15利用所述損失值調(diào)整所述圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型。2.根據(jù)權(quán)利要求1所述圖像處理模型的訓(xùn)練方法,其特征在于,所述損失值包括所述文本判斷模型的第一損失值和所述文本檢測(cè)模型的第二損失值,首先,將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由20所述文本判斷模型輸出所述檢測(cè)結(jié)果,基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽和所述檢測(cè)結(jié)果,計(jì)算所述文本判斷模型的第一損失值,利用所述第一損失值調(diào)整所述文本判斷模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述文本判斷模型;然后,將所述第二圖像輸入到所述文本檢測(cè)模型,以由所述文本檢測(cè)模型輸出所述文本識(shí)別結(jié)果,基于所述負(fù)樣本標(biāo)簽和所述文本識(shí)別結(jié)果,計(jì)算所述25文本檢測(cè)模型的第二損失值,利用所述第二損失值調(diào)整所述文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述文本檢測(cè)模型。3.根據(jù)權(quán)利要求1所述圖像處理模型的訓(xùn)練方法,其特征在于,所述利用所述損失值調(diào)整所述圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型,包WO2025/139962利用所述損失值同時(shí)調(diào)整所述文本判斷模型對(duì)應(yīng)的參數(shù)和所述文本檢測(cè)模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型。4.根據(jù)權(quán)利要求3所述圖像處理模型的訓(xùn)練方法,其特征在于,所述基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽、所述文本識(shí)別結(jié)果和所述檢5測(cè)結(jié)果,計(jì)算所述圖像處理模型的損失值,包括:基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽和所述檢測(cè)結(jié)果,計(jì)算所述文本判斷模型的第一損失值;基于所述負(fù)樣本標(biāo)簽和所述文本識(shí)別結(jié)果,計(jì)算所述文本檢測(cè)模型的第二損失值;10基于所述第一損失值和所述第二損失值,計(jì)算所述圖像處理模型的損失值。5.根據(jù)權(quán)利要求4所述圖像處理模型的訓(xùn)練方法,其特征在于,所述基于所述第一損失值和所述第二損失值,計(jì)算所述圖像處理模型的損失值,包括:對(duì)所述第一損失值和所述第二損失值進(jìn)行加權(quán)求和,以將所計(jì)算的和確定為所述圖像處理模型的損失值。156.根據(jù)權(quán)利要求1至5任一項(xiàng)所述圖像處理模型的訓(xùn)練方法,其特征在于,所述文本檢測(cè)模型和所述文本判斷模型具有共享權(quán)重網(wǎng)絡(luò)。7.根據(jù)權(quán)利要求1至5任一項(xiàng)所述圖像處理模型的訓(xùn)練方法,其特征在于,所述獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,包括:獲取背景圖像;20利用文本生成工具,生成所述第二文本并獲得所述第二文本對(duì)應(yīng)的負(fù)樣本將所述第二文本映射到所述背景圖像,以生成所述第二圖像。8.一種圖像處理方法,其特征在于,所述處理方法包括:獲取待處理圖像,所述待處理圖像中包括文本;25將所述待處理圖像輸入如權(quán)利要求1至7任一項(xiàng)訓(xùn)練方法所訓(xùn)練的圖像處理模型,以輸出所述待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。9.一種圖像處理模型的訓(xùn)練裝置,其特征在于,所述圖像處理模型包括文本檢測(cè)模型和文本判斷模型,所述文本檢測(cè)模型用于對(duì)圖像進(jìn)行文本識(shí)別,所WO2025/139962述文本判斷模型用于檢測(cè)圖像中的文本的真實(shí)性;所述訓(xùn)練裝置包括:第一獲取模塊,用于獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,所述第一圖像中包括第一文本,所述正樣本標(biāo)簽包括所述第一文本的真實(shí)性的信息;5第二獲取模塊,用于利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,所述第二圖像中包括利用所述文本生成工具所生成的第二文本,所述負(fù)樣本標(biāo)簽包括所述第二文本的真實(shí)性的信息和文本識(shí)別信息;訓(xùn)練模塊,用于將所述第一圖像和所述第二圖像均輸入到所述文本判斷模型,以由所述文本判斷模型輸出檢測(cè)結(jié)果,將所述第二圖像輸入到文本檢測(cè)模10型,以由所述文本檢測(cè)模型輸出文本識(shí)別結(jié)果,基于所述正樣本標(biāo)簽、所述負(fù)樣本標(biāo)簽、所述文本識(shí)別結(jié)果和所述檢測(cè)結(jié)果,計(jì)算所述圖像處理模型的損失值,利用所述損失值調(diào)整所述圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練所述圖像處理模型。10.一種圖像處理裝置,其特征在于,所述處理裝置包括:15第三獲取模塊,用于獲取待處理圖像,所述待處理圖像中包括文本;處理模塊,用于將所述待處理圖像輸入如權(quán)利要求1至7任一項(xiàng)訓(xùn)練方法所訓(xùn)練的圖像處理模型,以輸出所述待處理圖像的文本識(shí)別結(jié)果和/或待處理圖像中的文本的真實(shí)性檢測(cè)結(jié)果。11.一種電子設(shè)備,包括處理器和存儲(chǔ)器,其特征在于,所述存儲(chǔ)器中存20儲(chǔ)有計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述處理器運(yùn)行時(shí)用于執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的圖像處理模型的訓(xùn)練方法和/或如權(quán)利要求8所述的圖像處理方法。12.一種存儲(chǔ)介質(zhì),在所述存儲(chǔ)介質(zhì)上存儲(chǔ)了程序指令,其特征在于,所述程序指令在運(yùn)行時(shí)用于執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的圖像處理模型的25訓(xùn)練方法和/或如權(quán)利要求8所述的圖像處理方法。WO2025/139962獲取第一圖像和對(duì)應(yīng)的正樣本標(biāo)簽,其中,第一圖像中包括第一文本,正樣本標(biāo)簽包括第一文本的真實(shí)性的信息利用文本生成工具,獲得第二圖像以及對(duì)應(yīng)的負(fù)樣本標(biāo)簽,其中,第二圖像中包括利用文本生成工具所生成的第二文本,負(fù)樣本標(biāo)簽包括第二文本的真實(shí)性的信息和文本識(shí)別將第一圖像和第二圖像均輸入到文本判斷模型,以由文本判斷模型輸出檢測(cè)結(jié)果,將第二圖像輸入到文本檢測(cè)模型,以由文本識(shí)別模型輸出文本識(shí)別結(jié)果,基于正樣本標(biāo)簽、負(fù)樣本標(biāo)簽、文本識(shí)別結(jié)果和檢測(cè)結(jié)果,計(jì)算圖像處理模型的損失值,利用損失值調(diào)整圖像處理模型對(duì)應(yīng)的參數(shù),以訓(xùn)練圖像處理模型WO2025/139962權(quán)重網(wǎng)絡(luò)第二圖像第二共享權(quán)重網(wǎng)絡(luò)第二子網(wǎng)絡(luò)文本識(shí)別真/假?WO2025/139962第一獲取模塊第一獲取模塊第二獲取模塊訓(xùn)練模塊WO2025/139962610第三獲取模塊620處理模塊G06V30/19(2022.01)i;G06T11/60(2006.01)i;G06V30/18(2022AccordingtoInternationalPatentClassification(IPC)ortobothnaMinimumdocumentationsearched(classificationsystemfollowedbyElectronicdatabaseconsultedduringtheinternationalseaVEN,CNABS,CNTXT,WOTXT,EPTXT,USTXT,CNKI,IEEE:圖像,文本,標(biāo)簽,識(shí)別,真實(shí),合成,模型,損失,人工,image,text,label,recognition,real,synthetic,modCitationofdocument,withindication,whereappropriate,oftherACN115619903A(PINGANTECHNOLOGY(SHENZHdescription,paragr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論