版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(71)申請(qǐng)人華僑大學(xué)地址362000福建省泉州市豐澤區(qū)城東城華北路269號(hào)申請(qǐng)人信泰(福建)科技有限公司廈門理工學(xué)院(72)發(fā)明人曾煥強(qiáng)徐思偉朱建清施一帆蔡磊龔鑫榮陳婧許金泰許劍飛章水德(74)專利代理機(jī)構(gòu)廈門市首創(chuàng)君合專利事務(wù)所有限公司35204專利代理師李艾華GO6NGO6N3/096(2023.01)(54)發(fā)明名稱基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法及裝置一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法及裝置,涉及計(jì)算機(jī)視覺領(lǐng)域,包括:構(gòu)建對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型;將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的語言模型,獲得對(duì)用戶輸入文本進(jìn)行自適應(yīng)調(diào)整后的文本;將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型,生成對(duì)應(yīng)的圖像;對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行視覺問答,獲得得不符合預(yù)期,最小化文本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪聲變量,再次模型將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的,獲得對(duì)用戶輸入的針織相關(guān)文本進(jìn)行自適應(yīng)調(diào)整后的文本diffusion,生成對(duì)應(yīng)的圖像對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與通過最小化文本自注意力矩陣和交叉注意力相似性2S102,將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)用戶S103,將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成對(duì)應(yīng)S104,對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻2.根據(jù)權(quán)利要求1所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征將改進(jìn)后的文本y輸入文生圖模型Stablediffsion,生成圖像;通過獎(jiǎng)勵(lì)函數(shù)r(x,y)練語言模型生成改進(jìn)后的文本y的條件概率;β表示超參數(shù);T表示生成文本y的總步數(shù);exp()表示指數(shù)函數(shù);基于所述獎(jiǎng)勵(lì)信號(hào)來擴(kuò)展使用前向-后向平衡目標(biāo)來優(yōu)化GFlowNet,損失函數(shù)如下:3其中,L(x,y;θ)表示總體損失函數(shù),用于衡量初始模型在生成文本y時(shí)的性能;L(x,yo+;θ)表示每一步的局部損失函數(shù),用來評(píng)估在生成文本到t+1步時(shí)的性能;F?(v,|x,yo?)表示流函數(shù)在第t步的值;F?(y?lx,yo)表示流函數(shù)在第t+1步的值;P,(y+Ix,y0;θ)表示前向策略在第t+1步的條件概率;r(x,y)表示獎(jiǎng)勵(lì)函數(shù)在第t步的值;r(x,y02+1)表示獎(jiǎng)勵(lì)函數(shù)在第t+1步的值;θ表示語言模型的參數(shù);Y02+1表示生成到第t+1步的文本;Y表示第t步生成的詞;yH表示第t+1步生成的詞;最小化上述損失函數(shù),更新生成流網(wǎng)絡(luò)GFlowNet的前向策略P和流函數(shù)F。,同時(shí)更新語言模型的參數(shù)。3.根據(jù)權(quán)利要求2所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,更新生成流網(wǎng)絡(luò)GFlowNet的前向策略PF和流函數(shù)F。,同時(shí)更新語言模型的參數(shù)之引入流重新激活機(jī)制,所述激活機(jī)制每M步周期性地重置GFlowNet流函數(shù)的最后一層;最終,基于生成流網(wǎng)絡(luò)GFlowNet調(diào)節(jié)的語言模型學(xué)習(xí)生成與獎(jiǎng)勵(lì)成比例的文本。4.根據(jù)權(quán)利要求1所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成對(duì)應(yīng)的圖I=Sd(prompt);其中,prompt表示自適應(yīng)調(diào)整后的文本;Sd表示經(jīng)訓(xùn)練的文生圖模型Stablediffusion;I表示生成的圖像。5.根據(jù)權(quán)利要求1所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行視覺問答,獲得得分,具體包對(duì)自適應(yīng)調(diào)整后的文本,使用語言模型產(chǎn)生格式化文本判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本;將生成的圖像和格式化文本被輸入大型視覺語言模型,計(jì)算視覺問答得分,如下:其中,VQA表示視覺問答的得分,用于衡量生成圖像和文本之間的對(duì)齊程度的指標(biāo);I表示生成的圖像;text表示格式化文本;P表示視覺問答輸出“Yes”的概率,“Yes”表示圖像符合文本的內(nèi)容時(shí)視覺問答輸出的答案。6.根據(jù)權(quán)利要求1所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,若得分符合預(yù)期,輸出針織產(chǎn)品圖像;若得分不符合預(yù)期,通過最小化文本自注意力4其中,T“,)表示文本編碼器的第1層和第h個(gè)頭中,第i個(gè)標(biāo)記對(duì)第j個(gè)標(biāo)記的自注意力對(duì)所有層和頭的自注意力矩陣進(jìn)行平均,并去除對(duì)特殊標(biāo)記的注意力權(quán)重,然后進(jìn)行中的第a個(gè)查詢向量為q“∈RH.D。;其中,a=1,…,N。,N表示交叉注意力層中查詢向量的其中,q()表示在交叉注意力層第1層中的第a個(gè)查詢向量;k(“)表示交叉注意力層1的5第i個(gè)標(biāo)記的鍵向量;W(,?)表示在交叉注意力層1和頭h中的預(yù)訓(xùn)練權(quán)重矩陣;Ω表示q“通過最小化交叉注意力圖的相似矩陣S和文本自注意力矩陣T之間的距離來優(yōu)化潛在噪聲Z,具體通過最小化以下?lián)p失函數(shù)來實(shí)現(xiàn):通過上述過程實(shí)現(xiàn)文本嵌入的語法關(guān)系有效轉(zhuǎn)移到交叉注意力中,使得再次生成的圖7.根據(jù)權(quán)利要求1所述的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征68.一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成裝置,其特征在于,包括:文本微調(diào)語言模型構(gòu)建模塊,用于構(gòu)建基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型;文本自適應(yīng)調(diào)整模塊,用于將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)用戶輸入的針織相關(guān)文本進(jìn)行自適應(yīng)調(diào)整后的文本;diffusion,生成對(duì)應(yīng)的圖像;得分獲取模塊,用于對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行視覺問潛在噪聲變量優(yōu)化模塊,用于判斷若得分符合預(yù)期,輸出針織產(chǎn)品圖像;若得分不符合預(yù)期,通過最小化文本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪聲變量,優(yōu)化Stablediffusion再次生成圖像。7技術(shù)領(lǐng)域[0001]本發(fā)明涉計(jì)算機(jī)視覺領(lǐng)域,特別涉及一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法及裝置。背景技術(shù)[0002]針織產(chǎn)品在現(xiàn)代服裝設(shè)計(jì)和生產(chǎn)中占據(jù)重要地位,其復(fù)雜的紋理和多樣的材質(zhì)特性使得圖像生成成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的針織產(chǎn)品圖像生成方法主要依賴于人工設(shè)計(jì)或基于固定模板的渲染技術(shù),這些方法在處理復(fù)雜的紋理細(xì)節(jié)和動(dòng)態(tài)變化時(shí)存在顯著局限性。例如,現(xiàn)有技術(shù)往往無法準(zhǔn)確捕捉針織紋理的細(xì)微變化,導(dǎo)致生成的圖像缺乏真實(shí)感和細(xì)節(jié)表現(xiàn)力。[0003]此外,針織產(chǎn)品的圖像生成需要適應(yīng)不同的輸入條件,如產(chǎn)品描述、材質(zhì)參數(shù)和用戶需求等,然而,用戶輸入的文本往往具有局限性,難以滿足多樣化的需求,導(dǎo)致用戶體驗(yàn)不佳。同時(shí),現(xiàn)有方法在用戶輸入描述針織的文本時(shí),往往無法生成和文本描述相吻合的圖[0004]綜上所述,現(xiàn)有針織產(chǎn)品圖像生成技術(shù)在紋理細(xì)節(jié)、輸入適應(yīng)性和文本圖像一致性等方面存在顯著不足。發(fā)明內(nèi)容[0005]本發(fā)明的目的在于提供一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法及裝置,通過動(dòng)態(tài)調(diào)整輸入文本及優(yōu)化圖像生成模型,顯著提升針織產(chǎn)品圖像的生成質(zhì)量和用戶體驗(yàn)。[0007]一方面,一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,包[0008]S101,構(gòu)建基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型;[0009]S102,將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)用戶輸入的針織相關(guān)文本進(jìn)行自適應(yīng)調(diào)整后的文本;[0010]S103,將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成對(duì)應(yīng)的圖像;[0011]S104,對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行視覺問答,獲得得[0012]S105,若得分符合預(yù)期,輸出針織產(chǎn)品圖像;若得分不符合預(yù)期,通過最小化文本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪聲變量,優(yōu)化Stablediffusion再次生成圖像。[0013]優(yōu)選的,基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型的訓(xùn)練過8[0014]使用預(yù)訓(xùn)練的語言模型作為初始模型P(y|x);其中,x表示初始針織文本,y表示根據(jù)初始文本x生成改進(jìn)后的文本y,P?表示預(yù)訓(xùn)練的語言模型;[0015]初始化生成流網(wǎng)絡(luò)GFlowNet的前向策略P,和流函數(shù)F?;[0016]將改進(jìn)后的文本y輸入文生圖模型Stablediffsion,生成圖像;通過獎(jiǎng)勵(lì)函數(shù)[0018]其中,E表示期望值;i表示根據(jù)文本x通過文本到圖像的擴(kuò)散模型P?(·|x)生成的圖像;i,表示根據(jù)文本y通過文本到圖像的擴(kuò)散模型P?(ly)生成的圖像;P?(|x)和P?(|y)表示文本到圖像的擴(kuò)散模型;ras(i,i)表示美學(xué)獎(jiǎng)勵(lì);re(x,i)表示相關(guān)性獎(jiǎng)勵(lì);[0021]其中,r(x,yo)表示生成到第t步的文本片段Yo2的獎(jiǎng)勵(lì)值;Yo表示生成到第t步的文本片段;Pπr(yo?|x)表示預(yù)訓(xùn)練的語言模型生成文本片段Yo的條件概率;Pre(y|x)表示預(yù)訓(xùn)練語言模型生成改進(jìn)后的文本y的條件概率;β表示超參數(shù);T表示生成文本y的總步[0022]基于所述獎(jiǎng)勵(lì)信號(hào)來擴(kuò)展使用前向-后向平衡目標(biāo)來優(yōu)化GFlowNet,損失函數(shù)如[0024]其中,L(x,y;θ)表示總體損失函數(shù),用于衡量初始模型在生成文本y時(shí)的性能;L(x,y01+1;θ)表示每一步的局部損失函數(shù),用來評(píng)估在生成文本到t+1步時(shí)的性能;F?(ylx,yo?-1)表示流函數(shù)在第t步的值;F?(y+Ix,yo)表示流函數(shù)在第t+1步的值;P(y+Ix,yo?;0)表示前向策略在第t+1步的條件概率;r(x,yo)表示獎(jiǎng)勵(lì)函數(shù)在第t步的值;r(x,y02+1)表示獎(jiǎng)勵(lì)函數(shù)在第t+1[0025]最小化上述損失函數(shù),更新生成流網(wǎng)絡(luò)GFlowNet的前向策略P和流函數(shù)F,同時(shí)更新語言模型的參數(shù)。9本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪聲變量,優(yōu)化Stable[0040]其中,T)表示文本編碼器的第1層和第h個(gè)頭中,第i個(gè)標(biāo)記對(duì)第j個(gè)標(biāo)記的自注鍵向量;e⑨)表示第1層第j個(gè)標(biāo)記的鍵向量;W(預(yù)訓(xùn)練權(quán)重;[0047]其中,q(表示在交叉注意力層第1層中的第a個(gè)查詢向量;k(')表示交叉注意力層1的第i個(gè)標(biāo)記的鍵向量;W(,h)表示在交叉注意力層1和頭h中的預(yù)訓(xùn)練權(quán)重矩陣;Ω表示[0050]其中,A表示平均注意力矩陣,L表示滿足查詢序列長度為256時(shí)的交叉注意力層11j個(gè)標(biāo)記的鍵向量之間的相似性;C.表示第i個(gè)和第k個(gè)標(biāo)記的鍵向量之間的相似性;A;表示交叉注意力矩陣中第a個(gè)查詢向量對(duì)第i個(gè)標(biāo)記的鍵向量的注意力權(quán)重;A;表示交叉注意力矩陣中第a個(gè)查詢向量對(duì)第j個(gè)標(biāo)記的鍵向量的注意力權(quán)重;N.表示交叉注意力層中查詢向量的長度;[0054]通過最小化交叉注意力圖的相似矩陣S和文本自注意力矩陣T之間的距離來優(yōu)化潛在噪聲Z,具體通過最小化以下?lián)p失函數(shù)來實(shí)現(xiàn):[0056]其中,L(z,)表示損失函數(shù);Pi表示權(quán)重系數(shù);T,表示文本自注意力矩陣T的元素,表示第i個(gè)和第j個(gè)標(biāo)記之間的自注意力權(quán)重;Y表示指數(shù);S,(z)表示交叉注意力相似性矩陣中的元素;[0057]通過梯度下降優(yōu)化潛在噪聲Z1,如下:[0059]其中,α表示學(xué)習(xí)率;表示潛在噪聲變量;V?L(z,)表示損失函數(shù)L(z,)對(duì)Z的梯度,用于更新潛在噪聲變量;z,表示通過梯度下降更新后的潛在噪聲變量;[0060]通過上述過程實(shí)現(xiàn)文本嵌入的語法關(guān)系有效轉(zhuǎn)移到交叉注意力中,使得再次生成的圖像和文本語義保持對(duì)齊。[0061]優(yōu)選的,優(yōu)化Stablediffusion再次生成圖像之后,還包括:返回S104,重新獲得[0063]文本微調(diào)語言模型構(gòu)建模塊,用于構(gòu)建基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型;[0064]文本自適應(yīng)調(diào)整模塊,用于將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)用戶輸入的針織相關(guān)文本進(jìn)行自適應(yīng)調(diào)整后的文本;[0065]圖像生成模塊,用于將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成對(duì)應(yīng)的圖像;[0066]得分獲取模塊,用于對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行視覺[0067]潛在噪聲變量優(yōu)化模塊,用于判斷若得分符合預(yù)期,輸出針織產(chǎn)品圖像;若得分不符合預(yù)期,通過最小化文本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪聲變[0069](1)本發(fā)明通過基于GFlowNet的語言模型微調(diào),使得語言模型能夠?qū)τ脩糨斎氲奈谋具M(jìn)行自適應(yīng)調(diào)整,使調(diào)整后的文本能夠準(zhǔn)確、多角度地描述針織產(chǎn)品的特征,為生成模型生成圖像提供有力保障;[0070](2)本發(fā)明通過大型視覺語言模型視覺反饋,對(duì)圖像生成模型進(jìn)行優(yōu)化,使得生成的圖像和輸入的文本語義保持一致,確保圖像和文本對(duì)齊,生成和文本一致的高質(zhì)量的針織圖像。附圖說明[0071]圖1為本發(fā)明實(shí)施例提供的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法的流程圖;[0072]圖2為本發(fā)明實(shí)施例提供的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法的詳細(xì)流程示意圖;[0073]圖3為本發(fā)明實(shí)施例提供的基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成裝置的結(jié)構(gòu)框圖;[0074]圖4為本發(fā)明實(shí)施例提供的電子設(shè)備的硬件結(jié)構(gòu)示意圖。具體實(shí)施方式[0075]下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說明而不用于限制本發(fā)明的范圍。此外應(yīng)理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書所限定的范圍。[0076]參見圖1和圖2所示,本實(shí)施例一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成[0077]一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,其特征在于,包括:[0078]S101,構(gòu)建基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文本進(jìn)行調(diào)節(jié)的語言模型。[0079]需要說明的是,此處的語言模型指只具備語言處理能力,主要用于文本生成任務(wù)的語言模型。[0080]使用預(yù)訓(xùn)練的語言模型作為初始模型P?(y|x);其中,x表示初始針織文本,y表示根據(jù)初始文本x生成改進(jìn)后的文本y(此處的改進(jìn)后的文本y指訓(xùn)練過程中每一步得到的文本),P。表示預(yù)訓(xùn)練的語言模型。該語言模型已經(jīng)在大規(guī)模文本數(shù)據(jù)上訓(xùn)練,具備理解和生成自然語言的能力。在此基礎(chǔ)上通過GFlowNet微調(diào)語言模型,把文本自適應(yīng)這個(gè)問題重新定義為概率推斷,即用概率的方法來預(yù)測(cè)如何調(diào)整文本。使用預(yù)訓(xùn)練的語言模型P?(y|x)作為初始策略。初始化GFlowNet的前向策略P和流函數(shù)F。輸入初始文本x,預(yù)訓(xùn)練的語言模型生成改進(jìn)后的文本y。將改進(jìn)后的文本y輸入文生圖模型Stablediffsion,生成圖像。[0081]需要說明的是,此處文生圖模型Stablediffsion只用于生成圖像,輸入文本進(jìn)來,輸出圖像出去。這一部分可以看做是對(duì)生成文本部分的優(yōu)化,因此在這里生成圖像,通過將獎(jiǎng)勵(lì)函數(shù)作為損失函數(shù)的一部分進(jìn)行優(yōu)化,調(diào)整語言模型參數(shù),使生成的文本能夠獲得更高的獎(jiǎng)勵(lì)值,從而使得語言模型能夠?qū)W習(xí)如何調(diào)整初始文本。[0082]通過獎(jiǎng)勵(lì)函數(shù)r(x,y)計(jì)算獎(jiǎng)勵(lì),其中獎(jiǎng)勵(lì)函數(shù)定義如下:[0088]上述處理使得能夠在每一步引入獎(jiǎng)勵(lì)函數(shù)分解得到的逐步的獎(jiǎng)勵(lì)信號(hào)來擴(kuò)展使[0090]其中,L(x,y;θ)表示總體損失函數(shù),用于衡量初始模型在生成文本y時(shí)的性能;L(x,y0+1;θ)表示每一步的局部損失函數(shù),用來評(píng)估在生成文本到t+1步時(shí)的性能;F?(y,lx,yo?-1)表示流函數(shù)在第t步的值;F(y+Ix,yo?)表示流函數(shù)在第t+1步的值;P?(y|x,yo;θ)表示前向策略在第[0091]通過最小化上述損失函數(shù),更新生成流網(wǎng)絡(luò)GFlow[0092]S102,將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)[0093]S103,將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成輸入的文本進(jìn)行自適應(yīng)調(diào)整。調(diào)整后的文本輸入預(yù)訓(xùn)練的文生圖模型S像。[0098]S104,對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是[0102]需要說明的是,本實(shí)施例的大型視覺語言模型可以為LVLM,結(jié)合[0107]其中,T“)表示文本編碼器的第1層和第h個(gè)頭中,第i個(gè)標(biāo)記對(duì)第j個(gè)標(biāo)記的自注[0108]為了得到最終的文本自注意力矩陣T2,b),對(duì)所有層和頭的自注意力矩陣進(jìn)行平注意力矩陣T’的元素;表示對(duì)第n行中從第2個(gè)元1的第i個(gè)標(biāo)記的鍵向量;W()表示在交叉注意力層1和頭h中的預(yù)訓(xùn)練權(quán)重矩陣;Ω表示記和第j個(gè)標(biāo)記的鍵向量之間的相似性;Ck表示第i個(gè)和第k個(gè)標(biāo)記的鍵向量之間的相似[0123]通過最小化交叉注意力圖的相似矩陣S和文本自注意力矩陣T之間的距離來優(yōu)化[0131]參見圖3所示,本發(fā)明還公開了一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生[0132]文本微調(diào)語言模型構(gòu)建模塊301,用于構(gòu)建基于生成流網(wǎng)絡(luò)GFlowNet的對(duì)輸入文[0133]文本自適應(yīng)調(diào)整模塊302,用于將接收到的用戶輸入的針織相關(guān)文本輸入經(jīng)訓(xùn)練的所述語言模型,獲得對(duì)用戶輸入的針織相關(guān)文本進(jìn)行自適應(yīng)調(diào)整后的文本;[0134]圖像生成模塊303,用于將自適應(yīng)調(diào)整后的文本輸入經(jīng)訓(xùn)練的文生圖模型Stablediffusion,生成對(duì)應(yīng)的圖像;[0135]得分獲取模塊304,用于對(duì)自適應(yīng)調(diào)整后的文本格式化為判斷生成的圖像與自適應(yīng)調(diào)整后的文本是否吻合的文本,將格式化文本和生成的圖像輸入大型視覺語言模型進(jìn)行[0136]潛在噪聲變量優(yōu)化模塊305,用于判斷若得分符合預(yù)期,輸出針織產(chǎn)品圖像;若得分不符合預(yù)期,通過最小化文本自注意力矩陣和交叉注意力相似性矩陣的距離優(yōu)化潛在噪[0137]一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成裝置各模塊的具體實(shí)現(xiàn)同一種基于文本調(diào)整與視覺反饋的針織產(chǎn)品圖像生成方法,本實(shí)施例不再重復(fù)說明。[0138]圖4所示為本發(fā)明實(shí)施例提供的電子設(shè)備的硬件結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例的電子設(shè)備包括:處理器401以及存儲(chǔ)器402;其中存儲(chǔ)器402,用于存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;處理器401,用于執(zhí)行存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)上述實(shí)施例中電子設(shè)備所執(zhí)行的各個(gè)步驟。具體可以參見前述方法實(shí)施例中的相關(guān)描述。[0139]可選地,存儲(chǔ)器402既可以是獨(dú)[0140]當(dāng)存儲(chǔ)器402獨(dú)立設(shè)置時(shí),該電子設(shè)備還包括總線403,用于連接存儲(chǔ)器402和處理[0141]本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,當(dāng)處理器401執(zhí)行計(jì)算機(jī)執(zhí)行指令時(shí),實(shí)現(xiàn)如上的方法。[0142]本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理[0143]在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)模塊可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或模塊的間接耦合或通信連接,可以是[0144]作為分離部件說明的模塊可以是或者也可以不是物理上分開的,作為模塊顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案。[0145]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能模塊可以集成在一個(gè)處理單元中,也可以是各個(gè)模塊單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上模塊集成在一個(gè)單元中。上述模塊形成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。[0146]上述以軟件功能模塊的形式實(shí)現(xiàn)的集成的模塊,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能模塊存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器401執(zhí)行本申請(qǐng)各個(gè)實(shí)施例方法的部分步驟。[0147]應(yīng)理解,上述處理器401可以是中央處理單元(CentralProcessingUnit,簡稱CPU),還可以是其他通用處理器、數(shù)字信號(hào)處理器(DigitalSignalProcessor,簡稱DSP)、專用集成電路(ApplicationSpecificIntegratedCircuit,簡稱ASIC)等。通用處理器可以是微處理器或者該處理器401也可以是任何常規(guī)的處理器401等。結(jié)合發(fā)明所公開的方法的步驟可以直接體現(xiàn)為硬件的處理器401執(zhí)行完成,或者用處理器401中的硬件及軟件模塊組合執(zhí)行完成。[0148]存儲(chǔ)器402可能包含高速RAM存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)NVM,例如至少一[0149]總線403可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(IndustryStandardArchitecture,簡稱ISA)、外部設(shè)備互連(PeripheralComponentInterconnect,簡稱PCI)總線或擴(kuò)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 某燈具廠成品庫存盤點(diǎn)管理規(guī)范
- 發(fā)動(dòng)機(jī)廠熱處理工藝規(guī)范
- 某模具廠毒害品管理規(guī)范
- 某輪胎廠困難職工幫扶辦法
- 2026云南昭通永善縣政務(wù)服務(wù)管理局招聘1人備考題庫附答案詳解(基礎(chǔ)題)
- 2026云南臨滄滄源佤族自治縣勐省中心衛(wèi)生院招聘村衛(wèi)生室工作人員5人備考題庫附答案詳解(鞏固)
- 2026中國礦業(yè)大學(xué)沐樂院士領(lǐng)銜城鄉(xiāng)發(fā)展與綠色轉(zhuǎn)型研究中心(URGT)特聘教授招聘1人備考題庫(江蘇)附答案詳解(突破訓(xùn)練)
- 2026上半年安徽事業(yè)單位聯(lián)考合肥新站高新區(qū)管委會(huì)招聘40人備考題庫附參考答案詳解(培優(yōu))
- 山東滕州市第一中學(xué)2026屆高一生物第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 真空測(cè)試工安全意識(shí)評(píng)優(yōu)考核試卷含答案
- 江蘇省鹽城市大豐區(qū)四校聯(lián)考2025-2026學(xué)年七年級(jí)上學(xué)期12月月考?xì)v史試卷(含答案)
- 文化IP授權(quán)使用框架協(xié)議
- 2024年廣西壯族自治區(qū)公開遴選公務(wù)員筆試試題及答案解析(綜合類)
- 湖北煙草專賣局招聘考試真題2025
- 人教部編五年級(jí)語文下冊(cè)古詩三首《四時(shí)田園雜興(其三十一)》示范公開課教學(xué)課件
- AI領(lǐng)域求職者必看美的工廠AI面試實(shí)戰(zhàn)經(jīng)驗(yàn)分享
- 4.2《揚(yáng)州慢》課件2025-2026學(xué)年統(tǒng)編版高中語文選擇性必修下冊(cè)
- 鄉(xiāng)鎮(zhèn)應(yīng)急管理培訓(xùn)
- 捻線工三級(jí)安全教育(公司級(jí))考核試卷及答案
- 學(xué)校智慧校園建設(shè)協(xié)議
- 上海市中考物理基礎(chǔ)選擇百題練習(xí)
評(píng)論
0/150
提交評(píng)論