CN115668219B 生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)(谷歌有限責任公司)_第1頁
CN115668219B 生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)(谷歌有限責任公司)_第2頁
CN115668219B 生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)(谷歌有限責任公司)_第3頁
CN115668219B 生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)(谷歌有限責任公司)_第4頁
CN115668219B 生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)(谷歌有限責任公司)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(65)同一申請的已公布的文獻號(85)PCT國際申請進入國家階段日(86)PCT國際申請的申請數(shù)據(jù)(87)PCT國際申請的公布數(shù)據(jù)(73)專利權(quán)人谷歌有限責任公司(74)專利代理機構(gòu)中原信達知識產(chǎn)權(quán)代理有限責任公司11219專利代理師鄧聰惠周亞榮GO6N生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)本公開提供了一種通過利用來自相關(guān)域的預(yù)訓(xùn)練GAN模型以及給定來自所述新域或目標域重吃和0021.一種用于對生成模型執(zhí)行域適應(yīng)的計算機實施的方法,所述方法包括:由包括一個或多個計算設(shè)備的計算系統(tǒng)獲得已在源域訓(xùn)練數(shù)據(jù)集上訓(xùn)練以在源域中生成輸出的預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò),其中所述預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)包括具有第一多個預(yù)訓(xùn)練參數(shù)的生成器模型和具有第二多個預(yù)訓(xùn)練參數(shù)的鑒別器模型;由所述計算系統(tǒng)修改所述預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)以獲得修改后的生成對抗網(wǎng)絡(luò),其中由所述計算系統(tǒng)修改所述預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)包括以下之一或兩者:由所述計算系統(tǒng)向所述生成器模型添加一個或多個第一附加參數(shù);以及由所述計算系統(tǒng)向所述鑒別器模型添加一個或多個第二附加參數(shù);由所述計算系統(tǒng)訪問與不同于所述源域的目標域相關(guān)聯(lián)的目標域訓(xùn)練數(shù)據(jù)集,其中:所述源域包括第一圖像域,并且所述目標域包括與所述第一圖像域不同的第二圖像所述源域包括具有種群通用圖像樣本的通用域,并且所述目標域包括具有用戶特定圖所述源域包括具有種群通用圖像樣本的通用域,并且所述目標域包括具有表現(xiàn)出在所述種群通用圖像樣本內(nèi)未被充分代表的特定特點的圖像樣本的未被充分代表域,或者所述源域包括具有通用面部圖像樣本的通用面部域,并且所述目標域包括具有表現(xiàn)出特定面部特點的圖像樣本的面部特點域;由所述計算系統(tǒng)在所述目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練所述修改后的生成對抗網(wǎng)絡(luò),以在所述目標域中生成輸出,其中由所述計算系統(tǒng)訓(xùn)練所述修改后的生成對抗網(wǎng)絡(luò)包括:由所述計算系統(tǒng)修改所述一個或多個第一附加參數(shù)或所述一個或多個第二附加參數(shù)中的至少一由所述計算系統(tǒng)輸出所述修改后的生成對抗網(wǎng)絡(luò)作為訓(xùn)練模型。2.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,所述目標域訓(xùn)練數(shù)據(jù)集包括所述目標域的25個或更少的目標訓(xùn)練示例。3.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,由所述計算系統(tǒng)修改所述一個或多個第一附加參數(shù)或所述一個或多個第二附加參數(shù)中的至少一個包括:由所述計算系統(tǒng)修改所述一個或多個第一附加參數(shù)或者所述一個或多個第二附加參數(shù)中的至少一個,同時保持所述第一多個預(yù)訓(xùn)練參數(shù)和所述第二多個預(yù)訓(xùn)練參數(shù)固定。4.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,由所述計算系統(tǒng)修改所述預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)包括以下兩者:由所述計算系統(tǒng)向所述生成器模型添加所述一個或多個第一附加參數(shù);以及由所述計算系統(tǒng)向所述鑒別器模型添加所述一個或多個第二附加參數(shù)。5.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,由所述計算系統(tǒng)在所述目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練所述修改后的生成對抗網(wǎng)絡(luò)包括:由所述計算系統(tǒng)對所述一個或多個第一附加參數(shù)或所述一個或多個第二附加參數(shù)的一個或多個范數(shù)應(yīng)用懲罰,以正則化所述一個或多個第一附加參數(shù)或所述一個或多個第二附加參數(shù)。6.根據(jù)權(quán)利要求5所述的計算機實施的方法,其中:所述一個或多個第一附加參數(shù)或者所述一個或多個第二附加參數(shù)被組織為多個組,所述多個組分別對應(yīng)于所述修改后的生成對抗網(wǎng)絡(luò)的多個層;并且由所述計算系統(tǒng)對所述一個或多個范數(shù)應(yīng)用所述懲罰包括:3由所述計算系統(tǒng)對所述多個組中的一個或多個組內(nèi)的相應(yīng)L2范數(shù)應(yīng)用第一懲罰;以及由所述計算系統(tǒng)對所述多個組中的兩個或更多個組之間的相應(yīng)L1范數(shù)應(yīng)用第二懲罰。7.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中:由所述計算系統(tǒng)向所述生成器模型添加所述一個或多個第一附加參數(shù)包括:由所述計算系統(tǒng)向所述生成器模型的第一卷積神經(jīng)網(wǎng)絡(luò)添加一個或多個并行殘差層;或者由所述計算系統(tǒng)向所述鑒別器模型添加所述一個或多個第二附加參數(shù)包括:由所述計算系統(tǒng)向所述鑒別器模型的第二卷積神經(jīng)網(wǎng)絡(luò)添加一個或多個并行殘差層。8.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,由所述計算系統(tǒng)在所述目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練所述修改后的生成對抗網(wǎng)絡(luò)包括:由所述計算系統(tǒng)應(yīng)用早期停止方案,所述早期停止方案測量生成樣本的多樣性和生成樣本的質(zhì)量兩者。9.根據(jù)權(quán)利要求1所述的計算機實施的方法,其中,由所述計算系統(tǒng)在所述目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練所述修改后的生成對抗網(wǎng)絡(luò)包括:由所述計算系統(tǒng)優(yōu)化最小最大目標函數(shù)。10.一種被配置為執(zhí)行權(quán)利要求1至9中的任一項所述方法的計算系統(tǒng)。11.一個或多個非瞬態(tài)計算機可讀介質(zhì),共同存儲已根據(jù)權(quán)利要求1至9中任一項所述的方法訓(xùn)練的修改后的生成對抗網(wǎng)絡(luò)。4生成對抗網(wǎng)絡(luò)中的少樣本域適應(yīng)[0001]本公開大體上涉及域適應(yīng)。更具體地,本公開涉及生成對抗網(wǎng)絡(luò)(generativeadversarialnetworks)中的少樣本(few-shot)域適應(yīng)。印本arXiv:1707.05776上發(fā)表的Optimizingthelatentspacenetworks(優(yōu)化生成網(wǎng)絡(luò)的潛在空間)),這可能由于使用像素損失而導(dǎo)致模糊樣本。同樣地,基于可逆流的模型已被示出適用于具有有限樣本的新域(參見Gambardella,A.、Baydin,A.G.、Torr,P.H.S.于2019年在arXiv上發(fā)表的Transf[0007]本公開的一個示例方面涉及一種用于執(zhí)行生成模型的域適應(yīng)的計算機實施的方對抗網(wǎng)絡(luò)包括以下之一或兩者:由計算系統(tǒng)向生成器模型添加一個或多個第一附加參數(shù);CN115668219B5[0008]本公開的其他方面涉及各種系統(tǒng)、裝置、非瞬態(tài)計算機可讀介質(zhì)、用戶界面和電子設(shè)備。[0010]參照所附附圖在本說明書中闡述涉及本領(lǐng)域的普通技術(shù)人員的實施例的詳細討[0011]圖1A至1B描繪了根據(jù)本公開的示例實施例的已經(jīng)受域適應(yīng)的生成對抗模型的示例使用。[0012]圖2A至2B描繪了根據(jù)本公開的示例實施例的預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)的圖形圖。[0013]圖2C至2D描繪了根據(jù)本公開的示例實施例的已經(jīng)受域適應(yīng)的生成對抗網(wǎng)絡(luò)的圖形圖。[0014]圖3A至3D描繪了根據(jù)本公開的示例實施例的示例適應(yīng)塊的圖形圖。[0015]圖4A至4B描繪了根據(jù)本公開的示例實施例的生成對抗網(wǎng)絡(luò)的域適應(yīng)過程的圖形[0016]圖5A至5B示出了根據(jù)本公開的示例實施例的示例實驗結(jié)果。[0017]圖6A描繪了根據(jù)本公開的示例實施例的示例計算系統(tǒng)的框圖。[0018]圖6B描繪了根據(jù)本公開的示例實施例的示例計算設(shè)備的框圖。[0019]圖6C描繪了根據(jù)本公開的示例實施例的示例計算設(shè)備的框圖。[0020]圖7描繪了根據(jù)本公開的示例實施例的對GAN執(zhí)行域適應(yīng)的示例方法的流程圖。[0021]跨多個附圖重復(fù)的附圖標記旨在標識各種實施方式中的相同特征。的示例實施方式利用來自相關(guān)域的預(yù)訓(xùn)練GAN模型,并且給定來自新域或目標域的目標示可以被適應(yīng)(例如通過向GAN添加一個或多個附加參數(shù)),并且在與不同于源域的目標域相關(guān)聯(lián)的目標域訓(xùn)練數(shù)據(jù)集上再訓(xùn)練。在再訓(xùn)練之后,修改后的GAN可以在目標域中生成輸6練的基礎(chǔ)模型,并且用殘差適應(yīng)器來演化基礎(chǔ)模型,以在目標域中生成圖像。[0025]與需要更高數(shù)量級的訓(xùn)練樣本的早期基于GAN的方法相比,本公開的各方面使得能夠在1至25個訓(xùn)練圖像的更為受限的設(shè)置中進行域轉(zhuǎn)移(例如可以被稱為“少樣本”學習)。具體地,提出了防止對小目標訓(xùn)練集過擬合的訓(xùn)練方法,通過利用預(yù)訓(xùn)練生成器所誘導(dǎo)的分布特點,產(chǎn)生可以在目標域中生成語義多樣圖像的模型。[0026]另外,所提出的方法還允許控制域之間的轉(zhuǎn)移和插值程度。例如,所提出的感知路徑梯度稀疏度度量可以被用于明確地測量潛在空間插值的平滑程度(從而與過擬合級別良好相關(guān))。通過監(jiān)測PPGS度量(或類似度量),當域之間的期望轉(zhuǎn)移或插值程度被達到時,模型再訓(xùn)練可以被停止。[0027]在一些實施方式中,所提出的方法使用了在源域上預(yù)訓(xùn)練的GAN模型,該源域是相關(guān)域或相對于目標域最近的可用域。例如,如果目標是合成未被充分代表的屬性的面部圖像(例如戴眼鏡的面部、有遮擋的面部),則在公開可用的面部圖像上預(yù)訓(xùn)練的GAN(例如不一定有具有這些未被充分代表屬性的任何大量圖像)可以被用作初始預(yù)訓(xùn)練模型。接下來,附加參數(shù)可以被添加到該預(yù)訓(xùn)練模型。這些附加參數(shù)可以使用來自新域的有限訓(xùn)練樣本(例如具有未被充分代表屬性的面部)來訓(xùn)練。例如,附加參數(shù)可以被訓(xùn)練,同時將原始參數(shù)保持凍結(jié)為預(yù)訓(xùn)練值。[0028]該過程的一個示例在圖2A至2D中描繪,其中這些附加參數(shù)被表示為針對生成器的別器。圖2C和2D描繪了經(jīng)由新引入的參數(shù)α和β對預(yù)訓(xùn)練模型進行的示例適應(yīng)。具有陰影的塊描繪了可訓(xùn)練參數(shù),并且沒有陰影的塊指示凍結(jié)參數(shù)。[0029]圖2B和2D還分別示出了預(yù)訓(xùn)練網(wǎng)絡(luò)和適應(yīng)網(wǎng)絡(luò)的生成器和鑒別器中的層的示例功能形式。在圖2D所圖示的示例中,附加濾波器被添加到每層中,每層的輸出在將輸出傳遞給非線性之前被添加到原始卷積濾波器的輸出。[0030]根據(jù)本公開的另一方面,一些示例實施方式還通過懲罰其范數(shù)(例如在再訓(xùn)練期間)來正則化新添加的參數(shù)(例如參數(shù)α和β)。這樣做使得新參數(shù)不過擬合到來自新域的有限訓(xùn)練數(shù)據(jù),并且生成映射和鑒別映射不移動得離它們的預(yù)訓(xùn)練對應(yīng)物太遠。在一些實施方式中,適應(yīng)參數(shù)的正則化懲罰可以被調(diào)諧或調(diào)整,以平衡過擬合(小懲罰)與模式崩潰(大懲罰)。[0031]各種范數(shù)可以被用于正則化,包括L1、L2和/或組范數(shù)。組范數(shù)可用于同時將參數(shù)組歸零。例如,與每層對應(yīng)的參數(shù)可以被收集在一起,以形成與層相對應(yīng)的組。從可解釋性的角度來看,這也有助于標識哪些層有助于適應(yīng)。一些示例實施方式還使用適應(yīng)器參數(shù)(例[0032]本公開的附加方面標識了跨域圖像合成中的常見度量鼓勵過擬合,并且提出了一種新的度量和評估方法,以平衡質(zhì)量和多樣性。例如,提供了平衡圖像的質(zhì)量與多樣性的模型選擇標準。作為一個示例,多樣性可以使用感知路徑梯度稀疏度(PPGS)度量來測量,并且質(zhì)量可以使用弗雷歇開始距離(FrechetInceptionDistance,FID)來測量。在一些實施方式中,PPGS度量可以被添加到損失,并且被直接優(yōu)化以鼓勵多樣性。在又其他實施方式中,多樣性可以經(jīng)由其他技術(shù)來鼓勵,其他技術(shù)諸如例如正則化生成器以取決于潛在代碼產(chǎn)生不同的輸出,如Yang等人于2019年在arXiv:1901.09024上發(fā)表的Diversity-sensitive7ConditionalGenerativeAdversarialNetworks(多樣性敏感的條件生成對抗網(wǎng)絡(luò))中描述的。[0033]一些示例實施方式還應(yīng)用了來自學習的概念,而不忘約束轉(zhuǎn)移的程度。這使圖像生成朝向看不見的域,同時保留多樣性。因此,所提出的技術(shù)允許在擬合目標數(shù)據(jù)集的特點的同時保留源數(shù)據(jù)集的不同模式。[0034]本公開的示例實施方式在少樣本設(shè)置中實現(xiàn)高質(zhì)量的多樣性圖像合成。具體地,本公開的示例實施方式已在轉(zhuǎn)移到Char75K、LSUN和動漫臉(Animeface)數(shù)據(jù)集時被驗證,展現(xiàn)出從英文字符→卡納達字符、教堂→塔、貓→狗和FFHQ→動漫的轉(zhuǎn)移。樣本質(zhì)量使用FID分數(shù)和使用學習感知圖像補丁相似性(LPISP)的多樣性來測量,并且觀察到所提出的方法在這些方面比基線有顯著改進。所提出的方法是首先在少樣本設(shè)置中展現(xiàn)出GAN域轉(zhuǎn)移。[0035]本公開的系統(tǒng)和方法可以被用于許多不同的應(yīng)用或用例。作為一個示例,域適應(yīng)可以被執(zhí)行以個性化GAN。例如,被訓(xùn)練以生成通用手寫、面部圖像和/或其他用戶不可知輸出的GAN可以在小型用戶特定數(shù)據(jù)集上再訓(xùn)練,以生成相同類型的個性化或用戶特定輸出(例如與用戶的相匹配的用戶特定手寫、面部圖像等)。[0036]另一示例應(yīng)用是為未被充分代表的屬性生成新的合成數(shù)據(jù)。例如,被訓(xùn)練以生成通用輸出的GAN可以在小型屬性特定數(shù)據(jù)集上再訓(xùn)練,以做出表現(xiàn)出具體屬性的個性化輸出。作為一個示例,該過程可以被用于將面部屬性擴展到未被充分代表的屬性,例如生成具有原始較大訓(xùn)練集中未被充分代表的屬性(例如紅色頭發(fā)顏色)的更多面部圖像。該示例使用也對公平性或解決訓(xùn)練集中的偏置有影響。例如,如果特定屬性在訓(xùn)練集中未被充分代表,則該方法可以被使用以為該未被充分代表的屬性生成更多合成圖像,從而減少訓(xùn)練集的偏置。該方法還可以被用于創(chuàng)建平衡或公平的評估集合,以提供良好覆蓋期望分布的度[0037]其他示例用例包括修改GAN以執(zhí)行樣式轉(zhuǎn)換、跨模態(tài)生成、將面部改變?yōu)閯勇蝾怺0038]本公開的系統(tǒng)和方法提供了若干技術(shù)效果和益處。作為一個示例技術(shù)效果,所提出的域適應(yīng)技術(shù)減少了為期望目標域獲得GAN而需要執(zhí)行的訓(xùn)練回合數(shù)。具體地,代替從頭完全訓(xùn)練新的GAN,已在相關(guān)域上預(yù)訓(xùn)練的GAN可以被再利用或適應(yīng),以在期望的目標域中提供輸出,相對于從頭訓(xùn)練新GAN,這需要的總體訓(xùn)練回合數(shù)要少得多。以這種方式,在模型訓(xùn)練或訓(xùn)練數(shù)據(jù)收集將花費的計算資源可以被節(jié)省,從而減少諸如處理器使用、存儲器使用和/或網(wǎng)絡(luò)帶寬等計算資源的消耗。[0039]類似地,所提出的域適應(yīng)技術(shù)允許GAN在少樣本設(shè)置中被學習,諸如當只有相對較少數(shù)量的訓(xùn)練示例可用于目標域時。需要從頭訓(xùn)練新的GAN的先前方法在該設(shè)置中將不提供任何有意義的模型能力。然而,通過使能來自相關(guān)域的適應(yīng),本技術(shù)使得高性能模型能夠在該設(shè)置中被學習,這表示少樣本設(shè)置中的計算系統(tǒng)的改進的性能和功能性。[0040]因此,本公開提出了一種用于GAN設(shè)置中的少樣本域適應(yīng)的訓(xùn)練方法、架構(gòu)和評估度量。我們展現(xiàn)出GAN域轉(zhuǎn)移設(shè)置的現(xiàn)有度量的問題,并且使用我們的早期停止評估度量在各種轉(zhuǎn)移設(shè)置中展現(xiàn)出改進的性能。[0041]用于域適應(yīng)的示例技術(shù)[0042]本章節(jié)首先描述了基線的構(gòu)造,并且然后詳述了少樣本圖像合成的架構(gòu)和訓(xùn)練方8[0044]轉(zhuǎn)移GAN:一個示例基線是在以下論文中的StyleGAN2架構(gòu)中使用的微調(diào)方法:Wang等人于2018年在ECCV上發(fā)表的Transferringgans:generatingimagesfromlimiteddata(轉(zhuǎn)移gan:從有限數(shù)據(jù)生成圖像)。注意,作者沒有在少樣本設(shè)置中驗證結(jié)果。示例實驗發(fā)現(xiàn),重復(fù)其訓(xùn)練程序?qū)е聦ι贅颖緮?shù)據(jù)集的過擬合。[0045]縮放和移位:另一示例基線是在以下論文中的StyleGAN2架構(gòu)中使用的縮放和移位方法:Noguchi等人于2019年在ICCV上發(fā)表的Imagegenerationfromsmalldatasetsviabatchstatisticsadaptations(經(jīng)由批量統(tǒng)計適應(yīng)從小數(shù)據(jù)集生成圖像)。該論文報告了縮放和移位GAN的低質(zhì)量結(jié)果。示例實驗還發(fā)現(xiàn),即使用了精煉的訓(xùn)練方法,該方法與其他模型相比也表現(xiàn)不佳。[0046]圖3A至3D示出了示例適應(yīng)塊,它表示用于適應(yīng)新域的卷積層設(shè)計的多個不同示例選項。圖3A:為了在新域上學習生成模型,可以通過使用隨機初始化的卷積層權(quán)重從頭訓(xùn)練模型。圖3B:轉(zhuǎn)移GAN使用目標域中的可用樣本微調(diào)預(yù)訓(xùn)練模型。圖3C:縮放和移位通過縮放和移位特征通道(同時凍結(jié)預(yù)訓(xùn)練模型的權(quán)重)來適應(yīng)批量統(tǒng)計。圖3D:殘差適應(yīng)器將一個或多個并行卷積添加到網(wǎng)絡(luò)的一個或多個層,諸如所示的1x1卷積。本公開的一些示例實施方式使用圖3D所示的殘差適應(yīng)器工作。[0048]本公開的示例方面提供了用于在GAN設(shè)置中的少樣本域轉(zhuǎn)移的系統(tǒng)和方法,這在關(guān)于GAN域轉(zhuǎn)移的先前工作中尚未解決。在一些實施方式中,網(wǎng)絡(luò)的容量可以通過凍結(jié)預(yù)訓(xùn)練權(quán)重并且訓(xùn)練有限數(shù)量的自適應(yīng)域特定權(quán)重來限制。附加地,一些示例實施方式基于多樣性和質(zhì)量度量之間的權(quán)衡使用早期停止,以保留預(yù)訓(xùn)練網(wǎng)絡(luò)的多樣性。示例預(yù)訓(xùn)練模型提供表示關(guān)于它希望轉(zhuǎn)移到的數(shù)據(jù)集的猜測的先驗。出于此原因,選擇其分布與目標數(shù)據(jù)集相對類似的高質(zhì)量預(yù)訓(xùn)練模型可以提高域轉(zhuǎn)移的性能。D在大量示例可用的數(shù)據(jù)集上進行預(yù)訓(xùn)練(例如所圖示示例中的LSUN教堂)。一些實施方式遵循StyleGAN中的訓(xùn)練過程(Karras等人于2019年在CVPR上發(fā)表的Astyle-basedgeneratorarchitectureforgenerativeadversarialnetworks(用于生成對抗網(wǎng)絡(luò)的基于樣式的生成器架構(gòu))),并且更新用陰影示出的塊中的權(quán)重。圖4B示出了適應(yīng)階段,在一些示例中,通過獲取預(yù)訓(xùn)練模型,凍結(jié)其模型權(quán)重,并且插入附加參數(shù)——諸如例如模型中的一個或多個卷積層的并行(可學習)卷積層,預(yù)訓(xùn)練模型被適應(yīng)到新域。在一些實施方式中,1×1卷積層針對一些或所有卷積層被插入。然后這些附加的新卷積層可以使用少數(shù)目標示例(例如所圖示示例中的LSUN塔)來適應(yīng)。一些示例實施方式還使用新的度量來確定用于防止模式崩潰的最優(yōu)停止標準。[0051]本公開的一些示例實施方式限制了網(wǎng)絡(luò)的容量。例如,本公開的一些示例實施方式使用殘差適應(yīng)器,它具有附加參數(shù)并且可以執(zhí)行特定于實例的空間變化變換。示例實驗展現(xiàn)出,與縮放和移位基線相比,這種提高的表達能力導(dǎo)致更高質(zhì)量的圖像。還發(fā)現(xiàn),與轉(zhuǎn)移GAN基線相比,自適應(yīng)參數(shù)的有限容量防止了在少樣本體制中的過擬合。9[0052]示例早期停止[0053]本公開的一些示例實施方式基于多樣性和質(zhì)量之間的權(quán)衡使用早期停止方法。針對圖像質(zhì)量的評估,F(xiàn)ID可以被使用,其測量生成的圖像和真實圖像之間的分布距離(參見MartinHeusel、HubertRamsauer、T.U.B.N.S.H.于2017年在NeurIPS上發(fā)表的Ganstrainedbyatwotime-scaleupdaterule(由兩個時間尺度更新規(guī)則訓(xùn)練的Gan收斂到局部納什均衡))。[0054]然而,F(xiàn)ID無法充分懲罰過擬合。盡管最優(yōu)FID分數(shù)出現(xiàn)在t>100時(參見圖5A),但潛在空間中的插值展現(xiàn)出突變模式移位。與真實的比較驗證了模型與訓(xùn)練數(shù)據(jù)緊密對應(yīng)。[0055]鑒于以上內(nèi)容,本公開提出了感知路徑梯度稀疏度(PPGS),一種用于通過量化這些突變模式移位來測量過擬合的新度量。在過擬合的情況下,潛在空間中沿著連續(xù)路徑的感知距離的梯度將趨向于兩種模式:接近零或非常大。為了量化這種現(xiàn)象,基尼指數(shù)可以被使用,該指數(shù)測量分布內(nèi)的統(tǒng)計離散度或稀疏度。Hurley,N.、Rickard,S.于2009年在IEEE信息理論匯刊55(10),4723{4741上發(fā)表的Comparingmeasuresofsparsity(比較稀疏度測度)。為了計算PPGS,若干感知路徑梯度可以被隨機采樣:[0057]其中Z?,Z,~N(0,1)是輸入到生成器的隨機向量,P是來自Zhang等人于2018年在metric(深度特征作為感知度量的不合理有效性)的感知距離模型,并且ε是潛在空間中的標量距離。PPGS可以通過使用基尼指數(shù)測量感知路徑梯度的稀疏度來計算:[0059]針對非負平均值E[S],PPGS有界[0,1],并且針對負E[S],PPGS可能更大。越大的值越稀疏,指示過擬合。該度量可以被用于確定訓(xùn)練的停止點。[0060]為了提供示例圖示,圖5A和5B示出了通過感知路徑梯度稀疏度(PPGS)測量過擬常使用的FID分數(shù)無法充分反映過擬合的程度。FID分數(shù)在訓(xùn)練時間步長內(nèi)持續(xù)下降。然而,通過潛在空間插值,突然轉(zhuǎn)變可以使用平滑插值的潛在特征在生成的圖像中觀察到。這表明訓(xùn)練后的模型遭受模式崩潰(無法捕獲樣本分布的空間)。另一方面,所提出的感知路徑梯度稀疏度度量明確地測量潛在空間插值的平滑程度(從而與過擬合級別良好相關(guān))。兩個度量越低越好。[0061]來自學習而不遺忘的示例想法[0062]本公開的一些示例實施方式將來自學習而不遺忘的概念適應(yīng)于少樣本圖像合成算網(wǎng)絡(luò)的每層處的殘差偏置,它被添加到凍結(jié)的預(yù)訓(xùn)練權(quán)重。應(yīng)用于少樣本域轉(zhuǎn)移設(shè)置的這個想法可以操作以限制對目標集的過擬合。[0063]示例實施方式細節(jié)[0064]StyleGAN2架構(gòu)和對應(yīng)的預(yù)訓(xùn)練檢查點可以被用作基礎(chǔ)。殘差適應(yīng)器可以被實施為與網(wǎng)絡(luò)中的每個現(xiàn)有卷積并行的殘差1x1卷積??s放和移位GAN基線可以在每次卷積之后被實施為可訓(xùn)練縮放和移位操作。[0066]訓(xùn)練。更大數(shù)據(jù)集的s樣本子集可以被創(chuàng)建以進行訓(xùn)練。例如,鏡像增強可以被用于塔、狗和動漫臉數(shù)據(jù)集。學習率可以被降低以防止不穩(wěn)定和過擬合,并且看到的訓(xùn)練圖像的最大數(shù)量可以被減少到500K。其他訓(xùn)練細節(jié)可以與StyleGAN2相匹配。以相對于大數(shù)據(jù)集X進行測量,少樣本訓(xùn)練數(shù)據(jù)X從其采樣。[0068]示例設(shè)備和系統(tǒng)[0069]圖6A描繪了根據(jù)本公開的示例實施例的示例計算系統(tǒng)100的框圖。系統(tǒng)100包括通過網(wǎng)絡(luò)180通信耦合的用戶計算設(shè)備102、服務(wù)器計算系統(tǒng)130和訓(xùn)練計算系統(tǒng)150。[0070]用戶計算設(shè)備102可以是任何類型的計算設(shè)備,諸如例如個人計算設(shè)備(例如膝上型計算機或臺式計算機)、移動計算設(shè)備(例如智能手機或平板計算機)、游戲機或控制器、可穿戴計算設(shè)備、嵌入式計算設(shè)備或者任何其他類型的計算設(shè)備。[0071]用戶計算設(shè)備102包括一個或多個處理器112和存儲器114。一個或多個處理器112可以是任何合適的處理設(shè)備(例如處理器核心、微處理器、ASIC、FPGA、控制器、微控制器等),并且可以是一個處理器或者被操作地連接的多個處理器。存儲器114可以包括一個或合。存儲器114可以存儲數(shù)據(jù)116和指令118,該數(shù)據(jù)116和指令118由處理器112執(zhí)行以使用戶計算設(shè)備102執(zhí)行操作。[0072]在一些實施方式中,用戶計算設(shè)備102可以存儲或包括一個或多個機器學習模型120。例如,機器學習模型120可以是或者可以以其他方式包括各種機器學習模型,諸如神經(jīng)網(wǎng)絡(luò)(例如深度神經(jīng)網(wǎng)絡(luò))或者其他類型的機器學習模型,包括非線性模型和/或線性模型。神經(jīng)網(wǎng)絡(luò)可以包括前饋神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)(例如長短期記憶遞歸神經(jīng)網(wǎng)絡(luò))、卷積神經(jīng)網(wǎng)絡(luò)或者其他形式的神經(jīng)網(wǎng)絡(luò)。[0073]在一些實施方式中,一個或多個機器學習模型120可以通過網(wǎng)絡(luò)180從服務(wù)器計算系統(tǒng)130接收,被存儲在用戶計算設(shè)備存儲器114中,并且然后由一個或多個處理器112使用或以其他方式實施。在一些實施方式中,用戶計算設(shè)備102可以實施單個機器學習模型120的多個并行實例。[0074]附加地或備選地,一個或多個機器學習模型140可以被包括或者以其他方式存儲在服務(wù)器計算系統(tǒng)130中并且由服務(wù)器計算系統(tǒng)130實施,該服務(wù)器計算系統(tǒng)130根據(jù)客戶端-服務(wù)器關(guān)系與用戶計算設(shè)備102通信。例如,機器學習模型140可以由服務(wù)器計算系統(tǒng)140實施為web服務(wù)的一部分。因此,一個或多個模型120可以被存儲和實施在用戶計算設(shè)備102處和/或一個或多個模型140可以被存儲和實施在服務(wù)器計算系統(tǒng)130處。[0075]用戶計算設(shè)備102還可以包括接收用戶輸入的一個或多個用戶輸入組件122。例如,用戶輸入組件122可以是對用戶輸入對象(例如手指或手寫筆)的觸摸敏感的觸敏組件11(例如觸敏顯示屏或觸摸板)。觸敏組件可以用于實施虛擬鍵盤。其他示例用戶輸入組件包括麥克風、傳統(tǒng)鍵盤或者用戶可以提供用戶輸入的其他部件。[0076]服務(wù)器計算系統(tǒng)130包括一個或多個處理器132和存儲器134。一個或多個處理器等),并且可以是一個處理器或者被操作地連接的多個處理器。存儲器134可以包括一個或合。存儲器134可以存儲數(shù)據(jù)136和指令138,該數(shù)據(jù)136和指令138由處理器132執(zhí)行以使服務(wù)器計算系統(tǒng)130執(zhí)行操作。[0077]在一些實施方式中,服務(wù)器計算系統(tǒng)130包括一個或多個服務(wù)器計算設(shè)備,或者以其他方式由其實施。在服務(wù)器計算系統(tǒng)130包括多個服務(wù)器計算設(shè)備的實例中,這種服務(wù)器計算設(shè)備可以根據(jù)順序計算架構(gòu)、并行計算架構(gòu)或其某種組合來操作。[0078]如上所述,服務(wù)器計算系統(tǒng)130可以存儲或以其他方式包括一個或多個機器學習模型140。例如,模型140可以是或可以以其他方式包括各種機器學習模型。示例機器學習模型包括神經(jīng)網(wǎng)絡(luò)或者其他多層非線性模型。示例神經(jīng)網(wǎng)絡(luò)包括前饋神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)[0079]用戶計算設(shè)備102和/或服務(wù)器計算系統(tǒng)130可以經(jīng)由與訓(xùn)練計算系統(tǒng)150的交互來訓(xùn)練模型120和/或140,該訓(xùn)練計算系統(tǒng)150通過網(wǎng)絡(luò)180被通信耦合。訓(xùn)練計算系統(tǒng)150可以與服務(wù)器計算系統(tǒng)130分離,并且可以是服務(wù)器計算系統(tǒng)130的一部分。[0080]訓(xùn)練計算系統(tǒng)150包括一個或多個處理器152和存儲器154。一個或多個處理器152可以是任何合適的處理設(shè)備(例如處理器核心、微處理器、ASIC、FPGA、控制器、微控制器等),并且可以是一個處理器或者被操作地連接的多個處理器。存儲器154可以包括一個或合。存儲器154可以存儲數(shù)據(jù)156和指令158,該數(shù)據(jù)156和指令158由處理器152執(zhí)行以使訓(xùn)練計算系統(tǒng)150執(zhí)行操作。在一些實施方式中,訓(xùn)練計算系統(tǒng)150包括一個或多個服務(wù)器計[0081]訓(xùn)練計算系統(tǒng)150可以包括模型訓(xùn)練器160,它使用諸如例如誤差的反向傳播的各種訓(xùn)練或?qū)W習技術(shù)來訓(xùn)練存儲在用戶計算設(shè)備102和/或服務(wù)器計算系統(tǒng)130處的機器學習模型120和/或140。例如,損失函數(shù)可以通過模型來反向傳播,以更新模型的一個或多個參數(shù)(例如基于損失函數(shù)的梯度)。各種損失函數(shù)可以被使用,諸如均方誤差、似然損失、交叉熵損失、鉸鏈損失和/或各種其他損失函數(shù)。梯度下降技術(shù)可以被用于通過若干訓(xùn)練迭代來迭代地更新參數(shù)。[0082]在一些實施方式中,執(zhí)行誤差的反向傳播可以包括通過時間執(zhí)行截斷反向傳播。模型訓(xùn)練器160可以執(zhí)行若干泛化技術(shù)(例如權(quán)重衰減、信息漏失等)以提高被訓(xùn)練的模型的泛化能力。[0083]具體地,模型訓(xùn)練器160可以基于訓(xùn)練數(shù)據(jù)162的集合來訓(xùn)練機器學習模型120和/或140.訓(xùn)練數(shù)據(jù)162可以包括例如分別來自源域和目標域的樣本。[0084]在一些實施方式中,如果用戶已經(jīng)提供了同意,則訓(xùn)練示例可以由用戶計算設(shè)備102提供。因此,在這種實施方式中,提供給用戶計算設(shè)備102的模型120可以由訓(xùn)練計算系統(tǒng)150在從用戶計算設(shè)備102接收的用戶特定數(shù)據(jù)上訓(xùn)練。在一些實例中,該過程可以被稱為使模型個性化。[0085]模型訓(xùn)練器160包括用于提供期望功能性的計算機邏輯。模型訓(xùn)練器160可以被實施在控制通用處理器的硬件、固件和/或軟件中。例如,在一些實施方式中,模型訓(xùn)練器160包括存儲在存儲設(shè)備上、加載到存儲器中并且由一個或多個處理器執(zhí)行的程序文件。在其他實施方式中,模型訓(xùn)練器160包括被存儲在諸如RAM硬盤或者光學或磁性介質(zhì)的有形計算機可讀存儲介質(zhì)中的計算機可執(zhí)行指令的一個或多個集合。[0086]網(wǎng)絡(luò)180可以是任何類型的通信網(wǎng)絡(luò),諸如局域網(wǎng)(例如內(nèi)聯(lián)網(wǎng))、廣域網(wǎng)(例如互聯(lián)網(wǎng))或其某種組合,并且可以包括任何數(shù)量的有線或無線鏈路。通常,通過網(wǎng)絡(luò)180的通信可以經(jīng)由任何類型的有線和/或無線連接,使用各種通信協(xié)議(例如TCP/IP、HTTP、SMTP、[0087]圖6A圖示了可以被用于實施本公開的一個示例計算系統(tǒng)。其他計算系統(tǒng)也可以被使用。例如,在一些實施方式中,用戶計算設(shè)備102可以包括模型訓(xùn)練器160和訓(xùn)練數(shù)據(jù)162。在這種實施方式中,模型120可以在用戶計算設(shè)備102處被訓(xùn)練和本地使用。在這種實施方式中的一些實施方式中,用戶計算設(shè)備102可以實施模型訓(xùn)練器160以基于用戶特定數(shù)據(jù)對模型120進行個性化。[0088]圖6B描繪了根據(jù)本公開的示例實施例執(zhí)行的示例計算設(shè)備10的框圖。計算設(shè)備10可以是用戶計算設(shè)備或服務(wù)器計算設(shè)備。[0089]計算設(shè)備10包括若干應(yīng)用(例如應(yīng)用1至N)。每個應(yīng)用包含自己的機器學習庫和機器學習模型。例如,每個應(yīng)用都可以包括機器學習模型。示例應(yīng)用包括文本消息應(yīng)用、電子[0090]如圖6B所圖示的,每個應(yīng)用可以與計算設(shè)備的若干其他組件通信,諸如例如一個或多個傳感器、上下文管理器、設(shè)備狀態(tài)組件和/或附加組件??梢允褂肁PI(例如公共API)與每個設(shè)備組件通信。在一些實施方式中,由每個應(yīng)用使用的API都特定于該應(yīng)用。[0091]圖6C描繪了根據(jù)本公開的示例實施例執(zhí)行的示例計算設(shè)備50的框圖。計算設(shè)備50可以是用戶計算設(shè)備或服務(wù)器計算設(shè)備。[0092]計算設(shè)備50包括若干應(yīng)用(例如應(yīng)用1至N)。每個應(yīng)用都與中央智能層通信。示例施方式中,每個應(yīng)用都可以使用API(例如跨所有應(yīng)用的公共API)與中央智能層(以及存儲在其中的模型)通信。[0093]中央智能層包括若干機器學習模型。例如,如圖6C所圖示的,相應(yīng)的機器學習模型(例如模型)可以針對每個應(yīng)用提供,并且由中央智能層管理。在其他實施方式中,兩個或更多個應(yīng)用可以共享單個機器學習模型。例如,在一些實施方式中,中央智能層可以為所有應(yīng)用提供單個模型(例如單個模型)。在一些實施方式中,中央智能層被包括在計算設(shè)備50的操作系統(tǒng)內(nèi)或以其他方式由其實施。[0094]中央智能層可以與中央設(shè)備數(shù)據(jù)層通信。中央設(shè)備數(shù)據(jù)層可以是計算設(shè)備50的數(shù)據(jù)的集中儲存庫。如圖6C所圖示的,中央設(shè)備數(shù)據(jù)可以與計算設(shè)備的若干其他組件,諸如例如一個或多個傳感器、上下文管理器、設(shè)備狀態(tài)組件和/或附加組件通信。在一些實施方式中,中央設(shè)備數(shù)據(jù)層可以使用API(例如私有API)與每個設(shè)備組件通信。[0096]圖7描繪了根據(jù)本公開的示例實施例的對GAN執(zhí)行域適應(yīng)的示例方法700的流程圖。盡管出于圖示和討論的目的,圖7描繪了以特定順序執(zhí)行的步驟,但本公開的方法不被限于具體圖示的順序或布置。在不偏離本公開的范圍的情況下,方法700的各個步驟可以以[0097]在702中,該方法可以包括:由包括一個或多個計算設(shè)備的計算系統(tǒng)獲得已在源域訓(xùn)練數(shù)據(jù)集上訓(xùn)練以在源域中生成輸出的預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)。預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)可以包括具有第一多個預(yù)訓(xùn)練參數(shù)的生成器模型和具有第二多個預(yù)訓(xùn)練參數(shù)的鑒別器模型。[0098]在704中,該方法可以包括:由計算系統(tǒng)修改預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)以獲得修改后的生成對抗網(wǎng)絡(luò)。由計算系統(tǒng)修改預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)可以包括以下之一或兩者:由計算系統(tǒng)向生成器模型添加一個或多個第一附加參數(shù);以及由計算系統(tǒng)向鑒別器模型添加一個或多個第二附加參數(shù)。[0099]在一些實施方式中,由計算系統(tǒng)修改預(yù)訓(xùn)練生成對抗網(wǎng)絡(luò)可以包括以下兩者:由計算系統(tǒng)向生成器模型添加一個或多個第一附加參數(shù);以及由計算系統(tǒng)向鑒別器模型添加一個或多個第二附加參數(shù)。[0100]在一些實施方式中,由計算系統(tǒng)向生成器模型添加一個或多個第一附加參數(shù)可以包括:由計算系統(tǒng)向生成器模型的第一卷積神經(jīng)網(wǎng)絡(luò)添加一個或多個并行殘差層。在一些實施方式中,由計算系統(tǒng)向鑒別器模型添加一個或多個第二附加參數(shù)可以包括:由計算系統(tǒng)向鑒別器模型的第二卷積神經(jīng)網(wǎng)絡(luò)添加一個或多個并行殘差層。[0101]在706中,該方法可以包括:由計算系統(tǒng)訪問與不同于源域的目標域相關(guān)聯(lián)的目標域訓(xùn)練數(shù)據(jù)集。[0102]在一些實施方式中,目標域訓(xùn)練數(shù)據(jù)集包括目標域的25個或更少的目標訓(xùn)練示例。[0103]在一些實施方式中,源域包括第一圖像域,并且目標域包括不同于第一圖像域的第二圖像域。[0104]在一些實施方式中,源域包括具有種群通用樣本的通用域,并且目標域包括具有用戶特定樣本的個性化域。[0105]在一些實施方式中,源域包括具有種群通用樣本的通用域,并且目標域包括具有表現(xiàn)出在種群通用樣本內(nèi)未被充分代表的特定特點的樣本的未被充分代表域。[0106]在一些實施方式中,源域包括具有通用面部圖像樣本的通用面部域,并且目標域包括具有表現(xiàn)出特定面部特點的圖像樣本的面部特點域。[0107]在708中,該方法可以包括:由計算系統(tǒng)在目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練修改后的生成對抗網(wǎng)絡(luò),以在目標域中生成輸出。由計算系統(tǒng)訓(xùn)練修改后的生成對抗網(wǎng)絡(luò)可以包括:由計算系統(tǒng)修改一個或多個第一附加參數(shù)或一個或多個第二附加參數(shù)中的至少一個。[0108]在一些實施方式中,由計算系統(tǒng)修改一個或多個第一附加參數(shù)或一個或多個第二附加參數(shù)中的至少一個可以包括:由計算系統(tǒng)修改一個或多個第一附加參數(shù)或者一個或多個第二附加參數(shù)中的至少一個,同時保持第一多個預(yù)訓(xùn)練參數(shù)和第二多個預(yù)訓(xùn)練參數(shù)固[0109]在一些實施方式中,由計算系統(tǒng)在目標域訓(xùn)練數(shù)據(jù)集上訓(xùn)練修改后的生成對抗網(wǎng)絡(luò)可以包括:由計算系統(tǒng)對一個或多個第一附加參數(shù)或一個或多個第二附加參數(shù)的一個或多個范數(shù)應(yīng)用懲罰,以正則化一個或多個第一附加參數(shù)或一個或多個第二附加參數(shù)。[0110]在一些實施方式中,一個或多個第一附加參數(shù)或者一個或多個第二附加參數(shù)可以被組織為多個組,這些組分別對應(yīng)于修改后的生成對抗網(wǎng)絡(luò)的多個層。在這種實施方式中的一些實施方式中,由計算系統(tǒng)對一個或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論