生成式視覺模型原理與實(shí)踐 課件 第4章 生成對(duì)抗網(wǎng)絡(luò)_第1頁
生成式視覺模型原理與實(shí)踐 課件 第4章 生成對(duì)抗網(wǎng)絡(luò)_第2頁
生成式視覺模型原理與實(shí)踐 課件 第4章 生成對(duì)抗網(wǎng)絡(luò)_第3頁
生成式視覺模型原理與實(shí)踐 課件 第4章 生成對(duì)抗網(wǎng)絡(luò)_第4頁
生成式視覺模型原理與實(shí)踐 課件 第4章 生成對(duì)抗網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩232頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生成式視覺模型

原理與實(shí)踐9:44:46下午1第4章生成對(duì)抗網(wǎng)絡(luò)

(1)基礎(chǔ)模型9:44:46下午2主要內(nèi)容原始GAN模型條件GAN模型9:44:46下午33.代碼示例1.原始GAN模型生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN),由Ian

Goodfellow等人于2014年最先提出,在本課程中被稱作原始GAN模型

[GOODFELLOWetal.,2014]。9:44:46下午41.原始GAN模型YannLeCun(楊立昆)稱生成式對(duì)抗網(wǎng)絡(luò)為“機(jī)器學(xué)習(xí)這二十年來最酷的想法”。9:44:46下午59:44:46下午6生成對(duì)抗網(wǎng)絡(luò)大家族網(wǎng)絡(luò)條件損失正則化小樣本1.原始GAN模型模型結(jié)構(gòu)損失函數(shù)如何理解生成器理論最優(yōu)判別器9:44:46下午7為什么GAN是生成模型?梯度消失問題模式坍縮問題符號(hào)約定9:44:46下午8符號(hào)含義符號(hào)含義真實(shí)圖像所服從概率分布的密度函數(shù),一般簡稱為真實(shí)分布或數(shù)據(jù)分布虛假圖像所服從概率分布的密度函數(shù),一般簡稱模型分布或生成數(shù)據(jù)分布噪聲,一般為高斯噪聲噪聲分布的密度函數(shù)模型結(jié)構(gòu):生成器與判別器

9:44:46下午9模型結(jié)構(gòu):生成器與判別器生成器:判別器:9:44:46下午10網(wǎng)絡(luò)結(jié)構(gòu):全連接網(wǎng)絡(luò)9:44:46下午11網(wǎng)絡(luò)結(jié)構(gòu):卷積網(wǎng)絡(luò)9:44:46下午12生成器判別器對(duì)抗式訓(xùn)練

9:44:46下午13理論訓(xùn)練目標(biāo):判別器

9:44:46下午14其中理論訓(xùn)練目標(biāo):判別器9:44:46下午15交叉熵?fù)p失對(duì)抗損失(AdversarialLoss)等價(jià)如何推導(dǎo)?理論訓(xùn)練目標(biāo):判別器

9:44:46下午16理論訓(xùn)練目標(biāo):判別器示例:推導(dǎo)第一項(xiàng)作業(yè):完整推導(dǎo)9:44:46下午17理論訓(xùn)練目標(biāo):生成器與判別器的訓(xùn)練目標(biāo)相反,生成器的目的是生成足以讓判別器無法區(qū)分的假圖,即讓判別器“錯(cuò)誤地”為這張假圖賦予一個(gè)較高的概率。9:44:46下午18形式1形式2梯度性質(zhì)更好,更易優(yōu)化理論損失函數(shù)判別器生成器9:44:46下午19理論損失函數(shù)博弈論角度:“最小化最大化游戲”9:44:46下午20經(jīng)驗(yàn)損失函數(shù)9:44:46下午21問題:理論損失中的期望無法計(jì)算!經(jīng)驗(yàn)損失函數(shù)

9:44:46下午229:44:46下午23訓(xùn)練算法如何理解生成器?

9:44:46下午24“多對(duì)一”的映射理論最優(yōu)判別器

9:44:46下午25為什么GAN是生成模型?對(duì)抗損失(AdversarialLoss)9:44:46下午26

復(fù)習(xí):什么是生成式建模?9:44:46下午27

復(fù)習(xí):密度估計(jì)的方法9:44:46下午28

復(fù)習(xí):KL散度和JS散度9:44:46下午29KL散度JS散度為什么GAN是生成模型?最優(yōu)判別器生成器的目標(biāo)函數(shù)9:44:46下午30帶入為什么GAN是生成模型?9:44:46下午31為什么GAN是生成模型?9:44:46下午32為什么GAN是生成模型?9:44:46下午33哪來的?為什么GAN是生成模型?9:44:46下午34

為什么GAN是生成模型?9:44:46下午35為什么GAN是生成模型?9:44:46下午36為什么GAN是生成模型?9:44:46下午37為什么GAN是生成模型?

9:44:46下午38Jensen-Shannondivergence(JS散度)

一個(gè)簡單的例子9:44:46下午39MNIST:70,00028x28gray-scaleimagesfrom10classes(i.e.,10digits).100examplerealimagesfromMNIST網(wǎng)絡(luò)結(jié)構(gòu)9:44:46下午40GAN模型的兩大著名問題梯度消失問題模式坍縮問題9:44:46下午41梯度消失問題:含義GAN模型的梯度消失問題是指在GAN的訓(xùn)練過程中,梯度在反向傳播到生成器時(shí)逐漸變得非常小,甚至接近于零,導(dǎo)致生成器的參數(shù)更新非常緩慢或幾乎不更新,進(jìn)而使得生成器無法有效地學(xué)習(xí)到如何生成高質(zhì)量的樣本。9:44:46下午42梯度消失問題:原因

9:44:46下午43梯度消失問題:原因9:44:46下午44梯度消失問題:啟示不能一次性地將判別器訓(xùn)練至其最優(yōu)狀態(tài)(梯度消失)也不能讓判別器過于弱小(性能停滯)要漸進(jìn)式的提升生成器和判別器的能力需要在梯度消失和性能停滯之間找到一個(gè)微妙的平衡點(diǎn),這是一項(xiàng)極具挑戰(zhàn)性的任務(wù)9:44:46下午45模式坍縮問題:含義在GAN的訓(xùn)練過程中,生成器傾向于只生成有限種或單一模式的樣本,而忽略數(shù)據(jù)集中的其他模式,導(dǎo)致生成的樣本缺乏多樣性和覆蓋性。9:44:46下午46模式坍縮問題:例子當(dāng)訓(xùn)練一個(gè)GAN來生成手寫數(shù)字圖像(即MNIST數(shù)據(jù)集)時(shí),如果發(fā)生模式坍縮,即便訓(xùn)練集中包含了0-9所有數(shù)字,生成器可能也只會(huì)生成數(shù)字“4”。盡管生成的“4”可能非常逼真,但整個(gè)生成過程失去了多樣性。9:44:46下午47模式坍縮問題:例子9:44:46下午48模式坍縮問題:原因那么,為什么會(huì)出現(xiàn)模式坍縮呢?這與GAN的損失函數(shù)有關(guān)。9:44:46下午49模式坍縮問題:原因9:44:46下午50最優(yōu)判別器生成器的目標(biāo)函數(shù)再次帶入9:44:46下午519:44:46下午529:44:46下午539:44:46下午549:44:46下午559:44:46下午56與G無關(guān)模式坍縮問題:原因由于JS散度有界,即項(xiàng)對(duì)優(yōu)化影響更顯著但是,KL散度項(xiàng)會(huì)導(dǎo)致模式坍縮問題!9:44:46下午57模式坍縮問題:原因【KL散度】:若,則,那么KL散度會(huì)非常大;若,則無論取值如何,都有

。那么,KL散度接近0。9:44:46下午58模式坍縮問題:原因

9:44:46下午59模式坍縮問題:原因這種特性可能導(dǎo)致GAN模型僅覆蓋真實(shí)分布的某個(gè)模式(Mode),而忽視了其他模式。在生成圖像時(shí),這表現(xiàn)為生成器傾向于生成一些更“安全”的樣本,而避免生成一些“有挑戰(zhàn)性”的樣本,這就是所謂的模式坍縮問題。9:44:46下午60模式坍縮問題:原因9:44:46下午612.條件GAN模型9:44:46下午62GANcGAN2.條件GAN模型重要的生成式建模范式模型結(jié)構(gòu)損失函數(shù)模型分析9:44:46下午63重要的生成式建模范式需要控制生成圖像的某些特定性質(zhì),如類別標(biāo)簽、風(fēng)格、屬性等對(duì)以下條件分布進(jìn)行估計(jì)9:44:46下午64模型結(jié)構(gòu)9:44:46下午65條件生成對(duì)抗網(wǎng)絡(luò)(ConditionalGenerativeAdversarialNetwork,cGAN)由Mirza等人在2014年首次提出,并在此基礎(chǔ)上發(fā)展出了許多變體模型。模型結(jié)構(gòu)

9:44:46下午66損失函數(shù)原始cGAN的損失函數(shù)9:44:46下午67原始GAN的損失函數(shù)模型分析

9:44:46下午68模型分析

9:44:46下午69模型分析

9:44:46下午703.代碼示例:數(shù)據(jù)集

9:44:46下午719:44:46下午723.代碼示例:DCGAN9:44:46下午733.代碼示例:DCGAN9:44:46下午74定義生成器的類9:44:46下午75定義判別器的類9:44:46下午76實(shí)例化9:44:46下午77定義訓(xùn)練函數(shù)9:44:46下午789:44:46下午79運(yùn)行訓(xùn)練訓(xùn)練損失9:44:46下午809:44:46下午81評(píng)價(jià)指標(biāo)的計(jì)算與比較為了評(píng)估DCGAN的生成圖像質(zhì)量,我們采用了FID分?jǐn)?shù)作為衡量標(biāo)準(zhǔn)。具體計(jì)算FID分?jǐn)?shù)時(shí),我們首先在Fashion

MNIST數(shù)據(jù)集上預(yù)訓(xùn)練了一個(gè)ResNet34模型,并基于該模型最后一個(gè)平均池化層輸出的特征圖來進(jìn)行計(jì)算。在評(píng)價(jià)生成模型時(shí),我們利用DCGAN的采樣函數(shù)生成了1萬張?zhí)摷賵D片,并以FashionMNIST數(shù)據(jù)集中的1萬張測試圖片作為基準(zhǔn),計(jì)算了這些生成圖片的FID分?jǐn)?shù)。同樣地,我們也使用了VAE模型生成了1萬張?zhí)摷賵D片,并計(jì)算了其FID分?jǐn)?shù)。9:44:46下午82復(fù)習(xí):FréchetInceptionDistance用一個(gè)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception

V3模型來提取生成圖片和真實(shí)圖片的特征

(feature),并在此特征空間定義一個(gè)距離:FID分?jǐn)?shù)越低,表示生成圖像與真實(shí)圖像的分布越接近,通常認(rèn)為生成的圖像質(zhì)量越高。9:44:46下午83生成圖像生成圖像真實(shí)圖像真實(shí)圖像9:44:46下午84評(píng)價(jià)指標(biāo)的計(jì)算與比較9:44:46下午85生成式視覺模型

原理與實(shí)踐9:44:46下午86第4章生成對(duì)抗網(wǎng)絡(luò)

(2)進(jìn)階模型9:44:46下午87原始GAN的問題梯度消失問題模式坍縮問題網(wǎng)絡(luò)結(jié)構(gòu)簡單需要大量樣本……9:44:46下午88生成低質(zhì)量樣本需要大幅改進(jìn)!主要內(nèi)容損失函數(shù)網(wǎng)絡(luò)架構(gòu)正則化條件輸入方式9:44:46下午89隱變量解耦數(shù)據(jù)增強(qiáng)二次采樣大模型技術(shù)1.損失函數(shù)Wasserstein損失WGAN、WGAN-GP等Hinge損失GeometricGAN、SNGAN、SAGAN、BigGAN、ReACGAN、ADCGAN等9:44:46下午90預(yù)備知識(shí):Wasserstein距離Wasserstein距離(WassersteinDistance),也被稱為推土機(jī)距離(EarthMover’sDistance,EMD),是一種用于度量兩個(gè)概率分布之間差異的方法。9:44:46下午91預(yù)備知識(shí):Wasserstein距離9:44:46下午

92預(yù)備知識(shí):Wasserstein距離Wasserstein距離通過衡量將一個(gè)分布轉(zhuǎn)化為另一個(gè)分布所需的最小總成本來計(jì)算兩個(gè)概率分布之間的距離。直觀上,Wasserstein距離可以被理解為“移動(dòng)土堆”的最小成本,所以也被稱為推土機(jī)距離。9:44:46下午93預(yù)備知識(shí):Wasserstein距離

9:44:46下午94

預(yù)備知識(shí):Wasserstein距離

9:44:46下午95

預(yù)備知識(shí):Wasserstein距離

9:44:46下午96

預(yù)備知識(shí):Wasserstein距離即使在兩個(gè)分布的支撐集沒有重疊或重疊非常少的情況下,Wasserstein距離仍然能反映兩個(gè)分布的遠(yuǎn)近。相比之下,像Kullback-Leibler散度(KL散度)或Jensen-Shannon散度(JS散度)在兩個(gè)分布不重疊時(shí)可能失效。9:44:46下午97預(yù)備知識(shí):Lipschitz連續(xù)函數(shù)Lipschitz連續(xù)函數(shù)是數(shù)學(xué)中的一個(gè)重要概念,用于描述函數(shù)在定義域內(nèi)任意兩點(diǎn)之間的變化率都有一個(gè)全局的上限。如果一個(gè)函數(shù)滿足Lipschitz條件,那么它的函數(shù)圖像在任何地方都不會(huì)陡峭到無限的程度,從而為函數(shù)的行為提供了強(qiáng)有力的局部約束。9:44:46下午98預(yù)備知識(shí):Lipschitz連續(xù)函數(shù)

9:44:46下午99預(yù)備知識(shí):Lipschitz連續(xù)函數(shù)

9:44:46下午100預(yù)備知識(shí):Lipschitz連續(xù)函數(shù)

9:44:46下午101復(fù)習(xí):原始GAN最小化JS散度

9:44:46下午102Jensen-Shannondivergence(JS散度)梯度消失和模式坍縮均與最小化JS散度有關(guān)Wasserstein損失Arjovsky等人(2017)提出了WassersteinGAN(WGAN)WGAN用Wasserstein距離替代JS散度顯著提升了GAN的穩(wěn)定性和生成質(zhì)量9:44:46下午103Wasserstein損失

9:44:46下午104Wasserstein損失9:44:46下午105

Wasserstein損失

9:44:46下午106

Wasserstein損失

9:44:46下午107評(píng)價(jià)網(wǎng)絡(luò)(CriticNetwork)Wasserstein損失

9:44:46下午108Wasserstein損失

9:44:46下午109為什么?WassersteinGAN(WGAN)評(píng)價(jià)網(wǎng)絡(luò)(CriticNetwork)給真圖打高分,給假圖打低分生成網(wǎng)絡(luò)(GenerativeNetwork)生成讓評(píng)價(jià)網(wǎng)絡(luò)打分盡可能高的樣本最終損失函數(shù)9:44:46下午110WGAN-GPWGAN的權(quán)重剪切法存在兩個(gè)關(guān)鍵缺陷它將評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重限制在一個(gè)固定范圍內(nèi),這可能導(dǎo)致權(quán)重集中在剪切閾值的兩端,從而限制了評(píng)價(jià)網(wǎng)絡(luò)的表達(dá)能力權(quán)重剪切方法并不能完全保證判別器滿足Lipschitz連續(xù)性條件,反而可能引發(fā)訓(xùn)練過程中的不穩(wěn)定性9:44:46下午111WGAN-GPGulrajani等人提出了WGAN-GP模型,該模型通過引入梯度懲罰項(xiàng)(GradientPenalty,GP)替代了WGAN的權(quán)重剪切方法,實(shí)現(xiàn)了對(duì)評(píng)價(jià)網(wǎng)絡(luò)梯度行為更加靈活的控制[GULRAJANIetal.,2017]9:44:46下午112WGAN-GP

9:44:46下午113Hinge損失Hinge損失(HingeLoss),也稱鉸鏈損失,最初是在支持向量機(jī)中引入的,用于處理分類問題,特別是二分類問題9:44:46下午114Hinge損失

9:44:46下午115Hinge損失Hinge損失的基本思想是在正確分類的同時(shí),最大化不同類別之間的間隔(Margin)使得分類器更加關(guān)注難以分類的樣本,即那些靠近決策邊界的樣本,從而提高模型的泛化能力9:44:46下午116Hinge損失在GAN模型中,判別器實(shí)質(zhì)上也可以被視為一個(gè)二分類器。因此,在訓(xùn)練判別器的過程中,我們可以考慮采用Hinge損失來替代原始GAN模型中所使用的交叉熵?fù)p失9:44:46下午117Hinge損失基于Hinge損失,Lim等人定義了如下的評(píng)價(jià)網(wǎng)絡(luò)(判別器)損失函數(shù)[Lim&Ye,2017]:生成器的損失函數(shù)9:44:46下午118Hinge損失

9:44:46下午119Hinge損失9:44:46下午120

2.網(wǎng)絡(luò)架構(gòu)深度卷積架構(gòu):DCGAN譜歸一化:SNGAN自注意力機(jī)制:SAGAN提升模型規(guī)模:BigGANViT結(jié)構(gòu):ViTGAN9:44:46下午121深度卷積架構(gòu):DCGAN原始GAN和cGAN模型所采用的網(wǎng)絡(luò)架構(gòu)均設(shè)計(jì)為僅包含三層全連接層的全連接網(wǎng)絡(luò),無法處理復(fù)雜的高維圖像數(shù)據(jù)。DCGAN(2015)利用卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建GAN的生成器和判別器,并為網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)提供了指導(dǎo)性意見,對(duì)GAN模型的發(fā)展具有重要意義。9:44:46下午122[1]Arjovsky,Martin,SoumithChintala,andLéonBottou."Wassersteingenerativeadversarialnetworks."ICML’17.深度卷積架構(gòu):DCGAN主要貢獻(xiàn):利用卷積來進(jìn)行上/下采樣步長卷積(下采樣)、轉(zhuǎn)置卷積(上采樣)批量歸一化激活函數(shù)ReLU、LeakyReLU避免使用全連接層9:44:46下午123深度卷積架構(gòu):DCGAN9:44:46下午124生成器判別器譜歸一化:SNGANMiyato等人利用譜歸一化(SpectralNormalization)來歸一化判別器每個(gè)權(quán)重矩陣的譜范數(shù)(SpectralNorm),從而防止權(quán)重在訓(xùn)練中有較大波動(dòng)進(jìn)而提出SpectralNormalizationGAN(SNGAN)防止模式坍縮,提高GAN的收斂性9:44:46下午125[1]Miyato,Takeru,etal."SpectralNormalizationforGenerativeAdversarialNetworks."ICLR’18.譜歸一化:SNGAN

9:44:46下午126

方法一:SVD分解9:44:46下午127

方法二:通過特征值計(jì)算9:44:46下午128通過特征方程求解例題1:最大奇異值計(jì)算9:44:46下午129例題2:譜歸一化后的Lipschitz連續(xù)性9:44:46下午130L2誘導(dǎo)范數(shù)(即譜范數(shù))

方法一和二屬于精確計(jì)算,但只適用于小矩陣方法三:冪迭代法(Poweriteration,近似方法)9:44:46下午131SNGAN的ResNet網(wǎng)絡(luò)架構(gòu)9:44:46下午132SNGAN的ResNet網(wǎng)絡(luò)架構(gòu)9:44:46下午133自注意力機(jī)制:SAGAN傳統(tǒng)GAN模型主要依賴卷積操作來建模圖像區(qū)域間的依賴關(guān)系,然而,卷積操作的感受野有限,難以有效捕捉圖像中的遠(yuǎn)距離依賴關(guān)系,尤其在生成精細(xì)細(xì)節(jié)時(shí)顯得力不從心。Zhang等人于2019年提出了Self-AttentionGenerativeAdversarialNetwork(SAGAN)。9:44:46下午134[1]Zhang,Han,etal."Self-attentiongenerativeadversarialnetworks."ICML’19.自注意力機(jī)制:SAGAN引入自注意力機(jī)制,適合長距離關(guān)系建模對(duì)生成器和判別器均應(yīng)用了譜歸一化技術(shù)在2018-2019年左右達(dá)到新能最佳啟發(fā)了重要的條件生成式模型BigGAN9:44:46下午135SAGAN的網(wǎng)絡(luò)架構(gòu)9:44:46下午136提升模型規(guī)模:BigGANBrock等人于2019年提出了BigGAN模型,該模型旨在通過提升模型規(guī)模、優(yōu)化訓(xùn)練方式、改進(jìn)采樣方式等手段,突破GAN在生成復(fù)雜高分辨率圖像時(shí)面臨的瓶頸問題,從而極大推動(dòng)了基于類別的生成模型性能的提升。9:44:46下午137BigGAN的改進(jìn)

9:44:46下午138BigGAN的網(wǎng)絡(luò)結(jié)構(gòu)9:44:46下午139BigGAN的網(wǎng)絡(luò)結(jié)構(gòu)9:44:46下午140ViT結(jié)構(gòu):ViTGAN用VisionTransformer(ViT)完全替代卷積神經(jīng)網(wǎng)絡(luò)(CNN)來作為生成器和判別器的架構(gòu)與基于CNN的最新GAN模型表現(xiàn)相當(dāng)9:44:46下午141[1]Lee,Kwonjoon,etal."ViTGAN:TrainingGANswithVisionTransformers."ICLR2022.3.正則化正則化(Regularization)在GAN中扮演著至關(guān)重要的角色。它主要通過引入額外的約束或懲罰項(xiàng)來限制模型的復(fù)雜度或保持某些良好特性,從而幫助穩(wěn)定GAN的訓(xùn)練過程、防止過擬合,并提升生成圖像的質(zhì)量和多樣性。9:44:46下午1423.正則化權(quán)重衰減一致性正則化梯度正則化……9:44:46下午143權(quán)重衰減

9:44:46下午144權(quán)重衰減的作用防止過擬合提高模型穩(wěn)定性平衡生成器和判別器的性能9:44:46下午145已集成進(jìn)優(yōu)化器9:44:46下午146一致性正則化一致性正則化(ConsistencyRegularization,CR)是機(jī)器學(xué)習(xí)領(lǐng)域中常用的一種技術(shù)。核心思想是通過引入一致性約束來增強(qiáng)模型的泛化能力和穩(wěn)定性。這種正則化策略鼓勵(lì)模型在面對(duì)輕微擾動(dòng)的輸入時(shí),能夠產(chǎn)生一致或相似的輸出。有助于降低模型對(duì)輸入噪聲的敏感性,并促使模型學(xué)習(xí)到更加平滑的決策邊界。9:44:46下午147一致性正則化Odena等人于2020年提出了一致性正則化生成對(duì)抗網(wǎng)絡(luò)(ConsistencyRegularizedGAN,CR-GAN)。在訓(xùn)練判別器時(shí),CR-GAN的損失函數(shù)增加了一個(gè)一致性正則化項(xiàng),即9:44:46下午148

梯度正則化

9:44:46下午149回憶:K-Lipschitz連續(xù)是如何定義的?4.條件輸入方式特征圖拼接輔助分類器條件批歸一化標(biāo)簽投影一維連續(xù)條件9:44:46下午150復(fù)習(xí):原始cGAN

9:44:46下午151如何將條件輸入到神經(jīng)網(wǎng)絡(luò)中呢?常見方法9:44:46下午152生成器判別器特征圖拼接通過在隱藏層進(jìn)行條件拼接來實(shí)現(xiàn)條件生成功能簡單、易于實(shí)現(xiàn),既適用于生成器也適用于判別器9:44:46下午153生成器判別器輔助分類器:ACGAN在判別器網(wǎng)絡(luò)的末尾中增加一個(gè)輔助分類網(wǎng)絡(luò),并引入一個(gè)輔助分類任務(wù)9:44:46下午154輔助分類器:ACGANACGAN的總損失函數(shù)為對(duì)抗損失和輔助分類損失的線性組合:9:44:46下午155對(duì)抗損失輔助分類損失條件批歸一化是傳統(tǒng)批歸一化(BatchNormalization,BN)的變體,它在批歸一化公式中引入了條件信息,以增強(qiáng)模型在特定條件下的生成能力。這種方法已被證明在生成對(duì)抗網(wǎng)絡(luò)中具有顯著效果,并且已被多種著名的GAN模型,如SNGAN、SAGAN、BigGAN等采用。9:44:46下午156復(fù)習(xí):傳統(tǒng)批歸一化

9:44:46下午157復(fù)習(xí):常見歸一化方法9:44:46下午158批歸一化層歸一化實(shí)例歸一化群歸一化復(fù)習(xí):常見歸一化方法9:44:46下午159條件批歸一化將條件信息融入到縮放和偏移參數(shù)中,使得這些參數(shù)不再是全局固定的,而是根據(jù)輸入的條件動(dòng)態(tài)變化:9:44:46下午160條件批歸一化一般將生成器網(wǎng)絡(luò)的某些批歸一化層替換為條件批歸一化層9:44:46下午161標(biāo)簽投影在現(xiàn)代cGAN模型中,一種常用的向判別器網(wǎng)絡(luò)輸入條件的方法被稱為標(biāo)簽投影(LabelProjection)。這一方法已經(jīng)被多種著名的cGAN模型所采用,包括SNGAN、SAGAN、BigGAN等。9:44:46下午162標(biāo)簽投影9:44:46下午163一維連續(xù)條件傳統(tǒng)cGAN不能以連續(xù)的標(biāo)量,又稱回歸標(biāo)簽(例如年齡或角度)為條件進(jìn)行生成式建模9:44:46下午164為什么?原因損失函數(shù)無法適用于回歸標(biāo)簽缺乏合適的標(biāo)簽輸入方式(為什么?)9:44:46下午165回顧9:44:46下午166生成器判別器傳統(tǒng)方法無法編碼回歸標(biāo)簽回歸標(biāo)簽是連續(xù)的,可能有無數(shù)種取值,回歸標(biāo)簽可能有缺失值(未在訓(xùn)練集中觀測到的取值)9:44:46下午167連續(xù)條件生成對(duì)抗網(wǎng)絡(luò)(CcGAN)

9:44:46下午168連續(xù)條件生成對(duì)抗網(wǎng)絡(luò)(CcGAN)9:44:46下午169工程應(yīng)用工程逆向設(shè)計(jì)針對(duì)高光譜圖像的數(shù)據(jù)擴(kuò)增可控點(diǎn)云生成SAR圖像可控生成預(yù)測地質(zhì)層系中的二氧化碳傳播解決高度異質(zhì)材料屬性的穩(wěn)態(tài)問題……極大促進(jìn)了不同學(xué)科的交叉!高光譜圖像的數(shù)據(jù)擴(kuò)增預(yù)測CO2傳播點(diǎn)云可控生成機(jī)翼翼型逆向設(shè)計(jì)SAR圖像可控生成未必只適用于圖像數(shù)據(jù)!5.隱變量解耦I(lǐng)nfoGANStyleGAN9:44:46下午1705.隱變量解耦9:44:46下午171隱變量解耦(Disentanglement)在GAN模型中指的是將隱空間(即噪聲空間)中的變量分解為相互獨(dú)立或相關(guān)性較小的部分,每部分變量控制生成圖像的不同屬性或特征。通過解耦,可以更容易地操縱生成圖像,實(shí)現(xiàn)更精細(xì)的控制和生成多樣性。InfoGAN信息最大化生成對(duì)抗網(wǎng)絡(luò)(InfoGAN)是對(duì)原始GAN模型的一個(gè)重要擴(kuò)展。其核心創(chuàng)新之處在于引入了一個(gè)潛在信息變量,并通過最大化這些信息與生成數(shù)據(jù)之間的互信息,使得生成器能夠生成具有特定屬性的數(shù)據(jù)樣本9:44:46下午172是cGAN嗎?StyleGANStyleGAN是由TeroKarras等人于2019年提出的一種GAN模型的變體。StyleGAN的主要?jiǎng)?chuàng)新之處在于其生成器的架構(gòu)設(shè)計(jì),特別是在生成過程中引入了風(fēng)格(Style)控制機(jī)制,這使得它能夠?qū)ι蓤D像的各個(gè)層次細(xì)節(jié)進(jìn)行獨(dú)立的控制9:44:46下午173StyleGAN9:44:46下午174StyleGAN

9:44:46下午175StyleGAN合成網(wǎng)絡(luò)(SynthesisNetwork):將風(fēng)格代碼轉(zhuǎn)換為最終的圖像在合成過程中,每個(gè)樣式塊通過自適應(yīng)實(shí)例歸一化(AdaIN)將樣式信息注入到對(duì)應(yīng)的卷積層中,從而實(shí)現(xiàn)對(duì)圖像樣式的精細(xì)控制9:44:46下午176StyleGAN能夠無監(jiān)督的自主解耦(Disentanglement)生成圖像中的高階屬性(例如人物的表情、臉部朝向等),從而使用者可以控制圖像的生成9:44:46下午1776.數(shù)據(jù)增強(qiáng)DiffAugment負(fù)樣本擴(kuò)增9:44:46下午178復(fù)習(xí):傳統(tǒng)數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)(DataAugmentation,DA)是一種提高深度學(xué)習(xí)模型性能的技術(shù),特別是在圖像處理任務(wù)中。通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)變換,可以生成更多樣化的訓(xùn)練樣本,從而減輕過擬合,增強(qiáng)模型的泛化能力。常見變換:幾何變換、顏色變換、噪聲、變形、剪切、混合等。9:44:46下午179DiffAugment可微分?jǐn)?shù)據(jù)擴(kuò)增(DifferentiableAugmentation,DiffAugment)是一種旨在GAN訓(xùn)練穩(wěn)定性的方法,尤其適用于數(shù)據(jù)集規(guī)模較小的情況。其核心創(chuàng)新點(diǎn)在于,將數(shù)據(jù)增強(qiáng)操作設(shè)計(jì)為一個(gè)可微分的模塊,直接整合到GAN的訓(xùn)練流程之中。9:44:46下午180DiffAugment

9:44:46下午181負(fù)樣本擴(kuò)增(NDA)傳統(tǒng)數(shù)據(jù)增強(qiáng)(Data

Augmentation,

DA)利用旋轉(zhuǎn)、翻轉(zhuǎn)、剪切等操作來擴(kuò)充訓(xùn)練集本質(zhì):告訴模型應(yīng)該生成什么樣本負(fù)樣本擴(kuò)增(NegativeDA,NDA)生成低質(zhì)量樣本來擴(kuò)充訓(xùn)練集本質(zhì):告訴模型不應(yīng)該生成什么樣本9:44:46下午182負(fù)樣本擴(kuò)增(NDA)傳統(tǒng)NDADual-NDA9:44:46下午183負(fù)樣本擴(kuò)增(NDA)9:44:46下午1847.二次采樣二次采樣(Subsampling)可以在GAN模型訓(xùn)練完成后,提升采樣質(zhì)量基于最優(yōu)判別器基于概率密度比估計(jì)9:44:46下午185預(yù)備知識(shí):拒絕采樣

9:44:46下午186將拒絕采樣應(yīng)用于GAN

9:44:46下午187基于最優(yōu)判別器回憶:原始GAN的最優(yōu)判別器具有如下形式,整理后可得9:44:46下午188基于最優(yōu)判別器

9:44:46下午189基于概率密度比估計(jì)

9:44:46下午190基于概率密度比估計(jì)真實(shí)分布是包含25個(gè)高斯分布的混合分布對(duì)比方法無二次采樣基于最優(yōu)判別器概率密度比估計(jì)9:44:46下午1918.大模型技術(shù):GigaGAN三大突破?:???高速生成?:在3.66秒內(nèi)完成4K超分辨率????任意分辨率?:支持從256px→4K的無縫上采樣???跨尺度一致性?:通過多尺度訓(xùn)練避免細(xì)節(jié)斷裂9:44:46下午192GigaGAN如何實(shí)現(xiàn)高效高質(zhì)生成?重新設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)增大的模型容量多尺度的訓(xùn)練算法9:44:46下午193GigaGAN生成效果9:44:46下午194文生圖文生圖質(zhì)量媲美StableDiffusionv1.5GigaGAN生成效果9:44:46下午195圖像超清圖像超清效果達(dá)到SOTAGigaGAN的工業(yè)級(jí)應(yīng)用潛力游戲設(shè)計(jì)?:實(shí)時(shí)生成開放世界高清貼圖(對(duì)比傳統(tǒng)手工繪制)9:44:46下午196GigaGAN的工業(yè)級(jí)應(yīng)用潛力廣告創(chuàng)意?:按需生成多尺寸廣告素材(從手機(jī)屏到戶外大屏)9:44:46下午197GigaGAN的工業(yè)級(jí)應(yīng)用潛力醫(yī)學(xué)影像?:低分辨率影像(CT、MRI等)→高清3D重建9:44:46下午198生成式視覺模型

原理與實(shí)踐9:44:46下午199第4章生成對(duì)抗網(wǎng)絡(luò)

(3)典型應(yīng)用9:44:46下午200主要內(nèi)容圖像翻譯圖像超清圖像去噪圖像修復(fù)9:44:46下午201圖像操作文生圖知識(shí)蒸餾圖像翻譯(I2ITranslation)任務(wù)解釋:圖像翻譯(Image-to-ImageTranslation)一種經(jīng)典的計(jì)算機(jī)視覺任務(wù),旨在學(xué)習(xí)一個(gè)映射,使得圖像能夠從源圖像域(SourceDomain)有效地轉(zhuǎn)換到目標(biāo)圖像域(TargetDomain),同時(shí)盡可能地保留原始圖像的內(nèi)容(Content)。9:44:46下午202源圖像域目標(biāo)圖像域

映射圖像翻譯(I2ITranslation)9:44:46下午203圖像翻譯(I2ITranslation)9:44:46下午204圖像翻譯(I2ITranslation)配對(duì)VS非配對(duì)

數(shù)據(jù)9:44:46下午205問題:哪一種數(shù)據(jù)更容易搜集?CycleGAN(2017):簡介CycleGAN是一種無需配對(duì)數(shù)據(jù)的圖像翻譯模型,它借助了GAN的結(jié)構(gòu)實(shí)現(xiàn)兩個(gè)不同域之間的圖像風(fēng)格轉(zhuǎn)換,并通過循環(huán)一致性損失保證轉(zhuǎn)換的準(zhǔn)確性。9:44:46下午206[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.源域目標(biāo)域CycleGAN(2017):結(jié)構(gòu)

9:44:46下午207[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.源域目標(biāo)域CycleGAN(2017):機(jī)制

9:44:46下午208[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.

更關(guān)注CycleGAN(2017):損失對(duì)抗訓(xùn)練目標(biāo)函數(shù)能否只用對(duì)抗損失?當(dāng)生成器網(wǎng)絡(luò)容量足夠大時(shí),可能生成與輸入圖像無關(guān)但足以欺騙判別器的圖像,即忽略了輸入圖像的內(nèi)容,而只關(guān)注于生成與目標(biāo)域相似的圖像。9:44:46下午209CycleGAN(2017):損失循環(huán)一致性損失為對(duì)抗訓(xùn)練目標(biāo)添加約束,增強(qiáng)了生成圖像與目標(biāo)域圖像之間的一致性9:44:46下午210CycleGAN(2017):損失完整訓(xùn)練目標(biāo)9:44:46下午211問題:CycleGAN滿足生成模型的定義嘛?復(fù)習(xí):什么是生成式建模?9:44:46下午212

復(fù)習(xí):密度估計(jì)的方法9:44:46下午213

CycleGAN(2017):損失完整訓(xùn)練目標(biāo)9:44:46下午214嚴(yán)格來說不屬于生成式模型;是基于GAN模型的變種CycleGAN(2017):效果9:44:46下午215案例:基于CycleGAN的MR-CT轉(zhuǎn)換利用CycleGAN實(shí)現(xiàn)MR影像到CT影像的轉(zhuǎn)變,將有助于癌癥患者放射治療基于CycleGAN架構(gòu),但是加入了結(jié)構(gòu)約束合成效果好于其他無監(jiān)督方法9:44:46下午216[1]Yang,Heran,etal."UnsupervisedMR-to-CTsynthesisusingstructure-constrainedCycleGAN."

IEEEtransactionsonmedicalimaging

39.12(2020):4249-4261.圖像超清(Super-resolution)任務(wù)解釋:一種計(jì)算機(jī)視覺任務(wù),旨在提高圖像的分辨率和清晰度,以獲得更高質(zhì)量的圖像??梢詰?yīng)用于多個(gè)領(lǐng)域,如數(shù)字?jǐn)z影、視頻監(jiān)控、醫(yī)學(xué)成像和遙感等,以提升圖像質(zhì)量和視覺效果。9:44:46下午217SRGAN

(2017)SRGAN通過生成器和判別器的博弈學(xué)習(xí),實(shí)現(xiàn)圖像的超清晰度處理。并采用感知誤差作為優(yōu)化目標(biāo),確保生成的圖像在細(xì)節(jié)和紋理上更接近真實(shí)高清圖像。9:44:46下午218[1]Ledig,Christian,etal."Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork."

ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017.SRGAN

(2017):網(wǎng)絡(luò)結(jié)構(gòu)9:44:46下午219[1]Ledig,Christian,etal."Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork."

ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017.生成器網(wǎng)絡(luò)判別器網(wǎng)絡(luò)高清超清超清低清SRGAN

(2017):效果9:44:46下午220原始圖像GigaGAN

(2023)9:44:46下午221圖像去噪(ImageDenoising)任務(wù)解釋:指從包含噪聲的圖像中恢復(fù)出干凈的圖像內(nèi)容旨在去除圖像拍攝或傳輸過程中引入的隨機(jī)噪聲,如高斯噪聲、椒鹽噪聲等目標(biāo)是提高圖像質(zhì)量和視覺效果,以便于后續(xù)的圖像分析、識(shí)別和處理9:44:46下午222基于GAN的圖像去噪9:44:46下午223[1]Tran,LinhDuy,SonMinhNguyen,andMasayukiArai."GAN-basednoisemodelfordenoisingrealimages."ProceedingsoftheAsianConferenceonComputerVision.2020.使用GAN估計(jì)輸入噪聲圖像上的噪聲分布,并生成噪聲樣本然后,利用這些噪聲樣本構(gòu)建配對(duì)的訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練去噪網(wǎng)絡(luò)圖像修復(fù)(ImageInpainting)任務(wù)解釋:重建或修復(fù)圖像中丟失、損壞或不需要的部分例如修復(fù)老照片中的瑕疵、去除圖像中的多余物體、填補(bǔ)圖像中的空洞等。9:44:46下午224基于WassersteinGAN的圖像修復(fù)采用GAN的架構(gòu)和對(duì)抗損失將圖像修復(fù)問題轉(zhuǎn)化為對(duì)抗生成問題9:44:46下午225[1]Jiang,Yi,etal."Imageinpaintingbasedongenerativeadversarialnetworks."

IEEEAccess

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論