生成式視覺模型原理與實踐 課件全套 chapt1、2 生成式視覺模型簡介 -chapt7 典型應(yīng)用場景_第1頁
生成式視覺模型原理與實踐 課件全套 chapt1、2 生成式視覺模型簡介 -chapt7 典型應(yīng)用場景_第2頁
生成式視覺模型原理與實踐 課件全套 chapt1、2 生成式視覺模型簡介 -chapt7 典型應(yīng)用場景_第3頁
生成式視覺模型原理與實踐 課件全套 chapt1、2 生成式視覺模型簡介 -chapt7 典型應(yīng)用場景_第4頁
生成式視覺模型原理與實踐 課件全套 chapt1、2 生成式視覺模型簡介 -chapt7 典型應(yīng)用場景_第5頁
已閱讀5頁,還剩565頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

生成式視覺模型

原理與實踐9:49:25下午1第1&2章

生成式視覺模型簡介9:49:25下午2主要內(nèi)容生成式大模型:語言模型和視覺模型生成式視覺模型的發(fā)展歷程生成式建模的基本概念(復(fù)習(xí)概率知識)典型生成模型簡介評價指標(biāo)簡介深度學(xué)習(xí)框架PyTorch簡介9:49:25下午31.生成式大模型9:49:25下午4時間模型開發(fā)者2022年11月ChatGPTOpenAI2023年2月LLaMAMetaAI2023年3月BardGoogleAI2023年3月文心一言百度2023年4月通義千問阿里2023年12月GeminiDeepMind2025年1月DeepseekV3深度求索語言大模型視覺大模型語言大模型ChatGPT信息檢索代碼生成聊天機(jī)器人……科技業(yè)醫(yī)療健康客戶服務(wù)……1.生成式大模型9:49:25下午5時間模型開發(fā)者2022年7月MidjourneyMidjourney2022年8月StableDiffusionStabilityAI2023年3月Gen-2Runway2023年7月通義萬相阿里云2023年11月文心大模型百度2024年2月SoraOpenAI2025年2月CogView4智譜AI語言大模型視覺大模型圖像修復(fù)圖像編輯圖像變換……藝術(shù)創(chuàng)作文化娛樂醫(yī)療影像……視覺大模型《太空歌劇院》(Midjourney)SoraStableDiffusion的生成效果9:49:25下午6Gen-2的生成效果(1)9:49:25下午7基于一張圖片和一段提示詞的視頻生成圖片輸入提示詞輸出Gen-2的生成效果(2)9:49:25下午8視頻風(fēng)格轉(zhuǎn)換輸入風(fēng)格圖輸出Sora的生成效果(1)9:49:25下午9Sora的生成效果(2)9:49:25下午102.生成式視覺模型的發(fā)展歷程9:49:25下午11深度神經(jīng)網(wǎng)絡(luò)AlexNet(2012)網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、訓(xùn)練方法等快速迭代DeepMind提出BigGAN(2019)NVIDIA提出StyleGAN(2019)IanGoodfellow等提出生成對抗網(wǎng)絡(luò)GAN(2014)提出對抗訓(xùn)練機(jī)制擴(kuò)散模型興起(DiffusionModel)OpenAI提出ADM(2021)媲美甚至超越GAN的生成效果朱俊彥等提出GigaGAN(2023)GAN在圖像生成領(lǐng)域的復(fù)興OpenAI發(fā)布Sora(2024)JonathanHo等提出DDPM(2020)“前向加噪-反向降噪”訓(xùn)練機(jī)制宋飏等提出Score-basedModel(2020)條件生成對抗網(wǎng)絡(luò)cGAN(2014)對生成的圖像具有了較強(qiáng)的控制能力連續(xù)條件生成對抗網(wǎng)絡(luò)CcGAN(2020)以連續(xù)標(biāo)量為條件GAN落伍了?Runway團(tuán)隊提出LatentDiffusionModel(2022)催生出StableDiffusion(同期還有DALL·E、Imagen等)JonathanHo等提出Classifier-FreeGuidance(2021)生成式模型的大型化趨勢模型“大”參數(shù)量多或計算量大數(shù)據(jù)“大”上億的訓(xùn)練樣本功能越來越強(qiáng),成本也越來越高9:49:25下午12M:百萬B:十億3.生成式建模的基本概念3.1概率預(yù)備知識3.2信息論預(yù)備知識3.3針對圖像的生成式建模9:49:25下午13《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,邱錫鵬,機(jī)械工業(yè)出版社,20213.1概率預(yù)備知識樣本空間隨機(jī)變量/向量及其概率分布邊際分布條件概率分布獨立與條件獨立期望和方差高斯分布9:49:25下午143.1概率預(yù)備知識似然函數(shù)與極大似然估計熵交叉熵

KL散度(相對熵)

JS散度9:49:25下午15樣本空間9:49:25下午16

隨機(jī)變量9:49:25下午17

只有離散型和連續(xù)型嗎?

接下來只討論連續(xù)型隨機(jī)變量!連續(xù)隨機(jī)變量的概率分布

9:49:25下午18

連續(xù)隨機(jī)變量的概率分布

9:49:25下午19連續(xù)隨機(jī)變量的概率分布

9:49:25下午20隨機(jī)向量

9:49:25下午21隨機(jī)向量的分布

9:49:25下午22邊際分布

9:49:25下午23條件概率分布

9:49:25下午24貝葉斯定理

9:49:25下午25在后續(xù)的公式推導(dǎo)中會被反復(fù)用到!先驗:已知信息后驗條件:新信息獨立與條件獨立

9:49:25下午26數(shù)學(xué)期望

9:49:25下午27方差

9:49:25下午28期望針對哪個分布?協(xié)方差

9:49:25下午29期望針對哪個分布?高斯分布9:49:25下午30高斯分布9:49:25下午31

多維高斯分布

9:49:25下午32似然函數(shù)

9:49:25下午33極大似然估計(MLE)

9:49:25下午34熵

9:49:25下午35交叉熵

9:49:25下午36KL散度(相對熵)

9:49:25下午37JS散度Jenshon-Shannon(JS)散度是一種對稱的、衡量兩個分布相似性的度量方式。定義9:49:25下午383.2什么是生成式建模?9:49:25下午39

生成式建模的根本任務(wù)密度估計(DensityEstimation)樣本生成(Sampling)9:49:25下午40密度估計9:49:25下午41概率密度估計(densityestimation):基于一些觀測樣本來估計隨機(jī)變量的密度函數(shù)密度估計的方法9:49:25下午42顯式估計參數(shù)法:假設(shè)待估分布為某已知分布,估計其中未知參數(shù);極大似然估計非參數(shù)法:直方圖法、核密度估計等可獲得估計分布密度函數(shù)的具體表達(dá)式,但是高維場景中表現(xiàn)較差密度估計的方法9:49:25下午43

樣本生成

9:49:25下午443.3針對圖像的生成式建模9:49:25下午453.3針對圖像的生成式建模9:49:25下午46

估計所有像素值的聯(lián)合分布

采樣

4.典型模型簡介4.1變分自編碼器4.2生成對抗網(wǎng)絡(luò)4.3標(biāo)準(zhǔn)化流4.4擴(kuò)散模型9:49:25下午479:49:25下午48典型模型結(jié)構(gòu)示意圖4.1變分自編碼器變分自編碼器在編碼過程中引入了一個隱變量,使得模型能夠?qū)W習(xí)到數(shù)據(jù)的潛在分布。通過優(yōu)化潛在變量的變分下界,變分自編碼器能夠生成與原始數(shù)據(jù)分布相似的新樣本。9:49:25下午494.2生成對抗網(wǎng)絡(luò)生成對抗網(wǎng)絡(luò)由兩個神經(jīng)網(wǎng)絡(luò)組成:一個生成器和一個判別器。通過這兩個網(wǎng)絡(luò)的對抗訓(xùn)練,生成對抗網(wǎng)絡(luò)能夠生成高質(zhì)量的數(shù)據(jù)樣本,如逼真的圖像、音頻和視頻。9:49:25下午504.3標(biāo)準(zhǔn)化流模型通過一系列可逆且光滑的變量變換,將簡單的概率分布(如高斯分布)逐步轉(zhuǎn)換為與真實數(shù)據(jù)相匹配的復(fù)雜分布。這些變換需要滿足其雅可比行列式易于計算的條件,以便于進(jìn)行高效的概率密度估計。9:49:25下午514.4擴(kuò)散模型通過模擬物質(zhì)的擴(kuò)散過程來生成數(shù)據(jù)。在擴(kuò)散模型中,數(shù)據(jù)逐步被添加噪聲,然后再通過一個逆向過程逐步去噪,以恢復(fù)原始數(shù)據(jù)或生成新的數(shù)據(jù)實例。9:49:25下午52典型模型的比較9:49:25下午53模型簡稱密度函數(shù)采樣過程訓(xùn)練過程模型結(jié)構(gòu)變分自編碼器VAE下界快MLE-LB編碼器-解碼器生成對抗網(wǎng)絡(luò)GAN無快對抗式生成器-判別器標(biāo)準(zhǔn)化流Flow精確的較快MLE可逆函數(shù)擴(kuò)散模型Diffusion下界慢MLE-LB編碼器-解碼器5.評價指標(biāo)簡介

5.1負(fù)對數(shù)似然

5.2

InceptionScore(IS)

5.3

FréchetInceptionDistance(FID)5.4過擬合的檢測9:49:25下午545.1負(fù)對數(shù)似然9:49:25下午55

交叉熵估計負(fù)對數(shù)似然越小越好!5.2InceptionScore9:49:25下午56用一個在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception

V3模型來預(yù)測給定生成圖片的類別標(biāo)簽,然后計算

整個數(shù)據(jù)集類別標(biāo)簽的邊緣分布5.2InceptionScore9:49:25下午57兩條假設(shè):一是若生成圖像的多樣性足夠高,這些圖像的類別標(biāo)簽應(yīng)該均勻分布于1000個類別,而非集中于某幾個類別。二是對于視覺質(zhì)量較好的生成圖像,分類器Inception-V3網(wǎng)絡(luò)輸出的預(yù)測概率應(yīng)當(dāng)集中于某一特定類別上,即分類器能夠較為確定地判斷該圖像所屬的類別。若滿足假設(shè),KL散度應(yīng)該較大。IS越大越好!該數(shù)學(xué)期望在實際中如何計算?5.3FréchetInceptionDistance用一個在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception

V3模型來提取生成圖片和真實圖片的特征

(feature),并在此特征空間定義一個距離:FID分?jǐn)?shù)越低,表示生成圖像與真實圖像的分布越接近,通常認(rèn)為生成的圖像質(zhì)量越高。9:49:25下午58生成圖像生成圖像真實圖像真實圖像5.4

過擬合的檢測

9:49:25下午595.

4過擬合的檢測9:49:25下午60在VGG16的fc7層所定義的特征空間中,尋找與生成圖像最近的14張真實圖像。6.深度學(xué)習(xí)框架:PyTorch9:49:25下午616.深度學(xué)習(xí)框架:PyTorch9:49:25下午626.深度學(xué)習(xí)框架:PyTorch9:49:25下午636.深度學(xué)習(xí)框架:PyTorchPyTorch入門:/tutorials/9:49:25下午64生成式視覺模型

原理與實踐9:49:25下午65第3章

變分自編碼器9:49:25下午66主要內(nèi)容預(yù)備知識自編碼器極大似然估計總體思路模型結(jié)構(gòu)9:49:25下午67理論目標(biāo)訓(xùn)練算法后驗/先驗采樣條件VAE實現(xiàn)代碼1.預(yù)備知識I:自編碼器降維在機(jī)器學(xué)習(xí)中,降維是減少描述數(shù)據(jù)的特征數(shù)量的過程。降維可以被理解為數(shù)據(jù)壓縮,包含一個抽象的編碼器和一個抽象的解碼器。編碼器壓縮數(shù)據(jù),解碼器則用于解壓縮。9:49:25下午681.預(yù)備知識I:自編碼器自編碼器(Autoencoder)用神經(jīng)網(wǎng)絡(luò)來作為編碼器和解碼器,并使用迭代優(yōu)化學(xué)習(xí)最佳的編碼-解碼方案。9:49:25下午69隱空間的維度一般遠(yuǎn)小于數(shù)據(jù)空間的維度1.預(yù)備知識I:自編碼器

9:49:25下午701.預(yù)備知識I:自編碼器問題:自編碼器是否是生成模型?為什么?9:49:25下午71復(fù)習(xí):什么是生成式建模?

9:49:25下午72

復(fù)習(xí):密度估計的方法

9:49:25下午731.預(yù)備知識I:自編碼器根據(jù)以上定義,自編碼器不是生成模型!9:49:25下午741.預(yù)備知識II:極大似然估計

9:49:25下午751.預(yù)備知識II:極大似然估計

9:49:25下午761.預(yù)備知識II:極大似然估計

極大似然估計(MaximumLikelihoodFunction,MLE),屬于點估計法

通俗理解極大似然估計就是一個猜參數(shù)的方法。我們看哪個參數(shù)值能讓觀測到的數(shù)據(jù)出現(xiàn)的可能性最大,就認(rèn)為它是真實參數(shù)的估計值。9:49:25下午771.預(yù)備知識II:極大似然估計

9:49:25下午781.預(yù)備知識II:極大似然估計

9:49:25下午792.總體思路

9:49:25下午802.總體思路

9:49:25下午81什么是隱變量?2.總體思路變分自編碼器(VariationalAutoencoder,VAE)是一種含有隱變量的生成模型。顯變量(ObservableVariable)可直接觀測隱變量(LatentVariable)不可直接觀測9:49:25下午822.總體思路變分自編碼器在編碼過程中引入了一個隱變量,使得模型能夠?qū)W習(xí)到數(shù)據(jù)的潛在分布。通過優(yōu)化潛在變量的變分下界,變分自編碼器能夠生成與原始數(shù)據(jù)分布相似的新樣本。9:49:25下午832.總體思路

9:49:25下午842.總體思路:如何建模?

9:49:25下午85一個直觀想法(Na?veidea)2.總體思路:如何建模?

9:49:25下午862.總體思路:聯(lián)合分布的分解

9:49:25下午87分解一:分解二:2.總體思路:一些定義與假設(shè)

9:49:25下午88分解一:分解二:定義&假設(shè):2.總體思路:一些定義與假設(shè)9:49:25下午89分解一:分解二:定義&假設(shè):用推斷網(wǎng)絡(luò)建模

用生成網(wǎng)絡(luò)建模變分分布

2.總體思路:最大化證據(jù)下界

9:49:25下午902.總體思路:總結(jié)

9:49:25下午919:49:25下午923.模型結(jié)構(gòu)

9:49:25下午93

3.模型結(jié)構(gòu)

9:49:25下午943.模型結(jié)構(gòu)

9:49:25下午953.模型結(jié)構(gòu)自編碼器和變分自編碼器在模型結(jié)構(gòu)上有什么區(qū)別?9:49:25下午964.理論目標(biāo):證據(jù)下界對分解二等號兩側(cè)取對數(shù),可得移項,可得9:49:25下午97分解二:對數(shù)似然函數(shù)4.理論目標(biāo):證據(jù)下界

9:49:25下午98接下來,我們來推導(dǎo)證據(jù)下界(ELBO)的具體表達(dá)式!4.理論目標(biāo):證據(jù)下界9:49:25下午994.理論目標(biāo):證據(jù)下界9:49:25下午1004.理論目標(biāo):證據(jù)下界9:49:25下午1014.理論目標(biāo):證據(jù)下界9:49:25下午1024.理論目標(biāo):證據(jù)下界9:49:25下午1034.理論目標(biāo):證據(jù)下界9:49:25下午1044.理論目標(biāo):證據(jù)下界9:49:25下午1054.理論目標(biāo):證據(jù)下界9:49:25下午1064.理論目標(biāo):證據(jù)下界9:49:25下午1074.理論目標(biāo):證據(jù)下界9:49:25下午1084.理論目標(biāo):證據(jù)下界證據(jù)下界具有如下形式:9:49:25下午1094.理論目標(biāo):證據(jù)下界9:49:25下午110當(dāng)且僅當(dāng)時,對數(shù)似然等于ELBO。這也意味著,當(dāng)變分分布越接近后驗分布,ELBO對對數(shù)似然的替代性越強(qiáng)。注意:4.理論目標(biāo):琴生不等式

9:49:25下午1114.理論目標(biāo):更簡潔的推導(dǎo)應(yīng)用琴生不等式,可得9:49:25下午1124.理論目標(biāo):最大化ELBO

9:49:25下午1134.理論目標(biāo):最大化ELBO根據(jù)分解一,可得9:49:25下午114分解一:4.理論目標(biāo):先驗匹配項先驗匹配項已假設(shè)變分分布已假設(shè)先驗分布則先驗匹配項有顯式表達(dá)式9:49:25下午1154.理論目標(biāo):先驗匹配項注意:高斯分布之間的KL散度具有顯示表達(dá)式9:49:25下午1164.理論目標(biāo):重構(gòu)項

9:49:25下午117

4.理論目標(biāo):重構(gòu)項

9:49:25下午1184.理論目標(biāo):重參數(shù)化

9:49:25下午1194.理論目標(biāo):重參數(shù)化

9:49:25下午1204.理論目標(biāo):重參數(shù)化那么,我們可以將原始目標(biāo)函數(shù)改寫9:49:25下午121改寫估計

4.理論目標(biāo):重參數(shù)化

9:49:25下午122對應(yīng)元素相乘4.理論目標(biāo):擴(kuò)展至整個分布

9:49:25下午1235.訓(xùn)練算法:理論損失函數(shù)對理論目標(biāo)函數(shù)取負(fù),可得到理論損失函數(shù)(TheoreticalLossFunction),即9:49:25下午1245.訓(xùn)練算法:經(jīng)驗損失函數(shù)

9:49:25下午1255.訓(xùn)練算法:經(jīng)驗損失函數(shù)經(jīng)驗損失可以進(jìn)一步化簡為:9:49:25下午126假設(shè):化簡5.訓(xùn)練算法:經(jīng)驗損失函數(shù)

9:49:25下午1275.訓(xùn)練算法:總體流程9:49:25下午1289:49:25下午1296.采樣

9:49:25下午130復(fù)習(xí):模型結(jié)構(gòu)

9:49:25下午1316.采樣:后驗采樣9:49:25下午1326.采樣:后驗采樣9:49:25下午1336.采樣:先驗采樣9:49:25下午1346.采樣:先驗采樣9:49:25下午1357.條件VAE條件變分自編碼器(ConditionalVariationalAutoencoder,CVAE)是變分自編碼器的變體模型,它可以對條件分布進(jìn)行估計,并根據(jù)給定條件進(jìn)行圖像生成。9:49:25下午1367.條件VAE將條件輸入到變分自編碼器中的方式有多種,此處我們介紹基于線性投影(LinearProjection)的方法。9:49:25下午1378.代碼示例:數(shù)據(jù)集

9:49:25下午1388.代碼示例:載入Python包9:49:25下午1398.代碼示例:參數(shù)設(shè)置9:49:25下午1408.代碼示例:數(shù)據(jù)載入9:49:25下午1418.代碼示例:定義VAE類9:49:25下午1429:49:25下午1439:49:25下午1449:49:25下午1459:49:25下午1469:49:25下午1479:49:25下午1488.代碼示例:實例化與優(yōu)化器9:49:25下午1498.代碼示例:損失函數(shù)9:49:25下午1508.代碼示例:訓(xùn)練函數(shù)9:49:25下午1519:49:25下午1528.代碼示例:執(zhí)行訓(xùn)練9:49:25下午1538.代碼示例:先驗采樣9:49:25下午154生成式視覺模型

原理與實踐9:49:25下午155第4章生成對抗網(wǎng)絡(luò)

(1)基礎(chǔ)模型9:49:25下午156主要內(nèi)容原始GAN模型條件GAN模型9:49:25下午1573.代碼示例1.原始GAN模型生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN),由Ian

Goodfellow等人于2014年最先提出,在本課程中被稱作原始GAN模型

[GOODFELLOWetal.,2014]。9:49:25下午1581.原始GAN模型YannLeCun(楊立昆)稱生成式對抗網(wǎng)絡(luò)為“機(jī)器學(xué)習(xí)這二十年來最酷的想法”。9:49:25下午1599:49:25下午160生成對抗網(wǎng)絡(luò)大家族網(wǎng)絡(luò)條件損失正則化小樣本1.原始GAN模型模型結(jié)構(gòu)損失函數(shù)如何理解生成器理論最優(yōu)判別器9:49:25下午161為什么GAN是生成模型?梯度消失問題模式坍縮問題符號約定9:49:25下午162符號含義符號含義真實圖像所服從概率分布的密度函數(shù),一般簡稱為真實分布或數(shù)據(jù)分布虛假圖像所服從概率分布的密度函數(shù),一般簡稱模型分布或生成數(shù)據(jù)分布噪聲,一般為高斯噪聲噪聲分布的密度函數(shù)模型結(jié)構(gòu):生成器與判別器

9:49:25下午163模型結(jié)構(gòu):生成器與判別器生成器:判別器:9:49:25下午164網(wǎng)絡(luò)結(jié)構(gòu):全連接網(wǎng)絡(luò)9:49:25下午165網(wǎng)絡(luò)結(jié)構(gòu):卷積網(wǎng)絡(luò)9:49:25下午166生成器判別器對抗式訓(xùn)練

9:49:25下午167理論訓(xùn)練目標(biāo):判別器

9:49:25下午168其中理論訓(xùn)練目標(biāo):判別器9:49:25下午169交叉熵?fù)p失對抗損失(AdversarialLoss)等價如何推導(dǎo)?理論訓(xùn)練目標(biāo):判別器

9:49:25下午170理論訓(xùn)練目標(biāo):判別器示例:推導(dǎo)第一項作業(yè):完整推導(dǎo)9:49:25下午171理論訓(xùn)練目標(biāo):生成器與判別器的訓(xùn)練目標(biāo)相反,生成器的目的是生成足以讓判別器無法區(qū)分的假圖,即讓判別器“錯誤地”為這張假圖賦予一個較高的概率。9:49:25下午172形式1形式2梯度性質(zhì)更好,更易優(yōu)化理論損失函數(shù)判別器生成器9:49:25下午173理論損失函數(shù)博弈論角度:“最小化最大化游戲”9:49:25下午174經(jīng)驗損失函數(shù)9:49:25下午175問題:理論損失中的期望無法計算!經(jīng)驗損失函數(shù)

9:49:25下午1769:49:25下午177訓(xùn)練算法如何理解生成器?

9:49:25下午178“多對一”的映射理論最優(yōu)判別器

9:49:25下午179為什么GAN是生成模型?對抗損失(AdversarialLoss)9:49:25下午180

復(fù)習(xí):什么是生成式建模?

9:49:25下午181

復(fù)習(xí):密度估計的方法

9:49:25下午182復(fù)習(xí):KL散度和JS散度9:49:25下午183KL散度JS散度為什么GAN是生成模型?最優(yōu)判別器生成器的目標(biāo)函數(shù)9:49:25下午184帶入為什么GAN是生成模型?9:49:25下午185為什么GAN是生成模型?9:49:25下午186為什么GAN是生成模型?9:49:25下午187哪來的?為什么GAN是生成模型?9:49:25下午188

為什么GAN是生成模型?9:49:25下午189為什么GAN是生成模型?9:49:25下午190為什么GAN是生成模型?9:49:25下午191為什么GAN是生成模型?

9:49:25下午192Jensen-Shannondivergence(JS散度)

一個簡單的例子9:49:25下午193MNIST:70,00028x28gray-scaleimagesfrom10classes(i.e.,10digits).100examplerealimagesfromMNIST網(wǎng)絡(luò)結(jié)構(gòu)9:49:25下午194GAN模型的兩大著名問題梯度消失問題模式坍縮問題9:49:25下午195梯度消失問題:含義GAN模型的梯度消失問題是指在GAN的訓(xùn)練過程中,梯度在反向傳播到生成器時逐漸變得非常小,甚至接近于零,導(dǎo)致生成器的參數(shù)更新非常緩慢或幾乎不更新,進(jìn)而使得生成器無法有效地學(xué)習(xí)到如何生成高質(zhì)量的樣本。9:49:25下午196梯度消失問題:原因

9:49:25下午197梯度消失問題:原因9:49:25下午198梯度消失問題:啟示不能一次性地將判別器訓(xùn)練至其最優(yōu)狀態(tài)(梯度消失)也不能讓判別器過于弱?。ㄐ阅芡┮獫u進(jìn)式的提升生成器和判別器的能力需要在梯度消失和性能停滯之間找到一個微妙的平衡點,這是一項極具挑戰(zhàn)性的任務(wù)9:49:25下午199模式坍縮問題:含義在GAN的訓(xùn)練過程中,生成器傾向于只生成有限種或單一模式的樣本,而忽略數(shù)據(jù)集中的其他模式,導(dǎo)致生成的樣本缺乏多樣性和覆蓋性。9:49:25下午200模式坍縮問題:例子當(dāng)訓(xùn)練一個GAN來生成手寫數(shù)字圖像(即MNIST數(shù)據(jù)集)時,如果發(fā)生模式坍縮,即便訓(xùn)練集中包含了0-9所有數(shù)字,生成器可能也只會生成數(shù)字“4”。盡管生成的“4”可能非常逼真,但整個生成過程失去了多樣性。9:49:25下午201模式坍縮問題:例子9:49:25下午202模式坍縮問題:原因那么,為什么會出現(xiàn)模式坍縮呢?這與GAN的損失函數(shù)有關(guān)。9:49:25下午203模式坍縮問題:原因最優(yōu)判別器生成器的目標(biāo)函數(shù)9:49:25下午204再次帶入9:49:25下午2059:49:25下午2069:49:25下午2079:49:25下午2089:49:25下午2099:49:25下午210與G無關(guān)模式坍縮問題:原因由于JS散度有界,即項對優(yōu)化影響更顯著但是,KL散度項會導(dǎo)致模式坍縮問題!9:49:25下午211模式坍縮問題:原因【KL散度】:若,則,那么KL散度會非常大;若,則無論取值如何,都有

。那么,KL散度接近0。9:49:25下午212模式坍縮問題:原因

9:49:25下午213模式坍縮問題:原因這種特性可能導(dǎo)致GAN模型僅覆蓋真實分布的某個模式(Mode),而忽視了其他模式。在生成圖像時,這表現(xiàn)為生成器傾向于生成一些更“安全”的樣本,而避免生成一些“有挑戰(zhàn)性”的樣本,這就是所謂的模式坍縮問題。9:49:25下午214模式坍縮問題:原因9:49:25下午2152.條件GAN模型9:49:25下午216GANcGAN2.條件GAN模型重要的生成式建模范式模型結(jié)構(gòu)損失函數(shù)模型分析9:49:25下午217重要的生成式建模范式需要控制生成圖像的某些特定性質(zhì),如類別標(biāo)簽、風(fēng)格、屬性等對以下條件分布進(jìn)行估計9:49:25下午218模型結(jié)構(gòu)9:49:25下午219條件生成對抗網(wǎng)絡(luò)(ConditionalGenerativeAdversarialNetwork,cGAN)由Mirza等人在2014年首次提出,并在此基礎(chǔ)上發(fā)展出了許多變體模型。模型結(jié)構(gòu)

9:49:25下午220損失函數(shù)原始cGAN的損失函數(shù)9:49:25下午221原始GAN的損失函數(shù)模型分析

9:49:25下午222模型分析

9:49:25下午223模型分析

9:49:25下午2243.代碼示例:數(shù)據(jù)集

9:49:25下午2253.代碼示例:DCGAN9:49:25下午2263.代碼示例:DCGAN9:49:25下午2279:49:25下午228定義生成器的類9:49:25下午229定義判別器的類9:49:25下午230實例化9:49:25下午231定義訓(xùn)練函數(shù)9:49:25下午2329:49:25下午233運行訓(xùn)練訓(xùn)練損失9:49:25下午2349:49:25下午235評價指標(biāo)的計算與比較為了評估DCGAN的生成圖像質(zhì)量,我們采用了FID分?jǐn)?shù)作為衡量標(biāo)準(zhǔn)。具體計算FID分?jǐn)?shù)時,我們首先在Fashion

MNIST數(shù)據(jù)集上預(yù)訓(xùn)練了一個ResNet34模型,并基于該模型最后一個平均池化層輸出的特征圖來進(jìn)行計算。在評價生成模型時,我們利用DCGAN的采樣函數(shù)生成了1萬張?zhí)摷賵D片,并以FashionMNIST數(shù)據(jù)集中的1萬張測試圖片作為基準(zhǔn),計算了這些生成圖片的FID分?jǐn)?shù)。同樣地,我們也使用了VAE模型生成了1萬張?zhí)摷賵D片,并計算了其FID分?jǐn)?shù)。9:49:25下午236復(fù)習(xí):FréchetInceptionDistance用一個在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception

V3模型來提取生成圖片和真實圖片的特征

(feature),并在此特征空間定義一個距離:FID分?jǐn)?shù)越低,表示生成圖像與真實圖像的分布越接近,通常認(rèn)為生成的圖像質(zhì)量越高。9:49:25下午237生成圖像生成圖像真實圖像真實圖像9:49:25下午238評價指標(biāo)的計算與比較9:49:25下午239生成式視覺模型

原理與實踐9:49:25下午240第4章生成對抗網(wǎng)絡(luò)

(2)進(jìn)階模型9:49:25下午241原始GAN的問題梯度消失問題模式坍縮問題網(wǎng)絡(luò)結(jié)構(gòu)簡單需要大量樣本……9:49:25下午242生成低質(zhì)量樣本需要大幅改進(jìn)!主要內(nèi)容損失函數(shù)網(wǎng)絡(luò)架構(gòu)正則化條件輸入方式9:49:25下午243隱變量解耦數(shù)據(jù)增強(qiáng)二次采樣大模型技術(shù)1.損失函數(shù)Wasserstein損失WGAN、WGAN-GP等Hinge損失GeometricGAN、SNGAN、SAGAN、BigGAN、ReACGAN、ADCGAN等9:49:25下午244預(yù)備知識:Wasserstein距離Wasserstein距離(WassersteinDistance),也被稱為推土機(jī)距離(EarthMover’sDistance,EMD),是一種用于度量兩個概率分布之間差異的方法。9:49:25下午245預(yù)備知識:Wasserstein距離

9:49:25下午246預(yù)備知識:Wasserstein距離Wasserstein距離通過衡量將一個分布轉(zhuǎn)化為另一個分布所需的最小總成本來計算兩個概率分布之間的距離。直觀上,Wasserstein距離可以被理解為“移動土堆”的最小成本,所以也被稱為推土機(jī)距離。9:49:25下午247預(yù)備知識:Wasserstein距離

9:49:25下午248

預(yù)備知識:Wasserstein距離

9:49:25下午249

預(yù)備知識:Wasserstein距離

9:49:25下午250

預(yù)備知識:Wasserstein距離即使在兩個分布的支撐集沒有重疊或重疊非常少的情況下,Wasserstein距離仍然能反映兩個分布的遠(yuǎn)近。相比之下,像Kullback-Leibler散度(KL散度)或Jensen-Shannon散度(JS散度)在兩個分布不重疊時可能失效。9:49:25下午251預(yù)備知識:Lipschitz連續(xù)函數(shù)Lipschitz連續(xù)函數(shù)是數(shù)學(xué)中的一個重要概念,用于描述函數(shù)在定義域內(nèi)任意兩點之間的變化率都有一個全局的上限。如果一個函數(shù)滿足Lipschitz條件,那么它的函數(shù)圖像在任何地方都不會陡峭到無限的程度,從而為函數(shù)的行為提供了強(qiáng)有力的局部約束。9:49:25下午252預(yù)備知識:Lipschitz連續(xù)函數(shù)

9:49:25下午253預(yù)備知識:Lipschitz連續(xù)函數(shù)

9:49:25下午254預(yù)備知識:Lipschitz連續(xù)函數(shù)

9:49:25下午255復(fù)習(xí):原始GAN最小化JS散度

9:49:25下午256Jensen-Shannondivergence(JS散度)梯度消失和模式坍縮均與最小化JS散度有關(guān)Wasserstein損失Arjovsky等人(2017)提出了WassersteinGAN(WGAN)WGAN用Wasserstein距離替代JS散度顯著提升了GAN的穩(wěn)定性和生成質(zhì)量9:49:25下午257Wasserstein損失

9:49:25下午258Wasserstein損失

9:49:25下午259Wasserstein損失

9:49:25下午260

Wasserstein損失

9:49:25下午261評價網(wǎng)絡(luò)(CriticNetwork)Wasserstein損失

9:49:25下午262Wasserstein損失

9:49:25下午263為什么?WassersteinGAN(WGAN)評價網(wǎng)絡(luò)(CriticNetwork)給真圖打高分,給假圖打低分生成網(wǎng)絡(luò)(GenerativeNetwork)生成讓評價網(wǎng)絡(luò)打分盡可能高的樣本最終損失函數(shù)9:49:25下午264WGAN-GPWGAN的權(quán)重剪切法存在兩個關(guān)鍵缺陷它將評價網(wǎng)絡(luò)的權(quán)重限制在一個固定范圍內(nèi),這可能導(dǎo)致權(quán)重集中在剪切閾值的兩端,從而限制了評價網(wǎng)絡(luò)的表達(dá)能力權(quán)重剪切方法并不能完全保證判別器滿足Lipschitz連續(xù)性條件,反而可能引發(fā)訓(xùn)練過程中的不穩(wěn)定性9:49:25下午265WGAN-GPGulrajani等人提出了WGAN-GP模型,該模型通過引入梯度懲罰項(GradientPenalty,GP)替代了WGAN的權(quán)重剪切方法,實現(xiàn)了對評價網(wǎng)絡(luò)梯度行為更加靈活的控制[GULRAJANIetal.,2017]9:49:25下午266WGAN-GP

9:49:25下午267Hinge損失Hinge損失(HingeLoss),也稱鉸鏈損失,最初是在支持向量機(jī)中引入的,用于處理分類問題,特別是二分類問題9:49:25下午268Hinge損失

9:49:25下午269Hinge損失Hinge損失的基本思想是在正確分類的同時,最大化不同類別之間的間隔(Margin)使得分類器更加關(guān)注難以分類的樣本,即那些靠近決策邊界的樣本,從而提高模型的泛化能力9:49:25下午270Hinge損失在GAN模型中,判別器實質(zhì)上也可以被視為一個二分類器。因此,在訓(xùn)練判別器的過程中,我們可以考慮采用Hinge損失來替代原始GAN模型中所使用的交叉熵?fù)p失9:49:25下午271Hinge損失基于Hinge損失,Lim等人定義了如下的評價網(wǎng)絡(luò)(判別器)損失函數(shù)[Lim&Ye,2017]:生成器的損失函數(shù)9:49:25下午272Hinge損失

9:49:25下午273Hinge損失

9:49:25下午2742.網(wǎng)絡(luò)架構(gòu)深度卷積架構(gòu):DCGAN譜歸一化:SNGAN自注意力機(jī)制:SAGAN提升模型規(guī)模:BigGANViT結(jié)構(gòu):ViTGAN9:49:25下午275深度卷積架構(gòu):DCGAN原始GAN和cGAN模型所采用的網(wǎng)絡(luò)架構(gòu)均設(shè)計為僅包含三層全連接層的全連接網(wǎng)絡(luò),無法處理復(fù)雜的高維圖像數(shù)據(jù)。DCGAN(2015)利用卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建GAN的生成器和判別器,并為網(wǎng)絡(luò)架構(gòu)設(shè)計提供了指導(dǎo)性意見,對GAN模型的發(fā)展具有重要意義。9:49:25下午276[1]Arjovsky,Martin,SoumithChintala,andLéonBottou."Wassersteingenerativeadversarialnetworks."ICML’17.深度卷積架構(gòu):DCGAN主要貢獻(xiàn):利用卷積來進(jìn)行上/下采樣步長卷積(下采樣)、轉(zhuǎn)置卷積(上采樣)批量歸一化激活函數(shù)ReLU、LeakyReLU避免使用全連接層9:49:25下午277深度卷積架構(gòu):DCGAN9:49:25下午278生成器判別器譜歸一化:SNGANMiyato等人利用譜歸一化(SpectralNormalization)來歸一化判別器每個權(quán)重矩陣的譜范數(shù)(SpectralNorm),從而防止權(quán)重在訓(xùn)練中有較大波動進(jìn)而提出SpectralNormalizationGAN(SNGAN)防止模式坍縮,提高GAN的收斂性9:49:25下午279[1]Miyato,Takeru,etal."SpectralNormalizationforGenerativeAdversarialNetworks."ICLR’18.譜歸一化:SNGAN

9:49:25下午280

方法一:SVD分解9:49:25下午281

方法二:通過特征值計算9:49:25下午282通過特征方程求解例題1:最大奇異值計算9:49:25下午283例題2:譜歸一化后的Lipschitz連續(xù)性9:49:25下午284L2誘導(dǎo)范數(shù)(即譜范數(shù))

方法一和二屬于精確計算,但只適用于小矩陣方法三:冪迭代法(Poweriteration,近似方法)9:49:25下午285SNGAN的ResNet網(wǎng)絡(luò)架構(gòu)9:49:25下午286SNGAN的ResNet網(wǎng)絡(luò)架構(gòu)9:49:25下午287自注意力機(jī)制:SAGAN傳統(tǒng)GAN模型主要依賴卷積操作來建模圖像區(qū)域間的依賴關(guān)系,然而,卷積操作的感受野有限,難以有效捕捉圖像中的遠(yuǎn)距離依賴關(guān)系,尤其在生成精細(xì)細(xì)節(jié)時顯得力不從心。Zhang等人于2019年提出了Self-AttentionGenerativeAdversarialNetwork(SAGAN)。9:49:25下午288[1]Zhang,Han,etal."Self-attentiongenerativeadversarialnetworks."ICML’19.自注意力機(jī)制:SAGAN引入自注意力機(jī)制,適合長距離關(guān)系建模對生成器和判別器均應(yīng)用了譜歸一化技術(shù)在2018-2019年左右達(dá)到新能最佳啟發(fā)了重要的條件生成式模型BigGAN9:49:25下午289SAGAN的網(wǎng)絡(luò)架構(gòu)9:49:25下午290提升模型規(guī)模:BigGANBrock等人于2019年提出了BigGAN模型,該模型旨在通過提升模型規(guī)模、優(yōu)化訓(xùn)練方式、改進(jìn)采樣方式等手段,突破GAN在生成復(fù)雜高分辨率圖像時面臨的瓶頸問題,從而極大推動了基于類別的生成模型性能的提升。9:49:25下午291BigGAN的改進(jìn)

9:49:25下午292BigGAN的網(wǎng)絡(luò)結(jié)構(gòu)9:49:25下午293BigGAN的網(wǎng)絡(luò)結(jié)構(gòu)9:49:25下午294ViT結(jié)構(gòu):ViTGAN用VisionTransformer(ViT)完全替代卷積神經(jīng)網(wǎng)絡(luò)(CNN)來作為生成器和判別器的架構(gòu)與基于CNN的最新GAN模型表現(xiàn)相當(dāng)9:49:25下午295[1]Lee,Kwonjoon,etal."ViTGAN:TrainingGANswithVisionTransformers."ICLR2022.3.正則化正則化(Regularization)在GAN中扮演著至關(guān)重要的角色。它主要通過引入額外的約束或懲罰項來限制模型的復(fù)雜度或保持某些良好特性,從而幫助穩(wěn)定GAN的訓(xùn)練過程、防止過擬合,并提升生成圖像的質(zhì)量和多樣性。9:49:25下午2963.正則化權(quán)重衰減一致性正則化梯度正則化……9:49:25下午297權(quán)重衰減

9:49:25下午298權(quán)重衰減的作用防止過擬合提高模型穩(wěn)定性平衡生成器和判別器的性能9:49:25下午299已集成進(jìn)優(yōu)化器9:49:25下午300一致性正則化一致性正則化(ConsistencyRegularization,CR)是機(jī)器學(xué)習(xí)領(lǐng)域中常用的一種技術(shù)。核心思想是通過引入一致性約束來增強(qiáng)模型的泛化能力和穩(wěn)定性。這種正則化策略鼓勵模型在面對輕微擾動的輸入時,能夠產(chǎn)生一致或相似的輸出。有助于降低模型對輸入噪聲的敏感性,并促使模型學(xué)習(xí)到更加平滑的決策邊界。9:49:25下午301一致性正則化Odena等人于2020年提出了一致性正則化生成對抗網(wǎng)絡(luò)(ConsistencyRegularizedGAN,CR-GAN)。在訓(xùn)練判別器時,CR-GAN的損失函數(shù)增加了一個一致性正則化項,即9:49:25下午302

梯度正則化

9:49:25下午303回憶:K-Lipschitz連續(xù)是如何定義的?4.條件輸入方式特征圖拼接輔助分類器條件批歸一化標(biāo)簽投影一維連續(xù)條件9:49:25下午304復(fù)習(xí):原始cGAN

9:49:25下午305如何將條件輸入到神經(jīng)網(wǎng)絡(luò)中呢?常見方法9:49:25下午306生成器判別器特征圖拼接通過在隱藏層進(jìn)行條件拼接來實現(xiàn)條件生成功能簡單、易于實現(xiàn),既適用于生成器也適用于判別器9:49:25下午307生成器判別器輔助分類器:ACGAN在判別器網(wǎng)絡(luò)的末尾中增加一個輔助分類網(wǎng)絡(luò),并引入一個輔助分類任務(wù)9:49:25下午308輔助分類器:ACGANACGAN的總損失函數(shù)為對抗損失和輔助分類損失的線性組合:9:49:25下午309對抗損失輔助分類損失條件批歸一化是傳統(tǒng)批歸一化(BatchNormalization,BN)的變體,它在批歸一化公式中引入了條件信息,以增強(qiáng)模型在特定條件下的生成能力。這種方法已被證明在生成對抗網(wǎng)絡(luò)中具有顯著效果,并且已被多種著名的GAN模型,如SNGAN、SAGAN、BigGAN等采用。9:49:25下午310復(fù)習(xí):傳統(tǒng)批歸一化

9:49:25下午311復(fù)習(xí):常見歸一化方法9:49:25下午312批歸一化層歸一化實例歸一化群歸一化復(fù)習(xí):常見歸一化方法9:49:25下午313條件批歸一化將條件信息融入到縮放和偏移參數(shù)中,使得這些參數(shù)不再是全局固定的,而是根據(jù)輸入的條件動態(tài)變化:9:49:25下午314條件批歸一化一般將生成器網(wǎng)絡(luò)的某些批歸一化層替換為條件批歸一化層9:49:25下午315標(biāo)簽投影在現(xiàn)代cGAN模型中,一種常用的向判別器網(wǎng)絡(luò)輸入條件的方法被稱為標(biāo)簽投影(LabelProjection)。這一方法已經(jīng)被多種著名的cGAN模型所采用,包括SNGAN、SAGAN、BigGAN等。9:49:25下午316標(biāo)簽投影9:49:25下午317一維連續(xù)條件傳統(tǒng)cGAN不能以連續(xù)的標(biāo)量,又稱回歸標(biāo)簽(例如年齡或角度)為條件進(jìn)行生成式建模9:49:25下午318為什么?原因損失函數(shù)無法適用于回歸標(biāo)簽缺乏合適的標(biāo)簽輸入方式(為什么?)9:49:25下午319回顧9:49:25下午320生成器判別器傳統(tǒng)方法無法編碼回歸標(biāo)簽回歸標(biāo)簽是連續(xù)的,可能有無數(shù)種取值,回歸標(biāo)簽可能有缺失值(未在訓(xùn)練集中觀測到的取值)9:49:25下午321連續(xù)條件生成對抗網(wǎng)絡(luò)(CcGAN)

9:49:25下午322連續(xù)條件生成對抗網(wǎng)絡(luò)(CcGAN)9:49:25下午323工程應(yīng)用工程逆向設(shè)計針對高光譜圖像的數(shù)據(jù)擴(kuò)增可控點云生成SAR圖像可控生成預(yù)測地質(zhì)層系中的二氧化碳傳播解決高度異質(zhì)材料屬性的穩(wěn)態(tài)問題……極大促進(jìn)了不同學(xué)科的交叉!高光譜圖像的數(shù)據(jù)擴(kuò)增預(yù)測CO2傳播點云可控生成機(jī)翼翼型逆向設(shè)計SAR圖像可控生成未必只適用于圖像數(shù)據(jù)!5.隱變量解耦I(lǐng)nfoGANStyleGAN9:49:25下午3245.隱變量解耦隱變量解耦(Disentanglement)在GAN模型中指的是將隱空間(即噪聲空間)中的變量分解為相互獨立或相關(guān)性較小的部分,每部分變量控制生成圖像的不同屬性或特征。通過解耦,可以更容易地操縱生成圖像,實現(xiàn)更精細(xì)的控制和生成多樣性。9:49:25下午325InfoGAN信息最大化生成對抗網(wǎng)絡(luò)(InfoGAN)是對原始GAN模型的一個重要擴(kuò)展。其核心創(chuàng)新之處在于引入了一個潛在信息變量,并通過最大化這些信息與生成數(shù)據(jù)之間的互信息,使得生成器能夠生成具有特定屬性的數(shù)據(jù)樣本9:49:25下午326是cGAN嗎?StyleGANStyleGAN是由TeroKarras等人于2019年提出的一種GAN模型的變體。StyleGAN的主要創(chuàng)新之處在于其生成器的架構(gòu)設(shè)計,特別是在生成過程中引入了風(fēng)格(Style)控制機(jī)制,這使得它能夠?qū)ι蓤D像的各個層次細(xì)節(jié)進(jìn)行獨立的控制9:49:25下午327StyleGAN9:49:25下午328StyleGAN

9:49:25下午329StyleGAN合成網(wǎng)絡(luò)(SynthesisNetwork):將風(fēng)格代碼轉(zhuǎn)換為最終的圖像在合成過程中,每個樣式塊通過自適應(yīng)實例歸一化(AdaIN)將樣式信息注入到對應(yīng)的卷積層中,從而實現(xiàn)對圖像樣式的精細(xì)控制9:49:25下午330StyleGAN能夠無監(jiān)督的自主解耦(Disentanglement)生成圖像中的高階屬性(例如人物的表情、臉部朝向等),從而使用者可以控制圖像的生成9:49:25下午3316.數(shù)據(jù)增強(qiáng)DiffAugment負(fù)樣本擴(kuò)增9:49:25下午332復(fù)習(xí):傳統(tǒng)數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)(DataAugmentation,DA)是一種提高深度學(xué)習(xí)模型性能的技術(shù),特別是在圖像處理任務(wù)中。通過對訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)變換,可以生成更多樣化的訓(xùn)練樣本,從而減輕過擬合,增強(qiáng)模型的泛化能力。常見變換:幾何變換、顏色變換、噪聲、變形、剪切、混合等。9:49:25下午333DiffAugment可微分?jǐn)?shù)據(jù)擴(kuò)增(DifferentiableAugmentation,DiffAugment)是一種旨在GAN訓(xùn)練穩(wěn)定性的方法,尤其適用于數(shù)據(jù)集規(guī)模較小的情況。其核心創(chuàng)新點在于,將數(shù)據(jù)增強(qiáng)操作設(shè)計為一個可微分的模塊,直接整合到GAN的訓(xùn)練流程之中。9:49:25下午334DiffAugment

9:49:25下午335負(fù)樣本擴(kuò)增(NDA)傳統(tǒng)數(shù)據(jù)增強(qiáng)(Data

Augmentation,

DA)利用旋轉(zhuǎn)、翻轉(zhuǎn)、剪切等操作來擴(kuò)充訓(xùn)練集本質(zhì):告訴模型應(yīng)該生成什么樣本負(fù)樣本擴(kuò)增(NegativeDA,NDA)生成低質(zhì)量樣本來擴(kuò)充訓(xùn)練集本質(zhì):告訴模型不應(yīng)該生成什么樣本9:49:25下午336負(fù)樣本擴(kuò)增(NDA)傳統(tǒng)NDADual-NDA9:49:25下午337負(fù)樣本擴(kuò)增(NDA)9:49:25下午3387.二次采樣二次采樣(Subsampling)可以在GAN模型訓(xùn)練完成后,提升采樣質(zhì)量基于最優(yōu)判別器基于概率密度比估計9:49:25下午339預(yù)備知識:拒絕采樣

9:49:25下午340將拒絕采樣應(yīng)用于GAN

9:49:25下午341基于最優(yōu)判別器回憶:原始GAN的最優(yōu)判別器具有如下形式,整理后可得9:49:25下午342基于最優(yōu)判別器

9:49:25下午343基于概率密度比估計

9:49:25下午344基于概率密度比估計真實分布是包含25個高斯分布的混合分布對比方法無二次采樣基于最優(yōu)判別器概率密度比估計9:49:25下午3458.大模型技術(shù):GigaGAN三大突破?:???高速生成?:在3.66秒內(nèi)完成4K超分辨率????任意分辨率?:支持從256px→4K的無縫上采樣???跨尺度一致性?:通過多尺度訓(xùn)練避免細(xì)節(jié)斷裂9:49:25下午346GigaGAN如何實現(xiàn)高效高質(zhì)生成?重新設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)增大的模型容量多尺度的訓(xùn)練算法9:49:25下午347GigaGAN生成效果9:49:25下午348文生圖文生圖質(zhì)量媲美StableDiffusionv1.5GigaGAN生成效果9:49:25下午349圖像超清圖像超清效果達(dá)到SOTAGigaGAN的工業(yè)級應(yīng)用潛力游戲設(shè)計?:實時生成開放世界高清貼圖(對比傳統(tǒng)手工繪制)9:49:25下午350GigaGAN的工業(yè)級應(yīng)用潛力廣告創(chuàng)意?:按需生成多尺寸廣告素材(從手機(jī)屏到戶外大屏)9:49:25下午351GigaGAN的工業(yè)級應(yīng)用潛力醫(yī)學(xué)影像?:低分辨率影像(CT、MRI等)→高清3D重建9:49:25下午352生成式視覺模型

原理與實踐9:49:25下午353第4章生成對抗網(wǎng)絡(luò)

(3)典型應(yīng)用9:49:25下午354主要內(nèi)容圖像翻譯圖像超清圖像去噪圖像修復(fù)9:49:25下午355圖像操作文生圖知識蒸餾圖像翻譯(I2ITranslation)任務(wù)解釋:圖像翻譯(Image-to-ImageTranslation)一種經(jīng)典的計算機(jī)視覺任務(wù),旨在學(xué)習(xí)一個映射,使得圖像能夠從源圖像域(SourceDomain)有效地轉(zhuǎn)換到目標(biāo)圖像域(TargetDomain),同時盡可能地保留原始圖像的內(nèi)容(Content)。9:49:25下午356源圖像域目標(biāo)圖像域

映射圖像翻譯(I2ITranslation)9:49:25下午357圖像翻譯(I2ITranslation)9:49:25下午358圖像翻譯(I2ITranslation)配對VS非配對

數(shù)據(jù)9:49:25下午359問題:哪一種數(shù)據(jù)更容易搜集?CycleGAN(2017):簡介CycleGAN是一種無需配對數(shù)據(jù)的圖像翻譯模型,它借助了GAN的結(jié)構(gòu)實現(xiàn)兩個不同域之間的圖像風(fēng)格轉(zhuǎn)換,并通過循環(huán)一致性損失保證轉(zhuǎn)換的準(zhǔn)確性。9:49:25下午360[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.源域目標(biāo)域CycleGAN(2017):結(jié)構(gòu)

9:49:25下午361[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.源域目標(biāo)域CycleGAN(2017):機(jī)制

9:49:25下午362[1]Zhu,Jun-Yan,etal."Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks."

ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017.

更關(guān)注CycleGAN(2017):損失對抗訓(xùn)練目標(biāo)函數(shù)能否只用對抗損失?當(dāng)生成器網(wǎng)絡(luò)容量足夠大時,可能生成與輸入圖像無關(guān)但足以欺騙判別器的圖像,即忽略了輸入圖像的內(nèi)容,而只關(guān)注于生成與目標(biāo)域相似的圖像。9:49:25下午363CycleGAN(2017):損失循環(huán)一致性損失為對抗訓(xùn)練目標(biāo)添加約束,增強(qiáng)了生成圖像與目標(biāo)域圖像之間的一致性9:49:25下午364CycleGAN(2017):損失完整訓(xùn)練目標(biāo)9:49:25下午365問題:CycleGAN滿足生成模型的定義嘛?復(fù)習(xí):什么是生成式建模?

9:49:25下午366

復(fù)習(xí):密度估計的方法

9:49:25下午367CycleGAN(2017):損失完整訓(xùn)練目標(biāo)9:49:25下午368嚴(yán)格來說不屬于生成式模型;是基于GAN模型的變種CycleGAN(2017):效果9:49:25下午369案例:基于CycleGAN的MR-CT轉(zhuǎn)換利用CycleGAN實現(xiàn)MR影像到CT影像的轉(zhuǎn)變,將有助于癌癥患者放射治療基于CycleGAN架構(gòu),但是加入了結(jié)構(gòu)約束合成效果好于其他無監(jiān)督方法9:49:25下午370[1]Yang,Heran,etal."UnsupervisedMR-to-CTsynthesisusingstructure-constrainedCycleGAN."

IEEEtransactionsonmedicalimaging

39.12(2020):4249-4261.圖像超清(Super-resolution)任務(wù)解釋:一種計算機(jī)視覺任務(wù),旨在提高圖像的分辨率和清晰度,以獲得更高質(zhì)量的圖像??梢詰?yīng)用于多個領(lǐng)域,如數(shù)字?jǐn)z影、視頻監(jiān)控、醫(yī)學(xué)成像和遙感等,以提升圖像質(zhì)量和視覺效果。9:49:25下午371SRGAN

(2017)SRGAN通過生成器和判別器的博弈學(xué)習(xí),實現(xiàn)圖像的超清晰度處理。并采用感知誤差作為優(yōu)化目標(biāo),確保生成的圖像在細(xì)節(jié)和紋理上更接近真實高清圖像。9:49:25下午372[1]Ledig,Christian,etal."Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork."

ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017.SRGAN

(2017):網(wǎng)絡(luò)結(jié)構(gòu)9:49:25下午373[1]Ledig,Christian,etal."Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork."

ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017.生成器網(wǎng)絡(luò)判別器網(wǎng)絡(luò)高清超清超清低清SRGAN

(2017):效果9:49:25下午374原始圖像GigaGAN

(2023)9:49:25下午375圖像去噪(ImageDenoising)任務(wù)解釋:指從包含噪聲的圖像中恢復(fù)出干凈的圖像內(nèi)容旨在去除圖像拍攝或傳輸過程中引入的隨機(jī)噪聲,如高斯噪聲、椒鹽噪聲等目標(biāo)是提高圖像質(zhì)量和視覺效果,以便于后續(xù)的圖像分析、識別和處理9:49:25下午376基于GAN的圖像去噪9:49:25下午377[1]Tran,LinhDuy,SonMinhNguyen,andMasayukiArai."GAN-basednoisemodelfordenoisingrealimages."ProceedingsoftheAsianConferenceonComputerVision.2020.使用GAN估計輸入噪聲圖像上的噪聲分布,并生成噪聲樣本然后,利用這些噪聲樣本構(gòu)建配對的訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練去噪網(wǎng)絡(luò)圖像修復(fù)(ImageInpainting)任務(wù)解釋:重建或修復(fù)圖像中丟失、損壞或不需要的部分例如修復(fù)老照片中的瑕疵、去除圖像中的多余物體、填補(bǔ)圖像中的空洞等。9:49:25下午378基于WassersteinGAN的圖像修復(fù)采用GAN的架構(gòu)和對抗損失將圖像修復(fù)問題轉(zhuǎn)化為對抗生成問題9:49:25下午379[1]Jiang,Yi,etal."Imageinpaintingbasedongenerativeadversarialnetworks."

IEEEAccess

8(2020):22884-22892.圖像操控(ImageManipulation)任務(wù)解釋:圖像操控任務(wù)通常指的是利用算法和技術(shù)對數(shù)字圖像進(jìn)行修改、增強(qiáng)或創(chuàng)作的過程。這些任務(wù)旨在改善圖像的質(zhì)量、突出特定信息、實現(xiàn)藝術(shù)效果或滿足其他應(yīng)用需求。通俗說就是P圖!9:49:25下午380DragGAN(2023)主要包括兩個組件:1)基于特征的運動監(jiān)督,驅(qū)動操作點向目標(biāo)位置移動;2)一種新的點跟蹤方法,利用判別性GAN特征來持續(xù)定位操作點的位置。通過DragGAN,任何人都可以精確控制像素的位置來變形圖像,從而操控動物、汽車、人類、風(fēng)景等不同類別的姿態(tài)、形狀、表情和布局。9:49:25下午381[1]Pan,Xingang,etal."Dragyourgan:Interactivepoint-basedmanipulationonthegenerativeimagemanifold."

ACMSIGGRAPH2023ConferenceProceedings.2023.文生圖(Text-to-Image)任務(wù)解釋:根據(jù)給定的文本描述,生成與之相匹配的圖像9:49:25下午382GigaGAN(2023)9:49:25下午383Deepfake技術(shù)Deepfake是一種利用深度學(xué)習(xí)技術(shù)生成合成媒體的技術(shù),得名于“deeplearning”(深度學(xué)習(xí))和“fake”(偽造)的結(jié)合,主要通過“生成對抗網(wǎng)絡(luò)”(GANs)等生成模型來實現(xiàn),能夠?qū)⑷说拿娌亢吐曇舻忍卣鬟M(jìn)行偽造,生成看似真實的圖像、視頻或音頻。9:49:25下午384Deepfake技術(shù)9:49:25下午385面部替換:GAN訓(xùn)練特定人物面部特征,生成器學(xué)習(xí)面部數(shù)據(jù)創(chuàng)建逼真替換圖像,比如將視頻中人物A的臉替換成人物B的臉,實現(xiàn)換臉效果。1表情遷移:GAN模型捕捉面部表情和動態(tài),在視頻中生成逼真面部表情變化,使偽造人物面部模仿真實人物表情,如讓視頻中人物做出原本未有的喜怒哀樂表情。2音頻同步:Deepfake技術(shù)將音頻與偽造視頻同步,使人物在偽造視頻中看似說出特定語句,如讓視頻中的人物說出一段事先準(zhǔn)備好的音頻對應(yīng)的話語。3Deepfake技術(shù)9:49:25下午386Deepfake的應(yīng)用?娛樂與創(chuàng)意?電影特效?:讓已故演員“復(fù)活”(如《星球大戰(zhàn)》中的年輕版萊婭公主)。?虛擬偶像?:如初音未來、A-SOUL等虛擬歌手。?教育與研究?歷史人物重現(xiàn)?:如讓愛因斯坦“講解”相對論。?語言學(xué)習(xí)?:生成多語言配音視頻。9:49:25下午387Deepfake的應(yīng)用??惡意濫用風(fēng)險?虛假新聞?:偽造政治人物演講(如烏克蘭總統(tǒng)“宣布投降”的偽造視頻)。?色情內(nèi)容?:名人換臉到成人視頻。?詐騙?:模仿CEO聲音要求轉(zhuǎn)賬(如2019年某公司被騙24.3萬美元)。9:49:25下午388Deepfake的倫理與安全問題信任危機(jī)?:難以區(qū)分真實與虛假信息,破壞社會信任。?隱私侵犯?:未經(jīng)同意使用他人肖像或聲音。?法律挑戰(zhàn)?:現(xiàn)行法律難以監(jiān)管AI生成內(nèi)容。9:49:25下午389Deepfake的倫理與安全問題檢測技術(shù)?:?AI檢測器?:如Facebook的DeepfakeDetectionChallenge(DFDC)。?生物特征分析?:檢測眨眼頻率、血流信號等生理特征。?立法監(jiān)管?:中國《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》(2023年)美國《深度偽造責(zé)任法案》(2023年提案)。歐盟《AI法案》要求標(biāo)注AI生成內(nèi)容。?公眾教育?:提高對Deepfake的認(rèn)知和警惕性。9:49:25下午390Deepfake:“雙刃劍”Deepfake是一把??“雙刃劍”,既能推動影視、教育等行業(yè)發(fā)展,也可能被濫用傳播虛假信息。未來需要?“技術(shù)+法律+公眾教育”結(jié)合,才能合理規(guī)范其使用。9:49:25下午391生成式視覺模型

原理與實踐9:49:25下午392第5章

標(biāo)準(zhǔn)化流9:49:25下午393主要內(nèi)容生成模型回顧雅可比行列式(預(yù)備知識)變量替換定理(預(yù)備知識)什么是標(biāo)準(zhǔn)化流?經(jīng)典模型與應(yīng)用9:49:25下午3949:49:25下午395典型生成模型的結(jié)構(gòu)示意圖復(fù)習(xí)1.生成模型回顧:VAE變分自編碼器在編碼過程中引入了一個隱變量,使得模型能夠?qū)W習(xí)到數(shù)據(jù)的潛在分布。通過優(yōu)化潛在變量的變分下界,變分自編碼器能夠生成與原始數(shù)據(jù)分布相似的新樣本。9:49:25下午396復(fù)習(xí)1.生成模型回顧:GAN生成對抗網(wǎng)絡(luò)由兩個神經(jīng)網(wǎng)絡(luò)組成:一個生成器和一個判別器。通過這兩個網(wǎng)絡(luò)的對抗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論