版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生成式視覺模型
原理與實(shí)踐9:18:59下午1第6章擴(kuò)散模型
(1)算法9:18:59下午29:18:59下午3典型生成模型的結(jié)構(gòu)示意圖StableDiffusion的生成效果9:18:59下午4Sora的生成效果(1)9:18:59下午5Sora的生成效果(2)9:18:59下午6理解擴(kuò)散模型的兩種視角變分?jǐn)U散模型VariationalDiffusionModel(VDM)涉及:馬爾科夫鏈、極大似然估計(jì)、變分推斷等基于分?jǐn)?shù)的生成模型Score-basedGenerativeModel(SGM)涉及:朗之萬動(dòng)力學(xué)、分?jǐn)?shù)匹配、隨機(jī)微分方程、常微分方程等9:18:59下午7理解擴(kuò)散模型的兩種視角變分?jǐn)U散模型VariationalDiffusionModel(VDM)涉及:馬爾科夫鏈、極大似然估計(jì)、變分推斷等基于分?jǐn)?shù)的生成模型Score-basedGenerativeModel(SGM)涉及:朗之萬動(dòng)力學(xué)、分?jǐn)?shù)匹配、隨機(jī)微分方程、常微分方程等9:18:59下午8主要內(nèi)容馬爾科夫鏈經(jīng)典模型:DDPM跨步采樣:DDIM9:18:59下午9條件擴(kuò)散模型隱擴(kuò)散模型DiT:Sora的基礎(chǔ)1.馬爾科夫鏈隨機(jī)過程馬爾科夫性質(zhì)馬爾科夫鏈9:18:59下午10隨機(jī)過程
9:18:59下午11
隨機(jī)過程
9:18:59下午12隨機(jī)過程
9:18:59下午13一個(gè)計(jì)算機(jī)模擬的布朗運(yùn)動(dòng)馬爾科夫性質(zhì)
9:18:59下午14馬爾科夫性質(zhì)9:18:59下午15未來當(dāng)前過去未來的狀態(tài)只依賴于當(dāng)前的狀態(tài),而與過去的狀態(tài)無關(guān)馬爾科夫鏈馬爾科夫鏈(MarkovChain)是一類具有馬爾科夫性質(zhì)的隨機(jī)過程。即未來的狀態(tài)只依賴于當(dāng)前的狀態(tài),而與過去的狀態(tài)無關(guān)。9:18:59下午162.經(jīng)典模型:DDPMDDPM簡(jiǎn)介正向與逆向擴(kuò)散過程損失函數(shù)(無推導(dǎo))網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練與采樣算法實(shí)驗(yàn)效果:FashionMNIST9:18:59下午17DDPM簡(jiǎn)介去噪擴(kuò)散概率模型DenoisingDiffusionProbabilisticModels由JonathanHo等人于2020年提出屬于變分?jǐn)U散模型的一種!9:18:59下午18[1]Ho,Jonathan,AjayJain,andPieterAbbeel."Denoisingdiffusionprobabilisticmodels."NIPS’20正向/逆向擴(kuò)散過程9:18:59下午19真實(shí)圖像加噪圖像白噪聲轉(zhuǎn)移分布轉(zhuǎn)移分布轉(zhuǎn)移分布轉(zhuǎn)移分布真實(shí)圖像(馬爾科夫鏈)(馬爾科夫鏈)正向擴(kuò)散過程
9:18:59下午20逆向擴(kuò)散過程
9:18:59下午21損失函數(shù)(無推導(dǎo))
9:18:59下午22源噪聲神經(jīng)網(wǎng)絡(luò)
網(wǎng)絡(luò)結(jié)構(gòu):U-Net
9:18:59下午23相比于傳統(tǒng)的U-Net結(jié)構(gòu)預(yù)測(cè)噪聲9:18:59下午24訓(xùn)練與采樣算法訓(xùn)練與采樣算法9:18:59下午25
訓(xùn)練與采樣算法9:18:59下午26訓(xùn)練與采樣算法9:18:59下午27實(shí)驗(yàn)效果:FashionMNIST9:18:59下午28VAEDCGANDDPM實(shí)驗(yàn)效果:FashionMNIST9:18:59下午294.DDIM:跨步采樣去噪擴(kuò)散隱模型DenoisingDiffusionImplicitModels(DDIM)DDIM和DDPM有相同的訓(xùn)練目標(biāo),但是它不再限制擴(kuò)散過程必須是一個(gè)馬爾卡夫鏈,這使得DDIM可以采用更小的采樣步數(shù)來加速生成過程。犧牲一定的多樣性來?yè)Q取更快推斷速度9:18:59下午30加速采樣仍然值得研究
9:18:59下午31此實(shí)驗(yàn)中,GAN的采樣速度是DDIM的1295倍!5.條件擴(kuò)散模型分類器引導(dǎo)(ClassifierGuidance)無分類器引導(dǎo)(Classifier-FreeGuidance)9:18:59下午32目的:給擴(kuò)散模型加入條件!分類器引導(dǎo)AblatedDiffusionModel(ADM,2021)相對(duì)于DDPM有兩方面改進(jìn):擴(kuò)散模型結(jié)構(gòu)的改進(jìn)利用一個(gè)預(yù)訓(xùn)練的分類器,從預(yù)訓(xùn)練的DDPM采樣意義:性能媲美甚至超過GAN、進(jìn)行基于類別標(biāo)簽的圖像生成9:18:59下午33[1]Dhariwal,Prafulla,andAlexanderNichol."DiffusionmodelsbeatGANsonimagesynthesis."NIPS’21.[OpenAI]無分類器引導(dǎo)不再依賴預(yù)訓(xùn)練分類器也可以進(jìn)行基于條件的生成式建模基于對(duì)Stein’s分?jǐn)?shù)函數(shù)的分解意義:是DALL·E2、Imagen、StableDiffusion等大模型的組成部分。9:18:59下午34[1]Ho,Jonathan,andTimSalimans."Classifier-FreeDiffusionGuidance."NeurIPS2021WorkshoponDeepGenerativeModelsandDownstreamApplications.2021.6.隱擴(kuò)散模型LatentDiffusionModels
(LDM,2022)將擴(kuò)散過程放在低維度的隱空間(latentspace),可降低訓(xùn)練和推理代價(jià)。新的條件輸入機(jī)制:類別標(biāo)簽、文字、布局等??赏瓿蔁o條件圖片生成、文生圖、圖片修復(fù)、圖片超分等任務(wù)??缮筛?xì)致、更高分辨率的圖像。9:18:59下午35[1]Rombach,Robin,etal.“High-resolutionimagesynthesiswithlatentdiffusionmodels.”CVPR’22.6.隱擴(kuò)散模型9:18:59下午36編碼器降維解碼器升維領(lǐng)域?qū)S镁幋a器與交叉注意力隱空間像素空間去噪步驟交叉注意力跨層連接拼接條件語義圖文本表征圖片……擴(kuò)散過程去噪網(wǎng)絡(luò)6.隱擴(kuò)散模型9:18:59下午376.隱擴(kuò)散模型9:18:59下午38提示詞:一幅具有畢加索風(fēng)格的最后的晚餐StableDiffusion(2022)StableDiffusion是一個(gè)AI繪圖軟件(開源模型),可本地部署,可切換多種模型,且新的模型和開源庫(kù)每天都在更新發(fā)布,最重要的是免費(fèi),沒有繪圖次數(shù)限制。StableDiffusion是LatentDiffusion模型的一個(gè)具體實(shí)現(xiàn)或改進(jìn)版本,它在保留了LatentDiffusion優(yōu)點(diǎn)的同時(shí),通過一些技術(shù)手段提高了模型的穩(wěn)定性和訓(xùn)練效率。399:18:59下午StableDiffusion(2022)
409:18:59下午7.DiT:Sora的基礎(chǔ)基于LDM模型,在隱藏層進(jìn)行擴(kuò)散主要貢獻(xiàn):用transformer架構(gòu)來完全替代基于CNN的UNet架構(gòu)Sora生成式大模型的基礎(chǔ)9:18:59下午419:18:59下午42SoraSora是OpenAI發(fā)布的一款先進(jìn)生成模型,旨在通過文字提示生成高度真實(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年山西省晉中市單招職業(yè)傾向性考試題庫(kù)及參考答案詳解1套
- 2026年商丘學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)及答案詳解一套
- 2026年銅仁職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案詳解一套
- 2026年常州紡織服裝職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)帶答案詳解
- 2026年無錫科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及參考答案詳解1套
- 2026年貴州省黔東南苗族侗族自治州單招職業(yè)傾向性測(cè)試題庫(kù)參考答案詳解
- 2026年河北科技工程職業(yè)技術(shù)大學(xué)單招職業(yè)傾向性測(cè)試題庫(kù)帶答案詳解
- 2026年開封文化藝術(shù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及參考答案詳解
- 2026年福建信息職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)附答案詳解
- 2026年遂寧能源職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及答案詳解一套
- 2025年秋北京版(2024)小學(xué)英語五年級(jí)上冊(cè)(期中)綜合詞匯句子專項(xiàng)訓(xùn)練題及答案
- 食管裂孔疝分型課件
- 單細(xì)胞水平藥敏分析-第2篇-洞察與解讀
- 液壓設(shè)備結(jié)構(gòu)設(shè)計(jì)與安全規(guī)范
- 高校教學(xué)副院長(zhǎng)工作匯報(bào)
- 低壓電工實(shí)操培訓(xùn)課件
- 工程雙包合同(標(biāo)準(zhǔn)版)
- 硬式內(nèi)鏡的包裝檢查課件
- 戰(zhàn)場(chǎng)情報(bào)采集課件
- 農(nóng)藥包裝廢棄物培訓(xùn)課件
- 起重吊裝施工重難點(diǎn)及管控措施
評(píng)論
0/150
提交評(píng)論