基于StableDiffusion的視頻生成方法研究_第1頁
基于StableDiffusion的視頻生成方法研究_第2頁
基于StableDiffusion的視頻生成方法研究_第3頁
基于StableDiffusion的視頻生成方法研究_第4頁
基于StableDiffusion的視頻生成方法研究_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

I基于StableDiffusion的視頻生成方法研究摘要隨著多模態(tài)技術(shù)的發(fā)展,大型公共圖像文本對齊數(shù)據(jù)集的出現(xiàn)以及文本生成圖像技術(shù)的成熟,生成式人工智能(AIGC)引發(fā)了新時(shí)代人工智能熱潮。在AIGC眾多研究方向中,視頻生成技術(shù)研究因其對時(shí)序建模,動(dòng)態(tài)一致性與內(nèi)容生成能力的高要求成為近兩年AIGC最具挑戰(zhàn)性和前沿性的研究方向之一,其核心任務(wù)是從靜態(tài)圖像或者文本描述中生成具有連續(xù)性的動(dòng)態(tài)視頻,其涵蓋了時(shí)間建模,跨模態(tài)對齊等多個(gè)重要研究子課題。本研究項(xiàng)目對視頻生成技術(shù)進(jìn)行了系統(tǒng)探索。文章首先介紹了文生視頻領(lǐng)域的研究背景,包括研究現(xiàn)狀,研究應(yīng)用等內(nèi)容,梳理了當(dāng)前代表性模型以及技術(shù)演進(jìn)路徑。其次我們詳細(xì)介紹了相關(guān)圖片生成技術(shù)的模型框架以及論文所用主體視頻生成技術(shù)的模型框架,之后對視頻生成的多個(gè)下游任務(wù)進(jìn)行實(shí)驗(yàn)測試并驗(yàn)證其有效性,最后我們討論了文章使用視頻生成技術(shù)的局限性和未來挑戰(zhàn)。在實(shí)驗(yàn)中,首先我們基于不同風(fēng)格的預(yù)訓(xùn)練模型進(jìn)行視頻生成對比實(shí)驗(yàn),驗(yàn)證其視頻生成一致性以及風(fēng)格遷移水平。緊接著進(jìn)行圖像生成視頻實(shí)驗(yàn),通過不同的文本描述和不同的輸入圖片對圖生視頻效果進(jìn)行了測試。然后研究了運(yùn)動(dòng)相機(jī)模型下的視頻生成表現(xiàn),最后通過輕量化微調(diào)技術(shù)來生成特定寵物視頻,通過設(shè)置不同參數(shù)配置與模型結(jié)果進(jìn)行實(shí)驗(yàn)對比,進(jìn)一步分析了微調(diào)技術(shù)下模型的泛化能力和生成質(zhì)量。本文實(shí)驗(yàn)部分僅展示定性實(shí)驗(yàn)結(jié)果,通過視覺呈現(xiàn)和分析為主,不涵蓋定量指標(biāo)的分析。通過對于整個(gè)技術(shù)框架的思考和分析,我們在在文章結(jié)尾處總結(jié)了文章所用框架的局限性以及目前視頻生成技術(shù)的挑戰(zhàn),并對未來研究做了一些可能的展望。關(guān)鍵詞:多模態(tài);圖像生成;視頻生成;微調(diào)技術(shù)IIAStudyonVideoGenerationMethodsBasedonStableAbstractWiththedevelopmentofmultimodaltechnology,theemergenceoflarge-scalepublicimage-textalignmentdatasets,andthematurationoftext-to-imagegenerationtechniques,generativearti-ficialintelligence(AIGC)hassparkedanewwaveofAIenthusiasm.AmongthenumerousresearchdirectionsinAIGC,videogenerationtechnologyresearchhasbecomeoneofthemostchallengingandcutting-edgeareasinthepasttwoyearsduetoitshighrequirementsfortemporalmodeling,dynamicconsistency,andcontentgenerationcapabilities.Itscoretaskistogeneratecontinuousdynamicvideosfromstaticimagesortextdescriptions,coveringmultipleimportantsubtopicssuchastemporalmodelingandcross-modalalignment.Thisresearchprojectconductsasystematicexplorationofvideogenerationtechnology.Thearticlefirstintroducestheresearchbackgroundoftext-to-videogeneration,includingthecurrentresearchstatusandapplications,andreviewsthecurrentrepresentativemodelsandtheevolutionpathofthetechnology.Then,wedetailthemodelframeworksofrelatedimagegenerationtech-niquesandthemainvideogenerationtechnologyusedinthispaper.Subsequently,weconductexperimentaltestsonmultipledownstreamtasksofvideogenerationandverifytheireffective-ness.Finally,wediscussthelimitationsandfuturechallengesofthevideogenerationtechnologyusedinthisarticle.Intheexperiments,wefirstconductvideogenerationcomparisonexperimentsbasedondif-ferentstylepre-trainedmodelstoverifytheconsistencyandstyletransferlevelofvideogeneration.Then,weperformimage-to-videogenerationexperiments,testingtheeffectofimage-to-videogen-erationthroughdifferenttextdescriptionsandinputimages.Next,westudythevideogenerationperformanceunderthemovingcameramodel.Finally,wegeneratespecificpetvideosthroughlightweightfine-tuningtechnology,conductingexperimentalcomparisonsbysettingdifferentpa-rameterconfigurationsandmodelresultstofurtheranalyzethegeneralizationabilityandgenerationqualityofthefine-tuningtechnology.Theexperimentalpartofthisarticleonlypresentsqualitativeexperimentalresults,mainlythroughvisualpresentationandanalysis,withoutcoveringquantitativemetricanalysis.Throughreflectionandanalysisoftheentiretechnicalframework,wesummarizethelimitationsoftheframeworkusedinthisarticleandthecurrentchallengesinvideogenerationtechnologyattheendofthearticle,andmakesomepossibleprospectsforfutureresearch.Fine-tuningTechnologyIII摘要 Abstract II第一章緒論 11.1研究背景與意義 11.2國內(nèi)外研究現(xiàn)狀 11.3研究目的與內(nèi)容 21.4本文的組織結(jié)構(gòu) 2第二章相關(guān)基礎(chǔ)與理論 42.1Transformer基礎(chǔ)框架 42.1.1注意力機(jī)制 42.1.2編碼器 52.1.3解碼器 62.2多模態(tài)CLIP技術(shù) 62.2.1訓(xùn)練過程 72.2.2推理過程 72.2.3CLIP文本編碼器在圖像生成任務(wù)中的應(yīng)用 82.3Diffusion擴(kuò)散模型 82.3.1擴(kuò)散過程 92.3.2逆擴(kuò)散過程 92.3.3U-Net 2.3.4DDIM 第三章原理與方法 3.1StableDiffusion模型原理 3.1.1圖像感知壓縮 3.1.2潛在擴(kuò)散模型 3.1.3條件機(jī)制 3.2AnimateDiff模型基本架構(gòu) 3.2.1域適配器 3.2.2運(yùn)動(dòng)先驗(yàn)?zāi)K 3.2.3MotionLoRA 3.2.4訓(xùn)練和推理過程 3.3微調(diào)技術(shù) IV3.3.1Dreambooth 3.3.2LoRA 第四章視頻生成實(shí)驗(yàn) 214.1不同風(fēng)格的文生視頻實(shí)驗(yàn) 214.2圖生視頻實(shí)驗(yàn) 244.3MotionLoRA運(yùn)動(dòng)相機(jī)視頻實(shí)驗(yàn) 264.4基于Dreambooth和LoRA的特定寵物視頻生成實(shí)驗(yàn) 284.4.1寵物狗微調(diào)實(shí)驗(yàn) 284.4.2寵物貓微調(diào)實(shí)驗(yàn) 總結(jié)與展望 參考文獻(xiàn) 致謝 421第一章緒論1.1研究背景與意義近年來,人工智能技術(shù)不斷進(jìn)步,帶動(dòng)了深度學(xué)習(xí)在生成式內(nèi)容領(lǐng)域的快速發(fā)展。特別是在圖像生成方向,擴(kuò)散模型(DiffusionModels)和自回歸模型(AutoRegressiveModels)成為兩大主流技術(shù)路徑。其中,擴(kuò)散模型憑借其在圖像質(zhì)量方面的優(yōu)勢,逐漸受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注與應(yīng)用。StableDiffusion[33]模型是一種開源的潛空間擴(kuò)散模型,在Text-to-Image(文生圖)、Image-to-Image(圖生圖)等領(lǐng)域表現(xiàn)出色,具有良好的擴(kuò)展性和社區(qū)開源支持。在圖像生成領(lǐng)域取得顯著成果后,研究人員開始著手視頻生成的研究,探索具有時(shí)間一致性、高保真度的視頻內(nèi)容生成。與圖像生成相比,視頻生成面臨著更大的復(fù)雜性和挑戰(zhàn)性。2024年,隨著OpenAI年初發(fā)布了Sora[27]生成視頻片段,一系列視頻生成方法井噴,為該研究領(lǐng)域注入新活力。視頻生成研究作為當(dāng)下AIGC(人工智能生成式內(nèi)容)研究最為重要的課題之一,不僅涉及時(shí)間建模與幀間序列一致性等復(fù)雜問題,而且在生成式任務(wù)中面臨著運(yùn)算開銷大、速度慢等問題?;赟tableDiffusion[33]的視頻生成研究技術(shù)具有充分的前沿性和可擴(kuò)展性,具有重要的研究價(jià)值與應(yīng)用前景。1.2國內(nèi)外研究現(xiàn)狀近年來,生成式人工智能(AIGC)迅猛發(fā)展,DiffusionModel[18](擴(kuò)散模型)憑借其高質(zhì)量、多樣性的圖像生成和優(yōu)越的模型推理性能,在圖像生成領(lǐng)域逐步取代了GAN[12]。BLIP[24](BootstrappingLanguage-ImagePre-training使得圖像與文本之間的語義對齊技術(shù)迅速成熟。并且,基于Transformer[43]的大量計(jì)算機(jī)視覺架構(gòu)逐漸成熟,例如ViT[7](VisionTransformerDiT[29](DiffusionTransformer)。以及大量大規(guī)模多模態(tài)數(shù)據(jù)集的出現(xiàn),例如LAION-5B[38]、WebVid-10M[1],為生成模型的預(yù)訓(xùn)練提供數(shù)據(jù)支持。視頻生成的研究成為今年多模態(tài)研究的熱點(diǎn)。國際上,2023年11月,Runway發(fā)布Gen-2[8]引發(fā)文布文生視頻模型Emu-Video[44],StabilityAI發(fā)布了生成式視頻模型StableVideoDiffusion[3]架構(gòu)在時(shí)間維度進(jìn)行空間建模的能力。2024年2月,OpenAI發(fā)布Sora[27]生成視頻,徹底引爆視頻生成研究,將該領(lǐng)域研究推向熱門。2024年底,OpenAI發(fā)布視頻生成大模型2在國內(nèi),2024年初,字節(jié)跳動(dòng)發(fā)布了PixelDance[4]多模態(tài)視頻生成系統(tǒng)。同年4月,清華大學(xué)與極佳科技于2024年聯(lián)合推出了“視界一粟(YiSu)”視頻生成模型,該模型在融合大語言模型與視頻擴(kuò)散網(wǎng)絡(luò)的基礎(chǔ)上,首次實(shí)現(xiàn)了長達(dá)一分鐘的文本驅(qū)動(dòng)視頻生成,引起了廣泛關(guān)注。隨后在2025年初,阿里巴巴發(fā)布了其自主研發(fā)的“通義萬相”模型,采用“首尾關(guān)鍵幀生成+中間內(nèi)容插值”的策略,在提升生成效率的同時(shí),確保了視頻整體語義的一致性與連貫性。隨著預(yù)訓(xùn)練模型在文本生成圖像和視頻等任務(wù)中的廣泛應(yīng)用,多種高效的微調(diào)策略相繼被提出。例如DreamBooth[35]和LoRA[20](Low-RankAdaptation)等方法,能夠在僅使用少量樣本的情況下,快速實(shí)現(xiàn)特定風(fēng)格的大模型定制。同時(shí),ControlNet[45]等結(jié)構(gòu)性增強(qiáng)技術(shù)在提升生成結(jié)果的可控性方面表現(xiàn)出顯著效果。借助這些方法,圖像生成模型在可控性和表達(dá)力方面持續(xù)優(yōu)化,并逐步拓展至視頻生成領(lǐng)域,推動(dòng)了跨模態(tài)生成技術(shù)的發(fā)展。1.3研究目的與內(nèi)容盡管近些年來基于文本條件的視頻生成技術(shù)有了一定的進(jìn)步,不過當(dāng)前階段的主流模型一般參數(shù)量很多,計(jì)算資源消耗也高,還不容易在個(gè)人用戶這一層面,在普通商業(yè)顯卡設(shè)備上達(dá)成高效運(yùn)行,這類模型在達(dá)成用戶個(gè)性化風(fēng)格定制方面依舊有欠缺,很難靈活適應(yīng)不同主體或者風(fēng)格的定制化生成要求。本研究針對資源有限的計(jì)算環(huán)境,探尋適用于個(gè)性化視頻生成的輕量化模型設(shè)計(jì)以及部署策略,在具體實(shí)施進(jìn)程中,挑選商業(yè)級顯卡作為硬件基礎(chǔ),在現(xiàn)有的輕量級視頻生成模型AnimateDiff的框架之上,展開針對用戶寵物形象的微調(diào)訓(xùn)練,達(dá)成符合個(gè)體風(fēng)格需求的視頻合成能力。研究從普通個(gè)人用戶的視角出發(fā),結(jié)合實(shí)際可獲取的軟硬件條件,系統(tǒng)地分析并達(dá)成文本生成視頻、圖像生成視頻等任務(wù)在輕量環(huán)境下的部署,為后續(xù)個(gè)性化內(nèi)容創(chuàng)作提供一種可行且低成本的解決辦法。1.4本文的組織結(jié)構(gòu)本文一共四章,各章的主要內(nèi)容安排如下:第一章為緒論,緒論部分主要介紹了本文相關(guān)的研究資料,包含了研究背景,研究意義,國內(nèi)外研究現(xiàn)狀,以及研究目的與內(nèi)容。第二章中主要介紹了StableDiffusion[33]的圖片生成架構(gòu)的基本理論和基礎(chǔ)研究。第三章中具體介紹了基于StableDiffusion[33]的視頻生成方法的研究技術(shù)AnimateD-iff[15]以及微調(diào)技術(shù)。3第四章將預(yù)訓(xùn)練模型在文生視頻、圖生視頻、以及生成“運(yùn)動(dòng)相機(jī)”視頻上進(jìn)行不同參數(shù)的性能對比實(shí)驗(yàn),同時(shí)在Gradio頁面上實(shí)現(xiàn)了多種社區(qū)模型文生視頻的可視化。并采用Dreambooth[35]結(jié)合LoRA[20]的微調(diào)方法,在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)訓(xùn)練,生成個(gè)性化特定寵物視頻。文章的最后是總結(jié)和展望部分,對全文的工作以及未來視頻生成的挑戰(zhàn)和研究作出了4第二章相關(guān)基礎(chǔ)與理論本章著重介紹文生圖、文生視頻大模型的基礎(chǔ)理論知識和技術(shù)前提,特別是Trans- former[43]、CLIP[30]模型以及擴(kuò)散模型(DiffusionModel)的核心概念。首先本章將介紹大模型基礎(chǔ)Transformer[43]模型,包括其注意力機(jī)制、編碼器和解碼器。接著,本章將闡述CLIP[30]多模態(tài)框架,闡述它如何融合視覺和語言信息。最后本文講詳細(xì)介紹擴(kuò)散模型(DiffusionModel)的基本原理,包括它如何對圖像加噪聲以及對圖像去噪得到數(shù)據(jù)的過程。之后介紹核心工作DDPM[18]的后續(xù)工作DDIM[40],闡述如何加快采樣過程,快速產(chǎn)生圖像。2.1Transformer基礎(chǔ)框架Transformer[43]模型由Vaswani等人于2017年提出,該模型從傳統(tǒng)上摒棄了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)[13]對序列的處理方法,完全由注意力機(jī)制構(gòu)建出模型結(jié)構(gòu)。Transformer[43]由編碼器和解碼器兩個(gè)部分組成。2.1.1注意力機(jī)制?自注意力機(jī)制自注意力機(jī)制,是一種將單個(gè)序列的不同位置關(guān)聯(lián)起來以計(jì)算同一序列的機(jī)制。其核心思想是每個(gè)位置的表示都通過與序列中的其他位置關(guān)系加權(quán)得到,從而實(shí)現(xiàn)信息交互。計(jì)算流程如下:(1)給定輸入序列X=[x1,x2,...,xn],每個(gè)元素xi映射成Q,K,V三個(gè)向量,其中(Query查詢向量,Key鍵向量,Value值向量Q=XWQ,K=XWK,V=XWV(2-1)算過程可表示為:Attention=softmax(2-2)k為鍵向量的維度??s放點(diǎn)積注意力通過以下步驟實(shí)現(xiàn):1.計(jì)算查詢與所有鍵的相似度得分2.使用softmax函數(shù)歸一化得分53.對值矩陣進(jìn)行加權(quán)求和?多頭注意力機(jī)制多頭注意力是自注意力機(jī)制的擴(kuò)展,將輸入的序列數(shù)據(jù)分成多個(gè)子空間進(jìn)行獨(dú)立計(jì)算,最后將計(jì)算h個(gè)Attention結(jié)果拼接(Concat)在一起,這樣子做加強(qiáng)了捕捉上下文的能力。headi=Attention(QWEQ\*jc3\*hps15\o\al(\s\up5(Q),i),KWEQ\*jc3\*hps15\o\al(\s\up4(K),i),VWEQ\*jc3\*hps15\o\al(\s\up4(V),i))MultiHead(Q,K,V)=Concat(head1,...,headh)WO(2-3)圖2-1(左)縮放后的點(diǎn)積注意力和(右)多頭注意力層[43]?交叉注意力機(jī)制交叉注意力機(jī)制是用于兩個(gè)不同序列之間的信息交互的注意力機(jī)制,例如Transformer的解碼器模塊中,當(dāng)前解碼器狀態(tài)作為查詢,而編碼器輸出作為鍵和值,用來引導(dǎo)生成當(dāng)前輸出。交叉注意力機(jī)制在多模態(tài)文字與圖片融合信息中起到關(guān)鍵作用。2.1.2編碼器編碼器由N層堆疊而成,每層由多頭自注意力層(Multi-HeadSelf-Attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed-ForwardNetwork)兩個(gè)子結(jié)構(gòu)構(gòu)成,中間伴隨著殘差連接(ResidualConnection)和層歸一化(LayerNorm)操作,從而有效增強(qiáng)了模型的表達(dá)能力與訓(xùn)練穩(wěn)定輸入序列經(jīng)過多層自注意力機(jī)制以及前饋神經(jīng)網(wǎng)絡(luò)的處理后,逐漸被編碼成為高維信息,在自注意力模塊當(dāng)中,序列里的每個(gè)位置可動(dòng)態(tài)關(guān)聯(lián)到序列中的其他位置,以此有效建模詞語之間的全局依賴關(guān)系,前饋網(wǎng)絡(luò)會(huì)對處理后的信息做的非線性變換和特征抽取。62.1.3解碼器解碼器同樣由N層堆疊而成。解碼器的目標(biāo)是根據(jù)編碼器輸出的上下文表示以及當(dāng)前已生成的目標(biāo)序列信息,逐步預(yù)測下一個(gè)目標(biāo)token,從而實(shí)現(xiàn)序列的生成。解碼器由三部分構(gòu)成:第一部分是帶有掩碼的自注意力機(jī)制(MaskedSelf-Attention它的作用主要是防止信息泄露,即在預(yù)測當(dāng)前token時(shí)將未來的信息Masked,這樣就可以達(dá)到預(yù)測效果;第二部分為交叉注意力機(jī)制(Cross-Attention其中查詢Q(Query)來自解碼器當(dāng)前層的狀態(tài),鍵K(Key)和值V(Value)來自編碼器的輸出,以此操作來實(shí)現(xiàn)輸入序列的特征融合;第三部分則為前饋神經(jīng)網(wǎng)絡(luò),它的作用是提升非線性建模能力。圖2-2Transformer架構(gòu)圖左)編碼器和(右)解碼器[43]2.2多模態(tài)CLIP技術(shù)CLIP[30](ContrastiveLanguage–ImagePre-training)模型是一個(gè)由OpenAI開發(fā)的多模態(tài)融合模型,它采取一種新穎的訓(xùn)練方式,通過大量圖像和文本數(shù)據(jù)對訓(xùn)練學(xué)習(xí)語言與視覺概念。CLIP通過理解圖像的視覺信息和自然語言的文字信息,將二者緊密關(guān)聯(lián)。這一特性使得它在各種圖像理解下游任務(wù)中表現(xiàn)良好,例如圖像-文本檢測[31]、零樣本圖像分類[46]、開放詞匯目標(biāo)檢測[14]、圖像生成引導(dǎo)[28]、視頻動(dòng)作識別[26]等任務(wù)均有出色的表現(xiàn)。72.2.1訓(xùn)練過程圖2-3CLIP模型的訓(xùn)練過程[30]CLIP的核心思想是同時(shí)訓(xùn)練圖像編碼器和文本編碼器,并將它們同時(shí)映射到一個(gè)向量空間中。圖像被映射為I=[I1,I2,...IN],文本被映射為T=[T1,T2,...TN]。在這個(gè)向量空間中,對應(yīng)的圖像與文本的向量會(huì)相互靠近,不相關(guān)的圖像與文本則在空間中遠(yuǎn)離。CLIP的訓(xùn)練目標(biāo)是最大化真實(shí)圖文對的相似度,同時(shí)最小化隨機(jī)圖文組合的相似度,采用InfoNCE[42]損失函數(shù)實(shí)現(xiàn)跨模態(tài)對比學(xué)習(xí)。文本編碼器通常采用Transformer架構(gòu),將文本映射為高維向量。圖像編碼器通常采用ViT[7]或者ResNet[16]架構(gòu),將圖像映射編碼為與文本映射相同維度的向量。這樣一來,兩種不同的特征信息就被映射到同一個(gè)向量空間進(jìn)行比較與匹配。如圖2-3所示,CLIP模型在訓(xùn)練過程采取對比學(xué)習(xí)的方法,實(shí)現(xiàn)圖像與文本之間的語義對齊。具體來說,模型針對圖像與其對應(yīng)的文本描述進(jìn)行學(xué)習(xí),將二者的映射向量在高維空間中拉近,將不匹配的圖像文本對遠(yuǎn)離。這一過程通過構(gòu)建圖文相似度矩陣是實(shí)現(xiàn),在這個(gè)矩陣中,每一個(gè)元素代表的是圖像向量與文本向量之間的余弦相似度。CLIP模型訓(xùn)練的最大目標(biāo)就是最大化矩陣主對角線上匹配對的匹配度,與此同時(shí),最小化非對角線位置上非匹配對的相似度。CLIP模型在約4億對圖像與文本的超大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,有效捕捉多層次的視覺語義關(guān)聯(lián)信息,并顯著提升了其在多種下游任務(wù)中的泛化能力。2.2.2推理過程如圖2-4所示,在推理過程中,模型執(zhí)行一個(gè)多詞選擇填空任務(wù),在這個(gè)過程中,可被視作解決跨模態(tài)檢索問題。首先,CLIP模型通過文本編碼器(TextEncoder)將每一組文本映射成高維向量,這與訓(xùn)練中的維度一樣。接著,CLIP將圖片通過圖像編碼器(ImageEncoder)編輯成高維向量,之后與每一組文本向量進(jìn)行比較,計(jì)算每一組向量之間的余弦相似度。最后,選擇最高余弦相似度分?jǐn)?shù)的那組向量。CLIP的推理過程展現(xiàn)了模型的高靈活性和強(qiáng)泛化能力,這為后續(xù)CLIP模型用于各種8圖2-4CLIP模型的推理過程[30]下游任務(wù)做了良好鋪墊。2.2.3CLIP文本編碼器在圖像生成任務(wù)中的應(yīng)用CLIP文本編碼器在預(yù)訓(xùn)練過程中接觸了大量文本數(shù)據(jù),在極大數(shù)據(jù)集的支撐下,CLIP文本編碼器能偶廣泛理解語言中的語義信息,并且將任意文本壓縮成一個(gè)嵌入向量,這對擴(kuò)散模型的條件引導(dǎo)起到了關(guān)鍵作用。而且,對于在零樣本泛化方面展現(xiàn)出出色的性能。即使是面對全新的從未見過的文本描述,也能夠生成具有語義一致性的高維向量,驅(qū)動(dòng)圖像生成模型輸出與文本語義相符的圖像內(nèi)容。CLIP文本編碼器語言適應(yīng)性良好,能處理不同風(fēng)格文本輸入、含新穎詞匯短語及結(jié)構(gòu)復(fù)雜句子,其靈活性使其可廣泛用于多種圖像生成任務(wù),不管是簡單物體生成還是多實(shí)體、復(fù)雜背景場景構(gòu)建,實(shí)際應(yīng)用中,CLIP文本編碼器常與各類圖像生成網(wǎng)絡(luò)如GANs[11]、VAEs[32]或DiffusionModels[33]協(xié)同工作,作為條件模塊提供語義信息。CLIP文本編碼器映射的文本嵌入作為引導(dǎo)信號,可有效調(diào)控生成過程,讓生成結(jié)果在視覺上與輸入描述高度一致,這種跨模態(tài)協(xié)同機(jī)制充分利用CLIP訓(xùn)練期間學(xué)到的語言-視覺對齊知識,提升了生成模型表現(xiàn)力與泛化能力。2.3Diffusion擴(kuò)散模型擴(kuò)散模型是一種生成式模型,它受啟發(fā)于熱力學(xué),由Sohl-Dickstein在論文“DeepUnsupervisedLearningUsingNonequilibriumThermodynamics”[39]中首次提出,Song&Ermon等人提出基于分?jǐn)?shù)的擴(kuò)散生成模型SGM[41]。接著,大名鼎鼎DenoisingDiffusionProbabilisticModels(DDPM)[18]問世,標(biāo)志著現(xiàn)代擴(kuò)散模型框架成為主流,使用前向加噪和反向去噪過程生成高質(zhì)量圖像,通過模擬數(shù)據(jù)的擴(kuò)散過程來生成新的數(shù)據(jù)樣本。緊接著,Song等人提出DDIM[40],擴(kuò)散模型有了更快的采樣方式,然后是ADM[6]在圖像生成領(lǐng)域超過GAN[12],而LDM[33]引入潛在空間擴(kuò)散,讓擴(kuò)散模型在多模態(tài)實(shí)踐中嶄露頭角。EDM[22]分析了擴(kuò)散模型的設(shè)計(jì)空間,并提出了多項(xiàng)改進(jìn),顯著提升了模型性能和采樣效率。本部分主要介紹現(xiàn)代擴(kuò)散模型方法DDPM。擴(kuò)散模型主要有兩個(gè)過程:擴(kuò)散過程和逆擴(kuò)散過程,如圖2-5所示。圖2-5擴(kuò)散模型的擴(kuò)散過程和逆擴(kuò)散過程[40]2.3.1擴(kuò)散過程擴(kuò)散過程,又稱為前向過程,是一個(gè)馬爾可夫過程,即當(dāng)前時(shí)間步只記得前一個(gè)時(shí)間步的內(nèi)容。正向加噪時(shí),向原始數(shù)據(jù)x0逐漸添加隨機(jī)高斯噪聲?,產(chǎn)生隨機(jī)噪聲圖片xT,如圖2-6所示。圖2-6擴(kuò)散模型的擴(kuò)散過程[40]由xt?1到xt可以表示為:xt=√xt?1+√?t?1(2-5)其中αt是一個(gè)超參數(shù),?t?1~N(0,1)是高斯噪聲。由公式2-5推導(dǎo)可得:xt=√x0+√(2-6)其中t=ΠEQ\*jc3\*hps15\o\al(\s\up4(t),i)=1αi,?~N(0,1)是高斯噪聲。2.3.2逆擴(kuò)散過程逆擴(kuò)散過程,又稱去噪過程。與擴(kuò)散過程相反,如圖2-5所示。這一過程通過預(yù)測隨機(jī)噪聲?將隨機(jī)高斯噪聲圖片xT逐步還原為x0。逆擴(kuò)散的公式表達(dá)式如下:xt1=+σtz(2-7)在擴(kuò)散模型中,?θ表示一個(gè)噪聲預(yù)測函數(shù),通常由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),用于逼近在特定時(shí)間步t下的真實(shí)噪聲?。其中θ為模型參數(shù),z~N(0,1)是標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,σtz表示由該分布生成的噪聲成分。模型訓(xùn)練的目標(biāo)是最小化預(yù)測噪聲?θ與真實(shí)噪聲?之間擴(kuò)散模型的訓(xùn)練過程和推理過程如下:在訓(xùn)練過程中,選取圖片x0作為輸入,從均勻分布中采樣得到T和從高斯噪聲分布中采樣得到?,經(jīng)過噪聲調(diào)度得到t,加噪得到xT,xT通過噪聲預(yù)測函數(shù)U-Net[34]得到預(yù)測的噪聲?θ,將生成的隨機(jī)噪聲?與預(yù)測的噪聲?θ(xt,t)使用均方誤差得到損失,以此更新模型參數(shù)。在采樣過程中,給定一個(gè)隨機(jī)初始化的高斯噪聲樣本xT~N(0,I),模型使用一個(gè)參數(shù)化的神經(jīng)網(wǎng)絡(luò)?θ(xt,t)來預(yù)測在每個(gè)時(shí)間步t下的噪聲,從而逐步生成樣本x0。基本的采樣更新公式如2-7。2.3.3U-Net在DDPM模型中采用的噪聲估計(jì)函數(shù)為U-Net模型,U-Net模型是一種在圖像分割領(lǐng)域非常流行的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。U-Net架構(gòu)采用一個(gè)對稱的“U”形卷積神經(jīng)網(wǎng)絡(luò),由下采樣(ConstractingPath)、上采樣(ExpansivePath)和跳躍連接(SkipConnections)組成。因其在建模圖像時(shí)良好的全局結(jié)構(gòu)和局部紋理,被廣泛應(yīng)用在擴(kuò)散模型中。如圖2-7所示,模型分為兩個(gè)部分:?ConstractingPath收縮路徑主要作用于提取圖像的語義特征,它由多個(gè)下采樣卷積塊組成,每個(gè)卷積塊包括兩個(gè)連續(xù)的卷積層(一般采用3×3核每層卷積后接一個(gè)非線性激活函數(shù)(通常為ReLU一個(gè)最大池化操作(MaxPooling用于進(jìn)行?ExpansivePath擴(kuò)展路徑主要作用于恢復(fù)圖像的空間分辨率,實(shí)現(xiàn)精細(xì)的像素級輸出,它由多個(gè)上采樣卷積塊構(gòu)成,每個(gè)上采樣塊包括一次上采樣操作(例如雙線性插值或轉(zhuǎn)置卷積與收縮路徑中對應(yīng)層的特征圖進(jìn)行跳躍連接(SkipConnection將低層次的細(xì)節(jié)信息引入解碼器;跳躍連接后的特征圖通過卷積層進(jìn)行融合和細(xì)化。圖2-7U-Net模型架構(gòu)[34]2.3.4DDIMDDPM算法架構(gòu)雖然表現(xiàn)得近乎完美,但是存在一個(gè)致命的缺點(diǎn),就是推理速度太慢。由于算法本身是一個(gè)馬爾可夫鏈?zhǔn)竭^程,前后的數(shù)據(jù)樣本具有綁定關(guān)系,無法進(jìn)行跳躍預(yù)測。為了加快采樣速度,DDIM(DenoisingDiffusionImplicitModels)[40]提出了一種確定性采樣方法。DDIM通過數(shù)學(xué)原理,打破了馬爾可夫鏈?zhǔn)竭^程。其巧妙點(diǎn)在于無需重新訓(xùn)練DDPM,只需要對采樣器進(jìn)行修改,就可以大幅度加快采樣速度。根據(jù)DDIM的建模方式,通過模型xt估計(jì)x0:(2-8)接下來,DDIM使用公式2-8x0,構(gòu)造一種確定性采樣更新公式:xt?1=√·x0+√+·σt·z這樣的方案不再引入額外噪聲。整個(gè)采樣過程變成了一個(gè)確定性映射過程。第三章原理與方法本章著重介紹本論文所采用的視頻生成模型框架和微調(diào)技術(shù),特別是StableDiffu-sion[33]和AnimateDiff[15]的基礎(chǔ)架構(gòu)原理和方法以及微調(diào)技術(shù)Dreambooth[35]和LoRA[20]。本章首先介紹文生圖方法StableDiffusion[33]架構(gòu),包括其圖像感知壓縮、潛在擴(kuò)散模型和條件機(jī)制,闡述其如何結(jié)合文本進(jìn)行多模態(tài)工作。接著,本章將闡述AnimateDiff[15]視頻生成框架,闡述其如何在StableDiffusion[33]模型框架上進(jìn)行視頻生成,其重點(diǎn)模塊是運(yùn)動(dòng)先驗(yàn)?zāi)K(MotionPriorsModule)。最后本章將闡述大模型微調(diào)原理,以及介紹本論文實(shí)驗(yàn)中用到的兩種微調(diào)框架:Dreambooth[35]和LoRA[20],闡述它們?nèi)绾卧诘陀?jì)算成本條件下訓(xùn)練出自己的專屬視頻生成模型。3.1StableDiffusion模型原理StableDiffusion是一個(gè)基于潛在擴(kuò)散模型(LatentDiffusionModels,LDM[33])的兩階段文字生成圖像模型。該模型由StabilityAI公司提供計(jì)算資源,利用LAION-5B[38]數(shù)據(jù)資源進(jìn)行訓(xùn)練。在AI繪畫浪潮中,StableDiffusion是現(xiàn)在最受歡迎的圖像生成模型。StableDiffusion的核心創(chuàng)新在于其壓縮圖像尺寸到潛在空間顯著提高了擴(kuò)散模型的運(yùn)行效率,解決了擴(kuò)散模型在前序工作中占用巨大計(jì)算資源和損失大量精度的問題,使得普通用戶都能在自己的商業(yè)級顯卡上運(yùn)行模型以實(shí)現(xiàn)文字產(chǎn)生圖像的功能。在各種下游任務(wù)中,StableDiffusion的也表現(xiàn)出出色的性能。圖3-1StableDiffusion模型架構(gòu)[33]StableDiffusion模型的主要貢獻(xiàn)體現(xiàn)在以下幾個(gè)方面:?引入潛在空間擴(kuò)散機(jī)制,降低運(yùn)算成本與圖像生成領(lǐng)域的GAN[12](對抗網(wǎng)絡(luò))相比,擴(kuò)散模型的圖像生成質(zhì)量上表現(xiàn)出更強(qiáng)的能力。然而,擴(kuò)散模型因其迭代型的計(jì)算方式,訓(xùn)練和推理成本較高,StableDiffusion引入潛在擴(kuò)散空間,將高維圖像壓縮為低維空間的二維向量,減少了計(jì)算時(shí)間復(fù)雜度。?支持高分辨率圖像生成,質(zhì)量精細(xì)逼真相比其他圖像壓縮技術(shù),如VQ-GAN[9],擴(kuò)散模型的輸入是連續(xù)的,且能處理的壓縮圖像更大,這使得LDM[33]能夠更好地利用二維信息。在高分辨率生成場景中,模型能夠輸出視覺豐富、視覺真實(shí)的圖像?在多個(gè)視覺下游任務(wù)中,取得優(yōu)異結(jié)果論文對模型在無條件圖像生成、圖像修復(fù)、圖像超分辨率等任務(wù)上進(jìn)行了全面評估,均取得了令人滿意的性能表現(xiàn),進(jìn)一步驗(yàn)證了其通用性與實(shí)用性。?融合交叉注意力,實(shí)現(xiàn)多模態(tài)條件生成為了給多模態(tài)圖像生成任務(wù)提供支持,StableDiffusion[33]將交叉注意力機(jī)制給予融合,在DDPM[18]的U-Net[34]模型當(dāng)中增添了注意力層,這讓模型可把多模態(tài)信息結(jié)合起來實(shí)施條件控制,拓展了模型在多種場景下的應(yīng)用能力。StableDiffusion模型的架構(gòu)圖3-1所示。StableDiffusion模型的架構(gòu)主要包括三個(gè)部分:圖像感知壓縮、潛在擴(kuò)散模型和條件機(jī)制,分別對應(yīng)架構(gòu)圖中的紅色、綠色和白色方框。3.1.1圖像感知壓縮在潛在擴(kuò)散模型(LDM[33])的框架下,原本在高維空間中直接做擴(kuò)散計(jì)算的圖像通過一個(gè)預(yù)訓(xùn)練的自編碼器(AutoEncoder)將高維像素向量壓縮在一個(gè)潛在空間,這樣一個(gè)自編碼器就是VAE[23]。而壓縮操作也并不是隨隨便便壓縮的,而是一種感知層次的壓縮,壓縮的目標(biāo)是保持人類視覺系統(tǒng)能感知的圖像特征。編碼器由一系列下采樣層組成,將高維數(shù)據(jù)壓縮為低維度;同樣,解碼器由一系列上采樣層組成,將處理后的低維數(shù)據(jù)逐步還原為高層。這種方法使得高維計(jì)算高昂的計(jì)算操作可以在低維中以較小的計(jì)算代價(jià)進(jìn)行,讓運(yùn)算可以在消費(fèi)級GPU上運(yùn)行。這種感知壓縮技術(shù)有廣泛的應(yīng)用場景,包括音頻、文本、視頻等多種數(shù)據(jù)處理。LDM[33]配套的感知壓縮模型采取和VQ-GAN[9]幾乎一樣的結(jié)構(gòu),在普通自編碼器(AutoEncoder)的基礎(chǔ)上,參考了GAN[12]的誤差設(shè)置方法,使用感知誤差代替重建誤差。與VQ-GAN[9]不同的是,擴(kuò)散模型需要的輸入向量是連續(xù)向量,所以并不用特地采用碼本(codebook)將連續(xù)向量離散化,而只需額外完成使用正則化方法即可,即KL正則化和VQ正則化。在StableDiffusion論文中,使用一個(gè)預(yù)訓(xùn)練好的自編碼器VAE[33],給定一個(gè)圖像H×W×3,編碼器E(·)將輸入向量x壓縮成潛在向量z,然后解碼器D(·)將潛在向量z還原成圖像∈Rh×w×3。其中,下采樣因子f=H/h=W/w。3.1.2潛在擴(kuò)散模型在擴(kuò)散模型中,一個(gè)參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)模型?θ根據(jù)當(dāng)前時(shí)間因子t帶噪聲的圖片的xt預(yù)測本時(shí)刻的噪聲?θ(xt,t)。這是一個(gè)長度為T的逆馬爾可夫鏈的逆問題,它的目標(biāo)函數(shù)可以表示為:LDM=Ex,?~N(3-1)在潛在空間中進(jìn)行的擴(kuò)散操作本質(zhì)上與傳統(tǒng)擴(kuò)散模型在操作上是一致的,不過訓(xùn)練圖片從像素空間上的真實(shí)圖片x變成了隱空間上的壓縮圖片z。其中神經(jīng)網(wǎng)絡(luò)主干?θ(xt,t)與擴(kuò)散模型中采用的噪聲預(yù)測數(shù)函數(shù)一樣為U-Net。它的目標(biāo)函數(shù)可以表示為:LLDM=EE(x),?~N(0,1),t[Ⅱ?—?θ(zt,t)ⅡEQ\*jc3\*hps15\o\al(\s\up3(2),2)](3-2)3.1.3條件機(jī)制為了增強(qiáng)模型的多模態(tài)能力,引入條件機(jī)制將約束信息輸入擴(kuò)散模型中。最直觀的添加約束的方法是把額外信息以向量的形式拼接在原向量zt上。而在論文LDM[33]中,作者引入了一種融合約束信息的方式,即交叉注意力機(jī)制。為了將各種模態(tài)下的約束條件y引入擴(kuò)散模型中,模型中引入領(lǐng)域編碼器τθ,他可以將約束條件y映射成中間向量τθ(y),再通過一個(gè)交叉注意力層被映射入U(xiǎn)-Net[34]中。交叉注意力可表示為:CrossAttention=softmax(3-3)(zt),K=WK(i)·τθ(y),V=W)·τθ(y)(3-4)N×dEQ\*jc3\*hps11\o\al(\s\up6(i),?)表示實(shí)現(xiàn)?θ的U-Net中(經(jīng)過扁平EQ\*jc3\*hps11\o\al(\s\up6(i),?)d×dτ也是可學(xué)習(xí)的投影矩陣。引入條件機(jī)制后,訓(xùn)練目標(biāo)函數(shù)表達(dá)式如下:LLDM=EE(x),y,?~N(0,1),t[Ⅱ?—?θ(zt,t,τθ(y))ⅡEQ\*jc3\*hps15\o\al(\s\up4(2),2)](3-5)其中,x:原圖像。E(x):通過VAE[23]編碼器得到潛空間表示z。y:條件信息,比如文本描述。τθ(y):文本編碼器輸出的條件特征。?θ:去噪網(wǎng)絡(luò),輸入為潛變量zt、時(shí)間步t和文本特征τθ(y)。?:加的真實(shí)噪聲,用來構(gòu)造訓(xùn)練目標(biāo)。在LDM[33]論文中,采用了BERT[5]模型的分詞器。而在開源模型StableDiffusion中,模型采用CLIP[30]模型的文本編碼器。兩種方式都是將文本轉(zhuǎn)化為高維向量,通過交叉注意力層嵌入U(xiǎn)-Net[34]層作為條件機(jī)制。3.2AnimateDiff模型基本架構(gòu)AnimateDiff[15],由Guo等人在2024年的ICLR提出,它是一個(gè)基于StableDiffusion[33]來解決個(gè)性化文生視頻問題的有效模型。AnimateDiff[15]的核心是一種訓(xùn)練即插即用運(yùn)動(dòng)模塊的方法,該模塊可以從視頻數(shù)據(jù)集(如WebVid-10M[1])中學(xué)習(xí)合理的運(yùn)動(dòng)先驗(yàn)[2](Bain等人,2021)。在推理時(shí),經(jīng)過訓(xùn)練的運(yùn)動(dòng)模塊可以直接集成到個(gè)性化的文生圖模型StableDiffusion[33]中,無需進(jìn)行特定的調(diào)整,即可產(chǎn)生流暢且具有視覺吸引力的視頻動(dòng)畫。AnimateDiff[15]模型的架構(gòu)如3-2所示,AnimateDiff[15]模型的架構(gòu)從左到右主要包括三個(gè)部分:域適配器(DomainAdapter)、運(yùn)動(dòng)先驗(yàn)?zāi)K(MotionPriorsModule)以及可選的MotionLoRA模塊。圖3-2AnimateDiff模型的基本架構(gòu)[15]3.2.1域適配器AnimateDiff[15]的域適配器如圖3-2左邊所示。域適配器是為了減少靜態(tài)圖模型遷移到視頻生成時(shí)的負(fù)面影響(如畫質(zhì)下降、動(dòng)作不連貫)。作者通過插入小規(guī)模參數(shù)模塊、凍結(jié)主干,只訓(xùn)練小模塊來達(dá)到高效適配。當(dāng)直接在原始視頻數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),這樣的差距會(huì)限制動(dòng)畫生成管道的質(zhì)量。為了避免學(xué)習(xí)這種質(zhì)量差異作為運(yùn)動(dòng)模塊的一部分,并保留基本文生圖模型的基本參數(shù),作者將域信息擬合到一個(gè)單獨(dú)的網(wǎng)絡(luò)中,稱為域適配器。模型在推理時(shí)放棄了領(lǐng)域適配器,這種做法有助于減少由上述領(lǐng)域差距引起的負(fù)面影響。作者使用LoRA[20]實(shí)現(xiàn)了域適配器層,并將它們插入基本StableDiffusion[33]中的自注意力層和交叉注意層,如圖3-2左邊所示。以查詢(Q)投影為例。投影后的內(nèi)部特征z變成Q=WQz+AdapterLayer(z)=WQz+α·ABTz(3-6)其中α=1是一個(gè)標(biāo)量,可以在推理時(shí)調(diào)整為其他值(設(shè)置為0可以完全去除域適配器的影響)。3.2.2運(yùn)動(dòng)先驗(yàn)?zāi)K為了在預(yù)訓(xùn)練的文生圖StableDiffusion[33]模型上沿時(shí)間維度建模運(yùn)動(dòng)動(dòng)力學(xué),模型必須擴(kuò)展二維擴(kuò)散模型以處理三維視頻數(shù)據(jù),并設(shè)計(jì)一個(gè)子模塊以實(shí)現(xiàn)沿時(shí)間軸的有效信在擴(kuò)展維度方面,基礎(chǔ)文生圖StableDiffusion[33]模型中的預(yù)訓(xùn)練圖像層具備高質(zhì)量的內(nèi)容先驗(yàn)。為了利用這些知識,擴(kuò)展維度的一種較好的方法是讓這些圖像層獨(dú)立地處理視頻幀。作者以5D視頻張量x∈Rb×c×f×h×w作為輸入,其中b和f分別表示批處理軸和幀時(shí)間軸。當(dāng)內(nèi)部特征映射經(jīng)過圖像層時(shí),時(shí)間軸f通過被重塑為b軸而被忽略,從而允許網(wǎng)絡(luò)獨(dú)立處理每一幀。然后在圖像層之后將特征映射重塑為5D張量。另一方面,新插入的運(yùn)動(dòng)模塊通過將h、w重新塑造成b,然后在模塊之后再重新塑造回來,從而忽略了空在模型設(shè)計(jì)方面,采用了Transformer[43]架構(gòu)進(jìn)行運(yùn)動(dòng)模塊設(shè)計(jì),并進(jìn)行輕微修改以使其適應(yīng)沿時(shí)間軸運(yùn)行,即“時(shí)間轉(zhuǎn)換器”。如圖3-2所示,時(shí)間轉(zhuǎn)換器由沿著時(shí)間軸的幾個(gè)自注意力塊組成,使用正弦位置編碼來編碼動(dòng)畫視頻中每一幀的位置。如上所述,運(yùn)動(dòng)模塊的輸入是重構(gòu)后的特征圖,其空間維度被合并到批處理軸中。輸入沿著時(shí)間軸對重構(gòu)后的特征映射進(jìn)行劃分,可以將其視為長度為f的向量序列,即{z1,...,zf},zi∈R(b×h×w)×c。然后向量將被投影并經(jīng)過幾個(gè)自注意力塊,即其中Q=WQz,K=WKz和V=WVz是三個(gè)獨(dú)立的投影。注意力機(jī)制使當(dāng)前幀的生成能夠整合來自其他幀的信息。自注意力機(jī)制使得模塊可以意識到動(dòng)畫中的幀順序。為了避免額外模塊可能引入的任何有害影響,時(shí)間轉(zhuǎn)換器的輸出投影層進(jìn)行了零初始化,并添加殘差連接,以便運(yùn)動(dòng)模塊在訓(xùn)練開始時(shí)是一個(gè)恒等映射。3.2.3MotionLoRA這是一個(gè)可選模塊,雖然預(yù)訓(xùn)練的運(yùn)動(dòng)模塊捕獲了一般的運(yùn)動(dòng)先驗(yàn),但如果需要有效地將其適應(yīng)新的運(yùn)動(dòng)模式(如相機(jī)縮放,平移和滾動(dòng)等)時(shí),會(huì)出現(xiàn)不適應(yīng)問題。對于那些負(fù)擔(dān)不起昂貴的預(yù)訓(xùn)練成本,但又希望對運(yùn)動(dòng)模塊進(jìn)行微調(diào)以獲得特定效果的普通用戶來說,這樣的高效微調(diào)模塊是必不可少的。這是AnimateDiff的最后階段,也被稱為MotionLoRA,如3-2最右邊,這是一種高效的運(yùn)動(dòng)個(gè)性化微調(diào)方法??紤]到運(yùn)動(dòng)模塊的架構(gòu)和參考視頻的數(shù)量有限,作者將LoRA[20]層添加到自注意力層中,然后在新運(yùn)動(dòng)模式的參考視頻上訓(xùn)練這些LoRA[20]層。3.2.4訓(xùn)練和推理過程?訓(xùn)練過程AnimateDiff[15]由三個(gè)可訓(xùn)練的組件模塊組成,以學(xué)習(xí)可轉(zhuǎn)移的運(yùn)動(dòng)先驗(yàn)。它們的訓(xùn)練目標(biāo)略有不同。域適配器使用3-5中的原始目標(biāo)進(jìn)行訓(xùn)練。運(yùn)動(dòng)模塊和MotionLoRA作為動(dòng)畫生成器的一部分,使用類似的目標(biāo)進(jìn)行輕微修改以適應(yīng)更高維度的視頻數(shù)據(jù)。具體來說,首先對一個(gè)視頻數(shù)據(jù)批xEQ\*jc3\*hps15\o\al(\s\up5(1),0):f∈Rb×c×f×h×w進(jìn)行編碼,通過StableDiffusion[33]的預(yù)訓(xùn)練自編碼器,將潛在代碼zEQ\*jc3\*hps15\o\al(\s\up5(1),0):f幀編碼。然后使用2-6中定義的前向擴(kuò)散調(diào)度進(jìn)行如下擴(kuò)散去噪:(3-8)維度擴(kuò)展模型輸入帶噪聲的潛在編碼和相應(yīng)的文本提示,并預(yù)測添加的噪聲。運(yùn)動(dòng)建模模塊的最終訓(xùn)練目標(biāo)是:值得注意的是,在訓(xùn)練域適配器、運(yùn)動(dòng)模塊和MotionLoRA時(shí),可訓(xùn)練部分之外的參數(shù)保持凍結(jié)狀態(tài)。?推理過程在推理時(shí),個(gè)性化的文生圖模型將首先進(jìn)行維度擴(kuò)展,然后注入用于生成一般動(dòng)畫的運(yùn)動(dòng)模塊,以及可選的用于生成具有個(gè)性化運(yùn)動(dòng)的動(dòng)畫的MotionLoRA。最后,通過執(zhí)行反向擴(kuò)散過程,并對潛碼進(jìn)行解碼,即可獲得視頻動(dòng)畫幀。推理過程如圖3-3所示。圖3-3AnimateDiff推理過程[15]3.3微調(diào)技術(shù)隨著大模型技術(shù)迅速發(fā)展,大模型預(yù)訓(xùn)練參數(shù)規(guī)模也逐步增加,在此條件下進(jìn)行全參數(shù)微調(diào)的成本變得越來越昂貴,且無法滿足普通用戶商業(yè)顯卡級別的訓(xùn)練微調(diào)。因此,各種大模型微調(diào)技術(shù)層出不窮,尤其在擴(kuò)散模型以及大語言模型涌現(xiàn)出許多不同方向的技術(shù)。在高效微調(diào)方面,有對預(yù)訓(xùn)練參數(shù)權(quán)重進(jìn)行矩陣分解的[20],有在原模型參數(shù)矩陣上插入可訓(xùn)練模塊的Adapter[19],有優(yōu)化每一層向量的Prefix-Tuning[25];在擴(kuò)散微調(diào)方面,有針對交叉注意力層的Hypernetwork,有針對文本Prompt進(jìn)行微調(diào)的TextualInversion[10]和DreamArtist[21];在個(gè)性化編輯方面,有針對特定概念主題生產(chǎn)的Dreambooth[35]。在本文中,我們從個(gè)性化角度出發(fā),在已有的AnimateDiff[15]模型上微調(diào)訓(xùn)練出能夠產(chǎn)生特定寵物視頻的模型參數(shù)。為了進(jìn)行高效微調(diào),本文采用LoRA[20]技術(shù)和Dreambooth[35]技術(shù)進(jìn)行個(gè)性化微調(diào)。3.3.1DreamboothDreambooth[35]是一種擴(kuò)散文字生成圖像模型的個(gè)性化微調(diào)方法,最初由Google團(tuán)隊(duì)為擴(kuò)散大模型Imagen[36]開發(fā),其思想同樣適用于StableDiffusion。Dreambooth[35]的微調(diào)思想如下:給定特定主題的3-5張圖像,微調(diào)一個(gè)文本到圖像擴(kuò)散模型,輸入圖像與一個(gè)包含唯一標(biāo)識符和圖片對象所屬類別(class)名稱的文本提示配簡單來說,在使用Dreambooth[35]微調(diào)模型之前,模型對“dog”的認(rèn)知是非常廣泛的,這就是上文所提到的類別(class即輸出的是各種各樣狗的圖像,Dreambooth[35]使用特定3-5張松獅狗Henry的圖像,并加上文字prompt(“a[V]dog”文字中的這個(gè)“V”就可以替換成“Henry”,也就是說,在“dog”這個(gè)類別中新建了一類對象,模型在微調(diào)過程中逐漸將“dog”這個(gè)類(class)的概念收斂到[Henrydog]。微調(diào)完成后,輸入文本提示詞“aHenrydog”,模型就會(huì)輸出寵物“Henry”相似的圖像。下面給出Dreambooth[35]模型的微調(diào)和推理概述圖3-4。但是,這樣微調(diào)會(huì)使模型忘記之前類別“dog”的樣子,產(chǎn)生過擬合(Overfitting)和語言漂移(LanguageDrift)問題。為此,Dreambooth[35]作者提出了一種先驗(yàn)保留損失函數(shù)(PriorPreservationLoss)來應(yīng)對過擬合和語言漂移問題。通過自身生成的不同屬于這個(gè)類(class)的樣本來監(jiān)督模型,以此來保持先驗(yàn)信息,保證模型輸出的多樣性。該研究還發(fā)現(xiàn),如果在沒有微調(diào)的情況下使用超分辨率(SR)網(wǎng)絡(luò),重建生成的圖片可能包含高頻幻視,因?yàn)槌直媛?SR)模型可能不熟悉主題實(shí)例的某些細(xì)節(jié)或紋理,或者主題實(shí)例可能產(chǎn)生了不正確的特征或缺少細(xì)節(jié)。因此,可以通過對模型的超分辨率(SR)組件進(jìn)行微調(diào),從而保留圖像細(xì)節(jié)。用上述相同的方法對低分辨率的文本到圖像模型進(jìn)行圖3-4Dreambooth的微調(diào)和推理概述[35]微調(diào),通過同時(shí)輸入低分辨率和高分辨率圖像實(shí)現(xiàn)對超分辨率組件的微調(diào),使模型能夠?qū)χ黧w的細(xì)節(jié)保持高保真度。方法概述如圖3-5。圖3-5Dreambooth的微調(diào)超分辨率組件[35]3.3.2LoRALoRA[20](Low-RankAdaptation,低秩自適應(yīng))技術(shù),最初是一種微調(diào)大預(yù)言模型(LLM,LargeLanguageModel)的微調(diào)方法,同樣,方法也可以遷移到StableDiffusion中。LoRA[20]將原來的預(yù)訓(xùn)練權(quán)重矩陣進(jìn)行凍結(jié),獨(dú)自設(shè)置了一個(gè)低秩矩陣進(jìn)行學(xué)習(xí)參數(shù)。它廣泛應(yīng)用于各種下游任務(wù),針對不同任務(wù)訓(xùn)練出不同的LoRA參數(shù)。LoRA[20]的關(guān)鍵思想在于,一個(gè)矩陣的有效向量數(shù)量取決于一個(gè)矩陣的秩數(shù),雖然大模型參數(shù)矩陣的行列數(shù)可能非常多,但并不是每個(gè)向量都有著重要作用,實(shí)際起到作用的,只有那些構(gòu)成矩陣秩數(shù)的向量數(shù)量。LoRA[20]的具體方法如3-6所示,將預(yù)訓(xùn)練參數(shù)權(quán)重W∈Rd×k凍結(jié),也就是將原始的StableDiffusion參數(shù)進(jìn)行凍結(jié),引入了可訓(xùn)練的等級分解矩陣△W=A·BT,其中A∈Rd×n,20圖3-6LoRA微調(diào)原理[20]n×k,n?rank(d,k)。在訓(xùn)練過程中,A被初始化為隨機(jī)高斯分布,B被初始化為零矩陣,W被凍結(jié),不進(jìn)行梯度更新,而A和B的參數(shù)可以被重新學(xué)習(xí)。修正后的正向傳播公h=Wx+△Wx(3-10)LoRA[20]大幅度節(jié)省了計(jì)算資源和成本,顯著地降低了顯存的占用率,極大地降低了微調(diào)大模型的硬件門檻,在消費(fèi)級顯卡上也能有良好的表現(xiàn)。21第四章視頻生成實(shí)驗(yàn)本章主要展示了本研究項(xiàng)目的實(shí)驗(yàn)流程以及實(shí)驗(yàn)結(jié)果,重點(diǎn)在于對現(xiàn)有技術(shù)的應(yīng)用和結(jié)合微調(diào)技術(shù)進(jìn)行特定寵物的視頻生成,因此沒有采用定量分析進(jìn)行模型評價(jià)(如FID[17]本章首先介紹文生視頻流程與結(jié)果,在不同風(fēng)格預(yù)訓(xùn)練權(quán)重下進(jìn)行對比實(shí)驗(yàn);接著介紹圖生視頻的實(shí)驗(yàn)流程和結(jié)果,展示不同提示詞下視頻生成效果;之后是結(jié)合MotionLoRA的實(shí)驗(yàn),通過不同的鏡頭實(shí)驗(yàn)?zāi)K展示視頻生成的動(dòng)態(tài)效果;最后是模型結(jié)合微調(diào)技術(shù)生成的特定寵物實(shí)驗(yàn),從縱向上看,以三個(gè)不同的rank進(jìn)行對比實(shí)驗(yàn)查看視頻生成效果,從橫向上看,做了不同類別寵物的視頻生成實(shí)驗(yàn),探索方法的普適性。實(shí)驗(yàn)環(huán)境配置如下表4-1:表4-1實(shí)驗(yàn)平臺配置名稱參數(shù)GPUV-GPU操作系統(tǒng)Ubuntu22.04顯存容量48GB實(shí)驗(yàn)框架PyTorch2.1.2編程語言Python實(shí)驗(yàn)平臺VSCode+AutoDL4.1不同風(fēng)格的文生視頻實(shí)驗(yàn)本節(jié)研究了不同的預(yù)訓(xùn)練權(quán)重模型在同一參數(shù)設(shè)置背景下的視頻生成效果,為了確保測試不同場景下模型的視頻生成能力,本文研究了風(fēng)景視頻以及具體人物寫實(shí)視頻的文生視頻生成效果。具體的參數(shù)設(shè)置如表4-2以及表4-3所示。在視頻生成上,我們著重關(guān)注的是幀與幀圖像之間的視覺連貫性,采樣步數(shù)過低會(huì)導(dǎo)致短幀細(xì)節(jié)丟失,采樣步數(shù)過高采樣時(shí)間會(huì)過長,導(dǎo)致幀數(shù)冗余。以下實(shí)驗(yàn)采取采樣步數(shù)為50。其中GuidanceScale代表文本的引導(dǎo)強(qiáng)度,它的參數(shù)范圍為5-12之間,參數(shù)過高會(huì)導(dǎo)致圖像“過擬合”prompt,參數(shù)過低則會(huì)導(dǎo)致生成效果松散,不符合文本描述。在以下實(shí)驗(yàn)中,采取的GuidanceScale為8。為了加快采樣速度,實(shí)驗(yàn)采取DDIM采樣方式。由于實(shí)驗(yàn)的硬件性能有限,僅生成12幀視頻查看生成效果。22表4-2圖4-1視頻生成參數(shù)配置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)“photoofcoastline,rocks,stormweather,wind,waves,lightning,8kuhd,dslr,softlighting,highquality,filmgrain,FujifilmXT3”“blur,haze,deformediris,deformedpupils,semi-realistic,cgi,3d,render,sketch,cartoon,drawing,anime,mutatedhandsandfingers,deformed,distorted,disfigured,poorlydrawn,badanatomy,wronganatomy,extralimb,missinglimb,floatinglimbs,disconnectedlimbs,mutation,mutated,ugly,disgusting,amputation”DDIM512×512圖像生成結(jié)果如圖4-1以及圖4-2所示,其中,RealisticVision是一個(gè)專注于超寫實(shí)風(fēng)格的模型,F(xiàn)ilmVelvia是一個(gè)的模型,ToonYou是一個(gè)卡通風(fēng)格的模型,MajicMix是一個(gè)的融合多種風(fēng)格的模型,RcnzCartoon是一個(gè)專注于卡通風(fēng)格的模型,Lyriel是一個(gè)強(qiáng)調(diào)夢幻和幻想風(fēng)格的模型,Tusun是一個(gè)專注于特定風(fēng)格的模型。視頻采樣幀數(shù)為12,本文篇幅有限,采取隔3幀抽1幀的形式展示視頻生成效果。圖4-1表4-2參數(shù)配置下的視頻生成結(jié)果23在不同模型預(yù)訓(xùn)練權(quán)重的推理下,4-1視頻生成效果保持著較高的生成質(zhì)量,不論是風(fēng)暴閃電以及兇猛的海浪都描繪的非常真實(shí),場景復(fù)雜且視頻連續(xù)。同樣,在具體人物場景生成效果上也非常優(yōu)異,老人和茶水的煙霧效果都表現(xiàn)得非常真實(shí),視頻場景變化非常突出。表4-3圖4-2視頻生成參數(shù)配置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)“candidphotoofanelderlymansippingteabyawindow,softmorninglightcastingshadows,steamrisingfromthecup,NikonZ7,85mmf/1.4,shallowdepthoffield,warmtones,contemplativemood,vintageambiance”“ai-generated,digitalart,manga,cartoon,cgi,plasticskin,flatface,exaggeratedfeatures,non-photorealistic”DDIM512×512上述參數(shù)生成效果如下圖4-2所示:圖4-2表4-3參數(shù)配置下視頻生成效果244.2圖生視頻實(shí)驗(yàn)在圖生視頻實(shí)驗(yàn)中,我們著重探討模型的泛化能力,從三個(gè)不同的場景中探索模型的圖生視頻潛力。在基本參數(shù)設(shè)置上,采用DDIM的采樣方式,采樣步數(shù)為50,GuidanceScale設(shè)置為8.5。以下表格4-4展示了春景變換到秋景的視頻生成參數(shù)配置,表格4-5展示了夜幕中煙花的視頻生成參數(shù)配置,表格4-6展示了陽光普照下海上飄洋的船只的視頻生成參數(shù)配置。表4-4春景到秋景的圖生視頻參數(shù)配置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)”autumnlandscapewithdriftingcloudsinthesky,golden-yellowfoliagecoveringtreesandbushes,fallenleavesscatteredacrosstheground,softsunlightfilteringthroughmovingclouds,gentlebreeze,seasonalatmosphere,capturedwithCanonEOSR5,35mmf/1.8,warmcolorgrading,cinematicmood””worstquality,lowquality,letterboxed,summergreenery,noleavesonground,overexposedhighlights,unnaturaltreecolors,distortedfoliage,cartoon,CGI,blurrydetails”DDIM0512×512圖4-3春景到秋景的圖生視頻效果1圖4-4春景到秋景的圖生視頻效果225表4-5夜幕中煙花綻放的視頻生成參數(shù)配置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)”bokeh,fireworksinbackground””worstquality,lowquality,letterboxed”DDIM0512×512圖4-5夜幕中煙花綻放的視頻生成效果1圖4-6夜幕中煙花綻放的視頻生成效果2表4-6陽光普照下飄洋的船只參數(shù)配置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)”masterpiece,bestquality,highlydetailed,ultradetailed,warmlighting,fishingboats,oceanwaves,seagulls,ripplingwater,wharf,silhouette,sereneatmosphere,goldenhour,coastallandscape,seasidescenery””worstquality,lowquality,letterboxed”DDIM0512×51226圖4-7飄洋的船只視頻生成效果1圖4-8飄洋的船只視頻生成效果2從視覺質(zhì)量上看,生成的視頻幀畫面細(xì)節(jié)非常豐富,物體的表面的紋理感比較清晰,場景也基本與原圖保持真實(shí),顏色上非常平滑,整體的畫面具有較高的清晰度和審美觀感;無論是春景到秋景的變化,還是夜幕中綻放的煙花效果以及船只的漂泊,光影變化都是很合理的,具有真實(shí)攝像機(jī)畫面的質(zhì)感。從動(dòng)態(tài)表現(xiàn)上看,生成的視頻在幀間表達(dá)中保持了較高的一致性,幀與接下來的連續(xù)幀之間顯得平滑,運(yùn)動(dòng)軌跡比較自然,沒有傳統(tǒng)圖生視頻模型常見的抖動(dòng)或者說是結(jié)構(gòu)錯(cuò)位現(xiàn)象。無論是物體自身的移動(dòng),還是相機(jī)視角的變換,模型都能保持場景結(jié)構(gòu)和主體一致性,有效避免了圖生視頻中常見的形變問題。此外,在不同類型的運(yùn)動(dòng)模式下,模型均能較好地模擬現(xiàn)實(shí)鏡頭運(yùn)動(dòng)的物理規(guī)律,展現(xiàn)出較強(qiáng)的運(yùn)動(dòng)控制能力與空間理解能力。由此可見,所采用的圖生視頻生成方法不僅在靜態(tài)圖像質(zhì)量上具有優(yōu)秀表現(xiàn),在動(dòng)態(tài)一致性與視頻生成的真實(shí)性方面也具備良好的能力,展現(xiàn)了較高的綜合生成水平。4.3MotionLoRA運(yùn)動(dòng)相機(jī)視頻實(shí)驗(yàn)本節(jié)研究文生視頻模型在MotionLoRA引導(dǎo)下的運(yùn)動(dòng)相機(jī)視頻生成效果,采取DDIM采樣方式,采樣步數(shù)設(shè)置為50,GuidanceScale設(shè)置為8。采樣12幀視頻,每隔3幀截取1幀,共截取4幀在文章中進(jìn)行展示。模型的基本參數(shù)設(shè)置如表4-7所示。隨后會(huì)呈現(xiàn)于不同相機(jī)運(yùn)動(dòng)控制情形下,模型所生成的視頻幀呈現(xiàn)效果,著重觀察模型能否基于靜態(tài)圖像生成連貫、自然且有鏡頭語言的動(dòng)態(tài)視頻序列,借助對不同類型運(yùn)動(dòng)方式實(shí)驗(yàn)結(jié)果展開橫向?qū)Ρ龋u估模型在模擬相機(jī)視角變換、維持圖像主體結(jié)構(gòu)一致性以27及運(yùn)動(dòng)平滑性等表現(xiàn),還會(huì)剖析MotionLoRA在不同運(yùn)動(dòng)類型下的控制能力與泛化效果,以此驗(yàn)證其在圖生視頻任務(wù)里引導(dǎo)動(dòng)態(tài)生成的有效性與魯棒性。表4-7MotionLoRA運(yùn)動(dòng)相機(jī)視頻生成參數(shù)設(shè)置參數(shù)類別參數(shù)設(shè)置PromptsNegativePrompts采樣方式采樣步數(shù)GuidanceScaleSeed分辨率幀數(shù)”panoramicsunriseviewofanalpinelake,foregroundwildflowersswayinginthebreeze,watersurfaceshimmering,snowymountainreflectionsgentlyshifting,earlymorningglowintheclouds,CanonEOSR5,16-35mmf/2.8L,softgoldentones,vibrantandalive””blur,haze,deformediris,deformedpupils,semi-realistic,cgi,3d,render,sketch,cartoon,drawing,anime,mutatedhandsandfingers,deformed,distorted,disfigured,poorlydrawn,badanatomy,wronganatomy,extralimb,missinglimb,floatinglimbs,disconnectedlimbs,mutation,mutated,ugly,disgusting,amputation”DDIM512×512其中,ZoomIn為鏡頭拉近被攝影的物體,ZoomOut為鏡頭拉遠(yuǎn)被攝影的物體,PanLeft為鏡頭向左水平平移,PanRight為鏡頭向右水平平移,TiltUp為鏡頭向上仰拍,TiltDown為鏡頭向下俯拍,RollingAnticlockwise為鏡頭逆時(shí)針旋轉(zhuǎn),RollingClockwise為鏡頭順時(shí)針旋轉(zhuǎn)。下圖4-9展示了文生視頻模型在MotionLoRA的引導(dǎo)下相機(jī)鏡頭運(yùn)動(dòng)拍攝的動(dòng)態(tài)效果。從圖4-9中結(jié)果可以看出,MotionLoRA能有效控制不同類型的鏡頭運(yùn)動(dòng),生成的視頻具有良好的連貫性與穩(wěn)定性。在ZoomIn以及ZoomOut的實(shí)驗(yàn)當(dāng)中,山體于畫面里的尺寸會(huì)依照鏡頭的拉近或者拉遠(yuǎn)產(chǎn)生合理的改變,背景細(xì)節(jié)同樣可隨著焦距的變化實(shí)現(xiàn)自然縮放,沒有十分突出的變形或者跳幀情況出現(xiàn),在PanLeft和PanRight的實(shí)驗(yàn)過程中,畫面整體呈現(xiàn)出平滑的水平移動(dòng)態(tài)勢,圖像內(nèi)容在連續(xù)幀之間的過渡較為自然,并未出現(xiàn)結(jié)構(gòu)斷裂或者不連續(xù)的問題,在TiltUp與TiltDown的仰拍以及俯拍鏡頭之下,圖像的上下運(yùn)動(dòng)十分流暢,可有效地模擬真實(shí)攝像機(jī)的視角變化。在RollingAnticlockwise以及RollingClockwise的旋轉(zhuǎn)運(yùn)動(dòng)實(shí)驗(yàn)里,模型生成的視頻呈現(xiàn)出清晰的角度偏移軌跡,旋轉(zhuǎn)28過程中畫面維持穩(wěn)定,沒有出現(xiàn)邊緣模糊或者圖像扭曲的問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論