版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
AI視頻生成技術(shù)原理與行業(yè)應(yīng)用2025年11月25日Deepseek內(nèi)部研討系列一、本講座面向視覺內(nèi)容創(chuàng)作者、AI技術(shù)愛好者、創(chuàng)意從業(yè)人員
,學術(shù)研究人員、相關(guān)教育工作者和學生,
旨在全面解析AI視頻生成技術(shù)的技術(shù)原理與行業(yè)應(yīng)用。我們聚焦前沿模型架構(gòu)、廠商發(fā)展現(xiàn)狀與行業(yè)應(yīng)用案例
,力求兼顧技術(shù)深度與實用價值。報告深入分析各主流廠商技術(shù)能力與產(chǎn)品定位
,剖析不同行業(yè)的應(yīng)用場景與工作流程。為創(chuàng)作者、決策者與開發(fā)者提供從技術(shù)理解到商業(yè)落地的系統(tǒng)指南
,助力把握創(chuàng)新機遇與實施路徑。二、講座涵蓋以下幾個模塊:1.AI視頻概覽:介紹AI和AI視頻的基本概念、分類、行業(yè)發(fā)展現(xiàn)狀
,建立對這一技術(shù)領(lǐng)域的整體認識。2.技術(shù)原理與架構(gòu):
詳細解析
AI
視頻從訓(xùn)練到生成的完整過程、基礎(chǔ)技術(shù)架構(gòu)、訓(xùn)練數(shù)據(jù)
,以及從基礎(chǔ)架構(gòu)到商業(yè)模型的演進路徑。3.能力發(fā)展與突破:分析主流廠商的技術(shù)能力、AI視頻技術(shù)的評估標準
,以及市場上主要的AI視頻工具和模型的比較。4.行業(yè)應(yīng)用案例與價值:全面展示
AI
視頻在影視娛樂、短視頻營銷、教育培訓(xùn)、
醫(yī)療健康等多個行業(yè)的具體應(yīng)用案例和價值。5.工具/平臺使用推薦:可靈、
Runway、即夢等10款國內(nèi)外主流AI視頻平臺
,提供基于應(yīng)用場景、易用性分級及成本梯度的多維選型建議。三、在技術(shù)學習的道路上
,優(yōu)質(zhì)學習資源至關(guān)重要。AI基本概念和原理部分
,推薦大家參考《人工智能通識教程(微課版)
》這本系統(tǒng)全面的入門教材
,結(jié)合B站“思睿觀通
”欄目的配套視頻進行學習。此外
,歡迎加入ai.社區(qū)
,以及“AI肖睿團隊
”的視頻號和微信號
,與志同道合的AI愛好者交流經(jīng)驗、分享心得。摘要第2頁AI視頻生成技術(shù)原理與行業(yè)應(yīng)用目
錄C
ONT
E
NTS02
技術(shù)原理與架構(gòu)
行業(yè)應(yīng)用案例與價值A(chǔ)I
視頻概覽能力發(fā)展與突破工具選擇推薦AI
視
頻
概
覽1.
認識AI——AI
·AGI
·基于學習的AI·GenAI
·AIGC2.
認識AI視頻——定義
·任務(wù)分類·發(fā)展
·主流工具01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第4頁PART
01
生成式AI決策式AI認識AI,從厘清“名詞”開始01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第5頁AGI(通用人工智能)(artificialgeneral
intelligence)AIGCChatGPTAIGeneratedContent
(人工智能生成內(nèi)容)AI(人工智能)1.狹義AI
與
通用AI通用AIl
模仿人類智能,被稱為強人工智能l
假設(shè)具備意識和認知推理能力l
能解決各種不熟悉的任務(wù)l
尚未在實踐中實現(xiàn)按智能水平/范圍劃分
,AI分為狹義AI
和通用AI,狹義AI是當今最常見的AI
類型,
專注于特定任務(wù);
而通用AI,也稱為AGI
,可以像人類一樣思考、學習和運用知識
l
通常被稱為弱人工智能或特定人工智能l
不具有意識或高級認知功能l
僅限于解決特定、熟悉的任務(wù)l
價值:提高效率、提高準確性、降低成本01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第6頁
ceep
seek狹義AI基于學習的AIl
從數(shù)據(jù)中學習l
利用算法識別模式并做出決策l
靈活,可隨著時間改進,但需要大量數(shù)據(jù)l
能夠處理復(fù)雜、不斷變化的情況例如:圖像識別、自然語言處理、預(yù)測分析基于規(guī)則的AIl
遵循預(yù)定義的規(guī)則和邏輯操作l
決策基于人類專家提供的明確指示進行l(wèi)
易于理解和控制,但缺乏靈活性l
無法適應(yīng)或從新數(shù)據(jù)或經(jīng)驗中學習例如:專家系統(tǒng)、傳統(tǒng)聊天機器人2.基于規(guī)則的AI與基于學習的AI在構(gòu)建方式和范式上,早期的AI范式是基于規(guī)則的Al,又稱為ll符號AI
(symbolicA)
",
依賴于由人類專家預(yù)先編寫的顯式邏輯規(guī)則進行決策;而基于學習的Al則是通過分析海量數(shù)據(jù)來自動學習和歸納模式,是現(xiàn)代AI的主流范式。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第7頁特點監(jiān)督學習無監(jiān)督學習數(shù)據(jù)標簽需要帶標簽的訓(xùn)練數(shù)據(jù)不需要帶標簽的數(shù)據(jù)學習過程學習輸入與輸出之間的映射關(guān)系發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和模式訓(xùn)練目標最小化預(yù)測錯誤找出數(shù)據(jù)中的隱藏結(jié)構(gòu)應(yīng)用場景分類、回歸問題聚類、降維、關(guān)聯(lián)規(guī)則學習數(shù)據(jù)準備需要大量人工標注無需人工標注應(yīng)用例子垃圾郵件過濾、圖像識別、疾病診斷客戶細分、異常檢測、推薦系統(tǒng)3.監(jiān)督學習與無監(jiān)督學習監(jiān)督學習:從帶有標簽的訓(xùn)練數(shù)據(jù)中學習算法通過分析已知的輸入-輸出對來學習映射函數(shù),目標是對新的、未見過的輸入數(shù)據(jù)進行準確預(yù)測。無監(jiān)督學習:在未標記的數(shù)據(jù)中發(fā)現(xiàn)模式系統(tǒng)試圖從數(shù)據(jù)的內(nèi)在結(jié)構(gòu)中發(fā)現(xiàn)模式或規(guī)律,而不依賴于預(yù)先定義的輸出標簽。按學習和訓(xùn)練方式,分為監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習是利用帶有明確標簽的ll正確答案n數(shù)據(jù)進行訓(xùn)練,而無監(jiān)督學習則是在沒有標簽的數(shù)據(jù)中自主發(fā)現(xiàn)其內(nèi)在的結(jié)構(gòu)與模式。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第8頁用于貓品種分類、貓
臉識別、貓姿態(tài)估計用于學習貓的一般特征分布、生成新的貓圖像決策式AI:專注于分析現(xiàn)有數(shù)據(jù),以對未來事件或趨勢做出預(yù)測,常被應(yīng)用于金融、醫(yī)療保健和營銷等領(lǐng)域。決策式AI對
于需要進行預(yù)測的決策過程至關(guān)重要。例如,一個決策式AI模型可能會分析歷史銷售數(shù)據(jù)以預(yù)測未來銷售,或
者它可能會使用患者數(shù)據(jù)來預(yù)測出現(xiàn)某些醫(yī)療狀況的可能性。生成式AI:能夠根據(jù)所接受的訓(xùn)練數(shù)據(jù)生成新的內(nèi)容。它可以生成圖像、文本、音樂等,被廣泛應(yīng)用于創(chuàng)意產(chǎn)
業(yè)、內(nèi)容生成,甚至是為各種應(yīng)用創(chuàng)建合成數(shù)據(jù)。例如:復(fù)旦大學附屬眼耳鼻喉科醫(yī)院推出近視兒童AI生成式病歷,醫(yī)生只需專注于與患者的溝通,系統(tǒng)后臺即可完成語音識別、關(guān)鍵詞抓取、語義理解及病歷生成的全過程。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第9頁4.決策式AIVS生成式AI在基于學習的AI范式下,按AI要完成的核心任務(wù)分為決策式AI與生成式Al,決策式AI專注于對輸入數(shù)據(jù)進行識別、判斷和預(yù)測;生成式AI的目標是根據(jù)學習到的模式創(chuàng)造和生成全新的、原創(chuàng)的內(nèi)容。AIGC—生成式AI在內(nèi)容創(chuàng)作領(lǐng)域的多模態(tài)發(fā)展AIGC(AIGeneratedContent),指人工智能生成內(nèi)容,廣泛應(yīng)用于文本生成、音頻生成、圖像生成、視頻生成及跨模態(tài)生成等。應(yīng)用場景文本生成1.內(nèi)容創(chuàng)作與續(xù)寫:創(chuàng)作小說、劇本、詩歌、營銷文案、演講稿、郵件等,并進行續(xù)寫與擴寫2.信息處理與整合:文本摘要、信息提取、情感分析、自動翻譯、生成結(jié)構(gòu)化報告、構(gòu)建知識圖譜3.輔助寫作與校對:文章潤色、語法糾錯、風格轉(zhuǎn)換、內(nèi)容推薦、輔助事實性核查4.對話式AI與智能助理:智能客服、聊天機器人、虛擬個人助理(VPA)、情感陪伴、AI角色扮演(RPG)5.代碼生成與開發(fā):
自動編寫/補全代碼、修復(fù)錯誤、代碼重構(gòu)與遷移、生成測試用例、生成技術(shù)文檔圖像生成1.文生圖:根據(jù)文字描述生成高分辨率的概念藝術(shù)、設(shè)計草圖、產(chǎn)品原型圖、廣告營銷素材2.圖像編輯與修復(fù):智能內(nèi)容擦除與填充、圖像擴展、智能修復(fù)(老照片上色、去噪、提升清晰度)3.可控圖像生成與編輯:根據(jù)草圖、姿態(tài)、深度圖等精控內(nèi)容,風格遷移、局部重繪、元素替換視頻生成1.視頻內(nèi)容生成:根據(jù)文字或圖片生成短視頻、廣告片、動畫片段等2.智能視頻剪輯與處理:
自動剪輯、智能匹配轉(zhuǎn)場與特效、視頻摘要生成、目標跟蹤與移除3.視頻增強與特效:視頻超分辨率、插幀提升流暢度、風格化濾鏡、人臉替換與美化4.數(shù)字人與虛擬形象:生成并驅(qū)動超寫實的數(shù)字人、虛擬主播,用于直播、客服、品牌代言、虛擬偶像音頻生成1.語音合成
(TTS):將文本轉(zhuǎn)換為自然流暢的人聲,用于新聞播報、有聲書、導(dǎo)航語音、虛擬主播配音2.聲音克隆與轉(zhuǎn)換:用少量樣本復(fù)制特定人物聲音,聲音特征轉(zhuǎn)換,跨語種聲音克隆、個性化配音3.音樂與音效生成:
自動作曲、編曲、作詞,生成背景音樂、電影音效,人聲與伴奏分離/重組跨模態(tài)生成1.視覺內(nèi)容理解與描述:圖像或視頻自動生成文字描述、標題或關(guān)鍵詞,用于內(nèi)容檢索、輔助視障人士2.多模態(tài)交互:實現(xiàn)圖文、音視頻結(jié)合的復(fù)雜推理與對話問答3.3D模型生成:根據(jù)文本或2D圖像生成3D模型,應(yīng)用于游戲開發(fā)、工業(yè)設(shè)計、虛擬現(xiàn)實(VR/AR)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第10頁類型1.
通用AI
(AGI)
是擁有與人類相當?shù)娜嬷腔鄣慕K極理想,
目前尚未實現(xiàn)。今天所討論和使用的一切AI
,都屬于狹義AI
的范疇
,它們是為解決特定任務(wù)而設(shè)計的工具。2.
構(gòu)建AI的方法
,早期依賴基于規(guī)則的AI
,像一本寫好的“說明書
”
;而現(xiàn)代AI的主流是基于學習的AI
,它能像學生一樣從海量數(shù)據(jù)中自主
學習規(guī)律
,是后續(xù)高級功能的基礎(chǔ)。3.
基于學習的AI根據(jù)其任務(wù)目標
,又可分為兩大核心能力。決策式AI
像
在做“判斷題”
,負責識別和分類(如人臉識別)
;而生成式AI
則像在做“創(chuàng)作題”
,負責創(chuàng)造全新的原創(chuàng)內(nèi)容(如寫文章、繪畫)。4.
生成式AI創(chuàng)造生成內(nèi)容簡稱為
AIGC
,文本生成、
圖像生成、視頻生成、音頻生成等都是AIGC在不同媒介上的具體表現(xiàn)形式。AI視頻生成是基于學習的AI
,
屬于生成式AI范疇
,
而其產(chǎn)出的
動態(tài)影像內(nèi)容
,
是目前
AIGC
中技術(shù)最復(fù)雜、
發(fā)展最迅速的分
支之一。
本報告將聚焦于此
,
深入探討AI視頻技術(shù)的核心原理、
當前進展、
行業(yè)應(yīng)用與與實踐以及未來前景展望。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第11頁AI
視
頻
概
覽1.
認識AI——AI
·AGI
·基于學習的AI·GenAI
·AIGC2.
認識AI視頻——定義
·任務(wù)分類·發(fā)展
·主流工具01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第12頁PART
01
PEKING
UNIVERSITYN
I
VN
I
V可靈AI基于文本提示詞生成的視頻RunwayML技術(shù)應(yīng)用于電影《瞬息全宇宙》特效2024年初Sora生成的60秒視頻《行走在街頭的女人》01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第13頁AI視頻生成—重塑視頻內(nèi)容創(chuàng)作范式2024年初,
OpenAI發(fā)布的Sora模型憑借一分鐘長度、高清畫質(zhì)及物理世界連貫性理解,重新定義了AI視頻生成能力。隨后,多個模型相繼問世,展現(xiàn)相近或更高的技術(shù)水平。
AI視頻正從實驗性"技術(shù)炫技
"階段迅速發(fā)展為影視預(yù)演、廣告創(chuàng)意、短視頻制作和在線教育的實用工具。盡管在可控性、邏輯一致性和成本方面仍存挑戰(zhàn),但行業(yè)變革的臨界點已清晰可見。視頻生成從非視頻模態(tài)(如文本、圖像、音頻)信息中,從零開始或大幅度創(chuàng)造全新的視頻序列。?
基于文本生成視頻?
基于圖像生成視頻(單圖動畫化、多圖序
列故事化轉(zhuǎn)換)?
基于音頻生成視頻(音景視覺化、音樂視
頻自動生成)?
3D/世界模型生成(文本/圖像到3D場景、
3D場景動畫生成、
2D到3D視頻轉(zhuǎn)換)?
數(shù)字人生成(文本驅(qū)動表情/動作、對口型、視頻理解讓AI模仿人類的視覺和認知能力,解析、描述和推理視頻內(nèi)容。?
視頻高層語義分析(視頻分類標簽、行為
識別、事件檢測、場景分割)?
視頻內(nèi)容摘要與交互(關(guān)鍵內(nèi)容摘要生成、自動字幕/描述生成、視頻問答交互、內(nèi)容檢索)?
視頻時空感知(目標檢測與追蹤、人體姿
態(tài)估計與追蹤)?
多模態(tài)理解(視覺-語言對齊、音視頻事件視頻編輯在現(xiàn)有視頻的基礎(chǔ)上,通過AI進行內(nèi)容、風格、時序或?qū)傩缘男薷呐c提升。?內(nèi)容修改(視頻修復(fù)/填充、視頻中物體替換、視頻畫面擴展)?時序編輯(視頻插幀實現(xiàn)流暢慢動作、視
頻變速/重定時)?
視覺屬性編輯(風格化轉(zhuǎn)換、重著色/調(diào)色、光照重置、特效添加)?
視覺質(zhì)量增強(超分辨率提升、去噪/去模糊處理、視頻防抖優(yōu)化AI視頻的概念及任務(wù)分類01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第14頁AI視頻指利用人工智能(特別是機器學習和計算機視覺)來生成、編輯、分析或增強視頻內(nèi)容。重點討論定位、跨模態(tài)內(nèi)容檢索)克隆、形象定制)AI視頻生成三種典型方式01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第15頁“日出,鏡頭光暈清冷風,一個五官精致的年輕中國女子,長長的頭發(fā)被風吹亂,頭發(fā)絲飄散在臉上,穿著夏裝,背景海邊沙灘”文本到視頻基于文本提示生成符合描述的視頻一個身穿中國古代紅色服飾的女生,在一個未來世界的街道上行走嚴格來說,屬于視頻編輯范疇視頻到視頻對已有視頻進行增強或轉(zhuǎn)換-圖像到視頻將靜態(tài)圖像轉(zhuǎn)換為動態(tài)視頻一個女人站在雪地里,抬起右手摸了一下帽檐010302+AI視頻生成的歷史演進?
技術(shù):以GANs及其變體為主導(dǎo)?
實現(xiàn)了像素級生成與操控?出現(xiàn)Deepfake
(換臉)技術(shù)?
實現(xiàn)短視頻風格遷移?
秒級時長、低分辨率、邏輯不穩(wěn)定、多偽影?
核心技術(shù):
DiT模型成為主流?
動態(tài)世界的初步模擬?
分鐘級時長、高保真、物理邏輯連貫性顯著增強?
更多商家與產(chǎn)品,競爭加劇,行業(yè)進入爆發(fā)期奠定理論基礎(chǔ)生成對抗網(wǎng)絡(luò)(GANs)理論提出處于概念驗證階段,無大規(guī)模應(yīng)用落地?
技術(shù)巨大突破:從GANs轉(zhuǎn)向了擴散模型?
文本驅(qū)動視頻生成的場景生成?
商業(yè)化工具開始出現(xiàn)(如RunwayGen-2,
Pika等早期版本)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第16頁2016-2020年GANs主導(dǎo)的探索與應(yīng)用2024年至今產(chǎn)品化與應(yīng)用加速落地?
雖然時長仍較短(3-5秒),但質(zhì)量大幅提升,達到了初步商業(yè)可用的標準2016年前早期發(fā)展階段???2020-2024年擴散模型突破與商業(yè)化探索AI
視頻元年01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第17頁廠商名稱工具名稱發(fā)布時間特
點OpenAISora2024年24年2月首次向外展示60秒演示視頻引起轟動,開啟AI視頻元年,24年12月正式發(fā)布,對物理世界有深刻理解,能生成復(fù)雜場景、多角度鏡頭和富有情感的角色,已集成進ChatGPT,可生成20秒視頻??焓挚伸`
AI2024年長時長與高畫質(zhì):支持生成長達2分鐘、
1080p、30fps的視頻。采用類似Sora的DiT架構(gòu),能模擬真實物理世界,迭代迅速,
Kling2.5Turbo(2025年9月)成本降低30%,目前全球用戶已突破4500萬。字節(jié)即夢AI2024年畫面審美、光影質(zhì)感及中文語義理解上表現(xiàn)卓越。背靠抖音與剪映生態(tài),打通了從“AI生成”到“剪輯發(fā)布”
的全鏈路,國內(nèi)唯一一個具有內(nèi)容消費屬性的社區(qū),月活5400萬,25年10月網(wǎng)站1000萬訪問量。Minimax海螺AI2024年一個類似ChatGPT的綜合AI助手,視頻生成是其多模態(tài)能力的一部分。在一個平臺內(nèi)提供文本、語音、圖像、視頻等多種AI能力。具備基礎(chǔ)的文生視頻功能,更側(cè)重于多模態(tài)能力的融合體驗。愛詩科技PixVerse2024年24年1月(早于Sora
)發(fā)布V1版本,免費額度較高,模型迭代迅速,尤其在動漫和藝術(shù)風格上表現(xiàn)出色。因各種視頻特效模版實現(xiàn)破圈,再靠模版在社交媒體平臺上的傳播來吸引更多用戶,
目前APP月活2300萬。RunwayRunway2023年最早AI視頻商業(yè)化的公司之一,提供完整的"AI魔法工具"套件,包括運動筆刷、鏡頭控制、視頻修復(fù)等專業(yè)級編輯功能。產(chǎn)品迭代迅速,最新Gen-4模型在運動、物理真實感和一致性上表現(xiàn)突出。Pika
LabsPika2023年在創(chuàng)意社區(qū)非常流行,以其出色的藝術(shù)和電影感著稱。支持文生視頻、圖生視頻,并提供局部修改、擴展畫布、修改視頻內(nèi)容等強大編輯功能。早期通過Discord積累了大量用戶和反饋,產(chǎn)品迭代緊貼用戶需求。生數(shù)科技Vidu2024年國內(nèi)首個發(fā)布的類Sora架構(gòu)(
U-ViT)的文生視頻大模型。能夠一鍵生成16秒的1080p高清視頻,時空連貫性好,支持
1-3張參考圖的多元素交互控制。對中國文化有較好理解。LumaLabs,
Inc.LumaAI2024年其視頻模型Dream
Machine生成速度快,視頻質(zhì)量極高,物理一致性和角色連貫性表現(xiàn)優(yōu)異。以其3D高斯濺射和NeRF
(神經(jīng)輻射場)技術(shù)聞名,
Ray3(2025年9月)號稱是首個能"思考和推理"的視頻AI模型。阿里通義萬相2024年集成的WAN模型被譽為“開源界的Sora”。能生成1080p高清、光影逼真且運動幅度巨大的視頻。其最大差異化優(yōu)勢在于“模型開源”策略,支持本地部署,不僅生成質(zhì)量處于第一梯隊,更極大地降低了開發(fā)者的使用門檻。當前主流的AI視頻生成平臺與工具平臺/廠商通用大模型產(chǎn)品核心特點與策略O(shè)penAIChatGPTOpenAI將Sora集成到ChatGPT中,用戶可以在一個對話界面內(nèi),通過自然語言完成從文本構(gòu)思、圖像生成到高質(zhì)量視頻創(chuàng)作的全流程。使ChatGPT從一個語言助手,成為一個全能的創(chuàng)意和生產(chǎn)力平臺。GoogleGemini
(生態(tài))Gemini是谷歌的多模態(tài)大腦,而Veo是其專門用于視頻生成的“利器”。谷歌還將Veo植入YouTube、
Photos(動態(tài)回憶)以及其云平臺VertexAI中,讓用戶和開發(fā)者在現(xiàn)有產(chǎn)品中直接使用頂級的視頻生成能力,核心是賦能現(xiàn)有生態(tài)。新的Veo3模型還增加了對話、環(huán)境音效以及其他音頻效果的支持。MetaMetaAIMetaAI被集成在Facebook,
Instagram,WhatsApp等社交應(yīng)用中。其視頻生成模型(如EmuVideo)讓用戶能快速生成創(chuàng)意短視頻等。其長遠目標是為未來的元宇宙/AR眼鏡提供實時、動態(tài)內(nèi)容生成能力。阿里巴巴通義千問阿里通義大模型家族中,負責圖像/視頻生成的是“通義萬相”。它不僅在“通義千問”APP中提供給普通用戶使用,更重要的是通過阿里云向企業(yè)客戶提供API服務(wù)。企業(yè)可以將其視頻生成能力集成到自己的電商、廣告、傳媒等業(yè)務(wù)流程中,體現(xiàn)了其強烈的產(chǎn)業(yè)服務(wù)屬性。字節(jié)跳動豆包字節(jié)跳動擁有抖音/TikTok和剪映這兩大視頻“主戰(zhàn)場”。其大模型生成的視頻內(nèi)容可以與剪映的編輯能力無縫銜接,并直接在抖音/TikTok上分發(fā),形成“AI生成-
>AI剪輯
-
>AI分發(fā)”的完美閉環(huán)。這是最貼近C端視頻消費場景的策略。通用大模型平臺的視頻生成功能除了垂直視頻生成平臺,越來越多的通用大模型已通過集成頂尖的視頻模型,獲得了非常強大的視頻生成能力。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第18頁明晰AI視頻的“出身”與“定位”?
厘清了AI的核心概念譜系,明確了AI視頻生成技術(shù)是當前狹義AI
(ANI)范疇下,基于學習的AI
中的一個分支。?
AI視頻功能上屬于生成式AI
(Generative
AI),其產(chǎn)出物是AIGC
的重要組成部分,代表了AI從“分析預(yù)測”到
“創(chuàng)造生成”的關(guān)鍵躍遷。這一認知是理解其技術(shù)價值與潛力的基石。掌握AI視頻的“功能”與“形態(tài)”?
深入理解AI視頻的內(nèi)核,明晰其本質(zhì)——算法與數(shù)據(jù)驅(qū)動的動態(tài)影像創(chuàng)造。?
AI視頻不僅僅是生成視頻,其有三大核心任務(wù)分類(視頻生成、視頻編輯、視頻理解),本報告?zhèn)戎谹I視頻生成。?
AI視頻生成有三種典型方式——文生視頻、圖生視頻、視頻到視頻。洞悉AI視頻的“歷程”與“格局”?
從GANs理論提出,到擴散模型的廣泛應(yīng)用,再到以Sora為代表的DiT模型出現(xiàn),
AI視頻技術(shù)已邁入"AI視頻元年"。?目前國內(nèi)外頭部科技公司紛紛布局,OpenAI的Sora、快手的可靈AI、
Runway的Gen-3等產(chǎn)品各具特色,
能力從
秒級短片擴展到分鐘級高清視頻,能力不斷迭代增強,逐步進入產(chǎn)品商業(yè)化時代視頻概劃01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第19頁
3.
AI視頻生成的燃料:訓(xùn)練數(shù)據(jù)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第20頁AI視頻技術(shù)原理與架構(gòu)PART
02
2.
從基礎(chǔ)生成架構(gòu)到商業(yè)模型,
'SS"
PEKINGUNVBRSITY1.
基礎(chǔ)技術(shù)范式與模型架構(gòu)——基礎(chǔ)范式
·模型架構(gòu)
·演進路徑
NV將現(xiàn)實世界編碼為“視覺詞元”將原始數(shù)據(jù)清洗、標準化
,并轉(zhuǎn)換為模型能理解的數(shù)學語言
,以便于訓(xùn)練1.清洗:去重、過濾低質(zhì)量內(nèi)容2.標準化:統(tǒng)一分辨率和幀率。3.數(shù)據(jù)編碼構(gòu)建模型的“素材庫”獲取原始數(shù)據(jù)
,包括文本、
圖像或視頻片段
,構(gòu)建規(guī)模龐大、
內(nèi)容多樣、反映真實物理規(guī)律的數(shù)據(jù)集。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第21頁根據(jù)指令開始“造夢”根據(jù)用戶輸入提示,模型循環(huán)多次,逐步去噪
,生成清晰視頻畫面。從模型訓(xùn)練到創(chuàng)意實現(xiàn),AI視頻的生成之路教會AI從“混沌
”創(chuàng)造“秩序
”使用深度學習算法訓(xùn)練出視頻生成模型帶文本描述的視頻帶文本描述的圖片無標簽視頻模型02數(shù)據(jù)預(yù)處理03模型訓(xùn)練04視頻生成數(shù)據(jù)收集模型生成階段模型使用階段01什么是“模型”?測或生成新內(nèi)容的能力。特點:1.
是“學習”而非“編程”出來的2.由算法和數(shù)據(jù)共同構(gòu)成,數(shù)據(jù)是模型的“原料”3.
功能是“輸入到輸出”的映射4.目標是預(yù)測和決策,生成模型屬于預(yù)測"模型"
是一個計算機程序或數(shù)字文件,
它是一個為了完成特定智能任務(wù)(如識別圖像、翻譯語言)而被創(chuàng)造出來的、
基于數(shù)據(jù)和算法的系統(tǒng)。
它通過在海量數(shù)據(jù)集上進行"訓(xùn)練",學會了識別特定模式,
并做出預(yù)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第22頁輸入(生成條件)提示詞、參考圖、參考視頻、參考文檔圖像生成模型如:Stable
Diffusion輸出(生成結(jié)果)文本、圖像、視頻、音頻等視頻生成模型如:Gen-3大型語言模型如:
GPT音樂生成模型如:Suno生成模型......理解視頻生成技術(shù),從基礎(chǔ)生成技術(shù)范式開始變分自編碼器(VAE)生成對抗網(wǎng)絡(luò)(GAN)自回歸模型
(Autoregressive)擴散模型(Diffusion)基本概念通過編碼器將數(shù)據(jù)映射到潛在空間,再由解碼器重構(gòu)數(shù)據(jù),同時優(yōu)化重構(gòu)誤差和潛在空間分布由生成器和判別器構(gòu)成的對抗學習框架,通過博弈訓(xùn)練生成逼真樣本按順序生成數(shù)據(jù),每次生成依賴于之前已生成的內(nèi)容通過逐步給數(shù)據(jù)添加噪聲然后學習反向去噪的過程來生成數(shù)
據(jù)優(yōu)點-有明確的潛在表示-訓(xùn)練相對穩(wěn)定-可用于特征學習-生成速度快-生成質(zhì)量高-生成速度快-適合圖像生成-生成過程可控-概率模型清晰-適合序列數(shù)據(jù)-訓(xùn)練穩(wěn)定-多樣性好-可控性強缺點-生成質(zhì)量較低-模糊問題-重構(gòu)與KL散度平衡困難-訓(xùn)練不穩(wěn)定-模式崩潰問題-難以評估-生成速度較慢-錯誤可能累積-長序列困難-采樣速度慢-計算資源消耗大-理論復(fù)雜典型模型β-VAE:更好的解耦表示VQ-VAE:向量量化VAENVAE:層級VAE架構(gòu)DCGAN:深度卷積GANStyleGAN:風格可控圖像生成CycleGAN:圖像風格轉(zhuǎn)換GPT系列:文本生成PixelCNN:
圖像生成WaveNet:音頻生成DDPM:基礎(chǔ)擴散模型Stable
Diffusion:潛空間擴散
DALL-E2/3:文本到圖像應(yīng)用場景圖像生成、特征學習、異常檢測、數(shù)據(jù)壓縮圖像生成、圖像增強、風格轉(zhuǎn)換、藝術(shù)創(chuàng)作自然語言生成、代碼補全、音樂創(chuàng)作、視頻預(yù)測圖像生成、超分辨率重建、圖
像編輯、
3D模型生成01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第23頁對比項目Sora:Sora2即夢AI:Seedance
1.0LumaAl:
Ray
3Runway:Gen-4Vidu:ViduQ2可靈AI:kLing2.5Pika
Labs:
Pika2.5PixVerse:
ModelV5Meta:
MovieGen海螺AI:
Hailuo2.3Google:Veo3.1通義萬相:WAN2.5技術(shù)范式演進過程中涌現(xiàn)的一系列代表性視頻生成模型。
騰訊混元:
HunyuanVideo視頻生成技術(shù)范式演進路徑01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第24頁?
在生成質(zhì)量上優(yōu)于GAN,逐步應(yīng)用于高質(zhì)量視頻生成。?
通過逐步去噪生成視頻幀,具有穩(wěn)定性強、畫質(zhì)高的特點。2016年前早期發(fā)展?
通過圖像拼接或簡單變換來模擬視頻效果。Ref:LiuY,Zhang
K,
LiY,
et
al.Sora:A
Review
on
Background,Technology,
Limitations,
and
Opportunities
of
Large
Vision
Models[J].
arXiv
preprint
arXiv:2402.17177,
2024..?
模型參數(shù)量小,較輕便,所以更加擅長對單個或多個對象類進行建模。2020-至今自回歸模型及擴散模型生成階段2016-2020年GAN/VAE生成階段擴散模型的原理性優(yōu)勢:穩(wěn)定性:相較于GAN難以收斂的對抗式訓(xùn)練,擴散模型以其目標明確、過程穩(wěn)定的去噪任務(wù),從根本上緩解了訓(xùn)練不穩(wěn)定和模式崩潰等核心痛點。多樣性:在生成結(jié)果上,它不僅在生成結(jié)果的多樣性上超越了GAN,還克服了自回歸模型難以維持全局一致性的缺陷,實現(xiàn)了保真度與多樣性的雙重領(lǐng)先。可控性:憑借無分類器引導(dǎo)(CFG)帶來了前所未有的文本可控性,從而在文生圖等應(yīng)用中取得突破性成功,一舉成為主流范式。為什么是Diffusion?—擴散模型的原理性優(yōu)勢原理:
通過連續(xù)向數(shù)據(jù)加隨機噪聲,直到得到一個純高斯噪聲數(shù)據(jù),然后再學習逆擴散的過程,經(jīng)過反向降噪推斷來生成圖像,通過系統(tǒng)地擾動數(shù)據(jù)中的分布,再恢復(fù)數(shù)據(jù)分布,逐步優(yōu)化過程。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第25頁擴散模型的兩條架構(gòu)路線U-Net?
基于SD逐幀生成?代表模型:
Pika、Gen-2、StableVideo
Difusion、
MagicVideo-V2等?模型容易訓(xùn)練,然而生成的視頻內(nèi)容一致性要差一些,長視頻生成存在困難。DiT:
Diffusion+Transformer?
基于時空Patches生成?
模型代表:Sora、清影、
Pixverse
V2、可靈?
訓(xùn)練成本較高,但更容易保證生成視頻的長度和一致性。。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第26頁融合了U-Net結(jié)構(gòu)和Transformer優(yōu)勢的混合架構(gòu)?
U_ViT:代表模型Vidu?
STUNet:代表模型Google
Lumiere混合當前主流Transformer—生成技術(shù)的“游戲改變者”?時間一致性:通過全局視野,模型能記住一個物體在視頻開頭是什么樣,確保它在結(jié)尾時不會“畫風突變”,解決了GAN模型的“閃爍”難題。?理解復(fù)雜的動態(tài)關(guān)系:
它能理解“A導(dǎo)致B”的邏輯。比如,
一個人跑過水坑,模型知道接下來應(yīng)該是“水花濺起”并且“地面變濕”,而不是毫無關(guān)聯(lián)的畫面。?可擴展性:對Transformer來說,長視頻、短視頻、寬屏、豎屏,都只是長短不一的“補丁(Patch)序列”。這使得Sora這類模型能靈活生成各種尺寸和時長的視頻。Transformer不是一種生成范式,而是一種革命性的“序列處理”架構(gòu),
其核心是自注意力機制,該機制賦予了AI視頻模型前所未有的“全局視野”和“上下文理解能力”
,
是實現(xiàn)高質(zhì)量、長時程、高一致性視頻生成的關(guān)鍵所在。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第27頁視頻切成時空“補丁”,像單詞一樣排列,送給Transformer處理Transformer架構(gòu)引入NLP領(lǐng)域的Transformer架構(gòu),利用其自注意力機制來理解和編碼視頻中的長距離時空依賴關(guān)系,顯著提升了模型對復(fù)雜內(nèi)容的理解能力。模型:
Phenaki、CogVideo、
NUWA、VideoGPT擴散模型的興起(U-Net+擴散模型)一種新的生成范式出現(xiàn)。通過對噪聲逐步去噪來生成內(nèi)容,其核心骨干網(wǎng)絡(luò)普遍采用U-Net架構(gòu)。在生成質(zhì)量、多樣性和穩(wěn)定性上全面超越GAN。模型:VDM、
Make-A-Video,
RunwayGen-2,StableVideo
Diffusion、AnimateDiffAI視頻生成技術(shù)架構(gòu)的演進路徑2014
2016+
2020+
2022+
2024+GAN
(生成能力)
→
Transformer(長時序理解)→
擴散模型
(更高質(zhì)量生成)→
Transformer
+擴散模型(融合架構(gòu))DiT路線(Transformer+擴散模型)革命性地使用Transformer替代了傳統(tǒng)擴散模型中的U-Net架構(gòu)。通過將視頻時空內(nèi)容切分為Patches(令牌),直接在去噪過程中利用Transformer的全局建模能力,實現(xiàn)了卓越的可擴展性和長視頻生成效果。代表產(chǎn)品:Sora、
KLing、
Hailuo
Al、
PixVerseV201AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第28頁GAN的探索期在AI視頻生成的早期,研究者主要嘗試將用于圖像生成的GAN引入視頻領(lǐng)域。GAN通過生成器和判別器的對抗來生成內(nèi)容。模型:VGAN、
MOCOGAN、
DVD-GANGAN的引入以生成器與判別器相互博弈的對抗訓(xùn)練方式生成高質(zhì)量圖像,為AI生成領(lǐng)域(包括
視頻)提供了開創(chuàng)性的架構(gòu)。模型:GAN自回歸Transformer的嘗試
3.
AI視頻生成的燃料:訓(xùn)練數(shù)據(jù)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第29頁AI視頻技術(shù)原理與架構(gòu)PART
02
——基本工作原理·模型結(jié)構(gòu)詳解·關(guān)鍵概念解析2.
從基礎(chǔ)生成架構(gòu)到商業(yè)模型,
'SS"
PEKINGUNVBRSITY1.
基礎(chǔ)技術(shù)范式與模型架構(gòu)
NV訓(xùn)練好的模型(一個學會了世界規(guī)律的“數(shù)字大腦”)理解視頻生成基本工作原理雖然各廠商的AI視頻生成大體遵循相同的宏觀流程——從海量數(shù)據(jù)準備,
到大規(guī)模模型訓(xùn)練,
再到最終的視頻生成——但在技術(shù)架構(gòu)、
數(shù)據(jù)質(zhì)量與訓(xùn)練細節(jié)等方面的差異,直接決定了模型在可生成視頻時長、物理真實感和最終視覺效果上的優(yōu)劣。視頻生成階段生成的視頻(按用戶指令生成的全新的視頻)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第30頁模型訓(xùn)練階段訓(xùn)練數(shù)據(jù)(海量視頻-文本對、圖像-文本對-視頻片段、動作、風格數(shù)據(jù))用戶指令數(shù)據(jù)
(用戶提示創(chuàng)作的指令或靈感:文本、圖像、視頻輸入模型訓(xùn)練過程生成高度壓縮、帶有噪聲且包含位置信息的潛在表示序列視頻生成模型詳解(推測的Sora為例)⑥如果用戶提示中包含圖像或視頻,首先由DALL·E3
將其轉(zhuǎn)化為精細的文字描述,然后所有輸入再交由ChatGPT⑦
處理后的輸入信息(圖像、01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第31頁⑧DiT從一個完全隨機的噪聲開
⑨始,經(jīng)過多次迭代逐步去噪,在條件信息的引導(dǎo)下生成連貫、高質(zhì)量的視頻序列。⑤潛在補丁的時空關(guān)系被序列化,并添加位置編碼,便于Transformer處理⑩VAE解碼器將低維潛在空間解碼回高分辨率的像素空間,生成最終的視頻幀。線性解碼器將扁平的序列恢復(fù)成
VAE編碼器輸出的Patches原始時空結(jié)構(gòu)。視頻、擴展后的文本描述)都會被整合并編碼成一個統(tǒng)一的條件潛在表示①Sora的訓(xùn)練數(shù)據(jù)②VAE編碼器將視頻③
壓縮后的視頻數(shù)據(jù)④清晰的潛在視覺補丁被轉(zhuǎn)化為帶有不同噪聲水平的視覺補丁擴展成更詳細、更具描述性的提示信息。被切分為Patches
,可看做是時空token是原始高分辨率視頻壓縮為低維、抽象的潛在表示通過將復(fù)雜的視頻生成問題從難以駕馭的像素空間轉(zhuǎn)移到更易于建模的潛空間,實現(xiàn)了計算效率和生成質(zhì)量的巨大突破,使其能夠更深刻地理解和模擬物理世界的動態(tài)規(guī)律。n
像素空間
(PixelSpace)是我們直接感知世界的原始數(shù)據(jù)域。它由圖像或視頻中每個像素的顏色值(如RGB)構(gòu)成。?高維度、冗余:包含大量冗余信息,計算成本極高。?
缺乏語義:像素級的微小變化通常不具備高級語義意義。例如,將兩張人臉圖像在像素空間中直接取平均,
得到的是一張模糊的重影,而不是一張具有兩者特征的新人臉。?
描述的是“表象”:直接描述了視覺的表層樣貌n
潛空間
(LatentSpace)是一個通過模型學習到的低維、抽象的表示空間。
它并非直接存儲像素信息,而是通過一個編碼器將原始數(shù)據(jù)壓縮,捕捉其背后更高層次的語義特征和結(jié)構(gòu)。?低維度、緊湊:維度遠低于像素空間,信息密度高,計算效率也高。?富含語義:空間中的點或向量代表了抽象概念。在潛空間中進行數(shù)學操作(如插值、加減)是有意義的。例如,在潛空間中,從“男人”的向量平滑地移動到“女人”的向量,
可以生成一系列自然過渡的面部圖像。?描述的是“精髓”:捕捉了數(shù)據(jù)的本質(zhì)結(jié)構(gòu)和核心概念。關(guān)鍵概念解析—像素空間與潛空間01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第32頁將巨大且冗余的“像素空間”轉(zhuǎn)換(編碼)為小巧且高效的“潛空間”
,這一從原始視頻中提取深層時空信息并以低維形式表示的過程,被稱為“時空壓縮”。視覺壓縮網(wǎng)絡(luò)一個包含編碼器(Encoder)和解碼器(Decoder)
的神經(jīng)網(wǎng)絡(luò)。(注:變分自編碼器(VAE)
是一種最常用的視覺壓縮模型,但Sora所采用的具體模型名稱并未公布。)編碼器:
負責“壓縮”。將高維度的、復(fù)雜的數(shù)據(jù)壓縮成一個低維度的、包含核心信息的“代碼”,這個代碼被稱為潛向量(Latent
Vector)。解碼器:
負責“解壓”。它能接收這個潛向量,并將其還原成原始的、高維度的數(shù)據(jù)?!皶r空壓縮”在Sora中的應(yīng)用過程數(shù)據(jù)預(yù)處理:
Sora在訓(xùn)練前,會用視覺壓縮網(wǎng)絡(luò)的編碼器將所有視頻的數(shù)據(jù)壓縮成潛向量序列。這樣做的好處是,
后續(xù)模型處理的是這些信息密度極高、維度又低的潛向量,而不是原始像素,
計算效率大大提升。生成最終畫面:
當Sora的核心模型生成了一系列潛向量后,
再由視覺壓縮網(wǎng)絡(luò)的解碼器將這些潛向量“翻譯”回我們能看到的像素畫面,最終拼接成完整的視頻。關(guān)鍵概念解析—時空壓縮01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第33頁時空補?。⊿pacetime
Patch)想象一下,把一張圖片切成很多個小方塊,就像拼圖一樣,每一個小方塊就是一個
Patch。對于視頻,
Sora更進一步,它不僅在空間上(寬和高)切塊,還在時間維度上切。所以它切出來的是一個“小方塊視頻”,即時空補丁。這就像從一疊膠片中,用一個立方體模具挖出一小塊。概念的重要性統(tǒng)一數(shù)據(jù)格式:無論是長視頻、短視頻、寬屏視頻、豎屏視頻,還是單張圖片(可以看作只有一幀的視頻),都可以被統(tǒng)一處理成一連串的Patches。這極大地增強了模型的泛化能力和擴展性。降低計算復(fù)雜性:直接處理原始像素數(shù)據(jù)非常耗費資源。將視頻轉(zhuǎn)化為一系列標準化的Patches,就可以發(fā)揮Transformer的優(yōu)勢進行高效地處理。這就像把一篇長文分解成單詞,更容易分析語法和語義。關(guān)鍵概念解析—時空補丁01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第34頁CLIP
(Contrastive
Language-Image
Pre-training-對比語言-圖像預(yù)訓(xùn)練模型)CLIP是OpenAI于2021年提出的一個能同時理解文本和圖像的模型。利用海量“圖片-文字描述”進行訓(xùn)練,學會了將內(nèi)容相似的圖片和文本映射到其內(nèi)部“表示空間”中非常接近的位置。例如:
“一只狗在玩球”的文本和一張狗玩球的圖片,在CLIP的“腦?!崩锸前ぴ谝黄鸬?。CLIP在Sora中的作用將用戶文本提示轉(zhuǎn)換為向量表示當用戶輸入一段文字描述,比如“一只穿著宇航服的貓在火星上行走”,
CLIP將這段文字轉(zhuǎn)換成一個數(shù)學向量(文本編碼)
。指導(dǎo)視頻生成過程,確保生成內(nèi)容與文本描述一致文本編碼作為條件被送入DiT后,在DiT的每一步去噪過程中,都不斷指導(dǎo)DiT要生成“一行走的只貓,穿著宇航服,背景是火星”的視頻,
確保生成的視頻內(nèi)容與用戶的文本描述高度一致。關(guān)鍵概念解析—CLIP01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第35頁
——
訓(xùn)練數(shù)據(jù)
·數(shù)據(jù)重要性
·主流數(shù)據(jù)集01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第36頁AI視頻技術(shù)原理與架構(gòu)PART
02
3.
AI視頻生成的燃料:訓(xùn)練數(shù)據(jù)2.
從基礎(chǔ)生成架構(gòu)到商業(yè)模型,
'SS"
PEKINGUNVBRSITY1.
基礎(chǔ)技術(shù)范式與模型架構(gòu)
NVAI視頻生成的燃料:訓(xùn)練數(shù)據(jù)型性能視頻生成模型的發(fā)展與高質(zhì)量訓(xùn)練數(shù)據(jù)集密切相關(guān)。隨著模型架構(gòu)(如DiT)逐漸趨同,數(shù)據(jù)質(zhì)量成為了決定模型生成效果上限的核心變量。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第37頁數(shù)據(jù)來源的多樣性不同場景/領(lǐng)域的數(shù)據(jù)具有不同的語言特征,對模型能力提升的側(cè)重點也不同。?
高質(zhì)量訓(xùn)練集能提高模型精度,減少訓(xùn)練時長?
有重復(fù)、噪聲、錯誤數(shù)據(jù)等低質(zhì)量語料會損害模型性能。影響泛化能力,影響生成質(zhì)量訓(xùn)練數(shù)據(jù)數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量文本-視頻對(Caption-level)數(shù)據(jù)集?
公開的、
專門用于文生視頻的大規(guī)模數(shù)據(jù)集?
視頻
+文本描述,用于文本到視頻生成?
例:WebVid-10M,
Panda-70M,
HD-VILA-100M類別級(Category-level)數(shù)據(jù)集?
經(jīng)典的、
用于視頻理解/行為識別的基礎(chǔ)數(shù)據(jù)集?
視頻按類別標注,用于無條件視頻生成?UCF-101,
Kinetics,
Something-Something巨頭公司使用的、不公開的私有數(shù)據(jù)集?OpenAI
(Sora)
的數(shù)據(jù)集?Google
(Imagen
Video,
Lumiere)
的數(shù)據(jù)集訓(xùn)練數(shù)據(jù)從哪里來?—主流數(shù)據(jù)集01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第38頁......以視頻腳本方式注釋的數(shù)據(jù)集示例030201掌握AI視頻的"誕生機制"與"完整流程"?AI視頻生成是一個數(shù)據(jù)驅(qū)動、模型學習的系統(tǒng)工程。?理解AI視頻完整生命周期:數(shù)據(jù)收集
→數(shù)據(jù)預(yù)處理
→模型訓(xùn)練
→視頻生成四個核心環(huán)節(jié)。?
明確"模型"本質(zhì)——由算法和數(shù)據(jù)構(gòu)成的學習系統(tǒng),
通過“輸入到輸出”
的映射,實現(xiàn)從現(xiàn)實數(shù)據(jù)到視覺內(nèi)容的智能轉(zhuǎn)換。洞悉AI視頻的"范式變革"與"架構(gòu)選擇"?理解擴散模型成為主流的三重優(yōu)勢:訓(xùn)練穩(wěn)定性、質(zhì)量多樣性、可控性,解決了GAN和自回歸模型的核心缺陷。?掌握當前兩大架構(gòu)路線:
U-Net架構(gòu)(易訓(xùn)練但一致性較差)
與DIT架構(gòu)(成本高但長視頻一致性強)。理解AI視頻的"關(guān)鍵組件"與"實現(xiàn)機制"?深入理解Transformer的核心價值:
通過自注意力機制實現(xiàn)全局視野,
是時間一致性、動態(tài)關(guān)系理解的關(guān)鍵。?掌握關(guān)鍵組件作用:
VAE負責數(shù)據(jù)壓縮與還原、時空補丁實現(xiàn)統(tǒng)一數(shù)據(jù)格式,降低計算復(fù)雜性、
CLIP充當文本-視覺"翻譯官"。?認識訓(xùn)練數(shù)據(jù)重要性:數(shù)據(jù)規(guī)模、質(zhì)量、多樣性直接決定模型泛化能力和生成質(zhì)量。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第39頁
3.
推薦關(guān)注的AI視頻廠商/模型01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第40頁AI視頻生成能力發(fā)展與突破PART
03
2.
AI視頻生成技術(shù)的能力評估'
sS'PBKNGUNVBRSITt1.
廠商技術(shù)能力進展與突破——核心挑戰(zhàn)
·能力現(xiàn)狀
·示例
NVAI視頻技術(shù)核心挑戰(zhàn)—要解決的問題物理真實性模擬確保生成內(nèi)容符合現(xiàn)實世界物理規(guī)律物體運動遵循慣性、重力等基本物理定律
復(fù)雜物理現(xiàn)象的真實模擬光影效果隨時間變化的自然過渡精細動作與交互合理性人物之間的自然交互(對話、肢體語言)人物與物體之間的合理互動(拿起物品、推門等)復(fù)雜動作序列的連貫表現(xiàn)長時間敘事與情節(jié)控制?保持長視頻情節(jié)的合理性和連貫性?確保角色行為遵循邏輯并符合設(shè)定的個性特征?在控制故事發(fā)展方向的同時保持自然流暢視覺質(zhì)量控制確保每一幀都具有高質(zhì)量細節(jié)和清晰度避免局部畸變或不自然的視覺偽影維持光照條件和色彩風格的一致性時空一致性維持保持整個視頻的連貫性確保人物特征在所有幀中保持一致維持背景元素位置和外觀的穩(wěn)定性隨視頻時長增加,一致性維持難度呈指數(shù)級增長場景轉(zhuǎn)換的自然過渡確保轉(zhuǎn)場效果自然流暢保持不同場景間的風格和氛圍一致性維持人物和關(guān)鍵元素在不同場景中的連續(xù)性01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第41頁
02
--
04
--06
--
01--
03--
05現(xiàn)狀1—進展迅速,AI視頻已具備專業(yè)級潛力與早期模型相比,當前主流AI視頻生成器在質(zhì)量、時長、可控性和多模態(tài)能力上均實現(xiàn)了質(zhì)的飛躍。主要進展詳細說明分辨率與時長的
雙重突破當前,
1080p分辨率已成為主流模型的標配,部分模型如Veo2、可靈2.1已支持4K畫質(zhì)。在視頻時長上,也從最
初的幾秒限制大幅延長。例如,快手的可靈(Kling)模型已支持生成長達2分鐘的1080p視頻,其他模型也在持續(xù)
提升時長上限。物理真實感與細
節(jié)控制新一代模型在理解和模擬物理世界上取得了顯著進步。主流模型都能夠理解重力、慣性等基本規(guī)律,生成如人物吃漢堡留下咬痕、液體流動等符合物理常識的場景。運動與鏡頭語言
的精準掌控“可控性”是過去一年國內(nèi)視頻大模型最顯著的突破。用戶不再需要通過反復(fù)“抽卡”來獲得滿意的效果。模型能更精準地理解文本指令,控制主體運動軌跡、鏡頭移動及景深變化。同時,國產(chǎn)模型在中文語義理解上具備天然優(yōu)勢,能更準確地響應(yīng)中文用戶的復(fù)雜指令。音畫同步的革命
性突破2025年5月,谷歌在I/O大會上發(fā)布Veo3模型,首次實現(xiàn)了原生音頻生成,將V2A技術(shù)集成到視頻生成過程中,真正實現(xiàn)了"有聲時代"的突破。用戶無需后期添加音頻,Veo3可以直接生成帶有環(huán)境音、音效甚至人物對話的完整
視頻。實時生成與交互
技術(shù)以字節(jié)跳動AAPT技術(shù)和初創(chuàng)公司Decart的MirageLSD模型為代表的實時視頻生成技術(shù)正在興起。這些技術(shù)能實現(xiàn)每秒24幀甚至更高的生成效率,延遲極低,支持用戶在生成過程中進行實時編輯和互動,徹底改變了傳統(tǒng)視頻“生成-等待-修改”的線性流程,為直播、游戲、實時通話等場景帶來了巨大想象空間。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第42頁主要挑戰(zhàn)詳細說明時序一致性難題在較長視頻中,人物、物體的外觀和特征保持一致仍是當前AI視頻生成的最大挑戰(zhàn)之一
。
VBench等基準測試顯示,隨著視頻時長增加,主體特征的飄移現(xiàn)象會逐漸加重。雖然具體的一致性數(shù)據(jù)因
模型和場景而異,但業(yè)界普遍認為30秒以上視頻的一致性維持仍需進一步突破。物理與邏輯的鴻溝雖然模型能模擬基本物理規(guī)律,但在處理復(fù)雜動態(tài)交互(如打碎物體、多人互動)和流體模擬時,效果依然不盡人意,甚至會出現(xiàn)異常失真畫面。此外,AI對復(fù)雜的多對象空間關(guān)系和敘事邏輯的理解仍然有限。細節(jié)與情感的缺失在細節(jié)刻畫上,AI生成的人物面部紋理、表情的細微變化與專業(yè)拍攝相比仍顯生硬,缺乏真實感和情感感染力。復(fù)雜的內(nèi)心活動和情感表達,依然是AI難以逾越的障礙。算力與成本的制約高質(zhì)量視頻的生成需要巨大的計算資源,這直接導(dǎo)致了高昂的訓(xùn)練和推理成本。清華大學等研究機構(gòu)正在探索通過優(yōu)化注意力機制等算法來降低算力消耗,以推動技術(shù)的普及。數(shù)據(jù)質(zhì)量重于數(shù)量高質(zhì)量、高相關(guān)性的數(shù)據(jù)比單純增加數(shù)據(jù)量更能提升特定場景的生成效果。如"食物
"類別數(shù)據(jù)量少
于
"人物
"
,但生成質(zhì)量卻普遍更高,說明數(shù)據(jù)策略優(yōu)化很關(guān)鍵?,F(xiàn)狀2—任重道遠,仍有很長的路要走01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第43頁盡管進步顯著,但AI視頻生成距離完美仍有很長的路要走,主要面臨以下挑戰(zhàn):物體真實性:咖啡杯、咖啡、桌面、窗、蒸汽比較真實,雨滴真實感欠佳,混入雜物,窗戶背影光斑真實感較差。光影真實感:咖啡杯上的高光、木桌的反射比較、雨滴的折射比較自然。材質(zhì)質(zhì)感:陶瓷的光滑、木紋的粗糙、液體的清澈感比較到位;動態(tài)流暢性:蒸汽的飄動和雨滴的滑落比較連貫,雨滴的滑落邏輯性欠佳,真實感欠佳鏡頭感:前景清晰,背景模糊,背景光斑體現(xiàn)明顯的焦外成像效果示例1:畫面真實感電影感特寫鏡頭,照片級真實感:
一
杯熱咖啡放在窗邊的深色木桌上。細膩的蒸汽緩緩升起。窗戶玻璃上,雨滴正在
滑落,窗外的城市霓虹燈光被模糊成柔美的光斑(焦外成像效果)。氛圍感十足的燈光,
4
K畫質(zhì),超高細節(jié)。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第44頁畫面真實感:AI生成無限接近真實世界影像的能力示例2:風格表現(xiàn)力賽博朋克,霓虹黑色電影風格:一杯咖啡放在金屬桌上,桌面
倒映著全息廣告。窗外是永恒的酸雨,背景是未來主義的摩天
大樓和閃爍的霓虹招牌。高對比度,冷色調(diào),充滿科技感。吉卜力工作室風格,日式動畫:一杯熱氣騰騰的咖啡放
在窗邊的木桌上。窗外是寧靜的雨天,遠處是溫馨的小鎮(zhèn)
街景。手繪動畫風格,色彩溫暖治愈,細節(jié)豐富。?核心元素捕捉到位,準確生成了霓虹燈、雨夜、高科技感等賽博朋克要素。?光影表現(xiàn)較好,霓虹燈在桌子的反射效果炫酷且一致。?成功營造出高對比度、冷峻、壓抑但又華麗的視覺氛圍01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第45頁?風格還原度高,體現(xiàn)吉卜力動畫的夸張或簡化規(guī)律,呈現(xiàn)較好的出色彩飽和度。?氛圍營造較好,畫面?zhèn)鬟_出“溫暖治愈”的感覺。風格表現(xiàn)力:不同的藝術(shù)風格的有效呈現(xiàn)能力示例3:場景和鏡頭運動能力提示詞:一臺手持攝像機追蹤著在沙漠中奔跑的機械公牛。它的動作攪動了跟隨在機械生物身后的塵土。電影般的實景拍攝。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第46頁RunwayGen-4精細化鏡頭控制RunwayGen-4場景運動示例4:音畫同步一
顆光滑的石頭從畫面上方掉入平靜的池塘,激起水
花和漣漪。整個過程用慢動作呈現(xiàn)。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第47頁水面激起水花的聲音,非常貼切Veo3生成的具有驚人特效的創(chuàng)新音樂視頻可靈文生視頻同時,根據(jù)畫面生成了背景音,周圍鳥鳴、石塊落在Veo
3通過單個文本提示生成的視頻和聲音示例5:運動場景動作與形態(tài)失真Veo
3在生成體操運動員表演時,出現(xiàn)了明顯的身體扭曲和不合理的肢體動作:?
旋轉(zhuǎn)過程中胳膊呈現(xiàn)不自然的角度?
身體從”正面”突然變成”背面”?
手臂做出超出人體極限的360度旋轉(zhuǎn)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第48頁即夢3.0生成的運動員障礙跑的視頻,人物動作處理不自然,缺乏真實感,尤其是踏步時,感覺處于“失去重力”的場景中。示例6:多主體首尾幀生圖效果不佳01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第49頁多主體,首尾幀生成,主體一致性不佳,邏輯變化銜接不上,場景整體邏輯崩潰一只柯基和一個橘貓,正在參加跑步比賽,它們在奮力奔跑,周圍人群歡呼吶喊。多主體,首幀生成單一場景,整體表達較好示例7:語義理解和提示詞遵從一
個穿著紅色
T
恤和藍色牛仔褲的男人,從左向右
走過屏幕,
T
恤上有一個白色的星星圖案。一個男人走進廚房
,
從冰箱里拿出一個雞蛋和一瓶牛奶
。
他把雞蛋打在碗里,然后將牛奶倒進
去。在
此期間,他
身上的圍裙始終系著,廚房窗外的天
色從未
改變。01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第50頁除了未按要求“從左向右走過屏幕”
,其他都遵從提示詞更復(fù)雜互動中,語義一致性很難保持示例8:處理多對象和空間關(guān)系男人坐在沙發(fā)上,拿起
一
個西紅柿送至嘴邊,輕輕
咬下
一
口,鏡頭輕微拉近,聚焦在吃西紅柿的動作
上一只柯基犬在熱帶毛伊島拍攝自己的Vlog01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第51頁這個提示詞的難點在于,如何表現(xiàn)柯基"拍攝自己”。Sora的演示雖然表現(xiàn)了這個細節(jié),但自拍桿看起來像長在柯基身體上一樣怪異。即夢3.0:整體畫面較好,但鏡頭拉近后,明顯看出嘴部吃西紅柿處理不佳,不符合真實物理規(guī)律1.
與一年前相比,當前主流AI視頻模型在語義理解和可控性上顯著增強,
用戶需要反復(fù)“抽卡”來獲得滿意結(jié)果的情況已大幅改善。2.2024年的技術(shù)快速發(fā)展,
在2025年得以延續(xù),
我們看到了廠商在核心技術(shù)指標上的突破性進展,
例如快手的可靈模
型支持生成長達2分鐘的視頻,
谷歌的Veo
3則集成了V2A技術(shù),標志著AI視頻進入“有聲時代”。3.當前市場涌現(xiàn)出眾多模型,
它們在不同維度上展現(xiàn)出各自的優(yōu)勢和短板。例如,
有的模型在藝術(shù)風格渲染上表現(xiàn)驚艷,有的則精于精準的鏡頭運動控制。這種“百花齊放”的局面表明,不同模型在技術(shù)路徑和能力側(cè)重上存在顯著差異,用戶的主觀“體感”也因此千差萬別。4.
盡管進步顯著,但AI視頻生成距離完美仍有很長的路要走。時序一致性依然是當前最大的挑戰(zhàn),
在較長視頻中,
主體特征“漂移”和邏輯不連貫的問題依然存在。
同時,在處理復(fù)雜的物理交互、精細的面部情感以及多主體的空間關(guān)系時,模型仍會暴露出“鬼畜”失真、情感缺失、邏輯錯亂等問題。模型能力評價維度多、不同模型又有各自優(yōu)劣勢,
那么如何科學、客觀地評價一個AI生成視頻的“好”與“壞”?單純依賴
主觀感受和個例展示,顯然無法為技術(shù)發(fā)展提供清晰的指引。因此,建立一個統(tǒng)一、全面、可量化的測試基準和評估方
法,變得至關(guān)重要?!窤I視頻能力現(xiàn)狀」小節(jié)01AI視頻概覽02技術(shù)原理與架構(gòu)03能力發(fā)展與突破04行業(yè)應(yīng)用案例與價值05工具選擇推薦第52頁PEKING
UNIVERSITYAI視頻生成能力發(fā)展與突破1.
廠商技術(shù)能力進展與突破2.
AI視頻生成技術(shù)的能力評估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 抖音新店合同協(xié)議
- 華潤新能源賀州富川南區(qū)升壓站~富川古城儲能電站220kV線路(含對側(cè)間隔)工程環(huán)境影響評價報告表
- 防竄貨合同協(xié)議書
- 公司搬家合同協(xié)議
- 醫(yī)療排風合同范本
- 內(nèi)衣代理合同范本
- 通信鐵塔合同范本
- 包年打工協(xié)議合同
- 承包紙箱合同范本
- 轉(zhuǎn)賣貨車合同范本
- 心衰患者的康復(fù)護理
- 2026年內(nèi)科護理工作計劃范文4篇
- 2025超重和肥胖管理指南課件
- 武警拓展訓(xùn)練方案
- 五年級下冊《勞動技術(shù)》15、番茄炒雞蛋課件
- 2024統(tǒng)編版七年級語文上冊第四單元測試卷(原卷版+答案版)
- 2025年合肥興泰金融控股(集團)有限公司招聘23人筆試參考題庫附答案
- 肺癌科普宣傳知識課件
- 2025新疆和田和康縣、和安縣面向社會招聘事業(yè)單位工作人員108人筆試考試參考試題及答案解析
- (2025年)河源市委社會工作部遴選公務(wù)員考試試題附答案
- 婦產(chǎn)科考試試題及答案
評論
0/150
提交評論