AI視頻生成行業(yè)從早期試驗到創(chuàng)新

上傳人：b*** IP屬地：廣西上傳時間：2026-01-05 格式：DOCX 頁數(shù)：35 大?。?.48MB 積分：22 舉報 版權(quán)申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

目錄互聯(lián)網(wǎng)行業(yè) 1AI視頻生成行業(yè)概覽 3市場規(guī)模 3技術(shù)演進趨勢 5主要AI互聯(lián)網(wǎng)龍頭公司資本支出 6競爭格局 7主要視頻生成模型對比 8商業(yè)化 9中國大模型具有顯著的成本優(yōu)勢 10大型科技平臺廣告收入競爭 11行業(yè)趨勢展望及我們的觀點 12風險與挑戰(zhàn) 13投資推薦 13美國旗艦公司AI視頻生成產(chǎn)品 14GoogleVeo3：原生音頻顯著提高視頻真實感 14Sora2：標志性得開啟AI內(nèi)容社區(qū)化時代 15Midjourney：實現(xiàn)快速迭代的創(chuàng)作環(huán)境 16AmazonNovaReel：降低廣告制作門檻，提高顧客購買欲望 17MetaMovieGen：結(jié)合四模型為一體的領(lǐng)先工具集合 18Runway：從早期短視頻生成到長視頻敘事的先行者 19Pika：從社交化創(chuàng)作與視頻編輯融合切入的輕量級AI視頻平臺 20商業(yè)化下游：生成式AI工作流在定制化商業(yè)內(nèi)容創(chuàng)作中的應用 21中國旗艦公司AI視頻生成產(chǎn)品 22阿里巴巴（BABAUS）：從底層技術(shù)到商業(yè)化應用的全棧式布局 22騰訊（700HK）：AI視頻賦能游戲與廣告生態(tài)協(xié)同 24百度（BIDUUS）：非擴散架構(gòu)的視頻生成路線 25美團（3690HK）：實現(xiàn)視頻續(xù)寫完整任務閉環(huán) 26快手（1024HK）：可靈AI2.5Turbo登頂全球排行榜 27美圖（1357HK）：垂直領(lǐng)域深耕者 29嗶哩嗶哩（BILIUS）：聚焦動漫+中長視頻+UGC內(nèi)容社區(qū)差異化競爭 30其他未上市中國公司 31字節(jié)跳動：平臺應用+模型基礎(chǔ)設(shè)施的全棧布局 31愛詩科技：PixVerse憑借出色特效出圈 32Minimax：海螺AI升級電影級高質(zhì)量視頻生成效果 33清華Vidu：中國學術(shù)研究模型向多模態(tài)的演進 34互聯(lián)網(wǎng)行業(yè)估值對比 35分析師聲明 36監(jiān)管披露 36免責條款 36AI視頻生成行業(yè)概覽市場規(guī)?？捎|達市場廣闊：GrandViewHorizon,2025AI8億美元。在我們的基本情形假AI400B360億美元（90%占比）C40億美元（%占比：B端：BusinessResearchInsights20253,000億美元，并有3%的年復合增速增長，包含動漫、商業(yè)化視頻廣告、電影、音樂影片、電視節(jié)目、社媒視頻等。而據(jù)市場調(diào)研，制約視頻制作市場增長的最主要限制是制作成本高昂，47%的影視制作工作室制作成本高于預算，39%的工作室面臨制作成本影響利潤的問題。而對比傳統(tǒng)的視頻內(nèi)容制作成本，AI視頻生成具有顯著的成本優(yōu)勢。據(jù)量子位智庫，AI視頻每分鐘生成成本約300美元，遠低于頂級動畫電影/好萊塢電影的200萬美元。當前，AI在影片素材生成方面的滲透率較高，而隨著模型能力和技術(shù)升級，AI視頻生成將應用于更復雜更長的視頻內(nèi)容，假設(shè)到2030年AI在制作環(huán)節(jié)的滲透率達到10%，則AI視頻生成行業(yè)B端市場規(guī)模有望達到360億美元。C端：Datareportal，20255466%2030年市場規(guī)模的預測假設(shè)包括：1）20251.5%20304%（B站當前內(nèi)容創(chuàng)作者滲透率為%，ube為%，則全球I視頻內(nèi)容創(chuàng)作者規(guī)模有望從25年的,0萬達到.8億；2）20251%20306%；3）ARPPU2025203020美元月（對標hT?；谶@些假設(shè)，我們預計C端訂閱市場規(guī)模有望到20年達到0億美元。圖圖1：AI視頻生成行業(yè)可觸達市場規(guī)模測算：基礎(chǔ)情形下，我們預計AI視頻生成可觸達市場規(guī)模為400億美元，包含B端規(guī)模360億美元（90%占比）和C端規(guī)模40億美元（10%占比）AI視頻生成可觸達市場預測-2030年十億美元悲觀情形基礎(chǔ)情形樂觀情形基礎(chǔ)情形假設(shè)依據(jù)全球影視制作行業(yè)市場規(guī)模3383593912025-30年復合增速2%3%5%AI滲透率5%10%20%假設(shè)10%的產(chǎn)品由AI完成B端可觸達市場（十億美元）(a)173678全球社交媒體用戶數(shù)（十億）6.67.07.22025-30年復合增速4%5%6%內(nèi)容創(chuàng)作者滲透率3.0%4.0%5.0%4%YouTube當前為AI視頻內(nèi)容創(chuàng)作者人數(shù)（十億）0.200.280.363%，B站為4%訂閱率5.0%6.0%7.0%假設(shè)6%的付費率月度付費（美元）15.020.025.0假設(shè)月費為20美元，類比ChatGPT基礎(chǔ)計劃月費C端可觸達市場（十億美元）(b)1.84.07.685.885.839.918.7AI視頻生成總可觸達市場（十億美元）(a+b)2025-30年復合增速87%118%154%randViewHorizon、公司數(shù)香港）預測子位智香港）子位智香港）圖4圖4：B端市場規(guī)模：假設(shè)AI視頻生成滲透率到2030年達到10%，則對應約360億美元的市場規(guī)模圖5：預測AI視頻生成市場規(guī)模到2030年達到400億美元，且B端貢獻大部分規(guī)模圖3：隨著模型能力和技術(shù)升級，圖3：隨著模型能力和技術(shù)升級，AI視頻生成將應用于更復雜更長的視頻內(nèi)容，也可能形成新的內(nèi)容形式和消費平臺圖2：對比傳統(tǒng)的視頻內(nèi)容制作成本，AI視頻生成具有顯著的成本優(yōu)勢，隨著技術(shù)提升，將能提升在內(nèi)容制作環(huán)節(jié)的滲透率34835934835932633729730731635.90.3 16.827.83503002502001501000港）

FilmandVideoProductionMarket(USDbn)GlobalAIvideogenerationtoBmarket(USDbn)atareportal、GrandViewHorizon 香

USDbn402025-30E402025-30ECAGR:118%311980.440.84035302520151050港）

GlobalAIvideogenerationtoBmarket(USDbn)GlobalAIvideogenerationtoCmarket(USDbn)atareportal、GrandViewHorizon 香技術(shù)演進趨勢當前最前沿的模型（如Sora2）正推動技術(shù)從“輔助人類創(chuàng)作”向“自主生成高質(zhì)量內(nèi)容”邁進：生成時長增加：Runway4秒左右的模糊視頻。2024年初，OpenAI的Sora模型將602025年，主流模型可實現(xiàn)無限時長的視頻續(xù)寫，助力長視頻內(nèi)容創(chuàng)作。物理一致性提升：AI理解并模擬物理規(guī)律是生成逼真視頻的核心挑戰(zhàn)。初期模型常出現(xiàn)物體穿透、違反重力a2通過引入物理引擎模擬模塊，實現(xiàn)體操空翻、流體碰撞等復雜動態(tài)的精準生成，肢體運動準確率從68%提升至91%。內(nèi)容連貫性提升：Sora2支持單條指令生成“遠景--特寫”三鏡頭序列，通過鏡頭語言規(guī)則庫（如“對話場景用正反打”）實現(xiàn)切換自然度評分達9.2/10。RunwayGen-4采用“特征向量錨定+動態(tài)更新”機制，在10分鐘視頻中保持角色面部特征余弦相似度＞0.92，解決了傳統(tǒng)模型“5分鐘后角色變臉”的痛點。B站AniSoraV3在動漫生成中，通過構(gòu)建“角色關(guān)系-場景關(guān)聯(lián)”知識圖譜，使“教室-操場-家庭”跨場景轉(zhuǎn)換的劇情斷裂率從27%降至8%。多模態(tài)增強，音畫同步生成：在輸入和輸出兩個方面，多模態(tài)視頻生成不斷擴展，從最初的文生視頻拓展到圖生視頻；從最初的僅生成視頻到音畫同步生成，并能夠?qū)崿F(xiàn)多模態(tài)邊際，例如輸入音頻修改視頻生成結(jié)果等。成本效率提升：隨著開源模型生態(tài)的提升帶來的模型訓練成本降低以及技術(shù)提升帶來的推理算力成本下降，AIWan2.2MoE50%計算消耗，快手可靈通過算法優(yōu)化實現(xiàn)推理成本毛利打平。主要AI互聯(lián)網(wǎng)龍頭公司資本支出美國公司資本支出密度更高：根據(jù)公司指引及市場一致預期，五大AI互聯(lián)網(wǎng)龍頭公司（Meta、微軟、亞馬遜、谷歌、甲骨文）20242,500億美元，20254,00020265,000億美元。2025810億美元，顯著超過中國兩大龍頭（阿里巴巴+騰訊）130億美元。從資本支出密度（資本支出占收比）來看，美國五大巨頭2025年平均資本支出密度達到24%，并預計在2026年提升到27%，而中國兩大龍頭該比例預計在10-13%之間。造成差異的原因分析：芯片供給限制推動“規(guī)模優(yōu)先”轉(zhuǎn)向“效率優(yōu)先”：面對美國的芯片出口限制，中國大模型廠商傾向于提升現(xiàn)有資源的利用率，優(yōu)化軟件提升模型表現(xiàn)能力，具有成本優(yōu)勢，而非堆砌算力，同時根據(jù)需求進行動態(tài)調(diào)整。中國市場成熟度及付費意愿較低：從商業(yè)化角度來看，中國多數(shù)行業(yè)數(shù)字化基礎(chǔ)薄弱，企業(yè)服務場景成熟度低，2024SaaS4%。美國市場人力成本高昂，企業(yè)AIC端，中國用戶軟件付費習慣仍處于培養(yǎng)期，付費率低于美國。商業(yè)化前景的結(jié)AI公司在資本支出方面的投入更加謹慎。圖6：美國五大圖6：美國五大AI互聯(lián)網(wǎng)龍頭公司平均資本支出與中國頭部兩巨頭平均資本支出對比圖7：美國五大AI互聯(lián)網(wǎng)龍頭公司資本支出密度（占收入比重）與中國頭部兩巨頭對比USD102811028151187131000

US-5averageCAPEX CN-2averageCAPEX

CAPEX/Revenue27%24%27%24%18%13%10%6%25%20%15%10%5%0%

US-5 CN-2香港）預測；US-5包括：Meta、微軟、亞馬遜、谷歌、甲骨文；CN-2包括：阿里巴巴及騰訊

香港）預測；US-5包括：Meta、微軟、亞馬遜、谷歌、甲骨文；CN-2包括：阿里巴巴及騰訊競爭格局據(jù)rtfcaAayss（截至25年1月0日，快手的lg5o、谷歌的3以及uma的y3躋身文生視Kling2.5PixVerseV5位列圖生視頻模型前三。在文生視頻和圖生視頻的全球前5排名中，中國模型占比分別達%（/）和%（/25圖8：文生視頻模型排行榜（截至2025年11月10日）圖9：圖生視頻模型排行榜（截至2025年11月10日）rtificialAnalysis 香港） rtificialAnalysis 香港）主要視頻生成模型對比2025年11主要視頻生成模型對比2025年11月18日（星期二Veo3.1Sora2MidjourneyRunwayKling2.5 Seedance1.0ProWan2.5海螺AI公司谷歌OpenAiMidjourneyRunway快手字節(jié)阿里巴巴Minimax最新模型發(fā)布日期2510月25年9月25年4月25年3月25年9月 25年6月25年9月25年6月模型架構(gòu)3D擴散Transformer專有擴散模型穩(wěn)定擴散擴散-Transformer 擴散-Transformer擴散-Transformer-模型輸入模態(tài)文本，圖像文本，圖像文本，圖像文本，圖像，視頻文本，像文本，像文本，圖像，語音文本，圖像多鏡頭/場景切換-?-?? ???一致性控制????? ???聲音和口型同步??-?? -?-虛擬人/角色支持-???- -部分支持-VertexAI,集成和插件GeminiSoraApp,未來推出API網(wǎng)頁端+API網(wǎng)頁端+API網(wǎng)頁端+APP+API 火山擎API網(wǎng)頁端+APP+API網(wǎng)頁端+APICanva年度經(jīng)常性收入 --5億美元（2025E）2.65（2025E）1.5億元 -（2025E）-1億美元（2025E）每秒生成價格 0.1~0.150.38美元-0.12美元0.04~0.18元 0.10美元0.04~0.06美元0.08美元融資/估值 - 5,000億美元(2025)

105億+美元（2025）

50億+美元（2025）

- - - 40億+美元（2025）差異化特點

原生視頻+音頻生成，強運動真實感，深度整合于谷歌生態(tài)

擬人/cameoOpenAI模型生態(tài)

美學質(zhì)量與風格控制行業(yè)領(lǐng)先，龐大創(chuàng)意社區(qū)

角色與物體跨鏡頭一致性、電影級鏡頭控制

高保真運動與鏡頭控制，成本極具優(yōu)勢

語義與情緒控制的多鏡頭視頻生成模型，強調(diào)敘事節(jié)奏與跨場景一致性

唯一支持語音轉(zhuǎn)視頻的領(lǐng)先模型，將語音語調(diào)與情緒映射到視覺運動與場景節(jié)奏

電影級真實感，精準物理與光照模擬，自然鏡頭運動與物體交互、Getlaka 香港）商業(yè)化當前主流AI視頻生成平臺的商業(yè)化模式包含為“C端訂閱＋B端API“的雙軌結(jié)構(gòu)，并在訂閱層級、定價區(qū)間與客戶分布上有諸多共同點。C端：各平臺普遍采用”免費試用＋多檔訂閱＋積分“的收費模式，按視頻數(shù)量、分辨率、時長以及生成速度定價。其價格帶主要集中在8美元/月—30美元/月的區(qū)間，同時提供專業(yè)版向上延伸至企業(yè)訂閱。積分或額度制已成為行業(yè)標準，用戶消耗積分生成視頻、同時可額外購買積分包以增加額度。不同模型間的功能差異聚焦在并行任務數(shù)、輸出分辨率與無水印商務授權(quán)。商業(yè)化重心轉(zhuǎn)向API調(diào)用與aS轉(zhuǎn)化為時長計費（720p0.18美元/5秒，1080p0.62美元~0.74美元5秒，收入具備高毛利、低波動、復購率高等特征。從收入表現(xiàn)看，Runway24ARR8,400萬美元，252.65Midjourney105100多人。Pika緊隨其后，24年ARR800萬美元，以輕量訂閱和社交傳播見長；在中國，MiniMax20257340億美元里程碑；Vidu與字節(jié)系則處于快速放量階段，前者走低價高頻訂閱＋APIB端滲透力最強。整體來看，AI視頻生成的商業(yè)化正在經(jīng)歷“單一工具訂閱”向“平臺化API服務”的轉(zhuǎn)變階段。C端擴張帶來規(guī)模與數(shù)據(jù)積累，B端服務貢獻利潤與長期合同，兩者相互支撐。圖10：主要AI創(chuàng)業(yè)公司年度收入ARR及近期估值最新報告公司領(lǐng)域國

(億美元)

收入截至日期最新估(億美元)

估值截至日期市銷(倍)

融資活動OpenAI在完成66億美元股份出OpenAI通用美國127.02025年12月5,0002025年11月39x售后估值達到5000億美元，成為全球最有價值的初創(chuàng)企業(yè)，超越SpaceX。Anthropic通用美國50.02025年7月1,8302025年9月37xAnthropic完成130億美元F輪融資，投后估值達1830億美元Cursor編程美國10.02025年10月2932025年10月29xCursor宣布完成23億美元融資輪，公司估值達293億美元Perplexity大語言模型美國2.02025年9月2002025年9月100x據(jù)報道，Perplexity以200億美元估值籌集2億美元Midjourney已發(fā)展成為估值105Midjourney視頻美國5.02025年2月1052025年9月21x億美元的帝國，員工僅100多人。Abridge醫(yī)療美國1.22025年3月532025年6月45xAbridge于2025年6月完成3億美元E輪融資，估值達53億美元Runway視頻美國2.72025年預計502025年9月19xRunway正尋求5億美元融資，最新估值為50億美元MiniMax于2025年7月完成3億Minimax視頻中國1.02025年11月402025年7月40x美元融資，估值達40億美元里程碑PikaLabs在2024年6月完成Pika視頻美國0.082024年12月4.72024年6月59x8000萬美元B輪融資后，估值達4.7億美元heinformation、、Reuters 香）中國大模型具有顯著的成本優(yōu)勢從Runware統(tǒng)計的每秒視頻生成價格來看，生成1080P分辨率的視頻每秒價格為0.04~0.38美元，而生成720P分辨率的視頻每秒價格為0.03~0.5美元。對比美國主流大模型，中國大模型具有顯著的成本優(yōu)勢。圖旗艦AI視頻生成模型每秒價格-1080P分辨率 AIVideoGenerationPrice-1080PUSD/sec$0.38$0.15$0.38$0.15$0.10 $0.10$0.08$0.07$0.06$0.06$0.06$0.04$0.04$0.35$0.30$0.20$0.15$0.10$0.05$0.00

Sora2ProKling2.1

Kling2.0

Google

Seedance

MiniMax

Kling2.5

Kling2.1

Kling1.6

PixVerse

Vidu

Kling2.1Master

Master

Veo3FastVeo3Fast+Audio

Hailuo

TurboPro

Pro

v3.5/v4/v4.5/v5

I2V

Standardunware 香港）圖12：旗艦AI視頻生成模型每秒價格-720P分辨率 AIVideoGenerationPrice-720PUSD/sec$0.50$0.40$0.50$0.40$0.30$0.20$0.10$0.06$0.04 $0.03 $0.03 $0.03$0.50$0.40$0.30$0.20$0.10$0.00

GoogleVeo2GoogleVeo3+Audiounware

Sora2ProGoogleVeo3 Sora2 MiniMax01香港）

Kling1.6Standard

Vidu2.0 SeedanceLite

Vidu2.0大型科技平臺廣告收入競爭廣告仍然是內(nèi)容創(chuàng)作最重要的變現(xiàn)途徑。全球線上廣告市場在2024年已接近8,000億美元，預計未來幾年增速約為7-8%2025540億美元，占到全球線上廣告市6%,10%的復合年增長率，持續(xù)提升市場份額。新興平臺如SaAPP正在利用AI生成內(nèi)容。盡管部分I生成內(nèi)容倍批評為“AIOP（即低質(zhì)量，大規(guī)模生成的內(nèi)容，但我們認為更準確的描述應是質(zhì)量參差不齊，其中也包含高質(zhì)量內(nèi)容。更重要的是，這些平臺在獲得用戶參與度；從內(nèi)容供給端來看，AIPricing估計，AI生成視頻已占平臺視頻總量的52%?？傮w而言，SoraAPP的出現(xiàn)是一個里程碑，進一步印證了廣告營收競爭的加劇。平臺通過AI工具獲取用戶流量，這一生成的視頻內(nèi)容48%AI生成的視頻內(nèi)容,52%究，AI50%生成的視頻內(nèi)容48%AI生成的視頻內(nèi)容,52%圖13:AI圖13:AI生成視頻內(nèi)容目前已占到TikTok平臺視頻內(nèi)容總量的約52%圖14:AI優(yōu)化過的視頻有助于提升互動率echJuryPricing 香港） ebracat,招證（香港）行業(yè)趨勢展望及我們的觀點AI視頻生成市場廣闊，需求強勁，是更容易商業(yè)化的AIGC賽道201773%提升202582%。AI視頻生成可賦能的行業(yè)范圍極為廣闊，包括但不限于：影視娛樂、廣告營銷、游戲、電AI文本生成（ChatGPT）AI繪畫相比，AI視頻生成的商業(yè)化路徑更直接—企業(yè)可以按照視頻生成時長、分辨率、功能等分級收費。客戶為明確的價值（節(jié)省的時間和金錢）付費，付費意愿強烈。AI生成同樣賦予商家視頻創(chuàng)作的能力，例如在淘寶、亞馬遜和Meta等平臺上，商家可以使用平臺的AI工具，根據(jù)產(chǎn)品圖片和文本提示生成短視頻，以實現(xiàn)預期效果，從而節(jié)省成本并提升效率。AI技術(shù)顯著降低內(nèi)容制作成本，將逐步提升在內(nèi)容制作環(huán)節(jié)的滲透率AI視頻工具將簡單短視頻的制作成本從每條5,000–10,000美元降低到幾百美元，大幅削減了人工、時間和成Netflix（鏈接）中使用AI來增強一場復雜的建筑坍塌場景，展示了AI視頻技術(shù)明確的商業(yè)可行性。相比于AI文本生成模型的開源和同質(zhì)化競爭，高質(zhì)量視頻生成在算力、算法和數(shù)據(jù)上有更高的壁壘生成式AI視頻模型的訓練需要顯著更多的GPU運算時間和硬件成本（視頻數(shù)據(jù)相比于文本數(shù)據(jù)。因此，這是一項資本密集度更高的工作，需要雄厚的資金實力，為OpenAI和GoogleDeepMind等領(lǐng)先者構(gòu)筑了深厚的護城河。來自時間一致性、物理因素（如光照、物體碰撞）以及多模態(tài)整合（聲音與圖像）的復雜性，需要先進且嚴格保密的算法，以及大量獲得授權(quán)的視頻數(shù)據(jù)集，以避免版權(quán)問題。相比基于文本的大型語言模型，這些更高的資本和技術(shù)門檻限制了競爭者的進入。差異化產(chǎn)品/生態(tài)能力是決定市場份額的關(guān)鍵因素鑒于市場競爭和客戶需求，我們發(fā)現(xiàn)視頻生成式AI市場持續(xù)向更多垂直領(lǐng)域擴展。媒體頭條可能更多聚焦于領(lǐng)先的AI企業(yè)，如Google的Veo3和OpenAI的Sora2，但第二梯隊的企業(yè)（并未落后太多）正在為特定應用場景提供功能或適配能力，例如PikaLabs的實時編輯功能，或StabilityAI提供的嵌入安全機制的產(chǎn)品可視化工具，專為電商和游戲等垂直領(lǐng)域定制。強大的生態(tài)系統(tǒng)將視頻生成式AI與Unity和Roblox等平臺集成，以推動用戶增長和留存。Runway也擁有強大的插件生態(tài)系統(tǒng)，簡化了專業(yè)視頻編輯和原型制作流程，使其在創(chuàng)意類AI視頻工具領(lǐng)域擁有顯著的市場份額領(lǐng)先地位。建議關(guān)注：模型的持續(xù)迭代和新模型推出：我們正在看到生成式AI模型從僅限于文本、圖像、視頻，擴展到更復雜的3D世界。例如Google的Genie3，這是一種AI世界模型，可以根據(jù)文本提示生成可交互、動態(tài)的3D環(huán)境，用戶可以實時探索。目前其他生成式AI模型可以實現(xiàn)Genie3所做部分功能，但我們可以預期，像QWEN和OpenAI等競爭者也會開發(fā)他們版本的Genie3。3D世界能力的應用可以不僅限于視頻游戲，還可以擴展到建筑、工業(yè)設(shè)計、機器人/自動化系統(tǒng)、教育/培訓等領(lǐng)域，在許多高附加值的應用中具有潛在用途。算力成本：在性價比方面，中國廠商以高質(zhì)量和較低的算力成本處于領(lǐng)先地位，盡管我們注意到所有廠商仍在不斷尋找提升模型效率的方法，例如，Sora2的效率是原始版本Sora的5到10倍，同時硬件算力成本也在下降，在2024年生成一段1分鐘的1080p視頻可能需要超過100美元，現(xiàn)在只需10至20美元。鑒于競爭加劇，我們可以合理預期視頻質(zhì)量將持續(xù)提升，而每分鐘視頻的生成成本將持續(xù)下降多模態(tài)整合與生態(tài)系統(tǒng)擴展：視頻生成式AI正在與音頻、3D、AR/VR以及實時交互功能融合發(fā)展，Sora2的語音合成功能就是一個例子。這影響并提高了影視、游戲和內(nèi)容產(chǎn)業(yè)水平。最近的一個例子是，Google剛剛推出了Fow，它由更新后的ov1提供支持（鏈接，允許用戶通過多張參考圖像生成視頻，將畫面銜接為無縫過渡片段，擴展視頻內(nèi)容，插入真實或奇幻元素，并自動整合光影效果，還可以移除不需要的物體。Flow還可以通過生成音頻來增強內(nèi)容。企業(yè)發(fā)展趨勢：利用用戶數(shù)據(jù)生成高度個性化的視頻，可以顯著提升在營銷、教育和電商領(lǐng)域的用戶參與度。用戶留存、收入模式、成本節(jié)約、效率提升等企業(yè)指標可用于衡量市場發(fā)展和收入潛力水平，盡管我們注意到視頻生成式AI在企業(yè)中的發(fā)展仍處于早期階段，目前在營銷、電商和影視領(lǐng)域的應用速度最快，但很可能會擴展到其他行業(yè)，例如基于提示詞生成的3DAI世界的應用場景。風險與挑戰(zhàn)技術(shù)難度高：相比圖像生成，視頻需增加時間連貫性，確保物體運動合理、畫面流暢不閃爍，技術(shù)難度大，算力需求高，數(shù)據(jù)質(zhì)量要求苛刻。競爭風險：開源模型（如Kling、Veo）可能導致同質(zhì)化，廠商需通過場景定制（如影視級生成）和生態(tài)綁定（如抖音-剪映集成）構(gòu)建壁壘。版權(quán)歸屬：Sora2的解決方式：版權(quán)所有者IP角色生成可以選擇“授權(quán)”或“不授權(quán)”IP角色生成的視頻歸類為“同人小說”內(nèi)容，并探索“創(chuàng)作者+IP方+平臺”的分賬機制，使得版權(quán)方可以通過授權(quán)獲得相應的收入。用戶通過活體檢測和動態(tài)音頻挑戰(zhàn)創(chuàng)建的數(shù)字分身（Cameo），其肖像權(quán)和使用權(quán)完全由本人控制。鑒于平臺上廣泛使用日本動漫角色的情況，日本政府已要求OpenAI改為“選擇加入”模式，需事先獲得知識產(chǎn)權(quán)持有人的許可，以防止版權(quán)侵犯，并采取措施補償權(quán)利人，并允許他們請求刪除相關(guān)內(nèi)容，OpenAI已同意此要未成年人保護：最近，美國參議員MarshaBlackburn強烈主張加強兒童保護監(jiān)管，并呼吁進一步加強對未成年人的保護（鏈接）。投資推薦模型+應用生態(tài)提供商：美國：谷歌（GOGLS、a（MAS、Fia（FIGS、oe（ABEU中國：阿里巴巴（BAAU、騰訊（00HK）視頻內(nèi)容制作公司P所有者：美國：x（FXS、迪士尼（SUS；中國：愛奇藝（IQS、閱文（772HK）GC內(nèi)容平臺：美國：x（RLXUS；中國：嗶哩嗶哩（IIUS、快手（24H）AI視頻生成下游產(chǎn)品公司：美國：多鄰國（OLU；中國：網(wǎng)易（TESUS、美圖（37H）美國旗艦公司AI視頻生成產(chǎn)品GoogleVeo3：原生音頻顯著提高視頻真實感GoogleVeo3GoogleDeepMind20255月推出的新一代視頻生成模型，相較于202412Veo2與2024年5月發(fā)布的Veo實現(xiàn)了多維度的技術(shù)突破，主要表現(xiàn)在：視頻清晰度與長度：Veo理論上支持最高720p清晰度，最長2分鐘的影片；Veo2理論上可以生成最長兩分鐘，4KVeo3理論上可4K10AI影片，且支持多種高寬比（16:9，9:16，1:1等），并大大提高了視頻紋理、人物面部連貫性、肢體協(xié)調(diào)性與空間感應力。視頻音效：Veo與Veo2僅支持基于文本或圖片生成無聲視頻，而無法產(chǎn)生任何音效，需要后期添加音頻及剪對提示詞的響應：Veo與Veo2對復雜場景描述的理解有限，風格執(zhí)行不一致，可能需要多次嘗試才能達到理想效果，可用于簡單動畫的制作或產(chǎn)品演示視頻。Veo340%，可用于專業(yè)廣告、短篇故事、教育演示和虛擬演示的制作（鏈接）。此外，202510月發(fā)布了最新Veo3.1Veo3做出功能性全面升級：允許用戶在視頻中加入新角色或道具且支持消除不需要的元素，并可以無縫重建背景；提升第一幀與最后一幀的連貫性和敘事流暢性；調(diào)整光線方向、亮度和陰影度，增強視頻細節(jié)；同步音頻、對白生成更為先進，可生成更逼真的聲音效果。圖15：Google可以通過GoogleAI訂閱圖16：Google3生成的視頻示例 oogleOne 香港） oogleOne 香港）Sora2：標志性得開啟AI內(nèi)容社區(qū)化時代Sora2作為OpenAI于2025年10月推出的新一代視頻生成模型，相較于2024年發(fā)布的初代Sora實現(xiàn)了多維度的技術(shù)突破，以及產(chǎn)品形態(tài)的創(chuàng)新設(shè)計：物理真實感的革命：Sora2在物理規(guī)律模擬上達到了行業(yè)標桿水平。初代Sora在處理復雜運動時易出現(xiàn)肢體扭曲或動作邏輯混亂的問題，而Sora2能精準還原奧運級體操動作、槳板后空翻等動態(tài)場景，其物理引擎可精確模擬浮力、剛性碰撞等力學特性。例如，在生成“向帶有箭頭的杯子中倒水”的視頻時，Sora2在提示詞中沒有明確提示箭頭方向改變的情況下，生成的視頻主動提現(xiàn)了折射導致的箭頭翻轉(zhuǎn)現(xiàn)象（圖17）。音視頻通同步，多模態(tài)交互：Sora2首次實現(xiàn)視頻與音頻的原生同步生成，支持多語種對話、環(huán)境音效和空間音頻。用戶輸入文本提示時，模型可自動匹配角色口型、語音語調(diào)及背景音景，例如在“吵架”場景中，AI不僅生成人物憤怒的表情和姿態(tài)，還會補充自然的對話內(nèi)容，并確保語音與口型完全同步。這種音畫協(xié)同能力使持跨鏡頭的長敘事鏈生成，用戶可通過自然語言指定分鏡切換、光線變化等細節(jié)。例如，輸入“一名偵探在雨夜追蹤嫌疑人”的提示，Sora2能連續(xù)生成遠景、中景、特寫等多鏡頭畫面，并保持場景和人物的一致性。此外，模型還支持風格化定制，可生成電影級、卡通或抽象藝術(shù)風格的視頻。社交驅(qū)動的內(nèi)容生態(tài)：Sora2SoraAPP,AI內(nèi)容社區(qū)化時代，類似于“AI版抖音”，構(gòu)建了獨特的社交互動模式。用戶通過邀請碼注冊后，可生成包含自己或好友數(shù)字形象的圖18：Sora2同步推出的SoraAPP構(gòu)建了獨特的社交互動模式。用戶可生成自己的數(shù)字分身進行內(nèi)容創(chuàng)作圖17：Sora2在物理規(guī)模的模擬上達到行業(yè)領(lǐng)先水平：在提示詞中沒有明確提示箭頭方向改變的情況下，生成的視頻主動提現(xiàn)了折射導致的箭頭翻轉(zhuǎn)現(xiàn)象視頻（Cameo，“客串”功能），并通過“Remix”功能對他人作品進行二次創(chuàng)作。這種機制不僅降低了創(chuàng)作門檻，還通過鏈式傳播快速形成用戶網(wǎng)絡(luò)，截至圖18：Sora2同步推出的SoraAPP構(gòu)建了獨特的社交互動模式。用戶可生成自己的數(shù)字分身進行內(nèi)容創(chuàng)作圖17：Sora2在物理規(guī)模的模擬上達到行業(yè)領(lǐng)先水平：在提示詞中沒有明確提示箭頭方向改變的情況下，生成的視頻主動提現(xiàn)了折射導致的箭頭翻轉(zhuǎn)現(xiàn)象子位智香港） izard、OpenA 香港）圖圖20：Midjourney訂閱計劃Midjourney：實現(xiàn)快速迭代的創(chuàng)作環(huán)境Midjourney20227122024731日正式發(fā)布，迄今為止已有九個普通版本。V1模型（2022.2）為測試版，可通過文字提示生成基礎(chǔ)圖象，但畫質(zhì)和細節(jié)有限。V2V4模型（2022411月）AI圖像方面取得了集體性進展。V2通過超分辨率與變體功能提升了清晰度，V3引入了風格化與質(zhì)量控制，在藝術(shù)自由與細節(jié)表現(xiàn)之間實現(xiàn)平衡。V4借助全新架構(gòu)實現(xiàn)了更快的生成速度，并能輸出逼真度更高、接近渲染效果的圖像。這些迭代使應用從最初的粗略草圖，逐步演進為能夠生成高度細致，逼真視覺效果的工具，并具備更靈活的風格控制與性能表現(xiàn)，標志著圖像質(zhì)量與生產(chǎn)靈活性的顯著提升（鏈接）。V5至V7模型（2023年3月至2025年4月）帶來了重大改進，V5將分辨率提升一倍并增強細節(jié)表現(xiàn)，修復了失真問能，使輸出結(jié)果更貼合用戶偏好，大幅提升創(chuàng)作靈活性與效率（鏈接）。圖19：Midjourney初代版本至最新版本生成同一圖像的區(qū)別idjourney 圖19：Midjourney初代版本至最新版本生成同一圖像的區(qū)別AmazonNovaReel：降低廣告制作門檻，提高顧客購買欲望AmazonNovaReel是AmazonAds針對電商廣告而推出的視頻生成模型，可在短短幾秒視頻中展示產(chǎn)品，適合品牌推廣與電商廣告。初始測試版（AmazonNovaReel1.0）發(fā)布于2024.9，可以在幾分鐘內(nèi)通過文本提示或圖文結(jié)合提示生成6秒單鏡頭廣告視頻，大大降低了廣告制作門檻，但視頻內(nèi)容僅有簡單圖像移動，且使用對象僅為美國部分廣告主。2025.6發(fā)布升級版（AmazonNovaReel1.1），較初始版做出了較大改進：26秒鏡頭組成，確保整體風格一致且連貫，擴展了視頻表達空間?！岸噻R頭手動”6秒單獨鏡頭設(shè)置文本提示與起始參考圖像，方便用戶分場景、分段落規(guī)劃視頻結(jié)構(gòu)，且視頻鏡頭可以單獨輸出或拼接成完整視頻，方便后續(xù)剪輯。5124,000字符的多鏡頭描述，大大增加內(nèi)容豐富性。圖21：AmazonNovaReel1.1生成的部分視頻圖21：AmazonNovaReel1.1生成的部分視頻圖22：AmazonNovaReel1.1可生成產(chǎn)品在不同使用場景下的視頻mazon 香港） mazon 香港）MetaMovieGen：結(jié)合四模型為一體的領(lǐng)先工具集合MetaMovieGenMeta2024.10AI模型，通過輸入簡單文字指令即可生成短片，目標是為電影制作人、內(nèi)容創(chuàng)作者等提供強大高效的創(chuàng)作工具，實現(xiàn)個性化故事敘述，并挑戰(zhàn)OpenAI與Sora的領(lǐng)先地位。此模型結(jié)合了四個模型：1）MovieGenVideo模型：可以從文本提示生成高質(zhì)量的視頻；2）MovieGenAudio模型：可以創(chuàng)建與視頻內(nèi)45秒的音軌，包括背景音樂、環(huán)境音、音效等；3）個性化電影生成視頻模型：根據(jù)文本提示和單張圖像生成特定個人的視頻，保留他們的肖像；4）MovieGenEdit模型：允許對真實和虛構(gòu)的視頻進行詳細的、基于文本的視頻編輯。MetaMovieGen具有強大功能，主要包括：1）1616fps1080p，并擁有逼真的視覺效果，通過行業(yè)頂尖的音視頻對齊技術(shù)與音頻模型配對后，可同步生成音頻來匹配視覺效果。此功能可用于電影制作，可快速提供有創(chuàng)造性的視覺與音頻元素。2）用戶可提供一個人的圖像和相應文本提示，從而生成一個包含人物參Meta于2025年9月25日推出MetaVibes，SoraAppMetaAI應用的下載量（101840056%）116Sora相比，MetaVibes在內(nèi)容量、社交整MetaAI大模型突破方面仍需努力。圖23：MovieGenEdit模型編輯示例圖24：MetaVibes幫助提升了MetaAI的用戶數(shù)量ltralytics 香港） eta 港）Runway：從早期短視頻生成到長視頻敘事的先行者RunwayAIGen-4。RunwayModelGen-1的風格遷移、物體替換、背景/Gen-2“文生視頻/圖生視頻”Gen-4的多模AI生成視頻“角色變臉”與“動作不連貫”AI電影化生產(chǎn)具備可用性。Runway具有較快的商業(yè)化進程：Runway5種訂閱計劃，分別為免費版，標準版，專業(yè)版，無限制版，和企業(yè)版，02,000美元不等，這種階梯式設(shè)計覆蓋了個人創(chuàng)作者到大型企業(yè)的不同需求。B端的企業(yè)版用戶訂閱價格167美元，高于C0~76美元。根據(jù)TechCrunch的數(shù)據(jù)，Runway24年的ARR8,400252.65-3億美元，增長速度遠超多個競爭對手。Runway254月完成新一輪融資，估值約30億美元，此外，有報道稱，近期Runway正在尋求5億美元的融資，近期估值可達50億美元。香港）香港）Pika：從社交化創(chuàng)作與視頻編輯融合切入的輕量級AI視頻平臺PikalabsAI視頻生成與編輯的初創(chuàng)公司，23年由郭文景、孟辰霖與陳思禹在美國灣區(qū)創(chuàng)立，其團隊AIlab2311Pika1.0公測版，定位“人人可用的創(chuàng)作者級視頻工具“而非專業(yè)影視特效工具。Pika模型強調(diào)“一站式生成+在線編輯”的工作流（畫幅擴展、幀率/時長延展、局部替換、風格化）。Pika1.0（23年11月）實現(xiàn)從文本或靜態(tài)圖像生成短視頻，時長上限約4–6秒。支持畫幅擴展、風格遷移與場景延展。Pika1.5（24年上半年）優(yōu)化幀率與動作連貫性，引入Prompt-to-Edit功能，使用戶可通過文字描述修改生成視頻局部內(nèi)容。Pika2.0/2.1則有了一些質(zhì)的提升，強化了角色一致性、多場景銜接、口型對齊、背景穩(wěn)定引擎、鏡頭過渡、更高分辨率等，面向短敘事與廣告短片。Pika2.2（25年中）推出Pikaframes功能，允許用戶通過關(guān)鍵幀圖像控制生成節(jié)奏，并支持最高10秒視頻生成。Pika的貨幣化模式為免費+訂閱+積分消耗的混合體系。Freemium用戶每月可獲得少量試用視頻點數(shù)。訂閱計劃從標準876GetLatka數(shù)據(jù)，Pika2024800萬美元，20246月B4.7億美元（鏈接）。Pika的核心競爭力在于極低的創(chuàng)作門檻與可玩性，C1,000508~76美元之間。B端方面，其業(yè)務中心依然集中在輕量級的營銷機構(gòu)、小型廣告代理和自由創(chuàng)作者。圖27：Pika訂閱模式圖28：Pika生成的熱門視頻香港）香港）商業(yè)化下游：生成式AI工作流在定制化商業(yè)內(nèi)容創(chuàng)作中的應用節(jié)點式生成式AI工作流允許用戶在可擴展畫布上直觀地連接多個AI模型和編輯工具，實現(xiàn)圖像與視頻的無縫分支、混合與精細控制，從而生成高質(zhì)量、可定制的商業(yè)內(nèi)容。這種UX/UI相比單純文本提示更受歡迎，因其提供更強的控制力。目前該領(lǐng)域的參與者不多，領(lǐng)先應用包括ComfyUI和Weavy。Weavy最近被Figma（FIGUS）收購，并更名為FigmaWeave，F(xiàn)igmaAI媒體生成與專業(yè)編輯能力。此外，Adobe10月宣ProjectGraph，這也是一款節(jié)點式創(chuàng)作應用。我們認為，這些競爭性里程碑清晰地凸顯了節(jié)點式（或其他支持定UX/UI格式）AI工作流發(fā)展的重要性。圖圖29:在節(jié)點式生成式AI工作流中，用戶可以在可擴展畫布上通過節(jié)點直觀地連接代表AI模型和編輯工具的模塊。這種方式支持提示詞、對象的無縫串聯(lián)，實驗的分支，以及圖像與視頻的分層級控制，從而實現(xiàn)高效的、協(xié)作式eavy，X 香港）圖30:部分領(lǐng)先的節(jié)點式生成式AI工作流編輯器/應用功能FigmaWeaveAdobeProjectGraph/FireflyComfyUIRunwayWorkflows核心界面

基于節(jié)點的畫布，用跨應用的節(jié)點式工作于AI模型鏈式連接

于自定義管線

自定義節(jié)點式工作接AI模型優(yōu)勢/強項

多模型整合（寫實與風格化）層Figma共享生態(tài)

Firefly核心+自定義/第三方節(jié)點圖像、視頻、矢量、應用內(nèi)特定編輯瀏覽器/應用共享，支持CreativeCloud同步與專業(yè)工具深度整合（如Photoshop精準度）

開源模型（如StableDiffusion、Flux），節(jié)點可擴展圖像、視頻、3D、音頻（通過節(jié)點擴展）本地/離線；社區(qū)共享工作流（.cpack文件）環(huán)境

專有模型Gen-4、Aleph、Act-Two+多模態(tài)整合圖像、視頻、動態(tài)編輯、風格遷移/理，接近實時的創(chuàng)意迭代、媒體報、Crunch 港）中國旗艦公司AI視頻生成產(chǎn)品阿里巴巴（BABAUS）：從底層技術(shù)到商業(yè)化應用的全棧式布局阿里巴巴在AI視頻生成領(lǐng)域已形成從底層技術(shù)到商業(yè)應用的全棧布局，擁有自研AI芯片，構(gòu)建構(gòu)建Qwen（文本）、Wan（視頻）、Fun（音頻）多模態(tài)模型家族，支持跨模態(tài)聯(lián)合生成。自研視頻生成模型—通義萬相（Wan）：20259Wan2.5-Preview101080P視頻生成（24幀/秒），首次實現(xiàn)音畫同步（自動生成匹配的人聲、音效、背景音樂），突破多鏡頭敘事能力，減少人工剪輯需求，支持復雜指令理解與長連貫故事生成。通義萬相C端商業(yè)化方式采用訂閱制模式，標準會員連續(xù)包年月費36元高級會員145元，單視頻生成收費約0.6元。端應用：容創(chuàng)作者社區(qū)交流。B端應用：專業(yè)影視制作平臺—尋光：202412AI視頻創(chuàng)作平臺—尋光。該平臺可提供AI輔助劇本分析，自動生成分鏡、視頻運鏡控制、圖層拆解邊際等，主要面向?qū)I(yè)視頻制作團隊和開發(fā)者。電商商家創(chuàng)作平臺/APP—萬相營造：核心功能包括商品圖轉(zhuǎn)視頻、AI換裝演示、短視頻腳本生成。已上線移動APP，縮短電商商家商品視頻制作周期。圖31圖31：2025年9月，阿里巴巴發(fā)布Wan2.5-Preview圖32：通義萬相訂閱費用：標準會員連續(xù)包年月費36元高級會員145元，單視頻生成收費約0.6元香港）香港）圖33：圖33：2025年9月，阿里巴巴旗下夸克AI正式發(fā)布AI創(chuàng)作與創(chuàng)意表達平臺的平臺/APP“造點AI”圖34：阿里巴巴達摩院發(fā)布的尋光平臺服務專業(yè)視頻制作者，提供專業(yè)級的視頻編輯和影片制作圖35：電商商家創(chuàng)作平臺/APP—萬相營造提升電商商家視頻制作效率香港）騰訊（700HK）：AI視頻賦能游戲與廣告生態(tài)協(xié)同自研視頻生成模型—混元（Hunyuan-Video）：20249130億參數(shù)，可以生成較強物理準確性以及一致性鏡頭的視頻。它擁有強大的語義對齊能力，能夠生成高動態(tài)、流暢的運動畫面，并一次性完成多個連續(xù)動作。模型具備導演級運鏡能力，實現(xiàn)藝術(shù)鏡頭的無縫銜接，完美融合真實效果與虛擬場景。視頻創(chuàng)作平臺—騰訊智影：云端智能視頻創(chuàng)作平臺，核心功能包括數(shù)字人播報、文本配音、文章轉(zhuǎn)視頻、視頻剪輯等。垂類應用：游戲：Hunyuan-GameCraft：20258Hunyuan-Video的下一代游戲交互式視頻生成框架，通過高動態(tài)內(nèi)容合成與連續(xù)動作控制技術(shù)，實現(xiàn)了影視級時序連貫的視頻生成，為沉浸式游戲體驗樹立了新標桿。該模型基于超百萬條AAA級游戲?qū)嶄洈?shù)據(jù)訓練，覆蓋100余款主流游戲，確保多樣性和泛化能力，并進電商從業(yè)者、廣告創(chuàng)意人等不同用戶和場景的需求。一站式AI廣告創(chuàng)意平臺“妙思”可生成商品廣告圖片及視頻、商品口播等，簡化廣告制作與投放流程。圖36圖36：騰訊視頻生成模型Hunyuan-Video圖37：騰訊智影提供數(shù)字人播報、文本配音、文章轉(zhuǎn)視頻等智能視頻創(chuàng)作功能香港）香港）圖38：Hunyuan-GameCraf實現(xiàn)了影視級時序連貫的視頻生成，為沉浸式游戲體驗樹立了新標桿圖圖38：Hunyuan-GameCraf實現(xiàn)了影視級時序連貫的視頻生成，為沉浸式游戲體驗樹立了新標桿圖39：騰訊廣告“妙思”可生成商品廣告圖片及視頻、商品口播等，簡化廣告制作與投放流程香港）香港）百度（BIDUUS）：非擴散架構(gòu)的視頻生成路線MuseSteamer：不同于傳統(tǒng)的擴散（Diffusion）架構(gòu)方案，MuseSteamer采用百度自研的ERNIE多模態(tài)框架和Transformer24MuseSteamerv11080P10秒的文生視頻生成。248v1.5Full-DuplexStreamingInference（全雙工流式推理）技術(shù)，使模型在生成過程中能夠?qū)崟r反饋用戶，實現(xiàn)“邊生成、邊修改”。MuseSteamer2.0打破業(yè)界記錄實現(xiàn)“多人有聲音視頻一體化生成”，利用LatentMulti-ModalPlanner（多模態(tài)潛在空間規(guī)劃技術(shù)）實現(xiàn)語音與唇形、表情、動作的毫秒級精準對齊，同時支持多角色身4k2-5分鐘/24-60FPS，30MuseSteamer模型制作的科幻短片《歸途》中，“40多個鏡3AI120個片段，成本低至百元”。則通過百度的”千帆大模型平臺“API調(diào)用、MaaS部署于多模態(tài)內(nèi)容生SDKAPIMuseSteamer嵌入內(nèi)部內(nèi)容生產(chǎn)C端相比，B端更強調(diào)可擴展性、穩(wěn)定性與算力資源調(diào)度，其商業(yè)邏輯以高客單價和長期合同驅(qū)動營收增長。圖40圖40：MuseSteamer2.0可生成影院級AI視頻圖41：采用百度MuseSteamer模型生成的科幻短片—《歸途》香港）香港）美團（3690HK）：實現(xiàn)視頻續(xù)寫完整任務閉環(huán)2025年10月27日，美團龍貓團隊發(fā)布LongCat-Video視頻生成模型。LongCat-Video創(chuàng)新通過“條件幀數(shù)量”實現(xiàn)任務區(qū)分—文生視頻無需條件幀、圖生視頻輸入1幀參考圖、視頻續(xù)寫依托多幀前序內(nèi)容，原生支持三大核心任務且無需額外模型適配，形成“文生/圖生/視頻續(xù)寫”完整任務閉環(huán)。文生視頻：可生成720p、30fps高清視頻，能精準解析文本中物體、人物、場景、風格等細節(jié)指令，語義理解與視覺呈現(xiàn)能力達開源旗艦級別。圖生視頻：嚴格保留參考圖像的主體屬性、背景關(guān)系與整體風格，動態(tài)過程符合物理規(guī)律，支持詳細指令、簡潔描述、空指令等多類型輸入，內(nèi)容一致性與動態(tài)自然度表現(xiàn)優(yōu)異。視頻續(xù)寫：視頻續(xù)寫是LongCatVideo的核心差異化能力，可基于多幀條件幀續(xù)接視頻內(nèi)容，為長視頻生成提供原生香港）子香港）快手（1024HK）：可靈AI2.5Turbo登頂全球排行榜C端、B自研視頻生成模型—可靈（Kling）：2025年9月發(fā)布的可靈AI2.5Turbo顯著提升運動效果、風格一致性和美學質(zhì)量，尤其在“大幅運動畫面”（如轉(zhuǎn)向、肢體交互）ArtificialAnalysis2.5Turbo文生視頻/1.0/Veo3160%/212%。商業(yè)化方面，可靈支BAPI0.9（1,314元）1.8元（黃金會員，標準58元）。強勁的營收增長軌跡與全球吸引力：Kling在2025年一季度實現(xiàn)商業(yè)營收人民幣1.5億元，二季度升至人民幣2.5億元（環(huán)比+67%）。全年營收指引已上調(diào)至1.25億美元?？焓衷?025年6月宣布，Kling在成立一周年時年化創(chuàng)作工作臺—靈動畫布：靈動畫布是快手可靈AI推出的創(chuàng)新創(chuàng)意工作臺，其主要功能包括一站式創(chuàng)作、多人協(xié)作、無限畫布、智能輔助創(chuàng)作等，為創(chuàng)作者提供了高效、便捷的創(chuàng)作環(huán)境。電商營銷短視頻生成Agent—Kwali：據(jù)媒體報道，20259AIagent—Kwali，可實現(xiàn)一句話生成完整且可直接投放的短視頻，極大降低視頻制作門檻。商家只需輸入需求，Kwali即可自動拆解賣點、受眾和情境標簽，并生成腳本、匹配鏡頭、剪輯合成等。圖圖44：2025年9月，快手推出可靈AI2.5Turbo，持續(xù)升級生成效果和質(zhì)量香港）圖圖45：快手可靈包含的主要功能香港）圖46：快手推出的AI創(chuàng)作平臺—靈動畫布圖47：快手推出的電商營銷短視頻生成AIagent—Kwali香港）子位公司數(shù) 香港）圖圖48：快手可靈付費計劃：單視頻生成價格區(qū)間為0.9（黑金會員，標準月費1,314元）至1.8元（黃金會員，標準月費58元）香港）美圖（1357HK）：垂直領(lǐng)域深耕者自研視頻生成模型—美圖奇想大模型（MiracleVision）：2025年迭代至V5版本后，進一步提升畫面細膩度與動態(tài)真實性，例如在“AI換裝”功能中，服裝褶皺和光影匹配精度達行業(yè)領(lǐng)先水平。此外，美圖還與阿里通義萬相、DeepSeek等模型合作優(yōu)化性能。主要應用產(chǎn)品：AI短片創(chuàng)作平臺-MOKI：專注于動畫短片、網(wǎng)文短劇、故事繪本及音樂視頻（MV）創(chuàng)作，可以根據(jù)用戶輸入的視頻描述生成分鏡腳本和畫面，支持選擇視覺風格、角色設(shè)計等。自動識別關(guān)鍵幀進行剪輯，提供自動配樂、音效和字幕生成功能。AI影像agent—RoboNeo：一站式影像處理與視覺內(nèi)容創(chuàng)作工具，覆蓋圖片編輯、設(shè)計創(chuàng)作、視頻制作。用戶圖49圖49：美圖旗下AI短片創(chuàng)作平臺—MOKI圖50：美圖旗下AI影像agent—RoboNeo目前支持接入Sora2香港）香港）圖51：美圖旗下AI素材生成工具Whee 圖52：美圖旗下口播視頻創(chuàng)作工具—開拍香港）香港）嗶哩嗶哩（BILIUS）：聚焦動漫+中長視頻+UGC內(nèi)容社區(qū)差異化競爭B站通過“數(shù)據(jù)+社區(qū)+垂直場景”AI視頻生成壁壘：數(shù)據(jù)：BUGC/PUGC內(nèi)容，利用深度用戶互動評論訓練模型；場景：聚焦中長視頻、動漫、虛擬偶像等優(yōu)勢領(lǐng)域，避開短視頻競爭；商業(yè)化：AI創(chuàng)作者效率提升，并提升廣告投放效率，以推動商業(yè)化收入增長。AI視頻創(chuàng)作平臺—花生AI：20258月，據(jù)媒體報道，BIUP主通過輸入文案或口播音頻，在30）。動漫生成模型—Anisora：20257月，BAniSoraV3VTuber內(nèi)容、動畫PV、鬼畜（MAD）等。香港）香港）其他未上市中國公司字節(jié)跳動：平臺應用+模型基礎(chǔ)設(shè)施的全棧布局字節(jié)的AI視頻生成體系采用“平臺＋Seedance/Waver雙模型引擎”架構(gòu)，技術(shù)迭代清晰，分層明確。目前，SeedanceWaverAIGC視頻領(lǐng)域“高質(zhì)量＋高效率”的技術(shù)格局。應用平臺包括：1)豆包：20258月，豆包APP1.57億（據(jù)QuestMobile）DeepSeek1.43億，成為中國用戶數(shù)最高的C端AI對話助手產(chǎn)品。2025年以來，豆包逐步從簡單的對話助手升級為多模態(tài)AI產(chǎn)品，視頻生成功能也逐步增強。202510月，字節(jié)跳動正式發(fā)布了豆包視頻生成模型（Doubao-Seedance-1.0-pro），進一步實現(xiàn)生成效率提升和成本降低。1080P258Waver1.0，統(tǒng)一處理文本、圖像與視頻生成任務，實現(xiàn)工業(yè)級推理效率。3)其他：包括剪映（視頻創(chuàng)作剪輯工具）、即創(chuàng)（抖音商家AI創(chuàng)作工具）等。即夢采用“訂閱＋免費額度＋API調(diào)用”的雙層商業(yè)化模式。C69元人民幣/659元人民幣/年，每月可1682,0502680張照片的免費額度。App上線半年后，MAU就已突破1,000萬。BSeedanceWaverAPI，以生成市場與分辨率定價，服務廣告、電商與教育客戶。基于訂閱價格與廣告客戶潛在擴展推算。C端收入是即夢當前增長的主要來源，特征是訂閱價低、用戶基數(shù)ARPU較低；B端（BytePlusAPI）貢獻規(guī)模小，但具備高單價、高復購率與長期合約潛SeedanceB1-2年持續(xù)上升。圖55：即夢網(wǎng)頁圖56：即夢創(chuàng)辦的數(shù)字藝術(shù)展香港）香港）愛詩科技：PixVerse憑借出色特效出圈PixVerse是由愛詩科技推出的AI視頻生成平臺，核心功能包括“照片/文本生成視頻”，同時支持風格遷移、口型同步、音效/20241AI20256月發(fā)布。公司創(chuàng)始人王長虎曾任字節(jié)跳動視覺技術(shù)負責人，核心團隊成員大多來自字節(jié)跳動、微軟亞洲研究院、快手和騰訊等領(lǐng)先機構(gòu)。產(chǎn)品迭代：早期版本V2840秒的多段視頻。V3階段：引入口型同步與視頻續(xù)接功能，提升了文本驅(qū)動視頻生成的控制力與精細度。V4（2025年初發(fā)布）：集成音頻模塊，實現(xiàn)音視頻同步；優(yōu)化動作流暢度與物理一致性；并將生成速度壓縮定價：PixVerse采用點數(shù)驅(qū)動的訂閱體系，從提供有限點數(shù)的免費版到每月10–48美元的付費計劃，支持最高1080P視頻，并提供帶API接口的定制化企業(yè)版。202510171B+輪融資，1億，MAU1,600萬。APIEssential（1003335秒視頻）、Scale（每月1,500美元，約5,316個視頻）、Business（每月6,000美元，約23,766個視頻）。平臺用戶規(guī)模從2024年12月的全球1,200萬增長至2025年9月的累計超過1億。圖57：PixVerse各式各樣的AIAgent頁面圖58：各式各樣可調(diào)節(jié)的Parameters 香港）香港）Minimax：海螺AI升級電影級高質(zhì)量視頻生成效果AIMinimax推出的多模態(tài)視頻生成模型。早期版本海螺-Video-01系列（T2V-01-Director與I2V-01-Director）率先實現(xiàn)了分層控制，包括鏡頭構(gòu)圖、角色、場景與動作，支持基于文本描述的逐鏡頭視頻生成，確立了“導演級”可控能力。20256月，海螺-02NeuralControlRepresentation框架，相較前代訓練參數(shù)提升三倍、數(shù)據(jù)量提升1080p分辨率，并支增強，可生成復雜場景如“噴火高”速與運“動”，標志著視頻理解與生成能力的重大突破。2025年7月，Minimax完成3億美元融資，估值約40億美元，躋身中國估值最高的生成式AI公司之列。在消費端，AI面向日常創(chuàng)作者與短視頻博主，通過分層訂閱與點數(shù)體系降低使用門檻。其主要用戶群體來自抖音、在企業(yè)端，Minimax的多模態(tài)基礎(chǔ)，海螺AI向廣告、電商、教育和游戲等行業(yè)提供API能力。眾多短劇制作團隊、MCNB2BMiniMaxAPI與火山引AI更高的利潤率和強勁的經(jīng)常性收入潛力。AI的商業(yè)化模式結(jié)合了消費端的分層訂閱與應用內(nèi)購買（用于流量變現(xiàn)），以及企業(yè)端的API訂閱體系分為五個層級：Standard（每月7.99美元，約83個視頻）；Pro（每月27.99美元，約375個視頻）；Master（每月63.99美元，約875個視頻）；Ultra（每月124.99美元，可完整訪問海螺-01模型）；Max（每月199.99美元，可完整訪問海螺-01/02模型）。所有訂閱方案均支持1080p、最長10秒視頻、多線程生成。Minimax報告稱已協(xié)助創(chuàng)作者生成3.7億個視頻，僅Web版本的年化經(jīng)常性收入（ARR）就超過1,000萬美元。圖59：MiniMax與其他模型精確度對比圖60：海螺AI用戶界面香港）香港）清華Vidu：中國學術(shù)研究模型向多模態(tài)的演進Vidu是由清華大學、智譜AI與上海人工智能實驗室于2024年聯(lián)合推出的生成式視頻大模型，被視為‘多模態(tài)世界建模’的起點，重點關(guān)注物理一致性、時間連續(xù)性與語義可控性。Vidu是首個完全基于Transformer架構(gòu)并采用非擴散（Non-Diffusion）方法的文本生成視頻模型，參數(shù)規(guī)模達14億，并通過“逐幀去噪”顯著提升了視頻清晰度。產(chǎn)品迭代：版本1.0161080pVidu1.5（2024年四季度）強化了動作理解與鏡頭語義控制，支持更復雜的角色互動與場景切換。該版本實現(xiàn)了單個視頻在30秒內(nèi)快速生成。自上線以來，Vidu在100天內(nèi)即獲得超過1,000萬用戶，迅速走紅。版本2.02025Web、AppAPI接入，并采用按秒計費與具競爭力的定價策定價：“免費體驗+分層訂閱+API接口”。在消費端，平臺提供四檔訂閱方案：免費版：800點數(shù)，可生成約2001080p視頻；標準版：82,0005001080p視頻；高級版：28美元，可700個視頻；旗艦版：791,000個視頻。不同訂閱檔位在視頻生成數(shù)量、并行任務上限、參考素材與編輯功能方面有所差異。在企業(yè)端，ViduAPI平臺，提供文本生成視頻、圖像生成視頻及模板化視頻生成接口，面向廣告、電商、教育與影視制作等行業(yè)。圖61：Vidu生成界面三大亮點香港）香港）2025年11月18日（星期二）互聯(lián)網(wǎng)行業(yè)估值對比券評級價券評級價（%）美元）FY25EFY26EFY25EFY26EFY26EFY26EFY26EFY26E收入凈利潤EBITDA騰訊700HK港元增持641.0766.019.5720.916.422.29.613.816.0阿里巴巴BABAUS美元增持153.8204.032.6367.017.415.016.723.3n.a.2.518.211.0拼多多PDDUS美元增持131.0審視中n.a.185.920.7

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

AI視頻生成行業(yè)從早期試驗到創(chuàng)新

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔