2024 AI產(chǎn)業(yè)系列深度報告(一):生成式AI多領(lǐng)域落地賦能傳媒行業(yè)發(fā)展_第1頁
2024 AI產(chǎn)業(yè)系列深度報告(一):生成式AI多領(lǐng)域落地賦能傳媒行業(yè)發(fā)展_第2頁
2024 AI產(chǎn)業(yè)系列深度報告(一):生成式AI多領(lǐng)域落地賦能傳媒行業(yè)發(fā)展_第3頁
2024 AI產(chǎn)業(yè)系列深度報告(一):生成式AI多領(lǐng)域落地賦能傳媒行業(yè)發(fā)展_第4頁
2024 AI產(chǎn)業(yè)系列深度報告(一):生成式AI多領(lǐng)域落地賦能傳媒行業(yè)發(fā)展_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

證券研究報告行證券研究報告行業(yè)研究行業(yè)深度報告版權(quán)所有發(fā)送給..pl AI產(chǎn)業(yè)系列深度報告(一)2024年06月28日球熱銷榜,6月15款進口游戲版號過審版權(quán)所有發(fā)送給..p2品,于今年5月推出了V3.5版本,維持了與OpenAI合作,一次性研究所第2頁共21頁給..p3證券研究報告正文目錄1生成式AI:快速發(fā)展賦能多領(lǐng)域,助力技術(shù)變革 5 1.2政策:國家陸續(xù)出臺指導性及支持性政策,推動行業(yè)發(fā)展 52細分領(lǐng)域:技術(shù)及產(chǎn)品更新迭代頻率加快,未來發(fā)展可期 72.1圖像生成:Midjourney穩(wěn)住行業(yè)龍頭地位,AI文生圖邁向多模態(tài)融合 72.1.1發(fā)展歷程:邁向多模態(tài)融合,逐漸成為大模型核心模態(tài)之一 72.1.2市場規(guī)模:市場規(guī)模高速增長,網(wǎng)民參與度顯著提升 82.1.3產(chǎn)品:產(chǎn)品發(fā)展成熟,Midjourney穩(wěn)住行業(yè)龍頭地位 92.2視頻生成:新品推出受到市場關(guān)注,創(chuàng)新點賦能行業(yè)發(fā)展 92.2.1發(fā)展歷程:技術(shù)更迭帶動行業(yè)發(fā)展,擴散模型成為主流技術(shù)路徑.102.2.2市場規(guī)模:發(fā)展存在一定挑戰(zhàn),市場潛力可期 2.2.3產(chǎn)品:新品推出受到市場關(guān)注,創(chuàng)新點賦能行業(yè)發(fā)展 2.3音頻生成:音樂生成類市場潛力大,企業(yè)探索視頻生音頻技術(shù) 2.3.1產(chǎn)業(yè)鏈:協(xié)同發(fā)展,中游AI音頻算法和服務平臺為核心 2.3.2市場分類:語音合成占主導,音樂生成潛力大,語音識別應用成熟 3傳媒行業(yè)應用:AI賦能傳媒子行業(yè),助力技術(shù)變革 3.1AI賦能游戲行業(yè):優(yōu)化游戲制作流程,推動邁入制作運營新階段 3.2AI賦能廣告營銷行業(yè):契合廣告營銷需求,帶動行業(yè)變革 3.3AI賦能影視行業(yè):助力影視制作階段,縮減實現(xiàn)成本 4投資建議 圖表1:生成式人工智能發(fā)展歷程 5圖表2:生成式AI相關(guān)政策文件 6圖表3:AI文生圖發(fā)展歷史 8圖表4:AI文生圖市場規(guī)模及網(wǎng)民參與度 8圖表5:市面上主流AI文生圖產(chǎn)品對比 9圖表6:AI文生視頻發(fā)展歷程 圖表7:Sora、DreamMachine以及可靈對比示例 圖表8:文生視頻相關(guān)產(chǎn)品 圖表9:AI音頻產(chǎn)業(yè)鏈 圖表11:Suno試用 圖表12:ElevenLabsRiffusion試用 圖表14:生成式AI應用內(nèi)容示意圖 圖表16:《GeneratedAdventure》 圖表17:SmallvilleAI小鎮(zhèn) 圖表18:《王者榮耀》絕悟AI 版權(quán)所有發(fā)送給..p4證券研究報告圖表19:虛擬裁判“奈昔” 圖表20:AI賦能廣告營銷行業(yè) 圖表21:淘寶全AI制作短片 圖表23:AI賦能電影、影視行業(yè) 圖表24:芒果TVAI角色對話及AI導演愛芒 圖表25:央視AI制作微短劇 版權(quán)所有發(fā)送給..p5探索期(21世紀前)分析和預測階段分析和預測階段版權(quán)所有發(fā)送給..p6圖表2:生成式AI相關(guān)政策文件發(fā)布時間發(fā)布部門政策名稱重點內(nèi)容解讀政策性質(zhì)推動下一代移動通信、衛(wèi)星互聯(lián)網(wǎng)、量子信息等技《關(guān)于推動未術(shù)產(chǎn)業(yè)化應用,加快量子、光子等計算技術(shù)創(chuàng)新突2024年2月破,加速類腦智能、群體智能、大模型等深度賦能加速培育智能產(chǎn)業(yè)。加快突破GPU芯片、集群低時指導類見》延互連網(wǎng)絡、異構(gòu)資源管理等技術(shù),建設超大規(guī)模智算中心,滿足大模型迭代訓練和應用推理需求?!蛾P(guān)于部署開以建設服務數(shù)字生態(tài)文明的數(shù)字生態(tài)基礎設施為2023年12月自然資源部展國土空間規(guī)劃實施監(jiān)測網(wǎng)絡建設試點的使命,以生成式人工智能等先進技術(shù)在國土空間規(guī)劃領(lǐng)域的應用研發(fā)為突破口,推進相關(guān)算法重構(gòu)模支持類型重構(gòu)、標準重構(gòu)和感知系統(tǒng)重構(gòu),著力提升國土通知》空間規(guī)劃實施監(jiān)測網(wǎng)絡“智慧”能力。推動產(chǎn)業(yè)園區(qū)和集群整體改造升級。探索建設區(qū)域《關(guān)于加快傳人工智能數(shù)據(jù)處理中心,提供海量數(shù)據(jù)處理、生成2023年12月工信部統(tǒng)制造業(yè)轉(zhuǎn)型升級的指導意式人工智能工具開發(fā)等服務,促進人工智能賦能傳統(tǒng)制造業(yè)。探索平臺化、網(wǎng)絡化等組織形式,發(fā)展支持類見》跨物理邊界虛擬園區(qū)和集群,構(gòu)建虛實結(jié)合的產(chǎn)業(yè)數(shù)字化新生態(tài)。2023年9月國家廣播電視總局《關(guān)于開展廣播電視和網(wǎng)絡視聽虛擬現(xiàn)實制作技術(shù)應用示范有關(guān)工作的通知》研究基于人工智能方式的虛擬場景生產(chǎn)技術(shù),開展基于人工智能方式的劇本創(chuàng)作、故事板生成、三維數(shù)字資產(chǎn)建模、智能語音生成、短視頻生成、動作支持類驅(qū)動等場景應用,提升虛擬場景生產(chǎn)效率、降低虛擬場景生產(chǎn)成本。國家互聯(lián)《生成式人工公室等暫行辦法》鼓勵生成式人工智能技術(shù)在各行業(yè)、各領(lǐng)域的創(chuàng)新應用,生成積極健康、向上向善的優(yōu)質(zhì)內(nèi)容,探索優(yōu)化應用場景,構(gòu)建應用生態(tài)體系。支持行業(yè)組織、企業(yè)、教育和科研機構(gòu)、公共文化機構(gòu)、有關(guān)專業(yè)機構(gòu)等在生成式人工智能技術(shù)創(chuàng)新、數(shù)據(jù)資源建設、轉(zhuǎn)化應用、風險防范等方面開展協(xié)作。支持類2023年4月工信部等IPV6技術(shù)演進和應用創(chuàng)新發(fā)見》推動IPV6與5G、人工智能、云計算等技術(shù)的融合創(chuàng)新,支持企業(yè)加快應用感知網(wǎng)絡、新型IPV6測量等"IPV6+"創(chuàng)新技術(shù)在各類網(wǎng)絡環(huán)境和業(yè)務場景中的應用。指導類資料來源:前瞻產(chǎn)業(yè)研究院、研究所版權(quán)所有發(fā)送給..p7期合在2017年羅格斯大學實驗室基于GAN制作出創(chuàng)造性對抗網(wǎng)絡CAN(Creative版權(quán)所有發(fā)送給..p8市場影響力早期探索“AARON”繪畫系統(tǒng)并于2011年開啟三維繪畫-2022年3月,布,開啟擴散模型元年,開源之先驅(qū)技術(shù)成熟與產(chǎn)品化-2022年7月多模態(tài)融合AI文生圖實現(xiàn)多模態(tài)融合,成為大模型核心模態(tài)之一2022年9月20212024時間2.1.2市場規(guī)模:市場規(guī)模高速增長,網(wǎng)民參與度顯著提升預計到2024年,行業(yè)將出現(xiàn)有影響力的企業(yè),推動市場市億人民幣內(nèi)。2025年,市場將進入商業(yè)模式成熟期,預計至少3家企業(yè)成為獨角獸,市場規(guī)模有望突破200億。2026年起,市場將進入快速增長期,預計2027年接近千億規(guī)模。網(wǎng)民參與度方面,2022年約有1000萬網(wǎng)民參與AI文生圖,到2023年底,這一數(shù)字將增至5000萬。隨著商業(yè)模式的成熟,2024至2025年,中國AI文生圖網(wǎng)民有望達到1.5至3億,其中許多人將深度參與市場建設。如果2026至2027年市場爆發(fā),網(wǎng)民數(shù)量可能達到5億。"參與網(wǎng)民"包括所有接觸、了解、使用AI繪畫功能、平臺、工具或產(chǎn)圖表4:AI文生圖市場規(guī)模及網(wǎng)民參與度5億千億級5億200億+2026-1.5-3億200億+2026-1.5-3億摸索期2024-摸索期2024-2025年2023年2022-2023年資料來源:《中國AIGC文生圖產(chǎn)業(yè)白皮書》、研究所星老虎,背上有一只休息的鳥,攻擊姿迷人的k-pop女孩的自拍,戶外,晚上,黑發(fā),休閑傻笑,2個發(fā)髻綁的發(fā)型勢,光和金色的粒子在空中發(fā)射版權(quán)所有發(fā)送給..p102.2.1發(fā)展歷程:技術(shù)更迭帶動行業(yè)發(fā)展,擴散模型成為主流技術(shù)路徑技術(shù)更迭帶動行業(yè)發(fā)展,擴散模型成為主流技術(shù)路徑。在發(fā)展早期階段,主要依靠圖像進行拼接形成視頻;在2016年GAN及VAE開始興起,給文生視頻的發(fā)展奠定了基礎,這兩者均是生成模型,原理是學習數(shù)據(jù)的概率分布并生成類似于訓練數(shù)據(jù)的新數(shù)據(jù),而GAN能夠生成更高質(zhì)量的數(shù)據(jù),但也伴隨著穩(wěn)定性較差、生成圖像缺乏多樣性問題具有明確的密度建模和穩(wěn)定的訓練優(yōu)勢,而行業(yè)真正興起點在于將擴散模型在文生圖領(lǐng)域經(jīng)驗拓展至文生視頻,成為AI視頻生成領(lǐng)域的主流技術(shù)路徑,帶動行業(yè)產(chǎn)品推出頻率及數(shù)量顯著提升,例如Runway的GEN-3、Pika1.0、OpenAI的Sora、快手的可圖表6:AI文生視頻發(fā)展歷程2024.02OpenAl發(fā)布Sora圖像拼接生成階段圖像拼接生成階段2019年至今2024年2023年GAN/VAE生成階段2016-2019年2023年2.2.2市場規(guī)模:發(fā)展存在一定挑戰(zhàn),市場潛力可期相較于AI文生圖來說,文生視頻發(fā)展較為緩慢,目前市場仍處于初期階段,主要挑戰(zhàn)在于:1)缺乏相符性高的訓練數(shù)據(jù),視頻與文本相符性高的大規(guī)模數(shù)據(jù)集較少,獲取成本及定點標注成本較為高昂,模型訓練將會受到阻礙;2)計算成本高昂,視頻制作時間長短決定了幀數(shù)多少,為確保幀間空間和時間邏輯保持一致性,從而需要大量的計算資源,訓練模型的成本高昂;3)信息冗雜難處理,視頻具有多場景、多任務、視覺動態(tài)等特性,信息冗雜,處理難度較高。根據(jù)GIR(G1obalInfoResearch)調(diào)研,2023年全球文生視頻大模型收入大約為720萬美元,預計2030年達到22.19億美元,2024至2030期間,年復合增長率CAGR有望達到56.6%,市場潛力可期。2.2.3產(chǎn)品:新品推出受到市場關(guān)注,創(chuàng)新點賦能行業(yè)發(fā)展新品推出受到市場關(guān)注,創(chuàng)新點賦能行業(yè)發(fā)展。目前市場上受到關(guān)注度較高的文生視頻產(chǎn)品分別是來自0penAI的Sora、Pika1.0、近期快手推出的可靈、LumaAI推出的DreamMachine以及Runway推出的GEN-3,從創(chuàng)新點來看,快手的可靈可為已生成的視頻(含文生視頻及圖生視頻)提供便捷的一鍵續(xù)寫和連續(xù)多次續(xù)寫,將視頻最長可延伸至約3分鐘,在確保新生成部分與原視頻間的運動連貫性及物理合理性的同時,還能巧妙融入大幅度的動作變化,提升視頻的生動性;LumaAI的DreamMachine則是支持物理模擬,生成具有真實物理特性的視頻,如重力下落、碰撞和光影變化等,從而版權(quán)所有發(fā)送給..pl1圖表8:文生視頻相關(guān)產(chǎn)品模型名稱研發(fā)機構(gòu)視頻長度競爭優(yōu)勢局限性SoraOpenAI60秒一物理原理和時間推移的模擬方面還不完善;-在生成視頻的時長上出現(xiàn)了飛躍式-一些物理過程仍不能完美模擬的進步,從原有的單次2-4s左右提(如玻璃破碎);升至最大60s,使AI生成視頻真正-有時不能準確模擬出視頻中人和具有了一定的生產(chǎn)力價值;物的交互-較長時間的視頻中“穿幫”鏡頭也偶有出現(xiàn)。GEN-3Runway10秒-通過文本、圖像、視頻混合的訓練模式,提高了生成視頻的質(zhì)量和一致性,同時還降低了訓練消耗;-操作界面相對復雜,對于初學者-Runway提出了延時擴散模型,在預可能有一定的學習曲線;訓練的擴散模型中引入時序?qū)?,使?對于復雜語句的理解可能出現(xiàn)偏模型在推理階段具有更高的時間一差。-相比于GEN-2,時長升級至10秒,版權(quán)所有發(fā)送給..p12萬聯(lián)證券證券研究報告藝術(shù)性審美更強,光線及光影把控更加細節(jié)。Pika1.03-7秒-生成的視頻在邏輯連貫性、流暢性、畫質(zhì)和風格準確性上有明顯優(yōu)勢;-Pikalabs1.0能夠支持對于視頻實時編輯和修改。-少數(shù)視缺少真實感。-可為已生成的視頻(含文生視頻及可靈快手5秒圖生視頻)提供便捷的一鍵續(xù)寫和連續(xù)多次續(xù)寫,將視頻最長可延伸至約-融入了提示詞融合技術(shù),深化了對圖像語義與用戶指令的理解整合。這-人物運動過大時,會出現(xiàn)臉部和身體的失真;-細節(jié)表現(xiàn)不太完美。意味著,模型能夠根據(jù)用戶提供的不同文本指令,精妙地變換視頻中的動態(tài)表現(xiàn)。DreamMachineLumaAI5秒-支持物理模擬,生成具有真實物理特性的視頻,如重力下落、碰撞和光影變化等;-在運動流暢度和電影及戲劇效果上表現(xiàn)出色。-可控性有限:在演員表現(xiàn)、攝影機調(diào)度和畫面控制方面的可控性有限,尤其是在處理復雜情節(jié)和多人物交互場景時;-風格局限性:LumaAI在某些特定風格(如國風、玄幻風格)的表現(xiàn)上不盡人意,且穩(wěn)定性有待加強。版權(quán)所有發(fā)送給..p13法、語音識別和合成技術(shù)的研化。經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡如生成對抗網(wǎng)絡(GAN)和自編網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN),能夠準術(shù)成的音樂更加流暢和自然,也使得音樂的情感表達更加豐富和細膩,同時關(guān)注到0圖表13:AI音頻相關(guān)產(chǎn)品模型名稱研發(fā)機構(gòu)分類研發(fā)機構(gòu)分類介紹介紹其能夠根據(jù)用戶的簡單提示,基本的創(chuàng)作需求,如音樂風格、情感氛圍等,一次性完成歌詞、演唱、編曲、配樂等全部流程,得SunoV3SunoAI音樂生成益于與0penAI合作,Suno模型負責生成音樂,而ChatGPT則負責生成歌詞及標題。相較于V3版本,最長片段長度擴展至4分鐘,增加了對2分鐘歌曲的拓展功能,在歌曲結(jié)構(gòu)的處理上進行了重大改進,使得生成的音樂更加流暢和自然。StableAudio2.0StabilityAI音樂生成通過文本至音頻和音頻至音頻的雙重提示功能,用戶能夠制作旋律、伴奏軌、音軌分離和音效,從而提升創(chuàng)作流程。與其他頂尖模型相比,StableAudio2.0的獨特之處在于其能夠生成最長達三分鐘的完整歌曲,包括具有引入、發(fā)展和尾聲的結(jié)構(gòu)化作曲,以及立體聲音效。Riffusion(試用)ElevenLabs音樂生成(匹配視利用人工智能技術(shù),可以為視頻添加逼真的音效,從而增強視頻的沉浸感。Riffusion基于擴散模型,通過分析視頻中的視覺元素,如物體運動和場景變化,自動生成與之匹配的音效。用戶只需輸入一段視頻,Riffusion就能識別視頻內(nèi)容,并生成同步的音效,如腳步聲、開門聲、雨聲等。V2A(Video-to-Audio)(未公開發(fā)音樂生成GoogleDeepMind(匹配視能根據(jù)畫面內(nèi)容或者手動輸入的提示詞直接為視頻配音,可以為任何視頻輸入生成無限數(shù)量的音軌。導入視頻自動音頻之后,也能夠根據(jù)提示詞生成所需的音頻,使用者可以通過輸入“正面提示詞”來引導模型輸出所需的聲音,或輸入“負面提示詞”來引導其避免出現(xiàn)不需要的聲音,無需人工對齊音頻視頻,而是可版權(quán)所有發(fā)送給..p15以直接自動將音頻與畫面對齊。由Google研發(fā)的神經(jīng)網(wǎng)絡架構(gòu),主要用于語音合成。它是Tacotron的升級版本,它結(jié)合了上一代Tacotron和WaveNetTacotron2Google語音合成(一種時域波形生成模型,可模擬任何人類聲音的語音),不需要輸入復雜的語法和語音特征,用經(jīng)過訓練的神經(jīng)網(wǎng)絡模型,即可根據(jù)文本生成類似人類的語音??梢陨扇祟惵曇舻娜斯ぶ悄芄ぞ?。專注于生成逼真的、類似人ResembleAIInc語音合成類的語音。它可以從你提供的文本到語音、語音到語音、神經(jīng)音頻編輯、語言配音、情感、實時語音克隆、能夠從少量的語音樣本中捕捉到個體聲音的獨特之處,并創(chuàng)建出高質(zhì)量的人聲克隆效果。語音合成是一個開源的人工智能歌聲合成器項目。能模擬真人歌手嗓音,能夠?qū)⒁粋€人的歌聲轉(zhuǎn)換為另一個人的風格,同時保留歌曲的旋律和節(jié)奏。通常被用于音樂制作、歌聲合成和虛擬偶像的開發(fā)等領(lǐng)域,例如AI孫燕姿。昆侖萬維昆侖萬維成、音樂生成基于昆侖萬維強大的「天工3.0」超級大模型,采用先進的Sora模型架構(gòu),特別優(yōu)化了視頻、音頻和音樂的處理能力。這一技術(shù)突破,使得「天工SkyMusic」能夠生成長達80秒、采樣率高達44100Hz的高品質(zhì)音樂,同時在人聲合成技術(shù)上達到了行業(yè)領(lǐng)先的SOTA(技術(shù)前沿)標準。是科大訊飛推出的一款智能語音識別與轉(zhuǎn)寫軟件,它能夠?qū)⒄Z訊飛聽見科大訊飛語音識別音內(nèi)容實時轉(zhuǎn)化為文字,并支持多種語言識別。這款工具不僅廣泛應用于各種會議和講座場景,更在教學領(lǐng)域展現(xiàn)出巨大的潛力。版權(quán)所有發(fā)送給..p16圖表14:生成式AI應用內(nèi)容示意圖的物的物人臉美妝人臉融合黑白圖像上色圖像風格轉(zhuǎn)換人像屬性變換(年齡、性別)虛擬歌姬虛擬網(wǎng)紅演員角色年齡的跨越虛擬物理場景合成主播能播報商品3D模型生成采訪助手寫稿機器人智能視頻拆條視頻錦集視頻字幕生成虛擬商城構(gòu)建合成歷史人物視頻虛擬教師線上課堂音視頻處理醫(yī)學圖像處理營銷視頻合成智能金融客服VR金融場景構(gòu)建替換“劣跡藝人”多語言譯制片音畫同步影視作品修復影視預告片生成影視內(nèi)容20轉(zhuǎn)3D輔助工程設計加速數(shù)字攣生系統(tǒng)構(gòu)建智能病歷錄入合成肢體投

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論