大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐_第1頁(yè)
大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐_第2頁(yè)
大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐_第3頁(yè)
大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐_第4頁(yè)
大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

優(yōu)酷「AI劇組」:大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐苗

園阿里巴巴

優(yōu)酷產(chǎn)品技術(shù)中心

算法專家2024

/

06

/

29目錄a2m.msup.com.cn1.

案例簡(jiǎn)介整體框架核心挑戰(zhàn)關(guān)鍵技術(shù)關(guān)鍵實(shí)踐案例簡(jiǎn)介a2m.msup.com.cn隨著人工智能技術(shù)的迅猛發(fā)展,尤其是大型預(yù)訓(xùn)練模型在自然語(yǔ)言處理和多模態(tài)學(xué)習(xí)領(lǐng)域所取得的重大進(jìn)展,短視頻內(nèi)容的AIGC正在變得越來(lái)越可行和流行。模仿影視行業(yè)的創(chuàng)作過(guò)程,大語(yǔ)言模型可以扮演“編劇”角色,生成不同風(fēng)格、不同類型的高質(zhì)量劇本和文案;多模態(tài)大模型可以扮演“導(dǎo)演”的角色,通過(guò)開(kāi)放式的語(yǔ)義理解來(lái)實(shí)現(xiàn)精準(zhǔn)的跨模態(tài)匹配;基于大模型的應(yīng)用和自研,還可以進(jìn)一步抽象出提示劇情要點(diǎn)的“場(chǎng)務(wù)”(懸掛詞)、突出畫面重點(diǎn)的“特效師”(素材打標(biāo)),等等。最后,將這些技術(shù)能力構(gòu)建成自動(dòng)化、流程化、平臺(tái)化的智能生產(chǎn)鏈路,我們就具備了一個(gè)短視頻創(chuàng)作的“AI劇組”,產(chǎn)量更大、效果穩(wěn)定、時(shí)效更強(qiáng)、成本更低。a2m.msup.com.cn案例簡(jiǎn)介案例簡(jiǎn)介《新聞女王》劇情解說(shuō)《新聞女王》劇情整剪a2m.msup.com.cn《鄉(xiāng)村愛(ài)情》搞笑解說(shuō)《異人之下》唱式解說(shuō)《秦時(shí)明月》高能混剪《與君初相識(shí)》CP看點(diǎn)整體框架傳統(tǒng)劇組AI劇組1、影視文案生成:基于RAG的結(jié)構(gòu)化長(zhǎng)文本生成a2m.msup.com.cn2、分鏡腳本生成:抽取多槽位元素的鏡頭語(yǔ)言3、視頻片段匹配:多模態(tài)語(yǔ)義理解與跨模態(tài)時(shí)序匹配4、視頻整體合成:字/音/畫的自動(dòng)剪輯和合成核心挑戰(zhàn)a2m.msup.com.cn最影響短視頻效果的,莫過(guò)于“影視文案”與“視頻畫面”的匹配程度。兩個(gè)核心挑戰(zhàn):1、中文自然語(yǔ)言的表意復(fù)雜性和多樣性。中文具有“一意多詞”的特性,表達(dá)習(xí)慣也更加隱晦、曲折,在技術(shù)上會(huì)造成語(yǔ)義向量空間稀疏、離群點(diǎn)較多,影響跨模態(tài)匹配的準(zhǔn)確性。2、影視領(lǐng)域化表達(dá)的未見(jiàn)性。很多領(lǐng)域知識(shí)是大模型在預(yù)訓(xùn)練階段未見(jiàn)的,如影視節(jié)目、角色、動(dòng)作等,在影視內(nèi)容的匹配上容易效果不好,尤其是古裝劇、科幻劇等領(lǐng)域?qū)S斜磉_(dá)較多的節(jié)目。自研算法能力:腳本生成自研LLM:自動(dòng)及人工標(biāo)注收集的領(lǐng)域語(yǔ)料,基于開(kāi)源LLM框架進(jìn)行多模態(tài)匹配自研QVH:基于優(yōu)酷知識(shí)圖譜及人工標(biāo)注的領(lǐng)域數(shù)據(jù),基于開(kāi)源多模態(tài)框架進(jìn)行SFT關(guān)鍵技術(shù)

影視文本生成重要性:一個(gè)內(nèi)容準(zhǔn)確、故事清晰、有一定結(jié)構(gòu)的文案作為劇本串聯(lián)起整個(gè)視頻常見(jiàn)類型:解說(shuō)文案:解說(shuō)視頻中用戶的主要輸入,是視頻內(nèi)容發(fā)展的主線,決定了視頻的質(zhì)量和風(fēng)格懸掛詞:整剪視頻中點(diǎn)睛之筆,對(duì)亮點(diǎn)劇情、重要情節(jié)起到提示、轉(zhuǎn)折作用,幫助用戶理解技術(shù)路徑:LLM

[文本生成能力]+CoT

[偏好指令理解]+RAG

[領(lǐng)域知識(shí)引入]+Few-Shot

[示例學(xué)習(xí)]a2m.msup.com.cn關(guān)鍵技術(shù)

分鏡腳本生成直接使用文案去匹配視頻片段面臨的問(wèn)題:領(lǐng)域化適配問(wèn)題。影視領(lǐng)域的節(jié)目、人物、專有名詞無(wú)法進(jìn)行理解和匹配。中文理解問(wèn)題。中文表述復(fù)雜、表意含蓄,對(duì)視頻內(nèi)容理解容易造成干擾。重點(diǎn)偏差問(wèn)題。多模態(tài)大模型會(huì)根據(jù)自己的理解識(shí)別核心語(yǔ)義和視覺(jué)重點(diǎn),造成偏差。a.

智能分鏡b.

自研多要素腳本大模型自然語(yǔ)言鏡頭語(yǔ)言a2m.msup.com.cn關(guān)鍵技術(shù)

視頻片段匹配過(guò)往解法:通過(guò)閉集標(biāo)簽來(lái)連接文案和畫面缺點(diǎn):標(biāo)簽有限,新增需重新訓(xùn)練丟失畫面信息,無(wú)臺(tái)詞畫面無(wú)法匹配丟失時(shí)序信息,視頻≠concat(畫面)解說(shuō)文案:臺(tái)詞字幕何珊開(kāi)始懷疑費(fèi)可是個(gè)騙子典型做法:tag2tag

/

text_emb

x

text_emb內(nèi)容向量表征語(yǔ)義空間對(duì)齊視頻時(shí)序定位SOTA解法多模態(tài)匹配:典型做法:跨模態(tài)語(yǔ)義理解和匹配VideoEnc.a2m.msup.com.cn關(guān)鍵技術(shù)

視頻片段匹配自研多模態(tài)匹配模型面臨問(wèn)題:領(lǐng)域數(shù)據(jù)差異畫面差異:預(yù)訓(xùn)練數(shù)據(jù)偏生活日常(行人、景點(diǎn)等),影視內(nèi)容有更多特色畫面(布景、特效、虛化)鏡頭差異:影視內(nèi)容常見(jiàn)場(chǎng)景交叉穿插、鏡頭快速切換,靠劇情而非視覺(jué)信息串聯(lián)視頻時(shí)序語(yǔ)義差異:同一個(gè)實(shí)體/關(guān)鍵詞等在不同類型影視劇中有不同畫面形式專有名詞:

預(yù)訓(xùn)練數(shù)據(jù)是通過(guò)預(yù)設(shè)實(shí)體集合進(jìn)行打標(biāo),與影視領(lǐng)域的專有名詞存在較大差異挑戰(zhàn):訓(xùn)練樣本構(gòu)建容易:獲取視頻片段難點(diǎn)1:批量構(gòu)造文本難點(diǎn)2:視頻與文本的樣本對(duì)齊模型算法指標(biāo):mAP:9.45(+55.94%),IoU:16.71(-2.74%)人工GSB評(píng)測(cè):120:489:79a2m.msup.com.cn關(guān)鍵技術(shù)視頻整體合成智能裁剪字幕擦除應(yīng)淵人物原聲否則,我只能順應(yīng)天命,除魔衛(wèi)道。應(yīng)淵模型音色如今魔族內(nèi)亂已平,被盜法器盡數(shù)追回,已錄入了妙法閣.此戰(zhàn),天兵死傷一千,天將折損兩名,火德元帥正在天醫(yī)館探慰傷員。音色定制a2m.msup.com.cn關(guān)鍵技術(shù)工程化改造:工具而非“玩具”提升生產(chǎn)效率和產(chǎn)能分布式任務(wù)編排系統(tǒng):生產(chǎn)流程拆分、單機(jī)研發(fā)服務(wù)模式、多流程并發(fā)在線:Pipeline任務(wù)框架提升生產(chǎn)穩(wěn)定性模型推理優(yōu)化任務(wù)邏輯整合基礎(chǔ)研發(fā)環(huán)境結(jié)果:?jiǎn)我曨l生產(chǎn)耗時(shí)30min->6min,單機(jī)產(chǎn)能1000個(gè)視頻/天a2m.msup.com.cn關(guān)鍵實(shí)踐1個(gè)性化素材生產(chǎn)&分發(fā)易烊千璽女性

|

25-30歲

|

易烊千璽粉王一博女性

|

18-25歲

|

王一博粉街舞男性

|

18-25歲

|

街舞粉ADVANTAGE【規(guī)?;緽illion

Scale數(shù)據(jù),人力無(wú)法完成【個(gè)性化】千人千面,海量素材中挑選你喜歡的視頻,效率大幅提升【標(biāo)準(zhǔn)化】標(biāo)準(zhǔn)化生產(chǎn)及評(píng)估流程,閉環(huán)數(shù)據(jù)鏈路可持續(xù)提升能力和效果【輔助創(chuàng)作】為「優(yōu)酷號(hào)」創(chuàng)作者提供素材的內(nèi)容占比

95%【應(yīng)用】每日處理優(yōu)酷百萬(wàn)級(jí)以上短視頻個(gè)性化分發(fā)海量素材提取自動(dòng)合成/裁剪質(zhì)量評(píng)估就是街舞第三季

總決賽易烊千璽

回歸大秀炸場(chǎng)a2m.msup.com.cn就是街舞第三季

總決賽王一博

戰(zhàn)隊(duì)楊凱奪冠就是街舞第三季

總決賽巔峰對(duì)決

燃炸全場(chǎng)關(guān)鍵實(shí)踐2

規(guī)模化自動(dòng)生產(chǎn)站外宣發(fā)提升生產(chǎn)效率保障生產(chǎn)質(zhì)量分發(fā)數(shù)據(jù)驅(qū)動(dòng)生產(chǎn)前情提要節(jié)目周邊高能看點(diǎn)供給效率低采買費(fèi)用有限用戶需求感知慢業(yè)務(wù)痛點(diǎn)核心解法內(nèi)容介質(zhì)獲取自動(dòng)化模板生產(chǎn)+內(nèi)容評(píng)估策略全自動(dòng)鏈路上傳熱點(diǎn)監(jiān)控+自動(dòng)下單自動(dòng)補(bǔ)貨策略應(yīng)用場(chǎng)景長(zhǎng)帶短、短帶長(zhǎng)背景下的智能生產(chǎn),降本增效、低成本定向生產(chǎn)內(nèi)容a2m.msup.com.cn生產(chǎn)對(duì)象生產(chǎn)工具生產(chǎn)力關(guān)鍵實(shí)踐3外投拉新促活a2m.msup.com.cn關(guān)鍵實(shí)踐4優(yōu)酷內(nèi)容出海a2m.msup.com.cn關(guān)鍵實(shí)踐5優(yōu)酷自制短劇更多AI自制劇排播中……a2m.msup.com.cn謝謝觀

看a2m.msup.com.cnTHANKS麥思博(ms

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論