版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
優(yōu)酷「AI劇組」:大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐苗
園阿里巴巴
優(yōu)酷產(chǎn)品技術(shù)中心
算法專家2024
/
06
/
29目錄a2m.msup1.
案例簡介整體框架核心挑戰(zhàn)關(guān)鍵技術(shù)關(guān)鍵實(shí)踐案例簡介a2m.msup隨著人工智能技術(shù)的迅猛發(fā)展,尤其是大型預(yù)訓(xùn)練模型在自然語言處理和多模態(tài)學(xué)習(xí)領(lǐng)域所取得的重大進(jìn)展,短視頻內(nèi)容的AIGC正在變得越來越可行和流行。模仿影視行業(yè)的創(chuàng)作過程,大語言模型可以扮演“編劇”角色,生成不同風(fēng)格、不同類型的高質(zhì)量劇本和文案;多模態(tài)大模型可以扮演“導(dǎo)演”的角色,通過開放式的語義理解來實(shí)現(xiàn)精準(zhǔn)的跨模態(tài)匹配;基于大模型的應(yīng)用和自研,還可以進(jìn)一步抽象出提示劇情要點(diǎn)的“場務(wù)”(懸掛詞)、突出畫面重點(diǎn)的“特效師”(素材打標(biāo)),等等。最后,將這些技術(shù)能力構(gòu)建成自動(dòng)化、流程化、平臺(tái)化的智能生產(chǎn)鏈路,我們就具備了一個(gè)短視頻創(chuàng)作的“AI劇組”,產(chǎn)量更大、效果穩(wěn)定、時(shí)效更強(qiáng)、成本更低。a2m.msup案例簡介案例簡介《新聞女王》劇情解說《新聞女王》劇情整剪a2m.msup《鄉(xiāng)村愛情》搞笑解說《異人之下》唱式解說《秦時(shí)明月》高能混剪《與君初相識(shí)》CP看點(diǎn)整體框架傳統(tǒng)劇組AI劇組1、影視文案生成:基于RAG的結(jié)構(gòu)化長文本生成a2m.msup2、分鏡腳本生成:抽取多槽位元素的鏡頭語言3、視頻片段匹配:多模態(tài)語義理解與跨模態(tài)時(shí)序匹配4、視頻整體合成:字/音/畫的自動(dòng)剪輯和合成核心挑戰(zhàn)a2m.msup最影響短視頻效果的,莫過于“影視文案”與“視頻畫面”的匹配程度。兩個(gè)核心挑戰(zhàn):1、中文自然語言的表意復(fù)雜性和多樣性。中文具有“一意多詞”的特性,表達(dá)習(xí)慣也更加隱晦、曲折,在技術(shù)上會(huì)造成語義向量空間稀疏、離群點(diǎn)較多,影響跨模態(tài)匹配的準(zhǔn)確性。2、影視領(lǐng)域化表達(dá)的未見性。很多領(lǐng)域知識(shí)是大模型在預(yù)訓(xùn)練階段未見的,如影視節(jié)目、角色、動(dòng)作等,在影視內(nèi)容的匹配上容不好,尤其是古裝劇、科幻劇等領(lǐng)域?qū)S斜磉_(dá)較多的節(jié)目。自研算法能力:腳本生成自研LLM:自動(dòng)及人工標(biāo)注收集的領(lǐng)域語料,基于開源LLM框架進(jìn)行多模態(tài)匹配自研QVH:基于優(yōu)酷知識(shí)圖譜及人工標(biāo)注的領(lǐng)域數(shù)據(jù),基于開源多模態(tài)框架進(jìn)行SFT關(guān)鍵技術(shù)
影視文本生成重要性:一個(gè)內(nèi)容準(zhǔn)確、故事清晰、有一定結(jié)構(gòu)的文案作為劇本串聯(lián)起整個(gè)視頻常見類型:解說文案:解說視頻中用戶的主要輸入,是視頻內(nèi)容發(fā)展的主線,決定了視頻的質(zhì)量和風(fēng)格懸掛詞:整剪視頻中點(diǎn)睛之筆,對(duì)亮點(diǎn)劇情、重要情節(jié)起到提示、轉(zhuǎn)折作用,幫助用戶理解技術(shù)路徑:LLM
[文本生成能力]+CoT
[偏好指令理解]+RAG
[領(lǐng)域知識(shí)引入]+Few-Shot
[示例學(xué)習(xí)]a2m.msup關(guān)鍵技術(shù)
分鏡腳本生成直接使用文案去匹配視頻片段面臨的問題:領(lǐng)域化適配問題。影視領(lǐng)域的節(jié)目、人物、專有名詞無法進(jìn)行理解和匹配。中文理解問題。中文表述復(fù)雜、表意含蓄,對(duì)視頻內(nèi)容理解容干擾。重點(diǎn)偏差問題。多模態(tài)大模型會(huì)根據(jù)自己的理解識(shí)別核心語義和視覺重點(diǎn),造成偏差。a.
智能分鏡b.
自研多要素腳本大模型自然語言鏡頭語言a2m.msup關(guān)鍵技術(shù)
視頻片段匹配過往解法:通過閉集標(biāo)簽來連接文案和畫面缺點(diǎn):標(biāo)簽有限,新增需重新訓(xùn)練丟失畫面信息,無臺(tái)詞畫面無法匹配丟失時(shí)序信息,視頻≠concat(畫面)解說文案:臺(tái)詞字幕何珊開始懷疑費(fèi)可是個(gè)騙子典型做法:tag2tag
/
text_emb
x
text_emb內(nèi)容向量表征語義空間對(duì)齊視頻時(shí)序定位SOTA解法多模態(tài)匹配:典型做法:跨模態(tài)語義理解和匹配VideoEnc.a2m.msup關(guān)鍵技術(shù)
視頻片段匹配自研多模態(tài)匹配模型面臨問題:領(lǐng)域數(shù)據(jù)差異畫面差異:預(yù)訓(xùn)練數(shù)據(jù)偏生活日常(行人、景點(diǎn)等),影視內(nèi)容有更多特色畫面(布景、特效、虛化)鏡頭差異:影視內(nèi)容常見場景交叉穿插、鏡頭快速切換,靠劇情而非視覺信息串聯(lián)視頻時(shí)序語義差異:同一個(gè)實(shí)體/關(guān)鍵詞等在不同類型影視劇中有不同畫面形式專有名詞:
預(yù)訓(xùn)練數(shù)據(jù)是通過預(yù)設(shè)實(shí)體集合進(jìn)行打標(biāo),與影視領(lǐng)域的專有名詞存在較大差異挑戰(zhàn):訓(xùn)練樣本構(gòu)建容易:獲取視頻片段難點(diǎn)1:批量構(gòu)造文本難點(diǎn)2:視頻與文本的樣本對(duì)齊模型算法指標(biāo):mAP:9.45(+55.94%),IoU:16.71(-2.74%)人工GSB評(píng)測(cè):120:489:79a2m.msup關(guān)鍵技術(shù)視頻整體合成智能裁剪字幕擦除應(yīng)淵人物原聲否則,我只能順應(yīng)天命,除魔衛(wèi)道。應(yīng)淵模型音色如今魔族內(nèi)亂已平,被盜法器盡數(shù)追回,已錄入了妙法閣.此戰(zhàn),天兵死傷一千,天將折損兩名,火德元帥正在天醫(yī)館探慰傷員。音色定制a2m.msup關(guān)鍵技術(shù)工程化改造:工具而非“玩具”提升生產(chǎn)效率和產(chǎn)能分布式任務(wù)編排系統(tǒng):生產(chǎn)流程拆分、單機(jī)研發(fā)服務(wù)模式、多流程并發(fā)在線:Pipeline任務(wù)框架提升生產(chǎn)穩(wěn)定性模型推理優(yōu)化任務(wù)邏輯整合基礎(chǔ)研發(fā)環(huán)境結(jié)果:單視頻生產(chǎn)耗時(shí)30min->6min,單機(jī)產(chǎn)能1000個(gè)視頻/天a2m.msup關(guān)鍵實(shí)踐1個(gè)性化素材生產(chǎn)&分發(fā)璽女性
|
25-30歲
|
璽粉女性
|
18-25歲
|
粉街舞男性
|
18-25歲
|
街舞粉ADVANTAGE【規(guī)?;緽illion
Scale數(shù)據(jù),人力無法完成【個(gè)性化】千人千面,海量素材中挑選你喜歡的視頻,效率大幅提升【標(biāo)準(zhǔn)化】標(biāo)準(zhǔn)化生產(chǎn)及評(píng)估流程,閉環(huán)數(shù)據(jù)鏈路可持續(xù)提升能力和效果【輔助創(chuàng)作】為「優(yōu)酷號(hào)」創(chuàng)的內(nèi)容占比
95%【應(yīng)用】每日處理優(yōu)酷百萬級(jí)以上短視頻個(gè)性化分發(fā)海量素材提取自動(dòng)合成/裁剪質(zhì)量評(píng)估就是街舞第三季
總決賽璽
回歸大秀炸場a2m.msup就是街舞第三季
總決賽
戰(zhàn)隊(duì)冠就是街舞第三季
總決賽巔峰對(duì)決
燃炸全場關(guān)鍵實(shí)踐2
規(guī)?;詣?dòng)生產(chǎn)站外宣發(fā)提升生產(chǎn)效率保障生產(chǎn)質(zhì)量分發(fā)數(shù)據(jù)驅(qū)動(dòng)生產(chǎn)前情提要節(jié)目高能看點(diǎn)供給效率低采買費(fèi)用有限用戶需求感知慢業(yè)務(wù)痛點(diǎn)核心解法內(nèi)容介質(zhì)獲取自動(dòng)化模板生產(chǎn)+內(nèi)容評(píng)估策略全自動(dòng)鏈路上傳熱點(diǎn)監(jiān)控+自動(dòng)下單自動(dòng)補(bǔ)貨策略應(yīng)用場景長帶短、短帶長背景下的智能生產(chǎn),降本增效、低成本定向生產(chǎn)內(nèi)容a2m.msup生產(chǎn)對(duì)象生產(chǎn)工具生產(chǎn)力關(guān)鍵實(shí)踐3外投拉新促活a2m.msup關(guān)鍵實(shí)踐4優(yōu)酷內(nèi)容出海a2m.msup關(guān)鍵實(shí)踐5優(yōu)酷自制短劇更多AI自制劇排播中……a2m.msup謝謝觀
看a2m.msupTHANKS麥某著名企業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學(xué)二年級(jí)道德與法治上冊(cè)友好交流使用禮貌用語對(duì)話交流課件
- 危重病人的腸內(nèi)營養(yǎng)支持
- 外貿(mào)安全培訓(xùn)課件
- 2026年牡丹江大學(xué)單招綜合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026浙江溫州市樂清市健康醫(yī)療管理集團(tuán)有限公司及下屬子公司招聘4人考試重點(diǎn)題庫及答案解析
- 2026年鄭州電子商務(wù)職業(yè)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 外科知識(shí)教學(xué)課件
- 2026年商丘工學(xué)院單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年運(yùn)城師范高等??茖W(xué)校單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年皖西衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2025年全國茉莉花茶產(chǎn)銷形勢(shì)分析報(bào)告-
- 校本課程篆刻教學(xué)設(shè)計(jì)
- 明確安全生產(chǎn)領(lǐng)導(dǎo)小組的職責(zé)與安全管理體系
- 七年級(jí)下冊(cè)語文必背古詩文(字帖描紅)
- 電儀施工質(zhì)量總結(jié)
- 《甜花香型大葉種工夫紅茶》編制說明
- QSY06503.14-2020石油煉制與化工裝置工藝設(shè)計(jì)包編制規(guī)范 - 副本
- 柜式七氟丙烷-氣體滅火系統(tǒng)-安裝與施工-方案
- 核醫(yī)學(xué)全身骨顯像骨顯像課件
- 昌樂縣鎮(zhèn)區(qū)基準(zhǔn)地價(jià)更新修正體系匯編(完整版)資料
- 項(xiàng)目管理學(xué)課件戚安邦全
評(píng)論
0/150
提交評(píng)論