全景揭秘阿里文娛智能算法

上傳人：策*** IP屬地：山西上傳時間：2025-06-07 格式：DOCX 頁數(shù)：330 大?。?.23MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩325頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

(阿里文娛技術公眾號)加入交流群1)添加“文娛技術小助手”微信3)小助手會拉您進群掃碼關注「阿里技術」獲取更多資訊掃碼獲取更多技術電子書分區(qū)域處理的圖像和視頻清晰化技術6端側(cè)智能算法在優(yōu)酷場景的應用26大千XR-Video技術概述大千XR-Video技術在互動劇上的應用優(yōu)酷視頻換臉技術實踐52基于多模態(tài)內(nèi)容理解的視頻智能裁剪57阿里文娛視頻智能裁剪技術實踐612媒體智能引擎SmartAI媒體智能平臺之推理服務73海量視頻解構(gòu)數(shù)據(jù)全生命周期流轉(zhuǎn)80《長安十二時辰》背后的文娛大腦：如何提升爆款的確定性？1013序序阿里是一家堅信數(shù)據(jù)力量的公司，而文娛涉及的相關產(chǎn)業(yè)非常廣泛，從線上到線下、劇綜漫到現(xiàn)場娛樂以及文學小說等，其組成、形式、展現(xiàn)、分發(fā)的復雜性交織在一起為業(yè)務數(shù)近三年來，阿里文娛摩酷實驗室始終以助力業(yè)務發(fā)展和增長為核心驅(qū)動，形成如下四個的強內(nèi)容解構(gòu)內(nèi)容宣分發(fā)內(nèi)容生產(chǎn)內(nèi)容評估內(nèi)容理解是文娛相關算法技術的基石，IP、小說、劇本、視頻、音樂等不同形態(tài)的內(nèi)容對構(gòu)建起領域知識圖譜帶來了很多困難，在這其中計算機視覺、自然語言處理、圖譜&推理、圖神經(jīng)網(wǎng)絡、多模態(tài)內(nèi)容分析等技術被廣泛應用于內(nèi)容解構(gòu)。以視頻為例，影劇綜視頻的時長很難用一些低層級的標簽來抽象表達其內(nèi)容，基于多模態(tài)的分析技術在這類內(nèi)容上也會碰壁，因此融合內(nèi)容專家及機器學習系統(tǒng)的半自動化微標簽體系成為一種可行的出路。與短視頻快速的核的不確定，這就導致影劇綜內(nèi)容制作高度的不確定性，如何基于復雜的數(shù)據(jù)分析線索以及歷史的成敗規(guī)律來選擇評估內(nèi)容是各個綜合視頻平臺所面臨的核心挑戰(zhàn)之一，而阿里文娛北斗星復雜性導致用戶想精確描述一個內(nèi)容非常困難，僅通過節(jié)目名、演員名去檢索給用戶也造成了很大的困擾。在文娛內(nèi)容的分發(fā)體系中對搜索模式、推薦模式的融合成為新的用戶需求，如何更為準確的通過類強化學習的用戶意圖理解過程來協(xié)助他們盡快找到喜愛的內(nèi)容，成為文娛搜文娛作為產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展的重要行業(yè)，人工智能技術在這個領域中的應用空間廣大，而我們也僅僅是邁出了一小步，期待工程師們能夠創(chuàng)造出更大的奇跡，加速文娛產(chǎn)業(yè)數(shù)字工業(yè)化時5566一、UPGC視頻和圖像質(zhì)量面臨的挑戰(zhàn)在優(yōu)酷這種綜合性的視頻平臺，用戶的觀看體驗永遠是第一位的，而畫質(zhì)是影響觀看體驗的重要因素。對于影視劇來說，畫質(zhì)和拍攝年代有較強相關性，也就是說隨著拍攝設備和技術顯示設備提出更高要求。而對于目前大量增加的UPGC視頻，畫質(zhì)情況卻不容樂觀，U頻來源主要包括兩種：一種是由正片切條產(chǎn)生的短小視頻經(jīng)用戶上傳的，這種情況下，由于用戶使用的片源清晰度無法保證，又經(jīng)過多次的轉(zhuǎn)碼、壓縮、縮放，會導致畫質(zhì)下降，導致壓縮噪聲、塊效應等問題；另一種是用戶拍攝上傳的，雖然目前手機相機成像質(zhì)量越來越好，分辨視頻的封面圖也是由原始視頻截幀得到的，好的封面圖會提升用戶的觀看欲望。如果原視通過影視劇切條得到的UPGC視頻，即前視頻有很強的背景虛化，原片中人臉等重點區(qū)域細節(jié)豐富，經(jīng)常出77基于對業(yè)務場景的深入理解和分析，我們設計出完整的視頻和圖像清晰化解決1.區(qū)域檢測2.分區(qū)域處理策略成強邊緣，而其他區(qū)域仍保持虛化的效果，這樣就造成了“突?！钡男Ч腿说闹饔^認知不88對于影視劇和短小視頻，人臉是用戶關心的重點，所以我們設計了人臉清晰化模型對人臉3.質(zhì)量評估模塊得益于實驗室良好的技術沉淀，我們的線上數(shù)據(jù)都可以打上質(zhì)量分和失真類型，進而和清對于中和差的數(shù)據(jù)依據(jù)失真類型篩選出清晰化模型能處理的部分，并根據(jù)失真程度賦予清晰化4.疊加融合模塊5.視頻清晰化以上是面向圖像的清晰化方案，對于視頻場景我們做了適應性改進。的一致性，我們對增強參數(shù)做了時間平滑。將圖像場景的SISR（單幀超分辨率）模型替換為VSR（視頻超分辨率）模型，增強了對視頻壓縮問題的處理能力。同時，我們構(gòu)建了UP頻質(zhì)量評價數(shù)據(jù)集，并在此基礎上訓練了視頻適量評價模型，將視頻按質(zhì)量分檔，并針對失真991.快速的融合模型方式構(gòu)建的數(shù)據(jù)對的輸入數(shù)據(jù)分布通常跟真實低分辨率圖像或視頻的分布的方式，通過搜集同一場景下不同分辨率相機的圖像，然后通過圖像匹配的方式構(gòu)建訓練數(shù)據(jù)對，這種方式雖然一定程度上能夠讓獲得的低分辨率圖像更加接近真實的低分辨率圖像，但也存在著對齊的問題。比如由于存在非嚴格對齊問題，造成光暈的現(xiàn)象。另外在模型框架下，近幾年也涌現(xiàn)了一些采用非監(jiān)督方式訓練超分辨率。但非監(jiān)督方式跟監(jiān)督方式相比，在效果方面對于銳化而言，通常是采用傳統(tǒng)算法，但傳統(tǒng)算法也存在著一定的問題。比如傳統(tǒng)的經(jīng)典的保邊濾波算法，提取圖像的低頻，進而獲得圖像的高頻信號，但這一類算法由于采用了較復另外一類銳化算法借鑒近幾年大熱的深度學習算法，將保邊濾波提取低頻這一步驟采用深度學習來做，一定程度上緩解了速度的瓶頸，但對噪聲放大問題并沒有得到很好的解決。另外一種是采用超分辨率和銳化相結(jié)合的方式，常見的做法是采用深度學習進行超分辨率，然后結(jié)像還有一定的距離，因此需要采用銳化進一步提升清晰度。但由于采用了先進行超分辨率，然快，也很難達到實時處理的要求。為了解決這個問題，我們采用快速融合模型的方式，即采用單個深度學習網(wǎng)絡，同時學習超分辨率和銳化，可以在基本不損失效果的基礎上，速度得到很2.人臉清晰化線上的大量素材和長短視頻大部分以人像為主體，人像的清晰程度是影響用戶視覺體驗的我們對比了單模型和多個尺度模型效果，多個尺度模型的還原度的模糊退化問題，模糊程度較高時還原結(jié)果會存在較多失真紋理，因此單獨訓練了一個模糊4）選取相應尺度增強模型，通過人臉增強模塊，得到高清和判別器（Discriminator）兩部分組成，生成網(wǎng)絡使用了稠密連接的Residual-in-R Dra(sr,hr)=D(f(sr)-f(E(hr)) LP=-z(log(Dra(sr,sr)))真紋理的產(chǎn)生。為了解決大尺度人臉清晰度還原不足問題，使用特征金字塔結(jié)構(gòu)融合多尺度信息以提升增強穩(wěn)定性。針對短視頻場景，使用輕量化模型提升模塊速度，達到50ms/幀，并對3.VSR模型深度學習視頻超分辨率技術通常分為兩種，一種是單幀超分辨率，另外一種是多幀超分辨單幀超分辨率速度通常較快，但很難解決前后幀連續(xù)性的問題，從而導致畫面的閃爍，導致人的主觀感受較差。多幀超分辨率算法，一方面可以很好的解決前后幀連續(xù)性的問題，另外一方面由于利用了多幀的信息進行處理，在主觀效果上要明顯好于單幀算法。多幀超分辨率技因此對于優(yōu)酷場景，需要在對視頻進行分辨率提升的同時，能夠有效的解決壓縮、噪聲等視頻在數(shù)據(jù)處理方面，一方面，我們采用GAN網(wǎng)絡等設擬優(yōu)酷場景下的視頻降質(zhì)過程。另外一方面我們從優(yōu)酷有版權(quán)視頻庫中獲取同一視頻的不同分辨率視頻，并對視頻進行匹配和清洗，從而構(gòu)建貼合優(yōu)酷業(yè)務場景的訓練數(shù)據(jù)集。在模型結(jié)構(gòu)設計上，為了解決分辨率不足的問題，我們借鑒我們借鑒傳統(tǒng)視頻多幀算法，引入了多幀對齊模塊，并頻進行了分區(qū)域處理。為了解決噪聲問題，我們借鑒傳統(tǒng)的頻譜分解方式，在網(wǎng)絡結(jié)構(gòu)中加入塊的網(wǎng)絡結(jié)構(gòu)，在優(yōu)酷業(yè)務數(shù)據(jù)集上訓練后，對優(yōu)酷場景下視頻面臨的噪聲、壓縮、低分辨率1.去除壓縮導致的噪聲問題（建議放大觀看）原圖2.算法采用分區(qū)處理，重點優(yōu)化文字、人臉等區(qū)域,提升畫面清晰度原圖原圖3.用于素材海報圖的清晰度提升原圖.改進思路。采取分區(qū)域處理的策略，對不同的區(qū)域分別處理，對文字、logo、人臉等區(qū)域效果尤其明顯，人臉達到了分毫畢現(xiàn)，毛發(fā)和紋理細節(jié)得到了恢復。我們提出了自己的質(zhì)量評價模算法的進步是永無止境的，當前各種算法技術也是層出不窮，如何把算法融會貫通并加以改進，應用于我們的業(yè)務場景，讓算法發(fā)揮最視覺對比敏感度函數(shù)（ContrastSensitiveFunction,CSF）和恰可失真門限（JustNoticeable清，HDR，AR/VR等視頻處理技術形成閉環(huán)，指導其優(yōu)化最終達到增強用戶觀看體驗的目的。最終受體，視覺質(zhì)量也因此稱為visualperceptualquality，即，只是視覺上的效果極差這里不做討論）的興起導致行業(yè)內(nèi)必須重新對視覺質(zhì)量進行定義。在立體視頻中，除SystemsandServices）發(fā)布了關于視頻體驗質(zhì)量的白皮書，里面orannoyanceoftheuserofanapplicationorservice.Itresultsfrexpectationswithrespecttotheutilityand/orenjoymentofththeuser’spersonalityandcur本人當前的狀態(tài)（例如，情緒，生理狀態(tài)）而有所改為什么要做質(zhì)量評價？因為用戶的觀看體驗永遠是第一位。而在整個視頻從獲取，處理，化相對應的算法實現(xiàn)，進而實現(xiàn)每一個階段算法效果的提升人給出的分不一樣，在不同環(huán)境下看給的分不一樣，放到電視上去看或者放到手機、平板上看質(zhì)量不一樣。甚至，離遠了近了去看質(zhì)量也不一樣。為了解決這個多影響因素的問題，視頻質(zhì)一系列的標準中，規(guī)定了測試視頻質(zhì)量的標準實驗流程，包括人員篩選，實驗環(huán)境，實驗方法1.標準測試環(huán)境低2.測試設備在用戶進行正式實驗前，我們使用視力表，色盲檢測書，立體視覺檢測書等工具對用戶的視覺能力進行檢測并記錄。對于顯示設備，我們使用色彩分析儀/校準儀對顯示器進行校準,利xritecolorchart進行檢測3.測試平臺4.標注人員管理人員數(shù)據(jù)，包括個人基本信息，以及參加實驗的次數(shù)和實驗類別全部通過數(shù)據(jù)庫進行管理。保5.測試方法對視頻的質(zhì)量進行有效的可靠的主觀評價依舊是一個極具挑戰(zhàn)的科研問題。對于不同的業(yè)務場景和實驗目的，使用的評測方法需要仔細考慮才可得到較為這種方法對于常見的2D視頻來說結(jié)果比較穩(wěn)定。然而試想一下，如果讓一個答案是否定的。觀測者很難對于多維度的視覺感受用一個絕對數(shù)值來打分。于是，配對比較法相比于給一個絕對的分數(shù)，從兩個候選視頻中挑出質(zhì)量好的那個對我們來說更簡單，因此獲得的結(jié)果也就相對可靠。本測試平臺目前支持ACR和PairComparison正確的主觀評測方法可以有效減少數(shù)據(jù)的噪聲，然而，噪聲是一定存在的。因此，在業(yè)務落地中，直接拿已有的數(shù)據(jù)庫去訓練自己的算法模型時要認真考慮數(shù)據(jù)從何而來以及是否可以1.ITUoutlier模型ITU-RBT.500提出了一種檢測標注人員是否為outl2.Li'sMLEmodel針對標注過程建模的方法，可以將真實分數(shù)，標注人員本身的bias和inconsistency即，最終只需要使用恢復出的真實分數(shù)作為該視頻/圖像的質(zhì)量即可。標注人員的bias和Be,s服從正態(tài)分布，均值為用戶本身的bias，Ae,s是由視頻/圖像內(nèi)容引起，不會改變分數(shù)的均值，只會影響方差，即，ac如上所述，使用主觀實驗方法來對視頻進行質(zhì)量評價是一件非常expensive的事情。利用客觀質(zhì)量評價方法根據(jù)對參考視頻（即，具有完美質(zhì)量的視頻）信息的利用程度來判斷測試視頻的質(zhì)量而分全參考（FullReference部分參考（ReducedReference）和無參考（NoReference）方法。目前效果比較好的視頻質(zhì)量評價模型大部分是基于全出的VQM，以及Netflix提出的VMAF，以及較早前的SSIM等。無參考的評價方法一直是該的機制用數(shù)學建模的方式模擬出來，例如將人眼的多通道特性，ContrastSensitivityFunction,LuminanceAdaptation,Ma1.圖片質(zhì)量評價審核不可能覆蓋到全站的所有圖片量級，會被用戶看到的封面圖的質(zhì)量甚至首頁的封面圖質(zhì)量絡訓練模型，經(jīng)過優(yōu)化迭代最終達到預測分數(shù)與主觀groundtruth分數(shù)線上PLCC=0.87，2.視頻質(zhì)量評價種失真的疊加。這種對于失真類型的不可控（從失UPGC視頻中失真來源復雜引發(fā)的質(zhì)量評價難點。該方案的框架圖如下所示（已申請專利該方法不僅輸出總體質(zhì)量分，還可以輸出失真類型，因此針對于優(yōu)酷視頻業(yè)務，可以應用五、5G下未來多媒體質(zhì)量評價的展望如Light-fieldImaging,A一代視頻內(nèi)容生成，視頻壓縮，視頻增強，depthestimation量評價方法來做監(jiān)控。同時，這其中有可能產(chǎn)生的會引發(fā)觀眾視覺疲勞等危害身體健康的視頻參考文獻[1]QualinetWhitePaperonDefinitionsofQualityQualityofExperienceinMultimediaSy[2]ITU-RBT.500:Methodologyforthesubjectiveassessmentofthequalityoft[3]ITU-TRec.P.910,Subjectivevideo[4]MargaretH.Pinson,60,No.4,Decemebr201[5]ZhiLi,et.al,“Towa[8]JingLi,MarcusBarkowsky,PatrickLeCallet,“Visualdiscomfortofinfluenceofmotion”,Displays,vol.35,no.1,pp.[9]ZLi,CGBampis,Recoversubjectivequalityscores——面向多種業(yè)務場景的統(tǒng)一端側(cè)渲染SDK作為綜合性的視頻平臺，優(yōu)酷擁有完整且多樣的視頻內(nèi)容形式，包括長視頻、短視頻、小視頻，面向體育和秀場的直播平臺、此外還有互動劇?？偨Y(jié)起來我們主要面向視頻的拍攝、編1.設計思路在長期對接拍攝、視頻編輯、智能播放器等業(yè)務的過程中，摩酷實驗室沉淀了可同時支撐考慮到手機端的實際應用場景，在規(guī)劃引擎的功能模塊時我們采取了非常審慎的態(tài)度，時刻對焦業(yè)務主線，避免無意義的低頻功能的開發(fā)。另外，在開發(fā)過程中避免引入開源引擎，雖快，穩(wěn)定性好等優(yōu)勢。已經(jīng)在優(yōu)酷主客拍攝、云相冊、播放器等場景得到應用，基本覆蓋了視在功能方面，得益于優(yōu)酷豐富的內(nèi)容形式，我們針對不同的內(nèi)容形式研發(fā)了不同的功能點快速靈活地支撐更多場景。端側(cè)識別模型方面，阿里巴巴已經(jīng)有許多團隊研發(fā)了多種多樣的端側(cè)識別模型，還有非常成熟可靠的MNN等推理們可以站在巨人的肩膀上，聚焦在渲染引擎上，面向我們的業(yè)務，持續(xù)把渲染做深做透。接入多種AI識別能力，支持各種圍繞人臉、人體的互2.業(yè)務結(jié)構(gòu)圖從上面的業(yè)務結(jié)構(gòu)圖可以看到，接口層（Interface）是對外業(yè)務的輸入/輸出接口，通用的針對業(yè)務方變更、添加新的需求，引擎可簡單、快速的增加注冊新功能模塊，快速將算法3.應用1.真實感人臉美化圍繞人臉的美化和增強是業(yè)界關注的問題，我們將美顏和人臉的去噪、細節(jié)恢臉美化。美顏技術行業(yè)應用非常普遍，在快手抖音等短小視頻場景，直播場景，拍攝工具等都有大量應用。一般在拍攝或上傳入口都需要美顏，且對算法實時性要求很高。而播放端涉及到大量的視頻噪聲、壓縮等降質(zhì)問題，會破壞人臉的細節(jié)和紋理，針對人臉圖像做恢復和增強也優(yōu)酷UPGC場景對美顏和畫質(zhì)增強有特別的需一篇文章“分區(qū)域處理的圖像和視頻清晰化技術”進行人臉圖像基礎恢復已被破壞的紋理，并去除噪聲，然后使用美顏技術進行修飾。對于這樣復雜的業(yè)務需求，傳統(tǒng)的美顏技術很難支持。因為傳統(tǒng)的美顏技術往往把皮膚磨的非常光滑，并加入大程度的美白，極易產(chǎn)生失真和膚色變化的問題。事實上，我們對算法的要求已經(jīng)超越了美顏的范疇，既要思路是：對圖片進行分頻處理，在不同頻段采集不同處理方式，同時結(jié)合人臉膚色的mask分區(qū)域算法主要根據(jù)人臉檢測算法先檢測出人臉的區(qū)域，然后在根據(jù)膚色檢測檢測出人臉無磨皮美顏的核心算法包括分頻技術和對特定頻率段（皮膚痘漬）的處理。分頻技術需要分頻技術是圖像處理非常常用的一項技術，在各種圖像增強的應用場景里面都得到了很多應用。分頻的方法也有很多，比如小波技術，保邊濾波算法等方式?？紤]到性能的問題，我們通過對大量人臉圖像的實驗，我們發(fā)現(xiàn)臉部皮膚的痘漬之類的不干凈的東西基本處于高頻最后我們需要人臉區(qū)域處理完結(jié)果和原圖進行融合，這里面涉及的一問題就是要處理好邊緣的過渡，我們通過fastguidedfitlter羽化過2.端側(cè)視頻增強優(yōu)化超分算法目主要算法都是基于深度學習的算法，但是深度學習雖然是目前學術的趨勢，但是深度學習算法一般網(wǎng)絡參數(shù)繁多，模型比較大。且需要大這樣的特點讓深度學習算法增強算法具有迭代行差和性能差的弱點。如果想用深度學習還要集谷歌的RAISR（RapidandAccurateIma率圖像轉(zhuǎn)化為高分辨率圖像。這項技術能夠在節(jié)省帶寬75%速度提升了很多，從下圖可以看出RIASR算法和一學習濾波器的過程就是學習一種高清映射的關系。給定一些圖像對，用最小化恢復出來的首先，對低清圖像進行簡單的雙線性差值；然后，使用哈希算法快速將圖像塊分到不同的類別（bucket）中；對于每個類別，分別使用四個預先訓練好的濾波器進行線性濾波；將不同RIASR通過一組訓練數(shù)據(jù)來可以到一個濾波生的缺陷就是不具備可調(diào)整性，也就是學習完一組參數(shù)只能得到一種程度的增強效果。下圖但在實際業(yè)務場景中，往往需要快速調(diào)整算法的強弱程度。解決這個問題最簡單的辦法學但這樣的做的缺點也顯而易見。大大增加我們的工作，降低了算法的快速響應業(yè)務需求的能力，顯然不可取。我們通過分析分析濾波器的特點，利用RIASR算法不像深度學習方法需要那么多數(shù)成。但想要取得比較好的效果就需要數(shù)據(jù)特別貼合業(yè)務場參考文獻Milanfar,"BLADE:FilterLearningInternationalConferenceonComputationalP[2]Y.Romano,J.Isidoro,andP.Milanfar“RAISRIEEETransactionsonComputationalImmaterialediting.ACMTOG,34(5):大千XR-Video技術概述擬信息與視頻在后期富有創(chuàng)意地植入；(2)通過視頻植入技術通過復用已有的普通視頻素材，在視頻制作后期植入新的內(nèi)容，目的是在原動態(tài)混合現(xiàn)實、拍照特效、心動時刻、爆石特效和背景氛圍等十幾種特效，用戶看到我們的特1.植入內(nèi)容算法利用視頻理解和視頻分割等技術從已有的視頻中通過算法模型2.云渲染支撐特效視頻制作的是大千云端渲染引擎。云端渲染引擎旨在解決目前特效制作的規(guī)模化和自動化，側(cè)重解決效率和品質(zhì)難點。以植入特效廣告為例，云端渲染引擎從創(chuàng)意中心下單到自動化制作輸出投放配置，為特效廣告快速上線提供保障，豐富的預置模板和插件式編排能力為廣告客戶提供優(yōu)質(zhì)視覺曝光方案。傳統(tǒng)特效廣告制作存在渲染時間長、人工介入流程多、場植入渲染是植入虛擬信息和視頻內(nèi)容融合的關鍵，直接影響到用戶的觀感。為了使得植入無違和感，需要在把植入位的圖像風格遷移到待植入的素材圖像，使得植入后的素材區(qū)域和原模糊遷移等方法對廣告素材進行處理，傳統(tǒng)的圖像處理方法很難自動的準確估計出原始視頻的圖像風格，需要人工介入調(diào)整大量的參數(shù)，且操作人員要求有較高的經(jīng)驗才能調(diào)整得到較好的對素材圖像風格紋理進行遷移，達到了植入后的廣告位原片素生產(chǎn)、標注項目生成、點位結(jié)果入庫和特效制作都能在線上完成。時空多維度中的“時”指的和結(jié)束的時間點，精確度到幀級別。時空多維度中的“空”指的是在一幀或多幀圖像中連續(xù)的在時的基礎上，融入“空”的感知與理解，由于視頻包含的信息不同，對植入空間確定的用PointNet系列的目標檢測模型實現(xiàn)場景我們是不知道的，需結(jié)合物體檢測、幾何形狀檢測、深度估計和基于圖的平面追蹤等多種方法實現(xiàn)平面檢測和追蹤；如果是優(yōu)酷自制的影劇綜，我們能介入前期的拍攝，例如優(yōu)酷自制的互動劇，我們可以利用標定板鋪助進行相機位姿估計，實現(xiàn)平面檢測和重建，疊加虛擬場景改變移花接木、無中生有和動態(tài)混合現(xiàn)實等特效制作就是利用了時空多維度合成。下面以移花1.顯式平面檢測隱式的平面檢測。顯式平面檢測的步驟包括邊緣檢測、直線擬合、輪廓提取、篩選和精確查找canny等算子與霍夫變換直線檢測，需要較多的參數(shù)調(diào)節(jié)，且計算代價較大，方輪廓提取篩選是對邊緣檢測結(jié)果進行輪廓擬合，按照周長、面積、頂點數(shù)目、長寬比和內(nèi)角等幾何條件篩選出符合一定要求的輪廓，再按照相鄰幀四邊形出現(xiàn)位置、符合要求的四邊形連續(xù)出現(xiàn)次數(shù)來合并間斷檢測片段。接下來，在一個鏡頭內(nèi)，對檢測到的視頻片段，向前向后查找，彌補漏檢的圖像幀。初步檢測結(jié)果是：在視頻中顯著的平面四邊形區(qū)域檢測準確，對運動和遮擋有一定的適應能力，漏檢主要是邊緣檢測后尋找輪廓的錯誤所致。有了顯式平面檢測初版的結(jié)果，我們通過邊緣檢測和輪廓提取輔助人工標注，收集了一批平面檢測數(shù)據(jù)，利用深2.隱式平面檢測隱式平面檢測是為了進一步挖掘點位信息。如果視頻場景內(nèi)無運動的目標且僅有平移旋轉(zhuǎn)的視頻序列，我們嘗試了傳統(tǒng)點云重建的方法。點云是某個坐標系下以還原現(xiàn)實世界，當然這也是我們的夢想。這里我們簡單描述一下利用攝像機成像原理從圖像些已知信息還原匹配點在空間當中的坐標，將三維點三角化并重映射到攝像機得到二維點，同時算出這兩幀圖像所對應的相對相機姿態(tài)，通過相機位置就可以恢復物體稀疏三維點云，再通檢測稠密分布不均，容易導致重建結(jié)果出現(xiàn)部分區(qū)域空洞的問題，提出了一種自適應優(yōu)化特征如果視頻中特征點較少，存在運動目標的場景，傳統(tǒng)方法效果比較差。針對這種情況我們其中顏色相似性的度量因子是lab顏色空間的L2范數(shù)，顏色鄰近性的度量因子是圖像二維坐3.平面追蹤平面追蹤是移花接木植入的關鍵環(huán)節(jié)之一。追蹤待植入?yún)^(qū)域，使植入?yún)^(qū)域在視頻運動中仍然可以保持與畫面運動的同步。平面追蹤大體有基于特征點的、基于區(qū)域的和genericobject（KCF）幾種。我們采用基于特征點的多融滑來提高計算單應性矩陣的準確性。特征點計算傳統(tǒng)方法有SIFT、SURF、KAZE、AKAZE、BRISK和ORB等，Learning-based方法有D2-Net、DELF、LF-Net和SuperPoint等。Learning-based方法取代傳統(tǒng)基于SIFT的匹配是一個大趨勢。用homographytransformation建立對應關系用于訓練。在多融UnSuperPoint深度學習方法進行關鍵點和描述子聯(lián)合的自適應學習，保證特與視頻內(nèi)容脫離，而是和人們的當前視頻自然而然地成為一體。交互的動作除了以往的按鍵或者觸屏，可以擴展到頭部、眼部、表情、手勢和語音等，從位置擴展到原有視頻某個空間。下1.點哪兒活哪兒汽車3D互動廣告demo2.轉(zhuǎn)哪兒看哪兒視錐體手機慣性測量單智能手機中跟手機位恣相關的傳感器有加速度計、磁力計、陀螺儀。加速度計可以感知加速度大小，磁力計感知磁場的方向和大小，陀螺儀能夠計算角速度，即轉(zhuǎn)動速度。智能手機在上述三種基本傳感器之上，進一步計算orientation（等。以四元數(shù)形式輸出的結(jié)果就是利用卡爾曼濾波算法綜合使用加速度、磁力計、陀螺儀得到雖然四元數(shù)可以求出旋轉(zhuǎn)矩陣，在手機上計算出準確的旋轉(zhuǎn)矩陣沒有那么簡單。廉價的針對這個問題，我們采用分級策略來解決：默認使用加速度和磁力計的直接計算方案，使用低通濾波算法降低抖動；對測試過證明陀螺儀正常的機器或者市面上的高端旗艦機，使用穩(wěn)定的3.看哪兒買哪兒Buy+沉浸式購物（全景視頻版）在VR/AR中通過空間定位，人置身其品牌。VRBuy+是世界上首次大規(guī)模沉浸式用戶購物體11還發(fā)布了手機版。因為成本、時間和受眾用戶的考慮，購物應用，帶你穿越到世界各地的商場購物，遇到喜歡的還可以直交互方式主要只有一種，就是盯住觸發(fā)按鈕。雖然Cardboard上有點擊按鍵，更建議用自然的人機交互方式。有一點需要大家知道，在全景視頻中，用戶停下來時商品總是能標定得非轉(zhuǎn)成一個倒播的視頻。商品方面，每個商品環(huán)拍一圈，然后每隔一定度數(shù)取一張照片，結(jié)合綠摳手段把物體摳出來，把它形成一個連播的文件。有了這些準備工作，只需要在正向走動的時候播正向的視頻，用戶每時每刻就都知道物品在哪里了。由于安全距離的問題，對小商品的細節(jié)描述會遇到問題，比如貨柜上的手表會看不清楚，可以通過場景交互手段解決這個問題。走到一個區(qū)域時，VR應用讓你進入另外一個場景，這個場景是全景圖片，這個時候商品細節(jié)表現(xiàn)會好一些。不斷推陳出新，DetailAR、Detail3D、廣告也能給用戶較好的體驗，以及降低新內(nèi)容排播不確定性對廣告的影響。人工智能平臺實現(xiàn)我們以移花接木為例解釋一下特效植入的大致流程。首先輸入視頻，點位系統(tǒng)根據(jù)物體識到合適的場景，并進行平面點位檢測和篩選，然后進行植入?yún)^(qū)域的跟蹤，生成植入?yún)^(qū)域指示數(shù)據(jù)；廣告素材和特效蒙版（通過分割和粒子效果等手段生成）進行特效合成生成特效素材，對特效進行風格遷移和光照估計，生成的植入效果做邊緣美化后，根據(jù)植入?yún)^(qū)域指示數(shù)據(jù)進行合在保證播放原視頻的同時，還要保證動態(tài)渲染廣告的視覺效果，要求嚴格的幀同步，精準和輕量級渲染，另外Android、iPhone和OTT播放設備差異大，技術方案普適性和兼容性挑戰(zhàn)大。我們通過大千制作平臺巧妙地進行資源分離，集成了多種特效資源生成和靈活地對接，特效層與播放層高性能的通訊機制，獨特的特效視頻掩碼設計，實現(xiàn)了輕量渲染和快速同步，在深、遮擋關系，滿足影視級多場景的視頻生產(chǎn)要求。一方面，我們利用估算攝像機的運動并通計，研發(fā)基于深度學習的場景光照特征識別算法，智能感知視頻畫面中的光源方向及光源照度提升信息獲取的效率。大千世界無奇不有，讓我們一起發(fā)揮想象力，一不小心，也許未來的生大千XR-Video技術在互動劇上的應用是平臺建立了自己的互動視頻標準后真正意義上的第一部互動劇。優(yōu)酷也在布局互動劇，一場新賽道上的戰(zhàn)役已經(jīng)打響。用戶在觀看的互動劇時候，每觸發(fā)一個情節(jié)點，都需要通過選擇操傳統(tǒng)的互動劇因為有很多分支，所以情節(jié)復雜，但是互動性卻并不算高，因為所有的情節(jié)依然是編劇事先設置好的，并非觀眾的創(chuàng)造，因此用戶的參與成程度并不高。我們在傳統(tǒng)的選擇事先拍攝好的分支劇情（AB分支）互動基礎之上，利用技術手段，增加了用戶與畫面內(nèi)容的交互。例如傳統(tǒng)的互動劇根據(jù)點擊選擇劇情的基礎上，我們增加了各種體感玩法，其中人臉2）人臉二維姿態(tài)粗估計：利用二維關鍵點，進行PnP方法，與現(xiàn)有三維模型上Code）特征，經(jīng)過實驗，PNCC特征對于人臉重建的精度并這一特征；并將網(wǎng)絡的輸入調(diào)整至128x128，重建效果提升較大，且網(wǎng)絡運行時間上并沒有明（2）此外，卷積神經(jīng)網(wǎng)絡的損失函數(shù)進行了調(diào)整。在引入權(quán)重，讓網(wǎng)絡優(yōu)先擬合重要狀參數(shù)，如尺度、旋轉(zhuǎn)和平移的基礎上，增大了表情特征的權(quán)重，讓人臉表當用戶在觀看視頻時，如果喜歡一個演員，可以采用“點贊”、“送花”等形式，畫面中演員會反饋一張笑臉，劇情走向可以走向一個開心的分支；反之，不喜歡一個演員，采用“丟磚”等形式，畫面中演員反饋一張生氣的臉，劇情走向另一分支。除此之外，人臉的位姿參數(shù)和其他表情參數(shù)也可作為劇情走向互動的輸入條件，例如點頭、搖頭、哭、笑等。用戶在觀看視頻時候，不再只可以通過AB選項的方式機械化的引導視頻走向物或物品，達到更加“身臨其境”的互動。這種互動玩法涉及的技術除此之外，模型植入與互動這個創(chuàng)新點值得后續(xù)繼續(xù)跟進。目前優(yōu)酷互動劇基本上是自制的，這就給在視頻內(nèi)容中融入互動內(nèi)容留下很大空間。在視頻內(nèi)容的拍攝過程中，預留一些已機的定位，更精確地計算出相機參數(shù)。植入3D（1）植入模型可交互，可以根據(jù)不同操作有不同優(yōu)酷致力于互動劇的發(fā)展，先后頒布了內(nèi)容制作和技術標準，涉及到的體感互動算法也不張照片，無論是自己的還是別人的，即可將指定視頻中明星的臉換成自己的臉，能看到樣貌和自己一樣的角色按劇中情節(jié)進行表演和對話，好像自己穿越到劇中，成為自己喜愛的明星，或者和自己喜愛的明星搭戲。也可以讓自己的朋友或領導在劇中反串，可能會產(chǎn)生非常鬼畜的效結(jié)構(gòu)，使用多個編碼器來對不同的人臉特征（身份、表情、屬性、環(huán)境）進行去耦合，然后通息和其他信息。但我們?yōu)榱宋覀兪箯娀瘜W習到被換臉人的實時表情，比如眼珠和嘴角的細微動除了臉部本身的生成之外，將生成的臉部與完整畫面融合也是一大難點，尤其是面部有陰慢，二是badcase也多，所以我們?yōu)榱私鉀Q生成的人臉使用seamlessclone算法融合到原視頻中的魔心結(jié)構(gòu)，在解決融合性能問題的同時也大大減少了融我們的算法流程如下圖所示。算法流程分為兩大部分，第一部分為對待換臉模板視頻進行對換臉視頻進行預分析包括幾個主要部分，首先是對整段視頻進行鏡頭分割，然后對每一段鏡頭中所有的人臉進行檢測和對齊，得到人臉的位置和關鍵點位置。然后，標定將要被換臉的對象是哪條臉的軌跡，并視情況對轉(zhuǎn)頭、人物間遮擋等特殊情況進行修補。得到了需要換臉每一幀中用戶生成的換臉圖以及其對應的位置遮罩，將其融合后逐幀貼回原視頻，之后進行編由于考慮到視頻換臉存在較大的法律風險，我們最終的產(chǎn)品形式學來挑選優(yōu)酷版權(quán)的片子片段，然后用戶上傳的照片也會通過優(yōu)酷的安全審核系統(tǒng)來防止用戶違規(guī)上傳非法圖片。整個線上的工程鏈路在能實時給到上傳用戶以反饋的同時有完整的安全保頁，用戶上傳自己的照片后，后臺服務會先進行封面圖的換臉，我們會挑選一張典型的正面高清圖作為封面圖，并將這張圖和原圖提交機審及人工審的審核。這樣審核團隊僅需審核圖片即可確認原始上傳圖片及換出來的效果是否含有風險，大大提升了在審核的同時，后臺服務會并行地進行整個視頻的換臉，逐幀替換并生成新的完整視頻，當審為了保證用戶的體驗，即在上傳照片后不用等待太久即可看到換臉后的效果，我們定了從為了達到這個目標，我們從工程上也進行了優(yōu)化。首先，將從人臉檢測到視頻編碼在內(nèi)所但隨著深度學習研究的不斷深入，視頻換臉技術本身還有更多的優(yōu)化空間。如今年不斷更新的ConferenceonComputerVisionandPatternRecogni隨著大家觀看視頻的設備形態(tài)越來越豐富，在不同寬高比例的顯示屏幕上觀看同一個視頻深刻的電視上所有人物都很胖的過渡時期，現(xiàn)在又要面臨一個很嚴重的豎屏觀看的問題，以及其他更多的剪輯加工需求。尤其對于豎版視頻的生產(chǎn)而言，原生的豎版內(nèi)容和由橫版內(nèi)容轉(zhuǎn)換分析畫面中內(nèi)容的重要程度，并能夠在任意裁剪尺寸的約束下，盡可能多地保留其最重要的部向（imageretargeting）算法，即將單張圖片的內(nèi)容重新于視頻的重定向需要保證圖像內(nèi)容的時域連續(xù)性。單幀內(nèi)容重組織的方法幾乎不可能做到時域視頻智能裁剪算法的基本目標是盡量保證裁剪區(qū)域內(nèi)的內(nèi)容完整性。理論上內(nèi)容完整性指景深、燈光等拍攝技法的一個重要目標。這樣就可以將這個目標轉(zhuǎn)化為人眼視覺顯著區(qū)域完整性這個指標，這樣就可以充分利用到較大規(guī)模的另外一個需要權(quán)衡和算法目標是用戶觀看的舒適程度。如果僅僅考慮最大化內(nèi)容完整性這一指標，得到的豎版視頻會產(chǎn)生抖動和晃動等問題，很大地降低用戶的觀看體驗。因此視頻裁剪算法另一的重要的約束條件是盡量避免影響用戶觀感的鏡頭晃動。為了做到這一點，我們實驗了不同的軌跡平滑策略，發(fā)現(xiàn)人眼對裁剪區(qū)域運動對時間的一階和二據(jù)此使用了一階+二階全變分（totalvariation）最小化的算法來在保色細線和深藍色細線為兩個人的實際位置變化，所以可以看出這是一個典型的劇集內(nèi)容中包含2個人互動的鏡頭，內(nèi)容是兩個人一開始在畫面左右兩端，之后逐漸靠近最后又稍稍分開的過程。如果我們直接采用真實位置作為畫面中心來裁剪，裁剪后的畫面特征如左圖所示，雖然人雖然端到端的算法一般來說更加精簡高效，但對于智能裁剪來說，由于端到端的算法可以利用的數(shù)據(jù)集比較小，很難達到比較理想的效果。反之，分步的方法能夠有效利用現(xiàn)有的成熟的人臉、人體目標檢測等大規(guī)模的數(shù)據(jù)集和模型，能夠大大提高算法的準確性。另外分步的方法也能夠提高整個算法體系的靈活性，使得算法能夠快速根據(jù)業(yè)務需求進行靈活調(diào)整。因此我第一步為鏡頭分割，由于相鄰鏡頭間的裁剪位置是不相關的，因此可以以鏡頭為單位獨立進行裁剪，避免了鏡頭邊界造成的相關問題。鏡頭邊界檢測算法的準確率直接影響到智能裁剪錯誤率。我們在TransNet[1]的基礎上改進了一個第二步為特征抽取，這一步通過一系列算法群對每一個鏡頭生成了多個和視覺顯著度密切相關的特征、包括人臉和人體的檢測、朝向估計、清晰度評估、追蹤和識別，光流的估計，視最后一步為特征的融合和裁剪位置的估計，這一步是整個算法流程中的關鍵部分。我們使用了對每一個鏡頭內(nèi)目標能量函數(shù)最大化的方法，同時保證視頻內(nèi)容的完整性和裁剪區(qū)域運動穎的播放形式。我們下一步的重點包括將智能裁剪算法適用于包括動畫、體育等特殊的視頻場Transitions.”ArXivPreprintArXiv:1全球文娛視頻市場存在海量統(tǒng)一橫屏制作的大在著大量橫屏播放的長短視頻，隨著近兩年來豎版視頻的流行和較高的播放轉(zhuǎn)化效率，用戶對阿里文娛優(yōu)酷首次將基于機器視覺的視頻裁剪技術應用于視頻二次生產(chǎn)和智能封面圖生成智能裁剪技術主要應用于以多人或者單人為主體的場景，我們將目標檢測，跟蹤，識別等技術進行創(chuàng)新和結(jié)合，開發(fā)了完整的視頻智能裁剪技術鏈路，面對實際業(yè)務中的主體標定，視頻幀間抖動，視頻黑邊填充等問題針對性的研發(fā)了算法解決方案，可以根據(jù)不同的業(yè)務場景將材自動化制作，剪輯作品的視覺效果和制作成本降低等方面都帶來塊，其中分鏡邊界檢測模型根據(jù)視頻畫面將視頻分成多嚴重影響用戶體驗。因此我們使用邊緣檢測算子和霍夫變換等來解決黑邊主體自動標定模塊（如圖4所示）包含目標根據(jù)目標檢測模型對視頻中的人臉和人體進行檢測后，將包含人臉或人體的boun著性獲取畫面中不同位置為顯著區(qū)域的概率；由于不同視頻存在不同的降質(zhì)現(xiàn)象，我們研發(fā)了模糊檢測算法，通過模糊檢測模型提供圖像清晰度比較結(jié)果，從而實現(xiàn)選擇更為清晰主體的目的，除了上述子模型的輸出結(jié)果外，我們還設計了主體檢測框離畫面中心的歐式距離，基于相主體標定的結(jié)果來訓練主體判定模型使得主體標定的Accu主體追蹤模塊包括目標追蹤算法，鏡頭平滑算法，主體標定和主體追蹤交互機制。通過對鏡頭標定結(jié)果。由于目標追蹤算法得到的鏡頭剪裁位置并不是漸變的，這導致了畫面抖動，引起用戶觀看眩暈等較差體驗，因此通過時間序列離群點檢測和Kalmanfilte最后我們使用去噪、去模糊、和超分辨率模型，對裁剪后視頻智能裁剪技術生產(chǎn)的視頻和封面圖廣泛應用于優(yōu)酷的各個場景，并得到了業(yè)務方和阿里云客戶的一致認可，我們對視頻智能裁剪算法棧進行了整體性能優(yōu)化，達到處理時間僅1:2視頻時長，目前該技術累計對優(yōu)酷綜藝：演技派、這就是街舞、這就是灌籃；優(yōu)酷劇集：陸戰(zhàn)之王、天雷一部之春花秋月、微微一笑很傾城等百部OGC進行裁剪服務，裁用于抖音，微博等外渠宣發(fā)和站內(nèi)投放，同時主體標定算法服務于搜索雙列封面圖轉(zhuǎn)豎項目，鏡頭平滑算法服務于彈幕人臉項目，目前視頻裁剪算法已經(jīng)部署在阿里云上，由于目前行業(yè)內(nèi)于智能畫面分析和多層級主體目標標定的圖像智能剪裁技術》專利的方式來保障該產(chǎn)品技術的技術實踐-精準的視頻物體分割算法以及應用視頻物體分割（VideoObjectSegme把感興趣的物體區(qū)域完整的分割出來。為了方便大家的理解，先給出一個我們自己的視頻物體因此，對于優(yōu)酷這樣的視頻類網(wǎng)站，視頻物體分割是非常有價值的算法，能夠賦能內(nèi)產(chǎn)者，提升內(nèi)容生產(chǎn)效率。特別是交互式視頻物體分割算法，能利用用戶少量交互，逐步提高視頻物體分割正確率，提升用戶觀感體驗。這是任何無監(jiān)督視頻物體分割算法其中，學術界更傾向于研究半監(jiān)督視頻物體分割，因為這是視頻物體分割的最基礎算法，也是比較純粹的一個研究點。接下來，我首選介紹視頻物體分割的三個研究方向，然后結(jié)合優(yōu)酷認域，算法來獲取在后續(xù)幀上的物體分割區(qū)域。物體可以是一個，也可以是多個。在視頻中，存在物體和背景運動變化、光照變化、物體旋轉(zhuǎn)變化、遮擋等，因此半監(jiān)督視頻物體分割算法研（a）FrameNo.=1（b）FrameNo.=20相似2）隨著目標駱駝的運動，背景中出現(xiàn)一個新的駱駝，需要分割出這兩個不同的駱駝區(qū)基于在線學習的算法根據(jù)第一幀物體的ground-truth，利用one-shotlearning的策略來等。在線學習算法針對每個物體單獨訓練模型，可以達到很高的分割正確率。但是在線學習本主流。今年出現(xiàn)了不少無在線學習的算法，它的模型是事先訓練好的，不需要針對樣本進行半監(jiān)督視頻物體分割的最主要的結(jié)果評估標準是平均Jaccard和F-measurement.平均Jaccard交互式視頻物體分割是從去年開始興起的、更貼近實用的視頻物體分割方法。在交互式視交互信息可以是物體boundingbox、物體區(qū)域物體分割，得到所有幀圖像上物體區(qū)域。然后，用戶檢查分割結(jié)果，在分割較差幀上，給出新交互式視頻物體分割不是一個單一算法，而且多種算法有機融合的解決方案，包括交互式從評估指標可以看出，交互式視頻物體分割強調(diào)分割算法的時效性，不能讓用戶長時間等1）半監(jiān)督視頻物體分割需要物體第一幀的ground-半監(jiān)督和交互式視頻物體分割中，物體是事先指定的，不存在任何歧義。而在無監(jiān)督視頻我們提出的VOSwithrobusttracking策略[8]，可以較大幅度的提高基礎算法的魯棒性。在space-timenetwork、regionproposal另外，圖像物體分割算法、多目標物體跟蹤算法也是視頻物體分割算法的重ReferencePont-Tuset,F.PerazInarXivpreprintartvideoobjectsegmentation.CVPRforvideoobjectsegmentation.arXivpreprintarXiv:1807.0919FEELVOS:FastEnd-to-EndEmbeddinSegmentationbyInteraction-and-PropagationNetworTrackingandSegmentation:AUnifyin視頻內(nèi)容結(jié)構(gòu)化等領域的應用需求越來越多。算法開發(fā)工程師們現(xiàn)了從視頻標注到推理服務的鏈路；阿里云的視頻云平臺提供了具有很多能力的推理服務；優(yōu)1.smart致力打造一個正向循環(huán)的數(shù)據(jù)算法服務平臺系統(tǒng)、數(shù)據(jù)集等多個子系統(tǒng)來解決實際算法開發(fā)、生產(chǎn)發(fā)2.smart邏輯架構(gòu)2）任務系統(tǒng)：監(jiān)控報表、任務報表、qps報表、任務執(zhí)1.任務調(diào)度策略4）通過數(shù)據(jù)庫樂觀鎖確保每個任務同一時刻只被某個task-態(tài)的任務經(jīng)過指定時間沒有返回成功，會被放置回任2.算法能力編排算法模板是在單個算法能力的基礎上，根據(jù)業(yè)務需求把一系列算法組裝成一個完整的業(yè)務通過算法模板，能夠?qū)㈧`活的進行算法能力編排定制，快速響應業(yè)務需求，而不需要手工算法編排能力在滿足特定業(yè)務需求的同時，也沉淀了優(yōu)酷素材圖像質(zhì)量模板對應的json配置把上一層級的算法節(jié)點的輸出結(jié)果作為下一層級3.靈活拓展的海量數(shù)據(jù)存儲為了滿足不斷日益增長的算法分析需求、與視頻內(nèi)容結(jié)構(gòu)化算法結(jié)果復用，需要針對視頻4.通過列拓展?jié)M足動態(tài)算法存儲需求不同值對應不同的版本，一行可存儲不限個數(shù)個屬性列。通過靈活的拓展屬性列，來保存不同在每個列的值可以對應不同的版本，版本的值是一個時間戳，可以用來保存算法不同版本5.ots主鍵的生成規(guī)則b位，最常用的查詢條件。比如site_vi例如：md5（key）#videoId#site#task_type#b6.算法的行級結(jié)果復用能力如上圖所示，隨著同步算法qps的提升，系統(tǒng)會優(yōu)先分配更多的資源給同步算法請求，同時也會給異步算法保留一臺機器。當同步請求減少時，異步機器可以獲取更多的計算資源。統(tǒng)一同異步計算資源，有效地提升了系統(tǒng)的資源利用率，也優(yōu)先了保障了在線算法服務請求的響7.動態(tài)自適應的算法隊列處理策略Netflix（美國最大的PGC視頻內(nèi)容商）在從使用人工標注數(shù)據(jù)、三方數(shù)據(jù)等數(shù)據(jù)集開始訓練，到生成模型、發(fā)布上線，服務于業(yè)務當然，實際的數(shù)據(jù)流轉(zhuǎn)情況會比上圖復雜，比如開發(fā)平臺不止承擔了數(shù)據(jù)的清洗整理，同1.數(shù)據(jù)集數(shù)據(jù)集主要來自于三個地方：標注、三方數(shù)據(jù)集對圖片、視頻進行人工打標，除提供基本的標注功能之外，還提供算youtube-8M（/youtube8m/）2.開發(fā)平臺（）開發(fā)平臺提供一個從數(shù)據(jù)到模型、從模型到3.算法開發(fā)4.算法服務1.算法數(shù)據(jù)特點算法數(shù)據(jù)的以上特點，對存儲提出了很高的要求：不流失、不蒸發(fā)。經(jīng)過調(diào)研，我們找到2.TableStore-表格存儲（/document_detail/27280.html）一行代表一個處理對象：一個視頻、一張圖片、一通過數(shù)據(jù)分片、負載均衡等技術，實現(xiàn)了數(shù)據(jù)無縫擴展。簡單粗一列代表對處理對象做某個算法處理，比如對一張當要對處理對象進行新的算法處理時，需要擴展一個列。常見的數(shù)據(jù)庫擴展一列相當繁瑣假如行代表一張圖片，列代表一個算法，那么同一張圖片的同一個算法還可以做多版本的那么有人要問了，這么好的數(shù)據(jù)庫，我要如何使用呢，這個問題放1.圖像質(zhì)量分{{}}Copy2.人臉檢測{{{[[[]}}]}要做好統(tǒng)一數(shù)據(jù)結(jié)構(gòu)，又不增加算法同學的開發(fā)成本，最好的方式就是數(shù)據(jù)的兼容與可轉(zhuǎn)從人工標注、三方數(shù)據(jù)集和其他方式獲取原始數(shù)據(jù)，提供給算法開發(fā)，算法模型部署成為■人工標注、三方數(shù)據(jù)集和其他方式獲取的數(shù)據(jù)經(jīng)過統(tǒng)一結(jié)一直面臨行業(yè)的問題沒有很好的解決過，內(nèi)容不像商品有非常完整的量化指標體系，它是一個復雜的實體，它跟意識形態(tài)以及用戶體驗強相關，對內(nèi)容進行量化評估和衡量是非常困難的，我們不能通過單一的指標去衡量一個演員好還是不好，我們可能需要思考這個演員的演技好不好？這個演員本身的氣質(zhì)和角色氣質(zhì)是否符合？演員的顏值是否匹配角色要求（越來越多的用）？行業(yè)技術挑戰(zhàn)：內(nèi)容的復雜性決定了不確定性故事：延遲滿足&信息不完備技術：NLP/CV/語音的語義理解&KG長安的一些數(shù)據(jù)非群演非群演800-1000人群演群演300-1500人籌籌備7個月，拍攝217天涉及工種極多的復雜系統(tǒng)工程技術：不確定性問題的衡量&計算理理用專業(yè)技能VS流量商業(yè)價值技術：戶解+心理理用另外，選擇的導演、主演組盤是否是最優(yōu)的組合，是否能夠成為爆款，這個是選擇模式的問題，這件事情更加復雜困難，我們今天面臨的技術挑戰(zhàn)是我們?nèi)绾芜M行知除了上述兩個問題外，一部好的內(nèi)容它的拍攝過程是一個龐大的系統(tǒng)工程，同時它也是一特別好的系統(tǒng)工程這件事情也是特別特別的困難。我們可以參考軟件工程這個行業(yè)，軟件工程近些年軟件行業(yè)的敏捷開發(fā)對于軟件工程的質(zhì)量和效率都有非常好的提升，我們怎么把這些理我們希望內(nèi)容敏捷在過程里面會知道，過程對結(jié)果造成的影響是什么，我們可以快速的調(diào)們除了要做基本的知識圖譜語義的理解之外，還要考慮如何去做有效的對應分析，如何去做對行業(yè)趨勢及挑戰(zhàn)：多，從商業(yè)驅(qū)動到消費驅(qū)動人類需求生存生活生孩子生物質(zhì)前所未有豐富物信息前所未有繁多非人智能前所未有強大社會變化胖子越來越多商業(yè)越來越復雜AI時代開啟內(nèi)容蓬勃發(fā)展，過剩生產(chǎn)，分級消費行業(yè)趨勢：分層、分級消費加劇挑戰(zhàn)從全民爆款這世界很酷圈層爆款人人喜歡->各有所愛加上整個內(nèi)容的生產(chǎn)量極大的發(fā)展，用戶的消費分層化，多樣化，從前的全民爆款越來越少，換句話說，也許你喜歡的內(nèi)容只有你那一小類人喜歡，用戶對內(nèi)容的需求更加個性化。相應于文娛大腦基本框架：內(nèi)容認知新動力依托DeepDriver不斷深入AI可傳播的抽象或者具象對象實依托DeepDriver不斷深入AI物版歌曲……物版出話劇出小說漫畫事件游戲資訊地點新聞音樂制片人體育編劇綜藝導制片人體育編劇綜藝導演選手貫通多文本、全生命周期上下游數(shù)據(jù)網(wǎng)絡體系針對上面幾大困難，我們今天在做文娛大腦，優(yōu)酷北斗星這樣的系統(tǒng)來解決。我們把所有的內(nèi)容形式和用戶消費的數(shù)據(jù)都采集下來，然后整合人工智能的技術手段，同時我們把業(yè)務里分兩部分，左面是內(nèi)容，右面是用戶，基本的思路內(nèi)容側(cè)，我們對內(nèi)容進行理解，包括外延和內(nèi)涵，外延就是內(nèi)容的各種基本屬性，比如主創(chuàng)陣我們用傳統(tǒng)的人工智能的機器學習的方式對內(nèi)容進行理解，理解了之后基于戲劇理論和視聽語心理情緒，用戶的心理偏好、心理情緒來自于生理構(gòu)造，基于心理學的五大人格理論和用戶的觀看行為，構(gòu)建模型建立左面和右邊的連接，從而就知道創(chuàng)造什么樣的內(nèi)容，用戶會有什么樣貫穿全生命周期的文娛大腦生產(chǎn)力 ●●●;●●ToC觀劇輔助決策ToB合作輔ToC觀劇輔助決策ToB合作輔助決策站內(nèi)外協(xié)同宣發(fā)陣營播出階段內(nèi)容解構(gòu)量化畫畫測測新熱內(nèi)容定級及排播DAU/PUV預測測新熱內(nèi)容定級及排播DAU/PUV預流量規(guī)劃預主創(chuàng)評估作品分析視頻情緒挖掘測供應商評估受眾分析測人機流量預輿情分析商業(yè)價值基于我們的內(nèi)容認知框架，落到內(nèi)容的生命周期中，我們在內(nèi)容生命周期的每個階段做了一些具體的工作，已開播時間為切分點，開播前提供內(nèi)容評估、藝人挖掘和內(nèi)容情緒挖掘等能力，在早期為內(nèi)容評估提供有效的數(shù)據(jù)支撐，在制作階段提供了現(xiàn)場解決方案比之前更敏捷的《長安十二時辰》-IP/劇本分析人物互動關聯(lián)&人物社團關系：快速定位劇情人物關系設定人物互人物互動關聯(lián)接下來我們展現(xiàn)一些我們在實際業(yè)務中的一些能力嘗試，上圖是《長安十二時辰》的劇本分析的例子，我們把已有的一些劇本作為樣本，讓機器去學習，識別出劇本的所有角色，把角色直接交互的對白、行為識別出來，然后再進一步，根據(jù)交互進行社團的劃分，長安的劇本最終劃分出來幾個群體，如中間的這個群體就是反恐、特爆的小分隊以張小敬為中心，下面這個是唐朝核心管理團隊，就是皇上，基本上通過這樣的方式能夠快速的定位整個劇本的人物和人率物《長安十二時辰》–IP/劇本分析率物物物人出場分布&出鏡—快速定位角色場次、判斷角色戲份物物各場次&全局人熱詞—判斷各場次和全劇的核心線索，人設定張小敬李必圍繞上面角色的關系，我們進一步展開，可以把剛才整個劇本劇情里面的角色識別出來，構(gòu)造成上面的曲線，然后通過分析很多的劇本，分析曲線中各個指標（出鏡率、戲份、情緒值等）形成benchmark，然后對于后面的每一個過來的劇本進行衡量，相當于是對劇用《藥神》戶情緒VA用片片《長安十二時辰》成情緒挖掘同樣是“體檢”的方法，對于《藥神》和《長安十二時辰》這兩部電影我們情緒的識別，然后做了體檢的掃描，參考零線的位置，我們看到《藥神》這部片子差不多都是正向和負向級的，直到最后有一個正向區(qū)間，基本上后面以眼淚為主，傷感為主，而《長安十二時辰》這個片子的情緒狀態(tài)還是比較穩(wěn)定，比較沉穩(wěn)的一個片子。對照情緒高低點的具體情率測率測然后我們拿更多的方式去驗證它的合理性，上圖中抽取《長安》的幾集來看，每集有兩條條曲線對比，我們可以發(fā)現(xiàn)，兩條曲線的相關性比較高的用戶的觀看行為狀態(tài)是吻合的，由此我們就提供了一種能力，拿這個能力對劇本或是片子做率率基于VA的情感模型業(yè)內(nèi)通用的情感模型:Valence:情緒正負向。-1到+1之間，-1表示負向情感，如悲傷，+1表示正向情感，如高興Arousal:情緒的強烈程度。-1表示情緒最不強烈，如困乏平靜，+1表示最強烈，如激動興奮。多模態(tài)的VA識別模型興趣的話可以上去看看，因為心理學最近這兩年研究的核心觀點是為什么用戶會感同身受，這來自于前兩年的一個理論叫做靜向神經(jīng)元，所以我們選擇了場景、表情、動作以及聲音作為基如剛剛所講，內(nèi)容這個產(chǎn)業(yè)，它有強延遲滿足的問題，我們目前通過兩層分析來解決之前長短期滿足的問題，除了上面講的用戶情緒分析外，我們也做了內(nèi)容角色的情緒識別，通過圖片表情識別模型，我們識別了不同題材類型的片子，可以看出來不同題材類型的片子中不同角色刻畫的人物性格，港劇《反貪風暴》這么多年，主創(chuàng)人物形象的臉譜還是比較正的，圖中顯示負面角色的情緒是開心、害怕、為主的，正面形象是以悲傷、生氣為主，與負面反派的開心長安十二時辰（2019）反面反貪風暴（2004）正面反面北京遇上西雅圖（2013）正面反面羞羞的鐵拳（2017）正面反面同樣我們分析每秒角色的情緒，形成角色的正負情緒曲線，部分片子的分析圖，不同題材類型的節(jié)目會有不同的情緒密度，所以你想放松的時候，要看的不一定是喜劇，喜劇其實不一定會放松，因為角色的正負向情緒不停交替，由于延遲滿足，你的大腦還要負荷片片情感識別：圖表情識別改進模型（ReducedXceptionwithMarginLoss）輸入模型框架DenseMapEntryflowMiddleflowExitflowEntryflowMiddleflowExitflow原始人臉圖像ConcatSVMMarginLossLayerFCSVMMarginLossLayerReducedXception輸入：引入人臉關鍵點densemap原理：精確判斷人臉表情需重點關注五官如眼睛，鼻子，嘴的區(qū)域信息測檢關鍵點模型（MTCNN）Densemap計測檢i-x片片情感識別：情感識別：圖模型提升（ReducedXceptionwithMarginLoss）用ReducedXception*用使可分離卷積（deepwise卷積+pointwise卷積）Entryflow,middleflow,exitflow各縮減至2層卷積SVMMarginSVMMarginLossLayer**min12*CholletF.Xception:DeepLearningwithDepthwiseSeparableConvolutions[J].2016:1800-1807**YichuanTang,DeepLearningusingLinearSupportVectorMachines,ICML2013來提升各個情緒類別的類間差距，這樣對于情緒的識別效果會更好，采制階段：預測能力建設準確率92%準確率90%準確率90%+準確率92%可以提前預測出節(jié)目的流量情況，如前面內(nèi)容認知框架中說講，首先對內(nèi)容進行量化，然后對內(nèi)容相應的量化緯度進行提前的預測，進而可以更好的為業(yè)務今天整個的分享，介紹了產(chǎn)業(yè)當中嚴重的問題以及技術挑戰(zhàn)，介紹我們通過建立文娛大腦和內(nèi)容認知的框架，來嘗試去解決內(nèi)容行業(yè)的這些問題，最后展望一下，未來我們會花一些時間，去把人工的經(jīng)驗通過推理以及心理學的一些研究整合到我們的人工智能的框架下，幫助我《長安十二時辰》背后的文娛大腦：如何提升爆款的確定作者|阿里大文娛資深算法專家蔡龍軍（牧己）爆款稀有，所以可貴。長視頻爆款的復雜和挑戰(zhàn)主要來源于不確定性，并且這種不確定性角色、搭場景、道服化、到拍攝、后期處理，以及宣發(fā)和投放等等，每一個環(huán)節(jié)都可能影響最值轉(zhuǎn)換，刻畫出不同人物，最終體現(xiàn)一個或多個價值觀，整個過程需要很多劇集逐漸被用戶感畫面的構(gòu)圖上等等。但是這些技術，哪些是用戶關注的？哪些是用戶不在乎的？這很重要，涉及到最終的流量商業(yè)價值。所以，優(yōu)酷要在技術上解決用戶理解和用戶心理學的問題，洞察用1.內(nèi)容產(chǎn)業(yè)發(fā)展背后的趨勢思考商業(yè)需要確定性，而內(nèi)容具有極強的不確定性，如何依靠技術達到平衡？這是內(nèi)容產(chǎn)業(yè)發(fā)能力的AI大腦。在采、投、制、宣、發(fā)、放的內(nèi)容全生命周期中，都融入了AI能力，目的就1.基礎能力：內(nèi)容創(chuàng)作理解能力掘能力。內(nèi)容創(chuàng)作理解能力，是對劇本進行智能化內(nèi)容創(chuàng)作有自身規(guī)律，內(nèi)容創(chuàng)作理解就是圍繞基于鏡頭語言和“對于《長安》第一集的成片進行多模態(tài)，包括聲音與圖2.采制階段：預測能力建設對于不確定的事情，如果可以計算出不確定性有多強，便可有效提升商業(yè)決策效率，提高預測中會面臨數(shù)據(jù)、模型和應用三方面問題。數(shù)據(jù)問題分為數(shù)據(jù)量不夠，數(shù)據(jù)不干凈和信息不完備。模型的問題包括復雜機制很難通過樣本進行覆蓋、很難深入理解問題本質(zhì)和很難跨領域進行舉一反三學習。從優(yōu)酷的經(jīng)驗出發(fā)，是正確識別應用上的不確定性可以在應用上有很不干凈由數(shù)據(jù)清洗解決，數(shù)據(jù)不完備由DomainKnowledge模型有BeliefNetwork等解法。第一層是基礎層。分為KG&Domain第四層是UncertaintyLearning，基于變分推斷的框架進行內(nèi)SMOTE（SyntheticMinor它是基于隨機過采樣算法的一種改進方案。由于隨機過采樣，采取簡單復制樣本的策略來增加少數(shù)類樣本，這樣容易產(chǎn)生模型過擬合的問題，使得模型學習到的信息過于特別(Specific)中，新樣本的公式為xnew=x+rand(0,1)*|x-xn|，生成的樣本可直接應用到項目中，但提升效果優(yōu)酷得到的結(jié)論是：在生成新樣本后引入隸屬度變換，來計算新樣本與真實樣本的接近程所有模型都會面臨過擬合問題，優(yōu)酷的基本思路是分析預測事件的基本特點，對于不同的對于復雜模型的邏輯：把前面的模型各部分的因素都部競爭的關系去RelationNet做推理去解決，最后用MTL整合模型，根據(jù)實際情況也會加入其UncertaintyLearning這塊，從2016年開始它逐步熱起來，我們也用變分去做了一些事情。3.宣發(fā)階段：挖掘能力建設挖掘能力更多應用于已經(jīng)發(fā)生的事件，使其更具有確定性。上圖是《長安》播出后，每一分鐘用戶的收視狀況、復看狀況和彈幕狀況，再結(jié)合每一時間段的劇情內(nèi)容對用戶喜好做更精內(nèi)容產(chǎn)業(yè)是個不確定性非常高的產(chǎn)業(yè)，越是爆款就越有不確定性了特別多的數(shù)據(jù)，AI能力也得到了前所未有的發(fā)展，我們建立了“文娛大腦”北斗本等內(nèi)容形式的挖掘能力，和采買不確定性預測的評估能力，以及對于宣發(fā)挖掘的能力，都在傳統(tǒng)的內(nèi)容制作領域，依然依賴人的經(jīng)驗，在強人工智能尚遙遠的情形下，如何結(jié)合機器的心理學研究也越來越重要，我們也會推進這部分探用戶在應用大屏收看視頻的時候常常面臨一個困難就是“不知道看什么，并且不知道如何交互式搜索系統(tǒng)采用模塊化的設計思路，按照分層邏輯結(jié)構(gòu)，分為應用技術層、核心技術層和基礎數(shù)據(jù)層共三個部分。應用技術層主要包括是自然語言理解（NLU）和對話技術，其中NLU包括意圖理解（IntentUnder和推理應用?；A數(shù)據(jù)層是基于視覺技術的智能媒資庫。1.自然語言理解（NLU）解決的是人與人，人與機器之間的交互問題。自然語言理解的結(jié)果，就是要獲得一個語義表示（semanticrepresentation常用的是框架語義表示（framesemantics）的一種變形：采用領域query成分分析技術，依托實體知識圖譜提供的節(jié)目/人物意圖理解技術，基于成分分析技術的全面理解以及完善的意圖分類體系，精準識別用戶查詢意圖。意圖分類體系的構(gòu)建是意圖識別的基礎，在此基礎上我們構(gòu)建基于CN2.對話技術優(yōu)點是簡單易用，缺點是狀態(tài)的定義以及每個狀態(tài)下對應的動作都要靠人工設計，因此不適合第三種是基于神經(jīng)網(wǎng)絡的，它的基本思路是直接使用神經(jīng)網(wǎng)絡去學習動作選擇的策略，即關電視劇，并通過自然語言生成（NLG）技術主動和用戶作進一步的交互，得到用戶想看‘孫儷’主演的需求后，系統(tǒng)基于多輪對話管理（DM）技術將前后兩輪的用戶綜合理解，向搜索3.知識圖譜構(gòu)建及應用知識圖譜（KnowledgeGraph）本質(zhì)上是一種大規(guī)模語義網(wǎng)絡，由節(jié)點（Point）和邊（Edge）組成。在知識圖譜里，每個節(jié)點表示現(xiàn)實世界中存在的“實體” 面大多都是跟文娛相關的實體和概念。領域知識圖譜雖然在廣度上不及通用知識圖譜，但在深度和粒度上，DKG通常表現(xiàn)更為優(yōu)秀。比如在文娛領域，追星族們可能更關心“內(nèi)地90后演在行業(yè)智能化的實現(xiàn)進程中，通過領域知識圖譜對數(shù)據(jù)進行提煉、萃取、關聯(lián)、整合，形領域知識圖譜系統(tǒng)的生命周期包含四個重要環(huán)節(jié)：知識表示、知識獲取、知識管理與知識應用。這四個環(huán)節(jié)循環(huán)迭代。優(yōu)酷知識圖譜的初期構(gòu)建和領域知從最開始明確知識的應用場景，通過客觀評估場景收益、人力資源消耗、技術與應用的適配程識庫進行知識獲取并根據(jù)獲取的知識進行整合、管理。最終完成了優(yōu)酷在文娛領域的知識圖譜在明確模式層和知識邊界后，圈定了知識庫的來源，比如內(nèi)部底層數(shù)據(jù)的轉(zhuǎn)換、來自開放互聯(lián)網(wǎng)的領域百科抓取、來自兄弟部門的數(shù)據(jù)拉通，通過優(yōu)先選擇數(shù)據(jù)結(jié)構(gòu)化程度相對較優(yōu)的數(shù)據(jù)源，來降低知識獲取、知識清洗帶來的人力成本。根據(jù)這些數(shù)據(jù)，就可以開始領域知識圖無法獲取很多有效的統(tǒng)計特征；從視頻維度來看，大量普通用戶上傳的視頻隨意，標題中經(jīng)常出現(xiàn)口語化的表達以及無用信息等。這就對因此，我們需要引入語義匹配來對基礎文本匹配（詞語匹配）進行補充，從而提升最終的搜索語義匹配是用來解決傳統(tǒng)字面匹配無法解決的用戶意圖（查詢詞）與文檔表述中語義鴻溝知識遷移能力以及學習能力讓語義匹配效果上又上升了新的臺我們將從樣本構(gòu)建以及模型演化兩方面簡單介紹下優(yōu)酷搜索在一方面數(shù)據(jù)和特征決定了機器學習的上限，另一方面深度學習需要大量的訓練數(shù)據(jù)。雖然對搜索

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

全景揭秘阿里文娛智能算法

文檔簡介

溫馨提示

最新文檔

評論

全景揭秘阿里文娛智能算法

文檔簡介

溫馨提示

最新文檔

評論

相關文檔