版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(阿里文娛技術(shù)公眾號(hào))加入交流群1)添加“文娛技術(shù)小助手”微信3)小助手會(huì)拉您進(jìn)群掃碼關(guān)注「阿里技術(shù)」獲取更多資訊掃碼獲取更多技術(shù)電子書分區(qū)域處理的圖像和視頻清晰化技術(shù)6端側(cè)智能算法在優(yōu)酷場景的應(yīng)用26大千XR-Video技術(shù)概述大千XR-Video技術(shù)在互動(dòng)劇上的應(yīng)用優(yōu)酷視頻換臉技術(shù)實(shí)踐52基于多模態(tài)內(nèi)容理解的視頻智能裁剪57阿里文娛視頻智能裁剪技術(shù)實(shí)踐612媒體智能引擎SmartAI媒體智能平臺(tái)之推理服務(wù)73海量視頻解構(gòu)數(shù)據(jù)全生命周期流轉(zhuǎn)80《長安十二時(shí)辰》背后的文娛大腦:如何提升爆款的確定性?1013序序阿里是一家堅(jiān)信數(shù)據(jù)力量的公司,而文娛涉及的相關(guān)產(chǎn)業(yè)非常廣泛,從線上到線下、劇綜漫到現(xiàn)場娛樂以及文學(xué)小說等,其組成、形式、展現(xiàn)、分發(fā)的復(fù)雜性交織在一起為業(yè)務(wù)數(shù)近三年來,阿里文娛摩酷實(shí)驗(yàn)室始終以助力業(yè)務(wù)發(fā)展和增長為核心驅(qū)動(dòng),形成如下四個(gè)的強(qiáng)內(nèi)容解構(gòu)內(nèi)容宣分發(fā)內(nèi)容生產(chǎn)內(nèi)容評(píng)估內(nèi)容理解是文娛相關(guān)算法技術(shù)的基石,IP、小說、劇本、視頻、音樂等不同形態(tài)的內(nèi)容對(duì)構(gòu)建起領(lǐng)域知識(shí)圖譜帶來了很多困難,在這其中計(jì)算機(jī)視覺、自然語言處理、圖譜&推理、圖神經(jīng)網(wǎng)絡(luò)、多模態(tài)內(nèi)容分析等技術(shù)被廣泛應(yīng)用于內(nèi)容解構(gòu)。以視頻為例,影劇綜視頻的時(shí)長很難用一些低層級(jí)的標(biāo)簽來抽象表達(dá)其內(nèi)容,基于多模態(tài)的分析技術(shù)在這類內(nèi)容上也會(huì)碰壁,因此融合內(nèi)容專家及機(jī)器學(xué)習(xí)系統(tǒng)的半自動(dòng)化微標(biāo)簽體系成為一種可行的出路。與短視頻快速的核的不確定,這就導(dǎo)致影劇綜內(nèi)容制作高度的不確定性,如何基于復(fù)雜的數(shù)據(jù)分析線索以及歷史的成敗規(guī)律來選擇評(píng)估內(nèi)容是各個(gè)綜合視頻平臺(tái)所面臨的核心挑戰(zhàn)之一,而阿里文娛北斗星復(fù)雜性導(dǎo)致用戶想精確描述一個(gè)內(nèi)容非常困難,僅通過節(jié)目名、演員名去檢索給用戶也造成了很大的困擾。在文娛內(nèi)容的分發(fā)體系中對(duì)搜索模式、推薦模式的融合成為新的用戶需求,如何更為準(zhǔn)確的通過類強(qiáng)化學(xué)習(xí)的用戶意圖理解過程來協(xié)助他們盡快找到喜愛的內(nèi)容,成為文娛搜文娛作為產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展的重要行業(yè),人工智能技術(shù)在這個(gè)領(lǐng)域中的應(yīng)用空間廣大,而我們也僅僅是邁出了一小步,期待工程師們能夠創(chuàng)造出更大的奇跡,加速文娛產(chǎn)業(yè)數(shù)字工業(yè)化時(shí)5566一、UPGC視頻和圖像質(zhì)量面臨的挑戰(zhàn)在優(yōu)酷這種綜合性的視頻平臺(tái),用戶的觀看體驗(yàn)永遠(yuǎn)是第一位的,而畫質(zhì)是影響觀看體驗(yàn)的重要因素。對(duì)于影視劇來說,畫質(zhì)和拍攝年代有較強(qiáng)相關(guān)性,也就是說隨著拍攝設(shè)備和技術(shù)顯示設(shè)備提出更高要求。而對(duì)于目前大量增加的UPGC視頻,畫質(zhì)情況卻不容樂觀,U頻來源主要包括兩種:一種是由正片切條產(chǎn)生的短小視頻經(jīng)用戶上傳的,這種情況下,由于用戶使用的片源清晰度無法保證,又經(jīng)過多次的轉(zhuǎn)碼、壓縮、縮放,會(huì)導(dǎo)致畫質(zhì)下降,導(dǎo)致壓縮噪聲、塊效應(yīng)等問題;另一種是用戶拍攝上傳的,雖然目前手機(jī)相機(jī)成像質(zhì)量越來越好,分辨視頻的封面圖也是由原始視頻截幀得到的,好的封面圖會(huì)提升用戶的觀看欲望。如果原視通過影視劇切條得到的UPGC視頻,即前視頻有很強(qiáng)的背景虛化,原片中人臉等重點(diǎn)區(qū)域細(xì)節(jié)豐富,經(jīng)常出77基于對(duì)業(yè)務(wù)場景的深入理解和分析,我們?cè)O(shè)計(jì)出完整的視頻和圖像清晰化解決1.區(qū)域檢測(cè)2.分區(qū)域處理策略成強(qiáng)邊緣,而其他區(qū)域仍保持虛化的效果,這樣就造成了“突?!钡男Ч?,和人的主觀認(rèn)知不88對(duì)于影視劇和短小視頻,人臉是用戶關(guān)心的重點(diǎn),所以我們?cè)O(shè)計(jì)了人臉清晰化模型對(duì)人臉3.質(zhì)量評(píng)估模塊得益于實(shí)驗(yàn)室良好的技術(shù)沉淀,我們的線上數(shù)據(jù)都可以打上質(zhì)量分和失真類型,進(jìn)而和清對(duì)于中和差的數(shù)據(jù)依據(jù)失真類型篩選出清晰化模型能處理的部分,并根據(jù)失真程度賦予清晰化4.疊加融合模塊5.視頻清晰化以上是面向圖像的清晰化方案,對(duì)于視頻場景我們做了適應(yīng)性改進(jìn)。的一致性,我們對(duì)增強(qiáng)參數(shù)做了時(shí)間平滑。將圖像場景的SISR(單幀超分辨率)模型替換為VSR(視頻超分辨率)模型,增強(qiáng)了對(duì)視頻壓縮問題的處理能力。同時(shí),我們構(gòu)建了UP頻質(zhì)量評(píng)價(jià)數(shù)據(jù)集,并在此基礎(chǔ)上訓(xùn)練了視頻適量評(píng)價(jià)模型,將視頻按質(zhì)量分檔,并針對(duì)失真991.快速的融合模型方式構(gòu)建的數(shù)據(jù)對(duì)的輸入數(shù)據(jù)分布通常跟真實(shí)低分辨率圖像或視頻的分布的方式,通過搜集同一場景下不同分辨率相機(jī)的圖像,然后通過圖像匹配的方式構(gòu)建訓(xùn)練數(shù)據(jù)對(duì),這種方式雖然一定程度上能夠讓獲得的低分辨率圖像更加接近真實(shí)的低分辨率圖像,但也存在著對(duì)齊的問題。比如由于存在非嚴(yán)格對(duì)齊問題,造成光暈的現(xiàn)象。另外在模型框架下,近幾年也涌現(xiàn)了一些采用非監(jiān)督方式訓(xùn)練超分辨率。但非監(jiān)督方式跟監(jiān)督方式相比,在效果方面對(duì)于銳化而言,通常是采用傳統(tǒng)算法,但傳統(tǒng)算法也存在著一定的問題。比如傳統(tǒng)的經(jīng)典的保邊濾波算法,提取圖像的低頻,進(jìn)而獲得圖像的高頻信號(hào),但這一類算法由于采用了較復(fù)另外一類銳化算法借鑒近幾年大熱的深度學(xué)習(xí)算法,將保邊濾波提取低頻這一步驟采用深度學(xué)習(xí)來做,一定程度上緩解了速度的瓶頸,但對(duì)噪聲放大問題并沒有得到很好的解決。另外一種是采用超分辨率和銳化相結(jié)合的方式,常見的做法是采用深度學(xué)習(xí)進(jìn)行超分辨率,然后結(jié)像還有一定的距離,因此需要采用銳化進(jìn)一步提升清晰度。但由于采用了先進(jìn)行超分辨率,然快,也很難達(dá)到實(shí)時(shí)處理的要求。為了解決這個(gè)問題,我們采用快速融合模型的方式,即采用單個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)超分辨率和銳化,可以在基本不損失效果的基礎(chǔ)上,速度得到很2.人臉清晰化線上的大量素材和長短視頻大部分以人像為主體,人像的清晰程度是影響用戶視覺體驗(yàn)的我們對(duì)比了單模型和多個(gè)尺度模型效果,多個(gè)尺度模型的還原度的模糊退化問題,模糊程度較高時(shí)還原結(jié)果會(huì)存在較多失真紋理,因此單獨(dú)訓(xùn)練了一個(gè)模糊4)選取相應(yīng)尺度增強(qiáng)模型,通過人臉增強(qiáng)模塊,得到高清和判別器(Discriminator)兩部分組成,生成網(wǎng)絡(luò)使用了稠密連接的Residual-in-R Dra(sr,hr)=D(f(sr)-f(E(hr)) LP=-z(log(Dra(sr,sr)))真紋理的產(chǎn)生。為了解決大尺度人臉清晰度還原不足問題,使用特征金字塔結(jié)構(gòu)融合多尺度信息以提升增強(qiáng)穩(wěn)定性。針對(duì)短視頻場景,使用輕量化模型提升模塊速度,達(dá)到50ms/幀,并對(duì)3.VSR模型深度學(xué)習(xí)視頻超分辨率技術(shù)通常分為兩種,一種是單幀超分辨率,另外一種是多幀超分辨單幀超分辨率速度通常較快,但很難解決前后幀連續(xù)性的問題,從而導(dǎo)致畫面的閃爍,導(dǎo)致人的主觀感受較差。多幀超分辨率算法,一方面可以很好的解決前后幀連續(xù)性的問題,另外一方面由于利用了多幀的信息進(jìn)行處理,在主觀效果上要明顯好于單幀算法。多幀超分辨率技因此對(duì)于優(yōu)酷場景,需要在對(duì)視頻進(jìn)行分辨率提升的同時(shí),能夠有效的解決壓縮、噪聲等視頻在數(shù)據(jù)處理方面,一方面,我們采用GAN網(wǎng)絡(luò)等設(shè)擬優(yōu)酷場景下的視頻降質(zhì)過程。另外一方面我們從優(yōu)酷有版權(quán)視頻庫中獲取同一視頻的不同分辨率視頻,并對(duì)視頻進(jìn)行匹配和清洗,從而構(gòu)建貼合優(yōu)酷業(yè)務(wù)場景的訓(xùn)練數(shù)據(jù)集。在模型結(jié)構(gòu)設(shè)計(jì)上,為了解決分辨率不足的問題,我們借鑒我們借鑒傳統(tǒng)視頻多幀算法,引入了多幀對(duì)齊模塊,并頻進(jìn)行了分區(qū)域處理。為了解決噪聲問題,我們借鑒傳統(tǒng)的頻譜分解方式,在網(wǎng)絡(luò)結(jié)構(gòu)中加入塊的網(wǎng)絡(luò)結(jié)構(gòu),在優(yōu)酷業(yè)務(wù)數(shù)據(jù)集上訓(xùn)練后,對(duì)優(yōu)酷場景下視頻面臨的噪聲、壓縮、低分辨率1.去除壓縮導(dǎo)致的噪聲問題(建議放大觀看)原圖2.算法采用分區(qū)處理,重點(diǎn)優(yōu)化文字、人臉等區(qū)域,提升畫面清晰度原圖原圖3.用于素材海報(bào)圖的清晰度提升原圖.改進(jìn)思路。采取分區(qū)域處理的策略,對(duì)不同的區(qū)域分別處理,對(duì)文字、logo、人臉等區(qū)域效果尤其明顯,人臉達(dá)到了分毫畢現(xiàn),毛發(fā)和紋理細(xì)節(jié)得到了恢復(fù)。我們提出了自己的質(zhì)量評(píng)價(jià)模算法的進(jìn)步是永無止境的,當(dāng)前各種算法技術(shù)也是層出不窮,如何把算法融會(huì)貫通并加以改進(jìn),應(yīng)用于我們的業(yè)務(wù)場景,讓算法發(fā)揮最視覺對(duì)比敏感度函數(shù)(ContrastSensitiveFunction,CSF)和恰可失真門限(JustNoticeable清,HDR,AR/VR等視頻處理技術(shù)形成閉環(huán),指導(dǎo)其優(yōu)化最終達(dá)到增強(qiáng)用戶觀看體驗(yàn)的目的。最終受體,視覺質(zhì)量也因此稱為visualperceptualquality,即,只是視覺上的效果極差這里不做討論)的興起導(dǎo)致行業(yè)內(nèi)必須重新對(duì)視覺質(zhì)量進(jìn)行定義。在立體視頻中,除SystemsandServices)發(fā)布了關(guān)于視頻體驗(yàn)質(zhì)量的白皮書,里面orannoyanceoftheuserofanapplicationorservice.Itresultsfrexpectationswithrespecttotheutilityand/orenjoymentofththeuser’spersonalityandcur本人當(dāng)前的狀態(tài)(例如,情緒,生理狀態(tài))而有所改為什么要做質(zhì)量評(píng)價(jià)?因?yàn)橛脩舻挠^看體驗(yàn)永遠(yuǎn)是第一位。而在整個(gè)視頻從獲取,處理,化相對(duì)應(yīng)的算法實(shí)現(xiàn),進(jìn)而實(shí)現(xiàn)每一個(gè)階段算法效果的提升人給出的分不一樣,在不同環(huán)境下看給的分不一樣,放到電視上去看或者放到手機(jī)、平板上看質(zhì)量不一樣。甚至,離遠(yuǎn)了近了去看質(zhì)量也不一樣。為了解決這個(gè)多影響因素的問題,視頻質(zhì)一系列的標(biāo)準(zhǔn)中,規(guī)定了測(cè)試視頻質(zhì)量的標(biāo)準(zhǔn)實(shí)驗(yàn)流程,包括人員篩選,實(shí)驗(yàn)環(huán)境,實(shí)驗(yàn)方法1.標(biāo)準(zhǔn)測(cè)試環(huán)境低2.測(cè)試設(shè)備在用戶進(jìn)行正式實(shí)驗(yàn)前,我們使用視力表,色盲檢測(cè)書,立體視覺檢測(cè)書等工具對(duì)用戶的視覺能力進(jìn)行檢測(cè)并記錄。對(duì)于顯示設(shè)備,我們使用色彩分析儀/校準(zhǔn)儀對(duì)顯示器進(jìn)行校準(zhǔn),利xritecolorchart進(jìn)行檢測(cè)3.測(cè)試平臺(tái)4.標(biāo)注人員管理人員數(shù)據(jù),包括個(gè)人基本信息,以及參加實(shí)驗(yàn)的次數(shù)和實(shí)驗(yàn)類別全部通過數(shù)據(jù)庫進(jìn)行管理。保5.測(cè)試方法對(duì)視頻的質(zhì)量進(jìn)行有效的可靠的主觀評(píng)價(jià)依舊是一個(gè)極具挑戰(zhàn)的科研問題。對(duì)于不同的業(yè)務(wù)場景和實(shí)驗(yàn)?zāi)康模褂玫脑u(píng)測(cè)方法需要仔細(xì)考慮才可得到較為這種方法對(duì)于常見的2D視頻來說結(jié)果比較穩(wěn)定。然而試想一下,如果讓一個(gè)答案是否定的。觀測(cè)者很難對(duì)于多維度的視覺感受用一個(gè)絕對(duì)數(shù)值來打分。于是,配對(duì)比較法相比于給一個(gè)絕對(duì)的分?jǐn)?shù),從兩個(gè)候選視頻中挑出質(zhì)量好的那個(gè)對(duì)我們來說更簡單,因此獲得的結(jié)果也就相對(duì)可靠。本測(cè)試平臺(tái)目前支持ACR和PairComparison正確的主觀評(píng)測(cè)方法可以有效減少數(shù)據(jù)的噪聲,然而,噪聲是一定存在的。因此,在業(yè)務(wù)落地中,直接拿已有的數(shù)據(jù)庫去訓(xùn)練自己的算法模型時(shí)要認(rèn)真考慮數(shù)據(jù)從何而來以及是否可以1.ITUoutlier模型ITU-RBT.500提出了一種檢測(cè)標(biāo)注人員是否為outl2.Li'sMLEmodel針對(duì)標(biāo)注過程建模的方法,可以將真實(shí)分?jǐn)?shù),標(biāo)注人員本身的bias和inconsistency即,最終只需要使用恢復(fù)出的真實(shí)分?jǐn)?shù)作為該視頻/圖像的質(zhì)量即可。標(biāo)注人員的bias和Be,s服從正態(tài)分布,均值為用戶本身的bias,Ae,s是由視頻/圖像內(nèi)容引起,不會(huì)改變分?jǐn)?shù)的均值,只會(huì)影響方差,即,ac如上所述,使用主觀實(shí)驗(yàn)方法來對(duì)視頻進(jìn)行質(zhì)量評(píng)價(jià)是一件非常expensive的事情。利用客觀質(zhì)量評(píng)價(jià)方法根據(jù)對(duì)參考視頻(即,具有完美質(zhì)量的視頻)信息的利用程度來判斷測(cè)試視頻的質(zhì)量而分全參考(FullReference部分參考(ReducedReference)和無參考(NoReference)方法。目前效果比較好的視頻質(zhì)量評(píng)價(jià)模型大部分是基于全出的VQM,以及Netflix提出的VMAF,以及較早前的SSIM等。無參考的評(píng)價(jià)方法一直是該的機(jī)制用數(shù)學(xué)建模的方式模擬出來,例如將人眼的多通道特性,ContrastSensitivityFunction,LuminanceAdaptation,Ma1.圖片質(zhì)量評(píng)價(jià)審核不可能覆蓋到全站的所有圖片量級(jí),會(huì)被用戶看到的封面圖的質(zhì)量甚至首頁的封面圖質(zhì)量絡(luò)訓(xùn)練模型,經(jīng)過優(yōu)化迭代最終達(dá)到預(yù)測(cè)分?jǐn)?shù)與主觀groundtruth分?jǐn)?shù)線上PLCC=0.87,2.視頻質(zhì)量評(píng)價(jià)種失真的疊加。這種對(duì)于失真類型的不可控(從失UPGC視頻中失真來源復(fù)雜引發(fā)的質(zhì)量評(píng)價(jià)難點(diǎn)。該方案的框架圖如下所示(已申請(qǐng)專利該方法不僅輸出總體質(zhì)量分,還可以輸出失真類型,因此針對(duì)于優(yōu)酷視頻業(yè)務(wù),可以應(yīng)用五、5G下未來多媒體質(zhì)量評(píng)價(jià)的展望如Light-fieldImaging,A一代視頻內(nèi)容生成,視頻壓縮,視頻增強(qiáng),depthestimation量評(píng)價(jià)方法來做監(jiān)控。同時(shí),這其中有可能產(chǎn)生的會(huì)引發(fā)觀眾視覺疲勞等危害身體健康的視頻參考文獻(xiàn)[1]QualinetWhitePaperonDefinitionsofQualityQualityofExperienceinMultimediaSy[2]ITU-RBT.500:Methodologyforthesubjectiveassessmentofthequalityoft[3]ITU-TRec.P.910,Subjectivevideo[4]MargaretH.Pinson,60,No.4,Decemebr201[5]ZhiLi,et.al,“Towa[8]JingLi,MarcusBarkowsky,PatrickLeCallet,“Visualdiscomfortofinfluenceofmotion”,Displays,vol.35,no.1,pp.[9]ZLi,CGBampis,Recoversubjectivequalityscores——面向多種業(yè)務(wù)場景的統(tǒng)一端側(cè)渲染SDK作為綜合性的視頻平臺(tái),優(yōu)酷擁有完整且多樣的視頻內(nèi)容形式,包括長視頻、短視頻、小視頻,面向體育和秀場的直播平臺(tái)、此外還有互動(dòng)劇??偨Y(jié)起來我們主要面向視頻的拍攝、編1.設(shè)計(jì)思路在長期對(duì)接拍攝、視頻編輯、智能播放器等業(yè)務(wù)的過程中,摩酷實(shí)驗(yàn)室沉淀了可同時(shí)支撐考慮到手機(jī)端的實(shí)際應(yīng)用場景,在規(guī)劃引擎的功能模塊時(shí)我們采取了非常審慎的態(tài)度,時(shí)刻對(duì)焦業(yè)務(wù)主線,避免無意義的低頻功能的開發(fā)。另外,在開發(fā)過程中避免引入開源引擎,雖快,穩(wěn)定性好等優(yōu)勢(shì)。已經(jīng)在優(yōu)酷主客拍攝、云相冊(cè)、播放器等場景得到應(yīng)用,基本覆蓋了視在功能方面,得益于優(yōu)酷豐富的內(nèi)容形式,我們針對(duì)不同的內(nèi)容形式研發(fā)了不同的功能點(diǎn)快速靈活地支撐更多場景。端側(cè)識(shí)別模型方面,阿里巴巴已經(jīng)有許多團(tuán)隊(duì)研發(fā)了多種多樣的端側(cè)識(shí)別模型,還有非常成熟可靠的MNN等推理們可以站在巨人的肩膀上,聚焦在渲染引擎上,面向我們的業(yè)務(wù),持續(xù)把渲染做深做透。接入多種AI識(shí)別能力,支持各種圍繞人臉、人體的互2.業(yè)務(wù)結(jié)構(gòu)圖從上面的業(yè)務(wù)結(jié)構(gòu)圖可以看到,接口層(Interface)是對(duì)外業(yè)務(wù)的輸入/輸出接口,通用的針對(duì)業(yè)務(wù)方變更、添加新的需求,引擎可簡單、快速的增加注冊(cè)新功能模塊,快速將算法3.應(yīng)用1.真實(shí)感人臉美化圍繞人臉的美化和增強(qiáng)是業(yè)界關(guān)注的問題,我們將美顏和人臉的去噪、細(xì)節(jié)恢臉美化。美顏技術(shù)行業(yè)應(yīng)用非常普遍,在快手抖音等短小視頻場景,直播場景,拍攝工具等都有大量應(yīng)用。一般在拍攝或上傳入口都需要美顏,且對(duì)算法實(shí)時(shí)性要求很高。而播放端涉及到大量的視頻噪聲、壓縮等降質(zhì)問題,會(huì)破壞人臉的細(xì)節(jié)和紋理,針對(duì)人臉圖像做恢復(fù)和增強(qiáng)也優(yōu)酷UPGC場景對(duì)美顏和畫質(zhì)增強(qiáng)有特別的需一篇文章“分區(qū)域處理的圖像和視頻清晰化技術(shù)”進(jìn)行人臉圖像基礎(chǔ)恢復(fù)已被破壞的紋理,并去除噪聲,然后使用美顏技術(shù)進(jìn)行修飾。對(duì)于這樣復(fù)雜的業(yè)務(wù)需求,傳統(tǒng)的美顏技術(shù)很難支持。因?yàn)閭鹘y(tǒng)的美顏技術(shù)往往把皮膚磨的非常光滑,并加入大程度的美白,極易產(chǎn)生失真和膚色變化的問題。事實(shí)上,我們對(duì)算法的要求已經(jīng)超越了美顏的范疇,既要思路是:對(duì)圖片進(jìn)行分頻處理,在不同頻段采集不同處理方式,同時(shí)結(jié)合人臉膚色的mask分區(qū)域算法主要根據(jù)人臉檢測(cè)算法先檢測(cè)出人臉的區(qū)域,然后在根據(jù)膚色檢測(cè)檢測(cè)出人臉無磨皮美顏的核心算法包括分頻技術(shù)和對(duì)特定頻率段(皮膚痘漬)的處理。分頻技術(shù)需要分頻技術(shù)是圖像處理非常常用的一項(xiàng)技術(shù),在各種圖像增強(qiáng)的應(yīng)用場景里面都得到了很多應(yīng)用。分頻的方法也有很多,比如小波技術(shù),保邊濾波算法等方式??紤]到性能的問題,我們通過對(duì)大量人臉圖像的實(shí)驗(yàn),我們發(fā)現(xiàn)臉部皮膚的痘漬之類的不干凈的東西基本處于高頻最后我們需要人臉區(qū)域處理完結(jié)果和原圖進(jìn)行融合,這里面涉及的一問題就是要處理好邊緣的過渡,我們通過fastguidedfitlter羽化過2.端側(cè)視頻增強(qiáng)優(yōu)化超分算法目主要算法都是基于深度學(xué)習(xí)的算法,但是深度學(xué)習(xí)雖然是目前學(xué)術(shù)的趨勢(shì),但是深度學(xué)習(xí)算法一般網(wǎng)絡(luò)參數(shù)繁多,模型比較大。且需要大這樣的特點(diǎn)讓深度學(xué)習(xí)算法增強(qiáng)算法具有迭代行差和性能差的弱點(diǎn)。如果想用深度學(xué)習(xí)還要集谷歌的RAISR(RapidandAccurateIma率圖像轉(zhuǎn)化為高分辨率圖像。這項(xiàng)技術(shù)能夠在節(jié)省帶寬75%速度提升了很多,從下圖可以看出RIASR算法和一學(xué)習(xí)濾波器的過程就是學(xué)習(xí)一種高清映射的關(guān)系。給定一些圖像對(duì),用最小化恢復(fù)出來的首先,對(duì)低清圖像進(jìn)行簡單的雙線性差值;然后,使用哈希算法快速將圖像塊分到不同的類別(bucket)中;對(duì)于每個(gè)類別,分別使用四個(gè)預(yù)先訓(xùn)練好的濾波器進(jìn)行線性濾波;將不同RIASR通過一組訓(xùn)練數(shù)據(jù)來可以到一個(gè)濾波生的缺陷就是不具備可調(diào)整性,也就是學(xué)習(xí)完一組參數(shù)只能得到一種程度的增強(qiáng)效果。下圖但在實(shí)際業(yè)務(wù)場景中,往往需要快速調(diào)整算法的強(qiáng)弱程度。解決這個(gè)問題最簡單的辦法學(xué)但這樣的做的缺點(diǎn)也顯而易見。大大增加我們的工作,降低了算法的快速響應(yīng)業(yè)務(wù)需求的能力,顯然不可取。我們通過分析分析濾波器的特點(diǎn),利用RIASR算法不像深度學(xué)習(xí)方法需要那么多數(shù)成。但想要取得比較好的效果就需要數(shù)據(jù)特別貼合業(yè)務(wù)場參考文獻(xiàn)Milanfar,"BLADE:FilterLearningInternationalConferenceonComputationalP[2]Y.Romano,J.Isidoro,andP.Milanfar“RAISRIEEETransactionsonComputationalImmaterialediting.ACMTOG,34(5):大千XR-Video技術(shù)概述擬信息與視頻在后期富有創(chuàng)意地植入;(2)通過視頻植入技術(shù)通過復(fù)用已有的普通視頻素材,在視頻制作后期植入新的內(nèi)容,目的是在原動(dòng)態(tài)混合現(xiàn)實(shí)、拍照特效、心動(dòng)時(shí)刻、爆石特效和背景氛圍等十幾種特效,用戶看到我們的特1.植入內(nèi)容算法利用視頻理解和視頻分割等技術(shù)從已有的視頻中通過算法模型2.云渲染支撐特效視頻制作的是大千云端渲染引擎。云端渲染引擎旨在解決目前特效制作的規(guī)模化和自動(dòng)化,側(cè)重解決效率和品質(zhì)難點(diǎn)。以植入特效廣告為例,云端渲染引擎從創(chuàng)意中心下單到自動(dòng)化制作輸出投放配置,為特效廣告快速上線提供保障,豐富的預(yù)置模板和插件式編排能力為廣告客戶提供優(yōu)質(zhì)視覺曝光方案。傳統(tǒng)特效廣告制作存在渲染時(shí)間長、人工介入流程多、場植入渲染是植入虛擬信息和視頻內(nèi)容融合的關(guān)鍵,直接影響到用戶的觀感。為了使得植入無違和感,需要在把植入位的圖像風(fēng)格遷移到待植入的素材圖像,使得植入后的素材區(qū)域和原模糊遷移等方法對(duì)廣告素材進(jìn)行處理,傳統(tǒng)的圖像處理方法很難自動(dòng)的準(zhǔn)確估計(jì)出原始視頻的圖像風(fēng)格,需要人工介入調(diào)整大量的參數(shù),且操作人員要求有較高的經(jīng)驗(yàn)才能調(diào)整得到較好的對(duì)素材圖像風(fēng)格紋理進(jìn)行遷移,達(dá)到了植入后的廣告位原片素生產(chǎn)、標(biāo)注項(xiàng)目生成、點(diǎn)位結(jié)果入庫和特效制作都能在線上完成。時(shí)空多維度中的“時(shí)”指的和結(jié)束的時(shí)間點(diǎn),精確度到幀級(jí)別。時(shí)空多維度中的“空”指的是在一幀或多幀圖像中連續(xù)的在時(shí)的基礎(chǔ)上,融入“空”的感知與理解,由于視頻包含的信息不同,對(duì)植入空間確定的用PointNet系列的目標(biāo)檢測(cè)模型實(shí)現(xiàn)場景我們是不知道的,需結(jié)合物體檢測(cè)、幾何形狀檢測(cè)、深度估計(jì)和基于圖的平面追蹤等多種方法實(shí)現(xiàn)平面檢測(cè)和追蹤;如果是優(yōu)酷自制的影劇綜,我們能介入前期的拍攝,例如優(yōu)酷自制的互動(dòng)劇,我們可以利用標(biāo)定板鋪助進(jìn)行相機(jī)位姿估計(jì),實(shí)現(xiàn)平面檢測(cè)和重建,疊加虛擬場景改變移花接木、無中生有和動(dòng)態(tài)混合現(xiàn)實(shí)等特效制作就是利用了時(shí)空多維度合成。下面以移花1.顯式平面檢測(cè)隱式的平面檢測(cè)。顯式平面檢測(cè)的步驟包括邊緣檢測(cè)、直線擬合、輪廓提取、篩選和精確查找canny等算子與霍夫變換直線檢測(cè),需要較多的參數(shù)調(diào)節(jié),且計(jì)算代價(jià)較大,方輪廓提取篩選是對(duì)邊緣檢測(cè)結(jié)果進(jìn)行輪廓擬合,按照周長、面積、頂點(diǎn)數(shù)目、長寬比和內(nèi)角等幾何條件篩選出符合一定要求的輪廓,再按照相鄰幀四邊形出現(xiàn)位置、符合要求的四邊形連續(xù)出現(xiàn)次數(shù)來合并間斷檢測(cè)片段。接下來,在一個(gè)鏡頭內(nèi),對(duì)檢測(cè)到的視頻片段,向前向后查找,彌補(bǔ)漏檢的圖像幀。初步檢測(cè)結(jié)果是:在視頻中顯著的平面四邊形區(qū)域檢測(cè)準(zhǔn)確,對(duì)運(yùn)動(dòng)和遮擋有一定的適應(yīng)能力,漏檢主要是邊緣檢測(cè)后尋找輪廓的錯(cuò)誤所致。有了顯式平面檢測(cè)初版的結(jié)果,我們通過邊緣檢測(cè)和輪廓提取輔助人工標(biāo)注,收集了一批平面檢測(cè)數(shù)據(jù),利用深2.隱式平面檢測(cè)隱式平面檢測(cè)是為了進(jìn)一步挖掘點(diǎn)位信息。如果視頻場景內(nèi)無運(yùn)動(dòng)的目標(biāo)且僅有平移旋轉(zhuǎn)的視頻序列,我們嘗試了傳統(tǒng)點(diǎn)云重建的方法。點(diǎn)云是某個(gè)坐標(biāo)系下以還原現(xiàn)實(shí)世界,當(dāng)然這也是我們的夢(mèng)想。這里我們簡單描述一下利用攝像機(jī)成像原理從圖像些已知信息還原匹配點(diǎn)在空間當(dāng)中的坐標(biāo),將三維點(diǎn)三角化并重映射到攝像機(jī)得到二維點(diǎn),同時(shí)算出這兩幀圖像所對(duì)應(yīng)的相對(duì)相機(jī)姿態(tài),通過相機(jī)位置就可以恢復(fù)物體稀疏三維點(diǎn)云,再通檢測(cè)稠密分布不均,容易導(dǎo)致重建結(jié)果出現(xiàn)部分區(qū)域空洞的問題,提出了一種自適應(yīng)優(yōu)化特征如果視頻中特征點(diǎn)較少,存在運(yùn)動(dòng)目標(biāo)的場景,傳統(tǒng)方法效果比較差。針對(duì)這種情況我們其中顏色相似性的度量因子是lab顏色空間的L2范數(shù),顏色鄰近性的度量因子是圖像二維坐3.平面追蹤平面追蹤是移花接木植入的關(guān)鍵環(huán)節(jié)之一。追蹤待植入?yún)^(qū)域,使植入?yún)^(qū)域在視頻運(yùn)動(dòng)中仍然可以保持與畫面運(yùn)動(dòng)的同步。平面追蹤大體有基于特征點(diǎn)的、基于區(qū)域的和genericobject(KCF)幾種。我們采用基于特征點(diǎn)的多融滑來提高計(jì)算單應(yīng)性矩陣的準(zhǔn)確性。特征點(diǎn)計(jì)算傳統(tǒng)方法有SIFT、SURF、KAZE、AKAZE、BRISK和ORB等,Learning-based方法有D2-Net、DELF、LF-Net和SuperPoint等。Learning-based方法取代傳統(tǒng)基于SIFT的匹配是一個(gè)大趨勢(shì)。用homographytransformation建立對(duì)應(yīng)關(guān)系用于訓(xùn)練。在多融UnSuperPoint深度學(xué)習(xí)方法進(jìn)行關(guān)鍵點(diǎn)和描述子聯(lián)合的自適應(yīng)學(xué)習(xí),保證特與視頻內(nèi)容脫離,而是和人們的當(dāng)前視頻自然而然地成為一體。交互的動(dòng)作除了以往的按鍵或者觸屏,可以擴(kuò)展到頭部、眼部、表情、手勢(shì)和語音等,從位置擴(kuò)展到原有視頻某個(gè)空間。下1.點(diǎn)哪兒活哪兒汽車3D互動(dòng)廣告demo2.轉(zhuǎn)哪兒看哪兒視錐體手機(jī)慣性測(cè)量單智能手機(jī)中跟手機(jī)位恣相關(guān)的傳感器有加速度計(jì)、磁力計(jì)、陀螺儀。加速度計(jì)可以感知加速度大小,磁力計(jì)感知磁場的方向和大小,陀螺儀能夠計(jì)算角速度,即轉(zhuǎn)動(dòng)速度。智能手機(jī)在上述三種基本傳感器之上,進(jìn)一步計(jì)算orientation(等。以四元數(shù)形式輸出的結(jié)果就是利用卡爾曼濾波算法綜合使用加速度、磁力計(jì)、陀螺儀得到雖然四元數(shù)可以求出旋轉(zhuǎn)矩陣,在手機(jī)上計(jì)算出準(zhǔn)確的旋轉(zhuǎn)矩陣沒有那么簡單。廉價(jià)的針對(duì)這個(gè)問題,我們采用分級(jí)策略來解決:默認(rèn)使用加速度和磁力計(jì)的直接計(jì)算方案,使用低通濾波算法降低抖動(dòng);對(duì)測(cè)試過證明陀螺儀正常的機(jī)器或者市面上的高端旗艦機(jī),使用穩(wěn)定的3.看哪兒買哪兒Buy+沉浸式購物(全景視頻版)在VR/AR中通過空間定位,人置身其品牌。VRBuy+是世界上首次大規(guī)模沉浸式用戶購物體11還發(fā)布了手機(jī)版。因?yàn)槌杀?、時(shí)間和受眾用戶的考慮,購物應(yīng)用,帶你穿越到世界各地的商場購物,遇到喜歡的還可以直交互方式主要只有一種,就是盯住觸發(fā)按鈕。雖然Cardboard上有點(diǎn)擊按鍵,更建議用自然的人機(jī)交互方式。有一點(diǎn)需要大家知道,在全景視頻中,用戶停下來時(shí)商品總是能標(biāo)定得非轉(zhuǎn)成一個(gè)倒播的視頻。商品方面,每個(gè)商品環(huán)拍一圈,然后每隔一定度數(shù)取一張照片,結(jié)合綠摳手段把物體摳出來,把它形成一個(gè)連播的文件。有了這些準(zhǔn)備工作,只需要在正向走動(dòng)的時(shí)候播正向的視頻,用戶每時(shí)每刻就都知道物品在哪里了。由于安全距離的問題,對(duì)小商品的細(xì)節(jié)描述會(huì)遇到問題,比如貨柜上的手表會(huì)看不清楚,可以通過場景交互手段解決這個(gè)問題。走到一個(gè)區(qū)域時(shí),VR應(yīng)用讓你進(jìn)入另外一個(gè)場景,這個(gè)場景是全景圖片,這個(gè)時(shí)候商品細(xì)節(jié)表現(xiàn)會(huì)好一些。不斷推陳出新,DetailAR、Detail3D、廣告也能給用戶較好的體驗(yàn),以及降低新內(nèi)容排播不確定性對(duì)廣告的影響。人工智能平臺(tái)實(shí)現(xiàn)我們以移花接木為例解釋一下特效植入的大致流程。首先輸入視頻,點(diǎn)位系統(tǒng)根據(jù)物體識(shí)到合適的場景,并進(jìn)行平面點(diǎn)位檢測(cè)和篩選,然后進(jìn)行植入?yún)^(qū)域的跟蹤,生成植入?yún)^(qū)域指示數(shù)據(jù);廣告素材和特效蒙版(通過分割和粒子效果等手段生成)進(jìn)行特效合成生成特效素材,對(duì)特效進(jìn)行風(fēng)格遷移和光照估計(jì),生成的植入效果做邊緣美化后,根據(jù)植入?yún)^(qū)域指示數(shù)據(jù)進(jìn)行合在保證播放原視頻的同時(shí),還要保證動(dòng)態(tài)渲染廣告的視覺效果,要求嚴(yán)格的幀同步,精準(zhǔn)和輕量級(jí)渲染,另外Android、iPhone和OTT播放設(shè)備差異大,技術(shù)方案普適性和兼容性挑戰(zhàn)大。我們通過大千制作平臺(tái)巧妙地進(jìn)行資源分離,集成了多種特效資源生成和靈活地對(duì)接,特效層與播放層高性能的通訊機(jī)制,獨(dú)特的特效視頻掩碼設(shè)計(jì),實(shí)現(xiàn)了輕量渲染和快速同步,在深、遮擋關(guān)系,滿足影視級(jí)多場景的視頻生產(chǎn)要求。一方面,我們利用估算攝像機(jī)的運(yùn)動(dòng)并通計(jì),研發(fā)基于深度學(xué)習(xí)的場景光照特征識(shí)別算法,智能感知視頻畫面中的光源方向及光源照度提升信息獲取的效率。大千世界無奇不有,讓我們一起發(fā)揮想象力,一不小心,也許未來的生大千XR-Video技術(shù)在互動(dòng)劇上的應(yīng)用是平臺(tái)建立了自己的互動(dòng)視頻標(biāo)準(zhǔn)后真正意義上的第一部互動(dòng)劇。優(yōu)酷也在布局互動(dòng)劇,一場新賽道上的戰(zhàn)役已經(jīng)打響。用戶在觀看的互動(dòng)劇時(shí)候,每觸發(fā)一個(gè)情節(jié)點(diǎn),都需要通過選擇操傳統(tǒng)的互動(dòng)劇因?yàn)橛泻芏喾种?,所以情?jié)復(fù)雜,但是互動(dòng)性卻并不算高,因?yàn)樗械那楣?jié)依然是編劇事先設(shè)置好的,并非觀眾的創(chuàng)造,因此用戶的參與成程度并不高。我們?cè)趥鹘y(tǒng)的選擇事先拍攝好的分支劇情(AB分支)互動(dòng)基礎(chǔ)之上,利用技術(shù)手段,增加了用戶與畫面內(nèi)容的交互。例如傳統(tǒng)的互動(dòng)劇根據(jù)點(diǎn)擊選擇劇情的基礎(chǔ)上,我們?cè)黾恿烁鞣N體感玩法,其中人臉2)人臉二維姿態(tài)粗估計(jì):利用二維關(guān)鍵點(diǎn),進(jìn)行PnP方法,與現(xiàn)有三維模型上Code)特征,經(jīng)過實(shí)驗(yàn),PNCC特征對(duì)于人臉重建的精度并這一特征;并將網(wǎng)絡(luò)的輸入調(diào)整至128x128,重建效果提升較大,且網(wǎng)絡(luò)運(yùn)行時(shí)間上并沒有明(2)此外,卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)進(jìn)行了調(diào)整。在引入權(quán)重,讓網(wǎng)絡(luò)優(yōu)先擬合重要狀參數(shù),如尺度、旋轉(zhuǎn)和平移的基礎(chǔ)上,增大了表情特征的權(quán)重,讓人臉表當(dāng)用戶在觀看視頻時(shí),如果喜歡一個(gè)演員,可以采用“點(diǎn)贊”、“送花”等形式,畫面中演員會(huì)反饋一張笑臉,劇情走向可以走向一個(gè)開心的分支;反之,不喜歡一個(gè)演員,采用“丟磚”等形式,畫面中演員反饋一張生氣的臉,劇情走向另一分支。除此之外,人臉的位姿參數(shù)和其他表情參數(shù)也可作為劇情走向互動(dòng)的輸入條件,例如點(diǎn)頭、搖頭、哭、笑等。用戶在觀看視頻時(shí)候,不再只可以通過AB選項(xiàng)的方式機(jī)械化的引導(dǎo)視頻走向物或物品,達(dá)到更加“身臨其境”的互動(dòng)。這種互動(dòng)玩法涉及的技術(shù)除此之外,模型植入與互動(dòng)這個(gè)創(chuàng)新點(diǎn)值得后續(xù)繼續(xù)跟進(jìn)。目前優(yōu)酷互動(dòng)劇基本上是自制的,這就給在視頻內(nèi)容中融入互動(dòng)內(nèi)容留下很大空間。在視頻內(nèi)容的拍攝過程中,預(yù)留一些已機(jī)的定位,更精確地計(jì)算出相機(jī)參數(shù)。植入3D(1)植入模型可交互,可以根據(jù)不同操作有不同優(yōu)酷致力于互動(dòng)劇的發(fā)展,先后頒布了內(nèi)容制作和技術(shù)標(biāo)準(zhǔn),涉及到的體感互動(dòng)算法也不張照片,無論是自己的還是別人的,即可將指定視頻中明星的臉換成自己的臉,能看到樣貌和自己一樣的角色按劇中情節(jié)進(jìn)行表演和對(duì)話,好像自己穿越到劇中,成為自己喜愛的明星,或者和自己喜愛的明星搭戲。也可以讓自己的朋友或領(lǐng)導(dǎo)在劇中反串,可能會(huì)產(chǎn)生非常鬼畜的效結(jié)構(gòu),使用多個(gè)編碼器來對(duì)不同的人臉特征(身份、表情、屬性、環(huán)境)進(jìn)行去耦合,然后通息和其他信息。但我們?yōu)榱宋覀兪箯?qiáng)化學(xué)習(xí)到被換臉人的實(shí)時(shí)表情,比如眼珠和嘴角的細(xì)微動(dòng)除了臉部本身的生成之外,將生成的臉部與完整畫面融合也是一大難點(diǎn),尤其是面部有陰慢,二是badcase也多,所以我們?yōu)榱私鉀Q生成的人臉使用seamlessclone算法融合到原視頻中的魔心結(jié)構(gòu),在解決融合性能問題的同時(shí)也大大減少了融我們的算法流程如下圖所示。算法流程分為兩大部分,第一部分為對(duì)待換臉模板視頻進(jìn)行對(duì)換臉視頻進(jìn)行預(yù)分析包括幾個(gè)主要部分,首先是對(duì)整段視頻進(jìn)行鏡頭分割,然后對(duì)每一段鏡頭中所有的人臉進(jìn)行檢測(cè)和對(duì)齊,得到人臉的位置和關(guān)鍵點(diǎn)位置。然后,標(biāo)定將要被換臉的對(duì)象是哪條臉的軌跡,并視情況對(duì)轉(zhuǎn)頭、人物間遮擋等特殊情況進(jìn)行修補(bǔ)。得到了需要換臉每一幀中用戶生成的換臉圖以及其對(duì)應(yīng)的位置遮罩,將其融合后逐幀貼回原視頻,之后進(jìn)行編由于考慮到視頻換臉存在較大的法律風(fēng)險(xiǎn),我們最終的產(chǎn)品形式學(xué)來挑選優(yōu)酷版權(quán)的片子片段,然后用戶上傳的照片也會(huì)通過優(yōu)酷的安全審核系統(tǒng)來防止用戶違規(guī)上傳非法圖片。整個(gè)線上的工程鏈路在能實(shí)時(shí)給到上傳用戶以反饋的同時(shí)有完整的安全保頁,用戶上傳自己的照片后,后臺(tái)服務(wù)會(huì)先進(jìn)行封面圖的換臉,我們會(huì)挑選一張典型的正面高清圖作為封面圖,并將這張圖和原圖提交機(jī)審及人工審的審核。這樣審核團(tuán)隊(duì)僅需審核圖片即可確認(rèn)原始上傳圖片及換出來的效果是否含有風(fēng)險(xiǎn),大大提升了在審核的同時(shí),后臺(tái)服務(wù)會(huì)并行地進(jìn)行整個(gè)視頻的換臉,逐幀替換并生成新的完整視頻,當(dāng)審為了保證用戶的體驗(yàn),即在上傳照片后不用等待太久即可看到換臉后的效果,我們定了從為了達(dá)到這個(gè)目標(biāo),我們從工程上也進(jìn)行了優(yōu)化。首先,將從人臉檢測(cè)到視頻編碼在內(nèi)所但隨著深度學(xué)習(xí)研究的不斷深入,視頻換臉技術(shù)本身還有更多的優(yōu)化空間。如今年不斷更新的ConferenceonComputerVisionandPatternRecogni隨著大家觀看視頻的設(shè)備形態(tài)越來越豐富,在不同寬高比例的顯示屏幕上觀看同一個(gè)視頻深刻的電視上所有人物都很胖的過渡時(shí)期,現(xiàn)在又要面臨一個(gè)很嚴(yán)重的豎屏觀看的問題,以及其他更多的剪輯加工需求。尤其對(duì)于豎版視頻的生產(chǎn)而言,原生的豎版內(nèi)容和由橫版內(nèi)容轉(zhuǎn)換分析畫面中內(nèi)容的重要程度,并能夠在任意裁剪尺寸的約束下,盡可能多地保留其最重要的部向(imageretargeting)算法,即將單張圖片的內(nèi)容重新于視頻的重定向需要保證圖像內(nèi)容的時(shí)域連續(xù)性。單幀內(nèi)容重組織的方法幾乎不可能做到時(shí)域視頻智能裁剪算法的基本目標(biāo)是盡量保證裁剪區(qū)域內(nèi)的內(nèi)容完整性。理論上內(nèi)容完整性指景深、燈光等拍攝技法的一個(gè)重要目標(biāo)。這樣就可以將這個(gè)目標(biāo)轉(zhuǎn)化為人眼視覺顯著區(qū)域完整性這個(gè)指標(biāo),這樣就可以充分利用到較大規(guī)模的另外一個(gè)需要權(quán)衡和算法目標(biāo)是用戶觀看的舒適程度。如果僅僅考慮最大化內(nèi)容完整性這一指標(biāo),得到的豎版視頻會(huì)產(chǎn)生抖動(dòng)和晃動(dòng)等問題,很大地降低用戶的觀看體驗(yàn)。因此視頻裁剪算法另一的重要的約束條件是盡量避免影響用戶觀感的鏡頭晃動(dòng)。為了做到這一點(diǎn),我們實(shí)驗(yàn)了不同的軌跡平滑策略,發(fā)現(xiàn)人眼對(duì)裁剪區(qū)域運(yùn)動(dòng)對(duì)時(shí)間的一階和二據(jù)此使用了一階+二階全變分(totalvariation)最小化的算法來在保色細(xì)線和深藍(lán)色細(xì)線為兩個(gè)人的實(shí)際位置變化,所以可以看出這是一個(gè)典型的劇集內(nèi)容中包含2個(gè)人互動(dòng)的鏡頭,內(nèi)容是兩個(gè)人一開始在畫面左右兩端,之后逐漸靠近最后又稍稍分開的過程。如果我們直接采用真實(shí)位置作為畫面中心來裁剪,裁剪后的畫面特征如左圖所示,雖然人雖然端到端的算法一般來說更加精簡高效,但對(duì)于智能裁剪來說,由于端到端的算法可以利用的數(shù)據(jù)集比較小,很難達(dá)到比較理想的效果。反之,分步的方法能夠有效利用現(xiàn)有的成熟的人臉、人體目標(biāo)檢測(cè)等大規(guī)模的數(shù)據(jù)集和模型,能夠大大提高算法的準(zhǔn)確性。另外分步的方法也能夠提高整個(gè)算法體系的靈活性,使得算法能夠快速根據(jù)業(yè)務(wù)需求進(jìn)行靈活調(diào)整。因此我第一步為鏡頭分割,由于相鄰鏡頭間的裁剪位置是不相關(guān)的,因此可以以鏡頭為單位獨(dú)立進(jìn)行裁剪,避免了鏡頭邊界造成的相關(guān)問題。鏡頭邊界檢測(cè)算法的準(zhǔn)確率直接影響到智能裁剪錯(cuò)誤率。我們?cè)赥ransNet[1]的基礎(chǔ)上改進(jìn)了一個(gè)第二步為特征抽取,這一步通過一系列算法群對(duì)每一個(gè)鏡頭生成了多個(gè)和視覺顯著度密切相關(guān)的特征、包括人臉和人體的檢測(cè)、朝向估計(jì)、清晰度評(píng)估、追蹤和識(shí)別,光流的估計(jì),視最后一步為特征的融合和裁剪位置的估計(jì),這一步是整個(gè)算法流程中的關(guān)鍵部分。我們使用了對(duì)每一個(gè)鏡頭內(nèi)目標(biāo)能量函數(shù)最大化的方法,同時(shí)保證視頻內(nèi)容的完整性和裁剪區(qū)域運(yùn)動(dòng)穎的播放形式。我們下一步的重點(diǎn)包括將智能裁剪算法適用于包括動(dòng)畫、體育等特殊的視頻場Transitions.”ArXivPreprintArXiv:1全球文娛視頻市場存在海量統(tǒng)一橫屏制作的大在著大量橫屏播放的長短視頻,隨著近兩年來豎版視頻的流行和較高的播放轉(zhuǎn)化效率,用戶對(duì)阿里文娛優(yōu)酷首次將基于機(jī)器視覺的視頻裁剪技術(shù)應(yīng)用于視頻二次生產(chǎn)和智能封面圖生成智能裁剪技術(shù)主要應(yīng)用于以多人或者單人為主體的場景,我們將目標(biāo)檢測(cè),跟蹤,識(shí)別等技術(shù)進(jìn)行創(chuàng)新和結(jié)合,開發(fā)了完整的視頻智能裁剪技術(shù)鏈路,面對(duì)實(shí)際業(yè)務(wù)中的主體標(biāo)定,視頻幀間抖動(dòng),視頻黑邊填充等問題針對(duì)性的研發(fā)了算法解決方案,可以根據(jù)不同的業(yè)務(wù)場景將材自動(dòng)化制作,剪輯作品的視覺效果和制作成本降低等方面都帶來塊,其中分鏡邊界檢測(cè)模型根據(jù)視頻畫面將視頻分成多嚴(yán)重影響用戶體驗(yàn)。因此我們使用邊緣檢測(cè)算子和霍夫變換等來解決黑邊主體自動(dòng)標(biāo)定模塊(如圖4所示)包含目標(biāo)根據(jù)目標(biāo)檢測(cè)模型對(duì)視頻中的人臉和人體進(jìn)行檢測(cè)后,將包含人臉或人體的boun著性獲取畫面中不同位置為顯著區(qū)域的概率;由于不同視頻存在不同的降質(zhì)現(xiàn)象,我們研發(fā)了模糊檢測(cè)算法,通過模糊檢測(cè)模型提供圖像清晰度比較結(jié)果,從而實(shí)現(xiàn)選擇更為清晰主體的目的,除了上述子模型的輸出結(jié)果外,我們還設(shè)計(jì)了主體檢測(cè)框離畫面中心的歐式距離,基于相主體標(biāo)定的結(jié)果來訓(xùn)練主體判定模型使得主體標(biāo)定的Accu主體追蹤模塊包括目標(biāo)追蹤算法,鏡頭平滑算法,主體標(biāo)定和主體追蹤交互機(jī)制。通過對(duì)鏡頭標(biāo)定結(jié)果。由于目標(biāo)追蹤算法得到的鏡頭剪裁位置并不是漸變的,這導(dǎo)致了畫面抖動(dòng),引起用戶觀看眩暈等較差體驗(yàn),因此通過時(shí)間序列離群點(diǎn)檢測(cè)和Kalmanfilte最后我們使用去噪、去模糊、和超分辨率模型,對(duì)裁剪后視頻智能裁剪技術(shù)生產(chǎn)的視頻和封面圖廣泛應(yīng)用于優(yōu)酷的各個(gè)場景,并得到了業(yè)務(wù)方和阿里云客戶的一致認(rèn)可,我們對(duì)視頻智能裁剪算法棧進(jìn)行了整體性能優(yōu)化,達(dá)到處理時(shí)間僅1:2視頻時(shí)長,目前該技術(shù)累計(jì)對(duì)優(yōu)酷綜藝:演技派、這就是街舞、這就是灌籃;優(yōu)酷劇集:陸戰(zhàn)之王、天雷一部之春花秋月、微微一笑很傾城等百部OGC進(jìn)行裁剪服務(wù),裁用于抖音,微博等外渠宣發(fā)和站內(nèi)投放,同時(shí)主體標(biāo)定算法服務(wù)于搜索雙列封面圖轉(zhuǎn)豎項(xiàng)目,鏡頭平滑算法服務(wù)于彈幕人臉項(xiàng)目,目前視頻裁剪算法已經(jīng)部署在阿里云上,由于目前行業(yè)內(nèi)于智能畫面分析和多層級(jí)主體目標(biāo)標(biāo)定的圖像智能剪裁技術(shù)》專利的方式來保障該產(chǎn)品技術(shù)的技術(shù)實(shí)踐-精準(zhǔn)的視頻物體分割算法以及應(yīng)用視頻物體分割(VideoObjectSegme把感興趣的物體區(qū)域完整的分割出來。為了方便大家的理解,先給出一個(gè)我們自己的視頻物體因此,對(duì)于優(yōu)酷這樣的視頻類網(wǎng)站,視頻物體分割是非常有價(jià)值的算法,能夠賦能內(nèi)產(chǎn)者,提升內(nèi)容生產(chǎn)效率。特別是交互式視頻物體分割算法,能利用用戶少量交互,逐步提高視頻物體分割正確率,提升用戶觀感體驗(yàn)。這是任何無監(jiān)督視頻物體分割算法其中,學(xué)術(shù)界更傾向于研究半監(jiān)督視頻物體分割,因?yàn)檫@是視頻物體分割的最基礎(chǔ)算法,也是比較純粹的一個(gè)研究點(diǎn)。接下來,我首選介紹視頻物體分割的三個(gè)研究方向,然后結(jié)合優(yōu)酷認(rèn)域,算法來獲取在后續(xù)幀上的物體分割區(qū)域。物體可以是一個(gè),也可以是多個(gè)。在視頻中,存在物體和背景運(yùn)動(dòng)變化、光照變化、物體旋轉(zhuǎn)變化、遮擋等,因此半監(jiān)督視頻物體分割算法研(a)FrameNo.=1(b)FrameNo.=20相似2)隨著目標(biāo)駱駝的運(yùn)動(dòng),背景中出現(xiàn)一個(gè)新的駱駝,需要分割出這兩個(gè)不同的駱駝區(qū)基于在線學(xué)習(xí)的算法根據(jù)第一幀物體的ground-truth,利用one-shotlearning的策略來等。在線學(xué)習(xí)算法針對(duì)每個(gè)物體單獨(dú)訓(xùn)練模型,可以達(dá)到很高的分割正確率。但是在線學(xué)習(xí)本主流。今年出現(xiàn)了不少無在線學(xué)習(xí)的算法,它的模型是事先訓(xùn)練好的,不需要針對(duì)樣本進(jìn)行半監(jiān)督視頻物體分割的最主要的結(jié)果評(píng)估標(biāo)準(zhǔn)是平均Jaccard和F-measurement.平均Jaccard交互式視頻物體分割是從去年開始興起的、更貼近實(shí)用的視頻物體分割方法。在交互式視交互信息可以是物體boundingbox、物體區(qū)域物體分割,得到所有幀圖像上物體區(qū)域。然后,用戶檢查分割結(jié)果,在分割較差幀上,給出新交互式視頻物體分割不是一個(gè)單一算法,而且多種算法有機(jī)融合的解決方案,包括交互式從評(píng)估指標(biāo)可以看出,交互式視頻物體分割強(qiáng)調(diào)分割算法的時(shí)效性,不能讓用戶長時(shí)間等1)半監(jiān)督視頻物體分割需要物體第一幀的ground-半監(jiān)督和交互式視頻物體分割中,物體是事先指定的,不存在任何歧義。而在無監(jiān)督視頻我們提出的VOSwithrobusttracking策略[8],可以較大幅度的提高基礎(chǔ)算法的魯棒性。在space-timenetwork、regionproposal另外,圖像物體分割算法、多目標(biāo)物體跟蹤算法也是視頻物體分割算法的重ReferencePont-Tuset,F.PerazInarXivpreprintartvideoobjectsegmentation.CVPRforvideoobjectsegmentation.arXivpreprintarXiv:1807.0919FEELVOS:FastEnd-to-EndEmbeddinSegmentationbyInteraction-and-PropagationNetworTrackingandSegmentation:AUnifyin視頻內(nèi)容結(jié)構(gòu)化等領(lǐng)域的應(yīng)用需求越來越多。算法開發(fā)工程師們現(xiàn)了從視頻標(biāo)注到推理服務(wù)的鏈路;阿里云的視頻云平臺(tái)提供了具有很多能力的推理服務(wù);優(yōu)1.smart致力打造一個(gè)正向循環(huán)的數(shù)據(jù)算法服務(wù)平臺(tái)系統(tǒng)、數(shù)據(jù)集等多個(gè)子系統(tǒng)來解決實(shí)際算法開發(fā)、生產(chǎn)發(fā)2.smart邏輯架構(gòu)2)任務(wù)系統(tǒng):監(jiān)控報(bào)表、任務(wù)報(bào)表、qps報(bào)表、任務(wù)執(zhí)1.任務(wù)調(diào)度策略4)通過數(shù)據(jù)庫樂觀鎖確保每個(gè)任務(wù)同一時(shí)刻只被某個(gè)task-態(tài)的任務(wù)經(jīng)過指定時(shí)間沒有返回成功,會(huì)被放置回任2.算法能力編排算法模板是在單個(gè)算法能力的基礎(chǔ)上,根據(jù)業(yè)務(wù)需求把一系列算法組裝成一個(gè)完整的業(yè)務(wù)通過算法模板,能夠?qū)㈧`活的進(jìn)行算法能力編排定制,快速響應(yīng)業(yè)務(wù)需求,而不需要手工算法編排能力在滿足特定業(yè)務(wù)需求的同時(shí),也沉淀了優(yōu)酷素材圖像質(zhì)量模板對(duì)應(yīng)的json配置把上一層級(jí)的算法節(jié)點(diǎn)的輸出結(jié)果作為下一層級(jí)3.靈活拓展的海量數(shù)據(jù)存儲(chǔ)為了滿足不斷日益增長的算法分析需求、與視頻內(nèi)容結(jié)構(gòu)化算法結(jié)果復(fù)用,需要針對(duì)視頻4.通過列拓展?jié)M足動(dòng)態(tài)算法存儲(chǔ)需求不同值對(duì)應(yīng)不同的版本,一行可存儲(chǔ)不限個(gè)數(shù)個(gè)屬性列。通過靈活的拓展屬性列,來保存不同在每個(gè)列的值可以對(duì)應(yīng)不同的版本,版本的值是一個(gè)時(shí)間戳,可以用來保存算法不同版本5.ots主鍵的生成規(guī)則b位,最常用的查詢條件。比如site_vi例如:md5(key)#videoId#site#task_type#b6.算法的行級(jí)結(jié)果復(fù)用能力如上圖所示,隨著同步算法qps的提升,系統(tǒng)會(huì)優(yōu)先分配更多的資源給同步算法請(qǐng)求,同時(shí)也會(huì)給異步算法保留一臺(tái)機(jī)器。當(dāng)同步請(qǐng)求減少時(shí),異步機(jī)器可以獲取更多的計(jì)算資源。統(tǒng)一同異步計(jì)算資源,有效地提升了系統(tǒng)的資源利用率,也優(yōu)先了保障了在線算法服務(wù)請(qǐng)求的響7.動(dòng)態(tài)自適應(yīng)的算法隊(duì)列處理策略Netflix(美國最大的PGC視頻內(nèi)容商)在從使用人工標(biāo)注數(shù)據(jù)、三方數(shù)據(jù)等數(shù)據(jù)集開始訓(xùn)練,到生成模型、發(fā)布上線,服務(wù)于業(yè)務(wù)當(dāng)然,實(shí)際的數(shù)據(jù)流轉(zhuǎn)情況會(huì)比上圖復(fù)雜,比如開發(fā)平臺(tái)不止承擔(dān)了數(shù)據(jù)的清洗整理,同1.數(shù)據(jù)集數(shù)據(jù)集主要來自于三個(gè)地方:標(biāo)注、三方數(shù)據(jù)集對(duì)圖片、視頻進(jìn)行人工打標(biāo),除提供基本的標(biāo)注功能之外,還提供算youtube-8M(/youtube8m/)2.開發(fā)平臺(tái)()開發(fā)平臺(tái)提供一個(gè)從數(shù)據(jù)到模型、從模型到3.算法開發(fā)4.算法服務(wù)1.算法數(shù)據(jù)特點(diǎn)算法數(shù)據(jù)的以上特點(diǎn),對(duì)存儲(chǔ)提出了很高的要求:不流失、不蒸發(fā)。經(jīng)過調(diào)研,我們找到2.TableStore-表格存儲(chǔ)(/document_detail/27280.html)一行代表一個(gè)處理對(duì)象:一個(gè)視頻、一張圖片、一通過數(shù)據(jù)分片、負(fù)載均衡等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)無縫擴(kuò)展。簡單粗一列代表對(duì)處理對(duì)象做某個(gè)算法處理,比如對(duì)一張當(dāng)要對(duì)處理對(duì)象進(jìn)行新的算法處理時(shí),需要擴(kuò)展一個(gè)列。常見的數(shù)據(jù)庫擴(kuò)展一列相當(dāng)繁瑣假如行代表一張圖片,列代表一個(gè)算法,那么同一張圖片的同一個(gè)算法還可以做多版本的那么有人要問了,這么好的數(shù)據(jù)庫,我要如何使用呢,這個(gè)問題放1.圖像質(zhì)量分{{}}Copy2.人臉檢測(cè){{{[[[]}}]}要做好統(tǒng)一數(shù)據(jù)結(jié)構(gòu),又不增加算法同學(xué)的開發(fā)成本,最好的方式就是數(shù)據(jù)的兼容與可轉(zhuǎn)從人工標(biāo)注、三方數(shù)據(jù)集和其他方式獲取原始數(shù)據(jù),提供給算法開發(fā),算法模型部署成為■人工標(biāo)注、三方數(shù)據(jù)集和其他方式獲取的數(shù)據(jù)經(jīng)過統(tǒng)一結(jié)一直面臨行業(yè)的問題沒有很好的解決過,內(nèi)容不像商品有非常完整的量化指標(biāo)體系,它是一個(gè)復(fù)雜的實(shí)體,它跟意識(shí)形態(tài)以及用戶體驗(yàn)強(qiáng)相關(guān),對(duì)內(nèi)容進(jìn)行量化評(píng)估和衡量是非常困難的,我們不能通過單一的指標(biāo)去衡量一個(gè)演員好還是不好,我們可能需要思考這個(gè)演員的演技好不好?這個(gè)演員本身的氣質(zhì)和角色氣質(zhì)是否符合?演員的顏值是否匹配角色要求(越來越多的用)?行業(yè)技術(shù)挑戰(zhàn):內(nèi)容的復(fù)雜性決定了不確定性故事:延遲滿足&信息不完備技術(shù):NLP/CV/語音的語義理解&KG長安的一些數(shù)據(jù)非群演非群演800-1000人群演群演300-1500人籌籌備7個(gè)月,拍攝217天涉及工種極多的復(fù)雜系統(tǒng)工程技術(shù):不確定性問題的衡量&計(jì)算理理用專業(yè)技能VS流量商業(yè)價(jià)值技術(shù):戶解+心理理用另外,選擇的導(dǎo)演、主演組盤是否是最優(yōu)的組合,是否能夠成為爆款,這個(gè)是選擇模式的問題,這件事情更加復(fù)雜困難,我們今天面臨的技術(shù)挑戰(zhàn)是我們?nèi)绾芜M(jìn)行知除了上述兩個(gè)問題外,一部好的內(nèi)容它的拍攝過程是一個(gè)龐大的系統(tǒng)工程,同時(shí)它也是一特別好的系統(tǒng)工程這件事情也是特別特別的困難。我們可以參考軟件工程這個(gè)行業(yè),軟件工程近些年軟件行業(yè)的敏捷開發(fā)對(duì)于軟件工程的質(zhì)量和效率都有非常好的提升,我們?cè)趺窗堰@些理我們希望內(nèi)容敏捷在過程里面會(huì)知道,過程對(duì)結(jié)果造成的影響是什么,我們可以快速的調(diào)們除了要做基本的知識(shí)圖譜語義的理解之外,還要考慮如何去做有效的對(duì)應(yīng)分析,如何去做對(duì)行業(yè)趨勢(shì)及挑戰(zhàn):多,從商業(yè)驅(qū)動(dòng)到消費(fèi)驅(qū)動(dòng)人類需求生存生活生孩子生物質(zhì)前所未有豐富物信息前所未有繁多非人智能前所未有強(qiáng)大社會(huì)變化胖子越來越多商業(yè)越來越復(fù)雜AI時(shí)代開啟內(nèi)容蓬勃發(fā)展,過剩生產(chǎn),分級(jí)消費(fèi)行業(yè)趨勢(shì):分層、分級(jí)消費(fèi)加劇挑戰(zhàn)從全民爆款這世界很酷圈層爆款人人喜歡->各有所愛加上整個(gè)內(nèi)容的生產(chǎn)量極大的發(fā)展,用戶的消費(fèi)分層化,多樣化,從前的全民爆款越來越少,換句話說,也許你喜歡的內(nèi)容只有你那一小類人喜歡,用戶對(duì)內(nèi)容的需求更加個(gè)性化。相應(yīng)于文娛大腦基本框架:內(nèi)容認(rèn)知新動(dòng)力依托DeepDriver不斷深入AI可傳播的抽象或者具象對(duì)象實(shí)依托DeepDriver不斷深入AI物版歌曲……物版出話劇出小說漫畫事件游戲資訊地點(diǎn)新聞音樂制片人體育編劇綜藝導(dǎo)制片人體育編劇綜藝導(dǎo)演選手貫通多文本、全生命周期上下游數(shù)據(jù)網(wǎng)絡(luò)體系針對(duì)上面幾大困難,我們今天在做文娛大腦,優(yōu)酷北斗星這樣的系統(tǒng)來解決。我們把所有的內(nèi)容形式和用戶消費(fèi)的數(shù)據(jù)都采集下來,然后整合人工智能的技術(shù)手段,同時(shí)我們把業(yè)務(wù)里分兩部分,左面是內(nèi)容,右面是用戶,基本的思路內(nèi)容側(cè),我們對(duì)內(nèi)容進(jìn)行理解,包括外延和內(nèi)涵,外延就是內(nèi)容的各種基本屬性,比如主創(chuàng)陣我們用傳統(tǒng)的人工智能的機(jī)器學(xué)習(xí)的方式對(duì)內(nèi)容進(jìn)行理解,理解了之后基于戲劇理論和視聽語心理情緒,用戶的心理偏好、心理情緒來自于生理構(gòu)造,基于心理學(xué)的五大人格理論和用戶的觀看行為,構(gòu)建模型建立左面和右邊的連接,從而就知道創(chuàng)造什么樣的內(nèi)容,用戶會(huì)有什么樣貫穿全生命周期的文娛大腦生產(chǎn)力 ●●●;●●ToC觀劇輔助決策ToB合作輔ToC觀劇輔助決策ToB合作輔助決策站內(nèi)外協(xié)同宣發(fā)陣營播出階段內(nèi)容解構(gòu)量化畫畫測(cè)測(cè)新熱內(nèi)容定級(jí)及排播DAU/PUV預(yù)測(cè)測(cè)新熱內(nèi)容定級(jí)及排播DAU/PUV預(yù)流量規(guī)劃預(yù)主創(chuàng)評(píng)估作品分析視頻情緒挖掘測(cè)供應(yīng)商評(píng)估受眾分析測(cè)人機(jī)流量預(yù)輿情分析商業(yè)價(jià)值基于我們的內(nèi)容認(rèn)知框架,落到內(nèi)容的生命周期中,我們?cè)趦?nèi)容生命周期的每個(gè)階段做了一些具體的工作,已開播時(shí)間為切分點(diǎn),開播前提供內(nèi)容評(píng)估、藝人挖掘和內(nèi)容情緒挖掘等能力,在早期為內(nèi)容評(píng)估提供有效的數(shù)據(jù)支撐,在制作階段提供了現(xiàn)場解決方案比之前更敏捷的《長安十二時(shí)辰》-IP/劇本分析人物互動(dòng)關(guān)聯(lián)&人物社團(tuán)關(guān)系:快速定位劇情人物關(guān)系設(shè)定人物互人物互動(dòng)關(guān)聯(lián)接下來我們展現(xiàn)一些我們?cè)趯?shí)際業(yè)務(wù)中的一些能力嘗試,上圖是《長安十二時(shí)辰》的劇本分析的例子,我們把已有的一些劇本作為樣本,讓機(jī)器去學(xué)習(xí),識(shí)別出劇本的所有角色,把角色直接交互的對(duì)白、行為識(shí)別出來,然后再進(jìn)一步,根據(jù)交互進(jìn)行社團(tuán)的劃分,長安的劇本最終劃分出來幾個(gè)群體,如中間的這個(gè)群體就是反恐、特爆的小分隊(duì)以張小敬為中心,下面這個(gè)是唐朝核心管理團(tuán)隊(duì),就是皇上,基本上通過這樣的方式能夠快速的定位整個(gè)劇本的人物和人率物《長安十二時(shí)辰》–IP/劇本分析率物物物人出場分布&出鏡—快速定位角色場次、判斷角色戲份物物各場次&全局人熱詞—判斷各場次和全劇的核心線索,人設(shè)定張小敬李必圍繞上面角色的關(guān)系,我們進(jìn)一步展開,可以把剛才整個(gè)劇本劇情里面的角色識(shí)別出來,構(gòu)造成上面的曲線,然后通過分析很多的劇本,分析曲線中各個(gè)指標(biāo)(出鏡率、戲份、情緒值等)形成benchmark,然后對(duì)于后面的每一個(gè)過來的劇本進(jìn)行衡量,相當(dāng)于是對(duì)劇用《藥神》戶情緒VA用片片《長安十二時(shí)辰》成情緒挖掘同樣是“體檢”的方法,對(duì)于《藥神》和《長安十二時(shí)辰》這兩部電影我們情緒的識(shí)別,然后做了體檢的掃描,參考零線的位置,我們看到《藥神》這部片子差不多都是正向和負(fù)向級(jí)的,直到最后有一個(gè)正向區(qū)間,基本上后面以眼淚為主,傷感為主,而《長安十二時(shí)辰》這個(gè)片子的情緒狀態(tài)還是比較穩(wěn)定,比較沉穩(wěn)的一個(gè)片子。對(duì)照情緒高低點(diǎn)的具體情率測(cè)率測(cè)然后我們拿更多的方式去驗(yàn)證它的合理性,上圖中抽取《長安》的幾集來看,每集有兩條條曲線對(duì)比,我們可以發(fā)現(xiàn),兩條曲線的相關(guān)性比較高的用戶的觀看行為狀態(tài)是吻合的,由此我們就提供了一種能力,拿這個(gè)能力對(duì)劇本或是片子做率率基于VA的情感模型業(yè)內(nèi)通用的情感模型:Valence:情緒正負(fù)向。-1到+1之間,-1表示負(fù)向情感,如悲傷,+1表示正向情感,如高興Arousal:情緒的強(qiáng)烈程度。-1表示情緒最不強(qiáng)烈,如困乏平靜,+1表示最強(qiáng)烈,如激動(dòng)興奮。多模態(tài)的VA識(shí)別模型興趣的話可以上去看看,因?yàn)樾睦韺W(xué)最近這兩年研究的核心觀點(diǎn)是為什么用戶會(huì)感同身受,這來自于前兩年的一個(gè)理論叫做靜向神經(jīng)元,所以我們選擇了場景、表情、動(dòng)作以及聲音作為基如剛剛所講,內(nèi)容這個(gè)產(chǎn)業(yè),它有強(qiáng)延遲滿足的問題,我們目前通過兩層分析來解決之前長短期滿足的問題,除了上面講的用戶情緒分析外,我們也做了內(nèi)容角色的情緒識(shí)別,通過圖片表情識(shí)別模型,我們識(shí)別了不同題材類型的片子,可以看出來不同題材類型的片子中不同角色刻畫的人物性格,港劇《反貪風(fēng)暴》這么多年,主創(chuàng)人物形象的臉譜還是比較正的,圖中顯示負(fù)面角色的情緒是開心、害怕、為主的,正面形象是以悲傷、生氣為主,與負(fù)面反派的開心長安十二時(shí)辰(2019)反面反貪風(fēng)暴(2004)正面反面北京遇上西雅圖(2013)正面反面羞羞的鐵拳(2017)正面反面同樣我們分析每秒角色的情緒,形成角色的正負(fù)情緒曲線,部分片子的分析圖,不同題材類型的節(jié)目會(huì)有不同的情緒密度,所以你想放松的時(shí)候,要看的不一定是喜劇,喜劇其實(shí)不一定會(huì)放松,因?yàn)榻巧恼?fù)向情緒不停交替,由于延遲滿足,你的大腦還要負(fù)荷片片情感識(shí)別:圖表情識(shí)別改進(jìn)模型(ReducedXceptionwithMarginLoss)輸入模型框架DenseMapEntryflowMiddleflowExitflowEntryflowMiddleflowExitflow原始人臉圖像ConcatSVMMarginLossLayerFCSVMMarginLossLayerReducedXception輸入:引入人臉關(guān)鍵點(diǎn)densemap原理:精確判斷人臉表情需重點(diǎn)關(guān)注五官如眼睛,鼻子,嘴的區(qū)域信息測(cè)檢關(guān)鍵點(diǎn)模型(MTCNN)Densemap計(jì)測(cè)檢i-x片片情感識(shí)別:情感識(shí)別:圖模型提升(ReducedXceptionwithMarginLoss)用ReducedXception*用使可分離卷積(deepwise卷積+pointwise卷積)Entryflow,middleflow,exitflow各縮減至2層卷積SVMMarginSVMMarginLossLayer**min12*CholletF.Xception:DeepLearningwithDepthwiseSeparableConvolutions[J].2016:1800-1807**YichuanTang,DeepLearningusingLinearSupportVectorMachines,ICML2013來提升各個(gè)情緒類別的類間差距,這樣對(duì)于情緒的識(shí)別效果會(huì)更好,采制階段:預(yù)測(cè)能力建設(shè)準(zhǔn)確率92%準(zhǔn)確率90%準(zhǔn)確率90%+準(zhǔn)確率92%可以提前預(yù)測(cè)出節(jié)目的流量情況,如前面內(nèi)容認(rèn)知框架中說講,首先對(duì)內(nèi)容進(jìn)行量化,然后對(duì)內(nèi)容相應(yīng)的量化緯度進(jìn)行提前的預(yù)測(cè),進(jìn)而可以更好的為業(yè)務(wù)今天整個(gè)的分享,介紹了產(chǎn)業(yè)當(dāng)中嚴(yán)重的問題以及技術(shù)挑戰(zhàn),介紹我們通過建立文娛大腦和內(nèi)容認(rèn)知的框架,來嘗試去解決內(nèi)容行業(yè)的這些問題,最后展望一下,未來我們會(huì)花一些時(shí)間,去把人工的經(jīng)驗(yàn)通過推理以及心理學(xué)的一些研究整合到我們的人工智能的框架下,幫助我《長安十二時(shí)辰》背后的文娛大腦:如何提升爆款的確定作者|阿里大文娛資深算法專家蔡龍軍(牧己)爆款稀有,所以可貴。長視頻爆款的復(fù)雜和挑戰(zhàn)主要來源于不確定性,并且這種不確定性角色、搭場景、道服化、到拍攝、后期處理,以及宣發(fā)和投放等等,每一個(gè)環(huán)節(jié)都可能影響最值轉(zhuǎn)換,刻畫出不同人物,最終體現(xiàn)一個(gè)或多個(gè)價(jià)值觀,整個(gè)過程需要很多劇集逐漸被用戶感畫面的構(gòu)圖上等等。但是這些技術(shù),哪些是用戶關(guān)注的?哪些是用戶不在乎的?這很重要,涉及到最終的流量商業(yè)價(jià)值。所以,優(yōu)酷要在技術(shù)上解決用戶理解和用戶心理學(xué)的問題,洞察用1.內(nèi)容產(chǎn)業(yè)發(fā)展背后的趨勢(shì)思考商業(yè)需要確定性,而內(nèi)容具有極強(qiáng)的不確定性,如何依靠技術(shù)達(dá)到平衡?這是內(nèi)容產(chǎn)業(yè)發(fā)能力的AI大腦。在采、投、制、宣、發(fā)、放的內(nèi)容全生命周期中,都融入了AI能力,目的就1.基礎(chǔ)能力:內(nèi)容創(chuàng)作理解能力掘能力。內(nèi)容創(chuàng)作理解能力,是對(duì)劇本進(jìn)行智能化內(nèi)容創(chuàng)作有自身規(guī)律,內(nèi)容創(chuàng)作理解就是圍繞基于鏡頭語言和“對(duì)于《長安》第一集的成片進(jìn)行多模態(tài),包括聲音與圖2.采制階段:預(yù)測(cè)能力建設(shè)對(duì)于不確定的事情,如果可以計(jì)算出不確定性有多強(qiáng),便可有效提升商業(yè)決策效率,提高預(yù)測(cè)中會(huì)面臨數(shù)據(jù)、模型和應(yīng)用三方面問題。數(shù)據(jù)問題分為數(shù)據(jù)量不夠,數(shù)據(jù)不干凈和信息不完備。模型的問題包括復(fù)雜機(jī)制很難通過樣本進(jìn)行覆蓋、很難深入理解問題本質(zhì)和很難跨領(lǐng)域進(jìn)行舉一反三學(xué)習(xí)。從優(yōu)酷的經(jīng)驗(yàn)出發(fā),是正確識(shí)別應(yīng)用上的不確定性可以在應(yīng)用上有很不干凈由數(shù)據(jù)清洗解決,數(shù)據(jù)不完備由DomainKnowledge模型有BeliefNetwork等解法。第一層是基礎(chǔ)層。分為KG&Domain第四層是UncertaintyLearning,基于變分推斷的框架進(jìn)行內(nèi)SMOTE(SyntheticMinor它是基于隨機(jī)過采樣算法的一種改進(jìn)方案。由于隨機(jī)過采樣,采取簡單復(fù)制樣本的策略來增加少數(shù)類樣本,這樣容易產(chǎn)生模型過擬合的問題,使得模型學(xué)習(xí)到的信息過于特別(Specific)中,新樣本的公式為xnew=x+rand(0,1)*|x-xn|,生成的樣本可直接應(yīng)用到項(xiàng)目中,但提升效果優(yōu)酷得到的結(jié)論是:在生成新樣本后引入隸屬度變換,來計(jì)算新樣本與真實(shí)樣本的接近程所有模型都會(huì)面臨過擬合問題,優(yōu)酷的基本思路是分析預(yù)測(cè)事件的基本特點(diǎn),對(duì)于不同的對(duì)于復(fù)雜模型的邏輯:把前面的模型各部分的因素都部競爭的關(guān)系去RelationNet做推理去解決,最后用MTL整合模型,根據(jù)實(shí)際情況也會(huì)加入其UncertaintyLearning這塊,從2016年開始它逐步熱起來,我們也用變分去做了一些事情。3.宣發(fā)階段:挖掘能力建設(shè)挖掘能力更多應(yīng)用于已經(jīng)發(fā)生的事件,使其更具有確定性。上圖是《長安》播出后,每一分鐘用戶的收視狀況、復(fù)看狀況和彈幕狀況,再結(jié)合每一時(shí)間段的劇情內(nèi)容對(duì)用戶喜好做更精內(nèi)容產(chǎn)業(yè)是個(gè)不確定性非常高的產(chǎn)業(yè),越是爆款就越有不確定性了特別多的數(shù)據(jù),AI能力也得到了前所未有的發(fā)展,我們建立了“文娛大腦”北斗本等內(nèi)容形式的挖掘能力,和采買不確定性預(yù)測(cè)的評(píng)估能力,以及對(duì)于宣發(fā)挖掘的能力,都在傳統(tǒng)的內(nèi)容制作領(lǐng)域,依然依賴人的經(jīng)驗(yàn),在強(qiáng)人工智能尚遙遠(yuǎn)的情形下,如何結(jié)合機(jī)器的心理學(xué)研究也越來越重要,我們也會(huì)推進(jìn)這部分探用戶在應(yīng)用大屏收看視頻的時(shí)候常常面臨一個(gè)困難就是“不知道看什么,并且不知道如何交互式搜索系統(tǒng)采用模塊化的設(shè)計(jì)思路,按照分層邏輯結(jié)構(gòu),分為應(yīng)用技術(shù)層、核心技術(shù)層和基礎(chǔ)數(shù)據(jù)層共三個(gè)部分。應(yīng)用技術(shù)層主要包括是自然語言理解(NLU)和對(duì)話技術(shù),其中NLU包括意圖理解(IntentUnder和推理應(yīng)用?;A(chǔ)數(shù)據(jù)層是基于視覺技術(shù)的智能媒資庫。1.自然語言理解(NLU)解決的是人與人,人與機(jī)器之間的交互問題。自然語言理解的結(jié)果,就是要獲得一個(gè)語義表示(semanticrepresentation常用的是框架語義表示(framesemantics)的一種變形:采用領(lǐng)域query成分分析技術(shù),依托實(shí)體知識(shí)圖譜提供的節(jié)目/人物意圖理解技術(shù),基于成分分析技術(shù)的全面理解以及完善的意圖分類體系,精準(zhǔn)識(shí)別用戶查詢意圖。意圖分類體系的構(gòu)建是意圖識(shí)別的基礎(chǔ),在此基礎(chǔ)上我們構(gòu)建基于CN2.對(duì)話技術(shù)優(yōu)點(diǎn)是簡單易用,缺點(diǎn)是狀態(tài)的定義以及每個(gè)狀態(tài)下對(duì)應(yīng)的動(dòng)作都要靠人工設(shè)計(jì),因此不適合第三種是基于神經(jīng)網(wǎng)絡(luò)的,它的基本思路是直接使用神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)動(dòng)作選擇的策略,即關(guān)電視劇,并通過自然語言生成(NLG)技術(shù)主動(dòng)和用戶作進(jìn)一步的交互,得到用戶想看‘孫儷’主演的需求后,系統(tǒng)基于多輪對(duì)話管理(DM)技術(shù)將前后兩輪的用戶綜合理解,向搜索3.知識(shí)圖譜構(gòu)建及應(yīng)用知識(shí)圖譜(KnowledgeGraph)本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體” 面大多都是跟文娛相關(guān)的實(shí)體和概念。領(lǐng)域知識(shí)圖譜雖然在廣度上不及通用知識(shí)圖譜,但在深度和粒度上,DKG通常表現(xiàn)更為優(yōu)秀。比如在文娛領(lǐng)域,追星族們可能更關(guān)心“內(nèi)地90后演 在行業(yè)智能化的實(shí)現(xiàn)進(jìn)程中,通過領(lǐng)域知識(shí)圖譜對(duì)數(shù)據(jù)進(jìn)行提煉、萃取、關(guān)聯(lián)、整合,形領(lǐng)域知識(shí)圖譜系統(tǒng)的生命周期包含四個(gè)重要環(huán)節(jié):知識(shí)表示、知識(shí)獲取、知識(shí)管理與知識(shí)應(yīng)用。這四個(gè)環(huán)節(jié)循環(huán)迭代。優(yōu)酷知識(shí)圖譜的初期構(gòu)建和領(lǐng)域知從最開始明確知識(shí)的應(yīng)用場景,通過客觀評(píng)估場景收益、人力資源消耗、技術(shù)與應(yīng)用的適配程識(shí)庫進(jìn)行知識(shí)獲取并根據(jù)獲取的知識(shí)進(jìn)行整合、管理。最終完成了優(yōu)酷在文娛領(lǐng)域的知識(shí)圖譜在明確模式層和知識(shí)邊界后,圈定了知識(shí)庫的來源,比如內(nèi)部底層數(shù)據(jù)的轉(zhuǎn)換、來自開放互聯(lián)網(wǎng)的領(lǐng)域百科抓取、來自兄弟部門的數(shù)據(jù)拉通,通過優(yōu)先選擇數(shù)據(jù)結(jié)構(gòu)化程度相對(duì)較優(yōu)的數(shù)據(jù)源,來降低知識(shí)獲取、知識(shí)清洗帶來的人力成本。根據(jù)這些數(shù)據(jù),就可以開始領(lǐng)域知識(shí)圖無法獲取很多有效的統(tǒng)計(jì)特征;從視頻維度來看,大量普通用戶上傳的視頻隨意,標(biāo)題中經(jīng)常出現(xiàn)口語化的表達(dá)以及無用信息等。這就對(duì)因此,我們需要引入語義匹配來對(duì)基礎(chǔ)文本匹配(詞語匹配)進(jìn)行補(bǔ)充,從而提升最終的搜索語義匹配是用來解決傳統(tǒng)字面匹配無法解決的用戶意圖(查詢?cè)~)與文檔表述中語義鴻溝知識(shí)遷移能力以及學(xué)習(xí)能力讓語義匹配效果上又上升了新的臺(tái)我們將從樣本構(gòu)建以及模型演化兩方面簡單介紹下優(yōu)酷搜索在一方面數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,另一方面深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)。雖然對(duì)搜索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中生物實(shí)驗(yàn)教學(xué)設(shè)計(jì)與實(shí)踐報(bào)告
- 房地產(chǎn)拆遷補(bǔ)償協(xié)議范本及案例
- 互聯(lián)網(wǎng)營銷策劃與實(shí)施方案
- 古代數(shù)學(xué)知識(shí)課堂教學(xué)實(shí)錄分享
- 燃?xì)夤艿腊惭b與檢驗(yàn)施工方案
- 2025西太平洋生物醫(yī)藥行業(yè)市場發(fā)展分析及發(fā)展趨勢(shì)與投資前景研究報(bào)告
- 2025西南生鮮食品配送網(wǎng)絡(luò)設(shè)施升級(jí)降低損耗配送時(shí)效效益分析研究
- 2025西南基礎(chǔ)設(shè)施(建設(shè))市場現(xiàn)狀分析需求評(píng)估競爭應(yīng)對(duì)規(guī)劃投資文件
- 2025西亞航空運(yùn)輸業(yè)市場需求分析供給評(píng)估規(guī)劃發(fā)展研究報(bào)告
- 2025西亞智能城市建設(shè)技術(shù)方向探索及市場價(jià)值增長潛力分析報(bào)告
- 2026年云南中煙工業(yè)有限責(zé)任公司畢業(yè)生招聘(502人)筆試考試參考試題及答案解析
- 2025江蘇蘇州大學(xué)勞務(wù)派遣制人員招聘3人(第五批)筆試考試參考試題及答案解析
- 海洋信息安全:大數(shù)據(jù)平臺(tái)建設(shè)保障
- 爐底和爐墻砌筑分項(xiàng)工程質(zhì)量檢查評(píng)估表
- 2026年沈陽職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試必刷測(cè)試卷帶答案
- 2025年鐵路專業(yè)基礎(chǔ)知識(shí)考試題庫(含答案)
- 2025年地面裝飾工(地磚鋪貼)考試試卷及答案
- 全媒體運(yùn)營師培訓(xùn)
- 小學(xué)語文教師專業(yè)技術(shù)工作總結(jié)范文
- 外貿(mào)綜合服務(wù)協(xié)議書
- 天橋養(yǎng)護(hù)施工方案
評(píng)論
0/150
提交評(píng)論