CN114756708B 視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì) (北京奇藝世紀(jì)科技有限公司)_第1頁
CN114756708B 視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì) (北京奇藝世紀(jì)科技有限公司)_第2頁
CN114756708B 視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì) (北京奇藝世紀(jì)科技有限公司)_第3頁
CN114756708B 視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì) (北京奇藝世紀(jì)科技有限公司)_第4頁
CN114756708B 視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì) (北京奇藝世紀(jì)科技有限公司)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(72)發(fā)明人郭強姚堯周瑩葉田田有限公司11662GO6F16/735(201儲介質(zhì)本發(fā)明實施例提供了一種視頻相似度確定根據(jù)所述用戶重合度以及所述用戶第一重合度度2獲取視頻集,確定所述視頻集中任一視頻對應(yīng)的用戶,組成所述視頻的受眾集合,其所述視頻各自對應(yīng)的所述用戶以及所述總用戶,確定兩個所述視頻之間的用戶第一重合根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的剔除用戶受確定兩個所述視頻上線時間間隔的影響系數(shù),利用所述影響將兩個所述視頻各自對應(yīng)的所述用戶以及所述總用戶,輸入至用戶第一重合度計算公獲取所述用戶第一重合度計算公式輸出的兩個所述視頻之間的用戶第一根據(jù)兩個所述視頻各自對應(yīng)的所述用戶,確定兩個所述視頻上線時間間隔的影響系3將兩個所述視頻各自對應(yīng)的所述用戶,輸入至影響系數(shù)計算公式,其中,所述影響系數(shù)計算公式包括:述dt包括兩個所述視頻之間的上線時間間隔,所述k包括常數(shù);獲取所述影響系數(shù)計算公式輸出的兩個所述視頻上線時間間隔的影響系數(shù)。6.根據(jù)權(quán)利1所述的方法,其特征至于,所述利用所述影響系數(shù)對所述用戶第二重合度進(jìn)行處理,得到兩個所述視頻之間的用戶第三重對所述影響系數(shù)進(jìn)行鏡像轉(zhuǎn)換處理,得到所述總用戶與兩個所述視頻上線時間間隔之間的指數(shù)關(guān)系;將所述總用戶替換為所述指數(shù)關(guān)系,輸入至所述用戶第二重合度計算公式,如下所示;,所述e×dt包括所述指數(shù)關(guān)系,所述s包括所述用戶第三重合度,所述dt包括兩個所述視頻之間的上線時間間隔,所述k包括常數(shù);獲取所述用戶第二重合度計算公式輸出的兩個所述視頻之間的用戶第三重合度。7.一種視頻相似度確定裝置,其特征在于,所重合度確定模塊,用于獲取視頻集,確定所述視頻集中任一視頻對應(yīng)的用戶,組成所述視頻的受眾集合,其中,所述用戶包括有效播放過所述視頻的用戶;針對所述視頻集中任意兩個視頻,確定兩個所述視頻之間的用戶重合度,包括:根據(jù)兩個所述視頻各自對應(yīng)的所述第一重合度確定模塊,用于確定兩個所述視頻之間的用戶第一重合度,包括:確定所述視頻集對應(yīng)的視頻網(wǎng)站的總用戶,根據(jù)兩個所述視頻各自對應(yīng)的所述用戶以及所述總用戶,確定兩個所述視頻之間的用戶第一重合度;第二重合度確定模塊,用于根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度,包括:將所述用戶重合度除以所述用戶第一重合度得到所述用戶第二重合度;影響系數(shù)確定模塊,用于確定兩個所述視頻上線時間間隔的影響系數(shù);第三重合度處理模塊,用于利用所述影響系數(shù)對所述用戶第二重合度進(jìn)行處理,得到兩個所述視頻之間的用戶第三重合度,包括:對所述影響系數(shù)進(jìn)行鏡像轉(zhuǎn)換處理,得到所述總用戶與兩個所述視頻上線時間間隔之間的指數(shù)關(guān)系;將所述總用戶替換為所述指數(shù)關(guān)系,輸入至用戶第二重合度計算公式;獲取所述用戶第二重合度計算公式輸出的兩個所述視頻之間的用戶第三重合度;視頻相似度確定模塊,用于確定所述用戶第三重合度為兩個所述視頻之間的視頻相似度。4處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)權(quán)利要求1-6中任一所述的方法步驟。9.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一所述的方法。5技術(shù)領(lǐng)域[0001]本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,尤其涉及一種視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì)。背景技術(shù)但是一直以來對這些視頻的規(guī)劃和管理都依賴于相關(guān)部門的專家經(jīng)驗。但是視頻創(chuàng)作和采購的成本巨大,視頻的規(guī)劃和管理的容錯率極低,亟需科學(xué)客觀的數(shù)學(xué)工具進(jìn)行輔助。視頻的規(guī)劃和管理本質(zhì)就是做視頻相似度聚類,最佳的數(shù)據(jù)工具就是視頻相似度。[0003]相關(guān)技術(shù)中,視頻相似度算法多種多樣,包括基于視頻內(nèi)容的文本相似度,基于用戶行為的協(xié)同過濾推薦算法的相似度等。各種視頻相似度算法中最簡單和使用約束最少的就是用戶重合度,這里把用戶重合度視為視頻相似度。其中,用戶重合度算法也有很多,最[0004]但是,用戶重合度極易受到用戶受眾規(guī)模和視頻間上線時間間隔的影響,例如用戶受眾規(guī)模較大的兩個視頻之間的用戶重合度,顯然高于用戶受眾規(guī)模較小的兩個視頻之間的用戶重合度,上線時間間隔較小的兩個視頻之間的用戶重合度,顯然高于上線時間間隔較大的兩個視頻之間的用戶重合度,如此導(dǎo)致視頻相似度聚類的聚類結(jié)果不準(zhǔn)確。發(fā)明內(nèi)容[0005]本發(fā)明實施例的目的在于提供一種視頻相似度確定方法、裝置、電子設(shè)備及存儲介質(zhì),以實現(xiàn)視頻相似度聚類結(jié)果合理可靠的有益效果。具體技術(shù)方案如下:[0007]獲取視頻集,針對所述視頻集中任意兩個視頻,確定兩個所述視頻之間的用戶重合度,以及確定兩個所述視頻之間的用戶第一重合度;[0008]根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度;[0009]確定兩個所述視頻上線時間間隔的影響系數(shù),利用所述影響系數(shù)對所述用戶第二重合度進(jìn)行處理,得到兩個所述視頻之間的用戶第三重合度;[0010]確定所述用戶第三重合度為兩個所述視頻之間的視頻相似度。[0012]確定所述視頻集中任一視頻對應(yīng)的用戶,組成所述視頻的受眾集合,其中,所述用戶包括有效播放過所述視頻的用戶;[0014]根據(jù)兩個所述視頻各自對應(yīng)的所述用戶,確定兩個所述視頻之間的用戶重合度。[0015]在一個可選的實施方式中,所述根據(jù)兩個所述視頻各自對應(yīng)的所述用戶,確定兩個所述視頻之間的用戶重合度,包括:6[0028]將所述用戶重合度以及所述用戶第一重合度,輸入至用戶第二重合度計算公式,[0031]獲取所述用戶第二重合度計算公式輸出的兩個所述視頻之間的剔除用戶受眾規(guī)7方法。8附圖說明的用戶重合度,舉例來說,兩個視頻在視頻網(wǎng)站的滲透率均為90%重合度最低也有80%。9視頻相似度聚類的聚類結(jié)果不準(zhǔn)確,比如會把用戶受眾規(guī)模較大但是視頻受眾和題材完全不同的視頻聚成一類,也會把不同上線時間但題材相似、視頻受眾相同的視頻聚成多類。[0067]從算法角度而言,出現(xiàn)以上聚類結(jié)果的原因是在現(xiàn)有的用戶重合度算法會放大用戶受眾規(guī)模和視頻間上線時間間隔的影響,而低估真正的視頻相似度?;诖耍鉀Q方案就是對用戶重合度做用戶受眾規(guī)模和視頻間上線時間間隔的校準(zhǔn),使得第三聚類結(jié)果合理可[0068]基于此,對于任意兩個視頻,通過兩個視頻之間的用戶重合度和兩個視頻之間的用戶第一重合度,可以確定兩個視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度,繼續(xù)利用兩個視頻上線時間間隔的影響系數(shù)對用戶第二重合度進(jìn)行處理,得到兩個視頻之間的用戶第三重合度作為兩個視頻之間的視頻相似度,如此用戶第三重合度剔除用戶受眾規(guī)模和視頻間上線時間間隔的影響,可以保證后續(xù)視頻相似度聚類的聚類結(jié)果合理可靠。[0069]具體地,如圖1所示,為本發(fā)明實施例提供的一種視頻相似度確定方法的實施流程示意圖,該方法可以用于處理器,具體可以包[0070]S101,獲取視頻集,針對所述視頻集中任意兩個視頻,確定兩個所述視頻之間的用戶重合度,以及確定兩個所述視頻之間的用戶第一重合度。[0071]在本發(fā)明實施例中,可以根據(jù)實際需求預(yù)先準(zhǔn)備視頻集,其中,視頻集中至少包括兩個視頻,需要對視頻集中的視頻進(jìn)行規(guī)劃和管理。例如,業(yè)務(wù)方可以預(yù)先準(zhǔn)備視頻集,對[0072]基于此,本發(fā)明實施例可以獲取預(yù)先準(zhǔn)備的視頻集,針對視頻集中任意兩個視頻,確定這兩個視頻之間的用戶重合度,以及確定這兩個視頻之間的用戶第一重合度,即兩兩視頻之間確定用戶重合度,以及兩兩視頻之間確定用戶第一重合度,這里用戶第一重合度可以認(rèn)為是用戶重合度的基準(zhǔn)值。定電影a和電影b之間的用戶重合度,以及確定電影a和電影b之間的用戶第一重合度。對于其余任意兩個電影處理類似,本發(fā)明實施例在此不再一一贅述,處理最終結(jié)果如下表1所用戶重合度用戶第一重合度電影a和電影b電影a和電影c[0075]表1[0076]其中,在本發(fā)明實施例中,在獲取到視頻集之后,針對視頻集中任一視頻,確定該視頻對應(yīng)的用戶,組成該視頻的受眾集合,其中,這里的用戶指的是有效播放過該視頻的用[0077]例如,在獲取到視頻集之后,針對視頻集中電影a,確定在熱播期有效播放過電影a的用戶作為電影a的受眾集合。對于其余電影處理類似,本發(fā)明實施例在此不再一一贅述,如此每個電影均存在對應(yīng)的受眾集合。[0078]基于此,針對視頻集中任意兩個視頻,可以根據(jù)這兩個視頻各自對應(yīng)的用戶,確定這兩個視頻之間的用戶重合度,如此可以確定任意兩個視頻之間的用戶重合度。其中,可以采用Jaccard指數(shù)的計算公式確定任意兩個視頻之間的用戶重合度。[0081],(公式1);A∩B表示既看A視頻又看B視頻的用戶數(shù)(交集),AUB表示看過A視頻或看過B視頻的用戶數(shù)(并集)。[0085],(公式2);[0087]S102,根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的公式輸出的這兩個視頻之間的剔除用戶受眾規(guī)模rs可以計算得到任意兩個視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度,如下所[0094]S103,確定兩個所述視頻上線時間間隔的影響系數(shù),利用所[0096],(公式4)。的所述用戶,所述ek×dt包括所述影響系數(shù),所述dt包括兩個所述視頻之間的上線時間間[0105]將上述公式3中視頻網(wǎng)站的總用戶替換為上述指數(shù)關(guān)系,重新輸入至用戶第二重合度計算公式,即將Al1與dt的指數(shù)關(guān)系代入公式3,得到如下所示的公式6,獲取用戶第二除用戶受眾規(guī)模和視頻間上線時間間隔影響的第三重合度,并且確定這個第三重合度為這兩個視頻之間的視頻相似度。如此對于視頻集中任意兩個視頻,均存在相應(yīng)的視頻相似度。[0109]由此基于視頻集中任意兩個視頻之間的視頻相似度,對視頻集中視頻進(jìn)行聚類,其中,采用的聚類算法可以是K-Medoids聚類方法,該方法采用中位值確定聚點,盡可能降低異常值對聚類結(jié)果的影響,如此后續(xù)可以保證視頻相似度聚類的聚類結(jié)果合理可靠。[0110]通過上述對本發(fā)明實施例提供的技術(shù)方案的描述,獲取視頻集,針對視頻集中任意兩個視頻,確定兩個視頻之間的用戶重合度,以及確定兩個視頻之間的用戶第一重合度,根據(jù)用戶重合度以及用戶第一重合度,確定兩個視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度,確定兩個視頻上線時間間隔的影響系數(shù),利用影響系數(shù)對用戶第二重合度進(jìn)行處理,得到兩個視頻之間的用戶第三重合度,確定用戶第三重合度為兩個視頻之間的視頻相似度。[0111]對于任意兩個視頻,通過兩個視頻之間的用戶重合度和兩個視頻之間的用戶第一重合度,可以確定兩個視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度,繼續(xù)利用兩個視頻上線時間間隔的影響系數(shù)對用戶第二重合度進(jìn)行處理,得到兩個視頻之間的用戶第三重合度作為兩個視頻之間的視頻相似度,如此用戶第三重合度剔除用戶受眾規(guī)模和視頻間上線時間間隔的影響,可以保證后續(xù)視頻相似度聚類的聚類結(jié)果合理可靠。[0112]與上述方法實施例相對應(yīng),本發(fā)明實施例還提供了一種視頻相似度確定裝置,如圖3所示,該裝置可以包括:重合度確定模塊310、第一重合度確定模模塊330、影響系數(shù)確定模塊340、第三重合度處理模塊350、視頻相似度確[0113]重合度確定模塊310,用于獲取視頻集,針對所述視頻集中任意兩個視頻,確定兩個所述視頻之間的用戶重合度;以及,[0114]第一重合度確定模塊320,用于確定兩個所述視頻之間的用戶第一重合度;[0115]第二重合度確定模塊330,用于根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度;[0116]影響系數(shù)確定模塊340,用于確定兩個所述視頻上線時間間隔的影響系數(shù);[0117]第三重合度處理模塊350,用于利用所述影響系數(shù)對所述用戶第二重合度進(jìn)行處理,得到兩個所述視頻之間的用戶第三重合度;[0118]視頻相似度確定模塊360,用于確定所述用戶第三重合度為兩個所述視頻之間的視頻相似度。儲器43和通信總線44,其中,處理器41,通信接口42,存儲器43通過通信總線44完成相互間的通信,[0120]存儲器43,用于存放計算機程序;[0121]處理器41,用于執(zhí)行存儲器43上所存放的程序時,實現(xiàn)如下步驟:[0122]獲取視頻集,針對所述視頻集中任意兩個視頻,確定兩個所述視頻之間的用戶重合度,以及確定兩個所述視頻之間的用戶第一重合度;根據(jù)所述用戶重合度以及所述用戶第一重合度,確定兩個所述視頻之間的剔除用戶受眾規(guī)模影響的用戶第二重合度;確定兩個所述視頻上線時間間隔的影響系數(shù),利用所述影響系數(shù)對所述用戶第二重合度進(jìn)行處理,得到兩個所述視頻之間的用戶第三重合度;確定所述用戶第三重合度為兩個所述視頻之間的視頻相似度。[0123]上述電子設(shè)備提到的通信總線可以是外設(shè)部件互連標(biāo)準(zhǔn)(PeripheralComponentInterconnect,簡稱PCI)總線或擴展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ExtendedIndustryStandardArchitecture,簡稱EISA)總線等。該通信總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。[0124]通信接口用于上述電子設(shè)備與其他設(shè)備之間的通信。[0125]存儲器可以包括隨機存取存儲器(RandomAccessMemory,簡稱RAM),也可以包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器??蛇x的,存儲器還可以是至少一個位于遠(yuǎn)離前述處理器的存儲裝置。[0126]上述的處理器可以是通用處理器,包括中央處理器(CentralProcessingUnit,簡稱CPU)、網(wǎng)絡(luò)處理器(NetworkProcessor,簡稱NP)等;還可以是數(shù)字信號處理器(DigitalSignalProcessing,簡稱DSP)、專用集成電路(ApplicationSpecificIntegratedCircuit,簡稱ASIC)、現(xiàn)場可編程門陣列(Field-ProgrammableGateArray,簡稱FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件。[0127]在本發(fā)明提供的又一實施例中,還提供了一種存儲介質(zhì),該存儲介質(zhì)中存儲有指令,當(dāng)其在計算機上運行時,使得計算機執(zhí)行上述實施例中任一所述的視頻相似度確定方[0128]在本發(fā)明提供的又一實施例中,還提供了一種包含指令的計算機程序產(chǎn)品,當(dāng)其在計算機上運行時,使得計算機執(zhí)行上述實施例中任一所述的視頻相似度確定方法。[0129]在上述實施例中,可以全部或部分地通過軟件、硬件、固件或者其任意組合來實現(xiàn)。當(dāng)使用軟件實現(xiàn)時,可以全部或部分地以計算機程序產(chǎn)品的形式實現(xiàn)。所述計算機程序產(chǎn)品包括一個或多個計算機指令。在計算機上加載和執(zhí)行所述計算機程序指令時,全部或部分地產(chǎn)生按照本發(fā)明實施例所述的流程或功能。所述計算機可以是通用計算機、專用計算機、計算機網(wǎng)絡(luò)、或者其他可編程裝置。所述計算機指令可以存儲在存儲介質(zhì)中,或者從一個存儲介質(zhì)向另一個存儲介質(zhì)傳輸,例如,所述計算機指令可以從一個網(wǎng)站站點、計算機、服務(wù)器或數(shù)據(jù)中心通過有線(例如同軸電纜、光纖、數(shù)字用戶線(DSL))或無線(例如紅外、無線、微波等)方式向另一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論