版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN115470344B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專利權(quán)人西南財(cái)經(jīng)大學(xué)地址611130四川省成都市溫江區(qū)柳臺(tái)大道555號(hào)(72)發(fā)明人熊文軍陳思為(74)專利代理機(jī)構(gòu)南京眾聯(lián)專利代理有限公司專利代理師杜靜靜(54)發(fā)明名稱一種基于文本聚類的視頻彈幕與評(píng)論主題融合的方法本發(fā)明涉及一種基于文本聚類的視頻彈幕與評(píng)論主題融合的方法,所述方法包括以下步驟:步驟1:編寫python程序爬取視頻下方的評(píng)論及彈幕的文本內(nèi)容;步驟2:根據(jù)自定義詞典及擴(kuò)展停用詞對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;步驟3:運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù)得到其主題;步驟4:運(yùn)用基于TF-IDF的k-means算法處理彈幕數(shù)據(jù)得到其主題簇;步驟5:利用衡量主題之間及詞與詞之間的相似度從而實(shí)現(xiàn)“求同存異”的模型融合。本發(fā)明考慮了視頻中蘊(yùn)含的兩種數(shù)據(jù)內(nèi)容,并創(chuàng)新性地通過(guò)衡量主題之間及詞與詞之間的相似度實(shí)現(xiàn)多源數(shù)據(jù)的融合,可以更加全面地獲取用21.一種基于文本聚類的視頻彈幕與評(píng)論主題融合的方法,其特征在于,所述方法包括以下步驟:步驟1:編寫python程序爬取視頻下方的評(píng)論及彈幕的文本內(nèi)容;步驟2:根據(jù)自定義詞典及擴(kuò)展停用詞對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;步驟3:運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù)得到其主題;步驟4:運(yùn)用基于TF-IDF的k-means算法處理彈幕數(shù)據(jù)得到其主題簇;步驟5:利用衡量主題之間及詞與詞之間的相似度從而實(shí)現(xiàn)求同存異的模型融合;其中步驟5具體如下:步驟5-1:通過(guò)計(jì)算余弦相似度,求得各個(gè)簇代表的詞向量之間的相似度,設(shè)置相似度閾值,當(dāng)相似度大于等于閾值時(shí)則認(rèn)為簇之間相似,反之則不同,把被認(rèn)為相似的簇輸入到下一步,同時(shí)將與其余任何簇都不同的簇存放在集合C中;步驟5-2:融合相似簇的主題詞,首先選取一對(duì)相似簇,設(shè)置其中一個(gè)簇為基準(zhǔn)簇,調(diào)用Synonyms中文近義詞工具包把相似簇中各自詞輸入程序,獲得對(duì)應(yīng)詞的距離分?jǐn)?shù),設(shè)置距離分?jǐn)?shù)閾值,當(dāng)距離分?jǐn)?shù)大于等于閾值時(shí)則認(rèn)為兩者為近義詞,反之則不同,若兩詞被判斷為近義詞則只保留基準(zhǔn)簇中的該詞,若兩詞不同且不同詞出現(xiàn)在基準(zhǔn)詞中則保留不變,若兩詞不同且出現(xiàn)在比較簇中則將該詞添加到基準(zhǔn)簇中,比較完成后將該基準(zhǔn)簇存放入集合C中;步驟5-3:將每一對(duì)相似簇進(jìn)行步驟5-2的操作;步驟5-4:輸出集合C為對(duì)聚類主題進(jìn)行融合的最終結(jié)果;其中,步驟3由BERTopic主題模型處理評(píng)論文本,算法包步驟3-1:使用BERT模型將句子轉(zhuǎn)換,從一組文檔中創(chuàng)建文檔嵌入,模型是針對(duì)多種語(yǔ)言進(jìn)行的預(yù)訓(xùn)練,對(duì)于創(chuàng)建文檔或句子嵌入都非常有用;步驟3-2:由于聚類算法難以在高維空間中對(duì)數(shù)據(jù)進(jìn)行聚類,在對(duì)文檔進(jìn)行聚類之前,需要降低生成的嵌入的維數(shù),Umap算法主要包括兩階段,第一階段構(gòu)建模糊拓?fù)?,運(yùn)用最近鄰算法對(duì)于空間中的每個(gè)點(diǎn)x;的k最近鄰集合有{x?,xi2,…,×k},p代表每個(gè)點(diǎn)與最近鄰集合的最小距離,σ為各點(diǎn)的標(biāo)準(zhǔn)差,p?代表所求概率,根據(jù)式(1)-(4)得到p?o以及p;:P?=min{d(x,x)|1≤j≤k,d(x,xi?Pij=Pij+Pjli-PijPji第二階段是簡(jiǎn)單地優(yōu)化低維表示,使其具有盡可能接近的模糊拓?fù)浔硎?,如?5)所示,默認(rèn)的參數(shù)a≈1.93,b≈0.79,并將式(6)的交叉熵公式作為代價(jià)函數(shù)訓(xùn)練;3dmreach-k(a,b)=max{core(a),co自定義詞典使詞能更準(zhǔn)確地劃分,使用擴(kuò)展的停用詞表去除文本中無(wú)意義或不重要的詞,目、人物名字人工添加,停用詞是文本中經(jīng)常出現(xiàn)的一些銜接語(yǔ)句的詞或步驟4-1:使用TF-IDF權(quán)重的哈希向量化表示,向量化將文本文檔集合轉(zhuǎn)4步驟4-3:運(yùn)用基于TF-IDF的k-means算法算法處理降維后的向量,運(yùn)用肘方法選擇最佳簇?cái)?shù)在聚類后展示每個(gè)聚類結(jié)果中的一些高頻詞匯,基于TF-IDF的k-means算法的算法2)針對(duì)數(shù)據(jù)集中每個(gè)樣本計(jì)算它到k個(gè)聚類中心的距離并將其分到距離最小的聚類中驟5,先計(jì)算主題簇之間的相似度再計(jì)算詞與詞之間的相似度,從而實(shí)現(xiàn)求同存異的模型融5放入集合C中;步驟5-3:將每一對(duì)相似簇進(jìn)行步驟5-2的操作;步驟5-4:輸出集合C為對(duì)聚類主題進(jìn)行融合的最終結(jié)果。6.一種基于文本聚類的視頻彈幕與評(píng)論主題融合的系統(tǒng),用于實(shí)現(xiàn)權(quán)利要求1-4任意一項(xiàng)基于文本聚類的視頻彈幕與評(píng)論主題融合的方法,其特征在于:所述系統(tǒng)包括,數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、聚類模塊、模型融合模塊,其中,數(shù)據(jù)采集模塊:通過(guò)python的爬蟲相關(guān)庫(kù),實(shí)現(xiàn)HTTP請(qǐng)求操作,得到服務(wù)器響應(yīng),獲取到網(wǎng)頁(yè)源代碼,分析網(wǎng)頁(yè)結(jié)構(gòu),分別采集視頻下方的評(píng)論及彈幕的原始文本內(nèi)容并保存,數(shù)據(jù)預(yù)處理模塊:運(yùn)用正則表達(dá)式匹配文本去除特殊符號(hào)、多余空白、轉(zhuǎn)化繁體字,構(gòu)建自定義詞典實(shí)現(xiàn)更加精確地分詞,使用擴(kuò)展的停用詞表去除文本中無(wú)意義或不重要的聚類模塊:運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù),基于TF-IDF的k-means算法處理彈幕數(shù)據(jù)得到各自的主題簇;模型融合模塊:根據(jù)算法計(jì)算主題簇之間的相似度再計(jì)算詞與詞之間的相似度,從而實(shí)現(xiàn)求同存異的模型融合,并輸出結(jié)果。6一種基于文本聚類的視頻彈幕與評(píng)論主題融合的方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,具體涉及流媒體平臺(tái)視頻彈幕及評(píng)論之間的文本聚類以及通過(guò)計(jì)算主題簇之間的相似度及詞與詞的相似度實(shí)現(xiàn)融合兩模型聚類結(jié)果的問(wèn)背景技術(shù)[0002]互聯(lián)網(wǎng)的繁榮發(fā)展,人們獲取信息及溝通交流的方式不斷多元化,也逐漸形成一種新型的社交關(guān)系。人們活躍于微信、微博等社交網(wǎng)站,豆瓣、知乎等論壇以及大量流媒體平臺(tái)源源不斷地提供大量可在線或?qū)崟r(shí)觀看的音視頻,諸如騰訊視頻、嗶哩嗶哩彈幕網(wǎng)、抖播,隨之而來(lái)的還有彈幕、評(píng)論等非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),人們不再僅僅是簡(jiǎn)單的接收流媒體所帶來(lái)的信息,與此同時(shí)他們更愿意通過(guò)彈幕及評(píng)論的方式來(lái)輸出自己的觀點(diǎn)、表達(dá)各自的情感。這樣的數(shù)據(jù)也稱為用戶生成內(nèi)容,即用戶將自己原創(chuàng)的內(nèi)容通過(guò)互聯(lián)網(wǎng)平臺(tái)進(jìn)行展示或者提供給其他用戶。這些平臺(tái)積累了大量用戶生成內(nèi)容,從豐富的文檔中自動(dòng)提取有用的信息許多領(lǐng)域的研究人員的興趣,特別是自然語(yǔ)言處理領(lǐng)域,諸如情感分析、意見挖掘、輿情分析、主題發(fā)現(xiàn)等技術(shù)隨之產(chǎn)生。彈幕作為一種較為新型的交互行為,文本篇幅較短,能夠讓正在觀看視頻的人看見其他人彼時(shí)或此刻所發(fā)表的關(guān)于當(dāng)前片段的想法,達(dá)到增強(qiáng)與其他觀影者即時(shí)互動(dòng)的目的。彈幕這一機(jī)制最早來(lái)源于日本視頻網(wǎng)站niconico,嗶哩嗶哩彈幕網(wǎng)是國(guó)內(nèi)較早采用此模式的流媒體之一,如今幾乎所有的國(guó)內(nèi)視頻網(wǎng)站都采用了彈幕功能。而評(píng)論相比于彈幕而言,篇幅通常更長(zhǎng),也是對(duì)整個(gè)視頻更全面、更概括性的評(píng)價(jià),人們通常通過(guò)點(diǎn)贊、追評(píng)的形式來(lái)認(rèn)同和自己觀點(diǎn)一致的評(píng)論。彈幕數(shù)據(jù)以短文本,強(qiáng)用戶交互性,實(shí)時(shí)性的特點(diǎn)促進(jìn)用戶之間的溝通交流,而評(píng)論更多是中長(zhǎng)文本,總括性來(lái)表達(dá)用戶自身的看法。[0003]聚類算法是一種無(wú)監(jiān)督算法,其核心概念是通過(guò)把數(shù)據(jù)劃分為幾個(gè)簇,使簇之間的距離盡可能的答,簇內(nèi)距離盡可能小。聚類算法種類多樣,各具優(yōu)缺點(diǎn)。本發(fā)明采用BERTopic模型、基于TF-IDF的k-means算法模型分別聚類評(píng)論、彈幕文本數(shù)據(jù)?,F(xiàn)有研究大多只著眼于研究彈幕或評(píng)論中的單一文本類型,本發(fā)明將彈幕及評(píng)論兩種文本數(shù)據(jù)通過(guò)聚類進(jìn)行融合,可以更加全面地獲取用戶對(duì)平臺(tái)及視頻的看法,提升服務(wù)水平及能力。發(fā)明內(nèi)容[0004]本發(fā)明正是針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,提供一種基于文本聚類的視頻彈幕與評(píng)論主題融合的方法,該技術(shù)方案結(jié)合自定義詞典及擴(kuò)展停用詞運(yùn)用BERTopic模型改善了文本的聚類效果,并且通過(guò)計(jì)算主題簇之間的相似度及詞與詞之間的相似度的方法將彈幕及評(píng)論兩個(gè)聚類模型的結(jié)果融合起來(lái),更加全面地獲取用戶對(duì)平臺(tái)及視頻的看法和偏好,有利于提升服務(wù)水平及能力。[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下,基于文本聚類的視頻彈幕與評(píng)論主7[0006]步驟1:編寫python程序爬取視頻下方的評(píng)論及彈幕的文本內(nèi)容;[0007]步驟2:根據(jù)自定義詞典及擴(kuò)展停用詞對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;[0008]步驟3:運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù)得到其主題;[0009]步驟4:運(yùn)用基于TF-IDF的k-means算法處理彈幕數(shù)據(jù)得到其主題簇;[0010]步驟5:利用衡量主題之間及詞與詞之間的相似度從而實(shí)現(xiàn)“求同存異”的模型融合。[0011]步驟5-1:通過(guò)計(jì)算余弦相似度,求得各個(gè)簇代表的詞向量之間的相似度,設(shè)置相似度閾值,當(dāng)相似度大于等于閾值時(shí)則認(rèn)為簇之間相似,反之則不同,把被認(rèn)為相似的簇輸入到下一步,同時(shí)將與其余任何簇都不同的簇存放在集合C中;[0012]步驟5-2:融合相似簇的主題詞,首先選取一對(duì)相似簇,設(shè)置其中一個(gè)簇為基準(zhǔn)簇,調(diào)用Synonyms中文近義詞工具包把相似簇中各自詞輸入程序,獲得對(duì)應(yīng)詞的距離分?jǐn)?shù),設(shè)置距離分?jǐn)?shù)閾值,當(dāng)距離分?jǐn)?shù)大于等于閾值時(shí)則認(rèn)為兩者為近義詞,反之則不同,若兩詞被判斷為近義詞則只保留基準(zhǔn)簇中的該詞。若兩詞不同且不同詞出現(xiàn)在基準(zhǔn)詞中則保留不變,若兩詞不同且出現(xiàn)在比較簇中則將該詞添加到基準(zhǔn)簇中。比較完成后將該基準(zhǔn)簇存放入集合C中;[0013]步驟5-3:將每一對(duì)相似簇進(jìn)行步驟5-2的操作;[0014]步驟5-4:輸出集合C為對(duì)聚類主題進(jìn)行融合的最終結(jié)果。頁(yè)源代碼,分析網(wǎng)頁(yè)結(jié)構(gòu),分別提取視頻下方的評(píng)論及彈幕并保存;[0017]步驟2:在預(yù)處理過(guò)程中運(yùn)用正則表達(dá)式匹配文本去除特殊符號(hào)、多余空白、轉(zhuǎn)化繁體字,構(gòu)建自定義詞典使詞能更準(zhǔn)確地劃分,使用擴(kuò)展的停用詞表去除文本中無(wú)意義或不重要的詞。本文根據(jù)文本的特性,構(gòu)建自定義詞典。自定義詞典中的詞語(yǔ)是根據(jù)當(dāng)前流行經(jīng)常出現(xiàn)的一些銜接語(yǔ)句的詞或者對(duì)分析沒有用處的詞。本文構(gòu)建的停用詞表融合了中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)四個(gè)主流詞典的所有詞并人工添加了部分在視頻語(yǔ)境下不太重要的詞,運(yùn)用jieba庫(kù)進(jìn)行分詞處理;[0018]步驟3:由BERTopic主題模型處理評(píng)論文本,算法大致包括3個(gè)階段:使用[0019]步驟3-1:使用BERT模型將句子轉(zhuǎn)換,從一組文檔中創(chuàng)建文檔嵌入。模型是針對(duì)多種語(yǔ)言進(jìn)行的預(yù)訓(xùn)練,對(duì)于創(chuàng)建文檔或句子嵌入都非常有用;[0020]步驟3-2:由于聚類算法難以在高維空間中對(duì)數(shù)據(jù)進(jìn)行聚類。在對(duì)文檔進(jìn)行聚類之前,需要降低生成的嵌入的維數(shù)。為此,模型使用Umap這種創(chuàng)新的降維流形學(xué)習(xí)算法,可以很好地保留了嵌入的局部和全局結(jié)構(gòu)。Umap算法主要包括兩階段。第一階段構(gòu)建模糊拓?fù)洌\(yùn)用最近鄰算法對(duì)于空間中的每個(gè)點(diǎn)x的k最近鄰集合有{xi1,xi2,...,xik},p代表每個(gè)點(diǎn)與最近鄰集合的最小距離,o;為各點(diǎn)的標(biāo)準(zhǔn)差,p.;代表所求概率,根據(jù)式(1)-(4)得到p、0i以及pi:89[0032]步驟4:運(yùn)用基于TF-IDF的k-means算法算法處理彈幕文本,模型采用相對(duì)于中心點(diǎn)的距離作為指標(biāo),通過(guò)不斷地迭代將數(shù)據(jù)分為輸入K個(gè)類。[0033]步驟4-1:使用TF-IDF權(quán)重的哈希向量化表示,向量化將文本文檔集合轉(zhuǎn)換為數(shù)字集合特征向量,文檔由單詞出現(xiàn)來(lái)描述,同時(shí)完全忽略文檔中單詞的相對(duì)位置信息。TF-IDF認(rèn)為字詞的重要性與其在文本中出現(xiàn)的頻率成正比,與其在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比。TF代表詞頻,詞語(yǔ)在文章中出現(xiàn)的次數(shù),見式(11)。IDF叫做逆文檔頻率,見式(12),有些詞可能在文本中頻繁出現(xiàn),但并不重要,也即信息量小,如這個(gè)、那個(gè)這些單詞,在語(yǔ)料庫(kù)中出現(xiàn)的頻率也非常大,我們就可以利用這點(diǎn),降低其權(quán)重。TF-IDF則是將上面的TF-IDF相乘就得到了的綜合參數(shù),如式(13)。[0035]TF-IDF=TF×I[0036]步驟4-2:由于數(shù)據(jù)維度過(guò)高,使用的是SVD及正則化處理,SVD計(jì)算公式為式(14),其中U和V向量都是單位化的向量,U的列向量u?,...,u組成了K空間的一組標(biāo)準(zhǔn)正交基,同樣,V的列向量v?,...,v也組成了K空間的一組標(biāo)準(zhǔn)正交基;[0038]步驟4-3:運(yùn)用基于TF-IDF的k-means算法算法處理降維后的向量,運(yùn)用肘方法選擇最佳簇?cái)?shù)在聚類后可以展示每個(gè)聚類結(jié)果中的一些高頻詞匯,k-means算法的算法步驟[0039]1)選擇初始化的k個(gè)樣本作為初始聚類中心;[0040]2)針對(duì)數(shù)據(jù)集中每個(gè)樣本計(jì)算它到k個(gè)聚類中心的距離并將其分到距離最小的聚類中心所對(duì)應(yīng)的類中;[0041]3)針對(duì)每個(gè)類別重新計(jì)算它的聚類中心,即屬于該類的所有樣本的質(zhì)心;[0042]4)重復(fù)上面2、3兩步操作,直到聚類中心不再發(fā)生變化;[0043]步驟5:先計(jì)算主題簇之間的相似度再計(jì)算詞與詞之間的相似度,從而實(shí)現(xiàn)“求同存異”的模型融合,[0044]步驟5-1:根據(jù)式(15)計(jì)算余弦相似度,式中A、B均代表向量,求得各個(gè)簇代表的詞向量之間的相似度。設(shè)置相似度閾值為a=0.8,當(dāng)相似度大于等于0.8時(shí)則認(rèn)為簇之間相似,反之則不同。把被認(rèn)為相似的簇輸入到下一步,同時(shí)將與其余任何簇都不同的簇存放在集合C中,[0046]步驟5-2:融合相似簇的主題詞,首先選取一對(duì)相似簇,設(shè)置其中一個(gè)簇為基準(zhǔn)簇,調(diào)用Synonyms中文近義詞工具包把相似簇中各自詞輸入程序,獲得對(duì)應(yīng)詞的距離分?jǐn)?shù),設(shè)置距離分?jǐn)?shù)閾值為b=0.8,當(dāng)距離分?jǐn)?shù)大于等于0.8時(shí)則認(rèn)為兩者為近義詞,反之則不同,若兩詞被判斷為近義詞則只保留基準(zhǔn)簇中的該詞。若兩詞不同且不同詞出現(xiàn)在基準(zhǔn)詞中則保留不變,若兩詞不同且出現(xiàn)在比較簇中則將該詞添加到基準(zhǔn)簇中。比較完成后將該基準(zhǔn)簇存放入集合C中,[0047]步驟5-3:將每一對(duì)相似簇進(jìn)行步驟5-2的操作,[0048]步驟5-4:輸出集合C為對(duì)聚類主題進(jìn)行融合的最終結(jié)果,[0049]另外,本發(fā)明提出了一種基于文本聚類的視頻彈幕與評(píng)論主題融合的系統(tǒng),所述[0050]數(shù)據(jù)采集模塊:通過(guò)python的爬蟲相關(guān)庫(kù),實(shí)現(xiàn)HTTP請(qǐng)求操作,得到服務(wù)器響應(yīng),獲取到網(wǎng)頁(yè)源代碼,分析網(wǎng)頁(yè)結(jié)構(gòu),分別采集視頻下方的評(píng)論及彈幕的原始文本內(nèi)容并保存。[0051]數(shù)據(jù)預(yù)處理模塊:運(yùn)用正則表達(dá)式匹配文本去除特殊符號(hào)、多余空白、轉(zhuǎn)化繁體字,構(gòu)建自定義詞典實(shí)現(xiàn)更加精確地分詞,使用擴(kuò)展的停用詞表去除文本中無(wú)意義或不重要的詞。聚類模塊:運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù),基于TF-IDF的k-means算法算法處理彈幕數(shù)據(jù)得到各自的主題簇;[0052]模型融合模塊:根據(jù)算法計(jì)算主題簇之間的相似度再計(jì)算詞與詞之間的相似度,[0053]本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:本發(fā)明編寫爬蟲程序爬取視頻下方評(píng)論及彈幕原始文本,結(jié)合自定義詞典及擴(kuò)展停用詞運(yùn)用BERTopic模型改善了文本的聚類效果,并且通過(guò)計(jì)算主題簇之間的相似度及詞與詞之間的相似度的方法將彈幕及評(píng)論兩個(gè)聚類模型的結(jié)果融合起來(lái)。彈幕數(shù)據(jù)以短文本,強(qiáng)用戶交互性、實(shí)時(shí)性、信息量少的特點(diǎn)促進(jìn)用戶之間的溝通交流,而評(píng)論更多是中長(zhǎng)文本,總括性來(lái)表達(dá)用戶自身的看法。評(píng)論相比于彈幕而言,篇幅通常更長(zhǎng),也是對(duì)整個(gè)視頻更全面、更概括性的評(píng)價(jià),人們通常通過(guò)點(diǎn)贊、追評(píng)的形式來(lái)認(rèn)同和自己觀點(diǎn)一致的評(píng)論。將兩者結(jié)合分析能夠更加全面地獲取用戶對(duì)平臺(tái)及視頻的看法和偏好,可以學(xué)習(xí)到更豐富層次的語(yǔ)義信息,有利于提升服務(wù)水平及能力。附圖說(shuō)明[0054]圖1是本發(fā)明的基于文本聚類的視頻彈幕與評(píng)論主題融合的方法具體流程示意[0055]圖2是本發(fā)明的基于文本聚類的視頻彈幕與評(píng)論主題融合的方法的BERTopic模型11結(jié)構(gòu)示意圖;[0056]圖3是本發(fā)明的基于文本聚類的視頻彈幕與評(píng)論主題融合的方法的融合算法示意[0057]圖4是本發(fā)明的基于文本聚類的視頻彈幕與評(píng)論主題融合的系統(tǒng)的模塊結(jié)構(gòu)示意具體實(shí)施方式[0058]為了加深對(duì)本發(fā)明的理解,下面結(jié)合附圖對(duì)本實(shí)施例做詳細(xì)的說(shuō)明。[0059]實(shí)施例1:參見圖1-圖4,為使本發(fā)明的上述目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的具體實(shí)施方式做詳細(xì)的說(shuō)明,本發(fā)明的示意性實(shí)施方式及其說(shuō)明僅用于解釋本發(fā)明,并不作為對(duì)本發(fā)明的限定。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明的保護(hù)[0060]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來(lái)實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似推廣,因此本發(fā)明不受下面公開的具體實(shí)施例的限制。其次,此處所稱的“一個(gè)實(shí)施例”或“實(shí)施例”是指可包含于本發(fā)明至少-一個(gè)實(shí)現(xiàn)方式中的特定特征、結(jié)構(gòu)或特性。在本說(shuō)明書中不同地方出現(xiàn)的“在--個(gè)實(shí)施例中”并非均指同一個(gè)實(shí)施例,也不是單獨(dú)的或選擇性的與其他實(shí)施例互相排斥的實(shí)施例。本發(fā)明結(jié)合示意圖進(jìn)行詳細(xì)描述,在詳述本發(fā)明實(shí)施例時(shí),為便于說(shuō)明,表示器件結(jié)構(gòu)的剖面圖會(huì)不依一般比例作局部放大,而且所述示意圖只是示例,其在此不應(yīng)限制本發(fā)明保護(hù)的范圍。此外,在實(shí)際制作中應(yīng)包含長(zhǎng)度、寬度及深度的三維空間尺寸。同時(shí)在本發(fā)明的描述中,需要說(shuō)明的是,術(shù)語(yǔ)中的“上、下、內(nèi)和外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方述目的,而不能理解為指示或暗示相對(duì)重要性。本發(fā)明中除非另有明確的規(guī)定和限定,術(shù)語(yǔ)可以是機(jī)械連接、電連接或直接連接,也可以通過(guò)中間媒介間接相連,也可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。[0061]實(shí)施例1:[0062]基于文本聚類的視頻彈幕與評(píng)論主題融合的方法,如圖1的流程示意圖所示,根據(jù)本發(fā)明具體實(shí)例基于文本聚類的視頻彈幕與評(píng)論主題融合的方法包括如下步驟:[0063](1)執(zhí)行本發(fā)明的方法,首先執(zhí)行步驟1,獲取待分析的視頻下方的原始彈幕及評(píng)論文本。本實(shí)施例爬取了2020年嗶哩嗶哩彈幕網(wǎng)跨年演唱會(huì)視頻下方的彈幕及評(píng)論,其中彈幕數(shù)量為245611條,評(píng)論數(shù)量為28371條,[0064](2)其次,執(zhí)行步驟2,對(duì)獲取的數(shù)據(jù)集做文本預(yù)處理操作,運(yùn)用正則表達(dá)式匹配文本去除特殊符號(hào)、多余空白、轉(zhuǎn)化繁體字,構(gòu)建自定義詞典使詞能更準(zhǔn)確地劃分,使用擴(kuò)展的停用詞表去除文本中無(wú)意義或不重要的詞。本文根據(jù)文本的特性,構(gòu)建自定義詞典。自定義詞典中的詞語(yǔ)是根據(jù)當(dāng)前流行的網(wǎng)絡(luò)用語(yǔ)及節(jié)目、人物名字人工添加的,例如“前方高能”、“打call”等。停用詞是文本中經(jīng)常出現(xiàn)的一些銜接語(yǔ)句的詞或者對(duì)分析沒有用處的詞。本文構(gòu)建的停用詞表融合了中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)四個(gè)主流詞典的所有詞并人工添加了部分在視頻語(yǔ)境下不太重[0065](3)文本集處理好后,執(zhí)行步驟3及步驟4,分別用BERTopic模型、基于TF-IDF的k-means算法模型對(duì)處理后的評(píng)論文本、彈幕文本進(jìn)行聚類建模。評(píng)論文本聚類最佳簇?cái)?shù)自動(dòng)生成,彈幕文本最佳簇?cái)?shù)根據(jù)肘方法來(lái)選擇。此實(shí)施例中評(píng)論文本聚類模型的最佳簇?cái)?shù)為4,彈幕文本選擇簇?cái)?shù)為8,[0066](4)最后根據(jù)本方法提出的融合方法,先計(jì)算主題簇之間的相似度再計(jì)算詞與詞之間的相似度,從而實(shí)現(xiàn)“求同存異”的模型融合。根據(jù)步驟5中式(得各個(gè)簇代表的詞向量之間的相似度。設(shè)置相似度閾值為0.8,當(dāng)相似度大于等于0.8時(shí)則認(rèn)為簇之間相似,反之則不同。把被認(rèn)為相似的簇輸入到下一步,同時(shí)將與其余任何簇都不同的簇存放在集合C中。融合相似簇的主題詞,首先選取一對(duì)相似簇,設(shè)置其中一個(gè)簇為基準(zhǔn)簇,調(diào)用Synonyms中文近義詞工具包把相似簇中各自詞輸入程序,獲得對(duì)應(yīng)詞的距離分?jǐn)?shù),設(shè)置距離分?jǐn)?shù)閾值為0.8,當(dāng)距離分?jǐn)?shù)大于等于0.8時(shí)則認(rèn)為兩者為近義詞,反之則不同。若兩詞被判斷為近義詞則只保留基準(zhǔn)簇中的該詞。若兩詞不同且不同詞出現(xiàn)在基準(zhǔn)詞中則保留不變,若兩詞不同且出現(xiàn)在比較簇中則將該詞添加到基準(zhǔn)簇中。比較完成后將該基準(zhǔn)簇存放入集合C中。將每一對(duì)相似簇進(jìn)行前述的比較操作。最后輸出集合C為對(duì)聚類主題進(jìn)行融合的最終結(jié)果。[0067]實(shí)施例2:[0068]參照?qǐng)D4,為本發(fā)明的第二個(gè)實(shí)施例,該實(shí)施例不同于第1個(gè)實(shí)施例的是,提供了一種基于文本聚類的視頻彈幕與評(píng)論主題融合的分析系統(tǒng),包括:[0069]數(shù)據(jù)采集模塊,用于采集各大網(wǎng)絡(luò)視頻平臺(tái)中的評(píng)論及彈幕原始文本數(shù)據(jù)。[0070]數(shù)據(jù)預(yù)處理模塊連接于數(shù)據(jù)采集模塊,其用于接收數(shù)據(jù)采集模塊的采集數(shù)據(jù)信息進(jìn)行預(yù)處理,獲得原始文本的分詞結(jié)果。[0071]聚類模塊與數(shù)據(jù)預(yù)處理模塊相連接,其運(yùn)用BERTopic模型處理評(píng)論數(shù)據(jù),基于TF-IDF的k-means算法處理彈幕數(shù)據(jù)得到各自的主題簇進(jìn)行分析。[0072]模型融合模塊與聚類模塊相連接,根據(jù)算法計(jì)算主題簇之間的相似度再計(jì)算詞與[0073]優(yōu)選的,本實(shí)施例還需要說(shuō)明的是,聚類模塊首先分析兩個(gè)模型的觸發(fā)場(chǎng)景、輸入?yún)?shù),通過(guò)分析觸發(fā)場(chǎng)景了解系統(tǒng)是主動(dòng)還是被動(dòng)的發(fā)起方,其基本思路是低耦合、高內(nèi)聚,對(duì)于外部依賴越小越好,以較好的輸出反饋。模型融合模塊在進(jìn)行內(nèi)部處理時(shí)需要分析流程的步驟和數(shù)據(jù),數(shù)據(jù)用于驅(qū)動(dòng)支持流程進(jìn)展,流程用于分析清楚步驟以及每個(gè)步驟所需要的數(shù)據(jù)。應(yīng)當(dāng)認(rèn)識(shí)到,本發(fā)明的實(shí)施例可以由計(jì)算機(jī)硬件、硬件和軟件的組合、或者通過(guò)存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)器中的計(jì)算機(jī)指令來(lái)實(shí)現(xiàn)或?qū)嵤K龇椒梢允褂脴?biāo)準(zhǔn)編程技術(shù)-包括配置有計(jì)算機(jī)程序的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在計(jì)算機(jī)程序中實(shí)現(xiàn),其中如此配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)以特定和預(yù)定義的方式操作一一根據(jù)在具體實(shí)施例中描述的方法和附圖。每個(gè)程序可以以高級(jí)過(guò)程或面向?qū)ο蟮木幊陶Z(yǔ)言來(lái)實(shí)現(xiàn)以與計(jì)算是編譯或解釋的語(yǔ)言。此外,為此目的該程序能夠在編程的專用集成電路上運(yùn)行。[0074]此外,可按任何合適的順序來(lái)執(zhí)行本文描述的過(guò)程的操作,除非本文另外指示或以其他方式明顯地與上下文矛盾。本文描述的過(guò)程(或變型和/或其組合)可在配置有可執(zhí)行指令的一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)的控制下執(zhí)行,并且可作為共同地在一個(gè)或多個(gè)處理器上執(zhí)行的代碼(例
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中山市博愛醫(yī)院2026年人才招聘49人備考題庫(kù)及參考答案詳解一套
- 5G+AI輔助重癥患者個(gè)體化治療策略
- 2026年廣州醫(yī)科大學(xué)附屬口腔醫(yī)院招聘?jìng)淇碱}庫(kù)(一)完整答案詳解
- 3D打印人工皮膚的美學(xué)與功能重建
- 2025年義烏市勝利幼兒園招聘?jìng)淇碱}庫(kù)及參考答案詳解1套
- 2025年改則縣審計(jì)局面向社會(huì)公開聘用編外工程師備考題庫(kù)及一套答案詳解
- 簡(jiǎn)約中國(guó)風(fēng)地產(chǎn)營(yíng)銷策劃方案
- 項(xiàng)目高處作業(yè)施工方案
- 2025年廈門市集美區(qū)樂安小學(xué)非在編教師招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 2025年四川省岳池銀泰投資(控股)有限公司公開招聘急需緊缺專業(yè)人才備考題庫(kù)有答案詳解
- 2025年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)舊樓加裝電梯市場(chǎng)供需現(xiàn)狀及投資戰(zhàn)略數(shù)據(jù)分析研究報(bào)告
- 院內(nèi)感染暴發(fā)應(yīng)急響應(yīng)全流程
- caac機(jī)長(zhǎng)證考試內(nèi)容
- 轉(zhuǎn)移性副神經(jīng)節(jié)瘤和嗜鉻細(xì)胞瘤診治專家共識(shí)2026
- 2025年秋小學(xué)音樂湘藝版四年級(jí)上冊(cè)期末測(cè)試卷含答案
- 2025年山東省考公務(wù)員面試題(監(jiān)獄警察)及解析
- 國(guó)家公園休閑管理
- 2025年教師招聘考試教育綜合知識(shí)6000題(主觀題含答案)
- 基于生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)與超分辨率-洞察及研究
- 廣東省惠州市2025屆高三下學(xué)期4月模擬考試化學(xué)
- 二十屆四中全會(huì)開啟中國(guó)經(jīng)濟(jì)新篇章研究制定十五五規(guī)劃建議
評(píng)論
0/150
提交評(píng)論