基于BERT的《后浪》視頻評(píng)論中情感分析研究獲獎(jiǎng)科研報(bào)告_第1頁
基于BERT的《后浪》視頻評(píng)論中情感分析研究獲獎(jiǎng)科研報(bào)告_第2頁
基于BERT的《后浪》視頻評(píng)論中情感分析研究獲獎(jiǎng)科研報(bào)告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于BERT的《后浪》視頻評(píng)論中情感分析研究獲獎(jiǎng)科研報(bào)告

摘要:《后浪》發(fā)布以來,在社會(huì)上產(chǎn)生了重大的影響。本文使用基于BERT編碼的深度情感分析模型來進(jìn)行視頻評(píng)論中的情感分析。本文選擇B站和YouTube兩個(gè)視頻網(wǎng)站,對(duì)兩個(gè)平臺(tái)中的《后浪》視頻評(píng)論進(jìn)行情感分析,并將結(jié)果進(jìn)行對(duì)比,進(jìn)一步得出了每一類的觀點(diǎn)想表達(dá)的情感。在此基礎(chǔ)上,本文對(duì)實(shí)驗(yàn)結(jié)果得出了一些思考和分析。實(shí)驗(yàn)分析結(jié)果表明:Youtube網(wǎng)站上的負(fù)面評(píng)論情緒顯著高于B站。其負(fù)面情緒者的主要觀點(diǎn)在于:現(xiàn)實(shí)中青年的平均生活水平與“后浪”們之間存在著巨大差距,即《后浪》視頻不夠真實(shí)。

關(guān)鍵詞:《后浪》,BERT,情感分析,視頻評(píng)論

1.引言

現(xiàn)如今人們?cè)谑褂肂站、Youtube等平臺(tái)觀看視頻的同時(shí),也會(huì)通過評(píng)論表達(dá)自己的想法與意見。視頻《后浪》自發(fā)布以來就成為了社會(huì)關(guān)注的焦點(diǎn),截至2020年7月18日為止,B站累計(jì)播放量已有2781.4萬,巨大的播放量也帶來了海量的視頻評(píng)論信息[1]。本文中,我們研究了人們觀看《后浪》視頻后產(chǎn)生評(píng)論中的情感觀點(diǎn)。本文選擇對(duì)B站、Youtube兩個(gè)網(wǎng)站上的視頻評(píng)論進(jìn)行分析。除此之外,本文對(duì)兩個(gè)平臺(tái)中視頻評(píng)論的情感分析結(jié)果進(jìn)行對(duì)比,并概括出每類情感想表達(dá)的觀點(diǎn)。在此基礎(chǔ)上,筆者對(duì)這些結(jié)果給出了一些思考。

2.研究方法

2.1數(shù)據(jù)爬取

Requests庫是基于Python實(shí)現(xiàn)的簡(jiǎn)單易用的HTTP庫。Requests是用Python語言編寫的,基于urllib3來改寫的,采用Apache2Licensed來源協(xié)議的HTTP庫。它比urllib更加方便,可以節(jié)約我們大量的工作,完全滿足HTTP測(cè)試需求[2]。

本文對(duì)兩網(wǎng)站的爬取均使用基本的requests庫進(jìn)行。對(duì)B站的數(shù)據(jù)爬取過程中,我們需要填入視頻的BV號(hào),代碼會(huì)將BV號(hào)轉(zhuǎn)換為視頻的AV號(hào),然后組成url進(jìn)行爬取。而對(duì)Youtube的評(píng)論數(shù)據(jù)爬取中,需要先申請(qǐng)google的開發(fā)者API,然后將自己的密鑰填入代碼,就可以進(jìn)行爬取。

最終,我們獲得了B站中的熱度最高的評(píng)論1969條,Youtube中點(diǎn)贊數(shù)大于10的評(píng)論1164條。

2.2基于BERT的情感分析模型

本文采用社交媒體預(yù)料訓(xùn)練了一個(gè)針對(duì)社交媒體語料進(jìn)行情感分析的機(jī)器學(xué)習(xí)模型。

作為2018年自然語言處理領(lǐng)域的新秀,BERT做到了過去幾年NLP重大進(jìn)展的集大成,一出場(chǎng)就技驚四座碾壓競(jìng)爭(zhēng)對(duì)手,刷新了11項(xiàng)NLP測(cè)試的最高紀(jì)錄,甚至超越了人類的表現(xiàn),是未來NLP研究和工業(yè)應(yīng)用中最有潛力的語言模型之一[3]。

本文使用Bert作為encoder,將文本傳入Bert后,獲得第一個(gè)字符[CLS]的表示作為輸出,因其已經(jīng)蘊(yùn)含了整個(gè)句子之中的信息。將其傳入一個(gè)全連接層,完成分類任務(wù)。我們使用第九屆全國社會(huì)媒體處理大會(huì)微博情緒分類技術(shù)評(píng)測(cè)(SMP2020-EWETC)中提供的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集從微博評(píng)論中產(chǎn)生,與本文的應(yīng)用場(chǎng)景類似,并且不僅標(biāo)注了積極消極的情緒,也標(biāo)注了中立的情緒,可以更加方便我們對(duì)不同類別情感進(jìn)行分析。

3.數(shù)據(jù)分析

3.1不同平臺(tái)之間的結(jié)果對(duì)比及其原因

使用情感分析器對(duì)我們爬取到的數(shù)據(jù)進(jìn)行情感分析。一條數(shù)據(jù)如果是積極,標(biāo)為0,中立,標(biāo)為1,消極,標(biāo)為2。本文基于BERT的模型的標(biāo)注結(jié)果示例如表1所示。

可見兩平臺(tái)之間的評(píng)論情感存在巨大差距,bilibili上的評(píng)論偏向積極,Youtube上的評(píng)論則偏向消極。

通過調(diào)查網(wǎng)上資料,以及閱讀評(píng)論數(shù)據(jù),筆者認(rèn)為其中的主要原因可能有以下幾點(diǎn):

1)bilibili會(huì)手動(dòng)刪除負(fù)面評(píng)論;

2)Youtube平臺(tái)上存在大量對(duì)中國帶有嚴(yán)重偏見的人群,如亂港廢青等。

3.2不同情感評(píng)論人的觀點(diǎn)及其原因

本文通過生成積極、中立、消極三種評(píng)論的詞云的方式,更加直觀的展現(xiàn)三類評(píng)論的差別。由于詞云將單詞在語料庫中出現(xiàn)的頻率進(jìn)行了可視化,我們可以更容易的了解出現(xiàn)頻率最高的詞(已去除常用詞)。其結(jié)果如圖1所示。

從三幅圖中可以看出,除“后浪”、“演講”、“生活”等詞在三幅圖都出現(xiàn)外,負(fù)面評(píng)論中,“惡心”、“抱怨”、“韭菜”、“不公”,等詞經(jīng)常被提及,與之鮮明對(duì)比的是,積極評(píng)論中“希望”、“奮斗”、“奔涌”等詞有著較高的出現(xiàn)頻率。而中立情感動(dòng)的評(píng)論常常是在評(píng)論中記錄演員的身世背景、記錄視頻中部分臺(tái)詞、記錄打卡自己看了這個(gè)視頻。

正面情緒出現(xiàn)的原因是明顯的,作為一個(gè)歌頌?zāi)贻p人活力的視頻,視頻中up主們的“心里有火,眼里有光”確實(shí)激人奮進(jìn)。而一些中立情緒的原因也是明顯的,一部分是因?yàn)檫@條評(píng)論只是想打卡留念,一部分是因?yàn)樵u(píng)論中摻雜著正面和負(fù)面情緒。

對(duì)于負(fù)面的情緒,筆者總結(jié)上面詞云結(jié)果,并且分析部分?jǐn)?shù)據(jù),認(rèn)為其原因總結(jié)如下:

1、認(rèn)為視頻中的生活與現(xiàn)實(shí)青年生活嚴(yán)重不符,對(duì)比自己慘淡的人生感到無比自卑;

2、認(rèn)為這個(gè)視頻只是b

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論