基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析_第1頁(yè)
基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析_第2頁(yè)
基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析_第3頁(yè)
基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析_第4頁(yè)
基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于微博評(píng)論數(shù)據(jù)的新冠肺炎疫情網(wǎng)民情緒識(shí)別與分析一、引言1.1研究背景與意義2019年底,新冠肺炎疫情突如其來(lái),迅速在全球范圍內(nèi)蔓延,給人類(lèi)社會(huì)帶來(lái)了前所未有的沖擊。這場(chǎng)疫情不僅威脅著人們的生命健康,還對(duì)經(jīng)濟(jì)、政治、文化等各個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。在疫情期間,人們的生活方式發(fā)生了巨大改變,社交活動(dòng)受限,工作和學(xué)習(xí)模式被迫調(diào)整,許多行業(yè)遭受重創(chuàng),全球經(jīng)濟(jì)陷入衰退。在信息時(shí)代,互聯(lián)網(wǎng)成為人們獲取疫情信息、交流感受和表達(dá)觀點(diǎn)的主要平臺(tái)。微博作為中國(guó)最具影響力的社交媒體之一,擁有龐大的用戶(hù)群體和豐富的信息資源。在疫情期間,微博上關(guān)于疫情的話(huà)題討論熱度持續(xù)高漲,每天都產(chǎn)生海量的評(píng)論數(shù)據(jù)。這些評(píng)論不僅包含了人們對(duì)疫情發(fā)展的關(guān)注、對(duì)防控措施的看法,還反映了他們?cè)谝咔槠陂g的各種情緒。網(wǎng)民情緒作為公眾心理狀態(tài)的直觀體現(xiàn),在疫情這樣的重大公共衛(wèi)生事件中具有重要的研究?jī)r(jià)值。一方面,分析網(wǎng)民情緒有助于深入了解公眾在疫情期間的心理狀態(tài)。疫情帶來(lái)的不確定性、恐懼、焦慮等情緒,會(huì)對(duì)公眾的心理健康產(chǎn)生負(fù)面影響。通過(guò)對(duì)微博評(píng)論數(shù)據(jù)進(jìn)行分析,可以及時(shí)捕捉到公眾情緒的變化趨勢(shì),發(fā)現(xiàn)潛在的心理問(wèn)題,為心理干預(yù)和疏導(dǎo)提供依據(jù),從而幫助公眾緩解負(fù)面情緒,維護(hù)心理健康。例如,在疫情爆發(fā)初期,微博上大量的評(píng)論表現(xiàn)出公眾對(duì)病毒傳播的恐懼和對(duì)生活物資短缺的擔(dān)憂(yōu),相關(guān)部門(mén)可以據(jù)此及時(shí)發(fā)布權(quán)威信息,穩(wěn)定公眾情緒,并加大物資調(diào)配力度,保障民生。另一方面,網(wǎng)民情緒對(duì)政府制定疫情防控政策具有重要的參考作用。政府的決策需要充分考慮民意,而網(wǎng)民情緒是民意的重要體現(xiàn)。通過(guò)對(duì)微博評(píng)論中網(wǎng)民對(duì)防控政策的反饋和建議進(jìn)行分析,政府可以了解政策的實(shí)施效果和存在的問(wèn)題,及時(shí)調(diào)整和優(yōu)化政策,提高政策的科學(xué)性和有效性,更好地滿(mǎn)足公眾需求。比如,在疫情防控過(guò)程中,微博上關(guān)于口罩供應(yīng)、交通管制、社區(qū)防控等政策的討論熱烈,政府可以從中獲取公眾的意見(jiàn)和建議,對(duì)政策進(jìn)行相應(yīng)調(diào)整,以更好地推動(dòng)疫情防控工作。此外,穩(wěn)定的社會(huì)情緒是維護(hù)社會(huì)穩(wěn)定的重要基礎(chǔ)。在疫情期間,負(fù)面情緒的傳播可能引發(fā)社會(huì)恐慌,導(dǎo)致社會(huì)秩序混亂。通過(guò)對(duì)網(wǎng)民情緒的監(jiān)測(cè)和分析,能夠及時(shí)發(fā)現(xiàn)和干預(yù)可能引發(fā)社會(huì)不穩(wěn)定的情緒因素,避免群體性事件的發(fā)生,維護(hù)社會(huì)的和諧穩(wěn)定。例如,當(dāng)微博上出現(xiàn)不實(shí)信息引發(fā)公眾恐慌時(shí),相關(guān)部門(mén)可以迅速辟謠,引導(dǎo)公眾理性看待疫情,避免恐慌情緒的進(jìn)一步擴(kuò)散。1.2研究目的與創(chuàng)新點(diǎn)本研究旨在通過(guò)對(duì)微博平臺(tái)上與新冠肺炎疫情相關(guān)的評(píng)論數(shù)據(jù)進(jìn)行分析,運(yùn)用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)對(duì)網(wǎng)民情緒的準(zhǔn)確識(shí)別,并深入探究在疫情這一特殊背景下網(wǎng)民情緒的分布特征、變化規(guī)律及其影響因素,為政府、媒體和相關(guān)機(jī)構(gòu)在疫情期間進(jìn)行輿情監(jiān)測(cè)、心理干預(yù)以及政策制定提供有力的數(shù)據(jù)支持和決策依據(jù)。在研究方法上,本研究具有一定創(chuàng)新之處。傳統(tǒng)的網(wǎng)民情緒研究往往采用問(wèn)卷調(diào)查或簡(jiǎn)單的文本分析方法,樣本量有限且主觀性較強(qiáng)。而本研究充分利用大數(shù)據(jù)技術(shù),收集了海量的微博評(píng)論數(shù)據(jù),能夠更全面、客觀地反映網(wǎng)民情緒。同時(shí),綜合運(yùn)用多種自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)算法,構(gòu)建了高效準(zhǔn)確的網(wǎng)民情緒識(shí)別模型,相比單一方法,大大提高了情緒識(shí)別的準(zhǔn)確率和效率。在模型構(gòu)建方面,本研究創(chuàng)新性地將深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相結(jié)合。深度學(xué)習(xí)模型如長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)能夠有效捕捉文本中的語(yǔ)義信息和上下文依賴(lài)關(guān)系,但訓(xùn)練過(guò)程復(fù)雜且對(duì)數(shù)據(jù)量要求較高;傳統(tǒng)機(jī)器學(xué)習(xí)模型如支持向量機(jī)(SVM)具有計(jì)算效率高、可解釋性強(qiáng)的優(yōu)點(diǎn)。通過(guò)將兩者結(jié)合,充分發(fā)揮各自?xún)?yōu)勢(shì),提升了模型的性能和泛化能力。在數(shù)據(jù)處理過(guò)程中,本研究針對(duì)微博評(píng)論數(shù)據(jù)的特點(diǎn)進(jìn)行了精細(xì)化處理。微博評(píng)論中包含大量的表情符號(hào)、網(wǎng)絡(luò)用語(yǔ)和縮寫(xiě)詞,這些特殊元素蘊(yùn)含著豐富的情感信息。本研究專(zhuān)門(mén)構(gòu)建了針對(duì)微博數(shù)據(jù)的情感詞典,對(duì)表情符號(hào)、網(wǎng)絡(luò)用語(yǔ)等進(jìn)行了準(zhǔn)確的情感標(biāo)注,同時(shí)采用了更有效的文本清洗和特征提取方法,提高了數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的情緒分析奠定了堅(jiān)實(shí)基礎(chǔ)。1.3研究方法與流程本研究綜合運(yùn)用多種研究方法,確保研究的科學(xué)性、準(zhǔn)確性和全面性。數(shù)據(jù)收集方面,使用Python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序,利用微博開(kāi)放平臺(tái)提供的API接口,以“新冠肺炎疫情”“疫情防控”“新冠疫苗”等與疫情相關(guān)的熱門(mén)話(huà)題作為關(guān)鍵詞,設(shè)定合理的時(shí)間范圍,從微博平臺(tái)抓取包含這些關(guān)鍵詞的微博評(píng)論數(shù)據(jù)。在抓取過(guò)程中,對(duì)數(shù)據(jù)進(jìn)行初步篩選,去除重復(fù)、無(wú)效和不相關(guān)的評(píng)論,確保獲取的評(píng)論數(shù)據(jù)與疫情話(huà)題緊密相關(guān)。同時(shí),設(shè)置反爬蟲(chóng)機(jī)制,避免對(duì)微博服務(wù)器造成過(guò)大壓力,確保數(shù)據(jù)收集的合法性和穩(wěn)定性。最終收集到[X]條有效微博評(píng)論數(shù)據(jù),為后續(xù)分析提供了豐富的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)預(yù)處理階段,運(yùn)用自然語(yǔ)言處理技術(shù)對(duì)收集到的微博評(píng)論數(shù)據(jù)進(jìn)行清洗和整理。首先,去除評(píng)論中的HTML標(biāo)簽、特殊字符、表情符號(hào)等無(wú)關(guān)信息,只保留文本內(nèi)容。針對(duì)微博評(píng)論中大量的網(wǎng)絡(luò)用語(yǔ)、縮寫(xiě)詞和口語(yǔ)化表達(dá),通過(guò)構(gòu)建專(zhuān)門(mén)的微博詞匯表和語(yǔ)義轉(zhuǎn)換規(guī)則,將其轉(zhuǎn)換為標(biāo)準(zhǔn)的中文詞匯,以便于后續(xù)分析。使用中文分詞工具(如結(jié)巴分詞)對(duì)評(píng)論進(jìn)行分詞處理,將連續(xù)的文本分割成一個(gè)個(gè)獨(dú)立的詞語(yǔ),并去除停用詞(如“的”“了”“是”等沒(méi)有實(shí)際語(yǔ)義的常用詞),減少數(shù)據(jù)噪聲,提高數(shù)據(jù)質(zhì)量。經(jīng)過(guò)預(yù)處理后,得到了結(jié)構(gòu)清晰、語(yǔ)義明確的文本數(shù)據(jù),為后續(xù)的特征提取和模型訓(xùn)練做好準(zhǔn)備。在特征提取環(huán)節(jié),采用多種方法從預(yù)處理后的文本數(shù)據(jù)中提取有效的特征。使用詞袋模型(BagofWords)將文本轉(zhuǎn)化為向量形式,統(tǒng)計(jì)每個(gè)詞語(yǔ)在評(píng)論中出現(xiàn)的頻率,作為文本的特征表示。這種方法簡(jiǎn)單直觀,能夠快速有效地提取文本的基本特征,但忽略了詞語(yǔ)之間的順序和語(yǔ)義關(guān)系。為了彌補(bǔ)詞袋模型的不足,引入TF-IDF(詞頻-逆文檔頻率)算法,該算法通過(guò)計(jì)算詞語(yǔ)在文本中的重要性,突出那些在特定評(píng)論中頻繁出現(xiàn)且在其他評(píng)論中較少出現(xiàn)的詞語(yǔ),從而更準(zhǔn)確地反映文本的主題和情感傾向。此外,還嘗試使用Word2Vec等詞向量模型,將詞語(yǔ)映射到低維向量空間中,使具有相似語(yǔ)義的詞語(yǔ)在向量空間中距離相近,從而捕捉詞語(yǔ)之間的語(yǔ)義關(guān)系,為后續(xù)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型提供更豐富的語(yǔ)義信息。對(duì)于網(wǎng)民情緒識(shí)別模型的構(gòu)建,分別采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方面,選擇支持向量機(jī)(SVM)、樸素貝葉斯(NaiveBayes)和邏輯回歸(LogisticRegression)等經(jīng)典算法進(jìn)行實(shí)驗(yàn)。以提取的文本特征作為輸入,以人工標(biāo)注的情緒標(biāo)簽(正面、負(fù)面、中性)作為輸出,對(duì)這些機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和優(yōu)化。通過(guò)交叉驗(yàn)證等方法調(diào)整模型的參數(shù),選擇性能最優(yōu)的模型作為機(jī)器學(xué)習(xí)的代表模型。深度學(xué)習(xí)方面,構(gòu)建基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的神經(jīng)網(wǎng)絡(luò)模型。LSTM模型能夠有效處理時(shí)間序列數(shù)據(jù),捕捉文本中的上下文依賴(lài)關(guān)系,對(duì)于情感分析任務(wù)具有較好的效果。在模型訓(xùn)練過(guò)程中,使用大量的微博評(píng)論數(shù)據(jù)進(jìn)行迭代訓(xùn)練,不斷調(diào)整模型的權(quán)重和參數(shù),提高模型的準(zhǔn)確性和泛化能力。同時(shí),為了防止過(guò)擬合,采用了Dropout等正則化技術(shù),并對(duì)模型進(jìn)行了多次評(píng)估和優(yōu)化。在模型訓(xùn)練完成后,使用測(cè)試數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型進(jìn)行性能評(píng)估。評(píng)估指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值等。通過(guò)對(duì)比不同模型在測(cè)試集上的性能表現(xiàn),分析各個(gè)模型的優(yōu)缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型在準(zhǔn)確率和F1值等指標(biāo)上表現(xiàn)優(yōu)于機(jī)器學(xué)習(xí)模型,但計(jì)算復(fù)雜度較高,訓(xùn)練時(shí)間較長(zhǎng);機(jī)器學(xué)習(xí)模型雖然性能略遜一籌,但具有計(jì)算效率高、可解釋性強(qiáng)的優(yōu)點(diǎn)。綜合考慮模型性能和實(shí)際應(yīng)用需求,選擇性能最佳的模型作為最終的網(wǎng)民情緒識(shí)別模型。最后,利用訓(xùn)練好的網(wǎng)民情緒識(shí)別模型對(duì)微博評(píng)論數(shù)據(jù)進(jìn)行情緒分析,統(tǒng)計(jì)不同情緒類(lèi)型(正面、負(fù)面、中性)的評(píng)論數(shù)量和占比,分析網(wǎng)民情緒在疫情不同階段的分布特征和變化趨勢(shì)。結(jié)合疫情發(fā)展的時(shí)間線(xiàn)和相關(guān)事件,如疫情爆發(fā)初期、防控措施加強(qiáng)、疫苗研發(fā)成功等,探討這些事件對(duì)網(wǎng)民情緒的影響,挖掘網(wǎng)民情緒背后的原因和影響因素。通過(guò)可視化工具(如柱狀圖、折線(xiàn)圖、詞云圖等)將分析結(jié)果直觀地展示出來(lái),以便更好地理解和解讀網(wǎng)民情緒的變化規(guī)律,為相關(guān)研究和決策提供有力支持。本研究的整體流程如圖1-1所示。[此處插入研究流程圖,展示從數(shù)據(jù)收集到結(jié)果分析的全過(guò)程]綜上所述,本研究通過(guò)綜合運(yùn)用多種研究方法,從數(shù)據(jù)收集、預(yù)處理、特征提取、模型構(gòu)建到結(jié)果分析,形成了一個(gè)完整的研究體系,為深入研究新冠肺炎疫情期間網(wǎng)民情緒提供了有效的技術(shù)手段和分析框架。二、相關(guān)理論與技術(shù)基礎(chǔ)2.1網(wǎng)民情緒相關(guān)理論情緒是人類(lèi)對(duì)客觀事物是否符合自身需要而產(chǎn)生的態(tài)度體驗(yàn),是一種復(fù)雜的心理現(xiàn)象,由主觀感受、生理反應(yīng)和外在行為表現(xiàn)等多個(gè)方面組成。從心理學(xué)角度來(lái)看,情緒具有動(dòng)力性、激動(dòng)性、強(qiáng)度和緊張度等特征,這些特征會(huì)影響個(gè)體的認(rèn)知、行為和社會(huì)交往。例如,當(dāng)人們處于積極情緒狀態(tài)時(shí),往往更愿意接受新信息,思維也更加靈活;而處于消極情緒狀態(tài)時(shí),可能會(huì)出現(xiàn)認(rèn)知偏差,行為也更容易受到情緒的支配。在學(xué)術(shù)研究中,情緒通常被分為基本情緒和復(fù)合情緒?;厩榫w是人類(lèi)與生俱來(lái)的、具有普遍性的情緒,如快樂(lè)、悲傷、憤怒、恐懼等;復(fù)合情緒則是由基本情緒組合而成的更為復(fù)雜的情緒,如焦慮、抑郁、嫉妒等。這種分類(lèi)方式為情緒研究提供了一個(gè)基本框架,有助于深入理解情緒的本質(zhì)和特點(diǎn)。在社交媒體平臺(tái)上,網(wǎng)民情緒又呈現(xiàn)出一些獨(dú)特的特點(diǎn)。社交媒體的開(kāi)放性和互動(dòng)性使得信息傳播迅速,網(wǎng)民可以隨時(shí)隨地表達(dá)自己的情緒,這導(dǎo)致網(wǎng)民情緒的傳播范圍廣、速度快。微博上的一條熱門(mén)評(píng)論可能在短時(shí)間內(nèi)被轉(zhuǎn)發(fā)和評(píng)論數(shù)萬(wàn)次,引發(fā)大量網(wǎng)民的關(guān)注和情緒共鳴。社交媒體的匿名性也使得網(wǎng)民在表達(dá)情緒時(shí)更加自由,一些在現(xiàn)實(shí)生活中可能受到抑制的情緒在網(wǎng)絡(luò)環(huán)境中更容易被釋放出來(lái),從而導(dǎo)致情緒表達(dá)更加極端。部分網(wǎng)民在微博評(píng)論中會(huì)使用激烈的言辭來(lái)表達(dá)自己的不滿(mǎn)或憤怒情緒,這種極端的情緒表達(dá)可能會(huì)對(duì)其他網(wǎng)民產(chǎn)生負(fù)面影響,甚至引發(fā)網(wǎng)絡(luò)暴力。此外,社交媒體上的信息往往是碎片化的,網(wǎng)民的情緒也容易受到這些碎片化信息的影響,呈現(xiàn)出多變性的特點(diǎn)。一條關(guān)于疫情的新消息可能會(huì)瞬間改變網(wǎng)民的情緒狀態(tài),從之前的樂(lè)觀轉(zhuǎn)為擔(dān)憂(yōu)或恐慌。在新冠肺炎疫情期間,網(wǎng)民情緒的產(chǎn)生和傳播機(jī)制受到多種因素的影響。疫情的不確定性是引發(fā)網(wǎng)民情緒波動(dòng)的重要因素之一。疫情的發(fā)展態(tài)勢(shì)、病毒的傳播速度、防控措施的效果等都存在不確定性,這種不確定性使得網(wǎng)民對(duì)未來(lái)感到擔(dān)憂(yōu)和恐懼,從而產(chǎn)生負(fù)面情緒。例如,在疫情爆發(fā)初期,由于對(duì)病毒的了解有限,人們對(duì)疫情的發(fā)展充滿(mǎn)擔(dān)憂(yōu),微博上出現(xiàn)大量表達(dá)恐慌情緒的評(píng)論。信息的傳播和獲取也在網(wǎng)民情緒的產(chǎn)生和傳播中起到關(guān)鍵作用。在信息時(shí)代,社交媒體成為人們獲取疫情信息的主要渠道,但信息的真實(shí)性和可靠性難以保證,謠言和虛假信息容易在網(wǎng)絡(luò)上傳播,誤導(dǎo)公眾,引發(fā)不必要的恐慌和焦慮情緒。一些關(guān)于疫情的不實(shí)消息在微博上迅速傳播,導(dǎo)致部分網(wǎng)民信以為真,產(chǎn)生恐慌情緒。權(quán)威信息的發(fā)布不足或不及時(shí),也會(huì)使得網(wǎng)民難以獲取準(zhǔn)確的信息,從而加劇他們的不安情緒。社會(huì)支持和群體互動(dòng)對(duì)網(wǎng)民情緒也有重要影響。在疫情期間,人們通過(guò)社交媒體相互交流、分享經(jīng)驗(yàn)和情感,尋求社會(huì)支持。積極的社會(huì)支持和群體互動(dòng)可以緩解網(wǎng)民的負(fù)面情緒,增強(qiáng)他們的心理韌性;而消極的互動(dòng),如網(wǎng)絡(luò)爭(zhēng)吵和謾罵,則可能進(jìn)一步激化情緒,導(dǎo)致情緒的惡化。微博上一些用戶(hù)之間的互相鼓勵(lì)和支持,讓很多人感受到溫暖,緩解了焦慮情緒;但也有一些用戶(hù)之間的爭(zhēng)吵和指責(zé),使得負(fù)面情緒進(jìn)一步擴(kuò)散。2.2微博平臺(tái)特點(diǎn)及數(shù)據(jù)價(jià)值微博作為一款具有廣泛影響力的社交媒體平臺(tái),具有諸多獨(dú)特的特點(diǎn),使其成為研究網(wǎng)民情緒的優(yōu)質(zhì)數(shù)據(jù)來(lái)源。微博具有即時(shí)性和高速傳播的特點(diǎn)。在疫情期間,關(guān)于疫情的任何新動(dòng)態(tài),如新增確診病例數(shù)、防控政策的調(diào)整、疫苗研發(fā)的進(jìn)展等信息,都能在微博上迅速傳播。用戶(hù)可以在第一時(shí)間發(fā)布和獲取這些信息,幾乎實(shí)現(xiàn)了信息的實(shí)時(shí)更新。這使得微博成為疫情信息傳播的重要渠道,也使得網(wǎng)民對(duì)疫情相關(guān)事件的情緒能夠及時(shí)地在平臺(tái)上表達(dá)出來(lái),為研究網(wǎng)民情緒的實(shí)時(shí)變化提供了可能。在疫情爆發(fā)初期,武漢的一些網(wǎng)友通過(guò)微博實(shí)時(shí)分享當(dāng)?shù)氐囊咔闋顩r和生活物資短缺的情況,這些信息在短時(shí)間內(nèi)迅速擴(kuò)散,引發(fā)了全國(guó)網(wǎng)民的關(guān)注和討論,相關(guān)話(huà)題的評(píng)論量和轉(zhuǎn)發(fā)量在數(shù)小時(shí)內(nèi)就達(dá)到了數(shù)十萬(wàn)甚至數(shù)百萬(wàn),其中蘊(yùn)含的網(wǎng)民情緒也得到了充分的體現(xiàn)。微博的開(kāi)放性和互動(dòng)性強(qiáng)。微博的內(nèi)容通常是公開(kāi)的,任何用戶(hù)都可以自由地關(guān)注其他用戶(hù)、發(fā)布微博、評(píng)論和轉(zhuǎn)發(fā)他人的微博。這種開(kāi)放性使得不同地區(qū)、不同背景的網(wǎng)民都能夠參與到疫情相關(guān)話(huà)題的討論中來(lái),形成了龐大的輿論場(chǎng)。用戶(hù)之間可以通過(guò)評(píng)論和轉(zhuǎn)發(fā)進(jìn)行互動(dòng)交流,分享自己的觀點(diǎn)和感受,這種互動(dòng)性進(jìn)一步促進(jìn)了信息的傳播和情緒的擴(kuò)散。不同觀點(diǎn)和情緒在互動(dòng)中相互碰撞,使得微博上的網(wǎng)民情緒更加豐富多樣。在關(guān)于疫情防控措施的討論中,有的網(wǎng)民對(duì)嚴(yán)格的封城措施表示理解和支持,認(rèn)為這是有效控制疫情傳播的必要手段;而有的網(wǎng)民則表達(dá)了對(duì)生活不便的擔(dān)憂(yōu)和不滿(mǎn)。這些不同的觀點(diǎn)和情緒在微博的評(píng)論區(qū)和轉(zhuǎn)發(fā)中展開(kāi)激烈的討論和交鋒,反映出網(wǎng)民情緒的復(fù)雜性。微博還具有話(huà)題聚合性。用戶(hù)可以通過(guò)添加話(huà)題標(biāo)簽的方式,將相關(guān)的微博內(nèi)容聚合在一起,方便用戶(hù)快速找到感興趣的話(huà)題。在疫情期間,微博上出現(xiàn)了大量與疫情相關(guān)的話(huà)題標(biāo)簽,如#新冠肺炎疫情#、#疫情防控#、#新冠疫苗接種#等。這些話(huà)題標(biāo)簽吸引了大量用戶(hù)參與討論,使得同一話(huà)題下的微博評(píng)論能夠集中反映網(wǎng)民對(duì)該話(huà)題的情緒和看法。通過(guò)對(duì)這些話(huà)題下評(píng)論數(shù)據(jù)的分析,可以深入了解網(wǎng)民在不同疫情相關(guān)話(huà)題上的情緒分布和變化情況。例如,在#新冠疫苗接種#話(huà)題下,對(duì)評(píng)論數(shù)據(jù)進(jìn)行分析可以發(fā)現(xiàn),隨著疫苗接種工作的推進(jìn),網(wǎng)民的情緒從最初對(duì)疫苗安全性和有效性的擔(dān)憂(yōu),逐漸轉(zhuǎn)變?yōu)閷?duì)疫苗接種的積極支持和對(duì)疫情結(jié)束的期待。微博評(píng)論數(shù)據(jù)在網(wǎng)民情緒研究中具有極高的價(jià)值和優(yōu)勢(shì)。數(shù)據(jù)量大且樣本豐富。微博擁有龐大的用戶(hù)群體,在疫情期間,每天都產(chǎn)生海量的與疫情相關(guān)的評(píng)論數(shù)據(jù)。這些數(shù)據(jù)涵蓋了不同年齡、性別、職業(yè)、地域的網(wǎng)民,能夠?yàn)檠芯刻峁┴S富多樣的樣本,更全面地反映出全體網(wǎng)民的情緒狀況。與傳統(tǒng)的問(wèn)卷調(diào)查或小規(guī)模訪(fǎng)談相比,微博評(píng)論數(shù)據(jù)的樣本量更大,更具有代表性,能夠減少樣本偏差對(duì)研究結(jié)果的影響,使研究結(jié)論更具普遍性和可靠性。數(shù)據(jù)的真實(shí)性和自然性強(qiáng)。微博用戶(hù)在評(píng)論時(shí)往往是基于自己的真實(shí)感受和想法,沒(méi)有受到外界過(guò)多的干擾和引導(dǎo),因此這些評(píng)論能夠真實(shí)地反映網(wǎng)民的情緒狀態(tài)。而且微博評(píng)論的表達(dá)形式多樣,包括文字、表情符號(hào)、圖片等,這些豐富的表達(dá)元素能夠更生動(dòng)地展現(xiàn)網(wǎng)民的情緒,為情緒分析提供了更全面的信息。有的網(wǎng)民會(huì)在評(píng)論中使用憤怒的表情符號(hào)來(lái)表達(dá)對(duì)疫情期間一些不良現(xiàn)象的不滿(mǎn),這些表情符號(hào)能夠更直觀地傳達(dá)他們的情緒強(qiáng)度。微博評(píng)論數(shù)據(jù)還具有時(shí)間序列性。隨著疫情的發(fā)展,微博上關(guān)于疫情的評(píng)論數(shù)據(jù)是按時(shí)間順序不斷產(chǎn)生的,形成了一個(gè)完整的時(shí)間序列。通過(guò)對(duì)不同時(shí)間點(diǎn)的評(píng)論數(shù)據(jù)進(jìn)行分析,可以清晰地觀察到網(wǎng)民情緒隨著疫情的發(fā)展、防控措施的變化以及相關(guān)事件的發(fā)生而產(chǎn)生的動(dòng)態(tài)變化過(guò)程。這種時(shí)間序列性的數(shù)據(jù)能夠幫助研究人員深入探究網(wǎng)民情緒變化的規(guī)律和影響因素,為預(yù)測(cè)網(wǎng)民情緒的未來(lái)發(fā)展趨勢(shì)提供依據(jù)。在疫情防控的不同階段,如疫情爆發(fā)初期、高峰期、平穩(wěn)期等,通過(guò)分析對(duì)應(yīng)時(shí)間段的微博評(píng)論數(shù)據(jù),可以發(fā)現(xiàn)網(wǎng)民情緒從最初的恐慌、焦慮,到中期的積極配合和關(guān)注,再到后期對(duì)疫情結(jié)束的期待等一系列變化。2.3文本情感分析技術(shù)概述文本情感分析作為自然語(yǔ)言處理領(lǐng)域的重要研究方向,旨在通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)識(shí)別和分析文本中所表達(dá)的情感傾向,判斷其是正面、負(fù)面還是中性情感,以及情感的強(qiáng)度和具體類(lèi)型。這一技術(shù)在當(dāng)今信息爆炸的時(shí)代具有重要的應(yīng)用價(jià)值,能夠幫助人們快速理解海量文本數(shù)據(jù)中的情感信息,為決策提供有力支持。在電商領(lǐng)域,通過(guò)對(duì)消費(fèi)者的評(píng)論進(jìn)行情感分析,企業(yè)可以了解產(chǎn)品的優(yōu)缺點(diǎn),改進(jìn)產(chǎn)品和服務(wù);在輿情監(jiān)測(cè)中,分析公眾對(duì)熱點(diǎn)事件的情感態(tài)度,有助于政府和相關(guān)機(jī)構(gòu)及時(shí)掌握民意,制定合理的政策。文本情感分析任務(wù)主要包括以下幾個(gè)方面:情感分類(lèi),這是最基本的任務(wù),將文本劃分為正面、負(fù)面和中性等不同的情感類(lèi)別。對(duì)于一條關(guān)于電影的評(píng)論“這部電影情節(jié)緊湊,畫(huà)面精美,非常值得一看”,可以將其分類(lèi)為正面情感;而評(píng)論“電影劇情拖沓,毫無(wú)新意,浪費(fèi)時(shí)間”則可歸為負(fù)面情感。情感強(qiáng)度分析,除了判斷情感的極性,還需要評(píng)估情感的強(qiáng)烈程度,如非常滿(mǎn)意、滿(mǎn)意、一般、不滿(mǎn)意、非常不滿(mǎn)意等不同強(qiáng)度級(jí)別,以更精確地了解文本所表達(dá)的情感程度。在分析一條對(duì)餐廳的評(píng)價(jià)“這家餐廳的菜品簡(jiǎn)直難以下咽,服務(wù)態(tài)度也極差,我這輩子都不會(huì)再來(lái)了”時(shí),就可以判斷出其負(fù)面情感強(qiáng)度非常高。情感主題提取,識(shí)別文本中情感所針對(duì)的具體主題或?qū)ο螅员愀嗅槍?duì)性地進(jìn)行分析和處理。在一篇關(guān)于手機(jī)的評(píng)測(cè)文章中,可能同時(shí)涉及對(duì)手機(jī)外觀、性能、拍照等多個(gè)方面的情感表達(dá),通過(guò)情感主題提取可以分別了解用戶(hù)對(duì)各個(gè)主題的情感態(tài)度。在文本情感分析中,常用的方法主要有基于詞典的方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法?;谠~典的方法是利用預(yù)先構(gòu)建的情感詞典來(lái)判斷文本的情感傾向。情感詞典中包含了大量的情感詞,并對(duì)每個(gè)情感詞標(biāo)注了情感極性(正面、負(fù)面或中性)和情感強(qiáng)度等信息。在分析文本時(shí),通過(guò)匹配文本中的詞匯與情感詞典中的詞條,根據(jù)匹配結(jié)果計(jì)算文本的情感得分,從而確定其情感傾向。對(duì)于文本“這款手機(jī)的拍照效果很棒”,詞典中“很棒”是正面情感詞,據(jù)此可判斷該文本表達(dá)了正面情感。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單直觀,易于理解和實(shí)現(xiàn),且對(duì)于一些簡(jiǎn)單文本和特定領(lǐng)域的情感分析具有較好的效果。然而,它也存在明顯的局限性,詞典的覆蓋范圍有限,難以涵蓋所有的情感詞匯和表達(dá)方式,對(duì)于一些新出現(xiàn)的詞匯、網(wǎng)絡(luò)用語(yǔ)或語(yǔ)義模糊的詞匯,可能無(wú)法準(zhǔn)確判斷其情感極性;而且詞典的構(gòu)建需要耗費(fèi)大量的人力和時(shí)間,并且不同領(lǐng)域的情感詞典可能存在差異,通用性較差。機(jī)器學(xué)習(xí)方法在文本情感分析中得到了廣泛應(yīng)用。它通過(guò)構(gòu)建分類(lèi)模型來(lái)實(shí)現(xiàn)情感分類(lèi)任務(wù)。首先,需要從文本中提取特征,常用的特征提取方法有詞袋模型(BagofWords)、TF-IDF(詞頻-逆文檔頻率)等。詞袋模型將文本看作是一個(gè)詞語(yǔ)的集合,忽略詞語(yǔ)之間的順序,統(tǒng)計(jì)每個(gè)詞語(yǔ)在文本中出現(xiàn)的頻率作為特征;TF-IDF則通過(guò)計(jì)算詞語(yǔ)在文本中的重要性,突出那些在特定文本中頻繁出現(xiàn)且在其他文本中較少出現(xiàn)的詞語(yǔ),從而更準(zhǔn)確地反映文本的主題和情感傾向。然后,利用這些特征訓(xùn)練分類(lèi)模型,如支持向量機(jī)(SVM)、樸素貝葉斯(NaiveBayes)、邏輯回歸(LogisticRegression)等。支持向量機(jī)通過(guò)尋找一個(gè)最優(yōu)的分類(lèi)超平面,將不同類(lèi)別的文本數(shù)據(jù)分開(kāi);樸素貝葉斯基于貝葉斯定理和特征條件獨(dú)立假設(shè),計(jì)算文本屬于各個(gè)類(lèi)別的概率,從而進(jìn)行分類(lèi);邏輯回歸則通過(guò)構(gòu)建邏輯回歸模型,對(duì)文本的特征進(jìn)行建模,預(yù)測(cè)其情感類(lèi)別。機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn)是能夠自動(dòng)學(xué)習(xí)文本的特征和模式,對(duì)于大規(guī)模數(shù)據(jù)的處理具有較高的效率和準(zhǔn)確性,且模型具有一定的泛化能力,可以適應(yīng)不同領(lǐng)域和類(lèi)型的文本情感分析。但是,它對(duì)訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量要求較高,如果訓(xùn)練數(shù)據(jù)存在偏差或不足,可能會(huì)影響模型的性能;而且特征提取過(guò)程需要人工設(shè)計(jì)和選擇,不同的特征提取方法和參數(shù)設(shè)置可能會(huì)對(duì)結(jié)果產(chǎn)生較大影響,模型的可解釋性相對(duì)較差,難以直觀地理解模型的決策過(guò)程。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其在文本情感分析領(lǐng)域也取得了顯著的成果。深度學(xué)習(xí)模型能夠自動(dòng)學(xué)習(xí)文本的語(yǔ)義表示,無(wú)需人工進(jìn)行復(fù)雜的特征工程。在文本情感分析中,常用的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理序列數(shù)據(jù),通過(guò)隱藏層的循環(huán)結(jié)構(gòu)來(lái)捕捉文本中的上下文依賴(lài)關(guān)系,對(duì)于情感分析任務(wù)具有一定的優(yōu)勢(shì)。然而,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)距離依賴(lài)關(guān)系時(shí)存在梯度消失或梯度爆炸的問(wèn)題,難以有效捕捉文本中的長(zhǎng)期依賴(lài)信息。長(zhǎng)短期記憶網(wǎng)絡(luò)通過(guò)引入門(mén)控機(jī)制,包括輸入門(mén)、遺忘門(mén)和輸出門(mén),有效地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)的這一問(wèn)題,能夠更好地處理長(zhǎng)距離依賴(lài)關(guān)系,在文本情感分析中表現(xiàn)出了更優(yōu)越的性能。卷積神經(jīng)網(wǎng)絡(luò)則通過(guò)卷積層和池化層來(lái)提取文本的局部特征,能夠快速有效地處理文本數(shù)據(jù),對(duì)于一些具有明顯局部特征的文本情感分析任務(wù)具有較好的效果。深度學(xué)習(xí)方法的優(yōu)點(diǎn)是能夠自動(dòng)學(xué)習(xí)到更高級(jí)、更抽象的文本特征,對(duì)于復(fù)雜文本和大規(guī)模數(shù)據(jù)的處理能力較強(qiáng),在準(zhǔn)確率和召回率等指標(biāo)上往往優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。但深度學(xué)習(xí)模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間,模型結(jié)構(gòu)復(fù)雜,參數(shù)眾多,容易出現(xiàn)過(guò)擬合現(xiàn)象,且模型的可解釋性較差,難以理解模型內(nèi)部的決策機(jī)制。在新冠肺炎疫情輿情分析中,文本情感分析技術(shù)發(fā)揮了重要作用。通過(guò)對(duì)社交媒體上關(guān)于疫情的海量評(píng)論數(shù)據(jù)進(jìn)行情感分析,可以及時(shí)了解公眾對(duì)疫情的態(tài)度、情緒和關(guān)注點(diǎn)。在疫情爆發(fā)初期,利用文本情感分析技術(shù)對(duì)微博上的評(píng)論進(jìn)行分析,發(fā)現(xiàn)大量評(píng)論表達(dá)了公眾對(duì)疫情的恐慌、對(duì)醫(yī)療資源短缺的擔(dān)憂(yōu)以及對(duì)政府防控措施的關(guān)注。隨著疫情的發(fā)展和防控工作的推進(jìn),分析結(jié)果顯示公眾的情緒逐漸從恐慌轉(zhuǎn)向?qū)Ψ揽卮胧┑闹С趾团浜?,以及?duì)疫情結(jié)束的期待。這些分析結(jié)果為政府制定疫情防控政策、進(jìn)行輿情引導(dǎo)和心理干預(yù)提供了重要的參考依據(jù),有助于政府及時(shí)了解公眾需求,采取針對(duì)性的措施,穩(wěn)定社會(huì)情緒,保障疫情防控工作的順利進(jìn)行。三、微博評(píng)論數(shù)據(jù)的獲取與預(yù)處理3.1數(shù)據(jù)獲取為了獲取能夠準(zhǔn)確反映新冠肺炎疫情期間網(wǎng)民情緒的微博評(píng)論數(shù)據(jù),本研究運(yùn)用Python爬蟲(chóng)技術(shù),通過(guò)精心設(shè)計(jì)的程序從微博平臺(tái)收集相關(guān)評(píng)論。在確定關(guān)鍵詞時(shí),綜合考慮了疫情發(fā)展的不同階段、防控措施以及公眾關(guān)注的熱點(diǎn)話(huà)題,選取了諸如“新冠肺炎疫情”“疫情防控”“新冠疫苗”“核酸檢測(cè)”“封城”“方艙醫(yī)院”等一系列與疫情緊密相關(guān)的詞匯。這些關(guān)鍵詞涵蓋了疫情的各個(gè)方面,確保能夠全面捕捉到網(wǎng)民在不同疫情相關(guān)話(huà)題下的情緒表達(dá)。以“新冠肺炎疫情”這一關(guān)鍵詞為例,它是疫情的核心表述,能夠獲取到大量關(guān)于疫情基本情況、傳播態(tài)勢(shì)等方面的評(píng)論;“新冠疫苗”則聚焦于疫苗研發(fā)、接種等熱點(diǎn)話(huà)題下的網(wǎng)民情緒,這些關(guān)鍵詞相互補(bǔ)充,使得收集到的數(shù)據(jù)更具代表性。在時(shí)間范圍的設(shè)定上,本研究從2019年12月疫情首次被報(bào)道開(kāi)始,直至2022年12月疫情防控政策全面調(diào)整這一關(guān)鍵節(jié)點(diǎn)結(jié)束。這一時(shí)間段涵蓋了疫情從爆發(fā)、發(fā)展到逐漸得到有效控制并最終進(jìn)入常態(tài)化防控階段的全過(guò)程,能夠完整地反映網(wǎng)民情緒在疫情不同階段的變化情況。在疫情爆發(fā)初期,即2019年12月至2020年2月,微博上充斥著大量關(guān)于病毒傳播、武漢封城等事件的討論,網(wǎng)民情緒以恐慌、擔(dān)憂(yōu)為主;隨著疫情防控措施的逐步加強(qiáng),2020年3月至2021年期間,關(guān)于防控政策、物資供應(yīng)、醫(yī)護(hù)人員支援等方面的評(píng)論成為主流,網(wǎng)民情緒逐漸從恐慌轉(zhuǎn)向?qū)Ψ揽毓ぷ鞯闹С趾完P(guān)注;而在2021年至2022年12月期間,隨著疫苗接種的推進(jìn)和疫情形勢(shì)的變化,網(wǎng)民對(duì)疫苗安全性、有效性以及疫情防控常態(tài)化的討論增多,情緒也呈現(xiàn)出多樣化的特點(diǎn)。通過(guò)對(duì)這一完整時(shí)間跨度內(nèi)的數(shù)據(jù)進(jìn)行分析,可以清晰地展現(xiàn)網(wǎng)民情緒的動(dòng)態(tài)變化過(guò)程。數(shù)據(jù)源的選擇至關(guān)重要,本研究主要以微博平臺(tái)的熱門(mén)話(huà)題頁(yè)面、官方媒體發(fā)布的疫情相關(guān)微博評(píng)論區(qū)以及用戶(hù)主動(dòng)參與討論的疫情話(huà)題超話(huà)為數(shù)據(jù)源。熱門(mén)話(huà)題頁(yè)面匯聚了眾多網(wǎng)民對(duì)當(dāng)下疫情熱點(diǎn)事件的討論,能夠及時(shí)反映出最新的輿情動(dòng)態(tài);官方媒體發(fā)布的微博通常具有較高的權(quán)威性和關(guān)注度,其評(píng)論區(qū)的內(nèi)容代表了廣大網(wǎng)民對(duì)官方信息的反饋和態(tài)度;而疫情話(huà)題超話(huà)則是用戶(hù)自發(fā)聚集討論疫情的社區(qū),這里的評(píng)論更加多元化,涵蓋了不同用戶(hù)群體的觀點(diǎn)和情緒。人民日?qǐng)?bào)官方微博發(fā)布的關(guān)于疫情防控政策解讀的微博,其評(píng)論區(qū)吸引了大量網(wǎng)民留言,這些評(píng)論不僅包含對(duì)政策的理解和支持,也有部分網(wǎng)民提出了自己的疑問(wèn)和建議,通過(guò)分析這些評(píng)論可以深入了解公眾對(duì)政策的接受程度和關(guān)注點(diǎn)。然而,在數(shù)據(jù)爬取過(guò)程中,微博平臺(tái)的反爬蟲(chóng)機(jī)制給數(shù)據(jù)獲取帶來(lái)了諸多挑戰(zhàn)。為了應(yīng)對(duì)這一問(wèn)題,本研究采取了一系列有效的措施。在請(qǐng)求頭設(shè)置方面,模擬真實(shí)瀏覽器的行為,添加了豐富的請(qǐng)求頭信息,包括User-Agent、Referer、Cookie等。User-Agent字段模擬了不同瀏覽器和操作系統(tǒng)的標(biāo)識(shí),使爬蟲(chóng)請(qǐng)求看起來(lái)像是普通用戶(hù)在使用瀏覽器訪(fǎng)問(wèn)微博;Referer字段記錄了請(qǐng)求的來(lái)源頁(yè)面,增加了請(qǐng)求的真實(shí)性;Cookie則用于維持登錄狀態(tài),確保能夠獲取到完整的評(píng)論數(shù)據(jù)。將User-Agent設(shè)置為“Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.124Safari/537.36”,這樣的設(shè)置使得爬蟲(chóng)在發(fā)送請(qǐng)求時(shí)能夠偽裝成使用Chrome瀏覽器的Windows10用戶(hù),降低被微博平臺(tái)識(shí)別為爬蟲(chóng)的風(fēng)險(xiǎn)。合理控制爬取頻率也是解決反爬蟲(chóng)問(wèn)題的關(guān)鍵。本研究通過(guò)設(shè)置隨機(jī)的時(shí)間間隔,避免頻繁向微博服務(wù)器發(fā)送請(qǐng)求,防止因請(qǐng)求過(guò)于集中而觸發(fā)反爬蟲(chóng)機(jī)制。在每次爬取評(píng)論數(shù)據(jù)后,程序會(huì)隨機(jī)等待3-10秒再進(jìn)行下一次請(qǐng)求,這樣既保證了數(shù)據(jù)爬取的效率,又避免了對(duì)服務(wù)器造成過(guò)大壓力,確保了數(shù)據(jù)收集的穩(wěn)定性和可持續(xù)性。對(duì)于驗(yàn)證碼識(shí)別,本研究引入了第三方驗(yàn)證碼識(shí)別工具,如Tesseract-OCR等,并結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化,提高驗(yàn)證碼識(shí)別的準(zhǔn)確率。當(dāng)爬蟲(chóng)遇到驗(yàn)證碼時(shí),程序會(huì)自動(dòng)調(diào)用識(shí)別工具對(duì)驗(yàn)證碼進(jìn)行識(shí)別,并將識(shí)別結(jié)果提交給微博服務(wù)器進(jìn)行驗(yàn)證。如果識(shí)別失敗,程序會(huì)自動(dòng)進(jìn)行重試或采取人工輔助識(shí)別的方式,確保數(shù)據(jù)爬取的順利進(jìn)行。通過(guò)以上方法,本研究成功收集到了[X]條與新冠肺炎疫情相關(guān)的微博評(píng)論數(shù)據(jù),這些數(shù)據(jù)為后續(xù)的網(wǎng)民情緒分析提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。3.2數(shù)據(jù)清洗數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,對(duì)于提高數(shù)據(jù)質(zhì)量、確保后續(xù)分析的準(zhǔn)確性和可靠性至關(guān)重要。在對(duì)微博評(píng)論數(shù)據(jù)進(jìn)行清洗時(shí),主要包括去除無(wú)效、重復(fù)、錯(cuò)誤數(shù)據(jù),處理特殊字符和表情符號(hào),以及修正拼寫(xiě)錯(cuò)誤和語(yǔ)法錯(cuò)誤等方面。在數(shù)據(jù)收集過(guò)程中,由于各種原因,可能會(huì)混入一些無(wú)效數(shù)據(jù),如格式不完整、內(nèi)容為空的評(píng)論。這些無(wú)效數(shù)據(jù)不僅會(huì)占用存儲(chǔ)空間,還會(huì)干擾后續(xù)的分析,因此需要首先將其去除。通過(guò)編寫(xiě)Python腳本,檢查評(píng)論數(shù)據(jù)的各個(gè)字段,對(duì)于缺失關(guān)鍵信息(如評(píng)論內(nèi)容為空、評(píng)論時(shí)間格式錯(cuò)誤)的記錄進(jìn)行篩選和刪除。使用Pandas庫(kù)讀取數(shù)據(jù)文件,利用isnull()函數(shù)判斷評(píng)論內(nèi)容字段是否為空,然后使用dropna()函數(shù)刪除這些無(wú)效記錄。對(duì)于重復(fù)數(shù)據(jù),微博評(píng)論中可能存在一些用戶(hù)多次發(fā)布相同內(nèi)容的評(píng)論,或者由于數(shù)據(jù)爬取過(guò)程中的問(wèn)題導(dǎo)致部分評(píng)論重復(fù)。為了去除重復(fù)數(shù)據(jù),使用Python的duplicated()函數(shù),該函數(shù)可以根據(jù)指定的列(如評(píng)論內(nèi)容列)判斷數(shù)據(jù)是否重復(fù),并返回一個(gè)布爾值的Series對(duì)象。根據(jù)這個(gè)返回結(jié)果,使用drop_duplicates()函數(shù)刪除重復(fù)的評(píng)論數(shù)據(jù),確保每條評(píng)論的唯一性。微博評(píng)論中包含大量的特殊字符和表情符號(hào),這些元素雖然在一定程度上能夠豐富情感表達(dá),但對(duì)于基于文本的分析算法來(lái)說(shuō),可能會(huì)帶來(lái)干擾。對(duì)于特殊字符,如HTML標(biāo)簽、URL鏈接、標(biāo)點(diǎn)符號(hào)等,采用正則表達(dá)式進(jìn)行匹配和去除。使用Python的re模塊,編寫(xiě)正則表達(dá)式模式,如r'<.*?>|http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'來(lái)匹配HTML標(biāo)簽和URL鏈接,并使用re.sub()函數(shù)將其替換為空字符串。對(duì)于表情符號(hào),由于其種類(lèi)繁多且沒(méi)有統(tǒng)一的編碼規(guī)則,直接識(shí)別和處理較為困難。為此,構(gòu)建了一個(gè)表情符號(hào)映射表,該表包含常見(jiàn)的表情符號(hào)及其對(duì)應(yīng)的情感標(biāo)簽(如笑臉表示正面情感,哭臉表示負(fù)面情感)。通過(guò)遍歷評(píng)論數(shù)據(jù),使用正則表達(dá)式匹配表情符號(hào),并根據(jù)映射表將其替換為相應(yīng)的情感關(guān)鍵詞,如將“??”替換為“開(kāi)心”,“??”替換為“難過(guò)”,這樣既保留了表情符號(hào)所蘊(yùn)含的情感信息,又便于后續(xù)的文本分析。此外,微博評(píng)論的語(yǔ)言風(fēng)格較為隨意,常常存在拼寫(xiě)錯(cuò)誤和語(yǔ)法錯(cuò)誤。為了修正這些錯(cuò)誤,采用了基于語(yǔ)言模型的糾錯(cuò)方法。利用預(yù)訓(xùn)練的語(yǔ)言模型(如BERT)對(duì)評(píng)論進(jìn)行分析,模型能夠根據(jù)上下文語(yǔ)境判斷詞語(yǔ)是否拼寫(xiě)正確或語(yǔ)法是否合理。當(dāng)檢測(cè)到錯(cuò)誤時(shí),模型會(huì)根據(jù)其學(xué)習(xí)到的語(yǔ)言知識(shí)給出糾正建議。對(duì)于“今天天氣好好呀,我門(mén)去玩吧”中的“我門(mén)”,語(yǔ)言模型能夠識(shí)別出應(yīng)為“我們”,并進(jìn)行自動(dòng)替換。為了提高糾錯(cuò)的準(zhǔn)確性和效率,結(jié)合了常見(jiàn)的拼寫(xiě)錯(cuò)誤詞典和語(yǔ)法規(guī)則庫(kù)。拼寫(xiě)錯(cuò)誤詞典中收錄了大量常見(jiàn)的拼寫(xiě)錯(cuò)誤及其正確形式,在進(jìn)行糾錯(cuò)時(shí),首先根據(jù)詞典進(jìn)行簡(jiǎn)單的匹配和替換;對(duì)于一些復(fù)雜的語(yǔ)法錯(cuò)誤,則參考語(yǔ)法規(guī)則庫(kù)進(jìn)行分析和修正。例如,對(duì)于“我喜歡吃蘋(píng)果,因?yàn)樗鼈兒苊牢?,是我最喜歡水果之一”中缺少“的”字的語(yǔ)法錯(cuò)誤,根據(jù)語(yǔ)法規(guī)則庫(kù)能夠判斷并添加正確的助詞。通過(guò)以上數(shù)據(jù)清洗步驟,有效地提高了微博評(píng)論數(shù)據(jù)的質(zhì)量,為后續(xù)的文本分析和網(wǎng)民情緒識(shí)別奠定了堅(jiān)實(shí)的基礎(chǔ)。經(jīng)過(guò)清洗后的數(shù)據(jù),噪聲減少,語(yǔ)義更加清晰,能夠更準(zhǔn)確地反映網(wǎng)民在疫情期間的真實(shí)情緒表達(dá),有助于提高研究結(jié)果的可靠性和有效性。3.3中文分詞與停用詞處理中文分詞是自然語(yǔ)言處理中的關(guān)鍵環(huán)節(jié),它的核心任務(wù)是將連續(xù)的中文文本分割成一個(gè)個(gè)獨(dú)立的詞語(yǔ),以便后續(xù)的文本分析和處理。在英文中,單詞之間天然存在空格作為分隔符,使得單詞的識(shí)別相對(duì)容易。而中文文本中詞語(yǔ)之間沒(méi)有明顯的分隔標(biāo)志,這就使得中文分詞成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)?!拔覑?ài)北京天安門(mén)”這句話(huà),需要準(zhǔn)確地分詞為“我/愛(ài)/北京/天安門(mén)”,才能讓計(jì)算機(jī)理解其語(yǔ)義。如果分詞錯(cuò)誤,如分成“我愛(ài)北/京天安門(mén)”,就會(huì)導(dǎo)致對(duì)文本的錯(cuò)誤理解,進(jìn)而影響后續(xù)的情感分析、主題提取等任務(wù)的準(zhǔn)確性。目前,常見(jiàn)的中文分詞方法主要有基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法是根據(jù)預(yù)先定義好的規(guī)則和詞典,將文本與詞典中的詞條進(jìn)行匹配來(lái)實(shí)現(xiàn)分詞。正向最大匹配法,它從左到右掃描文本,在詞典中尋找最長(zhǎng)的匹配詞,將其作為分詞結(jié)果;逆向最大匹配法則從右到左進(jìn)行掃描。這些方法的優(yōu)點(diǎn)是簡(jiǎn)單直觀,計(jì)算效率較高,對(duì)于一些常見(jiàn)的文本和特定領(lǐng)域的詞匯能夠快速準(zhǔn)確地分詞。但它對(duì)詞典的依賴(lài)程度較高,對(duì)于未登錄詞(即詞典中沒(méi)有收錄的詞)和歧義句的處理能力較弱。在新冠肺炎疫情相關(guān)的微博評(píng)論中,可能會(huì)出現(xiàn)“新冠”“清零”等新詞匯,基于規(guī)則的分詞方法如果詞典中沒(méi)有收錄這些詞,就無(wú)法正確分詞;對(duì)于“還沒(méi)有確診病例出現(xiàn)”這樣的句子,正向最大匹配法可能會(huì)錯(cuò)誤地將“沒(méi)有確”作為一個(gè)詞,產(chǎn)生歧義?;诮y(tǒng)計(jì)的方法則是利用大量已標(biāo)注的語(yǔ)料庫(kù),通過(guò)統(tǒng)計(jì)模型學(xué)習(xí)詞語(yǔ)切分的規(guī)律,從而對(duì)未知文本進(jìn)行分詞。常用的統(tǒng)計(jì)模型有隱馬爾可夫模型(HMM)、最大熵模型(ME)、條件隨機(jī)場(chǎng)模型(CRF)等。這些方法能夠自動(dòng)學(xué)習(xí)文本中的語(yǔ)言模式,對(duì)未登錄詞和歧義句有較好的處理能力,分詞的準(zhǔn)確率相對(duì)較高。但需要大量的訓(xùn)練數(shù)據(jù),訓(xùn)練過(guò)程復(fù)雜,計(jì)算成本較高,而且模型的可解釋性較差。以隱馬爾可夫模型為例,它將分詞過(guò)程看作一個(gè)隱藏狀態(tài)序列的生成過(guò)程,通過(guò)學(xué)習(xí)狀態(tài)轉(zhuǎn)移概率和觀測(cè)概率來(lái)確定最佳的分詞結(jié)果,但模型內(nèi)部的計(jì)算過(guò)程較為復(fù)雜,難以直觀理解。基于深度學(xué)習(xí)的方法近年來(lái)在中文分詞領(lǐng)域得到了廣泛應(yīng)用,它通過(guò)構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,自動(dòng)學(xué)習(xí)文本的特征表示,實(shí)現(xiàn)更準(zhǔn)確的分詞。卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)等都被用于中文分詞任務(wù)。深度學(xué)習(xí)方法能夠自動(dòng)提取文本的語(yǔ)義和句法信息,對(duì)復(fù)雜文本和大規(guī)模數(shù)據(jù)的處理能力較強(qiáng),在分詞效果上往往優(yōu)于傳統(tǒng)方法。但模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間,模型結(jié)構(gòu)復(fù)雜,調(diào)參難度較大,且容易出現(xiàn)過(guò)擬合現(xiàn)象。基于LSTM的中文分詞模型,能夠有效捕捉文本中的長(zhǎng)距離依賴(lài)關(guān)系,提高分詞的準(zhǔn)確性,但訓(xùn)練過(guò)程中需要不斷調(diào)整參數(shù),以避免過(guò)擬合問(wèn)題。在本研究中,綜合考慮各種分詞方法的優(yōu)缺點(diǎn)以及微博評(píng)論數(shù)據(jù)的特點(diǎn),選擇結(jié)巴分詞工具進(jìn)行中文分詞。結(jié)巴分詞是一個(gè)廣泛使用的中文分詞庫(kù),它支持精確模式、全模式和搜索引擎模式,具有較高的分詞準(zhǔn)確率和效率,并且能夠較好地處理未登錄詞和歧義句。精確模式試圖將句子最精確地切開(kāi),適合文本分析,能夠滿(mǎn)足本研究對(duì)微博評(píng)論進(jìn)行深入分析的需求。對(duì)于微博評(píng)論“疫情期間大家要做好防護(hù)措施”,結(jié)巴分詞在精確模式下能夠準(zhǔn)確地分詞為“疫情/期間/大家/要/做好/防護(hù)/措施”,為后續(xù)的分析提供了準(zhǔn)確的基礎(chǔ)。在進(jìn)行中文分詞后,還需要去除停用詞。停用詞是指那些在文本中頻繁出現(xiàn),但本身沒(méi)有實(shí)際語(yǔ)義或?qū)ξ谋局黝}和情感表達(dá)貢獻(xiàn)較小的詞語(yǔ),如“的”“了”“是”“在”“和”等常見(jiàn)的虛詞、助詞和介詞。去除停用詞的主要目的是減少數(shù)據(jù)噪聲,降低文本的維度,提高后續(xù)文本分析的效率和準(zhǔn)確性。在微博評(píng)論中,這些停用詞大量存在,如果不加以去除,會(huì)增加計(jì)算量,干擾模型對(duì)關(guān)鍵信息的提取,影響情感分析和主題提取的效果。在“這個(gè)疫情防控措施是非常有效的,大家一定要遵守”這句話(huà)中,“是”“的”“一定要”等停用詞對(duì)于判斷評(píng)論的情感傾向并沒(méi)有實(shí)質(zhì)性的幫助,去除它們后,能夠使文本更加簡(jiǎn)潔,突出“疫情防控措施”“有效”“遵守”等關(guān)鍵信息,更有利于后續(xù)的分析。本研究構(gòu)建了一個(gè)包含常用停用詞的停用詞表,該停用詞表不僅包含了常見(jiàn)的中文停用詞,還根據(jù)微博評(píng)論數(shù)據(jù)的特點(diǎn),補(bǔ)充了一些在微博評(píng)論中頻繁出現(xiàn)但無(wú)實(shí)際意義的詞匯,如“轉(zhuǎn)發(fā)”“微博”“鏈接”等。在去除停用詞時(shí),通過(guò)遍歷分詞后的詞語(yǔ)列表,將與停用詞表中匹配的詞語(yǔ)刪除,從而得到只包含有實(shí)際語(yǔ)義的詞語(yǔ)的文本。在處理微博評(píng)論“轉(zhuǎn)發(fā)這條微博,了解更多疫情防控信息”時(shí),通過(guò)停用詞表可以去除“轉(zhuǎn)發(fā)”“微博”等停用詞,保留“了解”“疫情防控”“信息”等關(guān)鍵詞語(yǔ),使文本更能體現(xiàn)核心內(nèi)容,為后續(xù)的特征提取和模型訓(xùn)練提供更優(yōu)質(zhì)的數(shù)據(jù)。3.4數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是構(gòu)建準(zhǔn)確的網(wǎng)民情緒識(shí)別模型的關(guān)鍵環(huán)節(jié),其質(zhì)量直接影響模型的性能和分析結(jié)果的可靠性。本研究采用人工標(biāo)注和半自動(dòng)標(biāo)注相結(jié)合的方式對(duì)微博評(píng)論數(shù)據(jù)進(jìn)行處理,以確保標(biāo)注的準(zhǔn)確性和效率。在人工標(biāo)注過(guò)程中,為了保證標(biāo)注結(jié)果的一致性和準(zhǔn)確性,制定了詳細(xì)且明確的標(biāo)注規(guī)則。首先,明確正面情緒包括對(duì)疫情防控工作的贊揚(yáng)、對(duì)醫(yī)護(hù)人員的敬佩、對(duì)生活的樂(lè)觀態(tài)度以及對(duì)未來(lái)的積極期待等;負(fù)面情緒涵蓋對(duì)疫情的恐懼、對(duì)防控措施的不滿(mǎn)、對(duì)物資短缺的擔(dān)憂(yōu)、對(duì)謠言的憤怒以及對(duì)生活不便的抱怨等;中性情緒則是那些客觀陳述疫情事實(shí)、不帶有明顯情感傾向的評(píng)論。對(duì)于評(píng)論“醫(yī)護(hù)人員太偉大了,他們是最美的逆行者”,根據(jù)規(guī)則應(yīng)標(biāo)注為正面情緒;而“疫情什么時(shí)候才能結(jié)束啊,天天被困在家里煩死了”則標(biāo)注為負(fù)面情緒;像“今天新增了[X]例確診病例”這樣單純陳述疫情數(shù)據(jù)的評(píng)論,標(biāo)注為中性情緒。為了確保標(biāo)注的準(zhǔn)確性,選擇了具有豐富自然語(yǔ)言處理知識(shí)和對(duì)疫情相關(guān)背景有深入了解的標(biāo)注人員。在正式標(biāo)注之前,對(duì)標(biāo)注人員進(jìn)行了系統(tǒng)的培訓(xùn),通過(guò)講解標(biāo)注規(guī)則、示例分析以及實(shí)際操作演練等方式,使他們熟悉標(biāo)注流程和標(biāo)準(zhǔn)。在培訓(xùn)過(guò)程中,展示了大量不同類(lèi)型的微博評(píng)論案例,詳細(xì)分析每個(gè)案例的情感傾向和標(biāo)注依據(jù),讓標(biāo)注人員充分理解正面、負(fù)面和中性情緒的具體特征和判斷標(biāo)準(zhǔn)。同時(shí),設(shè)置了答疑環(huán)節(jié),及時(shí)解答標(biāo)注人員在學(xué)習(xí)過(guò)程中遇到的疑問(wèn),確保他們對(duì)標(biāo)注規(guī)則的理解一致。為了進(jìn)一步提高標(biāo)注的一致性,采用了多人標(biāo)注和交叉驗(yàn)證的方法。將微博評(píng)論數(shù)據(jù)隨機(jī)分配給多個(gè)標(biāo)注人員進(jìn)行獨(dú)立標(biāo)注,每個(gè)評(píng)論至少由兩名標(biāo)注人員進(jìn)行標(biāo)注。標(biāo)注完成后,對(duì)不同標(biāo)注人員的標(biāo)注結(jié)果進(jìn)行對(duì)比和分析。如果標(biāo)注結(jié)果一致,則直接采用該標(biāo)注;若出現(xiàn)不一致的情況,由標(biāo)注團(tuán)隊(duì)進(jìn)行集體討論,根據(jù)標(biāo)注規(guī)則和評(píng)論的上下文語(yǔ)境,確定最終的標(biāo)注結(jié)果。對(duì)于一條關(guān)于疫情防控物資分配的評(píng)論,一名標(biāo)注人員標(biāo)注為負(fù)面情緒,認(rèn)為評(píng)論表達(dá)了對(duì)物資分配不公的不滿(mǎn);另一名標(biāo)注人員標(biāo)注為中性情緒,覺(jué)得只是客觀陳述物資分配的情況。此時(shí),標(biāo)注團(tuán)隊(duì)會(huì)仔細(xì)分析評(píng)論內(nèi)容,結(jié)合當(dāng)時(shí)的實(shí)際情況和相關(guān)背景信息,進(jìn)行深入討論,最終確定該評(píng)論的準(zhǔn)確標(biāo)注。半自動(dòng)標(biāo)注方法則是利用預(yù)先訓(xùn)練好的情感分析模型對(duì)微博評(píng)論進(jìn)行初步標(biāo)注,然后由人工進(jìn)行審核和修正。選擇了在大規(guī)模情感分析數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型,該模型在之前的研究中表現(xiàn)出了較高的準(zhǔn)確率和召回率。在使用半自動(dòng)標(biāo)注工具時(shí),將微博評(píng)論數(shù)據(jù)輸入到模型中,模型會(huì)自動(dòng)輸出每個(gè)評(píng)論的情感類(lèi)別(正面、負(fù)面或中性)以及對(duì)應(yīng)的置信度分?jǐn)?shù)。根據(jù)置信度分?jǐn)?shù)對(duì)初步標(biāo)注結(jié)果進(jìn)行篩選,對(duì)于置信度較高(如大于0.8)的標(biāo)注結(jié)果,直接采用;對(duì)于置信度較低(如小于0.5)的評(píng)論,進(jìn)行重點(diǎn)審核和人工修正;而對(duì)于置信度在0.5-0.8之間的評(píng)論,則進(jìn)行隨機(jī)抽樣審核,確保標(biāo)注質(zhì)量。在標(biāo)注過(guò)程中,一致性和準(zhǔn)確性問(wèn)題不可避免。標(biāo)注人員之間對(duì)情感傾向的理解差異可能導(dǎo)致標(biāo)注結(jié)果不一致。不同的標(biāo)注人員可能由于個(gè)人經(jīng)歷、文化背景和情感認(rèn)知的不同,對(duì)同一條評(píng)論的情感判斷存在偏差。對(duì)于一條較為隱晦的評(píng)論,有些標(biāo)注人員可能認(rèn)為表達(dá)了負(fù)面情緒,而另一些標(biāo)注人員可能覺(jué)得是中性情緒。數(shù)據(jù)中的噪聲和歧義也會(huì)影響標(biāo)注的準(zhǔn)確性。微博評(píng)論中常常存在錯(cuò)別字、語(yǔ)法錯(cuò)誤、網(wǎng)絡(luò)用語(yǔ)和縮寫(xiě)詞等,這些因素增加了理解評(píng)論語(yǔ)義的難度,容易導(dǎo)致標(biāo)注錯(cuò)誤?!敖^絕子”這樣的網(wǎng)絡(luò)用語(yǔ),其情感傾向需要根據(jù)上下文和語(yǔ)境來(lái)判斷,若不了解其含義,可能會(huì)標(biāo)注錯(cuò)誤。為了解決這些問(wèn)題,除了加強(qiáng)標(biāo)注人員的培訓(xùn)和采用多人標(biāo)注、交叉驗(yàn)證的方法外,還建立了反饋機(jī)制。標(biāo)注人員在標(biāo)注過(guò)程中,如果遇到難以判斷情感傾向的評(píng)論或?qū)?biāo)注規(guī)則有疑問(wèn),及時(shí)記錄并反饋給標(biāo)注團(tuán)隊(duì)負(fù)責(zé)人。團(tuán)隊(duì)負(fù)責(zé)人組織相關(guān)人員進(jìn)行討論,根據(jù)具體情況對(duì)標(biāo)注規(guī)則進(jìn)行細(xì)化和補(bǔ)充,或者提供更明確的標(biāo)注指導(dǎo)。針對(duì)一些容易引起歧義的網(wǎng)絡(luò)用語(yǔ)和新詞匯,專(zhuān)門(mén)建立了詞匯表,并對(duì)其情感傾向進(jìn)行標(biāo)注和說(shuō)明,方便標(biāo)注人員參考。通過(guò)以上人工標(biāo)注和半自動(dòng)標(biāo)注相結(jié)合的方法以及對(duì)一致性和準(zhǔn)確性問(wèn)題的有效解決,本研究獲得了高質(zhì)量的標(biāo)注數(shù)據(jù),為后續(xù)的網(wǎng)民情緒識(shí)別模型訓(xùn)練和分析奠定了堅(jiān)實(shí)的基礎(chǔ)。四、網(wǎng)民情緒識(shí)別模型構(gòu)建與選擇4.1傳統(tǒng)機(jī)器學(xué)習(xí)模型在網(wǎng)民情緒識(shí)別任務(wù)中,傳統(tǒng)機(jī)器學(xué)習(xí)模型憑借其成熟的理論和算法,在早期的研究中發(fā)揮了重要作用。本部分將詳細(xì)介紹樸素貝葉斯、支持向量機(jī)等傳統(tǒng)模型的原理,并深入分析它們?cè)诰W(wǎng)民情緒識(shí)別中的應(yīng)用,同時(shí)探討模型的參數(shù)調(diào)整和評(píng)估方法。樸素貝葉斯(NaiveBayes)模型是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類(lèi)方法。貝葉斯定理的核心思想是通過(guò)已知的先驗(yàn)概率和條件概率來(lái)計(jì)算后驗(yàn)概率。在文本分類(lèi)中,先驗(yàn)概率表示某個(gè)類(lèi)別在訓(xùn)練數(shù)據(jù)集中出現(xiàn)的概率,條件概率則表示在某個(gè)類(lèi)別下,某個(gè)特征(如某個(gè)詞語(yǔ))出現(xiàn)的概率。對(duì)于一篇微博評(píng)論,我們要判斷它是正面、負(fù)面還是中性情緒,樸素貝葉斯模型會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中不同情緒類(lèi)別下各個(gè)詞語(yǔ)出現(xiàn)的概率,以及這些情緒類(lèi)別在訓(xùn)練數(shù)據(jù)中的先驗(yàn)概率,來(lái)計(jì)算該評(píng)論屬于每個(gè)情緒類(lèi)別的后驗(yàn)概率,最終將評(píng)論分類(lèi)為后驗(yàn)概率最大的類(lèi)別。假設(shè)我們有一個(gè)訓(xùn)練數(shù)據(jù)集,其中包含了大量標(biāo)注好情緒類(lèi)別的微博評(píng)論。對(duì)于一個(gè)新的未標(biāo)注評(píng)論,我們可以使用以下公式來(lái)計(jì)算它屬于某個(gè)情緒類(lèi)別C的后驗(yàn)概率P(C|D):P(C|D)=\frac{P(D|C)P(C)}{P(D)}其中,P(D|C)是在情緒類(lèi)別C下,評(píng)論D出現(xiàn)的概率,由于特征條件獨(dú)立假設(shè),它可以表示為評(píng)論中各個(gè)詞語(yǔ)在該情緒類(lèi)別下出現(xiàn)概率的乘積;P(C)是情緒類(lèi)別C的先驗(yàn)概率;P(D)是評(píng)論D出現(xiàn)的概率,對(duì)于所有類(lèi)別來(lái)說(shuō)是相同的,因此在比較不同類(lèi)別后驗(yàn)概率時(shí)可以忽略。樸素貝葉斯模型在文本分類(lèi)任務(wù)中具有計(jì)算效率高、對(duì)訓(xùn)練數(shù)據(jù)量要求相對(duì)較低的優(yōu)點(diǎn)。由于其基于概率計(jì)算,對(duì)于缺失值和噪聲數(shù)據(jù)具有一定的容忍度。在微博評(píng)論數(shù)據(jù)中,可能存在一些不完整的評(píng)論或者包含錯(cuò)誤信息的評(píng)論,樸素貝葉斯模型能夠在一定程度上處理這些情況,仍然給出相對(duì)合理的分類(lèi)結(jié)果。然而,樸素貝葉斯模型的特征條件獨(dú)立假設(shè)在實(shí)際應(yīng)用中往往難以完全滿(mǎn)足,尤其是在自然語(yǔ)言文本中,詞語(yǔ)之間通常存在語(yǔ)義關(guān)聯(lián)和上下文依賴(lài)關(guān)系。在微博評(píng)論“疫情期間醫(yī)護(hù)人員的付出讓我非常感動(dòng),他們是最美的逆行者”中,“醫(yī)護(hù)人員”“付出”“感動(dòng)”“最美的逆行者”這些詞語(yǔ)之間存在明顯的語(yǔ)義關(guān)聯(lián),樸素貝葉斯模型假設(shè)它們相互獨(dú)立,可能會(huì)影響分類(lèi)的準(zhǔn)確性。支持向量機(jī)(SupportVectorMachine,SVM)是一種二分類(lèi)模型,其基本原理是尋找一個(gè)最優(yōu)的分類(lèi)超平面,使得不同類(lèi)別的樣本點(diǎn)到該超平面的距離最大化。在二維空間中,分類(lèi)超平面是一條直線(xiàn);在高維空間中,它是一個(gè)超平面。對(duì)于線(xiàn)性可分的數(shù)據(jù),SVM可以找到一個(gè)唯一的最優(yōu)分類(lèi)超平面。對(duì)于線(xiàn)性不可分的數(shù)據(jù),SVM通過(guò)引入核函數(shù),將低維空間中的數(shù)據(jù)映射到高維空間中,使得數(shù)據(jù)在高維空間中變得線(xiàn)性可分,從而找到分類(lèi)超平面。常用的核函數(shù)有線(xiàn)性核、多項(xiàng)式核、徑向基函數(shù)(RBF)核等。在網(wǎng)民情緒識(shí)別中,我們將微博評(píng)論的特征向量作為輸入,SVM通過(guò)訓(xùn)練找到一個(gè)能夠?qū)⒄媲榫w評(píng)論和負(fù)面情緒評(píng)論(或者中性情緒評(píng)論與其他兩類(lèi)區(qū)分開(kāi))準(zhǔn)確分類(lèi)的超平面。對(duì)于一個(gè)新的微博評(píng)論,根據(jù)其特征向量與超平面的位置關(guān)系,判斷它屬于哪個(gè)情緒類(lèi)別。SVM的優(yōu)點(diǎn)在于它能夠有效地處理高維數(shù)據(jù),并且在小樣本情況下也能表現(xiàn)出較好的泛化能力。通過(guò)最大化分類(lèi)間隔,SVM對(duì)噪聲和離群點(diǎn)具有較強(qiáng)的魯棒性。在微博評(píng)論數(shù)據(jù)中,可能存在一些異常評(píng)論,SVM能夠在一定程度上避免這些異常數(shù)據(jù)對(duì)分類(lèi)結(jié)果的影響。然而,SVM的訓(xùn)練過(guò)程計(jì)算復(fù)雜度較高,尤其是在處理大規(guī)模數(shù)據(jù)時(shí),訓(xùn)練時(shí)間較長(zhǎng)。SVM對(duì)參數(shù)的選擇非常敏感,不同的核函數(shù)和參數(shù)設(shè)置可能會(huì)導(dǎo)致模型性能的巨大差異,需要進(jìn)行大量的實(shí)驗(yàn)來(lái)確定最優(yōu)參數(shù)。在將樸素貝葉斯和支持向量機(jī)應(yīng)用于網(wǎng)民情緒識(shí)別時(shí),需要對(duì)模型進(jìn)行參數(shù)調(diào)整以提高性能。對(duì)于樸素貝葉斯模型,主要調(diào)整的參數(shù)是平滑參數(shù),常用的平滑方法有拉普拉斯平滑和Lidstone平滑。平滑參數(shù)的作用是防止在計(jì)算條件概率時(shí)出現(xiàn)概率為0的情況,從而避免模型在預(yù)測(cè)時(shí)出現(xiàn)錯(cuò)誤。通過(guò)調(diào)整平滑參數(shù)的值,可以?xún)?yōu)化模型的性能。對(duì)于支持向量機(jī),需要調(diào)整的參數(shù)包括核函數(shù)類(lèi)型、懲罰參數(shù)C等。核函數(shù)類(lèi)型的選擇決定了數(shù)據(jù)在高維空間中的映射方式,不同的核函數(shù)適用于不同類(lèi)型的數(shù)據(jù)。懲罰參數(shù)C控制了對(duì)錯(cuò)誤分類(lèi)樣本的懲罰程度,C值越大,對(duì)錯(cuò)誤分類(lèi)的懲罰越重,模型越容易過(guò)擬合;C值越小,模型的復(fù)雜度越低,但可能會(huì)導(dǎo)致分類(lèi)準(zhǔn)確率下降。在實(shí)驗(yàn)中,可以通過(guò)交叉驗(yàn)證的方法,嘗試不同的核函數(shù)和C值,選擇性能最優(yōu)的參數(shù)組合。模型評(píng)估是選擇合適模型的關(guān)鍵環(huán)節(jié)。在網(wǎng)民情緒識(shí)別中,常用的評(píng)估指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值等。準(zhǔn)確率是指模型正確分類(lèi)的樣本數(shù)占總樣本數(shù)的比例,它反映了模型的整體分類(lèi)準(zhǔn)確性。精確率是指模型預(yù)測(cè)為某一類(lèi)別的樣本中,實(shí)際屬于該類(lèi)別的樣本數(shù)占預(yù)測(cè)為該類(lèi)別的樣本數(shù)的比例,它衡量了模型對(duì)某一類(lèi)別的預(yù)測(cè)準(zhǔn)確性。召回率是指實(shí)際屬于某一類(lèi)別的樣本中,被模型正確預(yù)測(cè)為該類(lèi)別的樣本數(shù)占實(shí)際屬于該類(lèi)別的樣本數(shù)的比例,它反映了模型對(duì)某一類(lèi)別的覆蓋能力。F1值則是精確率和召回率的調(diào)和平均值,綜合考慮了兩者的表現(xiàn),能夠更全面地評(píng)估模型的性能。Accuracy=\frac{TP+TN}{TP+TN+FP+FN}Precision=\frac{TP}{TP+FP}Recall=\frac{TP}{TP+FN}F1=\frac{2\timesPrecision\timesRecall}{Precision+Recall}其中,TP(TruePositive)表示真正例,即實(shí)際為正類(lèi)且被模型預(yù)測(cè)為正類(lèi)的樣本數(shù);TN(TrueNegative)表示真負(fù)例,即實(shí)際為負(fù)類(lèi)且被模型預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù);FP(FalsePositive)表示假正例,即實(shí)際為負(fù)類(lèi)但被模型預(yù)測(cè)為正類(lèi)的樣本數(shù);FN(FalseNegative)表示假負(fù)例,即實(shí)際為正類(lèi)但被模型預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù)。在實(shí)際應(yīng)用中,根據(jù)具體的需求和場(chǎng)景,可能會(huì)更關(guān)注某個(gè)評(píng)估指標(biāo)。如果我們更關(guān)注模型對(duì)負(fù)面情緒評(píng)論的識(shí)別能力,那么召回率可能是一個(gè)更重要的指標(biāo);如果我們希望模型在整體分類(lèi)準(zhǔn)確性和對(duì)正類(lèi)樣本的預(yù)測(cè)準(zhǔn)確性之間取得平衡,F(xiàn)1值則是一個(gè)更合適的評(píng)估指標(biāo)。通過(guò)對(duì)不同模型在相同測(cè)試數(shù)據(jù)集上的評(píng)估指標(biāo)進(jìn)行比較,可以選擇出最適合網(wǎng)民情緒識(shí)別任務(wù)的傳統(tǒng)機(jī)器學(xué)習(xí)模型。4.2深度學(xué)習(xí)模型隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型在自然語(yǔ)言處理領(lǐng)域展現(xiàn)出強(qiáng)大的優(yōu)勢(shì),為網(wǎng)民情緒識(shí)別提供了更有效的解決方案。本部分將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型的原理及其在情緒識(shí)別中的獨(dú)特優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)最初主要應(yīng)用于圖像識(shí)別領(lǐng)域,近年來(lái)在文本情感分析中也取得了顯著成果。其核心原理是通過(guò)卷積層中的卷積核在文本上滑動(dòng),對(duì)局部文本進(jìn)行特征提取。在處理微博評(píng)論“疫情防控措施很給力,點(diǎn)贊!”時(shí),卷積核會(huì)依次掃描每個(gè)詞語(yǔ)組合,提取諸如“疫情防控”“給力”“點(diǎn)贊”等局部特征。這些局部特征能夠反映文本中特定的語(yǔ)義片段,對(duì)于判斷文本的情感傾向具有重要作用。通過(guò)多個(gè)卷積層和池化層的組合,CNN可以自動(dòng)學(xué)習(xí)到文本的層次化特征,從低級(jí)的詞匯特征逐步抽象到高級(jí)的語(yǔ)義特征。池化層的作用是對(duì)卷積層輸出的特征圖進(jìn)行降維,減少計(jì)算量的同時(shí)保留重要的特征信息,提高模型的泛化能力。CNN在情緒識(shí)別中具有諸多優(yōu)勢(shì)。它能夠自動(dòng)提取文本特征,無(wú)需像傳統(tǒng)機(jī)器學(xué)習(xí)方法那樣進(jìn)行復(fù)雜的人工特征工程。這大大減少了人工干預(yù),提高了特征提取的效率和準(zhǔn)確性。CNN對(duì)文本中的局部特征敏感,能夠快速捕捉到關(guān)鍵的情感詞匯和短語(yǔ),對(duì)于表達(dá)情感較為直接的微博評(píng)論,能夠準(zhǔn)確判斷其情緒傾向。CNN在大規(guī)模數(shù)據(jù)上的訓(xùn)練效果良好,隨著訓(xùn)練數(shù)據(jù)量的增加,模型的性能能夠得到顯著提升,這使得它非常適合處理海量的微博評(píng)論數(shù)據(jù)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一種專(zhuān)門(mén)用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),在自然語(yǔ)言處理任務(wù)中具有重要地位。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同,RNN具有循環(huán)結(jié)構(gòu),能夠在不同時(shí)間步上共享參數(shù),從而處理序列中的長(zhǎng)期依賴(lài)關(guān)系。在微博評(píng)論情緒識(shí)別中,RNN可以依次處理評(píng)論中的每個(gè)詞語(yǔ),根據(jù)當(dāng)前詞語(yǔ)和之前詞語(yǔ)的信息來(lái)更新隱藏狀態(tài),進(jìn)而判斷整個(gè)評(píng)論的情感傾向。對(duì)于評(píng)論“雖然疫情給生活帶來(lái)了很多不便,但是大家都在積極應(yīng)對(duì),相信很快就能戰(zhàn)勝疫情”,RNN能夠記住“疫情帶來(lái)不便”的負(fù)面信息以及“積極應(yīng)對(duì)”“相信戰(zhàn)勝疫情”的正面信息,綜合判斷出該評(píng)論的情感傾向?yàn)榉e極。然而,傳統(tǒng)RNN在處理長(zhǎng)距離依賴(lài)關(guān)系時(shí)存在梯度消失或梯度爆炸的問(wèn)題,導(dǎo)致其在實(shí)際應(yīng)用中受到一定限制。為了解決這一問(wèn)題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)應(yīng)運(yùn)而生。LSTM是RNN的一種變體,通過(guò)引入門(mén)控機(jī)制來(lái)控制信息的傳遞。具體來(lái)說(shuō),LSTM包含輸入門(mén)、遺忘門(mén)和輸出門(mén)。輸入門(mén)決定當(dāng)前輸入信息的保留程度,遺忘門(mén)控制上一時(shí)刻記憶信息的保留或遺忘,輸出門(mén)確定輸出的信息。這種門(mén)控機(jī)制使得LSTM能夠有效地處理長(zhǎng)距離依賴(lài)關(guān)系,記住重要的信息,同時(shí)忽略無(wú)關(guān)信息。在處理長(zhǎng)微博評(píng)論時(shí),LSTM能夠準(zhǔn)確捕捉到文本中不同部分之間的語(yǔ)義關(guān)聯(lián),從而更準(zhǔn)確地判斷情緒。LSTM在網(wǎng)民情緒識(shí)別中表現(xiàn)出明顯的優(yōu)勢(shì)。它能夠充分利用文本的上下文信息,對(duì)于語(yǔ)義復(fù)雜、情感表達(dá)隱晦的微博評(píng)論,LSTM可以通過(guò)對(duì)上下文的分析,準(zhǔn)確理解文本的情感含義。LSTM對(duì)時(shí)間序列數(shù)據(jù)的處理能力使其能夠捕捉到網(wǎng)民情緒隨時(shí)間的變化趨勢(shì),在分析疫情不同階段的微博評(píng)論時(shí),可以發(fā)現(xiàn)網(wǎng)民情緒的動(dòng)態(tài)變化,為研究疫情對(duì)網(wǎng)民情緒的長(zhǎng)期影響提供有力支持。LSTM的模型結(jié)構(gòu)相對(duì)靈活,可以根據(jù)任務(wù)需求進(jìn)行調(diào)整和擴(kuò)展,例如在LSTM的基礎(chǔ)上添加注意力機(jī)制,能夠進(jìn)一步提高模型對(duì)關(guān)鍵信息的關(guān)注,提升情緒識(shí)別的準(zhǔn)確性。4.3模型改進(jìn)與優(yōu)化在網(wǎng)民情緒識(shí)別任務(wù)中,無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)模型還是深度學(xué)習(xí)模型,都存在一定的局限性,需要進(jìn)行改進(jìn)與優(yōu)化,以提高模型的性能和準(zhǔn)確性。對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)模型,改進(jìn)特征權(quán)重算法是提升其性能的關(guān)鍵途徑之一。以TF-IDF算法為例,雖然它在衡量詞語(yǔ)重要性方面具有一定的優(yōu)勢(shì),但在微博評(píng)論這種復(fù)雜的文本環(huán)境中,仍存在一些不足。為了改進(jìn)TF-IDF算法,可以引入詞語(yǔ)的位置信息。在微博評(píng)論中,開(kāi)頭和結(jié)尾的詞語(yǔ)往往更能表達(dá)核心觀點(diǎn)和情感傾向,因此可以為這些位置的詞語(yǔ)賦予更高的權(quán)重。對(duì)于評(píng)論“疫情防控措施很到位,點(diǎn)贊!大家也要積極配合”,“點(diǎn)贊”和“積極配合”出現(xiàn)在評(píng)論結(jié)尾,更能體現(xiàn)正面情緒,通過(guò)位置加權(quán)可以突出這些詞語(yǔ)的重要性??紤]詞語(yǔ)的語(yǔ)義相關(guān)性也是改進(jìn)算法的重要方向。利用詞向量模型(如Word2Vec或GloVe)計(jì)算詞語(yǔ)之間的語(yǔ)義相似度,對(duì)于與情感關(guān)鍵詞語(yǔ)義相近的詞語(yǔ),適當(dāng)增加其權(quán)重,從而更全面地捕捉文本中的情感信息。在評(píng)論“醫(yī)護(hù)人員太辛苦了,他們是最美的逆行者,向他們致敬”中,“最美的逆行者”與“醫(yī)護(hù)人員”語(yǔ)義相關(guān),且都表達(dá)了正面情感,通過(guò)語(yǔ)義相關(guān)性加權(quán)可以增強(qiáng)這些詞語(yǔ)對(duì)情感判斷的影響。引入領(lǐng)域自適應(yīng)技術(shù)也是優(yōu)化傳統(tǒng)機(jī)器學(xué)習(xí)模型的有效方法。在新冠肺炎疫情這一特定領(lǐng)域,微博評(píng)論中存在大量專(zhuān)業(yè)術(shù)語(yǔ)和領(lǐng)域特定詞匯,如“核酸檢測(cè)”“方艙醫(yī)院”“清零政策”等。傳統(tǒng)機(jī)器學(xué)習(xí)模型在處理這些領(lǐng)域特定數(shù)據(jù)時(shí),可能由于缺乏對(duì)領(lǐng)域知識(shí)的理解而導(dǎo)致性能下降。通過(guò)領(lǐng)域自適應(yīng)技術(shù),可以將在大規(guī)模通用語(yǔ)料庫(kù)上訓(xùn)練的模型,遷移到疫情領(lǐng)域的微博評(píng)論數(shù)據(jù)上進(jìn)行微調(diào)??梢韵仍谕ㄓ玫奈谋痉诸?lèi)數(shù)據(jù)集上訓(xùn)練樸素貝葉斯或支持向量機(jī)模型,然后利用少量標(biāo)注的疫情相關(guān)微博評(píng)論數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),使模型能夠更好地適應(yīng)疫情領(lǐng)域的語(yǔ)言特點(diǎn)和情感表達(dá)模式,提高在該領(lǐng)域的情緒識(shí)別準(zhǔn)確率。在深度學(xué)習(xí)模型方面,引入注意力機(jī)制是提升模型性能的重要手段。以L(fǎng)STM模型為例,在處理長(zhǎng)微博評(píng)論時(shí),雖然LSTM能夠捕捉上下文依賴(lài)關(guān)系,但對(duì)于文本中的關(guān)鍵信息,其關(guān)注程度可能不夠。注意力機(jī)制可以使模型在處理文本時(shí),自動(dòng)關(guān)注與情感表達(dá)密切相關(guān)的部分,為不同的詞語(yǔ)或句子片段分配不同的權(quán)重。在評(píng)論“雖然疫情期間生活有諸多不便,但是醫(yī)護(hù)人員的無(wú)私奉獻(xiàn)讓我看到了希望,相信疫情很快就會(huì)過(guò)去”中,注意力機(jī)制能夠讓模型更關(guān)注“醫(yī)護(hù)人員的無(wú)私奉獻(xiàn)”和“看到了希望”等表達(dá)積極情感的關(guān)鍵部分,從而更準(zhǔn)確地判斷評(píng)論的情感傾向。通過(guò)計(jì)算注意力權(quán)重,模型可以聚焦于對(duì)情感判斷最重要的信息,忽略無(wú)關(guān)或干擾信息,提高情緒識(shí)別的準(zhǔn)確性。優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)也是改進(jìn)深度學(xué)習(xí)模型的關(guān)鍵。可以嘗試在LSTM模型的基礎(chǔ)上,添加卷積層來(lái)提取文本的局部特征。卷積層能夠快速捕捉文本中的關(guān)鍵短語(yǔ)和情感詞匯,與LSTM的長(zhǎng)距離依賴(lài)捕捉能力相結(jié)合,能夠更全面地挖掘文本的情感信息。在處理微博評(píng)論時(shí),卷積層可以先提取出諸如“疫情嚴(yán)重”“防控得力”等局部情感特征,然后將這些特征輸入到LSTM中,進(jìn)一步結(jié)合上下文信息進(jìn)行情感分析,從而提高模型對(duì)復(fù)雜情感表達(dá)的處理能力。調(diào)整網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)量也是優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的重要方面。通過(guò)實(shí)驗(yàn)不同的網(wǎng)絡(luò)深度和寬度,找到最適合微博評(píng)論情緒識(shí)別任務(wù)的模型結(jié)構(gòu),在保證模型能夠充分學(xué)習(xí)到數(shù)據(jù)特征的同時(shí),避免過(guò)擬合和計(jì)算資源的浪費(fèi)。此外,為了提高深度學(xué)習(xí)模型的訓(xùn)練效率和穩(wěn)定性,可以采用更先進(jìn)的優(yōu)化算法,如AdamW、Adagrad、Adadelta等。這些優(yōu)化算法在學(xué)習(xí)率調(diào)整、參數(shù)更新等方面具有更好的性能,能夠加快模型的收斂速度,提高訓(xùn)練的穩(wěn)定性。AdamW算法在Adam算法的基礎(chǔ)上,改進(jìn)了權(quán)重衰減策略,能夠更好地防止過(guò)擬合,使模型在訓(xùn)練過(guò)程中更快地找到最優(yōu)解,提升模型的性能和泛化能力。4.4模型對(duì)比與選擇為了確定最適合新冠肺炎疫情期間網(wǎng)民情緒識(shí)別的模型,本研究對(duì)多種傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型進(jìn)行了全面對(duì)比。實(shí)驗(yàn)環(huán)境方面,硬件采用了配備IntelCorei7處理器、32GB內(nèi)存和NVIDIAGeForceRTX3080GPU的計(jì)算機(jī),以提供強(qiáng)大的計(jì)算能力,確保模型訓(xùn)練和測(cè)試的高效運(yùn)行。軟件上,使用Python作為主要編程語(yǔ)言,并借助TensorFlow和PyTorch深度學(xué)習(xí)框架搭建模型,利用Scikit-learn庫(kù)實(shí)現(xiàn)傳統(tǒng)機(jī)器學(xué)習(xí)模型及相關(guān)的數(shù)據(jù)處理和評(píng)估功能。在實(shí)驗(yàn)過(guò)程中,將預(yù)處理后的微博評(píng)論數(shù)據(jù)按照70%訓(xùn)練集、15%驗(yàn)證集和15%測(cè)試集的比例進(jìn)行劃分。訓(xùn)練集用于模型的訓(xùn)練,驗(yàn)證集用于調(diào)整模型的超參數(shù),以防止過(guò)擬合,測(cè)試集則用于評(píng)估模型的最終性能。在訓(xùn)練過(guò)程中,對(duì)每個(gè)模型都進(jìn)行了多輪訓(xùn)練,并記錄模型在驗(yàn)證集上的性能表現(xiàn),選擇性能最佳的模型進(jìn)行最終測(cè)試。不同模型在準(zhǔn)確率、召回率、F1值等指標(biāo)上的表現(xiàn)差異顯著。在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,樸素貝葉斯模型的訓(xùn)練時(shí)間最短,僅需[X]秒,但在測(cè)試集上的準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%。這主要是因?yàn)闃闼刎惾~斯模型基于特征條件獨(dú)立假設(shè),雖然計(jì)算簡(jiǎn)單,但在處理微博評(píng)論這種詞語(yǔ)之間語(yǔ)義關(guān)聯(lián)復(fù)雜的數(shù)據(jù)時(shí),假設(shè)往往不成立,導(dǎo)致分類(lèi)準(zhǔn)確性受限。支持向量機(jī)模型在參數(shù)調(diào)優(yōu)后,準(zhǔn)確率達(dá)到了[X]%,召回率為[X]%,F(xiàn)1值為[X]%,表現(xiàn)優(yōu)于樸素貝葉斯模型。不過(guò),其訓(xùn)練時(shí)間較長(zhǎng),達(dá)到了[X]秒,這是由于支持向量機(jī)在尋找最優(yōu)分類(lèi)超平面時(shí),計(jì)算復(fù)雜度較高,尤其是在處理大規(guī)模數(shù)據(jù)時(shí),需要耗費(fèi)大量的時(shí)間和計(jì)算資源。深度學(xué)習(xí)模型方面,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理微博評(píng)論數(shù)據(jù)時(shí),準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%。CNN能夠自動(dòng)提取文本的局部特征,對(duì)于一些具有明顯局部情感特征的評(píng)論能夠準(zhǔn)確分類(lèi),但對(duì)于長(zhǎng)文本的語(yǔ)義理解和上下文依賴(lài)關(guān)系的捕捉能力相對(duì)較弱,影響了其在整體數(shù)據(jù)上的性能表現(xiàn)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)由于存在梯度消失和梯度爆炸問(wèn)題,在處理長(zhǎng)微博評(píng)論時(shí)效果不佳,準(zhǔn)確率僅為[X]%,召回率為[X]%,F(xiàn)1值為[X]%。而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)通過(guò)引入門(mén)控機(jī)制,有效解決了RNN的問(wèn)題,在測(cè)試集上的準(zhǔn)確率達(dá)到了[X]%,召回率為[X]%,F(xiàn)1值為[X]%,在深度學(xué)習(xí)模型中表現(xiàn)較為出色。LSTM能夠充分利用文本的上下文信息,對(duì)于語(yǔ)義復(fù)雜、情感表達(dá)隱晦的微博評(píng)論,能夠準(zhǔn)確判斷其情感傾向。通過(guò)對(duì)不同模型在各項(xiàng)指標(biāo)上的表現(xiàn)進(jìn)行綜合對(duì)比,本研究選擇LSTM模型作為新冠肺炎疫情期間網(wǎng)民情緒識(shí)別的最優(yōu)模型。LSTM模型在準(zhǔn)確率、召回率和F1值等關(guān)鍵指標(biāo)上均表現(xiàn)出色,能夠更準(zhǔn)確地識(shí)別微博評(píng)論中的網(wǎng)民情緒。雖然LSTM模型的訓(xùn)練時(shí)間相對(duì)較長(zhǎng),達(dá)到了[X]秒,但在當(dāng)今計(jì)算資源日益強(qiáng)大的背景下,其性能優(yōu)勢(shì)更為突出。在實(shí)際應(yīng)用中,準(zhǔn)確的情緒識(shí)別對(duì)于及時(shí)了解公眾情緒、制定合理的政策具有重要意義,因此LSTM模型在網(wǎng)民情緒識(shí)別任務(wù)中具有更高的應(yīng)用價(jià)值。五、基于微博評(píng)論數(shù)據(jù)的網(wǎng)民情緒識(shí)別實(shí)證分析5.1實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)劃分為了全面、準(zhǔn)確地評(píng)估模型在新冠肺炎疫情期間網(wǎng)民情緒識(shí)別任務(wù)中的性能,本研究精心設(shè)計(jì)了實(shí)驗(yàn)方案,并對(duì)數(shù)據(jù)進(jìn)行了科學(xué)合理的劃分。在數(shù)據(jù)劃分方面,將經(jīng)過(guò)預(yù)處理和標(biāo)注后的微博評(píng)論數(shù)據(jù)按照70%、15%、15%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于模型的訓(xùn)練,讓模型學(xué)習(xí)微博評(píng)論數(shù)據(jù)中的特征和模式,以掌握不同情緒類(lèi)型的表達(dá)方式和特點(diǎn)。驗(yàn)證集則在模型訓(xùn)練過(guò)程中發(fā)揮著重要的作用,用于調(diào)整模型的超參數(shù),如學(xué)習(xí)率、隱藏層神經(jīng)元數(shù)量、正則化參數(shù)等。通過(guò)在驗(yàn)證集上評(píng)估模型的性能,觀察模型在不同超參數(shù)設(shè)置下的表現(xiàn),選擇使模型在驗(yàn)證集上性能最優(yōu)的超參數(shù)組合,從而防止模型過(guò)擬合,提高模型的泛化能力。測(cè)試集則用于評(píng)估模型的最終性能,在模型訓(xùn)練完成后,使用測(cè)試集對(duì)模型進(jìn)行測(cè)試,得到模型在未見(jiàn)過(guò)的數(shù)據(jù)上的準(zhǔn)確率、召回率、F1值等評(píng)估指標(biāo),這些指標(biāo)能夠真實(shí)反映模型在實(shí)際應(yīng)用中的表現(xiàn)。實(shí)驗(yàn)評(píng)估指標(biāo)選擇了準(zhǔn)確率、召回率、精確率和F1值。準(zhǔn)確率是指模型正確分類(lèi)的樣本數(shù)占總樣本數(shù)的比例,反映了模型的整體分類(lèi)準(zhǔn)確性,其計(jì)算公式為:Accuracy=\frac{TP+TN}{TP+TN+FP+FN}其中,TP(TruePositive)表示真正例,即實(shí)際為正類(lèi)且被模型預(yù)測(cè)為正類(lèi)的樣本數(shù);TN(TrueNegative)表示真負(fù)例,即實(shí)際為負(fù)類(lèi)且被模型預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù);FP(FalsePositive)表示假正例,即實(shí)際為負(fù)類(lèi)但被模型預(yù)測(cè)為正類(lèi)的樣本數(shù);FN(FalseNegative)表示假負(fù)例,即實(shí)際為正類(lèi)但被模型預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù)。召回率是指實(shí)際屬于某一類(lèi)別的樣本中,被模型正確預(yù)測(cè)為該類(lèi)別的樣本數(shù)占實(shí)際屬于該類(lèi)別的樣本數(shù)的比例,反映了模型對(duì)某一類(lèi)別的覆蓋能力,計(jì)算公式為:Recall=\frac{TP}{TP+FN}精確率是指模型預(yù)測(cè)為某一類(lèi)別的樣本中,實(shí)際屬于該類(lèi)別的樣本數(shù)占預(yù)測(cè)為該類(lèi)別的樣本數(shù)的比例,衡量了模型對(duì)某一類(lèi)別的預(yù)測(cè)準(zhǔn)確性,公式為:Precision=\frac{TP}{TP+FP}F1值則是精確率和召回率的調(diào)和平均值,綜合考慮了兩者的表現(xiàn),能夠更全面地評(píng)估模型的性能,其計(jì)算公式為:F1=\frac{2\timesPrecision\timesRecall}{Precision+Recall}實(shí)驗(yàn)環(huán)境配置為:硬件上采用配備IntelCorei9-12900K處理器、64GB內(nèi)存和NVIDIAGeForceRTX3090TiGPU的高性能計(jì)算機(jī),為模型訓(xùn)練和測(cè)試提供強(qiáng)大的計(jì)算支持,確保實(shí)驗(yàn)?zāi)軌蚋咝?、穩(wěn)定地進(jìn)行。軟件方面,使用Python3.9作為主要編程語(yǔ)言,借助TensorFlow2.8深度學(xué)習(xí)框架搭建深度學(xué)習(xí)模型,利用Scikit-learn1.1.2庫(kù)實(shí)現(xiàn)傳統(tǒng)機(jī)器學(xué)習(xí)模型及相關(guān)的數(shù)據(jù)處理和評(píng)估功能。此外,還使用了JupyterNotebook作為代碼編寫(xiě)和實(shí)驗(yàn)結(jié)果展示的平臺(tái),方便進(jìn)行代碼調(diào)試、數(shù)據(jù)分析和結(jié)果可視化。5.2模型訓(xùn)練與結(jié)果分析在完成實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)劃分后,進(jìn)入模型訓(xùn)練階段。以L(fǎng)STM模型為例,在訓(xùn)練過(guò)程中,設(shè)置初始學(xué)習(xí)率為0.001,采用Adam優(yōu)化器對(duì)模型參數(shù)進(jìn)行更新。Adam優(yōu)化器結(jié)合了Adagrad和Adadelta兩種優(yōu)化算法的優(yōu)點(diǎn),能夠自適應(yīng)地調(diào)整學(xué)習(xí)率,在訓(xùn)練過(guò)程中,根據(jù)驗(yàn)證集的性能表現(xiàn),當(dāng)模型在驗(yàn)證集上的準(zhǔn)確率連續(xù)[X]個(gè)epoch沒(méi)有提升時(shí),將學(xué)習(xí)率降低為原來(lái)的0.1倍,以避免模型陷入局部最優(yōu)解,提高模型的收斂速度和訓(xùn)練穩(wěn)定性。模型訓(xùn)練了[X]個(gè)epoch,每個(gè)epoch的訓(xùn)練時(shí)間約為[X]分鐘。隨著訓(xùn)練的進(jìn)行,模型在訓(xùn)練集上的損失逐漸下降,準(zhǔn)確率不斷提高,在第[X]個(gè)epoch左右,模型的損失趨于穩(wěn)定,準(zhǔn)確率達(dá)到了較高水平,表明模型已經(jīng)基本收斂。在測(cè)試集上,對(duì)訓(xùn)練好的LSTM模型進(jìn)行性能評(píng)估,同時(shí)與其他對(duì)比模型(如樸素貝葉斯、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等)進(jìn)行對(duì)比分析。LSTM模型在測(cè)試集上的準(zhǔn)確率達(dá)到了[X]%,召回率為[X]%,F(xiàn)1值為[X]%。樸素貝葉斯模型的準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%;支持向量機(jī)模型準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%;卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%。通過(guò)對(duì)比可以看出,LSTM模型在各項(xiàng)指標(biāo)上均優(yōu)于其他對(duì)比模型。在召回率方面,LSTM模型比樸素貝葉斯模型高出[X]個(gè)百分點(diǎn),這意味著LSTM模型能夠更全面地識(shí)別出真實(shí)的情緒類(lèi)別,減少漏判的情況;在F1值上,LSTM模型比支持向量機(jī)模型高出[X]個(gè)百分點(diǎn),綜合性能更為出色。與改進(jìn)前的模型相比,經(jīng)過(guò)改進(jìn)和優(yōu)化后的LSTM模型性能有了顯著提升。改進(jìn)前的LSTM模型在測(cè)試集上的準(zhǔn)確率為[X]%,召回率為[X]%,F(xiàn)1值為[X]%。改進(jìn)后,通過(guò)引入注意力機(jī)制,模型能夠更聚焦于文本中關(guān)鍵的情感信息,準(zhǔn)確率提高了[X]個(gè)百分點(diǎn);優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),添加卷積層與LSTM層結(jié)合,使得模型對(duì)文本特征的提取更加全面,召回率提升了[X]個(gè)百分點(diǎn);采用AdamW優(yōu)化算法,有效防止了過(guò)擬合,F(xiàn)1值提高了[X]個(gè)百分點(diǎn)。這些改進(jìn)措施使得模型在面對(duì)復(fù)雜的微博評(píng)論數(shù)據(jù)時(shí),能夠更準(zhǔn)確地識(shí)別網(wǎng)民情緒,為后續(xù)的輿情分析提供了更可靠的支持。5.3網(wǎng)民情緒分布特征通過(guò)對(duì)標(biāo)注后的微博評(píng)論數(shù)據(jù)進(jìn)行深入分析,全面呈現(xiàn)新冠肺炎疫情期間網(wǎng)民情緒的總體分布情況。在總共[X]條微博評(píng)論中,正面情緒的評(píng)論有[X]條,占比[X]%;負(fù)面情緒的評(píng)論為[X]條,占比[X]%;中性情緒的評(píng)論數(shù)量為[X]條,占比[X]%。由此可見(jiàn),在疫情期間,負(fù)面情緒的評(píng)論占比相對(duì)較高,這反映出疫情給網(wǎng)民帶來(lái)了較大的心理壓力和負(fù)面情緒影響。在疫情爆發(fā)初期,由于對(duì)病毒的認(rèn)知有限,人們對(duì)疫情的發(fā)展充滿(mǎn)擔(dān)憂(yōu),微博上出現(xiàn)大量表達(dá)恐懼、焦慮等負(fù)面情緒的評(píng)論?!耙咔檫@么嚴(yán)重,什么時(shí)候才能結(jié)束啊,真的好害怕”“口罩都買(mǎi)不到,這可怎么辦”等評(píng)論體現(xiàn)了網(wǎng)民對(duì)疫情的恐慌和對(duì)生活物資短缺的擔(dān)憂(yōu)。將疫情發(fā)展劃分為不同階段,深入探討各階段網(wǎng)民情緒的變化規(guī)律。在疫情爆發(fā)初期(2019年12月-2020年2月),負(fù)面情緒占比高達(dá)[X]%,主要表現(xiàn)為對(duì)病毒傳播的恐懼、對(duì)醫(yī)療資源短缺的擔(dān)憂(yōu)以及對(duì)生活秩序被打亂的焦慮?!懊刻炜吹叫略龃_診病例數(shù)不斷上升,心里真的很慌,感覺(jué)生活充滿(mǎn)了不確定性”“醫(yī)院人滿(mǎn)為患,擔(dān)心自己和家人感染了卻得不到及時(shí)救治”等評(píng)論反映出當(dāng)時(shí)網(wǎng)民的心理狀態(tài)。這一階段,疫情的突然爆發(fā)和快速傳播超出了人們的預(yù)期,信息的不確定性加劇了網(wǎng)民的恐慌情緒。隨著疫情防控措施的逐步加強(qiáng)(2020年3月-2020年6月),負(fù)面情緒占比有所下降,降至[X]%,正面情緒占比上升至[X]%。在這個(gè)階段,政府采取了一系列嚴(yán)格的防控措施,如封城、隔離、大規(guī)模核酸檢測(cè)等,這些措施有效控制了疫情的傳播,讓網(wǎng)民看到了疫情得到控制的希望。同時(shí),醫(yī)護(hù)人員的英勇奮戰(zhàn)、社會(huì)各界的愛(ài)心捐贈(zèng)和志愿者的無(wú)私奉獻(xiàn)也激發(fā)了網(wǎng)民的正面情緒?!翱吹结t(yī)護(hù)人員不顧自身安危,奮戰(zhàn)在抗疫一線(xiàn),真的很感動(dòng),他們是最美的逆行者”“全國(guó)人民團(tuán)結(jié)一心,共同抗疫,相信我們一定能戰(zhàn)勝疫情”等評(píng)論體現(xiàn)了網(wǎng)民對(duì)防控工作的支持和對(duì)戰(zhàn)勝疫情的信心。在疫情常態(tài)化防控階段(2020年7月-2022年12月),網(wǎng)民情緒逐漸趨于平穩(wěn),正面情緒占比穩(wěn)定在[X]%左右,負(fù)面情緒占比維持在[X]%左右,中性情緒占比相對(duì)較高,達(dá)到[X]%。在這一階段,人們逐漸適應(yīng)了疫情常態(tài)化的生活,對(duì)疫情的恐慌情緒有所緩解,開(kāi)始理性看待疫情。網(wǎng)民的關(guān)注點(diǎn)更多地集中在疫情防控的常態(tài)化措施、疫苗接種、經(jīng)濟(jì)復(fù)蘇等方面?!艾F(xiàn)在疫情防控已經(jīng)常態(tài)化了,我們要做好個(gè)人防護(hù),積極配合各項(xiàng)防控措施”“疫苗接種工作有序推進(jìn),希望疫情能早日結(jié)束,生活能恢復(fù)正?!钡仍u(píng)論反映出網(wǎng)民在這一階段的情緒和關(guān)注點(diǎn)。不同事件對(duì)網(wǎng)民情緒也產(chǎn)生了顯著影響。以“武漢封城”事件為例,該事件發(fā)生后,微博上關(guān)于“武漢封城”話(huà)題的評(píng)論量在短時(shí)間內(nèi)急劇增加,負(fù)面情緒占比達(dá)到[X]%,主要情緒為對(duì)武漢市民的擔(dān)憂(yōu)、對(duì)疫情形勢(shì)的恐懼以及對(duì)封城措施的不理解?!拔錆h封城了,武漢人民太不容易了,真的很擔(dān)心他們”“封城會(huì)不會(huì)影響生活物資供應(yīng)啊,好擔(dān)心”等評(píng)論表達(dá)了網(wǎng)民的擔(dān)憂(yōu)情緒。而在“新冠疫苗研發(fā)成功并開(kāi)始接種”事件中,正面情緒占比高達(dá)[X]%,網(wǎng)民對(duì)疫苗的研發(fā)成功感到欣喜和振奮,對(duì)疫情結(jié)束充滿(mǎn)了期待?!耙呙缃K于研發(fā)成功了,這下看到希望了,相信疫情很快就能結(jié)束”“接種疫苗后感覺(jué)更安心了,感謝科研人員的努力”等評(píng)論體現(xiàn)了網(wǎng)民的積極情緒。5.4情緒影響因素分析在新冠肺炎疫情期間,網(wǎng)民情緒受到多種因素的綜合影響,深入探究這些因素對(duì)于理解網(wǎng)民情緒的產(chǎn)生和變化具有重要意義。本研究從疫情相關(guān)因素、信息傳播因素和社會(huì)心理因素三個(gè)方面進(jìn)行分析,并通過(guò)相關(guān)性分析和回歸分析來(lái)驗(yàn)證假設(shè)。疫情相關(guān)因素對(duì)網(wǎng)民情緒有著直接而顯著的影響。新增確診病例數(shù)、死亡人數(shù)等疫情數(shù)據(jù)的變化與網(wǎng)民負(fù)面情緒呈正相關(guān)。當(dāng)新增確診病例數(shù)持續(xù)上升時(shí),網(wǎng)民的恐慌和擔(dān)憂(yōu)情緒會(huì)加劇。在疫情爆發(fā)初期,湖北省的新增確診病例數(shù)急劇增加

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論