基于文本挖掘的流行病輿情分析-以支原體感染為例_第1頁
基于文本挖掘的流行病輿情分析-以支原體感染為例_第2頁
基于文本挖掘的流行病輿情分析-以支原體感染為例_第3頁
基于文本挖掘的流行病輿情分析-以支原體感染為例_第4頁
基于文本挖掘的流行病輿情分析-以支原體感染為例_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于文本挖掘的輿情分析——以支原體感染為例目錄1緒論51.1研究背景和意義51.2國內(nèi)外研究現(xiàn)狀51.3研究意義71.4研究思路和方法72相關理論概述82.1LDA主題模型的思想及原理82.2TF-IDF算法92.3SnowNLP情感分析概述103支原體感染數(shù)據(jù)分析數(shù)據(jù)預處理與分析103.1數(shù)據(jù)收集103.2數(shù)據(jù)預處理113.3SnowNLP情感分析123.4數(shù)據(jù)可視化154實驗與分析164.1一致性與困惑度計算164.2LDA主題分析194.3實驗結(jié)果和結(jié)論215總結(jié)與展望225.1研究結(jié)論225.2研究展望23參考文獻23致謝24摘要:隨著現(xiàn)代信息技術和互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡逐漸成了人們生活中不可或缺的部分,網(wǎng)絡信息產(chǎn)生了大量的輿情信息,通過輿情分析發(fā)掘有用的信息和價值越來越受到人們的重視。本文以支原體感染為案例,以微博和抖音平臺為數(shù)據(jù)來源,對評論數(shù)據(jù)以輿情的角度出發(fā),使用snowNLP情感分析和LDA模型進行主題提取,發(fā)現(xiàn)民眾對此次事件大多報有積極的態(tài)度。通過文本挖掘進行輿情分析,我們可以深入了解公眾的聲音和情感傾向,及時發(fā)現(xiàn)問題和改進策略,從而更好地滿足公眾需求。關鍵詞:輿情,文本挖掘,情感分析,LDA1緒論研究背景和意義據(jù)報道,截至2020年,抖音(TikTok)的全球月活躍用戶數(shù)超過20億人。微博的月活躍用戶數(shù)約為5億人。隨著互聯(lián)網(wǎng)和社會媒體的快速發(fā)展,個人和組織可以輕松地在網(wǎng)絡上發(fā)布、分享和討論信息。抖音、微博等平臺成為了公眾表達觀點、情感和需求的主要渠道。海量的數(shù)據(jù)為輿情分析提供了豐富的資源,同時也對輿情管理和輿論引導加大了難度在全球化和信息化背景下,面對復雜多變的社會環(huán)境和公眾需求,政府和組織需要更加有效的社會治理手段。輿情分析能夠提供實時的民意監(jiān)測和分析,幫助決策者更好地理解民眾的真實想法,提升政策的適應性和公眾滿意度。國內(nèi)外研究現(xiàn)狀文本挖掘和輿情分析是當前信息技術領域的熱點研究方向之一。國內(nèi)外學者在這方面開展了大量研究,涉及理論、方法和應用等多個方面。國內(nèi)對輿情分析的研究和實踐已經(jīng)取得了顯著的成果,主要表現(xiàn)在以下幾個方面:1.基于深度學習的情感分析模型:中國科學院軟件研究所的研究團隊開發(fā)了一種基于深度學習的情感分析模型,該模型能夠準確地識別和分析社交媒體文本中的情感傾向。這種模型在處理大規(guī)模數(shù)據(jù)時表現(xiàn)出了較高的效率和準確性,為輿情分析提供了強有力的技術支持。2.公共衛(wèi)生事件輿情監(jiān)測系統(tǒng):在COVID-19疫情期間,一些研究機構(gòu)和企業(yè)開發(fā)了專門的輿情監(jiān)測系統(tǒng),用于實時跟蹤和分析與疫情相關的輿情動態(tài)。輿情監(jiān)測系統(tǒng)為衛(wèi)生應急工作提供參考依據(jù),及時掌握媒體相關的動態(tài),當突發(fā)公共衛(wèi)生事件爆發(fā)時,系統(tǒng)通過對網(wǎng)絡媒體信息監(jiān)測實現(xiàn)疫情信息快速收集,及時掌握事件的早期動態(tài)趨勢,為現(xiàn)場調(diào)查及預防控制提供有價值的信息,是衛(wèi)生應急指揮決策的重要輔助系統(tǒng)3.城市管理輿情分析平臺:一些城市利用輿情分析技術,建立了城市管理輿情分析平臺。這些平臺能夠自動收集和分析市民在社交媒體上的反饋和建議,及時發(fā)現(xiàn)城市管理中存在的問題和市民的需求,為城市管理和服務改進提供數(shù)據(jù)支持4.騰訊輿情:騰訊輿情是騰訊旗下的一款輿情監(jiān)測工具,為用戶提供實時的輿情數(shù)據(jù)和分析報告。除了國內(nèi)注重輿情分析外,國外在輿情分析領域的研究也非常活躍:1.跨平臺輿情監(jiān)測:考慮到社交媒體平臺的多樣性,國外研究者開發(fā)了能夠跨平臺監(jiān)測輿情的工具和系統(tǒng),這些系統(tǒng)能夠?qū)崟r收集和分析來自Twitter、Facebook、Instagram等多個社交平臺的數(shù)據(jù)。2.情感分析和觀點挖掘:國外的研究不僅關注于輿情的量化分析,還深入到情感分析和觀點挖掘,嘗試理解和分析公眾對于特定話題或事件的情感傾向和觀點。具體案例有:CrimsonHexagon:CrimsonHexagon(現(xiàn)為Brandwatch)是一個先進的社交媒體分析平臺,它使用機器學習和人工智能技術來分析社交媒體數(shù)據(jù),幫助品牌和組織了解公眾的情感和觀點。該平臺能夠提供深入的市場洞察和輿情分析。綜上國內(nèi)外對于輿情分析的研究現(xiàn)狀來看,未來輿情分析在中國會繼續(xù)發(fā)揮著重要的作用,為社會管理和決策以及輿論的引導提供了更加科學、更加高效的支持。研究意義輿情分析影響著社會和個人。首先,輿情分析可以及時的檢測和分析某事件的輿論動態(tài),幫助企業(yè)和政府應對突發(fā)事件,提前對事件可能造成的負面影響進行預警,從而減少負面影響;其次,輿情分析可以為新聞組織提供客觀的數(shù)據(jù)支持,幫助他們更準確的了解人們的意見、社會的熱點和趨勢,從而進行有效的判斷。除了新聞組織,輿情分析也可以幫助企業(yè)了解消費者對于旗下產(chǎn)品的意見,方便企業(yè)即時改善產(chǎn)品的質(zhì)量、價格,提升對消費者的好感度以及自己的企業(yè)形象;最后,對于熱點事件,輿情分析可以極大的幫助引導輿論的走向,使輿論朝著積極的方向發(fā)展,促進社會的和諧穩(wěn)定。輿情分析不僅僅幫助了解輿論動態(tài)、提升決策判斷力、引導輿論走向,也為維持社會的穩(wěn)定和和諧提供了重要保障。1.4研究思路和方法文本研究技術主要包括:python、jieba分詞、繪制詞云圖、TF-IDF關鍵詞提取、SnowNLP情感分析、LDA主題模型等。本文研究設計思路:第一步,對微博評論區(qū)數(shù)據(jù)和抖音短視頻評論區(qū)數(shù)據(jù)進行采集并進行數(shù)據(jù)預處理,數(shù)據(jù)采集利用了“八爪魚”軟件進行爬?。粩?shù)據(jù)預處理使用python語言進行。第二步:使用jieba中文分詞庫進行評論數(shù)據(jù)分詞,使用下載的Chinese_word.txt停用詞文本去掉停用詞,得到比較規(guī)范的評論數(shù)據(jù),并將高頻關鍵詞和權重按照TF-IDF算法進行提取和計算,然后將經(jīng)過中文分詞處理過的評論數(shù)據(jù)調(diào)用WordCloud庫進行詞云圖可視化。第三步:運用LDA模型進行主題提取。第四步:根據(jù)計算出的情感分數(shù)進行統(tǒng)計,得出正面、負面、中性的情緒比例以及主題分類,最終給出可視化的評論結(jié)果。具體流程圖如圖1所示。圖1最后利用情感分析結(jié)果和主題分析獲取民眾在此事件中所關注的重點和輿情的主題提取。2相關理論概述2.1LDA主題模型思想及原理LatentDirichletAllocation(LDA)是一種用于主題建模的概率生成模型。它是一種無監(jiān)督學習算法,用于從文本數(shù)據(jù)中發(fā)現(xiàn)潛在的主題結(jié)構(gòu)?;舅枷霝椋篖DA假設每個文檔是由多個主題混合而成的,每個主題又是由多個單詞組成的。LDA將文檔看作主題的概率分布,將主題看作單詞的概率分布。LDA模型包括倆層隨機變量:文檔-主題分布和主題-詞分布。在訓練模型的過程中,LDA推斷出最有可能生成這些文檔的主題分布和主題—詞分布來進行模型訓練。LDA模型的概率圖如圖2所示。圖2LDA模型概率圖LDA模型假設每個評論都由各個主題按一定比例隨機混合而成,混合比例服從多項分布,記為:Z而每個主題有詞匯表的各個詞語按一定比例混合而成,混合比例也服從多項分布,記為:W在評論dj條件下生成詞wi的概率表達式為:P其中,P(wi|z=s)表示詞wi屬于第s個主題的概率,P(z=s|dj)表示第s個主題在評論dj中的概率。LDA模型可以自動將文本自動編碼為一定數(shù)量具有實質(zhì)性意義的主題,可以極大的減少人為干預的負擔。2.2TF-IDF算法TE-IDF算法是評估一個詞對于文本的重要性,如果這個詞匯在一個文章中出現(xiàn)頻率較高,文檔中出現(xiàn)頻率較低,則認為該詞匯具有較好的類別區(qū)分能力。TF-IDF由倆部分組成:詞頻(TF)、逆文檔頻率(IDF)。詞頻是指文件中出現(xiàn)某一個詞的頻率:TF逆文檔頻率是文檔總數(shù)與包含某一具體詞語文檔數(shù)比值的對數(shù)值:TDF假如某個關鍵詞i在文本d中出現(xiàn)的詞頻為tfi(d),ni為含有關鍵詞i的文本數(shù),則TF-IDF函數(shù)為:TF因此,本文通過TF-IDF算法可以提取并計算出某篇文本里的關鍵詞以及權重。2.3SnowNLP情感分析SnowNLP是一個python庫,用于中文文本情感分析。它自帶有語料庫和情感字典,本身就可以實現(xiàn)所有算法,不需要下載大量的情感詞庫以及構(gòu)建各種情感詞庫,有一定的準確率。它通過對大量標注好的文本數(shù)據(jù)進行訓練,學習文本中詞語的情感傾向,從而能夠預測文本的情感傾向。情感分析的結(jié)果是一個介于0到1之間的分數(shù),表示文本的情感傾向程度。3支原體感染輿情數(shù)據(jù)處理與分析3.1數(shù)據(jù)收集本次使用的數(shù)據(jù)是通過“八爪魚”軟件對央視新聞下發(fā)布的支原體感染微博評論區(qū)的一級評論和抖音視頻下評論區(qū)的一級評論進行爬取形成的倆個數(shù)據(jù)集。抖音的用戶群體主要以年輕人為主,尤其是青少年和年輕成年人。10歲至20歲:占據(jù)較大比例,是抖音的主要用戶群體;20歲至30歲:也有相當比例的用戶,尤其是年輕的職場人士和大學生;30歲以上:雖然比例較少,但也有一部分中年人和長者使用抖音。微博的用戶群體相對更加廣泛,覆蓋了不同年齡段的用戶。20歲至30歲:占據(jù)較大比例,是微博的主要用戶群體,包括年輕人和職場人士;30歲至40歲:也有相當比例的用戶,主要是中年人和家庭主婦等群體;40歲以上:雖然比例較少,但也有一部分中老年人使用微博,尤其是對時事新聞和社會熱點感興趣的用戶。微博和抖音作為較流行的多媒體平臺,具有海量的用戶數(shù)據(jù),活躍用戶量極大。并且,微博和抖音的用戶年齡分布不同,所以選擇倆平臺的數(shù)據(jù)進行分別分析。在數(shù)據(jù)收集的過程中,自動去除了只有‘表情’、‘@某人’、‘轉(zhuǎn)發(fā)微博’的評論,有效數(shù)據(jù)共計720條。圖3為數(shù)據(jù)集部分示意圖。圖33.2數(shù)據(jù)預處理獲取到文本數(shù)據(jù)后,必須進行預處理操作。預處理的目的是對文本數(shù)據(jù)格式標準化,去掉可能會造成影響的無關數(shù)據(jù),保留有效的文本數(shù)據(jù),提高后續(xù)文本分析的準確度。1文本清洗:在數(shù)據(jù)集中,數(shù)據(jù)集不僅僅由文字組成,文本清洗是為了去除不需要的特殊字符、數(shù)字,將文本轉(zhuǎn)換為小寫和刪除多余的空格,規(guī)范文本格式。利用re包,使用sub函數(shù)刪除特殊字符和數(shù)字;lower函數(shù)將文本轉(zhuǎn)換為小寫;strip函數(shù)去除多余空格。2去除停用詞:由于停用詞并沒有實際的意義,并且還會影響在文本挖掘中查看信息的效率,對后面的主題和情感分析也會產(chǎn)生影響,所有需要在數(shù)據(jù)預處理時刪除這些詞,提升文本挖掘的效果。圖4為部分停用詞舉例。舉例語氣助詞“嗎”、“嘛”、“吧”、“唄”、“呢”、“咦”連詞“于是”、“然后”、“然而”、“因此”、“像”符號“,”、“?!?、“.”、“!”、“—”圖4部分停用詞舉例本文使用的數(shù)據(jù)停用詞表為,CSND網(wǎng)站常用停用詞表,另存為Chinesestopword.txt文件用于分詞,圖5為去除停用詞后得到的部分文本數(shù)據(jù)。圖53去除缺失值:缺失值的存在可能會導致數(shù)據(jù)分析和建模過程中的偏差,去除缺失值可以提高數(shù)據(jù)的準確性,使分析結(jié)果更加準確。本文使用ps庫中的cleand函數(shù),去除包含缺失值的行。如圖6所示。圖64數(shù)據(jù)去重:本文旨在尋找數(shù)據(jù)中頻率最高的詞匯,所以選擇在制作詞云圖之后再進行去重處理。本文使用pandas庫中的drop_duplicates函數(shù),df.drop_duplicates(inplace=True)指定在原數(shù)據(jù)集上進行去重操作。3.3SnowNLP情感分析微博和抖音作為較流行的多媒體平臺,具有海量的用戶數(shù)據(jù),活躍用戶量極大。并且,微博和抖音的用戶年齡分布不同,所以選擇倆平臺的數(shù)據(jù)進行分別分析。對清洗后的數(shù)據(jù)進行情感分析時,使用SnowNLP庫來進行,調(diào)用sentiment()函數(shù)對文本數(shù)據(jù)進行情感分析,將情感分值劃分成三個情感類型區(qū)間,當情感分值在[0,0.4)區(qū)間時為消極,情感分值在[0.4,0.6)區(qū)間時為中性,情感分值在[0.6,1]區(qū)間時為積極,在編寫過程中把情感分值和情感類型一起添加到結(jié)果中。部分結(jié)果如圖7和圖8所示。圖7圖8通過snowNLP情感分析,可以分別得到“微博”評論的情感分析占比圖、情感分類直方圖、情感分析波動圖和“抖音”評論的情感分析占比圖、情感分類直方圖、情感分析波動圖。如圖9、圖10和圖11所示。圖9情感分析占比圖圖10圖11圖9顯示了所有評論數(shù)據(jù)中屬于積極、中性以及消極情感分析的分類占比,從此圖中可以看出微博的評論數(shù)據(jù)中消極占20.1%,中性占15.6%,積極占64.3%,而在抖音的評論數(shù)據(jù)中消極占32.1%,中性占20.1,積極占47.8%。倆者都是積極占的概率較大,因此可判斷出民眾對支原體感染這一事件是趨于積極的評價。圖10以情感分析直方圖的形式呈現(xiàn)出感情的區(qū)間分布,在圖片中,橫軸表示情感分數(shù),范圍從0.0到1.0,涵蓋了不同的情感強度等級??v軸則表示每個情感分數(shù)對應的出現(xiàn)次數(shù)。每一個情感分數(shù)點(0.0、0.2、0.4、0.6、0.8、1.0)上,都有一個藍色的直方圖柱狀圖,其高度代表了對應情感分數(shù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)。直方圖整體的感情分布可以看出是靠右的,這也顯示出民眾呈現(xiàn)出更積極的態(tài)度來對待支原體感染這一事件。圖11以波動圖的形式呈現(xiàn)了評論數(shù)量與情感得分的關系,在圖片中,橫軸代表文本的編號,縱軸代表文本的情感得分,折線上的點代表每一條文本數(shù)據(jù)的情感得分,折線代表著每一條文本情感的得分差異。通過觀察不同文本的折現(xiàn)波動,可以大多數(shù)文本的情感都穩(wěn)定在上側(cè)區(qū)間,由此可看出觀眾對該事件的評價也大多持積極態(tài)度的。3.4數(shù)據(jù)可視化詞云圖是一個直觀的可視化工具,通過展示文本數(shù)據(jù)中詞語的頻率,可以快速了解文本的主題、關鍵詞和內(nèi)容。圖12抖音評論詞云圖圖13微博評論詞云圖從抖音評論詞云圖中可以看出“咳嗽”、“感冒”、“孩子”、“感染”、“支原體”頻率特別高的詞匯“防護”、“感染”、“支原體”、“孩子”、“口罩”為微博詞云圖的高頻詞匯,由此可公眾對此事件的重點關注詞。4.實驗與分析4.1一致性與困惑度計算主題一致性和困惑度是用來評估LDA主題模型質(zhì)量的倆個重要指標。主題一致性是用來衡量主題內(nèi)部詞匯之間的相關性和連貫性的指標。一個主題內(nèi)的詞匯如果在語義上相關,則主題的一致性較高。主題一致性得分通常在0到1之間,數(shù)值越接近1表示主題內(nèi)詞匯之間的關聯(lián)性越強。主題困惑度是用來衡量主題模型對新文檔的預測能力的指標。主題困惑度越低,表示模型對新文檔的預測能力越好、模型性能越好。主題一致性關注主題內(nèi)部詞匯之間的相關性和連貫性,而主題困惑度則關注模型對新文檔的預測能力。通過綜合考慮主題一致性和困惑度這兩個指標,可以更全面地評估LDA主題模型的質(zhì)量和性能。本文從1個主題到10個主題去分別計算微博評論主題和抖音評論主題的一致性和困惑度。微博評論主題一致性與困惑度如圖14所示。圖14微博評論主題一致性與困惑度如圖15和圖16所示。圖15圖16根據(jù)圖中可以看出,隨著微博評論主題數(shù)量的增長,困惑度一直增加,在大于9個主題后困惑度下降,模型過擬合,復雜度得分開始下降,過多的主題導致了信息的冗余和沖突,使得整體的理解和分析變得更為困難,從而降低了復雜度得分。而主題一致性在主題為6時一致性最高,在高于6個主題數(shù)后相關性得分會逐漸下降;因為隨著主題數(shù)量的增加,信息的復雜性和多樣性也隨之增加,導致難以在多個主題之間找到高度的相關性。在主題為2時,一致性:0.5481;困惑度:74.0463,主題數(shù)最佳。所以根據(jù)困惑度和一致性選擇主題數(shù)為2進行LDA主題模型的構(gòu)建。抖音評論主題一致性與困惑度如圖17所示。圖17抖音評論主題一致性與困惑度如圖18和圖19所示。圖18圖19根據(jù)圖中可以看出,隨著微博評論主題數(shù)量的增長,困惑度一直增加,當處理的主題數(shù)量增多時,所需要考慮的因素和信息量也會相應增加,從而提高了整體的復雜性。而主題一致性在主題為6時一致性最高,在高于6個主題后,要維持較高的相關度得分變得更為困難,一致性下降。在主題為2時一致性:0.4988;困惑度:102.8473,主題數(shù)最佳。所以根據(jù)困惑度和一致性選擇主題數(shù)為2進行LDA主題模型的構(gòu)建。4.2LDA主題分析本文主要利用LDA模型對情感分類后的文本進行主題分析,設置相應主題數(shù),找到不同的討論主題,挖掘民眾評論數(shù)據(jù)中的真實態(tài)度。圖20微博評論主題分布圖21抖音評論主題分布4.3實驗結(jié)果和結(jié)論LDA主題圖表的左側(cè),有一個滑塊用于調(diào)整相關性度量的權重。通過移動滑塊,可以動態(tài)地改變相關性度量的標準,從而觀察不同度量下主題間的相關性變化。圖表的右側(cè)列出了與當前主題最相關的前30個主題詞匯,并且每個詞匯后面都附有其在該主題中的頻率以及總體頻率。這些數(shù)據(jù)幫助用戶了解哪些詞匯是構(gòu)成該主題的主要元素,以及這些詞匯在整體數(shù)據(jù)集中的分布情況。根據(jù)圖表結(jié)果顯示:在微博評論的主題分布中:Topic1占據(jù)了50.2%的tokens,Topic1占據(jù)了49.8%的tokens,倆個主題都是重要的主題。圖表提供了與每個主題相關的詞匯列表,這對于理解和解釋每個主題的內(nèi)容非常重要。主題一排名前五的詞匯為:“口罩”、“戴”、“防護”、“出門”、“戴好”,所以可以提煉主題一為:出門注意防護,戴好口罩;主題二排名前五的詞匯為:“支原體”、“感染”、“肺炎”、“疊加”、“感冒”,所以可以提煉主題二為:支原體感染和肺炎會疊加以及其癥狀。在抖音評論的主題分布中:Topic1占據(jù)了50.6%的tokens,Topic1占據(jù)了49.4%的tokens。主題一排名前五的詞匯為:“支原體”、“肺炎”、“吃”、“感染”、“癥狀”,所以可以提煉主題一為:支原體感染的癥狀,即時吃藥治療;主題二排名前五的詞匯為:“咳嗽”、“月”、“孩子”、“干咳”、“希望”,所以可以提煉主題二為:孩子得支原體感染的持續(xù)時間,希望孩子健康。對比LDA進行主題分析獲取的主題詞、jieba分詞獲取的關鍵詞以及WordCloud繪制的詞云圖,三者之間民眾的關注點是相同的,并且LDA主題分析的結(jié)果更加完整。在微博評論的情感分析和抖音評論的情感分析中,抖音平臺的評論消極性占比更大,但總體上還是呈現(xiàn)出積極的態(tài)度。主題分析中倆平臺民眾的側(cè)重關注點也有些許不同,在微博評論中,不僅僅關注支原體感染這一事件,也提醒廣大網(wǎng)友進行防護;在抖音評論中公眾更側(cè)重治療方法和小孩的感染癥狀與持續(xù)時間。圖22主題分布關系圖圖22左為微博評論主題分布關系圖,圖22右為抖音評論主題分布關系圖。主題關系圖用于展示與某個主題它們之間的關聯(lián)。中心的大圓圈是倆個主題,而周圍的小圓圈則代表了與之相關的不同方面的詞匯。每個小圓圈上的中文字符為我們提供了這些方面的具體描述。倆個主題的詞匯共同構(gòu)成了一個關于“支原體感染”及其相關詞匯的詞匯關系網(wǎng)。在微博評論關系圖中,“防護”是倆個主題的關聯(lián)詞匯,淺綠色的節(jié)點代topic1主題,而與之相連的淺綠色節(jié)點則代表與其相關的其他詞匯,如“肺炎、“防護”、“感染”等;灰色的節(jié)點代topic1主題,而與之相連的灰色節(jié)點則代表與其相關的其他詞匯,如“口罩”、“防護”、“健康”等。圖片中的文字文本也為我們提供了豐富的信息。例如,“提高抵抗力”、“做好防護”、“戴好口罩”等是預防支原體感染的建議;而“停課”、“希望孩子健康”等則反映了支原體感染對人們?nèi)粘I?,特別是對孩子健康的影響。在抖音評論關系圖中,與倆個主題的關聯(lián)詞匯為咳嗽和孩子,灰色的節(jié)點代topic1主題,而與之相連的灰色節(jié)點則代表與其相關的其他詞匯,如“孩子”、“咳嗽”、“發(fā)燒”等;淺綠色的節(jié)點代topic2主題,而與之相連的淺綠色節(jié)點則代表與其相關的其他詞匯,如“孩子”、“咳嗽”、“放假”等。從圖片中的文字文本可以看出,文本中出現(xiàn)了諸如“發(fā)燒”、“支原體”、“感冒”等詞匯是支原體感染時產(chǎn)生的癥狀,同時,“孩子”、“希望”、“平安”等詞匯則表達了對于孩子健康平安的期望和祝福。這些文本進一步強化了圖片中關于支原體感染及其相關話題的討論和關注點。5總結(jié)與展望5.1研究結(jié)論隨著各大媒體平臺的興起和互聯(lián)網(wǎng)的飛速發(fā)展,在互聯(lián)網(wǎng)上發(fā)表自己的看法和意見已經(jīng)成為了日常生活的一部分,每一個重大事件都會引起全民關注和全民討論。評論區(qū)蘊含了每一個民眾對此事件的看法、解決方法以及內(nèi)心期望,所以通過輿情分析,對評論進行情感分析和主題分析,可以給社會組織和政府提供更核心的民眾訴求及愿望,以便對大眾提供更積極的引導、降低負面影響,避免引起民眾惶恐以及提供更加有效的解決方法甚至政策。因此,輿情分析對于維持社會的穩(wěn)定具有重大意義。本文通過對評論區(qū)民眾數(shù)據(jù)進行爬取、分詞、詞頻統(tǒng)計、關鍵詞提取、SnowNLP情感分析和LDA主題分類等步驟后,對數(shù)據(jù)進行可視化,包括詞云圖、情感分析占比圖、直方圖、波動圖以及主題分類可視化和主題分布關系圖可以較好的展示民眾對此事件的情感傾向和關注的重點。這對于把握輿情動態(tài)、防范輿情風險具有一定的現(xiàn)實意義。通過對網(wǎng)絡評論輿情研究可以更好的響應民眾的關注點,完善輿情分析機制,進而為構(gòu)建更加文明、積極的網(wǎng)絡空間做出貢獻。5.2研究展望本文雖然取得了一定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論