《基于TF-IDF算法的在線評論情感分類方法研究10000字(論文)》_第1頁
《基于TF-IDF算法的在線評論情感分類方法研究10000字(論文)》_第2頁
《基于TF-IDF算法的在線評論情感分類方法研究10000字(論文)》_第3頁
《基于TF-IDF算法的在線評論情感分類方法研究10000字(論文)》_第4頁
《基于TF-IDF算法的在線評論情感分類方法研究10000字(論文)》_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于TF-IDF算法的在線評論情感分類方法研究摘要在線評論中的用戶情感信息,可能會產(chǎn)生輿論,因此,評論文本情感分類成為公安工作的重點。為高效、快捷地進(jìn)行文本情感分類,本文提出基于TF–IDF的在線評論情感分類方法。首先,提出TF–IDF算法,以新聞評論文本為研究對象,利用八爪魚采集器對在線評論文本進(jìn)行爬??;其次,利用jieba對評論文本進(jìn)行分詞,導(dǎo)入情感詞,利用TF–IDF算法計算情感詞的TF–IDF值,選取TF–IDF前五名的情感詞與情感詞典對比,進(jìn)而進(jìn)行評論文本情感分類;最后,研究新聞評論的情感傾向。結(jié)果表明,基于TF–IDF的在線評論情感分類方法可快速實現(xiàn)評論文本的情感分類。公安機(jī)關(guān)根據(jù)情感偏向,預(yù)測新聞事件的輿論走向,制定應(yīng)對措施,控制事態(tài),推動公安工作有序進(jìn)行。關(guān)鍵詞:在線評論;情感分類;TF–IDF算法;jieba目錄TOC\o"1-2"\h\u86481引言 引言研究背景及意義互聯(lián)網(wǎng)出現(xiàn)后,經(jīng)歷了多次技術(shù)革命,普及范圍越來越廣,網(wǎng)絡(luò)用戶數(shù)量越來越多。后來,開發(fā)者研究出各類軟件和APP,使得用戶登上了線上評論平臺。用戶通過線上評論來表達(dá)自己在享受服務(wù)過程中的感受,因此網(wǎng)站每天積累了大量的評論信息[1]。到了5G時代,越來越多的領(lǐng)域開始借助大數(shù)據(jù)來進(jìn)行日常運轉(zhuǎn),用戶評論的信息爆發(fā)出前所未有的價值[2],例如:隨著電子商務(wù)業(yè)的發(fā)展和網(wǎng)絡(luò)購物平臺的興起,商家根據(jù)用戶對產(chǎn)品的在線反饋和評價,汲取經(jīng)驗,優(yōu)化產(chǎn)品。各大新聞網(wǎng)站也紛紛研究出自己的APP,將收集到的原始新聞資料在最短的時間內(nèi)編輯成實時新聞,發(fā)布到APP上,傳播社會正能量。用戶通過登錄APP賬號,在線發(fā)表自己的觀點,體現(xiàn)自己的情感傾向。而這些能夠表達(dá)情感傾向的評論,往往可以體現(xiàn)輿情走向,而對輿情走向進(jìn)行判斷是公安機(jī)關(guān)的重要工作。想要對在線評論進(jìn)行輿論的判斷,就要對在線評論文本進(jìn)行情感分類,因此,就需要一種方法來完成在線評論的情感分類。在線評論情感分類,指的是利用計算機(jī)技術(shù),自動對評論文本進(jìn)行情感判別,根據(jù)文本的情感偏向?qū)ξ谋具M(jìn)行分類。但是現(xiàn)階段,公安機(jī)關(guān)缺少對在線評論的收集和研究,如果公安機(jī)關(guān)能夠?qū)@些含有情感傾向的評論進(jìn)行收集、分類、分析,就能判斷用戶的情感傾向,預(yù)測未來是否會產(chǎn)生輿論。若評論文本會產(chǎn)生輿論,公安機(jī)關(guān)可根據(jù)輿論的方向提前制定應(yīng)對措施,對用戶加以引導(dǎo),消除消極情緒,回應(yīng)積極反響,控制輿論,維護(hù)社會治安,減輕事件對社會的影響,推動公安工作有序進(jìn)行。然而,用戶發(fā)表的評論文本數(shù)量增長速度極快,如果靠公安機(jī)關(guān)工作人員人工搜索收集,工作量極大,時間長、效率低,且不容易進(jìn)行分類分析。因此,采用計算機(jī)技術(shù)實現(xiàn)評論文本情感分類的自動化,可在短時間內(nèi)實現(xiàn)評論文本情感分類,高效、便捷,減輕公安機(jī)關(guān)工作人員的工作壓力,便于評論文本的后續(xù)情感分析。1.2國內(nèi)外研究現(xiàn)狀目前,在線評論情感分類的研究主要集中在基于情感詞典的分類方法、基于情感值分類的方法、基于機(jī)器學(xué)習(xí)的分類方法三個方面[3]。為了更加合理化地判別在線評論所表達(dá)的情感,應(yīng)對情感信息碎和雜的特性,理清在線評論的情感類屬,國內(nèi)外學(xué)者對在線評論情感分類方法展開研究。1.2.1基于情感詞典的分類方法情感詞典是在線評論文本中情感詞的匯集庫,是供在線評論情感分類的檢索基礎(chǔ),利用情感詞典對收集到的在線評論文本進(jìn)行識別,再根據(jù)一定的規(guī)則對文本的情感偏向進(jìn)行計算和判斷?,F(xiàn)階段,存在的情感詞典類型包括:基礎(chǔ)情感詞典、否定詞詞典、程度副詞詞典、擴(kuò)充詞典[4]。我國已經(jīng)研究過的情感詞典有:知網(wǎng)HowNet情感詞典[5]、臺灣大學(xué)NTSUD情感詞典[6]、大連理工大學(xué)信息檢索研究室的情感詞匯本體[7]、領(lǐng)域情感詞典[8-9]等。此外,毛超群[10]利用改進(jìn)的情感詞典對在線評論文本進(jìn)行分類研究,是對情感詞典的擴(kuò)展,使得分類更加準(zhǔn)確。在情感詞典領(lǐng)域,國外的學(xué)者們也有很多研究成果,主要包括:WordNet詞典[11]、SentiWordNet詞典[12],這些研究對在線評論情感分類領(lǐng)域貢獻(xiàn)重大?;谇楦性~典的分類方法優(yōu)缺分明,優(yōu)點為:方法簡單有效,便于使用和分析;缺點為:需要人工建立情感詞典,工作量極大,且需要及時更新,因此,情感詞典的質(zhì)量對情感分類的結(jié)果影響重大。1.2.2基于情感值的分類方法基于情感值的分類方法,是以情感極性為依據(jù),以情感詞為研究對象,對在線評論文本進(jìn)行情感分類。評論文本中的情感詞包括:褒義詞、貶義詞、中性詞。很多研究中,情感詞的情感強(qiáng)度用-1至1之間的數(shù)值來表示。其中,當(dāng)情感值為0時,則表示情感詞的詞性為中性。在這個領(lǐng)域中,國內(nèi)的趙軍和王根在研究獨立于上下文的情感傾向性的基礎(chǔ)上提出詞語極性的極坐標(biāo)計算方法[13];朱嫣嵐等提出了基于語義相關(guān)場和基于語義相似度兩種HowNet基礎(chǔ)上的詞語情感傾向計算方法[14],兩種方法相結(jié)合的實驗結(jié)果比單一的方法的實驗結(jié)果更加準(zhǔn)確。國外的梅爾維爾、格里克、勞倫斯[15]利用詞匯知識和文本分類,對在線評論主觀情感傾向進(jìn)行統(tǒng)計分類,并將情感分類細(xì)化。1.2.3基于機(jī)器學(xué)習(xí)的分類方法基于機(jī)器學(xué)習(xí)的分類方法計算量小,建模方便簡單,但卻在復(fù)雜問題上的泛化能力受到限制,受到數(shù)據(jù)訓(xùn)練量和文本特征選擇的限制。基于機(jī)器學(xué)習(xí)分類方法中,最具有代表性的是深度學(xué)習(xí)分類方法[16]。深度學(xué)習(xí)分類算法通過學(xué)習(xí)底層數(shù)據(jù)的組合方式,組建深層神經(jīng)網(wǎng)絡(luò)[17-18],實現(xiàn)數(shù)據(jù)的分布式表示。深度學(xué)習(xí)分類算法,比傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法在復(fù)雜問題上的泛性能力更強(qiáng)。卡文卡克林[19]利用機(jī)器學(xué)習(xí),對在線評論情感詞進(jìn)行提取、分類,并對機(jī)器不斷訓(xùn)練,實現(xiàn)高效自動化在線評論情感分類。1.3研究的基本內(nèi)容在線評論情感分類是互聯(lián)網(wǎng)興起以后,對互聯(lián)網(wǎng)文本的重要情感偏向性研究,掌握在線評論文本的情感偏向,可對社會事件、新聞輿論做出趨勢預(yù)測。公安機(jī)關(guān)工作中,根據(jù)情感偏向、事件趨勢預(yù)測,提前做出應(yīng)對措施,對事件發(fā)展加以引導(dǎo),減少對社會的影響。本文中研究的主要內(nèi)容主要包括:1.對已有的在線評論情感分類方法進(jìn)行學(xué)習(xí)、介紹,并設(shè)計算法本文介紹了基于詞向量和情感本體的評論文本情感分類算法和深度學(xué)習(xí)分類算法。明白這兩種算法的具體原理和操作流程,清楚在線評論情感分類的具體思路,改進(jìn)TF-IDF算法,對本文后面的研究和實驗打下基礎(chǔ)。2.文本的預(yù)處理首先利用網(wǎng)絡(luò)爬蟲技術(shù),對在線評論文本的進(jìn)行數(shù)據(jù)獲取,其次,去除文本中的停用詞、表情符號,隨后進(jìn)行分詞,提取情感特征詞,為文本情感分類、文本情感偏向性分析做準(zhǔn)備。在線評論文本一般短小精悍、言簡意賅,但卻能準(zhǔn)確地表達(dá)出評論者對此新聞事件的情感偏向,具有很明顯的褒貶性或中立性。3.文本情感分類模型根據(jù)在線文本情感分類的特征,設(shè)計文本情感分類模型,并以此為基礎(chǔ),進(jìn)行后續(xù)的實驗。4.實驗驗證本文以在線新聞評論為研究對象,對爬取到的在線評論文本進(jìn)行分詞、去停用詞,利用文本情感分類模型進(jìn)行在線新聞評論文本的情感分類,根據(jù)得到的數(shù)據(jù)進(jìn)行文本情感偏向分析,最后得到結(jié)論。1.4研究方法本文中運用的研究方法主要包括:文獻(xiàn)法、實驗法、比較法。1.文獻(xiàn)法:指的是參考已經(jīng)發(fā)表的國內(nèi)外文獻(xiàn)來研究自己的課題的方法。通過收集、閱讀、整理相關(guān)文獻(xiàn)資料,了解國內(nèi)外在在線評論情感分類方法研究方面的成果,學(xué)習(xí)在線評論情感分類方法研究的知識,并以此為基礎(chǔ)進(jìn)行創(chuàng)新和突破。2.實驗法:指的是利用網(wǎng)絡(luò)文本數(shù)據(jù),將算法進(jìn)行實驗分析,并結(jié)合具體案例深入分析的方法。通過計算機(jī)工具、編程方法收集實驗數(shù)據(jù)或關(guān)鍵詞,根據(jù)資料找出在線評論情感分類的方法,利用收集的數(shù)據(jù),進(jìn)行實驗測試,得到實驗結(jié)果,對新聞事件進(jìn)行情感偏向性分析。3.比較法:將同類元素進(jìn)行大小、特性、特定元素等方面的對比,鮮明的比較出兩者或多者的優(yōu)勢和不同,有利于得到實驗結(jié)果。比較在線評論的情感分?jǐn)?shù),得到評論的情感偏向,表明大眾對新聞事件的態(tài)度,有利于公安機(jī)關(guān)對輿論進(jìn)行預(yù)測,便于提前制定應(yīng)對措施,防患于未然,預(yù)防輿論的產(chǎn)生或減輕社會輿論事件對社會的影響。2文本情感分類基礎(chǔ)現(xiàn)階段,在線評論文本一般分為三類:正面評論、負(fù)面評論、中性評論。對于此三類評論所表達(dá)的情感,當(dāng)今世界有眾多方法,每種方法都有自己的優(yōu)勢和分析思路。2.1在線評論情感分類相關(guān)研究表明,在線評論比從其他途徑獲取來的信息更加真實準(zhǔn)確,研究在線評論可以得到大量情感信息,進(jìn)而分析用戶的情感走向。在線評論可以從不同角度進(jìn)行分類,表達(dá)積極情感的為正面評論,表達(dá)消極情感的為負(fù)面評論,除此之外的是中性評論。1.正面評論正面評論指的是正面評價信息。它贊揚事件傳播的正能量,對事件參與者表達(dá)積極支持,號召大眾向其學(xué)習(xí)的評論。2.負(fù)面評論負(fù)面評論是指對事件的負(fù)面評價。它否定此事件中的有違背倫理道德的行為,對此作出相關(guān)批評,告誡大眾不要有類似做法,可能會指出正確做法的評論。3.中性評論中性評論是指,在評論中,不帶有積極或消極的情感偏向,或者分別從積極或消極兩個角度表達(dá)觀點的評論。其中,符號、圖片、動畫表情是情感的間接表達(dá)方式,本文將它們分類到中性評論。根據(jù)已存在的研究成果可以看出,評論文本中的積極傾向多余消極傾向。這是因為人們越來越樂觀,越來越積極向上,想要通過正面評論傳遞更多的正能量,營造良好的社會氛圍。2.2常用算法常用的在線評論情感分類算法有:基于詞向量和情感本體的評論文本情感分類算法、深度學(xué)習(xí)分類算法、TF-IDF方法三種方法作出分析研究。2.2.1基于詞向量和情感本體的評論文本情感分類算法大連理工大學(xué)的林鴻飛教授帶領(lǐng)團(tuán)隊,從情感類別、詞語詞性種類、情感強(qiáng)度及極性等多個方面對短語或詞語進(jìn)行描述,完成了中文情感詞匯本體庫的構(gòu)建。由于情感詞更新速度快,在不同語境中,同一個情感詞可能會表達(dá)不同的情感,會影響評論文本的情感傾向,且中文情感詞匯本體庫中收編的情感詞匯更新速度未能及時跟上情感詞的產(chǎn)生速度,社交平臺上的表情符號和表情圖片未能全部收錄和情感分類,導(dǎo)致未能收錄的詞匯、符號、圖片不能通過系統(tǒng)直接判別情感種類。圖1、圖2是微博評論區(qū)的評論,這些評論中就包括符號。圖片中文本內(nèi)容:綻放昆侖的雪蓮[棒][愛心][紅花]圖片中文本內(nèi)容:綻放昆侖的雪蓮[棒][愛心][紅花]圖1在線文本樣例圖片中文本內(nèi)容:雪域綻放雪蓮花,無悔詩歌與遠(yuǎn)方。巾幗戍邊英姿颯,致敬當(dāng)代花木蘭。[國旗][棒]圖片中文本內(nèi)容:雪域綻放雪蓮花,無悔詩歌與遠(yuǎn)方。巾幗戍邊英姿颯,致敬當(dāng)代花木蘭。[國旗][棒]圖2在線文本樣例圖1、圖2中的[棒]、[愛心]、[紅花]、[國旗]屬于符號數(shù)據(jù),是間接的情感表達(dá)方式,將其中重復(fù)的表情符號去重,并進(jìn)行進(jìn)一步的篩選。因此,對收集到的在線評論文本進(jìn)行文本去重、機(jī)械壓縮去詞、短句刪除、文本分詞,結(jié)合Word2Vec的詞向量生成,如圖3所示,實現(xiàn)文本分類。其中,w為輸入的內(nèi)容以及C(w)為w對應(yīng)的詞向量。圖3Word2Vec的詞向量生成原理圖利用詞向量和情感本體結(jié)合的分類方法,如圖4所示,便可實現(xiàn)對評論文本的去重和情感分類。圖4詞向量和情感本體結(jié)合的分類流程圖2.2.2深度學(xué)習(xí)分類算法深度學(xué)習(xí)分類算法是經(jīng)過數(shù)據(jù)預(yù)處理、文本特征提取與向量化表示、模型分類與評估三個步驟的機(jī)器深度學(xué)習(xí)算法,如圖5所示。模型分類與評估文本特征與向量化數(shù)據(jù)預(yù)處理模型分類與評估文本特征與向量化數(shù)據(jù)預(yù)處理圖5深度學(xué)習(xí)分類算法流程圖2.2.3TF-IDF算法TF-IDF(TermFrequency-InverseEocumentFrequency)算法是詞頻-逆文檔頻率算法,是在線評論在線評論情感分類方法之一,利用此方法可得知文本中特定詞語對整個評論文本的重要程度。其中,TF(詞頻)是指某一詞語在其所在評論文本中的出現(xiàn)次數(shù),TF值和特定詞語的出現(xiàn)次數(shù)成正比。IDF(逆文檔頻率)指的是包含特定詞語的在線評論文本越少,IDF的值就越大,說明詞條具有很好地類別區(qū)分能力。TF-IDF值等于TF值與IDF值的乘積。特定詞語的TF-IDF值就越大,說明這個特定詞語越重要,就越能成為文本情感分類的關(guān)鍵詞。TF-IDF算法方便快捷,便于理解和操作,數(shù)據(jù)清晰直觀,因此,本文在TF-IDF算法的基礎(chǔ)上進(jìn)行改進(jìn),并進(jìn)行實驗操作和驗證。3基于TF-IDF的在線評論文本情感分類在線評論文本的分類首先要對評論文本進(jìn)行獲取,利用八爪魚采集器便可實現(xiàn)對位版本的爬?。蝗缓髮⑽谋局信廊〉膬?nèi)容用jieba進(jìn)行分詞,獲得實驗所需要的情感表達(dá)詞,建立情感詞詞典,去除停用詞、重復(fù)詞;利用TF-IDF算法將文本中的情感詞進(jìn)行分類,進(jìn)而實現(xiàn)對評論文本整體的情感分類。3.1新聞文本內(nèi)容的獲取在新聞網(wǎng)站中,除了用戶客戶端發(fā)表的評論以外,還有新聞文稿本身,這些新聞文稿在提取時也會保存在文檔中,對此,一定要對正文文本和評論文本進(jìn)行區(qū)分。因此,確定新聞評論文本的范圍十分重要。3.1.1新聞評論客戶端評論文本的產(chǎn)生新聞網(wǎng)站誕生以后,從一開始的只能瀏覽新聞,到后來新聞客戶端用戶也可發(fā)表在線評論,實現(xiàn)了新聞發(fā)布者與用戶之間的互動、為用戶與用戶之間的討論提供了平臺。在5G時代,新聞網(wǎng)站、新聞APP成為重要的社會事件評論參與平臺,很多網(wǎng)絡(luò)使用者、新聞瀏覽者都會通過這些平臺發(fā)表自己的觀點,成為社會輿論的集中產(chǎn)生地。用戶會通過在評論區(qū)留言的方式,表達(dá)自己對社會事件的看法,如圖6所示。圖6評論區(qū)的評論在這些評論中,部分用戶表達(dá)積極觀點,部分用戶表達(dá)消極的觀點,還有部分用戶從正反兩個角度表達(dá)觀點,或者在表達(dá)觀點時不摻雜感情色彩,而我們要做的,就是對這些新聞評論進(jìn)行收集,對其表達(dá)的情感進(jìn)行分類。3.1.2新聞文本內(nèi)容的提取方法以在線新聞評論文本為研究對象,進(jìn)行文本的提取。要進(jìn)行在線評論文本的情感分類,首先要進(jìn)行評論文本的收集。在對文本收集的過程中,有Python語言爬取和采集器爬取兩種方法。但使用Python語言進(jìn)行網(wǎng)絡(luò)爬取時,編寫爬取語言難度大,部分網(wǎng)站因廣告、不能全部加載等干擾因素導(dǎo)致無法有效采集評論文本,增加前期工作難度。比如爬取微博的評論文本,一次爬取的文本數(shù)量有限,想要爬取更多的文本,需要手動拖動滾動條來加載更多的評論。使用數(shù)據(jù)采集器對在線新聞評論文本進(jìn)行文本采集,在采集文本的過程中,操作流程可視化,可對文字圖片進(jìn)行采集,方便高效,利于采集?,F(xiàn)有的數(shù)據(jù)采集器有:Wireshark、八爪魚采集器等。Wireshark軟件操作較復(fù)雜,且分析爬取的數(shù)據(jù)時,對專業(yè)知識儲備要求較高。本文中我們使用的網(wǎng)絡(luò)采集器軟件是八爪魚采集器,如圖7所示。圖7八爪魚采集器主頁在爬去評論文本時,具體操作為:進(jìn)入八爪魚采集器,將要采集評論文本的網(wǎng)址輸入到采集器中,點擊“開始采集”,進(jìn)入網(wǎng)址對應(yīng)的網(wǎng)頁;點擊頁面中要爬取的內(nèi)容,確定無誤后點擊“采集”;保存采集之后選擇“本地采集”,采集出的數(shù)據(jù)可以導(dǎo)出,一般導(dǎo)出的格式為Excel。針對抓取內(nèi)容不準(zhǔn)確的地方,我們要縮小范圍進(jìn)行抓取。3.2文本的預(yù)處理在獲取文本內(nèi)容后,要對文本內(nèi)容進(jìn)行預(yù)處理,這個過程包括:設(shè)計算法實現(xiàn)文本的分詞、去停用詞、設(shè)計情感詞典等內(nèi)容。3.2.1評論文本分詞評論文本分詞是指,將爬取到的文本中的段落、句子或短語按照已經(jīng)制定好的規(guī)則分成詞序列的過程,簡化文本,便于歸類或分析。本文中,我們將利用jieba對獲得的新聞評論文本進(jìn)行分詞。jieba是運用Python語言的第三方分詞庫,支持精確檢索、全檢索和引擎搜索。分詞原理是依據(jù)詞庫判斷漢字之間的關(guān)聯(lián)概率,最大可能的組成詞組,并且用戶可以根據(jù)自己的需求來添加自定義詞典。首先,我們下載好Python語言,為jieba庫的安裝搭建好環(huán)境。打開命令提示符,輸入pipinstalljieba便可實現(xiàn)jieba庫的下載,如圖8所示。圖8jieba庫下載成功打開Python,輸入importjieba便可從Python進(jìn)入jieba庫,也可以檢驗jieba庫是否下載成功,如圖9所示。圖9從Python進(jìn)入jieba通過Python語句來實現(xiàn)全模式分詞和精準(zhǔn)模式分詞,如圖10、11所示。圖10全模式、精準(zhǔn)模式分詞實現(xiàn)代碼圖11全模式、精準(zhǔn)模式分詞效果圖還可以將自己設(shè)計的詞典加入到j(luò)ieba算法中,具體的實現(xiàn)的語句為:jieba.load_userdict(file_name)。括號中的內(nèi)容式詞典的名稱,但是需要注意的是字典的格式是記事本,即txt格式。新聞評論文本中的情感詞提取是新聞文本情感分析的關(guān)鍵,對公安機(jī)關(guān)了解民眾意見、化解矛盾、提前做出應(yīng)對措施避免事態(tài)擴(kuò)大進(jìn)而引起社會輿論起到重要的作用。在后面的實驗中,我們也將使用jieba算法對新聞文本進(jìn)行分詞。3.2.2情感詞典的設(shè)計情感詞典是對收集到的情感表示詞按照積極、消極或中性的分類規(guī)則進(jìn)行歸納分類,方便實驗時的數(shù)據(jù)庫調(diào)用和比對。現(xiàn)階段,我國常用的情感詞典包括:臺灣大學(xué)中文情感極性詞典NTUSD(NTUSentimentDictionary)、知網(wǎng)Hownet情感詞典、SentiWordNet公式。其中,臺灣大學(xué)中文情感極性詞典NTUSD是根據(jù)情感的極性,將情感詞分為正極極性和負(fù)極極性;知網(wǎng)Hownet情感詞典是以漢語和英語為研究對象,根據(jù)已經(jīng)明確作出解釋的詞語之間的聯(lián)系進(jìn)行分類。隨著5G時代的到來,評論者創(chuàng)造出越來越多的情感詞,其中,傳統(tǒng)的情感詞包括:積極:開心、高興、興奮、幸福、眉開眼笑;消極:生無可戀、生氣、低落、消沉;中性:看戲、無所謂、無感、不關(guān)我的事。很多現(xiàn)階段的情感詞沒有被收錄到情感詞典中,這就需要我們在實驗前對情感詞典進(jìn)行擴(kuò)充,如圖12所示,以滿足實驗的要求。例如:積極:天秀、秀得天花亂墜、給力、點贊、洪荒之力;消極:交際花、我湊、奇葩、杠精、醉了、無語子、菜雞;中性:佛系少女、雨女無瓜、吃瓜群眾。將這些新產(chǎn)生的網(wǎng)絡(luò)流行語加入到現(xiàn)有的情感詞典中,以此來滿足在線評論情感分類的方法研究。圖12情感詞典擴(kuò)充3.2.3去停用詞去停用詞指的是,在文本預(yù)處理時,對收集到的文本進(jìn)行過濾,去除掉某些詞或字,方便檢索,節(jié)省存儲空間,提高文本情感分類的效率。在進(jìn)行新聞評論情感分類之前,需要將語氣詞、符號等對文本分類造成準(zhǔn)確性影響的詞語去除掉,也就是去停用詞。對此,我們需要設(shè)計停用詞表stopword,如圖13所示。圖13停用詞表部分展示3.3基于TF-IDF算法的情感分類方法對收集到的新聞評論文本進(jìn)行文本分詞、去停用詞后,便要進(jìn)入核心的一步,文本情感分類。此處,我們設(shè)計的方法是基于TF-IDF算法的情感分類方法。TF-IDF(TermFrequency-InverseEocumentFrequency,詞頻-逆文檔頻率),是在線評論情感分類方法之一,利用此方法可得知文本中特定詞語對整個評論文本的重要程度。TF(詞頻)是指某一詞語在其所在評論文本中的出現(xiàn)次數(shù)。見公式(3.1)TFα=一句評論文本中詞語α出現(xiàn)的次數(shù)該評論文本中所有詞語的個數(shù)由公式(3.2)得知,TF值和詞語α的出現(xiàn)次數(shù)成正比,當(dāng)評論文本中的詞語個數(shù)一定時,α的出現(xiàn)次數(shù)越多,TF值就越大。IDF(逆文檔頻率)指的是包含特定詞語α的在線評論文本越少,IDF的值就越大,說明詞條具有很好地類別區(qū)分能力。見公式(3.2)IDF=log語料庫的文本總數(shù)包含特定詞語α的文本數(shù)+1因此,一個特定詞語的TF-IDF值等于TF值與IDF值的乘積。見公式(3.3)TF?IDF=TF?IDF(3.3)過濾評論文本中的停用詞后,利用TF-IDF算法計算特定詞語的TF-IDF值,將得到的數(shù)據(jù)按照降序進(jìn)行排列,選取TF-IDF值前五名到前十名詞語進(jìn)行情感分析。特定詞語的TF-IDF值越大,該詞語就越能影響文本的情感偏向。就越能成為一篇新聞的關(guān)鍵詞。用Python實現(xiàn)TF-IDF算法,如圖14、15、16所示。圖14情感詞的導(dǎo)入圖15TF-IDF算法實現(xiàn)代碼圖16TF-IDF算法運行結(jié)果4在線新聞評論的情感分類實驗在前文中,我們講到利用八爪魚采集器爬取在線新聞評論文本內(nèi)容,設(shè)計新的情感詞典,利用算法來實現(xiàn)在線新聞評論文本中情感詞的提取和分類,為了驗證TF-IDF算法實現(xiàn)分類的可行性,本章將通過設(shè)計實驗從新聞網(wǎng)站中獲取在線評論文本來驗證基于TF-IDF算法的情感分類算法的有效性。4.1實驗內(nèi)容打開微博,找到一例與公安工作有關(guān)的案例——“男子網(wǎng)上投資:賺了60,被騙了60000”案件,收集與此案例有關(guān)的用戶評論,用jieba將評論文本進(jìn)行分詞,再結(jié)合停用詞表去停用詞,將預(yù)處理的結(jié)果導(dǎo)入TF-IDF算法,計算每個情感詞的TF-IDF值,最后進(jìn)行評論整體分析,結(jié)合公安工作實際得出結(jié)論。4.2實驗過程實驗的具體步驟為:1.獲取新聞評論文本的內(nèi)容;2.將評論文本進(jìn)行分詞、去停用詞;3.經(jīng)預(yù)處理的結(jié)果導(dǎo)入TF-IDF算法中,計算每個情感詞的TF-IDF值,找到評論中的情感關(guān)鍵詞;4.將情感關(guān)鍵詞與情感詞典進(jìn)行比對,分析評論者對案件的情感偏向;5.根據(jù)實驗數(shù)據(jù),得到公安機(jī)關(guān)應(yīng)對此案件注意的事項和后續(xù)的應(yīng)對措施。4.2.1新聞評論文本內(nèi)容的獲取打開“男子網(wǎng)上投資:賺了60,被騙了60000”新聞網(wǎng)頁,使用八爪魚采集器采集數(shù)據(jù),在采集器的地址框中輸入此案件的網(wǎng)址——https:///2711488952/KaQxijuL3?type=comment,點擊“開始采集”,從采集器中進(jìn)入該案件網(wǎng)頁,選取要采集的評論,去除與案件無關(guān)的信息;點擊“采集”選項,利用本地采集,生成采集的文本,最后以Excel的形式導(dǎo)出采集文本。如圖17、18、19所示。我們將采集器采集到的文本數(shù)據(jù)保存為txt格式,為后面的實驗步驟做準(zhǔn)備,便于后續(xù)實驗的進(jìn)行。圖17八爪魚采集案件評論文本數(shù)據(jù)圖18八爪魚采集案件評論文本數(shù)據(jù)圖19八爪魚采集器導(dǎo)出的文本數(shù)據(jù)4.2.2新聞文本內(nèi)容的預(yù)處理利用jieba實現(xiàn)評論文本的分詞,使用Python語言進(jìn)行jieba庫的運行實現(xiàn)。把八爪魚采集器采集到的文本保存到記事本“news.txt”中,在建立一個記事本“results.txt”,用于保存jieba分詞后的結(jié)果。用jieba實現(xiàn)文本分詞的代碼如圖20所示,分詞結(jié)果如圖21所示。圖20jieba算法實現(xiàn)文本分詞的代碼圖21分詞結(jié)果使用jieba分詞后,再利用stopword(停用詞表),對文本文檔“results.txt”進(jìn)行去停用詞處理,去除文本中的無意義符號和語氣詞。4.2.3新聞文本分類使用TF-IDF算法進(jìn)行情感詞的分類,計算TF-IDF值,結(jié)果圖如圖22所示。圖22計算TF–IDF值結(jié)果圖由圖4-6可以看出,“騙”“傻子”“騙子”“被騙”“受害者”“捏造事實”的TF-IDF值比較高,有次實驗可以說明,“男子網(wǎng)上投資:賺了60,被騙了60000”案件評論中,關(guān)鍵詞為“騙”“傻子”“騙子”“被騙”“受害者”“捏造事實”,通過對比情感詞典,得出“騙”“傻子”“騙子”“被騙”“受害者”“捏造事實”都為消極的情感詞,因此,評論者們對此案件持有消極態(tài)度甚至是反對觀點,公安機(jī)關(guān)應(yīng)該重視起來,積極偵破案件,制定相關(guān)應(yīng)對措施,引導(dǎo)群眾,預(yù)防社會輿論的產(chǎn)生,減輕案件對社會的影響。4.3實驗總結(jié)實驗證明,基于TF-IDF的在線評論情感分類方法,相比于基于詞向量和情感本體的評論文本情感分類算法和深度學(xué)習(xí)分類算法,更加簡便、高效,容易理解,便于使用操作;得到的數(shù)據(jù)使用降序的方法進(jìn)行排列,數(shù)值大小對比直觀,容易找到評論文本的關(guān)鍵詞,便于判斷用戶的情感傾向,方便后續(xù)的情感分析?;谠~向量和情感本體的評論文本情感分類算法和深度學(xué)習(xí)分類算法不易理解其中的原理,且深度學(xué)習(xí)分類算法涉及機(jī)器訓(xùn)練,專業(yè)性強(qiáng),操作難度大,不便掌握。因此本文采用TF-IDF算法。TF-IDF算法可以實現(xiàn)對評論文本的情感分類,可以幫助公安機(jī)關(guān)有效地獲取評論者們對事件的態(tài)度,通過TF-IDF值對情感進(jìn)行排序,有利于公安機(jī)關(guān)掌握大眾的情感偏向,預(yù)測輿論的產(chǎn)生,提前做出應(yīng)對措施,對公安機(jī)關(guān)破案有著積極地作用。5總結(jié)與展望5.1總結(jié)在線評論情感分類領(lǐng)域中,研究人員有眾多方法,對在線評論情感詞進(jìn)行多種分類,各有千秋。本文中,基于TF-IDF算法的在線評論情感分類方法,同樣實現(xiàn)了對在線評論文本的細(xì)致分類,使得情感偏向研究、文本情感分類高效,準(zhǔn)確。主要的研究內(nèi)容如下:1.研究現(xiàn)存的在線評論情感分類方法,掌握文本情感分類的思路;2.利用網(wǎng)絡(luò)爬蟲技術(shù),使用八爪魚采集器對在線評論文本進(jìn)行爬取,獲得初步數(shù)據(jù);3.研究TF-IDF算法,掌握算法原理和運行機(jī)制,使用Python語言、jieba分詞對收集到的文本進(jìn)行預(yù)處理,隨后結(jié)合TF-IDF算法進(jìn)行文本情感分類,完成實驗驗證;4.將基于TF-IDF算法的在線評論情感分類方法應(yīng)用于公安大數(shù)據(jù)中,通過收集在線評論文本,對其進(jìn)行情感分類,進(jìn)而對輿情預(yù)測與預(yù)防提供便利。5.2展望在5G時代,人們越來越傾向于大數(shù)據(jù)、云計算,在視頻、圖片等下方的公開評論文本中,評論文本中一些情感詞的出現(xiàn)便可能會引起此事件的社會輿論,對社會治安產(chǎn)生影響。對此,對基于TF-IDF算法的在線評論情感分類方法未來的展望為:結(jié)合公安大數(shù)據(jù),通過在線評論情感分類對事件進(jìn)行判別,預(yù)測此事件是否能夠在未來產(chǎn)生社會輿論,若不能,減少對此事件的關(guān)注度,若能,及時制定相關(guān)輿論防控措施,并根據(jù)事件的動態(tài)發(fā)展積極應(yīng)對,減輕或消除此事件對社會的影響。參考文獻(xiàn)[1]李佳儒,王玉珍,丁申宇.基于邏輯回歸的在線評論情感分類方法研究[J].東莞理工學(xué)院學(xué)報,2020,27(5):50-54.[2]賀洋.基于證據(jù)推理的汽車評論情感分類與評價研究[M].合肥工業(yè)大學(xué),2020.[3]魏萬恒.電子商務(wù)在線評論情感分類方法研究[M].北京郵電大學(xué),2019.[4]王濤.基于情感分類的酒店評論文本挖掘研究[M].重慶師范大學(xué),2019.[5]知網(wǎng).《知網(wǎng)》情感分析用詞語集(Bata版)[EB/OL].[2007-10-22][2021-01-23].http//www.keenage.com/.[6]KhamFH,ChenHH.MillingopinionsfromtheWeb:Beyondrelevanceretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2007,58(12):1838-1850.[7]徐琳宏等.情感

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論