版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于LSTM模型的影評情感分析系統(tǒng)設(shè)計摘要電影行業(yè)再近些年來一直保持著比較穩(wěn)定的增長趨勢。看電影成為了人們?nèi)粘I钚蓍e娛樂的一種方式。每當新電影上映,不同的電影交流平臺上的用戶評論頁會呈現(xiàn)著暴漲的狀態(tài),這些評論數(shù)據(jù)是作為我們觀眾購票方向具有很好的指導(dǎo)意義。研究一個幫助用戶分析評論情感分析的系統(tǒng)有著很大的意義。本文以貓眼電影中的《八佰》這部影評為研究對象,具體工作如下:首先,先利用現(xiàn)在的網(wǎng)絡(luò)技術(shù)來幫助觀眾對評論進行抓取,本文利用的是Python語言中的request來獲取需要爬取的網(wǎng)頁發(fā)送請求,解析頁面,即對研究對象貓眼電影上的《八佰》的影評數(shù)據(jù)爬取并進行文本存儲。然后,將采集得到的數(shù)據(jù)進行處理,挖掘文本存在的有價值的數(shù)據(jù),對評論數(shù)據(jù)進行情感分析,先是利用情感詞典對數(shù)據(jù)進行觀點提取,將文本內(nèi)的信息情感匹配后進行情感分類,得到的結(jié)果分為正面和負面。接著構(gòu)建LSTM模型,設(shè)計模型的優(yōu)化器、損失函數(shù)和評估方法,將評論數(shù)據(jù)分為訓(xùn)練和測試數(shù)據(jù),訓(xùn)練好的模型對測試數(shù)據(jù)集進行預(yù)測,預(yù)測結(jié)果的準確率在百分之八十七左右,較為可觀。最后,設(shè)計了電影影評情感分析系統(tǒng)。該系統(tǒng)能實現(xiàn)對指定的頁面評論進行抓取后,對評論分析后提供數(shù)據(jù)分析可視化的展示,實現(xiàn)了一個基于情感分析為核心的影評分析系統(tǒng)。觀眾可通過可視化的結(jié)果對電影進行簡單的了解,通過情感分析的結(jié)果得知電影的類型、其他觀眾對電影的有效評價信息。關(guān)鍵詞:情感分析;LSTM模型;結(jié)巴分詞目錄TOC\o"1-3"\h\u1.前言 [12],它能夠?qū)W(wǎng)頁進行抓取,驗證超鏈接和HTML代碼。簡單來時說爬蟲就是對目標網(wǎng)站內(nèi)容自動抓取的工具。要了解爬蟲的基本原理,我們需要站在我們自己的角度來看,我們?yōu)槭裁茨軌驗g覽網(wǎng)頁?像計算機輸入我們想要訪問的地址,關(guān)鍵字是我們訪問目標的動作。爬蟲就是對此過程進行模擬,模擬的過程是通過鏈接地址訪問網(wǎng)頁,并將瀏覽和抓取的內(nèi)容放在第一頁,尋找鏈接地址訪問下一頁的這個頁面,就一直循環(huán)抓取。抓取的內(nèi)容是我們HTML代碼,HTML代碼里會存放我們需要的信息內(nèi)容。Python網(wǎng)頁爬取的方式一般有:正則表達式、Selenium、BeautifuISoup、Scrapy等。根據(jù)不同的實現(xiàn)技術(shù)和結(jié)構(gòu),網(wǎng)絡(luò)爬蟲可分為全局爬蟲、增量爬蟲、網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲。本文采用的是通用網(wǎng)絡(luò)爬蟲REF_Ref127\r\h[13],可以簡單介紹其過程:獲取初始的URL初始的URL地址可以是由人為制定,也可以指定一個或幾個初始的爬取網(wǎng)頁決定。根據(jù)初始的URL獲取新的URL獲得初始的URL地址后,需要對對應(yīng)的網(wǎng)頁進行爬取,并將網(wǎng)頁數(shù)據(jù)存儲到原始中,將已爬取結(jié)束的URL存放到一個列表里,再發(fā)現(xiàn)新的URL地址,以此來用于去重及判斷爬取的過程。將新的URL放入URL隊列中此過程在第二個過程進行,將新的URL地址放到URL列表重復(fù)爬取過程在URL隊列中讀取新的URL,在新的URL爬取網(wǎng)頁,同時又在心得URL發(fā)現(xiàn)新的URL,一直重復(fù)這樣的過程。爬蟲流程圖如下圖2.1所示。圖2.1爬取網(wǎng)頁流程圖Figure2.1Webpagecrawlingflowchart2.2情感分析介紹情感分析,可以理解為將具有主觀情緒色彩或者時具備明顯褒義情緒的文本REF_Ref245\r\h[14],將可能存在的信息信息進行挖掘并分析。文本的情感分析,就是對網(wǎng)絡(luò)上的大量的產(chǎn)品評論進行分析與挖掘,將帶有豐富的情感特色的具有很好的主觀性文本信息進行分析,利用我們現(xiàn)有的技術(shù)去識別預(yù)測出用戶的情感傾向。根據(jù)對象的粒度,我們可以將其分為三個層次:文本層次、詞匯層次和句子層次。文本層面是以分析整篇文章的情感傾向為分析對象;句子層次是將內(nèi)容分成句子,以句子為分析對象,分析句子的情感傾向;句子層次是將詞語進行抽取,將詞語作為一個分析對象,對詞語進行情感情感分析。目前情感傾向性分析的方法主要有基于情感詞典的方法和基于機器學(xué)習(xí)的方法。情感詞典因容易實現(xiàn)最開始被人們所用,在使用情感詞典的方法需要搭建標注好的情感詞典,情感詞典中又有英文的情感詞典和中文的情感詞典,英文的情感詞典比較著名的是sentiwordnet,中文的情感詞典主要有知網(wǎng)整理的情感詞典和臺灣大學(xué)整理發(fā)布的NTUSD情感詞典。基于機器學(xué)習(xí)的方法是有監(jiān)督的學(xué)習(xí)方法,即在使用過程中需要人工對文本手動的分類,通過提取文本的特征,構(gòu)架分類器實現(xiàn)情感的分類。2.3LSTM模型介紹LSTM(longshorttermmemory)即長短期記憶神經(jīng)模型。LSTM模型是神經(jīng)網(wǎng)絡(luò)模型的一個相當簡單的延伸擴展,而且在過去的幾年里都有不錯的成就。簡要說明LSTM模型的核心為三大門:遺忘門(ForgetGate)、輸入門(InputGate)以及輸出門(OutputGate)。遺忘門遺忘門即顧名思義,表示在上一個時間狀態(tài)應(yīng)該遺忘多少。對于來說,先會看上一階段輸出的?t?1和這個階段的輸入xt,給予0-1的權(quán)重,1則代表要保存多一點的Ct?1圖2.2遺忘門Fig.2.2Forgettinggate(2)輸入門圖2.3輸入門前Figure2.3Inputdoor用公式可以表示為:itCt首先會拿上一個階段的輸出?t?1和這個階段的輸入xt,通過sigmoid來控制現(xiàn)在要加多少進入主線劇情Ct,即公式(2.2)的含義;然后又會創(chuàng)建一個備選的CtCt圖2.4輸入門后Figure2.4Aftertheinputgate(3)輸出門圖2.5輸出門Figure2.5Outputgate首先決定Ct的哪一部分需要被輸出,即公式(2.5)的σt;之后,我們把Ct放入tanh內(nèi),決定最后輸出Cσt?t這時LSTM的結(jié)束。事實上,LSTM的主要功能是,通過遺忘門、輸入門和輸出門,決定遺忘門的最終數(shù)量、記住的數(shù)量和在任何時候退出的數(shù)量,最后,當重要信息丟失時,這個狀態(tài)總是通過驗證這個距離,不會忘記相對遙遠的信息,也會小心處理項目中不相關(guān)的信息。3.實證過程3.1數(shù)據(jù)來源本次實驗數(shù)據(jù)來源于貓眼電影平臺上的有關(guān)于《八佰》這一影片評論數(shù)據(jù),為了得到這些實驗數(shù)據(jù),本文采用了網(wǎng)絡(luò)爬蟲的方法,并且將相關(guān)信息保存成了txt文件,并結(jié)合了python中的pandas模塊對保存的表格數(shù)據(jù),進行提取,去重、清洗等操作。3.1.1數(shù)據(jù)爬取過程爬蟲首先要做的工作是獲取網(wǎng)頁的源代碼,源代碼里包含了網(wǎng)頁的部分有用信息;之后爬蟲構(gòu)造一個請求并發(fā)送給服務(wù)器,服務(wù)器接收到響應(yīng)并將其解析出來。實際上,獲取網(wǎng)頁——分析網(wǎng)頁源代碼——提取信息,便是爬蟲工作的三部曲。在獲取數(shù)據(jù)時需要我們了解HTML,因為爬蟲就是利用編程代碼對網(wǎng)絡(luò)服務(wù)器進行請求數(shù)據(jù),這里的數(shù)據(jù)也就是HTML表單,解析HTML,將所需要的數(shù)據(jù)進行提取。安裝第三方工具來爬取數(shù)據(jù),爬取的信息我們需要對他們進行保存,最為常用的數(shù)據(jù)存儲方式時csv格式文件和excel文件。進入我們需要爬取的頁面,本文的爬取對象是電影評論,找到相對應(yīng)評論模塊,截取部分評論如圖3.1,但是發(fā)現(xiàn)在pc端展示出來的評論是只有10條,不難發(fā)現(xiàn),需要將爬取的端口改為移動端。圖3.1電腦端網(wǎng)頁評論Figure3.1Commentsonthecomputerside將爬取的url輸入手機端的網(wǎng)址后,可以發(fā)現(xiàn)評論都展現(xiàn)出來,我們可以尋找頁面的規(guī)律,評論每頁是15條的評論數(shù)據(jù),因此我們觀察url的變化,整理好url的規(guī)律,制定一個爬取的方案,在進行編輯程序進行評論爬取。圖3.2手機端網(wǎng)頁評論Figure3.2Mobilewebcomments3.1.2數(shù)據(jù)爬取結(jié)果在貓眼電影網(wǎng)站上爬取的電影評論數(shù)據(jù),部分評論數(shù)據(jù)如圖3.3所示。圖3.3評論爬取結(jié)果Figure3.3Commentonthecrawlingresults3.1.3數(shù)據(jù)清洗在網(wǎng)站上爬取到的數(shù)據(jù)相對存在真實性的同時也會有一些無價值意義的數(shù)據(jù)。例如,我們可以看到圖3.3爬取結(jié)果中,存在影響結(jié)果分析的幾個方面:(1)有些評論字樣重復(fù)率很高,就比如“非常好看哦哈哈哈哈哈哈”;(2)表情字符以及標點符號;(3)可能也會存在觀眾在網(wǎng)上購票后,評論時間超時系統(tǒng)會進行默認好評;(4)可能存在競爭對手一些無良商家放水軍的情況,評論帶有推銷,甚至虛假的消息。因此,像這些會影響研究結(jié)果質(zhì)量、中文分詞、建模結(jié)果等的評論,我們就要將爬取的數(shù)據(jù)進行清洗。清洗評論數(shù)據(jù)的目的就是讓數(shù)據(jù)更具有可靠性,真實性,也是實現(xiàn)數(shù)據(jù)挖掘的原則性。數(shù)據(jù)挖掘的類型分為數(shù)值型和非數(shù)值型。本文就是屬于一個非數(shù)值型,文本內(nèi)容里存在無效評論或非評論內(nèi)容這類沒有價值意義的語料將他們進行詞頻統(tǒng)計、分詞、情感分析得到的結(jié)果參考意義也是不大。3.1.4分詞分詞顧名思義就是將一句話或一段話劃分成一個個獨立的詞,目前有大量用于分詞的工具,如jiaba、nltk、thulac和pynlpir等,jieba分詞支持三種模式:(1)精確模式,試圖將句子最精確地切開,適合文本分析;(2)全模式,把句子中所有放入可以分詞的成語都掃描出來,速度非???,但這時不可以解決歧義;(3)搜索引擎模式,在精確模式的基礎(chǔ)上,對長詞在切分,提高召回率,適合用于搜索分詞REF_Ref12048\r\h[15]。本文使用Python中的jiaba庫對樣本數(shù)據(jù)進行分詞處理,利用.cut()函數(shù)實現(xiàn)。分詞后的內(nèi)容我們可以比較直觀的看到句子中的一些核心評論,“data_cut”則為分詞后的結(jié)果,執(zhí)行結(jié)果如圖3.4所示。圖3.4分詞后的評論Figure3.4Commentsafterwordsegmentation3.1.5去掉停用詞分詞結(jié)束后,還會存在一些無用的詞,例如介詞“從、自、于、因”,副詞“很、十分、過于”等這類無效詞,將他們從文本中去除是很有必要的,也能夠達到一定提升文本處理的效率。為了提升文本結(jié)果的質(zhì)量程度可以通過自建停用詞表以及通過網(wǎng)絡(luò)上提供完整的停用此表進行下載,常用的是哈工大和四川大學(xué)的停用詞表。本文使用的部分停用詞表stopwords.txt如圖3.5所示。圖3.5停用詞表Figure3.5Stopwordlist由于這類詞匯在文本中比較常運用出現(xiàn),進行文本分類的話,這類的詞語就沒有不太能區(qū)分和可識別度,若是存在太多類似的詞語會影響句子的區(qū)分效果,將句子想要表現(xiàn)的情感進行稀釋,所以一般都會利用停用詞表將這類詞匯去除,本文利用以上圖3.5的停用詞,將評論的數(shù)據(jù)又進行清洗了一遍,“data_after”是去除停用詞以后的數(shù)據(jù),可以看出,執(zhí)行代碼后一些語氣詞、副詞已經(jīng)被清洗,得到的數(shù)據(jù)結(jié)果也會比較的干練,部分結(jié)果如圖3.6所示。圖3.6去除停用詞后的評論Figure3.6Commentswithoutstopwords4.結(jié)果分析4.1電影分析4.1.1詞云分析文本數(shù)據(jù)展示的常用方法是詞云圖的展示,我們對爬取得到的影評內(nèi)容進行分詞后,將詞頻高的詞語抽離制作詞云圖,我們可以發(fā)現(xiàn)大眾對《八佰》這部影片除了好看,不錯,更多的是震撼、感人、歷史、勿忘國恥等代表著強烈民族色彩的詞。通過大眾的評論分析,觀眾在未選擇影評的時候,從詞云圖也能看出影片是屬于什么題材類的,觀眾也可以通過自己的喜好去選擇影片,從而再去決定去看哪一步影片。圖4.1詞云圖Figure4.1WordCloudMap4.1.2樣本評論類型分布通過評論類型分布來,我們可得知好評的占比是相當明顯的,20億+的票房也不是沒有道理的。因此,這部影片還是很值得我們?nèi)ビ^看的。圖4.2樣本評論類型分布Fig.4.2Distributionofsamplereviewtypes4.2情感結(jié)果分析本文是先通過評論中的情感得分進行一個評論類型的劃分,將score小于3的劃分為差評,將score大于等于3但是小于4的劃為中評,其次是好評?;谇楦性~典的情感分析,將文本中的詞句與詞典配對計算它的情感數(shù)值,結(jié)果取值范圍在0到1之間,越接近1表示正面情緒;越接近0表示負面情緒。本文是根據(jù)評論的來判斷情感傾向,因此也可能會有評論類型是差評但情感類型是正面的情況,結(jié)果如圖4.3所示。圖4.3情感結(jié)果分析Fig.4.3Analysisofaffectiveoutcome4.3模型結(jié)果分析本文采用TensorFlow2.0中的keras模塊下的堆疊層模型,構(gòu)建長短期記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)。因為要處理文本序列問題,所以需要有一個嵌入層,也稱為單詞表示層。通過訓(xùn)練直接得到單詞表示向量,嵌入層負責將單詞編碼成向量。其堆疊順序一般為先由輸入層確定網(wǎng)絡(luò)的輸入數(shù)據(jù)形態(tài),隱含層對輸入數(shù)據(jù)提取特征處理,輸出層即數(shù)據(jù)按照網(wǎng)絡(luò)輸出要求進行一維向量化處理(由于是二分類問題,故只需1層輸出),并通過類似一般神經(jīng)網(wǎng)絡(luò)的方式進行全連接并輸出預(yù)測結(jié)果,示例結(jié)果如下:圖4.4模型信息圖Figure4.4ModelInformationDiagram通過以上模型結(jié)果,我們可以了解到模型的各層信息,包括數(shù)據(jù)的輸出形態(tài)、訓(xùn)練參數(shù)等,從而對模型有一個較為直觀的認識。其次,設(shè)計模型的優(yōu)化器、損失函數(shù)和評估方法。采用adam優(yōu)化器,損失函數(shù)采用分類交叉熵函數(shù)(binary_crossentropy)、模型評估方法采用預(yù)測精度。再次,對模型進行訓(xùn)練及評估。比如對訓(xùn)練數(shù)據(jù)做15次迭代訓(xùn)練,并對測試數(shù)據(jù)的預(yù)測準確率進行評估。執(zhí)行部分結(jié)果如下:圖4.5迭代訓(xùn)練結(jié)果Fig.4.5Iterativetrainingresults通過以上輸出結(jié)果,可以看出每次訓(xùn)練迭代的預(yù)測準確率,并且訓(xùn)練結(jié)束之后獲得了最終模型的預(yù)測準確率。最后,可以利用訓(xùn)練好的模型進行預(yù)測。利用訓(xùn)練好的的模型對測試數(shù)據(jù)集進行預(yù)測,用.evaluate()方法實現(xiàn),預(yù)測結(jié)果如下:圖4.6預(yù)測結(jié)果Figure4.6Forecastresults5.GUI系統(tǒng)可視化設(shè)計與實現(xiàn)5.1需求分析本文根據(jù)選題的背景中大眾面對電影網(wǎng)絡(luò)平臺上人們發(fā)布五花八門的評論信息量對電影的選擇無從下手來進行一個比較直觀的設(shè)計方案。它的只要功能是能夠?qū)﹄娪暗脑u論類型分布、評論詞云圖、評論量前十城市、對評論情感分析進行可視化內(nèi)容的展示。本文采用的語言是Python,Python語言有著自帶的解析庫可以對爬取的網(wǎng)頁HTML進行分析。本文對系統(tǒng)設(shè)計的大致方案是先通過爬取貓眼電影評論數(shù)據(jù)將其保留到本地文件中,再對評論數(shù)據(jù)預(yù)處理,將處理得到的數(shù)據(jù)運用到LSTM進行模型訓(xùn)練,以及情感分析,具體流程如圖5.1所示。圖5.1流程圖Figure5.1FlowChart5.2系統(tǒng)設(shè)計需要利用Python設(shè)計一個可視化的界面,需要用到QtDesigner和PyUCI兩個工具。首先安裝Pycharm,并在PyCharm中配置PyQt5的環(huán)境,在菜單欄中找到“File”,點擊File選擇Settings,在Tools選擇“Tools/ExternalTools”,點擊“+”,會彈出相應(yīng)配置窗口,如圖5.2所示。圖5.2ExternalTools工具設(shè)置輸入外部工具名稱,這里用QtDesigner設(shè)置,輸入對應(yīng)的路徑名稱和參數(shù)如REF_Ref40908697\h圖5.3所示;圖STYLEREF1\s5.SEQ圖\*ARABIC\s13QtDesigner設(shè)置Figure5.3QTDesignerSettings輸入外部工具名稱,這里用PyUCI設(shè)置,輸入對應(yīng)的路徑名稱和參數(shù)如圖5.4所示;圖STYLEREF1\s5.SEQ圖\*ARABIC\s14PyUCI設(shè)置Figure5.4PyUCISettings再完成配置后找到標題欄中的Tools下的ExternalTools打開工具QtDesigner,進入Qt設(shè)計師窗口,在該窗口下點擊“MainWindow”進行創(chuàng)建進入主窗體設(shè)計界面,從控件欄中可以根據(jù)我們需要設(shè)計的樣式系統(tǒng)拖拽元件。本文通過五個pushButton按鈕點擊展示,將其依次命名。點擊保存,生成.ui文件,保存在PyCharm項目路徑下。系統(tǒng)初步設(shè)計界面如下:圖STYLEREF1\s5.SEQ圖\*ARABIC\s15界面設(shè)計Figure5.5InterfaceDesign5.3系統(tǒng)實現(xiàn)系統(tǒng)的功能實現(xiàn)有五個:讀取評論信息、評論類型分布、評論詞云圖、評論數(shù)據(jù)前十名數(shù)量、情感分析。首先,找到PyCharm項目下的.ui文件,點擊右鍵選擇ExternalTools下的PyUCI,生成后綴為.py的文件,在.py文件里面修改代碼,添加圖5.5界面之外對應(yīng)功能的代碼。系統(tǒng)實現(xiàn)需要導(dǎo)入的模塊如圖5.6,PyUCI自動生成的代碼例如圖5.7、如REF_Ref40954574\h圖5.8和圖5.9所示。圖5.6導(dǎo)入模塊代碼Figure5.6Importthemodulecode圖STYLEREF1\s5.7PyUCI生成代碼1Figure5.7PyUCIgeneratescode1圖STYLEREF1\s5.8PyUCI生成代碼2Figure5.8PyUCIgeneratescode2圖STYLEREF1\s5.9PyUCI生成代碼3Figure5.9PyUCIgeneratescode3按鈕回調(diào)函數(shù)定義好了之后,需要與不同的按鈕的單擊事件進行關(guān)聯(lián),即單擊讀取電影評論按鈕的時候就觸發(fā)該函數(shù)并執(zhí)行。關(guān)聯(lián)方法是在初始化函數(shù)setupUi的后面繼續(xù)輸入以下程序代碼實現(xiàn),如圖5.10所示。圖STYLEREF1\s5.SEQ圖\*ARABIC\s110關(guān)聯(lián)設(shè)置Figure5.10associationSettings5.3.1爬取電影信息回調(diào)函數(shù)定義在系統(tǒng)界面中設(shè)置了命名為PC的函數(shù),是用于關(guān)聯(lián)“讀取電影評論”按鈕,單擊事件發(fā)生即開始讀取評論的信息。實現(xiàn)代碼如圖5.11所示。圖5.11爬取電影信息回調(diào)函數(shù)定義Figure5.11definitionofcallbackfunctionforcrawlingmovieinformation5.3.2評論類型分布回調(diào)函數(shù)定義在系統(tǒng)界面中設(shè)置了命名為PLLXFB的函數(shù),是用于關(guān)聯(lián)“評論類型分布”按鈕,單擊事件發(fā)生后對爬取后的數(shù)據(jù)利用cut()函數(shù)實現(xiàn)評論類型分布。完整示例代碼如下圖5.12所示。圖5.12評論類型分布回調(diào)函數(shù)定義Figure5.12definitionofcallbackfunctionforcommenttypedistribution5.3.3評論詞云圖回調(diào)函數(shù)定義在系統(tǒng)界面中設(shè)置了命名為PLCYT的函數(shù),是用于關(guān)聯(lián)“評論類詞云圖”按鈕,先將評論數(shù)據(jù)中內(nèi)容“content”切分,程序代碼實現(xiàn)是:self.get_cut_words(content_series=self.data[‘content’]),緊接是將內(nèi)容進行詞頻統(tǒng)計,程序?qū)崿F(xiàn)代碼是:pd.Series(text1).values_counts()。實現(xiàn)詞云圖的完整代碼如下圖5.13所示。圖5.13評論詞云圖回調(diào)函數(shù)定義Figure5.13definitionofcommentcloudcallbackfunction5.3.4評論量前十城市回調(diào)函數(shù)定義在系統(tǒng)界面中設(shè)置了命名為PLSJLQSCS的函數(shù),是用于關(guān)聯(lián)“評論數(shù)據(jù)量前十城市”按鈕,按照城市進行分組,程序?qū)崿F(xiàn)代碼是:self.data.groupby(‘city’)[‘score’].count()。完整代碼如下圖5.14所示。圖5.14評論量前十城市回調(diào)函數(shù)定義Figure5.14definitionofcallbackfunctionfortop10citieswithcomments系統(tǒng)功能界面可以通過系統(tǒng)的_main_函數(shù)入口實現(xiàn)調(diào)用,首先創(chuàng)建一個系統(tǒng)應(yīng)用app,其次創(chuàng)建一個主窗體對象,并通過類中的初始化函數(shù)實現(xiàn)主窗體,最終通過主窗體的show屬性顯示出來。最后一步即退出系統(tǒng)應(yīng)用app。如圖5.15所示。圖STYLEREF1\s5.15__main__函數(shù)Figure5.15__main__function5.4系統(tǒng)演示此頁面是進行美化后的功能界面,如圖5.16所示。圖5.16功能界面Fig.5.16Functionalinterface點擊“讀取電影信息”,會進行一個網(wǎng)頁信息爬取,當評論爬取成功后,如圖5.17顯示評論讀取成功。圖5.17評論爬取成功Figure5.17Commentonsuccessfulcrawling點擊“評論類型分布”,會根據(jù)評論的得分,去劃分評論類型,如圖5.18所示。圖5.18評論類型圖Figure5.18Reviewtypediagram點擊“評論詞云圖”,詞云圖是根據(jù)清理后的數(shù)據(jù)利用jieba分詞庫分詞,在計算詞頻進行一個匯總,將匯總后的詞頻數(shù)據(jù)用詞云圖展示,如圖5.19所示。圖5.19詞云圖Fig.5.19WordCloudMap點擊“評論量前十城市”,是以城市做為分析,在根據(jù)城市的得分計算一個平均分,得到評論前十名的熱門城市排名。由圖可知,成都這座城市的觀眾熱情高漲度大于上廣深。圖5.20熱門城市排名圖Figure5.20Topcitiesrankingchart點擊“情感分析”,是將爬取得到的信息以及計算出來的情感類型進行一個展示,如圖5.21和圖5.22所示。圖5.21情感分析內(nèi)容Fig.5.21Contentofsentimentanalysis圖5.22情感分析內(nèi)容Fig.5.22Contentofsentimentanalysis6.總結(jié)如今,我們?nèi)タ措娪笆浅R姷男蓍e方式,甚至也成為了我們的生活習(xí)慣,而電影有的時候以“流量小生”,“小花旦”為潮流,只注重“量”而不看中“質(zhì)”,遭到了一大批網(wǎng)友的吐槽,也讓我們產(chǎn)生了審美疲勞。與此同時,貓眼等社交平臺用戶上的影視評論可以給正在觀望的觀眾提供有價值的參考信息。但也因為評論由各種五花八門,也讓觀眾難以決擇,對許多觀眾來說,想真正的了解電影已成為了一種障礙,因此機器學(xué)習(xí)的情感分析帶來了很大的便利。本文就先爬取貓眼影評上以《八佰》這部電影為例,爬取后的信息進行讀取、數(shù)據(jù)清洗、進行文本處理,jieba分詞、以及通過stopword停用詞典去掉停用詞,讓數(shù)據(jù)更有準確性,同時將文本評論進行情感分析,同時在進行機器學(xué)習(xí)文本分類模塊進行文本分類,對文本進行一個情感預(yù)測。本文由于個人能力不足的原因,在系統(tǒng)的設(shè)計實現(xiàn)過程中很多需要改進的地方。在情感分析中,在生活中會存在一些保持中立的態(tài)度,因此對于一些顧客的評論態(tài)度情感傾向不是很好定義,而本文之分為正面和負面可能產(chǎn)生一定影響。因此還需要對中性詞這一塊進行研究探討。參考文獻張安安,楊易霖.面向電子商務(wù)在線評價的細粒度情感分析研究濮澤堃.基于機器學(xué)習(xí)的電商評論情感分析系統(tǒng)[D].南京郵電大學(xué),2020.王洋.基于手機商品評論文本的情感分析與挖掘[J].企業(yè)科技與發(fā)展,2019(05):130-132.涂小琴.基于Python爬蟲的電影評論情感傾向性分析[J].現(xiàn)代計算機(專業(yè)版),2017(35):52-55.周敬一,郭燕,丁友東.基于深度學(xué)習(xí)的中文影評情感分析[J].上海大學(xué)學(xué)報(自然科學(xué)版),2018,24(05):703-712.田煜.基于語義情感分析的網(wǎng)絡(luò)熱點爬蟲輿情分析系統(tǒng)[J].軟件,2020,41(08):89-93.AlDabetSajaandTedmoriSaraandALSmadiMohammad.EnhancingArabicAspect-BasedSentimentAnalysisUsingDeepLearningModels[J].ComputerSpeech&Language,2021,:101224-.IrsoyO,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧波2025年浙江寧波市鎮(zhèn)海區(qū)招聘事業(yè)編制教師69人(中學(xué)崗位)筆試歷年參考題庫附帶答案詳解
- 天津2025年天津醫(yī)科大學(xué)招聘20人筆試歷年參考題庫附帶答案詳解
- 大理2025年云南大理州廣播電視局選調(diào)事業(yè)單位工作人員4人筆試歷年參考題庫附帶答案詳解
- 嘉興2025年浙江嘉興市秀洲區(qū)招聘高層次緊缺型衛(wèi)生專業(yè)技術(shù)人才62人筆試歷年參考題庫附帶答案詳解
- 臺州浙江臺州市立醫(yī)院招聘藥學(xué)技術(shù)人員筆試歷年參考題庫附帶答案詳解
- 南昌2025年中國鐵路南昌局招聘大專(高職)畢業(yè)生2025人筆試歷年參考題庫附帶答案詳解
- 北京2025年首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院招聘38人筆試歷年參考題庫附帶答案詳解
- 藝術(shù)創(chuàng)作靈感2026年藝術(shù)生心理狀態(tài)評估題
- 2026年初學(xué)者進階指南初級專業(yè)知識筆試題
- 超前小導(dǎo)管施工方案
- 2026年春蘇教版新教材小學(xué)科學(xué)二年級下冊(全冊)教學(xué)設(shè)計(附教材目錄P97)
- 2026年基因測序技術(shù)臨床應(yīng)用報告及未來五至十年生物科技報告
- 服裝銷售年底總結(jié)
- 文物安全保護責任書范本
- 2025公文寫作考試真題及答案
- 停電施工方案優(yōu)化(3篇)
- DB64∕T 1279-2025 鹽堿地綜合改良技術(shù)規(guī)程
- 2025年度耳鼻喉科工作總結(jié)及2026年工作計劃
- 2024年執(zhí)業(yè)藥師《藥學(xué)專業(yè)知識(一)》試題及答案
- JJF 1487-2014超聲波探傷試塊校準規(guī)范
- GB/T 39253-2020增材制造金屬材料定向能量沉積工藝規(guī)范
評論
0/150
提交評論