版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
電影網(wǎng)絡(luò)評論的文本分析案例目錄TOC\o"1-3"\h\u13704電影網(wǎng)絡(luò)評論的文本分析案例 192391.1數(shù)據(jù)獲取 1306511.1.1電影數(shù)據(jù)集抽樣 1156251.1.2評論評分獲取 145751.2文本預(yù)處理 2135161.2.1數(shù)據(jù)清洗 2308871.2.2中文分詞 3134091.2.3詞性過濾 39621.3建立網(wǎng)絡(luò)評論文本分類標(biāo)準(zhǔn) 411891.3.1確定主題個數(shù) 443141.3.2主題及關(guān)鍵詞可視化 5276021.3.3建立分類標(biāo)準(zhǔn) 860341.4網(wǎng)絡(luò)評論文本分類及情感傾向分析 8276581.1.1網(wǎng)絡(luò)評論文本分類 8323591.1.2基于情感詞典的網(wǎng)絡(luò)評論情感傾向分析 101.1數(shù)據(jù)獲取1.1.1電影數(shù)據(jù)集抽樣本文使用python軟件從電影數(shù)據(jù)庫網(wǎng)站(http://58921.com/)爬取2018年至2019年所有在國內(nèi)上映過的所有電影共計1057部,作為電影名稱總集。為盡可能保證質(zhì)量多樣性,依照總集中票房分布進(jìn)行隨機(jī)抽樣:將2018年527部電影根據(jù)票房分布分為5個區(qū)間,每個區(qū)間隨機(jī)抽取20部電影,得到100部電影;將2019年530部電影按同樣標(biāo)準(zhǔn)分為5個區(qū)間,每個區(qū)間隨機(jī)抽取20部電影,得到100部電影??紤]到話題多樣性的要求,再根據(jù)電影類型分布按比例人工抽取40部電影作為補(bǔ)充,最終得到的240部電影作為可用數(shù)據(jù)集。1.1.2評論評分獲取使用python軟件對豆瓣電影進(jìn)行爬蟲處理,爬取票房集中240部電影的評分和短評文本內(nèi)容。每部電影對應(yīng)一個最終評分,在豆瓣中以十分制顯示。短評選取按照點(diǎn)贊數(shù)排序后的前200條,對于短評不足200條的電影則選擇全部,共獲得38490條不重復(fù)的短評數(shù)據(jù)。將電影名稱集與評論評分?jǐn)?shù)據(jù)集按照電影名稱合并為一個,得到用于后續(xù)實(shí)證研究的數(shù)據(jù)集。數(shù)據(jù)字段包括電影名稱、評分、短評文本。示例如下:表4-1數(shù)據(jù)字段示例名稱評分短評文本紅海行動8.3超前點(diǎn)映場。場面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到任何尿點(diǎn)…作為戰(zhàn)爭片,已超額完成任務(wù),在真實(shí)度還原上,達(dá)到了國產(chǎn)影片從未有過的高度。紅海行動8.3故事沒有編排,兩個半小時劈頭蓋臉把爆破場面往觀眾臉上扔,累不累累不累!紅海行動8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會,讓我提前看到了這部等了好久期待好久的電影。林超賢導(dǎo)演果然是好,拍出了大片的場面,很燃!幾乎是從頭打到尾,比戰(zhàn)狼2不知好了太多。中國的軍事題材電影就應(yīng)該這么拍才好,不要那么多個人英雄主義的虛假做作,而是拍出質(zhì)感來。紅海行動8.3真人版吃雞和低配版《使命召喚》,一場大型的闖關(guān)游戲,沒有人物,沒有劇情,沒有主題,就是一通狂打,越到后面越視覺疲勞,不過最重要的問題還是空洞乏味,毫無起承轉(zhuǎn)合,看完了連角色都沒有認(rèn)全。紅海行動8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭渲染。1.2文本預(yù)處理電影短評內(nèi)容是觀眾對電影感受的自主表達(dá),評論字?jǐn)?shù)不一,格式自由多樣,且不同觀眾語言習(xí)慣不同,存在網(wǎng)絡(luò)用語、表情符號、不規(guī)范的標(biāo)點(diǎn)符號等。因此,這些原始文本數(shù)據(jù)不能直接用來提取主題進(jìn)行情感評分,而要先對數(shù)據(jù)進(jìn)行清洗,使格式標(biāo)準(zhǔn)化,并按照中文語義規(guī)則進(jìn)行分詞,以便后續(xù)研究的展開。1.2.1數(shù)據(jù)清洗由于在線評論本身的特點(diǎn),我們的原始數(shù)據(jù)中有許多無意義的詞,也有重復(fù)或是不具有情感表達(dá)效果的詞,這些內(nèi)容可能造成無效訓(xùn)練,甚至影響后續(xù)后續(xù)分析的準(zhǔn)確性,因此需要對短評文本進(jìn)行預(yù)處理清洗。主要操作如下:(1)刪除短句。過短的評論包含信息較少,大多無意義,因此剔除長度10以下的評論。(2)刪除英文及數(shù)字。用戶發(fā)布的評論格式自由,中文英文符號、網(wǎng)絡(luò)新詞縮寫混合使用,如“☆☆☆”、“很nice”、“666”、“yyds”,難以從此類評論有效提取觀眾的感情傾向,故刪除。(3)去除停用詞。該預(yù)處理方法的功能是過濾分詞結(jié)果中的噪聲,即一些出現(xiàn)頻率高但對于語義分析意義不大的標(biāo)點(diǎn)符號和詞語。本文在選用百度停用詞表、哈工大停用詞表及四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表這三個通用停詞表的基礎(chǔ)上,考慮到電影領(lǐng)域部分詞匯的專業(yè)性,引入了搜狗細(xì)胞詞庫中的電影、明星兩大詞庫,將其合并去重共得70218個停用詞。1.2.2中文分詞中英文由于語言表達(dá)習(xí)慣的不同,在分詞時思路也有較大區(qū)別。英文單詞之間通常以空格分開,可直接將空格作為分詞標(biāo)志。而中文語法復(fù)雜,且詞和詞組的邊界模糊,因此需要第三方分詞工具。本文采用目前國內(nèi)使用人數(shù)最多的jibe庫,它支持三種分詞模式,其中精確模式可以將句子較準(zhǔn)確地切開成為有效詞語,適合文本分析。如“我來到電影院觀看恐怖片”分詞為“我/來到/電影院/觀看/恐怖片”,方便統(tǒng)計詞頻發(fā)現(xiàn)熱點(diǎn),并挖掘文本中隱藏的主題及對應(yīng)特征詞。1.2.3詞性過濾為了減少無意義的訓(xùn)練,本文在分詞之后再次對文本進(jìn)行過濾。jieba庫中的jieba.posseg.cut功能可以輸出詞性,由于詞性種類較多難以判斷,輸出每一類的分詞示例觀察(如表4-2)。例如圖中o類是擬聲詞,這是對語義沒有幫助的詞,應(yīng)該舍棄;而描述性詞語和程度副詞應(yīng)該保留。最后得到的文檔包含詞性為[“v”,”n”,”d”,”ac”,”r”,”l”,”nr”,”b”,”t”,”i”,”s”,”ns”,”nz”,”ad”,”vn”,”nrt”,”j”,”z”,”nt”,”y”,”an”]的詞。此輪過濾建立在精確分詞的基礎(chǔ)上,且以詞性為標(biāo)準(zhǔn),過濾效果較好。表4-2詞性示例vndafcrlmnrbti超前場面真實(shí)緊湊中間但是任何超額完成一段海清整個春節(jié)劈頭蓋臉點(diǎn)映劇情其實(shí)很妙最后而是自己真實(shí)度兩個蔣璐霞半小時下來有條不紊沒有廁所果然揪心后面不過這次從未有過好久林超賢大型近些年血肉橫飛snsdfnzadqvnnrtpmqjuz臉上中國不要英雄主義認(rèn)全分鐘突擊令人按照那條上比的話最佳當(dāng)中好萊塢None大戰(zhàn)直接系列協(xié)作默契為了這條掌控般的緊繃國內(nèi)湄公河None華語確實(shí)種種預(yù)期合理除了這點(diǎn)央視來看干干凈凈ntoyvdanvinrfgrrvqhrze黑社會噼里啪啦也好持續(xù)矛盾等同于韓家其他人去過超低這位啊哈廣電局噼噼啪啪而已狡辯安全None張弛NoneNoneNone那位哇塞解放軍嗡嗡罷了None猥瑣NoneNoneNoneNoneNoneNone嘿呀1.3建立網(wǎng)絡(luò)評論文本分類標(biāo)準(zhǔn)1.3.1確定主題個數(shù)將收集到的原始評論通過數(shù)據(jù)預(yù)處理,最終得到33952條評論。作為一個聚類模型,LDA模型的話題數(shù)K對聚類結(jié)果的質(zhì)量有關(guān)鍵影響。為提高主題提取的準(zhǔn)確性,在訓(xùn)練LDA模型之前,應(yīng)先對不同話題數(shù)K的聚類效果進(jìn)行了大致評估。本文采用K-means進(jìn)行聚類,其中對K值的評估與確定用到肘部法則(elbowmethod)。肘部法則的原理如下:k-means是一種基于劃分的分類算法,以最小化SSE為目標(biāo)函數(shù)。將每個簇的質(zhì)點(diǎn)與簇內(nèi)樣本點(diǎn)的平方距離誤差和稱為畸變程度,對于一個簇,它的畸變程度越低,代表簇內(nèi)成員越緊密,反之則代表簇內(nèi)結(jié)構(gòu)越松散。當(dāng)類別數(shù)量增加時畸變程度下降,且變化過程中存在一個臨界點(diǎn),在該點(diǎn)時畸變程度發(fā)生突變,而后緩慢下降,這個臨界點(diǎn)被認(rèn)為是聚類效果較好的點(diǎn)[14]。這一步驟涉及的運(yùn)算量較大,為優(yōu)化程序減少耗時,采用多核算法LdaMulticore。得到圖4-1。觀察可知,當(dāng)K<7時,曲線下降趨勢陡峭,而K>7時,曲線趨于平緩,斜率突變的拐點(diǎn)7即為K的最佳值,因此本文選取7個主題。圖4-1Elbowmethod1.3.2主題及關(guān)鍵詞可視化本文采用pyLDAvis包將主題模型可視化直觀地展示主題分布和各主題下的關(guān)鍵詞,探究主題-主題,主題-詞語之間的關(guān)聯(lián)。主題-主題用MSD算法投影在二維空間中。主題與詞語之間的關(guān)聯(lián),以前通常直接用每個詞條的詞頻、TF-IDF來衡量,而pyLDAvis包用到以下公式:relevance(termw|topict)=λ?p(w|t)+(1?λ)?p(w|t)/p(w)該主題-詞語關(guān)聯(lián)度公式同時考慮了詞頻和詞語的獨(dú)特性兩方面,通過調(diào)節(jié)參數(shù)λ可以調(diào)整這兩個方面在決定關(guān)聯(lián)度時的權(quán)重,從而控制不同的下位詞顯示[6]。λ在0-1之間,越接近0得到的詞語獨(dú)屬性越強(qiáng),越接近1詞頻越高。本文中在對不同λ對應(yīng)的關(guān)鍵詞進(jìn)行比較后選擇1.0。得到的pyLDAvis可視化界面如圖4-2和圖4-3。圖4-2pyLDAvis主題分布圖4-3pyLDAvis關(guān)鍵詞圖4-2中圓圈代表提取的8個主題,圓圈的位置體現(xiàn)主題之間的關(guān)聯(lián),距離越近關(guān)聯(lián)性越強(qiáng),若重疊則說明存在語義的重合。本文得到的pyLDAvis圖主題分布均勻、距離適中,說明LDA模型效果較好。圓圈大小由主題包含文檔的多少決定,面積越大文檔數(shù)越多,代表性越強(qiáng),各主題代表性按照序號依次遞減。該圖利用Web前端工具生成,具有良好的交互式可視化效果,點(diǎn)擊某個圓圈會顯示對應(yīng)主題下包含的關(guān)鍵詞,詞語分布以條形圖的形式展示。圖4-3是選中主題4后出現(xiàn)的該話題下的關(guān)鍵詞,條形圖中藍(lán)色部分表示該詞在全部文檔中出現(xiàn)的頻率,紅色部分表示該詞在對應(yīng)的主題下出現(xiàn)的頻率?!邦}材”、“中國”、“現(xiàn)實(shí)”等是當(dāng)前話題的重點(diǎn)關(guān)鍵詞。1.3.3建立分類標(biāo)準(zhǔn)表4-3在線評論的主題分類主題1主題2主題3主題4主題5主題6主題7劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)劇情場面真實(shí)題材結(jié)局演技開心故事鏡頭真的中國情節(jié)主角喜劇喜劇技術(shù)導(dǎo)演現(xiàn)實(shí)最后設(shè)定精彩表4-3展示了LDA提取網(wǎng)絡(luò)評論主題的結(jié)果,得到7個主題以及各自對應(yīng)的特征詞。根據(jù)特征詞給主題命名,分別為:劇情、特效、真實(shí)性、題材、結(jié)局、角色塑造、笑點(diǎn)。1.4網(wǎng)絡(luò)評論文本分類及情感傾向分析1.1.1網(wǎng)絡(luò)評論文本分類本文將預(yù)處理后的網(wǎng)絡(luò)評論文本內(nèi)容按照表1的自定義分類標(biāo)準(zhǔn)進(jìn)行分類標(biāo)注,每條評論會輸出相應(yīng)的類別和隸屬度分?jǐn)?shù),得到結(jié)果示例如表4-4。表4-4分類示例名稱評分短評文本劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)主題紅海行動8.3超前點(diǎn)映場。場面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到…0.7526660.0000000.0000000.0000000.0000000.2306220.000000劇情紅海行動8.3故事沒有編排,兩個半小時劈頭蓋臉把爆破場面往觀眾臉上扔,累不累累…0.9282870.0119980.0119920.0119950.0119850.0119760.011972劇情紅海行動8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會,讓我提前看到了這部等了好久期…0.0000000.1260260.0000000.2174770.6452310.0000000.000000結(jié)局紅海行動8.3真人版吃雞和低配版《使命召喚》,一場大型的闖關(guān)游戲,沒有人物,沒有…0.0000000.0000000.000000.9784190.0000000.0000000.000000題材紅海行動8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭渲染。0.0118640.0118890.8521280.0729350.0118720.0118800.011866真實(shí)性觀察發(fā)現(xiàn),對于其中部分評論,出現(xiàn)了同時屬于多個主題且隸屬度相近的情況,因此設(shè)立一條評論對應(yīng)多個主題的模型作為參考。即將每條評論標(biāo)注為其隸屬度分?jǐn)?shù)前三的三個主題,統(tǒng)一賦予情感分?jǐn)?shù)。該模型將參與后續(xù)研究,并與評論話題一一對應(yīng)的主模型進(jìn)行回歸預(yù)測效果對比。多主題分類標(biāo)注情況如表4-5所示。表4-5多主題分類示例名稱評分短評文本主題1主題2主題3紅海行動8.3超前點(diǎn)映場。場面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到任何尿點(diǎn)…作為戰(zhàn)爭片,已...劇情角色塑造特效紅海行動8.3故事沒有編排,兩個半小時劈頭蓋臉把爆破場面往觀眾臉上扔,累不累累不累!劇情特效題材紅海行動8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會,讓我提前看到了這部等了好久期待好久的電影。林超賢導(dǎo)演果然...結(jié)局題材特效紅海行動8.3真人版吃雞和低配版《使命召喚》,一場大型的闖關(guān)游戲,沒有人物,沒有劇情,沒有主題,就是一通狂...題材劇情特效紅海行動8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭渲染。真實(shí)性題材特效1.1.2基于情感詞典的網(wǎng)絡(luò)評論情感傾向分析情感詞典是情感傾向分析的依據(jù),將文本表達(dá)轉(zhuǎn)換為準(zhǔn)確的情感程度需要首先構(gòu)建合適的情感詞典。根據(jù)語法規(guī)則,情感詞典主要包含基本情感詞、程度副詞、否定詞,基本情感詞表達(dá)評論的正面、中性或者負(fù)面的情感傾向,程度副詞增強(qiáng)或削弱情感,分為五個維度,否定詞能反轉(zhuǎn)評論的情感傾向[7]。本文在以往學(xué)者研究的情感詞典基礎(chǔ)上,結(jié)合電影短評詞典特征,自定義一個電影短評情感詞典。用五分制賦予每條評論子句合理的情感值,將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),計算規(guī)則見表4-6。表4-6情感分值計算規(guī)則情感詞組合分值情感詞組合分值正面/中性+過度5負(fù)面+過度1正面/中性+較4負(fù)面+較2正面/中性+一般3負(fù)面+一般3正面/中性+輕微2負(fù)面+輕微4正面/中性+不足1負(fù)面+不足5正面/中性+過度+否定1負(fù)面+過度+否定5正面/中性+較+否定2負(fù)面+較+否定4正面/中性+一般+否定3負(fù)面+一般+否定3正面/中性+輕微+否定4負(fù)面+輕微+否定2正面/中性+不足+否定5負(fù)面+不足+否定1對文本數(shù)據(jù)進(jìn)行賦值打分,示例如表4-7。表4-7情
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026四川大學(xué)華西醫(yī)院醫(yī)院感染管理部項(xiàng)目制科研助理招聘1人考試備考題庫及答案解析
- 2026年泉州晉江市第五實(shí)驗(yàn)小學(xué)春季教師招聘4人筆試備考題庫及答案解析
- 2026中國紡織出版社有限公司招聘考試備考試題及答案解析
- 2026江蘇南京大學(xué)招聘XZ2026-005商學(xué)院保潔員考試備考題庫及答案解析
- 2026年海南師范大學(xué)招聘備考題庫及完整答案詳解1套
- 2026年蘇州工業(yè)園區(qū)翰林幼兒園后勤輔助人員招聘備考題庫及答案詳解1套
- 四川南江公用事業(yè)發(fā)展集團(tuán)有限公司2025年面向社會公開招聘5名工作人員的備考題庫有答案詳解
- 2026年石家莊經(jīng)濟(jì)技術(shù)開發(fā)區(qū)開發(fā)建設(shè)集團(tuán)有限公司招聘工作人員35人備考題庫完整參考答案詳解
- 2026年湛江市坡頭區(qū)人力資源和社會保障局面向社會公開招聘編外工作人員備考題庫及參考答案詳解一套
- 2026年濰坊峽山醫(yī)院濰坊市福樂源康復(fù)養(yǎng)老中心護(hù)理人員招聘備考題庫及1套完整答案詳解
- 2025至2030中國疝氣修補(bǔ)術(shù)行業(yè)調(diào)研及市場前景預(yù)測評估報告
- 中國餐飲巨頭百勝集團(tuán)深度分析
- 2024-2025學(xué)年福建省廈門市雙十中七年級(上)期末英語試卷
- 胸鎖乳突肌區(qū)課件
- 2025年物業(yè)管理師《物業(yè)管理實(shí)務(wù)》真題及試題及答案
- 2025年協(xié)警輔警招聘考試題庫(新)及答案
- 鋼結(jié)構(gòu)施工優(yōu)化策略研究
- 車間輪崗工作總結(jié)
- 天花設(shè)計施工方案
- 本科院校實(shí)驗(yàn)員面試電子版題
- 2025年國家開放大學(xué)(電大)《國際經(jīng)濟(jì)法》期末考試復(fù)習(xí)題庫及答案解析
評論
0/150
提交評論