版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于線性支持向量回歸模型的網(wǎng)絡(luò)評(píng)論與在線評(píng)分的關(guān)系研究—以豆瓣電影為例目錄TOC\o"1-3"\h\u7970第一章緒論 5261381.1研究背景及意義 5200141.2研究對(duì)象及內(nèi)容 5228941.3研究方法 5158471.4創(chuàng)新點(diǎn) 6193871.4.1LDA主題分類,文本數(shù)據(jù)數(shù)值化 7180961.4.2采用支持向量回歸,提高小樣本擬合效果 797111.4.3考慮電影類型對(duì)評(píng)分評(píng)論模型的影響,兼顧定量定性分析 78073第二章文獻(xiàn)綜述 755472.1在線評(píng)論相關(guān)文獻(xiàn)綜述 7203912.2文本挖掘相關(guān)文獻(xiàn)綜述 815613第三章相關(guān)理論及模型 945523.1文本處理技術(shù) 9125323.2LDA主題模型 9243183.3文本聚類 10178293.4支持向量機(jī)和支持向量回歸 1017679第四章電影網(wǎng)絡(luò)評(píng)論的文本分析 11234604.1數(shù)據(jù)獲取 1132284.1.1電影數(shù)據(jù)集抽樣 11168934.1.2評(píng)論評(píng)分獲取 1155454.2文本預(yù)處理 1264454.2.1數(shù)據(jù)清洗 12177244.2.2中文分詞 12180934.2.3詞性過濾 12300014.3建立網(wǎng)絡(luò)評(píng)論文本分類標(biāo)準(zhǔn) 13179324.3.1確定主題個(gè)數(shù) 1380564.3.2主題及關(guān)鍵詞可視化 14193744.3.3建立分類標(biāo)準(zhǔn) 1621224.4網(wǎng)絡(luò)評(píng)論文本分類及情感傾向分析 1737534.4.1網(wǎng)絡(luò)評(píng)論文本分類 1718304.4.2基于情感詞典的網(wǎng)絡(luò)評(píng)論情感傾向分析 1831314第五章網(wǎng)絡(luò)評(píng)論與在線評(píng)分的關(guān)系分析 19196015.1短評(píng)文本與評(píng)分的關(guān)系 19198385.1.1數(shù)據(jù)的描述性分析 19130325.1.2相關(guān)性分析 1973015.1.3線性支持向量回歸分析 20232485.2電影類型對(duì)于評(píng)論和評(píng)分及兩者關(guān)系的影響 2052445.2.1評(píng)論詞云分析 2061435.2.2評(píng)分?jǐn)?shù)據(jù)描述性分析 2344345.2.3類型對(duì)評(píng)論-評(píng)分關(guān)系的影響研究 246517第六章總結(jié)與展望 25260266.1研究總結(jié) 25205766.2不足與展望 2527305參考文獻(xiàn) 27緒論1.1研究背景及意義隨著互聯(lián)網(wǎng)的普及和移動(dòng)應(yīng)用技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)進(jìn)入web2.0時(shí)代,電影、書籍、音樂等垂直網(wǎng)站和網(wǎng)絡(luò)社區(qū)等不斷涌現(xiàn),用戶不再僅僅是網(wǎng)站的瀏覽者,同時(shí)也是信息的創(chuàng)造者。在線評(píng)價(jià)越來越成為一種重要的信息載體,從消費(fèi)者角度來看,其他用戶的看法為他們的選擇提供參考;從商家角度來說,評(píng)價(jià)是可靠的反饋和建議;評(píng)價(jià)甚至還影響平臺(tái)、政府的決策。我們?cè)陔娪邦I(lǐng)域進(jìn)行在線情感分析時(shí)選取豆瓣電影作為數(shù)據(jù)來源。豆瓣電影是目前國(guó)內(nèi)最大的綜合電影網(wǎng)站,更新及時(shí),用戶規(guī)模龐大,水軍比例小,因此具有較強(qiáng)的權(quán)威性。另一方面,它同時(shí)具備完善的打分評(píng)價(jià)和評(píng)論評(píng)價(jià)系統(tǒng)。打分評(píng)價(jià)是用戶對(duì)產(chǎn)品給出的定量評(píng)分,操作方便;評(píng)論評(píng)價(jià)一般為幾十到幾百字的文本,用以描述用戶對(duì)產(chǎn)品的感受。豆瓣用戶在標(biāo)記或給某部電影打分時(shí)會(huì)被網(wǎng)站建議寫下短評(píng),這些評(píng)論包含了豐富且有價(jià)值的信息,是本文重點(diǎn)研究對(duì)象。從學(xué)術(shù)和理論角度來說,國(guó)內(nèi)已有較多學(xué)者對(duì)豆瓣電影進(jìn)行評(píng)論情感研究,但目前大多數(shù)的成果都集中在熱點(diǎn)、主題提取以及情感相關(guān)的定性分析,比較淺顯,針對(duì)評(píng)論與評(píng)分兩種評(píng)價(jià)關(guān)系的研究少,沒有得出評(píng)論情感與評(píng)分的回歸模型,也沒有對(duì)不同類型電影展開分析。本研究從上述研究領(lǐng)域的空白出發(fā),運(yùn)用LDA模型提取影評(píng)主題詞,建立文本分類標(biāo)準(zhǔn);同時(shí),自定義情感詞典對(duì)評(píng)論進(jìn)行1~5的情感賦值,使評(píng)論文本的情感數(shù)值化,在技術(shù)理論層面上實(shí)現(xiàn)了評(píng)論與評(píng)分間的定量分析。從現(xiàn)實(shí)角度來說,豆瓣影評(píng)是潛在觀眾獲取信息的重要平臺(tái),本文通過研究在線評(píng)論的主題分類和情感傾向,可以了解到什么樣的電影是觀眾喜歡的,在意的重點(diǎn)為何,不同類型對(duì)于評(píng)分有什么影響。一方面輔助消費(fèi)者在選擇電影時(shí)作出決策,另一方面能夠使電影出品方了解當(dāng)前觀眾的取向,改善劇本、選角、拍攝等方面,調(diào)整宣傳策略,主動(dòng)滿足大眾需求、適當(dāng)迎合電影市場(chǎng),從而獲得成功的口碑。1.2研究對(duì)象及內(nèi)容本文以豆瓣電影為研究對(duì)象,選取其評(píng)分和短評(píng)文本為具體研究素材,使用文本挖掘技術(shù)對(duì)用戶評(píng)論情感和在線評(píng)分的關(guān)系展開深入探討和實(shí)證分析。具體研究?jī)?nèi)容如下:(1)對(duì)網(wǎng)絡(luò)評(píng)論和文本挖掘相關(guān)知識(shí)進(jìn)行詳細(xì)的文獻(xiàn)綜述,介紹LDA主題模型和文本聚類等理論,為后面的研究奠定基礎(chǔ);(2)研究豆瓣短評(píng)文本內(nèi)容與評(píng)分的關(guān)系,構(gòu)建分類標(biāo)準(zhǔn),基于自定義情感詞典對(duì)每一條評(píng)論進(jìn)行情感傾向賦值,構(gòu)建線性支持向量回歸模型得出定量關(guān)系;(3)對(duì)于不同種類電影進(jìn)行模型擬合,研究電影類型對(duì)短評(píng)與評(píng)分關(guān)系的影響;(4)根據(jù)研究結(jié)果,對(duì)電影制片方提出針對(duì)性建議。1.3研究方法為探究用戶在線評(píng)論情感對(duì)評(píng)分的影響,本文設(shè)計(jì)了如圖1-1的研究路線。研究過程中具體用到以下方法:網(wǎng)絡(luò)爬蟲。隨著互聯(lián)網(wǎng)的迅速普及和發(fā)展,網(wǎng)絡(luò)上的信息越來越多,種類繁多且質(zhì)量參差不齊。獲取信息的難度與人們對(duì)信息的需求同步增長(zhǎng),因此產(chǎn)生了一種能夠按照一定規(guī)則自動(dòng)采集網(wǎng)站信息的程序,被稱為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站。本文采用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行豆瓣評(píng)分、短評(píng)的搜集,為后續(xù)研究提供數(shù)據(jù)。(2)LDA主題模型。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),它采用了詞袋的方法,將每一篇文檔視為一個(gè)詞頻向量,從而使文本能夠轉(zhuǎn)化為數(shù)值信息參與建模。每條豆瓣電影短評(píng)都有著自己的中心主題,通過LDA主題模型可以挖掘出文本背后隱藏的主題。(3)情感賦值。由于本文研究涉及定量分析,需要將評(píng)論文本這類非結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)。首先構(gòu)建情感詞典,按照語法規(guī)則自定義賦分標(biāo)準(zhǔn);再根據(jù)情感詞典,對(duì)文本中的情感傾向性及情感強(qiáng)度進(jìn)行賦值。從而得到數(shù)值化的情感傾向表達(dá),參與后續(xù)研究。(4)支持向量回歸。支持向量機(jī)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,核心思想是最大化分類邊際,適用于小樣本回歸預(yù)測(cè)。本文分別構(gòu)建因變量為豆瓣評(píng)分,自變量為劇情、真實(shí)性、喜劇性等因素的多元線性模型,探討豆瓣短評(píng)文本內(nèi)容對(duì)評(píng)分的分別影響。(5)詞云。詞云又稱文字云,即通過形成關(guān)鍵詞云層或關(guān)鍵詞渲染,對(duì)網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的關(guān)鍵詞的視覺上的突出。詞云圖過濾掉大量的文本信息,使瀏覽者只要掃一眼就可以領(lǐng)略文本的主旨。本文采用詞云圖分析觀眾對(duì)于不同類型電影的關(guān)注重點(diǎn)。圖1-1研究路線圖1.4創(chuàng)新點(diǎn)1.4.1LDA主題分類,文本數(shù)據(jù)數(shù)值化之前學(xué)者對(duì)于網(wǎng)絡(luò)評(píng)論文本情感傾向的研究大多為定性研究,圍繞情緒積極性、消極性展開的研究較多。而本文使用LDA模型提取網(wǎng)絡(luò)評(píng)論文本主題,得到劇情、特效、真實(shí)性、題材、結(jié)局、角色塑造、笑點(diǎn)七大類,根據(jù)隸屬度將評(píng)論文本標(biāo)記為不同分類;再基于情感詞典和自定義評(píng)分規(guī)則對(duì)每條評(píng)論進(jìn)行情感賦值,特別把表達(dá)情緒強(qiáng)度的詞語納入考慮,區(qū)間1-5分,使文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),直觀明確地體現(xiàn)觀眾對(duì)于電影不同方面的情感傾向程度,便于后續(xù)模型研究。此外,本文還構(gòu)建了一條文本對(duì)應(yīng)多個(gè)主題的模型,與原有模型進(jìn)行對(duì)比。1.4.2采用支持向量回歸,提高小樣本擬合效果對(duì)數(shù)值化的評(píng)論數(shù)據(jù)和評(píng)分進(jìn)行模型擬合時(shí),考慮一般多元線性回歸、支持向量回歸和神經(jīng)網(wǎng)絡(luò)。支持向量機(jī)具有稀疏性和穩(wěn)健性的特點(diǎn),這是因?yàn)樗c從歸納到演繹的傳統(tǒng)過程不同,另辟蹊徑實(shí)現(xiàn)了從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化通常的分類和回歸等問題,高效可靠。由于本文數(shù)據(jù)樣本量較小,采用支持向量機(jī)進(jìn)行回歸預(yù)測(cè)的可靠度高于另外兩者。1.4.3考慮電影類型對(duì)評(píng)分評(píng)論模型的影響,兼顧定量定性分析目前大多數(shù)關(guān)于電影情感分析的研究,在得出定量模型后,并沒有考慮其他因素對(duì)于關(guān)系模型本身的影響。而本文在模型的基礎(chǔ)上,關(guān)注電影類型對(duì)于評(píng)論和評(píng)分之間關(guān)系的影響。對(duì)不同類型電影分別帶入模型發(fā)現(xiàn)差異,并進(jìn)行詞云、相關(guān)性分析,找出背后隱藏的深層信息。一方面幫助電影出品方更好地了解觀眾,為其決策提供支持;另一方面對(duì)其他領(lǐng)域的在線評(píng)論研究具有思路上的參考意義。文獻(xiàn)綜述2.1在線評(píng)論相關(guān)文獻(xiàn)綜述在線評(píng)論的一個(gè)重要作用就是向其他用戶傳遞評(píng)論者的認(rèn)同度,也就是產(chǎn)品口碑。網(wǎng)絡(luò)上的在線評(píng)論由消費(fèi)者生產(chǎn)出來,對(duì)其他消費(fèi)者作出購(gòu)買決策時(shí)起到輔助作用[28]。國(guó)外對(duì)于在線評(píng)論的研究開始較早,20世紀(jì)50年代就有學(xué)者著手研究口碑對(duì)消費(fèi)者的影響[23]。隨著時(shí)代的發(fā)展,相關(guān)研究不斷深入。Floh等人(2013)提出潛在消費(fèi)者的購(gòu)買行為受到在線評(píng)論的形式和內(nèi)容的直接影響[18]。Chong等人(2017)研究在線評(píng)論如何直接影響產(chǎn)品的需求,以Amazon網(wǎng)站為數(shù)據(jù)來源,驗(yàn)證了在線評(píng)論的數(shù)量、正面和負(fù)面評(píng)論的數(shù)量都是重要影響因素[20]。Kumar(2006)認(rèn)為,在線評(píng)論可以幫助企業(yè)挖掘潛在的購(gòu)買者,通過評(píng)論使其對(duì)產(chǎn)品有所了解,進(jìn)而培養(yǎng)忠誠(chéng)感[24]。目前,研究早已不局限于在線評(píng)論本身,涉及到評(píng)論有用性、情感分析等方面。Ghose和Ipeirotis(2007)針對(duì)搜索型產(chǎn)品分析了評(píng)論的主客觀傾向、主客觀傾向混雜度對(duì)在線評(píng)論有用性的影響[21]。Mudambi等(2010)通過建立用戶評(píng)價(jià)有用性模型研究了評(píng)論極端性、評(píng)論深度和商品類型對(duì)感知的評(píng)論有用性的影響[25]。國(guó)內(nèi)在線評(píng)論研究起步較晚,但發(fā)展迅速且方向多樣。郝媛媛等人(2009)基于網(wǎng)絡(luò)面板數(shù)據(jù)環(huán)境研究了影評(píng)情感傾向與電影票房收入的關(guān)系,并進(jìn)一步比較不同情感等級(jí)的評(píng)論對(duì)票房影響強(qiáng)度的差異[3]。郝媛媛等在2010年的另一項(xiàng)研究中,結(jié)合文本挖掘技術(shù)和實(shí)證研究方法,建立了在線評(píng)論有用性影響因素模型,發(fā)現(xiàn)當(dāng)情感表現(xiàn)積極,或是正負(fù)情感混雜度高,或是主客觀表達(dá)混雜度高的情況下,評(píng)論的影響效應(yīng)有所增強(qiáng)[2]。楊秋韻等人(2019)從評(píng)論的基本特征、評(píng)論者的行為特征、商品的特征和消費(fèi)者的行為特征四個(gè)維度總結(jié)了評(píng)論有用性的影響因素[17]。在消費(fèi)者購(gòu)買意愿方面,邱凌凡等人(2019)利用logistic回歸模型,證明了消費(fèi)者尤其是潛在消費(fèi)者是否作出購(gòu)買決定,在很大程度上受到在線評(píng)論的影響[10]。王綺和鄭曉濤(2016)通過實(shí)證研究提出了比起整體評(píng)分,消費(fèi)者更加關(guān)注少數(shù)網(wǎng)絡(luò)評(píng)論所給出的購(gòu)買建議的觀點(diǎn)[11]。2.2文本挖掘相關(guān)文獻(xiàn)綜述本文的文本挖掘研究從LDA主題識(shí)別和情感分析兩個(gè)方面展開。在話題識(shí)別中,第一個(gè)主題模型——LDA模型是由Blei等人(2003)通過貝葉斯改進(jìn)PLSA模型后提出的,這種主題模型具有優(yōu)秀的降維能力和扎實(shí)的概率理論基礎(chǔ),非常適合評(píng)論文本提取主題概率,成為了研究文本類型的數(shù)據(jù)重要工具[19]。近年來,LDA模型因具有優(yōu)秀的降維能力、針對(duì)復(fù)雜系統(tǒng)的建模能力和良好的擴(kuò)展性,成為文本挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。通過LDA挖掘出的主題可以幫助人們理解海量文本背后隱藏的語義,也可以作為其他文本分析方法的輸入,完成文本分類、話題檢測(cè)、文本自動(dòng)摘要和關(guān)聯(lián)判斷等多方面的文本挖掘任務(wù)。2019年,王濤等基于多種分類器,通過主題模型與語義網(wǎng)絡(luò)對(duì)旅游電商中的評(píng)論文本進(jìn)行挖掘,為商家改善商品質(zhì)量提出建議,同時(shí)為消費(fèi)者購(gòu)買提供指導(dǎo)[12]。Weng等(2010)在對(duì)微博用戶進(jìn)行畫像時(shí)用到LDA模型,他將同一微博用戶的所有微博文本合成一篇文章,挖掘隱藏的主題[29]。情感分析(sentimentanalysis),又稱傾向性分析、情感挖掘,是用戶對(duì)商品、服務(wù)等評(píng)論內(nèi)容的處理,用于分析用戶對(duì)評(píng)論對(duì)象的態(tài)度。早在1997年,V.Hatzivassiloglou和K.R.McKeown就嘗試使用監(jiān)督學(xué)習(xí)的方法對(duì)詞語進(jìn)行語義傾向判別,并通過加入形容詞之間的接續(xù)信息提升判定準(zhǔn)確率,優(yōu)化后的模型確率達(dá)90%[22]。2002年,B.Pang等使用機(jī)器學(xué)習(xí)技術(shù)分析比較了支持向量機(jī)、樸素貝葉斯、最大熵3種分析方法的效果,發(fā)現(xiàn)支持向量機(jī)的方法準(zhǔn)確率最高,達(dá)到80%以上[26]。國(guó)內(nèi)學(xué)者綜合上述兩種方法進(jìn)行情感傾向研究。2019年,徐善山基于領(lǐng)域詞典,使用樸素貝葉斯和SVM模型兩種機(jī)器學(xué)習(xí)方法對(duì)文本評(píng)論進(jìn)行情感分類[15]。在電影領(lǐng)域,除去基于詞典或機(jī)器學(xué)習(xí)的文檔級(jí)情感分析之外,還有方面級(jí)情感分析。一部電影有很多不同的方面,比如導(dǎo)演、劇本、表演、故事等等。影評(píng)人可能會(huì)根據(jù)這些方面給出自己的意見。如果考慮到個(gè)別方面的極性,就有可能對(duì)評(píng)論進(jìn)行更好的分析。Thet等人在2010年提出了一種對(duì)影評(píng)人對(duì)電影各個(gè)方面的情感取向和情感強(qiáng)度進(jìn)行精細(xì)分析的方法。王偉軍、黃英輝等人(2017)通過爬取微博評(píng)論信息,利用《同義詞詞林》以及word2vec等工具構(gòu)建了新的情感字典,進(jìn)一步通過分析公眾情感對(duì)新產(chǎn)品市場(chǎng)做預(yù)測(cè)研究[13]。黃昭婷等(2017)通過對(duì)電影評(píng)論進(jìn)行文本情感分析和建模,分析出每一部電影的情感特征,并對(duì)情感特征進(jìn)行電影聚類分析[4]。馬松岳、許鑫(2016)通過使用ROSTEA工具進(jìn)行情感分析得到評(píng)論評(píng)價(jià)的綜合情緒值,發(fā)現(xiàn)其與打分評(píng)價(jià)的相關(guān)很高,且評(píng)論的情感強(qiáng)度賦權(quán)影響不大,可以根據(jù)評(píng)論評(píng)價(jià)預(yù)測(cè)打分,并給出相應(yīng)的回歸模型[9]。與此類似的,夏啟政、董益好(2019)通過用戶與評(píng)論特征構(gòu)建的二分網(wǎng)絡(luò),分析用戶的評(píng)論傾向,將評(píng)論用戶與評(píng)論特征進(jìn)行點(diǎn)線連接方式構(gòu)建網(wǎng)絡(luò)聯(lián)系,結(jié)合情感分析建立新的評(píng)分模型,與原豆瓣評(píng)分相比較[27]。相關(guān)理論及模型3.1文本處理技術(shù)文本處理,就是運(yùn)用一定技術(shù)、程序?qū)φZ言文字進(jìn)行處理的手段,核心目的是將“自然語言”轉(zhuǎn)化為“符號(hào)語言”。主要步驟包括文本分詞、文本清洗、標(biāo)準(zhǔn)化、特征提取等。分詞是將連續(xù)的句子或段落按照語法規(guī)則分成單獨(dú)的詞語的過程。由于中文的最小單元是漢字,漢字存在單獨(dú)表意和連字成詞表意兩種情況,詞與詞之間沒有明確的界限[16],因此在中文文本預(yù)處理過程中,分詞是最基礎(chǔ)也最重要的一步,是后續(xù)進(jìn)行標(biāo)準(zhǔn)化、特征提取以及情感賦值的前提,分詞的效果影響分類模型的效果。中文分詞算法主要有兩種,分別是基于詞典的分詞算法和基于數(shù)理統(tǒng)計(jì)的分詞算法。前者依靠與詞典進(jìn)行匹配分詞,簡(jiǎn)易、高效,但是對(duì)詞典的依賴性較強(qiáng),對(duì)于詞典中沒有的詞語難以識(shí)別;后者有較好的學(xué)習(xí)能力,但是需要非常多的數(shù)據(jù),不適用于小樣本。在中文分詞實(shí)際應(yīng)用中,這兩種算法通常被結(jié)合起來使用,提高分詞的正確率。停用詞指的是在處理文本數(shù)據(jù)的過程中過濾掉一些沒有實(shí)際意義的詞,目的是減少后續(xù)研究中不必要的操作,提高效率。文本中的停用詞主要包括四種,分別是副詞、介詞、連接詞和標(biāo)點(diǎn)符號(hào)。停用詞表是對(duì)常見停用詞語的整理,針對(duì)國(guó)內(nèi)學(xué)者中文分詞的需要,目前已有多種適用于中文文本的標(biāo)準(zhǔn)停用詞表,如哈爾濱工業(yè)大學(xué)的停用詞詞表、四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室的停用詞表、百度停用詞表等等[5]。3.2LDA主題模型LDA主題模型(LatentDirichletAllocation)是一種包含詞語、主題、文檔的三層貝葉斯概率模型,它通過一定的概率統(tǒng)計(jì)方法給出文檔集中每篇文檔的主題,能夠用來識(shí)別文檔中隱藏的主題信息。一篇文檔中每個(gè)詞語出現(xiàn)的條件概率公式為:p(詞語∣文檔)=∑p(詞語∣主題)×p(主題∣文檔)LDA主題模型的生成流程為:首先對(duì)于每一個(gè)文檔抽取一個(gè)主題,再?gòu)某榈街黝}對(duì)應(yīng)的詞語中抽取一個(gè)詞語,重復(fù)上面的步驟直到文本中每一個(gè)詞語都被抽到。設(shè)有一個(gè)文檔集合D,主題(topic)集合T,把D中每個(gè)文檔d看作一個(gè)單詞序列<w1,w2,…,wn>,wi表示第p(w∣d)=p(w∣t)×p(t∣d)其中p(w∣d)表示文檔d中的單詞在整篇文檔中出現(xiàn)的概率,p(t∣d)表示文檔中不同主題的概率,p(w∣t)表示主題中生成單詞的概率。D中的文檔d匹配到不同主題的概率為θd<pt1,...,ptk>,pti表示d匹配T中第i個(gè)topic的概率。T中的主題t對(duì)應(yīng)不同單詞的概率φt<pw1,...,pwm>,pwi3.3文本聚類文本聚類是一種無監(jiān)督學(xué)習(xí)方式,依據(jù)同類文檔相似度大、不同類文檔相似度小的假設(shè),把一個(gè)數(shù)據(jù)根據(jù)某種規(guī)則劃分為多個(gè)子數(shù)據(jù),這些數(shù)據(jù)被稱為聚類。聚類過程中通常使用距離度量表示相似相異度[1]。因?yàn)闊o監(jiān)督的特點(diǎn),聚類相對(duì)靈活,不僅不需要訓(xùn)練,還具備一定的自動(dòng)處理能力,已經(jīng)成為摘要、檢索、優(yōu)化文本分類的重要方法,在文本分析、網(wǎng)頁(yè)搜索、推薦系統(tǒng)、商務(wù)等多個(gè)領(lǐng)域都有著十分廣泛的應(yīng)用。常用的文本聚類算法主要有基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法等。基于劃分的聚類算法是聚類中最為簡(jiǎn)單的算法。它適用于孤立的和緊湊的簇,基本想法是尋找一個(gè)可以最小化某一誤差準(zhǔn)則的聚類結(jié)構(gòu),最著名的準(zhǔn)則是誤差平方和(SSE),度量所有樣本點(diǎn)到其聚類中心的歐氏距離之和[1]。本文用到的k-means是采用平方誤差準(zhǔn)則的代表性算法,容易實(shí)現(xiàn)且計(jì)算高效,對(duì)于大部分?jǐn)?shù)據(jù)都有較強(qiáng)的適應(yīng)性,在小樣本中表現(xiàn)優(yōu)秀。算法思想如下:(1)隨機(jī)選取樣本集中的K個(gè)樣本作為初始的聚類中心;(2)計(jì)算其他樣本分別與這K個(gè)聚類中心的距離,并將其分到距離最近的聚類中心所在的類中;(3)劃分完成后,重新計(jì)算每個(gè)聚類的聚類中心;(4)重復(fù)2、3步驟直到滿足某個(gè)終止條件。確定K的個(gè)數(shù)是K-means算法中最關(guān)鍵的。3.4支持向量機(jī)和支持向量回歸支持向量機(jī)是一種監(jiān)督式學(xué)習(xí)的二分類模型,由Cortes和Vapnik于1995年首先提出,通常用于線性分類,也可使用核技巧進(jìn)行非線性分類。支持向量機(jī)基于統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,研究如何從給定的有限樣本學(xué)習(xí)任務(wù)中,尋求學(xué)習(xí)精度與能力之間的最佳折衷平衡,以便獲得最好的泛化能力。本文在構(gòu)建模型時(shí)用到的支持向量回歸是支持向量機(jī)的一個(gè)重要應(yīng)用分支。其思路為:對(duì)于一般的回歸問題,給定訓(xùn)練樣本D={(x1,y1),(x2,y2),...,(xn,yn)},yi∈R,w,b分別為超平面的法向量和截距,是待確定的參數(shù)。我們希望學(xué)習(xí)到一個(gè)f(x)使得其與y盡可能的接近,只有當(dāng)f(x)與y完全相同時(shí),模型的損失才為零。而支持向量回歸設(shè)定能容忍f(x)與y之間的最大偏差ε,當(dāng)f(x)與圖3-1支持向量回歸示意圖電影網(wǎng)絡(luò)評(píng)論的文本分析4.1數(shù)據(jù)獲取4.1.1電影數(shù)據(jù)集抽樣本文使用python軟件從電影數(shù)據(jù)庫(kù)網(wǎng)站(http://58921.com/)爬取2018年至2019年所有在國(guó)內(nèi)上映過的所有電影共計(jì)1057部,作為電影名稱總集。為盡可能保證質(zhì)量多樣性,依照總集中票房分布進(jìn)行隨機(jī)抽樣:將2018年527部電影根據(jù)票房分布分為5個(gè)區(qū)間,每個(gè)區(qū)間隨機(jī)抽取20部電影,得到100部電影;將2019年530部電影按同樣標(biāo)準(zhǔn)分為5個(gè)區(qū)間,每個(gè)區(qū)間隨機(jī)抽取20部電影,得到100部電影??紤]到話題多樣性的要求,再根據(jù)電影類型分布按比例人工抽取40部電影作為補(bǔ)充,最終得到的240部電影作為可用數(shù)據(jù)集。4.1.2評(píng)論評(píng)分獲取使用python軟件對(duì)豆瓣電影進(jìn)行爬蟲處理,爬取票房集中240部電影的評(píng)分和短評(píng)文本內(nèi)容。每部電影對(duì)應(yīng)一個(gè)最終評(píng)分,在豆瓣中以十分制顯示。短評(píng)選取按照點(diǎn)贊數(shù)排序后的前200條,對(duì)于短評(píng)不足200條的電影則選擇全部,共獲得38490條不重復(fù)的短評(píng)數(shù)據(jù)。將電影名稱集與評(píng)論評(píng)分?jǐn)?shù)據(jù)集按照電影名稱合并為一個(gè),得到用于后續(xù)實(shí)證研究的數(shù)據(jù)集。數(shù)據(jù)字段包括電影名稱、評(píng)分、短評(píng)文本。示例如下:表4-1數(shù)據(jù)字段示例名稱評(píng)分短評(píng)文本紅海行動(dòng)8.3超前點(diǎn)映場(chǎng)。場(chǎng)面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到任何尿點(diǎn)…作為戰(zhàn)爭(zhēng)片,已超額完成任務(wù),在真實(shí)度還原上,達(dá)到了國(guó)產(chǎn)影片從未有過的高度。紅海行動(dòng)8.3故事沒有編排,兩個(gè)半小時(shí)劈頭蓋臉把爆破場(chǎng)面往觀眾臉上扔,累不累累不累!紅海行動(dòng)8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會(huì),讓我提前看到了這部等了好久期待好久的電影。林超賢導(dǎo)演果然是好,拍出了大片的場(chǎng)面,很燃!幾乎是從頭打到尾,比戰(zhàn)狼2不知好了太多。中國(guó)的軍事題材電影就應(yīng)該這么拍才好,不要那么多個(gè)人英雄主義的虛假做作,而是拍出質(zhì)感來。紅海行動(dòng)8.3真人版吃雞和低配版《使命召喚》,一場(chǎng)大型的闖關(guān)游戲,沒有人物,沒有劇情,沒有主題,就是一通狂打,越到后面越視覺疲勞,不過最重要的問題還是空洞乏味,毫無起承轉(zhuǎn)合,看完了連角色都沒有認(rèn)全。紅海行動(dòng)8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭(zhēng)渲染。4.2文本預(yù)處理電影短評(píng)內(nèi)容是觀眾對(duì)電影感受的自主表達(dá),評(píng)論字?jǐn)?shù)不一,格式自由多樣,且不同觀眾語言習(xí)慣不同,存在網(wǎng)絡(luò)用語、表情符號(hào)、不規(guī)范的標(biāo)點(diǎn)符號(hào)等。因此,這些原始文本數(shù)據(jù)不能直接用來提取主題進(jìn)行情感評(píng)分,而要先對(duì)數(shù)據(jù)進(jìn)行清洗,使格式標(biāo)準(zhǔn)化,并按照中文語義規(guī)則進(jìn)行分詞,以便后續(xù)研究的展開。4.2.1數(shù)據(jù)清洗由于在線評(píng)論本身的特點(diǎn),我們的原始數(shù)據(jù)中有許多無意義的詞,也有重復(fù)或是不具有情感表達(dá)效果的詞,這些內(nèi)容可能造成無效訓(xùn)練,甚至影響后續(xù)后續(xù)分析的準(zhǔn)確性,因此需要對(duì)短評(píng)文本進(jìn)行預(yù)處理清洗。主要操作如下:(1)刪除短句。過短的評(píng)論包含信息較少,大多無意義,因此剔除長(zhǎng)度10以下的評(píng)論。(2)刪除英文及數(shù)字。用戶發(fā)布的評(píng)論格式自由,中文英文符號(hào)、網(wǎng)絡(luò)新詞縮寫混合使用,如“☆☆☆”、“很nice”、“666”、“yyds”,難以從此類評(píng)論有效提取觀眾的感情傾向,故刪除。(3)去除停用詞。該預(yù)處理方法的功能是過濾分詞結(jié)果中的噪聲,即一些出現(xiàn)頻率高但對(duì)于語義分析意義不大的標(biāo)點(diǎn)符號(hào)和詞語。本文在選用百度停用詞表、哈工大停用詞表及四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表這三個(gè)通用停詞表的基礎(chǔ)上,考慮到電影領(lǐng)域部分詞匯的專業(yè)性,引入了搜狗細(xì)胞詞庫(kù)中的電影、明星兩大詞庫(kù),將其合并去重共得70218個(gè)停用詞。4.2.2中文分詞中英文由于語言表達(dá)習(xí)慣的不同,在分詞時(shí)思路也有較大區(qū)別。英文單詞之間通常以空格分開,可直接將空格作為分詞標(biāo)志。而中文語法復(fù)雜,且詞和詞組的邊界模糊,因此需要第三方分詞工具。本文采用目前國(guó)內(nèi)使用人數(shù)最多的jibe庫(kù),它支持三種分詞模式,其中精確模式可以將句子較準(zhǔn)確地切開成為有效詞語,適合文本分析。如“我來到電影院觀看恐怖片”分詞為“我/來到/電影院/觀看/恐怖片”,方便統(tǒng)計(jì)詞頻發(fā)現(xiàn)熱點(diǎn),并挖掘文本中隱藏的主題及對(duì)應(yīng)特征詞。4.2.3詞性過濾為了減少無意義的訓(xùn)練,本文在分詞之后再次對(duì)文本進(jìn)行過濾。jieba庫(kù)中的jieba.posseg.cut功能可以輸出詞性,由于詞性種類較多難以判斷,輸出每一類的分詞示例觀察(如表4-2)。例如圖中o類是擬聲詞,這是對(duì)語義沒有幫助的詞,應(yīng)該舍棄;而描述性詞語和程度副詞應(yīng)該保留。最后得到的文檔包含詞性為[“v”,”n”,”d”,”ac”,”r”,”l”,”nr”,”b”,”t”,”i”,”s”,”ns”,”nz”,”ad”,”vn”,”nrt”,”j”,”z”,”nt”,”y”,”an”]的詞。此輪過濾建立在精確分詞的基礎(chǔ)上,且以詞性為標(biāo)準(zhǔn),過濾效果較好。表4-2詞性示例vndafcrlmnrbti超前場(chǎng)面真實(shí)緊湊中間但是任何超額完成一段海清整個(gè)春節(jié)劈頭蓋臉點(diǎn)映劇情其實(shí)很妙最后而是自己真實(shí)度兩個(gè)蔣璐霞半小時(shí)下來有條不紊沒有廁所果然揪心后面不過這次從未有過好久林超賢大型近些年血肉橫飛snsdfnzadqvnnrtpmqjuz臉上中國(guó)不要英雄主義認(rèn)全分鐘突擊令人按照那條上比的話最佳當(dāng)中好萊塢None大戰(zhàn)直接系列協(xié)作默契為了這條掌控般的緊繃國(guó)內(nèi)湄公河None華語確實(shí)種種預(yù)期合理除了這點(diǎn)央視來看干干凈凈ntoyvdanvinrfgrrvqhrze黑社會(huì)噼里啪啦也好持續(xù)矛盾等同于韓家其他人去過超低這位啊哈廣電局噼噼啪啪而已狡辯安全None張弛NoneNoneNone那位哇塞解放軍嗡嗡罷了None猥瑣NoneNoneNoneNoneNoneNone嘿呀4.3建立網(wǎng)絡(luò)評(píng)論文本分類標(biāo)準(zhǔn)4.3.1確定主題個(gè)數(shù)將收集到的原始評(píng)論通過數(shù)據(jù)預(yù)處理,最終得到33952條評(píng)論。作為一個(gè)聚類模型,LDA模型的話題數(shù)K對(duì)聚類結(jié)果的質(zhì)量有關(guān)鍵影響。為提高主題提取的準(zhǔn)確性,在訓(xùn)練LDA模型之前,應(yīng)先對(duì)不同話題數(shù)K的聚類效果進(jìn)行了大致評(píng)估。本文采用K-means進(jìn)行聚類,其中對(duì)K值的評(píng)估與確定用到肘部法則(elbowmethod)。肘部法則的原理如下:k-means是一種基于劃分的分類算法,以最小化SSE為目標(biāo)函數(shù)。將每個(gè)簇的質(zhì)點(diǎn)與簇內(nèi)樣本點(diǎn)的平方距離誤差和稱為畸變程度,對(duì)于一個(gè)簇,它的畸變程度越低,代表簇內(nèi)成員越緊密,反之則代表簇內(nèi)結(jié)構(gòu)越松散。當(dāng)類別數(shù)量增加時(shí)畸變程度下降,且變化過程中存在一個(gè)臨界點(diǎn),在該點(diǎn)時(shí)畸變程度發(fā)生突變,而后緩慢下降,這個(gè)臨界點(diǎn)被認(rèn)為是聚類效果較好的點(diǎn)[14]。這一步驟涉及的運(yùn)算量較大,為優(yōu)化程序減少耗時(shí),采用多核算法LdaMulticore。得到圖4-1。觀察可知,當(dāng)K<7時(shí),曲線下降趨勢(shì)陡峭,而K>7時(shí),曲線趨于平緩,斜率突變的拐點(diǎn)7即為K的最佳值,因此本文選取7個(gè)主題。圖4-1Elbowmethod4.3.2主題及關(guān)鍵詞可視化本文采用pyLDAvis包將主題模型可視化直觀地展示主題分布和各主題下的關(guān)鍵詞,探究主題-主題,主題-詞語之間的關(guān)聯(lián)。主題-主題用MSD算法投影在二維空間中。主題與詞語之間的關(guān)聯(lián),以前通常直接用每個(gè)詞條的詞頻、TF-IDF來衡量,而pyLDAvis包用到以下公式:relevance(termw|topict)=λ?p(w|t)+(1?λ)?p(w|t)/p(w)該主題-詞語關(guān)聯(lián)度公式同時(shí)考慮了詞頻和詞語的獨(dú)特性兩方面,通過調(diào)節(jié)參數(shù)λ可以調(diào)整這兩個(gè)方面在決定關(guān)聯(lián)度時(shí)的權(quán)重,從而控制不同的下位詞顯示[6]。λ在0-1之間,越接近0得到的詞語獨(dú)屬性越強(qiáng),越接近1詞頻越高。本文中在對(duì)不同λ對(duì)應(yīng)的關(guān)鍵詞進(jìn)行比較后選擇1.0。得到的pyLDAvis可視化界面如圖4-2和圖4-3。圖4-2pyLDAvis主題分布圖4-3pyLDAvis關(guān)鍵詞圖4-2中圓圈代表提取的8個(gè)主題,圓圈的位置體現(xiàn)主題之間的關(guān)聯(lián),距離越近關(guān)聯(lián)性越強(qiáng),若重疊則說明存在語義的重合。本文得到的pyLDAvis圖主題分布均勻、距離適中,說明LDA模型效果較好。圓圈大小由主題包含文檔的多少?zèng)Q定,面積越大文檔數(shù)越多,代表性越強(qiáng),各主題代表性按照序號(hào)依次遞減。該圖利用Web前端工具生成,具有良好的交互式可視化效果,點(diǎn)擊某個(gè)圓圈會(huì)顯示對(duì)應(yīng)主題下包含的關(guān)鍵詞,詞語分布以條形圖的形式展示。圖4-3是選中主題4后出現(xiàn)的該話題下的關(guān)鍵詞,條形圖中藍(lán)色部分表示該詞在全部文檔中出現(xiàn)的頻率,紅色部分表示該詞在對(duì)應(yīng)的主題下出現(xiàn)的頻率?!邦}材”、“中國(guó)”、“現(xiàn)實(shí)”等是當(dāng)前話題的重點(diǎn)關(guān)鍵詞。4.3.3建立分類標(biāo)準(zhǔn)表4-3在線評(píng)論的主題分類主題1主題2主題3主題4主題5主題6主題7劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)劇情場(chǎng)面真實(shí)題材結(jié)局演技開心故事鏡頭真的中國(guó)情節(jié)主角喜劇喜劇技術(shù)導(dǎo)演現(xiàn)實(shí)最后設(shè)定精彩表4-3展示了LDA提取網(wǎng)絡(luò)評(píng)論主題的結(jié)果,得到7個(gè)主題以及各自對(duì)應(yīng)的特征詞。根據(jù)特征詞給主題命名,分別為:劇情、特效、真實(shí)性、題材、結(jié)局、角色塑造、笑點(diǎn)。4.4網(wǎng)絡(luò)評(píng)論文本分類及情感傾向分析4.4.1網(wǎng)絡(luò)評(píng)論文本分類本文將預(yù)處理后的網(wǎng)絡(luò)評(píng)論文本內(nèi)容按照表1的自定義分類標(biāo)準(zhǔn)進(jìn)行分類標(biāo)注,每條評(píng)論會(huì)輸出相應(yīng)的類別和隸屬度分?jǐn)?shù),得到結(jié)果示例如表4-4。表4-4分類示例名稱評(píng)分短評(píng)文本劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)主題紅海行動(dòng)8.3超前點(diǎn)映場(chǎng)。場(chǎng)面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到…0.7526660.0000000.0000000.0000000.0000000.2306220.000000劇情紅海行動(dòng)8.3故事沒有編排,兩個(gè)半小時(shí)劈頭蓋臉把爆破場(chǎng)面往觀眾臉上扔,累不累累…0.9282870.0119980.0119920.0119950.0119850.0119760.011972劇情紅海行動(dòng)8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會(huì),讓我提前看到了這部等了好久期…0.0000000.1260260.0000000.2174770.6452310.0000000.000000結(jié)局紅海行動(dòng)8.3真人版吃雞和低配版《使命召喚》,一場(chǎng)大型的闖關(guān)游戲,沒有人物,沒有…0.0000000.0000000.000000.9784190.0000000.0000000.000000題材紅海行動(dòng)8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭(zhēng)渲染。0.0118640.0118890.8521280.0729350.0118720.0118800.011866真實(shí)性觀察發(fā)現(xiàn),對(duì)于其中部分評(píng)論,出現(xiàn)了同時(shí)屬于多個(gè)主題且隸屬度相近的情況,因此設(shè)立一條評(píng)論對(duì)應(yīng)多個(gè)主題的模型作為參考。即將每條評(píng)論標(biāo)注為其隸屬度分?jǐn)?shù)前三的三個(gè)主題,統(tǒng)一賦予情感分?jǐn)?shù)。該模型將參與后續(xù)研究,并與評(píng)論話題一一對(duì)應(yīng)的主模型進(jìn)行回歸預(yù)測(cè)效果對(duì)比。多主題分類標(biāo)注情況如表4-5所示。表4-5多主題分類示例名稱評(píng)分短評(píng)文本主題1主題2主題3紅海行動(dòng)8.3超前點(diǎn)映場(chǎng)。場(chǎng)面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到任何尿點(diǎn)…作為戰(zhàn)爭(zhēng)片,已...劇情角色塑造特效紅海行動(dòng)8.3故事沒有編排,兩個(gè)半小時(shí)劈頭蓋臉把爆破場(chǎng)面往觀眾臉上扔,累不累累不累!劇情特效題材紅海行動(dòng)8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會(huì),讓我提前看到了這部等了好久期待好久的電影。林超賢導(dǎo)演果然...結(jié)局題材特效紅海行動(dòng)8.3真人版吃雞和低配版《使命召喚》,一場(chǎng)大型的闖關(guān)游戲,沒有人物,沒有劇情,沒有主題,就是一通狂...題材劇情特效紅海行動(dòng)8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭(zhēng)渲染。真實(shí)性題材特效4.4.2基于情感詞典的網(wǎng)絡(luò)評(píng)論情感傾向分析情感詞典是情感傾向分析的依據(jù),將文本表達(dá)轉(zhuǎn)換為準(zhǔn)確的情感程度需要首先構(gòu)建合適的情感詞典。根據(jù)語法規(guī)則,情感詞典主要包含基本情感詞、程度副詞、否定詞,基本情感詞表達(dá)評(píng)論的正面、中性或者負(fù)面的情感傾向,程度副詞增強(qiáng)或削弱情感,分為五個(gè)維度,否定詞能反轉(zhuǎn)評(píng)論的情感傾向[7]。本文在以往學(xué)者研究的情感詞典基礎(chǔ)上,結(jié)合電影短評(píng)詞典特征,自定義一個(gè)電影短評(píng)情感詞典。用五分制賦予每條評(píng)論子句合理的情感值,將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),計(jì)算規(guī)則見表4-6。表4-6情感分值計(jì)算規(guī)則情感詞組合分值情感詞組合分值正面/中性+過度5負(fù)面+過度1正面/中性+較4負(fù)面+較2正面/中性+一般3負(fù)面+一般3正面/中性+輕微2負(fù)面+輕微4正面/中性+不足1負(fù)面+不足5正面/中性+過度+否定1負(fù)面+過度+否定5正面/中性+較+否定2負(fù)面+較+否定4正面/中性+一般+否定3負(fù)面+一般+否定3正面/中性+輕微+否定4負(fù)面+輕微+否定2正面/中性+不足+否定5負(fù)面+不足+否定1對(duì)文本數(shù)據(jù)進(jìn)行賦值打分,示例如表4-7。表4-7情感賦值示例名稱評(píng)分短評(píng)文本主題評(píng)分紅海行動(dòng)8.3超前點(diǎn)映場(chǎng)。場(chǎng)面真實(shí),劇情緊湊。中間其實(shí)很想上廁所,但是愣是沒有找到任何尿點(diǎn)…作為戰(zhàn)爭(zhēng)片,已超額完成任務(wù),...劇情5紅海行動(dòng)8.3故事沒有編排,兩個(gè)半小時(shí)劈頭蓋臉把爆破場(chǎng)面往觀眾臉上扔,累不累累不累!劇情1紅海行動(dòng)8.3感謝豆瓣觀影團(tuán)給的這次提前點(diǎn)映機(jī)會(huì),讓我提前看到了這部等了好久期待好久的電影。林超賢導(dǎo)演果然是好,拍出了大...結(jié)局5紅海行動(dòng)8.3真人版吃雞和低配版《使命召喚》,一場(chǎng)大型的闖關(guān)游戲,沒有人物,沒有劇情,沒有主題,就是一通狂打,越到后面越...題材1紅海行動(dòng)8.3春節(jié)檔最好!主旋律色彩下,真實(shí)又殘酷的戰(zhàn)爭(zhēng)渲染。真實(shí)性5網(wǎng)絡(luò)評(píng)論與在線評(píng)分的關(guān)系分析5.1短評(píng)文本與評(píng)分的關(guān)系5.1.1數(shù)據(jù)的描述性分析對(duì)全體樣本的豆瓣在線評(píng)分和評(píng)論情感打分值分別繪制餅狀圖。豆瓣評(píng)分評(píng)價(jià)體系中,用戶單獨(dú)打分以星數(shù)展示,有1-5星五種等級(jí)。在線評(píng)分餅狀圖中占比最高的是3星,達(dá)36.4%,其次是4星占28.0%,以上兩類之和超過總數(shù)的六成。評(píng)分集中在中位區(qū)域,數(shù)據(jù)分布大致呈現(xiàn)紡錘形。而在評(píng)論情感分餅狀圖中,最高分5分占比達(dá)68.6%,3分和2分的占比最少。有此可見,用戶在進(jìn)行打分評(píng)價(jià)時(shí)表現(xiàn)得較為克制,傾向于給出中庸、有所保留的分?jǐn)?shù);而使用文字評(píng)論一部電影時(shí),情緒更為明確和激進(jìn),正向積極情感的表達(dá)尤為強(qiáng)烈。這是網(wǎng)絡(luò)評(píng)論情感研究中值得我們關(guān)注的一點(diǎn)。圖5-1在線評(píng)分餅狀圖圖5-2評(píng)論情感分餅狀圖5.1.2相關(guān)性分析以七個(gè)話題的情感分作為自變量,在線評(píng)分作為因變量進(jìn)行相關(guān)性分析。觀察表5-1發(fā)現(xiàn),因變量評(píng)分與各自變量之間均存在正相關(guān)關(guān)系,其中相關(guān)性最強(qiáng)的是評(píng)分與劇情之間,系數(shù)值為0.439;評(píng)分與劇情、特效、題材、結(jié)局、角色塑造均在0.05水平上顯著正相關(guān),說明評(píng)分與這六個(gè)因素之間相互影響作用較明顯;票房與真實(shí)性、笑點(diǎn)的相關(guān)系數(shù)分別為0.277和0.236,存在0.1水平上的正相關(guān)但強(qiáng)度較弱。各話題自變量之間的關(guān)系有正有負(fù),除真實(shí)性與角色塑造表現(xiàn)0.05水平上的正相關(guān)外,其余相關(guān)性弱。由于這些自變量在概念與邏輯上的關(guān)系較為模糊,且非本文研究對(duì)象,因此不作過多分析。表5-1相關(guān)系數(shù)表評(píng)分劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)評(píng)分10.4390.3560.2770.3240.3050.3510.236劇情0.43910.2020.183-0.0080.1090.1820.024特效0.3560.20880.2790.186真實(shí)性0.2770.1830.1710.1450.2150.3120.171題材0.324-0.0080.110.14510.1310.1930.19結(jié)局0.3050.1090.0880.2150.13110.2390.147角色塑造0.3510.1820.2790.3120.1930.23910.178笑點(diǎn)0.2360.0240.1860.1710.190.1470.17815.1.3線性支持向量回歸分析由相關(guān)性分析可知,因變量電影評(píng)分與七個(gè)自變量之間存在較強(qiáng)相關(guān)性,本文采用線性支持向量回歸方法。首先將五分制的評(píng)論情感分按比例轉(zhuǎn)換為對(duì)應(yīng)的十分制分?jǐn)?shù),在Python中構(gòu)建多元線性回歸模型,最終得出擬合的回歸方程公式為:Y=3.20554+0.22954X此時(shí)均方誤差為0.932。因變量電影評(píng)分與自變量七個(gè)主題情感分之間存在因果關(guān)系,在其他條件不變的情況下,劇情情感分每增加1分,電影評(píng)分提高0.23分;同理,特效、真實(shí)性、題材、結(jié)局、角色塑造、笑點(diǎn)的情感分每提高1分,電影評(píng)分分別提高0.16,0.0007,0.09,0.15,0.09,0.01。故七個(gè)主題情感傾向均對(duì)電影評(píng)分有正向影響。將之前用于對(duì)照的評(píng)論-主題一對(duì)多模型按照相同方法進(jìn)行回歸,得到的方程公式為:Y=3.22569+0.13306X此時(shí)均方誤差為0.985,且出現(xiàn)負(fù)數(shù)系數(shù),擬合效果不如評(píng)論-主題一對(duì)一模型。造成該情況的原因可能是,對(duì)于大部分短評(píng),第二、第三主題的隸屬度較低,將第二、第三主題納入情感傾向分析,反而導(dǎo)致主題代表性降低,不利于回歸分析。5.2電影類型對(duì)于評(píng)論和評(píng)分及兩者關(guān)系的影響5.2.1評(píng)論詞云分析在數(shù)據(jù)總集中按照電影類型得到動(dòng)作、愛情、動(dòng)畫、文藝、懸疑恐怖五個(gè)子集。對(duì)于這五個(gè)子集進(jìn)行文本預(yù)處理,包括清洗、分詞、過濾,得到五個(gè)文本數(shù)據(jù)集。為了直觀地了解觀眾對(duì)于不同類型電影在評(píng)價(jià)上的區(qū)別,進(jìn)行詞云分析。本文選用微詞云工具,得到五個(gè)類型下的評(píng)論詞云圖如下。圖5-1動(dòng)作類電影詞云圖5-2愛情類電影詞云圖5-3動(dòng)畫類電影詞云圖5-4文藝類電影詞云圖5-5懸疑恐怖類電影詞云觀察詞云圖可知,觀眾對(duì)于某一類型電影的評(píng)論,一方面與電影本身的內(nèi)容息息相關(guān),一方面反映了觀眾觀看該類電影時(shí)關(guān)注的重點(diǎn)。故事、劇情是每一類型中都大量出現(xiàn)的熱門關(guān)鍵詞,動(dòng)作和動(dòng)畫片關(guān)注特效,愛情和文藝片觀眾注重導(dǎo)演。具體到類,動(dòng)作類電影中高頻詞有“游戲”、“技術(shù)”、“場(chǎng)面”、“好萊塢”等,說明動(dòng)作片的制作水平是觀眾在評(píng)價(jià)時(shí)關(guān)注的重點(diǎn);“爆米花”、“精彩“、”無聊”則反映觀眾的觀影情緒。愛情類電影詞云圖中最明顯的特點(diǎn)是包含大量情感類詞語,如“愛情”、“浪漫”、“矯情”等,說明該類電影需要注重感情的合理表達(dá)。動(dòng)畫類中的高頻詞包括“孩子”、“小朋友”、“低幼”,受眾明確。文藝類電影詞云圖中的“時(shí)代”、“社會(huì)”、“人生”、“青春”等是文藝片的常見主題,“導(dǎo)演”、“敘事”、“鏡頭”等詞則反映出對(duì)拍攝質(zhì)量的關(guān)注??植李愲娪暗臒狳c(diǎn)詞許多與“結(jié)局”有關(guān),“反轉(zhuǎn)”、“真相”、“推理”是該類型電影的看點(diǎn)。5.2.2評(píng)分?jǐn)?shù)據(jù)描述性分析對(duì)五類電影的評(píng)論情感打分情況進(jìn)行描述性統(tǒng)計(jì)分析,如表5-2所示。繪制箱型圖得到圖5-6。表5-2分類電影描述統(tǒng)計(jì)量最小值最大值均值中位數(shù)動(dòng)作6.9愛情5.3動(dòng)畫6.8文藝7.2懸疑恐怖6.5全部6.6圖5-6分類電影箱線圖觀察圖表可知,整體評(píng)分最高的電影類型是文藝片,均值7.1,中位數(shù)7.2,明顯高于其他類型,全部電影評(píng)分中的最大值9.4也出現(xiàn)在該類別中,說明豆瓣用戶傾向于對(duì)文藝片給出高評(píng)價(jià);其次為動(dòng)作、動(dòng)畫,均值分別為6.7、6.6,兩者比較相近,觀眾對(duì)這兩類的評(píng)價(jià)相對(duì)而言較高;懸疑恐怖類的均值為6.3,與所有電影評(píng)分均值接近,觀眾評(píng)價(jià)中等。均值最小的是愛情類電影,與其他四類差距較大。再看評(píng)分分布,文藝類型評(píng)分區(qū)間最?。粍?dòng)畫片雖有離群值,但中位區(qū)間集中;評(píng)分最離散的是愛情類型電影。試對(duì)圖表情況作出解釋。文藝電影屬于小眾分類,更注重導(dǎo)演、敘事、拍攝手法而非明星、宣傳,因此面向觀眾大多為對(duì)文藝片感興趣的群體,一定程度上排除了非主動(dòng)受眾打低分的情況;并且豆瓣向來以文藝氣息著稱,喜愛文藝片的用戶比例高,他們?cè)敢庥酶叻纸o予小眾電影鼓勵(lì)。而愛情電影由于場(chǎng)景成本較低、對(duì)導(dǎo)演和演員的硬性要求不高,導(dǎo)致數(shù)量多質(zhì)量卻良莠不齊,容易出現(xiàn)所謂“爛片”。5.2.3類型對(duì)評(píng)論-評(píng)分關(guān)系的影響研究使用上文中建立的LDA主題模型分別對(duì)五種類型電影數(shù)據(jù)集進(jìn)行分類,基于同一情感詞典給出情感賦分,并進(jìn)行在線評(píng)分與七個(gè)方面情感分的相關(guān)性分析,得到結(jié)果如表5-3。表5-3不同類型下評(píng)分與評(píng)論相關(guān)系數(shù)表劇情特效真實(shí)性題材結(jié)局角色塑造笑點(diǎn)動(dòng)作0.3330.5870.0240.2560.0230.1590.389愛情0.2640.1920.1290.3660.3740.3830.605動(dòng)畫0.3200.571-0.2220.2480.4140.2520.249文藝0.1660.0750.4170.3200.1960.175-0.257恐怖懸疑0.4230.3180.1640.4140.5840.2830.309由表可知,各個(gè)類型的電影評(píng)分整體上與七個(gè)方面的情感分保持正相關(guān)。動(dòng)作片評(píng)分受特效影響最大,在0.01上顯著正相關(guān),說明特效水平是觀眾評(píng)價(jià)動(dòng)作電影的重要指標(biāo);劇情、笑點(diǎn)與情感分的關(guān)系也較強(qiáng),這兩者通常被認(rèn)為并非動(dòng)作片的重點(diǎn),但從數(shù)據(jù)來看,提升劇情和笑點(diǎn)能給動(dòng)作片錦上添花。與愛情類電影相關(guān)性最高的是笑點(diǎn),說明愛情喜劇更容易受到觀眾好評(píng)。動(dòng)畫片與特效、結(jié)局呈現(xiàn)較強(qiáng)的正相關(guān),符合兒童喜愛精致畫面、追求圓滿結(jié)局的心理;由于幻想是動(dòng)畫片的一大特點(diǎn),情感分與真實(shí)性表現(xiàn)負(fù)相關(guān)。文藝類電影中情感分正相關(guān)最顯著的是真實(shí)性,與7.1詞云分析的結(jié)果相符,現(xiàn)實(shí)、社會(huì)是該類型下最受好評(píng)的熱門主題;文藝片評(píng)分與題材也表現(xiàn)出顯著正相關(guān),說明它的高評(píng)分一定程度上受益于文藝題材愛好者。懸疑恐怖電影與結(jié)局、劇情關(guān)聯(lián)性最高,說明精彩的劇情發(fā)展能給該類電影帶來口碑上的加分;與題材正相關(guān)性較強(qiáng)說明懸疑恐怖片也受到題材愛好者的支持??偨Y(jié)與展望6.1研究總結(jié)本文基于文本挖掘研究了在線評(píng)論對(duì)電影評(píng)分的影響,使用Python軟件進(jìn)行網(wǎng)絡(luò)爬蟲獲取豆瓣電影短評(píng)文本、在線評(píng)分?jǐn)?shù)據(jù),采用LDA模型提取評(píng)論主題內(nèi)容,基于文本聚類構(gòu)建電影評(píng)論文本分類標(biāo)準(zhǔn),并自定義情感詞典將每條評(píng)論進(jìn)行類別歸屬和情感賦值,從而研究不同方面的評(píng)論文本內(nèi)容對(duì)電影評(píng)分的影響,再細(xì)分類型進(jìn)行擬合,探究電影類型對(duì)評(píng)論-評(píng)分模型的影響。本文主要的結(jié)論如下:電影豆瓣評(píng)分與評(píng)論中關(guān)于劇情、特效、真實(shí)性、題材、結(jié)局、角色塑造、笑點(diǎn)的情感成正相關(guān),其中,觀眾對(duì)于劇情的情感表達(dá)對(duì)評(píng)分影響最大;電影類型影響觀眾評(píng)分以及觀眾撰寫評(píng)論時(shí)的關(guān)注重點(diǎn)。文藝類電影在豆瓣評(píng)分評(píng)價(jià)體系下存在優(yōu)勢(shì),愛情類電影容易被觀眾判為低分。電影類型還影響評(píng)論與評(píng)分的關(guān)系。對(duì)于不同類型電影,評(píng)論各方面情感分與評(píng)分的相關(guān)性存在差異。動(dòng)作片和動(dòng)畫片中,影響評(píng)分最大的評(píng)論主題是特效;而對(duì)于愛情片來說則是笑點(diǎn);文藝片、恐怖懸疑片的評(píng)分分別與評(píng)論中真實(shí)性、劇情方面的情感傾向最相關(guān)。根據(jù)上述結(jié)論對(duì)電影出品方提出建議:制作一部口碑優(yōu)秀的電影要綜合考慮劇情、題材、場(chǎng)面、角色塑造等方面;(2)不能因?yàn)槟承╇娪皩?duì)場(chǎng)面特效要求低、對(duì)演員的硬性限制少而大量拍攝,一味追求盈利壓縮成本的粗制濫造只會(huì)帶來負(fù)面口碑;反之,小眾電影雖然在豆瓣評(píng)分中存在優(yōu)勢(shì),但它們對(duì)于導(dǎo)演、演員、工作人員的審美、技術(shù)都有較高要求,切忌盲目跟風(fēng)。(3)制作不同電影時(shí),在綜合考慮各方面的基礎(chǔ)上,要有針對(duì)性地根據(jù)電影類型重點(diǎn)關(guān)注某一方面。如對(duì)于動(dòng)作片要考慮在特效方面增加投入;懸疑恐怖片則要注重劇情的起伏與推理性,在宣傳時(shí)主要面向懸疑愛好者。使得同等投入下收益最大化。6.2不足與展望理論方面,本研究得出了短評(píng)內(nèi)容如何影響評(píng)分的相關(guān)結(jié)論,成功構(gòu)建定量關(guān)系,但作為預(yù)測(cè)模型精度有待提高。主要是因?yàn)榧夹g(shù)方面存在不足。本文數(shù)據(jù)樣本量較小,在運(yùn)用LDA模型過程中,模型解釋性一般。采用無監(jiān)督分類,但由于漢語本身的復(fù)雜性,分類詞典無法涵蓋所有詞匯,導(dǎo)致分類準(zhǔn)確度上存在不足。此外,忽略了作為自變量的幾個(gè)因素存在重要性差異,沒有進(jìn)行加權(quán)比較。在未來的研究中,可以針對(duì)以上研究不足進(jìn)行探索。增加數(shù)據(jù)樣本量,優(yōu)化文本預(yù)處理方案,提高LDA模型的解釋性;引入半監(jiān)督學(xué)習(xí),通過人工校正提升分類效果;對(duì)不同因素進(jìn)行加權(quán)進(jìn)行擬合度比較,分析各因素對(duì)評(píng)分的影響力指數(shù)。從現(xiàn)實(shí)來看,用戶評(píng)價(jià)的作用與意義越來越受到重視,商家、消費(fèi)者、平臺(tái)紛紛將其納入決策支持等相關(guān)實(shí)際應(yīng)用中。本文研究結(jié)論可為追求口碑的電影出品方提供決策建議。此外,雖然當(dāng)前在線評(píng)論領(lǐng)域相關(guān)研究發(fā)展較快,但對(duì)評(píng)論和評(píng)分這兩種評(píng)價(jià)方式關(guān)系的研究還不夠充分。本文所構(gòu)建的回歸模型基于評(píng)論文本中的情感傾向進(jìn)行評(píng)分預(yù)測(cè),對(duì)于已有評(píng)分和評(píng)論的網(wǎng)站,可以作為參考建立更可靠的綜合評(píng)價(jià)體系;對(duì)于僅有評(píng)論評(píng)價(jià)的網(wǎng)站,能夠提供后臺(tái)參考評(píng)分,有利于形成符合分值的排序和有效精準(zhǔn)推薦,或是作為頁(yè)面顯示的一部分,讓網(wǎng)站使用者無需瀏覽大量文本評(píng)論就能了解某一內(nèi)容的總體用戶認(rèn)同度,節(jié)省用戶的時(shí)間精力。綜上,本研究應(yīng)用前景廣闊,希望通過今后的進(jìn)一步探索,得到更有效的模型,更好地服務(wù)實(shí)際需求。參考文獻(xiàn)陳寶樓.K-Means算法研究及在文本聚類中的應(yīng)用[D].安徽大學(xué),2013.郝媛媛,葉強(qiáng),李一軍.基于影評(píng)數(shù)據(jù)的在線評(píng)論有用性影響因素研究[J].管理科學(xué)學(xué)報(bào),2010,13(08):78-88.郝媛媛,鄒鵬,李一軍,等.基于電影面板數(shù)據(jù)的在線評(píng)論情感傾向?qū)︿N售收入影響的實(shí)證研究[J].管理評(píng)論,2009,21(10):95-103.黃昭婷、劉媛、丁鑫.一種基于影評(píng)文本情感分析的電影特征模型[J].現(xiàn)代電影技術(shù)2017.蔣斌.基于停用詞處理的漢語語音檢索方法[D].哈爾濱工業(yè)大學(xué).2008.劉自強(qiáng),許海云,岳麗欣,方曙.基于Chunk-LDAvis的核心技術(shù)主題識(shí)別方法研究[J].圖書情報(bào)工作,2019,63(09):73-84.駱昌日,何婷婷.網(wǎng)絡(luò)語言的特點(diǎn)及其情感性意義[J].武漢理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015,28(02):322-328.呂結(jié)紅.基于文本挖掘的酒店在線評(píng)論研究[D].華中師范大學(xué),2020.馬松岳,許鑫.基于評(píng)論情感分析的用戶在線評(píng)價(jià)研究——以豆瓣網(wǎng)電影為例[J].圖書情報(bào)工作,2016,60(10):95-102.邱凌凡.在線評(píng)論影響購(gòu)買行為研究[J].市場(chǎng)周刊,2019(09):87-88.王綺與鄭曉濤,在線評(píng)論的生動(dòng)效應(yīng)和商戶再反饋對(duì)消費(fèi)者購(gòu)買意愿的影響——以經(jīng)濟(jì)型酒店為調(diào)查樣本.湖南師范大學(xué)社會(huì)科學(xué)學(xué)報(bào),2016.45(01):第105-113頁(yè).王濤,李明.基于LDA模型與語義網(wǎng)絡(luò)對(duì)評(píng)論文本挖掘研究[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,36(04):9-16.王偉軍、黃英輝、李穎、劉輝、張婷婷、劉凱.基于微博公眾情感狀態(tài)的新產(chǎn)品尺長(zhǎng)預(yù)測(cè)[J].情報(bào)學(xué)派2017.吳廣建,章劍林,袁丁.基于K-means的手肘法自動(dòng)獲取K值方法研究[J].軟件,2019,040(005):167-170.徐善山.基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的影評(píng)情感分析[J].電腦知識(shí)與技術(shù),2019,15(23):222-223.楊開平.基于語義相似度的中文文本聚類算法研究[D].電子科技大學(xué),2018.楊秋韻,陳福娣.在線評(píng)論有用性的影響因素分析[J].企業(yè)改革與管理,2019(02):107-110.ArneFloh,MonikaKoller,AlexanderZauner.Takingadeeperlookatonlinereviews:Theasymmetriceffectofvalenceintensityonshoppingbehaviour[J].Journal
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 金華浙江金華永康市象珠鎮(zhèn)人民政府工作人員招聘筆試歷年參考題庫(kù)附帶答案詳解
- 職業(yè)健康與員工職業(yè)發(fā)展路徑的醫(yī)學(xué)倫理實(shí)踐
- 資陽(yáng)四川資陽(yáng)市公安局招聘軌道交通資陽(yáng)線公安管理警務(wù)輔助人員45人筆試歷年參考題庫(kù)附帶答案詳解
- 甘肅2025年甘肅省婦幼保健院(甘肅省中心醫(yī)院)緊缺骨干人才招聘筆試歷年參考題庫(kù)附帶答案詳解
- 清遠(yuǎn)2025年廣東清遠(yuǎn)市清城區(qū)農(nóng)業(yè)農(nóng)村局招聘船員筆試歷年參考題庫(kù)附帶答案詳解
- 職業(yè)人群頸椎病的預(yù)防與康復(fù)策略
- 新疆2025年新疆兵團(tuán)興新職業(yè)技術(shù)學(xué)院招聘41人筆試歷年參考題庫(kù)附帶答案詳解
- 徐州首都醫(yī)科大學(xué)附屬北京地壇醫(yī)院徐州醫(yī)院(徐州市第七人民醫(yī)院)招聘5人筆試歷年參考題庫(kù)附帶答案詳解
- 巴中2025年四川巴中南江縣招聘衛(wèi)生專業(yè)技術(shù)人員64人筆試歷年參考題庫(kù)附帶答案詳解
- 安慶2025年安徽安慶望江縣中醫(yī)醫(yī)院招聘勞務(wù)派遣護(hù)理人員16人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年湖北省武漢市中考物理試卷(含答案)
- 林場(chǎng)實(shí)習(xí)個(gè)人總結(jié)
- 2024-2025學(xué)年北京市海淀區(qū)高一上學(xué)期期中考試數(shù)學(xué)試題(解析版)
- 2025至2030中國(guó)時(shí)空智能服務(wù)(LBS)行業(yè)發(fā)展動(dòng)態(tài)及發(fā)展趨勢(shì)研究報(bào)告
- 透析患者營(yíng)養(yǎng)風(fēng)險(xiǎn)評(píng)估與干預(yù)
- DB41/T 1354-2016 人民防空工程標(biāo)識(shí)
- 山東省棗莊市薛城區(qū)2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試題
- 部編版道德與法治八年級(jí)上冊(cè)每課教學(xué)反思
- 園林苗木的種實(shí)生產(chǎn)
- 【網(wǎng)絡(luò)謠言的治理路徑探析(含問卷)14000字(論文)】
- 2024年新安全生產(chǎn)法培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論