基于python對(duì)中國(guó)文化影視作品的分析與統(tǒng)計(jì)_第1頁(yè)
基于python對(duì)中國(guó)文化影視作品的分析與統(tǒng)計(jì)_第2頁(yè)
基于python對(duì)中國(guó)文化影視作品的分析與統(tǒng)計(jì)_第3頁(yè)
基于python對(duì)中國(guó)文化影視作品的分析與統(tǒng)計(jì)_第4頁(yè)
基于python對(duì)中國(guó)文化影視作品的分析與統(tǒng)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄摘要 [18]。實(shí)際展示基于Flask框架搭建了一個(gè)簡(jiǎn)單的網(wǎng)頁(yè),用來(lái)展示影視作品相關(guān)數(shù)據(jù)及可視化統(tǒng)計(jì)結(jié)果。網(wǎng)頁(yè)是用Flask框架建立的,利用Flask實(shí)現(xiàn)了不同頁(yè)面的響應(yīng),在數(shù)據(jù)展示采用HTML和JavaScript圖表庫(kù)來(lái)呈現(xiàn)數(shù)據(jù)和生成統(tǒng)計(jì)圖,MySql數(shù)據(jù)庫(kù)存儲(chǔ)了影視作品的相關(guān)數(shù)據(jù)用Flask和數(shù)據(jù)庫(kù)交互,實(shí)現(xiàn)數(shù)據(jù)的讀取展示,網(wǎng)頁(yè)上面有影視作品評(píng)論數(shù)據(jù)、影視作品數(shù)據(jù)和統(tǒng)計(jì)圖這三個(gè)選項(xiàng)。在統(tǒng)計(jì)圖選項(xiàng)上設(shè)置了下拉的菜單,有折線圖、詞云圖、餅圖和柱狀圖四種可視化的圖,影視作品數(shù)據(jù)和評(píng)論數(shù)據(jù)用表格的形式去展示,可以瀏覽不同影視作品的信息,統(tǒng)計(jì)圖表,通過(guò)提供多種統(tǒng)計(jì)圖,對(duì)影視作品數(shù)據(jù)進(jìn)行簡(jiǎn)單的可視化分析,可根據(jù)需求選擇不同的圖表類型,了解數(shù)據(jù)的分布和趨勢(shì)。如圖5-1和圖5-2所示。圖5-1影視作品數(shù)據(jù)展示圖圖5-2影視作品評(píng)論展示圖圖5-3各類別評(píng)分均值折線圖如圖5-3所示,是一張基于Flask網(wǎng)頁(yè)展示的折線統(tǒng)計(jì)圖,用于呈現(xiàn)不同類別影視作品的評(píng)分均值的變化趨勢(shì),橫軸,代表了影視作品的類別,從左到右依次為動(dòng)畫(huà)、武俠、古裝、科幻、歷史、戰(zhàn)爭(zhēng)、傳記、奇幻、西部、紀(jì)錄片、短片。縱軸,為數(shù)值軸,刻度從0到10,用于衡量各類別影視作品對(duì)應(yīng)的數(shù)值。連接各類別影視作品對(duì)應(yīng)數(shù)值點(diǎn)的線條,直觀呈現(xiàn)不同類別影視作品評(píng)分均值數(shù)值的變化趨勢(shì)。圖5-4類型詞云圖如圖5-4所示,是基于Flask搭建網(wǎng)頁(yè)中的類型詞云圖,用于呈現(xiàn)影視作品的不同類型信息。圖5-4有許多影視作品類型詞匯,一部影視作品會(huì)同時(shí)屬于好幾種不同的類型,我選取詞匯出現(xiàn)次數(shù)最多的15個(gè)類型畫(huà)了一個(gè)詞云圖,圖中包括動(dòng)畫(huà)和劇情等多種類型并且它們字體的顏色是不一樣的,詞匯的大小不同,劇情、動(dòng)畫(huà)、古裝、歷史等的詞匯對(duì)比其他的詞匯相對(duì)較大,短片和紀(jì)錄片等的詞匯是相對(duì)較小的。詞云圖是通過(guò)詞匯的大小去反映影視作品類型出現(xiàn)的頻率。劇情、古裝和動(dòng)畫(huà)等的詞匯較大,說(shuō)明這些類別的影視作品較為常見(jiàn)和受到更多關(guān)注。圖5-5前10導(dǎo)演餅圖如圖5-5所示,是基于Flask搭建網(wǎng)頁(yè)的餅圖,基于影視作品數(shù)據(jù),選取詞頻統(tǒng)計(jì)最高的10位導(dǎo)演相關(guān)信息繪制而成,用于呈現(xiàn)不同導(dǎo)演相關(guān)作品的占比情況,餅圖由多個(gè)扇形區(qū)域組成,每個(gè)扇形代表一位導(dǎo)演相關(guān)作品的占比,扇形的大小與對(duì)應(yīng)導(dǎo)演作品的占比數(shù)值相關(guān),同時(shí)每個(gè)扇形區(qū)域旁邊標(biāo)注了導(dǎo)演姓名和占比數(shù)值,餅圖通過(guò)各扇形區(qū)域的大小直觀地展示了不同導(dǎo)演相關(guān)作品在總體中的占比情況。從圖中可知,沈樂(lè)平相關(guān)作品占比最高達(dá)到24.14%;其次是黃偉明占比15.02%;張徹占比9.36%;黃文擇占比是7.64%;鞠覺(jué)亮占比7.63%;李惠民均占比7.39%;陳家林占比7.88%;王巍占比7.14%;王嘉祥和王晶的占比都是6.9%。每個(gè)扇形代表一位導(dǎo)演作品的占比,面積越大,占比越高。每個(gè)扇形旁標(biāo)注導(dǎo)演姓名及占比數(shù)值,該餅圖直觀呈現(xiàn)了10位高頻導(dǎo)演作品在整體中的份額分布。沈樂(lè)平占比最高,說(shuō)明其作品在統(tǒng)計(jì)數(shù)據(jù)中出現(xiàn)頻率遠(yuǎn)超其他導(dǎo)演;黃偉明次之,也有較高占比;其余導(dǎo)演占比相對(duì)分散。通過(guò)此圖,能快速了解在統(tǒng)計(jì)范圍內(nèi),哪些導(dǎo)演的作品數(shù)量更多。圖5-6前二十演員頻率柱狀圖如圖5-6所示,是一張基于Flask框架搭建的一張柱狀圖,是選取出現(xiàn)頻率最高的二十位演員所畫(huà)的柱狀圖,借助數(shù)據(jù)挖掘技術(shù),對(duì)海量影視數(shù)據(jù)清洗與分析鎖定這二十位演員,從圖中可知各演員出場(chǎng)頻率有差異,阿杰以120次的高頻位列榜首,表明他活躍于眾多作品,擁有較高人氣,圖特哈蒙等演員緊隨其后,出場(chǎng)次數(shù)雖略有差距,但也相當(dāng)可觀,反映出他們?cè)谛袠I(yè)內(nèi)具備穩(wěn)定的影響力,而排名靠后的王肖兵,出場(chǎng)次數(shù)為63次,盡管頻率相對(duì)較低,仍憑借自身實(shí)力躋身前二十。此圖直觀展示演員出場(chǎng)頻率分布,為探究演員影響力、作品選角規(guī)律,以及影視行業(yè)發(fā)展趨勢(shì),提供了直觀數(shù)據(jù)支持,借助Flask搭建的平臺(tái),極大提升了數(shù)據(jù)的可視化效果與傳播效率。

結(jié)論對(duì)中國(guó)文化影視作品的分析,用Python從豆瓣網(wǎng)站上面獲取了8090部作品的數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清洗、去重、轉(zhuǎn)換類型和填充缺失值等操作,數(shù)據(jù)的質(zhì)量提高了。將處理后的數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)里面,在數(shù)據(jù)分析上,描述性分析展現(xiàn)了評(píng)分、評(píng)價(jià)人數(shù)和短評(píng)數(shù)等特征,影視作品推薦分類模型的構(gòu)建和評(píng)估,對(duì)數(shù)據(jù)進(jìn)行獨(dú)熱編碼、特征選擇和標(biāo)準(zhǔn)化,模型在推薦判斷上有一定性能,準(zhǔn)確率為0.698,方差分析可以得出不同類別影視作品的評(píng)分有顯著差異,情感分析是基于Python用Pandas、SnowNLP等庫(kù)對(duì)影視短評(píng)數(shù)據(jù)進(jìn)行情感分析并可視化展示分析結(jié)果。由于數(shù)據(jù)僅采集自豆瓣平臺(tái),存在覆蓋范圍不足的問(wèn)題,同時(shí)在構(gòu)建邏輯回歸模型時(shí),所考慮的影響因子較為有限,可借助Python技術(shù)對(duì)更多網(wǎng)站進(jìn)行數(shù)據(jù)爬取進(jìn)而優(yōu)化邏輯回歸模型的擬合優(yōu)度。進(jìn)行情感分析的時(shí)候,可以嘗試使用更先進(jìn)的自然語(yǔ)言處理技術(shù),如深度學(xué)習(xí)模型進(jìn)行情感分析,提高分析結(jié)果的準(zhǔn)確性,結(jié)合更多的信息,如評(píng)論的點(diǎn)贊數(shù)、回復(fù)數(shù)等,綜合分析觀眾的態(tài)度和行為。

參考文獻(xiàn)徐海東.國(guó)產(chǎn)動(dòng)畫(huà)電影神話人物形象的受眾評(píng)價(jià)研究[D].華中科技大學(xué),2021.唐思.文化折扣視角下《流浪地球》電影的跨文化傳播研究[D].南京大學(xué),2021.李思瑤.家國(guó)敘事與文化認(rèn)同:“正午陽(yáng)光”古裝劇框架分析[D].浙江傳媒學(xué)院,2024.JimRJ,TalukderRAM,MalakarP,etal.RecentadvancementsandchallengesofNLP-basedsentimentanalysis:Astate-of-the-artreview[J].NaturalLanguageProcessingJournal,2024,6100059-.ChongP,FaridehA.ExternalCommunicationofCostumeCultureinChineseFilmandTelevisionWorks[J].StudiesinMediaandCommunication,2024,13(1):31-40.零一,韓要賓,黃園園.Python3爬蟲(chóng)、數(shù)據(jù)清洗與可視化實(shí)戰(zhàn)[M].電子工業(yè)出版社:202007.謝萍,蘇林萍.MySQL數(shù)據(jù)庫(kù)實(shí)用教程[M].人民郵電出版社:202305.206.蔡增玉,韓洋,張建偉,等.基于SnowNLP的微博網(wǎng)絡(luò)輿情分析系統(tǒng)[J].科學(xué)技術(shù)與工程,2024,24(13):5457-5464.沈杰.基于Python的數(shù)據(jù)分析可視化研究與實(shí)現(xiàn)[J].科技資訊,2023,21(02):14-17+54.余本國(guó),劉寧,李春報(bào).Python大數(shù)據(jù)分析與應(yīng)用實(shí)戰(zhàn)[M].電子工業(yè)出版社:202112.李茂盛,王富民.統(tǒng)計(jì)學(xué)[M].西北大學(xué)出版社:202308.271.郭超.JavaScript快速入門與開(kāi)發(fā)實(shí)戰(zhàn)[M].化學(xué)工業(yè)出版社:202307.282.閆濤,周琦.深度學(xué)習(xí)算法實(shí)踐[M].電子工業(yè)出版社:201804.584.李軍紅,李付慶,范建民.統(tǒng)計(jì)學(xué)[M].南京大學(xué)出版社:202003.龔超,張鵬宇,喻濤.情感分析[M].化學(xué)工業(yè)出版社:202212.200.劉禮培,張良均.Python數(shù)據(jù)可視化實(shí)戰(zhàn)[M].人民郵電出版社:202202.249.YasuhikoO.[[Fundamentals]4.Visualizat

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論