Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項(xiàng)目_第1頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項(xiàng)目_第2頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項(xiàng)目_第3頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項(xiàng)目_第4頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項(xiàng)目_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python數(shù)據(jù)分析基礎(chǔ)教程(第2版)

第10章電影數(shù)據(jù)分析項(xiàng)目學(xué)習(xí)目標(biāo)

了解電影數(shù)據(jù)分析項(xiàng)目。

熟悉電影數(shù)據(jù)分析流程。

掌握數(shù)據(jù)預(yù)處理方法。

掌握數(shù)據(jù)分析方法。

掌握數(shù)據(jù)可視化方法123項(xiàng)目描述

數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清洗數(shù)據(jù)分析與數(shù)據(jù)可視化4目錄CONTEN5本章小結(jié)

IMDB(InternetMovieDatabase)是目前全球互聯(lián)網(wǎng)中較大的一個(gè)電影資料庫(kù),在該電影資料庫(kù)中有豐富的電影作品信息,包括影片演員、導(dǎo)演、電影題材、片長(zhǎng)、劇情關(guān)鍵字、分級(jí)、評(píng)分等關(guān)于影片的基本信息,其中使用最多的就是IMDB的評(píng)分。

IMDB創(chuàng)建于1990年10月17日,從1998年開(kāi)始成為亞馬遜公司旗下網(wǎng)站。IMDB正式啟動(dòng)于1993年,是互聯(lián)網(wǎng)上第一個(gè)完全以電影為內(nèi)容的網(wǎng)站。與之相似的國(guó)內(nèi)網(wǎng)站有豆瓣網(wǎng)站。

在電影數(shù)據(jù)分析項(xiàng)目中,選擇的數(shù)據(jù)集是從IMDB網(wǎng)站上抓取的從1916年至2016年這100年間出品的5043部電影數(shù)據(jù),該數(shù)據(jù)集稱(chēng)為IMDB5000部電影數(shù)據(jù)集,文件名為movie_metadata.csv,它也是電影數(shù)據(jù)分析項(xiàng)目中常用的經(jīng)典數(shù)據(jù)集。在該數(shù)據(jù)集中包含28個(gè)屬性、4906張海報(bào),電影時(shí)間跨度超過(guò)100年,共有65個(gè)國(guó)家及地區(qū)的影片,并包括2399位導(dǎo)演和數(shù)千位演員的信息。近些年中國(guó)國(guó)產(chǎn)電影取得了輝煌的成就,根據(jù)2025年3月19日,貓眼專(zhuān)業(yè)版數(shù)據(jù)顯示,《哪吒之魔童鬧?!罚ā赌倪?》)全球票房(含預(yù)售及海外)已突破150億元,躋身全球電影票房榜前5。MDB5000部電影數(shù)據(jù)集的屬性信息如表10-1所示。10.1項(xiàng)目描述

要求根據(jù)IMDB5000部電影數(shù)據(jù)集進(jìn)行下列數(shù)據(jù)分析。(1)電影出品國(guó)及地區(qū)的情況分析。(2)電影數(shù)量的分析。(3)電影類(lèi)型的分析。(4)電影票房統(tǒng)計(jì)及電影票房相關(guān)因素的分析。(5)電影評(píng)分統(tǒng)計(jì)及電影評(píng)分相關(guān)因素的分析。10.1項(xiàng)目描述

在數(shù)據(jù)準(zhǔn)備中,主要的任務(wù)是導(dǎo)入“movie_metadata.csv”文件,其程序代碼如下。In[1]:importpandasaspdimportmatplotlib.pyplotaspltIn[2]:#加載數(shù)據(jù)

movies_df=pd.read_csv('d:/data/movie_metadata.csv',encoding="GBK")In[3]:movies_df.head()#輸出默認(rèn)頭5行In[4]:movies_()#輸出movies_df的信息

movies_df.describe()#輸出movies_df的基本統(tǒng)計(jì)量和分位數(shù)等值10.2準(zhǔn)備數(shù)據(jù)

在電影數(shù)據(jù)分析項(xiàng)目中,數(shù)據(jù)清洗的主要任務(wù)是對(duì)原始數(shù)據(jù)集進(jìn)行缺失值和重復(fù)數(shù)據(jù)的處理。其步驟如下:

1.統(tǒng)計(jì)每列的缺失值個(gè)數(shù)

2.刪除任何含有缺失值的行

3.刪除重復(fù)數(shù)據(jù)

4.查看數(shù)據(jù)清洗后的信息

5.輸出movies_df_new的基本統(tǒng)計(jì)量和分位數(shù)等值10.3數(shù)據(jù)清洗

在電影數(shù)據(jù)分析項(xiàng)目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

1、電影出品國(guó)及地區(qū)的情況分析

(1)統(tǒng)計(jì)每個(gè)國(guó)家或地區(qū)出品的電影數(shù)量

(2)顯示電影出品數(shù)量排名前10的國(guó)家或地區(qū)

(3)繪制電影出品數(shù)量排名前10的柱形圖(見(jiàn)圖10-1)

2、電影數(shù)量的分析

(1)按年份統(tǒng)計(jì)每年的電影數(shù)量

(2)繪制每年的電影數(shù)量圖形(見(jiàn)圖10-2)

(3)按年份統(tǒng)計(jì)每年的電影總數(shù)量、彩色影片數(shù)量和黑白影片數(shù)量,并繪制每年電影總數(shù)量、彩色影片數(shù)量和黑白影片數(shù)量圖形(見(jiàn)圖10-3)10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項(xiàng)目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

3、電影類(lèi)型的分析

(1)計(jì)算不同類(lèi)型的電影數(shù)量。

(2)繪制不同類(lèi)型的電影數(shù)量圖形(見(jiàn)圖10-4)

(3)繪制各個(gè)電影類(lèi)型的餅圖(見(jiàn)圖10-5)

4、電影票房統(tǒng)計(jì)及電影票房相關(guān)因素的分析

(1)每年票房統(tǒng)計(jì)

(2)繪制每年票房統(tǒng)計(jì)圖(見(jiàn)圖10-6)

(3)查看票房收入排名前20位的電影片名和類(lèi)型

(4)繪制電影評(píng)分與票房的關(guān)系的散點(diǎn)(見(jiàn)圖10-7)

(5)繪制電影時(shí)長(zhǎng)與票房的關(guān)系散點(diǎn)圖(見(jiàn)10-8)10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項(xiàng)目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

5、電影評(píng)分統(tǒng)計(jì)及電影評(píng)分相關(guān)因素的分析

(1)顯示在IMDB網(wǎng)站上評(píng)分排名前20名電影的片名和評(píng)分

(2)繪制評(píng)分與受歡迎程度的關(guān)系散點(diǎn)圖(見(jiàn)10-9)

6、分析總結(jié)

(1)電影高產(chǎn)國(guó)家或地區(qū)

(2)電影產(chǎn)業(yè)的高速發(fā)展年代

(3)電影票房收入高速增長(zhǎng)時(shí)代

(4)票房收入排名

10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項(xiàng)目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:6、分析總結(jié)

(5)評(píng)分排名

(6)評(píng)分與受歡迎程度之間的相關(guān)性

(7)電影時(shí)長(zhǎng)與票房的關(guān)系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論