數(shù)據(jù)可視化技術(shù)與應(yīng)用(Python) 課件 項(xiàng)目2 電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)_第1頁
數(shù)據(jù)可視化技術(shù)與應(yīng)用(Python) 課件 項(xiàng)目2 電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)_第2頁
數(shù)據(jù)可視化技術(shù)與應(yīng)用(Python) 課件 項(xiàng)目2 電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)_第3頁
數(shù)據(jù)可視化技術(shù)與應(yīng)用(Python) 課件 項(xiàng)目2 電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)_第4頁
數(shù)據(jù)可視化技術(shù)與應(yīng)用(Python) 課件 項(xiàng)目2 電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

電影數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)數(shù)據(jù)可視化技術(shù)與應(yīng)用項(xiàng)目導(dǎo)讀對電影院來說,電影數(shù)據(jù)可視化是一種強(qiáng)大的分析工具,它幫助電影院運(yùn)營人員從海量的電影數(shù)據(jù)中獲得洞察結(jié)果,優(yōu)化運(yùn)營決策,提升顧客的體驗(yàn)。本模塊將導(dǎo)入電影數(shù)據(jù)集,運(yùn)用Python語言,將電影類型、票房收入等關(guān)鍵數(shù)據(jù)以直觀的折線圖與柱狀圖,并對可視化結(jié)果進(jìn)行分析。項(xiàng)目導(dǎo)讀01觀眾偏好03評分分析02票房趨勢識別出受歡迎的電影類型或主題,從而精準(zhǔn)地安排放映日程,從而吸引更多的觀眾。追蹤不同影片的票房表現(xiàn),評估潛在的票房走勢,為未來的電影選片和排片提供數(shù)據(jù)支持。通過觀眾評分了解影片的被接受度,進(jìn)一步調(diào)整推廣策略并據(jù)此提供定制化推薦。06市場趨勢05競爭分析分析不同時(shí)間段影片的表現(xiàn),選擇最佳上映時(shí)間,以提高票房收益。觀察競爭對手的表現(xiàn),了解市場占有率,制定相應(yīng)的差異化經(jīng)營策略。洞察整體電影市場和電影產(chǎn)業(yè)的動態(tài),預(yù)測行業(yè)趨勢,作為制訂戰(zhàn)略規(guī)劃的依據(jù)。04上映時(shí)機(jī)項(xiàng)目目標(biāo)學(xué)習(xí)目標(biāo)能力目標(biāo)素養(yǎng)目標(biāo)掌握Python環(huán)境的搭建掌握簡單的數(shù)據(jù)處理方法掌握折線圖和柱狀圖的繪制會使用PyCharm工具會對數(shù)據(jù)進(jìn)行刪除重復(fù)行操作會使用Python語言編寫基本的代碼通過電影數(shù)據(jù)可視化項(xiàng)目中的數(shù)據(jù)處理使學(xué)生明白取其精華、去其糟粕的思想通過中國電影排名與票房關(guān)系的可視化彰顯中國文化的輸出,培養(yǎng)學(xué)生的文化自信電影類型數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)電影類型與票房關(guān)系可視化項(xiàng)目實(shí)戰(zhàn)中國電影排名和票房可視化項(xiàng)目實(shí)戰(zhàn)010302目錄CONCENTS總結(jié)與建議042-1電影類型數(shù)據(jù)可視化項(xiàng)目實(shí)戰(zhàn)電影類型數(shù)據(jù)的導(dǎo)入使用折線圖進(jìn)行數(shù)據(jù)可視化分析0102目錄CONCENTS2-1-1電影類型數(shù)據(jù)的導(dǎo)入環(huán)境的安裝與配置①易于學(xué)習(xí)和使用:Python語法簡單、清晰,易于學(xué)習(xí)和使用。②豐富的庫和工具:Python擁有眾多功能強(qiáng)大的數(shù)據(jù)可視化庫,其中比較常用的是Matplotlib、Plotly和pyEchart。③與數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的無縫集成:用戶可以使用Python進(jìn)行數(shù)據(jù)處理、清洗和分析,然后利用可視化工具將結(jié)果直觀地展示出來。④可擴(kuò)展性和動態(tài)可視化:Python可視化庫提供了豐富的選項(xiàng)和配置,可以輕松定制圖表的各個(gè)方面,包括顏色、標(biāo)簽、圖例和軸設(shè)置等,可以創(chuàng)建交互式圖表和動畫效果。環(huán)境的安裝與配置-下載Python工具任務(wù)一:下載Python開發(fā)工具。環(huán)境的安裝與配置-下載Python工具1.用瀏覽器打開Python官方網(wǎng)站環(huán)境的安裝與配置-下載Python工具2.選擇Dowmload中的Windows選項(xiàng)。環(huán)境的安裝與配置-下載Python工具3.從頁面中可以看到目前最新的Python版本是3.13.0,除此之外還有其他版本。環(huán)境的安裝與配置-下載Python工具4.

Python3.13.0版本比較多,該選擇哪個(gè)呢?首先確定計(jì)算機(jī)系統(tǒng)是多少位的。在桌面找到“此電腦”圖標(biāo),在“此電腦”圖標(biāo)上單擊鼠標(biāo)右鍵,彈出快捷菜單。選擇“屬性”命令,即可看到計(jì)算機(jī)的操作系統(tǒng)是多少位的,比如這臺計(jì)算機(jī)使用的是64位操作系統(tǒng)。環(huán)境的安裝與配置-下載Python工具5.單擊Windowsinstaller(64-bit)超鏈接,將Python下載到默認(rèn)路徑即可。環(huán)境的安裝與配置-安裝Python工具任務(wù)二:安裝Python開發(fā)工具。環(huán)境的安裝與配置-安裝Python工具1.雙擊安裝包,出現(xiàn)如下圖示的開始安裝頁面選中Addpython.exetoPATH復(fù)選框,把Python3.13.0添加到環(huán)境變量中,然后選擇默認(rèn)安裝路徑(InstallNow),就可以立即安裝.。環(huán)境的安裝與配置-安裝Python工具2.等待安裝進(jìn)度條滾動。環(huán)境的安裝與配置-安裝Python工具3.等待進(jìn)度條完成,即可看到安裝成功界面。環(huán)境的安裝與配置-下載安裝PyCharm工具任務(wù)一:下載安裝PyCharm社區(qū)版。環(huán)境的安裝與配置-下載安裝PyCharm工具1.

下載PyCharm工具。環(huán)境的安裝與配置-下載安裝PyCharm工具2.

PyCharm兩個(gè)版本PyCharmCommunityEdition(社區(qū)版)和PyCharmProfessionalEdition(專業(yè)版),推薦下載社區(qū)版。單擊下載即可。環(huán)境的安裝與配置-下載安裝PyCharm工具3.雙擊安裝軟件,即可啟動PyCharm工具的的安裝界面。環(huán)境的安裝與配置-下載安裝PyCharm工具4.接下來單擊Next(下一步)按鈕,選擇安裝位置,彈出如圖所示的配置安裝選項(xiàng)界面,選中所有復(fù)選框,繼續(xù)單擊Next按鈕。環(huán)境的安裝與配置-下載安裝PyCharm工具5.顯示如圖所示的界面,單擊Install(安裝)按鈕。電影類型數(shù)據(jù)集的導(dǎo)入-Pandas模塊認(rèn)知知識新知

Pandas是一個(gè)Python庫,用于數(shù)據(jù)處理和分析。它提供了一系列用于數(shù)據(jù)結(jié)構(gòu)和操作的數(shù)據(jù)框(DataFrame)和系列(Series)數(shù)據(jù)結(jié)構(gòu),以及對數(shù)據(jù)進(jìn)行讀取、清理、轉(zhuǎn)換和可視化等功能。功能描述數(shù)據(jù)讀取和寫入

輕松讀取和寫入各種數(shù)據(jù)格式,包括CSV、Excel、SQL數(shù)據(jù)庫、JSON、HTML等。提供靈活的函數(shù)和方法來導(dǎo)入和導(dǎo)出數(shù)據(jù),方便數(shù)據(jù)的交互和共享。數(shù)據(jù)清洗和預(yù)處理

提供豐富的函數(shù)和方法來處理缺失值、重復(fù)數(shù)據(jù)、異常值等數(shù)據(jù)質(zhì)量問題。支持?jǐn)?shù)據(jù)的轉(zhuǎn)換、重塑、合并、拆分等操作,方便進(jìn)行數(shù)據(jù)清洗和預(yù)處理。數(shù)據(jù)索引和選擇

提供靈活的索引和選擇功能,使您能夠輕松從數(shù)據(jù)結(jié)構(gòu)中提取和操作數(shù)據(jù)。可以使用標(biāo)簽、位置、條件等方式來選擇特定的行、列或單元格。數(shù)據(jù)分析和計(jì)算

提供豐富的統(tǒng)計(jì)分析、聚合計(jì)算和數(shù)據(jù)轉(zhuǎn)換的函數(shù)和方法。支持常見的統(tǒng)計(jì)指標(biāo)計(jì)算、數(shù)據(jù)分組和匯總、透視表創(chuàng)建、時(shí)間序列分析等操作,方便進(jìn)行數(shù)據(jù)分析和探索。數(shù)據(jù)可視化

與其他常用的數(shù)據(jù)可視化庫(如Matplotlib和Seaborn)結(jié)合使用,可以生成各種圖表和圖形,包括線圖、柱狀圖、散點(diǎn)圖、箱線圖等,幫助更直觀地理解和展示數(shù)據(jù)。Pandas庫常用的功能電影類型數(shù)據(jù)集的導(dǎo)入-Pandas模塊認(rèn)知電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)一:Pandas讀取csv文件

importpandasaspddata=pd.read_csv('your_file.csv')代碼如下:電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)一:Pandas讀取csv文件上述兩行代碼完成了兩個(gè)步驟分別是:

(1)導(dǎo)入pandas庫:使用importpandasaspd語句導(dǎo)入了pandas庫,并將其命名為pd。

(2)使用read_csv()函數(shù)讀取CSV文件:read_csv()是pandas提供的用于讀取CSV文件的函數(shù)。通過接受一個(gè)文件路徑作為參數(shù),并返回一個(gè)DataFrame對象,其中包含了CSV文件的數(shù)據(jù)。代碼講解:數(shù)據(jù)集中字段的含義字段名稱字段含義movie_title電影名稱release_date上映時(shí)間Genre電影類型mpaa_rating美國電影協(xié)會評分total_gross總票房inflation_adjusted_gross調(diào)整通脹后總票房數(shù)據(jù)集中字段的含義任務(wù)二:使用pandas庫來完成重復(fù)行篩選。importpandasaspddefprint_duplicates(file_path):#讀取CSV文件

data=pd.read_csv(file_path)#找到重復(fù)的行

duplicates=data[data.duplicated()]#打印重復(fù)的行

print(duplicates)#給出CSV文件路徑file_path=r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv'#打印重復(fù)的行print_duplicates(file_path)代碼如下:電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)二:使用pandas庫來完成重復(fù)行篩選。通過上圖的打印結(jié)果可以看到本數(shù)據(jù)集沒有重復(fù)的行。運(yùn)行結(jié)果:電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)二:使用pandas庫來完成重復(fù)行篩選。代碼講解:

首先用pd.read_csv函數(shù)讀取CSV文件,然后使用data.duplicated()找到重復(fù)的行,最后,通過打印duplicates來顯示重復(fù)的行。該段代碼關(guān)鍵是data.duplicated()函數(shù),data.duplicated()是PandasDataFrame對象的一個(gè)方法,用于檢測DataFrame中的重復(fù)行。通過返回一個(gè)布爾值的Series,指示每一行是否是重復(fù)的。如果一行與之前的某行完全相同,則被視為重復(fù)。默認(rèn)情況下,data.duplicated()會將第一個(gè)出現(xiàn)的重復(fù)行標(biāo)記為False,后續(xù)的重復(fù)行標(biāo)記為True。2-1-2使用折線圖進(jìn)行數(shù)據(jù)可視化分析使用折線圖進(jìn)行數(shù)據(jù)可視化分析折線圖認(rèn)知

折線圖是一種常見的數(shù)據(jù)可視化圖表,在折線圖中,一般水平軸(X軸)用來表示時(shí)間的推移,并且間隔相同;而垂直軸(Y軸)代表不同時(shí)刻的數(shù)據(jù)大小。通過連接數(shù)據(jù)點(diǎn)形成折線來展示數(shù)據(jù)的變化趨勢。使用折線圖進(jìn)行數(shù)據(jù)可視化分析由圖可以看出折線圖適合顯示橫軸為有序的變量,也就是說,折線圖在以下場景中被廣泛應(yīng)用,并具有相應(yīng)的優(yōu)勢。折線圖的應(yīng)用場景及優(yōu)勢應(yīng)用場景優(yōu)勢變化趨勢分析清晰地顯示數(shù)據(jù)的上升、下降、波動等變化模式,幫助用戶分析數(shù)據(jù)的趨勢和變化規(guī)律時(shí)間序列數(shù)據(jù)通過在橫軸上表示時(shí)間,將數(shù)據(jù)值映射到縱軸上的折線,可以直觀地觀察數(shù)據(jù)隨時(shí)間的變化情況多個(gè)數(shù)據(jù)對比用戶可以方便地比較不同數(shù)據(jù)集之間的差異,并觀察它們的相對變化異常值檢測如果折線在某個(gè)點(diǎn)上突然出現(xiàn)異常的增長或下降,用戶可以進(jìn)一步檢查該點(diǎn)是否存在數(shù)據(jù)輸入錯誤或其他異常情況。數(shù)據(jù)的周期性分析對于具有明顯周期性變化的數(shù)據(jù),如季節(jié)性銷售趨勢、生物周期等,折線圖可以清楚地展示周期性的規(guī)律和周期的長度。使用折線圖進(jìn)行數(shù)據(jù)可視化分析折線圖能夠反映出電影類型的變化趨勢,所以接下來對電影類型進(jìn)行折線圖分析,除了文件處理的pandas模塊,這里引出了matplotlib模塊,matplotlib是一個(gè)廣泛使用的數(shù)據(jù)可視化庫,適用于數(shù)據(jù)科學(xué)和數(shù)據(jù)分析。它的強(qiáng)大功能和靈活性使得用戶能夠以各種方式呈現(xiàn)和探索數(shù)據(jù)。無論是簡單的圖表(線圖、散點(diǎn)圖、柱狀圖、餅圖、等高線圖、3D圖)還是復(fù)雜的可視化方案,matplotlib都是一個(gè)強(qiáng)大而靈活的工具,其有如下特點(diǎn)和功能。Matplotlib模塊的特點(diǎn)和功能使用折線圖進(jìn)行數(shù)據(jù)可視化分析Matplotlib模塊的特點(diǎn)和功能特點(diǎn)和功能描述簡單易用提供直觀且易于使用的接口,使創(chuàng)建圖表變得簡單而靈活多種圖表類型支持多種常見的圖表類型和樣式,包括線圖、散點(diǎn)圖、柱狀圖、餅圖、箱線圖、等高線圖等高度定制化具有高度定制化的能力,可以自定義圖表的各個(gè)方面,如軸的刻度、標(biāo)簽、線條的顏色、樣式和寬度,以及圖表的尺寸、標(biāo)題和圖例等屬性支持多種輸出格式支持多種輸出格式,包括圖像文件(如PNG、JPEG、SVG)、PDF文件和交互式圖形??梢詫D表保存為文件,或以交互方式在JupyterNotebook等環(huán)境中顯示圖表與NumPy和pandas集成與其他常用的科學(xué)計(jì)算庫(如NumPy和pandas)緊密集成,可以直接使用NumPy數(shù)組或pandas的數(shù)據(jù)結(jié)構(gòu)來創(chuàng)建和繪制圖表豐富的圖形庫提供了

pyplot

接口和其他子模塊,支持更復(fù)雜的圖形繪制和圖形布局??梢蕴砑幼訄D、網(wǎng)格、注釋、圖形裝飾等,以創(chuàng)建更豐富和復(fù)雜的圖表使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)一:計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)一:計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。importpandasaspd#導(dǎo)入pandas庫,用于數(shù)據(jù)處理importmatplotlib.pyplotasplt#導(dǎo)入matplotlib庫,用于繪圖data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv')#讀取CSV文件,將數(shù)據(jù)保存到data變量中g(shù)enre_counts=data['genre'].value_counts()#統(tǒng)計(jì)data中g(shù)enre列中各個(gè)類型出現(xiàn)的次數(shù),并將結(jié)果保存到genre_counts變量中sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即類型)進(jìn)行排序,將結(jié)果保存到sorted_genre_counts變量中代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)一:計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。print(sorted_genre_counts)plt.plot(sorted_genre_counts.index,sorted_genre_counts.values,marker='o')#根據(jù)sorted_genre_counts的索引和值繪制折線圖,并使用圓點(diǎn)標(biāo)記數(shù)據(jù)點(diǎn)plt.title('電影類型統(tǒng)計(jì)')#設(shè)置圖表標(biāo)題為'電影類型統(tǒng)計(jì)'plt.xlabel('電影類型')#設(shè)置x軸標(biāo)簽為'電影類型'plt.ylabel('數(shù)量')#設(shè)置y軸標(biāo)簽為'數(shù)量'plt.xticks(rotation=90)#將x軸標(biāo)簽進(jìn)行旋轉(zhuǎn),以免過于擁擠,角度為90度plt.show()#顯示繪制好的圖表代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)一:計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。代碼講解:

上述代碼matplotlib.pyplot是使用了matplotlib.pyplot模塊,它是matplotlib庫的一個(gè)子模塊,提供了繪制圖表的函數(shù)和方法。具體來說,pyplot提供了一組類似于MATLAB的繪圖函數(shù),使得使用matplotlib更加方便和直觀。通過pyplot,可以使用簡單的函數(shù)調(diào)用來創(chuàng)建圖表、設(shè)置屬性和展示結(jié)果,而無需編寫大量的繪圖代碼。使用折線圖進(jìn)行數(shù)據(jù)可視化分析plt.plot()函數(shù)認(rèn)知plt.plot(x,y,format_string,**kwargs)參數(shù)含義如下:x:x坐標(biāo)的值。y:y坐標(biāo)的值。format_string:格式字符串,用于同時(shí)指定線的樣式、顏色和標(biāo)記。格式字符串由以下三個(gè)部分組成:[marker][line][color]。這三個(gè)部分是可選的,可以根據(jù)需要選擇其中一個(gè)或多個(gè)部分。使用折線圖進(jìn)行數(shù)據(jù)可視化分析plt.plot()函數(shù)認(rèn)知marker:標(biāo)記的類型,用于表示數(shù)據(jù)點(diǎn)。常用的標(biāo)記樣式如下圖所示使用折線圖進(jìn)行數(shù)據(jù)可視化分析plt.plot()函數(shù)認(rèn)知line:線的樣式,用于連接數(shù)據(jù)點(diǎn)。常用的線型樣式如下圖所示。使用折線圖進(jìn)行數(shù)據(jù)可視化分析plt.plot()函數(shù)認(rèn)知line:線的樣式,用于連接數(shù)據(jù)點(diǎn)。常用的線型樣式如下圖所示。使用折線圖進(jìn)行數(shù)據(jù)可視化分析plt.plot()函數(shù)認(rèn)知color:線和標(biāo)記的顏色??梢允褂妙伾Q、十六進(jìn)制顏色代碼、RGB或顏色縮寫來指定顏色。常用的顏色名稱如下圖所示。**kwargs:關(guān)鍵字參數(shù),用于指定其他屬性,如線條寬度(linewidth或lw)、透明度(alpha)、標(biāo)簽(label)等。電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。電影類型數(shù)據(jù)集的導(dǎo)入-Pandas讀取并存取csv文件中的數(shù)據(jù)任務(wù)描述:看出折線圖的標(biāo)題都沒有正常顯示,主要由于這是由matplotlib默認(rèn)不支持中文字符集,需要進(jìn)行一些配置和設(shè)置才能顯示中文。那么首先需要查看中文字體的路徑,為了避免復(fù)雜的搜索,可以使用程序來搜索中文字符集。使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。importmatplotlib.font_managerasfmfonts=fm.findfont(fm.FontProperties(family='SimSun'))#將'SimSun'替換為您想要查找的中文字體名稱print(fonts)運(yùn)行結(jié)果為:C:\Windows\Fonts\simsun.ttc代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。將此結(jié)果放入到上述的程序中,得到如下代碼:importpandasaspd#導(dǎo)入pandas庫,用于數(shù)據(jù)處理importmatplotlib.pyplotasplt#導(dǎo)入matplotlib庫,用于繪圖plt.rcParams['font.family']='SimSun'data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv')#讀取CSV文件,將數(shù)據(jù)保存到data變量中g(shù)enre_counts=data['genre'].value_counts()#統(tǒng)計(jì)data中g(shù)enre列中各個(gè)類型出現(xiàn)的次數(shù),并將結(jié)果保存到genre_counts變量中代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即類型)進(jìn)行排序,將結(jié)果保存到sorted_genre_counts變量中print(sorted_genre_counts)plt.plot(sorted_genre_counts.index,sorted_genre_counts.values,marker='o')#根據(jù)sorted_genre_counts的索引和值繪制折線圖,并使用圓點(diǎn)標(biāo)記數(shù)據(jù)點(diǎn)plt.title('電影類型統(tǒng)計(jì)')#設(shè)置圖表標(biāo)題為'電影類型統(tǒng)計(jì)'plt.xlabel('電影類型')#設(shè)置x軸標(biāo)簽為'電影類型'代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。plt.ylabel('數(shù)量')#設(shè)置y軸標(biāo)簽為'數(shù)量'plt.xticks(rotation=90)#將x軸標(biāo)簽進(jìn)行旋轉(zhuǎn),以免過于擁擠,角度為90度plt.show()#顯示繪制好的圖表代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。importpandasaspd#導(dǎo)入pandas庫,用于數(shù)據(jù)處理importmatplotlib.pyplotasplt#導(dǎo)入matplotlib庫,用于繪圖data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv')#讀取CSV文件,將數(shù)據(jù)保存到data變量中g(shù)enre_counts=data['genre'].value_counts()#統(tǒng)計(jì)data中g(shù)enre列中各個(gè)類型出現(xiàn)的次數(shù),并將結(jié)果保存到genre_counts變量中sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即類型)進(jìn)行排序,將結(jié)果保存到sorted_genre_counts變量中代碼如下:使用折線圖進(jìn)行數(shù)據(jù)可視化分析代碼運(yùn)行結(jié)果:任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖??梢钥闯鯟omedy類型的電影數(shù)量最多,也是最熱門的電影類型,通過折線圖能看出不同電影類型變化程度和走勢,這可以為電影行業(yè)的營銷活動和發(fā)布計(jì)劃提供指導(dǎo)。使用折線圖進(jìn)行數(shù)據(jù)可視化分析代碼講解:任務(wù)二:完善上圖計(jì)算不同電影類型的數(shù)量,最后根據(jù)不同的數(shù)量繪制出折線圖。

可以看出在代碼中加入了plt.rcParams['font.family']='SimSun'這行代碼,這行代碼用于設(shè)置Matplotlib中文顯示字體為宋體(SimSun)。通過將此行代碼添加到Matplotlib代碼中可以確保使用的字體是宋體,以支持中文字符的顯示。請確保已經(jīng)安裝了SimSun字體,否則可能會導(dǎo)致字體無法加載。2-2電影類型與票房關(guān)系可視化項(xiàng)目實(shí)戰(zhàn)電影類型與票房數(shù)據(jù)的操作使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析0102目錄CONCENTS電影類型與票房數(shù)據(jù)的操作2-2-1電影類型與票房數(shù)據(jù)的操作導(dǎo)入數(shù)據(jù)集在此子項(xiàng)目中依然用與子項(xiàng)目1同樣的數(shù)據(jù)集,但在電影類型“genre”列的基礎(chǔ)上還需要使用總票房“total_gross”列。使用下面代碼導(dǎo)入數(shù)據(jù)集:data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv')

考慮到處理的同一數(shù)據(jù)集,并且在采用刪除重復(fù)行來處理數(shù)據(jù)集時(shí),是對每行的所有列進(jìn)行的處理,所以這里就不再處理數(shù)據(jù)集。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析2-2-2使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析柱狀圖認(rèn)知

柱狀圖也是一種常見的數(shù)據(jù)可視化圖表,只不過它通過矩形柱來表示數(shù)據(jù)的大小或數(shù)量。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析柱狀圖認(rèn)知應(yīng)用場景優(yōu)勢數(shù)據(jù)對比通過將每個(gè)類別或組的數(shù)據(jù)表示為獨(dú)立的柱子,可以直觀地比較它們之間的差異。柱狀圖能夠凸顯不同數(shù)據(jù)之間的相對大小,幫助用戶做出快速而準(zhǔn)確的對比分析。分類數(shù)據(jù)展示每個(gè)類別可以表示為一個(gè)單獨(dú)的柱子,柱子的高度表示該類別下的頻數(shù)、比例或其他度量。這樣可以清晰地觀察各個(gè)類別之間的差異和相對分布情況。突出異常值幫助用戶快速識別異常值或離群點(diǎn)。如果某個(gè)柱子明顯高于或低于其他柱子,那么可以迅速發(fā)現(xiàn)該類別的數(shù)據(jù)與其他類別存在較大差異,引起進(jìn)一步的關(guān)注和分析。時(shí)間序列數(shù)據(jù)展示用于展示時(shí)間序列數(shù)據(jù)中的變化情況。每個(gè)時(shí)間點(diǎn)可以表示為一個(gè)柱子,用戶可以觀察數(shù)據(jù)在不同時(shí)間點(diǎn)的變化趨勢和演化模式。任務(wù)一:在該任務(wù)中通過柱狀圖完成對電影類型與票房關(guān)系數(shù)據(jù)進(jìn)行可視化分析,那么不同電影類型的總票房在坐標(biāo)軸上顯示柱狀圖。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析任務(wù)一:在該任務(wù)中通過柱狀圖完成對電影類型與票房關(guān)系數(shù)據(jù)進(jìn)行可視化分析,那么不同電影類型的總票房在坐標(biāo)軸上顯示柱狀圖。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.family']='SimSun'data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼電影總收入數(shù)據(jù)集.csv')genre_total_gross=data.groupby('genre')['total_gross'].sum()sorted_genre_total_gross=genre_total_gross.sort_values(ascending=False)plt.bar(sorted_genre_total_gross.index,sorted_genre_total_gross.values)plt.xlabel('電影類型')plt.ylabel('總票房(單位:億)')plt.title('不同電影類型的總票房')plt.xticks(rotation=45)plt.show()代碼如下:任務(wù)一:在該任務(wù)中通過柱狀圖完成對電影類型與票房關(guān)系數(shù)據(jù)進(jìn)行可視化分析,那么不同電影類型的總票房在坐標(biāo)軸上顯示柱狀圖。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析代碼講解:

上述代碼之所以能有顯示柱狀圖,plt.bar()函數(shù)起了關(guān)鍵作用,plt.bar()函數(shù)是matplotlib庫中用于繪制垂直柱狀圖的函數(shù)。在坐標(biāo)軸上以垂直矩形的方式表示不同類別的數(shù)據(jù),并可以通過調(diào)整參數(shù)來自定義圖表的外觀。該一般語法如下:

plt.bar(x,height,width=0.8,bottom=None,align='center',color=None,edgecolor=None,linewidth=None,tick_label=None,label=None,log=False,alpha=None,hatch=None,**kwargs)

參數(shù)說明:x:要顯示的條形的x坐標(biāo)或類別標(biāo)簽的列表或數(shù)組。height:條形的高度或值的列表或數(shù)組。width:條形的寬度。默認(rèn)值為0.8。任務(wù)一:在該任務(wù)中通過柱狀圖完成對電影類型與票房關(guān)系數(shù)據(jù)進(jìn)行可視化分析,那么不同電影類型的總票房在坐標(biāo)軸上顯示柱狀圖。使用柱狀圖進(jìn)行數(shù)據(jù)可視化分析代碼講解:bottom:可選參數(shù),用于指定條形的底部起始位置。默認(rèn)為None,表示從0開始。align:條形的對齊方式??梢允亲址?center'、'edge'或'align',默認(rèn)為'center'。color:條形的填充顏色??梢允亲址硎镜念伾Q(如'red'或'blue'),也可以

是表示顏色的RGB元組(如(0.2,0.4,0.6))。edgecolor:條形的邊框顏色。默認(rèn)為None,表示沒有邊框。linewidth:條形的邊框線寬度。默認(rèn)為None,表示使用默認(rèn)線寬。tick_lab

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論