Python與機(jī)器學(xué)習(xí)(第2版)(微課版) 課件 2-03-分組分析任務(wù)實(shí)施_第1頁
Python與機(jī)器學(xué)習(xí)(第2版)(微課版) 課件 2-03-分組分析任務(wù)實(shí)施_第2頁
Python與機(jī)器學(xué)習(xí)(第2版)(微課版) 課件 2-03-分組分析任務(wù)實(shí)施_第3頁
Python與機(jī)器學(xué)習(xí)(第2版)(微課版) 課件 2-03-分組分析任務(wù)實(shí)施_第4頁
Python與機(jī)器學(xué)習(xí)(第2版)(微課版) 課件 2-03-分組分析任務(wù)實(shí)施_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主講人:陳清華分組分析任務(wù)實(shí)施【數(shù)據(jù)挖掘應(yīng)用】課程碳排放數(shù)據(jù)分析熟練掌握從Excel文件中讀取數(shù)據(jù)的方法會運(yùn)用groupby()對碳排放數(shù)據(jù)進(jìn)行分組分析會選擇使用適當(dāng)?shù)膱D表表達(dá)數(shù)據(jù)會對圖表中的元素及相關(guān)參數(shù)進(jìn)行設(shè)置知識與能力目標(biāo)主要內(nèi)容任務(wù)工單引導(dǎo)問題任務(wù)評價標(biāo)準(zhǔn)任務(wù)解決方案代碼解析對碳排放數(shù)據(jù)進(jìn)行分組分析tpf.xlsx教學(xué)難點(diǎn)任務(wù)工單該文件中總共有四張工作表。其中,第一張工作表是對表格文件的整體說明,第二張工作表是碳排放數(shù)據(jù)的合計,第三張工作表是按行業(yè)和年份對碳排放數(shù)據(jù)的交叉匯總,最后一張工作表記錄了具體的數(shù)據(jù)明細(xì)對第四張工作表進(jìn)行分析任務(wù)概述

任務(wù)描述:

本項(xiàng)目從網(wǎng)絡(luò)中下載了碳排放數(shù)據(jù),做了簡單處理并將其存儲于“tpf.xlsx”文件中。010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889數(shù)據(jù)源tpf.xlsx顯示結(jié)果

任務(wù)要求任務(wù)概述按年份(1)Excel中數(shù)據(jù)存儲的結(jié)構(gòu)是什么樣的?如何從本地Excel文件中讀取數(shù)據(jù)?(2)Pandas包中的read_excel()能讀取什么類型的文件?如何使用?(3)read_excel()的關(guān)鍵參數(shù)有哪些?哪些是必選的?如何指定需要讀取的具體工作表?(4)什么是分組分析?分組分析主要適用于什么需求情境?我們對tpf.xlsx文件中的數(shù)據(jù)做哪方面的分組分析?(5)Matplotlib包主要用來做什么?如何利用Matplotlib編碼實(shí)現(xiàn)柱狀圖、堆積柱狀圖和折線圖?”

問題引導(dǎo):任務(wù)概述

任務(wù)評價:任務(wù)概述評價內(nèi)容評價要點(diǎn)分值分?jǐn)?shù)評定自我評價1.任務(wù)實(shí)施數(shù)據(jù)讀取2分會讀取數(shù)據(jù)得1分,數(shù)據(jù)正確顯示得1分

數(shù)據(jù)分組分析3分會按行業(yè)進(jìn)行分組分析得2分,會按年份進(jìn)行分組分析得1分

2.結(jié)果展現(xiàn)數(shù)據(jù)可視化顯示4分能展現(xiàn)重點(diǎn)分析對象得1分,能展現(xiàn)行業(yè)占比差異得2分,能展現(xiàn)趨勢變化得1分

3.任務(wù)總結(jié)依據(jù)任務(wù)實(shí)施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點(diǎn)要點(diǎn)得1分

合計10分

2行:導(dǎo)入pandas包,并給出別名pd。第3行:使用read_excel()獲取數(shù)據(jù)讀取Excel文件‘Sum’工作表中的數(shù)據(jù)#coding:utf-8importpandas

aspddf_sum=pd.read_excel("tpf.xlsx",sheet_name='Sum')df_sumsec=pd.read_excel("tpf.xlsx",sheet_name='SumSec')第

4行:讀取‘SumSec’工作表中的數(shù)據(jù)任務(wù)解決方案步驟一:數(shù)據(jù)讀取。任務(wù)解決方案部分?jǐn)?shù)據(jù)顯示第

6行:顯示部分?jǐn)?shù)據(jù)df_detail.head()第

5行:讀取‘Detail’工作表中的數(shù)據(jù)df_detail=pd.read_excel("tpf.xlsx",sheet_name=‘Detail')步驟一:數(shù)據(jù)讀取。任務(wù)解決方案df_detail_grp=df_detail.groupby(['item'])['RawCoal','Scope1Total'].mean()部分?jǐn)?shù)據(jù)顯示步驟二:分行業(yè)統(tǒng)計1997-2019年原煤(RawCoal)碳排放、總碳排放量(Scope1Total)的平均情況df_detail_grp

=pd.DataFrame(df_detail_grp).reset_index()df_detail_grp.head()第

7行:將‘item’列設(shè)為分組列,‘RawCoal’、‘Scope1Total’列設(shè)為統(tǒng)計列第

10行:導(dǎo)入繪圖包,并給出別名plt。第

11行:對數(shù)據(jù)列進(jìn)行排序importmatplotlib.pyplotaspltdf_detail_grp=df_detail_grp.sort_values(by='Scope1Total',ascending=False)

df_detail_grp1=df_detail_grp.head(10)任務(wù)解決方案第

13行:創(chuàng)建一個大小為(12,4)的條形圖,x軸為‘item’列,y軸為‘Scope1Total’列df_detail_grp1.plot(x='item',y='Scope1Total',kind='bar',figsize=(12,4))步驟三:用柱狀圖展現(xiàn)總碳排放量排名前10的行業(yè)第

12行:顯示前十名的數(shù)據(jù)任務(wù)解決方案df_detail_grp2=df_detail.groupby(['year'])[df_detail.columns[3:len(df_detail.columns)-1]].sum()第

14行:將數(shù)據(jù)按年分組并排序df_detail_grp2=pd.DataFrame(df_detail_grp2).reset_index()第

16行:顯示數(shù)據(jù)部分?jǐn)?shù)據(jù)顯示步驟四:統(tǒng)計1997-2019年所有行業(yè)的碳總排放量df_detail_grp2.head()第

17行:導(dǎo)入random包,命名為rndimportrandomasrnd第

18、19、20行:賦予初始值任務(wù)解決方案第

21行:創(chuàng)建一個大小是(12,8)的畫布賦值給變量fig,并創(chuàng)建一個axes,賦值給axi=0y=0i=1fig,ax=plt.subplots(figsize=(12,8))步驟五:使用圖表顯示1997-2019年所有行業(yè)不同能源碳排放占比情況whilei<=len(df_detail_grp2.columns)-1:ax.bar(df_detail_grp2['year'],df_detail_grp2[df_detail_grp2.columns[i]],bottom=y,label=df_detail_grp2.columns[i])y=y+df_detail_grp2[df_detail_grp2.columns[i]]i=i+1任務(wù)解決方案設(shè)置柱狀圖的圖例標(biāo)簽,在y軸底部插入圖例,label后面跟的標(biāo)簽參數(shù)的值X軸命名為‘Year’,y軸命名為‘CO2/Mt’plt.xlabel(‘Year’)plt.ylabel('CO2/Mt’)plt.legend()使用legend()函數(shù)使圖例代碼顯示效果步驟五:使用圖表顯示1997-2019年所有行業(yè)不同能源碳排放占比情況第1行:創(chuàng)建一個大?。?0,6)的畫布plt.figure(figsize=(10,6))第2行:賦予初始值任務(wù)解決方案i=1步驟六:使用圖表顯示1997-2019年不同能源碳排放變化趨勢whilei<=len(df_detail_grp2.columns)-1:plt.plot(df_detail_grp2['year'],df_detail_grp2[df_detail

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論