第05課-lecture數(shù)據(jù)分析工具pandas基礎(chǔ)_第1頁
第05課-lecture數(shù)據(jù)分析工具pandas基礎(chǔ)_第2頁
第05課-lecture數(shù)據(jù)分析工具pandas基礎(chǔ)_第3頁
第05課-lecture數(shù)據(jù)分析工具pandas基礎(chǔ)_第4頁
第05課-lecture數(shù)據(jù)分析工具pandas基礎(chǔ)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余26頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

法律

本課件包括:演示文稿,示例,代碼,題庫,和聲音等,小象學(xué)院擁有完全知識

的權(quán)利;只限于善意學(xué)習(xí)者在本課程使用,不得在課程范圍外向任何第散播。任何其他人或機(jī)構(gòu)不得盜版、創(chuàng)意,

保留一切通過法律、仿造其中的者的權(quán)利。

課程咨詢:大數(shù)據(jù)分析挖掘:ChinaHadoop互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者第五講數(shù)據(jù)分析工具Pandas基礎(chǔ)--互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Series類似一維數(shù)組的對象通過list構(gòu)建Seriesser_obj

=pd.Series(range(10))由數(shù)據(jù)和索引組成索引在左,數(shù)據(jù)在右索引是自動(dòng)創(chuàng)建的獲取數(shù)據(jù)和索引ser_obj.index,

ser_obj.values預(yù)覽數(shù)據(jù)ser_obj.head(n)示例代碼:01_pandas_data_structures.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Series(續(xù))通過索引獲取數(shù)據(jù)ser_obj[idx]索引與數(shù)據(jù)的對應(yīng)關(guān)系仍保持在數(shù)組運(yùn)算的結(jié)果中通過dict構(gòu)建Seriesname屬性ser_,ser_示例代碼:01_pandas_data_structures.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)DataFrame類似

數(shù)組/表格數(shù)據(jù)

(如,excel,R中的data.frame)每列數(shù)據(jù)可以是不同的類型,what

about

ndarray?索引包括列索引和行索引示例代碼:01_pandas_data_structures.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)DataFrame通過ndarray構(gòu)建DataFrame通過dict構(gòu)建DataFrame通過列索引獲取列數(shù)據(jù)(Series類型)df_obj[col_idx]或df_obj.col_idx增加列數(shù)據(jù),類似dict添加key-valuedf_obj[new_col_idx]

=

data刪除列del

df_obj[col_idx]示例代碼:01_pandas_data_structures.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)索引對象IndexSeries和DataFrame中的索引都是Index對象不可變(immutable)保證了數(shù)據(jù)的安全常見的Index種類IndexInt64IndexMultiIndex,“層級”索引DatetimeIndex,時(shí)間戳類型示例代碼:01_pandas_data_structures.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作索引操作Series索引行索引,ser_obj[‘label’],ser_obj[pos]切片索引,ser_obj[2:4],

ser_obj[‘label1’:’label3’]注意,按索引名切片操作時(shí),是包含終止索引的。不連續(xù)索引,ser_obj[[‘label1’,’label2’,‘label3’]]ser_obj[[pos1,

pos2,pos3]]索引示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作示例代碼:02_pandas_data_process.ipynb索引操作(續(xù))DataFrame索引互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作索引操作(續(xù))DataFrame索引列索引df_obj[‘label’]不連續(xù)索引df_obj[[‘label1’,

‘label2’]]示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作索引操作總結(jié)Pandas的索引可歸納為3種.loc,

索引.iloc,位置索引.ix,

與位置混合索引先按

索引嘗試操作,然后再按位置索引嘗試操作注意DataFrame索引時(shí)可將其看作ndarray操作的切片索引是包含末尾位置的示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作運(yùn)算與對齊按索引對齊運(yùn)算,沒對齊的位置補(bǔ)NaNSeries按行索引對齊DataFrame按行、列索引對齊填充未對齊的數(shù)據(jù)進(jìn)行運(yùn)算使用add,

sub,

div,mul同時(shí)通過fill_value指定填充值填充NaNfillna示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作函數(shù)應(yīng)用可直接使用NumPy的ufunc函數(shù),如abs等通過apply將函數(shù)應(yīng)用到行或列上注意指定軸的方向,默認(rèn)axis=0通過applymap將函數(shù)應(yīng)用到每個(gè)數(shù)據(jù)上示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作排序sort_index,索引排序?qū)ataFrame操作時(shí)注意軸方向按值排序sort_values(by=‘label’)示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)操作處理缺失數(shù)據(jù)判斷是否存在缺失值ser_obj.isnull(),

df_obj.isnull()dropna丟棄缺失數(shù)據(jù)fillna填充缺失數(shù)據(jù)示例代碼:02_pandas_data_process.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas統(tǒng)計(jì)計(jì)算和描述常用的統(tǒng)計(jì)計(jì)算sum,

mean,

max,

min…axis=0按列統(tǒng)計(jì),axis=1按行統(tǒng)計(jì)skipna排除缺失值,默認(rèn)為Trueidmax,

idmin,

cumsum統(tǒng)計(jì)描述describe產(chǎn)生多個(gè)統(tǒng)計(jì)數(shù)據(jù)示例代碼:03_pandas_stats.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas統(tǒng)計(jì)計(jì)算和描述互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas統(tǒng)計(jì)計(jì)算和描述互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的繪圖函數(shù)Matplotlib相對“低級”的繪圖工具需要自己完成基礎(chǔ)組件的組裝,如圖例、標(biāo)題、

等。Pandas繪圖函數(shù)高效、簡單根據(jù)數(shù)據(jù)的索引、進(jìn)行繪圖互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的繪圖函數(shù)Pandas常用的繪圖函數(shù)線形圖,ser_obj.plot(),df_obj.plot()柱狀圖,ser_obj.plot(kind=‘bar’),df_obj.plot(kind=‘bar’)barh,水平柱狀圖散布矩陣pd.scatter_matrix(df_obj)繪圖函數(shù)請參考最后的示例代碼:04_pandas_plot.ipynb互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者Pandas的數(shù)據(jù)結(jié)構(gòu)Pandas的數(shù)據(jù)操作Pandas統(tǒng)計(jì)計(jì)算和描述Pandas的繪圖函數(shù)實(shí)戰(zhàn)案例:星際爭霸II重放分析互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者實(shí)戰(zhàn)案例示例代碼:lecture05_proj.zip項(xiàng)目介紹/sfu-summit/starcraft-ii-replay-ysishttp戰(zhàn)隊(duì)的各屬性分析項(xiàng)目任務(wù)分析各戰(zhàn)隊(duì)的統(tǒng)計(jì)信息可視化分析結(jié)果涉及知識點(diǎn)Pandas數(shù)據(jù)操作Matplotlib繪圖互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者實(shí)戰(zhàn)案例分析步驟查看數(shù)據(jù)明確分析目標(biāo)分析各戰(zhàn)隊(duì)的屬性可視化屬性統(tǒng)計(jì)信息處理缺失數(shù)據(jù)(可選)數(shù)據(jù)統(tǒng)計(jì)分析模塊化常用功能保存分析結(jié)果分析結(jié)果數(shù)據(jù)可視化結(jié)果df_()df_obj.shape()df_obj.head()df_obj.dropna()df_obj.fillna()pandas索引、過濾、統(tǒng)計(jì)df_obj.to_csv()matplotlib互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者參考10分鐘了解PandasPandas的索引操作Pandas處理缺失數(shù)據(jù)Pandas繪圖docs/version/0.18.1/visual

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論