Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)_第1頁(yè)
Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)_第2頁(yè)
Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)_第3頁(yè)
Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)_第4頁(yè)
Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)目錄基本數(shù)據(jù)集操作基本數(shù)據(jù)處理DataFrame操作Pandas是一個(gè)Python軟件庫(kù),它提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。一般而言,Pandas是使Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。

Pandas是基于NumPy構(gòu)建的庫(kù),在數(shù)據(jù)處理方面可以把它理解為NumPy加強(qiáng)版,同時(shí)Pandas也是一項(xiàng)開(kāi)源項(xiàng)目。它基于Cython,因此讀取與處理數(shù)據(jù)非???,并且還能輕松處理浮點(diǎn)數(shù)據(jù)中的缺失數(shù)據(jù)(表示為NaN)以及非浮點(diǎn)數(shù)據(jù)。

本文中,基本數(shù)據(jù)集操作主要介紹了CSV與Excel的讀寫方法,基本數(shù)據(jù)處理主要介紹了缺失值及特征抽取,最后的DataFrame操作則主要介紹了函數(shù)和排序等方法。

基本數(shù)據(jù)集操作

1.讀取CSV格式的數(shù)據(jù)集

pd.DataFrame.from_csv(“csv_file”)

或者:

pd.read_csv(“csv_file”)

2.讀取Excel數(shù)據(jù)集

pd.read_excel("excel_file")

3.將DataFrame直接寫入CSV文件

如下采用逗號(hào)作為分隔符,且不帶索引:

df.to_csv("data.csv",sep=",",index=False)

4.基本的數(shù)據(jù)集特征信息

()

5.基本的數(shù)據(jù)集統(tǒng)計(jì)信息

print(df.describe())

6.Printdataframeinatable

將DataFrame輸出到一張表:

print(tabulate(print_table,headers=headers))

當(dāng)「print_table」是一個(gè)列表,其中列表元素還是新的列表,「headers」為表頭字符串組成的列表。

7.列出所有列的名字

df.columns

基本數(shù)據(jù)處理

8.刪除缺失數(shù)據(jù)

df.dropna(axis=0,how='any')

返回一個(gè)DataFrame,其中刪除了包含任何NaN值的給定軸,選擇how=「all」會(huì)刪除所有元素都是NaN的給定軸。

9.替換缺失數(shù)據(jù)

df.replace(to_replace=None,value=None)

使用value值代替DataFrame中的to_replace值,其中value和to_replace都需要我們賦予不同的值。

10.檢查空值NaN

pd.isnull(object)

檢查缺失值,即數(shù)值數(shù)組中的NaN和目標(biāo)數(shù)組中的None/NaN。

11.刪除特征

df.drop('feature_variable_name',axis=1)

axis選擇0表示行,選擇表示列。

12.將目標(biāo)類型轉(zhuǎn)換為浮點(diǎn)型

pd.to_numeric(df["feature_name"],errors='coerce')

將目標(biāo)類型轉(zhuǎn)化為數(shù)值從而進(jìn)一步執(zhí)行計(jì)算,在這個(gè)案例中為字符串。

13.將DataFrame轉(zhuǎn)換為NumPy數(shù)組

df.as_matrix()

14.取DataFrame的前面「n」行

df.head(n)

15.通過(guò)特征名取數(shù)據(jù)

df.loc[feature_name]

DataFrame操作

16.對(duì)DataFrame使用函數(shù)

該函數(shù)將令DataFrame中「height」行的所有值乘上2:

df["height"].apply(*lambda*height:2*height)

或:

defmultiply(x):returnx*2df["height"].apply(multiply)

17.重命名行

下面代碼會(huì)重命名DataFrame的第三行為「size」:

df.rename(columns={!--{C}%3C!%2D%2D%20%2D%2D%3E--df.columns[2]:'size'},inplace=True)

18.取某一行的唯一實(shí)體

下面代碼將取「name」行的唯一實(shí)體:

df["name"].unique()

19.訪問(wèn)子DataFrame

以下代碼將從DataFrame中抽取選定了的行「name」和「size」:

new_df=df[["name","size"]]

20.總結(jié)數(shù)據(jù)信息

#Sumofvaluesinadataframe

df.sum()

#Lowestvalueofadataframe

df.min()

#Highestvalue

df.max()

#Indexofthelowestvalue

df.idxmin()

#Indexofthehighestvalue

df.idxmax()

#Statisticalsummaryofthedataframe,withquartiles,median,etc.

df.describe()

#Averagevalues

df.mean()

#Medianvalues

df.median()

#Correlationbetweencolumns

df.corr()

#Togetthesevaluesforonlyonecolumn,justselectitlikethis#

df["size"].median()

21.給數(shù)據(jù)排序

df.sort_values(ascending=False)

22.布爾型索引

以下代碼將過(guò)濾名為「size」的行,并僅顯示值等于5的行:

df[df["size"]==5]

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論