Python查詢?nèi)笔е档?種方法總結(jié)_第1頁(yè)
Python查詢?nèi)笔е档?種方法總結(jié)_第2頁(yè)
Python查詢?nèi)笔е档?種方法總結(jié)_第3頁(yè)
Python查詢?nèi)笔е档?種方法總結(jié)_第4頁(yè)
Python查詢?nèi)笔е档?種方法總結(jié)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第Python查詢?nèi)笔е档?種方法總結(jié)目錄缺失值NaN①缺失值NaN②空值字符-、?等在我們?nèi)粘=佑|到的Python中,狹義的缺失值一般指DataFrame中的NaN。廣義的話,可以分為三種。

缺失值:在Pandas中的缺失值有三種:np.nan(NotaNumber)、None和pd.NaT(時(shí)間格式的空值,注意大小寫(xiě)不能錯(cuò))空值:空值在Pandas中指的是空字符串;最后一類是導(dǎo)入的Excel等文件中,原本用于表示缺失值的字符-、?等。

今天聊聊Python中查詢?nèi)笔е档?種方法。

缺失值NaN①

在Pandas中查詢?nèi)笔е担畛S玫?法就是isnull(),返回True表示此處為缺失值。

我們可以將其與any()?法搭配使用來(lái)查詢存在缺失值的行,也可以與sum()?法搭配使用來(lái)查詢存在缺失值的列。

isnull():對(duì)于缺失值,返回True;對(duì)于?缺失值,返回False。any():?個(gè)序列中有?個(gè)True,則返回True,否則返回False。sum():對(duì)序列進(jìn)行求和計(jì)算。

在交互式環(huán)境中輸入如下命令:

df.isnull()

輸出:

在交互式環(huán)境中輸入如下命令:

df.isnull().any(axis=1)

輸出:

在交互式環(huán)境中輸入如下命令:

df.isnull().sum()

輸出:

注:isna()和isnull()的用法是相同的,這里不再演示

缺失值NaN②

由于在Pandas中isnull()方法返回True表示此處為缺失值,所以我們可以對(duì)數(shù)據(jù)集進(jìn)行切片也可實(shí)現(xiàn)找到缺失值。

在交互式環(huán)境中輸入如下命令:

df[df.isnull().values==True]

輸出:

注意:如果某行有多個(gè)值是空值,則會(huì)重復(fù)次數(shù)出現(xiàn),所以我們可以利用df[df.isnull().values==True].drop_duplicates()來(lái)去重。

另外,notnull()方法是與isnull()相對(duì)應(yīng)的,使用它可以直接查詢非缺失值的數(shù)據(jù)行。

df[df["A列"].notnull()]

輸出:

空值

空值在Pandas中指的是空字符串,我們同樣可以對(duì)數(shù)據(jù)集進(jìn)行切片找到空值。

在交互式環(huán)境中輸入如下命令:

df[df["B列"]

==

""]

輸出:

此外,也可以利用空值與正常值的區(qū)別來(lái)區(qū)分兩者,比如isnumeric()方法檢測(cè)字符串是否只由數(shù)字組成。

在交互式環(huán)境中輸入如下命令:

df[df["B列"].str.isnumeric()

==

False

]

輸出:

如上所示,同樣查詢到了數(shù)據(jù)集中的空值。

字符-、?等

很多時(shí)候,我們要處理的是本地的歷史數(shù)據(jù)文件,在這些Excel中往往并不規(guī)范,比如它們有可能會(huì)使用*、?、、!等等字符來(lái)表示缺失值。

對(duì)于這類文本,我們可以使用正則表達(dá)式來(lái)匹配缺失值。

import

re

df[df["C列"].apply(lambda

x:

len(re.findall('NA|[*||!|#|-]',

x))

!=

0)]

輸出:

如上所示,我自定義了匿名函數(shù)lambda,作用是在文本列的每一行中查找以下文本值:NA、*、?、!、#、-,并檢查它找到的列表的長(zhǎng)度。如果列表不為零,則表示找到了代表缺失值的字符,因此該行中至少有一個(gè)缺失值。

df[df["D列"].apply(lambda

x:

len(re.findall('NA|[*||!|

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論