下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第Python查詢?nèi)笔е档?種方法總結(jié)目錄缺失值NaN①缺失值NaN②空值字符-、?等在我們?nèi)粘=佑|到的Python中,狹義的缺失值一般指DataFrame中的NaN。廣義的話,可以分為三種。
缺失值:在Pandas中的缺失值有三種:np.nan(NotaNumber)、None和pd.NaT(時(shí)間格式的空值,注意大小寫(xiě)不能錯(cuò))空值:空值在Pandas中指的是空字符串;最后一類是導(dǎo)入的Excel等文件中,原本用于表示缺失值的字符-、?等。
今天聊聊Python中查詢?nèi)笔е档?種方法。
缺失值NaN①
在Pandas中查詢?nèi)笔е担畛S玫?法就是isnull(),返回True表示此處為缺失值。
我們可以將其與any()?法搭配使用來(lái)查詢存在缺失值的行,也可以與sum()?法搭配使用來(lái)查詢存在缺失值的列。
isnull():對(duì)于缺失值,返回True;對(duì)于?缺失值,返回False。any():?個(gè)序列中有?個(gè)True,則返回True,否則返回False。sum():對(duì)序列進(jìn)行求和計(jì)算。
在交互式環(huán)境中輸入如下命令:
df.isnull()
輸出:
在交互式環(huán)境中輸入如下命令:
df.isnull().any(axis=1)
輸出:
在交互式環(huán)境中輸入如下命令:
df.isnull().sum()
輸出:
注:isna()和isnull()的用法是相同的,這里不再演示
缺失值NaN②
由于在Pandas中isnull()方法返回True表示此處為缺失值,所以我們可以對(duì)數(shù)據(jù)集進(jìn)行切片也可實(shí)現(xiàn)找到缺失值。
在交互式環(huán)境中輸入如下命令:
df[df.isnull().values==True]
輸出:
注意:如果某行有多個(gè)值是空值,則會(huì)重復(fù)次數(shù)出現(xiàn),所以我們可以利用df[df.isnull().values==True].drop_duplicates()來(lái)去重。
另外,notnull()方法是與isnull()相對(duì)應(yīng)的,使用它可以直接查詢非缺失值的數(shù)據(jù)行。
df[df["A列"].notnull()]
輸出:
空值
空值在Pandas中指的是空字符串,我們同樣可以對(duì)數(shù)據(jù)集進(jìn)行切片找到空值。
在交互式環(huán)境中輸入如下命令:
df[df["B列"]
==
""]
輸出:
此外,也可以利用空值與正常值的區(qū)別來(lái)區(qū)分兩者,比如isnumeric()方法檢測(cè)字符串是否只由數(shù)字組成。
在交互式環(huán)境中輸入如下命令:
df[df["B列"].str.isnumeric()
==
False
]
輸出:
如上所示,同樣查詢到了數(shù)據(jù)集中的空值。
字符-、?等
很多時(shí)候,我們要處理的是本地的歷史數(shù)據(jù)文件,在這些Excel中往往并不規(guī)范,比如它們有可能會(huì)使用*、?、、!等等字符來(lái)表示缺失值。
對(duì)于這類文本,我們可以使用正則表達(dá)式來(lái)匹配缺失值。
import
re
df[df["C列"].apply(lambda
x:
len(re.findall('NA|[*||!|#|-]',
x))
!=
0)]
輸出:
如上所示,我自定義了匿名函數(shù)lambda,作用是在文本列的每一行中查找以下文本值:NA、*、?、!、#、-,并檢查它找到的列表的長(zhǎng)度。如果列表不為零,則表示找到了代表缺失值的字符,因此該行中至少有一個(gè)缺失值。
df[df["D列"].apply(lambda
x:
len(re.findall('NA|[*||!|
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年駐馬店職業(yè)技術(shù)學(xué)院輔導(dǎo)員招聘?jìng)淇碱}庫(kù)附答案
- 小學(xué)校舍抗震加固方案
- 2026年泉州工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)附答案
- 2025年山東省臨沂市單招職業(yè)適應(yīng)性測(cè)試模擬測(cè)試卷附答案解析
- 標(biāo)準(zhǔn)化廠房結(jié)構(gòu)檢測(cè)與加固方案
- AOPA無(wú)人機(jī)理論考試題庫(kù)及答案1套
- 2025至2030建筑產(chǎn)業(yè)發(fā)展分析及前景趨勢(shì)與投資策略研究報(bào)告
- 中醫(yī)院數(shù)字化影像系統(tǒng)建設(shè)方案
- 儲(chǔ)備糧倉(cāng)庫(kù)流程再造技術(shù)方案
- 裝修工程驗(yàn)收標(biāo)準(zhǔn)化方案
- 2025年農(nóng)村人居環(huán)境五年評(píng)估報(bào)告
- 浙江省杭州市拱墅區(qū)2024-2025學(xué)年四年級(jí)上冊(cè)期末考試數(shù)學(xué)試卷(含答案)
- 房屋過(guò)戶給子女的協(xié)議書(shū)的范文
- 超聲振動(dòng)珩磨裝置的總體設(shè)計(jì)
- 新媒體藝術(shù)的發(fā)展歷程及藝術(shù)特征
- 醫(yī)保違規(guī)行為分類培訓(xùn)課件
- 講課學(xué)生數(shù)學(xué)學(xué)習(xí)成就
- 醫(yī)療器械法規(guī)對(duì)互聯(lián)網(wǎng)銷(xiāo)售的限制
- 西葫蘆栽培技術(shù)要點(diǎn)
- 系桿拱橋系桿預(yù)應(yīng)力施工控制要點(diǎn)
- 三亞市海棠灣椰子洲島土地價(jià)格咨詢報(bào)告樣本及三洲工程造價(jià)咨詢有限公司管理制度
評(píng)論
0/150
提交評(píng)論