版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)目錄基本數(shù)據(jù)集操作基本數(shù)據(jù)處理DataFrame操作Pandas是一個(gè)Python軟件庫(kù),它提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。一般而言,Pandas是使Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。
Pandas是基于NumPy構(gòu)建的庫(kù),在數(shù)據(jù)處理方面可以把它理解為NumPy加強(qiáng)版,同時(shí)Pandas也是一項(xiàng)開(kāi)源項(xiàng)目。它基于Cython,因此讀取與處理數(shù)據(jù)非???,并且還能輕松處理浮點(diǎn)數(shù)據(jù)中的缺失數(shù)據(jù)(表示為NaN)以及非浮點(diǎn)數(shù)據(jù)。
本文中,基本數(shù)據(jù)集操作主要介紹了CSV與Excel的讀寫方法,基本數(shù)據(jù)處理主要介紹了缺失值及特征抽取,最后的DataFrame操作則主要介紹了函數(shù)和排序等方法。
基本數(shù)據(jù)集操作
1.讀取CSV格式的數(shù)據(jù)集
pd.DataFrame.from_csv(“csv_file”)
或者:
pd.read_csv(“csv_file”)
2.讀取Excel數(shù)據(jù)集
pd.read_excel("excel_file")
3.將DataFrame直接寫入CSV文件
如下采用逗號(hào)作為分隔符,且不帶索引:
df.to_csv("data.csv",sep=",",index=False)
4.基本的數(shù)據(jù)集特征信息
()
5.基本的數(shù)據(jù)集統(tǒng)計(jì)信息
print(df.describe())
6.Printdataframeinatable
將DataFrame輸出到一張表:
print(tabulate(print_table,headers=headers))
當(dāng)「print_table」是一個(gè)列表,其中列表元素還是新的列表,「headers」為表頭字符串組成的列表。
7.列出所有列的名字
df.columns
基本數(shù)據(jù)處理
8.刪除缺失數(shù)據(jù)
df.dropna(axis=0,how='any')
返回一個(gè)DataFrame,其中刪除了包含任何NaN值的給定軸,選擇how=「all」會(huì)刪除所有元素都是NaN的給定軸。
9.替換缺失數(shù)據(jù)
df.replace(to_replace=None,value=None)
使用value值代替DataFrame中的to_replace值,其中value和to_replace都需要我們賦予不同的值。
10.檢查空值NaN
pd.isnull(object)
檢查缺失值,即數(shù)值數(shù)組中的NaN和目標(biāo)數(shù)組中的None/NaN。
11.刪除特征
df.drop('feature_variable_name',axis=1)
axis選擇0表示行,選擇表示列。
12.將目標(biāo)類型轉(zhuǎn)換為浮點(diǎn)型
pd.to_numeric(df["feature_name"],errors='coerce')
將目標(biāo)類型轉(zhuǎn)化為數(shù)值從而進(jìn)一步執(zhí)行計(jì)算,在這個(gè)案例中為字符串。
13.將DataFrame轉(zhuǎn)換為NumPy數(shù)組
df.as_matrix()
14.取DataFrame的前面「n」行
df.head(n)
15.通過(guò)特征名取數(shù)據(jù)
df.loc[feature_name]
DataFrame操作
16.對(duì)DataFrame使用函數(shù)
該函數(shù)將令DataFrame中「height」行的所有值乘上2:
df["height"].apply(*lambda*height:2*height)
或:
defmultiply(x):returnx*2df["height"].apply(multiply)
17.重命名行
下面代碼會(huì)重命名DataFrame的第三行為「size」:
df.rename(columns={!--{C}%3C!%2D%2D%20%2D%2D%3E--df.columns[2]:'size'},inplace=True)
18.取某一行的唯一實(shí)體
下面代碼將取「name」行的唯一實(shí)體:
df["name"].unique()
19.訪問(wèn)子DataFrame
以下代碼將從DataFrame中抽取選定了的行「name」和「size」:
new_df=df[["name","size"]]
20.總結(jié)數(shù)據(jù)信息
#Sumofvaluesinadataframe
df.sum()
#Lowestvalueofadataframe
df.min()
#Highestvalue
df.max()
#Indexofthelowestvalue
df.idxmin()
#Indexofthehighestvalue
df.idxmax()
#Statisticalsummaryofthedataframe,withquartiles,median,etc.
df.describe()
#Averagevalues
df.mean()
#Medianvalues
df.median()
#Correlationbetweencolumns
df.corr()
#Togetthesevaluesforonlyonecolumn,justselectitlikethis#
df["size"].median()
21.給數(shù)據(jù)排序
df.sort_values(ascending=False)
22.布爾型索引
以下代碼將過(guò)濾名為「size」的行,并僅顯示值等于5的行:
df[df["size"]==5]
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職(汽車檢測(cè)與維修)汽車電器檢修階段測(cè)試題及答案
- 2025年中職面料塑性(面料處理技術(shù))試題及答案
- 2025年大學(xué)船舶機(jī)械安裝(船舶機(jī)械安裝)試題及答案
- 2025年高職(寵物醫(yī)療技術(shù))寵物寄生蟲病防治試題及答案
- 2025年大學(xué)本科(工商管理)運(yùn)營(yíng)管理基礎(chǔ)階段測(cè)試題及答案
- 2025年高職(自然保護(hù)地建設(shè)與管理)保護(hù)區(qū)運(yùn)營(yíng)階段測(cè)試試題及答案
- 2025年高職(道路橋梁工程技術(shù))橋梁施工技術(shù)階段測(cè)試題及答案
- 2026年福建水利電力職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試模擬試題帶答案解析
- 2026年安陽(yáng)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考題庫(kù)帶答案解析
- 2026年海南工商職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考試題帶答案解析
- 抽水蓄能行業(yè)發(fā)展前景及投資風(fēng)險(xiǎn)預(yù)測(cè)分析報(bào)告
- “感恩父母擁抱親情”高一年級(jí)主題班會(huì)-課件
- 非甾體抗炎藥的臨床應(yīng)用指南
- 超聲內(nèi)鏡穿刺的護(hù)理配合
- 網(wǎng)絡(luò)空間測(cè)繪與安全可視化技術(shù)
- 2022年中國(guó)工藝美術(shù)館招聘考試真題
- 防造假管理程序文件
- ktv股東合作協(xié)議書
- 2023年北京海淀區(qū)高三一模化學(xué)試題及答案
- 腫瘤內(nèi)科靜脈給予抗腫瘤藥物評(píng)價(jià)標(biāo)準(zhǔn)
- 醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范無(wú)菌醫(yī)療器械實(shí)施細(xì)則和檢查評(píng)定標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論