Python財(cái)經(jīng)應(yīng)用-編程基礎(chǔ)、數(shù)據(jù)分析與可視化課件 第6章-Pandas數(shù)據(jù)處理分析-6.4數(shù)據(jù)預(yù)處理_第1頁
Python財(cái)經(jīng)應(yīng)用-編程基礎(chǔ)、數(shù)據(jù)分析與可視化課件 第6章-Pandas數(shù)據(jù)處理分析-6.4數(shù)據(jù)預(yù)處理_第2頁
Python財(cái)經(jīng)應(yīng)用-編程基礎(chǔ)、數(shù)據(jù)分析與可視化課件 第6章-Pandas數(shù)據(jù)處理分析-6.4數(shù)據(jù)預(yù)處理_第3頁
Python財(cái)經(jīng)應(yīng)用-編程基礎(chǔ)、數(shù)據(jù)分析與可視化課件 第6章-Pandas數(shù)據(jù)處理分析-6.4數(shù)據(jù)預(yù)處理_第4頁
Python財(cái)經(jīng)應(yīng)用-編程基礎(chǔ)、數(shù)據(jù)分析與可視化課件 第6章-Pandas數(shù)據(jù)處理分析-6.4數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python財(cái)經(jīng)應(yīng)用:編程基礎(chǔ)、數(shù)據(jù)分析與可視化第六章Pandas數(shù)據(jù)處理分析中國(guó)農(nóng)業(yè)大學(xué)李輝Pandas數(shù)據(jù)處理分析01Pandas基本數(shù)據(jù)結(jié)構(gòu)02數(shù)據(jù)分析的基本流程03數(shù)據(jù)的導(dǎo)入與導(dǎo)出04數(shù)據(jù)預(yù)處理05數(shù)據(jù)分析方法06DataFrame的合并與連接Pandas數(shù)據(jù)處理分析01Pandas基本數(shù)據(jù)結(jié)構(gòu)02數(shù)據(jù)分析的基本流程03數(shù)據(jù)的導(dǎo)入與導(dǎo)出04數(shù)據(jù)預(yù)處理05數(shù)據(jù)分析方法06DataFrame的合并與連接6.3Pandas基本數(shù)據(jù)結(jié)構(gòu)第六章Pandas數(shù)據(jù)處理分析數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入利用Pandas進(jìn)行數(shù)據(jù)分析,首先需要將外部數(shù)據(jù)源導(dǎo)入DataFrame數(shù)據(jù)。數(shù)據(jù)處理和數(shù)據(jù)分析的中間結(jié)果或最終結(jié)果也需要保存到文件中。數(shù)據(jù)通??梢源鎯?chǔ)在Excel、CSV、TXT、JSON、HTML等格式的文件中,或者存儲(chǔ)在數(shù)據(jù)庫中。Pandas提供了導(dǎo)入不同文件的方法:1.導(dǎo)入數(shù)據(jù)集(1)使用read_excel函數(shù)導(dǎo)入Excel數(shù)據(jù)文件read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None)功能:讀入Excel文件中的數(shù)據(jù)并返回一個(gè)DataFrame對(duì)象。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入?yún)?shù)說明:io:要讀取的Excel文件,可以是字符串形式的文件路徑。sheet_name:要讀取的工作表,可以用序號(hào)或工作表名稱表示。默認(rèn)sheet_name=0,表示讀取第一張工作表。header:工作表的哪一行作為DataFrame對(duì)象的列名。默認(rèn)header=0,表示工作表的第一行(表頭行)作為列名;如果工作表沒有表頭行,則必須顯式指定header=None。names:DataFrame對(duì)象的列名,如果工作表沒有表頭行,則可以使用names設(shè)置列名;如果工作表有表頭行,則可以使用names替換原來的列名。index_col:使用工作表的哪一列或哪幾列(列序號(hào)表示)作為DataFrame的行索引(工作表的列序號(hào)從0開始)。usecols:讀取Excel工作表的哪幾列,默認(rèn)讀取工作表中的所有列。read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None)數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入1.導(dǎo)入數(shù)據(jù)集(2)使用read_csv函數(shù)導(dǎo)入CSV格式的數(shù)據(jù)文件read_csv(filepath_or_buffer,sep,header,names,index_col,usecols)功能:讀入CSV格式的文件中的數(shù)據(jù)并返回一個(gè)DataFrame對(duì)象。參數(shù)說明:filepath_or_buffer:要讀取的數(shù)據(jù)文件。sep:數(shù)據(jù)項(xiàng)之間的分隔符。默認(rèn)是逗號(hào)。其他參數(shù)的含義與read_excel()函數(shù)的相同。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入

importpandasaspd#導(dǎo)入所有列df_order=pd.read_csv(r'./data/Online_Retail_Data.csv')print(df_order.head())#查看前5行記錄#指定第一列(InvoiceNo)作為DataFrame的行索引df_order_index=pd.read_csv(r'./data/Online_Retail_Data.csv',index_col=0)print(df_order_index.tail())#查看后5行記錄#導(dǎo)入csv文件,并指定字符編碼df_order_encode=pd.read_csv(r'./data/Online_Retail_Data.csv',encoding='gbk')#指定編碼print(df_order_encode.head()) #查看前5行記錄【例6-13】導(dǎo)入Online_Retail_Data.csv文件中的數(shù)據(jù),生成DataFrame對(duì)象。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入1.導(dǎo)入數(shù)據(jù)集(3)使用read_table()函數(shù)導(dǎo)入通用分隔符格式的數(shù)據(jù)文件通用分隔符格式的文件是指每一行的數(shù)據(jù)項(xiàng)之間可以使用逗號(hào)、空格、Tab鍵等通用分隔符分隔,如TXT格式的文件。read_table(filepath_or_buffer,sep,header,names,index_col,usecols)功能:讀入通用分隔符格式的文件中的數(shù)據(jù)并返回一個(gè)DataFrame對(duì)象。參數(shù)說明:filepath_or_buffer:要讀取的數(shù)據(jù)文件。sep:數(shù)據(jù)項(xiàng)之間的分隔符。默認(rèn)是Tab鍵。其他參數(shù)的含義與read_csv()函數(shù)的相同。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入1.導(dǎo)入數(shù)據(jù)集(4)使用read_sql()函數(shù)導(dǎo)入數(shù)據(jù)庫表將數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入DataFrame需要先建立與數(shù)據(jù)庫的連接。Pandas提供了sqlalchemy方式與MySOL、PostgresSQL、Oracle、MSSQLServer、SQLite等主流數(shù)據(jù)庫建立連接。建立連接后,即可使用read_sql()函數(shù)導(dǎo)入數(shù)據(jù)庫中的數(shù)據(jù)。read_sql(sql,con,index_col)功能:讀入SQL查詢結(jié)果集或數(shù)據(jù)庫表中的數(shù)據(jù)并返回一個(gè)DataFrame對(duì)象。參數(shù)說明:sql:SQL查詢語句或數(shù)據(jù)庫表名。con:SQLAlchemy連接對(duì)象。index_col:使用數(shù)據(jù)庫表的哪一列或哪幾列作為DataFrame的行索引。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入2.查看數(shù)據(jù)集導(dǎo)入數(shù)據(jù)集后,可以使用DataFrame對(duì)象的相關(guān)屬性和方法了解數(shù)據(jù)集的基本信息、考查數(shù)據(jù)分布情況等,常用操作如表所示。方法功能方法shape查看數(shù)據(jù)框的形狀shapehead(n)查看數(shù)據(jù)框中前n條記錄。默認(rèn),n=5head(n)tail(n)查看數(shù)據(jù)框中最后n條記錄。默認(rèn),n=5tail(n)數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入2.查看數(shù)據(jù)集導(dǎo)入數(shù)據(jù)集后,可以使用DataFrame對(duì)象的相關(guān)屬性和方法了解數(shù)據(jù)集的基本信息、考查數(shù)據(jù)分布情況等,常用操作如表所示。方法功能方法info()查看數(shù)據(jù)集的基本信息,包括記錄數(shù)、字段數(shù)、字段名(列名)、字段數(shù)據(jù)類型、非空值數(shù)據(jù)的數(shù)量和內(nèi)存使用情況等info()describe()查看數(shù)據(jù)集的分布情況。數(shù)值型字段的信息包括:記錄數(shù)量、均值、標(biāo)準(zhǔn)差、最小值、最大值和4分位數(shù)等。文本型字段的信息包括:記錄數(shù)量、不重復(fù)值的數(shù)量、出現(xiàn)次數(shù)最多的值和最多值的頻數(shù)describe()數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)入Pandas中的數(shù)據(jù)類型包括數(shù)字(整型、浮點(diǎn)型)、字符串(文本,或文本和數(shù)字的混合)、布爾型(True或False)、日期時(shí)間型、時(shí)間差(兩個(gè)日期時(shí)間的差值)、分類(有限的文本值列表)等,如表所示。不同類型的字段可以存儲(chǔ)不同的數(shù)據(jù)及執(zhí)行不同的操作。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)出在數(shù)據(jù)處理和分析過程中,常常需要保存處理的中間結(jié)果或最終結(jié)果,可以將DataFrame對(duì)象導(dǎo)出為Excel、CSV、TXT、JSON、數(shù)據(jù)庫等多種格式的文件。(1)使用to_excel()方法導(dǎo)出Excel文件to_excel(excel_writer,sheet_name,columns,header,index)功能:將DataFrame中的數(shù)據(jù)寫入Excel文件的工作表。參數(shù)說明:excel_writer:要寫入的Excel文件。sheet_name:要寫入的工作表。默認(rèn)是“Sheetl”工作表。columns:Excel工作表的列名。默認(rèn)是DataFrame對(duì)象的列名。header:指定Excel工作表是否需要表頭。默認(rèn)header=True。index:指定是否將DataFrame對(duì)象的行索引寫入Excel工作表。默認(rèn)index=True。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)出在數(shù)據(jù)處理和分析過程中,常常需要保存處理的中間結(jié)果或最終結(jié)果,可以將DataFrame對(duì)象導(dǎo)出為Excel、CSV、TXT、JSON、數(shù)據(jù)庫等多種格式的文件。(2)使用to_csv()方法導(dǎo)出CSV格式的文件to_csv(path_or_buf,sep,columns,header,index)功能:將DataFrame中的數(shù)據(jù)寫入CSV格式的文件。參數(shù)說明:path_or_buf:要寫入的CSV格式的文件。sep:數(shù)據(jù)項(xiàng)之間的分隔符。其他參數(shù)的含義與to_excel()方法的相同。數(shù)據(jù)的導(dǎo)入與導(dǎo)出——數(shù)據(jù)的導(dǎo)出

importpandasaspddf_order=pd.read_csv(r'./data/Online_Retail_Data.csv')#導(dǎo)入所有列d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論