版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目三
Pandas數(shù)據(jù)處理與分析任務(wù)一Pandas數(shù)據(jù)采集任務(wù)二Pandas數(shù)據(jù)預(yù)處理與探索任務(wù)三Pandas描述性統(tǒng)計(jì)分析任務(wù)一Pandas數(shù)據(jù)采集一、Series對(duì)象二、DataFrame對(duì)象三、電子表格文件四、文本文件五、數(shù)據(jù)集文件任務(wù)一Pandas數(shù)據(jù)采集任務(wù)引入小劉受學(xué)校委托分析學(xué)生體檢數(shù)據(jù)。數(shù)據(jù)含年級(jí)、性別、身高、體重、成績(jī)和近視情況。使用Pandas采集數(shù)據(jù),可定義數(shù)組。Pandas數(shù)據(jù)結(jié)構(gòu)有哪些?如何定義?知識(shí)準(zhǔn)備Pandas數(shù)據(jù)結(jié)構(gòu)為Series和DataFrame。兩者可處理多領(lǐng)域數(shù)據(jù)分析。Series為一維數(shù)組,含數(shù)據(jù)和索引;DataFrame為二維數(shù)組,含行、列數(shù)據(jù)和索引。部門費(fèi)用統(tǒng)計(jì)表一維數(shù)組對(duì)象Series二維數(shù)組對(duì)象DataFrame一、Series對(duì)象Series是一種類似于一維數(shù)組的對(duì)象,由一組數(shù)據(jù)(NumPy中的數(shù)據(jù)類型)及一組與之相關(guān)的數(shù)據(jù)標(biāo)簽(索引)組成。1.創(chuàng)建Series在Pandas中,Series函數(shù)用來(lái)創(chuàng)建一維數(shù)組對(duì)象Series。它的使用格式如下:
data:一組數(shù)據(jù)(ndarray類型)。
index:數(shù)據(jù)索引標(biāo)簽,默認(rèn)從0開(kāi)始。
dtype:數(shù)據(jù)類型。
name:設(shè)置名稱。
copy:復(fù)制數(shù)據(jù),默認(rèn)為False。創(chuàng)建Series對(duì)象后,可以通過(guò)設(shè)置Series屬性達(dá)到修改Series的目的。Series常用屬性如表所示。一、Series對(duì)象案例——?jiǎng)?chuàng)建一維數(shù)組對(duì)象Series本案例根據(jù)如圖所示的某單位入職人數(shù)、離職人數(shù)創(chuàng)建一維數(shù)組對(duì)象。【解】PyCharm程序如下:一、Series對(duì)象案例——利用上例中的某工廠產(chǎn)量成本報(bào)表,通過(guò)定義索引屬性編輯一維數(shù)組對(duì)象【解】PyCharm程序如下:一、Series對(duì)象2.Series常用函數(shù)Series集成了ndarray和dict的優(yōu)點(diǎn),可以使用ndarray或dict的所有索引操作和函數(shù)。Series常用函數(shù)如表所示。案例——利用某工廠產(chǎn)量成本報(bào)表輸出指定的對(duì)象【解】PyCharm程序如下:二、DataFrame對(duì)象1.DataFrame生成在Pandas中,DataFrame函數(shù)用來(lái)創(chuàng)建二維數(shù)組對(duì)象DataFrame。案例——根據(jù)如圖所示的某公司2016年員工醫(yī)療費(fèi)用統(tǒng)計(jì)表創(chuàng)建DataFrame【解】PyCharm程序如下:二、DataFrame對(duì)象2.DataFrame屬性通過(guò)DataFrame屬性可以查看定義的數(shù)據(jù)。DataFrame常用屬性如表所示。二、DataFrame對(duì)象案例——根據(jù)如圖所示的淘寶某新開(kāi)店鋪的產(chǎn)品日銷售表創(chuàng)建DataFrame.【解】PyCharm程序如下:三、電子表格文件Excel軟件用于數(shù)據(jù)處理、統(tǒng)計(jì)分析,管理、統(tǒng)計(jì)財(cái)經(jīng)、金融等領(lǐng)域。Excel2003前默認(rèn)xls格式,2007后默認(rèn)xlsx。openpyxl庫(kù)讀寫Excel2010文檔,需安裝加載。安裝加載設(shè)置略。1.讀取Excel文件在Pandas中,使用read_excel函數(shù)讀取Excel自帶的xls或xlsx文件中的數(shù)據(jù)。該函數(shù)的使用格式如下:三、電子表格文件案例——導(dǎo)入如圖所示的成本費(fèi)用表的兩個(gè)Sheet中各產(chǎn)品的費(fèi)用【解】PyCharm程序如下:三、電子表格文件2、寫入Excel文件在Pandas中,從文件中讀取的數(shù)據(jù)以DataFrame或Series格式保存在內(nèi)存中,to_excel函數(shù)可以將數(shù)據(jù)保存為xls或xlsx文件。案例——導(dǎo)入如圖所示的商品訂購(gòu)單.csv中某家具銷售公司二季度商品訂購(gòu)記錄,將數(shù)據(jù)保存為“商品訂購(gòu)單.xlsx”【解】PyCharm程序如下:四、文本文件txt、csv文件能夠?qū)崿F(xiàn)簡(jiǎn)單的數(shù)據(jù)存儲(chǔ),是一個(gè)純文本文件,常用于在程序之間轉(zhuǎn)移表格數(shù)據(jù),以兼容各類程序。txt、csv文件能夠?qū)崿F(xiàn)簡(jiǎn)單的數(shù)據(jù)存儲(chǔ),是一個(gè)純文本文件,常用于在程序之間轉(zhuǎn)移表格數(shù)據(jù),以兼容各類程序。對(duì)于中文的文本文件,通常會(huì)出現(xiàn)因編碼的問(wèn)題而讀取失敗,解決辦法有以下兩種。(1)當(dāng)原始的txt、csv文件的數(shù)據(jù)不是uft-8格式時(shí),需要另存為utf-8格式編碼。(2)如果原始的數(shù)據(jù)文件就是uft-8格式,為了正常讀入,需要將read_csv函數(shù)的參數(shù)encoding設(shè)置為utf-8。1.read_csv函數(shù)在Pandas中,read_csv函數(shù)可用于從文件、URL、文件型對(duì)象中加載帶分隔符的數(shù)據(jù),默認(rèn)分隔符為逗號(hào)。四、文本文件案例——導(dǎo)入白酒產(chǎn)量數(shù)據(jù)csv文件解:PyCharm程序如下:運(yùn)行結(jié)果如下:四、文本文件2.from_csv函數(shù)PrettyTable支持手動(dòng)和csv文件讀取數(shù)據(jù)。讀csv文件需用open函數(shù)打開(kāi),再用from_csv函數(shù)讀取。案例——獲取白酒產(chǎn)量數(shù)據(jù)CSV文件解:PyCharm程序如下:運(yùn)行結(jié)果如下:五、數(shù)據(jù)集文件1.SAS數(shù)據(jù)集SAS數(shù)據(jù)集包含以表的觀測(cè)(行)和變量(列)為形式存在的數(shù)據(jù)值,以及用于描述變量類型、長(zhǎng)度和創(chuàng)建該數(shù)據(jù)集時(shí)所使用的引擎等信息的描述信息。在Python中,pandas.read_sas函數(shù)可以讀取SAS數(shù)據(jù)集。案例——讀取租賃籌資模擬運(yùn)算SAS數(shù)據(jù)集解:PyCharm程序如下:運(yùn)行結(jié)果如下:五、數(shù)據(jù)集文件2.Stata數(shù)據(jù)集pandas.read_stata函數(shù)可以讀取Stata數(shù)據(jù)集。案例——讀取租賃籌資模擬運(yùn)算Stata數(shù)據(jù)集解:PyCharm程序如下:運(yùn)行結(jié)果如下:五、數(shù)據(jù)集文件其他文件讀取函數(shù)任務(wù)二Pandas數(shù)據(jù)預(yù)處理與探索一、數(shù)據(jù)清洗二、數(shù)據(jù)轉(zhuǎn)換三、數(shù)據(jù)合并四、數(shù)據(jù)提取四、數(shù)據(jù)提取六、數(shù)據(jù)排序七、統(tǒng)計(jì)分組任務(wù)二Pandas數(shù)據(jù)預(yù)處理與探索任務(wù)引入小劉收集了一份包含不同年級(jí)、性別學(xué)生體檢數(shù)據(jù)的寶貴資料。然而,這份原始
數(shù)據(jù)可能潛藏著各種問(wèn)題:缺失值、異常值、重復(fù)記錄,
甚至一些無(wú)用的信息。如果
直接對(duì)這些“不完美”的數(shù)據(jù)進(jìn)行分析,很可能會(huì)得出偏差甚至錯(cuò)誤的結(jié)論。那么,
如何從這份原始數(shù)據(jù)中篩選出可靠、可用的信息呢?面對(duì)那些異常、重復(fù)或無(wú)用的數(shù)
據(jù),又該如何進(jìn)行恰當(dāng)?shù)奶幚??在進(jìn)行統(tǒng)計(jì)分析之前,還需要做哪些關(guān)鍵的準(zhǔn)備工作?
數(shù)據(jù)預(yù)處理有哪些公認(rèn)的標(biāo)準(zhǔn)和最佳實(shí)踐?一、數(shù)據(jù)清洗1.?dāng)?shù)據(jù)缺失在數(shù)據(jù)輸入過(guò)程中,很容易出現(xiàn)數(shù)據(jù)遺漏現(xiàn)象,Pandas對(duì)象的所有描述性統(tǒng)計(jì)默認(rèn)都
不包括缺失數(shù)據(jù),因此,在數(shù)值數(shù)據(jù)中,Pandas使用浮點(diǎn)值NaN表示缺失數(shù)據(jù)。這樣可以
很明顯地發(fā)現(xiàn)缺失數(shù)據(jù),方便修改。
案例——處理缺失數(shù)據(jù)【解】PyCharm程序如下:一、數(shù)據(jù)清洗案例——利用函數(shù)處理缺失數(shù)據(jù)【解】PyCharm程序如下:一、數(shù)據(jù)清洗2.重復(fù)數(shù)據(jù)unique函數(shù)用于獲取Series中的唯一值數(shù)組,刪除重復(fù)數(shù)據(jù)。案例——利用函數(shù)刪除重復(fù)數(shù)據(jù)【解】PyCharm程序如下:運(yùn)行結(jié)果如下:一、數(shù)據(jù)清洗3.?dāng)?shù)據(jù)格式化數(shù)據(jù)格式化可以增強(qiáng)數(shù)據(jù)的可讀性,如統(tǒng)一數(shù)據(jù)的小數(shù)點(diǎn)位數(shù)、添加千位分隔符;還可以實(shí)現(xiàn)特定的功能,如轉(zhuǎn)換為百分比數(shù)據(jù),百分比數(shù)據(jù)主要用于成績(jī)分?jǐn)?shù)等統(tǒng)計(jì)計(jì)算。案例——對(duì)所有列保持統(tǒng)一精度【解】PyCharm程序如下:一、數(shù)據(jù)清洗案例——已知某小學(xué)數(shù)學(xué)、語(yǔ)文考試分?jǐn)?shù),從中各抽取6份進(jìn)行估測(cè),測(cè)得數(shù)據(jù)如下:語(yǔ)文為95,82,79.5,87,83,86.5,數(shù)學(xué)為91,95,93,96,97,98,試對(duì)成績(jī)進(jìn)行格式化【解】PyCharm程序如下:一、數(shù)據(jù)清洗一、數(shù)據(jù)清洗案例——輸入4所小學(xué)的聯(lián)考平均分,控制輸出精度、對(duì)齊數(shù)據(jù),并保存到Excel文件中【解】PyCharm程序如下:保存到Excel文件中二、數(shù)據(jù)轉(zhuǎn)換當(dāng)獲得數(shù)據(jù)時(shí),首先需要確定的是正確類型的數(shù)據(jù),Pandas擴(kuò)展了NumPy的類型系統(tǒng),用dtype屬性顯示元素的數(shù)據(jù)類型。Pandas主要有以下幾種數(shù)據(jù)類型。
字符串類型:object。
整數(shù)類型:int64、int32、int16、int8。
無(wú)符號(hào)整數(shù):uint64、uint32、uint16、uint8。
浮點(diǎn)數(shù)類型:float64、float32。
日期和時(shí)間類型:datetime64[ns]、datetime64[ns,tz]、timedelta[ns]。
布爾類型:bool。當(dāng)利用Pandas進(jìn)行數(shù)據(jù)處理的時(shí)候,經(jīng)常會(huì)遇到數(shù)據(jù)類型的問(wèn)題,一般需要通過(guò)數(shù)據(jù)類型的轉(zhuǎn)化,只有這樣才能進(jìn)行后續(xù)的數(shù)據(jù)操作。表中列出了關(guān)于數(shù)據(jù)轉(zhuǎn)換的函數(shù)。二、數(shù)據(jù)轉(zhuǎn)換案例——將輸入的數(shù)據(jù)轉(zhuǎn)換為浮點(diǎn)型,并分別輸出【解】PyCharm程序如下:三、數(shù)據(jù)合并在實(shí)際處理數(shù)據(jù)的過(guò)程中,經(jīng)常會(huì)遇到將多個(gè)表連接起來(lái)進(jìn)行數(shù)據(jù)的處理和分析的情況,Pandas中也提供了幾種方法來(lái)實(shí)現(xiàn)數(shù)據(jù)合并功能。merge函數(shù)基于兩個(gè)DataFrame的共同列進(jìn)行合并。該函數(shù)的使用格式如下:三、數(shù)據(jù)合并案例——使用merge函數(shù)連接兩個(gè)數(shù)組:正弦表、余弦表【解】PyCharm程序如下:三、數(shù)據(jù)合并案例——使用concat函數(shù)連接兩個(gè)數(shù)組:正弦表、余弦表【解】PyCharm程序如下:四、數(shù)據(jù)提取數(shù)據(jù)分析需提取部分?jǐn)?shù)據(jù)到目標(biāo)系統(tǒng)加工利用,問(wèn)題在于從哪取、何時(shí)取、如何取。數(shù)據(jù)提取過(guò)程難統(tǒng)一。Pandas中的數(shù)據(jù)抽取函數(shù)如表所示。案例——抽取表中的數(shù)據(jù)四、數(shù)據(jù)提取【解】PyCharm程序如下:五、數(shù)據(jù)分類數(shù)據(jù)分類是將數(shù)據(jù)進(jìn)行一個(gè)自定義的分類,Pandas中提供了cut函數(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)分類。
該函數(shù)的調(diào)用格式如下:
案例——對(duì)8年間鋼材消耗量進(jìn)行分類【解】PyCharm程序如下:運(yùn)行結(jié)果如下:五、數(shù)據(jù)分類數(shù)據(jù)排序數(shù)據(jù)排序可發(fā)現(xiàn)特征、趨勢(shì),解決問(wèn)題,也是分析目的之一?!敦?cái)富》雜志排500強(qiáng),助企業(yè)定位、知差距、了解對(duì)手,定規(guī)劃、戰(zhàn)略。Pandas的sort_values函數(shù)可排序數(shù)據(jù)。該函數(shù)的調(diào)用格式如下:案例——對(duì)表格進(jìn)行排序?yàn)榱丝疾烊菊に噷?duì)布的縮水率是否有影響,
選用5種不同的染整工藝,分別用A1、A2、A3、A4、A5表示,每種工藝處理4塊布樣,測(cè)得縮水率的百分?jǐn)?shù)如表所示。六、數(shù)據(jù)排序Pandas中的其余數(shù)據(jù)排序函數(shù)如表所示。案例——對(duì)數(shù)據(jù)進(jìn)行排序?qū)δ硞}(cāng)庫(kù)超重包裹重新打包,隨機(jī)抽取6個(gè)包裹進(jìn)行最大最小質(zhì)量對(duì)比,測(cè)得數(shù)據(jù)如下
(單位:kg):36.5,138.5,140.3,112.7,88.93,54.2。七、統(tǒng)計(jì)分組統(tǒng)計(jì)分組是基本方法,使資料系統(tǒng)化。分組優(yōu)劣影響數(shù)據(jù)統(tǒng)計(jì)質(zhì)量。如學(xué)校人員按老師、學(xué)生等標(biāo)志分類。。
1.groupby函數(shù)Pandas中的groupby函數(shù)用于對(duì)DataFrame對(duì)象進(jìn)行分組。groupby函數(shù)返回包含有關(guān)組的信息,groupby對(duì)象利用groups屬性查看分組的信息,從
返回的結(jié)果中可以看到不同分組的樣本在原數(shù)據(jù)框中的索引,如表所示。七、統(tǒng)計(jì)分組案例——已知員工醫(yī)療費(fèi)用表,試通過(guò)分組,根據(jù)性別、所屬部門統(tǒng)計(jì)醫(yī)療
費(fèi)用【解】PyCharm程序如下:七、統(tǒng)計(jì)分組2.a(chǎn)gg函數(shù)分組用于描述各組數(shù)據(jù),以代表性數(shù)據(jù)解釋數(shù)據(jù)規(guī)律。agg函數(shù)計(jì)算分組后的最大值、最小值、和等,如表所示。
案例——已知員工醫(yī)療費(fèi)用表,試通過(guò)分組,根據(jù)性別計(jì)算和、最大值、最小
值【解】PyCharm程序如下:任務(wù)三Pandas描述性統(tǒng)計(jì)分析一、集中趨勢(shì)分析二、離散程度分析三.相關(guān)性分析四、頻數(shù)分析任務(wù)三Pandas描述性統(tǒng)計(jì)分析任務(wù)引入小劉希望對(duì)包含不同年級(jí)、性別學(xué)生體檢數(shù)據(jù)進(jìn)行更深入的分析,而不僅僅是計(jì)
算一些基本的數(shù)字。他想知道,Pandas提供了哪些更具針對(duì)性的統(tǒng)計(jì)分析方法?又有
哪些統(tǒng)計(jì)指標(biāo)可以幫助他更全面地了解數(shù)據(jù)的特征?知識(shí)準(zhǔn)備數(shù)據(jù)統(tǒng)計(jì)分析包括數(shù)據(jù)的離散程度分析、集中趨勢(shì)分析、頻數(shù)分析、分布,
以及
一些基本的統(tǒng)計(jì)圖形分析。一、集中趨勢(shì)分析集中趨勢(shì)分析是用各種起代表值作用的量度來(lái)反映變量數(shù)值趨向中心位置的一種資料
分析方法,最常用的指標(biāo)有均值、中位數(shù)、眾數(shù)和分位數(shù)等。1.均值均值是數(shù)據(jù)總和除以個(gè)數(shù),常用度量數(shù)據(jù)集趨勢(shì)。Pandas用mean函數(shù)計(jì)算分組均值。2.中位數(shù)中位數(shù)是排序后居中的數(shù)據(jù),不受極端數(shù)值影響。Pandas用median函數(shù)計(jì)算分組中位數(shù)。3.眾數(shù)眾數(shù)是頻數(shù)最多的觀測(cè)值,反映數(shù)據(jù)集中程度。Pandas用mode函數(shù)計(jì)算眾數(shù)。4.分位數(shù)分位數(shù)將數(shù)據(jù)分成等份,描述數(shù)據(jù)分布,識(shí)別異常值。一、集中趨勢(shì)分析案例——已知員工醫(yī)療費(fèi)用表,試進(jìn)行集中趨勢(shì)分析,計(jì)算平均值、中位數(shù)和眾數(shù)【解】PyCharm程序如下:二、離散程度分析離散程度是指通過(guò)數(shù)據(jù)間的差異程度來(lái)衡量風(fēng)險(xiǎn)大小的指標(biāo),最常用的指標(biāo)有方差和標(biāo)準(zhǔn)差等。1.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差是最常用的反映隨機(jī)變量分布離散程度的指標(biāo)。標(biāo)準(zhǔn)差越大,數(shù)據(jù)波動(dòng)越大;標(biāo)準(zhǔn)差越小,數(shù)據(jù)波動(dòng)越小。在Pandas中,std函數(shù)用來(lái)計(jì)算分組數(shù)據(jù)的標(biāo)準(zhǔn)差。2.方差分析方差不僅表達(dá)了樣本偏離均值的程度,還揭示了樣本內(nèi)部彼此波動(dòng)的程度,在許多實(shí)際問(wèn)題中,研究方差,即偏離程度有著重要的意義。在樣本容量相同的情況下,方差越大,數(shù)據(jù)的波動(dòng)越大,越不穩(wěn)定。在Pandas中,var函數(shù)用來(lái)計(jì)算數(shù)據(jù)的方差。三.相關(guān)性分析相關(guān)性分析用于研究變量間關(guān)聯(lián)。常用方
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于《洛神賦圖》圖像敘事的空間轉(zhuǎn)譯研究
- 陜西兵馬俑遺產(chǎn)概述
- 2025年政府專職消防文員招錄考試筆試參考題庫(kù)選擇題50題及答案
- 2025年醫(yī)院三基知識(shí)考試試題庫(kù)及答案(共120題)
- 功能食品選擇題庫(kù)及答案
- 2025年六語(yǔ)下冊(cè)單元試卷及答案
- 《植入式靜脈給藥裝置護(hù)理技術(shù)》專業(yè)解讀2026
- 2025年健康課素養(yǎng)測(cè)試題及答案
- 廟會(huì)出租合同范本
- 河南醫(yī)學(xué)招聘考試題目及答案
- 2024年移動(dòng)互聯(lián)網(wǎng)行業(yè)白皮書-七麥數(shù)據(jù)
- 拜占庭歷史與文化知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋南開(kāi)大學(xué)
- etc解除車牌占用委托書
- 2024年秋江蘇開(kāi)放大學(xué)數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3
- JT-T-1201-2018帶式收油機(jī)行業(yè)標(biāo)準(zhǔn)
- DZ∕T 0207-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硅質(zhì)原料類(正式版)
- 成人住院患者跌倒風(fēng)險(xiǎn)評(píng)估及預(yù)防
- (正式版)HGT 4339-2024 機(jī)械設(shè)備用涂料
- 口袋公園設(shè)計(jì)方案
- 2024年重慶水務(wù)集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 生產(chǎn)委托加工合同中英文版
評(píng)論
0/150
提交評(píng)論