版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第4章利用pandas進(jìn)行數(shù)據(jù)分析4-5數(shù)據(jù)的正態(tài)性分析正態(tài)分布是最重要的一種概率分布,正態(tài)分布概念是由德國(guó)的數(shù)學(xué)家和天文學(xué)家棣莫佛于1733年首次提出的,但由于德國(guó)數(shù)學(xué)家高斯率先將其應(yīng)用于天文學(xué)家研究,故正態(tài)分布又叫高斯分布。正態(tài)分布有極其廣泛的實(shí)際背景,生產(chǎn)與科學(xué)實(shí)驗(yàn)中很多隨機(jī)變量的概率分布都可以近似地用正態(tài)分布來(lái)描述。例如成年人的血壓、人群的身高或體重、人群的鞋碼、某個(gè)地區(qū)的年降水量等。1.正態(tài)分布的概念正態(tài)分布在幾何上的表現(xiàn)就是正態(tài)曲線,正態(tài)曲線是一個(gè)鐘型曲線,如標(biāo)準(zhǔn)正態(tài)分布均值為0,標(biāo)準(zhǔn)差為1對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)曲線如圖所示。一、數(shù)據(jù)的正態(tài)分布1.正態(tài)分布的概念正態(tài)分布就是指隨機(jī)變量服從一個(gè)位置參數(shù)和尺度參數(shù)的概率分布,位置參數(shù)就是均值,尺度參數(shù)就是標(biāo)準(zhǔn)差。均值決定了正態(tài)曲線中心位置,當(dāng)均值為正且絕對(duì)值越大時(shí),說(shuō)明曲線整體向右移動(dòng)的距離就越大;反之,當(dāng)均值為負(fù)且絕對(duì)值越大時(shí),曲線整體向左移動(dòng)的距離就越大。標(biāo)準(zhǔn)差決定了曲線的形狀,即標(biāo)準(zhǔn)差決定了曲線的“高矮胖瘦”。一、數(shù)據(jù)的正態(tài)分布1.正態(tài)分布的概念標(biāo)準(zhǔn)正態(tài)分布曲線下面積分布規(guī)律是:在
1.96~+1.96范圍內(nèi)曲線下的面積等于95%(即取值在這個(gè)范圍的概率為95%),在
2.58~+2.58范圍內(nèi)曲線下面積為99%(即取值在這個(gè)范圍的概率為99%)。因此,由np.random.randn()函數(shù)所產(chǎn)生的隨機(jī)樣本基本上取值主要在
1.96~+1.96之間,當(dāng)然也不排除存在較大值的情形,只是概率較小而已。一、數(shù)據(jù)的正態(tài)分布2.正態(tài)分布曲線特點(diǎn)(1)集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。(2)對(duì)稱性:正態(tài)曲線以均數(shù)為中心,左右對(duì)稱,曲線兩端永遠(yuǎn)不與橫軸相交。(3)均勻變動(dòng)性:正態(tài)曲線由均數(shù)所在處開(kāi)始,分別向左右兩側(cè)逐漸均勻下降。一、數(shù)據(jù)的正態(tài)分布偏度和峰度是描述數(shù)據(jù)分布的兩個(gè)常用概念,可以用來(lái)描述數(shù)據(jù)分布與正態(tài)分布的偏離程度。二、正態(tài)分布的描述1.偏度用來(lái)描述數(shù)據(jù)分布的對(duì)稱性,正態(tài)分布的偏度為0。計(jì)算數(shù)據(jù)樣本的偏度,當(dāng)偏度<0時(shí),稱為負(fù)偏,數(shù)據(jù)出現(xiàn)左側(cè)長(zhǎng)尾;當(dāng)偏度>0時(shí),稱為正偏,數(shù)據(jù)出現(xiàn)右側(cè)長(zhǎng)尾;當(dāng)偏度為0時(shí),表示數(shù)據(jù)相對(duì)均勻的分布在平均值兩側(cè)。pandas提供了skew函數(shù)用來(lái)計(jì)算Series數(shù)據(jù)的偏度,skew函數(shù)的一般用法為:Series.skew()二、正態(tài)分布的描述2.峰度又稱峰態(tài)系數(shù),用來(lái)描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量,反映了峰部的尖度。當(dāng)峰度系數(shù)大于0時(shí),說(shuō)明兩側(cè)極端數(shù)據(jù)較少,分布曲線更高更瘦,為尖頂曲線;當(dāng)峰度系數(shù)小于0時(shí),說(shuō)明表示兩側(cè)極端數(shù)據(jù)較多,分布曲線更矮更胖,為平頂曲線。pandas提供了kurt函數(shù)用來(lái)計(jì)算Series數(shù)據(jù)的峰度,kurt函數(shù)的一般用法為:Series.kurt()二、正態(tài)分布的描述二、正態(tài)分布的描述因?yàn)橛?jì)算峰度和偏度的數(shù)據(jù)是隨機(jī)生成,所以每一次運(yùn)行的結(jié)果可能都會(huì)有所不同。數(shù)據(jù)服從正態(tài)分布是很多分析方法使用的前提條件,在進(jìn)行假設(shè)檢驗(yàn)、方差分析、回歸分析等分析操作前,一般首先要對(duì)數(shù)據(jù)的正態(tài)性進(jìn)行分析。如果不滿足正態(tài)性特質(zhì),則需要考慮使用其他方法或?qū)?shù)據(jù)進(jìn)行處理。三、正態(tài)分布的驗(yàn)證1.通過(guò)直方圖進(jìn)行正態(tài)性檢驗(yàn)直方圖是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向線段表示數(shù)據(jù)分布的情況,常用于驗(yàn)證數(shù)據(jù)是否服從正態(tài)分布。服從正態(tài)分布的直方圖一般都有“中間高,兩邊對(duì)稱”的特點(diǎn)。三、正態(tài)分布的驗(yàn)證1.通過(guò)直方圖進(jìn)行正態(tài)性檢驗(yàn)Python中繪圖庫(kù)matplotlib中的hist函數(shù)可以用來(lái)繪制直方圖,其中參數(shù)bins表示直方圖的柱形的數(shù)量,如果不設(shè)置也可以用默認(rèn)設(shè)置。繪制直方圖的一般方法為:importmatplotlib.pyplotaspltdata.hist(bins=num)plt.show()三、正態(tài)分布的驗(yàn)證importmatplotlib.pyplotasplt表示導(dǎo)入matplotlib庫(kù)種模塊pyplot。bins=num表示設(shè)置直方圖的柱形的數(shù)量。plt.show()表示顯示繪圖結(jié)果。1.通過(guò)直方圖進(jìn)行正態(tài)性檢驗(yàn)三、正態(tài)分布的驗(yàn)證示例代碼如下:importmatplotlib.pyplotaspltdata.hist()plt.show()2.通過(guò)正態(tài)性檢驗(yàn)指標(biāo)進(jìn)行正態(tài)性檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布,僅僅通過(guò)直方圖來(lái)觀察是不夠的,一般還需要通過(guò)一些具體的方法來(lái)驗(yàn)證,如正態(tài)分布的K-S(Kolmogorov-Smirnov)檢驗(yàn)。正態(tài)分布的K-S檢驗(yàn)是基于累計(jì)分布函數(shù),通過(guò)對(duì)兩個(gè)分布之間的差異進(jìn)行分析,用以檢驗(yàn)對(duì)象是否服從正態(tài)分布。三、正態(tài)分布的驗(yàn)證1.通過(guò)直方圖進(jìn)行正態(tài)性檢驗(yàn)三、正態(tài)分布的驗(yàn)證因?yàn)槔L圖的數(shù)據(jù)集來(lái)自于隨機(jī)標(biāo)準(zhǔn)正態(tài)分布,所以根據(jù)標(biāo)準(zhǔn)正態(tài)分布曲線分布規(guī)律,有99%數(shù)據(jù)都集中在-3到3之間,從最終的結(jié)果來(lái)看,也符合這一規(guī)律。2.通過(guò)正態(tài)性檢驗(yàn)指標(biāo)進(jìn)行正態(tài)性檢驗(yàn)Scipy庫(kù)stats模塊提供了kstest函數(shù)可以執(zhí)行K-S檢驗(yàn)。當(dāng)K-S檢驗(yàn)計(jì)算結(jié)果概率值p大于0.05時(shí),說(shuō)明服從正態(tài)分布。當(dāng)K-S檢驗(yàn)計(jì)算結(jié)果概率值p小于0.05時(shí),說(shuō)明不服從正態(tài)分布。三、正態(tài)分布的驗(yàn)證2.通過(guò)正態(tài)性檢驗(yàn)指標(biāo)進(jìn)行正態(tài)性檢驗(yàn)kstest函數(shù)的一般用法為:fromscipy.statsimportkstestkstest(rvs,cdf)其中,rvs表示檢驗(yàn)數(shù)據(jù),一般為DataFrame中一列數(shù)據(jù)。cdf表示檢驗(yàn)方法,這里取“norm”,即表示正態(tài)性檢驗(yàn)。Kstest的結(jié)果有兩個(gè)值,其中第2個(gè)值是概率值p,數(shù)據(jù)是否服從正態(tài)正態(tài)分布主要看這個(gè)值,如果大于0.05,說(shuō)明服從正態(tài)分布。三、正態(tài)分布的驗(yàn)證2.通過(guò)正態(tài)性檢驗(yàn)指標(biāo)進(jìn)行正態(tài)性檢驗(yàn)三、正態(tài)分布的驗(yàn)證示例代碼如下:fromscipy.statsimportkstestks_result=kstest(data,'norm')p=ks_result[1] #取出kstest計(jì)算結(jié)果的第2個(gè)值ifp>0.05:print("正態(tài)性k-s檢驗(yàn)的p值=%.4f,所以數(shù)據(jù)服從正態(tài)分布。"%p)else:print("正態(tài)性k-s檢驗(yàn)的p值=%.4f,所以數(shù)據(jù)不服從正態(tài)分布。"%p)2.通過(guò)正態(tài)性檢驗(yàn)指標(biāo)進(jìn)行正態(tài)性檢驗(yàn)三、正態(tài)分布的驗(yàn)證任務(wù)實(shí)訓(xùn)4-10:利用numpy,完成:(1)模擬拋擲10000次2個(gè)骰子,統(tǒng)計(jì)2個(gè)骰子的和,根據(jù)結(jié)果生成一個(gè)Series,并查看前10條數(shù)據(jù)。(2)統(tǒng)計(jì)Series所有結(jié)果的頻數(shù),并分析其規(guī)律。(3)計(jì)算該Series的峰度和偏度,并分析其特點(diǎn)。任務(wù)實(shí)訓(xùn)4-10(1)具體代碼如下:data1_1=np.random.randint(1,7,10000)data1_2=np.random.randint(1,7,10000)data1=pd.Series(data1_1+data1_2)print("初始數(shù)據(jù)為:\n",data1[:10])任務(wù)實(shí)訓(xùn)4-10(1)任務(wù)實(shí)訓(xùn)4-10(2)具體代碼如下:result=data1.value_counts().sort_index(ascending=True)print("兩個(gè)骰子和的統(tǒng)計(jì)結(jié)果為:\n",result)任務(wù)實(shí)訓(xùn)1(2)根據(jù)概率學(xué),兩個(gè)骰子和為2、3、4、5、6、7、8、9、10、11、12的概率分別為:1/36、2/36、3/36、4/36、5/36、6/36、5/36、4/36、3/36、2/36、1/36,其中概率最大為7點(diǎn),這也正如統(tǒng)計(jì)的頻數(shù)結(jié)果,7點(diǎn)出現(xiàn)次數(shù)最多。任務(wù)實(shí)訓(xùn)4-10(3)具體代碼如下:print("偏度=",data1.skew())print("峰度=",data1.kurt())任務(wù)實(shí)訓(xùn)1(3)偏度非常接近與0,說(shuō)明沒(méi)有左偏和右偏的趨勢(shì),從統(tǒng)計(jì)的頻數(shù)中也可以大致看出分布是較為均勻的,分別向左右兩側(cè)逐漸均勻下降。峰度明顯小于0,說(shuō)明中間的數(shù)據(jù)并不是非常集中在中間位置,而是較為分散,是平頂曲線。這一點(diǎn)也可以從統(tǒng)計(jì)的頻數(shù)中看出,和為7是中間位置,其頻數(shù)最高,和為7兩邊的頻數(shù)并沒(méi)有迅速減少,而是慢慢減少。任務(wù)實(shí)訓(xùn)4-11:將data1重新命名為data2,繪制直方圖,分別設(shè)置直方圖柱形數(shù)量為9、10、11、12,并比較其效果。任務(wù)實(shí)訓(xùn)4-11具體代碼如下:data2=data1foriinrange(9,13):data2.hist(bins=i)plt.title("bin=%d"%i)#plt.title表示設(shè)置圖表的標(biāo)題
plt.show()任務(wù)實(shí)訓(xùn)4-11在繪制直方圖時(shí),直方圖的柱形數(shù)量參數(shù)bins最好等于數(shù)據(jù)的類別數(shù)量,比如任務(wù)2中的兩個(gè)骰子和的結(jié)果只有11種,所以將bins設(shè)為11為宜。如果將bins設(shè)為其他值,也可以繪制直方圖,但是左右對(duì)稱的效果會(huì)略差。任務(wù)實(shí)訓(xùn)4-12:利用read_excel導(dǎo)入supermarket.xlsx(supermarket.xlsx存放在c:\data路徑中)中的“銷售統(tǒng)計(jì)”工作表(第1張工作表),導(dǎo)入時(shí)將“客戶ID”列設(shè)為索引,完成:(1)繪制“單價(jià)”列的直方圖,判斷“單價(jià)”列是否服從正態(tài)分布。(2)定義函數(shù)ks_normal,該函數(shù)有一個(gè)參數(shù)input,input表示需要判斷的數(shù)據(jù)列,函數(shù)ks_normal的作用可以通過(guò)正態(tài)性ks判斷是否正態(tài)分布。(3)利用函數(shù)ks_p判斷“單價(jià)”列是否服從正態(tài)分布。任務(wù)實(shí)訓(xùn)3(1)具體代碼如下:pd.set_option('display.max_columns',None)pd.set_option('display.width',None)pd.set_option('display.unicode.east_asian_width',True)data3
=pd.read_excel("c:\data\supermarket.xlsx",index_col='客戶ID')print("導(dǎo)入的數(shù)據(jù)為:\n",data3.head())data3['單價(jià)'].hist()plt.show()任務(wù)實(shí)訓(xùn)4-12(1)從直方圖來(lái)看,有300筆以上訂單的單價(jià)較低,說(shuō)明低價(jià)產(chǎn)品占了絕大多數(shù),所以“單價(jià)”列并不符合正態(tài)分布。任務(wù)實(shí)訓(xùn)4-12(2)具體代碼如下:defks_normal(input):fromscipy.statsimportkstestp=kstest(input,'norm')[1]ifp>0.05:print("正態(tài)性k-s檢驗(yàn)的p值=%.4f,所以數(shù)據(jù)服從正態(tài)分布。"%p)else:print("正態(tài)性k-s檢驗(yàn)的p值=%.4f,所以數(shù)據(jù)不服從正態(tài)分布。"%p)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 獅子介紹教學(xué)課件
- 2025年西藏中考地理真題卷含答案解析
- 2025年高壓電工復(fù)審電工作業(yè)模擬考試試題試卷+答案
- 2026 年離婚協(xié)議書正式范本專業(yè)化
- 保險(xiǎn)公司合規(guī)培訓(xùn)課件
- 局關(guān)于巡察整改落實(shí)情況的自查報(bào)告
- 總工會(huì)進(jìn)基層察民情辦實(shí)事實(shí)施方案
- 銀行員工行為約束辦法
- 2026年碳捕集利用與封存項(xiàng)目商業(yè)計(jì)劃書
- 污水管網(wǎng)改造提升工程可行性研究報(bào)告
- 涉水人員健康知識(shí)培訓(xùn)課件
- 物業(yè)維修工安全培訓(xùn)課件
- 戶外電源技術(shù)講解
- 一年級(jí)體育課題申報(bào)書
- 墻面夾芯板安裝施工方案
- 六年級(jí)語(yǔ)文閱讀理解之托物言志(知識(shí)梳理技法點(diǎn)撥例文分析)(含答案)
- 鈑金供應(yīng)商管理辦法
- 煤礦自救器使用課件
- 《油氣管道無(wú)人機(jī)智能巡檢系統(tǒng)技術(shù)管理規(guī)范》
- 2025電力公司員工聘用合同
- 運(yùn)輸公司安全教育培訓(xùn)記錄范文
評(píng)論
0/150
提交評(píng)論