Python數(shù)據(jù)分析 課件【ch06】數(shù)據(jù)分析庫SciPy_第1頁
Python數(shù)據(jù)分析 課件【ch06】數(shù)據(jù)分析庫SciPy_第2頁
Python數(shù)據(jù)分析 課件【ch06】數(shù)據(jù)分析庫SciPy_第3頁
Python數(shù)據(jù)分析 課件【ch06】數(shù)據(jù)分析庫SciPy_第4頁
Python數(shù)據(jù)分析 課件【ch06】數(shù)據(jù)分析庫SciPy_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python數(shù)據(jù)分析數(shù)據(jù)分析庫SciPy第六章計算機專業(yè)·任務(wù)驅(qū)動應(yīng)用型教材01SciPy簡介SciPy簡介01linalg模塊linalg模塊用于進行線性代數(shù)計算,線性代數(shù)的基本操作對象是矩陣,與NumPy相同,linalg的基本數(shù)據(jù)類型為數(shù)組、矩陣,該模塊包含各種相關(guān)函數(shù)。norm函數(shù)用來計算矩陣或向量的模。該函數(shù)的調(diào)用格式如下:SciPy簡介01stats模塊SciPy的stats模塊中包含一些比較基本的數(shù)據(jù)統(tǒng)計分析函數(shù),如t檢驗、正態(tài)性檢驗、卡方檢驗。statsmodels提供了更為系統(tǒng)的統(tǒng)計模型,包括線性模型、時序分析模型,還包含數(shù)據(jù)集、作圖工具等。概率分布設(shè)X是一個隨機變量,x是任意實數(shù),函數(shù)SciPy簡介01概率分布稱為X的分布函數(shù)。對于任意實數(shù)x?和x?(x?<x?),有因此,若已知X的分布函數(shù),就可以知道X落在任一區(qū)間[x,x]上的概率,從這個意義上說,分布函數(shù)完整地描述了隨機變量的統(tǒng)計規(guī)律性。若連續(xù)型隨機變量的概率密度為SciPy簡介01概率分布其中,μ和σ(a>0)為常數(shù),則稱X服從參數(shù)為μ和σ的正態(tài)分布或高斯(Gauss)分布,記為X~N(μ,o?),即X服從均值為μ、方差為σ的正態(tài)分布。在自然現(xiàn)象和社會現(xiàn)象中,大量隨機變量都服從或近似服從正態(tài)分布。例如,一個地區(qū)的男性成年人的身高、測量某零件長度的誤差、海洋波浪的高度、半導(dǎo)體器件中的熱噪聲電流或電壓等都服從正態(tài)分布。在概率論與數(shù)理統(tǒng)計的理論研究和實際應(yīng)用中,正態(tài)隨機變量起著特別重要的作用。SciPy簡介01在scipy.stats中,binom函數(shù)實現(xiàn)二項分布,poisson.pmf函數(shù)實現(xiàn)泊松分布,norm函數(shù)可以實現(xiàn)正態(tài)分布。正態(tài)分布函數(shù)如表6-3所示。SciPy簡介01數(shù)據(jù)分析在實際應(yīng)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)?shù)男袆?。在?shù)據(jù)分析過程中,選擇合適的分析方法和工具是很重要的,下面介紹幾種常用的數(shù)據(jù)統(tǒng)計分析方法。相關(guān)性分析相關(guān)性分析顯示一個變量與另一個變量有何種相關(guān)關(guān)系,如顯示計件工資是否會帶來更高的生產(chǎn)率。SciPy簡介01回歸分析回歸分析是對一個變量值與另一個變量值間差異的定量預(yù)測?;貧w模擬因變量和解釋變量之間的關(guān)系,這些變量通常繪制在散點圖上,還能用回歸線顯示這些關(guān)系是強還是弱。散點圖上的異常值非常重要。例如,外圍數(shù)據(jù)點可能代表公司最關(guān)鍵的供應(yīng)商或最暢銷產(chǎn)品的輸入。但是,回歸線的性質(zhì)通常需要忽略這些異常值。SciPy簡介01假設(shè)檢驗假設(shè)檢驗是數(shù)理統(tǒng)計學(xué)中根據(jù)一定的假設(shè)條件,由樣本推及總體的一種統(tǒng)計分析方法,主要針對問題的需要對所研究的總體提出某種假設(shè)。通常,比較兩個統(tǒng)計數(shù)據(jù)集,或者將通過采樣獲得的數(shù)據(jù)集與來自理想化模型的合成數(shù)據(jù)集進行比較。針對兩個數(shù)據(jù)集之間的統(tǒng)計關(guān)系提出一種假設(shè),并將其作為替代方案進行比較理想化的零假設(shè),提出兩個數(shù)據(jù)集之間沒有關(guān)系。SciPy簡介01方差分析方差分析又稱“變異數(shù)分析”,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈波動狀。造成波動的原因可分成兩類:一是不可控的隨機因素,二是研究中施加的對結(jié)果形成影響的可控因素。SciPy簡介01單變量統(tǒng)計分析統(tǒng)計量是統(tǒng)計理論中用來對數(shù)據(jù)進行分析、檢驗的變量,是大量微觀量的統(tǒng)計平均值,具有統(tǒng)計平均的意義。被分析的數(shù)據(jù)只包含一個變量,稱為單變量統(tǒng)計,是數(shù)據(jù)分析中最簡單的形式。單變量統(tǒng)計分析的主要目的是通過對數(shù)據(jù)的統(tǒng)計描述了解當(dāng)前數(shù)據(jù)的基本情況,并找出數(shù)據(jù)的分布模型。數(shù)據(jù)統(tǒng)計量從集中趨勢上看,指標(biāo)有均值、中位數(shù)、分位數(shù)、眾數(shù)。從離散程度上看,指標(biāo)有極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差、協(xié)方差、變異系數(shù)。從分布上看,指標(biāo)有偏度(偏度系數(shù))、峰度(峰度系數(shù))等。需要考慮的還有極大值、極小值(數(shù)值型變量)和頻數(shù),以及構(gòu)成比(分類或等級變量)。02相關(guān)性分析相關(guān)性分析02圖表相關(guān)性分析最簡單的相關(guān)性分析方法是將數(shù)據(jù)進行可視化處理,簡單地說,就是繪制圖表。單純從數(shù)據(jù)的角度很難發(fā)現(xiàn)其中的趨勢和聯(lián)系,而將數(shù)據(jù)點繪制成圖表后,趨勢和聯(lián)系就會變得清晰起來。折線圖對于有明顯時間維度的數(shù)據(jù),可以選擇使用折線圖。相關(guān)性分析02散點圖比折線圖更直觀的是散點圖,散點圖去除了時間維度的影響,只關(guān)注數(shù)據(jù)間的關(guān)系。散點圖的橫軸是一個變量,縱軸是另一個變量,可以直觀地看到相關(guān)性的方向和強弱。通過觀察散點圖上數(shù)據(jù)點的分布情況,可以推斷出變量間的相關(guān)性。如果變量之間不存在相互關(guān)系,那么在散點圖上就會表現(xiàn)為隨機分布的離散的點,將那些距離點集群較遠的點稱為離群點或異常點。如果存在某種相關(guān)性,那么大部分的數(shù)據(jù)點就會相對密集并以某種趨勢呈現(xiàn)。相關(guān)性分析02圖表相關(guān)性分析協(xié)方差用來衡量兩個變量的總體誤差,如果兩個變量的變化趨勢一致,那么協(xié)方差是正值,說明兩個變量正相關(guān)。如果兩個變量的變化趨勢相反,那么協(xié)方差是負值,說明兩個變量負相關(guān)。如果兩個變量相互獨立,那么協(xié)方差是0,說明兩個變量不相關(guān)。協(xié)方差的計算公式為相關(guān)性分析02協(xié)方差矩陣計算的是不同維度之間的協(xié)方差,而不是不同樣本之間的協(xié)方差。協(xié)方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方差。協(xié)方差矩陣的定義為協(xié)方差矩陣為相關(guān)性分析02協(xié)方差通過數(shù)字衡量變量間的相關(guān)性,正值表示正相關(guān),負值表示負相關(guān)。但它無法對相關(guān)的密切程度進行度量。當(dāng)面對多個變量時,無法通過協(xié)方差來說明哪兩組數(shù)據(jù)的相關(guān)性最強。要衡量和對比相關(guān)性的密切程度,就需要使用下一個方法:相關(guān)系數(shù)。相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(±)表明關(guān)系的方向(正相關(guān)或負相關(guān)),其值大小表示關(guān)系的強弱程度(完全不相關(guān)時為0,完全相關(guān)時為1)。相關(guān)性分析02正態(tài)分布的相關(guān)分析皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)是反映兩變量之間線性相關(guān)程度的統(tǒng)計量,用它來分析正態(tài)分布的兩個連續(xù)型變量之間的相關(guān)性,常用于分析自變量之間,以及自變量和因變量之間的相關(guān)性。皮爾遜相關(guān)系數(shù)在-1和+1之間變化,0表示沒有相關(guān)性、-1或+1的相關(guān)性暗示著一種精確的線性關(guān)系。pearsonr函數(shù)用來計算皮爾遜相關(guān)系數(shù)和pvalue(p值,視上下文語境使用),檢驗非相關(guān)性。該函數(shù)的調(diào)用格式如下:相關(guān)性分析02非正態(tài)分布的相關(guān)分析斯皮爾曼等級相關(guān)系數(shù)(Spearman'sCorrelationCoefficientforRankedData)主要用于評價順序變量間的線性相關(guān)關(guān)系,常用于計算類型變量的相關(guān)性。相關(guān)系數(shù)表示線性相關(guān)程度,即correlation趨近于1表示正相關(guān)。pvalue越小,表示相關(guān)程度越強。spearmanr函數(shù)用來計算斯皮爾曼等級相關(guān)系數(shù)和pvalue,檢驗非相關(guān)性。該函數(shù)的調(diào)用格式如下:其中,x和y為變量數(shù)據(jù)。03假設(shè)檢驗假設(shè)檢驗03正態(tài)性檢驗利用觀測數(shù)據(jù)判斷總體是否服從正態(tài)分布的檢驗稱為正態(tài)性檢驗。它是統(tǒng)計判決中一種重要的、特殊的擬合優(yōu)度假設(shè)檢驗。正態(tài)性檢驗是數(shù)據(jù)分析的第一步,數(shù)據(jù)是否符合正態(tài)性分布決定了后續(xù)使用不同的分析和預(yù)測方法,當(dāng)數(shù)據(jù)不符合正態(tài)性分布時,可以通過不同的轉(zhuǎn)換方法把非正態(tài)數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布后使用相應(yīng)的統(tǒng)計方法進行下一步操作。常用的正態(tài)性檢驗方法有正態(tài)概率紙法、夏皮羅-威爾克(Shapiro-Wilktest)檢驗法、柯爾莫哥洛夫檢驗法、偏度-峰度檢驗法等。假設(shè)檢驗03偏度-峰度檢驗法正態(tài)性檢驗基于偏度和峰度。偏度和峰度同時是分布特征分析統(tǒng)計量。skew函數(shù)用來計算數(shù)據(jù)的偏度。偏度(Skewness)用來描述數(shù)據(jù)某變量取值分布的對稱性。當(dāng)偏度為0時,為正態(tài)分布;當(dāng)偏度大于0時,為正偏或右偏,長尾在右邊;當(dāng)偏度小于0時,為負偏或左偏,長尾在左邊。kurtosis函數(shù)用來計算數(shù)據(jù)的峰度。峰度(Kurtosis)用來描述某變量所有取值分布形態(tài)的陡峭程度,0為正態(tài)分布,大于0為陡峭,小于0為平坦。一般情況下,如果樣本的偏度接近于0,而峰度接近于3,就可以判斷總體的分布接近于正態(tài)分布。假設(shè)檢驗03偏度-峰度檢驗法normaltest函數(shù)用來檢驗數(shù)據(jù)是否符合正態(tài)分布,計算零假設(shè)的pvalue。該函數(shù)的調(diào)用格式如下:其中,a表示具有元素的輸入數(shù)組或?qū)ο螅颖緮?shù)大于20),axis表示正態(tài)分布測試將沿其計算的軸。默認情況下,axis=0,返回假設(shè)檢驗的卡方統(tǒng)計量和pvalue。實際觀測值與理論推斷值之間的偏離程度決定卡方值的大小,卡方值越大,越不符合理論推斷值;卡方值越小,偏差越小,越趨于符合理論推斷值。若兩個值完全相等,則卡方值為0,表明完全符合理論推斷值。假設(shè)檢驗03夏皮羅-威爾克檢驗法夏皮羅-威爾克檢驗法用于檢驗參數(shù)提供的一組小樣本數(shù)據(jù)是否符合正態(tài)分布,統(tǒng)計量越大,表示數(shù)據(jù)越符合正態(tài)分布,但是在非正態(tài)分布的小樣本數(shù)據(jù)中也經(jīng)常會出現(xiàn)較大的統(tǒng)計量值,需要查表來估計其概率。由于原假設(shè)是其符合正態(tài)分布,所以當(dāng)pvalue低于指定顯著性水平時,表示其不符合正態(tài)分布。shapiro函數(shù)用來檢驗數(shù)據(jù)是否符合正態(tài)分布,計算零假設(shè)的pvalue。該函數(shù)的調(diào)用格式如下:柯爾莫哥洛夫檢驗法柯爾莫哥洛夫檢驗(Kolmogorov-SmimovTest)法檢驗樣本數(shù)據(jù)是否服從某一分布,僅適用于連續(xù)分布的檢驗。kstest函數(shù)使用柯爾莫哥洛夫檢驗法檢驗數(shù)據(jù)是否符合正態(tài)分布。假設(shè)檢驗03方差齊性檢驗方差反映了一組數(shù)據(jù)與其平均值的偏離程度,計算公式如下:方差齊性檢驗用以檢驗兩組或多組數(shù)據(jù)與其均值偏離程度是否存在差異,也是很多檢驗和算法的先決條件。當(dāng)不確定兩總體方差是否相等時,應(yīng)先利用levene函數(shù)進行檢驗,檢驗兩總體是否具有方差齊性。它的使用格式如下:其中,datal、data2是樣本數(shù)據(jù)。若pvalue遠大于0.05,則認為兩總體具有方差齊性。假設(shè)檢驗03卡方檢驗卡方檢驗是一種非參數(shù)檢驗方法。相對來說,非參數(shù)檢驗對數(shù)據(jù)分布的要求比較寬松,并且也不要求有太大的數(shù)據(jù)量??ǚ綑z驗是一種針對計數(shù)資料的假設(shè)檢驗方法,主要比較理論頻數(shù)和實際頻數(shù)的吻合程度,常用于特征選擇??ǚ綑z驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度的,實際觀測值與理論推斷值之間的偏離程度決定卡方值的大小,卡方值越大,越不符合理論推斷值??ǚ街翟叫?,偏差越小,越趨于符合;若兩個值完全相等,則卡方值為0,表明符合理論推斷值完全。假設(shè)檢驗03基本數(shù)據(jù)有R行C列,故通稱RC列聯(lián)表(contingencytable),簡稱RC表,它是觀測數(shù)據(jù)按兩個或更多屬性(定性變量)分類時列出的頻數(shù)表。chisquare函數(shù)用來進行卡方檢驗。它的使用格式如下:卡方檢驗04t檢驗t檢驗04單樣本t檢驗單樣本t檢驗用于檢驗數(shù)據(jù)是否來自同一均值的總體。t檢驗主要是以均值為核心的檢驗。標(biāo)準(zhǔn)誤差計算公式:標(biāo)準(zhǔn)誤差單樣本t檢驗計算公式:t檢驗04在stats中,ttest

1samp函數(shù)用來進行單樣本t檢驗。它的使用格式如下:其中,data是樣本數(shù)據(jù),popmean是總體均值。單樣本t檢驗t檢驗04獨立樣本t檢驗獨立樣本t檢驗用于分析定類數(shù)據(jù)與定量數(shù)據(jù)之間的關(guān)系,如男、女生的身高是否有顯著差異。在stats中,ttest

ind函數(shù)用來進行獨立樣本t檢驗。它的使用格式如下:其中,datal、data2是樣本數(shù)據(jù)。t檢驗04配對樣本t檢驗配對樣本t檢驗用于分析配對定量數(shù)據(jù)之間的差異對比關(guān)系,要求樣本量相同且前后順序要一一對應(yīng)。配對樣本t檢驗可視為單樣本t檢驗的擴展,檢驗的對象由一群來自正態(tài)分布的獨立樣本更改為兩群配對樣本觀測值之差。配對樣本t檢驗可以通過差值轉(zhuǎn)化為單樣本t檢驗,常用于比較對同一受試對象進行處理的前后差異。在stats中,ttest

rel函數(shù)用來進行配對樣本t檢驗。它的使用格式如下:其中,data1、data2是樣本數(shù)據(jù)。05方差分析方差分析05單因素方差分析單因素方差分析(One-wayANOVA)用來檢驗由單一因素影響的多組樣本某因變量的均值是否有顯著差異。當(dāng)因變量為數(shù)值型、自變量為分類值時,通常的做法是按自變量的類別把實例分成多組,分析因變量在自變量的不同分組中是否存在差異。f

oneway函數(shù)用來對數(shù)據(jù)進行單因素方差分析,返回的是統(tǒng)計量和p值。方差分析05多因素方差分析當(dāng)有兩個或兩個以上的自變量對因變量產(chǎn)生影響時,可以用多因素方差分析的方法進行分析,此時不僅要考慮每個因素的主效應(yīng),還要考慮因素之間的交互效應(yīng)。多因素方差分析需要加載statsmodels模塊,在stat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論