版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第四章描述性統(tǒng)計量引導案例
100袋食品重量的統(tǒng)計資料某食品加工廠新增一條可以自動封裝袋裝食品的生產(chǎn)線。每袋食品的重量是50克,過于偏離這個標準,即被視為不合格品。為檢驗生產(chǎn)線的運轉狀況,質(zhì)檢人員隨機從生產(chǎn)線上抽取了100袋食品,測得的重量數(shù)據(jù)如表4-1和圖4-1所示。觀察圖4-1可知,100袋食品的重量存在差異,有的偏大一些,有的偏小一些,整體上呈現(xiàn)出一種離散狀態(tài);但這種離散又不是沒有限度的,靠近中間的重量頻數(shù)較高,偏離中間的重量則頻數(shù)逐漸降低,整體上具有向中間某一確定位置集中的趨勢;頻數(shù)分布整體形態(tài)并不是完全對稱的,而是略有向右側偏斜的傾向;從集中速度的變化上看,左側從第二組開始速度加快,右側從第三組開始速度加快,從而使頻數(shù)分布圖的形狀開始變得陡峭起來。
觀察頻數(shù)分布圖,有助于對頻數(shù)分布趨于集中的位置、離散程度的大小、分布圖的對稱性及集中速度變化的快慢形成粗略的判斷,但遠未達到精確的測定。集中位置在哪里?離散程度有多大?是否對稱?偏斜了多少?集中速度變化是快還是慢?這些問題單憑肉眼觀察是無法解決的,因此需要一種尺度,用以測量頻數(shù)分布所表現(xiàn)出來的上述特征,這在數(shù)據(jù)處理活動中就形成了一系列描述性統(tǒng)計量的計算。第一節(jié)第三節(jié)第二節(jié)第四節(jié)集中趨勢描述性統(tǒng)計量分布形態(tài)描述性統(tǒng)計量離散程度描述性統(tǒng)計量運用SPSS進行統(tǒng)計量描述第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、均值均值反映了同類現(xiàn)象在特定條件下所達到的平均水平。將數(shù)據(jù)中的全體觀測值求和,再除以觀測值的個數(shù),即可得到該數(shù)據(jù)的均值,記作。其計算公式如下:
式中,n代表樣本量,即觀測值的個數(shù);代表第i個觀測值。根據(jù)式,可計算表4-1中100袋食物重量樣本數(shù)據(jù)的均值:
均值是用算術平均的方法,將各個觀測值之間的差異抽象化,從而測定數(shù)據(jù)分布趨于集中的具體位置,同時也給出了全體觀測值的一個代表性水平。實踐中可能遇到各種形式的數(shù)據(jù),計算均值時要注意根據(jù)具體情況靈活變通地加以運用。如果用代表分組的變量值,代表各組頻數(shù),可總結出分組數(shù)據(jù)計算均值的公式如下:盡管式(4-2)是根據(jù)式(4-1)變換而來的,但它在統(tǒng)計計算中已經(jīng)從形式上被固定下來,稱為加權均值。通過觀察可知:如果將式中的看作被平均對象,則對平均的結果起著權衡輕重的作用,哪一個變量值所對應的頻數(shù)大,計算結果就有向其靠近的傾向。因此,頻數(shù)在公式中又被稱作權數(shù)。如果數(shù)據(jù)未被分組,則每一個被平均對象所對應的權數(shù)就是相等的,即都為1,此時加權均值的公式就會轉換為原來的形式比較簡單的均值定義公式。所以,也可以將式(4-2)看作是均值的一個代表性公式。此外,在式(4-1)中,假如被平均對象xi的變化是均勻或對稱的,則公式又可進一步簡化為:式(4-3)稱作中距,式中的代表最小的觀測值,代表最大的觀測值。式(4-1)(4-2)和(4-3)是計算均值的三種不同形式的公式,但它們所反映的內(nèi)容是完全一致的。在一定條件下,三者之間可以互相轉換,因此它們在實踐中經(jīng)常是結合起來運用的。均值計算公式有兩個重要的數(shù)學性質(zhì):第一,所有觀測值與其均值的離差之和等于0,即
;第二,所有觀測值與其均值的離差平方和最小,即最小。第一個數(shù)學性質(zhì)表明,全體觀測值與均值的正負離差可以相互抵消,從而使均值處于一個具有充分代表性的平衡的位置上;第二個數(shù)學性質(zhì)表明,均值實現(xiàn)了與全體觀測值之間的最佳擬合,全體觀測值與任意一個不是均值的數(shù)值的離差平方和都要大于均值的離差平方和。均值的這兩個數(shù)學性質(zhì)從數(shù)理上說明了其作為全體觀測值代表性水平的合理性,也正是由于這個原因,才使得均值成為最重要也是最常用的集中趨勢描述性統(tǒng)計量。二、中位數(shù)將全體觀測值按照從小到大的順序排成一列,處于中間位置的觀測值就是該數(shù)據(jù)的中位數(shù),記作。例如,9個家庭的人均月收入原始數(shù)據(jù)如表4-4所示,排序結果如表4-5所示。由表4-5可知,中位數(shù)為排序后的第5個觀測值,即1180元。由此可見,計算中位數(shù)的關鍵是確定其所在位置。當觀測值個數(shù)n為奇數(shù)時,中位數(shù)的位置為
;當觀測值個數(shù)n為偶數(shù)時,可采用以下公式計算中位數(shù):同理,可計算出表4-1中100袋食品重量樣本數(shù)據(jù)的中位數(shù)為51克。三、眾數(shù)盡管根據(jù)同一數(shù)據(jù)所計算出來的均值、中位數(shù)和眾數(shù)可能略有差異,但都不失為尋找和確定數(shù)據(jù)分布集中位置的合理方法。均值是通過計算得出的,中位數(shù)與眾數(shù)則是通過尋找特定位置而確定下來的。因此,均值通常被稱為計算平均數(shù),而中位數(shù)與眾數(shù)則被稱為位置平均數(shù)。全體觀測值都參與了均值的運算,因此,一般情況下均值要比中位數(shù)和眾數(shù)具有更好的綜合性。然而,均值的這一優(yōu)點同時卻又是它的缺點,當數(shù)據(jù)中存在偏大或偏小的極端值時,均值的計算結果也將隨之偏大或偏小,這樣反倒會降低其代表性。中位數(shù)與眾數(shù)都是由位置確定的,因此不受極端值的影響。數(shù)據(jù)分布集中趨勢明顯并存在偏斜情況時,中位數(shù)與眾數(shù)有時比均值更具有說服力。因此,在數(shù)據(jù)處理活動中,均值、中位數(shù)和眾數(shù)通常都是視具體情況而相互參照使用的??梢赃@樣來概括:均值是全體觀測值的重心,中位數(shù)是全體觀測值的中心,眾數(shù)是全體觀測值的重點。四、均值、中位數(shù)和眾數(shù)的比較不同觀測值在樣本數(shù)據(jù)中出現(xiàn)的次數(shù)是不盡相同的,出現(xiàn)次數(shù)最多的觀測值就是該數(shù)據(jù)的眾數(shù),記作。例如,在表4-2所示的車間工人日產(chǎn)零件數(shù)的數(shù)據(jù)中,日產(chǎn)零件數(shù)為7件的人數(shù)最多,為50人,因此7件就是該數(shù)據(jù)的眾數(shù)。需要注意的是,一個樣本數(shù)據(jù)中有時可能有不止一個眾數(shù)。例如,在表4-6所示的球員身高數(shù)據(jù)中,出現(xiàn)次數(shù)最多的觀測值有兩個,即178cm和188cm,因此該數(shù)據(jù)有兩個眾數(shù)。另外,一個樣本數(shù)據(jù)中有時可能沒有眾數(shù)。例如,在表4-4所示的9個家庭人均月收入的數(shù)據(jù)中,每個觀測值都只出現(xiàn)了一次,因此該數(shù)據(jù)沒有眾數(shù)。因此,在實際數(shù)據(jù)處理活動中,眾數(shù)一般只適用于數(shù)據(jù)規(guī)模較大且具有明顯集中趨勢的情況。在表4-1所示的數(shù)據(jù)中,經(jīng)過清點可以確定,出現(xiàn)次數(shù)最多的觀測值是53克,因此該數(shù)據(jù)的眾數(shù)為53克。此外,在鐘形分布下,均值、中位數(shù)和眾數(shù)之間一般還具有以下比較確定的關系:對稱分布下,均值=中位數(shù)=眾數(shù);左偏分布下,均值<中位數(shù)<眾數(shù);右偏分布下,均值>中位數(shù)>眾數(shù),如圖4-3所示。經(jīng)驗表明,頻數(shù)分布偏斜程度較低時,三者之間的關系大體為:。第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、極差、四分位差與平均差極差(一)極差是指數(shù)據(jù)中的最大觀測值與最小觀測值之差,記作R。其計算公式為:(4-5)式中,和分別代表最大觀測值與最小觀測值。根據(jù)式(4-5),表4-1中100袋食品重量的最小觀測值為40克,最大觀測值為61克,所以該數(shù)據(jù)的極差為21克。極差給出了全體觀測值的最大變動范圍,一般情況下,極差越大,表明頻數(shù)分布的離散程度越大。極差計算簡便、含義直觀,通常情況下也可以說明離散程度大小的問題,但極少被單獨使用,這主要是因為其計算過程僅僅是基于數(shù)據(jù)中的兩個特殊觀測值,所以極易受極端值的影響。一旦最小觀測值過小或最大觀測值過大,就會出現(xiàn)夸大離散程度的情況。四分位差(二)四分位差就是數(shù)據(jù)中的上四分位數(shù)與下四分位數(shù)之差,記作。其計算公式為:
(4-6)式中,和分別代表上四分位數(shù)和下四分位數(shù)。將全體觀測值按照從小到大的順序排成一列,處于第1/4位置上的觀測值就是該數(shù)據(jù)的下四分位數(shù),處于第3/4位置上的觀測值就是該數(shù)據(jù)的上四分位數(shù)。與確定中位數(shù)的方法類似,確定下四分位數(shù)位置的公式為:(4-7)確定上四分位數(shù)位置的公式為:(4-8)四分位差的計算1將全體觀測值按照從小到大的順序排成一列,則中位數(shù)將該數(shù)列分成數(shù)量相等的兩組數(shù)。當觀測值個數(shù)n為奇數(shù)時,每組有個數(shù),為第一組個數(shù)的中位數(shù),為第二組個數(shù)的中位數(shù);當觀測值個數(shù)n為偶數(shù)時,每組有個數(shù),為第一組個數(shù)的中位數(shù),為第二組個數(shù)的中位數(shù)。當數(shù)據(jù)量很大時,可應用Excel統(tǒng)計函數(shù)中的QUARTILE(array,quart)函數(shù)計算四分位數(shù)。其中,array參數(shù)用于指定要計算四分位數(shù)值的數(shù)組或數(shù)值型單元格區(qū)域;quart參數(shù)用于指定返回哪一個四分位值,其可取值為0(返回最小值)、1(返回第一個四分位數(shù),即下四分位數(shù))、2(返回第二個四分位數(shù),即中位數(shù))、3(返回第三個四分位數(shù),即上四分位數(shù))、4(返回最大值)。依照上述說明,表4-1中100袋食品重量的下四分位數(shù)為47克,上四分位數(shù)為53.75克,因此該數(shù)據(jù)的四分位差為6.75克。四分位差的計算1四分位差給出了全體觀測值中處于中間位置的50%觀測值的變動范圍。一般情況下,四分位差越大,表明中間50%觀測值的離散程度越大,從而間接地反映出數(shù)據(jù)整體的離散程度也越大。四分位差避免了極差的缺陷,不再受最大觀測值與最小觀測值極端情況的影響。而且,由于中位數(shù)處于上下四分位數(shù)之間,所以它能夠在一定程度上說明中位數(shù)代表性的強弱。但由于四分位差也是基于數(shù)據(jù)中的兩個特殊觀測值而得出的,所以它與極差一樣,缺乏對全體觀測值離散狀態(tài)的全面概括能力。四分位差的作用2平均差(三)平均差是各個觀測值與其均值離差的絕對值的均值,記作。其計算公式為:表4-1中100袋食品重量的均值為50.76克,根據(jù)式(4-9)計算100袋食品重量的平均差為:(4-9)平均差以均值作為衡量各個觀測值離散程度的標準,計算出各個觀測值相對于均值的離差并取絕對值,再就離差絕對值取均值,其計算結果可理解為全體觀測值相對于均值的平均離散程度。與極差和四分位差相比,平均差全面而完整地反映了數(shù)據(jù)整體離散程度的高低,應當說,已經(jīng)算是比較完美的尺度了,但由于其計算過程中包含著取絕對值的步驟,這非常不便于進一步的數(shù)學推導,所以仍有加以改進的必要。二、方差與標準差樣本方差與標準差(一)樣本方差是各個觀測值與其均值離差平方的均值,記作。其計算公式為:
(4-10)根據(jù)式(4-10),計算表4-1中100袋食品重量樣本數(shù)據(jù)的方差為:這一計算結果也可以理解為全體觀測值相對于均值的平均離散程度。樣本方差保持了平均差全面而完整的優(yōu)點,又通過取離差平方的方式避免了取絕對值的過程,因而方便了今后的數(shù)學推導。如果僅僅是單純描述樣本數(shù)據(jù)的離散程度,以離差平方和除以樣本量n來計算樣本方差也是合理的。但如果要以樣本方差來推斷總體方差,則分母必須取樣本自由度。因為,數(shù)理統(tǒng)計的研究表明,分母為自由度的樣本方差是總體方差的無偏估計量;而分母為樣本量n的樣本方差則是有偏的。有關這方面的具體內(nèi)容,請參見第五章參數(shù)估計。樣本標準差是樣本方差的平方根,記作s。其計算公式為:根據(jù)式(4-11),表4-1中100袋食品重量樣本數(shù)據(jù)的標準差為:
(4-11)總體方差與標準差(二)計算樣本方差或樣本標準差,有時是為了估計總體方差或總體標準差??傮w方差是用以描述總體數(shù)據(jù)離散程度的參數(shù)。其計算公式為:(4-12)式中,代表總體方差;代表總體均值;N代表總體容量;代表總體中的各個觀測值??傮w標準差是總體方差的平方根。其計算公式為:
(4-13)準確理解方差與標準差(三)如果數(shù)據(jù)呈接近于對稱的鐘形分布,則有:約68%的觀測值與均值的距離在1個標準差范圍之內(nèi);約95%的觀測值與均值的距離在2個標準差范圍之內(nèi);幾乎所有觀測值與均值的距離在3個標準差范圍之內(nèi),如圖4-6所示。這一經(jīng)驗法則表明,可以通過生成與全體觀測值的均值與標準差,反過來把握全體觀測值整體。與標準差有關的一個經(jīng)驗法則1切貝謝夫定理在更廣泛的情形下,給出了均值、標準差與全體觀測值之間的聯(lián)系。該定理指出:在任意一組數(shù)據(jù)中,至少有()的觀測值與均值的距離在z個標準差范圍之內(nèi)(z是任意大于1的值),如圖4-7所示。切貝謝夫定理2在數(shù)據(jù)處理活動中,經(jīng)常需要對不同樣本數(shù)據(jù)之間的觀測值大小進行比較。但由于變量性質(zhì)不同,觀測值之間往往是無法進行比較的。標準得分正是為適應這一需要而采取的一種數(shù)據(jù)加工方法。樣本數(shù)據(jù)中某一觀測值的標準得分等于該觀測值與其均值之差再除以標準差,記作。其計算公式為:
(4-14)標準得分的計算結果給出了該觀測值之間相對位置的遠近,同時又消除了計算單位的限制。不同樣本數(shù)據(jù)之間原本無法直接比較的觀測值,可以通過計算標準得分來進行大小比較。標準得分3三、離散系數(shù)方差與標準差具有平均差的優(yōu)點,且便于數(shù)學推導,因而在數(shù)據(jù)處理活動中被廣泛應用。但通常情況下,它們只適用于描述單個變量數(shù)據(jù)的離散程度,如果需要描述兩個不同性質(zhì)變量的離散程度,方差與標準差還是有缺陷的。從計算公式看,有兩個因素決定方差和標準差的計算結果:一是數(shù)據(jù)的離散程度,數(shù)據(jù)的離散程度越高,計算出來的數(shù)字結果就會越大;離散程度越低,這個數(shù)字結果就會越小。二是參與運算的全體觀測值本身的數(shù)值大小,觀測值本身的數(shù)值越大,計算出來的數(shù)值結果就會越大;觀測值本身的數(shù)值越小,這個數(shù)字結果就會越小。顯然,第二個因素與離散程度的高低是無關的,因此,需要從方差和標準差中剔除第二個因素的影響,才能更精確地顯示出數(shù)據(jù)離散程度本身的高低。離散系數(shù)是標準差與均值之比,記作。其計算公式為:
(4-15)第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、偏度偏度是衡量頻數(shù)分布形態(tài)對稱性的統(tǒng)計量,記作SK。其計算公式為:
(4-16)偏度計算結果為0,表明頻數(shù)分布的形態(tài)是對稱的;如果小于0,則表明是左偏;如果大于0,則表明是右偏。計算結果的絕對值越大,表明左偏或右偏的程度越大,特別是當計算結果的絕對值大于1時,通常被認為是高度偏態(tài)。二、峰度峰度是衡量頻數(shù)分布尖削或陡峭程度的統(tǒng)計量,記作KU。其計算公式為:
(4-17)分布趨于集中的速度變化較慢,分布形態(tài)比較平坦;大于0,稱為尖頂峰,表明頻數(shù)分布趨于集中的速度變化較快,分布形態(tài)比較尖削或陡峭,如圖4-8所示。第一節(jié)集中趨勢描述性統(tǒng)計量第三節(jié)分布形態(tài)描述性統(tǒng)計量第二節(jié)離散程度描述性統(tǒng)計量第四節(jié)運用SPSS進行統(tǒng)計量描述一、由“Ferquencies”計算描述統(tǒng)計量(1)打開“表4-1”對應的SPSS數(shù)據(jù)集“data4.1”。在SPSS菜單欄中選擇【Analyze】→【DescriptiveStatistics】→【Frequencies】菜單命令,系統(tǒng)彈出如圖4-9所示的“Frequencies”對話框。(2)選擇變量“食品重量[spzl]”,單擊按鈕,將其移到“Variable(s):”列表框中。單擊【Statistics…】按鈕,系統(tǒng)彈出如圖4-10所示的“Frequencies:Statistics”對話框。(3)在“PercentileValues”欄內(nèi)選擇“Quartiles”復選框;在“CentralTendency”欄內(nèi)選擇“Mean”“Median”“Mode”復選框,以計算集中趨勢描述統(tǒng)計量均值、中位數(shù)和眾數(shù);在“Disperion”欄內(nèi)選擇“Std.deviation”“Variance”“Range”復選框,以計算集中趨勢描述統(tǒng)計量標準差、方差和極差;在“Distribution”欄內(nèi)選擇“Skewness”和“Kurtosis”復選框,以計算偏度和峰度。(4)單擊【Continue】→【OK】按鈕,系統(tǒng)輸出描述性統(tǒng)計量計算結果,如圖4-11所示。二、由“Descriptives”計算描述統(tǒng)計量(1)打開“表4-1”對應的SPSS數(shù)據(jù)集“data4.1”。在SPSS菜單欄中選擇【Analyze】→【Descript
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025四川內(nèi)江市隆昌市興晟產(chǎn)業(yè)投資集團有限公司招聘調(diào)減開考比例和核減崗位筆試歷年參考題庫附帶答案詳解
- 2025北京化工集團“優(yōu)培”筆試筆試歷年參考題庫附帶答案詳解
- 2025內(nèi)蒙古蒙水水資源股份有限公司招聘緊缺專業(yè)人員8人筆試歷年參考題庫附帶答案詳解
- 2025內(nèi)蒙古呼倫貝爾經(jīng)濟技術開發(fā)區(qū)招商投資有限責任公司招聘10人筆試參考題庫附帶答案詳解
- 2025中國建設科技有限公司招聘筆試參考題庫附帶答案詳解
- 人工智能輔助的高中生地理個性化學習路徑優(yōu)化與評價研究教學研究課題報告
- 中國集成灶下沉市場渠道沖突與價格體系報告
- 中國金融行業(yè)聯(lián)邦學習技術應用與隱私保護分析報告
- 中國金相顯微鏡新材料研發(fā)投入加大帶來的高端設備需求
- 中國金屬有機化學氣相沉積前驅體材料純度提升路徑研究
- 2024年山東省濟南市中考化學試卷( 含答案)
- 建筑結構改造設計和加固技術綜合分析的開題報告
- 管理會計學 第10版 課件 第1、2章 管理會計概論、成本性態(tài)與變動成本法
- 喪葬費用補助申請的社保授權委托書
- 2024年度初會《經(jīng)濟法基礎》高頻真題匯編(含答案)
- 課例研究報告
- 啤酒營銷促銷實戰(zhàn)技巧之經(jīng)銷商管理技巧知識培訓
- 建筑工程各部門職能及各崗位職責201702
- 機柜端口對應表
- GB/T 3934-2003普通螺紋量規(guī)技術條件
- 車輛贈與協(xié)議模板
評論
0/150
提交評論