第22節(jié)-教育統計的特征量_第1頁
第22節(jié)-教育統計的特征量_第2頁
第22節(jié)-教育統計的特征量_第3頁
第22節(jié)-教育統計的特征量_第4頁
第22節(jié)-教育統計的特征量_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二節(jié)教育統計的特征量對雜亂無章的數據資料經過初步整理后,可以用統計表和統計圖直觀表現出數據的全貌。這種對統計資料粗略的、直觀的概括是很有用的。但要進一步進行分析研究,只靠圖表是不夠的,還必須通過數據求得一些特征量,以此來解釋統計資料的集中趨勢、離散程度和相關程度等各項特點。其中描述統計資料的集中趨勢的特征量是集中量;描述統計資料的離散程度的特征量是差異量;描述統計資料的相關程度的特征量是相關量。

一、集中量集中量是代表一組數據典型水平或集中趨勢的量。它描述數據分布的規(guī)律性,也能反映頻數分布中大量數據向某一點集中的情況。常用的集中量有平均數、中位數和眾數。(一)平均數平均數是使用比較廣泛,也較為簡單易懂的一種集中量,它能反映一組數據資料的某種水平。1.算術平均數(1)算術平均數的概念算術平均數是所有觀察值的總和除以總頻數所得之商,簡稱平均數,用表示。設變量X1,X2,X3,…,Xn代表各次觀察的結果,以N為觀察的次數。則可簡化為

(2)算數平均數的計算方法①原始數據法②頻數分布表法在這里,X1,X2,…,Xk表示第1組到第k組的組中值;

f1,f2,….,fk表示第1組到第k組的頻數;

2.加權平均數(1)加權平均數的概念加權平均數是不同比重數據(或平均數)的平均數,用表示如下:在這里,表示加權平均數;W表示各觀察值的權數;X表示具有不同比重的觀察值。

(2)加權平均數的計算方法①原始數據法:已知原始觀察值,又知各原始數據的權數,則用原始數據法按定義式計算。例如:某生平時數學成績?yōu)?0分,期中考試成績?yōu)?0分,期末考試成績?yōu)?5分。按學校規(guī)定學期成績中平時占20%,期中占30%,期末占50%。問該生學期總評成績應為多少分?

②頻數分布表法已知各組的平均數和各組的頻數,則可用頻數分布表法。公式為:在這里,表示各組的平均數;N表示各組的頻數。例如,某年級各班的一次數學考試成績如下表,求全年級的總平均分。

3.幾何平均數

(1)幾何平均數的概念幾何平均數是N個數據連乘的N次方根。用

表示。用公式表示如下:若數據較多或較大時,可用取對數的方法來求幾何平均數,即故幾何平均數的對數實際上是各數據的對數算術平均數。(2)幾何平均數的計算方法幾何平均數適用于計算具有遞增(或遞減)性數據的集中量,計算方法直接用以上定義公式便可求出。

例如,近幾年某地區(qū)職業(yè)學校在校學生人數如下表。求(1)這4年在校學生的平均數;(2)年平均增長率。(1)顯然,這是一組具有遞增性的數據,故其平均數宜用幾何平均數,不宜用算術平均數。按公式可得:故這4年在校學生平均數為1196人。(2)本例中為求年平均增長率,需先求出以前一數據為基礎的逐年增長的比值,即800÷500=1.6,1600÷800=2,3200÷1600=2,然后用公式可求出這些比值的平均數:由于還包含著以第1年的數據作為基數(即1),因而在求年平均增長率時,要減去1,即1.86-1=0.86=86%。故年平均增長率為86%。

4.調和平均數(1)調和平均數的概念調和平均數是一組數據倒數的算術平均數的倒數,也稱倒數平均數.用表示.用公式表示如下:(2)調和平均數的計算方法調和平均數適用于求平均速率一類的問題.計算方法直接用以上定義公式便可解出.例如,設甲、乙、丙3個學生的解題速度如下:甲生每小時8題、乙生每小時7題、丙生每小時10題.求3人平均解題速度。由于此例是求平均速度問題,故宜用求調和平均數的方法.根據公式有:

驗證:由于解1道題甲生所需時間為h=0.125h,乙生所需時間為h=0.143h,丙生所需時間為h=0.1h,則他們各解1道題(即共解3道題)所需時間為0.368h。由于所求的倒數平均數即為他們的平均解題速度,故在0.368h里他們共解題數為0.368×8.15=3(題),可見與事實相符。

算術平均數在幾何或物理上表示一組數據的中心或重心位置,它可用于各組數據之間集中水平的比較;加權平均數用于求不同比重數據(或平均數)的平均數;幾何平均數適用于計算具有遞增(或遞減)性數據的集中量;調和平均數適用于求平均速率一類的問題。

(二)中位數1.中位數的概念

中位數是位于以一定順序排列的一組數據中央位置的數值,在這一數值上下各分布著一半頻數。中位數常用Md表示。中位數也是一個常用的表示集中趨勢的指標,對于分布大致對稱的數據,中位數與算術平均數十分接近。而當數據分布過于偏時,用中位數表示的集中趨勢比算術平均數更為合理。

2.中位數的計算方法(1)原始數據法將一組原始數據依大小順序排列后,若總頻數為奇數,就以位于中央的數據作為中位數;若總頻數為偶數,則以最中間的兩個數據的算術平均數作為中位數。例如,有以下7個數據,從小到大排列為:5,7,9,13,15,16,19因為數據個數為奇數,則位于中間的數值13即為中位數:Md=13又如,下面有8個數據,從小到大排列為:3,5,7,9,13,15,16,19因為數據個數為偶數,則取位于中間位置的兩個數9與13求算術平均數(9+13)/2=11即為中位數:Md=11

(2)頻數分布表法若一組原始數據已經變成了頻數分布表,可用內插法,通過頻數分布表計算中位數。計算時,可以在頻數分布表上由數值小向數值大的方向計算;也可以由數值大向數值小的方向計算,公式如下:由小向大的計算公式:Lmd

表示中位數所在組的下限;N表示總數;n1

表示小于中位數所在組下限的頻數總和;i表示頻數分布表上的組距;fmd

表示中位數所在組的頻數。

以表2.7數據為例,說明由數值小向數值大計算中位數的步驟。

由大向小的計算公式為:在這里,Umd

表示中位數所在組的上限;n2表示大于中位數所在組上限的頻數總和。當由小向大計算中位數時,如果小于某一組下限的累積頻數正好等于總頻數的一半,那么該組的下限就是中位數;當由大向小計算時,如果大于某一組上限的累積頻數正好等于總頻數的一半,那么該組的上限就是中位數。

(三)眾數1.眾數的概念在一數列中出現頻數最多的一個數值稱為眾數,常用Mo表示。如果所有數據項都不相同,就沒有眾數。在頻數分配表上,頻數最多的一組的組中值就是眾數。在曲線圖上,曲線的最高點所對應的橫軸上的數值,就是眾數。2.眾數的計算方法(1)觀察法若數據已歸類而組距為一個單位時,則次數出現最多的數據即為眾數;若組距為一個單位以上,則以次數最多一組的組中值為眾數;當相鄰兩組頻數都是最多時,則分組點為眾數。

(2)公式法a.金氏插補法當頻數分布呈偏態(tài),即眾數所在組以上各組頻數總和與以下各組頻數總和相差較多時,可以采用金氏公式計算眾數,以進行比率調整,其公式為:L表示眾數所在組的下限;fa表示大于眾數所在組上限那個相鄰組的頻數;fb表示小于眾數所在組下限那個相鄰組的頻數;i表示組距。

b.皮爾遜公式法公式為算術平均數、中位數與眾數三者的關系:當頻數分配不甚偏斜時,眾數與中位數距離較遠于平均數與中位數的距離,即“眾數與中位數之間的距離”和“平均數與中位數之間的距離”之比為2:1皮爾遜公式法適用于當頻數分布呈正態(tài)或接近正態(tài)時求眾數。

平均數有優(yōu)于中位數和眾數的特點:第一,平均數是根據全體數據參與計算得來的,可以作為一組數據的代表值;第二,簡明易懂;第三,可由無次序的數據直接求出;第四,計算公式可用作代數運算;第五,較穩(wěn)定可靠,受抽樣影響不很大;第六,已知平均數與頻數可求出總數。平均數也有不足之處:第一,受極端數據的影響較大;第二,如有某幾個數據不知道就無法求出。中位數不受極端數據的影響,尤其是在一個方向上出現較多的極端數值時,使用中位數作為集中的代表性較好。但由于中位數只利用了相對位置的信息,所以一般情況下它的集中代表性不如平均數。眾數僅利用了數據出現頻數最多的信息,因而在一般情況下其代表性不如平均數和中位數,但在單峰的偏態(tài)分布中,眾數的集中代表性較好。由于平均數(尤其是算術平均數)有較多的優(yōu)點,且在推斷統計中也常常用到,所以我們的統計報告中一般都要選用平均數。

二、差異量(一)全距全距是一組數據中最大值與最小值之差,又稱極差,用R表示。用頻數分布表求全距的方法是:最大一組與最小一組組中值之差,或者是最大一組上限與最小一組下限之差。全距意義簡明,計算方法簡單。但它只能反映數據組的兩極端值的離差程度,不能反映中間數據的分布情況。所以,全距不是測量數據分布的良好尺度,它具有很大的局限性,只有與其他差異量結合起來使用,才能比較全面地反映出數據分布的情況。(二)平均差平均差是每個數據與該組數據的集中量(如算術平均數、中位數)之差的絕對值的算術平均數。一般用符號AD表示,其公式為在這里,N為數據個數;為平均數;Md

為中位數。

對頻數分布表求平均差,可用以下公式在這里,f為各組頻數;X0為各組組中值;其余符號同上。平均差是以各數據離開算術平均數或中位數的總的趨勢來表示一組數據的離散程度的。它的意義明確,計算容易,且考慮到了全部離差,受兩極端數值影響小。但計算要用絕對值,不便于代數運算,因而在教育統計中用得不多。

(三)標準差

1.標準差的概念一組數據離差平方的算術平均數,我們稱之為方差。標準差是指方差的平方根。方差用表示,標準差用表示。其定義公式為:在這里,X-

表示離差;N表示總頻數。標準差的值越大,表明這組數據的差異程度越大;標準差的值越小,表明這組數據越整齊,分布范圍越小。標準差具有反應靈敏、計算簡單等優(yōu)點,所以與其它差異量相比,標準差應用最為廣泛。當描述一組數據的離散程度,集中量用算術平均數表示時,差異量要用標準差表示。

2.標準差的計算方法

(1)原始數據法將定義公式加以整理,可變成不必求離差,直接用原始數據計算標準差的公式。其公式為:在這里,X表示原始數據;N表示總頻數。(2)頻數分布表法當原始數據已經歸入頻數分布表,而且原始數據又不在手邊,這時可以用組中值近似計算。其計算公式為:在這里,X表示各組組中值;f表示各組頻數。

3.標準差的組合在實際統計工作中,我們有時已知若干組數據的標準差,要計算全體數據的總標準差,這就是所謂標準差的組合問題。設K組數據的有關資料分別為:并且,N=N1+N2+N3+…+Nk那么,根據方差的可加性可得到、所有N個數據的總標準差的計算公式為:

標準差是比較完善的一種極為重要的差異量。它比全距和平均差都具有優(yōu)越性。雖然全距的優(yōu)點是意義明確,計算簡單,但由于全距是由一組數據的最大值與最小值決定,因而不能反映分布內部的情況,它不是一種可靠的差異量,用途很少。而平均差雖然意義明確,但在計算時采用了絕對值,不適合代數方法的運算,因而用處不大,在差異量中,無疑標準差是最科學、最完善的一個差異量。這是因為它具有以下特點:(1)標準差反映全部數值的差異情況;(2)標準差適合于代數方法運算;(3)標準差受抽樣變動的影響較小。但標準差也有一些缺點,比如說,標準差計算較為復雜,結果易受兩極端數值的影響。盡管如此,在各種差異量中,使用最多的仍是標準差,而且往往是把平均數同標準差結合起來使用。標準差與平均數配合使用時,通常表示為

(四)三種差異量的數值關系當總頻數相當大,且頻數分布呈正態(tài)時,全距、平均差、標準差的數值存在如下關系:全距大致等于6個標準差的距離;全距大致等于7.5個平均差的距離。用公式可表示為:

R≈6σ≈7.5AD;

AD=0.7979σ;

σ=1.2533AD算術平均數上、下各一個平均差之間包括57.51%的總頻數。算術平均數上、下各一個標準差之間包括68.26%的總頻數。因此,三種差異量的數值之間存在一定的關系。已知某種差異量可以粗略求得其他差異量。

(五)差異系數

1.差異系數的概念全距、平均差、標準差都是帶有原觀察值同一單位的差異量,這種差異量稱為絕對差異量。這種絕對差異量對單位不同或單位相同但兩個平均數相差較大的數據,都無法比較差異的大小因而其使用范圍受到一定限制。當我們要比較單位不同或者單位相同但平均數懸殊較大的幾組數據的差異度時,必須用相對差異量進行比較。相對差異量又稱差異系數。所謂差異系數是指標準差與算術平均數的百分比,差異系數用CV表示,它沒有單位。用公式表示為:差異系數是相對于平均數的離散比率值。差異系數反映了分布中全體數據相對于自身平均數的離散程度。另外,用CV作為衡量學校教學是否面向全體學生,分析學生成績兩極分化情況的指標也較理想。

2.差異系數的用途差異系數的用途主要體現在兩個方面:第一可以比較單位不同的數據資料的差異程度;

(六)偏態(tài)系數

1.算術平均數、中位數、眾數與頻數分布

2.偏態(tài)系數的求法偏態(tài)系數也是一種相對差異量。前面,我們已經初步接觸到偏態(tài),但只知分布是否為正偏態(tài)或負偏態(tài),而未知其所以然。如果知道偏態(tài)系數的計算方法,就可以知道它為何是正偏態(tài),為何是負偏態(tài)。求偏態(tài)系數的方法有兩種:(1)利用算術平均數與眾數(或中位數)的距離求偏態(tài)系數,其公式為:

(2)利用α3求偏態(tài)系數,其公式為:在這里,α

3

表示偏態(tài)系數;X表示原始數據;表示平均數;σ表示標準差。若用頻數分布表計算偏態(tài)系數,其公式為:在這里,α3

表示偏態(tài)系數;X表示原始數據;表示平均數;σ表示標準差。在這里,X表示各組組中值;f表示各組頻數;其余量意義同上。這里分子為各項離差的立方和的算術平均數,分母為標準差的立方。當α3=0時,表明頻數分布呈對稱形;當α3>0表明頻數分布呈正偏態(tài);當α3<0表明頻數分布呈負偏態(tài)。當總頻數N>200時,所計算出的偏態(tài)系數才比較可靠。

三、相關量(一)相關系數的概念某一事物的變化,總是與其他事物的變化相互聯系,相互影響的。這種聯系,從數量關系來揭示它,可以分為兩種類型。一種是函數關系,另一種是相關關系,函數關系是一種嚴格確定的關系,它反映了事物之間所存在的的嚴格的依存關系,其特征是現象與現象之間的關系是一一對應的,它通??梢杂靡粋€數學表達式準確地表達出來,它反映了必然現象的規(guī)律性,函數關系屬于傳統數學研究的范疇。

相關關系是兩組變量之間的非確定性的關系,它反映了變量之間不十分嚴格但卻依然存在著的依存關系,相關關系反映了偶然現象的規(guī)律性,它是一種大概如此而絕非如此的關系。相關關系屬于統計研究的范疇。例如:學習成績與智商的關系,學校條件與辦學水平的關系等等都屬于相關關系的范疇。如果兩個變量的變化方向一致,即一個變量變大時,另一個變量值也隨之變大;一個變量變小時,另一個變量也隨之變小,這種關系我們稱之為正相關。如果兩個變量之間的變化方向相反,即一個變量變大時,另一個變量值隨之變?。灰粋€變量變小時,另一個變量數值隨之變大,這兩個變量之間的關系我們稱之為負相關。兩個變量之間變化方向無一定規(guī)律,我們稱之為零相關。

相關關系我們一般用相關系數(r)表示。它的范圍為–1<r<1,由r的正、負號以及絕對值的大小,可以表明兩個變量之間的變化方向和密切程度。但相關系數只能描述兩個變量之間的變化方向和密切程度,并不能揭示二者之間的內在本質聯系,如果要分析其內在本質聯系,必須借助于這兩個變量相關的專業(yè)知識。相關系數的計算方法很多,常見的有積差相關、等級相關、點二列相關、二列相關以及Φ相關等。

(二)積差相關系數1.積差相關系數的概念和條件當兩個變量都是正態(tài)連續(xù)變量,而且兩者之間呈線性關系,表示這兩個變量之間的相關稱為積差相關。積差相關系數的定義公式為:在這里,σX表示X變量的樣本標準差;σY表示Y變量的樣本標準差。積差相關的使用條件是:(1)兩個變量都是連續(xù)性數據;(2)兩個變量的總體呈正態(tài)分布,或接近正態(tài)分布,至少是單峰對稱的分布;(3)必須是成對的數據,每對數據之間是相互獨立的,而且變量對數N>30.(4)兩個變量之間呈線性關系。

2.積差相關的計算方法(1)原始數據法由定義式可得:(2)用

,σX,σY和∑XY計算的方法:

(三)等級相關系數1.等級相關的概念和適用范圍等級相關是指以等級次序排列或以等級次序表示的變量之間的相關。斯皮爾曼等級相關斯皮爾曼等級相關應用范圍較廣,是因為當兩個變量值以等級次序排列或以等級次序表示時,兩個相應總體并不一定呈正態(tài)分布,樣本容量也不一定大于30,這兩種情況都可以用該等級相關來求。2.斯皮爾曼等級相關的計算方法在這里,rR表示等級相關系數;D表示兩個變量每對數據等級之差;N表示樣本容量。

以上所計算出的相關系數必須檢驗其顯著性,才能評價其相關程度。檢驗的簡單方法是直接根據自由度df=N-2和所確定的檢驗形式(單側或雙側),查積差相關系數界值表,尋找r的臨界值[表中P(1)表示單側臨界值,P(2)表示雙側臨界值],然后將樣本r值直接與臨界值相比較。如上面兩個例子,根據df=N-2=10-2=8,查積差相關系數界值表,r的雙側臨界值為r(8)0.01=0.765,由于第一例r=0.78>0.765=r(8)0.01,P<0.01,于是在0.01顯著性水平上說明學生初一的數學分數與初二的數學分數存在著正相關。進一步說明了數學成績的穩(wěn)定性。第二例r=0.84>0.765=r(8)0.01,則P<0.01,于是也在0.01顯著性水平上說明數學分數和物理分數存在著正相關。

(四)點二列相關1.點二列相關的概念和適用范圍在兩個變量中,其中一個變量是來自正態(tài)總體的連續(xù)變量,另一個變量為二分變量(例如對與錯、男與女、合格與不合格、色盲與非色盲等),這時,表示這兩個變量之間的相關,稱為點二列相關。點二列相關應用范圍只能限制在一個變量是來自正態(tài)總體的連續(xù)性變量,另一個是真正的二分變量,或者這個變量雖然并非真正的二分變量,而是雙峰分布的變量的情況。2.點二列相關系數的計算方法

計算點二列相關系數的計算公式為:用另一種形式表示為:

在這里,rpb表示點二列相關系數;

p表示二分變量中某一類別頻數的比率;

q表示二分變量中另一類別頻數的比率;表示與二分變量中p類別相對應的連續(xù)變量的平均數;表示與二分變量中q類別相對應的連續(xù)變量的平均數;表示連續(xù)變量的標準差;表示連續(xù)變量的平均數。例,在某班中隨機抽取15名學生的數學考試成績如下。問考試成績與學生性別是否有關?由以上成績可求得σt=12.19求得的點二列相關系數可以通過查積差相關系數顯著性臨界值表進行顯著性檢驗。本例df=15-2=13,查得r(13)0.05=0.514.因rpb<r(13)0.05,故rpb無顯著相關的意義,即男女生的數學成績與性別并沒有明顯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論