應(yīng)用統(tǒng)計(jì)-03第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第1頁(yè)
應(yīng)用統(tǒng)計(jì)-03第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第2頁(yè)
應(yīng)用統(tǒng)計(jì)-03第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第3頁(yè)
應(yīng)用統(tǒng)計(jì)-03第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第4頁(yè)
應(yīng)用統(tǒng)計(jì)-03第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)分析(方法與案例),作者 賈俊平,統(tǒng) 計(jì) 學(xué),Statistics,2020-9-2,一些人使用統(tǒng)計(jì)就像喝醉酒的人使用街燈柱支撐的功能多于照明。 Andrew Lang,統(tǒng)計(jì)名言,第 3 章 用統(tǒng)計(jì)量描述數(shù)據(jù),3.1 水平的度量 3.2 差異的度量 3.3 分布形狀的度量,Statistic,2020-9-2,學(xué)習(xí)目標(biāo),度量水平的統(tǒng)計(jì)量 度量差異的統(tǒng)計(jì)量 度量分布形狀的統(tǒng)計(jì)量 各統(tǒng)計(jì)量的的特點(diǎn)及應(yīng)用場(chǎng)合 用Excel和SPSS計(jì)算描述統(tǒng)計(jì)量,2020-9-2,哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定?,在奧運(yùn)會(huì)女子10米氣手槍比賽中,每個(gè)運(yùn)動(dòng)員首先進(jìn)行每組10搶共4組的預(yù)賽,然后根據(jù)預(yù)賽總成績(jī)確定進(jìn)入決賽的

2、8名運(yùn)動(dòng)員。決賽時(shí)8名運(yùn)動(dòng)員再進(jìn)行10槍射擊,再將預(yù)賽成績(jī)加上決賽成績(jī)確定最后的名次 在2008年8月10日舉行的第29屆北京奧運(yùn)會(huì)女子10米氣手槍決賽中,進(jìn)入決賽的8名運(yùn)動(dòng)員的預(yù)賽成績(jī)和最后10槍的決賽成績(jī)?nèi)缦卤?2020-9-2,哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定?,最會(huì)的比賽結(jié)果是,中國(guó)運(yùn)動(dòng)員郭文珺憑借決賽的穩(wěn)定發(fā)揮,以總成績(jī)492.3環(huán)奪得金牌,預(yù)賽排在第1名的俄羅斯運(yùn)動(dòng)員納塔利婭帕杰林娜以總成績(jī)498.1環(huán)獲得銀牌,預(yù)賽排在第4名的格魯吉亞運(yùn)動(dòng)員妮諾薩盧克瓦澤以總成績(jī)487.4環(huán)的成績(jī)獲得銅牌,而預(yù)賽排在第3名的蒙古運(yùn)動(dòng)員卓格巴德拉赫蒙赫珠勒僅以479.6環(huán)的成績(jī)名列第8名 由此可見(jiàn),在射擊比賽

3、中,運(yùn)動(dòng)員能否取得好的成績(jī),發(fā)揮的穩(wěn)定性至關(guān)重要。那么,怎樣評(píng)價(jià)一名運(yùn)動(dòng)員的發(fā)揮是否穩(wěn)定呢?通過(guò)本章內(nèi)容的學(xué)習(xí)就能很容易回答這樣的問(wèn)題,3.1 水平的度量 3.1.1 平均數(shù) 3.1.2 中位數(shù)和分位數(shù) 3.1.3 用哪個(gè)值代表一組數(shù)據(jù)?,第 3 章 用統(tǒng)計(jì)量描述數(shù)據(jù),3.1.1 平均數(shù),3.1 水平的度量,2020-9-2,平均數(shù)(mean),也稱為均值,常用的統(tǒng)計(jì)量之一 消除了觀測(cè)值的隨機(jī)波動(dòng) 易受極端值的影響 根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x,2020-9-2,簡(jiǎn)單算數(shù)平均(Simple mean),設(shè)一組數(shù)據(jù)為:x1 ,x2 , ,xn

4、(總體數(shù)據(jù)xN),樣本平均數(shù),總體平均數(shù),統(tǒng)計(jì)函數(shù)AVERAGE,Excel,2020-9-2,加權(quán)平均數(shù) (Weighted mean),設(shè)各組的組中值為:M1 ,M2 , ,Mk 相應(yīng)的頻數(shù)為: f1 , f2 , ,fk,樣本加權(quán)平均:,總體加權(quán)平均:,2020-9-2,加權(quán)平均數(shù) (例題分析),2020-9-2,加權(quán)平均數(shù)(權(quán)數(shù)對(duì)均值的影響),【例】甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下 甲組: 考試成績(jī)(x ): 0 20 100 人數(shù)分布(f ):1 1 8 乙組: 考試成績(jī)(x): 0 20 100 人數(shù)分布(f ):8 1 1,3.1.2 中位數(shù)和分位數(shù),3.1

5、 水平的度量,2020-9-2,中位數(shù)(median),排序后處于中間位置上的值。不受極端值影響,2. 位置確定,3. 數(shù)值確定,2020-9-2,中位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為奇數(shù)),【例3-3】 9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位數(shù) 1080,2020-9-2,中位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為偶數(shù)),【例3-3】 10個(gè)家庭的人均月收入數(shù)據(jù) 排 序: 750 780 850

6、960 1080 1250 1500 1630 2000 2800 位 置: 1 2 3 4 5 6 7 8 9 10,統(tǒng)計(jì)函數(shù)MEDIAN,Excel,2020-9-2,四分位數(shù)用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)(quartile),排序后處于25%和75%位置上的值,不受極端值的影響,2020-9-2,四分位數(shù)的計(jì)算(位置的確定),方法2:較準(zhǔn)確算法 (SPSS的算法),方法1:定義算法,2020-9-2,四分位數(shù)的計(jì)算(位置的確定),方法3: 其中 表示中位數(shù)的位置取整。這樣計(jì)算出的四分位數(shù)的位置,要么是整數(shù),要么在兩個(gè)數(shù)之間0.5的位置上 方法4: Excel給出的四分位數(shù)位置的確定方法 如果位置不是整

7、數(shù),則按比例分?jǐn)偽恢脙蓚?cè)數(shù)值的差值,2020-9-2,四分位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為奇數(shù)),【例3-4】 9個(gè)家庭的人均月收入數(shù)據(jù)(4種方法計(jì)算) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法1定義公式,2020-9-2,四分位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為奇數(shù)),【例3-4】 9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750

8、780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法2SPSS公式,2020-9-2,四分位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為奇數(shù)),【例3-4】 9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法34分?jǐn)?shù)公式,2020-9-2,四分位數(shù)的計(jì)算 (數(shù)據(jù)個(gè)數(shù)為奇數(shù)),【例3-4】 9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500

9、750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法4Excel公式,統(tǒng)計(jì)函數(shù)QUARTILE,Excel,2020-9-2,眾數(shù)(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值 適合于數(shù)據(jù)量較多時(shí)使用 不受極端值的影響 一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù),統(tǒng)計(jì)函數(shù)MODE,Excel,3.1.3 用哪個(gè)值代表一組數(shù)據(jù)?,3.1 水平的度量,2020-9-2,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,2020-9-2,眾數(shù)、中位數(shù)、平均數(shù)的特點(diǎn)和應(yīng)用,平

10、均數(shù) 易受極端值影響 數(shù)學(xué)性質(zhì)優(yōu)良,實(shí)際中最常用 數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)代表性較好 中位數(shù) 不受極端值影響 數(shù)據(jù)分布偏斜程度較大時(shí)代表性接好 眾數(shù) 不受極端值影響 具有不惟一性 數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好,3.2 差異的度量 3.2.1 極差和四分位差 3.2.2 方差和標(biāo)準(zhǔn)差 3.2.3 比較幾組數(shù)據(jù)的離散程度: 離散系數(shù),第 3 章 用統(tǒng)計(jì)量描述數(shù)據(jù),2020-9-2,怎樣評(píng)價(jià)水平代表值?,假定有兩個(gè)地區(qū)每人的平均收入數(shù)據(jù),其中甲地區(qū)的平均收入為5000元,乙地區(qū)的平均收入為3000元。你如何評(píng)價(jià)兩個(gè)地區(qū)的收入狀況? 如果平均收入的多少代表了該地區(qū)的生活水平,你能否

11、認(rèn)為甲地區(qū)的平均生活水平就高于乙地區(qū)呢? 要回答這些問(wèn)題,首先需要搞清楚這里的平均收入是否能代表大多數(shù)人的收入水平。如果甲地區(qū)有少數(shù)幾個(gè)富翁,而大多數(shù)人的收入都很低,雖然平均收入很高,但多數(shù)人生活水平仍然很低。相反,乙地區(qū)多數(shù)人的收入水平都在3000元左右,雖然平均收入看上去不如甲地區(qū),但多數(shù)人的生活水平卻比甲地區(qū)高,原因是甲地區(qū)的收入差距大于乙地區(qū),2020-9-2,怎樣評(píng)價(jià)水平代表值?, 僅僅知道數(shù)據(jù)的水平是遠(yuǎn)遠(yuǎn)不夠的,還必須考慮數(shù)據(jù)之間的差距有多大。數(shù)據(jù)之間的差距用統(tǒng)計(jì)語(yǔ)言來(lái)說(shuō)就是數(shù)據(jù)的離散程度。數(shù)據(jù)的離散程度越大,各描述統(tǒng)計(jì)量對(duì)該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越,甲,乙

12、,3.2.1 極差和四分位差,3.2 差異的度量,2020-9-2,極差(range),一組數(shù)據(jù)的最大值與最小值之差 離散程度的最簡(jiǎn)單測(cè)度值 易受極端值影響 未考慮數(shù)據(jù)的分布 計(jì)算公式為:R = max(xi) - min(xi),2020-9-2,四分位差(quartile deviation),也稱為內(nèi)距或四分間距 上四分位數(shù)與下四分位數(shù)之差:Qd = QU QL 反映了中間50%數(shù)據(jù)的離散程度 不受極端值的影響 用于衡量中位數(shù)的代表性,25%,75%,3.2.2 方差和標(biāo)準(zhǔn)差,3.2 差異的度量,2020-9-2,方差和標(biāo)準(zhǔn)差(variance and standard deviatio

13、n),數(shù)據(jù)離散程度的最常用測(cè)度值 反映各變量值與均值的平均差異 根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差(標(biāo)準(zhǔn)差),記為2();根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s),2020-9-2,樣本方差和標(biāo)準(zhǔn)差 (sample variance and standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計(jì)算公式,標(biāo)準(zhǔn)差的計(jì)算公式,2020-9-2,總體方差和標(biāo)準(zhǔn)差 (Population variance and Standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計(jì)算公式,標(biāo)準(zhǔn)差的計(jì)算公式,20

14、20-9-2,自由度 (degree of freedom),自由度的概念由統(tǒng)計(jì)學(xué)家R.A Fisher提出 是指數(shù)據(jù)個(gè)數(shù)與附加給獨(dú)立的觀測(cè)值的約束或限制的個(gè)數(shù)之差 從字面涵義來(lái)看,自由度是指一組數(shù)據(jù)中可以自由取值的個(gè)數(shù) 當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí),若樣本平均數(shù)確定后,則附加給n個(gè)觀測(cè)值的約束個(gè)數(shù)就是1個(gè),因此只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)不能自由取值 按著這一邏輯,如果對(duì)n個(gè)觀測(cè)值附加的約束個(gè)數(shù)為k個(gè),自由度則為n-k,2020-9-2,自由度 (degree of freedom),樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x = 5 確定后,x1,x

15、2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值 為什么樣本方差的自由度為什么是n-1呢?因?yàn)樵谟?jì)算離差平方和時(shí),必須先求出樣本均值x ,而x則是附件給離差平方和的一個(gè)約束,因此,計(jì)算離差平方和時(shí)只有n-1個(gè)獨(dú)立的觀測(cè)值,而不是n個(gè) 樣本方差用自由度去除,其原因可從多方面解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差s2去估計(jì)總體方差2時(shí),它是2的無(wú)偏估計(jì)量,2020-9-2,樣本標(biāo)準(zhǔn)差 (例題分析),【例3-5】計(jì)算計(jì)算9名員工的月工資收入的方差和標(biāo)準(zhǔn)差 1500 750 780 1080 850 960 2000 1250

16、 1630,方差,標(biāo)準(zhǔn)差,統(tǒng)計(jì)函數(shù)STDEV,Excel,2020-9-2,標(biāo)準(zhǔn)分?jǐn)?shù)(standard score),1. 也稱標(biāo)準(zhǔn)化值 2.對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量 3.可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier) 用于對(duì)變量的標(biāo)準(zhǔn)化處理 均值等于0,方差等于1 計(jì)算公式為,2020-9-2,用SPSS對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,第1步:選擇【Analyze】下拉菜單,并選擇 【Descriptive statistics - Descriptive 】 選項(xiàng)進(jìn)入主對(duì)話框 第2步:在主對(duì)話框中將變量選入【Variables】, 然后選中【Save standardized values

17、 as variables】。點(diǎn)擊【OK】(SPSS會(huì)將標(biāo)準(zhǔn)化 后的變量以“Z”開(kāi)頭存放在原始變量工作表中),對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,SPSS,2020-9-2,標(biāo)準(zhǔn)分?jǐn)?shù) (例題分析),2020-9-2,經(jīng)驗(yàn)法則,經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí) 約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi),2020-9-2,經(jīng)驗(yàn)法則(例題分析), 9名員工月工資收入的經(jīng)驗(yàn)法則,2020-9-2,切比雪夫不等式(Chebyshevs inequality),如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切

18、比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù),2020-9-2,切比雪夫不等式(Chebyshevs inequality),對(duì)于k=2,3,4,該不等式的含義是 至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi),3.2.3 比較幾組數(shù)據(jù)的離散程度離散系數(shù),3.2 差異的度量,2020-9

19、-2,離散系數(shù)(coefficient of variation),1.標(biāo)準(zhǔn)差與其相應(yīng)的均值之比 對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度 消除了數(shù)據(jù)水平高低和計(jì)量單位的影響 4.用于對(duì)不同組別數(shù)據(jù)離散程度的比較 5. 計(jì)算公式為,2020-9-2,離散系數(shù) (例題分析),【 例3-7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定,發(fā)揮比較穩(wěn)定的運(yùn)動(dòng)員是塞爾維亞的亞斯娜舍卡里奇和中國(guó)的郭文珺,發(fā)揮不穩(wěn)定的運(yùn)動(dòng)員蒙古的卓格巴德拉赫蒙赫珠勒和波蘭的萊萬(wàn)多夫斯卡薩貢,2020-9-2,8名運(yùn)動(dòng)員射擊成績(jī)的誤差圖 (例題分析),【Graphs】【Error Bar】【Simple】【Data in Chart Are】【Summari

20、es of separate variables】變量選入【Error Bars】【Bars Represent】【Standard deviations】【Multiplier】框內(nèi)輸入所需的標(biāo)準(zhǔn)差倍數(shù)【OK】 【例子】,3.3 分布形狀的度量 偏態(tài)與峰態(tài),第 3 章 用統(tǒng)計(jì)量描述數(shù)據(jù),2020-9-2,偏態(tài)(skewness),統(tǒng)計(jì)函數(shù)SKEW,統(tǒng)計(jì)學(xué)家K.Pearson于1895年首次提出。是指數(shù)據(jù)分布的不對(duì)稱性 測(cè)度統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficient of skewness) 2.偏態(tài)系數(shù)=0為對(duì)稱分布;0為右偏分布;0為左偏分布 偏態(tài)系數(shù)大于1或小于-1,為高度偏態(tài)分布;偏態(tài)系數(shù)在0.51或-1-0.5之間,為是中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低 計(jì)算公式,Excel,2020-9-2,峰態(tài)(kurtosis),統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出。數(shù)據(jù)分布峰值的高低 測(cè)度統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficient of kurtosis) 峰態(tài)系數(shù)=0扁平峰度適中 峰態(tài)系數(shù)0為尖峰分布 計(jì)算公式,統(tǒng)計(jì)函數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論