(5.1.14)-第四章-單變量統(tǒng)計描述分析(第二節(jié)集中趨勢與離散趨勢新定)_第1頁
(5.1.14)-第四章-單變量統(tǒng)計描述分析(第二節(jié)集中趨勢與離散趨勢新定)_第2頁
(5.1.14)-第四章-單變量統(tǒng)計描述分析(第二節(jié)集中趨勢與離散趨勢新定)_第3頁
(5.1.14)-第四章-單變量統(tǒng)計描述分析(第二節(jié)集中趨勢與離散趨勢新定)_第4頁
(5.1.14)-第四章-單變量統(tǒng)計描述分析(第二節(jié)集中趨勢與離散趨勢新定)_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章單變量統(tǒng)計分析

第二節(jié)

集中趨勢測量法主要內容算術平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)和調和平均數(shù)統(tǒng)計分析首先要解決的問題,就是尋求一個簡單數(shù)值以代表搜集所得的資料。平均指標就是表明同質總體在一定條件下某一數(shù)量標志所達到的一般水平。平均指標把總體各單位之間的差異加以抽象概括,其中個別標志值的偶然性被相互抵消,從而反映出總體分布的集中趨勢。下面是一個小故事:一個人到某公司求職,經過調查,得出關于該公司工資的一些數(shù)據(jù),如果是你,應該如何選擇?撓頭的數(shù)值公司員工的月薪如下:員工經理副經理職員A職員B職員C職員D職員E職員F職員G月薪(元)60004000170013001200110011001100500我們有三種方法選擇集中趨勢:(1)根據(jù)頻數(shù):哪個變量值出現(xiàn)次數(shù)越多,就選擇哪個變量值,比如民主決策的表決機制。(2)根據(jù)居中:比如一個城鎮(zhèn)居民的生活水平,居中的是小康家庭,那么就用小康家庭來代表該城鎮(zhèn)的生活水平。(3)根據(jù)平均:用平均數(shù)來代表變量的平均水平。關于集中趨勢的一個故事吉斯莫先生有一個小工廠,生產超級小玩意兒。

管理人員由吉斯莫先生、他的弟弟、六個親戚組成。工作人員由5個領工和10個工人組成。工廠經營得很順利,現(xiàn)在需要一個新工人?,F(xiàn)在吉斯莫先生正在接見薩姆,談工作問題。吉斯莫:我們這里報酬不錯。平均薪金是每周300美元。你在學徒期間每周得75美元,不過很快就可以加工資。薩姆工作了幾天之后,要求見廠長。薩姆:你欺騙我!我已經找其他工人核對過了,沒有一個人的工資超過每周100元。平均工資怎么可能是一周300元呢?吉斯莫:啊,薩姆,不要激動。平均工資是300元。我要向你證明這一點。吉斯莫:這是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六個親戚每人得250元,五個領工每人得200元,10個工人每人100元??偣彩敲恐?900元,付給23個人,對吧?薩姆:對,對,對!你是對的,平均工資是每周300元。可你還是蒙騙了我。吉斯莫:我不同意!你實在是不明白。我已經把工資列了個表,并告訴了你,工資的中位數(shù)是200元,可這不是平均工資,而是中等工資。薩姆:每周100元又是怎么回事呢?吉斯莫:那稱為眾數(shù),是大多數(shù)人掙的工資。吉斯莫:老弟,你的問題是出在你不懂平均數(shù)、中位數(shù)和眾數(shù)之間的區(qū)別。薩姆:好,現(xiàn)在我可懂了。我……我辭職!一.算術平均數(shù)(MEAN)

用總體標志總量除以總體單位數(shù)即得算術平均數(shù)(Arithematicmean)。

算術平均數(shù)是反映集中趨勢最常用、最基本的平均指標,也被稱為均值。它只適用于定距以上的變量。例:某小區(qū)350戶家庭共有居民1190人。在這個例子中,家庭總數(shù)350戶是總體單位數(shù),居民總數(shù)1190人是該總體的標志總量。根據(jù)算術平均數(shù)的定義

戶均人口==3.4(人)

1.對于未分組資料

注意:對求和符號,此時流動腳標的變動范圍是1,2,3,…,N,N是總體單位數(shù)。

[例]求74、85、69、9l、87、74、69這些數(shù)字的算術平均數(shù)。

[解]

==78.4

2.對于分組資料

注意:對求和符號,此時流動腳標的變動范圍是1,2,3…,n,n是組數(shù),而不是總體單位數(shù)。很顯然,算術平均數(shù)不僅受各變量值(X)大小的影響,而且受各組單位數(shù)(頻數(shù))的影響。由于對于總體的影響要由頻數(shù)(f)大小所決定,所以f也被稱為權數(shù)。值得注意的是,在統(tǒng)計計算中,權數(shù)不僅用來衡量總體中各標志值在總體中作用,同時反映了指標的結構,所以它有兩種表現(xiàn)形式:絕對數(shù)(頻數(shù))和相對數(shù)(頻率)。這樣一來,在統(tǒng)計學中,凡對應于分組資料的計算式,都被稱為加權式。

[例]求下表(單項數(shù)列)所示數(shù)據(jù)的算術平均數(shù)。人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計501.00對于組距數(shù)列,要用每一組的組中值權充該組統(tǒng)一的變量值。

[例]求下表所示數(shù)據(jù)的的算術平均數(shù)間距頻數(shù)(f)組中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196

12510192517125301

150154158162166170174178182186190194合計

100

——3.算術平均數(shù)的性質各變量值與算術平均數(shù)的離差之和等于0。各變量值對算術平均數(shù)的平方和,小于它們對任何其他數(shù)偏差的平方和算術平均數(shù)受抽樣變動影響較小。分組資料如遇有開放組距時,不經特殊處理不能進行算術平均數(shù)的計算。受極端值影響較大。二.中位數(shù)(Median)把總體單位某一數(shù)量標志的各個數(shù)值按大小順序排列,位于正中處的變量值,即為中位數(shù),用Md表示。Md可用于定序、定距、定比資料。1.對未分組資料

(1)先把所有數(shù)據(jù)按大小順序排列,如果總體單位數(shù)為奇數(shù),則取第(N+1)/2位上的變量值為中位數(shù);(2)如果總體單位數(shù)為偶數(shù)。因為居中的數(shù)值不存在,按慣例,取第N/2位和第(N+1)/2位上的兩個變量值的平均作為中位數(shù)。例求54,65,78,66,43這些數(shù)字的中位數(shù)。例、求54,65,78,66,43,38這些數(shù)字的中位數(shù)。你會嗎?

2.對于分組資料(1)單項數(shù)列根據(jù)N/2在累計頻數(shù)分布中找到中位數(shù)所在組,該組變量值就是Md

。中位數(shù)由分組資料求中位數(shù)時,與前面的情況有所不同.在確定了中位數(shù)所在組的組別后,還要對”組距”進行分解,以確定中位數(shù)的位置.具體方法是先列出累積頻數(shù),然后按前面的辦法確定中位數(shù)所在的組,最后利用下述公式計算出中位數(shù).計算公式為:L為中位數(shù)所在組的真正下限值;U為中位數(shù)所在組的真正上限值;n為全部個案數(shù),n/2表示中位數(shù)的位置;cf(m-1)為低于中位數(shù)所在組的累積頻數(shù);fm為中位數(shù)所在組的頻數(shù).(2)定距數(shù)列【例】:根據(jù)下表數(shù)據(jù)求中位值。解:Md位置=50;從累積頻數(shù)cf欄找到中位數(shù)位置所在組為“300-400”引入公式:=350第二種辦法

按中位數(shù)所在組的上限:

[例]某年級學生身高如下,求中位數(shù)

[解]第一種方法

=168+×6

=171.12(厘米)請你用第二種方法來做一下5.中位數(shù)的性質

(1)各變量值對中位數(shù)之差的絕對值總和,小于它們對任何其他數(shù)的絕對值總和。

(2)中位數(shù)不受極端值的影響。

(3)分組資料在不確定組距時,仍可求得中位數(shù)。

(4)中位數(shù)受抽樣變動的影響較算術平均數(shù)略大。

6.四分位數(shù)

中位數(shù)所有單位被等分為兩部分,因而被稱為二分位數(shù)。類似于求中位數(shù),我們還可求出四分位數(shù)、十分位數(shù)、百分位數(shù)。將總體中的各單位分割成相等的四部分,則這三個分割的變量值就是四分位數(shù)。若以Q1、Q2、Q3分別代表第一、第二、第三四分位數(shù)。Q2

即中位數(shù),Q1、Q3的算法分別是請從下表中指出第一四分位數(shù)和第三四分位數(shù)求出下表中的第一四分位數(shù)和第三四分數(shù)三.眾數(shù)(Mode)

眾數(shù)是在一組資料中,出現(xiàn)次數(shù)(或頻數(shù))呈現(xiàn)出“峰”值的那些變量值,用Mo表示。眾數(shù)只與次數(shù)有關,可以用于定類、定序、定距、定比資料。

1.對于未分組資料

直接觀察首先,將所有數(shù)據(jù)順序排列;然后,只要觀察到某些變量值(與相鄰變量值相比較)出現(xiàn)的次數(shù)(或頻數(shù))呈現(xiàn)“峰”值,這些變量值就是眾數(shù)。

2.對于分組資料(這個公式有問題??)

單項式:觀察頻數(shù)分布

(或頻率分布

)

組距式:

Lo為眾數(shù)組下限;

Δ1為眾數(shù)組頻數(shù)與前一組頻數(shù)之差;

Δ2為眾數(shù)組頻數(shù)與后一組頻數(shù)之差;

ho為眾數(shù)組組距。人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計501.00求下表中的眾數(shù)眾數(shù)求下表中的眾數(shù)

(1)眾數(shù)僅受上下相鄰兩組頻數(shù)大小的影響,不受極端值影響,對開口組仍可計算眾數(shù);

(2)受抽樣變動影響大;

(3)眾數(shù)不唯一確定。

(4)眾數(shù)標示為其峰值所對應的變量值,能很容易區(qū)分出單峰、多峰。因而具有明顯偏態(tài)集中趨勢的頻數(shù)分布,用眾數(shù)最合適。3.眾數(shù)的性質4、幾何平均數(shù)、調和平均數(shù)(了解)

1.

幾何平均數(shù)Mg

(geometricmean

N個變量值連乘積的N次方根。(不能有變量值為0)。適用于:(1)計算某種比率的平均數(shù);(2)計算大致具有幾何級數(shù)關系的一組數(shù)字的平均數(shù),如經濟指標的平均發(fā)展速度。

(1)簡單幾何平均數(shù)對數(shù)式:(2)加權幾何平均數(shù)

對數(shù)式:

應該指出,用以計算幾何平均數(shù)的各項數(shù)值必須大于0,否則就不能計算幾何平均數(shù)或計算結果無實際意義。

[例]求3,9,27,81,243這些數(shù)字的幾何平均數(shù)。

[解]

(1)(2)

2.調和平均數(shù)Mh

(harmonicmean)N個變量值倒數(shù)算術平均數(shù)的倒數(shù),也稱倒數(shù)平均數(shù)。適用于:掌握的情況是總體標志總量而缺少總體單位數(shù)的資料時。簡單調和平均數(shù)加權調和平均數(shù)3.各種平均數(shù)的關系(1)當總體呈正態(tài)分布時:(2)當總體呈偏態(tài)分布時:中位數(shù)總在均數(shù)和眾數(shù)之間正偏:

負偏:(注:和合稱位置平均數(shù))(3)皮爾遜發(fā)現(xiàn),在鐘形分布的偏態(tài)不大顯著時,、、三者大致構成一個比較固定的關系:(4)、和合稱數(shù)值平均數(shù)第三節(jié)離散趨勢測量法

主要內容:(1)變異指標;(2)全距和四分位差;(3)平均差、標準差和標準分;(4)絕對離勢和相對離勢;(5)偏度(及峰度)。

所謂離散趨勢,是指數(shù)列中各變量值之間的差距和離散程度。離勢小,平均數(shù)的代表性高;離勢大,平均數(shù)代表性低。

例如有A、B、C、D四組學生各5人的成績如下:

A組:60,60,60,60,60

B組:58,59,60,61,62

C組:40,50,60,70,80

D組:80,80,80,80,80

數(shù)據(jù)顯示,平均數(shù)相同,離勢可能不同;平均數(shù)不同,離勢可能相同。變異指標如按數(shù)量關系來分有以下兩類;凡用絕對數(shù)來表達的變異指標,統(tǒng)稱絕對離勢;凡用相對數(shù)來表達的變異指標,統(tǒng)稱相對離勢;主要有極差、平均差、四分位差、標準差等。主要有異眾比率、標準差系數(shù)、平均差系數(shù)和一些常用的偏態(tài)系數(shù)。

變異指標用以反映總體各單位標志值的變動范圍或參差程度,與平均指標相對應,從另一個側面反映了總體的特征。

1、全距與四分位差1.全距(Range)

R=Xmax–Xmin

[例]求74,84,69,91,87,74,69這些數(shù)字的全距。

[解]把數(shù)字按順序重新排列:69,69,74,74,84,87,91,顯然有

R=Xmax–Xmin

=91—69=22全距(R):最大值和最小值之差。也叫極差。全距越大,表示變動越大。運用上述方法計算左邊數(shù)列的全距對分組資料,不能確知最大值和最小值,求全距:(1)用組值最大組的組中值減去最小組的組中值(2)用組值最大組的上限減去最小組的下限(3)用組值最大組的組中值減去最小組的下限;或最大組的上限減去最小組的組中值優(yōu)點:缺點:計算簡單、直觀。(1)受極端值影響大;(2)沒有量度中間各個單位間的差異性,數(shù)據(jù)利用率低,信息喪失嚴重;(3)受抽樣變動影響大,大樣本全距比小樣本全距大。2.四分位差(Quartiledeviation)

第三四分位數(shù)和第一四分位數(shù)的半距。避免全距受極端值影響大的缺點。求下列兩組成績的四分位差:A:788082858987908679888481B:5568788899100989085838481請大家計算一下,看能否算對基本公式求位置,找出4分位對應的數(shù)值Q1=

Q3=四分位差Q=Q3-

Q1。(1)根據(jù)原始未分組資料求四分位差解:

Q1

的位置==75.25Q3的位置==225.75那么Q1

=不滿意;Q3

=一般Q=Q3-Q1

=一般-不滿意結論,有一半的家庭對住房評價在不滿意到一般之間。表甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410894443024132226270300合計300—【例3】求下表的四分位差例:調查甲乙兩村的家庭人數(shù)其中甲村有11戶人家,每戶人數(shù)為

2,2,3,4,6,9,10,10,11,13,15乙村有8戶人家,每戶人口數(shù)為

2,3,4,7,9,10,12,12則甲村中:Q1

位置=(n+1)/4=(11+1)/4=3,Q1=3Q3位置=3(n+1)/4=9,Q3=11

Q=Q3-Q1=11-3=8則乙村中:

Q1

位置=(n+1)/4=2.25,Q1=3+0.25(4-3)=3.25Q3位置=3(n+1)/4=6.75,Q3=10+0.75(12-10)=11.5

Q=Q3-Q1=11.5-3.25=8.25甲的離散程度低于乙村,以中位值估計甲乙兩村的人口數(shù)時,在甲村犯的錯誤小于乙村(2)根據(jù)分組資料求四分位差有四步:計算向上累加次數(shù)求出Q1

和Q3的位置

Q1=Q3=參考累加次數(shù)分布,決定Q1和Q3屬于哪一組從所屬組中,計算Q1位置和Q3位置的數(shù)值。公式如下:L1=Q1屬組之真實下限L3=Q3屬組之真實下限f1=Q1屬組之次數(shù)f3=Q3屬組之次數(shù)cf1=低于Q1屬組之累計次數(shù)cf3=低于Q3屬組之累計次數(shù)w1=Q1屬組之組距w3=Q3屬組之組距n=全部個案數(shù)目四分位差&中位數(shù)四分位差反映的是中位數(shù)的代表性差距越大,中位數(shù)的代表性越小,用中位數(shù)估計變量時所犯的錯誤越大;反之,中位數(shù)的代表性越大,用中位數(shù)作估計犯的錯誤越小。2、平均差(Meanabsolutedeviation)

要測定變量值的離中趨勢,尤其是要測定各變量值相對于平均數(shù)的差異情況,一個很自然的想法就是計算各變量值與算術平均數(shù)的離差。平均差是離差絕對值的算術平均數(shù)。

1.對于未分組資料

2.對于分組資料

3.平均差的性質

在受抽樣變動、極端值影響,處理不確定組距方面均同于算術平均數(shù);不適于代數(shù)運算,其理論意義不易闡述。

[例1]試分別以算術平均數(shù)為基準,求85,69,69,74,87,91,74這些數(shù)字的平均差。

[例2]試以算術平均數(shù)為基準,求下表所示數(shù)據(jù)的平均差。

計算左邊數(shù)列的平均差3、方差與標準差(standarddeviation)(1) 離散程度的測度值之一(2) 最常用的測度值(3) 反映了數(shù)據(jù)的分布(4)反映了各變量值與均值的平均差異(5)根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差所謂方差(Variance),觀察值與其均值之差的平方和除以全部觀察總數(shù)N。方差的平方根就是標準差(Standarddeviation),用或S表示以均值作代表值時引起的偏差或錯誤,也就是說用均值來估計或預測各個個案的數(shù)值,所犯的錯誤()平均是σ;標準差是用得最多,也是最重要的離散量數(shù)的統(tǒng)計量;方差是統(tǒng)計學上的一個重要概念,在以后的統(tǒng)計方法學習過程中會進一步了解;只適用于定距層次的變量;總體方差和標準差未分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差的計算公式標準差的計算公式樣本方差和標準差

分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!未分組數(shù)據(jù)樣本方差的

自由度(degreeoffreedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當樣本數(shù)據(jù)的個數(shù)為

n時,若樣本均值

x

確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則

x=5。當

x

=5

確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量注意:有些書中,也提到抽樣的樣本較大時,在樣本方差和標準差的計算中,n-1和n計算出來的數(shù)值相差不大,因此有些計算中直接將樣本中的個案數(shù)目用n表示,而不用n-1,如李沛良的書。

求72、81、86、69、57這些數(shù)字的標準差。2.對于分組資料

計算左邊數(shù)列的標準差

計算左邊數(shù)列的標準差

[例]調查大一男生60人的身高情況如下表所示,求他們身高的標準差。

[解]因為是分組資料,計算標準差運用加權式,并參見下表標準差是反映總體各單位標志值的離散狀況和差異程度的最佳測度。(1)以算術平均數(shù)為基準計算的標準差比以其他任何數(shù)值為基準計算的標準差要小?!白钚《朔健毙再|——各變量值對算術平均數(shù)的離差的平方和,必定小于他們對任何其他數(shù)偏差的平方和。(2)它將總體中各單位標志值的差異全包括在內,受抽樣變動影響小。但在受極端值影響以及處理不確定組距方面,缺點同算術平均數(shù)。值得注意的是,在推論統(tǒng)計中我們將發(fā)現(xiàn),方差是比標準差更有理論價值的概念。所謂方差,即標準差的平方,它直接寫成。也常被稱為變異數(shù)。標準差的性質4、相對離勢上述各種反映離中趨勢的變異指標,都具有和原資料相同的計算單位,稱絕對離勢。但欲比較具有不同單位的資料的參差程度,或比較單位雖相同而均值不相同的資料的參差程度,離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論