數(shù)據(jù)的概括性度量_第1頁
數(shù)據(jù)的概括性度量_第2頁
數(shù)據(jù)的概括性度量_第3頁
數(shù)據(jù)的概括性度量_第4頁
數(shù)據(jù)的概括性度量_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)的概括性度量第一頁,共四十六頁,2022年,8月28日數(shù)據(jù)分布的特征第二頁,共四十六頁,2022年,8月28日3.1集中趨勢(centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù)第三頁,共四十六頁,2022年,8月28日集中趨勢(centraltendency)3.1.1分類數(shù)據(jù):眾數(shù)3.1.2順序數(shù)據(jù):中位數(shù)和分位數(shù)3.1.3數(shù)值型數(shù)據(jù):平均數(shù)3.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較第四頁,共四十六頁,2022年,8月28日

眾數(shù)(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)第五頁,共四十六頁,2022年,8月28日眾數(shù)(不惟一性)無眾數(shù)

原始數(shù)據(jù):10591268一個眾數(shù)

原始數(shù)據(jù):659855多于一個眾數(shù)

原始數(shù)據(jù):252828

364242第六頁,共四十六頁,2022年,8月28日分類數(shù)據(jù)的眾數(shù)(例題分析)飲料品牌頻數(shù)比例百分比(%)可口可樂150.3030旭日升冰茶110.2222百事可樂90.1818匯源果汁60.1212露露90.1818合計501100解:這里的變量為“飲料品牌”,這是個分類變量,不同類型的飲料就是變量值所調(diào)查的50人中,購買可口可樂的人數(shù)最多,為15人,占被調(diào)查總?cè)藬?shù)的30%,因此眾數(shù)為“可口可樂”這一品牌,即

Mo=可口可樂第七頁,共四十六頁,2022年,8月28日3.1.2中位數(shù)(median)和分位數(shù)一、中位數(shù)(median)排序后處于中間位置上的值不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對值之和最小,即Me50%50%第八頁,共四十六頁,2022年,8月28日中位數(shù)(位置和數(shù)值的確定)位置確定數(shù)值確定第九頁,共四十六頁,2022年,8月28日順序數(shù)據(jù)的中位數(shù)(例題分析)甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意

24108934530

24132225270300合計300—解:中位數(shù)的位置為

(300+1)/2=150.5

從累計頻數(shù)看,中位數(shù)在“一般”這一組別中中位數(shù)為

Me=一般第十頁,共四十六頁,2022年,8月28日數(shù)值型數(shù)據(jù)的中位數(shù)(9個數(shù)據(jù)的算例)【例】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位數(shù)1080第十一頁,共四十六頁,2022年,8月28日數(shù)值型數(shù)據(jù)的中位數(shù)(10個數(shù)據(jù)的算例)【例】:10個家庭的人均月收入數(shù)據(jù)排序:660

75078085096010801250150016302000位置:12345678910第十二頁,共四十六頁,2022年,8月28日二、四分位數(shù)(quartile)★排序后處于25%和75%位置上的值不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)第十三頁,共四十六頁,2022年,8月28日四分位數(shù)(位置的確定)定義算法第十四頁,共四十六頁,2022年,8月28日四分位數(shù)(9個數(shù)據(jù)的算例)【例】:9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456

789第十五頁,共四十六頁,2022年,8月28日

、平均數(shù)㈠算術(shù)平均數(shù)1、簡單平均數(shù)(Simplemean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)

樣本平均數(shù)總體平均數(shù)第十六頁,共四十六頁,2022年,8月28日2、加權(quán)平均數(shù)(Weightedmean)設(shè)各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk樣本加權(quán)平均總體加權(quán)平均第十七頁,共四十六頁,2022年,8月28日平均數(shù)(數(shù)學(xué)性質(zhì))1. 各變量值與平均數(shù)的離差之和等于零

2.各變量值與平均數(shù)的離差平方和最小證明見P18第十八頁,共四十六頁,2022年,8月28日㈡、幾何平均數(shù)(geometricmean)

n個變量值乘積的

n次方根適用于對比率數(shù)據(jù)的平均主要用于計算平均增長率計算公式為5.可看作是平均數(shù)的一種變形第十九頁,共四十六頁,2022年,8月28日幾何平均數(shù)(例題分析)【例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率年平均增長率=114.91%-1=14.91%第二十頁,共四十六頁,2022年,8月28日眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系第二十一頁,共四十六頁,2022年,8月28日眾數(shù)、中位數(shù)、平均數(shù)的特點和應(yīng)用眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用第二十二頁,共四十六頁,2022年,8月28日3.2離散程度的度量3.2.1分類數(shù)據(jù):異眾比率3.2.2順序數(shù)據(jù):四分位差3.2.3數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差3.2.4相對離散程度:離散系數(shù)第二十三頁,共四十六頁,2022年,8月28日離中趨勢數(shù)據(jù)分布的另一個重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個側(cè)面說明了集中趨勢測度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測度值第二十四頁,共四十六頁,2022年,8月28日異眾比率(variationratio)1. 對分類數(shù)據(jù)離散程度的測度2. 非眾數(shù)組的頻數(shù)占總頻數(shù)的比例3. 計算公式為4.用于衡量眾數(shù)的代表性第二十五頁,共四十六頁,2022年,8月28日異眾比率(例題分析)不同品牌飲料的頻數(shù)分布

飲料品牌頻數(shù)比例百分比(%)

可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計501100解:

在所調(diào)查的50人當(dāng)中,購買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好第二十六頁,共四十六頁,2022年,8月28日3.2.2四分位差(quartiledeviation)對順序數(shù)據(jù)離散程度的測度也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差

Qd=QU

–QL反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性第二十七頁,共四十六頁,2022年,8月28日方差和標(biāo)準(zhǔn)差極差(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布計算公式為

R=max(xi)-min(xi)第二十八頁,共四十六頁,2022年,8月28日平均差(meandeviation)各變量值與其平均數(shù)離差絕對值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差,實際中應(yīng)用較少計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)第二十九頁,共四十六頁,2022年,8月28日方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標(biāo)準(zhǔn)差,記為2();根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標(biāo)準(zhǔn)差,記為s2(s)第三十頁,共四十六頁,2022年,8月28日樣本方差和標(biāo)準(zhǔn)差

(simplevarianceandstandarddeviation)

第三十一頁,共四十六頁,2022年,8月28日自由度

(degreeoffreedom)自由度是指附加給獨立的觀測值的約束或限制的個數(shù)從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)當(dāng)樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值按著這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度則為n-k第三十二頁,共四十六頁,2022年,8月28日5.樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則x=5。當(dāng)x

=5

確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值6.為什么樣本方差的自由度是n-1呢?因為在計算離差平方和時,必須先求出樣本均值x

,而x則是附加給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個7.樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量第三十三頁,共四十六頁,2022年,8月28日總體方差和標(biāo)準(zhǔn)差

(PopulationvarianceandStandarddeviation)第三十四頁,共四十六頁,2022年,8月28日標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)1.也稱標(biāo)準(zhǔn)化值2.對某一個值在一組數(shù)據(jù)中相對位置的度量3.可用于判斷一組數(shù)據(jù)是否有離群點(outlier)4.用于對變量的標(biāo)準(zhǔn)化處理5.計算公式為第三十五頁,共四十六頁,2022年,8月28日標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì))均值等于02.方差等于1第三十六頁,共四十六頁,2022年,8月28日z分?jǐn)?shù)只是將原始數(shù)據(jù)進行了線性變換,它并沒有改變一個數(shù)據(jù)在改組數(shù)據(jù)中的位置,也沒有改變該組數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1第三十七頁,共四十六頁,2022年,8月28日經(jīng)驗法則經(jīng)驗法則表明:當(dāng)一組數(shù)據(jù)對稱分布時約有68%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi)第三十八頁,共四十六頁,2022年,8月28日3.2.4相對離散程度:離散系數(shù)標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響用于對不同組別數(shù)據(jù)離散程度的比較計算公式為第三十九頁,共四十六頁,2022年,8月28日4.3偏態(tài)與峰態(tài)的度量4.3.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論