數(shù)據(jù)分布特征的描述(1).ppt_第1頁
數(shù)據(jù)分布特征的描述(1).ppt_第2頁
數(shù)據(jù)分布特征的描述(1).ppt_第3頁
數(shù)據(jù)分布特征的描述(1).ppt_第4頁
數(shù)據(jù)分布特征的描述(1).ppt_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué),毛春元 主講,3-2,第三章 數(shù)據(jù)分布特征的描述,第一節(jié) 統(tǒng)計變量集中趨勢的測定 第二節(jié) 統(tǒng)計變量離散程度的測定 第三節(jié) 變量分布的偏度與峰度,3-3,第一節(jié) 統(tǒng)計變量集中趨勢的測定,一、測定集中趨勢的指標(biāo)及其作用 二、數(shù)值平均數(shù) 三、眾數(shù)與中位數(shù),3-4,一、測定集中趨勢的指標(biāo)及其作用,集中趨勢(Central tendency) 較大和較小的觀測值出現(xiàn)的頻率比較低,大多數(shù)觀測值密集分布在中心附近,使得全部數(shù)據(jù)呈現(xiàn)出向中心聚集或靠攏的態(tài)勢。,測度集中趨勢的指標(biāo)有兩大類: 數(shù)值平均數(shù)是根據(jù)全部數(shù)據(jù)計算得到的代表值,主要有算術(shù)平均數(shù)、調(diào)和平均數(shù)及幾何平均數(shù); 位置代表值根據(jù)數(shù)據(jù)所處位置直接觀察來確定的代表值,主要有眾數(shù)和中位數(shù)。,3-5,測定集中趨勢指標(biāo)的作用,1反映變量分布的集中趨勢和一般水平。 如用平均工資了解職工工資分布的中心,反映職工工資的一般水平。 2可用來比較同一現(xiàn)象在不同空間或不同階段的發(fā)展水平。 不受總體規(guī)模大小的影響, 在一定程度上使偶然因素的影響相互抵消。 3可用來分析現(xiàn)象之間的依存關(guān)系。 如研究勞動者的文化程度與收入的關(guān)系 4平均指標(biāo)也是統(tǒng)計推斷中的一個重要統(tǒng)計量,是進(jìn)行統(tǒng)計推斷的基礎(chǔ)。,3-6,二、數(shù)值平均數(shù),(一)算術(shù)平均數(shù)(均值) 一組數(shù)據(jù)的總和除以這組數(shù)據(jù)的項數(shù)所得的結(jié)果; 最常用的數(shù)值平均數(shù)。 1簡單算術(shù)平均數(shù) 把每項數(shù)據(jù)直接加總后除以它們的項數(shù)。 通常用于對未分組的數(shù)據(jù)計算算術(shù)平均數(shù)。 計算公式:,3-7,例 3-1,解:采用簡單算術(shù)平均法計算,即全體隊員的平均年齡為(單位:周歲):,若采用簡單平均:,分組數(shù)據(jù)不能簡單平均 !因?yàn)楦鹘M變量值的次數(shù)不等!,3-8,2加權(quán)算術(shù)平均數(shù),加權(quán)算術(shù)平均數(shù)的計算公式:,正確的計算是:,加權(quán)為了體現(xiàn)各變量值輕重不同的影響作用,對各個變量值賦予不盡相同的權(quán)數(shù)(fi ).,3-9,權(quán)數(shù)(fi ,也稱權(quán)重),權(quán)數(shù)指在計算總體平均數(shù)或綜合水平的過程中對各個數(shù)據(jù)起著權(quán)衡輕重作用的變量。 可以是絕對數(shù)形式,也可以是比重形式(如頻率)來表示。 事實(shí)上比重權(quán)數(shù)更能夠直接表明權(quán)數(shù)的權(quán)衡輕重作用的實(shí)質(zhì)。 當(dāng)權(quán)數(shù)完全相等(f1 =f2 = fn)時,加權(quán)算術(shù)平均數(shù)就成了簡單算術(shù)平均數(shù)。,3-10,3由組距數(shù)列計算算術(shù)平均數(shù),要點(diǎn): 各組變量值用組中值來代表。 假定條件是各組內(nèi)數(shù)據(jù)呈均勻分布或?qū)ΨQ分布。 計算結(jié)果是近似值 .,解:平均使用壽命為:,3-11,4對相對數(shù)求算術(shù)平均數(shù),由于各個相對數(shù)的對比基礎(chǔ)不同,采用簡單算術(shù)平均通常不合理,需要加權(quán)。,權(quán)數(shù)的選擇必須符合該相對數(shù)本身的計算公式。 權(quán)數(shù)通常為該相對數(shù)的分母指標(biāo)。,3-12,5算術(shù)平均數(shù)的主要數(shù)學(xué)性質(zhì),(1)算術(shù)平均數(shù)與變量值個數(shù)的乘積等于各個變量值的總和。,(2)各變量值與算術(shù)平均數(shù)的離差之總和等于零。,(3)各變量值與算術(shù)平均數(shù)的離差平方之總和為最小。,3-13,(二)調(diào)和平均數(shù)(Harmonic mean),調(diào)和平均數(shù)也稱為倒數(shù)平均數(shù)。 各變量值的倒數(shù)(1/xi)的算術(shù)平均數(shù)的倒數(shù). 其計算公式為:,3-14,(續(xù)),社會經(jīng)濟(jì)統(tǒng)計中所應(yīng)用的調(diào)和平均數(shù)通常是加權(quán)算術(shù)平均數(shù)的變形, 已知各組變量值 xi 和(xi fi)而缺乏 fi 時,加權(quán)算術(shù)平均數(shù)通??勺冃螢檎{(diào)和平均數(shù)形式來計算。 【例3-4】解:,3-15,(三)幾何平均數(shù)(Geometric mean),幾何平均數(shù) n個變量值連乘積的n次方根。 簡單幾何平均數(shù),加權(quán)幾何平均數(shù),適用于各個變量值之間存在連乘積關(guān)系的場合。 主要用于計算現(xiàn)象的平均發(fā)展速度, 也適用于對某些具有環(huán)比性質(zhì)的比率求平均.,3-16,【例3-5】,某企業(yè)產(chǎn)品的加工要順次經(jīng)過前后銜接的五道工序。本月該企業(yè)各加工工序的合格率分別為88、85、90、92、96,試求這五道工序的平均合格率。 解:本例中各工序的合格率具有環(huán)比的性質(zhì),企業(yè)產(chǎn)品的總合格率等于各工序合格率之連乘積。所以,所求的平均合格率應(yīng)為:,例:某筆投資的年利率是按復(fù)利計算的。25年的年利率分配是:1年為3%,4年為4%,8年為8%,10年為10%,2年為15%。求平均年利率? 解: 問:如果是按單利計算呢?,3-18,三、眾數(shù)與中位數(shù),(一)眾數(shù)(Mode) 眾數(shù)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多、頻率最高的變量值,常用 M0 表示。 如表3-2中年齡的眾數(shù)值MO25。 眾數(shù)代表的是最常見、最普遍的狀況,是對現(xiàn)象集中趨勢的度量。 可用來測度定性變量的集中趨勢; 銷售量最大的產(chǎn)品顏色是“白色”,則有M0“白色” 可以度量定量變量的集中趨勢。 從分布曲線的角度看,眾數(shù)就是變量分布曲線的最高峰所對應(yīng)的變量值。,3-19,組距數(shù)列中眾數(shù)的確定,先找到眾數(shù)組。 在等距數(shù)列中,眾數(shù)組就是次數(shù)最多的組; 在異距數(shù)列中,眾數(shù)組應(yīng)是頻數(shù)密度最大的組。 根據(jù)眾數(shù)組與其相鄰兩組的次數(shù)差來推算。 其近似公式為:,下限公式:,上限公式:,3-21,(二)中位數(shù)(Median),中位數(shù)是將數(shù)據(jù)由小到大排列后位置居中的數(shù)值。,由未分組數(shù)據(jù)計算中位數(shù) 若數(shù)據(jù)項數(shù)是奇數(shù),則正好位于中間的數(shù)值就是中位數(shù); 如5人收入為: 1200,1450,1500,1600,2000元,則收入的中位數(shù) Me =1500。 若數(shù)據(jù)項數(shù)是偶數(shù),則取居中兩個數(shù)值的平均數(shù)為中位數(shù). 如6人收入為: 1200,1450,1500,1600, 1800,2000元,則收入的中位數(shù) Me =1550。,3-22,由組距數(shù)據(jù)計算中位數(shù),先確定中位數(shù)組,即中間位置(用f/2來計算)所在的組。 假定中位數(shù)組內(nèi)次數(shù)均勻分布(次數(shù)與變量值的區(qū)間大小成比例),近似推算中位數(shù)的值。 計算公式為:,下限公式:,上限公式:,例:某地區(qū)某年農(nóng)民年收入的分布數(shù)列:,解:眾數(shù)所在組是700800,代入公式: 討論:1)眾數(shù)組的次數(shù)與相鄰組的次數(shù)相等,則Mo=? 2)眾數(shù)組下限前一組次數(shù)小于上限,則Mo偏向上限還是下限?相反又如何?,2)中位數(shù)的位置為3000/2=1500,240+480+1050正好大于1500,中位數(shù)所在組是第三組,3-26,四分位數(shù)、十分位數(shù)和百分位數(shù),四分位數(shù)是將數(shù)據(jù)由小到大排序后,位于全部數(shù)據(jù)1/4位置上的數(shù)值。 十分位數(shù)是將數(shù)據(jù)由小到大排序后,位于全部數(shù)據(jù)1/10位置上的數(shù)值。 百分位數(shù)是將數(shù)據(jù)由小到大排序后,位于全部數(shù)據(jù)1/100位置上的數(shù)值。 中位數(shù)也就是第二個四分位數(shù)、第五個十分位數(shù)、第五十個百分位數(shù)。 分位數(shù)與其它指標(biāo)結(jié)合,可以更詳細(xì)地反映數(shù)據(jù)的分布特征。,3-27,箱線圖(boxplot),箱線圖由一組數(shù)據(jù)的最小值(xmin)、第一四分位數(shù)(Q1)、中位數(shù)(Me)、第三四分位數(shù)(Q3)、最大值(xmax)等五個數(shù)值來繪成。 利用箱線圖可以觀察數(shù)據(jù)分布的范圍、中心位置和對稱性等特征,還可以進(jìn)行多組數(shù)據(jù)分布的比較。,3-28,(三)眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的比較,1.算術(shù)平均數(shù)綜合反映了全部數(shù)據(jù)的信息,眾數(shù)和中位數(shù)由數(shù)據(jù)分布的特定位置所確定。 2.算術(shù)平均數(shù)和中位數(shù)在任何一組數(shù)據(jù)中都存在而且具有惟一性,但計算和應(yīng)用眾數(shù)有兩個前提條件: (1)數(shù)據(jù)項數(shù)眾多; (2)數(shù)據(jù)具有明顯的集中趨勢。 3.算術(shù)平均數(shù)只能用于定量(數(shù)值型)數(shù)據(jù),中位數(shù)適用于定序數(shù)據(jù)和定量數(shù)據(jù),眾數(shù)適用于所有形式(類型、計量層次)的數(shù)據(jù),3-29,(續(xù)),4.算術(shù)平均數(shù)要受數(shù)據(jù)中極端值的影響。而眾數(shù)和中位數(shù)都不受極端值的影響。 為了排除極端值的干擾,可計算切尾均值,即去掉數(shù)據(jù)中最大和最小的若干項數(shù)值后計算的均值. 切尾均值是將均值與中位數(shù)取長補(bǔ)短的結(jié)果。 5. 算術(shù)平均數(shù)可以推算總體的有關(guān)總量指標(biāo),而中位數(shù)和眾數(shù)則不宜用作此類推算。,3-30,算術(shù)平均數(shù)和眾數(shù)、中位數(shù)的數(shù)量關(guān)系,在對稱分布中,三者相等.即: 均值 = Me =Mo;,在左偏分布中,一般有: 均值MeMo,在右偏分布中,一般有:Mo Me 均值。,皮爾生經(jīng)驗(yàn)公式:在輕微偏態(tài)時,三者的近似關(guān)系:,3-31,第二節(jié) 統(tǒng)計變量離散程度的測定,一、測定離散程度的指標(biāo)及其作用 二、極差、四分位差和平均差 三、方差和標(biāo)準(zhǔn)差 四、離散系數(shù) 五、異眾比率,3-32,一則笑話,如果你一只腳放在攝氏 1 度的水里,另一只腳放在攝氏 79 度的水里,平均水溫 40 度,你一定感覺很舒服 ? 顯然,只了解變量的集中趨勢是不夠的!,3-33,一、測定離散程度的指標(biāo)及其作用,1.說明數(shù)據(jù)的分散程度,反映變量的穩(wěn)定性、均衡性。 數(shù)據(jù)之間差異越大,變量的穩(wěn)定性或均衡性越差。 2.衡量平均數(shù)的代表性。 離散程度越大,平均數(shù)的代表性就越小。 3. 統(tǒng)計推斷的重要依據(jù) 判別統(tǒng)計推斷前提條件是否成立, 衡量推斷效果好壞的重要尺度。,3-34,二、極差、四分位差和平均差,(一)極差(Range) 極差是一組數(shù)據(jù)的最大值(xmax)與最小值(xmin)之差,通常用 R 表示。 對于總體數(shù)據(jù)而言,極差也就是變量變化的范圍或幅度大小,故也稱為全距。 組距數(shù)列中,極差最高組的上限-最低組的下限。 優(yōu)缺點(diǎn):計算簡便、含義直觀、容易理解。它未考慮數(shù)據(jù)的中間分布情況,不能充分說明全部數(shù)據(jù)的差異程度。,3-35,(二)四分位差,第3四分位數(shù)(Q3)與第1四分位數(shù)(Q1)之差,常用Qd表示。計算公式為: 實(shí)質(zhì)上是兩端各去掉四分之一的數(shù)據(jù)以后的極差,表示占全部數(shù)據(jù)一半的中間數(shù)據(jù)的離散程度。 四分位差越大,表示數(shù)據(jù)離散程度越大。 是在一定程度上對極差的一種改進(jìn),避免了極端值的干擾。但它對數(shù)據(jù)差異的反映仍然是不充分的。 四分位差是一種順序統(tǒng)計量,適用于定序數(shù)據(jù)和定量數(shù)據(jù)。尤其是當(dāng)用中位數(shù)來測度數(shù)據(jù)集中趨勢時.,3-36,(三)平均差(Average Deviation),平均差各個數(shù)據(jù)與其均值的離差絕對值的算術(shù)平均數(shù),反映各個數(shù)據(jù)與其均值的平均差距,通常以A.D表示。計算公式為: 未分組數(shù)據(jù):,平均差含義清晰,能全面地反映數(shù)據(jù)的離散程度。但取離差絕對值進(jìn)行平均,數(shù)學(xué)處理上不夠方便,在數(shù)學(xué)性質(zhì)上也不是最優(yōu)的。,已分組數(shù)據(jù):,3-37,三、方差和標(biāo)準(zhǔn)差,1. 方差(Variance)的概念和計算 方差是各個數(shù)據(jù)與其均值的離差平方的算術(shù)平均數(shù). 總體方差(2)的計算公式為: 未分組數(shù)據(jù):,分組數(shù)據(jù):,樣本方差(通常用 S2 表示)分母應(yīng)為(n -1)。,3-38,標(biāo)準(zhǔn)差(standard Deviation),標(biāo)準(zhǔn)差方差的算術(shù)平方根。 總體標(biāo)準(zhǔn)差一般用表示。其計算公式為: 未分組數(shù)據(jù):,分組數(shù)據(jù):,標(biāo)準(zhǔn)差比方差更容易理解。在社會經(jīng)濟(jì)現(xiàn)象的統(tǒng)計分析中,標(biāo)準(zhǔn)差比方差的應(yīng)用更為普遍,經(jīng)常被用作測度數(shù)據(jù)與均值差距的標(biāo)準(zhǔn)尺度。,樣本標(biāo)準(zhǔn)差(S)分母應(yīng)為(n-1)。,3-39,【例3-9】計算平均差和方差、標(biāo)準(zhǔn)差,3-40,2.方差的主要數(shù)學(xué)性質(zhì),(3)分組條件下,總體的方差等于組間方差與各組方差平均數(shù)之和。,(1)常數(shù)的方差等于零。a為常數(shù),則 (2)變量的線性函數(shù)的方差等于變量系數(shù)的平方乘以變量的方差。設(shè)a,b為常數(shù),y=a+bx,則有:,組間方差,各組方差平均數(shù),如何來理解呢?以例說明。 某局有7個企業(yè)其某月的產(chǎn)值為: 88,90,96,98,110,140,200 1、不分組,分組后: 第一組:88,90,96,98 第二組:110,140,200,平均組內(nèi)方差,組間方差,結(jié)論:1405.38=609.71+795.67,(4)方差的簡化計算:,例:若有某車間的甲、乙二個班組,均為5個人,生產(chǎn)同一種產(chǎn)品,每人每日的產(chǎn)量為: 甲 73,74,75,76,77 乙 50,65,70,90,100 計算其標(biāo)準(zhǔn)差并比較。 解:兩者平均值均為75件。,計算: 方法一:甲組 乙組,方法二:,結(jié)果表明:由于乙組的標(biāo)準(zhǔn)差較大,其平均數(shù)的代表性較低;甲組的標(biāo)準(zhǔn)差較小,其平均數(shù)的代表性較高。 問題:得出上述結(jié)果的前提是什么?,3-46,四、離散系數(shù),前面的各變異指標(biāo)都是有計量單位的,它們的數(shù)值大小不僅取決于數(shù)據(jù)的離散程度,還要受數(shù)據(jù)本身水平高低和計量單位的影響。 對不同變量(或不同數(shù)據(jù)組)的離散程度進(jìn)行比較時,只有當(dāng)它們的平均水平和計量單位都相同時,才能利用上述變異指標(biāo)來分析;否則,須利用離散系數(shù)來比較它們的離散程度。 例如,哪個變量的差異較大:體重,還是身高? 例如,體重的差異哪個較大:父親,還是嬰兒? 父親:平均體重=70 kg,標(biāo)準(zhǔn)差=5 kg 嬰兒: 5 kg, 1 kg,3-47,四、離散系數(shù),離散系數(shù)是極差、四分位差、平均差或標(biāo)準(zhǔn)差等變異指標(biāo)與算術(shù)平均數(shù)的比率,以相對數(shù)的形式表示變異程度。 將極差與算術(shù)平均數(shù)對比得到極差系數(shù), 將平均差與算術(shù)平均數(shù)對比得到平均差系數(shù)。 最常用的離散系數(shù)是就標(biāo)準(zhǔn)差來計算的,稱之為標(biāo)準(zhǔn)差系數(shù): 離散系數(shù)大,說明數(shù)據(jù)的離散程度大,其平均數(shù)的代表性就差;反之亦然.,例:甲農(nóng)場小麥平均畝產(chǎn)量為500斤,標(biāo)準(zhǔn)差為50斤;乙農(nóng)場小麥平均畝產(chǎn)量為100斤,標(biāo)準(zhǔn)差為50斤。哪個農(nóng)場平均畝產(chǎn)量代表性高?,解:,例:已知標(biāo)志平均值為12,各標(biāo)志值平方的平均數(shù)為169,試問標(biāo)準(zhǔn)差系數(shù)為多少?,五、是否標(biāo)志的標(biāo)準(zhǔn)差,1、是否標(biāo)志是指用“是、否”或“有、無”將總體單位分為二部分的標(biāo)志。 2、實(shí)質(zhì)是將品質(zhì)標(biāo)志進(jìn)行量化處理。 如: 合格品 男 全體 出勤 全部產(chǎn)品 不合格品 人口 女 職工 缺勤 (3)量化結(jié)果: 用“1”表示具有某一標(biāo)志,其單位數(shù)為n1; 用“0”表示不具有此標(biāo)志,其單位數(shù)為n0。 全部單位數(shù)n= n1+ n0 。,4、成數(shù): 設(shè)p為具有某一標(biāo)志的單位數(shù)占總體單位數(shù)的比重(或成數(shù)) p= n1 /n q為不具有某一標(biāo)志的單位數(shù)占總體單位數(shù)的比重(或成數(shù)) q= n0 /n 顯然,p+q=1 5、是否標(biāo)志的平均數(shù)和標(biāo)準(zhǔn)差,計算列表如下:,例:某機(jī)械廠鑄造車間生產(chǎn)6000噸鑄件,合格品為5400噸。試計算其平均合格品率和標(biāo)準(zhǔn)差。 解:可以直接應(yīng)用公式計算。,3-54,第三節(jié) 變量分布的偏度與峰度,一、矩(動差 ) 二、偏度(Skewness) 三、峰度(Kurtosis),3-55,一、矩(動差 ),矩(動差 ) 一系列刻畫數(shù)據(jù)分布特征的指標(biāo)的統(tǒng)稱。 變量值與數(shù)值 a 之離差的 K 次方的平均數(shù)稱為變量 x 關(guān)于 a 的K 階矩,即:,K 階原點(diǎn)矩(當(dāng)a = 0 時)是數(shù)據(jù)的K次方的平均數(shù). 一階原點(diǎn)矩即算術(shù)平均數(shù); 二階原點(diǎn)矩即平方平均數(shù)。,K 階中心矩(當(dāng)a =均值 時)是以均值為中心計算的離差 K 次方的平均數(shù) k=1時,稱為一階中心矩,它恒等于0,即 m1=0; k=2時,稱為二階中心矩,也就是方差,即m2=2。,3-56,二、偏度(Skewness),偏度指數(shù)據(jù)分布的不對稱程度或偏斜程度。 以 對稱分布 為標(biāo)準(zhǔn)來區(qū)分 偏態(tài)分布又分左偏(負(fù)偏)和右偏(正偏).,3-57,偏態(tài)的測度方法,一般有:,(一)由均值與眾數(shù)(中位數(shù))之間的關(guān)系求偏態(tài)系數(shù):,3-58,(二)由三個四分位數(shù)之間的關(guān)系求偏態(tài)系數(shù),值域:-1 Sk 1,3-59,偏度系數(shù),(三)利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論