衛(wèi)生統(tǒng)計學7版方積乾主編二定量資料的統(tǒng)計描述課件_第1頁
衛(wèi)生統(tǒng)計學7版方積乾主編二定量資料的統(tǒng)計描述課件_第2頁
衛(wèi)生統(tǒng)計學7版方積乾主編二定量資料的統(tǒng)計描述課件_第3頁
衛(wèi)生統(tǒng)計學7版方積乾主編二定量資料的統(tǒng)計描述課件_第4頁
衛(wèi)生統(tǒng)計學7版方積乾主編二定量資料的統(tǒng)計描述課件_第5頁
已閱讀5頁,還剩133頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章定量資料的統(tǒng)計描述

2022/12/161第二章定量資料的統(tǒng)計描述

2022/12/1111

[學習要求]

了解:應用SAS程序編制頻率表的方法和means、univariate過程對定量資料的描述。

熟悉:定量資料頻率表的編制方法和用途。

掌握:算術均數、幾何均數、中位數的計算方法和使用條件;四分位間距、方差、標準差、變異系數的計算方法和使用條件。

2022/12/1622022/12/1122

統(tǒng)計描述是用統(tǒng)計圖表、統(tǒng)計指標來描述資料的分布規(guī)律及其數量特征的。

第一節(jié)頻率分布表與頻率分布圖

醫(yī)學研究資料變量值的個數較多時,對個變量值出現(xiàn)的頻數或頻率列表即為頻數分布表或頻率分布表(frequencydistributiontable),簡稱頻數表或頻率表。

2022/12/163統(tǒng)計描述是用統(tǒng)計圖表、統(tǒng)計指標來描述資料的3一、離散型定量變量的頻率分布

例2-11998年某山區(qū)96名孕婦產前檢查次數資料,編制頻率表。

表2-11998年某地96名孕婦產前檢查次數頻率分布2022/12/164一、離散型定量變量的頻率分布2022/12/114圖2-11998年某地96名孕婦產前檢查次數頻率分布

離散型定量變量的頻率分布圖可用直條圖表達,以等寬直條的高度表示各組頻率的多少2022/12/165圖2-11998年某地96名孕婦產前5二、連續(xù)型定量變量的頻率分布

例2-2抽樣調查某地120名18~35歲健康男性居民血清鐵含量(μmmo/L),數據如下。試編制血清鐵含量的頻率分布表。2022/12/166二、連續(xù)型定量變量的頻率分布例2-2抽樣調查6頻率表的編制步驟如下:

1.計算極差(range,R),亦稱全距,即最大值與最小值之差。本例最大值為29.64,最小值為7.42,故R=29.64-7.42=22.22(μmmo/L)。

2.確定組段數與組距(classinterval)組段數一般取10組左右。組距用i表示,組距=極差/組段數,本例擬分10組,i=22.22/10=2.22,一般取靠近的整數作為組距,本例取i=2。

3.確定各組段的上、下限每個組段的起點稱為組段的下限,終點稱為組段的上限。第一組段要包括最小值,其下限取小于或等于最小值的整數,本例取6最為第一組段的下限(也可取7),最后一個組段要包括最大值。注意各組段不能重合,每組段只寫出下限,如6~,8~,最后一個組段可包括其上限值,如本例28~30。

4.列表清點各組的頻數,計算頻率、累積頻率數和累計頻率。

2022/12/167頻率表的編制步驟如下:2022/12/1177表2-2120名正常成年男子血清鐵含量(μmmo/L)頻率分布2022/12/168表2-2120名正常成年男子血清鐵含量(μmmo/L)8圖2-2120名健康成年男子血清鐵含量(μmol/L)分布2022/12/169圖2-2120名健康成年男子血清鐵含量(μmol/L)分92-2120名健康成年男子血清鐵含量(μmmo/L)分布2022/12/16102-2120名健康成年男子血清鐵含量(μmmo/L)分10三、頻率分布表(圖)的用途

1.揭示資料的分布類型2022/12/1611三、頻率分布表(圖)的用途2022/12/111111正偏態(tài)(右偏態(tài))負偏態(tài)(左偏態(tài))

2.觀察資料的集中趨勢和離散趨勢

3.便于發(fā)現(xiàn)某些特大或特小的可疑值

4.便于進一步計算統(tǒng)計指標和作統(tǒng)計處理2022/12/1612正偏態(tài)(右偏態(tài))負偏態(tài)(左偏態(tài)12第二節(jié)描述集中趨勢的統(tǒng)計指標

醫(yī)學定量資料中,描述集中趨勢的統(tǒng)計指標主要有算術均數、幾何均數和中位數。一、算術均數(arithmeticmean)

簡稱均數。均數適用于對稱分布或近似對稱分布的資料。習慣上以希臘字母表示總體均數(populationmean),以表示樣本均數(samplemean)。常用計算方法有直接法和頻率表法(亦稱加權法)。2022/12/1613第二節(jié)描述集中趨勢的統(tǒng)計指標醫(yī)學定量資料131.直接法例2-3

測得8至正常大白鼠血清總酸性磷酸酶(TACP)含量(U/L)為4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。試求其算術均數。本例(U/L)2022/12/16141.直接法例2-3測得8至正常大白鼠血清總酸性磷酸14

2.頻率表法當變量值的個數較多時,在編制頻率表的基礎上,應用加權法計算均數的近似值。

公式中,f為各組段的頻數,X0為各組段的組中值,X0=(組段上限+組段下限)/2。例2-4(μmmo/L)如用直接法計算,=18.61(μmmo/L)2022/12/16152.頻率表法當變量值的個數較多時,在編制頻率表15表2-3頻數表法計算均數2022/12/1616表2-3頻數表法計算均16二、幾何均數(geometricmean,G)

幾何均數使用于原始變量不呈對稱分布,但對變量經對數轉換后呈對稱分布的資料,又稱對數正態(tài)分布資料。常見于正偏態(tài)分布資料,如抗體滴度,某些傳染病的潛伏期,細菌計數等。計算公式亦可用直接法和頻數表法。

1.直接法

對數的形式為2022/12/1617二、幾何均數(geometricmean,G)1.直17

例2-57名慢性遷延型肝炎患者的HBsAg滴度資料為:1:16,1:32,1:32,1:64,1:64,1:128,1:512。試計算其幾何均數。

本例先求平均滴度的倒數7名慢性遷延型肝炎患者的HBsAg滴度幾何均數為1:64。2022/12/1618例2-57名慢性遷延型肝炎患者的HBsAg18

2.頻率表法:當資料中相同變量值的個數f(即頻數)較多時,可通過頻率表法計算幾何均數,公式為

表2-452例慢性肝炎患者的HBsAg滴度資料2022/12/16192.頻率表法:當資料中相同變量值的個數f(即頻19本例ΣflgX=108.06977,Σf=52,代入公式得

52例慢性肝炎患者的HBsAg滴度的幾何均數為1:119.75

計算幾何均數應注意:①變量值中不能有0;②不能同時有正值和負值;③若全是負值,計算時可先把負號去掉,得出結果后再加上負號。2022/12/1620本例ΣflgX=108.06977,Σf=52,代入202022/12/16212022/12/1121212022/12/16222022/12/1122222022/12/16232022/12/112323三、中位數及百分位數

1.中位數(median,M)

將一組變量值從小到大按順序排列,位次居中的變量值稱為中位數。在全部變量值中,大于和小于中位數的變量值的個數相等。用中位數表示平均水平主要適用于:①變量值中出現(xiàn)個別特小或特大的數值;②資料的分布呈明顯偏態(tài),即大部分的變量值偏向一側;③變量值分布一端或兩端無確定數值,只有小于或大于某個數值;④資料的分布不清。2022/12/1624三、中位數及百分位數2022/12/112424

(1)直接法當例數較少時,先將變量值由小到大順序排列,再按以下公式計算。n為奇數時

n為偶數時

式中X的下標為變量值的位置。2022/12/1625(1)直接法當例數較少時,先將變量值由小到大順序排25

例2-7某藥廠觀察9只小鼠口服高山紅景天醇提物后在乏氧條件下的生存時間(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。試求其中位數。本例n=9,為奇數如果n=10例,生存時間為69.6,則中位數為2022/12/1626例2-7某藥廠觀察9只小鼠口服高山紅景天醇提物26

(2)頻率表法當例數較多時,先將變量值從小到大編制頻率表,并分別計算累計頻數和累計頻率(見表2-5)。先從累計頻率找出M所在的組段,然后按下式計算。

式中L為中位數所在組段的下限,i為該組段的組距,fm為該組段的頻數,ΣfL為小于L的各組段累計頻數。例2-850例鏈球菌咽頰炎患者的潛伏期(小時)如表2-5,試計算潛伏期的中位數。2022/12/1627(2)頻率表法當例數較多時,先將變量值從小到27表2-5

50例鏈球菌咽頰炎患者的潛伏期(小時)的頻率分布表

本例從累計頻率看,M位于48~組段,即L=48,i=12,fm=11,ΣfL=19,(小時)2022/12/1628表2-550例鏈球菌咽頰炎患者的潛伏期(小時)的頻率分28ΣfLMfm2022/12/1629ΣfLMfm2022/12/112929

1.百分位數

百分位數(percentile,P)是一種位置指標,以Px表示。百分位數是將頻數等分為一百的分位數。一組觀察值從小到大按順序排列,理論上有x%的變量值比Px小,有(100-x)%的變量值比Px大。故P50分位數也就是中位數,即P50=M。百分位數的計算公式為式中L為Px所在組段的下限,i為該組段的組距,fx為該組段的頻數,ΣfL為小于L的各組段累計頻數。2022/12/16301.百分位數式中L為Px所在組段的下限,30如試求表2-5資料中百分位數P25、P75

。由表2-5累計頻數欄可見P25在“36~”組段,L=36,i=12,fx=11,ΣfL=8,代入公式得(小時)同理可知P75在“72~”組段,L=72,i=12,fx=5,ΣfL=74,代入公式得(小時)

百分位數的使用條件同中位數一樣。主要用途為:①描述一組資料在某百分位置上的水平;②用于確定正常值范圍;③計算四分位數間距。

2022/12/1631如試求表2-5資料中百分位數P25、P75。(31四、眾數(mode)

一組數據中出現(xiàn)次數最多的數值,叫眾數。眾數在頻率分布表中是頻數最多的那一組的組中值,有時眾數在一組數中有好幾個或者沒有眾數。

例如:1,2,3,3,4的眾數是3;1,2,2,3,3,4的眾數是2和3;1,2,3,4,5沒有眾數;表2-5眾數為42和54。

2022/12/1632四、眾數(mode)2022/12/113232第三節(jié)描述離散趨勢的統(tǒng)計指標例2-10是觀察三組數據的離散狀況。A組:26,28,30,32,34;B組:24,27,30,33,36;C組:26,29,30,31,34。三組均數都是30。

A組.....B組

.....C組

.....

常用的離散指標有:極差、四分位數間距、方差、標準差和變異系數,最常用的指標為標準差。2022/12/1633第三節(jié)描述離散趨勢的統(tǒng)計指標2022/12/113333一、極差和四分位數間距

1.極差

極差(range,R)亦稱全距,即一組變量值中最大值與最小值之差。R值大,離散度就大;R值小,離散度就小。

A組:R=34-26=8B組:R=36-24=12C組:R=34-26=8

極差的特點是計算簡單,但只考慮最大值和最小值,容易受個別極端值的影響,且不能反映組內其他變量值的離散情況。另外,當調查例數增多時,遇到較大或較小變量值的機會就大,極差就可能增大。2022/12/1634一、極差和四分位數間距2022/12/113434

2.四分位數間距(quartileinterval,Q)

極差的不穩(wěn)定主要受兩端值的影響,如將兩端數據各去掉一部分,這樣所得的數據就比較穩(wěn)定了。例如兩端各去掉25%,取中間50%的數據的極差,這樣可先計算P25和P75,求出P75與P25之差,即為四分位數間距。

Q=P75-P25

P75又稱為上四分位數(upperquartile);P25又稱為下四分位數(lowerquartile)。2022/12/16352.四分位數間距(quartileinterva35例2-12試計算表2-5中50例鏈球菌咽頰炎患者的潛伏期(小時)的四分位間距。已知P75=73.20小時,P25=40.91小時,代入公式得

Q=73.20-40.91=32.29(小時)由以上的結果可以看出:鏈球菌咽頰炎患者的潛伏期在40.91~73.20小時之間,其四分位數間距為32.29小時。四分位數間距可用于各種分布資料,特別是偏態(tài)分布資料,經常把中位數和四分位間結合起來描述資料的集中趨勢和離散趨勢。2022/12/1636例2-12試計算表2-5中50例鏈球菌咽頰36二、方差和標準差

方差(variance)和標準差(standarddeviation)是描述對稱分布,特別是正態(tài)分布或近似正態(tài)分布資料離散趨勢(變異程度)的常用指標。

1.方差

總體方差用表示,樣本方差用S2表示。2022/12/1637二、方差和標準差2022/12/113737

式中:n-1是自由度(degreeoffreedom),用希臘小寫字母表示。它描述了當不變的情況下,n個變量值(X)中能自由變動的變量值的個數。用n-1作分母,S2可作為的無偏估計。對于頻率表資料如例2-10三組數據其方差為2022/12/1638式中:n-1是自由度(degreeoff38

2.標準差

標準差為方差的開方根,它與原始變量值單位相同??傮w標準差用表示,樣本標準差用S表示。

總體標準差計算公式為

樣本標準差計算公式為

2022/12/16392.標準差樣本標準差計算公式為2022/12/39

對于頻率表資料例2-14計算例2-2數據的標準差。已算得ΣfX0=2228,n=Σf=120,=43640(μmol/L)

對于正態(tài)分布資料,研究報告中經常用的形式來描述資料的集中趨勢和離散趨勢。2022/12/1640對于頻率表資料例2-14計算例2-2數據的標準40三、變異系數(coefficientofvariation,CV)

當兩組或多組變量值的單位不同或均數相差較大時,不能或不宜用兩個或多個標準差的大小來比較其離散程度的大小。此時可用變異系數反映變量值的相對離散程度。樣本變異系數CV的計算公式

由上式可以看出:①變異系數為無量綱單位,可以比較不同單位指標間的變異度;②變異系數消除了均數的大小對標準差的影響,所以可以比較兩均數相差較大時指標間的變異度。2022/12/1641三、變異系數(coefficientofvariatio41

例2.141985年通過十省調查得知,農村剛滿周歲的女童體重均數為8.42kg,標準差為0.98kg,身高均數為72.4cm,標準差為3.0cm。試計算周歲女童身高與均數變異系數。身高體重

周歲女童體重的變異程度比身高的變異程度大。

2022/12/1642例2.141985年通過十省調查得知,農42

第四節(jié)描述分布形態(tài)的統(tǒng)計指標

1.偏度系數(coefficientofskewness,SKEW)

偏度系數(G1)按照以下公式計算G1=0為正態(tài)分布;G1>0為正偏態(tài)分布;G1<0為負偏態(tài)分布。2022/12/1643第四節(jié)描述分布形態(tài)的統(tǒng)計指標1.偏度系數(coef43fxfxfx正態(tài)G1=0正偏態(tài)G1>0負偏態(tài)G1<0=M>M<M2022/12/1644fxfxfx正態(tài)G1=0正偏態(tài)G1>0負偏態(tài)G1<0=M>M44

2.峰度系數(coefficientofkurtosis,KURT)

峰度系數(G2)按照以下公式計算G2=0,為標準正態(tài)峰;G2>0,為尖峭峰;G2<0,為平闊峰。2022/12/16452.峰度系數(coefficientofkur45第五節(jié)定量資料描述的SAS過程一、MEANS過程

MEANS過程除了能對數值型變量進行一般的統(tǒng)計描述之外,還可以作配對設計資料的t檢驗。語句格式:Procmeans[操作選項][統(tǒng)計量列表];

VAR變量名列;/*指定分析的變量名列,缺省為所有數值變量*/

[CLASS變量名列;]/*按變量名列分組統(tǒng)計*/

[FREQ變量名;]

/*表明該變量為分析變量的頻數*/Run;2022/12/1646第五節(jié)定量資料描述的SAS過程一、MEANS過程20246Procmeans

[操作選項]

data=

指定要分析的數據集名

maxdec=

指定輸出結果最大的小數位數,默認為7位

alpha=

設定計算可信區(qū)間的α水平,默認為0.05

注:在proc語句中的選項直接跟在proc名后,以空格分隔,中間不加“/”,其他命令語句的選項需以“/”分隔。

2022/12/1647Procmeans

[操作選項]2022/12/147Procmeans

[統(tǒng)計量列表選項]

(缺省時只輸出N、MEAN、STD、MIN、MAX

五項)常用統(tǒng)計量:N(例數)、MEAN(均數)、STD(標準差)、STDERR(標準誤)、MAX(最大值)、MIN(最小值)、CV(變異系數)、RANGE(全距)、VAR(方差)、CSS(離均差平方和)、USS(平方和)、SUM(合計)。

分位數:P50(中位數)、P75(上四分位數)、P25(下四分位數)、QRANGE(四分位間距)、P1、P5、P10、P90、P95、P99。

分布度量:SKEW(偏度系數)、KURT(峰度系數)。

可信區(qū)間:CLM(95%可信區(qū)間)、LCLM(95%可信區(qū)間下限)、UCLM(95%可信區(qū)間上限)。

單樣本t檢驗:T(μ=0檢驗的t值)、PRT(t值對應的概率P值)。2022/12/1648Procmeans[統(tǒng)計量列表選項]2022/12/1148例1

例2-2某地120名健康男性居民血清鐵含量(μmmo/L)資料。

dataex2_1;inputx@@;cards;

7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.13 21.5311.0918.8918.26 23.2917.6715.3818.6114.2717.4022.5517.55 16.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.99 18.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.40 20.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.73 17.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.86 27.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.12 19.2219.2216.7227.9011.7424.6614.1816.52

;

procmeansmaxdec=2nmeanstdminmaxcvp50p25p75qrange;run;2022/12/1649例1例2-2某地120名健康男性居民血清鐵含量(μ49

TheMEANSProcedureAnalysisVariable:x

Coeffof

NMeanStdDevMinimumMaximumVariation------------------------------------------------------------------------------------18.614.347.4229.6423.33-------------------------------------------------------------------------------------50thPctl25thPctl75thPctlQuartileRange------------------------------------------------------------------------18.9916.0221.575.55-----------------------------------------------------------

2022/12/1650

50例2

某克山病區(qū)測得11名克山病患者與13名健康人的血磷值(mmol/L)如下,試求兩組的平均血磷值和標準差。dataex2_2;inputgx@@;cards;10.8411.0511.2011.2011.3911.5311.6711.8011.8712.0712.1120.5420.6420.6420.7520.7620.8121.1621.2021.3421.3521.4821.5821.87;procmeans;varx;classg;run;2022/12/1651例2某克山病區(qū)測得11名克山病患者與13名健康人的血磷值51

TheMEANSProcedureAnalysisVariable:xNgObsNMeanStdDevMinimumMaximum-----------------------------------------------------------------------------------------111111.52090910.42179270.84000002.1100000213131.08615380.42405850.54000001.8700000-----------------------------------------------------------------------------------------2022/12/1652

52例3

循環(huán)語句

dataex2_3;dog=1to2;

/*g為分組變量,循環(huán)開始,循環(huán)次數為2*/

inputn;

/*輸入n值*/

doi=1ton;

/*i循環(huán)開始,循環(huán)次數為n*/

inputx@@;

/*輸入x值,注意@@的合理使用*/

output;

/*output將x輸出,循環(huán)語句中必須使用。*/

end;

/*i循環(huán)結束*/

end;

/*g循環(huán)結束*/

cards;

110.841.051.201.201.391.531.671.801.872.072.11130.540.640.640.750.760.811.161.201.341.351.481.581.87;procmeans;varx;classg;run;2022/12/1653例3循環(huán)語句2022/12/115353二、幾何均數的計算

SAS程序沒有直接計算幾何均數的模塊,可用means過程間接計算幾何均數。

例4

例2-6資料計算幾何均數。dataex2_4;inputxf@@;y=log10(x);cards;162327641112813256125127;procmeans;vary;freqf;outputout=gmean=ym;datag1;setg;G=10**ym;procprintdata=g1;varG;run;顯示結果:ObsG1119.7472022/12/1654二、幾何均數的計算dataex2_4;datag1;顯示54三、UNIVARIATE過程

univariate過程可對數值變量進行詳細的統(tǒng)計描述。除了提供means過程所有的統(tǒng)計描述外,還可以給出了變量的峰度、偏度、眾數、中位數及四分位數等更詳盡的統(tǒng)計描述,同時還可進行正態(tài)性檢驗,單樣本資料(或配對設計資料)的t檢驗,符號秩和檢驗以及幾個描述分布的圖。2022/12/1655三、UNIVARIATE過程2022/12/115555

語句格式:PROCUNIVARIATE[操作選項];

VAR變量名列;

/*指定分析的變量名列表*/

[CLASS變量名列

;]/*按變量名列分組統(tǒng)計*/

[FREQ變量名;]

/*表明該變量為分析變量的頻數*/[HISTOGRAM

變量名列/繪圖選擇項;]

/*按變量名列繪制直方圖*/Run;2022/12/1656語句格式:PROCUNIVARIATE[操作選項]56

PROCUNIVARIATE語句的[操作選項];

data=數據集名

/*指定要分析的數據集名*/

normal

/*進行正態(tài)性檢驗*/

plot

/*生成統(tǒng)計圖:莖葉圖,盒狀圖,正態(tài)概率圖*/

mu0=總體均值

/*指定要比較的總體均值,缺省時總體均值為0。*/

HISTOGRAM語句的[繪圖選擇項]vscale=count;/*

縱軸用頻數繪制直方圖,缺省時用頻率繪制直方圖*/

midpoints=各組中值;/*橫軸指定各組組中值以確定各組組段.可以使用變量的循環(huán)語句,如MIDPOINTS=7TO29BY2*/cfill=填充顏色;/*指定直方圖的填充顏色。如cfill=blue,為藍色。*/2022/12/1657PROCUNIVARIATE語句的[操作選項];57例5

例2-2某地120名健康男性居民血清鐵含量(μmmo/L)資料。dataex2_5;inputx@@;cards;

7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.13 21.5311.0918.8918.26 23.2917.6715.3818.6114.2717.4022.5517.55 16.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.99 18.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.40 20.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.73 17.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.86 27.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.12 19.2219.2216.7227.9011.7424.6614.1816.52

procunivariatenomalplot;varx;run;2022/12/1658例5例2-2某地120名健康男性居民血清鐵含量(58

MomentsN(樣本含量)

120SumWeights(總權數)

120Mean(均數)

18.6135833SumObservations(合計值)

2233.63StdDeviation(標準差)

4.34319961Variance(方差)

18.8633829Skewness(偏度系數)

-0.1939341Kurtosis(峰度系數)

-0.0178296UncorrectedSS(平方和)43820.6007CorrectedSS(離均差平方和)2244.74256CoeffVariation(變異系數)23.3334954StdErrorMean(標準誤)

0.39647807BasicStatisticalMeasuresLocationVariabilityMean(均數)

18.61358StdDeviation(標準差)

4.34320Median(中位數)

18.98500Variance(方差)

18.86338Mode(眾數)

17.40000Range(全距)

22.22000InterquartileRange(四分位間距)

5.55000NOTE:Themodedisplayedisthesmallestof6modeswithacountof2.2022/12/16592022/12/115959

TestsforLocation:Mu0=0(均數是否為0的檢驗)

Test-Statistic------pValue------

(檢驗方法)(統(tǒng)計量)(P值)

Student‘st(t檢驗)

t

46.94732Pr>|t|<.0001Sign(符號檢驗)

M60Pr>=|M|<.0001SignedRank(符號秩和檢驗)

S3630Pr>=|S|<.0001TestsforNormalityTest--Statistic--------pValue------Shapiro-Wilk(W檢驗)

W0.992187Pr<W0.7386Kolmogorov-Smirnov(D檢驗)

D0.062602Pr>D>0.1500Cramer-vonMisesW-Sq0.060468Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.343631Pr>A-Sq>0.25002022/12/1660

60Quantiles(Definition5)QuantileEstimate100%Max29.64099%27.90095%25.18090%24.13575%Q321.57050%Median18.98525%Q116.02010%12.6605%10.9751%8.4000%Min7.4202022/12/1661Quantiles(Definition5)2022/161

ExtremeObservations-----Lowest--------Highest----ValueObsValueObs7.42126.02548.401426.13638.65227.811019.97727.9011610.255729.64162022/12/1662

622022/12/16632022/12/1163632022/12/16642022/12/116464四、頻率表的編制例6對例2-2某地120名健康男性居民血清鐵含量資料用SAS過程編制頻率表DATAEX2_6;INPUTX@@;L=6;/*定義第一組的下限值*/I=2;/*定義組距*/Y=X-MOD(X-L,I);/*y值取6,8,10,12,...,等整數*/CARDS;7.428.6523.0221.61

21.3121.469.9722.7314.9420.1821.6223.07…

…12.6518.4819.8323.12

19.2219.2216.7227.9011.7424.6614.1816.52;

PROCFREQ;/*用freq語句輸出頻數表*/TABLESY;/*一維的分組變量*/PROCUNIVARIATE;VARY;HISTOGRAMY/VSCAL=COUNTMIDPOINTS=7TO29BY2CFILL=RED;RUN;2022/12/1665四、頻率表的編制2022/12/1165652022/12/16662022/12/1166662022/12/16672022/12/116767思考題

1.數值變量資料頻數表的組段數目是否越多越好?2.均數、幾何均數和中位數的適用范圍有何異同?3.中位數與百分位數在意義、計算和應用上有何區(qū)別與聯(lián)系?4.標準差和變異系數在計算公式上有何聯(lián)系?在適用范圍上有何不同?2022/12/1668思考題2022/12/116868ThankYou!2022/12/1669ThankYou!2022/12/116969第二章定量資料的統(tǒng)計描述

2022/12/1670第二章定量資料的統(tǒng)計描述

2022/12/11170

[學習要求]

了解:應用SAS程序編制頻率表的方法和means、univariate過程對定量資料的描述。

熟悉:定量資料頻率表的編制方法和用途。

掌握:算術均數、幾何均數、中位數的計算方法和使用條件;四分位間距、方差、標準差、變異系數的計算方法和使用條件。

2022/12/16712022/12/11271

統(tǒng)計描述是用統(tǒng)計圖表、統(tǒng)計指標來描述資料的分布規(guī)律及其數量特征的。

第一節(jié)頻率分布表與頻率分布圖

醫(yī)學研究資料變量值的個數較多時,對個變量值出現(xiàn)的頻數或頻率列表即為頻數分布表或頻率分布表(frequencydistributiontable),簡稱頻數表或頻率表。

2022/12/1672統(tǒng)計描述是用統(tǒng)計圖表、統(tǒng)計指標來描述資料的72一、離散型定量變量的頻率分布

例2-11998年某山區(qū)96名孕婦產前檢查次數資料,編制頻率表。

表2-11998年某地96名孕婦產前檢查次數頻率分布2022/12/1673一、離散型定量變量的頻率分布2022/12/1173圖2-11998年某地96名孕婦產前檢查次數頻率分布

離散型定量變量的頻率分布圖可用直條圖表達,以等寬直條的高度表示各組頻率的多少2022/12/1674圖2-11998年某地96名孕婦產前74二、連續(xù)型定量變量的頻率分布

例2-2抽樣調查某地120名18~35歲健康男性居民血清鐵含量(μmmo/L),數據如下。試編制血清鐵含量的頻率分布表。2022/12/1675二、連續(xù)型定量變量的頻率分布例2-2抽樣調查75頻率表的編制步驟如下:

1.計算極差(range,R),亦稱全距,即最大值與最小值之差。本例最大值為29.64,最小值為7.42,故R=29.64-7.42=22.22(μmmo/L)。

2.確定組段數與組距(classinterval)組段數一般取10組左右。組距用i表示,組距=極差/組段數,本例擬分10組,i=22.22/10=2.22,一般取靠近的整數作為組距,本例取i=2。

3.確定各組段的上、下限每個組段的起點稱為組段的下限,終點稱為組段的上限。第一組段要包括最小值,其下限取小于或等于最小值的整數,本例取6最為第一組段的下限(也可取7),最后一個組段要包括最大值。注意各組段不能重合,每組段只寫出下限,如6~,8~,最后一個組段可包括其上限值,如本例28~30。

4.列表清點各組的頻數,計算頻率、累積頻率數和累計頻率。

2022/12/1676頻率表的編制步驟如下:2022/12/11776表2-2120名正常成年男子血清鐵含量(μmmo/L)頻率分布2022/12/1677表2-2120名正常成年男子血清鐵含量(μmmo/L)77圖2-2120名健康成年男子血清鐵含量(μmol/L)分布2022/12/1678圖2-2120名健康成年男子血清鐵含量(μmol/L)分782-2120名健康成年男子血清鐵含量(μmmo/L)分布2022/12/16792-2120名健康成年男子血清鐵含量(μmmo/L)分79三、頻率分布表(圖)的用途

1.揭示資料的分布類型2022/12/1680三、頻率分布表(圖)的用途2022/12/111180正偏態(tài)(右偏態(tài))負偏態(tài)(左偏態(tài))

2.觀察資料的集中趨勢和離散趨勢

3.便于發(fā)現(xiàn)某些特大或特小的可疑值

4.便于進一步計算統(tǒng)計指標和作統(tǒng)計處理2022/12/1681正偏態(tài)(右偏態(tài))負偏態(tài)(左偏態(tài)81第二節(jié)描述集中趨勢的統(tǒng)計指標

醫(yī)學定量資料中,描述集中趨勢的統(tǒng)計指標主要有算術均數、幾何均數和中位數。一、算術均數(arithmeticmean)

簡稱均數。均數適用于對稱分布或近似對稱分布的資料。習慣上以希臘字母表示總體均數(populationmean),以表示樣本均數(samplemean)。常用計算方法有直接法和頻率表法(亦稱加權法)。2022/12/1682第二節(jié)描述集中趨勢的統(tǒng)計指標醫(yī)學定量資料821.直接法例2-3

測得8至正常大白鼠血清總酸性磷酸酶(TACP)含量(U/L)為4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。試求其算術均數。本例(U/L)2022/12/16831.直接法例2-3測得8至正常大白鼠血清總酸性磷酸83

2.頻率表法當變量值的個數較多時,在編制頻率表的基礎上,應用加權法計算均數的近似值。

公式中,f為各組段的頻數,X0為各組段的組中值,X0=(組段上限+組段下限)/2。例2-4(μmmo/L)如用直接法計算,=18.61(μmmo/L)2022/12/16842.頻率表法當變量值的個數較多時,在編制頻率表84表2-3頻數表法計算均數2022/12/1685表2-3頻數表法計算均85二、幾何均數(geometricmean,G)

幾何均數使用于原始變量不呈對稱分布,但對變量經對數轉換后呈對稱分布的資料,又稱對數正態(tài)分布資料。常見于正偏態(tài)分布資料,如抗體滴度,某些傳染病的潛伏期,細菌計數等。計算公式亦可用直接法和頻數表法。

1.直接法

對數的形式為2022/12/1686二、幾何均數(geometricmean,G)1.直86

例2-57名慢性遷延型肝炎患者的HBsAg滴度資料為:1:16,1:32,1:32,1:64,1:64,1:128,1:512。試計算其幾何均數。

本例先求平均滴度的倒數7名慢性遷延型肝炎患者的HBsAg滴度幾何均數為1:64。2022/12/1687例2-57名慢性遷延型肝炎患者的HBsAg87

2.頻率表法:當資料中相同變量值的個數f(即頻數)較多時,可通過頻率表法計算幾何均數,公式為

表2-452例慢性肝炎患者的HBsAg滴度資料2022/12/16882.頻率表法:當資料中相同變量值的個數f(即頻88本例ΣflgX=108.06977,Σf=52,代入公式得

52例慢性肝炎患者的HBsAg滴度的幾何均數為1:119.75

計算幾何均數應注意:①變量值中不能有0;②不能同時有正值和負值;③若全是負值,計算時可先把負號去掉,得出結果后再加上負號。2022/12/1689本例ΣflgX=108.06977,Σf=52,代入892022/12/16902022/12/1121902022/12/16912022/12/1122912022/12/16922022/12/112392三、中位數及百分位數

1.中位數(median,M)

將一組變量值從小到大按順序排列,位次居中的變量值稱為中位數。在全部變量值中,大于和小于中位數的變量值的個數相等。用中位數表示平均水平主要適用于:①變量值中出現(xiàn)個別特小或特大的數值;②資料的分布呈明顯偏態(tài),即大部分的變量值偏向一側;③變量值分布一端或兩端無確定數值,只有小于或大于某個數值;④資料的分布不清。2022/12/1693三、中位數及百分位數2022/12/112493

(1)直接法當例數較少時,先將變量值由小到大順序排列,再按以下公式計算。n為奇數時

n為偶數時

式中X的下標為變量值的位置。2022/12/1694(1)直接法當例數較少時,先將變量值由小到大順序排94

例2-7某藥廠觀察9只小鼠口服高山紅景天醇提物后在乏氧條件下的生存時間(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。試求其中位數。本例n=9,為奇數如果n=10例,生存時間為69.6,則中位數為2022/12/1695例2-7某藥廠觀察9只小鼠口服高山紅景天醇提物95

(2)頻率表法當例數較多時,先將變量值從小到大編制頻率表,并分別計算累計頻數和累計頻率(見表2-5)。先從累計頻率找出M所在的組段,然后按下式計算。

式中L為中位數所在組段的下限,i為該組段的組距,fm為該組段的頻數,ΣfL為小于L的各組段累計頻數。例2-850例鏈球菌咽頰炎患者的潛伏期(小時)如表2-5,試計算潛伏期的中位數。2022/12/1696(2)頻率表法當例數較多時,先將變量值從小到96表2-5

50例鏈球菌咽頰炎患者的潛伏期(小時)的頻率分布表

本例從累計頻率看,M位于48~組段,即L=48,i=12,fm=11,ΣfL=19,(小時)2022/12/1697表2-550例鏈球菌咽頰炎患者的潛伏期(小時)的頻率分97ΣfLMfm2022/12/1698ΣfLMfm2022/12/112998

1.百分位數

百分位數(percentile,P)是一種位置指標,以Px表示。百分位數是將頻數等分為一百的分位數。一組觀察值從小到大按順序排列,理論上有x%的變量值比Px小,有(100-x)%的變量值比Px大。故P50分位數也就是中位數,即P50=M。百分位數的計算公式為式中L為Px所在組段的下限,i為該組段的組距,fx為該組段的頻數,ΣfL為小于L的各組段累計頻數。2022/12/16991.百分位數式中L為Px所在組段的下限,99如試求表2-5資料中百分位數P25、P75

。由表2-5累計頻數欄可見P25在“36~”組段,L=36,i=12,fx=11,ΣfL=8,代入公式得(小時)同理可知P75在“72~”組段,L=72,i=12,fx=5,ΣfL=74,代入公式得(小時)

百分位數的使用條件同中位數一樣。主要用途為:①描述一組資料在某百分位置上的水平;②用于確定正常值范圍;③計算四分位數間距。

2022/12/16100如試求表2-5資料中百分位數P25、P75。(100四、眾數(mode)

一組數據中出現(xiàn)次數最多的數值,叫眾數。眾數在頻率分布表中是頻數最多的那一組的組中值,有時眾數在一組數中有好幾個或者沒有眾數。

例如:1,2,3,3,4的眾數是3;1,2,2,3,3,4的眾數是2和3;1,2,3,4,5沒有眾數;表2-5眾數為42和54。

2022/12/16101四、眾數(mode)2022/12/1132101第三節(jié)描述離散趨勢的統(tǒng)計指標例2-10是觀察三組數據的離散狀況。A組:26,28,30,32,34;B組:24,27,30,33,36;C組:26,29,30,31,34。三組均數都是30。

A組.....B組

.....C組

.....

常用的離散指標有:極差、四分位數間距、方差、標準差和變異系數,最常用的指標為標準差。2022/12/16102第三節(jié)描述離散趨勢的統(tǒng)計指標2022/12/1133102一、極差和四分位數間距

1.極差

極差(range,R)亦稱全距,即一組變量值中最大值與最小值之差。R值大,離散度就大;R值小,離散度就小。

A組:R=34-26=8B組:R=36-24=12C組:R=34-26=8

極差的特點是計算簡單,但只考慮最大值和最小值,容易受個別極端值的影響,且不能反映組內其他變量值的離散情況。另外,當調查例數增多時,遇到較大或較小變量值的機會就大,極差就可能增大。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論