定量資料的統(tǒng)計(jì)描述(研)課件_第1頁(yè)
定量資料的統(tǒng)計(jì)描述(研)課件_第2頁(yè)
定量資料的統(tǒng)計(jì)描述(研)課件_第3頁(yè)
定量資料的統(tǒng)計(jì)描述(研)課件_第4頁(yè)
定量資料的統(tǒng)計(jì)描述(研)課件_第5頁(yè)
已閱讀5頁(yè),還剩99頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四章定量資料的統(tǒng)計(jì)描述流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室胡利人 【例4-1】2006年某市120名10歲男孩的身高(cm)資料如下135.4139.8144.0 147.3146.3142.5138.1143.6141.6152.6132.1144.7143.6146.8144.2141.3137.5142.8140.6150.4145.9140.2144.5148.2146.4142.4138.5148.9146.2155.4134.2139.2143.5141.6143.5142.3148.9143.6141.5151.1132.5138.7149.6146.9148.7141.5137.8142

2、.7144.6151.8136.4140.0144.3147.5145.6142.5138.5143.7149.5153.6130.2138.9143.7146.5138.8141.7136.9142.0140.5150.3135.7145.7144.2147.8145.8142.6138.6143.8141.3153.9133.4139.6143.7147.5144.8148.0137.4142.1140.8141.8134.5139.4142.9147.5144.7141.8136.9143.5140.7151.4145.6147.3143.9141.9151.6145.6148.9144

3、.3139.1145.8145.6145.3147.6148.6145.5137.3146.5140.3148.4136.5 【問(wèn)題4-1】該資料為何種類(lèi)型資料?如何對(duì)該資料進(jìn)行描述?第一節(jié) 頻數(shù)表和頻數(shù)圖第二節(jié) 集中趨勢(shì)的描述第三節(jié) 離散趨勢(shì)的描述第四節(jié) 正態(tài)分布及其應(yīng)用由于個(gè)體變異的存在,醫(yī)學(xué)研究中某指標(biāo)在各個(gè)體上的觀察結(jié)果不是恒定不變的,但也不是雜亂無(wú)章的,而是有一定規(guī)律的,呈一定的分布(distribution)將原始數(shù)據(jù)按照一定的標(biāo)準(zhǔn)劃分為若干各組,合計(jì)各組的頻數(shù),得到頻數(shù)分布表;也可再將頻數(shù)表繪制成頻數(shù)分布圖(一)頻數(shù)表的編制1. 求極差(range):極差又稱(chēng)全距,是指全部觀察值

4、中最大值與最小值之差,用符號(hào)R表示 R=xmax-xmin2. 確定組數(shù)和組距 (1) 根據(jù)研究目的和分析要求靈活確定組數(shù): 若為計(jì)算用,組數(shù)可適當(dāng)增多,以減少計(jì)算誤差;若為顯示分布特征,則組數(shù)不宜太多或太少, 一般n50,915 3. 確定組段組段起點(diǎn)稱(chēng)為下限(lower limit)組段終點(diǎn)稱(chēng)為上限(upper limit)注意:第一組段必須包含最小值,最后一個(gè)組段必須包括最大值,各組段不能重疊。除最末一個(gè)組段需同時(shí)寫(xiě)出上下限外,其余組段只寫(xiě)出其下限4. 歸組計(jì)數(shù),整理成表用計(jì)算機(jī)或手工劃記法匯總,得到各組段觀察單位個(gè)數(shù),繪制成頻數(shù)分布表表4-1 2006年某市120名10歲男孩身高(cm

5、)的頻數(shù)表身高(1)頻數(shù)(2)頻率(%)(3)累計(jì)頻數(shù)(4)累計(jì)頻率(%)(5)130132134136138140142144146148150152 154156 1 3 4 8121721201410 6 3 1 0.8 2.5 3.3 6.710.014.217.516.711.7 8.3 5.0 2.5 0.8 1 4 8 16 28 45 66 86100110116119120 0.8 3.3 6.7 13.3 23.3 37.5 55.0 71.7 83.3 91.7 96.7 99.2100.0合計(jì) 120 100.0 頻數(shù)分布的兩個(gè)特征集中趨勢(shì)(central tenden

6、cy):指一組數(shù)據(jù)向某個(gè)位置聚集或集中的傾向 離散趨勢(shì)(dispersion):指一組數(shù)據(jù)的分散性或變異度 頻數(shù)分布的類(lèi)型 對(duì)稱(chēng)分布(symmetric distribution) :集中位置在中間,左右兩側(cè)頻數(shù)基本對(duì)稱(chēng)二、頻數(shù)分布圖頻數(shù)分布圖(graph of frequency)是以變量值為橫坐標(biāo)、頻數(shù)(或頻率)為縱坐標(biāo)(不等距分組時(shí)以頻率/組距=頻率密度為縱坐標(biāo)),以每個(gè)等寬的距形面積表示每組的頻數(shù)(或頻率)連續(xù)型定量資料:頻數(shù)圖中各距形是相連的,又稱(chēng)直方圖(histogram)離散型定量資料:頻數(shù)圖中各距形是間隔的,又稱(chēng)直條圖(bar graph)圖4-1 2006年某市120名10歲

7、男孩身高的頻數(shù)圖頻 數(shù)頻 數(shù)頻 數(shù)血清肌紅蛋白(g/ml)負(fù)(左)偏態(tài)對(duì)稱(chēng)分布正(右)偏態(tài)434名少數(shù)民族已婚婦女現(xiàn)有子女?dāng)?shù)頻數(shù)分布圖集中趨勢(shì)的描述一、算術(shù)均數(shù)(arithmetic mean)簡(jiǎn)稱(chēng)均數(shù)(mean),總體均數(shù)用希臘字母 (miu)表示,樣本均數(shù)用 (x bar)表示。均數(shù)描述一組數(shù)據(jù)在數(shù)量上的平均水平直接法將所有數(shù)據(jù)直接相加,再除以總例數(shù):是希臘字母,讀作sigma,為求和符號(hào)1. 計(jì)算方法加權(quán)法 用于頻數(shù)表資料或樣本中相同觀察值較多時(shí),將相同觀察值的個(gè)數(shù)(頻數(shù) f )乘以該觀察值 x,以代替相同觀察值逐個(gè)相加【例4-3】根據(jù)表4-1資料,用加權(quán)法求120名10歲男孩身高的均數(shù)

8、f 起了“權(quán)數(shù)”的作用,權(quán)衡了各組中值由于頻數(shù)不同對(duì)均數(shù)的影響。加權(quán)法計(jì)算的均數(shù)是近似的均數(shù)兩個(gè)重要的性質(zhì)適用于描述單峰對(duì)稱(chēng)分布,特別是正態(tài)分布或近似正態(tài)分布資料的集中趨勢(shì)均數(shù)在描述正態(tài)分布特征方面有重要意義均數(shù)的應(yīng)用我也知道了!例 現(xiàn)有5人,其血清抗體效價(jià)分別為1:10、 1:100、 1:1000、 1:10000和 1:100000,求其效價(jià)倒數(shù)的平均水平若計(jì)算效價(jià)倒數(shù)的算術(shù)均數(shù)用算術(shù)均數(shù)反映這類(lèi)資料的平均水平是不合適的先求效價(jià)倒數(shù)對(duì)數(shù)值的均數(shù),然后求反對(duì)數(shù)1000位于10、100、1000、10000、100000的中間位置,具有很好的表性,這種平均數(shù)就稱(chēng)為幾何均數(shù)直接法:當(dāng) n 較小

9、時(shí),直接將 n 個(gè)觀察值的乘積開(kāi)n 次方1. 計(jì)算方法二、幾何均數(shù)(Geometric mean,G) 【例4-4】 某實(shí)驗(yàn)室測(cè)得7人血清中某種抗體的滴度分別為1/4,1/8,1/16,1/32,1/64,1/128, 1/256,試求平均滴度 加權(quán)法:當(dāng)資料中出現(xiàn)相同觀察值時(shí),也可用加權(quán)法計(jì)算幾何均數(shù)【例4-6】50名麻疹易感兒接種麻疹疫苗后,測(cè)得血凝抑制抗體滴度資料見(jiàn)表4-3,求抗體的平均滴度。表4-3 50名麻疹易感兒血凝抑制抗體滴度即50名麻疹易感兒接種麻疹疫苗后血凝抑制抗體的平均滴度為1/54 2. 應(yīng)用及注意事項(xiàng)幾何均數(shù)應(yīng)用于:等比資料,如抗體平均滴度對(duì)數(shù)正態(tài)分布資料Remembe

10、r!使用幾何均數(shù)時(shí)應(yīng)注意:觀察值不能有0觀察值不能同時(shí)有正值和負(fù)值。若全為負(fù)值,在計(jì)算時(shí)先把負(fù)號(hào)去掉,得出結(jié)果再加上負(fù)號(hào)Be careful! 【例4-7】200名食物中毒患者潛伏期資料如表4-4,研究人員據(jù)此采用加權(quán)法計(jì)算均數(shù)得平均潛伏期為27小時(shí)。(1)該組數(shù)據(jù)在分布上有何特點(diǎn)? (2)用均數(shù)描述該資料的平均水平是否合適?三、中位數(shù)與百分位數(shù)表4-4 200名食物中毒患者的潛伏期潛伏期(小時(shí))(1)頻數(shù)(2)累計(jì)頻數(shù)(3)累計(jì)頻率(%)(4)=(3)/n 030 3015.0127110150.5244915075.0362817889.0481419296.060 719999.5 72

11、84 1200 100.0合計(jì) 200中位數(shù)(median):一組觀察值從小到大排列,位次居中的觀察值即中位數(shù),是一個(gè)位置指標(biāo)直接法n為奇數(shù),n為偶數(shù),【例4-8】某實(shí)驗(yàn)師對(duì)10只小白鼠染毒后觀察各小鼠的生存時(shí)間(分鐘),得數(shù)據(jù)為:35,60,62,63,63,65,66,68,69,69,試計(jì)算小白鼠的平均生存時(shí)間將10個(gè)觀察值由小到大排列:35,60,62,63,63,65,66,68,69,69 頻數(shù)表法LM 中位數(shù)所在組段下限 組距中位數(shù)所在組段的頻數(shù)中位數(shù)所在組段前一組的累計(jì)頻數(shù)【例4-9】根據(jù)例4-7的資料計(jì)算中位數(shù)表4-4 200名食物中毒患者的潛伏期潛伏期(小時(shí))(1)頻數(shù)(2

12、)累計(jì)頻數(shù)(3)累計(jì)頻率(%)(4)=(3)/n 030 3015.0127110150.5244915074.5362817889.0481419296.060 719999.5 7284 1200 100.0合計(jì) 200百分位數(shù)(percentile):是指將一組觀察值由小到大排序后,將其平均分成100等份,對(duì)應(yīng)于每一分割位置上的數(shù)值就稱(chēng)為一個(gè)百分位數(shù),用 表示 x% Px (100-x)%50%分位數(shù)就是中位數(shù)25%,75%分位數(shù)稱(chēng)四分位數(shù)(quartile) 式中:第x百分位數(shù)所在組段下限組距第x百分位數(shù)所在組段的頻數(shù)第x百分位數(shù)所在組段前一組的累計(jì)頻數(shù)頻數(shù)表法【例4-10】根據(jù)表4-

13、4,計(jì)算P25、P75適用條件:偏態(tài)分布資料分布類(lèi)型不明確的資料“開(kāi)口資料”(即一端或兩端無(wú)確切數(shù)值的資料)Understand? 三組軀體功能維度得分甲組88910111212乙組56810121415丙組12510151819離散趨勢(shì)的描述描述離散趨勢(shì)的常用指標(biāo)極差(range)四分位數(shù)間距(interquartile range)方差(variance)和標(biāo)準(zhǔn)差(standard deviation) 變異系數(shù)(coefficient of variation)1. 極差/全距(range) 全部觀察值中最大值與最小值之差,用符號(hào)R表示, 即常用于描述單峰對(duì)稱(chēng)分布小樣本資料的變異程度,或

14、用于初步了解資料的變異程度極差描述離散趨勢(shì)的局限只考慮最大值與最小值之差異,不能反映組內(nèi)其它觀察值的變異程度樣本含量越大,極差可能越大,樣本含量相差懸殊時(shí)不宜用極差作比較 四分位數(shù) : P25,P50,P75三個(gè)點(diǎn)將全部觀察值等分為四部分,處于分位點(diǎn)上的數(shù)值就是四分位數(shù)下四分位數(shù)即第25百分位數(shù),用QL表示 上四分位數(shù)即第75百分位數(shù),用QU表示2. 四分位數(shù)間距四分位數(shù)間距(interquartile range)即上、下四分位數(shù)之差200名食物中毒患者的潛伏期資料,P25=15.4, P75=36四分位數(shù)間距常用于描述偏態(tài)分布及分布的一端或兩端無(wú)確切數(shù)值資料的離散程度四分位數(shù)間距較全距穩(wěn)定

15、,但仍不能全面概括所有觀察值的變異情況3. 方差(variance)和標(biāo)準(zhǔn)差(SD)式中 n 1 稱(chēng)為自由度(Degree of freedom),允許自由取值的變量值個(gè)數(shù),用符號(hào) (niu)表示方差的度量單位是原度量單位的平方方差開(kāi)方后即與原數(shù)據(jù)的度量單位相同,這就是標(biāo)準(zhǔn)差(standard deviation) 標(biāo)準(zhǔn)差應(yīng)用公式 直接法 加權(quán)法 【例4-13】某醫(yī)生測(cè)量了10名腦出血患者的血尿素氮(mmol/L)分別是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,試計(jì)算該組數(shù)據(jù)的標(biāo)準(zhǔn)差【例4-14】根據(jù)表4-1資料,計(jì)算120名10歲男孩身高的標(biāo)準(zhǔn)差描述對(duì)

16、稱(chēng)分布,特別是正態(tài)分布或近似正態(tài)分布資料的變異程度 【例4-15】某醫(yī)院預(yù)防保健科,對(duì)一組5歲男孩進(jìn)行體檢,測(cè)量身高、體重等指標(biāo)。得身高均數(shù)與標(biāo)準(zhǔn)差為115.8cm和4.5cm,體重均數(shù)與標(biāo)準(zhǔn)差為20.2kg和0.56kg,由此認(rèn)為身高的變異程度比體重大。上述結(jié)論是否正確?4. 變異系數(shù)(coefficient of variation) 【例4-16】某實(shí)驗(yàn)室分別測(cè)量了10只小白鼠和10只家兔的體重,得小白鼠體重的均數(shù)與標(biāo)準(zhǔn)差分別為22g和3g,家兔體重的均數(shù)與標(biāo)準(zhǔn)差分別為1500g和100g。經(jīng)比較得出結(jié)論,因家兔體重的標(biāo)準(zhǔn)差大于小白鼠體重的標(biāo)準(zhǔn)差,所以家兔體重的變異程度比小白鼠體重的變異

17、程度大。變異系數(shù)(coefficient of variation, CV):是一組觀察值的標(biāo)準(zhǔn)差與其均數(shù)的比值用途:比較度量衡單位不同的資料的變異度比較均數(shù)相差懸殊的資料的變異度描述頻數(shù)分布特征的指標(biāo)總結(jié)對(duì)稱(chēng)分布偏態(tài)分布對(duì)數(shù)正態(tài)分布集中趨勢(shì)均數(shù)中位數(shù)幾何均數(shù)離散趨勢(shì)標(biāo)準(zhǔn)差四分位數(shù)間距對(duì)數(shù)標(biāo)準(zhǔn)差的反對(duì)數(shù)描述數(shù)值變量資料分布特征的內(nèi)容:分布范圍集中趨勢(shì)離散趨勢(shì)是否對(duì)稱(chēng)正態(tài)分布及其應(yīng)用圖4-2 頻數(shù)分布逐漸接近正態(tài)分布示意圖1. 正態(tài)分布的概念及特征正態(tài)分布(Normal distribution),也稱(chēng)高斯分布(Gaussian distribution),是一種非常重要的連續(xù)型隨機(jī)變量的概率分

18、布,是自然界中最常見(jiàn)的一種分布概率密度函數(shù)(PDF)和累積分布函數(shù)(CDF)正態(tài)分布圖示x0.1.2.3.4f(x)方差相等、均數(shù)不等的正態(tài)分布圖示312均數(shù)相等、方差不等的正態(tài)分布圖示213正態(tài)曲線下的面積規(guī)律-+15.87%15.87%68.27%-1.96+1.962.5%2.5%95%-2.58+2.580.5%0.5%99%正態(tài)分布的特征概率密度函數(shù)曲線在均數(shù)處最高以均數(shù)為中心左右對(duì)稱(chēng),且逐漸減少正態(tài)分布有兩個(gè)參數(shù),即 和曲線下的面積分布有一定規(guī)律正態(tài)分布的判斷方法 利用頻數(shù)分布表或頻數(shù)分布圖 根據(jù)專(zhuān)業(yè)知識(shí)判斷 正態(tài)分布的經(jīng)驗(yàn)判斷若 ,可認(rèn)為資料呈偏態(tài)分布若 , 則有理由懷疑資料呈偏

19、態(tài)分布 正態(tài)性檢驗(yàn)(P108)2. 標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布與標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)正態(tài)分布曲線下面積(z) z 0.00 0.02 0.04 0.06 0.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.2

20、9460.28770.2810 00.50000.49200.48400.47610.46810z 【例4-18】 已知某地2003年18歲男大學(xué)生身高的均數(shù) cm,標(biāo)準(zhǔn)差 cm,且18歲男大學(xué)生的身高服從正態(tài)分布。問(wèn)該地18歲男大學(xué)生中身高在166.8 cm及其以下者占多大的比例? 查附表3:表的左側(cè)找-1.9,表的上方找0.06,相交處為0.025 3. 正態(tài)分布的應(yīng)用估計(jì)頻率分布 【例4-19】某地2003年抽樣調(diào)查了100名18歲男大學(xué)生身高,算得均數(shù)為172.70cm,標(biāo)準(zhǔn)差為4.01cm。該地18歲男大學(xué)生中身高在162.35cm183.05cm范圍內(nèi)者所占的比例是多少?查附表3得:制定醫(yī)學(xué)參考值范圍醫(yī)學(xué)參考值范圍也稱(chēng)正常值范圍絕大多數(shù)正常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論