醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo).ppt_第1頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo).ppt_第2頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo).ppt_第3頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo).ppt_第4頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo).ppt_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

醫(yī)學(xué)統(tǒng)計(jì)學(xué) (Medicine Statistics),南京大學(xué)醫(yī)學(xué)院范怡梅,第一章 醫(yī)學(xué)統(tǒng)計(jì)學(xué)基本概念與常用統(tǒng)計(jì)描述指標(biāo),統(tǒng)計(jì)學(xué)(statistics): “The science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable results.”,第一節(jié) 醫(yī)學(xué)統(tǒng)計(jì)學(xué)在醫(yī)學(xué)科學(xué)中的地位和作用,醫(yī)學(xué)統(tǒng)計(jì)學(xué)(Medicine Statistics ) 是應(yīng)用概率論和數(shù)理統(tǒng)計(jì)的基本原理和方法,結(jié)合醫(yī)學(xué)實(shí)際闡述統(tǒng)計(jì)設(shè)計(jì)的基本原理和步驟,研究資料或信息的收集、整理與分析的一門學(xué)科。 是統(tǒng)計(jì)學(xué)在醫(yī)學(xué)上的應(yīng)用; 理論基礎(chǔ)是概率論和數(shù)理統(tǒng)計(jì); SPSS Statistical Package for Social Sciences Statistical Product and Service Solutions SAS Statistical Analysis System 作用; 統(tǒng)計(jì)工作的步驟。,第二節(jié) 統(tǒng)計(jì)工作的步驟,研究設(shè)計(jì)(research design) 調(diào)查設(shè)計(jì)、實(shí)驗(yàn)設(shè)計(jì) 資料收集(data collection) 統(tǒng)計(jì)分析(statistical analysis) 統(tǒng)計(jì)描述(statistical description) 統(tǒng)計(jì)推斷(statistical inference),例 某醫(yī)生發(fā)明了一種新的治療某病的療法(治療組),用現(xiàn)在公用的療法作為對照(對照組),經(jīng)臨床試驗(yàn),對照組與治療組的療效分別為P1=75%與P2=95 % ,問:能認(rèn)為這兩個有效率之間的差別有顯著性意義嗎? 假設(shè)的3批實(shí)驗(yàn)結(jié)果,組別,例數(shù),有效率(%),療效: 有效 無效 合計(jì),甲實(shí)驗(yàn) 對照組 治療組 乙實(shí)驗(yàn) 對照組 治療組 丙實(shí)驗(yàn) 對照組 治療組,15 19 30 38 45 57,5 1 10 2 15 3,20 20 40 40 60 60,75.0 95.0 75.0 95.0 75.0 95.0,甲實(shí)驗(yàn)中,c2=1.765,P0.05,兩個有效率之間的差別無顯著性意義; 乙實(shí)驗(yàn)中,2=6.275, 0.01 P 0.05,兩個有效率之間的差別有顯著性意義; 丙實(shí)驗(yàn)中,2=9.412,P 0.01,兩個有效率之間的差別有極顯著性意義。,第三節(jié) 統(tǒng)計(jì)學(xué)中的幾個 基本概念,1.總體與樣本(population and sample) 根據(jù)研究目的確定的同質(zhì)觀察單位的全體稱為總體。 從總體中隨機(jī)抽取、進(jìn)行研究的一部分個體所組成的集合,稱為樣本。 要保證樣本的可靠性、代表性。 2.同質(zhì)與變異(homogeneity and variation) 統(tǒng)計(jì)研究的是有變異的事物,統(tǒng)計(jì)分析的任務(wù)就是在同質(zhì)分組的基礎(chǔ)上,通過對變異所呈現(xiàn)出來的統(tǒng)計(jì)規(guī)律性的研究,透過偶然現(xiàn)象,揭示同質(zhì)事物的本質(zhì)特征和規(guī)律。,3.抽樣誤差(sampling error) 因抽樣產(chǎn)生的樣本與樣本,樣本與總體相應(yīng)統(tǒng)計(jì)指標(biāo)之間的差異,稱為抽樣誤差。 抽樣誤差的大小主要取決于觀察單位間變異程度的大小和樣本含量的多少。 4.參數(shù)和統(tǒng)計(jì)量(parameter and statistic) 總體的指標(biāo)統(tǒng)稱為參數(shù),樣本指標(biāo)稱為統(tǒng)計(jì)量。,5.概率(probability) 概率是描述隨機(jī)事件發(fā)生的可能性大小的數(shù)值,常用P表示。隨機(jī)事件概率的大小在0與1之間,即0P 1。 習(xí)慣上將P 0.05,稱為小概率事件。,6統(tǒng)計(jì)資料的類型,定量資料,分類資料,如身高(cm)、體重(kg)等。,無序分類,有序分類,二項(xiàng)分類,多項(xiàng)分類,(等級資料),如陽性與陰性、治愈與未愈。,如血型為A、B、AB、O型。,如治療結(jié)果為治愈、顯效、好轉(zhuǎn)、無效四級。,第四節(jié) 數(shù)值變量的描述性統(tǒng)計(jì),統(tǒng)計(jì)圖表; 統(tǒng)計(jì)指標(biāo)。,一、 頻數(shù)分布 (frequency distribution),(一) 編制頻數(shù)表的步驟,求極差 R=84-57=27(次/分) 劃分組段 確定組數(shù):較大樣本時,一般取10組左右。 確定組距:極差/組數(shù)=27/10=2.73(次/分) 確定各組段的上下限:上限=下限+組距 統(tǒng)計(jì)各組段內(nèi)的數(shù)據(jù)頻數(shù),編制頻數(shù)表,表2.1 130名健康成年男子脈搏(次/分)的頻數(shù)分布表,脈搏組段 (1),頻數(shù) (2),頻率(%) (3),累計(jì)頻數(shù) (4),累計(jì)頻率(%) (5),56 59 62 65 68 71 74 77 80 8385 合計(jì),2 5 12 15 25 26 19 15 10 1 130,1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77,2 7 19 34 59 85 104 119 129 130,1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00,(二) 頻數(shù)表的用途,可以揭示資料的分布類型和分布特征,以便于選用相應(yīng)的統(tǒng)計(jì)分析方法。 便于進(jìn)一步計(jì)算指標(biāo)和統(tǒng)計(jì)處理。 便于發(fā)現(xiàn)某些特大或特小的可疑值。,二、 集中趨勢(central tendency)的描述,三種平均數(shù)(average) 算術(shù)均數(shù)(arithmetic mean) 幾何均數(shù)(geometric mean) 中位數(shù)(median),(一)算術(shù)均數(shù)( arithmetic mean, ),簡稱均數(shù),適合于表達(dá)呈正態(tài)分布資料的平均水平。 直接法:,例2-2:,=,81+70+66+69,13,=71.69(次/分),加權(quán)法:,例: =,57.52+60.55+63.512+84.51,130,=71.62(次/分),(二)幾何均數(shù) (geometric mean, G),適用于原始數(shù)據(jù)分布不對稱,但經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布的資料。,例:40名麻疹易感兒童接種麻疹疫苗后一個月,測其血凝抑制抗體滴度,結(jié)果如表所示,求幾何均數(shù)。,抗體滴度,人數(shù) f,滴度倒數(shù) X,lgX,1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512,1 4 5 8 11 6 4 1,4 8 16 32 64 128 256 512,0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093,(三)中位數(shù)(median, M),適合于表達(dá)偏態(tài)資料、或分布不明的資料的平均水平,尤其適合于表達(dá)只知數(shù)據(jù)的個數(shù)、但部分較大或較小數(shù)據(jù)的具體數(shù)值未準(zhǔn)確知道的資料的平均水平。,對于原始數(shù)據(jù)和頻數(shù)分布表資料,分別用下列兩式計(jì)算中位數(shù)。,M=,(X n/2+X(n/2+1) )/2,(n為偶數(shù)),X(n+1)/2,(n為奇數(shù)),其中, LM :中位數(shù)所在組下限; iM :中位數(shù)所在組的組距; fM :中位數(shù)所在組的頻數(shù); fL :中位數(shù)所在組前一組的累計(jì)頻數(shù)。,例2-4 表2.3 107正常人的尿鉛含量(g/L)的中位數(shù)計(jì)算表,含量( g/L ) (1),頻數(shù)f (2),累計(jì)頻數(shù) f (3),累計(jì)頻率 % (4),0 4 8 12 16 20 24 28 合計(jì),14 22 29 18 15 6 1 2 107,14 36 65 83 98 104 105 107,13.08 33.64 60.75 77.57 91.59 97.20 98.13 100.00,M=8+ (107/2 - 36) = 10.41(g/L),4,29,三、 離散趨勢(tendency of dispersion)的描述,例:設(shè)有三組同年齡、同性別兒童體重(kg)數(shù)據(jù)如下: 甲組 26 28 30 32 34 乙組 24 27 30 33 36 丙組 26 29 30 31 34,描述離散程度的指標(biāo): 極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差及變異系數(shù)。,(一) 極差(全距,range, R),為一組同質(zhì)觀察值中最大值與最小值之差。 甲組 R=34-26=8 乙組 R=36-24=12 甲組數(shù)據(jù)分布較乙組集中。,優(yōu)點(diǎn):計(jì)算簡單 缺點(diǎn): 1.沒有充分利用樣本信息,只考慮最大值與最小值之差異,不能反映組內(nèi)其它觀察值的變異度。 2.樣本含量越大,抽到較大或較小觀察值的可能性越大,則極差可能越大,因此,樣本含量懸殊時不宜用極差比較分布的離散度。 所以,一般不用極差來反映離散程度。,(二) 四分位數(shù)間距 (quartile interval, Q),1.分位數(shù)的概念 分位數(shù)是一種位置指標(biāo),一個特定的分位數(shù)將任何一個頻數(shù)曲線下的面積分為兩部分。 第1四分位數(shù)記作Q1,第2、第3四分位數(shù),分別記作Q2、Q3;第1百分位數(shù),記作P1。同理,還有第2、第3、 、第99百分位數(shù),分別記作P2、P3、 、P99。 顯然,Q1=P25、Q2=P50=M、Q3=P75,2.百分位數(shù)(percentile)的計(jì)算公式 對連續(xù)型變量頻數(shù)表資料,按下式計(jì)算第X百分位數(shù)PX:,其中, LX :第X百分位數(shù)所在組下限; iX :第X百分位數(shù)所在組的組距; fX :第X百分位數(shù)所在組的頻數(shù); fL :第X百分位數(shù)所在組前一組的累計(jì)頻數(shù)。,例 某地200例正常成人血鉛含量的頻數(shù)分布如表所示,請計(jì)算出血鉛含量的95%正常值范圍。 200例正常成人血鉛含量的頻數(shù)分布表,血鉛含量 頻數(shù) 累計(jì)頻數(shù) (mol/L) (1) (2),0 0.24 0.48 0.72 0.97 1.21 1.45 1.69 1.93 2.17 2.42 2.66 2.903.14,6 48 43 36 28 13 14 4 4 1 2 0 1,6 54 97 133 161 174 188 192 196 197 199 199 200,解:即求P95。 nX%=20095%=190,故某地正常人血鉛含量95%的單側(cè)正常值范圍的上限為 1.81 (mol/L)。,3.四分位數(shù)間距(quartile interval, Q) Q=P75-P25 Q=QU-QL 優(yōu)缺點(diǎn):用四分位數(shù)間距作為描述數(shù)據(jù)分布離散程度的指標(biāo),比極差穩(wěn)定,但仍未考慮到每個數(shù)據(jù)的大小,常用于描述偏態(tài)頻數(shù)分布以及分布的一端或兩端無確切數(shù)值資料的離散程度。,例2-10 據(jù)書中表2.3資料求四分位數(shù)間距Q。 P25= 4+,4,22,(107 25%,14)=6.32 (g/L),P75= 12+,4,18,(107 75%,65)=15.39 (g/L),Q= P75 - P25=15.39-6.32=9.07 (g/L),(三)方差 (variance),n - 1稱為自由度,(四)標(biāo)準(zhǔn)差 (standard deviation),加權(quán)法:,(五)變異系數(shù)(coefficient of variation, CV),1.用于比較度量衡單位不同的多組資料的變異度。 2.比較均數(shù)相差懸殊的多組資料的變異度。,例 某地不同年齡組男子身高(cm)的變異程度,年齡組 33.5歲 3035歲,人數(shù) 100 100,均數(shù) 96.1 170.2,標(biāo)準(zhǔn)差 3.1 5.0,變異系數(shù) 3.2% 2.9%,四、 正態(tài)分布 (normal distribution),(一) 正態(tài)分布的概念和特征,正態(tài)分布的圖形:正態(tài)分布的密度函數(shù):,-X+ ,通常用N( , 2)表示均數(shù)為、方差為2的正態(tài)分布。,正態(tài)分布的特征,1.正態(tài)曲線在橫軸上方均數(shù)處最高; 2.正態(tài)分布以均數(shù)為中心,左右對稱; 3.正態(tài)分布有兩個參數(shù),即均數(shù)與標(biāo)準(zhǔn)差。 是位置參數(shù),當(dāng)固定不變時, 越大,曲線沿橫軸越向右移動; 越小,曲線沿橫軸越向左移動。 是變異度參數(shù),當(dāng)固定不變時, 越大,曲線越平闊; 越小,曲線越尖峭。 4.正態(tài)曲線下的面積分布有一定的規(guī)律。,常用的兩個區(qū)間: 1.96 及2.58 的區(qū)間面積分別占總面積(或總觀察例數(shù))的95%及99%,如下圖所示:,95%,2.5%,2.5%,-1.96 ,+1.96 ,99%,-2.58 ,+2.58 ,0.5%,0.5%,(二)標(biāo)準(zhǔn)正態(tài)分布(standardized normal distribution),令,- u+ ,用N(0,1)表示標(biāo)準(zhǔn)正態(tài)分布,(三) 正態(tài)分布的應(yīng)用,制定醫(yī)學(xué)參考值范圍(medical reference range) 許多統(tǒng)計(jì)方法的理論基礎(chǔ),參考值范圍的制定,正態(tài)分布法 百分位數(shù)法,% 90 95 99,單 只有下限,側(cè) 只有上限,雙側(cè) P5P95 P2.5P97.5 P0.5P99.5,單 只有下限 P10 P5 P1,側(cè) 只有上限 P90 P95 P99,例 出生體重低于2500克為低體重兒。若由某項(xiàng)研究得某地嬰兒出生體重均數(shù)為3200克,標(biāo)準(zhǔn)差為350克,估計(jì)該地當(dāng)年低體重兒所占的比例。,補(bǔ)充題 以下是101名30-49歲正常成年男子的血清總膽固醇(mmol/L)測定值的頻數(shù)表,請據(jù)此資料:(1)選擇適當(dāng)?shù)募汹厔葜笜?biāo)并計(jì)算之;(2)選擇適當(dāng)?shù)碾x散程度指標(biāo)并計(jì)算之;(3)求該地30-49歲健康男子血清總膽固醇的正常值范圍;(4)估計(jì)該地30-49歲健康男子血清總膽固醇值小于4.50 mmol/L的概率。,血清總膽固醇 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.07.5 合計(jì),頻數(shù)f 1 8 9 23 25 17 9 6 2 1 101,fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25,fx2 7.56 84.50 126.56 415.44 564.06 468.56 297.56 234.38 91.13 52.56 2342.31,第五節(jié) 抽樣誤差與區(qū)間估計(jì),一、 均數(shù)的抽樣誤差 與標(biāo)準(zhǔn)誤,從樣本獲取有關(guān)總體信息的過程稱為統(tǒng)計(jì)推斷(statistical inference)。 由個體差異產(chǎn)生的,抽樣造成的樣本與樣本、樣本與總體相應(yīng)統(tǒng)計(jì)指標(biāo)之間的差異,稱為抽樣誤差(sampling error) 。,標(biāo)準(zhǔn)誤(standard error, SE):樣本統(tǒng)計(jì)量的標(biāo)準(zhǔn)差。 均數(shù)的標(biāo)準(zhǔn)誤(SEM , ) : 即樣本均數(shù)的標(biāo)準(zhǔn)差。 樣本觀測值的標(biāo)準(zhǔn)差與樣本均數(shù)的標(biāo)準(zhǔn)誤的比較: 1.標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤都反映數(shù)據(jù)的離散性; 2.標(biāo)準(zhǔn)差的大小反映各個個體的觀測值X之間的變異 程度(離散程度),標(biāo)準(zhǔn)誤的大小反映各個樣本均 數(shù) 間的變異程度(離散程度),也反映了樣本均 數(shù)代表總體均數(shù)的可靠性。,數(shù)理統(tǒng)計(jì)推出: 1.從正態(tài)總體N( , 2)中,隨機(jī)抽取例數(shù)為n的樣本,樣本均數(shù) 也服從正態(tài)分布;即使從偏態(tài)總體隨機(jī)抽樣,當(dāng)n足夠大時, 也近似正態(tài)分布; 2.從均數(shù)為,標(biāo)準(zhǔn)差為的正態(tài)或偏態(tài)總體,抽取例數(shù)為n的樣本,樣本均數(shù) 的總體均數(shù)也為,標(biāo)準(zhǔn)差用 表示,則 可按下式計(jì)算:,二、 t分布,(一) t分布的概念, ,, 即u分布。,用S代替,得到,t分布,(二)t分布的圖形和特征,以0為中心,左右對稱的單峰分布; t分布曲線是一簇曲線,其形態(tài)變化與自由度的大小有關(guān)。自由度越小,則t值越分散,曲線越低平;自由度逐漸增大時,t分布逐漸逼近u分布;當(dāng)= 時,t分布即為u分布。 t分布曲線下總的面積等于1,即t值落入?yún)^(qū)間(- , )內(nèi)的概率為1。t值落入任一區(qū)間 (t1,t2)內(nèi)的概率等于該區(qū)間內(nèi)曲線和橫坐標(biāo)軸所夾的面積。,附表2 t界值表通式: 單側(cè):P(t -t ,)= , 或P(t t ,)= 雙側(cè): P(t -t /2,) + P(t t /2,)= 圖中非陰影部分面積的概率為: P( -t /2, t t /2,)= 1-,三、 總體均數(shù)的估計(jì),參數(shù)估計(jì)是指用樣本指標(biāo)值估計(jì)總體指標(biāo)值。 包括點(diǎn)估計(jì)和區(qū)間估計(jì)。,點(diǎn)估計(jì): 就是用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值。 區(qū)間估計(jì): 即按預(yù)先給定的概率(1-)確定包含未知總體參數(shù)的可能范圍。該范圍稱為參數(shù)的可信區(qū)間或置信區(qū)間 ,預(yù)先給定的概率稱為可信度或置信度,常取95%或99%。 可信區(qū)間的確切含義指的是:有1- 的可能認(rèn)為計(jì)算出的可信區(qū)間包含了總體參數(shù)。,總體均數(shù)可信區(qū)間(confidence interval)的計(jì)算: 1. 未知:按t分布。 由于P(-t /2, t t /2, )= 1- , ,2. 已知或未知但n足夠大時:按u分布 雙側(cè)可信區(qū)間為: (,)或 (,),均數(shù)的可信區(qū)間與參考值范圍的區(qū)別: 1.意義不同 均數(shù)的可信區(qū)間的統(tǒng)計(jì)意義: (1)按預(yù)先給定的概率,確定的包含總體均數(shù)的可能范圍,因此它用于估計(jì)總體均數(shù)。 (2)可信度要高,但精度不能下降。 參考值范圍的統(tǒng)計(jì)意義: “正常人”的解剖、生理、生化某項(xiàng)指標(biāo)的波動范圍,可以用于判斷觀察對象的某項(xiàng)指標(biāo)正常與否。 2.兩者的計(jì)算公式有差別:可信區(qū)間用了標(biāo)準(zhǔn)誤,參考值范圍用了標(biāo)準(zhǔn)差。,補(bǔ)充題 152例麻疹患兒病后血清抗體滴度倒數(shù)的分布如下,試作總體幾何均數(shù)的點(diǎn)值估計(jì)和95%區(qū)間估計(jì)。 152例麻疹患兒病后血清抗體滴度倒數(shù)的分布,滴度倒數(shù) 1 2 4 8 16 32 64 128 256 512 1024 合計(jì) 人 數(shù) 0 0 1 7 10 31 33 42 24 3 1 152,第六節(jié) SPSS演示,Data Editor Viewer Syntax Editor Script,例2.1 View Variable:,View Data:,定義變量名,變量名最長不超過64個字節(jié); 首字符必須是字母或漢字,不能以_或.結(jié)尾; 變量名中不能有空格或某些特殊符號,如! ? *; 變量名不能與SPSS的關(guān)鍵字相同,如ALL,AND,BY,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH等; 對變量名英文字母的大小寫不作區(qū)分.,Analyze Descriptive StatisticsFrequencies Variable: x Statistics Percentile Values:Quartiles Central Tendency: Mean; Median Dispersion: Std. deviation Distrib

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論