《醫(yī)學統(tǒng)計學》完全版_第1頁
《醫(yī)學統(tǒng)計學》完全版_第2頁
《醫(yī)學統(tǒng)計學》完全版_第3頁
《醫(yī)學統(tǒng)計學》完全版_第4頁
《醫(yī)學統(tǒng)計學》完全版_第5頁
已閱讀5頁,還剩648頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.,第1頁 共654頁,醫(yī)學本科生用 醫(yī) 學 統(tǒng) 計 學,主講 王守英,新鄉(xiāng)醫(yī)學院公共衛(wèi)生學系綜合實驗室 wanshoy,.,第2頁 共654頁,醫(yī)學統(tǒng)計學總目錄,第1章緒論,第2章定量資料統(tǒng)計描述,第3章總體均數的區(qū)間估計和假設檢驗,第4章方差分析,第5章定性資料的統(tǒng)計描述,第6章總體率的區(qū)間估計和假設檢驗,第7章二項分布與泊松分布,第8章秩和檢驗,第9章直線相關與回歸,第10章實驗設計,第11章調查設計,第12章統(tǒng)計表與統(tǒng)計圖,.,第3頁 共654頁,第1章緒論 目錄,第五節(jié) 學習統(tǒng)計學應注意的幾個問題,第二節(jié) 統(tǒng)計工作的基本步驟,第三節(jié) 統(tǒng)計資料的類型,第四節(jié) 統(tǒng)計學中的幾個基本概念,第

2、一節(jié) 醫(yī)學統(tǒng)計學的定義和內容,.,第4頁 共654頁,第一章 緒論 第一節(jié) 醫(yī)學統(tǒng)計學的定義和內容,醫(yī)學統(tǒng)計學(medical statistics) -是以醫(yī)學理論為指導,運用數理統(tǒng)計學的原理和方法研究醫(yī)學資料的搜集、整理與分析,從而掌握事物內在客觀規(guī)律的一門學科。,.,第5頁 共654頁,醫(yī)學研究的對象-主要是人以及與其健康有關的各種影響因素。 醫(yī)學統(tǒng)計學的主要內容 : 1.統(tǒng)計設計 包括實驗設計和調查設計,它可以合理地、科學地安排實驗和調查工作,使之能較少地花費人力、物力和時間,取得較滿意和可靠的結果。 2.資料的統(tǒng)計描述和總體指標的估計 通過計算各種統(tǒng)計指標和統(tǒng)計圖表來描述資料的集中趨

3、勢、離散趨勢和分布特征況(如正態(tài)分布或偏態(tài)分布);利用樣本指標來估計總體指標的大小。,.,第6頁 共654頁,3.假設檢驗 是通過統(tǒng)計檢驗方法(如t檢驗、u檢驗、F檢驗、卡方檢驗、秩和檢驗等)來推斷兩組或多組統(tǒng)計指標的差異是抽樣誤差造成的還是有本質的差別。 4.相關與回歸 醫(yī)學中存在許多相互聯系、相互制約的現象。如兒童的身高與體重、胸圍與肺活量、血糖與尿糖等,都需要利用相關與回歸來分析。,.,第7頁 共654頁,5.多因素分析 如多元回歸、判別分析、聚類分析、正交設計分析、主成分分析、因子分析、logistic回歸、Cox比例風險回歸等,都是分析醫(yī)學中多因素有效的方法(本書不涉及,請參考有關統(tǒng)

4、計書籍)。這些方法計算復雜,大部分需借助計算機來完成。 6.健康統(tǒng)計 研究人群健康的指標與統(tǒng)計方法,除了用上述的某些方法外,他還有其特有的方法,如壽命表、生存分析、死因分析、人口預測等方法,.,第8頁 共654頁,醫(yī)學統(tǒng)計工作可分為四個步驟: 統(tǒng)計設計、搜集資料、整理資料和分析資料。 這四個步驟密切聯系,缺一不可,任何一個步驟的缺陷和失誤,都會影響統(tǒng)計結果的正確性。,第二節(jié) 統(tǒng)計工作的基本步驟,.,第9頁 共654頁,設計(design)是統(tǒng)計工作的第一步,也是關鍵的一步,是對統(tǒng)計工作全過程的設想和計劃安排。 統(tǒng)計設計就是根據研究目的確定試驗因素、受試對象和觀察指標,并在現有的客觀條件下決定用

5、什么方式和方法來獲取原始資料,并對原始資料如何進行整理,以及整理后的資料應該計算什么統(tǒng)計指標和統(tǒng)計分析的預期結果如何等。,一、統(tǒng)計設計,.,第10頁 共654頁,搜集資料(collection of date) 是根據設計的要求,獲取準確可靠的原始資料,是統(tǒng)計分析結果可靠的重要保證。 醫(yī)學統(tǒng)計資料的來源主要有以下三個方面: 1.統(tǒng)計報表 統(tǒng)計報表是醫(yī)療衛(wèi)生機構根據國家規(guī)定的報告制度,定期逐級上報的有關報表。如法定傳染病報表、出生死亡報表、醫(yī)院工作報表等,報表要完整、準確、及時。,二、搜集資料,.,第11頁 共654頁,2.醫(yī)療衛(wèi)生工作記錄 如病歷、醫(yī)學檢查記錄、衛(wèi)生監(jiān)測記錄等。 3.專題調查或

6、實驗研究 它是根據研究目的選定的專題調查或實驗研究,搜集資料有明確的目的與針對性。它是醫(yī)學科研資料的主要來源。,.,第12頁 共654頁,整理資料(sorting data)的目的就是將搜集到的原始資料進行反復核對和認真檢查,糾正錯誤,分類匯總,使其系統(tǒng)化、條理化,便于進一步的計算和分析。整理資料的過程如下: 1.審核:認真檢查核對,保證資料的準確性和完整性。 2.分組:歸納分組,分組方法有兩種: 質量分組,即將觀察單位按其類別或屬性分組,如按性別、職業(yè)、陽性和陰性等分組。 數量分組,即將觀察單位按其數值的大小分組,如按年齡的大小、藥物劑量的大小等分組。,三、整理資料,.,第13頁 共654頁

7、,3.匯總: 分組后的資料要按照設計的要求進行 匯總,整理成統(tǒng)計表。原始資料較少時用手工匯 總,當原始資料較多時,可使用計算機匯總。 四、分析資料 分析資料(analysis of data) 是根據設計的要求,對整理后的數據進行統(tǒng)計學分析,結合專業(yè)知識,作出科學合理的解釋。,.,第14頁 共654頁,1.統(tǒng)計描述(descriptive statistics) 將計算出的統(tǒng)計指標與統(tǒng)計表、統(tǒng)計圖相結合,全面描述資料的數量特征及分布規(guī)律。 2.統(tǒng)計推斷(inferential statistics) 使用樣本信息推斷總體特征。通過樣本統(tǒng)計量進行總體參數的估計和假設檢驗,以達到了解總體的數量特征

8、及其分布規(guī)律,才是最終的研究目的。,統(tǒng)計分析包括以下兩大內容:,.,第15頁 共654頁,醫(yī)學統(tǒng)計資料按研究指標的性質一般分為定量資料、定性資料和等級資料三大類。 一、定量資料 定量資料(quantitative data) 亦稱計量資料(measurement data),是用定量的方法測定觀察單位(個體)某項指標數值的大小,所得的資料稱定量資料。如身高()、體重()、脈搏(次/分)、血壓(kPa)等為數值變量,其組成的資料為定量資料。,第三節(jié) 統(tǒng)計資料的類型,.,第16頁 共654頁,定性資料(qualitative data) 亦稱計數資料(enumeration data)或分類資料(

9、categorical data),是將觀察單位按某種屬性或類別分組,清點各組的觀察單位數,所得的資料稱定性資料。 定性資料的觀察指標為分類變量(categorical variable)。如人的性別按男、女分組;化驗結果按陽性、陰性分組;動物實驗按生存、死亡分組;調查某人群的血型按A、B、O、AB分組等,觀察單位出現的結果為分類變量,分類變量沒有量的差別,只有質的不同,其組成的資料為定性資料。,二、定性資料,.,第17頁 共654頁,三、等級資料,等級資料(ranked data)亦稱有序分類資料(ordinal categorical data),是將觀察單位按屬性的等級分組,清點各組的觀

10、察單位數,所得的資料為等級資料。 如治療結果分為治愈、顯效、好轉、無效四個等級。,.,第18頁 共654頁,根據需要,各類變量可以互相轉化。若按貧血的診斷標準將血紅蛋白分為四個等級:重度貧血、中度貧血、輕度貧血、正常,可按等級資料處理。有時亦可將定性資料或等級資料數量化,如將等級資料的治療結果賦以分值,分別用0、1、2等表示,則可按定量資料處理。 如調查某人群的尿糖的情況,以人為觀察單位,結果可分、五個等級。,.,第19頁 共654頁,同質(homogeneity) 是指觀察單位或研究個體間被研究指標的主要影響因素相同或基本相同。如研究兒童的生長發(fā)育,同性別、同年齡、同地區(qū)、同民族、健康的兒童

11、即為同質兒童。 變異(variation) 由于生物個體的各種指標所受影響因素極為復雜,同質的個體間各種指標存在差異,這種差異稱為變異。如同質的兒童身高、體重、血壓、脈搏等指標會有一定的差別。,第四節(jié) 統(tǒng)計學中的幾個基本概念 一、同質與變異,.,第20頁 共654頁,二、總體與樣本,樣本(sample):是從總體中隨機抽取的部分觀察單位變量值的集合。樣本的例數稱為樣本含量(sample size)。 注意: 1??傮w是相對的,總體的大小是根據研究目的而確定的。 2。樣本應有代表性,即應該隨機抽樣并有足夠的樣本含量。,.,第21頁 共654頁,圖示:總體與樣本,population,sample

12、2,sample1,sample3,sample4,sample5,.,第22頁 共654頁,三、參數與統(tǒng)計量,參數(parameter):由總體計算或得到的統(tǒng)計指標稱為參數??傮w參數具有很重要的參考價值。如總體均數,總體標準差等。 統(tǒng)計量(statistic):由樣本計算的指標稱為統(tǒng)計量。如樣本均數,樣本標準差s等。 注意:一般不容易得到參數,而容易獲得樣本統(tǒng)計量。,.,第23頁 共654頁,四、抽樣誤差,抽樣誤差(sample error): 由于隨機抽樣所引起的樣本統(tǒng)計量與總體參數之間的差異以及樣本統(tǒng)計量之間的差別稱為抽樣誤差。如樣本均數與總體均數之間的差別,樣本率與總體率的差別等。 注

13、意:抽樣誤差是不可避免的。無論抽樣抽得多么好,也會存在抽樣誤差。,.,第24頁 共654頁,五、概率,概率(probability):是描述隨機事件發(fā)生可能性大小的量值。用英文大寫字母P來表示。概率的取值范圍在01之間。當P0時,稱為不可能事件;當P1時,稱為必然事件。 小概率事件:統(tǒng)計學上一般把P0.05或P0.01的事件稱為小概率事件。 小概率原理:小概率事件在一次試驗中幾乎不可能發(fā)生。利用該原理可對科研資料進行假設檢驗。,.,第25頁 共654頁,第五節(jié) 學習醫(yī)學統(tǒng)計學應注意的問題,1.重點掌握醫(yī)學統(tǒng)計學的基本知識、基本技能、基本概念和基本方法,掌握使用范圍和注意事項。 2.要培養(yǎng)科學的

14、統(tǒng)計思維方法,提高分析問題、解決問題的能力。 3.掌握調查設計和實驗設計的原則,培養(yǎng)搜集、整理、分析統(tǒng)計資料的系統(tǒng)工作能力。,.,第26頁 共654頁,課后作業(yè),列舉出計量資料、分類資料、等級資料各10個實例。 列舉出可能事件、必然事件、不可能事件及小概率事件各10個。 認真復習本章已學過的基本概念23遍。,.,第27頁 共654頁,Best Wishes to All of You! Thank You for Listening!,THE END,.,第28頁,醫(yī)學本科生用,主講 王守英,新鄉(xiāng)醫(yī)學院公共衛(wèi)生學系綜合實驗室 wanshoy,醫(yī)學統(tǒng)計學,.,第29頁,第2章定量資料的統(tǒng)計描述

15、目錄,第二節(jié) 集中趨勢的描述,第三節(jié) 離散趨勢的描述,第四節(jié) 正態(tài)分布,第一節(jié) 頻數分布表,.,第30頁,統(tǒng)計描述:是用統(tǒng)計圖表、統(tǒng)計指標來描述資料的分布規(guī)律及其數量特征。 頻數分布表(frequency distribution table):主要由組段和頻數兩部分組成表格。,第一節(jié) 頻數分布表,第二章 定量資料的統(tǒng)計描述,.,第31頁,二、頻數分布表的編制,編制步驟 : 1. 計算全距 (range): 一組變量值最大值和最小值之差稱為全距(range),亦稱極差,常用R表示。 2. 確定組距(class interval): 組距用i表示; 3. 劃分組段: 每個組段的起點稱組下限,終點

16、稱組上限。一般分為815組。 ; 4. 統(tǒng)計頻數: 將所有變量值通過劃記逐個歸入相應組段 ; 5.頻率與累計頻率: 將各組的頻數除以n所得的比值被稱為頻率。累計頻率等于累計頻數除以總例數。,.,第32頁,表2-2 某年某市120名12歲健康男孩身高(cm)的頻數分布,.,第33頁,.,第34頁,二、頻數分布表的用途,1.揭示資料的分布類型 2.觀察資料的集中趨勢和離散趨勢 3.便于發(fā)現某些特大或特小的可疑值 4.便于進一步計算統(tǒng)計指標和作統(tǒng)計處理,.,第35頁,.,第36頁,第二節(jié) 集中趨勢的描述,集中趨勢 :代表一組同質變量值的集中趨勢 或平均水平。 常用的平均數有算術均數、幾何均數和中位數

17、。 另外不常用的有:眾數,調和平均數和調整均數等。,.,第37頁,一、算術均數,算術均數 (arithmetic mean): 簡稱均數。 適用條件:對稱分布或近似對稱分布的資料。 習慣上以希臘字母表示總體均數(population mean),以英文字母表示樣本均數(sample mean),.,第38頁,1. 直接法:用于觀察值個數不多時,計算方法,.,第39頁,2.加權法(weighting method):用于變量值個數 較多時。,注意:權數即頻數f,為權重權衡之意。,.,第40頁,表2-4 120名12歲健康男孩身高(cm)均數和標準差加權法計算表,.,第41頁,.,第42頁,120

18、名12歲健康男孩身高均數為143.07cm。,計算結果,.,第43頁,幾何均數(geometric mean,簡記為):表示其平均水平。 適用條件:對于變量值呈倍數關系或呈對數正態(tài)分布(正偏態(tài)分布),如抗體效價及抗體滴度,某些傳染病的潛伏期,細菌計數等。 計算公式:有直接法和加權法。,二、幾何均數,.,第44頁,1.直接法: 用于變量值的個數n較少時,.,第45頁,直接法計算實例,.,第46頁,2.加權法 : 用于資料中相同變量值的個數f(即頻數)較多時。,.,第47頁,表2-5 50名兒童麻疹疫苗接種后血凝抑制抗體滴度幾何均數計算表,.,第48頁,.,第49頁,50名兒童麻疹疫苗接種后平均血

19、凝抑制抗體滴度為1:60.55。,計算結果:將有關已知數據代入公式有,.,第50頁,變量值中不能有0; 不能同時有正值和負值; 若全是負值,計算時可先把負號去掉,得出結果后再加上負號。,計算幾何均數注意事項:,.,第51頁,中位數 定義:將一組變量值從小到大按順序排列,位次居中的變量值稱為中位數(median,簡記為M)。 適用條件:變量值中出現個別特小或特大的數值;資料的分布呈明顯偏態(tài),即大部分的變量值偏向一側;變量值分布一端或兩端無確定數值,只有小于或大于某個數值;資料的分布不清。,三、中位數及百分位數,.,第52頁,定義:百分位數(percentile)是一種位置指標,以Px表示。百分位

20、數是將頻數等分為一百的分位數。一組觀察值從小到大按順序排列,理論上有x%的變量值比Px小,有(100-x)%的變量值比Px大。故P50分位數也就是中位數,即P50=M 。, 百分位數,.,第53頁,描述一組資料在某百分位置上的水平; 用于確定正常值范圍; 計算四分位數間距。,百分位數的應用條件:,.,第54頁,計算方法:有直接法和加權法,1.直接法:用于例數較少時,n為奇數時,n為偶數時,.,第55頁,2.頻數表法: 用于例數較多時,中位數,百分位數,.,第56頁,表2-6 145例食物中毒病人潛伏期分布表,.,第57頁,.,第58頁,先找到包含Px的最小累計頻率; 該累計頻率同行左邊的組段值

21、為L; L同行右邊的頻數為fx(或fm); L前一行的累計頻數為fL; 將上述已知條件代入公式計算Px或P50 。,計算中位數及百分位數的步驟:,.,第59頁,計算結果:,.,第60頁,定義:用來說明變量值的離散程度或變異程度。 注意:僅用集中趨勢尚不能完全反映一組數據的特征。故應將集中趨勢和離散趨勢結合起來才能更好地反映一組數據的特征。 常用離散指標有:極差、四分位數間距、標準差、方差、變異系數。,第三節(jié) 離散趨勢的描述,.,第61頁,甲組: 184 186 188 190 192 乙組: 180 184 188 192 196 兩組球員的平均身高都是188cm,但甲組球員身高比較集中,乙組

22、球員身高比較分散。為了說明離散趨勢,就要用離散指標。,實例分析,.,第62頁,極差 極差(range,簡記為R)亦稱全距,即一組變量值中最大值與最小值之差 。 特點:計算簡單,不穩(wěn)定,不全面,易變化;可用于各種分布的資料。,一、極差和四分位數間距,.,第63頁,四分位數間距,公式: Q= P75P25 特點:比極差穩(wěn)定,只反映中間兩端值的差異。 計算不太方便??捎糜诟鞣N分布的資料。,.,第64頁,二、方差和標準差,方差(variance),總體方差,樣本方差,.,第65頁,自由度(degree of freedom)的概念,n-1是自由度,用希臘小寫字母表示,讀作nju:。 定義:在N維或N度

23、空間中能夠自由選擇的維數或度數。 例:ABC,共有n=3個元素,其中只能任選2個元素的值,故自由度n-1=3-1=2。,.,第66頁,方差的特點,充分反映每個數據間的離散狀況,意義深刻; 指標穩(wěn)定,應用廣泛,但計算較為復雜,不易理解; 方差的單位與原數據不同,有時使用時不太方便; 在方差分析中應用甚廣而極為重要。,.,第67頁,(二)標準差(standard deviation),總體標準差,樣本標準差,.,第68頁,牢記:離均差平方和展開式:,.,第69頁,標準差的特點:,意義同方差,是方差的開平方; 標準差的單位與原數據相同,使用方便,意義深刻,應用廣泛;故一般已作為醫(yī)學生物學領域中反映變

24、異的標準,故稱標準差。,.,第70頁,標準差的計算方法:可分為直接法和加權法。,1.直接法,2.加權法,.,第71頁,直接法:標準差計算實例:,例2.12 例2.2中7名正常男子紅細胞數(1012/L)如下:4.67, 4.74, 4.77, 4.88,4.76, 4.72, 4.92,計算其標準差。 x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46 x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99,.,第72頁,計算結果:,.,第73頁,例2.13 對表2-4資料用加權法計算120名12歲健康男孩身高值

25、的標準差。,加權法:標準差計算實例:,在表2-4中已算得fx=17168,fx2 =2460040, 代入公式,.,第74頁,變異系數(coefficient of variation): 簡記為CV ; 特征:變異系數為無量綱單位,可以比較不同單位指標間的變異度;變異系數消除了均數的大小對標準差的影響,所以可以比較兩均數相差較大時指標間的變異度。,三、變異系數,.,第75頁,例2.14 某地20歲男子160人,身高均數為166.06cm,標準差為4.95cm; 體重均數為53.72kg, 標準差為4.96kg。試比較身高與體重的變異程度。,變異系數 計算實例,.,第76頁,身高,體重,變異系

26、數 計算結果,.,第77頁,第四節(jié) 正態(tài)分布,一、正態(tài)分布的概念和特征,正態(tài)分布(normal distribution):也稱高斯分布,是醫(yī)學和生物學最常見的連續(xù)性分布。如身高、體重、紅細胞數、血紅蛋白等。,.,第78頁,圖2-1 120名12歲健康男孩身高的頻數分布,.,第79頁, 正態(tài)分布的函數和圖形,正態(tài)分布的密度函數,即正態(tài)曲線的方程為:,.,第80頁,圖2-2 頻數分布逐漸接近正態(tài)分布示意,.,第81頁,為了應用方便,常按公式(2.19)作變量變換,u值稱為標準正態(tài)變量或標準正態(tài)離差,有的參考書也將u值稱為z值。,.,第82頁,這樣將正態(tài)分布變換為標準正態(tài)分布 (standard

27、normal distribution),.,第83頁,圖2-3 正態(tài)分布的面積與縱高,.,第84頁,正態(tài)分布的特征,1. 集中性 正態(tài)曲線的高峰位于正中央, 即均數所在的位置。 對稱性 正態(tài)曲線以均數為中心,左右對稱, 3. 正態(tài)分布有兩個參數,即均數和標準差。 4. 正態(tài)曲線下面積有一定的分布規(guī)律,.,第85頁,圖2-4 不同標準差的正態(tài)分布示意,.,第86頁,二、正態(tài)曲線下面積的分布規(guī)律,.,第87頁,標準正態(tài)分布表(u值表),標準正態(tài)分布曲線下的面積,由此表可查出曲線下某區(qū)間的面積。查表時應注意: 表中曲線下面積為-到u 的下側累計面積; 當已知、和X時,先按公式(2.19)求得u值,

28、再查表;當和未知時,并且樣本例數在100例以上,常用樣本均數和標準差S分別代替和 ,按公式(2.19)求得u值; 曲線下橫軸上的總面積為100%或1,.,第88頁,例2.16 前例2.1中,某年某市120名12歲健康男孩身高,已知均數=143.07cm,標準差S=5.70cm, 估計該地12歲健康男孩身高在135cm以下者占該地12歲男孩總數的百分數; 估計身高界于135cm150cm范圍內12歲男孩的比例; 分別求出均數1S、均數1.96S、均數2.58S范圍內12歲男孩人數占該120名男孩總數的實際百分數,說明與理論百分數是否接近。,.,第89頁,根據題意,按公式(2.19)作u變換,.,

29、第90頁,身高范圍所占面積,故估計該地12男孩身高在135cm以下者約占7.78; 身高界于135cm150cm范圍內者約占81.10。,.,第91頁,三、正態(tài)分布的應用,制定醫(yī)學參考值范圍 參考值范圍也稱為正常值范圍。醫(yī)學上常把絕大數正常人的某指標范圍稱為該指標的正常值范圍。這里的“絕大多數”可以是90、95、99,最常用的是95。 質量控制 常以均數2S作為上、下警戒值,以均數3S作為上、下控制值。 正態(tài)分布是很多統(tǒng)計方法的理論基礎,.,第92頁,THE END,THANK YOU FOR LISTENING,.3章總體均數的區(qū)間估計和假設檢驗,第93頁,本科生用 醫(yī)學統(tǒng)計學教案,主講 王

30、守英,新鄉(xiāng)醫(yī)學院公共衛(wèi)生學系綜合實驗室 wanshoy,.3章總體均數的區(qū)間估計和假設檢驗,第94頁,第3章總體均數的區(qū)間估計和假設檢驗 目錄,第五節(jié) 均數的 u 檢驗,第二節(jié) t 分布,第三節(jié) 總體均數的區(qū)間估計,第四節(jié) 假設檢驗的意義和基本步驟,第一節(jié) 均數的抽樣誤差與標準誤,第六節(jié) 均數的 t 檢驗,第七節(jié)兩個方差的齊性檢驗和t檢驗,第八節(jié) 型錯誤和型錯誤,第九節(jié) 應用假設檢驗應注意的問題,.3章總體均數的區(qū)間估計和假設檢驗,第95頁,圖示:總體與樣本,Population ,sample2,sample1,sample3,sample4,sample5,.3章總體均數的區(qū)間估計和假設檢

31、驗,第96頁,一、標準誤的意義及其計算 統(tǒng)計推斷(statistical inference) :根據樣本信息來推論總體特征。 均數的抽樣誤差 :由抽樣引起的樣本均數與總體均數的差異稱為均數的抽樣誤差。 標準誤(standard error):反映均數抽樣誤差大小的指標。,第一節(jié) 均數的抽樣誤差與標準誤,.3章總體均數的區(qū)間估計和假設檢驗,第97頁,已知:,標準誤計算公式,未知:,.3章總體均數的區(qū)間估計和假設檢驗,第98頁,實例:如某年某市120名12歲健康男孩,已求得 均數為143.07cm,標準差為5.70cm,按公式計算,則標準誤為:,.3章總體均數的區(qū)間估計和假設檢驗,第99頁,1.

32、表示抽樣誤差的大小 ; 2.進行總體均數的區(qū)間估計; 3.進行均數的假設檢驗等 。,二、標準誤的應用,.3章總體均數的區(qū)間估計和假設檢驗,第100頁,正態(tài)變量X采用u(X)/變換,則一般的正態(tài)分布N (,)即變換為標準正態(tài)分布N (0,1)。 又因從正態(tài)總體抽取的樣本均數服從正態(tài)分布 N(, ),同樣可作正態(tài)變量的u變換,即,第二節(jié) t 分布 一、t 分布的概念,.3章總體均數的區(qū)間估計和假設檢驗,第101頁,實際工作中由于理論的標準誤往往未知,而用樣本的標準誤作為的估計值, 此時就不是u變換而是t變換了,即下式:,.3章總體均數的區(qū)間估計和假設檢驗,第102頁,t分布于1908年由英國統(tǒng)計學

33、家W.S.Gosset以“Student”筆名發(fā)表,故又稱Student t 分布(Students t-distribution)。,.3章總體均數的區(qū)間估計和假設檢驗,第103頁,二、t分布曲線的特征,t分布曲線是單峰分布,以0為中心,左右兩側對稱, 曲線的中間比標準正態(tài)曲線(u分布曲線)低,兩側翹得比標準正態(tài)曲線略高。 t分布曲線隨自由度而變化,當樣本含量越?。▏栏竦卣f是自由度 =n-1越?。?,t分布與u分布差別越大;當逐漸增大時,t分布逐漸逼近于u分布,當 =時,t分布就完全成正態(tài)分布 。 t分布曲線是一簇曲線,而不是一條曲線。 t分布下面積分布規(guī)律:查t分布表。,.3章總體均數的區(qū)間

34、估計和假設檢驗,第104頁,t 分布示意圖,.3章總體均數的區(qū)間估計和假設檢驗,第105頁,t分布曲線下雙側或單側尾部合計面積,我們常把自由度為的t分布曲線下雙側尾部合計面積或單側尾部面積為指定值時,則橫軸上相應的t界值記為t,。如當 =20, =0.05時,記為t0.05, 20;當 =22, =0.01時,記為t0.01, 22。對于t, 值,可根據和值,查附表2,t界值表。,.3章總體均數的區(qū)間估計和假設檢驗,第106頁,t分布是t檢驗的理論基礎。由公式(3.4)可知,t值與樣本均數和總體均數之差成正比,與標準誤成反比 。 在t分布中t值越大,其兩側或單側以外的面積所占曲線下總面積的比重

35、就越小 ,說明在抽樣中獲得此t值以及更大t值的機會就越小,這種機會的大小是用概率P來表示的。 t值越大,則P值越小;反之,t值越小,P值越大。根據上述的意義,在同一自由度下,t t ,則P ; 反之,tt,則P。,.3章總體均數的區(qū)間估計和假設檢驗,第107頁,第三節(jié) 總體均數的區(qū)間估計,參數估計:用樣本指標(統(tǒng)計量)估計總體指標(參數)稱為參數估計。 估計總體均數的方法有兩種,即: 點值估計(point estimation ) 區(qū)間估計(interval estimation)。,.3章總體均數的區(qū)間估計和假設檢驗,第108頁,一、點值估計,點值估計:是直接用樣本均數作為總體均數的估計值。

36、 此法計算簡便,但由于存在抽樣誤差,通過樣本均數不可能準確地估計出總體均數大小,也無法確知總體均數的可靠程度 。,.3章總體均數的區(qū)間估計和假設檢驗,第109頁,二、區(qū)間估計,區(qū)間估計是按一定的概率(1-)估計包含總體均數可能的范圍,該范圍亦稱總體均數的可信區(qū)間(confidence interval,縮寫為CI)。 1-稱為可信度,常取1-為0.95和0.99,即總體均數的95%可信區(qū)間和99%可信區(qū)間。 1-(如95)可信區(qū)間的含義是:總體均數被包含在該區(qū)間內的可能性是1-,即(95),沒有被包含的可能性為,即(5)。,.3章總體均數的區(qū)間估計和假設檢驗,第110頁,總體均數的可信區(qū)間的計

37、算,1.未知且n較小(n100),可用u檢驗。不同的統(tǒng)計檢驗方法,可得到不同的統(tǒng)計量,如t 值和u值。,.3章總體均數的區(qū)間估計和假設檢驗,第121頁,4.確定概率P值 P值是指在H0所規(guī)定的總體中作隨機抽樣,獲得等于及大于(或小于)現有統(tǒng)計量的概率。 t t, ,則P ;t 。,.3章總體均數的區(qū)間估計和假設檢驗,第122頁,5.作出推斷結論 當P時,表示在H0成立的條件下,出現等于及大于現有統(tǒng)計量的概率是小概率,根據小概率事件原理,現有樣本信息不支持H0,因而拒絕H0,結論為按所取檢驗水準拒絕H0,接受H1,即差異有統(tǒng)計學意義,如例3.3 可認為兩總體脈搏均數有差別; 當P時,表示在H0成

38、立的條件下,出現等于及大于現有統(tǒng)計量的概率不是小概率,現有樣本信息還不能拒絕H0,結論為按所取檢驗水準不拒絕H0,即差異無統(tǒng)計意義,如例3.3 尚不能認為兩總體脈搏均數有差別。,.3章總體均數的區(qū)間估計和假設檢驗,第123頁,下結論時的注意點:,P ,拒絕H0,不能認為H0肯定不成立,因為雖然在H0成立的條件下出現等于及大于現有統(tǒng)計量的概率雖小,但仍有可能出現; 同理,P ,不拒絕H0,更不能認為H0肯定成立。由此可見,假設檢驗的結論是具有概率性的,無論拒絕H0或不拒絕H0,都有可能發(fā)生錯誤,即第一類錯誤或第二類錯誤,.3章總體均數的區(qū)間估計和假設檢驗,第124頁,第五節(jié) 均數的u檢驗,國外統(tǒng)

39、計書籍及統(tǒng)計軟件亦稱為單樣本u檢驗(one sample u-test)。 樣本均數與總體均數比較的u檢驗適用于: 總體標準差已知的情況; 樣本含量較大時,比如n100時。對于后者,是因為n較大,也較大,則t分布很接近u分布的緣故。,一、樣本均數與總體均數比較的u檢驗,.3章總體均數的區(qū)間估計和假設檢驗,第125頁,u 值的計算公式為:,總體標準差已知 時,不管n的大小。,總體標準差未知 時,但n100時。,.3章總體均數的區(qū)間估計和假設檢驗,第126頁,例3.4 某托兒所三年來測得2124月齡的47名男嬰平均體重11kg。查得近期全國九城市城區(qū)大量調查的同齡男嬰平均體重11.18kg,標準差

40、為1.23kg。問該托兒所男嬰的體重發(fā)育狀況與全國九城市的同期水平有無不同?(全國九城市的調查結果可作為總體指標),實 例,.3章總體均數的區(qū)間估計和假設檢驗,第127頁,(1)建立檢驗假設 H0: 0 ,即該托兒所男嬰的體重發(fā)育狀況與全國九城市的同期水平相同, 0.05(雙側) H1: 0 ,即該托兒所男嬰的體重發(fā)育狀況與全國九城市的同期水平不同。 (2)計算u值 本例因總體標準差已知,故可用u檢驗。 本例n=47, 樣本均數=11, 總體均數=11.18,總體標準差=1.23, 代入公式(3.7),.3章總體均數的區(qū)間估計和假設檢驗,第128頁,(3)確定P值,作出推斷結論 查u界值表(附

41、表2,t界值表中為一行),得u0.05=1.96,u=1.0030.05。按=0.05水準,不拒絕H0,差異無統(tǒng)計學意義。 結論:可認為該托兒所男嬰的體重發(fā)育狀況與全國九城市的同期水平相同。,.3章總體均數的區(qū)間估計和假設檢驗,第129頁,二、兩樣本均數比較的u檢驗,該檢驗也稱為獨立樣本u檢驗(independent sample u-test),適用于兩樣本含量較大(如n150且n250)時,u值可按下式計算:,.3章總體均數的區(qū)間估計和假設檢驗,第130頁,例3.5 測得某地2024歲健康女子100人收縮壓均數為15.27kPa,標準差為1.16kPa;又測得該地2024歲健康男子100人

42、收縮壓均數為16.11kPa,標準差為1.41kPa。問該地2024歲健康女子和男子之間收縮壓均數有無差別?,實 例,.3章總體均數的區(qū)間估計和假設檢驗,第131頁,(1)建立檢驗假設 H0:1 2 ,即該地2024歲健康女子和男子之間收縮壓均數相同; H1: 12 ,即該地2024歲健康女子和男子之間收縮壓均數不同。 0.05(雙側) (2)計算u值 本例 n1=100, 均數1=15.27, S1=1.16 n2=100, 均數2=16.11, S2=1.41,.3章總體均數的區(qū)間估計和假設檢驗,第132頁,(3)確定P值,作出推斷結論 查u界值表(附表2,t界值表中為一行),得u0.05

43、=1.96,現uu0.05=1.96,故P0.05。按水準 =0.05,拒絕H0,接受H1,差異有統(tǒng)計學意義。 結論:可認為該地2024歲健康人的收縮壓均數男性高于女性。,.3章總體均數的區(qū)間估計和假設檢驗,第133頁,第六節(jié) 均數的 t 檢驗,當樣本含量較?。ㄈ鏽 F 0.05,7,9=4.20; 故P0.05, 按=0.05 水準,拒絕H0, 接受H1, 結論:故可認為兩總體方差不齊。,.3章總體均數的區(qū)間估計和假設檢驗,第157頁,方差不齊時,兩小樣本均數的比較,可選用以下方法: 采用適當的變量變換,使達到方差齊的要求; 采用秩和檢驗; 采用近似法t 檢驗。,二、t 檢驗,.3章總體均數

44、的區(qū)間估計和假設檢驗,第158頁,計算統(tǒng)計量t 值,.3章總體均數的區(qū)間估計和假設檢驗,第159頁,例3.12 由例3.11已知表層水和深層水含汞量方差不齊,試比較其均數有無差別? 自學內容,.3章總體均數的區(qū)間估計和假設檢驗,第160頁,假設檢驗中作出的推斷結論可能發(fā)生兩種錯誤: 拒絕了實際上是成立的H0,這叫型錯誤(typeerror)或第一類錯誤,也稱為錯誤。 不拒絕實際上是不成立的H0,這叫型錯誤(typeerror)或第二類錯誤,也稱為錯誤。,第八節(jié) 型錯誤和型錯誤,.3章總體均數的區(qū)間估計和假設檢驗,第161頁,表3-6 可能發(fā)生的兩類錯誤,.3章總體均數的區(qū)間估計和假設檢驗,第1

45、62頁,.3章總體均數的區(qū)間估計和假設檢驗,第163頁,聯系:一般增大,則減?。?減小,則增大; 區(qū)別: (1)一般為已知,可取單側或雙側,如0.05,或0.01。 (2)一般為未知,只取單側,如取0.1或0.2。1 (把握度)0.75。,兩類錯誤的聯系與區(qū)別,.3章總體均數的區(qū)間估計和假設檢驗,第164頁,1-稱為檢驗效能(power of test)或把握度,其意義是兩總體確有差別,按水準能發(fā)現它們有差別的能力。 與的大小應根據實際情況適當取值。,.3章總體均數的區(qū)間估計和假設檢驗,第165頁,1.資料要來自嚴密的抽樣研究設計 2.選用假設檢驗的方法應符合其應用條件 3.正確理解差別有無顯

46、著性的統(tǒng)計涵義 正確理解差別有統(tǒng)計學意義 及臨床上的差別的統(tǒng)計學意義。 4.假設檢驗的推斷結論不能絕對化 5.要根據資料的性質事先確定采用雙側檢驗或單側檢驗,第九節(jié) 應用假設檢驗的注意問題,.3章總體均數的區(qū)間估計和假設檢驗,第166頁,THANK YOU FOR LISTENING,THE END,.,第167頁,醫(yī)學本科生用,新鄉(xiāng)醫(yī)學院公共衛(wèi)生學系綜合實驗室 wanshoy,主 講 王守英,醫(yī)學統(tǒng)計學,.,第168頁,第4章 方差分析 目錄,第五節(jié) 多個方差的齊性檢驗,第二節(jié) 單因素方差分析,第三節(jié) 雙因素方差分析,第四節(jié) 多個樣本均數間的兩兩比較,第一節(jié) 方差分析的基本思想,第六節(jié) 變量

47、變換,.,第169頁,第四章 方差分析,學習要求: 1。掌握方差分析的基本思想; 2。掌握單因素、雙因素方差分析的應用條件、意義及計 算方法; 3。熟悉多個均數間兩兩比較的意義及方法; 4。了解方差齊性檢驗和t檢驗的意義及方法; 5。熟悉變量變換的意義和方法。,.,第170頁,第一節(jié) 方差分析的基本思想,一、方差分析的用途及應用條件 方差分析(analysis of variance,縮寫為ANOVA) 是常用的統(tǒng)計分析方法之一。其應用廣泛,分析效率高,節(jié)省樣本含量。 主要用途有: 進行兩個或兩個以上樣本均數的比較; 可以同時分析一個、兩個或多個因素對試驗結果的作用和影響; 分析多個因素的獨立

48、作用及多個因素之間的交互作用; 進行兩個或多個樣本的方差齊性檢驗等。 方差分析對分析數據的要求及條件比較嚴格,即要求各樣本為隨機樣本,各樣本來自正態(tài)總體,各樣本所代表的總體方差齊性或相等。,.,第171頁,二、方差分析的基本思想 處理因素可分為若干個等級或不同類型,通常稱為水平。在不同的水平下進行若干次試驗并取得多個數據,可以將在每個水平下取得的這些數據看作一個樣本。若某個因素有四個水平,每個水平的數據代表一個樣本,則獲得四個樣本的數據。 設有k個相互獨立的樣本,分別來自k個正態(tài)總體X1,X2,Xk,且方差相等, 即要求檢驗假設為 此假設的意義為,在某處理因素的不同水平下,各樣本的總體均數相等

49、。,.,第172頁,1。設某因素有多個水平,即試驗數據產生多個樣本。由多個樣本的全部數據可以計算出總變異,稱為總的離均差平方和。即SS總。 2。數理統(tǒng)計證明,SS總可以由幾個部分構成。單因素方差分析中, SS總由組間變異和組內變異構成。 SS總SS組間SS組內。 3。組間變異主要受到處理因素和個體誤差兩方面影響,組內變異主要受個體誤差的影響。當H0 為真時,由于處理因素不起作用,組間變異只受個體誤差的影響。此時,組間變異與組內變異相差不能太大。,.,第173頁,表42 PCNA在三種不同胃組織中的表達結果,.,第174頁,4。各種變異除以相應的自由度,稱為均方,用MS表示,也就是方差。當H0為

50、真時,組間均方與組內均方相差不大,兩者比值F值約接近于1。 即 F組間均方組內均方1。 5。當H0不成立時,處理因素產生了作用,使得組間均方增大,此時,F1,當大于等于F臨界值時,則P0.05??烧J為H0不成立,各樣本均數不全相等。,.,第175頁,三、方差分析的類型 1。單因素方差分析(one-way ANOVA) 也稱為完全隨機設計(completely random design)的方差分析。該設計只能分析一個因素下多個水平對試驗結果的影響。 2。雙因素方差分析(two-way ANOVA) 稱為隨機區(qū)組設計(randomized block design)的方差分析。該設計可以分析兩個

51、因素。一個為處理因素,也稱為列因素;一個為區(qū)組因素,也稱為行因素。,.,第176頁,3。三因素方差分析 也稱為拉丁方設計(Latin square design)的方差分析。該設計特點是,可以同時分析三個因素對試驗結果的作用,且三個因素之間相互獨立,不能有交互作用。 4。析因設計(factorial design)的方差分析 當兩個因素或多個因素之間存在相互影響或交互作用時,可用該設計來進行分析。該設計不僅可以分析多個因素的獨立作用,也可以分析多個因素間的交互作用,是一種高效率的方差分析方法。,.,第177頁,5。正交試驗設計的方差分析 如果要分析的因素有三個或三個以上,可進行正交試驗設計(o

52、rthogonal experimental design)的方差分析。當分析因素較多時,試驗次數會急劇增加,用此設計進行分析則更能體現出其優(yōu)越性。該設計利用正交表來安排各次試驗,以最少的試驗次數,得到更多的分析結果。,.,第178頁,四、方差分析的基本步驟 1。計算總變異:指所有試驗數據的離均差平方和。,2。計算各部分變異 :單因素方差分析中,可以分出組間變異(SS組間)和組內變異(SS組內);雙因素方差分析中,可以分出處理組變異(SS處理),區(qū)組變異(SS區(qū)組)或稱為配伍組變異(SS配伍)及誤差變異(SS誤差)。,.,第179頁,3。計算各部分變異的均方 在方差分析中,方差也稱為均方,是各

53、部分的離均差平方和除以其相應的自由度,用MS表示。基本公式為:MSSS。 4。計算統(tǒng)計量F值 F值是指兩個均方之比。一般是用較大的均方除以較小的均方。故F值一般不會小于1。 5。確定P值,推斷結論 根據分子1,分母2,查F界值表(方差分析用),得到F值的臨界值(critical value),即:如果FF界值,則P0.05,在=0.05水準上拒絕H0,接受H1??梢哉J為各樣本所代表的總體均數不全相等。如果想要了解哪兩個樣本均數之間有差異,可以繼續(xù)進行各樣本均數的兩兩比較。,.,第180頁,第二節(jié) 單因素方差分析,1 。特點 單因素方差分析是按照完全隨機設計的原則將處理因素分為若干個不同的水平,

54、每個水平代表一個樣本,只能分析一個因素對試驗結果的影響及作用。其設計簡單,計算方便,應用廣泛,是一種常用的分析方法,但其效率相對較低。該設計中的總變異可以分出兩個部分, 即SS總SS組間SS組內。 2。常用符號及其意義 (1)Xij 意義為第i組的第j個數據。其中下標 i 表示列,j 表示行。 (2) 意義為將第i組的全部j個數據合計。,.,第181頁,(3) 將第i組的j個數據合計后平方, 再將所有各i組的平方值合計。 (4)變異來源 SS總:表示變異由處理因素及隨機誤差共同所致; SS組間:表示變異來自處理因素的作用或影響;SS組內:表示變異由個體差異和測量誤差等隨機因素所致。,.,第18

55、2頁,計算公式,.,第183頁,三。計算實例 例4.1 科研人員研究細胞增殖核抗原(PCNA)在胃癌組織(A組),胃癌旁組織(B組)及正常胃粘膜組織(C組)中的表達狀況。檢測結果用表達指數來表示。 數據見表42。試分析PCNA在三種胃組織中的表達有無差異。,.,第184頁,表42 PCNA在三種不同胃組織中的表達結果,.,第185頁,檢驗步驟及方法 建立檢驗假設 H0:PCNA在三種組織中的表達指數相同,123; H1:PCNA在三種組織中的表達指數不全相同。 0.05, 計算檢驗統(tǒng)計量F值 由表4-2的數據計算有: 校正系數 C(X)2N(874)22728291.70 SS總X2C3923

56、6-28291.70=10944.3 總N1=27-1=26,.,第186頁,組間k-1=3-1=2 SS組內SS總SS組間10944.3-8965.98=1978.32,.,第187頁,(3) 列方差分析表 見表4-3。 (4)確定P值 根據0.05,1組間2,2組內24,查附表4,F界值表,得F界值: F0.01(2,24)=5.61。本例F54.39,大于界值F0.01(2,24)=5.61,則P0.01。 (5)推斷結論 由于P0.01,在0.05水準上拒絕H0,接受H1,差異有統(tǒng)計學意義??梢哉J為PCNA在三種不同胃組織中的表達指數不全相同。 該結論的意義為,至少有兩種組織的PCNA

57、表達指數不同。如果想確切了解哪兩個組織的PCNA表達指數有差異,可進一步作多個樣本均數的兩兩比較。,.,第188頁,表43 方差分析表,.,第189頁,第三節(jié) 雙因素方差分析,一、特點及意義 1.特點 按照隨機區(qū)組設計的原則來分析兩個因素對試驗結果的影響及作用。其中一個因素稱為處理因素,一般作為列因素;另一個因素稱為區(qū)組因素或配伍組因素,一般作為行因素。兩個因素相互獨立,且無交互影響。雙因素方差分析使用的樣本例數較少,分析效率高,是一種經常使用的分析方法。 但雙因素方差分析的設計對選擇受試對象及試驗條件等方面要求較為嚴格,應用該設計方法時要十分注意。該設計方法中,總變異可以分出三個部分: SS總SS處理SS區(qū)組SS誤差,.,第190頁,2.常用符號及其意義 : 將第i個處理組的j個數據合計后平方,再將所 有i個處理組的平方值合計。 : 將第j個區(qū)組的i個數據合計后平方,再將所有j 個區(qū)組的平方值合計。 各種變異來源 SS總:總變異, 由處理因素、區(qū)組因素及隨機誤差的綜合作用而形成。 SS處理:各處理組之間的變異,可由處理因素的作用所致。 SS區(qū)組或SS配伍:各區(qū)組之間的變異,可由區(qū)組因素的作用所致。 SS誤差:從總變異中去除SS處理及S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論