《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案_第1頁
《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案_第2頁
《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案_第3頁
《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案_第4頁
《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案 2第一章緒論 2第一節(jié)衛(wèi)生統(tǒng)計學(xué)的定義和內(nèi)容 3第二節(jié)統(tǒng)計工作的步驟 4第三節(jié)統(tǒng)計學(xué)中的幾個基本概念 5第四節(jié)學(xué)習(xí)衛(wèi)生統(tǒng)計學(xué)應(yīng)注意的問題 8第二章定量資料的統(tǒng)計描述 8第一節(jié)數(shù)值變量資料的頻數(shù)表 8第二節(jié)集中趨勢的統(tǒng)計描述指標(biāo) 10第三節(jié)離散程度的統(tǒng)計描述指標(biāo) 12第三章正態(tài)分布及其應(yīng)用 14第一節(jié)正態(tài)分布的概念和特征 14第二節(jié)正態(tài)分布的應(yīng)用 16第四章總體均數(shù)的估計和假設(shè)檢驗 18第一節(jié)抽樣研究與抽樣誤差 18第二節(jié)t分布 21第三節(jié)總體均數(shù)的估計 23第四節(jié)假設(shè)檢驗的基本步驟 24第五節(jié)樣本與總體比較的假設(shè)檢驗 26第六節(jié)配對設(shè)計(paireddesign)資料的假設(shè)檢驗 27第七節(jié)兩樣本比較的假設(shè)檢驗 28第八節(jié)第一類錯誤與第二類錯誤 29第五章方差分析 30第一節(jié)方差分析的基本思想 31第二節(jié)完全隨機設(shè)計的單因素方差分析(one-wayANOVA) 34第三節(jié)隨機區(qū)組設(shè)計的兩因素方差分析(two-wayANOVA) 36第四節(jié)多個樣本均數(shù)間的多重比較 39第五節(jié)多個樣本的方差齊性檢驗 43第六節(jié)變量變換 44第六章定性資料的統(tǒng)計描述 45第七章二項分布與Poisson分布及其應(yīng)用 48第一節(jié)二項分布的概念與特征 48第二節(jié)二項分布的應(yīng)用 51第三節(jié)Poisson分布的概念與特征 52第四節(jié)Poisson分布的應(yīng)用 55第八章2檢驗 58第一節(jié)四格表資料的2檢驗 58第二節(jié)配對四格表資料的2檢驗 60第三節(jié)四格表資料的Fisher確切概率法 62第四節(jié)行×列表資料的2檢驗 64第五節(jié)多個樣本率比較的2分割法 65第六節(jié)頻數(shù)分布擬合優(yōu)度的2檢驗 69第九章秩和檢驗 70第一節(jié)配對設(shè)計和單樣本資料的符號秩和檢驗 71第二節(jié)完全隨機化設(shè)計兩獨立樣本的秩和檢驗 73第三節(jié)完全隨機化設(shè)計多組獨立樣本的秩和檢驗 74第四節(jié)隨機化區(qū)組設(shè)計資料的秩和檢驗 75第五節(jié)多個樣本間的多重比較 77第六節(jié)小結(jié) 80第十章直線回歸與相關(guān) 81第一節(jié)直線回歸 81第二節(jié)直線相關(guān)分析 90第三節(jié)等級相關(guān) 94第四節(jié)曲線擬合 96第十二章統(tǒng)計表和統(tǒng)計圖 99第十三章實驗設(shè)計 105第一節(jié)實驗設(shè)計的特點及分類 106第二節(jié)實驗設(shè)計的基本要素 106第三節(jié)實驗設(shè)計的基本原則 109第四節(jié)常用的實驗設(shè)計方法 123第十四章調(diào)查設(shè)計 131第一節(jié)調(diào)查研究的特點 131第二節(jié)調(diào)查設(shè)計的基本原則與內(nèi)容 132第三節(jié)常用的抽樣方法 134第四節(jié)調(diào)查的質(zhì)量控制 134第十五章醫(yī)學(xué)人口統(tǒng)計學(xué)與疾病統(tǒng)計常用指標(biāo) 135第一節(jié)醫(yī)學(xué)人口統(tǒng)計常用指標(biāo) 135第二節(jié)疾病統(tǒng)計常用指標(biāo) 140《衛(wèi)生統(tǒng)計學(xué)》網(wǎng)上教案第一章緒論學(xué)時分配:2學(xué)時掌握內(nèi)容:1、衛(wèi)生統(tǒng)計學(xué)的定義2、統(tǒng)計工作的步驟3、統(tǒng)計學(xué)中的幾個基本概念4、學(xué)習(xí)衛(wèi)生統(tǒng)計學(xué)應(yīng)注意的問題了解內(nèi)容:衛(wèi)生統(tǒng)計學(xué)的內(nèi)容第一節(jié)衛(wèi)生統(tǒng)計學(xué)的定義和內(nèi)容1、衛(wèi)生統(tǒng)計學(xué)的定義統(tǒng)計學(xué)(statistics)是研究數(shù)據(jù)的收集、整理和分析的一門科學(xué),幫助人們分析所占有的信息,達到去偽存真、去粗取精、正確認識世界的一種重要手段。衛(wèi)生統(tǒng)計學(xué)(healthstatistics)是應(yīng)用數(shù)統(tǒng)計學(xué)的原理與方法研究居民健康狀況以及衛(wèi)生服務(wù)領(lǐng)域中數(shù)據(jù)的收集、整理和分析的一門科學(xué)。Webster國際大辭典(第三版)對統(tǒng)計學(xué)的定義是“asciencedealingwiththecollection,analysis,interpretationandpresentationofnumericaldata”。LastJM主編的一本流行病學(xué)辭典對統(tǒng)計學(xué)的定義是“thescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresults”。由此看出:統(tǒng)計學(xué)是處理資料中變異性的科學(xué)和藝術(shù),是在收集、歸類、分析和解釋大量數(shù)據(jù)的過程中獲取可靠結(jié)果的一門學(xué)科。這里強調(diào)了“過程”,但在實際工作中,許多人往往是忽略了設(shè)計、收集和歸類(整理),到了分析數(shù)據(jù)時才想到統(tǒng)計學(xué),此時難免發(fā)生“悔之晚矣”的憾事。作為統(tǒng)計學(xué)的應(yīng)用者應(yīng)充分認識到這一點。2、衛(wèi)生統(tǒng)計學(xué)的內(nèi)容:1)健康統(tǒng)計:醫(yī)學(xué)人口統(tǒng)計、疾病統(tǒng)計和生長發(fā)育統(tǒng)計等;2)衛(wèi)生服務(wù)統(tǒng)計:包括衛(wèi)生資源利用、醫(yī)療衛(wèi)生服務(wù)的需求、醫(yī)療保健體制改革等方面的統(tǒng)計學(xué)問題。本教材的主要內(nèi)容為:1)衛(wèi)生統(tǒng)計學(xué)的基本原理和方法:包括統(tǒng)計描述(定量資料和分類資料的描述性指標(biāo)以及常用統(tǒng)計圖表)、常見的理論分布及其應(yīng)用(正態(tài)分布、二項分布與Poisson分布)、總體參數(shù)的估計(分總體均數(shù)、總體率和總體平均數(shù))、假設(shè)檢驗(t檢驗、u檢驗、方差分析、χ2檢驗、秩和檢驗等)、回歸與相關(guān)、多元線性回歸與logistic回歸、實驗設(shè)計和調(diào)查設(shè)計(第2~第14章);2)健康統(tǒng)計:醫(yī)學(xué)人口與疾病統(tǒng)計中常用的指標(biāo)(第15章)、壽命表(第16章)、生存率分析(第17章);3)常用的綜合評價方法(第18章)。第二節(jié)統(tǒng)計工作的步驟統(tǒng)計學(xué)對統(tǒng)計工作的全過程起指導(dǎo)作用,任何統(tǒng)計工作和統(tǒng)計研究的全過程都可分為以下四個步驟:1、設(shè)計(design):在進行統(tǒng)計工作和研究工作之前必須有一個周密的設(shè)計。設(shè)計是在廣泛查閱文獻、全面了解現(xiàn)狀、充分征詢意見的基礎(chǔ)上,對將要進行的研究工作所做的全面設(shè)想。其內(nèi)容包括:明確研究目的和研究假說,確定觀察對象、觀察單位、樣本含量和抽樣方法,擬定研究方案、預(yù)期分析指標(biāo)、誤差控制措施、進度與費用等。設(shè)計是整個研究工作中最關(guān)鍵的一環(huán),也是指導(dǎo)以后工作的依據(jù)(詳見第13、14章)。2、收集資料(collection):遵循統(tǒng)計學(xué)原理采取必要措施得到準(zhǔn)確可靠的原始資料。及時、準(zhǔn)確、完整是收集統(tǒng)計資料的基本原則。衛(wèi)生工作中的統(tǒng)計資料主要來自以下三個方面:①統(tǒng)計報表:是由國家統(tǒng)一設(shè)計,有關(guān)醫(yī)療衛(wèi)生機構(gòu)定期逐級上報,提供居民健康狀況和醫(yī)療衛(wèi)生機構(gòu)工作的主要數(shù)據(jù),是制定衛(wèi)生工作計劃與措施、檢查與總結(jié)工作的依據(jù)。如法定傳染病報表,職業(yè)病報表,醫(yī)院工作報表等。②經(jīng)常性工作記錄:如衛(wèi)生監(jiān)測記錄、健康檢查記錄等。③專題調(diào)查或?qū)嶒灐?、整理資料(sortingdata):收集來的資料在整理之前稱為原始資料,原始資料通常是一堆雜亂無章的數(shù)據(jù)。整理資料的目的就是通過科學(xué)的分組和歸納,使原始資料系統(tǒng)化、條理化,便于進一步計算統(tǒng)計指標(biāo)和分析。其過程是:首先對原始資料進行準(zhǔn)確性審查(邏輯審查與技術(shù)審查)和完整性審查;再擬定整理表,按照“同質(zhì)者合并,非同質(zhì)者分開”的原則對資料進行質(zhì)量分組,并在同質(zhì)基礎(chǔ)上根據(jù)數(shù)值大小進行數(shù)量分組;最后匯總歸納。4、分析資料(analysisofdata):其目的是計算有關(guān)指標(biāo),反映數(shù)據(jù)的綜合特征,闡明事物的內(nèi)在聯(lián)系和規(guī)律。統(tǒng)計分析包括統(tǒng)計描述(descriptivestatistics)和統(tǒng)計推斷(inferentialstatistics)。前者是用統(tǒng)計指標(biāo)與統(tǒng)計圖(表)等方法對樣本資料的數(shù)量特征及其分布規(guī)律進行描述(詳見第2、6、12章);后者是指如何抽樣,以及如何用樣本信息推斷總體特征(詳見第4、5、7、8、9、10、11、17、18章)。進行資料分析時,需根據(jù)研究目的、設(shè)計類型和資料類型選擇恰當(dāng)?shù)拿枋鲂灾笜?biāo)和統(tǒng)計推斷方法。統(tǒng)計工作的四個步驟緊密相連、不可分割,任何一步的缺陷,都將影響整個研究結(jié)果。第三節(jié)統(tǒng)計學(xué)中的幾個基本概念1、同質(zhì)(homogeneity)與變異(variation)嚴(yán)格地講,同質(zhì)是指被研究指標(biāo)的影響因素完全相同。但在醫(yī)學(xué)研究中,有些影響因素往往是難以控制的(如遺傳、營養(yǎng)等),甚至是未知的。所以,在統(tǒng)計學(xué)中常把同質(zhì)理解為對研究指標(biāo)影響較大的、可以控制的主要因素盡可能相同。例如研究兒童的身高時,要求性別、年齡、民族、地區(qū)等影響身高較大的、易控制的因素要相同,而不易控制的遺傳、營養(yǎng)等影響因素可以忽略。同質(zhì)基礎(chǔ)上的個體差異稱為變異。如同性別、同年齡、同民族、同地區(qū)的健康兒童的身高、體重不盡相同。事實上,客觀世界充滿了變異,生物醫(yī)學(xué)領(lǐng)域更是如此。哪里有變異,哪里就需要統(tǒng)計學(xué)。若所研究的同質(zhì)群體中所有個體一模一樣,只需觀察任一個體即可,無須進行統(tǒng)計研究。2、總體(population)與樣本(sample)任何統(tǒng)計研究都必須首先確定觀察單位(observedunit),亦稱個體(individual)。觀察單位是統(tǒng)計研究中最基本的單位,可以是一個人、一個家庭、一個地區(qū)、一個樣品、一個采樣點等??傮w是根據(jù)研究目的確定的同質(zhì)觀察單位的全體,或者說,是同質(zhì)的所有觀察單位某種觀察值(變量值)的集合。例如欲研究山東省2002年7歲健康男孩的身高,那么,觀察對象是山東省2002年的7歲健康男孩,觀察單位是每個7歲健康男孩,變量是身高,變量值(觀察值)是身高測量值,則山東省2002年全體7歲健康男孩的身高值構(gòu)成一個總體。它的同質(zhì)基礎(chǔ)是同地區(qū)、同年份、同性別、同為健康兒童??傮w又分為有限總體(finitepopulation)和無限總體(infinitepopulation)。有限總體是指在某特定的時間與空間范圍內(nèi),同質(zhì)研究對象的所有觀察單位的某變量值的個數(shù)為有限個,如上例;無限總體是抽象的,無時間和空間的限制,觀察單位數(shù)是無限的,如研究碘鹽對缺碘性甲狀腺病的防治效果,該總體的同質(zhì)基礎(chǔ)是缺碘性甲狀腺病患者,同用碘鹽防治;該總體應(yīng)包括已使用和設(shè)想使用碘鹽防治的所有缺碘性甲狀腺病患者的防治效果,沒有時間和空間范圍的限制,因而觀察單位數(shù)無限,該總體為無限總體。在實際工作中,所要研究的總體無論是有限的還是無限的,通常都是采用抽樣研究。樣本是按照隨機化原則,從總體中抽取的有代表性的部分觀察單位的變量值的集合。如從上例的有限總體(山東省2002年7歲健康男孩)中,按照隨機化原則抽取100名7歲健康男孩,他們的身高值即為樣本。從總體中抽取樣本的過程為抽樣,抽樣方法有多種,詳見第14章。抽樣研究的目的是用樣本信息推斷總體特征。統(tǒng)計學(xué)好比是總體與樣本間的橋梁,能幫助人們設(shè)計與實施如何從總體中科學(xué)地抽取樣本,使樣本中的觀察單位數(shù)(亦稱樣本含量,samplesize)恰當(dāng),信息豐富,代表性好;能幫助人們挖掘樣本中的信息,推斷總體的規(guī)律性。3、資料(data)與變量(variable)及其分類總體確定之后,研究者應(yīng)對每個觀察單位的某項特征進行測量或觀察,特征稱為變量。如“身高”、“體重”、“性別”、“血型”、“療效”等。變量的測定值或觀察值稱為變量值(valueofvariable)或觀察值(observedvalue),亦稱為資料。按變量的值是定量的還是定性的,可將變量分為以下類型,變量的類型不同,其分布規(guī)律亦不同,對它們采用的統(tǒng)計分析方法也不同。在處理資料之前,首先要分清變量類型。1)數(shù)值變量(numericalvariable):其變量值是定量的,表現(xiàn)為數(shù)值大小,可經(jīng)測量取得數(shù)值,多有度量衡單位。如身高(cm)、體重(kg)、血壓(mmHgkPa)、脈搏(次/min)和白細胞計數(shù)(×109/L)等。這種由數(shù)值變量的測量值構(gòu)成的資料稱為數(shù)值變量資料,亦稱為定量資料(quantitativedata)。大多數(shù)的數(shù)值變量為連續(xù)型變量,如身高、體重、血壓等;而有的數(shù)值變量的測定值只能是正整數(shù),如脈搏、白細胞計數(shù)等,在醫(yī)學(xué)統(tǒng)計學(xué)中把它們也視為連續(xù)型變量。2)分類變量(catagoricalvariable):其變量值是定性的,表現(xiàn)為互不相容的類別或?qū)傩?。分類變量可分為無序變量和有序變量兩類:(1)無序分類變量(unorderedcategoricalvariable)是指所分類別或?qū)傩灾g無程度和順序的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(yīng)(陰性和陽性)等;②多項分類,如血型(O、A、B、AB),職業(yè)(工、農(nóng)、商、學(xué)、兵)等。對于無序分類變量的分析,應(yīng)先按類別分組,清點各組的觀察單位數(shù),編制分類變量的頻數(shù)表,所得資料為無序分類資料,亦稱計數(shù)資料。(2)有序分類變量(ordinalcategoricalvariable)各類別之間有程度的差別。如尿糖化驗結(jié)果按-、±、+、++、+++分類;療效按治愈、顯效、好轉(zhuǎn)、無效分類。對于有序分類變量,應(yīng)先按等級順序分組,清點各組的觀察單位個數(shù),編制有序變量(各等級)的頻數(shù)表,所得資料稱為等級資料。變量類型不是一成不變的,根據(jù)研究目的的需要,各類變量之間可以進行轉(zhuǎn)化。例如血紅蛋白量(g/L)原屬數(shù)值變量,若按血紅蛋白正常與偏低分為兩類時,可按二項分類資料分析;若按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個等級時,可按等級資料分析。有時亦可將分類資料數(shù)量化,如可將病人的惡心反應(yīng)以0、1、2、3表示,則可按數(shù)值變量資料(定量資料)分析。4、隨機事件(randomevent)與概率(probability)醫(yī)學(xué)研究的現(xiàn)象,大多數(shù)是隨機現(xiàn)象,對隨機現(xiàn)象進行實驗或觀察稱為隨機試驗。隨機試驗的各種可能結(jié)果的集合稱為隨機事件,亦稱偶然事件,簡稱事件。例如用相同治療方案治療一批某病的患者,治療轉(zhuǎn)歸可能為治愈、好轉(zhuǎn)、無效、死亡四種結(jié)果,對于一個剛?cè)朐旱幕颊撸委熀缶烤拱l(fā)生哪一種結(jié)果是不確定的,可能發(fā)生的每一種結(jié)果都是一個隨機事件。對于隨機事件來說,在一次隨機試驗中,某個隨機事件可能發(fā)生也可能不發(fā)生,但在一定數(shù)量的重復(fù)試驗后,該隨機事件的發(fā)生情況是有規(guī)律可循的。概率是描述隨機事件發(fā)生的可能性大小的數(shù)值,常用P表示。例如,投擲一枚均勻的硬幣,隨機事件A表示“正面向上”,用n表示投擲次數(shù);m表示隨機事件A發(fā)生的次數(shù);f表示隨機事件A發(fā)生的頻率(f=m/n),0≤m≤n,0≤f≤1。用不同的投擲次數(shù)n作隨機試驗,結(jié)果如下:m/n=8/10=0.8,7/20=0.35,……,249/500=0.498,501/1000=0.501,10001/2000=0.5000,由此看出當(dāng)投擲次數(shù)n足夠大時,f=m/n→0.5,稱P(A)=0.5,或簡寫為:P=0.5。當(dāng)n足夠大時,可以用f估計P。隨機事件概率的大小在0與1之間,即0<P<1,常用小數(shù)或百分?jǐn)?shù)表示。P越接近1,表示某事件發(fā)生的可能性越大;P越接近0,表示某事件發(fā)生的可能性越小。P=1表示事件必然發(fā)生,P=0表示事件不可能發(fā)生,它們是確定性的,不是隨機事件,但可以把它們看成隨機事件的特例。若隨機事件A的概率P(A)≤,習(xí)慣上,當(dāng)=0.05時,就稱A為小概率事件。其統(tǒng)計學(xué)意義是小概率事件在一次隨機試驗中不可能發(fā)生。例如,某都市大街上疾駛的汽車撞傷行人的事件的發(fā)生概率為1/萬,但大街上仍有行人,這是因為“被撞”事件是小概率事件,所以行人認為自己上街這“一次試驗”中不會發(fā)生“被撞”事件?!靶「怕省钡臉?biāo)準(zhǔn)是人為規(guī)定的,對于可能引起嚴(yán)重后果的事件,如術(shù)中大出血等,可規(guī)定=0.01,甚至更小。第四節(jié)學(xué)習(xí)衛(wèi)生統(tǒng)計學(xué)應(yīng)注意的問題衛(wèi)生統(tǒng)計學(xué)是從事公共衛(wèi)生領(lǐng)域研究和工作的必要基礎(chǔ)。預(yù)防醫(yī)學(xué)專業(yè)的學(xué)生在學(xué)習(xí)本課程時應(yīng)注意:1、醫(yī)學(xué)生在學(xué)習(xí)過程中必須運用邏輯思維方法掌握衛(wèi)生統(tǒng)計學(xué)的基本知識、基本技能、基本概念和基本方法。切忌死記硬背、生搬硬套,應(yīng)通過實例提高綜合分析問題的能力。2、掌握調(diào)查設(shè)計和實驗設(shè)計的原則,培養(yǎng)收集、整理、分析統(tǒng)計資料的系統(tǒng)工作能力。在統(tǒng)計工作中要以實事求是、嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度對待原始資料,反對偽造和篡改統(tǒng)計數(shù)字。通過學(xué)習(xí)這門課程,逐步樹立起實事求是、嚴(yán)謹(jǐn)?shù)墓ぷ髯黠L(fēng)。3、在學(xué)習(xí)統(tǒng)計指標(biāo)與分析方法時,應(yīng)重點掌握統(tǒng)計公式的意義、用途和應(yīng)用條件,不必深究其數(shù)學(xué)推導(dǎo)。最終掌握正確的分析思路:進行資料分析時,需根據(jù)研究目的、設(shè)計類型和資料類型選擇恰當(dāng)?shù)拿枋鲂灾笜?biāo)和統(tǒng)計推斷方法。(王潔貞)第二章定量資料的統(tǒng)計描述學(xué)時分配:4學(xué)時掌握內(nèi)容:1、頻數(shù)表的編制2、集中趨勢的描述3、離散趨勢的描述第一節(jié)數(shù)值變量資料的頻數(shù)表統(tǒng)計描述是用統(tǒng)計指標(biāo)、統(tǒng)計圖或統(tǒng)計表描述資料的分布規(guī)律及其數(shù)量特征。頻數(shù)表是統(tǒng)計描述中經(jīng)常使用的基本工具之一。1.頻數(shù)表(frequencytable)的編制在觀察值個數(shù)較多時,為了解一組同質(zhì)觀察值的分布規(guī)律和便于指標(biāo)的計算,可編制頻數(shù)分布表,簡稱頻數(shù)表。(1)求全距(range):找出觀察值中的最大值與最小值,其差值即為全距(或極差),用R表示。(2)確定組段和組距:根據(jù)樣本含量的大小確定“組段”數(shù),一般設(shè)8-15個組段,觀察單位較少時組段數(shù)可相對少些,觀察單位較多時組段數(shù)可相對多些,常用全距的1/10取整做組距,以便于匯總和計算。第一組段應(yīng)包括全部觀察值中的最小值,最末組段應(yīng)包括全部觀察值中的最大值,并且同時寫出其下限與上限。各組段的起點和終點分別稱為下限和上限,某組段包含下限,但不包含上限,其組中值為該組段的(下限+上限)/2。相鄰兩組段的下限之差稱為組距。(3)列表劃記:確定組段界限,列成表2.1的形式,采用計算機或用劃記法將原始數(shù)據(jù)匯總,得出各組段的觀察例數(shù),即頻數(shù),表中的第(1)、(3)欄即所需的頻數(shù)表。表2.1某地110名18歲男大學(xué)生身高(cm)均數(shù)的頻數(shù)表2.頻數(shù)分布的特征由頻數(shù)表可看出頻數(shù)分布的兩個重要特征:集中趨勢(centraltendency)和離散程度(dispersion)。身高有高有矮,但多數(shù)人身高集中在中間部分組段,以中等身高居多,此為集中趨勢;由中等身高到較矮或較高的頻數(shù)分布逐漸減少,反映了離散程度。對于數(shù)值變量資料,可從集中趨勢和離散程度兩個側(cè)面去分析其規(guī)律性。3.頻數(shù)分布的類型頻數(shù)分布有對稱分布和偏態(tài)分布之分。對稱分布是指多數(shù)頻數(shù)集中在中央位置,兩端的頻數(shù)分布大致對稱。偏態(tài)分布是指頻數(shù)分布不對稱,集中位置偏向一側(cè),若集中位置偏向數(shù)值小的一側(cè),稱為正偏態(tài)分布;集中位置偏向數(shù)值大的一側(cè),稱為負偏態(tài)分布,如冠心病、大多數(shù)惡性腫瘤等慢性病患者的年齡分布為負偏態(tài)分布。臨床上正偏態(tài)分布資料較多見。不同的分布類型應(yīng)選用不同的統(tǒng)計分析方法。4.頻數(shù)表的用途可以揭示資料分布類型和分布特征,以便選取適當(dāng)?shù)慕y(tǒng)計方法;便于進一步計算指標(biāo)和統(tǒng)計處理;便于發(fā)現(xiàn)某些特大或特小的可疑值。第二節(jié)集中趨勢的統(tǒng)計描述指標(biāo)描述一組同質(zhì)觀察值的平均水平或中心位置的常用指標(biāo)有均數(shù)、幾何均數(shù)、中位數(shù)等。1.均數(shù)(mean,average):是算術(shù)均數(shù)(arithmeticmean)的簡稱。常用表示樣本均數(shù),表示總體均數(shù)。均數(shù)用于反映一組同質(zhì)觀察值的平均水平,適用于正態(tài)或近似正態(tài)分布的數(shù)值變量資料。其計算方法有:(1)直接法:用于樣本含量較少時,其公式為:(2.1)式中,希臘字母Σ(讀作sigma)表示求和;X1,X2,…,Xn為各觀察值;n為樣本含量,即觀察值的個數(shù)。(2)加權(quán)法(weightingmethod):用于頻數(shù)表資料或樣本中相同觀察值較多時,其公式為:(2.2)式中,X1,X2,…,Xk與f1,f2,…,fk分別為頻數(shù)表資料中各組段的組中值和相應(yīng)組段的頻數(shù)(或相同觀察值與其對應(yīng)的頻數(shù))。2.幾何均數(shù)(geometricmean)用G表示,適用于①對數(shù)正態(tài)分布,即數(shù)據(jù)經(jīng)過對數(shù)變換后呈正態(tài)分布的資料;②等比級數(shù)資料,即觀察值之間呈倍數(shù)或近似倍數(shù)變化的資料。如醫(yī)學(xué)實踐中的抗體滴度、平均效價等。其計算方法有(1)直接法:或(2.3)(2)加權(quán)法:(2.4)注意:計算幾何均數(shù)時觀察值中不能有0,因0不能取對數(shù);一組觀察值中不能同時有正或負值。3.中位數(shù)(median)用表示。中位數(shù)是一組由小到大按順序排列的觀察值中位次居中的數(shù)值。中位數(shù)可用于描述①非正態(tài)分布資料(對數(shù)正態(tài)分布除外);②頻數(shù)分布的一端或兩端無確切數(shù)據(jù)的資料③總體分布不清楚的資料。在全部觀察中,小于和大于中位數(shù)的觀察值個數(shù)相等。(1)直接法:將觀察值由小到大排列,按式(2.6)或式(2.7)計算。為奇數(shù),(1.5)為偶數(shù),(1.6)式中下標(biāo)、、為有序數(shù)列的位次。、、為相應(yīng)位次的觀察值。(2)頻數(shù)表法:用于頻數(shù)表資料。計算步驟是:①計算的大小,并按所分組段由小到大計算累計頻數(shù)和累計頻率,如表2.1第(3)、(4)欄;②確定所在組段。累計頻數(shù)中大于的最小數(shù)值所在的組段即為所在的組段;或累計頻率中大于50%的最小頻率所在的組段即為所在的組段。③按式(2.7)求中位數(shù)。(2.7)式中:L、i、分別為所在組段的下限、組距和頻數(shù);為小于L的各組段的累計頻數(shù)。例1.1由表2.1計算中位數(shù)M。表2.1199名食物中毒患者潛伏期的M和PX的計算潛伏期(小時)(1)人數(shù)f(2)累計頻數(shù)Σf(3)累計頻率(%)(4)=(3)/n0~303015.112~7110150.824~4915075.436~2817889.448~1419296.560~619899.572~841199100.0合計199本例n=199,根據(jù)表2.3第(2)欄數(shù)據(jù),自上而下計算累計頻數(shù)及累計頻率,見第(3)、(4)欄。,由第(3)欄知,101是累計頻數(shù)中大于99.5的最小值,或由第(4)欄知50.8%是大于50%的最小的累計頻率,故M在“12~”組段內(nèi),將相應(yīng)的L、i、f50、代入(2.8),求得M。M=P50==12+12/71(199×50%-30)=23.75(小時)4.百分位數(shù)(percentile)用Px表示。一個百分位數(shù)Px將一組觀察值分為兩部分,理論上有X%的觀察值比它小,有(100-X)%的觀察值比它大,是一種位置指標(biāo)。中位數(shù)是一個特定的百分位數(shù),即M=P50。百分位數(shù)的計算步驟與中位數(shù)類似,首先要確定Px所在的組段。先計算,累計頻數(shù)中大于的最小值所在的組段就是Px所在組段。計算見公式(2.8)。(2.8)式中:L、i、fx分別為Px所在組段的下限、組距和頻數(shù);為小于L的各組段的累計頻數(shù)。百分位數(shù)用于描述一組數(shù)據(jù)某一百分位位置的水平,多個百分位數(shù)的結(jié)合應(yīng)用時,可描述一組觀察值的分布特征;百分位數(shù)可用于確定非正態(tài)分布資料的醫(yī)學(xué)參考值范圍。應(yīng)用百分位數(shù),樣本含量要足夠大,否則不宜取靠近兩端的百分位數(shù)。第三節(jié)離散程度的統(tǒng)計描述指標(biāo)描述數(shù)值變量資料頻數(shù)分布的另一主要特征是離散程度,用變異指標(biāo)表示。只有把集中指標(biāo)和離散指標(biāo)結(jié)合起來才能全面反映資料的分布特征。常用變異指標(biāo)有全距、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差、變異系數(shù)。1.全距(range,簡記為R):亦稱極差,是一組同質(zhì)觀察值中最大值與最小值之差。它反映了個體差異的范圍,全距大,說明變異度大;反之,全距小,說明變異度小。用全距描述定量資料的變異度大小,雖然計算簡單,但不足之處有:①只考慮最大值與最小值之差異,不能反映組內(nèi)其它觀察值的變異度;②樣本含量越大,抽到較大或較小觀察值的可能性越大,則全距可能越大。因此樣本含量相差懸殊時不宜用全距比較。2.四分位數(shù)間距(quartile,簡記為Q):為上四分位數(shù)QU(即P75)與下四分位數(shù)QL(即P25)之差。四分位數(shù)間距可看成是中間50%觀察值的極差,其數(shù)值越大,變異度越大,反之,變異度越小。如例2.7中,已求得QU=P75=35.82小時,QL=P25=15.34小時,則四分位數(shù)間距Q=QU-QL==35.82-15.34=20.48(小時)。由于四分位數(shù)間距不受兩端個別極大值或極小值的影響,因而四分位數(shù)間距較全距穩(wěn)定,但仍未考慮全部觀察值的變異度,常用于描述偏態(tài)頻數(shù)分布以及分布的一端或兩端無確切數(shù)值資料的離散程度。3.方差(variance):為了全面考慮觀察值的變異情況,克服全距和四分位數(shù)間距的缺點,需計算總體中每個觀察值X與總體均數(shù)的差值(X-),稱之為離均差。由于Σ(X-μ)=0,不能反映變異度的大小,而用離均差平方和Σ(X-)2(sumofsquaresofdeviationsfrommean)反映之,同時還應(yīng)考慮觀察值個數(shù)N的影響,故用式(2.9)即總體方差σ2表示。(2.9)在實際工作中,總體均數(shù)μ往往是未知的,所以只能用樣本均數(shù)作為總體均數(shù)的估計值,即用代替,用樣本例數(shù)n代替N,但再按式(2.9)計算的結(jié)果總是比實際小。英國統(tǒng)計學(xué)家W.S.Gosset提出用n-1代替n來校正,這就是樣本方差s2其公式為:(2.10)式中的n-1稱為自由度(degreeoffreedom)。4.標(biāo)準(zhǔn)差(standarddeviation):方差的度量單位是原度量單位的平方,將方差開方后與原數(shù)據(jù)的度量單位相同。標(biāo)準(zhǔn)差大,表示觀察值的變異度大;反之,標(biāo)準(zhǔn)差小,表示觀察值的變異度小。計算見公式(2.11)和(2.12)。(1.11)(1.12)離均差平方和常用SS或lXX表示。數(shù)學(xué)上可以證明:,所以,樣本標(biāo)準(zhǔn)差的計算公式可寫成:直接法:(2.13)加權(quán)法:(1.14)5.變異系數(shù)(coefficientofvariation,簡記為CV):常用于比較度量單位不同或均數(shù)相差懸殊的兩組或多組資料的變異度。其公式為(2.15)(丁守鑾)第三章正態(tài)分布及其應(yīng)用學(xué)時分配:2學(xué)時掌握內(nèi)容:1、正態(tài)分布的概念、特征和標(biāo)準(zhǔn)正態(tài)分布2、正態(tài)分布的應(yīng)用第一節(jié)正態(tài)分布的概念和特征一、正態(tài)分布的概念由表1.1的頻數(shù)表資料所繪制的直方圖,圖3.1(1)可以看出,高峰位于中部,左右兩側(cè)大致對稱。我們設(shè)想,如果觀察例數(shù)逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位于中央(均數(shù)所在處),兩側(cè)逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖3.1(3)。這條曲線稱為頻數(shù)曲線或頻率曲線,近似于數(shù)學(xué)上的正態(tài)分布(normaldistribution)。由于頻率的總和為100%或1,故該曲線下橫軸上的面積為100%或1。圖3.1頻數(shù)分布逐漸接近正態(tài)分布示意圖為了應(yīng)用方便,常對正態(tài)分布變量X作變量變換。(3.1)該變換使原來的正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution),亦稱u分布。u被稱為標(biāo)準(zhǔn)正態(tài)變量或標(biāo)準(zhǔn)正態(tài)離差(standardnormaldeviate)。二、正態(tài)分布的特征:1.正態(tài)曲線(normalcurve)在橫軸上方均數(shù)處最高。2.正態(tài)分布以均數(shù)為中心,左右對稱。3.正態(tài)分布有兩個參數(shù),即均數(shù)和標(biāo)準(zhǔn)差。是位置參數(shù),當(dāng)固定不變時,越大,曲線沿橫軸越向右移動;反之,越小,則曲線沿橫軸越向左移動。是形狀參數(shù),當(dāng)固定不變時,越大,曲線越平闊;越小,曲線越尖峭。通常用表示均數(shù)為,方差為的正態(tài)分布。用N(0,1)表示標(biāo)準(zhǔn)正態(tài)分布。4.正態(tài)曲線下面積的分布有一定規(guī)律。實際工作中,常需要了解正態(tài)曲線下橫軸上某一區(qū)間的面積占總面積的百分?jǐn)?shù),以便估計該區(qū)間的例數(shù)占總例數(shù)的百分?jǐn)?shù)(頻數(shù)分布)或觀察值落在該區(qū)間的概率。正態(tài)曲線下一定區(qū)間的面積可以通過附表1求得。對于正態(tài)或近似正態(tài)分布的資料,已知均數(shù)和標(biāo)準(zhǔn)差,就可對其頻數(shù)分布作出概約估計。查附表1應(yīng)注意:①表中曲線下面積為-∞到u的左側(cè)累計面積;②當(dāng)已知μ、σ和X時先按式(3.1)求得u值,再查表,當(dāng)μ、σ未知且樣本含量n足夠大時,可用樣本均數(shù)和標(biāo)準(zhǔn)差S分別代替μ和σ,按式求得u值,再查表;③曲線下對稱于0的區(qū)間面積相等,如區(qū)間(-∞,-1.96)與區(qū)間(1.96,∞)的面積相等,④曲線下橫軸上的總面積為100%或1。正態(tài)分布曲線下有三個區(qū)間的面積應(yīng)用較多,應(yīng)熟記:①標(biāo)準(zhǔn)正態(tài)分布時區(qū)間(-1,1)或正態(tài)分布時區(qū)間(μ-1σ,μ+1σ)的面積占總面積的68.27%;②標(biāo)準(zhǔn)正態(tài)分布時區(qū)間(-1.96,1.96)或正態(tài)分布時區(qū)間(μ-1.96σ,μ+1.96σ)的面積占總面積的95%;③標(biāo)準(zhǔn)正態(tài)分布時區(qū)間(-2.58,2.58)或正態(tài)分布時區(qū)間(μ-2.58σ,μ+2.58σ)的面積占總面積的99%。如圖3.2所示。圖3.2正態(tài)曲線與標(biāo)準(zhǔn)正態(tài)曲線的面積分布第二節(jié)正態(tài)分布的應(yīng)用某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細胞數(shù)、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布;有些資料雖為偏態(tài)分布,但經(jīng)數(shù)據(jù)變換后可成為正態(tài)或近似正態(tài)分布,故可按正態(tài)分布規(guī)律處理。1.估計正態(tài)分布資料的頻數(shù)分布例1.10某地1993年抽樣調(diào)查了100名18歲男大學(xué)生身高(cm),其均數(shù)=172.70cm,標(biāo)準(zhǔn)差s=4.01cm,①估計該地18歲男大學(xué)生身高在168cm以下者占該地18歲男大學(xué)生總數(shù)的百分?jǐn)?shù);②分別求、、范圍內(nèi)18歲男大學(xué)生占該地18歲男大學(xué)生總數(shù)的實際百分?jǐn)?shù),并與理論百分?jǐn)?shù)比較。本例,、未知但樣本含量n較大,按式(3.1)用樣本均數(shù)和標(biāo)準(zhǔn)差S分別代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表標(biāo)準(zhǔn)正態(tài)曲線下的面積,在表的左側(cè)找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學(xué)生身高在168cm以下者,約占總數(shù)12.10%。其它計算結(jié)果見表3.1。表3.1100名18歲男大學(xué)生身高的實際分布與理論分布身高范圍(cm)實際分布理論分布(%)人數(shù)百分?jǐn)?shù)(%)168.69~176.716767.0068.27164.84~180.569595.0095.00162.35~183.059999.0099.002.制定醫(yī)學(xué)參考值范圍:亦稱醫(yī)學(xué)正常值范圍。它是指所謂“正常人”的解剖、生理、生化等指標(biāo)的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群;其次需根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標(biāo)的實際用途確定單側(cè)或雙側(cè)界值,如白細胞計數(shù)過高過低皆屬不正常須確定雙側(cè)界值,又如肝功中轉(zhuǎn)氨酶過高屬不正常須確定單側(cè)上界,肺活量過低屬不正常須確定單側(cè)下界。另外,還要根據(jù)資料的分布特點,選用恰當(dāng)?shù)挠嬎惴椒?。常用方法有:?)正態(tài)分布法:適用于正態(tài)或近似正態(tài)分布的資料。雙側(cè)界值:單側(cè)上界:,或單側(cè)下界:(2)對數(shù)正態(tài)分布法:適用于對數(shù)正態(tài)分布資料。雙側(cè)界值:;單側(cè)上界:,或單側(cè)下界:。常用u值可根據(jù)要求由表3.2查出。(3)百分位數(shù)法:常用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。雙側(cè)界值:P2.5和P97.5;單側(cè)上界:P95,或單側(cè)下界:P5。表3.2常用u值表參考值范圍(%)單側(cè)雙側(cè)800.8421.282901.2821.645951.6451.960992.3262.5763.正態(tài)分布是許多統(tǒng)計方法的理論基礎(chǔ):如t分布、F分布、分布都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出來的,u檢驗也是以正態(tài)分布為基礎(chǔ)的。此外,t分布、二項分布、Poisson分布的極限為正態(tài)分布,在一定條件下,可以按正態(tài)分布原理來處理。(丁守鑾)第四章總體均數(shù)的估計和假設(shè)檢驗學(xué)時分配:8學(xué)時掌握內(nèi)容:1.t分布的概念和特征2.總體均數(shù)的區(qū)間估計3.總體率的區(qū)間估計4.假設(shè)檢驗的基本步驟5.假設(shè)檢驗的基本原理6.常用的數(shù)值型變量假設(shè)檢驗的方法熟悉:1、抽樣誤差的概念2、引起抽樣誤差的原因3、均數(shù)、率的標(biāo)準(zhǔn)誤的計算4、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別了解內(nèi)容:1.假設(shè)檢驗中概率P與檢驗水準(zhǔn)的關(guān)系2.抽樣研究的意義3.中心極限定理的內(nèi)容第一節(jié)抽樣研究與抽樣誤差一.抽樣研究(一)抽樣研究的意義前面已經(jīng)講述了總體與樣本兩個統(tǒng)計學(xué)術(shù)語,人們在醫(yī)學(xué)研究中多采用由樣本信息來推論總體特征的方法,這在實際工作中是十分必要的,經(jīng)理論與實踐證明也是行之有效的。目前對某一總體進行研究的最重要、最常用的方法就是抽樣研究。由于研究對象很多是無限總體,要直接研究總體的情況是不可能的。即使對有限總體來說,若包含的觀察單位數(shù)過多,需要耗費大量的人力、物力和時間,而且也不易組織,難以保證工作的質(zhì)量。有的時候,觀察的實質(zhì)就是一種破壞性實驗,根本就不允許對總體中的每一個體逐一觀察。如對一批注射藥劑作質(zhì)量檢查,不可能將所有的藥劑瓶都打開加以檢驗,這顯然是不可能的。抽樣研究作為一種由部分認識整體的觀察方法,從古到今一直被人們自覺或不自覺地應(yīng)用著,如炒菜時嘗嘗咸淡,就醫(yī)時取幾滴血作化驗等。實踐證明這是行之有效的方法。目前抽樣研究的理論與技術(shù)已發(fā)展成熟,只要嚴(yán)格按照有關(guān)抽樣研究的要求去做,這是完全可行的。所以,在實際工作中人們多采用抽樣研究的方法,其目的就是要用樣本信息來推斷總體特征,這就叫統(tǒng)計推斷(statisticalinference)。(二)抽樣研究和抽樣誤差抽樣研究是指從總體中按照隨機化的原則,抽取一定數(shù)量的個體組成樣本進行研究,從而推斷總體的研究方法。在實際工作中,由于總體中各觀察對象之間存在著個體變異,且隨機抽取的樣本又只是總體中的一部分,因此計算的樣本統(tǒng)計量,不一定恰好等于相應(yīng)的總體參數(shù)。這種由于個體變異的存在,在抽樣研究中產(chǎn)生的樣本統(tǒng)計量與相應(yīng)的總體參數(shù)間的差異,稱為抽樣誤差(samplingerror),同樣,來自同一總體的若干樣本的統(tǒng)計量之間,也會存在誤差,這種誤差也反映在樣本統(tǒng)計量與總體參數(shù)間的差異。當(dāng)樣本是來自相應(yīng)總體的隨機樣本時,抽樣誤差為隨機誤差,其誤差大小可以依據(jù)中心極限定理進行估計。中心極限定理的內(nèi)容是,以數(shù)值變量資料為例,若從均數(shù)為μ的正態(tài)總體中以固定n反復(fù)多次(比如100次)抽樣時,所得的樣本均數(shù)的分布是正態(tài)分布;即使是從偏態(tài)總體中抽樣,只要足夠大,的分布也近似正態(tài)分布。在抽樣研究中抽樣誤差是不可避免的,根據(jù)資料的性質(zhì)和指標(biāo)種類的不同,抽樣誤差有多種,例如:①從某地7歲男童中隨機抽取110名,測得平均身高為119.95cm,該樣本均數(shù)不一定等于該地7歲男童身高的總體均數(shù),這種樣本均數(shù)與總體均數(shù)間的差別,稱為均數(shù)的抽樣誤差。②某縣為血吸蟲病流行區(qū),從該縣人群中隨機抽取400人,測得的血吸蟲感染人數(shù)為60人,感染率為15%,該樣本率不一定等于該地人群的總體感染率。此為樣本率與總體率之間的差別,稱為率的抽樣誤差。此外,樣本方差和相應(yīng)的總體方差也存在抽樣誤差,后面介紹的相關(guān)系數(shù)和回歸系數(shù)也有抽樣誤差的問題。二.均數(shù)的抽樣誤差在抽樣研究中,若從同一總體中隨機抽取樣本含量相同的若干個樣本,并計算出某種樣本統(tǒng)計量(如樣本均數(shù)),由于生物間的個體變異是客觀存在的,抽樣誤差是不可避免的,這些樣本統(tǒng)計量之間具有離散趨勢。數(shù)理統(tǒng)計研究表明,抽樣誤差具有一定的規(guī)律性,可以用特定的指標(biāo)來描述。這個指標(biāo)稱為標(biāo)準(zhǔn)誤(standarderror),標(biāo)準(zhǔn)誤除了反映樣本統(tǒng)計量之間的離散程度外,也反映樣本統(tǒng)計量與相應(yīng)總體參數(shù)之間的差異,即抽樣誤差大小。本章主要介紹最常用的均數(shù)標(biāo)準(zhǔn)誤以及率的標(biāo)準(zhǔn)誤。(一)均數(shù)標(biāo)準(zhǔn)誤的意義將來自同一總體的若干個樣本均數(shù)看成一組新的觀察值,研究其頻數(shù)分布,包括集中趨勢和離散趨勢,可計算樣本均數(shù)的均數(shù)和標(biāo)準(zhǔn)差。例3.1假定某市16歲女中學(xué)生的身高分布服從均數(shù)(μ)為155.4cm,標(biāo)準(zhǔn)差(σ)為5.3cm的正態(tài)分布?,F(xiàn)用電子計算機作抽樣模擬試驗,每次隨機抽出10個觀察值(即樣本含量n=10),共抽取100個樣本,求得100個樣本均數(shù)并編制成頻數(shù)分布表如表4.1。表4.1100個樣本均數(shù)的頻數(shù)分布(μ=155.4cm,σ=5.3cm)組段(cm)頻數(shù)151~1152~6153~15154~19155~27156~16157~8158~5159~3合計100從表4.1中可以發(fā)現(xiàn),當(dāng)原始觀察值的分布為正態(tài)分布時,這些樣本均數(shù)的頻數(shù)分布基本服從正態(tài)分布。統(tǒng)計理論證明,若原始觀察值的分布為偏態(tài)分布,當(dāng)樣本含量n足夠大時,其樣本均數(shù)的分布仍近似服從正態(tài)分布。所以,可以求得樣本均數(shù)的均數(shù)為155.38cm,與總體均數(shù)155.4cm接近。中心極限定理表明,樣本均數(shù)的均數(shù)等于原總體的總體均數(shù)(μ)。同樣,也可以求得樣本均數(shù)的標(biāo)準(zhǔn)差為,為了與描述觀察值離散程度的標(biāo)準(zhǔn)差相區(qū)別,用均數(shù)標(biāo)準(zhǔn)誤來表示樣本均數(shù)的標(biāo)準(zhǔn)差。均數(shù)標(biāo)準(zhǔn)誤反映來自同一總體的樣本均數(shù)的離散程度以及樣本均數(shù)與總體均數(shù)的差異程度,也是說明均數(shù)抽樣誤差大小的指標(biāo)。均數(shù)標(biāo)準(zhǔn)誤大,說明各樣本均數(shù)的離散程度大,抽樣誤差就大。反之亦然。(二)均數(shù)標(biāo)準(zhǔn)誤的計算數(shù)理統(tǒng)計可以證明,均數(shù)標(biāo)準(zhǔn)誤的計算公式為:(4.1)式中為均數(shù)標(biāo)準(zhǔn)誤的理論值,σ為總體標(biāo)準(zhǔn)差,n為樣本含量。σ已知時,可按式(4.1)求得均數(shù)標(biāo)準(zhǔn)誤的理論值。上述例子中μ=155.4cm,n=10,可得:=計算結(jié)果與樣本均數(shù)的標(biāo)準(zhǔn)差1.71cm相近。由于在抽樣研究中σ常屬未知,通常用一個樣本的標(biāo)準(zhǔn)差(s)來估計,所以,在實際工作中,常用式(4.2)計算均數(shù)標(biāo)準(zhǔn)誤的估計值()(4.2)由式(4.1)或(4.2)可見,當(dāng)n一定時,均數(shù)標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差成正比。標(biāo)準(zhǔn)差越大,均數(shù)標(biāo)準(zhǔn)誤越大,即觀察值的離散程度越高,均數(shù)的抽樣誤差越大。當(dāng)標(biāo)準(zhǔn)差一定時,均數(shù)標(biāo)準(zhǔn)誤和成反比。樣本含量越大,均數(shù)的抽樣誤差越小。因此,在實際工作中,可通過適當(dāng)增加樣本含量和減少觀察值的離散程度(如選擇同質(zhì)性較好的總體)來減少抽樣誤差。(三)均數(shù)標(biāo)準(zhǔn)誤的用途:1.衡量樣本均數(shù)的可靠性由于均數(shù)標(biāo)準(zhǔn)誤越小,均數(shù)的抽樣誤差越小,樣本均數(shù)就越可靠。2.估計總體均數(shù)的可信區(qū)間。3.用于均數(shù)的假設(shè)檢驗。第二節(jié)t分布一.t分布(t-distribution)(一)u分布在前一章中,我們已經(jīng)講述了正態(tài)分布(normaldistribution)是數(shù)理統(tǒng)計中的一種重要的理論分布,是許多統(tǒng)計方法的理論基礎(chǔ)。正態(tài)分布有兩個參數(shù),μ和σ,決定了正態(tài)分布的位置和形態(tài)。為了應(yīng)用方便,常將一般的正態(tài)變量X通過u變換[]轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)變量u,以使原來各種形態(tài)的正態(tài)分布都轉(zhuǎn)換為μ=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution),亦稱u分布。根據(jù)中心極限定理,通過上述的抽樣模擬試驗表明,在正態(tài)分布總體中以固定n(本次試驗n=10)抽取若干個樣本時,樣本均數(shù)的分布仍服從正態(tài)分布,即N(μ,σ)。所以,對樣本均數(shù)的分布進行u變換[],也可變換為標(biāo)準(zhǔn)正態(tài)分布N(0,1)(二)t分布由于在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區(qū)別,稱為t變換t=,統(tǒng)計量t值的分布稱為t分布。t分布有如下特征:1.以0為中心,左右對稱的單峰分布;2.t分布是一簇曲線,其形態(tài)變化與n(確切地說與自由度ν)大小有關(guān)。自由度ν越小,t分布曲線越低平;自由度ν越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線,如圖4.1。t=圖4.1自由度為1、5、∞的t分布對應(yīng)于每一個自由度ν,就有一條t分布曲線,每條曲線都有其曲線下統(tǒng)計量t的分布規(guī)律,計算較復(fù)雜。因此,統(tǒng)計學(xué)家上根據(jù)自由度ν的大小與t分布曲線下面積的關(guān)系,編制了附表2,t界值表,以便于應(yīng)用。表中的橫標(biāo)目為自由度ν,縱標(biāo)目為概率P,表中數(shù)字表示自由度ν為某值時,P為某值時,t的界值。因t分布是以0為中心的對稱分布,故附表中只列出正值,如果算出的t值為負值,可以用絕對值查表。t分布曲線下面積為95%或99%的界值不是一個常量,而是隨著自由度大小而變化的,分別用和表示。第三節(jié)總體均數(shù)的估計統(tǒng)計推斷包括兩個重要的方面:參數(shù)估計和假設(shè)檢驗。假設(shè)檢驗在后面的章節(jié)中討論,這里先討論參數(shù)估計。參數(shù)估計就是用樣本指標(biāo)(稱為統(tǒng)計量,statistic)來估計總體指標(biāo)(參數(shù),parameter)。參數(shù)估計有兩種方法:(一)點估計(pointestimation)如在服從正態(tài)分布的總體中隨機抽取樣本,可以直接用樣本均數(shù)來估計總體均數(shù),樣本標(biāo)準(zhǔn)差來估計總體標(biāo)準(zhǔn)差。該方法雖然簡單易行,但未考慮抽樣誤差,而抽樣誤差在抽樣研究中又是客觀存在的、不可避免的,會隨不同的樣本對總體參數(shù)作出不同的點估計。(二)區(qū)間估計(intervalestimation)即按一定的概率(可信度)估計未知的總體參數(shù)可能所在的范圍(或稱可信區(qū)間)的估計方法。區(qū)間估計是在隨機抽取樣本后,考慮抽樣誤差存在的情況下的估計方法,較為準(zhǔn)確可靠。統(tǒng)計學(xué)上通常用95%(或99%)可信區(qū)間表示總體參數(shù)有95%(或99%)的概率在某一范圍,可根據(jù)資料的條件選用不同的方法。下面以總體均數(shù)的95%可信區(qū)間為例,介紹其計算公式。σ已知時按正態(tài)分布原理計算,σ未知時按t分布的原理計算。1.σ已知時由u分布可知,正態(tài)曲線下有95%的u值在±1.96之間,即:P(-1.96≤u≤+1.96)=0.95P(-1.96≤≤+1.96)=0.95移項后整理得,故總體均數(shù)μ的95%可信區(qū)間為()(4.5)2.σ未知,但n足夠大(如n>100)時由t分布可知,當(dāng)自由度越大,t分布越逼近u分布,此時t曲線下有95%的t值在±1.96之間,即:P(-1.96≤t≤+1.96)=0.95P(-1.96≤≤+1.96)=0.95P(≤≤)=0.95故總體均數(shù)μ的95%可信區(qū)間為(,)(4.6)3.σ未知且n小時某自由度的t曲線下有95%的t值在±之間,即:故總體均數(shù)μ的95%可信區(qū)間為(,)(4.7)例3.3對某人群隨機抽取20人,用某批號的結(jié)核菌素作皮試,平均浸潤直徑為10.9cm,標(biāo)準(zhǔn)差為3.86cm。問這批結(jié)核菌素在該人群中使用時,皮試的平均浸潤直徑的95%可信區(qū)間是多少?該例n=20,n較小,按公式(4.7)計算。ν=20-1=19,查t界值表,得=2.093估計這批結(jié)核菌素在該人群中使用,皮試的平均浸潤直徑的95%可信區(qū)間為(10.9-2.093*3.86/,10.9+2.093*3.86/)cm即(9.1,12.7)cm。(三)可信區(qū)間的注意問題1.可信區(qū)間的涵義意思是從總體中作隨機抽樣,每個樣本可以算得一個可信區(qū)間。如95%可信區(qū)間意味著做100次抽樣,算得100個可信區(qū)間,平均有95個估計正確,估計錯誤的只有5次。5%是小概率事件,實際發(fā)生的可能性很小,當(dāng)然這種估計方法會有5%犯錯誤的風(fēng)險。2.可信區(qū)間的兩個要素:一是準(zhǔn)確度,反映在可信度的大小,即區(qū)間包含總體均數(shù)的概率的大小,愈接近1愈好。二是精密度,反映在區(qū)間的長度,長度愈小愈好。在樣本含量確定的情況下,二者是矛盾的,若只管提高可信度,會把區(qū)間變得很長,故不宜認為99%可信區(qū)間比95%可信區(qū)間好,需要兼顧準(zhǔn)確度和精密度,一般來說95%可信區(qū)間更為常用,在可信度確定的情況下,增加樣本含量,可減少區(qū)間長度,提高精密度。(王淑康)第四節(jié)假設(shè)檢驗的基本步驟一、假設(shè)檢驗的基本思想在抽樣研究中,由于樣本所來自的總體其參數(shù)是未知的,只能根據(jù)樣本統(tǒng)計量對其所來自總體的參數(shù)進行估計,如果要比較兩個或幾個總體的參數(shù)是否相同,也只能分別從這些總體中抽取樣本,根據(jù)這些樣本的統(tǒng)計量作出統(tǒng)計推斷,籍此比較總體參數(shù)是否相同。由于存在抽樣誤差,總體參數(shù)與樣本統(tǒng)計量并不恰好相同,因此判斷兩個或多個總體參數(shù)是否相同是一件很困難的事情。如醫(yī)生在某山區(qū)隨機測量了25名健康成年男子的脈搏,平均次數(shù)為74.2次/分鐘,標(biāo)準(zhǔn)差為5.2次/分鐘,但是根據(jù)醫(yī)學(xué)常識,一般男子的平均脈搏次數(shù)為72次/分鐘,問該山區(qū)男子脈搏數(shù)與一般男子是否不同?要回答這個看似簡單的問題并非易事。這個問題難以從正面直接回答,可以先假定該山區(qū)所有男子脈搏數(shù)數(shù)值組成一個總體,其總體均數(shù)和標(biāo)準(zhǔn)差均為未知數(shù),不妨分別以、表示。如果我們假設(shè)該山區(qū)男子的脈搏數(shù)與一般地區(qū)的男子相同,即屬于同一總體,=72,所測量的25名男子的平均脈搏數(shù)(樣本均數(shù))之所以不恰好等于72次/分,是由于抽樣誤差所致。如果上述假設(shè)成立,則理論上講,樣本均數(shù)很可能在總體均數(shù)(=72)的附近,樣本均數(shù)遠離總體均數(shù)的可能性很小。如果將樣本均數(shù)變換為值,則值很可能在0的附近,值遠離0的可能性很小。如果值很小上述假設(shè)可能不正確,可拒絕上述假設(shè)。假設(shè)檢驗包括單側(cè)檢驗和雙側(cè)檢驗兩種情況,當(dāng)根據(jù)專業(yè)知識已知兩總體的參數(shù)中甲肯定不會小于乙,或甲肯定不會大于乙時,可考慮用單側(cè)檢驗,否則,宜用雙側(cè)檢驗。假設(shè)檢驗中的如何下檢驗結(jié)論(以檢驗為例):1、單側(cè)檢驗:如計算統(tǒng)計量為正值拒絕,接受不拒絕如計算統(tǒng)計量為負值拒絕,接受

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論