中醫(yī)藥統計學與軟件應用筆記重點_第1頁
中醫(yī)藥統計學與軟件應用筆記重點_第2頁
中醫(yī)藥統計學與軟件應用筆記重點_第3頁
中醫(yī)藥統計學與軟件應用筆記重點_第4頁
中醫(yī)藥統計學與軟件應用筆記重點_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中醫(yī)藥統計學與軟件應用筆記重點緒論統計學家C.R.勞先生在?統計與真理怎樣運用偶然性?中指出:在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學都是數學;在理性的根底上,所有的判斷都是統計學。一、 統計學的概念、開展簡史及主要內容1.統計學:是以概率論和數理統計為根底,對研究對象的數據進行搜集、整理和分析,揭示事物總體特征和規(guī)律的方法論科學。2.中醫(yī)統計學:是以概率論和數理統計的原理和方法為根底,以中醫(yī)理論與實踐為主體,通過對數據的搜集、整理和分析,到達探討中醫(yī)理論與方法內在規(guī)律的目的。3.統計學的開展趨勢:依賴數學。與計算機技術結合。與實質性學科、統計軟件、現代信息相結合,所發(fā)揮的成

2、效日益增強。從描述事物現狀、反映事物規(guī)律,向抽樣推斷、預測未來變化方向開展。4.統計學的主要內容研究設計:專業(yè)設計、統計學設計 統計學的根本概念、原理和思維方法統計描述:統計指標、統計圖表 統計推斷:參數估計、假設檢驗二、統計工作的根本步驟和特點1.統計工作的根本步驟 1統計學設計2搜集資料:常規(guī)保存的記錄;現場調查記錄;實驗/試驗記錄;醫(yī)學文獻/網絡信息。 3整理資料:檢查;審核;計算機檢查;分組。4分析資料 2.統計學認識現象的特點1數量性:2群體性:3具體性:4概率性: 三、統計學中常用的概念1總體(population):是根據研究目確實定的同質觀察單位的集合。例 河北省18歲男性的身

3、高和體重分布 某性紅地2005年健康成年男細胞數 河北省18歲身高在170-175cm男性的體重分布有限總體:指總體限定于特定的空間、時間范圍內有限個觀察單位。 無限總體:指沒有空間和時間范圍限制的總體 。2樣本(sample):從總體中隨機抽取的有代表性的一局部觀察單位的集合。樣本的可靠性:指總體確定后,樣本中的每一個觀察單位確屬預先規(guī)定的同質總體。樣本的代表性:即樣本能夠充分反映總體的真實情況。 3隨機(random):即在抽樣、分組、安排試驗順序時,讓總體中每個受試者或觀察單位都有同等的時機被抽中、被分配或被安排,而不受研究者的主觀意愿驅使。不能將隨機理解為隨便。4事件(event):指

4、事物發(fā)生某種情況或在調查、觀察和實驗中獲得的某種結果。確定性事件是可預言在一定條件下必然發(fā)生的事件,發(fā)生的概率為1。隨機事件:指一定條件下可能發(fā)生也可能不發(fā)生的不確定性事件,發(fā)生的概率介于01之間。模糊事件:事物本身的含義不確定的現象。5頻率(frequency):對于隨機事件,在相同的條件下進行了n 次實驗,事件發(fā)生的次數為,比值/n 為頻率,記為fn(A);概率(probability):描述某隨機事件發(fā)生的可能性大小,統計符號為, 01,記為P(A)。當 時,頻率fn(A)概率 P(A)。小概率事件:表示某事件發(fā)生的可能性很小,在醫(yī)學研究中,習慣上把P0.05或P0.01的事件稱為小概率

5、事件。6變異(variation):總體中各個體之間的差異性。同質是相對的,研究對象只是在某一方面是性質相同的,同類的觀察對象之間往往也存在著變異。 變異是絕對的、客觀存在的。7誤差error:指測量值與真值之差。過失誤差:也叫粗差。觀測者粗心大意造成的誤差。系統誤差:由于儀器未校準、試劑未標定、觀測標準未統一等固定原因造成的誤差。測量誤差:由事先難于預料的實驗或觀察條件的隨機波動造成的誤差。抽樣誤差:由抽樣引起的樣本指標統計量與總體指標參數的差異。8統計量(statistical):是反映樣本特征的統計指標。統計符號為小寫的英文字母。 如樣本均數 、樣本標準差s 、樣本率p 等。9參數(pa

6、rameter):是描述總體特征的統計指標。統計符號為小寫的希臘字母。 如總體均數、總體標準差、總體率 等。 10.統計資料的類型根據研究目的,對研究對象的某些特征進行觀測,將這些觀測指標或工程稱為變量。變量的具體數值(變量值)構成了統計數據或統計資料。統計資料分為兩類:1 值變量(numerical variable):亦稱定量資料。是指對每個觀察單位用計量方法測得某項 數值大小所獲得的資料。特點為其變量值大多有度量衡單位,其具體取值通常是正實數(零、正整數和小數)。如身高1.75m、體重68kg、血壓9.6kPa、血糖6.8mmol/L。 分類變量(categorical variable

7、):又稱定性資料。指對每個觀察單位按某一方面的特征、性質或等級分組計數而得到的資料。特點是變量值表現為互不相容的屬性或類別,無度量衡單位。分類變量又可分為兩類: 序分類變量:又稱為名義資料。具體取值通常是具有某種屬性或特征的個數。特點是可在非數字中取值,各類之間具有性質上的差異??煞譃槎肿兞亢投喾肿兞?。二分變量是按互不相容的屬性分成兩類的資料。多分變量是按某種屬性或特征分成兩類以上的資料。 序分類變量:亦稱等級資料或半定量資料。具體取值也是具有某種屬性或特征的個數, 但不同取值之間有半定量的關系。特點是其各類別間有等級、程度或量的差異,即可按數量的相對大小或程度的上下排出順序。四、學習中醫(yī)統

8、計學的目的1.順應中醫(yī)藥學的開展趨勢。2.強化中醫(yī)科研的方案性和科學性。 3.拓寬研究思路。4.學會正確地運用統計方法和合理地解釋統計結果。五、學習中醫(yī)統計學的考前須知1理解和領會根本概念和原理,切忌死記硬背。2不追究公式的來源和推導,但要掌握其應用條件。3重視分析問題和解決問題能力的培養(yǎng)。4學會使用統計軟件。數值變量資料的統計描述統計描述概念:即利用原始數據,選擇適宜的統計指標及統計圖表,簡明準確地探察數據的分布類型和數量特征的根本統計方法。目的:是根據樣本中所包含的信息,客觀、正確地推論出其總體規(guī)律。第一節(jié) 頻數分布頻數:相同觀察值或觀察結果出現的次數。分布:指隨著隨機變量取值的變化,其相

9、應的概率變化的規(guī)律性。頻數分布:觀察值(變量值)按大小分組,各個組段內觀察值個數(頻數)的分布,是了解數據分布形態(tài)特征與規(guī)律的根底。一、 頻數分布的特征1.集中趨勢:指一組變量值的集中傾向或中心位置。2.離散趨勢:即一組變量值的離散傾向。二、頻數分布的類型1.對稱分布:指集中位置居中、左右兩側的 2.非對稱分布:亦稱偏態(tài)分布,是集中位置頻數分布根本對稱的頻數分布。 偏倚、兩側頻數的分布不對分為正態(tài)分布和非正態(tài)分布兩 稱的頻 數分布,可分為正種類型。 偏態(tài)和負偏態(tài)分布。 三、頻數分布表/圖的作用1.直觀地揭示數據的分布類型和特征。2.便于發(fā)現資料中某些遠離群體的特大或特小的可疑值。3.描述頻數分

10、布的集中趨勢與離散趨勢。4.便于進一步計算統計指標。四、頻數表概念:頻數分布表的簡稱。指觀察值或某些類別及其相應的頻數按一定順序排列的表格。例題:隨機抽取某地120例正常人,測得血清銅的含量(mol/L)如下表,試編制頻數表。13.84 12.53 13.70 14.89 17.53 13.19 18.8214.73 17.44 13.99 14.10 12.29 12.61 14.7814.59 14.71 18.62 19.04 10.95 13.81 10.5313.56 11.48 13.07 16.88 17.04 17.98 12.6711.03 9.23 15.04 14.09

11、15.90 11.48 14.6413.64 14.39 15.74 13.99 11.31 17.61 16.2613.53 11.68 13.25 11.88 14.21 15.21 15.2913.70 14.45 11.23 19.84 13.11 15.15 11.70頻數表的編制方法:1.找極值:Xmax 19.84,X min 9.232.求全距: XmaxX min ,19.849.2310.613.定組數:K=815。4.求組距:i=/ K1i為組距,k為組段數,R為全距i=10.61/(11-1)=1.06115.確定各組段的上下限:6.歸納計數:某地120名正常成年人血清

12、銅含量頻數表組段 頻數 頻率() () 9.00 3 2.5 3 2.510.00 4 3.3 7 5.811.00 12 10.0 19 15.812.00 13 10.8 32 26.6 13.00 17 14.2 49 40.814.00 22 18.3 71 59.115.00 18 15.0 89 74.116.00 13 10.8 102 84.917.00 11 9.2 113 94.118.00 5 4.2 118 98.319.00 2 1.7 120 100.0合 計 120 100.0五、頻數圖概念:亦稱直方圖,是以直方的寬度代表組距,以直方的面積大小表示頻數的多少、以直

13、方面積在總面積中的比例表示頻率大小的圖形。等距分組以橫軸表示變量,以縱軸表示頻數。不等距分組以橫軸表示變量,但縱軸是頻數除以組距 。第二節(jié) 數值變量資料集中趨勢的描述集中趨勢:是度量變量值集中位置和平均水平的數量指標,其代表值為平均數。平均數:是描述一組觀測值平均水平的指標,是對同質根底上的樣本或總體一般特征的表達指標。算術平均數、幾何平均數、中位數、眾數一、算術平均數1.定義:算術平均數簡稱均數。是一組觀察值的和與觀察值個數之商。是數量上的平均。用于說明一組觀測值的趨中位置或平均水平。 表示樣本均數,m表示總體均數。2.適用條件:正態(tài)或近似正態(tài)分布的資料。如生理指標。3.計算方法:直接法:有

14、n個觀察值,分別為X1,X2,Xn,式中是求和的符號 。例題:10名12歲男孩身高(cm)分別為125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均數。加權法:用于觀察值中相同數據較多或頻數表資料。1737.00/12014.48(mol/L)二、幾何均數1.定義:個數值連乘積的次方根。是比例或倍數上的平均。統計符號。2.應用條件:等比數列資料。如抗體滴度。 3.計算方法:例題:6份血清抗體滴度為1:2,1:4,1:8,1:8,1:16,1:32,求平均數。 平均滴度為1:8。三、中位數1.定義:將一組觀察值按由小到大的

15、順序排列,位次居中的數值即中位數。是位次上的平均。統計符號。2.應用條件:不拘分布、分布類型不明或一端無界的資料。如潛伏期、治愈時間和發(fā)病年齡。3.計算方法:n為奇數時 n為偶數時 式中 、 及 均為下標,表示有序數列中觀察值的位次。例題:某醫(yī)院用大黃粉治療胃熱血瘀型血證病人9例,其大便轉陰天數分別為1、1、2、2、3、4、5、7、10,求其中位數。本例n = 9, M = X5 = 3(天)。如果本例n=10,第10個數值為16天,那么 M=(3+4)/2=3.5(天。2 數表法用于觀察值例數較多或頻數表資料。為所在組段的下限;i為該組段的組距;m為該組段的;n為總例數;fL為小于的各組段的

16、。例題:905例男性銀屑病病人的發(fā)病年齡年齡 頻數f 累計頻數f 累計頻率p()10 54 54 5.9710 252 306(f) 33.81 20 346(f) 652 72.0430 128 780 86.1940 84 864 95.4750 29 893 98.6760 5 898 99.2370 7 905(n) 100.0020(10/346)(905/2306)24.23(歲)第三節(jié) 數值變量資料的離散趨勢描述離散趨勢:亦稱變異性,是描述一組同質觀察值的變異程度大小的指標。不但反映研究指標數值的穩(wěn)定性和均勻性,而且反映集中性指標的代表性。極差、四分位數間距、方差、標準差、變異系

17、數。變異指標示意(兩個學生五門成績分布)學生 科 目 變異指標 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76、兩個學生五門課程成績的均數都是80,但各科成績分布情況卻不相同。 較集中,變異較??;較分散,變異較大。一、 全距()概念:亦稱極差,是一組觀察值中最小值與最大值之差,反映個體差異的范圍。優(yōu)點:1.意義明確、計算簡便。2.穩(wěn)定性較差。3.受n大小的影響。4.可應用于任何分布。二、百分位數和四分位間距1.百分位數:是把一組觀察值從小到大排列,分為100等份,與位次所對的數值即為第

18、百分之位數。以x表示。 一個x將全部觀察值分為兩局部,理論上有的觀察值比它小,有(100)的觀察值比它大。是一種位置指標。M 即。2.四分位數間距:是上四分位數Q()與下四分位數Q()之差,符號為QR。是中間50觀察值的極差。QRQQ用途:常用來描述偏態(tài)分布資料分布以及分布的一端或兩端無確切數值資料的離散程度。3 表示參考值范圍 百分位數的另一個重要用途是表示偏態(tài)分布資料的參考值范圍。例題:905例男性銀屑病病人的發(fā)病年齡同前計算方法:10(10/252)×(905×0.2554)16.84(歲)30(10/128)×(905×0.75652)32.09

19、(歲)QR32.0916.8415.25(歲)三、方差概念:方差即離均差平方和的均值??傮w方差的符號為,樣本方差符號為2。優(yōu)點:由于2利用了每個觀察值的信息,反映一批數據變異程度的穩(wěn)定性和精確性好。缺點:但在運算時需將各個離均差平方,使原度量單位變成平方單位,不便于進行比擬。 應用條件:要求資料服從正態(tài)或近似正態(tài)分布。四、標準差概念:方差的平方根。除了具有方差的優(yōu)點外,還克服了度量單位被平方的缺乏,運用較方便??傮w標準差的符號為,樣本標準差的符號為;英文縮寫為SD。 例題:A學生:n=5,X78+79+80+81+82=400;X2782+792+802+812+82232021B學生:n=5

20、,X=400;X233000用途: 表示正態(tài)或近似正態(tài)分布的離散程度。描述數值變量的頻數分布特征( ±。制定醫(yī)學參考值范圍。與均數結合計算變異系數。與樣本含量結合計算標準誤。五、變異系數概念:一組觀察值的標準差與均數的百分比。是相對離散量,無單位。統計符號CV用途:比擬度量單位不同或均數相差懸殊時幾組樣本資料的離散性。 比擬實驗指標的穩(wěn)定性及測定方法的精密度。例題:1某單位測得28例成年脾虛病人的紅細胞數為3.10土0.86×1012L;血紅蛋白值為87.2土33.3gL,試比擬該兩項指標的變異程度。CVRBC(0.863.10)×10027.74;CVHb(33

21、.387.2)×10038.19可認為Hb的變異程度比RBC大。2某單位測得大鼠的血清谷丙轉氨酶(ALT)為29.4土1.4,家兔的ALT為52.8土1.5,試比擬兩種實驗動物ALT指標的實驗穩(wěn)定性。CV大鼠(1.429.4)×1004.76;CV家兔(1.552.8)×1002.84可認為家兔ALT的實驗穩(wěn)定性較好,應優(yōu)先考慮以家兔為實驗對象進行ALT的有關研究。由該例可知,CV對于改良實驗方法,選擇最正確實驗對象、指標等,都具有一定的實際意義。變異指標:1.極差較粗,適用于任何分布;2.標準差與均數單位相同,最常用,適用于正態(tài)及近似正態(tài)分布的統計描述;3.集中

22、指標和離散指標分別反映資料的特征,常配套使用:正態(tài)分布:算術平均數 標準差 偏態(tài)分布:中位數 四分位數間距等比資料:G正態(tài)分布及其應用第一節(jié) 正態(tài)分布某地120例正常人血清銅含量的直方圖。設想觀察人數逐漸增多組、距不斷細分,作直方圖。將各直方頂端的中點連接,形成一條光滑的曲線,該曲線即頻數曲線或頻率曲線,近似于數學上的正態(tài)分布曲線。一、 正態(tài)分布:又稱Gauss分布或常態(tài)分布,是一種最重要的連續(xù)型分布。正態(tài)分布曲線:是頂峰位于中央,兩側逐漸下降,左右對稱,永遠不與橫軸相交的曲線。二、正態(tài)分布的密度函數(x) f(x)為與x對應的正態(tài)曲線的縱坐標高度;為總體均數;為總體標準差;為圓周率,即3.1

23、4159;e 為自然對數的底,即2.71828。三、正態(tài)分布的特征1.在X軸上方,均數所在處最高。 2.集中性、對稱性和均勻變動性。3.正態(tài)分布有兩個參數和。 四、標準正態(tài)分布 由于不同的正態(tài)分布有不同的和,用公式計算的隨機變量x落在某個區(qū)間內的概率顯得非常麻煩。為尋求一個通用的方法,進行標準正態(tài)變換 (即u變換): u x -/。此變換實質上是作了一個坐標軸的平移和尺度變換,使原來的正態(tài)分布變換為0、1的標準正態(tài)分布(亦稱u分布),記為(0,1)。五、標準正態(tài)分布的密度函數 (< u <) 式中(u)為標準正態(tài)分布的密度函數,即縱坐標高度。六、正態(tài)曲線下面積分布的規(guī)律:七、正態(tài)分

24、布的應用1.統計分析方法的根底:很多抽樣分布,如卡方分布、t分布都是建立在正態(tài)分布的根底上。2.質量控制:為了控制檢測誤差,常以 ±2作為上下警戒線; ±3作為上下控制。 3.估計醫(yī)學參考值范圍。 4.進行參數估計和假設檢驗。第二節(jié)正態(tài)分布的應用 一、 可根據正態(tài)分布的規(guī)律估計觀察值的頻數分布范圍。 例題 某地120名正常人血漿銅含量(mol/L)的均數14.48、2.27,估計該地120名正常人血漿銅含量在14.2015.60(mol/L)范圍內的人數。 1.計算u值 當和未知時,u(x)/s。x114.20,u1(14.2014.48)/2.27-0.12x215.60

25、,u2(15.6014.48)/2.270.49 2.查表 -0.12左側的面積就是 0.12右側的面積。當u0.12時,在表的左側找到0.1,在表的上方找到0.02,二者相交處為0.5478,(-0.12)10.54780.4522,即標準正態(tài)變量u值小于-0.12的概率為0.4522; 當u0.49時,(0.49)0.6879,即u值小于0.49的概率為0.6879。3.確定概率u值在-0.120.49范圍內的面積為:(0.49)(-0.12) 0.68790.45220.2357,即血漿銅含量在14.2015.60(mol/L)范圍內的概率為23.57。4.估計區(qū)間內人數120名正常人血

26、清銅含量在14.2015.60(mol/L)范圍的人數為120×23.5728人二 、制定醫(yī)學參考值范圍1、醫(yī)學參考值的意義醫(yī)學參考值:是指包括絕大多數正常人的解剖、生理、生化、免疫、組織或排泄物中成分的測量值。 醫(yī)學參考值范圍慮到變異的影響,提高參考值作為判定正常或異常的可靠性所確定的絕大多數正常人醫(yī)學參考值的波動范圍。使用“參考值范圍的目的:個體臨床上劃分正常人與異常人的參考。人群制訂不同性別、年齡兒童某項發(fā)育指標的等級標準,用來評價兒童的發(fā)育水平等。2、制定參考值范圍的步驟選定健康人作為調查對象??刂茰y量誤差。確定樣本含量。根據實際意義分組。決定取單側還是雙側界限。選定適當的百

27、分界限。常用95、80 、90、99等。制定醫(yī)學參考值范圍。3、制定參考值范圍的常用方法正態(tài)分布法 適用于正態(tài)或近似正態(tài)分布的資料。 表達式為,為正態(tài)曲線下單側或雙側尾部的面積,u為相應的標準正態(tài)離差。雙側95的界限值為:單側95的上限值為:單側95的下限值為:例題:某地調查正常成年男子144人的紅細胞數,得均數5.381012/L,標準差0.441012/L,試估計該地成年男子紅細胞數的95%參考值范圍。 因紅細胞數過多或過少均為異常,用雙側界值。 下限: - 1.96s=5.38-1.96 ×0.44 =4.52 上限: + 1.96s=5.38+1.96×0.44 =

28、6.24 該地成年男子紅細胞數的95%參考值范圍4.526.241012/L 。百分位數法:是利用兩個百分位數作為雙側參考值范圍的上、下限,或者用一個百分位數作為參考值的上限或下限。 適用于非正態(tài)分布或分布未知的資料。 1雙側95參考值范圍: P2.5P97.5 2單側95參考值范圍上限值:P95 3單側95參考值范圍下限值:P5總體均數的估計參數估計:是通過樣本信息估計其總體相應指標的數值及數值范圍的統計分析方法,即用統計量估計總體參數的方法,是統計推斷的一個重要方面。第一節(jié) 抽樣分布與抽樣誤差醫(yī)學科研的常用方法是抽樣研究。由于個體差異的存在,測算的樣本指標值很難恰好等于總體指標值。這種由個

29、體差異和抽樣造成的樣本與總體、樣本與樣本相應統計指標之間的差異即抽樣誤差。一、樣本均數的抽樣分布與標準誤1.樣本均數的抽樣分布:指某種統計量的頻數分布。用樣本統計量作為該樣本的代表值,這些個樣本代表值的大小就形成了一個抽樣分布。2.抽樣分布的特點:1各統計量間存在差異,統計量不一定等于參數。2統計量的變異范圍比原變量的變異范圍大大縮小。3隨著n增加,樣本均數的變異程度減小。4如果原始變量服從正態(tài)分布,那么統計量也服從正態(tài)分布。 如果原始變量不服從正態(tài)分布,假設n較大,那么統計量服從正態(tài)分布;假設n較小,那么統計量為非正態(tài)分布。3抽樣誤差:是因抽樣產生的樣本與樣本、樣本與總體相應統計指標之間的差

30、異。由于存在個體差異,且樣本又未包含總體的全部信息,因此抽樣誤差是無法防止的。抽樣誤差的大小主要取決于樣本含量的多少和研究指標的變異程度。4.標準誤:表示樣本指標值在抽樣分布中的變異情況。SE越小,說明抽樣誤差越小,用統計量來估計參數時的可靠程度越大;反之,SE越大,說明抽樣誤差越大,用統計量來估計參數時越不可靠。均數的標準誤:樣本均數的標準差也稱均數的標準誤。反映樣本均數間的離散程度,反映樣本均數與相應總體均數間的差異,說明均數抽樣誤差的大小。估計標準誤:由于往往未知,常以S替代,算得的標準誤稱估計標準誤。其統計符號。由于標準誤與抽樣誤差成正比,與樣本均數的代表性成反比,故在實際工作中可將標

31、準誤作為描述統計指標可靠性的依據。5.標準差與標準誤的比擬標準差均屬標準誤意義描述個體觀察值之間的離散性變異程度描述同一總體中隨機抽出樣本含量相同的多個樣本均數間的離散性公式與n的關系隨著n的增大逐漸趨于穩(wěn)定隨著n的增大逐漸減小,與n的平方根成反比。用途表示觀察值得變異大小;結合樣本均數描述正態(tài)分布的特征;在正態(tài)分布時做參考值范圍的估計;計算變異系數和均數的標準誤表示樣本均數抽樣誤差的大小;描述樣本均數的可靠性;結合樣本均數估計總體均數的CI;進行均數間差異的假設檢驗例題:某樣本資料的2.27(mol/L),120,求其標準誤。代入公式得:二、t 分布及其應用1.t 分布:假設對正態(tài)分布總體屢

32、次重復抽取假設干樣本含量相同的樣本,樣本均數圍繞總體均數呈現正態(tài)分布。假設將所有樣本均數按公式進行數學變換,可得 u 圍繞0的標準正態(tài)分布。由于總體標準差未知,只能求出標準誤的估計值,變換公式求t 值,可得到假設干t值。將這些t 值繪成直方圖,假設樣本無限多,可繪成一條光滑的曲線t 分布曲線,此時所得的t 值圍繞0呈現的就是t 分布。 2.t 分布的特征:1是一簇單峰分布曲線,以0為中心,左右對稱。2其形態(tài)變化與自由度的大小有關越小,那么t值越分散,t 分布曲線越低平,t 分布的峰部越矮而尾部翹得越高;越大,t 分布越逼近正態(tài)分布。3t分布的單側概率和雙側概率在t界值表中,橫標目為自由度,縱標

33、目為概率(或)。一側尾部面積稱為單側概率或單尾概率; 兩側尾部面積之和稱為雙側概率或雙尾概率。表中數字表示當和確定時,對應的t的界值,其中與單尾概率相對應的t界值用表示,與雙尾概率相對應的t界值用 表示。查t界值表注意:由于t 分布是以0為中心的對稱分布,故附表2只列出正值,查表時,不管t值正負,均可用其絕對值t查表得概率值。相同自由度時,t值增大,概率減?。辉谙嗤瑃值時,雙尾概率是單尾概率的兩倍。 如雙尾 單尾 1.8123.t 分布的用途:總體均數的區(qū)間估計;t 檢驗。第二節(jié) 總體均數的估計是根據樣本分布的特點,由樣本均數推測總體均數的大小及其范圍。總體均數估計的方法有點估計和區(qū)間估計兩種

34、。一、 總體均數的點估計點估計 概念:用樣本確定的統計量的值來直接估計總體參數的數值。方法:以樣本統計量及其標準誤作為被估計參數的點估計值,一般是以統計量加減標準誤的方式給出參數的點估計值。優(yōu)點:方法簡單。 缺點:未考慮抽樣誤差的影響。二、區(qū)間估計根據抽樣分布原理,按預先給定的概率水準,給出被估計參數可能的數值范圍。統計學稱這一范圍為被估計參數的可信區(qū)間(CI)。稱預先給定的概率水準為可信度或可信系數,符號為1-,常取95或99 。稱按95或99水準確定的CI為95CI或99CI。1 大樣本資料均數的可信區(qū)間樣本例數足夠大(100)時,可按正態(tài)分布原理,用以下公式估計總體均數的CI。95CI

35、99CI例題:測得某地296例成年男性發(fā)鋅的均數為200.0ppm,標準差為21.8ppm。試估計該地成年男性發(fā)鋅總體均數的95CI。本例296, 200,21.8, 1.27。 95CI200.0±1.96×1.27(197.51,202.49)該地成年男性發(fā)鋅總體均數的95CI為197.51202.4ppm。2.小樣本資料均數的可信區(qū)間當較小(100)時,一般按t分布原理,用以下公式估計總體均數的CI。95CI 99CI式中t0.05/2,與t0.01/2,為t0.05與t0.01的雙側界值。例題:測得某地12例腎虛失鈉型哮喘病人甲皺微循環(huán)管袢長度的均數為208.33,

36、標準差為67.07。試估計該地腎虛失鈉型哮喘病人甲皺微循環(huán)管袢長度總體均數的95CI。本例12, 208.33,67.07, 19.36 112111。查t界值表得t0.05/2,112.201,按公式求得:95CI208.33±2.201×19.36(165.72,250.94)該地腎虛失鈉型哮喘病人甲皺微循環(huán)管袢長度總體均數的95CI為165.72250.943.可信區(qū)間的要素1準確度:是CI包含總體參數的概率大小,用可信度的大小1-表示。可信度越接近1,可信程度越高,準確度越高。如可信度99比95可信程度高。2精密度:是對總體參數的估計范圍或長度的度量,反映在CI即長

37、度愈小愈精密。 每一次估計間的差異越小,CI愈小,即CI的長度越小,其估計的精密度越高。4.可信區(qū)間的特點1當確定后,CI范圍的大小與可信度1-的上下呈正比,與估計結果的精密度呈反比。2當可信度1-確定后,的大小與CI范圍的大小呈反比;與估計結果的精密度呈正比。因為增加樣本例數會減小標準誤,使CI的范圍縮小。CI的范圍越小,真實值靠近點估計值的可能性越大,靠近CI邊緣的可能性越小,估計的精確度也隨之提高,其統計效力就越大。5.可信區(qū)間與可信限的關系CI為某一整體內的一個分段,是以上、下可信限為界的開區(qū)間(不包含界值在內)。CU與CL是CI的上下兩個界值。如95CI為(165.6,251.0)。

38、165.6是CI的下限(L),251.0為CI的上限(U)。6.CI與參考值范圍的比擬1可信區(qū)間:是參數的估計范圍,需用標準誤(SE)計算,表示總體指標的可能范圍。2參考值范圍:表示大多數正常人的解剖、生理、生化某項指標的波動范圍,需用標準差計算,用于判斷觀察對象的某項指標正常與否。假設檢驗一、 假設檢驗的概念與分類概念:亦稱顯著性檢驗,是利用樣本信息,根據一定的概率水準,推斷樣本指標(統計量) 與總體指標(參數)、不同樣本指標間的差異有無意義的統計分析方法。(一) 參數檢驗和非參數檢驗1.參數檢驗 概念:依賴總體分布的具體形式的統計方法,簡稱參數法。常用的參數法有2 檢驗、t 檢驗、檢驗等。

39、使用條件是抽樣總體的分布。優(yōu)點:能充分利用樣本信息;檢驗效率較高。 缺點:應用條件限制較多。2.非參數檢驗 概念:一類不依賴總體分布的具體形式的統計方法。如Ridit分析、秩和檢驗、符號檢驗、中位數檢驗、序貫試驗、等級相關分析等。優(yōu)點:對總體的分布形式不要求;可用于不能精確測量的資料;易于理解和掌握;計算簡便。缺點:不能充分利用資料所提供的信息,使檢驗效率降低。二單因素分析與多因素分析1.單因素分析亦稱一元分析,是在主要的非處理因素相同的條件下,不管影響結果的處理因素(如病人年齡、病情、辯證分型、病理類型、藥物劑型、用藥途徑、療程等)有多少,每次僅分析一個處理因素與效應之間關系的統計方法。2.

40、多因素分析亦稱多變量分析或多元分析,是研究多因素和多指標之間的關系以及具有這些因素的個體之間關系的一種統計分析方法。二、 假設檢驗的根本思想 先假設差異由抽樣造成,即總體間本無差異,在此假設成立的前提下做抽樣研究,如果該次抽樣屬小概率事件,那么樣本信息不支持原假設的成立,拒絕它。三、假設檢驗的根本步驟例題:根據大量調查,健康成年男子的脈搏均數為72次/分。某醫(yī)生在某醫(yī)院隨機調查30名脾虛男子,求得脈搏均數為74.2次/分,標準差為7.5次/分。脾虛病人的脈搏是正態(tài)分布,問脾虛男子的脈搏均數與一般成年男子的脈搏均數是否相等?分析:把一般成年男子的脈搏均數看作一個總體均數,脾虛男子的脈搏均數為樣本

41、均數。mm072,n30 , X74.2,s7.5 。 m0 ¹ 的原因: 抽樣誤差所致。脾虛致兩個均數間有本質性差異。1建立假設、確定檢驗水準無效假設:記為,即樣本均數所代表的總體均數與的總體均數0相等。樣本均數與0的差異是由抽樣誤差引起,無統計學意義。備擇假設:記為,即樣本均數所代表的總體均數與0不相等,樣本均數與0的差異是本質性差異,有統計學意義。假設檢驗有雙側檢驗和單側檢驗假設目的是推斷兩總體均數是否不等,應選用雙側檢驗。 H0:0,H1:0假設從專業(yè)知識不會出現0 (或0)的情況,那么選用單側檢驗。 H0:0,H1:0 (或0)確定檢驗水準檢驗水準亦稱顯著性水準,符號為,是

42、事先規(guī)定的對假設成立有否作出判斷的根據。常取0.05或0.01。2選擇檢驗方法、計算統計量 根據:研究目的,資料的類型和分布,設計方案,統計方法的應用條件,樣本含量大小等;選擇適宜的統計方法并計算出相應的統計量。3確定值、做出推論 假設檢驗中的值是指在由無效假設所規(guī)定的總體作隨機抽樣,獲得等于及大于(和/或等于及小于)現有統計量的概率。即各樣本統計量的差異來自抽樣誤差的概率,它是判斷H成立與否的依據。確定值的方法主要有兩種查表法 根據檢驗水準、樣本自由度直接查相應的界值表求出值。計算法 用特定的公式直接求出值。推論:假設,就沒有理由疑心H0的真實性,那么結論為不拒絕H0,做出不否認此樣本是來自

43、于該總體的結論,也即差異無顯著性意義; 假設,那么拒絕H0,接受H1,也就是說這些統計量來自不同的總體,其差異不能由抽樣誤差來解釋,下結論為差異有顯著性意義。檢驗以t分布為理論根底,對一個或兩個樣本的數值變量資料進行假設檢驗常用的方法,屬于參數檢驗。第二節(jié) 單樣本 t 檢驗概念: 亦稱樣本均數與總體均數比擬的t檢驗。用于從正態(tài)總體中獲得含量為n的樣本,算得均數和標準差,判斷其總體均數是否與某個總體均數0相同。總體均數一般為標準值、理論值或經大量觀察得到的較穩(wěn)定的指標值。一、適用條件:1.對正態(tài)分布的數值變量資料,需用檢驗。2.對于非正態(tài)分布的資料,假設經過變量變換使成正態(tài)分布,可按檢驗處理;否

44、那么,用非參數檢驗的方法。二、正態(tài)性檢驗的方法檢驗假設為總體分布是正態(tài)分布,當P時,不拒絕,認為樣本所來自的總體服從正態(tài)分布;而P時,拒絕,認為樣本所來自的總體不服從正態(tài)分布。1.W檢驗 Shapiro-Wilk檢驗是基于次序統計量對它們期望值的回歸而構成的。所用檢驗統計量為W,又稱為W檢驗。在樣本量3n50時使用。2.D檢驗 Kolmogorov-Smirnov檢驗的統計量為D,所以也稱D檢驗,在樣本量50n1000時使用。三、計算公式 , ,1 式中為樣本均數,為總體均數,為樣本含量,為樣本標準差,為自由度。四、檢驗步驟1.建立假設、確定檢驗水準 H0:0,H1:0 ,0.052.選擇檢驗

45、方法、計算統計量 3.確定值、做出推論n=30-1 =29,查t值表, t0.05/2,29=2.045, 今t =1.607t0.05/2,29,P 0.05。按0.05水準,不拒絕H0,根據現有樣本信息,不能認為脾虛男子脈搏數與健康人不同第三節(jié) 配對設計資料均數的t檢驗配對設計將觀察單位按照某些特征(如性別、年齡、病情等可疑混雜因素)配成條件相同或相似的對子,每對中的兩個觀察單位隨機分配到兩個組,給予不同的處理,觀察指標的變化。 同一觀察單位實驗(或治療)前后的比擬; 同一樣品用兩種方法檢驗結果的比擬; 配對的兩個觀察單位分別接受兩種處理后的數據比擬。 配對檢驗配對檢驗又稱成對檢驗,是將對

46、子差數d 看做變量,先假設兩種處理的效應相同,120,無顯著性,推斷兩種處理因素的效果有無差異或某處理因素有無作用。由于此種設計使影響結果的非被試因素相似或相同,因而提高了研究效率。一、適用條件:1.設計類型是配對設計。2.數值變量的對子差值是正態(tài)分布。二、計算公式 1,式中為各個對子數值的差數,為差數的平均數 , 為差數的標準差, 為差數的標準誤,為對子數。三、檢驗步驟例題:對10名患者分別用濕式熱消化-雙硫腙法和硝酸-高錳酸鉀冷消化法測定尿鉛,問兩法測得結果有無差異。用兩種方法測定尿鉛結果(mol/L)患者號冷消化法熱消化法差值dd212.412.80-0.390.1521212.0711

47、. 240.830.688932.903.04-0.140.019641.641.83-0.190.036152.751.880.870.756961.061.45-0.390.152173.233.43-0.200.0480.770.92-0.150.022593.673.81-0.140.0196104.494.010.480.2304合計0.58(Sd) 2.118 (Sd2) 1.建立假設、確定檢驗水準H0:0,H1:0 ,0.052. 計算統計量t值先計算差值d 及d 2(如表),得Sd =0.58,Sd2=2.1182計算差值的標準誤 3.確定值、做出推論 n=n 1=101=9,

48、查界值表,得雙側t0.05/2,9 =2.262, 本例 t t0.05/2,9,P 0.05。 按0.05水準,不拒絕H0,不能認為兩法測定尿鉛結果有差異。第四節(jié)獨立樣本t 檢驗與檢驗獨立樣本資料是在兩個總體里分別隨機抽樣,或將同一總體里抽取的觀察對象隨機分為 兩組,采取不同的處理得到的資料。獨立樣本t 檢驗亦稱兩樣本t 檢驗或成組t 檢驗。與檢驗均適用于完全隨機化設計兩獨立樣本的比擬,目的是推斷兩獨立樣本均數所代表的未知總體均數1與2是否有差異。一、獨立樣本的方差齊性檢驗方差齊性兩個樣本均數的假設檢驗,除了要求樣本資料來自正態(tài)分布或近似正態(tài)分布,還要求兩個樣本的總體方差相等。一應用條件:兩

49、個樣本均來自正態(tài)分布的總體。 二計算公式:統計量F 為較大的方差與較小的方差的比值。 F=s12/s22,1n11,2n21 三檢驗步驟例題:某醫(yī)師要觀察自擬中藥方“降脂膠囊對高血脂癥的療效,將診斷為高血脂的20例病人隨機分為兩組,一組用上述中藥治療,另一組用西藥治療,3個月后測量血清膽固醇含量(mmol/L如下,兩組血清膽固醇含量均服從正態(tài)分布,試比擬兩藥降低膽固醇的效果有無差異。1.建立檢驗假設、確定檢驗水準 H0:兩總體方差相等 H1:兩總體方差不相等 a 0.10較大以減少II類錯誤2.選擇檢驗方法、計算統計量 中藥組S2 =0.580; 西藥組S2 =0.466 F=s12/s22 =0.580/0.466

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論