數(shù)值變量的統(tǒng)計描述課件_第1頁
數(shù)值變量的統(tǒng)計描述課件_第2頁
數(shù)值變量的統(tǒng)計描述課件_第3頁
數(shù)值變量的統(tǒng)計描述課件_第4頁
數(shù)值變量的統(tǒng)計描述課件_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

預(yù)防醫(yī)學(xué)(醫(yī)學(xué)統(tǒng)計學(xué)部分)102數(shù)值變量的統(tǒng)計描述第十章提綱數(shù)值變量的統(tǒng)計描述正態(tài)分布及其應(yīng)用參數(shù)估計假設(shè)檢驗202數(shù)值變量的統(tǒng)計描述統(tǒng)計描述統(tǒng)計描述就是用適當(dāng)?shù)谋砀瘛D形、數(shù)量化的指標(biāo),表達(dá)數(shù)據(jù)的數(shù)量特征,揭示其分布的規(guī)律性統(tǒng)計描述分為:形象化描述(統(tǒng)計圖表)——建立對資料的初步印象;數(shù)值化的描述(統(tǒng)計指標(biāo))——給出分布規(guī)律及具體數(shù)值302數(shù)值變量的統(tǒng)計描述統(tǒng)計描述為什么要對資料進(jìn)行統(tǒng)計描述?醫(yī)學(xué)研究得到的原始數(shù)據(jù)(rawdata)往往是龐大的、混亂的個體變異的存在,醫(yī)學(xué)研究中某指標(biāo)在各個體上的觀察結(jié)果不是恒定不變的,但也不是雜亂無章的;從總體的角度上個體值的出現(xiàn)是有一定規(guī)律的,即呈一定的分布統(tǒng)計描述的結(jié)果為進(jìn)一步的統(tǒng)計推斷提供參考402數(shù)值變量的統(tǒng)計描述一、數(shù)值變量的統(tǒng)計描述某地某年隨機(jī)抽查120名8歲健康男孩身高(cm)124.6126.2128.1130.6132.6125.4126.6128.4124.5129.5124.8127.8128.3131.8125.8126.8129.6125.6127.6129.8125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1166.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8121.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8502數(shù)值變量的統(tǒng)計描述理想的描述結(jié)果身高例數(shù)比例(%)112~21.7114~75.8116~97.5118~1411.7120~1512.5122~2117.5124~1815.0126~1512.5128~108.3130~54.2132~32.5134~13610.8602數(shù)值變量的統(tǒng)計描述如何得到上述理想的結(jié)果?頻數(shù)分布表分組劃計原始資料頻數(shù)分布圖各項統(tǒng)計指標(biāo)702數(shù)值變量的統(tǒng)計描述求極差R:R=max-min確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。對于100余例的數(shù)據(jù)通常分為8-15組?;蚋鶕?jù)以下經(jīng)驗公式:確定組距:組距i是一個組的下限與下一個組段下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即i=Int[(max-min)÷組數(shù)]列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表1.頻數(shù)表802數(shù)值變量的統(tǒng)計描述1.頻數(shù)表身高例數(shù)比例(%)112~21.7114~75.8116~97.5118~1411.7120~1512.5122~2117.5124~1815.0126~1512.5128~108.3130~54.2132~32.5134~13610.8902數(shù)值變量的統(tǒng)計描述2.頻數(shù)分布圖(直方圖)1002數(shù)值變量的統(tǒng)計描述頻數(shù)表與頻數(shù)圖的作用頻數(shù)表與頻數(shù)圖可以提供不同分組的觀察人數(shù)、頻率與頻率密度觀察分布范圍及有無可疑值確定分布的類型:對稱或不對稱分布1102數(shù)值變量的統(tǒng)計描述對稱分布兒童身高介于112~136cm間以“122~”組段的頻數(shù)最多從“122~”組段向兩端逐漸減少表現(xiàn)出以“122~”組段為中心基本對稱的特點1202數(shù)值變量的統(tǒng)計描述不對稱分布分布不對稱者稱為偏態(tài)分布skewnessdistribution

偏態(tài)分布又分為正偏分布和負(fù)偏分布正偏分布positiveskewness是指分布的長尾在峰的右側(cè),又稱右偏分布rightskewed所謂負(fù)偏分布negativeskewness是指分布的長尾在峰的左側(cè),又稱左偏分布leftskewed1302數(shù)值變量的統(tǒng)計描述Negativeskewness:老年人生存質(zhì)量自評分0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自評分人數(shù)1402數(shù)值變量的統(tǒng)計描述Positiveskewness:黑色素瘤患者的生存時間0

5

10

15

20

25

30

35

40

45

0

10203040

生存時間(月)人數(shù)1502數(shù)值變量的統(tǒng)計描述如何更具體、精確?了解了數(shù)據(jù)分布的形態(tài)(對稱與否)、是否有異常值,僅僅意味著對數(shù)據(jù)有了初步認(rèn)識,尚未得到數(shù)據(jù)的“精確”特征例如:教務(wù)處得到04與05兩個年級的預(yù)防醫(yī)學(xué)成績,如何判斷優(yōu)劣?分?jǐn)?shù)段03級04級例數(shù)%例數(shù)%<6043.776.960~1917.62221.870~3835.22625.780~3532.43029.790~1001211.11615.91602數(shù)值變量的統(tǒng)計描述3、描述集中趨勢與離散趨勢的指標(biāo)集中趨勢centraltendency:反映同質(zhì)的群體中數(shù)據(jù)向其中心值靠攏的傾向和程度;測量集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值,該值通常稱為平均數(shù)離散趨勢dispersetendency:反映各變量值遠(yuǎn)離其中心值的程度,體現(xiàn)了同質(zhì)群體內(nèi)部個體間的變異大小,也稱為變異度1702數(shù)值變量的統(tǒng)計描述集中趨勢的描述常見的平均數(shù)指標(biāo)有:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)不同分布類型的數(shù)據(jù)用不同的集中趨勢指標(biāo)1802數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)算術(shù)均數(shù)arithmeticmean

(μ總體均數(shù),樣本均數(shù))簡稱均數(shù),在已知各觀察單位具體變量值時,可以采用直接法計算,公式如下:1902數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)測得8只正常大鼠血清總酸性磷酸酶(TACP)含量(U/L)為:4.20、6.43、2.08、3.45、2.26、4.04、5.42、3.38;求其品均水平。解2002數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)求120名8歲男童的平均身高資料來源于整理后的頻數(shù)表,無法取得原始數(shù)據(jù)采用加權(quán)法計算加權(quán)均數(shù),作為算術(shù)均數(shù)的近似值身高例數(shù)比例(%)112~21.7114~75.8116~97.5118~1411.7120~1512.5122~2117.5124~1815.0126~1512.5128~108.3130~54.2132~32.5134~13610.82102數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)加權(quán)均數(shù)(weightedmean)直接法算術(shù)均數(shù)是加權(quán)均數(shù)的一個特例2202數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)組段頻數(shù)組中值頻數(shù)×組中值112~2113226114~7115805116~91171053118~141191666120~151211815122~211232583124~181252250126~151271905128~101291290130~5131655132~3133399134~1361135135合計120—147822302數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)直接法計算的均數(shù)為:123.02加權(quán)法計算的均數(shù)為:123.18二者十分接近;可見加權(quán)法計算的結(jié)果是對直接法的良好近似;而且加權(quán)法的計算較直接法穩(wěn)定,簡便2402數(shù)值變量的統(tǒng)計描述算術(shù)均數(shù)小結(jié)它是一組數(shù)據(jù)的均衡點所在;集中趨勢的最常用指標(biāo)易受極端值的影響用于定量數(shù)據(jù),不能用于分類數(shù)據(jù)和等級數(shù)據(jù)適用于服從對稱分布計量資料(正態(tài)或近似正態(tài))的集中趨勢描述2502數(shù)值變量的統(tǒng)計描述假設(shè)某投資者擁有資金1000元,第一年他取得10%的收益,第二年為15%,第三年為20%,求平均收益?第一年末所擁有的資金為其原始的1.1倍第二年末所擁有的資金為其原始的1.1×1.15倍第三年末所擁有的資金為其原始的1.1×1.15×1.2倍假設(shè)他三年來的投資收益是平均的,那么他的年平均收益a應(yīng)該滿足a×a×a=1.1×1.15×1.2;所以:即他的年均收益為14.9274905%,而不是(0.1+0.15+0.2)/3=0.15問題:平均發(fā)展速度2602數(shù)值變量的統(tǒng)計描述問題:平均抗體滴度7名慢性遷延性肝炎患者的HBsAg滴度資料為:1:16、1:32、1:32、1:64、1:64、1:128、1:512,求平均滴度?相似的思路處理抗體滴度問題:假設(shè)1:16為基礎(chǔ)滴度,則原始數(shù)據(jù)可以看作是1倍、2倍、2倍、4倍、4倍、8倍、和32倍稀釋;求平均稀釋倍數(shù)如果改用算術(shù)均數(shù)的直接法:先將各滴度取倒數(shù),倒數(shù)的平均數(shù)約為121.14,所以平均滴度約為1:121比1:121大的有5個數(shù)據(jù),而比它小的只有2個,而且大多數(shù)的數(shù)據(jù)在1:100以內(nèi),所以看來1:121不合適!2702數(shù)值變量的統(tǒng)計描述已知矩形邊長為4和1,求平均邊長已知長方體長、寬、高分別為4、1、2,求平均邊長矩形平均邊長為2,長方體平均邊長也為2問題:平均邊長2802數(shù)值變量的統(tǒng)計描述幾何平均數(shù)上述例子可見平均邊長、平均發(fā)展速度、平均抗體稀釋倍數(shù)等平均指標(biāo)的求法與算術(shù)均數(shù)、中位數(shù)有所差別將這種由n個數(shù)據(jù)相乘后開n次方求得的平均數(shù)稱為幾何平均數(shù)geometricmean,表示為G2902數(shù)值變量的統(tǒng)計描述幾何平均數(shù)抗體滴度頻數(shù)1:1621:3271:64111:128131:256121:5127合計5252名慢性肝炎患者的HBsAg滴度經(jīng)過整理后如右表采用加權(quán)法計算加權(quán)幾何均數(shù)3002數(shù)值變量的統(tǒng)計描述幾何平均數(shù)與算術(shù)均數(shù)從上述公式中可見,幾何均數(shù)的對數(shù)值相當(dāng)于原觀察值對數(shù)轉(zhuǎn)化后所求得的算術(shù)平均數(shù)算術(shù)平均數(shù)的使用條件是數(shù)據(jù)滿足對稱或近似對稱分布;即意味著,如果數(shù)據(jù)在經(jīng)對數(shù)轉(zhuǎn)換后滿足對稱分布,就可以求其幾何平均數(shù)3102數(shù)值變量的統(tǒng)計描述幾何平均數(shù)小結(jié)適用于呈等比級數(shù)、或呈倍數(shù)變化的數(shù)據(jù);例如醫(yī)學(xué)上的抗體滴度、人口變化速度、細(xì)菌增長率、藥物效價等常用于表示呈正偏態(tài),但是經(jīng)過對數(shù)轉(zhuǎn)換后可以滿足對稱(正態(tài))的數(shù)據(jù)的平均水平數(shù)據(jù)中不可以有0,如果有0用一個很小的正數(shù)代替;不可同時有正負(fù)數(shù)在醫(yī)學(xué)之外,它常用于計算事物變化的平均速度(經(jīng)濟(jì)學(xué))3202數(shù)值變量的統(tǒng)計描述對于某項風(fēng)險較高的新手術(shù)術(shù)后的生存時間進(jìn)行跟蹤,共調(diào)查了7人,6人死亡之前分別生存了5天、6天、10天、16天、25天、29天,還有一人術(shù)后30天隨訪時仍存活;求他們的平均生存時間?問題:3302數(shù)值變量的統(tǒng)計描述中位數(shù)中位數(shù)median:觀察值排序后處于中間位置上的值對于有奇數(shù)位數(shù)的數(shù)據(jù)

Me

=(n+1)/2位數(shù)對于有偶數(shù)位數(shù)的數(shù)據(jù)

Me

=[n/2位數(shù)+(n/2+1)位數(shù)]/2Me50%50%3402數(shù)值變量的統(tǒng)計描述中位數(shù)某藥廠觀察9只小鼠口服高山紅景天醇提取物(RSAE)后在缺氧條件下生存時間(分鐘)如下:

原始數(shù)據(jù):49.160.863.363.663.665.665.868.669.0

排序:49.160.863.363.663.665.665.868.669.0

位置:123456789

3502數(shù)值變量的統(tǒng)計描述中位數(shù)求120名男童身高的中位數(shù)資料來源于整理后的頻數(shù)表,無法取得原始數(shù)據(jù)如何計算中位數(shù)?身高例數(shù)比例(%)112~21.7114~75.8116~97.5118~1411.7120~1512.5122~2117.5124~1815.0126~1512.5128~108.3130~54.2132~32.5134~13610.83602數(shù)值變量的統(tǒng)計描述中位數(shù)組段頻數(shù)頻率(%)累計頻率(%)112~21.71.7114~75.87.5116~97.515.0118~1411.726.7120~1512.539.2122~2117.556.7124~1815.071.7126~1512.584.2128~108.392.5130~54.296.7132~32.599.2134~13610.8100.0合計120100—3702數(shù)值變量的統(tǒng)計描述中位數(shù)頻數(shù)表法計算公式:式中L50、i50和f50分別為中位數(shù)所在組段的下限、組距和頻數(shù);為小于L50各組段的累積頻數(shù),n為總例數(shù)3802數(shù)值變量的統(tǒng)計描述中位數(shù)直接法計算的中位數(shù)為:122.7頻數(shù)表法計算的中位數(shù)為:123.2該組數(shù)據(jù)的算術(shù)平均數(shù)為:123.02可見對于近似對稱分布的數(shù)據(jù),中位數(shù)與算術(shù)平均數(shù)是十分接近的(理論上對于完全對稱分布,二者是相等的)對于偏態(tài)分布的數(shù)據(jù),二者的關(guān)系又是如何?3902數(shù)值變量的統(tǒng)計描述中位數(shù)vs.算術(shù)平均數(shù)4位職員月收入3000、3500、4000、4500;經(jīng)理月收入2萬,求該部門5位人員平均月收入?算術(shù)均數(shù)求得為7000,但是不論職員還是經(jīng)理的收入均與此相區(qū)甚遠(yuǎn),即算術(shù)均數(shù)作為這一組數(shù)據(jù)的集中位置不合理中位數(shù)求得為4000元,很好的體現(xiàn)了“少數(shù)服從多數(shù)”的原則:在4000附近的確人數(shù)占絕大多數(shù),這應(yīng)該是具有說服力的“集中位置”!能否總結(jié)一下為什么舍算術(shù)均數(shù)而取中位數(shù)?4002數(shù)值變量的統(tǒng)計描述中位數(shù)vs.算術(shù)平均數(shù)對于偏態(tài)分布資料,算術(shù)均數(shù)受極端值的影響,偏離了“中心”位置,不再合理反映“集中點”所以對于偏態(tài)分布數(shù)據(jù),多采用中位數(shù)反映平均水平而對于近似對稱分布數(shù)據(jù),二者均可以反映平均水平,但是算術(shù)均數(shù)對數(shù)據(jù)的變化反映較中位數(shù)靈敏,得到的指標(biāo)更精確4102數(shù)值變量的統(tǒng)計描述正、負(fù)偏態(tài)的由來對于正偏態(tài)數(shù)據(jù)有算術(shù)均數(shù)>中位數(shù),故算術(shù)均數(shù)減去中位數(shù)為正值,稱這種數(shù)據(jù)分布為正偏態(tài)對于負(fù)偏態(tài)數(shù)據(jù)有算術(shù)均數(shù)<中位數(shù),故算術(shù)均數(shù)減去中位數(shù)為負(fù)值,稱這種數(shù)據(jù)分布為負(fù)偏態(tài)4202數(shù)值變量的統(tǒng)計描述適用于分布呈明顯偏態(tài),數(shù)據(jù)中存在極大或極小值,分布的一端或兩端無確定數(shù)值,或分布不清的資料它是位置參數(shù),不受極端值的影響,因此較算術(shù)均數(shù)穩(wěn)定對于對稱分布的資料,理論上中位數(shù)與算術(shù)均數(shù)是相等的

中位數(shù)小結(jié)4302數(shù)值變量的統(tǒng)計描述

對于兩組資料集中趨勢的描述:

樣本1:樣本含量9,算術(shù)均數(shù)10.11,中位數(shù)9.9

樣本2:樣本含量9,算術(shù)均數(shù)10.11,中位數(shù)9.9

結(jié)論:兩個樣本完全一樣?

樣本1:8.99.49.69.79.910.410.911.011.2

樣本2:2.93.13.85.19.910.017.018.021.2兩個樣本的資料相同或不同?4402數(shù)值變量的統(tǒng)計描述離散趨勢指標(biāo)離散趨勢反映數(shù)據(jù)特征的另外一個重要方面——“離心”程度從另一個側(cè)面說明了集中趨勢測量值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測量值4502數(shù)值變量的統(tǒng)計描述極差極差range:一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布一般極差越大,則數(shù)據(jù)的變異性越大;但是它沒有考慮除極值外其他數(shù)據(jù)的變異情況;而且樣本的極差通常過小地估計了總體的極差78910789104602數(shù)值變量的統(tǒng)計描述四分位數(shù)它與中位數(shù)一樣,都是特殊的位置百分位數(shù)Qu,第75%位數(shù)又稱為上四分位數(shù)(上限)QL,第25%位數(shù)又稱為下四分位數(shù)(下限)四分位數(shù)quartile:排序后處于25%和75%位置上的值QLMQU25%25%25%25%4702數(shù)值變量的統(tǒng)計描述四分位數(shù)的確定頻數(shù)表法:

第x百分位數(shù)

式中Lx、ix和fx分別為第x百分位數(shù)所在組段的下限組距和頻數(shù);為小于Lx各組段的累積頻數(shù),n為總例數(shù)

4802數(shù)值變量的統(tǒng)計描述四分位數(shù)間距四分位數(shù)間距interquartilerange:上四分位數(shù)與下四分位數(shù)之差I(lǐng)RQ=QU–QL反映數(shù)據(jù)離散程度,其值越大數(shù)據(jù)離散程度越大體現(xiàn)了中間50%數(shù)據(jù)的離散程度,但是仍然沒有考慮到每個觀測值間的變異受極端值的影響小,比極差穩(wěn)定特別適用于分布呈明顯偏態(tài);分布形態(tài)不清;分布一端或兩端無確定數(shù)值的資料常與中位數(shù)一起,綜合描述數(shù)據(jù)的集中和離散趨勢4902數(shù)值變量的統(tǒng)計描述

離均差與離均差和:

為了克服全距、四分位數(shù)間距的缺點,人們考慮到用每個變量值與均數(shù)之間的差別來反映離散的程度,所以提出了離均差的概念,其數(shù)學(xué)表達(dá)式為離均差可正可負(fù),但是數(shù)學(xué)上可以證明

離均差與離均差和5002數(shù)值變量的統(tǒng)計描述

離均差平方和與離均差平方和的平均值:為了避免離均差和等于0的情況,人們考慮將離均差取平方后求其和,于是有了離均差平方和,其數(shù)學(xué)表達(dá)式為前者稱為SS總體,后者稱為SS樣本;但是SS不但和變異大小有關(guān),還和觀察值的個數(shù)有關(guān),SS隨觀察例數(shù)增多而增大。為了解決這個問題,人們又引入了離均差平方和的平均值,其數(shù)學(xué)表達(dá)式為

離均差平方和與均方5102數(shù)值變量的統(tǒng)計描述方差離均差平方和的平均值(MS),又可稱為方差variance它是反映數(shù)據(jù)離散程度的最常用的指標(biāo)在計算方差過程中利用到每個變量值,所以它表達(dá)的離散趨勢信息比極差、四分位數(shù)間距更精確但是由于在計算方差時用到算術(shù)均數(shù),所以方差也只能用于反映對稱或近似對稱分布資料的離散趨勢5202數(shù)值變量的統(tǒng)計描述

總體方差通常用希臘字母s2(sigma)表示,記作:

但是在實際研究中,通常只觀察來自總體中的一個樣本,所以總體均數(shù)是未知的;此時用樣本均數(shù)作為總體均數(shù)的估計值,相應(yīng)的方差稱為樣本方差,其公式為:

式中的n-1又稱為自由度總體方差與樣本方差5302數(shù)值變量的統(tǒng)計描述自由度自由度degreeoffreedom,df:一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當(dāng)樣本數(shù)據(jù)的個數(shù)為n時,若樣本均值

x確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則

x=5。當(dāng)

x=5確定后,如果x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差S2去估計總體方差σ2時,它是σ2的無偏估計值5402數(shù)值變量的統(tǒng)計描述標(biāo)準(zhǔn)差

在取方差的過程中,對離均差作了平方轉(zhuǎn)換,這樣方差的單位就是原觀察值單位的平方,使用不方便為了使得觀察單位的平均數(shù)指標(biāo)與變異程度指標(biāo)具有相同的單位,通常將方差的算術(shù)平方根作為反映變異程度的一個重要指標(biāo),人們將它稱為標(biāo)準(zhǔn)差standarddeviation,sd5502數(shù)值變量的統(tǒng)計描述方差(MS)標(biāo)準(zhǔn)差(SD)樣本

總體

5602數(shù)值變量的統(tǒng)計描述方差(MS)標(biāo)準(zhǔn)差(SD)樣本(x為組中值)

總體(x為組中值)

5702數(shù)值變量的統(tǒng)計描述1985年通過十省調(diào)查得知,農(nóng)村剛滿周歲的女童體重均數(shù)為8.42kg,標(biāo)準(zhǔn)差為0.98kg;身高均數(shù)為72.4cm,標(biāo)準(zhǔn)差為3.0cm,試問身高與體重何者變異情況較大?要反映變異程度本例題中宜采用標(biāo)準(zhǔn)差;從標(biāo)準(zhǔn)差的數(shù)值看來,身高變異程度大于體重。是否合理?身高的單位是cm,而體重的單位是kg,能否認(rèn)為3cm>0.98kg?變異度間的比較問題5802數(shù)值變量的統(tǒng)計描述變異系數(shù)變異系數(shù)coefficientofvariation:標(biāo)準(zhǔn)差與其相應(yīng)的均值之比它反映數(shù)據(jù)相對離散程度,沒有量綱消除了數(shù)據(jù)水平高低和計量單位的影響,用于不同性質(zhì)數(shù)據(jù)或均數(shù)相差較大時,離散程度的比較5902數(shù)值變量的統(tǒng)計描述頻數(shù)分布表、圖分組劃計原始資料分布類型數(shù)值變量統(tǒng)計描述小結(jié)算術(shù)均數(shù)與標(biāo)準(zhǔn)差對數(shù)轉(zhuǎn)換幾何均數(shù)與對數(shù)值標(biāo)準(zhǔn)差的反對數(shù)中位數(shù)與四分位數(shù)間距不對稱對稱6002數(shù)值變量的統(tǒng)計描述二、正態(tài)分布最早是由法國數(shù)學(xué)家德.莫阿弗爾(A.de.Moivre,1667—1754)于1733年提出(TheDoctrineofChances,1738);C.F.高斯(CarlFriedrichGauss,1777—1855)則將其成功推導(dǎo)(Theoryofmotionofthecelestialbodiesmovinginconicsectionsaroundthesun,1809),用于使得正態(tài)分布廣為人知,故又稱為GaussDistribution許多現(xiàn)象都可以由高斯分布來描述:例如,在生產(chǎn)條件不變的情況下,抗壓強(qiáng)度、口徑、長度等指標(biāo);同一種生物體的身長、體重等指標(biāo);同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區(qū)的年降水量;以及理想氣體分子的速度分量,等等。于是人們將正?,F(xiàn)象的數(shù)值滿足的分布稱為“NormalDistribution”6102數(shù)值變量的統(tǒng)計描述10DeutscheMark6202數(shù)值變量的統(tǒng)計描述

隨著組段的無限細(xì)分、樣本含量的無限增加,原本崎嶇不平的直方圖的輪廓逐漸變得平整,以至于形成一條光滑的連續(xù)曲線——正態(tài)分布曲線

直方圖→鐘形曲線6302數(shù)值變量的統(tǒng)計描述

正如數(shù)學(xué)曲線中x與y嚴(yán)格的對應(yīng)關(guān)系,在正態(tài)分布曲線坐標(biāo)軸上的點x,y也有嚴(yán)格的數(shù)學(xué)對應(yīng)關(guān)系:

上式中f(x)=隨機(jī)變量X的概率密度函數(shù)

=正態(tài)隨機(jī)變量X的總體均數(shù)

=正態(tài)隨機(jī)變量X的總體方差

=3.1415926;e=2.71828x=隨機(jī)變量的取值(-

<x<

)Probabilitydensityfunction6402數(shù)值變量的統(tǒng)計描述隨機(jī)變量x~N(m,s2)如果隨機(jī)變量X的概率密度函數(shù)滿足:則稱X服從正態(tài)分布,記作x~N(

,

2),其中:

為分布的均數(shù),

為分布的標(biāo)準(zhǔn)差。6502數(shù)值變量的統(tǒng)計描述方差相等、均數(shù)不等的正態(tài)分布圖示

3

1

26602數(shù)值變量的統(tǒng)計描述均數(shù)相等、方差不等的正態(tài)分布圖示

2

1

36702數(shù)值變量的統(tǒng)計描述正態(tài)分布的圖形特征單峰分布;高峰在均數(shù)處;兩邊沿橫坐標(biāo)軸無限延伸,理論上永遠(yuǎn)不與之相交以均數(shù)為中心,均數(shù)兩側(cè)完全對稱;在m±s處有拐點(在該范圍內(nèi)是凸的,其它范圍內(nèi)是凹的)

,表現(xiàn)為關(guān)于均數(shù)完全對稱的鐘形曲線。正態(tài)分布有兩個參數(shù)(parameter),總體均數(shù)決定了正態(tài)分布的高峰位置,所以它是正態(tài)分布的位置參數(shù);而總體標(biāo)準(zhǔn)差決定了正態(tài)分布的分布跨度,所以它是正態(tài)分布的形狀參數(shù)??傮w均數(shù)增大,分布向橫坐標(biāo)右側(cè)平移;反之,向右平移;如果總體標(biāo)準(zhǔn)差增大,分布變得矮胖,反之變得高瘦6802數(shù)值變量的統(tǒng)計描述正態(tài)分布曲線下面積的含義曲線下面積是指由分布曲線與橫坐標(biāo)或者橫坐標(biāo)上的特定區(qū)間所圍成的區(qū)域的面積abxf(x)曲線下面積曲線下面積曲線下面積6902數(shù)值變量的統(tǒng)計描述正態(tài)分布曲線下面積的含義對于連續(xù)型的計量資料,x可以取某個區(qū)間或整條數(shù)軸上的任意點值;對于橫坐標(biāo)軸上的任意特定點,其所對應(yīng)的曲線下面積都等于0(因為線的面積等于0)x=axf(x)7002數(shù)值變量的統(tǒng)計描述正態(tài)分布曲線下面積的含義設(shè)定曲線下面積等于1,對于橫坐標(biāo)軸上的某個區(qū)間(a<x<b)的曲線下面積,其含義為x取該區(qū)間值時對應(yīng)的概率有多大;其數(shù)值的大小用分布函數(shù)式F(X)表示abxf(x)7102數(shù)值變量的統(tǒng)計描述曲線下的面積的計算

對于任意一個區(qū)間的曲線下面積,在知道變量值x對應(yīng)的概率密度函數(shù)f(x)后,都可以根據(jù)微積分的方法求出其面積的大小abxf(x)7202數(shù)值變量的統(tǒng)計描述正態(tài)曲線下的面積規(guī)律X軸與正態(tài)曲線所夾面積恒等于1(相當(dāng)于x的所有取值都在橫坐標(biāo)軸上)。對稱區(qū)域面積相等F(-,-X)F(+X,

)

F(+X,

)=F(-,-X)7302數(shù)值變量的統(tǒng)計描述正態(tài)曲線下的面積規(guī)律正態(tài)曲線下面積總和為1正態(tài)曲線關(guān)于均數(shù)對稱;對稱的區(qū)域內(nèi)面積相等對任意正態(tài)曲線,按標(biāo)準(zhǔn)差為單位,對應(yīng)的面積相等

-1.96

~+1.96

內(nèi)面積為95%

-2.58

~+2.58

內(nèi)面積為99%7402數(shù)值變量的統(tǒng)計描述雖然服從正態(tài)分布的指標(biāo),只要知道均數(shù)

與標(biāo)準(zhǔn)差

,就可用微積分的方法求得任意范圍曲線下面積,但此積分是困難的,這給實際使用帶來諸多不便。例如:當(dāng)

=0,

=1時,在(-1.96,1.96)范圍內(nèi)正態(tài)變量取值概率為0.95,而當(dāng)

=0,

=1.96時,在(-1.96,1.96)范圍內(nèi)正態(tài)變量取值概率就不是0.95,而是0.68。這就是說P的大小不僅與區(qū)間上下限(x1,x2)有關(guān),還與

、

有關(guān),而我們不可能針對每個不同

與都制一張表供研究者參考為了制一張可供不同的

共同使用的表,考慮引進(jìn)標(biāo)準(zhǔn)化變換與標(biāo)準(zhǔn)正態(tài)分布。計算曲線下面積的問題7502數(shù)值變量的統(tǒng)計描述標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布standardnormaldistribution是均數(shù)為0,標(biāo)準(zhǔn)差為1的正態(tài)分布記為N(0,1)標(biāo)準(zhǔn)正態(tài)分布是唯一的概率密度函數(shù):7602數(shù)值變量的統(tǒng)計描述正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布若

x~N(

,

2),作變換:

則z服從標(biāo)準(zhǔn)正態(tài)分布N(0,12)7702數(shù)值變量的統(tǒng)計描述標(biāo)準(zhǔn)正態(tài)分布曲線下面積

f(z):P249附表1

z

0.00 0.020.040.060.08-3.0 0.00130.00130.00120.00110.0010-2.5 0.0062 0.00590.00550.00520.0049-1.9 0.0287 0.02740.02620.02500.0239-1.6 0.0548 0.05260.05050.04850.0465-1.0 0.1587 0.15390.14920.14460.1401

0 0.5000 0.49200.48400.47610.46810z7802數(shù)值變量的統(tǒng)計描述例題已知某地120名20歲男大學(xué)生的平均身

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論