版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第三章分布與抽樣分布
第二節(jié)抽樣分布
第一節(jié)概率與概率分布
第三節(jié)統(tǒng)計推斷
第一節(jié)概率與概率分布統(tǒng)計學CertainImpossible0.501一概率(一)概率的統(tǒng)計定義研究隨機試驗,僅知道可能發(fā)生哪些隨機事件是不夠的,還需了解各種隨機事件發(fā)生的可能性大小,以揭示這些事件的內(nèi)在的統(tǒng)計規(guī)律性,從而指導實踐。這就要求有一個能夠刻劃事件發(fā)生可能性大小的數(shù)量指標,這指標應該是事件本身所固有的,且不隨人的主觀意志而改變,人們稱之為概率(probability)。事件A的概率記為P(A)。
概率的統(tǒng)計定義在相同條件下進行n次重復試驗,如果隨機事件A發(fā)生的次數(shù)為m,那么m/n稱為隨機事件A的頻率(frequency);當試驗重復數(shù)n逐漸增大時,隨機事件A的頻率越來越穩(wěn)定地接近某一數(shù)值p,那么就把p稱為隨機事件A的概率。這樣定義的概率稱為統(tǒng)計概率(statisticsprobability),或者稱后驗概率(posteriorprobability)表3-1拋擲一枚硬幣發(fā)生正面朝上的試驗記錄
從表3-1可看出,隨著實驗次數(shù)的增多,正面朝上這個事件發(fā)生的頻率越來越穩(wěn)定地接近0.5,我們就把0.5作為這個事件的概率。在一般情況下,隨機事件的概率p是不可能準確得到的。通常以試驗次數(shù)n充分大時隨機事件A的頻率作為該隨機事件概率的近似值。即P(A)=p≈m/n(n充分大)(二)概率的性質(zhì)
1、對于任何事件A,有0≤P(A)≤1;2、必然事件的概率為1,即P(Ω)=1;3、不可能事件的概率為0,即P(ф)=0。一個總體是由一個隨機變量的所有可能取值來構(gòu)成的,而樣本只是這些所有可能取值的一部分隨機變量中某一個值出現(xiàn)的概率,只是隨機變量一個側(cè)面的反映,若要全面了解隨機變量則必須知道隨機變量的全部值和各個值出現(xiàn)的概率,即隨機變量的概率分布■概率和概率分布是生命科學研究中由樣本推斷總體的理論基礎
隨機變量的種類很多,每一種隨機變量都有其特定的概率分布。
連續(xù)型隨機變量
離散型隨機變量
在一定范圍內(nèi)可連續(xù)取值的變量。在一定范圍內(nèi)只取有限種可能的值的變量。正態(tài)分布
二項分布、泊松分布
二概率分布1.正態(tài)分布
正態(tài)分布(normaldistribution)的概念是由德國數(shù)學家和天文學家Moivre于1733年首次提出的,由德國數(shù)學家Gauss率先將其應用于天文學研究,故正態(tài)分布又稱為Gauss分布(Gaussiandistribution)。許多生物學領域(如身高、體重、脈搏、血紅蛋白、血清總膽固醇等)的隨機變量都服從或者近似服從正態(tài)分布或通過某種轉(zhuǎn)換后服從正態(tài)分布,許多其他類型分布基本上都與正態(tài)分布有關,它們的極限就是正態(tài)分布。1.1正態(tài)分布的定義
在日常工作中所遇到的變量大多是連續(xù)型隨機變量,當這一類隨機變量呈線性時,往往服從正態(tài)分布
頻數(shù)分布表:下面我們以某地13歲女孩118人的身高(cm)資料,來說明身高變量服從正態(tài)分布。頻數(shù)數(shù)分分布布圖圖(又稱稱直直方方圖圖))從頻頻數(shù)數(shù)表表及及頻頻數(shù)數(shù)分分布布圖圖上上可可得得知知::該數(shù)數(shù)值值變變量量資資料料頻頻數(shù)數(shù)分分布布呈呈現(xiàn)現(xiàn)中中間間頻頻數(shù)數(shù)多多,,左左右右兩兩側(cè)側(cè)基基本本對對稱稱的的分分布布。。所所以以我我們們通通俗俗地地認認為為該該資資料料服服從從正正態(tài)態(tài)分分布布。。頻數(shù)分布布圖二頻數(shù)分布布圖三正態(tài)分布布圖四和正態(tài)分分布相對對應的用來描述述正態(tài)曲曲線的函函數(shù)稱為為正態(tài)分分布密度度函數(shù)μ—總體平均均數(shù)σ2—總體方差差π—圓周率3.14σ—總體標準準差■任何何一個正正態(tài)分布布均由參參數(shù)μ和σ所決定如果一個個隨機變變量x服從平均均數(shù)為μ、方差為σ2的正態(tài)分分布,可可記為x~N(μ,σσ2)。e——自然對數(shù)數(shù)的底,,2.718281.2正正態(tài)分分布的特特點(1)正正態(tài)分布布曲線以以直線x=μ為對稱軸軸,左右右完全對對稱(3)正態(tài)分布布曲線有有兩個拐拐點,拐拐點座標標分別為為(μ-σ,,f(μ-σσ))和(μ+σ,,f(μ+σσ)),,在這兩個個拐點處處曲線改改變方向向,即曲曲線在((-∞,,μ-σ))和(μ+σ,,+∞))區(qū)間上是是下凹的的,在[μ-σ,,μ+σσ]區(qū)間內(nèi)是是上凸的的●●●(2)在x=μ處,f(x)有最大值值(4)正態(tài)分布布密度曲曲線的位位置由μ決定(μ為位置參參數(shù)),,形狀由由σ決定(σ為形狀參參數(shù))(5)正態(tài)分布布曲線向向兩邊無無限延伸伸,以x軸為漸進進線,分分布從-∞到+∞μ的大小決決定了曲曲線在x軸上的位位置σ的大小則則決定了了曲線的的胖瘦程程度當σ恒定時,,μ愈大,則則曲線沿沿x軸愈向右右移動μ愈小,曲曲線沿x軸愈向左左移動σ越大表示示數(shù)據(jù)越越分散,,曲線越越胖σ越小表示示數(shù)據(jù)越越集中,,曲線越越瘦1.3標準正態(tài)態(tài)分布正態(tài)分布布由μ和σ所決定,,不同的的μ、σ值就決定定了不同同的正態(tài)態(tài)分布密密度函數(shù)數(shù),因此此在實際際計算中中很不方方便的。。需將一一般的N(μ,σ2)轉(zhuǎn)換為μ=0,σ2=1的正態(tài)分分布。我我們稱μ=0,σ2=1的正態(tài)分分布為標標準正態(tài)態(tài)分布(standardnormaldistribution)可見,由由正態(tài)分分布密度度函數(shù)得到標準準正態(tài)分分布密度度函數(shù)::1.4正正態(tài)分分布的概概率計算算根據(jù)概率率論原理理,可知知隨機變變量x在區(qū)間((a,b))內(nèi)取值的的概率是是一塊面面積:面積由曲線所圍成的的曲邊梯梯形所組組成:隨機變量量x在(-∞∞,+∞∞)間取取值的概概率為1,即即:■求隨機變變量x在某一區(qū)區(qū)段內(nèi)取取值的概概率就轉(zhuǎn)轉(zhuǎn)化成了了求由該該區(qū)段與與相應曲曲線所圍圍成的曲曲邊梯形形的面積積。由于正態(tài)態(tài)分布的的概率密密度函數(shù)數(shù)比較復復雜,積積分的計計算也比比較麻煩煩,而這這些計算算在動物物科學或或動物醫(yī)醫(yī)學生產(chǎn)產(chǎn)實踐中中又經(jīng)常常會用到到。最好的解解決辦法法:將正正態(tài)分布布轉(zhuǎn)化為標準正態(tài)態(tài)分布,,然后根根據(jù)標準準正態(tài)分分布表((附表1)直接接查出概概率值。。(1)標標準正正態(tài)分布布的概率率計算附表1列列出了在在標準正正態(tài)分布布隨機變變量u在區(qū)間(,uα]內(nèi)取值的的概率::標準正態(tài)態(tài)分布的的概率計計算通式式標準正態(tài)態(tài)分布函函數(shù)表例1:若u~N(0,1),求:(1)(2)(3)(1)(2)(3)關于標準準正態(tài)分分布,以以下幾種種概率應應當熟記記:P(-1≤≤u<1)=0.6826P(-2≤≤u<2)=0.9545P(-3≤≤u<3)=0.9973P(-1.96≤≤u<1.96)=0.95P(-2.58≤≤u<2.58)=0.99P(|u|≥1))u變量在上上述區(qū)間間以外取取值的概概率,即兩尾概概率:=1-P(-1≤≤u<1)=1-0.6826=0.3174P(|u|≥2))=1-P(-2≤≤u<2)=0.0455P(|u|≥3))=1-0.9973=0.0027P(|u|≥1.96))=1-0.95=0.05P(|u|≥2.58))=1-0.99=0.01(2)正正態(tài)分分布的概概率計算算對于服從從任意正正態(tài)分布布N(μ,σσ2)的隨機變變量,欲欲求其在在某個區(qū)區(qū)間的取取值概率率,需先先將它標標準化為為標準正正態(tài)分布布N(0,1)的隨機變變量,然然后查表表即可。。實質(zhì):為了能使使正態(tài)分分布應用用起來更更方便一一些,可可以將x作一變換換,令::變換后的的正態(tài)分分布密度度函數(shù)為為:標準正態(tài)態(tài)分布均均具有μ=0,,σ2=1的特性如果隨機機變量u服從標準準正態(tài)分分布,可可記為::u~N(0,1)u變換這個變換換稱為標標準化或或u變換,由于x是隨機變變量,因因此u也是隨機機變量,,所得到的的隨機變變量U也服從正正態(tài)分布布,因此此,由任任意正態(tài)態(tài)分布隨隨機變量量標準化化得到的的隨機變變量的標標準正態(tài)態(tài)分布常常稱為u分布??煽梢姡豪?:設x~N(30,,102)試求x≥40的概率。。解:首先將正正態(tài)分布布轉(zhuǎn)化為標標準正態(tài)態(tài)分布,,令:則u服從標準準正態(tài)分分布,故故:例3:設x服從μ=30.26,σ2=5.102的正態(tài)分分布,試試求P(21.64≤x<<32.98)。解:令則u服從標準準正態(tài)分分布,故故=P(-1.69≤≤u<0.53)=Φ(0.53)-ΦΦ(-1.69)=0.7019-0.04551=0.6564關于一般般正態(tài)分分布,經(jīng)經(jīng)常用到到以下幾幾個概率率:P(μ-σσ≤x<μ+σσ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9545P(μ-3σ≤x<μ+3σ)=0.9973P(μ-1.96σ≤x<μ+1.96σ)=0.95P(μ-2.58σ≤x<μ+2.58σ)=0.99把隨機變變量x落在平均均數(shù)μ加減不同同倍數(shù)標標準差σ區(qū)間之外外的概率率稱為兩兩尾概率率(雙側(cè)側(cè)概率)),記作作α。對應于兩兩尾概率率可以求求得隨機機變量x小于μ-kσ或大于μ+kσ的概率,,稱為一一尾概率率(單側(cè)側(cè)概率)),記作作α/2。。α0.31730.04550.00270.050.0α/2附表2::給出了滿滿足兩尾臨界界值uα因此,可可以根據(jù)據(jù)兩尾概概率α,由附表2查出相相應的臨臨界值uα。例4:已知u~N(0,1),試求uα:(1)(2)解:(1)(2)2.二二項分布布二項分布布(binomialdistribution)是一種最最常見的的、典型型的離散散型隨機機變量的的概率分分布。有些試驗驗只有非非此即彼彼兩種結(jié)結(jié)果,這這種由非非此即彼彼的事件件構(gòu)成的的總體,,稱為二二項總體體。結(jié)果“此此”用變變量1表表示,概率為p結(jié)果“彼彼”用變變量0表表示,概率為q對于n次獨立的的試驗,,如果每每次試驗驗結(jié)果出出現(xiàn)且只只出現(xiàn)對對立事件件A與A-中之一,,在每次次試驗中中出現(xiàn)A的概率率是p(0<p<1)),因而出出現(xiàn)對對立事事A-件的概概率是是1-p=q,則稱這這一連連串重重復的的獨立立試驗驗稱為為n重貝努努利試試驗。。貝努利利試驗驗在n重貝努努利試試驗中中,事事件A恰好發(fā)發(fā)生m(0≤≤m≤n))次的概概率為為:其中::m=0,,1,,2……,n2.1二二項分分布的的定義義設隨機機變量量x(概率為為P的事件件A出現(xiàn)的的次數(shù)數(shù))所有可可能取取的值值為零零和正正整數(shù)數(shù):0,1,2,……,n,且有其中::m=0,,1,,2……,n則稱隨隨機變變量x服從參參數(shù)為為n和p的二項項分布布,記為x~B(n,p)只有兩兩種可可能結(jié)結(jié)果的的屬性性資料料服從從二項項分布布。如如:存存活、、治愈愈、孵孵化、、性別別、陽陽(陰陰)性性等資資料((往往往以百百分率率計算算)。。2.2二二項分分布的的特點點(1))當p值較小小且n不大時時,分分布是是偏倚倚的,,隨著著n的增大大,,分布布逐漸漸趨于于對稱稱p=0.3n=5n=20n=50(2))當p值趨于于0.5時時,分分布趨趨于對對稱(3)二項項分布布在n較大,,且np>5,,np、、nq較接近近時,,接近近正態(tài)態(tài)分布布,n→∞時服從從正態(tài)態(tài)分布布,即即二項項分布布的極極限是是正態(tài)態(tài)分布布(4)二項項分布布的平平均數(shù)數(shù)為::方差為為:標準差差為::例4::某奶奶牛場場情期期受胎胎率為為0.6,,該場場對30頭頭發(fā)情情母牛牛配種種,使使24頭母母牛一一次配配種受受胎的的概率率為多多少??解:2.3二二項分分布的的概率率計算算課堂練練習::用某種種常規(guī)規(guī)藥物物治療療豬瘟瘟的治治愈率率為0.7,對對20頭患患豬瘟瘟的肥肥育豬豬進行行治療療,問問20頭豬豬中16頭頭豬治治愈的的概率率是多多少??解:3.泊泊松松分布布當二項項分布布中的的n→∞∞,p→0時,二二項分分布趨趨向于于一種種新的的分布布——泊松分分布((普哇哇松分分布))((Poisson’sdistribution)當試驗驗次數(shù)數(shù)(或或稱觀觀測次次數(shù)))很大大,而而某事事件出出現(xiàn)的的概率率很小小,則則離散散型隨隨機變變量x服從于于泊松松分布布。3.1泊泊松分分布的的定義義若隨機機變量量x(x=m)只取零零和正正整數(shù)數(shù)值0,1,2,……,且且其概概率分分布為為:其中::=np,是一個個常量量,且且則稱x服從參參數(shù)為為λ的泊松松分布布,記為x~P(λ))泊松分分布主主要是是用來來描述述小概概率事事件發(fā)發(fā)生的的概率率單位空空間中中某些些野生生動物物數(shù)畜群中中的畸畸形個體數(shù)數(shù)畜群中中某些些遺傳傳性疾疾病的的患病病數(shù)泊松分分布不不是用用來描描述幾幾乎不不可能能發(fā)生生的事事件的的概率率山無棱棱,天天地合合南京六六月飛飛雪(1))泊松松分布布只有有一個個參數(shù)數(shù)λ,λλ=np。3.2泊泊松分分布的的特點點λ既是泊泊松分分布的的平均均值μ,又是方方差σ2,即:(2))泊松松分布布的圖圖形決決定于于λ,λλ值愈小小分布布愈偏偏倚,,隨著著λ的增大大,分分布趨趨于對對稱。。當λ=20時分布布接近近于正正態(tài)分分布;;當λ=50時,可可以認認為泊泊松分分布呈呈正態(tài)態(tài)分布布。3.3泊泊松分分布的的概率率計算算例5::某大型型豬場場因某某種疾疾病死死亡的的豬數(shù)數(shù)呈泊泊松分分布。。已知知該場場平均均每年年因這這種疾疾病死死亡的的豬數(shù)數(shù)為9.5頭,,問2007年年該場場因這這種疾疾病死死亡的的豬數(shù)數(shù)為15頭頭的概概率是是多少少?解:根據(jù)泊泊松分分布的的性質(zhì)質(zhì)可知知:2007年年該場場因這這種疾疾病死死亡的的豬數(shù)數(shù)為15頭頭的概概率是是2.65%。。第二節(jié)節(jié)抽樣分分布統(tǒng)計學學的主主要任任務就就是研研究總總體和和樣本本的關關系::■從樣本本到總總體■從總體體到樣樣本目的就就是通通過樣樣本來來推斷斷總體體。目的就就是研研究樣樣本統(tǒng)統(tǒng)計量量的分分布及及其與與原總總體的的關系系從特殊殊到一一般,,從一般般到特特殊,,統(tǒng)計推推斷抽樣分分布抽樣分分布是是統(tǒng)計計推斷斷的基基礎,,研究究抽樣樣分1.抽抽樣樣分布布的概概念樣本平平均數(shù)數(shù)和樣本本方差差S2是描述述樣本本特征征的兩兩個最最重要要的統(tǒng)統(tǒng)計量量總體平平均數(shù)數(shù)μ和總體體方差差σ2是描述述總體體特征征的兩兩個最最重要要的參參數(shù)因此,,研究究總體體和樣樣本的的關系系,實實際就就是研研究::S2σ2■就就總體體而言言,μ和σ2都是常常量■從從總體體中隨隨機地地抽取取若干干個體體所組組成的的樣本本,即即使每每次抽抽取的的樣本本容量量都相相等,,每一一個樣樣本所所得到到的樣樣本平平均數(shù)數(shù)也不可可能都都相等等,同同時也也不可可能就就等于于總體體平均均數(shù)μ樣本統(tǒng)統(tǒng)計量量將隨隨樣本本的不不同而而有所所不同同,因因而樣樣本統(tǒng)統(tǒng)計量量也是是隨機機變量量,也也有其其概率率分布布樣本統(tǒng)統(tǒng)計量量的概概率分分布稱稱為抽抽樣分分布((samplingdistribution)樣本統(tǒng)統(tǒng)計量量與總總體參參數(shù)之之間的的差異異稱為為抽樣樣誤差差(samplingerror))從總體中中抽取樣樣本的過過程稱為為抽樣((sampling)抽樣分為為復置抽抽樣和不不復置抽抽樣兩種種:復置抽樣樣指每次次抽出一一個個體體后,這這個個體體應返回回原總體體不復置抽抽樣指每每次抽出出的個體體不返回回原總體體■對于無限限總體,,或者樣樣本容量量n與總體容容量N相比很小小時,返返回與否否都可保保證每個個個體被被抽到的的機會相相等,復復置抽樣樣等同于于不復置置抽樣■對于有限限總體,,應該采采取復置置抽樣,,否則各各個體被被抽到的的機會就就不相等等在實際操操作中,,均為不不復置抽抽樣在理論研研究中則則以復置置抽樣為為主2.樣樣本平均均數(shù)的抽抽樣分布布2.1樣樣本平平均數(shù)抽抽樣分布布的概念念從總體容容量為N的總體中中進行抽抽樣,如如果每個個樣本的的樣本容容量均為為n,將所有這這樣的樣樣本都抽抽出來,,并計算算出每一一個樣本本的平均均數(shù)原來的那那個總體體,稱為為原總體體由樣本平平均數(shù)組組成的分分布稱為為樣本平平均數(shù)的的抽樣分分布如果原總總體的平平均數(shù)為為μ,標準差為為σ,那么樣本本平均數(shù)數(shù)抽樣總總體:平均數(shù)為為:標準差為為:稱為樣本本平均數(shù)數(shù)抽樣總總體的標標準誤差差簡稱為標標準誤((standarderror)由這些樣樣本平均均數(shù)組成成的新總總體,就就稱為樣樣本平均均數(shù)抽樣樣總體。。標準誤表表示平均均數(shù)抽樣樣誤差的的大小,,反映樣樣本平均均數(shù)與新新總體平平均數(shù)之之間的離離散程度度?!鰳藴什畋肀硎镜氖鞘窃傮w體中原始始數(shù)據(jù)與與原總體體平均數(shù)數(shù)的關系系■標準誤表表示的是是從原總總體中抽抽取的樣樣本平均均數(shù)與樣樣本平均均數(shù)抽樣樣總體平平均數(shù)的的關系研究總體體與樣本本的關系系就轉(zhuǎn)化化成了討討論原總總體與樣樣本平均均數(shù)抽樣樣總體的的關系::例6:設有一總總體,總總體容量量為N=3,,觀測值分分別為2、4、、6,以以樣本容容量n=2對該總體體進行復復置抽樣樣,證明明:(1)(2)原總體的的總體平平均數(shù)為為:(1)以樣本容容量n=2對該總體體進行復復置抽樣樣,則樣樣本平均均數(shù)抽樣樣總體為為:樣本平均均數(shù)抽樣樣總體的的總體容容量為::樣本平均均數(shù)抽樣樣總體的的總體平平均數(shù)為為:(2)原總體的的總體標標準差為為:樣本平均均數(shù)抽樣樣總體的的總體標標準差為為:2.2樣樣本平平均數(shù)抽抽樣分布布的特點點(1)樣樣本平均均數(shù)抽樣樣總體的的總體平平均數(shù)與與原總體體的總體體平均數(shù)數(shù)相等,,因此,可可用μ代替(2)樣樣本平均均數(shù)抽樣樣總體的的方差與與原總體體的方差差的關系系為(3)當當隨機變變量x~N(μ,σσ2)時,樣本本平均數(shù)數(shù)當隨機變變量x不呈正態(tài)態(tài)分布或或分布未未知時,,只要樣樣本容量量n不斷增大大(或足足夠大)),則樣樣本平均均數(shù)的分分布逐漸漸趨向于于正態(tài)分分布,且且平均數(shù)數(shù)為μ,方差為中心極限限定理樣本平均均值服服從或近近似服從從正態(tài)分分布2.3σ與的的關系系(1)(2)σ表示原總總體中各各觀測值值的離散散程度表示樣本本平均數(shù)數(shù)抽樣總總體中各各樣本平平均數(shù)的的離散程程度(3)σ是總體中中各觀測測值變異異程度的的度量值值是樣本平平均數(shù)抽抽樣誤差差的度量量值是用來衡衡量樣本本平均數(shù)數(shù)代表總總體平均均數(shù)的代代表程度度的(4)σ稱為標準準差,用用Sd表示稱為標準準誤,用用Se表示4.t-分布(不不要求))4.1t-分布的定定義設有服從從正態(tài)分分布的隨隨機變量量x,正態(tài)分布布的標準準化公式式為:對于總體體方差σ2已知的總總體,根據(jù)公式式可以計計算出隨隨機變量量x在某一區(qū)區(qū)間內(nèi)出出現(xiàn)的概概率:對于總體體方差σ2已知的總總體,根根據(jù)公式式可以知知道樣本平均均數(shù)在某一區(qū)區(qū)間內(nèi)出出現(xiàn)的概概率,公公式為::服從標準準正態(tài)分分布附:服從標準準正態(tài)分分布假如σ2未知,而而且樣本本容量又又比較小小(n≤30))時:標準化公公式可變變換為::t統(tǒng)計量組組成的分分布,就就稱為t分布(tdistribution)不再服從從標準正正態(tài)分布布t分布是一一組曲線線,自由由度不同同,曲線線不同,,但均以以y軸為對稱稱t分布只有有一個參參數(shù),即即自由度度dft分布的平平均數(shù)和和標準差差為:μ=0((df>1)(df>2)服從t-分布4.2t-分布的特特點(1)t分布為對對稱分布布,關于于t=0對稱;只只有一個個峰,峰峰值在t=0處;與標標準正態(tài)態(tài)分布曲曲線相比比,t分布曲線線頂部略略低,兩兩尾部稍稍高而平平(2)t分布曲線線受自由由度df的影響,,自由度度越小,,離散程程度越大大(3)t分布的極極限是正正態(tài)分布布。df越大,t分布越趨趨近于標標準正態(tài)態(tài)分布當n>30時,t分布與標標準正態(tài)態(tài)分布的的區(qū)別很很?。籲>100時,t分布基本本與標準準正態(tài)分分布相同同;n→∞時,t分布與標標準正態(tài)態(tài)分布完完全一致致4.3t-分布的概概率計算算附表4給給出了t分布的兩兩尾臨界界值當左尾和和右尾的的概率之之和為(每側(cè)為為/2)時時,t分布在橫橫坐標上上的臨界界值的絕絕對值,,記為t例7:根根據(jù)附表表4查出出相應的的臨界t值:((1)df=9,αα=0.05;;(2)df=9,α=0.01從一個平平均數(shù)為為μ,方差為σ2的正態(tài)總總體中,,進行獨獨立地抽抽樣,可可獲得隨隨機變量量x,則其標準準離差::~N(0,1))如果連續(xù)進進行n次獨立抽樣樣,可得n個標準正態(tài)態(tài)離差ui,對這n個獨立的標標準正態(tài)離離差ui進行平方求求和就得到到一個新的的統(tǒng)計量χ2:5.χ2-分布(不要要求)5.1χ2-分布的定義義如果用樣本本進行計算算:由這些χ2值所組成的的一個分布布,就稱之之為χ2分布(χ2distribution))5.2χ2-分布的特點點(1)χ2分布的取值值范圍為[0,+∞)),無負值值(2)χ2分布的平均均數(shù)為:方差為:(3)χ2分布的形狀狀決定于自自由度df當df=1時,曲線呈呈反J形隨著df的增大,曲曲線漸趨對對稱當df>30時,向正態(tài)態(tài)分布漸近近(4)χ2還可以定義義為理論次次數(shù)與觀察察次數(shù)間的的符合程度度(離散散型變量))O—觀察次數(shù)E—理論次數(shù)5.3χ2-分布的概率率計算附表3給出出了χ2分布的右尾尾臨界值當右尾概率率為時,χ2分布在橫坐坐標上的臨臨界值的絕絕對值,記記為例8:根據(jù)據(jù)附表3查查出相應的的右尾臨界界χ2值:(1)df=9,α=0.05;(2))df=9,α=0.01如果計算左左尾概率為為時2分布的臨界界值,只需需查右尾概概率為1-的右尾臨界界值即可。。6.F-分布6.1F-分布的定義義從一個方差差σ2的正態(tài)總體體中獨立地地抽取樣本本容量分別別為n1、n2的兩個樣本本,這兩個個樣本的方方差分別為為:則有:這兩個χ2變量除以各各自的自由由度后的比比值為:由一系列F值所構(gòu)成的的分布稱為為F分布(Fdistribution)F~F(df1,df2)已計算:6.2F-分布的特點點(1)F分布密度曲曲線是隨自自由度df1、df2的變化而變變化的一簇簇偏態(tài)曲線線其形狀隨著著df1、df2的增大逐漸漸趨于對稱稱;(2)F分布的取值值范圍是((0,+∞∞),其平平均數(shù):6.3F-分布的概率率計算附表5給出出了F分布的右尾尾臨界值當右尾概率率為時,χ2分布在橫坐坐標上的臨臨界值的絕絕對值,記記為F例9:根據(jù)據(jù)附表5查查出相應的的右尾臨界界F值:(1)df1=4,df2=20,α=0.05;(2)df1=4,df2=20,=0.01F0.01((4,20)=4.43F0.05((4,20)=2.87第三節(jié)統(tǒng)統(tǒng)計推斷斷假設檢驗參數(shù)估計統(tǒng)計學1.統(tǒng)計推推斷:根據(jù)據(jù)樣本的觀觀察結(jié)果以以及樣本統(tǒng)統(tǒng)計量的抽抽樣分布,,對總體的的數(shù)量特征征作出具有有一定可靠靠程度的估計和判斷斷。2.統(tǒng)計推推斷的基本本內(nèi)容有兩兩個:(1)參數(shù)數(shù)估計(利用樣本本指標來推推斷估計未未知的總體體指標。))(2)假設設檢驗(先對總體體參數(shù)做一一個假設,,然后利用用樣本資料料檢驗這個個假設是否否成立。))統(tǒng)計推斷概概述假設你正在在研究平均均一個美國國人一生中中要得到多多少交通罰罰單,報告告研究結(jié)果果的方法有有以下兩種種:“10”或者““8到12之間”一、參數(shù)估估計區(qū)間估計::給結(jié)論留留一些余地地。GudmundR.Iversen1、點估計計1.用樣本本的估計量量直接作為為總體參數(shù)數(shù)的估計值值例如:用樣樣本均值直直接作為總體均值的的估計例如:用樣樣本方差直直接作為總體方差的的估計2.沒有給給出估計值值接近總體體參數(shù)程度度的信息2、區(qū)間估估計在點估計的的基礎上,,給出總體體參數(shù)估計計的一個區(qū)間范圍,該區(qū)間由由樣本統(tǒng)計計量加減抽抽樣誤差而而得到的根據(jù)樣本統(tǒng)統(tǒng)計量的抽抽樣分布能能夠?qū)颖颈窘y(tǒng)計量與與總體參數(shù)數(shù)的接近程程度給出一一個概率度度量比如,某班班級平均分分數(shù)在75~85之間,置信信水平是95%樣本統(tǒng)計量
(點估計)置信區(qū)間置信下限置信上限(不要求))統(tǒng)計假設檢檢驗又稱為為顯著性檢檢驗,是生生物統(tǒng)計學學的核心內(nèi)內(nèi)容,是統(tǒng)統(tǒng)計推斷的的主要組成成部分統(tǒng)計推斷((statisticalinference)就是通過樣樣本特征((統(tǒng)計量))來推斷相相應總體特特征(參數(shù)數(shù))的方法法參數(shù)估計((parametricestimate)通過樣本統(tǒng)統(tǒng)計量估計計總體參數(shù)數(shù)的方法
點估計計(pointestimate)
區(qū)間估估計(intervalestimate)直接用樣本本統(tǒng)計量的的數(shù)值估計計出相應總總體參數(shù)具具體值的方方法在一定的概概率保證下下(一般為為95%或或99%)),根據(jù)樣樣本統(tǒng)計量量的分布,,計算出總總體參數(shù)出出現(xiàn)的數(shù)值值范圍或區(qū)區(qū)間,用該該區(qū)間來估估計總體參參數(shù)的方法法■參數(shù)估估計是對總總體參數(shù)的的定量分析二、假設檢檢驗統(tǒng)計假設檢檢驗(hypothesistest)根據(jù)某種實實際需要,,對未知的的或不完全全知道的總總體參數(shù)提提出一些假假設,然后后根據(jù)樣本本觀測值和和統(tǒng)計量的的分布,通通過一定的的計算,再再作出在一一定概率意意義上應當當接受哪種種假設的方方法。統(tǒng)計假設檢檢驗的假設設是對總體體提出的,,由于最后后檢驗的結(jié)結(jié)論只有兩兩種:要比比較的總體體參數(shù)間要要么存在顯顯著差異,,要么不存存在顯著差差異■統(tǒng)計假假設檢驗是是對總體參參數(shù)的定性分析1.統(tǒng)統(tǒng)計假設檢檢驗的意義義以兩個平均均數(shù)之間差差異的顯著著性檢驗為為例現(xiàn)隨機挑選選10名中中國女性和和10名韓韓國女性,,請世界網(wǎng)網(wǎng)絡知名度度大賽評委委和觀眾進進行知名度度評分,試試比較哪個個國家女性性知名度更更高?9.999.859.999.959.989.979.959.95中國女性的的平均得分分9.98韓國女性的的平均得分分9.91兩個國家女女性的平均均得分并不不相等,其其差值(表表面效應))為:根據(jù)兩個樣樣本平均數(shù)數(shù)的差值0.07,,是否可以以給兩個樣樣本所在總總體的總體體平均數(shù)下下這樣的結(jié)結(jié)論:中國女女性總總體的的平均均得分分高于于韓國國女性性總體體的平平均得得分中國女女性比比韓國國女性性知名名度更更高◆如如果從從經(jīng)典典數(shù)學學的角角度來來看,,答案案應該該是肯肯定◆如如果從從生物物統(tǒng)計計學的的角度度來看看,在在未經(jīng)經(jīng)過統(tǒng)統(tǒng)計假假設檢檢驗以以前,,只能能說““不一一定””事實上上,僅僅僅憑憑借樣樣本平平均數(shù)數(shù)之差差不等等于0就得得出其其所屬屬的總總體平平均數(shù)數(shù)不相相等是是不可可靠的的實際上上,進進行試試驗研研究的的目的的并不不在于于了解解樣本本的結(jié)結(jié)果,,而是是要通通過樣樣本了了解總總體,,通2.統(tǒng)統(tǒng)計假假設檢檢驗的的基本本思想■首先根根據(jù)具具體試試驗目目的提提出一一個假假設■然后在在假定定該假假設成成立((或正正確))的前前提下下進行行試驗驗,并并取得得數(shù)據(jù)據(jù),接接著對對這些些資料料進行行統(tǒng)計計分析析,獲獲得該該假設設成立立的概概率■最后根根據(jù)所所獲得得的概概率值值的大大小來來判斷斷假設設是否否成立立如果所所得概概率較較大,,就表表明我我們沒沒有足足夠的的理由由來否否定所所作假假設,,即必必須接接受這這一假假設如果所所得概概率較較小,,就表表明這這一假假設不不大可可能成成立,,應予予否定定,從從而接接受其其對立立假設設統(tǒng)計假假設檢檢驗的的基本本步驟驟例3-3::通過過以往往的大大規(guī)模模調(diào)查查,已已知某某地成成年黑黑白花花奶牛牛血液液中的的白細細胞數(shù)數(shù)為52.3,,標準準差為為5.38,現(xiàn)現(xiàn)測得得10頭黑黑白花花牛白白細胞胞數(shù)分分別為為53.6,55.3,,46.4,57.2,,46.0,43.2,,48.1,51.1,,49.9,44.5;;=49.53。試試問這這批黑黑白花花奶牛牛是否否來自自于某某地黑黑白花花奶牛牛總體體?(1))對所研研究的的總體體提出出假設設研究某某一隨隨機樣樣本所所在的的總體體(用用μ表示))和一一已知知總體體(用用μ0表示))是否否為同同一總總體,,也就就是研研究這這一隨隨機樣樣本是是否來來自于于已知知總體體假設::兩個總總體為為同一一個總總體((即兩兩個總總體的的總體體平均均數(shù)相相等))無效假假設((nullhypothesis)用H0表示即H0:μ=μ0無效假假設的的含義義:無效假假設就就是假假設兩兩總體體的平平均數(shù)數(shù)相等等,即即H0:假設樣樣本平平均數(shù)數(shù)與已知知總體體平均均數(shù)由抽樣樣誤差差引起起的,,并不不是兩兩總體體之間間的真真實差差異兩總體體之間間的差差異是是由抽抽樣誤誤差所所引起起的為了在在無效效假設設被否否定后后有可可以被被接受受的假假設,,因此此應在在設立立無效效假設設的同同時設設立一一個后后備假假設備擇假假設((alternativehypothesis))用HA表示即HA:備擇假假設的的統(tǒng)計計學意意義::樣本所所在總總體與與已知知總體體不是是同一一個總總體,,即兩兩總體體的平平均數(shù)數(shù)不等等,即即:兩總體體之間間的差差異是真實實差異異,而而不是是由抽抽樣誤誤差引引起的的統(tǒng)計假假設檢檢驗中中完整整的假假設是是:兩總體體之間間的差差異是是真實實差異異(2))在假定定無效效假設設成立立的前前提下下,研研究樣樣本平平均數(shù)數(shù)的抽抽樣分分布,,計算算樣本本平均均數(shù)出出現(xiàn)的的概率率樣本平平均數(shù)數(shù)與總總體平平均數(shù)數(shù)間有有一個個實際際存在在的差差值::這個差差值就就是表表面效效應,,可能能是抽抽樣誤誤差,,也可可能是是真實實差異異,因因此需需要借借助概概率原原理來來進行行判斷斷第一種種方法法:計計算差差值-2.77(或或樣本本平均均數(shù)))出現(xiàn)的的概率率在無效效假設設成立立的前前提下下,樣樣本所所在的的總體體與已已知總總體為為同一一個總總體,,因此此樣本本所在在總體體的總總體平平均數(shù)數(shù)和方方差已已知,,即::由于于總總體體方方差差已已知知,,根根據(jù)據(jù)標標準準正正態(tài)態(tài)分分布布就就可可以以計計算算出出差差值值-2.77出出現(xiàn)現(xiàn)的的概概率率0.1~0.11標準準化化::構(gòu)構(gòu)造造統(tǒng)統(tǒng)計計量量正正態(tài)態(tài)分分布布轉(zhuǎn)轉(zhuǎn)換換為為標標準準正正態(tài)態(tài)分分布布---計計算算概概率率第二二種種方方法法::計計算算樣樣本本平平均均數(shù)數(shù)的的接接受受區(qū)區(qū)間間根據(jù)據(jù)標標準準化化公公式式計計算算樣樣本本平平均均數(shù)數(shù)的的接接受受區(qū)區(qū)間間::接受受區(qū)區(qū)間間否定定區(qū)區(qū)間間接受受區(qū)區(qū)間間和和否否定定區(qū)區(qū)間間是是有有一一定定的的概概率率保保證證的的,,保保證證概概率率為為1-α,,常用用的的保保證證概概率率為為95%和和99%;;α為顯顯著著水水平平,,常常用用的的顯顯著著水水平平有有0.05和和0.01倘若若樣樣本本平平均均數(shù)數(shù)落落在在接接受受區(qū)區(qū)間間內(nèi)內(nèi),,就就接接受受H0,反之之,,倘倘若若樣樣本本平平均均數(shù)數(shù)落落在在接接受受區(qū)區(qū)間間之之外外,,就就否否定定H0,接受受HA作為為0.05顯顯著著水水平平上上接接受受或或否否定定無無效效假假設設的的兩兩個個臨臨界界值值作為為0.01顯顯著著水水平平上上接接受受或或否否定定無無效效假假設設的的兩兩個個臨臨界界值值95%的的接接受受區(qū)區(qū)間間為為::99%的的接接受受區(qū)區(qū)間間為為::(3))根據(jù)據(jù)““小小概概率率事事件件實實際際不不可可能能性性原原理理””接接受受或或否否定定無無效效假假設設小概概率率事事件件實實際際不不可可能能性性原原理理是是指指在在一一次次試試驗驗中中,,概概率率很很小小的的事事件件是是不不可可能能出出現(xiàn)現(xiàn)的的在統(tǒng)統(tǒng)計計學學中中,,當當樣樣本本平平均均數(shù)數(shù)與與總總體體平平均均數(shù)數(shù)差差值值出出現(xiàn)現(xiàn)的的概概率率小小于于5%時時,,就就認認為為這這種種差差異異由由抽抽樣樣誤誤差差引引起起差值值-2.77出出現(xiàn)現(xiàn)的的概概率率為接受受無無效效假假設設,,也也就就是是說說這這批批黑黑白白花花奶奶牛牛是是來來自自總結(jié)結(jié)::統(tǒng)統(tǒng)(1))提提出出假假設設(2))構(gòu)構(gòu)造造、、計計算(3))查查例4-2::1995年年,,已已知知某某地地20歲歲應應征征男男青青年年的的平平均均身身高高為為168.5cm。。2005年在在當當?shù)氐?0歲歲應應征征男男青青年年中中隨隨機機抽抽取取85人人,,平平均均身身高高為為解:(1)提出出假設H0:μ=168.5HA:μ≠168.5與1995年相比,,2005年當?shù)?0歲應征征男青年的的身高沒有有變化與1995年相比,,2005年當?shù)?0歲應征征男青年的的身高有變變化(2)計算算u值(3)查表表,作出推推斷u0.05=1.96,u0.01=2.58|u|=4.70>2.58=u0.01,P<0.01根據(jù)“小概概率事件原原理”可以以認為無效效假設不成成立,因此此否定無效效假設,接接受備擇假假設樣本不是來來自于已知知總體,即即2005年當?shù)?0歲應征征男青年的的身高有變變化,比1995年年增高了在顯著性檢檢驗中,否否定或接受受無效假設設的依據(jù)是是“小概率率事件實際際不可能性性原理”用來確定否否定或接受受無效假設設的概率標標準稱為顯顯著水平,,記作α若|u|<u0.05P>0.05,說明表面效效應屬于試試驗誤差的的可能性大大,不能否否定無效假假設,兩個總體平平均數(shù)間差異不顯著著若u0.05≤|u|<u0.01P≤0.05,說明表面效效應屬于試試驗誤差的的概率P在0.01-0.05之間,,表面效應應屬于試驗驗誤差的可可能性較小小,應否定定無效假設設,接受備備擇假設兩個總體平平均數(shù)間差異顯著標記*若|u|≥u0.01P≤0.01,說明表面效效應屬于試試驗誤差的的概率P不超過0.01,表表面效應屬屬于試驗誤誤差的可能能性更小,,應否定無無效假設,,接受備擇擇假設兩個總體平平均數(shù)間差異極顯著著標記**3.一一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 有機硅橡膠項目初步設計
- 城鄉(xiāng)廚余垃圾資源化利用項目商業(yè)計劃書
- 鋼結(jié)構(gòu)幕墻行業(yè)標準對接方案
- 鋼結(jié)構(gòu)幕墻玻璃幕墻設計方案
- 家居安全培訓手冊講解
- 四川省特崗真題及答案
- 2026年危機公關專員面試題集
- 食品微生物就業(yè)前景
- 2025年市政工程管理與施工規(guī)范
- 2025年環(huán)保設施設計與運營指南
- 第四單元地理信息技術的應用課件 【高效課堂+精研精講】高中地理魯教版(2019)必修第一冊
- 魯科版高中化學必修一教案全冊
- 管理養(yǎng)老機構(gòu) 養(yǎng)老機構(gòu)的服務提供與管理
- 提高隧道初支平整度合格率
- 2022年環(huán)保標記試題庫(含答案)
- 2023年版測量結(jié)果的計量溯源性要求
- 建筑能耗與碳排放研究報告
- GB 29415-2013耐火電纜槽盒
- 中國古代經(jīng)濟試題
- 真空采血管的分類及應用及采血順序課件
- 軟件定義汽車:產(chǎn)業(yè)生態(tài)創(chuàng)新白皮書
評論
0/150
提交評論