第七講-抽樣推斷-管理統(tǒng)計(jì)學(xué)-課件_第1頁
第七講-抽樣推斷-管理統(tǒng)計(jì)學(xué)-課件_第2頁
第七講-抽樣推斷-管理統(tǒng)計(jì)學(xué)-課件_第3頁
第七講-抽樣推斷-管理統(tǒng)計(jì)學(xué)-課件_第4頁
第七講-抽樣推斷-管理統(tǒng)計(jì)學(xué)-課件_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七講抽樣推斷PowerPoint統(tǒng)計(jì)學(xué)抽樣推斷的過程樣本總體樣本統(tǒng)計(jì)量例如:樣本均值、比例、方差總體均值、比例、方差抽樣推斷有關(guān)的基本概念一、抽樣推斷有關(guān)的基本概念

總體(Population):是指調(diào)查對象的全體

個體(Itemunit):組成總體的每個個體

樣本(Sample):由總體中所抽取的部分個體構(gòu)成

樣本容量(Samplesize):樣本中所含個體的數(shù)量例如:假設(shè)要調(diào)查西安市有多少家庭擁有電腦,擁有電腦的家庭與沒有電腦的家庭有什么區(qū)別?

抽樣單元(SamplingCell):為了便于實(shí)現(xiàn)隨機(jī)抽樣,常常將總體劃分為有限個互不重疊的部分,每個部分都叫做一個抽樣單元。

抽樣框(SamplingFrame):在抽樣時(shí),必須有一份全部抽樣單元的資料,這份資料就叫做抽樣框。如人員名單、地圖、電話簿、客戶檔案等。

隨機(jī)原則:在進(jìn)行抽樣時(shí),總體中的每一個體被抽取的可能性是相等的,而不是由研究者主觀決定的。由于隨機(jī)抽樣使每一個體都有同等的機(jī)會被抽取,因而樣本與總體結(jié)構(gòu)相一致的可能性最大,或者說,樣本具有最大可能表現(xiàn)總體的某些特征。另外,只有遵循隨機(jī)原則,才能按概率論的原則計(jì)算抽樣誤差,并對總體資料進(jìn)行推斷。

總體指標(biāo)(總體參數(shù)):使用平均數(shù)、中位數(shù)、眾數(shù)、比例、標(biāo)準(zhǔn)差這些量來描述總體的特征時(shí),叫做總體參數(shù)

樣本指標(biāo)(樣本統(tǒng)計(jì)量):使用平均數(shù)、中位數(shù)、眾數(shù)、比例、標(biāo)準(zhǔn)差這些量來描述樣本的特征時(shí),叫做樣本統(tǒng)計(jì)量指標(biāo)總體樣本平均數(shù)平均數(shù)的方差平均數(shù)的標(biāo)準(zhǔn)差比例比例的方差比例的標(biāo)準(zhǔn)差樣本統(tǒng)計(jì)量的計(jì)算公式樣本平均數(shù)樣本平均數(shù)的方差樣本成數(shù)樣本成數(shù)的方差抽樣方式及樣本可能數(shù)目二、抽樣方式及樣本可能數(shù)目

抽樣方式重復(fù)抽樣(放回抽樣)不重復(fù)抽樣(不放回抽樣)

對樣本的要求考慮順序(排列)不考慮順序(組合)樣本可能數(shù)目(樣本個數(shù))重復(fù)抽樣、考慮順序重復(fù)抽樣、不考慮順序不重復(fù)抽樣、不考慮順序不重復(fù)抽樣、考慮順序例如:從A、B、C、D四個字母中隨機(jī)抽取兩個字母,樣本的可能數(shù)目:重復(fù),排列不重復(fù),排列不重復(fù),組合重復(fù),組合A,AA,BA,BA,ABCCBCDDCDB,AB,CDB,ACDB,BBDC,DCCC,ADDBC,CC,ADDBD,AD,DCBDCD,ABCD抽樣推斷的組織形式三、抽樣推斷的組織形式概率抽樣:按照隨機(jī)原則選取樣本

簡單隨機(jī)抽樣:完全隨機(jī)地抽選樣本

分層抽樣(類型抽樣):總體分成不同的“層”,然后在每一層內(nèi)進(jìn)行抽樣

整群抽樣:將一組被調(diào)查者(群)作為一個抽樣單元

等距抽樣(系統(tǒng)抽樣):在樣本框中每隔一定距離抽選一個被調(diào)查者非概率抽樣:不是完全按隨機(jī)原則選取樣本

任意抽樣:由調(diào)查人員自由選取被調(diào)查者

判斷抽樣:通過某些條件過濾來選擇被調(diào)查者

配額抽樣:選擇一群特定數(shù)目、滿足特定條件的被調(diào)查者樣本平均數(shù)的抽樣分布所有樣本指標(biāo)(如平均數(shù)、比例、方差等)所形成的分布稱為抽樣分布是一種理論概率分布隨機(jī)變量是樣本統(tǒng)計(jì)量如樣本平均數(shù),樣本比例等結(jié)果來自容量相同的所有可能樣本

四、抽樣分布

(概念要點(diǎn))樣本平均數(shù)的抽樣分布

(一個例子)【例】設(shè)一個總體,含有4個元素(個體),即總體單位數(shù)N=4。4個個體分別為X1=1、X2=2、X3=3、X4=4??傮w的平均數(shù)、方差及分布如下:平均數(shù)和方差總體分布14230.1.2.3樣本平均數(shù)的抽樣分布

(一個例子)

現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣、考慮順序條件下,共有42=16個樣本。所有樣本的結(jié)果如下表:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能樣本(共16個)樣本平均數(shù)的抽樣分布

(一個例子)

計(jì)算出各樣本的平均數(shù),如下表。并給出樣本平均數(shù)的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的平均數(shù)(x)樣本平均數(shù)的抽樣分布0.1.2.3P(x)1.01.53.04.03.52.02.5x所有樣本平均數(shù)的平均數(shù)和方差式中:M為樣本可能數(shù)目比較及結(jié)論:1.樣本平均數(shù)的平均數(shù)等于總體平均數(shù)2.樣本平均數(shù)的方差等于總體方差的1/n

(樣本平均數(shù)的方差也稱抽樣方差)樣本平均數(shù)的抽樣分布

與中心極限定理n=4抽樣分布xn=16xXxxX當(dāng)總體服從正態(tài)分布N~(,σ2)時(shí),來自該總體的所有容量為n的樣本的平均數(shù)也服從正態(tài)分布,的數(shù)學(xué)期望為,方差為σ2/n。即~N(

,σ2/n)X

=10X總體分布中心極限定理

(圖示)當(dāng)樣本容量足夠大時(shí)(n

30),樣本平均數(shù)的抽樣分布逐漸趨于正態(tài)分布一個任意分布的總體X中心極限定理:設(shè)從平均數(shù)為X,方差為

2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本平均數(shù)的抽樣分布近似服從均值為X、方差為σ2/n的正態(tài)分布抽樣誤差五、抽樣平均誤差(一)樣本平均數(shù)的抽樣平均誤差1.所有可能出現(xiàn)的樣本平均數(shù)的標(biāo)準(zhǔn)差,測度所有樣本平均數(shù)的離散程度計(jì)算公式為重復(fù)抽樣不重復(fù)抽樣抽樣平均誤差(二)樣本成數(shù)的抽樣平均誤差1.所有可能出現(xiàn)的樣本成數(shù)的標(biāo)準(zhǔn)差,測度所有樣本成數(shù)的離散程度計(jì)算公式為重復(fù)抽樣不重復(fù)抽樣(三)抽樣平均誤差的影響因素總體方差樣本容量抽樣方法抽樣的組織形式(四)總體方差未知的處理辦法用以往的方差資料代替用樣本方差代替用估計(jì)的方差代替例如:從某學(xué)校隨機(jī)抽取100名學(xué)生,測得平均體重為61公斤,標(biāo)準(zhǔn)差為10公斤,請計(jì)算學(xué)生平均體重的抽樣平均誤差。解:參數(shù)估計(jì)的基本方法六、參數(shù)估計(jì)的基本方法(一)點(diǎn)估計(jì)(二)區(qū)間估計(jì)(一)點(diǎn)估計(jì)

(概念要點(diǎn))從總體中抽取一個樣本,根據(jù)該樣本的統(tǒng)計(jì)量對總體的未知參數(shù)作出一個數(shù)值點(diǎn)的估計(jì)例如:用樣本平均數(shù)作為總體未知平均數(shù)的估計(jì)值就是一個點(diǎn)估計(jì)2. 點(diǎn)估計(jì)沒有給出估計(jì)值接近總體未知參數(shù)程度的信息(如準(zhǔn)確程度、把握程度)1. 用于估計(jì)總體某一參數(shù)的隨機(jī)變量如樣本平均數(shù)、樣本比例、樣本中位數(shù)等例:樣本平均數(shù)就是平均數(shù)的一個估計(jì)量如果樣本平均數(shù)

x=3,則

3

就是總體平均數(shù)的估計(jì)值理論基礎(chǔ)是抽樣分布估計(jì)量

(概念要點(diǎn))二戰(zhàn)中的點(diǎn)估計(jì)二戰(zhàn)中的點(diǎn)估計(jì)—

德軍有多少輛坦克?二戰(zhàn)期間,盟軍非常想知道德軍總共制造了多少輛坦克。德國人在制造坦克時(shí)是墨守成規(guī)的,他們把坦克從1開始進(jìn)行了連續(xù)編號。在戰(zhàn)爭過程中,盟軍繳獲了一些敵軍坦克,并記錄了它們的生產(chǎn)編號。那么怎樣利用這些號碼來估計(jì)坦克總數(shù)呢?在這個問題中,總體參數(shù)是未知的坦克總數(shù)N,而繳獲坦克的編號則是樣本。假設(shè)我們是盟軍手下負(fù)責(zé)解決這個問題的統(tǒng)計(jì)人員。制造出來的坦克總數(shù)肯定大于等于記錄的最大編號。為了找到它比最大編號大多少,我們先找到被繳獲坦克編號的平均值,并認(rèn)為這個值是全部編號的中點(diǎn)。因此樣本平均數(shù)乘以2就是總數(shù)的一個估計(jì);當(dāng)然要特別假設(shè)繳獲的坦克代表了所有坦克的一個隨機(jī)樣本。這種估計(jì)N的公式的缺點(diǎn)是:不能保證均值的2倍一定大于記錄中的最大編號。二戰(zhàn)中的點(diǎn)估計(jì)—

德軍有多少輛坦克?N的另一個點(diǎn)估計(jì)公式是:用觀測到的最大編號乘以因子1+1/n,其中n是被俘虜坦克個數(shù)。假如你俘虜了10輛坦克,其中最大編號是50,那么坦克總數(shù)的一個估計(jì)是(1+1/10)50=55。此處我們認(rèn)為坦克的實(shí)際數(shù)略大于最大編號。從戰(zhàn)后發(fā)現(xiàn)的德軍記錄來看,盟軍的估計(jì)值非常接近所生產(chǎn)的坦克的真實(shí)值。記錄仍然表明統(tǒng)計(jì)估計(jì)比通常通過其他情報(bào)方式作出估計(jì)要大大接近于真實(shí)數(shù)目。統(tǒng)計(jì)學(xué)家們做得比間諜們更漂亮!資料來源:GUDMUNDR.IVERSEN和MARYGERGRN著,吳喜之等譯:《統(tǒng)計(jì)學(xué)—基本概念和方法》,高等教育出版社,施普林格出版社,2000。估計(jì)量的優(yōu)良性準(zhǔn)則

(無偏性)無偏性:估計(jì)量的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)P(x)xCA

無偏有偏估計(jì)量的優(yōu)良性準(zhǔn)則

(有效性)有效性:一個方差較小的無偏估計(jì)量稱為一個更有效的估計(jì)量。如:與其他估計(jì)量相比,樣本平均數(shù)是一個更有效的估計(jì)量AB

中位數(shù)的抽樣分布平均數(shù)的抽樣分布xP(x)估計(jì)量的優(yōu)良性準(zhǔn)則

(一致性)一致性:隨著樣本容量的增大,估計(jì)量越來越接近被估計(jì)的總體參數(shù)AB較小的樣本容量較大的樣本容量

P(x)x(二)區(qū)間估計(jì)

(概念要點(diǎn))1. 根據(jù)一個樣本的觀察值給出總體參數(shù)的估計(jì)范圍給出總體參數(shù)落在這一區(qū)間的概率例如:總體平均數(shù)落在50~70之間,置信度為95%樣本統(tǒng)計(jì)量

(點(diǎn)估計(jì))置信區(qū)間置信下限置信上限置信區(qū)間估計(jì)

(內(nèi)容)

2已知

2未知

平均數(shù)比例置信區(qū)間

方差已知方差

未知

落在總體平均數(shù)某一區(qū)間內(nèi)的樣本

x_x90%的樣本95%的樣本99%的樣本總體未知參數(shù)落在區(qū)間內(nèi)的概率置信水平表示為(1-

為顯著性水平,是總體參數(shù)未在區(qū)間內(nèi)的概率常用的置信水平值有99%,95%,90%相應(yīng)的

為0.01,0.05,0.10置信水平

區(qū)間與置信水平

平均數(shù)的抽樣分布1-aa/2a/2(1-

)%區(qū)間包含了

%的區(qū)間未包含影響區(qū)間寬度的因素1. 數(shù)據(jù)的離散程度,用來測度樣本容量n3. 置信水平(1-

),影響

Z的大小總體平均數(shù)和總體比例的區(qū)間估計(jì)總體平均數(shù)和總體比例

的區(qū)間估計(jì)(一)

總體平均數(shù)的區(qū)間估計(jì)(二)總體比例的區(qū)間估計(jì)(一)總體平均數(shù)的置信區(qū)間

(

2已知)1. 假定條件總體服從正態(tài)分布,且總體方差(

2)已知如果不是正態(tài)分布,可以由正態(tài)分布來近似

(n

30)使用正態(tài)分布統(tǒng)計(jì)量Z總體平均數(shù)

在1-置信水平下的置信區(qū)間為總體平均數(shù)的區(qū)間估計(jì)

(正態(tài)總體:實(shí)例)我們可以95%的概率保證該種零件的平均長度在21.302~21.498mm之間【例】某種零件長度服從正態(tài)分布,從該批產(chǎn)品中隨機(jī)抽?。辜?,測得其平均長度為21.4

mm。已知總體標(biāo)準(zhǔn)差

=0.15mm,試建立該種零件平均長度的置信區(qū)間,給定置信水平為0.95。解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z=1.96

總體均值

的置信區(qū)間為總體平均數(shù)的區(qū)間估計(jì)

(非正態(tài)總體:實(shí)例)解:已知

x=26,=6,n=100,1-=0.95,Z=1.96我們可以95%的概率保證平均每天參加鍛煉的時(shí)間在24.824~27.176分鐘之間【例】某大學(xué)從該校學(xué)生中隨機(jī)抽取100人,調(diào)查到他們平均每天參加體育鍛煉的時(shí)間為26分鐘。試以95%的置信水平估計(jì)該大學(xué)全體學(xué)生平均每天參加體育鍛煉的時(shí)間(已知總體方差為36小時(shí))??傮w平均數(shù)的置信區(qū)間(

2未知)大樣本條件下,使用Z分布統(tǒng)計(jì)量

總體均值在1-置信水平下的置信區(qū)間為小樣本條件下,使用t分布統(tǒng)計(jì)量總體平均數(shù)

在1-置信水平下的置信區(qū)間為總體平均數(shù)的區(qū)間估計(jì)

(實(shí)例)我們可以95%的概率保證總體均值在46.69~53.30之間【例】從一個正態(tài)總體中抽取一個隨機(jī)樣本,n=25,其均值`x=

50,標(biāo)準(zhǔn)差s=8。建立總體均值x的95%的置信區(qū)間。解:已知X~N(X,

2),x=50,s=8,n=25,1-=0.95,t=2.0639。

老年人的睡眠情況是困擾老年人日常生活快樂的一個重要因素,為此,醫(yī)生著手進(jìn)行了一次摸底調(diào)查,在隨機(jī)采訪的36名老年人中,他們每晚的睡眠時(shí)間為:練習(xí)一5.48.63.93.27.13.56.56.04.06.97.25.13.77.77.14.52.16.34.84.84.55.36.56.57.08.67.05.57.25.94.37.75.04.76.23.7(1)用點(diǎn)估計(jì)的方法推斷老年人每晚的平均睡眠時(shí)間;(2)用區(qū)間估計(jì)的方法推斷老年人每晚的平均睡眠時(shí)間(置信水平為90%)。(1)∴老年人每晚的平均睡眠時(shí)間為5.7小時(shí)。(2)練習(xí)一答案

因此,我們以90%的可靠程度估計(jì)老年人每晚平均睡眠時(shí)間在5.3小時(shí)~6.1小時(shí)之間。

一大型超市為研究顧客的購買行為,隨機(jī)抽取了100個顧客,這些顧客的平均花費(fèi)水平為80元,標(biāo)準(zhǔn)差25元。試以90%概率保證程度,計(jì)算顧客群體平均花費(fèi)水平的變化范圍。練習(xí)二練習(xí)二答案

因此,我們以90%的可靠程度估計(jì)顧客的平均花費(fèi)水平在75.9元~84.1元之間。(二)總體比例的置信區(qū)間1. 假定條件兩類結(jié)果總體服從二項(xiàng)分布可以由正態(tài)分布來近似使用正態(tài)分布統(tǒng)計(jì)量Z3.總體比例P

的置信區(qū)間為總體比例的置信區(qū)間

(實(shí)例)解:已知n=200,=0.7,

1-=0.95,Z=1.96p

我們可以95%的概率保證該企業(yè)職工由于同管理人員不能融洽相處而離開的比例在63.6%~76.4%之間【例】某企業(yè)在一項(xiàng)關(guān)于職工流動原因的研究中,從該企業(yè)前職工的總體中隨機(jī)選取了200人組成一個樣本。在對其進(jìn)行訪問時(shí),有140人說他們離開該企業(yè)是由于同管理人員不能融洽相處。試對由于這種原因而離開該企業(yè)的人員的真正比例構(gòu)造95%的置信區(qū)間。

Sateer是一家大型的計(jì)算機(jī)應(yīng)用程序開發(fā)公司,為提高程序員的編程水平,在公司范圍內(nèi)組織了一次為期50天的培訓(xùn)活動。培訓(xùn)結(jié)束后,隨即進(jìn)行了測試,以了解培訓(xùn)產(chǎn)生的效果。在隨機(jī)抽選出來的45名被測試者中,有36人通過了考試。試據(jù)此對全部參加培訓(xùn)的450名程序員通過測試的比例進(jìn)行區(qū)間估計(jì)(要求1-α=95%)。練習(xí)三練習(xí)三答案因此,我們以95%的把握程度估計(jì)程序員能夠通過考試的比例在68.8%~91.2%元之間。

航空公司飛行時(shí)間安排和價(jià)格是商務(wù)旅行者選擇航班要考慮的重要因素,但是一項(xiàng)調(diào)查的結(jié)果表明,商務(wù)旅行者一般將航空公司許諾的??驼劭劭闯墒亲顬橹匾囊蛩亍T谝粋€由1993名商務(wù)旅行者組成的簡單隨機(jī)樣本中,有618人認(rèn)為折扣是他們最看好的東西。試就這一問題,在95%的置信水平下,估計(jì)商務(wù)旅行者認(rèn)為折扣最有吸引力的人數(shù)所占的比例。練習(xí)四練習(xí)四答案因此,我們以95%的把握估計(jì)“認(rèn)為折扣最有吸引力”的人數(shù)所占的比例在27.3%~34.7%元之間。樣本容量的確定(一)估計(jì)總體均值時(shí)樣本容量的確定根據(jù)均值區(qū)間估計(jì)公式可得樣本容量n為七、樣本容量的確定

樣本容量n與總體方差

2、允許誤差

、可靠性系數(shù)Z之間的關(guān)系為與總體方差成正比與允許誤差成反比與可靠性系數(shù)成正比其中:樣本容量的確定

(實(shí)例)解:已知

2=1800000,=0.05,Z=1.96,=500

應(yīng)抽取的樣本容量為【例】一家廣告公司估計(jì)某類商店去年所花的平均廣告費(fèi)用有多少。經(jīng)驗(yàn)表明,總體方差約為1800000元。如置信度取95%,并要使估計(jì)處在總體平均值附近500元的范圍內(nèi),這家廣告公司應(yīng)抽多大的樣本?根據(jù)比例區(qū)間估計(jì)公式可得樣本容量n為(二)估計(jì)總體比例時(shí)樣本容量的確定

若總體比例P未知時(shí),可用樣本比例來代替

p其中:樣本容量的確定

(實(shí)例)【例】一家市場調(diào)研公司想估計(jì)某地區(qū)有彩色電視機(jī)的家庭所占的比例。該公司希望對比例P的估計(jì)誤差不超過0.05,要求的可靠程度為95%,應(yīng)抽取多少戶家庭構(gòu)成樣本?解:

已知

=0.05,1-=0.95,Z=1.96,當(dāng)P未知時(shí)用最大方差0.25代替應(yīng)抽取的樣本容量為

為了配備所需的售貨員人數(shù),商場管理部門想了解一名售貨員接待顧客平均花費(fèi)的時(shí)間。假定一名售貨員接待一位顧客所花費(fèi)的時(shí)間的標(biāo)準(zhǔn)差為4分鐘,要求估計(jì)誤差不超過2分鐘,置信度為99%,問應(yīng)觀察多少名顧客?練習(xí)五練習(xí)五答案∴應(yīng)觀察27名顧客。

一純凈水生產(chǎn)廠家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論