版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、抽樣調(diào)查與參數(shù)估計(jì)第1頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-2抽樣與參數(shù)估計(jì)有關(guān)基本概念概率抽樣方法調(diào)查問(wèn)卷設(shè)計(jì)總體參數(shù)估計(jì)總體與樣本總體參數(shù)與樣本統(tǒng)計(jì)量樣本容量與樣本個(gè)數(shù)重復(fù)抽樣與不重復(fù)抽樣抽樣框與抽樣單位概率抽樣和非概率抽樣多相抽樣分層抽樣簡(jiǎn)單隨機(jī)抽樣總體方差的參數(shù)估計(jì)總體比率的參數(shù)估計(jì)總體均值的參數(shù)估計(jì)問(wèn)卷的措辭調(diào)查問(wèn)卷的作用和結(jié)構(gòu)抽樣誤差和非抽樣誤差整群抽樣系統(tǒng)抽樣多階段抽樣樣本容量的參數(shù)確定調(diào)查問(wèn)卷的類型詢問(wèn)方法問(wèn)題的順序第2頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-3抽樣涉及的基本概念有:總體與樣本(見(jiàn)第一章)樣本容量與樣本個(gè)數(shù)總體參數(shù)與
2、樣本統(tǒng)計(jì)量重復(fù)抽樣與不重復(fù)抽樣抽樣框與抽樣單位概率抽樣和非概率抽樣抽樣的組織方式抽樣誤差好非抽樣誤差這些概念是統(tǒng)計(jì)學(xué)特有的,體現(xiàn)了統(tǒng)計(jì)學(xué)的基本思想與方法。第一節(jié) 有關(guān)基本概念第3頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-4一、總體和樣本:總體是指研究對(duì)象的全體,它是由研究對(duì)象中的單元組成的??傮w中包含單元的數(shù)目稱作總體容量(或大?。粯颖臼侵赋闃訒r(shí)按照抽樣的規(guī)則所抽中的那部分單元所組成的集合。總體樣本抽取樣本推斷總體第4頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-51.總體:又稱全及總體、母體,指所要研究對(duì)象的全體,由許多客觀存在的具有某種共同性質(zhì)的單位構(gòu)
3、成。總體單位數(shù)用 N 表示。2.樣本:又稱子樣,來(lái)自總體,是從總體中按隨機(jī)原則抽選出來(lái)的部分,由抽選的單位構(gòu)成。樣本單位數(shù)用 n 表示。3.總體是唯一的、確定的,而樣本是不確定的、可變的、隨機(jī)的。 第5頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-6二、樣本容量與樣本個(gè)數(shù)樣本容量:一個(gè)樣本中所包含的單位數(shù),用n表示。必要樣本量是能夠滿足估計(jì)精度要求的最少樣本量。樣本個(gè)數(shù):又稱樣本可能數(shù)目,指從一個(gè)總體中所可能抽取的樣本的個(gè)數(shù)。用A表示。對(duì)于有限總體,樣本個(gè)數(shù)可以計(jì)算出來(lái)。樣本個(gè)數(shù)的多少與抽樣方法有關(guān)。(這個(gè)概念只是對(duì)有限總體有意義,對(duì)無(wú)限總體沒(méi)有意義!)當(dāng)N和n一定時(shí),A的多少
4、與抽樣方法有關(guān),其計(jì)算方法列表如下:第6頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-7三、總體參數(shù)和樣本統(tǒng)計(jì)量總體參數(shù):反映總體數(shù)量特征的指標(biāo)。其數(shù)值是唯一的、確定的。樣本統(tǒng)計(jì)量:根據(jù)樣本分布計(jì)算的指標(biāo)。是隨機(jī)變量。平均數(shù)標(biāo)準(zhǔn)差、方差成數(shù)參數(shù)、2p統(tǒng)計(jì)量S、 S2P總體樣本第7頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四Jigj ij據(jù)歐辰進(jìn)口片刻psd就看破速度緊迫第8頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四四、重復(fù)抽樣和不重復(fù)抽樣1、重復(fù)抽樣又稱放回抽樣或重置抽樣,它是指抽中一個(gè)單位并登記有關(guān)信息后重新放回到總體中繼續(xù)參加下一次的抽選,這樣
5、逐次反復(fù),直到抽夠足夠的單位為止。在重復(fù)抽樣的條件下,每個(gè)單位中選的機(jī)會(huì)在各次抽樣中都完全相等。2、不重復(fù)抽樣又稱不放回抽樣或不重置抽樣,它是指抽中一個(gè)單位并登記有關(guān)信息后不再放回到總體中,而是繼續(xù)從總體中余下的單位抽選樣本單位,直到抽夠足夠的單位為止。在不重復(fù)抽樣的條件下,每個(gè)單位中選的機(jī)會(huì)在各次抽樣中是不相等的,每個(gè)單位只能被抽中一次。4-9第9頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-10 五、抽樣框和樣本單位抽樣框是在抽樣前,為便于抽樣工作的組織,在可能條件下編制的用來(lái)進(jìn)行抽樣的、記錄或表明總體所有抽樣單元的框架,在抽樣框中,每個(gè)抽樣單元都被編上號(hào)碼。抽樣框可以是一
6、份清單(名單抽樣框)、一張地圖(區(qū)域抽樣框)。 編制抽樣框是一個(gè)實(shí)際的、重要的問(wèn)題,因此必須要認(rèn)真對(duì)待。常見(jiàn)的抽樣框問(wèn)題可以概括為四種基本類型:(1)缺失一些元素,即抽樣框涵蓋不完全;(2)多個(gè)元素對(duì)應(yīng)一個(gè)號(hào)碼;(3)空白或存在異類元素;(4)重復(fù)號(hào)碼,即一個(gè)元素對(duì)應(yīng)多個(gè)號(hào)碼。對(duì)抽樣框存在的缺陷要認(rèn)真對(duì)待,有效處理。第10頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四從抽樣框中直接抽取的單位稱為抽樣單位。但它不一定是構(gòu)成抽樣框的最小單位。根據(jù)不同的抽樣設(shè)計(jì),抽樣單位有較大的變動(dòng)余地。例如在電視收視率的抽樣調(diào)查中,抽樣單位可以是擁有電視機(jī)的家庭,也可以是每個(gè)電視觀眾??梢詫⑤^小的抽樣
7、單位的集合視為較大的抽樣單位。在復(fù)雜抽樣時(shí),例如在多階段抽樣中,先抽取較大的抽樣單位(稱為初級(jí)單位),再?gòu)倪x出的初級(jí)單位中抽取次級(jí)單位(或二級(jí)單位),往下還可以分為更小的三級(jí)單位、四級(jí)單位,等等。 可以把抽樣框中所包含抽樣單位信息的豐富程度作為評(píng)價(jià)抽樣框質(zhì)量的一個(gè)標(biāo)準(zhǔn)。在好的抽樣框中,抽樣單位的信息比較豐富,這就為采用復(fù)雜的抽樣設(shè)計(jì)(如分層抽樣)和不同的估計(jì)方法(如比率估計(jì))提供了條件。 4-11第11頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-12六、概率抽樣和非概率抽樣第12頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-13(一)非概率抽樣1.非概率抽樣及
8、其優(yōu)缺點(diǎn)非概率抽樣是用非隨機(jī)的方法抽選樣本。優(yōu)點(diǎn):快速簡(jiǎn)便;費(fèi)用相對(duì)比較低;不需要任何抽樣框;對(duì)探索性研究和調(diào)查設(shè)計(jì)的開(kāi)發(fā)很有用。缺點(diǎn):不能對(duì)總體進(jìn)行推斷;由于不知總體單元的入樣概率,故不能計(jì)算估計(jì)值的抽樣誤差。第13頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-142.各種非概率抽樣方法方便抽樣,又稱任意抽樣。樣本單元的選取有調(diào)查員決定,又被調(diào)查者主動(dòng)提供信息。如街道攔截訪問(wèn)。志愿者抽樣。被調(diào)查者都是自愿參與調(diào)查。如網(wǎng)上問(wèn)卷,自愿回答。判斷抽樣。由專家有目的地挑選“有代表性”的樣本進(jìn)行調(diào)查。如典型調(diào)查。配額抽樣。從總體的各個(gè)子總體中選取特定數(shù)量的樣本單元組成樣本。如市場(chǎng)調(diào)查中
9、,規(guī)定男女消費(fèi)者的樣本各多少。 滾雪球抽樣。適合于總體中某種較為稀少的特殊子總體而又缺少完整的抽樣框。抽樣時(shí)通過(guò)已知的少數(shù)個(gè)體獲得信息逐漸擴(kuò)大。第14頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-15(二)概率抽樣概率抽樣是從總體中隨機(jī)抽選樣本單元,被抽中的單元既不取決于調(diào)查人員的愿望,也不取決于被被調(diào)查者的態(tài)度。其次每一個(gè)單元都有一定的概率被抽中。優(yōu)點(diǎn):可以對(duì)總體進(jìn)行推斷,并能計(jì)算估計(jì)值的抽樣誤差。缺點(diǎn):相對(duì)于非概率抽樣,設(shè)計(jì)比較復(fù)雜,而且費(fèi)用也比較高。常見(jiàn)的概率抽樣方法主要有:簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、與大?。ɑ蛞?guī)模)成比例的概率(PPS)抽樣、整群抽樣、分層抽樣(STR)、
10、多階抽樣、以及多相抽樣等。 第15頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四七、抽樣誤差和非抽樣誤差抽樣誤差是指由于抽選樣本的隨機(jī)性,用樣本數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行估計(jì)是所引起的誤差。只有采取概率抽樣方式才能產(chǎn)生樣誤差,得到估計(jì)量的精度,因此我們說(shuō)抽樣誤差僅僅表現(xiàn)于概率抽樣方式之中。與非概率抽樣方式相比,能夠計(jì)算抽樣誤差是概率抽樣最突出的優(yōu)點(diǎn)。非抽樣誤差是指除抽樣誤差以外的,由于各種原因而引起的誤差,例如抽樣框有缺陷,目標(biāo)總體單位和抽樣單位沒(méi)有能夠一一對(duì)應(yīng);調(diào)查中一些被調(diào)查者拒絕回答問(wèn)題,調(diào)查人員沒(méi)得到全部樣本數(shù)據(jù);由于各種原因(測(cè)量、遺忘或有意隱瞞等),調(diào)查中獲得的原始數(shù)據(jù)不正確,
11、以及在對(duì)調(diào)查數(shù)據(jù)進(jìn)行編碼、錄入、匯總過(guò)程中可能出現(xiàn)差錯(cuò),都會(huì)產(chǎn)生非抽樣誤差。4-16第16頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四八、樣本量、費(fèi)用與精度樣本量是樣本中包含抽樣單位的數(shù)目,樣本量的確定是抽樣中的一個(gè)重要問(wèn)題,樣本量越大,抽樣誤差就越小,估計(jì)量的精度就越高。但樣本量有直接與費(fèi)用有關(guān),樣本量越大調(diào)查的費(fèi)用也就越高。樣本量與調(diào)查費(fèi)用之間是一種線性關(guān)系,最簡(jiǎn)單的函數(shù)形式為式中,C0是與樣本量n無(wú)關(guān)的固定費(fèi)用,如抽樣方案的設(shè)計(jì),抽樣框的準(zhǔn)備,調(diào)查的組織、宣傳等項(xiàng)開(kāi)支,c是與n有關(guān)的費(fèi)用,包括調(diào)查本身的費(fèi)用、旅費(fèi)、禮品費(fèi)及數(shù)據(jù)處理費(fèi)等。4-17第17頁(yè),共139頁(yè),2022
12、年,5月20日,0點(diǎn)31分,星期四然而樣本量與調(diào)查精度之間是一種非線性關(guān)系。在樣本量較小時(shí),每增加一個(gè)樣本單位對(duì)提高精度的影響比較大,隨著樣本量的增大,每增加一個(gè)樣本單位的影響就逐漸減少。因此,一個(gè)好的抽樣設(shè)計(jì)必須考慮精度與費(fèi)用兩個(gè)方面。這里想要說(shuō)明的一層含義是:對(duì)于不同的調(diào)查項(xiàng)目,精度的要求是不同的,調(diào)查時(shí)應(yīng)以滿足需要的精度為原則,想要說(shuō)明的另一唱層含義是,由于不同的抽樣設(shè)計(jì)會(huì)有不同的費(fèi)用和精度,因此對(duì)于一個(gè)具體的抽樣設(shè)計(jì),應(yīng)盡量做到在一定費(fèi)用下使精度最高,或在達(dá)到精度條件下使總費(fèi)用最省,即使設(shè)計(jì)的效率最高,這樣的抽樣設(shè)計(jì)稱為最優(yōu)抽樣設(shè)計(jì)。4-18第18頁(yè),共139頁(yè),2022年,5月20日
13、,0點(diǎn)31分,星期四4-19第二節(jié) 主要的概率抽樣方法 (一)簡(jiǎn)單隨機(jī)抽樣 1、定義:簡(jiǎn)單隨機(jī)抽樣是從總體的N個(gè)抽樣單元中,每次抽取一個(gè)單元時(shí),使每一個(gè)單元都有相等的概率被抽中,連續(xù)抽n次,以抽中的n個(gè)單元組成簡(jiǎn)單隨機(jī)樣本。 2、優(yōu)點(diǎn): (1)比較容易理解和掌握;(2)抽樣框不需要其他輔助信息;(3)理論上比較成熟,有現(xiàn)成的方差估計(jì)公式。 3、缺點(diǎn): (1)沒(méi)有利用輔助信息;(2)樣本分散,面訪費(fèi)用較高;(3)有可能抽到較差的樣本;(4)抽選大樣本比較費(fèi)時(shí)。第19頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-20(二)系統(tǒng)抽樣 1、定義:又稱等距抽樣,對(duì)研究的總體按一定的順序排
14、列,每隔一定的間隔抽取一個(gè)單元的抽樣方法。 2、抽選方法:設(shè)總體單元數(shù)為N,要抽n個(gè)單元為樣本,先計(jì)算抽樣間隔k=N/n,在1到k之間抽取一個(gè)隨機(jī)起點(diǎn)r,則被抽中單元的順序位置是:r,r+k,r+2k,。起點(diǎn)rr+kr+2kr+3k第20頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-21 圓形系統(tǒng)抽樣方法:當(dāng)N不能被n整除時(shí),用圓形系統(tǒng)抽樣法可以避免出現(xiàn)樣本量可能不一致的情況。把總體單元假想排列在一個(gè)圓上,取 k = N/n 最接近的整數(shù),作為間隔,然后在1到N之間,抽取隨機(jī)起點(diǎn) r,則被抽中的單元順序號(hào)為: r,r+k,r+2k,r+(n-1)k。 如:N=55,n=9,就取
15、k=6,在1到55之間取一個(gè)隨機(jī)起點(diǎn)。例如r=42,則被抽中的單元是42,48,54,5,11,17,23,29和35 。第21頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-223、系統(tǒng)抽樣的優(yōu)點(diǎn)(1)沒(méi)有抽樣框時(shí)可代替簡(jiǎn)單隨機(jī)抽樣方法簡(jiǎn)單;(2)不需要輔助的抽樣框信息;(3)樣本的分布比較好;估計(jì)值容易計(jì)算。 4、系統(tǒng)抽樣的缺點(diǎn) (1)若抽樣間隔與總體的某種周期性變化一致,會(huì)得一個(gè)差的樣本;(2)不使用輔助信息使抽樣效率不高;(3)使用概念框時(shí),不能預(yù)先知道樣本量;(4)沒(méi)有一個(gè)無(wú)偏的方差估計(jì)量;(5)當(dāng)N不能被n整除時(shí)會(huì)得到樣本量不同的樣本。第22頁(yè),共139頁(yè),2022年
16、,5月20日,0點(diǎn)31分,星期四4-23(三)整群抽樣 1、定義:由若干個(gè)有聯(lián)系的基本單元組成的集合稱為群,抽樣時(shí)以群為抽樣單元的抽樣方法就稱為整群抽樣。 整群抽樣示意圖:黃色為總體紅色為群白點(diǎn)為基本單元第23頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-242、整群抽樣的優(yōu)點(diǎn):(1)能大大減低收集數(shù)據(jù)的費(fèi)用;(2)當(dāng)總體單元自然形成的群時(shí),容易取得抽樣框,抽樣也更容易;(3)當(dāng)群內(nèi)單元差異大,而不同群之間的差異小時(shí),可以提高效率。3、缺點(diǎn):(1)若群內(nèi)個(gè)單元有趨同性,效率將會(huì)降低;(2)通常無(wú)法預(yù)先知道總樣本量,因?yàn)椴恢廊簝?nèi)有多少單元;(3)方差估計(jì)比簡(jiǎn)單隨機(jī)抽樣更為復(fù)雜。
17、第24頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-25(四)分層抽樣 1、定義:在抽樣之前將總體分為同質(zhì)的、互不重疊的若干子總體,也稱為層。然后在每一個(gè)層獨(dú)立地隨機(jī)抽取樣本。 分層抽樣示意圖:第25頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-262、優(yōu)點(diǎn):(1)由于性質(zhì)相同的單元分在同一層,層內(nèi)差異縮小,可以提高抽樣效率;(2)可以得到各層子總體的估計(jì);(3)操作與管理方便;(4)能避免得到一個(gè)“差”的樣本。3、缺點(diǎn):(1)對(duì)抽樣框的要求比較高,必須有分層的輔助信息;(2)收集或編制抽樣框的費(fèi)用比較高;(3)若調(diào)查變量與分層的變量不相關(guān),效率可能降低;(4)
18、估計(jì)值的計(jì)算比簡(jiǎn)單隨機(jī)抽樣復(fù)雜。第26頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-27(五)多階抽樣 1、定義:它是由兩個(gè)或更多個(gè)連續(xù)的階段抽取樣本的方法。 多階抽樣示意圖:總體第一階樣本最終樣本第27頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-282、優(yōu)點(diǎn):(1)當(dāng)群具有同質(zhì)性時(shí),多階抽樣的效率高于整群抽樣;(2)樣本的分布比簡(jiǎn)單隨機(jī)抽樣集中,采用面訪可以節(jié)約時(shí)間和費(fèi)用;(3)不需要整個(gè)總體單元的名錄框,只要群的名錄框和抽中群的單元名錄框。3、缺點(diǎn):(1)效率不如簡(jiǎn)單隨機(jī)抽樣;(2)通常不能提前知道最終的樣本量;(3)調(diào)查的組織較整群抽樣復(fù)雜;(4)估計(jì)值
19、與抽樣方差的計(jì)算較為復(fù)雜。第28頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-29(六)多相抽樣 1、定義:在同一個(gè)抽樣框內(nèi),先抽一個(gè)大樣本,收集基本的信息,然后在這個(gè)大樣本中再抽一個(gè)子樣本,收集調(diào)查的詳細(xì)信息。 多相抽樣示意圖:。第一相樣本第二相樣本第29頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-302、優(yōu)點(diǎn):能顯著提高估計(jì)值精度(與簡(jiǎn)單隨機(jī)抽樣相比);能用來(lái)獲得抽樣框中所沒(méi)有的輔助信息(特別是分層信息);適用于某些調(diào)查指標(biāo)的數(shù)據(jù)收集費(fèi)用特別高,或會(huì)給被調(diào)查者帶來(lái)較重的回答負(fù)擔(dān)的情況。3、缺點(diǎn):如果需要根據(jù)第一相的結(jié)果來(lái)進(jìn)行第二相調(diào)查,得到整個(gè)調(diào)查結(jié)果的時(shí)
20、間比單相調(diào)查長(zhǎng);由于對(duì)某些樣本單元訪問(wèn)次數(shù)超過(guò)一次,故所需費(fèi)用比一相調(diào)查要多;調(diào)查的組織會(huì)很復(fù)雜;估計(jì)值和抽樣誤差的計(jì)算會(huì)相當(dāng)復(fù)雜。 第30頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-31抽樣分布抽樣分布的概念:由樣本統(tǒng)計(jì)量的全部可能取值和與之相應(yīng)的概率(頻率)組成的分配數(shù)列。(主要求出樣本平均數(shù)的期望與方差)包括以下內(nèi)容重置抽樣分布樣本平均數(shù)的分布樣本成數(shù)的分布樣本方差的分布不重置抽樣分布樣本平均數(shù)的分布樣本成數(shù)的分布樣本方差的分布第31頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-32總體中各元素的觀察值所形成的分布 分布通常是未知的可以假定它服從某種分布
21、 總體分布(population distribution)總體第32頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-33一個(gè)樣本中各觀察值的分布 也稱經(jīng)驗(yàn)分布 當(dāng)樣本容量n逐漸增大時(shí),樣本分布逐漸接近總體的分布 樣本分布(sample distribution)樣本第33頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-34樣本統(tǒng)計(jì)量的概率分布,是一種理論分布在重復(fù)選取容量為n的樣本時(shí),由該統(tǒng)計(jì)量的所有可能取值形成的相對(duì)頻數(shù)分布 隨機(jī)變量是 樣本統(tǒng)計(jì)量樣本均值, 樣本比例,樣本方差等結(jié)果來(lái)自容量相同的所有可能樣本提供了樣本統(tǒng)計(jì)量長(zhǎng)遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ)
22、,也是抽樣推斷科學(xué)性的重要依據(jù) 抽樣分布 (sampling distribution)第34頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-35抽樣分布的形成過(guò)程 (sampling distribution)總體計(jì)算樣本統(tǒng)計(jì)量如:樣本均值、比例、方差樣本第35頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四樣本均值的抽樣分布第36頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-371.在重復(fù)選取容量為n的樣本時(shí),由樣本均值的所有可能取值形成的相對(duì)頻數(shù)分布2.一種理論概率分布3.推斷總體均值的理論基礎(chǔ)一、樣本均值的抽樣分布第37頁(yè),共139頁(yè),2022年
23、,5月20日,0點(diǎn)31分,星期四4-38樣本均值的抽樣分布(例題分析)【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體) ,即總體單位數(shù)N=4。4 個(gè)個(gè)體分別為x1=1,x2=2,x3=3,x4=4 。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差第38頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-39樣本均值的抽樣分布 (例題分析) 現(xiàn)從總體中抽取n2的簡(jiǎn)單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n
24、 = 2 的樣本(共16個(gè))第39頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-40樣本均值的抽樣分布 (例題分析) 計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P ( x )1.53.04.03.52.02.5第40頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-41樣本均值的分布與總體分布的比較 (例題分析) = 2.5 2 =1.25總體分布1423
25、0.1.2.3抽樣分布P ( x )1.00.1.2.31.53.04.03.52.02.5x第41頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-42樣本均值的抽樣分布與中心極限定理 = 50 =10X總體分布n = 4抽樣分布xn =16當(dāng)總體服從正態(tài)分布N(,2)時(shí),來(lái)自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x 的數(shù)學(xué)期望為,方差為2/n。即xN(,2/n)第42頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-43中心極限定理(central limit theorem)當(dāng)樣本容量足夠大時(shí)(n 30) ,樣本均值的抽樣分布逐漸趨于正態(tài)分布從均值為,
26、方差為 2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為,方差為2/n的正態(tài)分布一個(gè)任意分布的總體x第43頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-44中心極限定理 (central limit theorem)x 的分布趨于正態(tài)分布的過(guò)程第44頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-45抽樣分布與總體分布的關(guān)系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本樣本均值正態(tài)分布樣本均值正態(tài)分布樣本均值非正態(tài)分布第45頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-46樣本均值的數(shù)學(xué)期望樣本均值的方差重復(fù)抽樣不重復(fù)抽
27、樣樣本均值的抽樣分布(數(shù)學(xué)期望與方差)第46頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-47樣本均值的抽樣分布(數(shù)學(xué)期望與方差)比較及結(jié)論:1. 樣本均值的均值(數(shù)學(xué)期望) 等于總體均值 2. 樣本均值的方差等于總體方差的1/n第47頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-48統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤 (standard error)樣本統(tǒng)計(jì)量的抽樣分布的標(biāo)準(zhǔn)差,稱為統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤,也稱為標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤衡量的是統(tǒng)計(jì)量的離散程度,它測(cè)度了用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的精確程度以樣本均值的抽樣分布為例,在重復(fù)抽樣條件下,樣本均值的標(biāo)準(zhǔn)誤為第48頁(yè),共139頁(yè),2022年,
28、5月20日,0點(diǎn)31分,星期四4-49估計(jì)的標(biāo)準(zhǔn)誤 (standard error of estimation)當(dāng)計(jì)算標(biāo)準(zhǔn)誤時(shí)涉及的總體參數(shù)未知時(shí),用樣本統(tǒng)計(jì)量代替計(jì)算的標(biāo)準(zhǔn)誤,稱為估計(jì)的標(biāo)準(zhǔn)誤以樣本均值的抽樣分布為例,當(dāng)總體標(biāo)準(zhǔn)差未知時(shí),可用樣本標(biāo)準(zhǔn)差s代替,則在重復(fù)抽樣條件下,樣本均值的估計(jì)標(biāo)準(zhǔn)誤為第49頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四樣本比例的抽樣分布第50頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-51總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比不同性別的人與全部人數(shù)之比合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比總體比例可表示為樣本比例
29、可表示為比例(proportion)第51頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-52在重復(fù)選取容量為n的樣本時(shí),由樣本比例的所有可能取值形成的相對(duì)頻數(shù)分布一種理論概率分布當(dāng)樣本容量很大時(shí),樣本比例的抽樣分布可用正態(tài)分布近似 推斷總體比例的理論基礎(chǔ)樣本比例的抽樣分布第52頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-53樣本比例的數(shù)學(xué)期望樣本比例的方差重復(fù)抽樣不重復(fù)抽樣樣本比例的抽樣分布(數(shù)學(xué)期望與方差)第53頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四樣本方差的抽樣分布第54頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-55
30、樣本方差的分布在重復(fù)選取容量為n的樣本時(shí),由樣本方差的所有可能取值形成的相對(duì)頻數(shù)分布對(duì)于來(lái)自正態(tài)總體的簡(jiǎn)單隨機(jī)樣本,則比值 的抽樣分布服從自由度為 (n -1) 的2分布,即第55頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-561.由阿貝(Abbe) 于1863年首先給出,后來(lái)由海爾墨特(Hermert)和卡皮爾遜(KPearson) 分別于1875年和1900年推導(dǎo)出來(lái)2.設(shè) ,則3.令 ,則 Y 服從自由度為1的2分布,即4.當(dāng)總體 ,從中抽取容量為n的樣本,則2分布(2 distribution)第56頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-571
31、.分布的變量值始終為正 2.分布的形狀取決于其自由度n的大小,通常為不對(duì)稱的正偏分布,但隨著自由度的增大逐漸趨于對(duì)稱 3.期望為E(2)=n,方差為D(2)=2n(n為自由度) 4.可加性:若U和V為兩個(gè)獨(dú)立的服從2分布的隨機(jī)變量,U2(n1),V2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的2分布 2分布(性質(zhì)和特點(diǎn))第57頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-58c2分布(圖示) 選擇容量為n 的簡(jiǎn)單隨機(jī)樣本計(jì)算樣本方差s2計(jì)算卡方值2 = (n-1)s2/2計(jì)算出所有的 2值不同容量樣本的抽樣分布c 2n=1n=4n=10n=20 ms總體第58頁(yè),共1
32、39頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-59c2分布(例題的圖示)16個(gè)樣本方差的分布樣本方差s2s2取值的概率0.04/160.56/1624/164.52/16第59頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-60c2分布(用Excel計(jì)算c2分布的概率)利用Excel提供的CHIDIST統(tǒng)計(jì)函數(shù),計(jì)算c2分布右單尾的概率值語(yǔ)法為CHIDIST(x,df),其中df為自由度,x是隨機(jī)變量的取值給定自由度和統(tǒng)計(jì)量取值的右尾概率,也可以利用“插入函數(shù)”命令來(lái)實(shí)現(xiàn)計(jì)算自由度為8,統(tǒng)計(jì)量的取值大于10的概率第60頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星
33、期四4-61c2分布(用Excel計(jì)算c2分布的臨界值)利用Excel提供的CHIINV統(tǒng)計(jì)函數(shù),計(jì)算分布右單尾的概率值為的臨界值語(yǔ)法為CHIINV(,df),其中df為自由度給定自由度和分布右尾概率為的臨界值也可以利用“插入函數(shù)”命令來(lái)實(shí)現(xiàn)計(jì)算自由度為10,右尾概率為0.1的臨界值第61頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-62c2分布(用Excel生成c2分布的臨界值表)第一步:將c2分布自由度df的值輸入到工作表的 A列,將右尾概率的取值輸入到第1行第二步:在B2單元格輸入公式 “=CHIINV(B$1,$A2)” 然后將其向下、向右復(fù)制即可得到分布 的臨界值表
34、第62頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-63第三節(jié) 總體參數(shù)估計(jì)本節(jié)主要內(nèi)容:一、總體參數(shù)估計(jì)概述二、總體參數(shù)的點(diǎn)估計(jì)三、參數(shù)區(qū)間估計(jì)四、樣本容量的確定第63頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-64一、總體參數(shù)估計(jì)概述設(shè)待估計(jì)的總體參數(shù)是,用以估計(jì)該參數(shù)的統(tǒng)計(jì)量是 ,抽樣估計(jì)的極限誤差是,即:極限誤差是根據(jù)研究對(duì)象的變異程度和分析任務(wù)的性質(zhì)來(lái)確定的在一定概率下的允許誤差范圍。參數(shù)估計(jì)的兩個(gè)要求:精度:估計(jì)誤差的最大范圍,通過(guò)極限誤差來(lái)反映。顯然,越小,估計(jì)的精度要求越高,越大,估計(jì)的精度要求越低。極限誤差的確定要以實(shí)際需要為基本標(biāo)準(zhǔn)??煽啃?/p>
35、:估計(jì)正確性的一個(gè)概率保證,通常稱為估計(jì)的置信度。第64頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-65二、總體參數(shù)的點(diǎn)估計(jì)點(diǎn)估計(jì)的含義:直接以樣本統(tǒng)計(jì)量作為相應(yīng)總體參數(shù)的估計(jì)量。第65頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-66優(yōu)良估計(jì)量標(biāo)準(zhǔn)優(yōu)良估計(jì)標(biāo)準(zhǔn):無(wú)偏性:要求樣本統(tǒng)計(jì)量的平均數(shù)等于被估計(jì)的總體參數(shù)本身。一致性:當(dāng)樣本容量充分大時(shí),樣本統(tǒng)計(jì)量充分靠近總體參數(shù)本身。有效性:總體方差的無(wú)偏估計(jì)量為樣本方差點(diǎn)估計(jì)完全正確的概率通常為0。因此,我們更多的是考慮用樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù)的范圍 區(qū)間估計(jì)。 第66頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)
36、31分,星期四4-67三、參數(shù)區(qū)間估計(jì)參數(shù)區(qū)間估計(jì)的含義:估計(jì)總體參數(shù)的區(qū)間范圍,并給出區(qū)間估計(jì)成立的概率值。其中: 1-(01)稱為置信度;是區(qū)間估計(jì)的顯著性水平,其取值大小由實(shí)際問(wèn)題確定,經(jīng)常取1%、5%和10%。注意對(duì)上式的理解:例如抽取了1000個(gè)樣本,根據(jù)每一個(gè)樣本均構(gòu)造了一個(gè)置信區(qū)間,這樣,由1000個(gè)樣本構(gòu)造的總體參數(shù)的1000個(gè)置信區(qū)間中,有95%的區(qū)間包含了總體參數(shù)的真值,而5%的置信區(qū)間則沒(méi)有包含。這里,95%這個(gè)值被稱為置信水平(或置信度)。一般地,將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。第67頁(yè),共139頁(yè),2022年,5月
37、20日,0點(diǎn)31分,星期四4-68樣本統(tǒng)計(jì)量 (點(diǎn)估計(jì))置信區(qū)間置信下限置信上限我們用95%的置信水平得到某班學(xué)生考試成績(jī)的置信區(qū)間為60-80分,如何理解?錯(cuò)誤的理解:60-80區(qū)間以95%的概率包含全班同學(xué)平均成績(jī)的真值;或以95%的概率保證全班同學(xué)平均成績(jī)的真值落在60-80分之間。正確的理解:如果做了多次抽樣(如100次),大概有95次找到的區(qū)間包含真值,有5次找到的區(qū)間不包括真值。真值只有一個(gè),一個(gè)特定的區(qū)間“總是包含”或“絕對(duì)不包含”該真值。但是,用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個(gè)區(qū)間包含了參數(shù)的真值。如果大家還是不能理解,那你們最好這樣回答有關(guān)區(qū)間估計(jì)的結(jié)果:該班同
38、學(xué)平均成績(jī)的置信區(qū)間是60-80分,置信度為95%。第68頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-69區(qū)間估計(jì)的基本要素包括:樣本點(diǎn)估計(jì)值、抽樣極限誤差、估計(jì)的可靠程度樣本點(diǎn)估計(jì)值抽樣極限誤差:可允許的誤差范圍。抽樣估計(jì)的可靠程度(置信度、概率保證程度)及概率度注意:本教材所進(jìn)行的區(qū)間估計(jì)僅指對(duì)總體平均數(shù)或成數(shù)的區(qū)間估計(jì),并且在實(shí)際計(jì)算過(guò)程中使用下面的式子。式中是極限誤差。第69頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-70區(qū)間估計(jì)的內(nèi)容2 已知2 未知均 值方 差比 例置 信 區(qū) 間第70頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-
39、71平均數(shù)的區(qū)間估計(jì) 對(duì)總體平均數(shù)或成數(shù)的區(qū)間估計(jì)時(shí),使用下面的式子 (式中是極限誤差)有兩種模式:1、根據(jù)置信度1-,求出極限誤差,并指出總體平均數(shù)的估計(jì)區(qū)間。2、給定極限誤差,求置信度。第71頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-72當(dāng)已知時(shí),根據(jù)相關(guān)的抽樣分布定理, 服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)。查正態(tài)分布概率表,可得 (一般記為 ),則 ,根據(jù)重復(fù)抽樣與不重復(fù)抽樣的 求法的不同,進(jìn)一步可得總體平均數(shù)的估計(jì)區(qū)間:重復(fù)抽樣時(shí),區(qū)間的上下限為:不重復(fù)抽樣時(shí),區(qū)間的上下限為:平均數(shù)區(qū)間估計(jì)第1種模式(求置信區(qū)間)第72頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,
40、星期四4-73第73頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-74平均數(shù)區(qū)間估計(jì)第1種模式(求置信區(qū)間)若總體方差未知,則在計(jì)算 時(shí),使用樣本方差代替總體方差,此時(shí) 服從自由度為n-1的t分布。查t分布表可得 ,并記為于是:重復(fù)抽樣時(shí),區(qū)間的上下限為:不重復(fù)抽樣時(shí),區(qū)間的上下限為:大樣本時(shí),t分布與標(biāo)準(zhǔn)正態(tài)分布非常接近,可直接從標(biāo)準(zhǔn)正態(tài)分布表查臨界值第74頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-75例:總體平均數(shù)的區(qū)間估計(jì)1對(duì)某型號(hào)的電子元件進(jìn)行耐用性能檢查,抽查資料分組如下表,要求估計(jì)該批電子元件的平均耐用時(shí)數(shù)的置信區(qū)間(置信度95%)。第75頁(yè),共
41、139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-7668.27%的樣本表示樣本均值落在區(qū)間的概率是1-,例對(duì)總體均值區(qū)間估計(jì)的進(jìn)一步理解第76頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-77平均數(shù)區(qū)間估計(jì)第2種模式(求置信度)給定極限誤差,求置信度第77頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-78例:總體平均數(shù)的區(qū)間估計(jì)2例:經(jīng)抽樣調(diào)查計(jì)算樣本畝產(chǎn)糧食600公斤,并求得抽樣平均誤差為3公斤,現(xiàn)給定允許極限誤差為6公斤,求置信區(qū)間包含總體平均畝產(chǎn)的概率,即求置信水平。結(jié)果表明,如果多次反復(fù)抽樣,每次都可以由樣本值確定一個(gè)估計(jì)區(qū)間,每個(gè)區(qū)間或者包含總
42、體參數(shù)的真值,或者不包含總體參數(shù)的真值,包含真值的區(qū)間占F(z),即每一萬(wàn)次抽樣,就有9545個(gè)樣本區(qū)間包括總體畝產(chǎn),其余455個(gè)樣本區(qū)間不包括總體平均數(shù),即若接受估計(jì)區(qū)間的判斷要冒4.55%的機(jī)會(huì)犯錯(cuò)誤的風(fēng)險(xiǎn)。第78頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-79成數(shù)的區(qū)間估計(jì)由于總體的分布是(0,1)分布,只有在大樣本的情況下,才服從正態(tài)分布??傮w成數(shù)可以看成是一種特殊的平均數(shù),類似于總體平均數(shù)的區(qū)間估計(jì),總體成數(shù)的區(qū)間估計(jì)的上下限是:注意:在實(shí)踐中,由于總體成數(shù)常常未知,這時(shí),抽樣平均誤差公式中的總體成數(shù)用樣本成數(shù)代替。 大樣本的條件:np5且n(1-p) 5,由于總體
43、成數(shù)通常未知,可以用樣本成數(shù)p來(lái)近似判斷。第79頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-80例:總體平均數(shù)的區(qū)間估計(jì)3對(duì)某型號(hào)的電子元件進(jìn)行耐用性能檢查,抽查資料分組如下表, 設(shè)該廠的產(chǎn)品質(zhì)量檢驗(yàn)標(biāo)準(zhǔn)規(guī)定,元件耐用時(shí)數(shù)達(dá)到1000小時(shí)以上為合格品。要求估計(jì)該批電子元件的合格率,置信水平95%。第80頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-81總體均值區(qū)間估計(jì)總結(jié)總體平均數(shù)估計(jì)區(qū)間的上下限總體方差已知N(0,1)重復(fù)抽樣不重復(fù)抽樣總體方差未知t(n-1)大樣本時(shí)近似服從N(0,1)重復(fù)抽樣不重復(fù)抽樣 如果是正態(tài)總體第81頁(yè),共139頁(yè),2022年,5月
44、20日,0點(diǎn)31分,星期四4-82 如果不是正態(tài)總體,或分布未知總體方差已知且是大樣本總體方差未知且是大樣本 此時(shí)不考慮小樣本情況因此,大樣本情況下,直接用標(biāo)準(zhǔn)正態(tài)分布求置信區(qū)間即可。第82頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-83總體成數(shù)估計(jì)區(qū)間估計(jì)總結(jié)總體成數(shù)估計(jì)區(qū)間的上下限只考慮大樣本情況(請(qǐng)記住大樣本條件)第83頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-84對(duì)總量指標(biāo)的區(qū)間估計(jì)在對(duì)總體平均數(shù)進(jìn)行區(qū)間估計(jì)的基礎(chǔ)上,可進(jìn)一步推斷相應(yīng)的總量指標(biāo),即用總體單位總數(shù)N分別乘以總體平均數(shù)的區(qū)間下限和區(qū)間上限,便得到相應(yīng)總量(N)的區(qū)間范圍。第84頁(yè),共1
45、39頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-85例1某廠對(duì)一批產(chǎn)品的質(zhì)量進(jìn)行抽樣檢驗(yàn),采用重復(fù)抽樣抽取樣品200只,樣本優(yōu)質(zhì)率為85%,試計(jì)算當(dāng)把握程度為90%時(shí)優(yōu)質(zhì)品率的區(qū)間范圍。第85頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-86例2某商場(chǎng)從一批食品(共800袋)中隨機(jī)抽取40袋(假設(shè)用重復(fù)抽樣),測(cè)得每袋平均重量為791.1克,標(biāo)準(zhǔn)差為17.136克,要求以95%的把握程度,估計(jì)這批食品的平均每袋重量以及這批食品總重量的區(qū)間范圍。800*778.84,800*803.36,即623072,642688 第86頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分
46、,星期四4-87 樣本容量的確定什么是樣本容量確定問(wèn)題?第87頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-88確定樣本容量在設(shè)計(jì)抽樣時(shí),先確定允許的誤差范圍和必要的概率保證程度,然后根據(jù)歷史資料或試點(diǎn)資料確定總體的標(biāo)準(zhǔn)差,最后來(lái)確定樣本容量。估計(jì)總體均值時(shí)樣本容量的確定重復(fù)抽樣 不重復(fù)抽樣 估計(jì)成數(shù)時(shí)樣本容量的確定重復(fù)抽樣 不重復(fù)抽樣 第88頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-89確定樣本容量應(yīng)注意的問(wèn)題計(jì)算樣本容量時(shí),一般總體的方差與成數(shù)都是未知的,可用有關(guān)資料替代:一是用歷史資料已有的方差與成數(shù)代替;二是在進(jìn)行正式抽樣調(diào)查前進(jìn)行幾次試驗(yàn)性調(diào)查,用
47、試驗(yàn)中方差的最大值代替總體方差;三是成數(shù)方差在完全缺乏資料的情況下,就用成數(shù)方差的最大值0.25代替。如果進(jìn)行一次抽樣調(diào)查,同時(shí)估計(jì)總體均值與成數(shù),用上面的公式同時(shí)計(jì)算出兩個(gè)樣本容量,可取一個(gè)最大的結(jié)果,同時(shí)滿足兩方面的需要。上面的公式計(jì)算結(jié)果如果帶小數(shù),這時(shí)樣本容量不按四舍五入法則取整數(shù),取比這個(gè)數(shù)大的最小整數(shù)代替。例如計(jì)算得到:n=56.03,那么,樣本容量取57,而不是56。 第89頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-90例:確定樣本容量1對(duì)某批木材進(jìn)行檢驗(yàn),根據(jù)以往經(jīng)驗(yàn),木材長(zhǎng)度的標(biāo)準(zhǔn)差為0.4米,而合格率為90%?,F(xiàn)采用重復(fù)抽樣方式,要求在95.45%的概率
48、保證程度下,木材平均長(zhǎng)度的極限誤差不超過(guò)0.08米,抽樣合格率的極限誤差不超過(guò)5%,問(wèn)必要的樣本單位數(shù)應(yīng)該是多少?第90頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-91例:確定樣本容量2對(duì)某批木材進(jìn)行檢驗(yàn),根據(jù)以往經(jīng)驗(yàn),木材的合格率為90%、92%、95%。現(xiàn)采用重復(fù)抽樣方式,要求在95.45%的概率保證程度下,抽樣合格率的極限誤差不超過(guò)5%,問(wèn)必要的樣本單位數(shù)應(yīng)該是多少?第91頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-92其他抽樣組織形式下的抽樣誤差本節(jié)主要內(nèi)容:抽樣估計(jì)效果的衡量與抽樣組織形式簡(jiǎn)單隨機(jī)抽樣類型抽樣整群抽樣等距抽樣階段抽樣不同抽樣組織設(shè)計(jì)
49、的比較第92頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-93一、抽樣估計(jì)效果的衡量與抽樣組織形式抽樣估計(jì)效果好壞,關(guān)鍵是抽樣平均誤差的控制。抽樣平均誤差小,抽樣效果從整體上看就是好的;否則,抽樣效果就不理想。抽樣平均誤差受以下幾方面的因素影響:一是總體的變異性,即與總體的標(biāo)準(zhǔn)差大小有關(guān)二是樣本容量三是抽樣方法。四是抽樣的組織形式抽樣的組織形式有如下幾種:簡(jiǎn)單隨機(jī)抽樣、類型抽樣、等距抽樣、整群抽樣、階段抽樣 第93頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-94二、簡(jiǎn)單隨機(jī)抽樣第94頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-95三、類型抽樣
50、含義:又稱分層抽樣。對(duì)總體各單位按一定標(biāo)志加以分組,然后從每一組中按隨機(jī)原則抽取一定單位構(gòu)成樣本。得到樣本如下:第95頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-96類型抽樣求樣本平均數(shù)第96頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-97類型抽樣求抽樣平均誤差第97頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-98類型抽樣求抽樣平均誤差第98頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-99類型抽樣兩點(diǎn)結(jié)論從類型抽樣的抽樣平均誤差公式來(lái)看,類型抽樣的抽樣平均誤差與組間方差無(wú)關(guān),它決定于組內(nèi)方差的平均水平。而方差的加法定理:
51、,因此有如下結(jié)論:抽樣效果一般來(lái)說(shuō)好于簡(jiǎn)單隨機(jī)抽樣。因此在分組時(shí)應(yīng)盡量擴(kuò)大組間方差(組間差異),縮小組內(nèi)方差(組內(nèi)差異),從而減少抽樣誤差,提高抽樣效果。第99頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-100類型抽樣例假設(shè)某農(nóng)場(chǎng)種植小麥1 200畝,根據(jù)其地理?xiàng)l件劃分為甲、乙、丙三類,按5%的比例總共抽取60畝進(jìn)行調(diào)查,結(jié)果如下表所示。試以95%的概率估計(jì)農(nóng)場(chǎng)平均畝產(chǎn)量的區(qū)間范圍。 第100頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-101四、整群抽樣定義:又稱集團(tuán)抽樣。將總體各單位分為若干群,然后從中抽取部分群,對(duì)中選群的所有單位進(jìn)行全面調(diào)查。第101頁(yè)
52、,共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-102整群抽樣抽樣平均誤差的計(jì)算在計(jì)算抽樣平均誤差時(shí)假定每群?jiǎn)挝粩?shù)是相同的,但實(shí)際工作中,通常是“自然群”,其單位數(shù)一般是不等的。第102頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-103整群抽樣抽樣效果評(píng)價(jià)好處是操作方便、省時(shí)、省力。確定一群便可以調(diào)查許多單位,但正是由于抽樣單位比較集中,限制了樣本單位在總體中分配的均勻性,所以有時(shí)代表性較代,抽樣誤差較大??梢栽黾訕颖締挝粊?lái)減少誤差 。抽樣平均誤差只取決于群間方差(與類型抽樣相反),因此分群時(shí),應(yīng)盡量擴(kuò)大群內(nèi)方差(群內(nèi)差異),縮小群間方差(群間差異)來(lái)提高抽樣效果
53、。第103頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-104整群抽樣例1從某縣的100個(gè)村莊中抽出10村,進(jìn)行調(diào)查得平均每戶飼養(yǎng)家禽35頭,各村的平均數(shù)的方差為16頭,請(qǐng)計(jì)算平均抽樣誤差。第104頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-105整群抽樣例2假設(shè)某水泥廠大量連續(xù)生產(chǎn)100公斤裝水泥,一晝夜產(chǎn)量為14 400袋,平均每分鐘產(chǎn)量10袋。現(xiàn)每隔144分鐘抽取一分鐘的產(chǎn)量(10袋為一群),一晝夜共抽取100袋水泥,觀察結(jié)果如下表,試計(jì)算樣本平均數(shù)的抽樣平均誤差,并以95%的概率估計(jì)每包水泥重量的區(qū)間范圍。第105頁(yè),共139頁(yè),2022年,5月20日
54、,0點(diǎn)31分,星期四4-106五、等距抽樣含義:又稱機(jī)械抽樣或系統(tǒng)抽樣。先按某個(gè)標(biāo)志對(duì)總體單位進(jìn)行排序,然后依固定的間隔來(lái)抽取樣本單位。這樣可以保證樣本單位均勻地分布在總體的各個(gè)部分,有較高的代表性??傮w的單位數(shù)N,需要抽取的樣本單位數(shù)n,則等距抽樣的間隔大?。簁=N/n總體排序標(biāo)志是由總體的有關(guān)輔助信息確定的,與調(diào)查標(biāo)志兩者間可以有關(guān)也可以無(wú)關(guān)。1、無(wú)關(guān)標(biāo)志排隊(duì):如家計(jì)調(diào)查,按門牌號(hào)碼排序。2、有關(guān)標(biāo)志排隊(duì):如農(nóng)產(chǎn)量調(diào)查按平均畝產(chǎn)量高低排序。一般來(lái)講,有關(guān)標(biāo)志排序要比無(wú)關(guān)標(biāo)志排序的機(jī)械抽樣更為優(yōu)越。在排隊(duì)時(shí),要注意避免抽樣間隔與現(xiàn)象本身的周期性節(jié)奏相重合。以減少系統(tǒng)偏差的影響,提高樣本的代表
55、性。第106頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-107等距抽樣抽樣平均誤差的計(jì)算無(wú)關(guān)標(biāo)志排隊(duì)時(shí),為了方便起見(jiàn),可以采用簡(jiǎn)單隨機(jī)抽樣的平均誤差代替等距抽樣平均誤差 :第107頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-108六、階段抽樣含義:所謂階段抽樣,就是先從總體中抽出較大的范圍的單位,再?gòu)闹羞x的大單位中抽較小范圍的單位,依次類推,最后從更小的范圍抽出樣本基本單位。階段抽樣一般應(yīng)用于總體范圍很大的情況。如在我國(guó)的農(nóng)產(chǎn)量調(diào)查、職工家計(jì)調(diào)查中都很適用:先從全國(guó)抽出各個(gè)省,再?gòu)某橹械氖≈谐槌隹h、市,最后抽出樣本的基本單位等等。 第108頁(yè),共139頁(yè),2
56、022年,5月20日,0點(diǎn)31分,星期四4-109階段抽樣兩階段抽樣兩階段抽樣較為簡(jiǎn)單。本書主要分析兩階段抽樣平均誤差的控制問(wèn)題。兩階段抽樣在組織技術(shù)上可以看成是整群抽樣和類型抽樣的結(jié)合。設(shè)總體分成R組,每組M個(gè)單位。兩階段抽樣就是:第一階段用整群抽樣方式從總體的全部R組(群)中,隨機(jī)抽取r組(群);第二階段用類型抽樣方式從每個(gè)中選組中抽出m樣本單位。第109頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-110兩階段抽樣樣本平均數(shù)第110頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-111兩階段抽樣抽樣平均誤差兩階段抽樣的平均誤差是由兩部分構(gòu)成的,第一部分是第一
57、階段從總體全部組抽部分組所引起的組間誤差,第二部分是由第二階段在中選組中抽部分單位所引起的組內(nèi)平均誤差。 第111頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-112七、不同抽樣組織設(shè)計(jì)的比較進(jìn)行抽樣設(shè)計(jì)時(shí)需要考慮的兩個(gè)問(wèn)題:提高樣本的代表性,增加抽樣的效果。抽樣要滿足隨機(jī)性要求。抽樣設(shè)計(jì)時(shí),要充分考慮如何降低抽樣的成本費(fèi)用。第112頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-113簡(jiǎn)單隨機(jī)抽樣是基本抽樣組織方式 抽樣推斷效果如何,依賴于所抽出樣本的質(zhì)量;樣本的質(zhì)量好壞,就看樣本對(duì)總體的代表性如何,而這又依賴于抽取樣本時(shí)的 “隨機(jī)性”。 如果不滿足隨機(jī)性,則樣
58、本的代表性就值得懷疑,抽樣推斷就無(wú)從進(jìn)行。第113頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-114類型抽樣與整群抽樣比較 1、抽樣平均誤差的決定因素不同。類型抽樣的平均誤差與組間方差無(wú)關(guān),決定于組內(nèi)方差的平均水平整群抽樣的平均誤差與組內(nèi)方差無(wú)關(guān),決定于組間方差大小2、減小類型抽樣與整群抽樣平均誤差的方法不同。因?yàn)榭傮w方差等于組間方差加上組內(nèi)方差平均數(shù)。所以提高組間方差,降低組內(nèi)方差可減小類型抽樣平均誤差 對(duì)于整群抽樣則相反3、適應(yīng)范圍不同。類型抽樣充分利用總體的已有信息,其前提就是對(duì)總體的結(jié)構(gòu)事先有一定的認(rèn)識(shí),然后通過(guò)分類把總體中調(diào)查標(biāo)志差異比較接近的單位歸為一組,減少組內(nèi)
59、差異,再?gòu)母鹘M中抽出樣本,這樣的樣本就對(duì)總體有更大的代表性。整群抽樣適用于無(wú)原始資料可利用的總體單位。是一種較為方便有效的抽樣組織方式,有利于提高抽樣的效率。但要注意整群抽樣有時(shí)代表性不是很理想,抽樣誤差較大。在實(shí)際抽樣中,通常要適當(dāng)增加一些樣本單位,以利于縮小抽樣誤差,提高抽樣推斷的準(zhǔn)確度。 第114頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四4-115階段抽樣平均誤差的控制 階段抽樣誤差的控制必須落實(shí)到抽樣的各個(gè)階段。兩階段抽樣誤差控制,要落實(shí)為第一階段的整群抽樣的誤差控制與第二階段的類型抽樣的誤差控制兩方面。兩階段抽樣平均誤差,既取決于組間方差也取決于組內(nèi)平均方差,但組間方
60、差是主要的因素。所以在組織兩階段抽樣時(shí)在相同樣本容量要求下,適當(dāng)增加第一階段的組數(shù),比增加第二階段的單位數(shù),能更顯著地提高抽樣效果。 第115頁(yè),共139頁(yè),2022年,5月20日,0點(diǎn)31分,星期四第四節(jié) 調(diào)查問(wèn)卷設(shè)計(jì)一、調(diào)查問(wèn)卷的作用和結(jié)構(gòu) 調(diào)查問(wèn)卷是為了進(jìn)行調(diào)查和統(tǒng)計(jì)用的一種表格,由于表格中 的內(nèi)容是以提問(wèn)題的方式表現(xiàn)的,通常稱為調(diào)查問(wèn)卷。不論采用伺 種調(diào)查方式,調(diào)查問(wèn)卷都是不可缺少的。區(qū)別只是在于與調(diào)查人員填寫問(wèn)卷的面訪相比,由被調(diào)查者自行填寫式的問(wèn)卷應(yīng)當(dāng)更為簡(jiǎn)明,更宜于填答,有關(guān)調(diào)查的說(shuō)明和有關(guān)填表的說(shuō)明應(yīng)該更詳細(xì)些,以保證被調(diào)查者在沒(méi)有人指導(dǎo)的情況可以順利完成問(wèn)卷。 調(diào)查問(wèn)卷的主要
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)地理(平原地貌)試題及答案
- 2025年中職機(jī)電設(shè)備(機(jī)電安裝調(diào)試)試題及答案
- 2025年高職第三學(xué)年(語(yǔ)文教育)現(xiàn)代漢語(yǔ)教學(xué)階段測(cè)試題及答案
- 2025年高職電工電子技術(shù)(電路裝調(diào))試題及答案
- 2025年中職中藥資源與開(kāi)發(fā)(種植技術(shù))試題及答案
- 2025年中職計(jì)算機(jī)應(yīng)用(辦公自動(dòng)化應(yīng)用)試題及答案
- 2025年中職(大數(shù)據(jù)與會(huì)計(jì))稅務(wù)申報(bào)實(shí)訓(xùn)階段測(cè)試題及答案
- 2025年中職土木建筑(建筑構(gòu)造基礎(chǔ))試題及答案
- 2025年大學(xué)大三(護(hù)理)兒科護(hù)理技術(shù)試題及答案
- 2025年中職烹飪工藝與營(yíng)養(yǎng)(面包制作基礎(chǔ))試題及答案
- 三年級(jí)上冊(cè)生命與安全教案
- 第二章第三節(jié)中國(guó)的河流第二課時(shí)長(zhǎng)江-八年級(jí)地理上冊(cè)湘教版
- 《建筑工程定額與預(yù)算》課件(共八章)
- (完整版)設(shè)備安裝工程施工方案
- 跨區(qū)銷售管理辦法
- 超聲年終工作總結(jié)2025
- 鉆井工程施工進(jìn)度計(jì)劃安排及其保證措施
- 管培生培訓(xùn)課件
- 梗阻性黃疸手術(shù)麻醉管理要點(diǎn)
- 民用機(jī)場(chǎng)場(chǎng)道工程預(yù)算定額
- 膀胱切開(kāi)取石術(shù)護(hù)理查房
評(píng)論
0/150
提交評(píng)論