隨機抽樣課件-高一下學(xué)期數(shù)學(xué)人教A版_第1頁
隨機抽樣課件-高一下學(xué)期數(shù)學(xué)人教A版_第2頁
隨機抽樣課件-高一下學(xué)期數(shù)學(xué)人教A版_第3頁
隨機抽樣課件-高一下學(xué)期數(shù)學(xué)人教A版_第4頁
隨機抽樣課件-高一下學(xué)期數(shù)學(xué)人教A版_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九章

統(tǒng)計§9.1隨機抽樣§9.2用樣本估計總體§9.3統(tǒng)計案例:公司員工的肥胖情況調(diào)查分析

統(tǒng)計的研究對象是數(shù)據(jù),核心是通過數(shù)據(jù)分析研究和解決問題。因此,首先要設(shè)法獲取與問題有關(guān)的數(shù)據(jù),從而為解決問題奠定基礎(chǔ)。

例如,準確掌握全國的人口數(shù)據(jù),可以為科學(xué)制定國民經(jīng)濟和社會發(fā)展規(guī)劃及其他方針政策提供依據(jù),2020年我國進行了第七次人口普查,對全國人口普遍地、逐戶逐人地進行一次性調(diào)查登記:調(diào)查內(nèi)容包括每位居民的姓名、性別、年齡、民族、受教育程度等。這里,居民為調(diào)查對象而居民的性別、年齡、民族、受教育程度等是要調(diào)查的指標.由于不同調(diào)查對象的指標值往往不同,它是一個變化的量,所以常把指標稱為變量。

像人口普查這樣,對每一個調(diào)查對象都進行調(diào)查的方法,稱為全面調(diào)查,又稱普查。

在一個調(diào)查中,我們把調(diào)查對象的全體稱為總體。組成總體的每一個調(diào)查對象稱為個體。

為了強調(diào)調(diào)查目的,也可以把調(diào)查對象的某些指標的全體作為總體,每一個調(diào)查對象的相應(yīng)指標作為個體。

由于人口普查需要花費巨大的財力、物力,因而不宜經(jīng)常進行。為了及時掌握全國人口變動狀況,我國每年還會進行一次人口變動情況的調(diào)查。這種調(diào)查是抽取一部分居民進行調(diào)查,根據(jù)抽取的居民情況來推斷總體的人口變動情況。

像這樣,根據(jù)一定目的,從總體中抽取一部分個體進行調(diào)查,并以此為依據(jù)對總體的情況作出估計和推斷的調(diào)查方法,稱為抽樣調(diào)查。

我們把從總體中抽取的那部分個體稱為樣本,樣本中包含的個體數(shù)稱為樣本容量,簡稱樣本量。

調(diào)查樣本獲得的變量值稱為樣本的觀測數(shù)據(jù),簡稱樣本數(shù)據(jù)。

相對全面調(diào)查而言,抽樣調(diào)查由于只抽取一部分個體進行調(diào)查,因此具有花費少、效率高的特點。在總體規(guī)模比較大的調(diào)查中,如果經(jīng)費、時間上受限,那么抽樣調(diào)查是比較合適的調(diào)查方法。在有些調(diào)查中,抽樣調(diào)查則具有不可替代的作用。例如,檢測一批燈泡的壽命,或一批種子的發(fā)芽率,或一批待售袋裝牛奶的細菌數(shù)是否超標,這些檢測具有毀損性,此時只能用抽樣調(diào)查。

隨著社會的發(fā)展,抽樣調(diào)查的應(yīng)用范圍越來越廣泛。下面我們研究兩種基本的抽樣方法——簡單隨機抽樣和分層隨機抽樣。

一般地,設(shè)一個總體含有N(N為正整數(shù))個個體,從中逐個抽取

n(1≤n<N)個個體作為樣本,如果抽取是放回的,且每次抽取時總體內(nèi)的各個個體被抽到的概率都相等,我們把這樣的抽樣方法叫做放回簡單隨機抽樣;如果抽取是不放回的,且每次抽取時總體內(nèi)未進入樣本的各個個體被抽到的概率都相等,我們把這樣的抽樣方法叫做不放回簡單隨機抽樣。9.1.1簡單隨機抽樣

抽樣調(diào)查的目的是了解總體的情況。例如,抽樣調(diào)查一批待售袋裝牛奶的細菌數(shù)是否超標,其目的是要了解整批牛奶的細菌含量超標情況,而不只是局限在抽查到的那幾袋牛奶的情況。因此,通過抽樣調(diào)查了解總體的情況,自然希望抽取的樣本數(shù)據(jù)能很好地反映總體的情況,即樣本含有和總體基本相同的信息。

放回簡單隨機抽樣和不放回簡單隨機抽樣統(tǒng)稱為簡單隨機抽樣。通過簡單隨機抽樣獲得的樣本稱為簡單隨機樣本。【引例:簡單隨機抽樣的方法】一家家具廠要為樹人中學(xué)高一年級制作課桌椅,他們事先想了解全體高一年級學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)課桌椅的標準高度。已知樹人中學(xué)高一年級有712名學(xué)生,如果要通過簡單隨機抽樣的方法調(diào)查高一年級學(xué)生的平均身高,應(yīng)該怎樣抽取樣本?(1)抽簽法

先給712名學(xué)生編號,例如按1~712進行編號。然后把所有編號寫在外觀、質(zhì)地等無差別的小紙片(也可以是卡片、小球等)上作為號簽,并將這些小紙片放在一個不透明的盒里,充分攪拌。最后從盒中不放回地逐個抽取號簽,使與號簽上的編號對應(yīng)的學(xué)生進入樣本,直到抽足樣本所需要的人數(shù)。

抽簽法簡單易行,但當總體較大時,操作起來比較麻煩.因此,抽簽法一般適用于總體中個體數(shù)不多的情形?!疽汉唵坞S機抽樣的方法】一家家具廠要為樹人中學(xué)高一年級制作課桌椅,他們事先想了解全體高一年級學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)課桌椅的標準高度。已知樹人中學(xué)高一年級有712名學(xué)生,如果要通過簡單隨機抽樣的方法調(diào)查高一年級學(xué)生的平均身高,應(yīng)該怎樣抽取樣本?(2)隨機數(shù)法

先給712名學(xué)生編號,例如按1~712進行編號。用隨機數(shù)工具產(chǎn)生1~712范圍內(nèi)的整數(shù)隨機數(shù),把產(chǎn)生的隨機數(shù)作為抽中的編號,使與編號對應(yīng)的學(xué)生進入樣本,重復(fù)上述過程,直到抽足樣本所需要的人數(shù)。

如果生成的隨機數(shù)有重復(fù),即同一編號被多次抽到,可以剔除重復(fù)的編號并重新產(chǎn)生隨機數(shù),直到產(chǎn)生的不同編號個數(shù)等于樣本所需要的人數(shù)。

隨著信息技術(shù)的發(fā)展,人們越來越多地利用計算器、數(shù)學(xué)軟件、統(tǒng)計軟件等工具來生成隨機數(shù)。尤其是一些統(tǒng)計軟件,可以非常方便地按要求生成各種隨機數(shù)。用信息技術(shù)工具產(chǎn)生隨機數(shù)最大的優(yōu)點是方便、快捷。

我們知道,在重復(fù)試驗中,試驗次數(shù)越多,頻率接近概率的可能性越大:與此類似,用簡單隨機抽樣的方法抽取學(xué)生,樣本量越大,樣本中不同身高的比例接近總體中相應(yīng)身高的比例的可能性也越大,樣本的平均身高接近總體的平均身高的可能性也越大:即對于樣本的代表性,一般說來,樣本量大的會好于樣本量小的。尤其是樣本量不大時,增加樣本量可以較好地提高估計的效果。

但是,在實際抽樣中,樣本量的增大會導(dǎo)致調(diào)查的人力、費用、時間等成本的增加因此,抽樣調(diào)查中樣本量的選擇要根據(jù)實際問題的需要,并不一定是越大越好。在簡單隨機抽樣調(diào)查中,當樣本量和總體一樣大時,就是全面調(diào)查了。簡單隨機抽樣樣本平均值的計算

一般地,總體中有N個個體,它們的變量值分別為Y1,Y2,…,YN,則稱為總體均值,又稱總體平均數(shù)。

如果總體的N個變量值中,不同的值共有k(k≤N)個,不妨記為Y1,Y2,…,Yk,其中Yi出現(xiàn)的頻數(shù)為fi(i=1,2.…,k),則總體均值還可以寫成加權(quán)平均數(shù)的形式

如果從總體中抽取一個容量為n的樣本,它們的變量值分別為y1,y2,…,yn,則稱為樣本均值,又稱樣本平均數(shù)。在簡單隨機抽樣中,我們常用樣本平均數(shù)去估計總體平均數(shù)。

簡單隨機抽樣方法簡單、直觀,用樣本平均數(shù)估計總體平均數(shù)也比較方便,簡單隨機抽樣是一種基本抽樣方法,是其他抽樣方法的基礎(chǔ)。但在實際應(yīng)用中,簡單隨機抽樣有一定的局限性。

例如,當總體很大時,簡單隨機抽樣給所有個體編號等準備工作非常費事,甚至難以做到;抽中的個體往往很分散,要找到樣本中的個體并實施調(diào)查會遇到很多困難;簡單隨機抽樣沒有利用其他輔助信息,估計效率不是很高;等等。

因此,在規(guī)模較大的調(diào)查中,直接采用簡單隨機抽樣的并不多,一般是把簡單隨機抽樣和其他抽樣方法組合使用。9.1.2分層隨機抽樣

抽樣調(diào)查最核心的問題是樣本的代表性。簡單隨機抽樣是使總體中每一個個體都有相等的機會被抽中,但因為抽樣的隨機性,有可能會出現(xiàn)比較“極端”的樣本,例如,在對樹人中學(xué)高一年級學(xué)生身高的調(diào)查中,可能出現(xiàn)樣本中50個個體大部分來自高個子或矮個子的情形。這種“極端”樣本的平均數(shù)會大幅度地偏離總體平均數(shù),從而使估計出現(xiàn)較大誤差。能否利用總體中的一些額外信息對抽樣方法進行改進呢?【引例】在樹人中學(xué)高一年級的712名學(xué)生中,男生有326名,女生有386名。能否利用這個輔助信息改進簡單隨機抽樣方法,減少“極端”樣本的出現(xiàn),從而提高對整個年級平均身高的估計效果呢?【分析】我們知道,影響身高的因素有很多,性別是其中的一個主要因素。高中男生的身高普遍高于女生的身高,而相同性別的身高差異相對較小,我們可以利用性別和身高的這種關(guān)系,把高一年級學(xué)生分成男生和女生兩個身高有明顯差異的群體,對兩個群體分別進行簡單隨機抽樣,然后匯總作為總體的一個樣本,由于在男生和女生兩個群體中都抽取了相應(yīng)的個體,這樣就能有效地避免“極端”樣本。

自然地,為了使樣本的結(jié)構(gòu)與總體的分布相近,人數(shù)多的群體應(yīng)多抽一些,人數(shù)少的群體應(yīng)少抽一些:因此,按男生、女生在全體學(xué)生中所占的比例進行分配是一種比較合理的方式,即

這樣無論是男生還是女生,每個學(xué)生被抽到的概率都相等。當總樣本量為50時,可以計算出從男生、女生中分別應(yīng)抽取的人數(shù)為

我們按上述方法抽取了一個容量為50的樣本,其觀測數(shù)據(jù)(單位:cm)如下:

通過計算,得出男生和女生身高的樣本平均數(shù)分別為170.6,160.6。根據(jù)男生、女生身高的樣本平均數(shù)以及他們各自的人數(shù),可以估計總體平均數(shù)為

上面我們按性別變量,把高一學(xué)生劃分為男生、女生兩個身高差異較小的子總體分別進行抽樣,進而得到總體的估計。

一般地,按一個或多個變量把總體劃分成若干個子總體,每個個體屬于且僅屬于一個子總體,在每個子總體中獨立地進行簡單隨機抽樣,再把所有子總體中抽取的樣本合在一起作為總樣本,這樣的抽樣方法稱為分層隨機抽樣,每一個子總體稱為層。

在分層隨機抽樣中,如果每層樣本量都與層的大小成比例,那么稱這種樣本量的分配方式為比例分配。分層隨機抽樣樣本平均值的計算

在分層隨機抽樣中,如果層數(shù)分為2層,第1層和第2層包含的個體數(shù)分別為M和N抽取的樣本量分別為m和n。我們用X1,X2,…,XM,表示第1層各個個體的變量值,用x1,x2,…,xm,表示第1層樣本的各個個體的變量值;用Y1,Y2,…,YN,表示第2層各個個體的變量值,用y1,y2,…,yn,表示第2層樣本的各個個體的變量值,則第1層的總體平均數(shù)和樣本平均數(shù)分別為第2層的總體平均數(shù)和樣本平均數(shù)分別為總體平均數(shù)和樣本平均數(shù)分別為由于用第1層的樣本平均數(shù)可以估計第1層的總體平均數(shù),用第2層的樣本平均數(shù)可以估計第2層的總體平均數(shù),因此我們可以用估計總體平均數(shù)??傻靡虼?,在比例分配的分層隨機抽樣中,我們可以直接用樣本平均數(shù)w估計總體平均數(shù)X。

我們把分層隨機抽樣的平均數(shù)與上一小節(jié)樣本量為50的簡單隨機抽樣的平均數(shù)用圖形表示,其中紅線表示整個年級學(xué)生身高的平均數(shù)。

從試驗結(jié)果看,分層隨機抽樣的樣本平均數(shù)圍繞總體平均數(shù)波動,與簡單隨機抽樣的結(jié)果比較,分層隨機抽樣并沒有明顯優(yōu)于簡單隨機抽樣。但相對而言,分層隨機抽樣的樣本平均數(shù)波動幅度更均勻,簡單隨機抽樣中出現(xiàn)了一個(第2個)偏離總體平均數(shù)的幅度比較大的樣本平均數(shù),即出現(xiàn)了比較“極端”的樣本,而分層隨機抽樣沒有出現(xiàn)。

實際上,在個體之間差異較大的情形下,只要選取的分層變量合適,使得各層間差異明顯、層內(nèi)差異不大,分層隨機抽樣的效果一般會好于簡單隨機抽樣,也好于很多其他抽樣方法。分層隨機抽樣的組織實施也比簡單隨機抽樣方便,而且除了能得到總體的估計外,還能得到每層的估計。9.1.3獲取數(shù)據(jù)的途徑

統(tǒng)計學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認識未知現(xiàn)象的,因此,如何收集數(shù)據(jù)是統(tǒng)計學(xué)研究的重要內(nèi)容。

在實踐中,獲取數(shù)據(jù)的途徑多種多樣,常見的有統(tǒng)計報表和年鑒、社會調(diào)查、普查和抽樣、互聯(lián)網(wǎng)、試驗設(shè)計等。下面介紹獲取數(shù)據(jù)的一些基本途徑。1.通過調(diào)查獲取數(shù)據(jù)

對于有限總體問題,如人口總數(shù)、城鄉(xiāng)就業(yè)狀況、農(nóng)村貧困人口脫貧狀況、生態(tài)環(huán)境改善狀況、青少年受教育狀況、高中生近視的比例、產(chǎn)品合格率、高中生日平均上網(wǎng)時間等問題,我們一般通過抽樣調(diào)查或普查的方法獲取數(shù)據(jù)。

針對不同問題的特點,為了有效收集所需數(shù)據(jù),專家發(fā)明了各種不同的抽樣方法。除了我們已經(jīng)學(xué)過的簡單隨機抽樣和分層隨機抽樣,還有系統(tǒng)抽樣、整群抽樣、不等概率抽樣、自適應(yīng)抽樣、兩階段抽樣等很多其他的方法,在實際應(yīng)用中,關(guān)鍵在于是否能充分有效地利用背景信息選擇或創(chuàng)建更好的抽樣方法,并有效避免抽樣過程中的人為錯誤。在前面的學(xué)習(xí)中,我們對此有了一定的認識。2.通過試驗獲取數(shù)據(jù)

試驗是獲取樣本觀測數(shù)據(jù)的另一種重要途徑。例如,要判斷研制的新藥是否有效、培育的小麥新品種是否具有更高的產(chǎn)量等情況,沒有現(xiàn)存的數(shù)據(jù)可以查詢,就需要通過對比試驗的方法去獲取樣本觀測數(shù)據(jù),又如特種鋼、輪胎的配方和產(chǎn)品質(zhì)量等,也需要通過試驗獲取樣本觀測數(shù)據(jù)。

通過試驗獲取數(shù)據(jù)時,我們需要嚴格控制試驗環(huán)境,通過精心的設(shè)計安排試驗,以提高數(shù)據(jù)質(zhì)量,為獲得好的分析結(jié)果奠定基礎(chǔ),在統(tǒng)計學(xué)中,這種安排試驗的學(xué)問叫做“試驗設(shè)計”,感興趣的同學(xué)可以查閱試驗設(shè)計教科書。3.通過觀察獲取數(shù)據(jù)

在現(xiàn)實生活中,我們感興趣的很多自然現(xiàn)象都不能被人類所控制,如地震、降水、大氣污染、宇宙射線等。自然現(xiàn)象會隨著時間的變化而變化,不能用我們已經(jīng)學(xué)過的有限總體來刻畫,也就不能用抽樣的方法獲取觀測數(shù)據(jù);另一方面,由于自然現(xiàn)象不能被人為控制,也不能通過試驗獲取觀測數(shù)據(jù)。研究這類現(xiàn)象,只能通過長久的持續(xù)觀察獲取數(shù)據(jù)。

對于各個不同的行業(yè),往往需要專業(yè)測量設(shè)備獲取觀測數(shù)據(jù)。隨著科技水平的提高專業(yè)測量設(shè)備的自動化程度越來越高,通過觀測獲取和存儲數(shù)據(jù)的成本越來越低,這成為大數(shù)據(jù)產(chǎn)生的根源。一般地,通過觀察自然現(xiàn)象所獲取的數(shù)據(jù)性質(zhì)比較復(fù)雜,其中蘊含著所觀察現(xiàn)象的本質(zhì)信息,這些信息十分寶貴,統(tǒng)計學(xué)理論和方法是挖掘這些信息的強有力的工具之一。4.通過查詢獲得數(shù)據(jù)

我們感興趣的問題,可能有眾多專家研究過,他們在研究中所收集的樣本觀測數(shù)據(jù)可能存儲于學(xué)術(shù)論文、專著、新聞稿、公報或互聯(lián)網(wǎng)上,這些數(shù)據(jù)是寶貴的財富,我們可以收集前人的勞動成果并加以利用,從而減少收集數(shù)據(jù)的成本。我們往往把這樣獲得的數(shù)據(jù)叫做二手數(shù)據(jù)。國家統(tǒng)計局是我國最主要的統(tǒng)計數(shù)據(jù)收集和發(fā)布的部門,調(diào)查統(tǒng)計的數(shù)據(jù)涉及經(jīng)濟、社會、民生的方方面面。國家統(tǒng)計局的統(tǒng)計數(shù)據(jù)通過多種形式進行公布,例如定期發(fā)布新聞稿、舉辦新聞發(fā)布會、發(fā)布統(tǒng)計公報、出版各類統(tǒng)計資料等。統(tǒng)計公報有年度統(tǒng)計公報、經(jīng)濟普查公報、人口普查公報、農(nóng)業(yè)普查公報等;統(tǒng)計資料出版物有《中國統(tǒng)計摘要》、以《中國統(tǒng)計年鑒》為代表的統(tǒng)計年鑒系列等。

例如,我們想了解2014年全國的交通事故情況,通過查找《中國統(tǒng)計年鑒》可以得到如課本P188頁表9.1-3所示的數(shù)據(jù)。如果我們關(guān)心機動車交通事故逐年變化的情況,那么需要通過查找每年的數(shù)據(jù)表,并把它們合并整理。

隨著信息技術(shù)的發(fā)展,通過互聯(lián)網(wǎng)獲取數(shù)據(jù)越來越成為獲取二手數(shù)據(jù)的主要方式。例如,可以從國家統(tǒng)計局的官方網(wǎng)站查詢得到國家統(tǒng)計局公布的各種統(tǒng)計數(shù)據(jù)。在網(wǎng)絡(luò)上,也有專門提供數(shù)據(jù)服務(wù)的公司,它們提供政府部門允許公開的各類數(shù)據(jù)。

當然,互聯(lián)網(wǎng)的最大優(yōu)勢是,人們可以利用它強大的搜索功能,在整個網(wǎng)絡(luò)上查找所需要的數(shù)據(jù)。但從網(wǎng)絡(luò)上查找的數(shù)據(jù),因為數(shù)據(jù)來歷和渠道多樣,所以質(zhì)量會參差不齊必須根據(jù)問題背景知識“清洗”數(shù)據(jù),去偽存真,為進一步的數(shù)據(jù)分析奠定基礎(chǔ)。例1(多選)下列抽樣方法不是簡單隨機抽樣的是(

)A.在機器傳送帶上抽取30件產(chǎn)品作為樣本B.從平面直角坐標系中抽取5個點作為樣本C.箱子里共有100個零件,今從中選取10個零件進行檢驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論