版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
9.1.1簡單隨機(jī)抽樣第九章統(tǒng)計(jì)人工智能的本質(zhì)就是統(tǒng)計(jì)學(xué)。多年來,許多諾貝爾經(jīng)濟(jì)學(xué)獎獲得者大多使用的是統(tǒng)計(jì)學(xué)。學(xué)好統(tǒng)計(jì)這門工具,才能帶來新時(shí)代的突破。任正非:中國婦女兒童狀況統(tǒng)計(jì)資料2022年各省高中近視排名2022浙江省高中生近視率86.5%
統(tǒng)計(jì)學(xué)是通過收集數(shù)據(jù)和分析數(shù)據(jù)來認(rèn)識未知現(xiàn)象的一門科學(xué),它可以為人們制定決策提供依據(jù)。統(tǒng)計(jì)中數(shù)據(jù)分析的過程如下:收集數(shù)據(jù)整理數(shù)據(jù)提取信息構(gòu)建模型進(jìn)行推斷獲得結(jié)論?準(zhǔn)確掌握全國的人口數(shù)據(jù),可以為科學(xué)制定國民經(jīng)濟(jì)和社會發(fā)展規(guī)劃及其他方針政策提供依據(jù).2020年,我國進(jìn)行了第七次人口普查,對全國人口普遍地、逐戶逐人地進(jìn)行一次性調(diào)查登記.調(diào)查內(nèi)容包括每位居民的姓名、性別、年齡、民族、受教育程度等.這里居民為調(diào)查對象,而居民的性別、年齡、民族、受教育程度等是要調(diào)查的指標(biāo).人口普查哪吒2觀眾年齡分布25歲以下
約占42%25~40歲
約占36.8%40歲以上
約占21.2%思考1:人口普查的數(shù)據(jù)與哪吒2觀眾年齡分布的數(shù)據(jù)是如何獲得的?
像人口普查這樣,對每一個(gè)調(diào)查對象都進(jìn)行調(diào)查的方法,稱為全面調(diào)查,又叫普查.
個(gè)體
組成總體的每一個(gè)調(diào)查對象
為了強(qiáng)調(diào)調(diào)查目的,也可以把調(diào)查對象的某些指標(biāo)的全體作為總體,每一個(gè)調(diào)查對象的相應(yīng)指標(biāo)作為個(gè)體.總體:個(gè)體:
全國所有居民
每一個(gè)居民
全國所有居民的性別、年齡等.
每一個(gè)居民的性別、年齡等.普查總體
調(diào)查對象的全體抽樣調(diào)查
根據(jù)一定目的,從總體中抽取一部分個(gè)體進(jìn)行調(diào)查,并以此為依據(jù)對總體的情況作出估計(jì)和推斷的調(diào)查方法,稱為抽樣調(diào)查.樣本
總體中抽取的那部分個(gè)體樣本容量
樣本中包含的個(gè)體數(shù)樣本數(shù)據(jù)
調(diào)查樣本獲得的變量值稱為樣本的觀測數(shù)據(jù)兩種基本的抽樣方法——簡單隨機(jī)抽樣分層隨機(jī)抽樣思考2:你能舉出生活中使用它們進(jìn)行調(diào)查的例子嗎?
它們分別有什么好處?方式優(yōu)點(diǎn)缺點(diǎn)適用場景普查抽樣調(diào)查全面、準(zhǔn)確性高花費(fèi)少,效率高工作量大,時(shí)間長耗人力、物力、財(cái)力獲得的信息不夠全面對象很少時(shí)對象很多,或檢驗(yàn)對對象具有破壞性問題
1
既然抽樣調(diào)查的目的是為了了解總體的情況,
那么抽取的樣本應(yīng)該具有什么特點(diǎn)?
你能否用實(shí)例說明?實(shí)例:假設(shè)你作為一名食品衛(wèi)生監(jiān)督人員,
要對某食品店內(nèi)的一批待售袋裝牛奶的細(xì)菌數(shù)是否超標(biāo)進(jìn)行檢驗(yàn),
你該如何抽樣?抽取的樣本數(shù)據(jù)能很好地反映總體情況——用樣本估計(jì)總體問題
2:如何科學(xué)地抽取樣本?怎樣使抽取的樣本充分地反映總體的情況?1936年進(jìn)行了美國總統(tǒng)的選舉,當(dāng)時(shí)電話和汽車只有少數(shù)富人擁有。在美國總統(tǒng)選舉前,一份頗有名氣的雜志的工作人員做了一次民意調(diào)查,調(diào)查蘭頓和羅斯福誰將當(dāng)選下一屆總統(tǒng),為了了解公眾意向,調(diào)查者通過電話薄和車輛登記薄上的名單給一大批人發(fā)了調(diào)查表,通過分析收回的調(diào)查表,顯示蘭頓非常受歡迎。于是此雜志社預(yù)測蘭頓將在選舉中獲勝。實(shí)際選舉結(jié)果正好相反,最后羅斯福在選舉中獲勝,其數(shù)據(jù)如下:候選人預(yù)測結(jié)果實(shí)際結(jié)果蘭頓57%38%羅斯福43%62%
問題
2:如何科學(xué)地抽取樣本?怎樣使抽取的樣本充分地反映總體的情況?客觀、公平每一個(gè)個(gè)體被抽到的概率都相等探究:假設(shè)口袋中有紅色和白色共1000個(gè)小球,除顏色外,小球的大小、質(zhì)地完全相同,你能通過抽樣調(diào)查的方法估計(jì)袋中紅球所占的比例嗎?總體:袋中所有小球個(gè)體:每一個(gè)小球變量:小球的顏色
我們可以從袋中隨機(jī)摸出一個(gè)球,記錄顏色后放回,搖勻后再摸出一個(gè)球,如此重復(fù)n次。根據(jù)初中的概率知識可知,隨著摸球次數(shù)的增加,摸到紅球的頻率會逐漸穩(wěn)定于摸到紅球的概率,即口袋中紅球所占的比例。因此,我們可以通過放回摸球,用頻率估計(jì)出紅球的比例.思考1:
如何保證每個(gè)球被抽到的機(jī)會是均等的?放回隨機(jī)抽樣:各次抽樣的結(jié)果互相不受影響,產(chǎn)生極端樣本的可能性較大,同一個(gè)小球有可能被摸中多次,極端情況是每次摸到同一個(gè)小球,而被重復(fù)摸中的小球只能提供同一個(gè)小球的顏色信息。不放回隨機(jī)抽樣:同一個(gè)體不會被重復(fù)抽到,產(chǎn)生極端樣本的可能性要小,但各次抽樣結(jié)果之間不獨(dú)立,統(tǒng)計(jì)分析困難一些。思考2:
有放回摸球和不放回摸球,哪個(gè)摸球方式更好?簡單隨機(jī)抽樣定義:
一般地,設(shè)一個(gè)總體含有N(N為正整數(shù))個(gè)個(gè)體,從中逐個(gè)抽取n(1≤n<N)個(gè)個(gè)體作為樣本,
如果抽取是放回的,且每次抽取時(shí)總體內(nèi)的各個(gè)個(gè)體被抽到的概率都相等,我們把這樣的抽樣方法叫做放回簡單隨機(jī)抽樣.
如果抽取是不放回的,且每次抽取時(shí)總體內(nèi)未進(jìn)入樣本的各個(gè)個(gè)體被抽到的概率是相等的,我們把這樣的抽樣方法叫做不放回簡單隨機(jī)抽樣.
放回簡單隨機(jī)抽樣和不放回簡單隨機(jī)抽樣統(tǒng)稱為簡單隨機(jī)抽樣.通過簡單隨機(jī)抽樣獲得的樣本稱為簡單隨機(jī)樣本.思考:簡單隨機(jī)抽樣有什么特點(diǎn)?1.總體的個(gè)體數(shù)有限;樣本數(shù)n小于等于樣本總體的個(gè)數(shù)N;2.樣本的抽取是逐個(gè)進(jìn)行的,每次只抽取一個(gè)個(gè)體;3.每個(gè)個(gè)體被抽到的機(jī)會都相等,抽樣具有公平性.
不放回簡單隨機(jī)抽樣的效率更高.
因此實(shí)踐中人們更多采用不放回簡單隨機(jī)抽樣.除非特殊說明,本章所稱的簡單隨機(jī)抽樣指不放回簡單隨機(jī)抽樣.
從總體中,逐個(gè)不放回地隨機(jī)抽取n個(gè)個(gè)體作為樣本,一次性批量隨機(jī)抽取n個(gè)個(gè)體作為樣本,兩種方法是等價(jià)的.問題
一家家具廠要為樹人中學(xué)高一年級制作課桌椅,他們事先想了解全體高一年級的平均身高,以便設(shè)定可調(diào)節(jié)課桌椅的標(biāo)準(zhǔn)高度。已知樹人中學(xué)高一年級有712名學(xué)生,如果要通過簡單隨機(jī)抽樣的方法調(diào)查高一年級學(xué)生的平均身高,應(yīng)該怎樣抽取樣本?在這個(gè)抽樣中,總體、個(gè)體、變量分別是什么?總體是樹人中學(xué)全部高一年級的學(xué)生個(gè)體是每一位學(xué)生變量是學(xué)生的身高思考:你能把生活中經(jīng)常用到的抽簽法數(shù)學(xué)化嗎?(1)給712名學(xué)生編號,例如1~712進(jìn)行編號;(2)把所有編號寫在外觀、質(zhì)地等無差別的小紙片(也可以是卡片、小球等)上作為號簽,并將這些小紙片放在一個(gè)不透明的盒里,充分?jǐn)嚢瑁?3)
從盒中不放回地逐個(gè)抽取號簽,使與號簽上的編號對應(yīng)的學(xué)生進(jìn)入樣本,直到抽足樣本所需要的人數(shù).抽簽法追問1為什么要給學(xué)生編號?編號用學(xué)號可以嗎?注意
(1)編號是為了將每名學(xué)生能明確區(qū)分開.給學(xué)生編號時(shí),可用用學(xué)號作為編號,因?yàn)閷W(xué)號與學(xué)生之間也是一一對應(yīng)的.(2)編號產(chǎn)生的隨機(jī)性實(shí)現(xiàn)個(gè)體抽取的隨機(jī)性.
追問2
抽簽法的步驟是什么?1.編號:將總體中的所有個(gè)體編號;2.制簽:并把號碼寫在形狀、大小相同的號簽上;
將號簽放在一個(gè)不透明容器中,并攪拌均勻.3.取樣:每次從中不放回抽取一個(gè)號簽,直到抽取到足夠的樣本量.優(yōu)點(diǎn):簡單易行,當(dāng)總體個(gè)數(shù)不多時(shí),號簽攪拌均勻很容易,個(gè)體有均等的機(jī)會被抽中,從而能保證樣本的代表性.缺點(diǎn):當(dāng)總體個(gè)數(shù)較多時(shí),號簽很難攪拌均勻,產(chǎn)生的樣本代表性差的可能性很大.追問3抽簽法的優(yōu)缺點(diǎn)是什么?抽簽法一般適用于總體中個(gè)體數(shù)不多的情形追問4抽簽法的實(shí)質(zhì)是什么?你能想辦法彌補(bǔ)抽簽法的不足嗎?抽簽法的實(shí)質(zhì)是在一定范圍內(nèi)隨機(jī)地、等可能地產(chǎn)生的一組有實(shí)際背景的數(shù).
抽簽法有簡單化、程序化、機(jī)械化等特點(diǎn).
根據(jù)抽簽法的實(shí)質(zhì),
如果能從事先準(zhǔn)備好的、隨機(jī)產(chǎn)生的一列數(shù)即隨機(jī)數(shù)表中抽取不大于總體容量的數(shù),
那么就能用隨機(jī)產(chǎn)生的數(shù)來代替抽簽的過程與方法,
并且這個(gè)隨機(jī)數(shù)表可以用于其他場合的抽簽.
隨機(jī)數(shù)法步驟
1.編號:將總體中的所有個(gè)體編號;2.選號:用隨機(jī)數(shù)工具產(chǎn)生編號范圍內(nèi)的整數(shù)隨機(jī)數(shù);3.取樣:把產(chǎn)生的隨機(jī)數(shù)作為抽中的編號(位數(shù)一致),使與編號對應(yīng)的個(gè)體進(jìn)入樣本.注:如果生成的隨機(jī)數(shù)有重復(fù),即同一編號被多次抽到,只保留第一次,其余全部剔除,再重新產(chǎn)生隨機(jī)數(shù),直到抽足樣本所需要的人數(shù)隨機(jī)數(shù)法一般適用于總體中個(gè)體數(shù)較多的情形
解:162,277,545,354,520,384,
263,
491,648,642.①把握隨機(jī)數(shù)表產(chǎn)生的特點(diǎn):
只要是隨機(jī)的、等可能的,
怎樣產(chǎn)生都行.
問題
:如何生產(chǎn)隨機(jī)數(shù)?②隨機(jī)數(shù)表的種產(chǎn)生方法:
用隨機(jī)試驗(yàn)產(chǎn)生隨機(jī)數(shù),用信息技術(shù)生產(chǎn)隨機(jī)數(shù)用隨機(jī)試驗(yàn)生成隨機(jī)數(shù)
準(zhǔn)備10個(gè)大小質(zhì)地一樣的小球,小球上分別寫上數(shù)字0,1,…9,放在不透明盒子中,當(dāng)編號是三位的時(shí)候,有放回抽取3次,抽前充分?jǐn)嚢瑁谝?、二、三次號作摸到?shù)字分別作為百、十、個(gè)位數(shù)。這樣產(chǎn)生的隨機(jī)數(shù)可能會有重復(fù).
如果生成的隨機(jī)數(shù)有重復(fù),即同一編號被多次抽到,可以剔除重復(fù)的編號并重新產(chǎn)生隨機(jī)數(shù),直到產(chǎn)生的不同編號個(gè)數(shù)等于樣本所需要的人數(shù).追問:如果生成的隨機(jī)數(shù)有重復(fù),該如何解決?練習(xí)
如圖,由均勻材質(zhì)制成的一個(gè)正20面體(每個(gè)面都是正三角形),將20個(gè)面平分成10組,第1組標(biāo)上0,第2組標(biāo)上1,???,第10組標(biāo)上9.
(1)投擲正20面體,若把朝上一面的數(shù)字作為投擲結(jié)果,則出現(xiàn)0,1,2,???,9是等可能的嗎?
(2)三個(gè)正20面體分別涂上紅、黃、藍(lán)三種顏色,分別代表百位、十位、個(gè)位,同時(shí)投擲可以產(chǎn)生一個(gè)三位數(shù)(百位為0的也看作三位數(shù)),它是000~999范圍內(nèi)的隨機(jī)數(shù)嗎?
進(jìn)入計(jì)算器的計(jì)算模式(不同的計(jì)算器型號可能會有不同),調(diào)出生成隨機(jī)數(shù)的函數(shù)并設(shè)置參數(shù),例如RandInt,按“=”鍵即可生成1—712范圍內(nèi)的整數(shù)隨機(jī)數(shù).重復(fù)按“=”鍵,可以生成多個(gè)隨機(jī)數(shù).這樣產(chǎn)生的隨機(jī)數(shù)可能會有重復(fù).random隨機(jī)的integer整數(shù)
用信息技術(shù)生成隨機(jī)數(shù)①用計(jì)算器生成隨機(jī)數(shù)解:記[0,1)內(nèi)的隨機(jī)數(shù)為r.設(shè)b為712r+1的整數(shù)部分,則b就是1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù).設(shè)a為100r+1的整數(shù)部分,則a就是1~100范圍內(nèi)的整數(shù)隨機(jī)數(shù).練習(xí).如果計(jì)算器只能生成[0,1)內(nèi)的隨機(jī)數(shù),你有辦法把它轉(zhuǎn)化為1~100范圍內(nèi)的整數(shù)隨機(jī)數(shù)嗎?轉(zhuǎn)化為1~712范圍內(nèi)的整數(shù)隨機(jī)數(shù)呢?②用電子表格軟件生成隨機(jī)數(shù)
在電子表格軟件的任意單元格中輸入“=RANDBETWEEN(1,712)”,即可生成一個(gè)1—712范圍內(nèi)的整數(shù)隨機(jī)數(shù).再利用電子表格軟件的自動填充功能,可以快速生成大量的隨機(jī)數(shù).③用R統(tǒng)計(jì)軟件生成隨機(jī)數(shù)
在R軟件的控制臺中,輸入“sample(1:712,50,replace=F)”,按回車鍵,就可以得到50個(gè)1~712范圍內(nèi)的不重復(fù)的整數(shù)隨機(jī)數(shù)(如右圖).一般的抽簽軟件,專業(yè)的統(tǒng)計(jì)軟件,如:SAS,SPSS,S-Plus,State等;綜合性較強(qiáng)的數(shù)學(xué)軟件,如:Python,MATLAB,Mathematica,GeoGebra等.思考:比較隨機(jī)數(shù)法與抽簽法,它們各有什么優(yōu)點(diǎn)和缺點(diǎn)?抽樣方法優(yōu)點(diǎn)缺點(diǎn)抽簽法簡單易行總體量較大時(shí),制作號簽成本高,“均勻攪拌”困難.隨機(jī)數(shù)法方便、快捷、效率高,可節(jié)省成本.隨機(jī)試驗(yàn)和部分軟件可能會產(chǎn)生重復(fù)隨機(jī)數(shù),需要剔除重復(fù)編號并重新產(chǎn)生.問題:用簡單隨機(jī)抽樣的方法抽取樣本,樣本量是否越大越好?用簡單隨機(jī)抽樣的方法抽取樣木,樣本量越大,結(jié)果越準(zhǔn)確。一般來說,樣本量大的要比樣本量小的好,增加樣本量可以較好地提高估計(jì)的效果.但在實(shí)際情況中,樣本量會導(dǎo)致人力、費(fèi)用、時(shí)間等成本的增加.抽樣調(diào)查中樣本量的選擇要根據(jù)實(shí)際問題的需要,在精度和費(fèi)用兩者間進(jìn)行權(quán)衡,并不一定是越大越好.問題延伸
:
在樹人中學(xué)高一年級的712名學(xué)生中,男生有326名,女生有386名,調(diào)查高一年級學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼材公司的獎罰制度
- 高中生化競賽題目及答案
- 服務(wù)器性能調(diào)優(yōu)與監(jiān)控策略
- 工業(yè)物聯(lián)網(wǎng)安全防護(hù)技術(shù)要點(diǎn)
- 超聲科培訓(xùn)制度
- 2026年及未來5年市場數(shù)據(jù)中國鐵路行業(yè)市場全景評估及投資前景展望報(bào)告
- 財(cái)務(wù)會計(jì)核算制度
- 診所會計(jì)核算制度
- 2025年寧夏建行行政崗筆試及答案
- 2025年小學(xué)教育筆試直播課真題及答案
- 網(wǎng)絡(luò)安全運(yùn)維與管理規(guī)范(標(biāo)準(zhǔn)版)
- 名創(chuàng)優(yōu)品招聘在線測評題庫
- 液冷系統(tǒng)防漏液和漏液檢測設(shè)計(jì)研究報(bào)告
- (2025版)中國焦慮障礙防治指南
- 春節(jié)交通出行安全培訓(xùn)課件
- 妊娠期缺鐵性貧血中西醫(yī)結(jié)合診療指南-公示稿
- 金蝶合作協(xié)議書
- 企業(yè)潤滑培訓(xùn)
- 2025年工廠三級安全教育考試卷含答案
- 2026年上海理工大學(xué)單招職業(yè)適應(yīng)性測試題庫附答案
- 建設(shè)用地報(bào)批培訓(xùn)課件
評論
0/150
提交評論