版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、抽樣技術(shù) 其他專題第1頁,共46頁,2022年,5月20日,14點31分,星期三2 以前各章基本假設總體單元數(shù)N是已知的,然后對總體的有關特征如均值、總值、比例等進行估計。但有些場合,總體單元數(shù)是未知的,是要估計的目標,如:一個池塘中魚的數(shù)量,一片森林中鳥的數(shù)量等。彼得森(Peterson,1896)提出捕獲再捕獲抽樣,并將此方法用于野生動物的數(shù)量研究中。第一節(jié) 捕獲再捕獲抽樣第2頁,共46頁,2022年,5月20日,14點31分,星期三以捕魚為例說明:假如要估計湖中的魚的數(shù)量N;從湖中捕獲200條魚做記號放回湖中,讓它們與湖中未做記號的魚充分混合。然后從湖中再捕獲100條魚,假設這次捕獲的魚
2、中有20條是已經(jīng)做了記號的,若假定魚的總體沒有變化,兩次捕魚都是簡單隨機抽樣,就可以估計湖中的魚20%做了標記,由此可以推斷N的估計值是1000。3第3頁,共46頁,2022年,5月20日,14點31分,星期三這種方法依賴于以下假定:(1)總體是封閉的兩次抽樣間沒有魚進入或離開該湖。即對每次抽樣而言,N相同。(2)每個樣本都是來自總體的簡單隨機抽樣。即湖中每條魚都有同樣機會被捕獲。(3)兩個樣本是獨立的。即第一次捕獲并放回湖中再次與總體混合,標記與否和第二次被捕獲的概率沒有關系。(4)魚不會丟失其標記,從而有記號的魚可以被識別。4第4頁,共46頁,2022年,5月20日,14點31分,星期三5
3、若 為第二次抽樣的樣本量,m為第二次捕獲有記號的單元的數(shù)量,有則一、直接抽樣法先從單元數(shù)為N(未知)的總體中抽取一個隨機樣本,設樣本量為 ,把這些單元做上記號,然后放回總體,使其與原總體的單元充分混合;這時,做記號的數(shù)量占總體數(shù)量的比例為 ,N未知,P待估計;再抽取一個樣本,觀察其中做記號的單元所占的比例,對總體的單元數(shù)進行估計。第5頁,共46頁,2022年,5月20日,14點31分,星期三6可以看成比率估計的特殊形式令1,0,如果第i個做過標記如果第i個未做標記第6頁,共46頁,2022年,5月20日,14點31分,星期三7由比率估計方差可以得到:有偏當?shù)谝淮螛颖玖亢偷诙螛颖玖孔銐虼髸r,偏
4、差會逐步變小。通常對N是略有高估的。 在大樣本情況下,估計量 近似正態(tài)分布,可以給出一定置信度下的置信區(qū)間。第7頁,共46頁,2022年,5月20日,14點31分,星期三8前例中,第8頁,共46頁,2022年,5月20日,14點31分,星期三二、逆抽樣法當做記號的單元在總體中的比例很小時,即 很小,9則在第二次抽樣時是一個小比例事件,如果 不夠大,很可能出現(xiàn)沒有記號的單元,即 ,無法對N進行估計。一種方法:加大第一次抽樣的數(shù)目;另一種:逆抽樣;這種方法在第二次抽樣時,并不對 的數(shù)量作出規(guī)定,而是一直抽到曾做過記號的單元數(shù)達到 個為止。與直接抽樣法不同,此時 是預先規(guī)定的,而 是一個隨機變量。第
5、9頁,共46頁,2022年,5月20日,14點31分,星期三例:欲估計某個森林中啄木鳥的數(shù)量。首先隨即捕捉了150只啄木鳥,并在鳥的翅膀下染上顏色作為記號,然后予以放飛,適當?shù)囊欢螘r間后,在第二次捕捉中目標是捕到有記號的啄木鳥35只,結(jié)果一共捕捉了100只。要求估計啄木鳥的數(shù)量,并給出估計標準誤。10第10頁,共46頁,2022年,5月20日,14點31分,星期三某出版社要調(diào)查某一暢銷書的盜版數(shù)量,由于正版發(fā)行多少冊是已知的,相當于已做記號的的 冊,然后可以隨機的抽取 個購買該書的讀者,若其中有 冊正版書,則可以推算出正版書和盜版書的總量,從而算出盜版書的數(shù)量。推算總的網(wǎng)站數(shù)量。在CN下注冊的
6、網(wǎng)站的數(shù)量是已知的,但在CN外的就無法掌握 11捕獲再捕獲的抽樣方法 起源于野生動物的估計,可以進一步擴展用于社會經(jīng)濟的統(tǒng)計。廣場集會人數(shù)的調(diào)查。如某報社要報導某次自發(fā)性的集會人數(shù),可以在廣場入口處散發(fā)一些小紅帽,然后由記者隨機抽取一個參與集會的樣本,該樣本中有多少有小紅帽,就可以推斷出總?cè)藬?shù)。第11頁,共46頁,2022年,5月20日,14點31分,星期三采用條樣(Quadrat samples)估計總體密度和數(shù)量直接抽樣和逆抽樣都是建立在總體單位流動性比較大的基礎上;對于有些總體的流動性并不是很大,例如松林中發(fā)生的松毛蟲災害,大氣中的可吸入顆粒物,就不適宜采用捕捉再捕捉抽樣;通常采用抽取若
7、干樣本來估計總體密度,然后根據(jù)總體的面積或體積來估計總體數(shù)量。12第12頁,共46頁,2022年,5月20日,14點31分,星期三設一個地區(qū)的面積為A,從中隨機抽取n個樣本,這種樣本通常稱為條樣。若每個條樣的面積為a,則總體劃分為N個a,總面積A=Na。13這些元素在總體中的密度為第13頁,共46頁,2022年,5月20日,14點31分,星期三在對密度的估計中,通常假設總體的元素在總體中的分布是隨機的,而不是聚集在一起的,即分布沒有一定的規(guī)則順序,因此在條樣中 的分布近似于泊松分布;14先計算樣本每個條樣中的平均元素數(shù):再估計條樣的密度:總體的元素總量M的估計值為:其方差估計為:第14頁,共4
8、6頁,2022年,5月20日,14點31分,星期三例:在一項耕地的切根蟲調(diào)查中,抽取的工具是一個20cm長和20cm寬的一個正方形測框,取10cm的表土來計量切根蟲的數(shù)量。隨機取了10個樣框資料,得到每個測框中平均有切根蟲2條。試估計在一塊5000平方米的耕地中有多少切根蟲,并給出估計標準誤。15解:切根蟲數(shù)已知該耕地切根蟲數(shù)估計為25萬條,估計標準誤為5.59萬條。第15頁,共46頁,2022年,5月20日,14點31分,星期三16 第二節(jié) 樣本輪換一、樣本輪換的原因有些抽樣調(diào)查是連續(xù)性的,需要定期的重復進行;通常逐月、逐季或者每半年一次,都要估計有關指標,還要與上月上季或上年同期對比;為了
9、解決樣本老化和更換全部樣本單位引起的費用增加以及前后期比較問題,就要考慮采用樣本輪換。樣本輪換:在抽樣調(diào)查中,每隔一定時間更換一定比例的樣本單位,保留其余單位。第16頁,共46頁,2022年,5月20日,14點31分,星期三17二、樣本輪換的最優(yōu)比例假定抽樣是放回的簡單隨機抽樣;設在第一個時期的樣本量為n,在第二個時期保留樣本的比例為p,即保留的樣本量為np,同時獨立的補充新的樣本量nq,p+q=1。第二個時期的樣本量仍然為n。第17頁,共46頁,2022年,5月20日,14點31分,星期三18第一個時期與第二個時期相同的np個單位在第一個時期的均值第一個時期的nq個單位在第一個時期的均值np
10、個單位在第二個時期的均值nq個補充單位在第二個時期的均值估計第二個時期的均值,并希望此均值充分利用第一個時期的信息,令第18頁,共46頁,2022年,5月20日,14點31分,星期三19因為要使有可以求得估計量方差第19頁,共46頁,2022年,5月20日,14點31分,星期三20該估計量的方差:第20頁,共46頁,2022年,5月20日,14點31分,星期三如果不利用前期信息,只根據(jù)第二期的結(jié)果來估計均值,有21其方差為計算利用前期信息后的設計效應見書P208:可以得到最優(yōu)的輪換比:第21頁,共46頁,2022年,5月20日,14點31分,星期三22三、樣本輪換方法(P209)四、樣本輪換應
11、該遵循的原則第22頁,共46頁,2022年,5月20日,14點31分,星期三23 第三節(jié) 敏感性問題的處理一、敏感性問題 所調(diào)查的內(nèi)容涉及個人隱私,受訪者不愿或不便于公開的問題。如果直接使用對這類問題的答案構(gòu)成的調(diào)查結(jié)果來推斷總體,顯然可靠性值得懷疑。一般從兩個方面改進:改進問卷設計;通過引入專門的抽樣技術(shù)(隨機化模型),消除受訪者的防衛(wèi)心理,降低受訪者因真實回答遭受的隱私受侵害的風險。第23頁,共46頁,2022年,5月20日,14點31分,星期三 是指在調(diào)查中使用特定的隨機化裝置,使得被調(diào)查者以預定的概率來回答敏感性問題。 這一技術(shù)的宗旨就是最大限度地為被調(diào)查者保守秘密,從而取得被調(diào)查者的
12、信任。隨機化回答技術(shù)比如在調(diào)查學生考試作弊的問題中,設計外形完全一樣的卡片k張,其中k1張卡片上寫上“你考試是否作過弊?”,n-k1張卡片上寫上另外的問題。然后放在一盒子里。調(diào)查時,由被調(diào)查者從盒子里任抽一卡片,根據(jù)卡片上的問題做出回答,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。這樣就起到了為被調(diào)查者保密的作用。因而相對于直接問答調(diào)查,易于得到被調(diào)查者的合作。 第24頁,共46頁,2022年,5月20日,14點31分,星期三 沃納隨機化回答模型 西蒙斯模型(Simmons model)隨機應答技術(shù)的類型第25頁,共46頁,2022年,5月20日,14點31分,星期三二、沃納隨機化回答模型由美國
13、統(tǒng)計學家沃納提出,具體的做法是:要調(diào)查的敏感性問題,列出正反兩個問題。如調(diào)查考試作弊問題,就作成兩種卡片: 卡片A:我曾在考試中作弊 卡片 B:我不曾在考試中作弊 然后由被調(diào)查者隨機抽取一張來回答“是”或“否”,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。因此,調(diào)查人員并不知道被調(diào)查者在回答那一個問題,而達到對被調(diào)查者個人秘密的保密作用。第26頁,共46頁,2022年,5月20日,14點31分,星期三 兩種卡片的比例是已知的??ㄆ珹的比例是P,卡片B的比例是1-P。在大規(guī)模調(diào)查中,抽中卡片A的概率P(A)=P , 抽中卡片B的概率P(B)=1-P 沃納隨機化回答模型 若樣本量為n,回答“是”的人
14、有m個,則回答“是”的有兩種情況:一種抽中了卡片A,正好是作了弊,另一種是抽到了卡片B,沒有作弊的。第27頁,共46頁,2022年,5月20日,14點31分,星期三28受訪者卡片A卡片B是不是不是是具有A特征具有B特征具有A特征具有B特征不管抽到卡片A還是B,作過弊的概率是相等的,假設為第28頁,共46頁,2022年,5月20日,14點31分,星期三其方差為:無偏估計:第29頁,共46頁,2022年,5月20日,14點31分,星期三舉例:P224.6解:第30頁,共46頁,2022年,5月20日,14點31分,星期三仍然存在的兩個問題1.在模型設計中,受訪者需要回答的兩個問題仍然都是敏感的;2
15、.要求P1/2,而且當P越接近1/2,估計量方差越大,效率越低。但從消除受訪者的顧慮角度看,兩種卡片的比例最好是1/2,這樣抽中這兩類問題的機會是均等的。西蒙斯提出一種修改方案:無關問題的隨機化回答模型。將一張卡片的問題改為與所調(diào)查的敏感問完全無關的非敏感問題。31第31頁,共46頁,2022年,5月20日,14點31分,星期三三、西蒙斯模型 設提敏感性問題的卡片的比例是P,無關問題的卡片的比例是1-P。 對于敏感性問題回答“是”的比例為 ,對無關問題回答“是”比例為 。 若樣本量為n,回答“是”的人有m個,則有第32頁,共46頁,2022年,5月20日,14點31分,星期三33估計量方差例見
16、教材P217第33頁,共46頁,2022年,5月20日,14點31分,星期三敏感性問題調(diào)查方法的應用 某高校在開展關于普及性知識的活動中,要求對學校的學生是否有過性行為這一問題進行抽樣調(diào)查。該調(diào)查問題具有敏感性,運用通常采取的調(diào)查方式,調(diào)查根本無法進行,因此運用了敏感性問題抽樣調(diào)查方法;該高校在校生人數(shù)為6000人,隨機抽取1500名學生進行抽樣調(diào)查,且分別運用了以上的兩種方法,比較統(tǒng)計結(jié)果。 第34頁,共46頁,2022年,5月20日,14點31分,星期三 采用隨機化的回答技術(shù)設計了兩種用信封封裝比例一定的問卷;一種問題為:“你有過性行為嗎?”;另一種問題為:“你沒有過性行為嗎?”。在調(diào)查時
17、,讓同學任意選取一個信封并回答上面的問題,當然調(diào)查人員是不知道該同學回答的是哪一個問題。第一種方法:沃納隨機化回答模型提出兩個都具有敏感性相關問題第35頁,共46頁,2022年,5月20日,14點31分,星期三 這樣同學們根據(jù)他們的實際情況回答抽到的問題,與自己的情況一致的則回答“是”;否則回答“不是”。研究者在設計問卷時,設計第一種問題占60%,這樣兩個問題所占的比例比較接近,有助于讓被調(diào)查者消除顧慮,對收回的問卷進行統(tǒng)計,結(jié)果對兩種問題回答“是”的有638人,占樣本的比例為:m/n=638/1500=0.4253第36頁,共46頁,2022年,5月20日,14點31分,星期三已知 m/n=
18、638/1500=0.4253,P=60%將它代入其方差為:得到回答第一種問題為“是”的人數(shù)估計比例:估計標準誤為:第37頁,共46頁,2022年,5月20日,14點31分,星期三 同樣采用隨機化的回答技術(shù)設計了兩種用信封封裝比例一定的問卷,然而一種問題為:“你有過作弊行為嗎?”;為了統(tǒng)計的方便,另一種問題設計為:“你是四月份出生的嗎?”。 顯然,第二個問題與所要調(diào)查的問題無關,而且被調(diào)查同學當中是四月份出生的比例可以很容易從學校教務處學生信息中心收集到。經(jīng)統(tǒng)計該校學生中四月份出生者所占的比例為15.38%。其中設計的問卷中第一種問題同樣占60%,統(tǒng)計結(jié)果為對兩種問題回答“是”的有206人,占
19、樣本的比例為: m/n=206/1500第二種方法:提出的兩個問題,一個為敏感性問題,另一個為與調(diào)查內(nèi)容無關的非敏感性問題。第38頁,共46頁,2022年,5月20日,14點31分,星期三得到回答第一種問題為“是”的人數(shù)估計比例:其方差為:可以看出采用兩種調(diào)查技術(shù),最終得出的結(jié)果是接近的 估計標準誤為:第39頁,共46頁,2022年,5月20日,14點31分,星期三第四節(jié) 交叉子樣本交叉子樣本方法,又稱為隨機組方法,是將抽出的樣本分成若干組,每個組形成一個子樣本,再利用每個子樣本之間的離散程度構(gòu)造方差估計量。對于復雜抽樣便于計算估計量方差和估計標準誤;還可以用于發(fā)現(xiàn)偏差,核對調(diào)查員的調(diào)查質(zhì)量。
20、40第40頁,共46頁,2022年,5月20日,14點31分,星期三一、獨立的交叉子樣本設總體為N,從中抽取容量為n的樣本。并不直接抽取,而是抽取k個子樣本,每個子樣本的容量為m,n=km,每個子樣本都可以得到總體指標 的無偏估計量 ,那么總體指標的估計量及其方差為:41第41頁,共46頁,2022年,5月20日,14點31分,星期三421234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171181191201211221231241253763773783793803
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省保定市定州市2025-2026學年三年級上學期期末質(zhì)量監(jiān)測數(shù)學試卷(含答案)
- 2025-2026學年寧夏固原市隆德二中八年級(上)期末數(shù)學試卷(含部分答案)
- 五年級試卷及答案
- 網(wǎng)絡布線題目及答案
- 2021-2022年人教部編版語文三年級上冊第六單元測無紙試卷完整版
- 2020大學生銀行頂崗實習總結(jié)【三篇】
- 云南省玉溪市2025-2026學年八年級上學期1月期末物理試題(原卷版+解析版)
- 初中歷史知識課件
- 手足口病的考試及答案
- 廣東省云浮市郁南縣2024-2025學年八年級上學期期末地理試卷(含答案)
- 2026年藥店培訓計劃試題及答案
- 2026春招:中國煙草真題及答案
- 六年級寒假家長會課件
- 物流鐵路專用線工程節(jié)能評估報告
- 2026河南省氣象部門招聘應屆高校畢業(yè)生14人(第2號)參考題庫附答案
- 2026天津市南開區(qū)衛(wèi)生健康系統(tǒng)招聘事業(yè)單位60人(含高層次人才)備考核心試題附答案解析
- 2025江蘇無錫市宜興市部分機關事業(yè)單位招聘編外人員40人(A類)備考筆試試題及答案解析
- 卵巢過度刺激征課件
- 漢服行業(yè)市場壁壘分析報告
- 重瞼手術(shù)知情同意書
- 2026華潤燃氣校園招聘(公共基礎知識)綜合能力測試題附答案解析
評論
0/150
提交評論