抽樣技術 其他專題_第1頁
抽樣技術 其他專題_第2頁
抽樣技術 其他專題_第3頁
抽樣技術 其他專題_第4頁
抽樣技術 其他專題_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

抽樣技術其他專題第一頁,共四十六頁,2022年,8月28日2

以前各章基本假設總體單元數(shù)N是已知的,然后對總體的有關特征如均值、總值、比例等進行估計。但有些場合,總體單元數(shù)是未知的,是要估計的目標,如:一個池塘中魚的數(shù)量,一片森林中鳥的數(shù)量等。彼得森(Peterson,1896)提出捕獲再捕獲抽樣,并將此方法用于野生動物的數(shù)量研究中。第一節(jié)捕獲再捕獲抽樣第二頁,共四十六頁,2022年,8月28日以捕魚為例說明:假如要估計湖中的魚的數(shù)量N;從湖中捕獲200條魚做記號放回湖中,讓它們與湖中未做記號的魚充分混合。然后從湖中再捕獲100條魚,假設這次捕獲的魚中有20條是已經(jīng)做了記號的,若假定魚的總體沒有變化,兩次捕魚都是簡單隨機抽樣,就可以估計湖中的魚20%做了標記,由此可以推斷N的估計值是1000。3第三頁,共四十六頁,2022年,8月28日這種方法依賴于以下假定:(1)總體是封閉的——兩次抽樣間沒有魚進入或離開該湖。即對每次抽樣而言,N相同。(2)每個樣本都是來自總體的簡單隨機抽樣。即湖中每條魚都有同樣機會被捕獲。(3)兩個樣本是獨立的。即第一次捕獲并放回湖中再次與總體混合,標記與否和第二次被捕獲的概率沒有關系。(4)魚不會丟失其標記,從而有記號的魚可以被識別。4第四頁,共四十六頁,2022年,8月28日5若為第二次抽樣的樣本量,m為第二次捕獲有記號的單元的數(shù)量,有則一、直接抽樣法◆先從單元數(shù)為N(未知)的總體中抽取一個隨機樣本,設樣本量為,把這些單元做上記號,然后放回總體,使其與原總體的單元充分混合;這時,做記號的數(shù)量占總體數(shù)量的比例為,N未知,P待估計;◆再抽取一個樣本,觀察其中做記號的單元所占的比例,對總體的單元數(shù)進行估計。第五頁,共四十六頁,2022年,8月28日6可以看成比率估計的特殊形式令1,0,如果第i個做過標記如果第i個未做標記第六頁,共四十六頁,2022年,8月28日7由比率估計方差可以得到:有偏當?shù)谝淮螛颖玖亢偷诙螛颖玖孔銐虼髸r,偏差會逐步變小。通常對N是略有高估的。在大樣本情況下,估計量近似正態(tài)分布,可以給出一定置信度下的置信區(qū)間。第七頁,共四十六頁,2022年,8月28日8前例中,第八頁,共四十六頁,2022年,8月28日二、逆抽樣法當做記號的單元在總體中的比例很小時,即很小,9則在第二次抽樣時是一個小比例事件,如果不夠大,很可能出現(xiàn)沒有記號的單元,即,無法對N進行估計。一種方法:加大第一次抽樣的數(shù)目;另一種:逆抽樣;這種方法在第二次抽樣時,并不對的數(shù)量作出規(guī)定,而是一直抽到曾做過記號的單元數(shù)達到個為止。與直接抽樣法不同,此時是預先規(guī)定的,而是一個隨機變量。第九頁,共四十六頁,2022年,8月28日例:欲估計某個森林中啄木鳥的數(shù)量。首先隨即捕捉了150只啄木鳥,并在鳥的翅膀下染上顏色作為記號,然后予以放飛,適當?shù)囊欢螘r間后,在第二次捕捉中目標是捕到有記號的啄木鳥35只,結果一共捕捉了100只。要求估計啄木鳥的數(shù)量,并給出估計標準誤。10第十頁,共四十六頁,2022年,8月28日某出版社要調(diào)查某一暢銷書的盜版數(shù)量,由于正版發(fā)行多少冊是已知的,相當于已做記號的的冊,然后可以隨機的抽取個購買該書的讀者,若其中有冊正版書,則可以推算出正版書和盜版書的總量,從而算出盜版書的數(shù)量。推算總的網(wǎng)站數(shù)量。在CN下注冊的網(wǎng)站的數(shù)量是已知的,但在CN外的就無法掌握……11捕獲再捕獲的抽樣方法起源于野生動物的估計,可以進一步擴展用于社會經(jīng)濟的統(tǒng)計。廣場集會人數(shù)的調(diào)查。如某報社要報導某次自發(fā)性的集會人數(shù),可以在廣場入口處散發(fā)一些小紅帽,然后由記者隨機抽取一個參與集會的樣本,該樣本中有多少有小紅帽,就可以推斷出總人數(shù)。第十一頁,共四十六頁,2022年,8月28日采用條樣(Quadratsamples)

估計總體密度和數(shù)量直接抽樣和逆抽樣都是建立在總體單位流動性比較大的基礎上;對于有些總體的流動性并不是很大,例如松林中發(fā)生的松毛蟲災害,大氣中的可吸入顆粒物,就不適宜采用捕捉再捕捉抽樣;通常采用抽取若干樣本來估計總體密度,然后根據(jù)總體的面積或體積來估計總體數(shù)量。12第十二頁,共四十六頁,2022年,8月28日設一個地區(qū)的面積為A,從中隨機抽取n個樣本,這種樣本通常稱為條樣。若每個條樣的面積為a,則總體劃分為N個a,總面積A=Na。13這些元素在總體中的密度為第十三頁,共四十六頁,2022年,8月28日在對密度的估計中,通常假設總體的元素在總體中的分布是隨機的,而不是聚集在一起的,即分布沒有一定的規(guī)則順序,因此在條樣中的分布近似于泊松分布;14先計算樣本每個條樣中的平均元素數(shù):再估計條樣的密度:總體的元素總量M的估計值為:其方差估計為:第十四頁,共四十六頁,2022年,8月28日例:在一項耕地的切根蟲調(diào)查中,抽取的工具是一個20cm長和20cm寬的一個正方形測框,取10cm的表土來計量切根蟲的數(shù)量。隨機取了10個樣框資料,得到每個測框中平均有切根蟲2條。試估計在一塊5000平方米的耕地中有多少切根蟲,并給出估計標準誤。15解:切根蟲數(shù)已知該耕地切根蟲數(shù)估計為25萬條,估計標準誤為5.59萬條。第十五頁,共四十六頁,2022年,8月28日16

第二節(jié)樣本輪換一、樣本輪換的原因有些抽樣調(diào)查是連續(xù)性的,需要定期的重復進行;通常逐月、逐季或者每半年一次,都要估計有關指標,還要與上月上季或上年同期對比;為了解決樣本老化和更換全部樣本單位引起的費用增加以及前后期比較問題,就要考慮采用樣本輪換。樣本輪換:在抽樣調(diào)查中,每隔一定時間更換一定比例的樣本單位,保留其余單位。第十六頁,共四十六頁,2022年,8月28日17二、樣本輪換的最優(yōu)比例假定抽樣是放回的簡單隨機抽樣;設在第一個時期的樣本量為n,在第二個時期保留樣本的比例為p,即保留的樣本量為np,同時獨立的補充新的樣本量nq,p+q=1。第二個時期的樣本量仍然為n。第十七頁,共四十六頁,2022年,8月28日18第一個時期與第二個時期相同的np個單位在第一個時期的均值第一個時期的nq個單位在第一個時期的均值np個單位在第二個時期的均值nq個補充單位在第二個時期的均值估計第二個時期的均值,并希望此均值充分利用第一個時期的信息,令第十八頁,共四十六頁,2022年,8月28日19因為要使有可以求得估計量方差第十九頁,共四十六頁,2022年,8月28日20該估計量的方差:第二十頁,共四十六頁,2022年,8月28日如果不利用前期信息,只根據(jù)第二期的結果來估計均值,有21其方差為計算利用前期信息后的設計效應見書P208:可以得到最優(yōu)的輪換比:第二十一頁,共四十六頁,2022年,8月28日22三、樣本輪換方法(P209)四、樣本輪換應該遵循的原則第二十二頁,共四十六頁,2022年,8月28日23第三節(jié)敏感性問題的處理一、敏感性問題所調(diào)查的內(nèi)容涉及個人隱私,受訪者不愿或不便于公開的問題。如果直接使用對這類問題的答案構成的調(diào)查結果來推斷總體,顯然可靠性值得懷疑。一般從兩個方面改進:改進問卷設計;通過引入專門的抽樣技術(隨機化模型),消除受訪者的防衛(wèi)心理,降低受訪者因真實回答遭受的隱私受侵害的風險。第二十三頁,共四十六頁,2022年,8月28日

是指在調(diào)查中使用特定的隨機化裝置,使得被調(diào)查者以預定的概率來回答敏感性問題。這一技術的宗旨就是最大限度地為被調(diào)查者保守秘密,從而取得被調(diào)查者的信任。隨機化回答技術比如在調(diào)查學生考試作弊的問題中,設計外形完全一樣的卡片k張,其中k1張卡片上寫上“你考試是否作過弊?”,n-k1張卡片上寫上另外的問題。然后放在一盒子里。調(diào)查時,由被調(diào)查者從盒子里任抽一卡片,根據(jù)卡片上的問題做出回答,至于卡片上具體是什么問題,調(diào)查者無權過問。這樣就起到了為被調(diào)查者保密的作用。因而相對于直接問答調(diào)查,易于得到被調(diào)查者的合作。

第二十四頁,共四十六頁,2022年,8月28日

沃納隨機化回答模型

西蒙斯模型(Simmonsmodel)隨機應答技術的類型第二十五頁,共四十六頁,2022年,8月28日二、沃納隨機化回答模型由美國統(tǒng)計學家沃納提出,具體的做法是:要調(diào)查的敏感性問題,列出正反兩個問題。如調(diào)查考試作弊問題,就作成兩種卡片:卡片A:我曾在考試中作弊卡片B:我不曾在考試中作弊

然后由被調(diào)查者隨機抽取一張來回答“是”或“否”,至于卡片上具體是什么問題,調(diào)查者無權過問。因此,調(diào)查人員并不知道被調(diào)查者在回答那一個問題,而達到對被調(diào)查者個人秘密的保密作用。第二十六頁,共四十六頁,2022年,8月28日

兩種卡片的比例是已知的??ㄆ珹的比例是P,卡片B的比例是1-P。在大規(guī)模調(diào)查中,抽中卡片A的概率P(A)=P,抽中卡片B的概率P(B)=1-P

沃納隨機化回答模型

若樣本量為n,回答“是”的人有m個,則回答“是”的有兩種情況:一種抽中了卡片A,正好是作了弊,另一種是抽到了卡片B,沒有作弊的。第二十七頁,共四十六頁,2022年,8月28日28受訪者卡片A卡片B是不是不是是具有A特征具有B特征具有A特征具有B特征不管抽到卡片A還是B,作過弊的概率是相等的,假設為第二十八頁,共四十六頁,2022年,8月28日其方差為:無偏估計:第二十九頁,共四十六頁,2022年,8月28日舉例:P224.6解:第三十頁,共四十六頁,2022年,8月28日仍然存在的兩個問題1.在模型設計中,受訪者需要回答的兩個問題仍然都是敏感的;2.要求P≠1/2,而且當P越接近1/2,估計量方差越大,效率越低。但從消除受訪者的顧慮角度看,兩種卡片的比例最好是1/2,這樣抽中這兩類問題的機會是均等的。西蒙斯提出一種修改方案:無關問題的隨機化回答模型。將一張卡片的問題改為與所調(diào)查的敏感問完全無關的非敏感問題。31第三十一頁,共四十六頁,2022年,8月28日三、西蒙斯模型

設提敏感性問題的卡片的比例是P,無關問題的卡片的比例是1-P。

對于敏感性問題回答“是”的比例為,對無關問題回答“是”比例為。

若樣本量為n,回答“是”的人有m個,則有第三十二頁,共四十六頁,2022年,8月28日33估計量方差例見教材P217第三十三頁,共四十六頁,2022年,8月28日敏感性問題調(diào)查方法的應用

某高校在開展關于普及性知識的活動中,要求對學校的學生是否有過性行為這一問題進行抽樣調(diào)查。該調(diào)查問題具有敏感性,運用通常采取的調(diào)查方式,調(diào)查根本無法進行,因此運用了敏感性問題抽樣調(diào)查方法;該高校在校生人數(shù)為6000人,隨機抽取1500名學生進行抽樣調(diào)查,且分別運用了以上的兩種方法,比較統(tǒng)計結果。第三十四頁,共四十六頁,2022年,8月28日

采用隨機化的回答技術設計了兩種用信封封裝比例一定的問卷;一種問題為:“你有過性行為嗎?”;另一種問題為:“你沒有過性行為嗎?”。在調(diào)查時,讓同學任意選取一個信封并回答上面的問題,當然調(diào)查人員是不知道該同學回答的是哪一個問題。第一種方法:沃納隨機化回答模型提出兩個都具有敏感性相關問題第三十五頁,共四十六頁,2022年,8月28日

這樣同學們根據(jù)他們的實際情況回答抽到的問題,與自己的情況一致的則回答“是”;否則回答“不是”。研究者在設計問卷時,設計第一種問題占60%,這樣兩個問題所占的比例比較接近,有助于讓被調(diào)查者消除顧慮,對收回的問卷進行統(tǒng)計,結果對兩種問題回答“是”的有638人,占樣本的比例為:m/n=638/1500=0.4253第三十六頁,共四十六頁,2022年,8月28日已知m/n=638/1500=0.4253,P=60%將它代入其方差為:得到回答第一種問題為“是”的人數(shù)估計比例:估計標準誤為:第三十七頁,共四十六頁,2022年,8月28日

同樣采用隨機化的回答技術設計了兩種用信封封裝比例一定的問卷,然而一種問題為:“你有過作弊行為嗎?”;為了統(tǒng)計的方便,另一種問題設計為:“你是四月份出生的嗎?”。

顯然,第二個問題與所要調(diào)查的問題無關,而且被調(diào)查同學當中是四月份出生的比例可以很容易從學校教務處學生信息中心收集到。經(jīng)統(tǒng)計該校學生中四月份出生者所占的比例為15.38%。其中設計的問卷中第一種問題同樣占60%,統(tǒng)計結果為對兩種問題回答“是”的有206人,占樣本的比例為:

m/n=206/1500第二種方法:提出的兩個問題,一個為敏感性問題,另一個為與調(diào)查內(nèi)容無關的非敏感性問題。第三十八頁,共四十六頁,2022年,8月28日得到回答第一種問題為“是”的人數(shù)估計比例:其方差為:可以看出采用兩種調(diào)查技術,最終得出的結果是接近的

估計標準誤為:第三十九頁,共四十六頁,2022年,8月28日第四節(jié)交叉子樣本交叉子樣本方法,又稱為隨機組方法,是將抽出的樣本分成若干組,每個組形成一個子樣本,再利用每個子樣本之間的離散程度構造方差估計量。對于復雜抽樣便于計算估計量方差和估計標準誤;還可以用于發(fā)現(xiàn)偏差,核對調(diào)查員的調(diào)查質(zhì)量。40第四十頁,共四十六頁,2022年,8月28日一、獨立的交叉子樣本設總體為N,從中抽取容量為n的樣本。并不直接抽取,而是抽取k個子樣本,每個子樣本的容量為m,n=km,每個子樣本都可以得到總體指標的無偏估計量,那么總體指標的估計量及其方差為:41第四十一頁,共四十六頁,2022年,8月28日42123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125………………………………………………………………3763773783793803813823833

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論