版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1第六章 不等概率抽樣 第一節(jié) 不等概率抽樣概述第二節(jié) 放回不等概率抽樣第三節(jié) 不放回不等概率抽樣.2第一節(jié) 不等概率抽樣概述 一、不等概率抽樣的必要性 在簡單隨機(jī)抽樣中,總體(或?qū)?中的每個單元入樣的概率都相等。假設(shè)總體中的每個單元在該總體中的位置(或重要性)相差不多,那么這種基于等概率的抽樣是理所當(dāng)然的選擇。等概率抽樣不僅實施簡單,而且相應(yīng)的數(shù)據(jù)處置公式也簡單。但是在許多實踐問題中,我們還需求運(yùn)用不等概率抽樣(sampling with unequal probabilities)。.3 一種情況是調(diào)查的總體單元與抽樣總體的單元能夠不一致。 另一種需求用到不等概率抽樣的情況是,抽樣單元在總
2、體中所占的位置不一致。 最重要的一種不等概率抽樣乃是使每個單元入樣的概率與該單元的大小成比例的抽樣(sampling with probabilities proportional to sizes,簡稱PPS抽樣)。.4 第三種需用不等概率抽樣的情況是為了改善估計量的特性。每個能夠的樣本假設(shè)被抽的概率與樣本中單元的輔助變量之和成正比的話,那么按此進(jìn)展不等概率抽樣所得到的樣本,用通常的比估計方法所得的估計量是無偏的。.5 總之,在實踐任務(wù)中需求我們經(jīng)常采用不等概率抽樣。另外,從上面列舉的情況也可看到,凡需運(yùn)用不等概率抽樣的場所,必需提供總體單元的某種輔助信息,例如每個單元的“大小度量Mi或輔助
3、變量Xi等。 .6二、不等概率抽樣的主要分類 不等概率抽樣可按多種原那么進(jìn)展分類。鑒于不等概率抽樣同時會帶來目的量估計及其方差估計的復(fù)雜性,可分為 放回抽樣:每次在總體(或?qū)?中按一定概率抽取一個單元,抽取后放回總體,再進(jìn)展下一次抽樣,每次抽樣都是獨立的。 不放回抽樣。其代價是:由于喪失了獨立性,無論是抽樣方法還是方差估計,都要比放回抽樣繁復(fù)得多。.7 另一種分類是:視每次抽樣(放回抽樣的情形)概率或每個單元的入樣概率(不放回抽樣的情形)能否嚴(yán)厲地與單元的大小成比例。另外,看樣本量n是固定的還是隨機(jī)的。最重要的情形乃是當(dāng)n固定,且上述概率與單元大小嚴(yán)厲成比例的不等概率抽樣。以后我們將這種情形的
4、放回抽樣稱為PPS抽樣,稱相應(yīng)的不放回抽樣為PS抽樣。.8 對于不放回抽樣,按其樣本單元抽取方式的不同又可分為以下幾種方法: 1.逐個抽取法。每次從尚未入樣的單元中以一定概率抽取一個單元,這個概率通常與曾經(jīng)入樣的單元有關(guān), 2.重抽法。以一定概率逐個進(jìn)展放回抽樣,假設(shè)一旦抽到反復(fù)單元,那么放棄一切已抽到的單元而重新抽取,直到抽到規(guī)定單元數(shù)且一切入樣單元都不同為止。Back.9 3.系統(tǒng)抽取法。將總體單元按某種順序陳列,且將規(guī)定的單元入樣或其倍數(shù)累計起來,并確定抽樣間隔,在這個范圍內(nèi)產(chǎn)生一個隨機(jī)數(shù)以確定初始入樣單元,然后按上述抽樣間隔確定其他的樣本單元。 4.全樣本方法。對每個能夠樣本規(guī)定一個被
5、抽中的概率,按這個概率一次抽取整個樣本。Back.10三、不等概率抽樣的特點 不等概率抽樣的主要優(yōu)點是由于運(yùn)用了輔助信息,提高了抽樣戰(zhàn)略的統(tǒng)計效率,與簡單隨機(jī)抽樣甚至與分層抽樣相比,能顯著地減少抽樣誤差。.11不等概率抽樣有以下的缺陷: 抽樣框中的一切單元,都要有高質(zhì)量的、能用作大小度量的輔助信息; 抽樣框的創(chuàng)建比簡單隨機(jī)抽樣和系統(tǒng)抽樣本錢高,更復(fù)雜,由于需求度量和存儲總體中每一個單元的大小; 并非在任何情況下都能運(yùn)用,由于并不是每一個總體都有穩(wěn)定且與主要調(diào)查變量相關(guān)的有關(guān)大小或規(guī)模的度量; 抽樣及估計特別對不放回抽樣相當(dāng)復(fù)雜; 當(dāng)單元大小度量不準(zhǔn)確或不穩(wěn)定時不適用,此時更好的方法是將單元按大
6、小分組并運(yùn)用分層抽樣。Back.12第二節(jié) 放回不等概率抽樣 一、多項抽樣 多項抽樣是一種最簡單的不等概率抽樣。它是從容量為N的總體中有放回地進(jìn)展獨立抽樣,每次抽樣中,使抽到第i個單元的概率為Zi,i=1,2,N, ,延續(xù)抽n次,從而抽到n個單元。.13 假設(shè)記為總體中第i個單元在n次抽樣中被抽到的次數(shù),顯然對每個i都有: ,且 。作為隨機(jī)變量 , , ,它的結(jié)合分布即是以下的多項分布: 這就是多項抽樣這個術(shù)語的來源。.14 根據(jù)多項分布的性質(zhì),有 當(dāng)每個單元具有一個闡明其大小或規(guī)模 的度量時,每個單元在每次抽樣中的入樣概率與單元大小成比例,稱這種特殊的多項抽樣為放回的與大小成比例的概率抽樣,
7、簡稱PPS抽樣。.15 二、PPS抽樣 PPS抽樣是與大小或規(guī)模成比例的概率抽樣,是一種運(yùn)用輔助信息從而使入樣概率不相等的抽樣技術(shù)。 假設(shè)總體單元的大小或規(guī)模變化很大,且這些大小是知的,這樣的信息就可以用在抽樣中,以提高統(tǒng)計效率。假設(shè)單元大小的度量是準(zhǔn)確的,而且所研討的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。但假設(shè)大小的度量不大準(zhǔn)確,最好按大小分組并運(yùn)用分層抽樣。.16 PPS抽樣的入樣概率。如上所述,PPS抽樣時可取為第i個單元的入樣概率,其中 是總體中一切單元的“大小之和, 為第i個單元的大小。.17 有時,關(guān)于單元的大小 只是約略知道或這個“大小并不是用單元所含的次級單元數(shù)來表
8、示的,而是用其它有關(guān)尺度來計量。此時,設(shè)第i單元大小的計量尺度為 ,那么有: 這時的PPS抽樣也稱作PPZ抽樣。.18 三、多項抽樣的實施方法 如何抽取一個不等概率樣本呢?有三種主要方法:代碼法、系統(tǒng)法及隨機(jī)系統(tǒng)法。以下的討論以PPS抽樣為例,并假定單元大小皆為整數(shù)。.19 1代碼法(累計和法,隨機(jī)法或漢森赫維茨法) 設(shè)N不太大,且 或 為第i單元大小的度量,且為整數(shù),對總體中的每個單元計算累計大小,得到總體一切單元代碼的累計和 ,對總體中每個單元確定與它相對應(yīng)的代碼范圍;在1到總的累計大小 范圍內(nèi)抽取一個隨機(jī)數(shù),該隨機(jī)數(shù)相應(yīng)的代碼范圍中的單元即為入樣單元。反復(fù)上述步驟,直到抽得n個單元為止。
9、.20PPS抽樣時,單元的代碼如下表: .21 2拉希里法二次抽樣法 代碼法要將 累計,在N不太大時是適用的,但當(dāng)N很大時,就很不方便。此時可用Lahiri拉希里1951年提出的方法。 令 每次抽取一個范圍內(nèi)的隨機(jī)數(shù) 及 范圍內(nèi)的隨機(jī)數(shù)m,假設(shè) ,那么第 單元入樣;否那么,重抽 。此時,第i個單元的入樣概率與 成正比,從而 。反復(fù)這一過程,直到抽夠所需的 個單元。.22 3系統(tǒng)PPS抽樣方法 對總體中的每個單元,計算累計大??; 對總體中每個單元確定與它相對應(yīng)的代碼范圍; 確定抽樣間隔k=總累計大小/n; 在1和k的范圍內(nèi)確定一個隨機(jī)起點r; 與代碼r,r+k,r+2k,r+n-1k所在范圍相對
10、應(yīng)的單元入樣。 留意,當(dāng)r+n-1k超越總累計大小時,應(yīng)運(yùn)用圓形系統(tǒng)抽樣中的模余數(shù)法。.23 4隨機(jī)系統(tǒng)抽樣法 在這種方法中,名錄在系統(tǒng)抽樣前要進(jìn)展隨機(jī)排序。假設(shè)完全按原來的排序,會把一些能夠的樣本排除在外。在上面引見的系統(tǒng)抽樣的例子中,不能夠把單元3和4同時抽入同一個樣本。把名錄重新隨機(jī)陳列后會添加潛在的能夠抽到的樣本數(shù)量。 實踐上這些方法都有些問題。例如,對系統(tǒng)抽樣法或隨機(jī)系統(tǒng)抽樣法,一個大小大于抽樣間隔的單元,就有反復(fù)被抽中的能夠。只需把這些大單元放入單獨的一個層,并獨立地對它們進(jìn)展抽樣,才干抑制這個問題。另一個問題是估計值的抽樣方差估計比較困難。.24 四、估計量 對于多項抽樣,由于抽
11、樣是不等概率的,每個樣本單元的觀測值就不再是“平等的,因此對于總體參數(shù)的估計與等概率抽樣不同。漢森赫維茨提出,假設(shè) 是按 為入樣概率的多項抽樣抽得的樣本目的值,相應(yīng)的 為 ,那么總體總和Y的無偏估計量如下:.25且假設(shè)n1,那么 的無偏估計量為.26對于PPS抽樣, ,所以有其中 是第i個樣本單元的觀測值,例如商店的年銷售額,而 是該單元的大小,例如商店的員工人數(shù),那么 即是第i個商店人均年銷售額。對n個 取平均即是樣本商業(yè)網(wǎng)點人均年銷售額的平均,將此數(shù)乘以 ,即該地一切商業(yè)網(wǎng)點的員工總數(shù),即可獲得該地商業(yè)銷售總額的估計。.27舉例: 下表是某系統(tǒng)全部N=36個單位上一年職工人數(shù)及當(dāng)年職工人數(shù)
12、的數(shù)據(jù),以為單位大小的度量,對單位進(jìn)展PPS抽樣,n=6,估計全系統(tǒng)當(dāng)年職工總?cè)藬?shù)Y,并與簡單隨機(jī)抽樣做精度比較。.28第三節(jié) 不放回不等概率抽樣 一、包含概率與PS抽樣 放回不等概率抽樣實施簡單,數(shù)據(jù)處置也不復(fù)雜,在不等概率抽樣中占有一定的位置。但是由于放回抽樣有能夠反復(fù)抽到同一單元,特別是個別大單元被反復(fù)抽到的能夠性比較大,這就在一定程度上影響了樣本的代表性,降低了抽樣效率,也不易被實踐任務(wù)者所接受。即使在一樣樣本量下,放回抽樣的精度比不放回抽樣的差。因此,我們?nèi)杂斜匾杏懖环呕夭坏雀怕食闃印?現(xiàn)實上,由于不放回抽樣的樣本不是獨立的,因此無論是實施還是數(shù)據(jù)處置,特別是方差估計,都要比放回的
13、多項抽樣復(fù)雜得多。.29 在放回的不等概率抽樣中,每個單元的入樣概率起著關(guān)鍵作用。在不放回抽樣中,每個單元被包含到樣本的概率也即入樣概率及恣意兩個單元都包含到樣本的概率都起著非常重要的作用,它們通稱為包含概率。.對于固定的n包含概率滿足以下性質(zhì): 1 2 3.其中性質(zhì)1是顯然的。性質(zhì)2是對每個已在樣本中的單元而言的,固定了這個特定單元,總體中其它N-1個單元在樣本中只能夠有n-1個單元,因此其中最后一個等式利用了性質(zhì)1。性質(zhì)3那么直接利用性質(zhì)2:. 與放回的PPS抽樣類似,對于不放回不等概率抽樣,我們最感興趣的是 與單元大小 成比例的情形。 假設(shè)仍記 ,那么由性質(zhì)1有: 以后我們將這種不放回的
14、與單元大小成比例的概率抽樣稱為PS抽樣。. 嚴(yán)厲的PS抽樣實施起來非常復(fù)雜?,F(xiàn)實上,只需當(dāng)n=2時,才有一些簡單且適用的方法。在不放回抽樣的情形,假設(shè)抽選的單元多于一個,要使入樣概率與單元大小成正比以及對調(diào)查估計值的誤差進(jìn)展估計都比較復(fù)雜。在用不放回PS抽樣抽取多于兩個單元時,情況就更加復(fù)雜。實踐上,這仍是一個需求進(jìn)展仔細(xì)研討的問題。除了實施方面的緣由外,當(dāng)n大時, 的計算也極其困難,而這對于方差估計是不可少的。. 二、霍維茨湯普森估計量及其性質(zhì) 對不放回的不等概率抽樣,總體總和Y的估計采用霍維茨Horvitz與湯普森Thompson提出的以下估計量: 留意這個估計量與多項抽樣的漢森赫維茨估計
15、量 非常類似。現(xiàn)實上,對于PS抽樣,由于 , 與相應(yīng)PPS抽樣的 完全一致。. 霍維茨湯普森估計量具有如下性質(zhì): 1假設(shè) ,那么 是Y的無偏估計,且它的方差為:當(dāng)n固定時,又有. 2假設(shè) ,那么 是 的無偏估計。 又當(dāng)n固定時,以下的耶茨Yates格倫迪Grundy森Sen估計量 也是 的無偏估計:.37 三、n=2的嚴(yán)厲PS抽樣 對于PS抽樣,由于作為總體總和的霍維茨湯普森估計量的方式相當(dāng)簡單,因此就運(yùn)用角度來說,能否便利主要在于它的實施方法以及 的計算。當(dāng)n=2時,有幾種比較適用的方法但在詳細(xì)運(yùn)用中,n=2并不是一個非常嚴(yán)重的限制。這些方法常用在對總體分層,在每層中抽取兩個樣本單元的情況。
16、.38 1布魯爾Brewer方法 該方法要求對每個i,都滿足 ,即總體層中的最大單元必需小于全部單元大小總和的1/2假設(shè)不然可以將這個“特大單元作為必調(diào)查的單元。兩個樣本單元采用逐個抽取法抽?。旱谝粋€單元按與 成比例的概率抽??;第二個單元那么在剩下的N-1個單元中按與成比例的概率抽取。.39 2德賓Durbin方法 兩個樣本單元仍用逐個抽取法抽取。第一個樣本單元以概率抽取,設(shè)抽到的是單元i;第二個樣本單元那么按與 成比例的概率抽取。 由于此時的 ,且 與布魯爾方法的相等,因此德賓方法與布魯爾方法實踐上是等價的。運(yùn)用德賓方法也要求對每個i,都滿足 。.40 四、n2的嚴(yán)厲PS抽樣 n2的嚴(yán)厲PS抽樣要比n=2的情況復(fù)雜得多,即使可以實現(xiàn), 的計算也相當(dāng)復(fù)雜。下面僅引見三種方法。 1水野Midzuno方法 這也是一種逐個抽取方法,關(guān)鍵是第一個樣本單元的抽取,它是以概率 抽取的。在抽取第一個單元以后,在剩下的N-1個單元中不放回地等概率抽取n-1個單元。.41 2布魯爾Brewer方法 這是n=2的布魯爾方法在n2情形的推行,也采用逐個抽取法。第一個單元是以與 成比例的概率抽取。在第r次抽取時,以與 成比例的概率從當(dāng)時髦未入樣的單元中抽取一個單元。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年度南平松溪縣“校園行”緊缺急需學(xué)科專業(yè)教師招聘25人備考筆試題庫及答案解析
- 2025浙江寧波文旅會展集團(tuán)有限公司招聘4人備考考試題庫及答案解析
- 2025清華大學(xué)健康大數(shù)據(jù)科研助理XT-1招聘1人參考考試題庫及答案解析
- 2025年甘肅省定西市漳縣大草灘鎮(zhèn)衛(wèi)生院招聘鄉(xiāng)村醫(yī)生備考筆試題庫及答案解析
- 沛縣初三調(diào)研試卷及答案
- 2025年舟山市普陀區(qū)蝦峙鎮(zhèn)工作人員招聘2人備考考試題庫及答案解析
- 2026衢州龍游縣機(jī)關(guān)事業(yè)單位編外招聘26人備考考試題庫及答案解析
- 2026年線上展會平臺服務(wù)合同
- 2026年影視特效制作合同
- 遼寧高三試卷物理及答案
- 私人司機(jī)合同范本
- 2025年河北體育學(xué)院競爭性選調(diào)工作人員14名(第三批)考試模擬卷附答案解析
- 《資源與運(yùn)營管理》期末機(jī)考資料
- 股權(quán)抵押分紅協(xié)議書
- 海洋水質(zhì)監(jiān)測培訓(xùn)課件
- 《數(shù)字化測圖》實訓(xùn)指導(dǎo)書
- 2025年三級高級電子商務(wù)師理論測試題庫及答案
- 電影監(jiān)制的合同范本
- 2025年中職歷史(中國古代史基礎(chǔ))試題及答案
- 顯示屏搬遷合同范本
- 2025年高級農(nóng)藝工考試題及答案
評論
0/150
提交評論