版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第六章不等概率抽樣第一節(jié)不等概率抽樣概述第二節(jié)放回不等概率抽樣第三節(jié)不放回不等概率抽樣1第六章不等概率抽樣第一節(jié)不等概率抽樣概述12第一節(jié)不等概率抽樣概述
一、不等概率抽樣的必要性在簡(jiǎn)單隨機(jī)抽樣中,總體(或?qū)?中的每個(gè)單元入樣的概率都相等。如果總體中的每個(gè)單元在該總體中的地位(或重要性)相差不多,則這種基于等概率的抽樣是理所當(dāng)然的選擇。等概率抽樣不僅實(shí)施簡(jiǎn)單,而且相應(yīng)的數(shù)據(jù)處理公式也簡(jiǎn)單。但是在許多實(shí)際問題中,我們還需要使用不等概率抽樣(samplingwithunequalprobabilities)。2第一節(jié)不等概率抽樣概述一、不等概率抽樣的必要性23一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致。另一種需要用到不等概率抽樣的情況是,抽樣單元在總體中所占的地位不一致。最重要的一種不等概率抽樣乃是使每個(gè)單元入樣的概率與該單元的大小成比例的抽樣(samplingwithprobabilitiesproportionaltosizes,簡(jiǎn)稱PPS抽樣)。3一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致34第三種需用不等概率抽樣的情況是為了改善估計(jì)量的特性。每個(gè)可能的樣本若被抽的概率與樣本中單元的輔助變量之和成正比的話,則按此進(jìn)行不等概率抽樣所得到的樣本,用通常的比估計(jì)方法所得的估計(jì)量是無偏的。4第三種需用不等概率抽樣的情況是為了改善估計(jì)量的特性45總之,在實(shí)際工作中需要我們經(jīng)常采用不等概率抽樣。另外,從上面列舉的情況也可看到,凡需使用不等概率抽樣的場(chǎng)合,必須提供總體單元的某種輔助信息,例如每個(gè)單元的“大小”度量Mi或輔助變量Xi等。5總之,在實(shí)際工作中需要我們經(jīng)常采用不等概率抽樣。另56二、不等概率抽樣的主要分類不等概率抽樣可按多種原則進(jìn)行分類。鑒于不等概率抽樣同時(shí)會(huì)帶來目標(biāo)量估計(jì)及其方差估計(jì)的復(fù)雜性,可分為放回抽樣:每次在總體(或?qū)?中按一定概率抽取一個(gè)單元,抽取后放回總體,再進(jìn)行下一次抽樣,每次抽樣都是獨(dú)立的。不放回抽樣。其代價(jià)是:由于喪失了獨(dú)立性,無論是抽樣方法還是方差估計(jì),都要比放回抽樣繁復(fù)得多。6二、不等概率抽樣的主要分類不等概率抽樣可按多種原則67另一種分類是:視每次抽樣(放回抽樣的情形)概率或每個(gè)單元的入樣概率(不放回抽樣的情形)是否嚴(yán)格地與單元的大小成比例。另外,看樣本量n是固定的還是隨機(jī)的。最重要的情形乃是當(dāng)n固定,且上述概率與單元大小嚴(yán)格成比例的不等概率抽樣。以后我們將這種情形的放回抽樣稱為PPS抽樣,稱相應(yīng)的不放回抽樣為πPS抽樣。7另一種分類是:視每次抽樣(放回抽樣的情形)概率或每78對(duì)于不放回抽樣,按其樣本單元抽取方式的不同又可分為以下幾種方法:1.逐個(gè)抽取法。每次從尚未入樣的單元中以一定概率抽取一個(gè)單元,這個(gè)概率通常與已經(jīng)入樣的單元有關(guān),2.重抽法。以一定概率逐個(gè)進(jìn)行放回抽樣,若一旦抽到重復(fù)單元,則放棄所有已抽到的單元而重新抽取,直到抽到規(guī)定單元數(shù)且所有入樣單元都不同為止。Back8對(duì)于不放回抽樣,按其樣本單元抽取方式的不同又可分為893.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的單元入樣(或其倍數(shù))累計(jì)起來,并確定抽樣間隔,在這個(gè)范圍內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù)以確定初始入樣單元,然后按上述抽樣間隔確定其余的樣本單元。4.全樣本方法。對(duì)每個(gè)可能樣本規(guī)定一個(gè)被抽中的概率,按這個(gè)概率一次抽取整個(gè)樣本。Back93.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的910三、不等概率抽樣的特點(diǎn)不等概率抽樣的主要優(yōu)點(diǎn)是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計(jì)效率,與簡(jiǎn)單隨機(jī)抽樣甚至與分層抽樣相比,能顯著地減少抽樣誤差。10三、不等概率抽樣的特點(diǎn)不等概率抽樣的主要優(yōu)點(diǎn)是由1011不等概率抽樣有以下的缺點(diǎn):抽樣框中的所有單元,都要有高質(zhì)量的、能用作大小度量的輔助信息;抽樣框的創(chuàng)建比簡(jiǎn)單隨機(jī)抽樣和系統(tǒng)抽樣成本高,更復(fù)雜,因?yàn)樾枰攘亢痛鎯?chǔ)總體中每一個(gè)單元的大??;并非在任何情況下都能使用,因?yàn)椴⒉皇敲恳粋€(gè)總體都有穩(wěn)定且與主要調(diào)查變量相關(guān)的有關(guān)大小或規(guī)模的度量;抽樣及估計(jì)(特別對(duì)不放回抽樣)相當(dāng)復(fù)雜;
當(dāng)單元大小度量不準(zhǔn)確或不穩(wěn)定時(shí)不適用,此時(shí)更好的辦法是將單元按大小分組并使用分層抽樣。Back11不等概率抽樣有以下的缺點(diǎn):抽樣框中的所有單元,都1112第二節(jié)放回不等概率抽樣一、多項(xiàng)抽樣多項(xiàng)抽樣是一種最簡(jiǎn)單的不等概率抽樣。它是從容量為N的總體中有放回地進(jìn)行獨(dú)立抽樣,每次抽樣中,使抽到第i個(gè)單元的概率為Zi,i=1,2,…,N,,連續(xù)抽n次,從而抽到n個(gè)單元。12第二節(jié)放回不等概率抽樣一、多項(xiàng)抽樣1213若記為總體中第i個(gè)單元在n次抽樣中被抽到的次數(shù),顯然對(duì)每個(gè)i都有:,且。作為隨機(jī)變量(,,…),它的聯(lián)合分布即是以下的多項(xiàng)分布:這就是多項(xiàng)抽樣這個(gè)術(shù)語的來源。13若記為總體中第i個(gè)單元在n次抽樣中被抽到的次數(shù),1314根據(jù)多項(xiàng)分布的性質(zhì),有當(dāng)每個(gè)單元具有一個(gè)說明其大小或規(guī)模的度量時(shí),每個(gè)單元在每次抽樣中的入樣概率與單元大小成比例,稱這種特殊的多項(xiàng)抽樣為放回的與大小成比例的概率抽樣,簡(jiǎn)稱PPS抽樣。14根據(jù)多項(xiàng)分布的性質(zhì),有1415二、PPS抽樣PPS抽樣是與大?。ɑ蛞?guī)模)成比例的概率抽樣,是一種使用輔助信息從而使入樣概率不相等的抽樣技術(shù)。如果總體單元的大小或規(guī)模變化很大,且這些大小是已知的,這樣的信息就可以用在抽樣中,以提高統(tǒng)計(jì)效率。如果單元大小的度量是準(zhǔn)確的,而且所研究的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。但如果大小的度量不大準(zhǔn)確,最好按大小分組并使用分層抽樣。15二、PPS抽樣1516PPS抽樣的入樣概率。如上所述,PPS抽樣時(shí)可取為第i個(gè)單元的入樣概率,其中是總體中所有單元的“大小”之和,為第i個(gè)單元的大小。16PPS抽樣的入樣概率。如上所述,PPS抽樣時(shí)可取1617有時(shí),關(guān)于單元的大小只是約略知道或這個(gè)“大小”并不是用單元所含的次級(jí)單元數(shù)來表示的,而是用其它有關(guān)尺度來計(jì)量。此時(shí),設(shè)第i單元大小的計(jì)量尺度為,則有:
這時(shí)的PPS抽樣也稱作PPZ抽樣。17有時(shí),關(guān)于單元的大小只是約略知道或這個(gè)“1718三、多項(xiàng)抽樣的實(shí)施方法如何抽取一個(gè)不等概率樣本呢?有三種主要方法:代碼法、系統(tǒng)法及隨機(jī)系統(tǒng)法。以下的討論以PPS抽樣為例,并假定單元大小皆為整數(shù)。18三、多項(xiàng)抽樣的實(shí)施方法1819(1)代碼法(累計(jì)和法,隨機(jī)法或漢森—赫維茨法)設(shè)N不太大,且(或)為第i單元大小的度量,且為整數(shù),對(duì)總體中的每個(gè)單元計(jì)算累計(jì)大小,得到總體所有單元代碼的累計(jì)和,對(duì)總體中每個(gè)單元確定與它相對(duì)應(yīng)的代碼范圍;在1到總的累計(jì)大小范圍內(nèi)抽取一個(gè)隨機(jī)數(shù),該隨機(jī)數(shù)相應(yīng)的代碼范圍中的單元即為入樣單元。重復(fù)上述步驟,直到抽得n個(gè)單元為止。19(1)代碼法(累計(jì)和法,隨機(jī)法或漢森—赫維茨法)1920PPS抽樣時(shí),單元的代碼如下表:20PPS抽樣時(shí),單元的代碼如下表:2021(2)拉希里法(二次抽樣法)代碼法要將累計(jì),在N不太大時(shí)是適用的,但當(dāng)N很大時(shí),就很不方便。此時(shí)可用Lahiri(拉希里)1951年提出的方法。令每次抽取一個(gè)范圍內(nèi)的隨機(jī)數(shù)及范圍內(nèi)的隨機(jī)數(shù)m,若,則第單元入樣;否則,重抽。此時(shí),第i個(gè)單元的入樣概率與成正比,從而。重復(fù)這一過程,直到抽夠所需的個(gè)單元。21(2)拉希里法(二次抽樣法)2122(3)系統(tǒng)PPS抽樣方法對(duì)總體中的每個(gè)單元,計(jì)算累計(jì)大?。粚?duì)總體中每個(gè)單元確定與它相對(duì)應(yīng)的代碼范圍;確定抽樣間隔k=總累計(jì)大小/n;在1和k的范圍內(nèi)確定一個(gè)隨機(jī)起點(diǎn)r;與代碼r,r+k,r+2k,…,r+(n-1)k所在范圍相對(duì)應(yīng)的單元入樣。注意,當(dāng)r+(n-1)k超過總累計(jì)大小時(shí),應(yīng)使用圓形系統(tǒng)抽樣中的模余數(shù)法。22(3)系統(tǒng)PPS抽樣方法2223(4)隨機(jī)系統(tǒng)抽樣法在這種方法中,名錄在系統(tǒng)抽樣前要進(jìn)行隨機(jī)排序。如果完全按原來的排序,會(huì)把一些可能的樣本排除在外。在上面介紹的系統(tǒng)抽樣的例子中,不可能把單元3和4同時(shí)抽入同一個(gè)樣本。把名錄重新隨機(jī)排列后會(huì)增加潛在的可能抽到的樣本數(shù)量。實(shí)際上這些方法都有些問題。例如,對(duì)系統(tǒng)抽樣法或隨機(jī)系統(tǒng)抽樣法,一個(gè)大小大于抽樣間隔的單元,就有重復(fù)被抽中的可能。只有把這些大單元放入單獨(dú)的一個(gè)層,并獨(dú)立地對(duì)它們進(jìn)行抽樣,才能克服這個(gè)問題。另一個(gè)問題是估計(jì)值的抽樣方差估計(jì)比較困難。23(4)隨機(jī)系統(tǒng)抽樣法2324
四、估計(jì)量對(duì)于多項(xiàng)抽樣,由于抽樣是不等概率的,每個(gè)樣本單元的觀測(cè)值就不再是“平等的”,因此對(duì)于總體參數(shù)的估計(jì)與等概率抽樣不同。漢森—赫維茨提出,如果是按為入樣概率的多項(xiàng)抽樣抽得的樣本指標(biāo)值,相應(yīng)的為,則總體總和Y的無偏估計(jì)量如下:24四、估計(jì)量2425且若n〉1,則的無偏估計(jì)量為25且2526對(duì)于PPS抽樣,,所以有其中是第i個(gè)樣本單元的觀測(cè)值,例如商店的年銷售額,而是該單元的大小,例如商店的員工人數(shù),則即是第i個(gè)商店人均年銷售額。對(duì)n個(gè)取平均即是樣本商業(yè)網(wǎng)點(diǎn)人均年銷售額的平均,將此數(shù)乘以,即該地所有商業(yè)網(wǎng)點(diǎn)的員工總數(shù),即可獲得該地商業(yè)銷售總額的估計(jì)。26對(duì)于PPS抽樣,,所以有2627舉例:下表是某系統(tǒng)全部N=36個(gè)單位上一年職工人數(shù)及當(dāng)年職工人數(shù)的數(shù)據(jù),以為單位大小的度量,對(duì)單位進(jìn)行PPS抽樣,n=6,估計(jì)全系統(tǒng)當(dāng)年職工總?cè)藬?shù)Y,并與簡(jiǎn)單隨機(jī)抽樣做精度比較。27舉例:2728第三節(jié)不放回不等概率抽樣一、包含概率與πPS抽樣放回不等概率抽樣實(shí)施簡(jiǎn)單,數(shù)據(jù)處理也不復(fù)雜,在不等概率抽樣中占有一定的地位。但是由于放回抽樣有可能重復(fù)抽到同一單元,特別是個(gè)別大單元被重復(fù)抽到的可能性比較大,這就在一定程度上影響了樣本的代表性,降低了抽樣效率,也不易被實(shí)際工作者所接受。即使在相同樣本量下,放回抽樣的精度比不放回抽樣的差。因此,我們?nèi)杂斜匾芯坎环呕夭坏雀怕食闃印J聦?shí)上,由于不放回抽樣的樣本不是獨(dú)立的,因此無論是實(shí)施還是數(shù)據(jù)處理,特別是方差估計(jì),都要比放回的多項(xiàng)抽樣復(fù)雜得多。28第三節(jié)不放回不等概率抽樣一、包含概率與πPS2829在放回的不等概率抽樣中,每個(gè)單元的入樣概率起著關(guān)鍵作用。在不放回抽樣中,每個(gè)單元被包含到樣本的概率也即入樣概率及任意兩個(gè)單元都包含到樣本的概率都起著十分重要的作用,它們通稱為包含概率。29在放回的不等概率抽樣中,每個(gè)單元的入樣概率起著關(guān)29對(duì)于固定的n包含概率滿足以下性質(zhì):(1)(2)(3)對(duì)于固定的n包含概率滿足以下性質(zhì):30其中性質(zhì)1是顯然的。性質(zhì)2是對(duì)每個(gè)已在樣本中的單元而言的,固定了這個(gè)特定單元,總體中其它N-1個(gè)單元在樣本中只可能有n-1個(gè)單元,因此其中最后一個(gè)等式利用了性質(zhì)1。性質(zhì)3則直接利用性質(zhì)2:其中性質(zhì)1是顯然的。性質(zhì)2是對(duì)每個(gè)已在樣本中的單元而言的,固31與放回的PPS抽樣類似,對(duì)于不放回不等概率抽樣,我們最感興趣的是與單元大小成比例的情形。若仍記,則由性質(zhì)1有:以后我們將這種不放回的與單元大小成比例的概率抽樣稱為πPS抽樣。與放回的PPS抽樣類似,對(duì)于不放回不等概率抽樣,我們32嚴(yán)格的πPS抽樣實(shí)施起來非常復(fù)雜。事實(shí)上,只有當(dāng)n=2時(shí),才有一些簡(jiǎn)單且實(shí)用的方法。在不放回抽樣的情形,如果抽選的單元多于一個(gè),要使入樣概率與單元大小成正比以及對(duì)調(diào)查估計(jì)值的誤差進(jìn)行估計(jì)都比較復(fù)雜。在用不放回πPS抽樣抽取多于兩個(gè)單元時(shí),情況就更加復(fù)雜。實(shí)際上,這仍是一個(gè)需要進(jìn)行認(rèn)真研究的問題。除了實(shí)施方面的原因外,當(dāng)n大時(shí),的計(jì)算也極其困難,而這對(duì)于方差估計(jì)是不可少的。嚴(yán)格的πPS抽樣實(shí)施起來非常復(fù)雜。事實(shí)上,只有當(dāng)n=33
二、霍維茨—湯普森估計(jì)量及其性質(zhì)對(duì)不放回的不等概率抽樣,總體總和Y的估計(jì)采用霍維茨(Horvitz)與湯普森(Thompson)提出的以下估計(jì)量:注意這個(gè)估計(jì)量與多項(xiàng)抽樣的漢森—赫維茨估計(jì)量非常相似。事實(shí)上,對(duì)于πPS抽樣,由于,與相應(yīng)PPS抽樣的完全一致。二、霍維茨—湯普森估計(jì)量及其性質(zhì)34霍維茨—湯普森估計(jì)量具有如下性質(zhì):(1)若,則是Y的無偏估計(jì),且它的方差為:當(dāng)n固定時(shí),又有霍維茨—湯普森估計(jì)量具有如下性質(zhì):35(2)若,則是的無偏估計(jì)。又當(dāng)n固定時(shí),以下的耶茨(Yates)—格倫迪(Grundy)—森(Sen)估計(jì)量也是的無偏估計(jì):(2)若3637
三、n=2的嚴(yán)格πPS抽樣對(duì)于πPS抽樣,由于作為總體總和的霍維茨—湯普森估計(jì)量的形式相當(dāng)簡(jiǎn)單,因此就應(yīng)用角度來說,是否便利主要在于它的實(shí)施方法以及的計(jì)算。當(dāng)n=2時(shí),有幾種比較實(shí)用的方法(但在具體應(yīng)用中,n=2并不是一個(gè)十分嚴(yán)重的限制)。這些方法常用在對(duì)總體分層,在每層中抽取兩個(gè)樣本單元的情況。37三、n=2的嚴(yán)格πPS抽樣3738(1)布魯爾(Brewer)方法該方法要求對(duì)每個(gè)i,都滿足,即總體(層)中的最大單元必須小于全部單元大小總和的1/2(若不然可以將這個(gè)“特大”單元作為必調(diào)查的單元)。兩個(gè)樣本單元采用逐個(gè)抽取法抽取:第一個(gè)單元按與成比例的概率抽?。坏诙€(gè)單元?jiǎng)t在剩下的N-1個(gè)單元中按與成比例的概率抽取。38(1)布魯爾(Brewer)方法3839(2)德賓(Durbin)方法兩個(gè)樣本單元仍用逐個(gè)抽取法抽取。第一個(gè)樣本單元以概率抽取,設(shè)抽到的是單元i;第二個(gè)樣本單元?jiǎng)t按與成比例的概率抽取。由于此時(shí)的,且與布魯爾方法的相等,因此德賓方法與布魯爾方法實(shí)際上是等價(jià)的。應(yīng)用德賓方法也要求對(duì)每個(gè)i,都滿足。39(2)德賓(Durbin)方法3940四、n>2的嚴(yán)格πPS抽樣
n>2的嚴(yán)格πPS抽樣要比n=2的情況復(fù)雜得多,即使可以實(shí)現(xiàn),的計(jì)算也相當(dāng)復(fù)雜。下面僅介紹三種方法。(1)水野(Midzuno)方法這也是一種逐個(gè)抽取方法,關(guān)鍵是第一個(gè)樣本單元的抽取,它是以概率抽取的。在抽取第一個(gè)單元以后,在剩下的N-1個(gè)單元中不放回地等概率抽取n-1個(gè)單元。40四、n>2的嚴(yán)格πPS抽樣4041(2)布魯爾(Brewer)方法這是n=2的布魯爾方法在n〉2情形的推廣,也采用逐個(gè)抽取法。第一個(gè)單元是以與成比例的概率抽取。在第r次抽取時(shí),以與成比例的概率從當(dāng)時(shí)尚未入樣的單元中抽取一個(gè)單元。41(2)布魯爾(Brewer)方法4142(3)拉奧(Rao)—桑普福特(Sampford)方法這種方法是先以的概率抽取第一個(gè)樣本單元,然后以與成比例的概率有放回地抽取n-1個(gè)單元(設(shè)所有的)。一旦有單元被重復(fù)抽中,則放棄所有已經(jīng)抽到的單元重抽,直到抽中的n個(gè)單元都不同為止。這種方法的也比較復(fù)雜,需要通過計(jì)算機(jī)計(jì)算。42(3)拉奧(Rao)—桑普福特(Sampford4243五、n>2的兩種非嚴(yán)格的πPS抽樣當(dāng)n>2時(shí),嚴(yán)格的πPS抽樣比較復(fù)雜,特別是在對(duì)包含概率的計(jì)算上。為此統(tǒng)計(jì)學(xué)家研究了一些非嚴(yán)格的πPS抽樣方法。(1)莫蒂(Murthy)方法(2)拉奧(Rao)—哈特利(Hartley)—科克倫(Cochran)方法43五、n>2的兩種非嚴(yán)格的πPS抽樣43本章內(nèi)容講授結(jié)束本章內(nèi)容講授結(jié)束4445第六章不等概率抽樣第一節(jié)不等概率抽樣概述第二節(jié)放回不等概率抽樣第三節(jié)不放回不等概率抽樣1第六章不等概率抽樣第一節(jié)不等概率抽樣概述4546第一節(jié)不等概率抽樣概述
一、不等概率抽樣的必要性在簡(jiǎn)單隨機(jī)抽樣中,總體(或?qū)?中的每個(gè)單元入樣的概率都相等。如果總體中的每個(gè)單元在該總體中的地位(或重要性)相差不多,則這種基于等概率的抽樣是理所當(dāng)然的選擇。等概率抽樣不僅實(shí)施簡(jiǎn)單,而且相應(yīng)的數(shù)據(jù)處理公式也簡(jiǎn)單。但是在許多實(shí)際問題中,我們還需要使用不等概率抽樣(samplingwithunequalprobabilities)。2第一節(jié)不等概率抽樣概述一、不等概率抽樣的必要性4647一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致。另一種需要用到不等概率抽樣的情況是,抽樣單元在總體中所占的地位不一致。最重要的一種不等概率抽樣乃是使每個(gè)單元入樣的概率與該單元的大小成比例的抽樣(samplingwithprobabilitiesproportionaltosizes,簡(jiǎn)稱PPS抽樣)。3一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致4748第三種需用不等概率抽樣的情況是為了改善估計(jì)量的特性。每個(gè)可能的樣本若被抽的概率與樣本中單元的輔助變量之和成正比的話,則按此進(jìn)行不等概率抽樣所得到的樣本,用通常的比估計(jì)方法所得的估計(jì)量是無偏的。4第三種需用不等概率抽樣的情況是為了改善估計(jì)量的特性4849總之,在實(shí)際工作中需要我們經(jīng)常采用不等概率抽樣。另外,從上面列舉的情況也可看到,凡需使用不等概率抽樣的場(chǎng)合,必須提供總體單元的某種輔助信息,例如每個(gè)單元的“大小”度量Mi或輔助變量Xi等。5總之,在實(shí)際工作中需要我們經(jīng)常采用不等概率抽樣。另4950二、不等概率抽樣的主要分類不等概率抽樣可按多種原則進(jìn)行分類。鑒于不等概率抽樣同時(shí)會(huì)帶來目標(biāo)量估計(jì)及其方差估計(jì)的復(fù)雜性,可分為放回抽樣:每次在總體(或?qū)?中按一定概率抽取一個(gè)單元,抽取后放回總體,再進(jìn)行下一次抽樣,每次抽樣都是獨(dú)立的。不放回抽樣。其代價(jià)是:由于喪失了獨(dú)立性,無論是抽樣方法還是方差估計(jì),都要比放回抽樣繁復(fù)得多。6二、不等概率抽樣的主要分類不等概率抽樣可按多種原則5051另一種分類是:視每次抽樣(放回抽樣的情形)概率或每個(gè)單元的入樣概率(不放回抽樣的情形)是否嚴(yán)格地與單元的大小成比例。另外,看樣本量n是固定的還是隨機(jī)的。最重要的情形乃是當(dāng)n固定,且上述概率與單元大小嚴(yán)格成比例的不等概率抽樣。以后我們將這種情形的放回抽樣稱為PPS抽樣,稱相應(yīng)的不放回抽樣為πPS抽樣。7另一種分類是:視每次抽樣(放回抽樣的情形)概率或每5152對(duì)于不放回抽樣,按其樣本單元抽取方式的不同又可分為以下幾種方法:1.逐個(gè)抽取法。每次從尚未入樣的單元中以一定概率抽取一個(gè)單元,這個(gè)概率通常與已經(jīng)入樣的單元有關(guān),2.重抽法。以一定概率逐個(gè)進(jìn)行放回抽樣,若一旦抽到重復(fù)單元,則放棄所有已抽到的單元而重新抽取,直到抽到規(guī)定單元數(shù)且所有入樣單元都不同為止。Back8對(duì)于不放回抽樣,按其樣本單元抽取方式的不同又可分為52533.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的單元入樣(或其倍數(shù))累計(jì)起來,并確定抽樣間隔,在這個(gè)范圍內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù)以確定初始入樣單元,然后按上述抽樣間隔確定其余的樣本單元。4.全樣本方法。對(duì)每個(gè)可能樣本規(guī)定一個(gè)被抽中的概率,按這個(gè)概率一次抽取整個(gè)樣本。Back93.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的5354三、不等概率抽樣的特點(diǎn)不等概率抽樣的主要優(yōu)點(diǎn)是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計(jì)效率,與簡(jiǎn)單隨機(jī)抽樣甚至與分層抽樣相比,能顯著地減少抽樣誤差。10三、不等概率抽樣的特點(diǎn)不等概率抽樣的主要優(yōu)點(diǎn)是由5455不等概率抽樣有以下的缺點(diǎn):抽樣框中的所有單元,都要有高質(zhì)量的、能用作大小度量的輔助信息;抽樣框的創(chuàng)建比簡(jiǎn)單隨機(jī)抽樣和系統(tǒng)抽樣成本高,更復(fù)雜,因?yàn)樾枰攘亢痛鎯?chǔ)總體中每一個(gè)單元的大??;并非在任何情況下都能使用,因?yàn)椴⒉皇敲恳粋€(gè)總體都有穩(wěn)定且與主要調(diào)查變量相關(guān)的有關(guān)大小或規(guī)模的度量;抽樣及估計(jì)(特別對(duì)不放回抽樣)相當(dāng)復(fù)雜;
當(dāng)單元大小度量不準(zhǔn)確或不穩(wěn)定時(shí)不適用,此時(shí)更好的辦法是將單元按大小分組并使用分層抽樣。Back11不等概率抽樣有以下的缺點(diǎn):抽樣框中的所有單元,都5556第二節(jié)放回不等概率抽樣一、多項(xiàng)抽樣多項(xiàng)抽樣是一種最簡(jiǎn)單的不等概率抽樣。它是從容量為N的總體中有放回地進(jìn)行獨(dú)立抽樣,每次抽樣中,使抽到第i個(gè)單元的概率為Zi,i=1,2,…,N,,連續(xù)抽n次,從而抽到n個(gè)單元。12第二節(jié)放回不等概率抽樣一、多項(xiàng)抽樣5657若記為總體中第i個(gè)單元在n次抽樣中被抽到的次數(shù),顯然對(duì)每個(gè)i都有:,且。作為隨機(jī)變量(,,…),它的聯(lián)合分布即是以下的多項(xiàng)分布:這就是多項(xiàng)抽樣這個(gè)術(shù)語的來源。13若記為總體中第i個(gè)單元在n次抽樣中被抽到的次數(shù),5758根據(jù)多項(xiàng)分布的性質(zhì),有當(dāng)每個(gè)單元具有一個(gè)說明其大小或規(guī)模的度量時(shí),每個(gè)單元在每次抽樣中的入樣概率與單元大小成比例,稱這種特殊的多項(xiàng)抽樣為放回的與大小成比例的概率抽樣,簡(jiǎn)稱PPS抽樣。14根據(jù)多項(xiàng)分布的性質(zhì),有5859二、PPS抽樣PPS抽樣是與大小(或規(guī)模)成比例的概率抽樣,是一種使用輔助信息從而使入樣概率不相等的抽樣技術(shù)。如果總體單元的大小或規(guī)模變化很大,且這些大小是已知的,這樣的信息就可以用在抽樣中,以提高統(tǒng)計(jì)效率。如果單元大小的度量是準(zhǔn)確的,而且所研究的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。但如果大小的度量不大準(zhǔn)確,最好按大小分組并使用分層抽樣。15二、PPS抽樣5960PPS抽樣的入樣概率。如上所述,PPS抽樣時(shí)可取為第i個(gè)單元的入樣概率,其中是總體中所有單元的“大小”之和,為第i個(gè)單元的大小。16PPS抽樣的入樣概率。如上所述,PPS抽樣時(shí)可取6061有時(shí),關(guān)于單元的大小只是約略知道或這個(gè)“大小”并不是用單元所含的次級(jí)單元數(shù)來表示的,而是用其它有關(guān)尺度來計(jì)量。此時(shí),設(shè)第i單元大小的計(jì)量尺度為,則有:
這時(shí)的PPS抽樣也稱作PPZ抽樣。17有時(shí),關(guān)于單元的大小只是約略知道或這個(gè)“6162三、多項(xiàng)抽樣的實(shí)施方法如何抽取一個(gè)不等概率樣本呢?有三種主要方法:代碼法、系統(tǒng)法及隨機(jī)系統(tǒng)法。以下的討論以PPS抽樣為例,并假定單元大小皆為整數(shù)。18三、多項(xiàng)抽樣的實(shí)施方法6263(1)代碼法(累計(jì)和法,隨機(jī)法或漢森—赫維茨法)設(shè)N不太大,且(或)為第i單元大小的度量,且為整數(shù),對(duì)總體中的每個(gè)單元計(jì)算累計(jì)大小,得到總體所有單元代碼的累計(jì)和,對(duì)總體中每個(gè)單元確定與它相對(duì)應(yīng)的代碼范圍;在1到總的累計(jì)大小范圍內(nèi)抽取一個(gè)隨機(jī)數(shù),該隨機(jī)數(shù)相應(yīng)的代碼范圍中的單元即為入樣單元。重復(fù)上述步驟,直到抽得n個(gè)單元為止。19(1)代碼法(累計(jì)和法,隨機(jī)法或漢森—赫維茨法)6364PPS抽樣時(shí),單元的代碼如下表:20PPS抽樣時(shí),單元的代碼如下表:6465(2)拉希里法(二次抽樣法)代碼法要將累計(jì),在N不太大時(shí)是適用的,但當(dāng)N很大時(shí),就很不方便。此時(shí)可用Lahiri(拉希里)1951年提出的方法。令每次抽取一個(gè)范圍內(nèi)的隨機(jī)數(shù)及范圍內(nèi)的隨機(jī)數(shù)m,若,則第單元入樣;否則,重抽。此時(shí),第i個(gè)單元的入樣概率與成正比,從而。重復(fù)這一過程,直到抽夠所需的個(gè)單元。21(2)拉希里法(二次抽樣法)6566(3)系統(tǒng)PPS抽樣方法對(duì)總體中的每個(gè)單元,計(jì)算累計(jì)大??;對(duì)總體中每個(gè)單元確定與它相對(duì)應(yīng)的代碼范圍;確定抽樣間隔k=總累計(jì)大小/n;在1和k的范圍內(nèi)確定一個(gè)隨機(jī)起點(diǎn)r;與代碼r,r+k,r+2k,…,r+(n-1)k所在范圍相對(duì)應(yīng)的單元入樣。注意,當(dāng)r+(n-1)k超過總累計(jì)大小時(shí),應(yīng)使用圓形系統(tǒng)抽樣中的模余數(shù)法。22(3)系統(tǒng)PPS抽樣方法6667(4)隨機(jī)系統(tǒng)抽樣法在這種方法中,名錄在系統(tǒng)抽樣前要進(jìn)行隨機(jī)排序。如果完全按原來的排序,會(huì)把一些可能的樣本排除在外。在上面介紹的系統(tǒng)抽樣的例子中,不可能把單元3和4同時(shí)抽入同一個(gè)樣本。把名錄重新隨機(jī)排列后會(huì)增加潛在的可能抽到的樣本數(shù)量。實(shí)際上這些方法都有些問題。例如,對(duì)系統(tǒng)抽樣法或隨機(jī)系統(tǒng)抽樣法,一個(gè)大小大于抽樣間隔的單元,就有重復(fù)被抽中的可能。只有把這些大單元放入單獨(dú)的一個(gè)層,并獨(dú)立地對(duì)它們進(jìn)行抽樣,才能克服這個(gè)問題。另一個(gè)問題是估計(jì)值的抽樣方差估計(jì)比較困難。23(4)隨機(jī)系統(tǒng)抽樣法6768
四、估計(jì)量對(duì)于多項(xiàng)抽樣,由于抽樣是不等概率的,每個(gè)樣本單元的觀測(cè)值就不再是“平等的”,因此對(duì)于總體參數(shù)的估計(jì)與等概率抽樣不同。漢森—赫維茨提出,如果是按為入樣概率的多項(xiàng)抽樣抽得的樣本指標(biāo)值,相應(yīng)的為,則總體總和Y的無偏估計(jì)量如下:24四、估計(jì)量6869且若n〉1,則的無偏估計(jì)量為25且6970對(duì)于PPS抽樣,,所以有其中是第i個(gè)樣本單元的觀測(cè)值,例如商店的年銷售額,而是該單元的大小,例如商店的員工人數(shù),則即是第i個(gè)商店人均年銷售額。對(duì)n個(gè)取平均即是樣本商業(yè)網(wǎng)點(diǎn)人均年銷售額的平均,將此數(shù)乘以,即該地所有商業(yè)網(wǎng)點(diǎn)的員工總數(shù),即可獲得該地商業(yè)銷售總額的估計(jì)。26對(duì)于PPS抽樣,,所以有7071舉例:下表是某系統(tǒng)全部N=36個(gè)單位上一年職工人數(shù)及當(dāng)年職工人數(shù)的數(shù)據(jù),以為單位大小的度量,對(duì)單位進(jìn)行PPS抽樣,n=6,估計(jì)全系統(tǒng)當(dāng)年職工總?cè)藬?shù)Y,并與簡(jiǎn)單隨機(jī)抽樣做精度比較。27舉例:7172第三節(jié)不放回不等概率抽樣一、包含概率與πPS抽樣放回不等概率抽樣實(shí)施簡(jiǎn)單,數(shù)據(jù)處理也不復(fù)雜,在不等概率抽樣中占有一定的地位。但是由于放回抽樣有可能重復(fù)抽到同一單元,特別是個(gè)別大單元被重復(fù)抽到的可能性比較大,這就在一定程度上影響了樣本的代表性,降低了抽樣效率,也不易被實(shí)際工作者所接受。即使在相同樣本量下,放回抽樣的精度比不放回抽樣的差。因此,我們?nèi)杂斜匾芯坎环呕夭坏雀怕食闃?。事?shí)上,由于不放回抽樣的樣本不是獨(dú)立的,因此無論是實(shí)施還是數(shù)據(jù)處理,特別是方差估計(jì),都要比放回的多項(xiàng)抽樣復(fù)雜得多。28第三節(jié)不放回不等概率抽樣一、包含概率與πPS7273在放回的不等概率抽樣中,每個(gè)單元的入樣概率起著關(guān)鍵作用。在不放回抽樣中,每個(gè)單元被包含到樣本的概率也即入樣概率及任意兩個(gè)單元都包含到樣本的概率都起著十分重要的作用,它們通稱為包含概率。29在放回的不等概率抽樣中,每個(gè)單元的入樣概率起著關(guān)73對(duì)于固定的n包含概率滿足以下性質(zhì):(1)(2)(3)對(duì)于固定的n包含概率滿足以下性質(zhì):74其中性質(zhì)1是顯然的。性質(zhì)2是對(duì)每個(gè)已在樣本中的單元而言的,固定了這個(gè)特定單元,總體中其它N-1個(gè)單元在樣本中只可能有n-1個(gè)單元,因此其中最后一個(gè)等式利用了性質(zhì)1。性質(zhì)3則直接利用性質(zhì)2:其中性質(zhì)1是顯然的。性質(zhì)2是對(duì)每個(gè)已在樣本中的單元而言的,固75與放回的PPS抽樣類似,對(duì)于不放回不等概率抽樣,我們最感興趣的是與單元大小成比例的情形。若仍記,則由性質(zhì)1有:以后我們將這種不放回的與單元大小成比例的概率抽樣稱為πPS抽樣。與放回的PPS抽樣類似,對(duì)于不放回不等概率抽樣,我們76嚴(yán)格的πPS抽樣實(shí)施起來非常復(fù)雜。事實(shí)上,只有當(dāng)n=2時(shí),才有一些簡(jiǎn)單且實(shí)用的方法。在不放回抽樣的情形,如果抽選的單元多于一個(gè),要使入樣概率與單元大小成正比以及對(duì)調(diào)查估計(jì)值的誤差進(jìn)行估計(jì)都比較復(fù)雜。在用不放回πPS抽樣抽取多于兩個(gè)單元時(shí),情況就更加復(fù)雜。實(shí)際上,這仍是一個(gè)需要進(jìn)行認(rèn)真研究的問題。除了實(shí)施方面的原因外,當(dāng)n大時(shí),的計(jì)算也極其困難,而這對(duì)于方差估計(jì)是不可少的。嚴(yán)格的πPS抽樣實(shí)施起來非常復(fù)雜。事實(shí)上,只有當(dāng)n=77
二、霍維茨—湯普森估計(jì)量及其性質(zhì)對(duì)不放回的不等概率抽樣,總體總和Y的估計(jì)采用霍維茨(Horvitz)與湯普森(Thompson)提出的以下估計(jì)量:注意這個(gè)估計(jì)量與多項(xiàng)抽樣的漢森—赫維茨估計(jì)量非常相似。事實(shí)上,對(duì)于πPS抽樣,由于,與相應(yīng)PPS抽樣的完全一致。二、霍維茨—湯普森估計(jì)量及其性質(zhì)78霍維茨—湯普森估計(jì)量具有如下性質(zhì):(1)若,則是Y的無偏估計(jì),且它的方差為:當(dāng)n固定時(shí),又有霍維茨—湯普森估計(jì)量具有如下性質(zhì):79(2)若,則是的無偏估計(jì)。又當(dāng)n固定時(shí),以下的耶茨(Yates)—格倫迪(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職(旅游管理綜合實(shí)訓(xùn))服務(wù)提升實(shí)操測(cè)試試題及答案
- 2026年室內(nèi)設(shè)計(jì)(空間案例)試題及答案
- 2026年快遞服務(wù)(問題件處理)試題及答案
- 2025年高職安全工程技術(shù)(工業(yè)安全防護(hù))試題及答案
- 2025年中職地質(zhì)調(diào)查與找礦(地質(zhì)調(diào)查基礎(chǔ))試題及答案
- 巴馬介紹教學(xué)課件
- 養(yǎng)老院老人生活?yuàn)蕵坊顒?dòng)組織服務(wù)質(zhì)量管理制度
- 養(yǎng)老院老人康復(fù)理療師管理制度
- 養(yǎng)老院老人健康檔案管理制度
- 養(yǎng)老院?jiǎn)T工請(qǐng)假制度
- 河南豫能控股股份有限公司及所管企業(yè)2026屆校園招聘127人筆試備考試題及答案解析
- 草原管護(hù)考試題及答案
- Unit 8 Let's Communicate!Section B 1a-1e 課件 2025-2026學(xué)年人教版八年級(jí)英語上冊(cè)
- 2026年四川單招職高語文基礎(chǔ)知識(shí)練習(xí)與考點(diǎn)分析含答案
- 2026年交管12123駕照學(xué)法減分題庫100道【基礎(chǔ)題】
- 寒假女生安全教育課件
- 2026年孝昌縣供水有限公司公開招聘正式員工備考題庫及1套參考答案詳解
- 6.2 中位數(shù)與箱線圖 教學(xué)設(shè)計(jì)(2課時(shí))2025-2026學(xué)年數(shù)學(xué)北師大版八年級(jí)上冊(cè)
- 2024年常州工業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫附答案解析
- PDCA提高臥床患者踝泵運(yùn)動(dòng)鍛煉的正確率
- YB/T 036.10-1992冶金設(shè)備制造通用技術(shù)條件鍛鋼件超聲波探傷方法
評(píng)論
0/150
提交評(píng)論