第九章二階與多階抽樣抽樣調查理論與方法北京商學院_第1頁
第九章二階與多階抽樣抽樣調查理論與方法北京商學院_第2頁
第九章二階與多階抽樣抽樣調查理論與方法北京商學院_第3頁
第九章二階與多階抽樣抽樣調查理論與方法北京商學院_第4頁
第九章二階與多階抽樣抽樣調查理論與方法北京商學院_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章二階與多階抽樣

二階抽樣與分層抽樣、整群抽樣的一個共同特點是:將總體分為若干個群;所不同的是:分層抽樣是每個群內都進行抽樣,整群抽樣是抽若干個群再在群內普查,而二階抽樣則是抽若干個群再在群內抽樣。因此,可將分層抽樣與整群抽樣看作是二階抽樣的特殊情況。在整群抽樣中,如果抽中的群內所含的次級單元個數相當地多,此時對該群作普查會感到“心有余而力不足”。特別當群內的次級單元差異不大,即比較大,這種情形下對群內所有的次級單元一一訪問似乎完全沒有必要,一個省時省錢又省力的念頭會在調查者的頭腦中油然而生,何不在抽到的群內再作一定方式的抽樣呢?這種在選中的初級單元中再進行抽樣的方法稱為二階抽樣。倘若在抽取的次級單元中又包含許多更次一級的單元,在這些單元中繼續(xù)抽樣就自然地稱為三階抽樣。第一頁,共四十五頁。抽樣形式第一階段第二階段分層抽樣整群抽樣二階抽樣抽全部抽部分抽全部抽部分抽部分抽部分二階與多階抽樣的優(yōu)點:1、它具有實施上的方便,比如在編制抽樣框時那些沒有被抽到的群或次一級群內的單元就沒有必要也去編制抽樣框。僅需對那些已抽中的單元才去準備下一級單元的抽樣框,而且許多抽樣調查常常采用行政系統(tǒng)及隸屬單元,這給多階抽樣本身創(chuàng)造了有利的條件。第二頁,共四十五頁。另外,多階抽樣方法可以用到關于散料的抽樣。所謂散料是指連續(xù)松散的不易區(qū)分為個體或抽樣單元的材料。例如,煤、糧食、水泥、化肥等原料的質量檢測,此時抽樣單元常常需要人為劃分,一般取自然單位,諸如一公斤、一杯子等;而初級單元則為包裝袋、一卡車、一個車皮等。這種數量眾多的散料的質量檢測采用二階或多階抽樣也許是最有效的手段。為方便,本章主要討論二階抽樣。2、能夠滿足各級政府部門對抽樣調查資料的需求。因為各級政府領導都關心全國和本地區(qū)、本部門的社會經濟發(fā)展狀況,希望抽樣調查能同時滿足全國性和地方性的需要。因而采用二階或多階抽樣,在一定程度上能夠滿足各級政府、部門對調查資料的需求。3、有利于減少抽樣誤差、提高抽樣估計精度。這種抽樣調查方法,可以使每個一階樣本單位分布比較均勻,具有很好的代表性;對于方差大的階段多抽些樣本單位以提高精度。第三頁,共四十五頁。先作一些基本假設:

(1)初級單元中包含的次級單元個數同為M,因此在抽中的初級單元中再抽取的次級單元個數也相等,記為m?!?初級單元大小相等的二階抽樣

(2)兩個階段的抽樣方法都是簡單隨機抽樣。

(3)在抽中的若干初級單元中作第二階抽樣是相互獨立進行的。再引進一些必要的記號:——表示第初級單元中第個次級單元——表示樣本中第初級單元中第個次級單元的觀測值第四頁,共四十五頁?!诔跫墕卧偤汀诔跫墕卧骄怠傮w平均值—初級單元(群)內的方差—總體中初級單元(群)間方差將改為,N改為n,M改為m,則為相應的樣本指標值第五頁,共四十五頁。第i群內次級單元間的方差記為:顯然有——所有的平均數。1、估計量及其方差總體平均數的估計是用樣本平均數進行估計的容易證明,這個估計量是的無偏估計。第六頁,共四十五頁。其方差為:(9.1)其中,方差的無偏估計為:(9.2)總體總數的估計為:方差的無偏估計為:總體平均數95%的置信區(qū)間為總體總數95%的置信區(qū)間為第七頁,共四十五頁。例9.1:新華書店某柜臺上月共用去發(fā)票70本,每本100張,現隨機從中抽出10本,每本隨機抽出15張發(fā)票,得到數據如下表:給出上月柜臺營業(yè)總額的估計及其方差。i12345678910375.25408.30323.40502.50234.00387.75284.20256.60314.10280.5011280.2512115.998752.7617833.753953.0011302.506573.044822.366921.015827.2525.0227.2221.5633.5015.6025.8518.9517.1120.9418.70135.0271.58127.1671.4321.6197.3784.7530.7924.5541.56第八頁,共四十五頁。解:N=70,n=10,M=100,m=15故上月柜臺營業(yè)總額的估計為157108.00元第九頁,共四十五頁。標準差為元營業(yè)總額95%的置信區(qū)間為第十頁,共四十五頁。2、最優(yōu)抽樣比如果初級單元(或群)之間的旅行費用不占重要地位的話,常采用簡單線性費用函數:二階抽樣存在兩次概率抽樣,因而存在兩個抽樣比因此我們面臨的問題是:(1)在總費用給定的條件下,如何確定與而使的方差達到最??;(2)在給定估計量的精度條件下,如何確定與以使總費用最小。其中是基本費用,是每調查一個初級單元與次級單元所花費的費用。(9.3)將方差表達成:(9.4)第十一頁,共四十五頁。于是,在固定C下極小化或在固定下極小化C均等價于使下式極小化:其中:。但這里要求。假如,表明群內差異明顯地大于群間的差異,因此對于抽到的群來說,最好作全面調查才能保證樣本的代表性,此時總使m=M。現考慮(9.5)第十二頁,共四十五頁。在(9.5)式中,由于都是常數,為使(9.5)達到最小,只要(9.6)達到最小,這兩個加項的乘積恰好為常數,因此只要這兩項相等就可使Q達到最小,此時應取或者m的最優(yōu)取值為:(9.7)一般地,不是整數,記為的最小整數部分,那么(為的小數部分,且)。第十三頁,共四十五頁。如果,則取如果,則取易見,對于的小數部分大于或等于0.5的情況,我們總取,這符合通常的“五入”規(guī)則,是否“四舍”?當時,就要看的最小整數部分的大小了。由m的選取,代入(9.3)或(9.4)立即可以得到n的數值。3、分層二階抽樣所謂分層二階抽樣就是將總體分為k個層,在每層內進行二階抽樣。比如,一所大學有8個系,每個系有若干個班級,每班大約人數為40人,為了解學生的情況需要作一次抽樣調查,在每個系都隨機抽幾個班,再在抽中的班級里抽取若干人的簡單隨機抽樣,這就構成二階分層抽樣。第十四頁,共四十五頁。本節(jié)討論的二階分層抽樣,假設在同一層內初級單元大小相等,但不同層可以不相等。設第h層含個初級單元,每個初級單元包含個次級單元,于是總體中共含有個次級單元。又假設在第h層按照簡單隨機抽樣方法抽取個初級單元,在每個被抽中的初級單元中再抽取容量為的簡單隨機抽樣。設第h層中樣本的(二階抽樣)平均數為,因此按照分層估計的技巧,總體的(按次級單元)平均數的分層二階估計量為:(9.8)其中為第h層(按次級單元)的層權:第十五頁,共四十五頁。(9.9)(9.10)而由于各層的抽樣相互獨立,而由二階抽樣的有關討論,的方差及其方差估計是已知的,因此:(9.11)(9.12)其中分別為第h層中的兩個抽樣比。第十六頁,共四十五頁。和是第h層中的群間和群內方差,與是第h層中樣本的群間和群內方差。顯然,總體總和的分層二階抽樣估計為:(9.13)其方差及其方差估計為:在分層二階抽樣中當然也存在最優(yōu)抽樣比的問題,不過此時假定費用函數一般應當與“層”有關系:(9.14)第十七頁,共四十五頁。固定費用C而使方差達到最小或方差有一定精度要求下使費用達到最小,此時的最優(yōu)選擇為:(9.15)其中總假設對所有的h,都有。第十八頁,共四十五頁?!?初級單元大小不等的二階抽樣在實踐中,除少數情況外,初級單元的大小不一定相等當然理想一些的情況,我們在分群時就注意到先將單元按照大小分層,使得同一層中初級單元大小相等,然后利用上面所講的分層二階抽樣的辦法來做。只可惜在實際操作中,分層分群常常有一些“自然”形式,例如從行政系統(tǒng)劃分等。因此,我們只能面對初級單元大小不等的情形,由于初級單元大小不一樣,合理的手段是對初級單元采用不等概率抽樣。先給出一些相關的記號:——表示第初級單元中第個次級單元—第初級單元總和—第初級單元平均值第十九頁,共四十五頁?!傮w總和——總體平均數(按次級單元)——總體平均數(按初級單元)—第i初級單元內方差1、只抽取一個初級單元情形(n=1)先考慮從N個初級單元中隨機選取1個以推斷總體.這種情形看起來似乎很特殊,但在生活中也不少見,例如在隨機地選的一個班級中抽取幾個人進行考試以測試全年級的教育質量。只選取1個單元,仍有等概率與不等概率之分.第二十頁,共四十五頁。(1)等概率抽取初級單元考慮對總體平均數的估計.首先使用抽中的初級單元中的樣本平均數對進行估計(9.16)對第i初級單元來講,由盒子模型可知,是的無偏估計。由于第i個抽樣單元是等概率抽取,相當于從盒子中等可能抽取一次,那么所得之數一定是這個盒子平均數的無偏估計,即而,那么不是的無偏估計,而是有偏估計!第二十一頁,共四十五頁。因此,對只能求均方誤差:作為的有偏估計,的均方誤差由三部分構成:一是由偏倚引起的平方和,這就是(9.17)式右邊的第一項;二是按初級單元(此時初級單元的特征指標當然只能是其平均數)而計算的總體方差,(9.17)式右邊的第二項恰好體現出這一點;最后一部分是初級單元中次級單元的方差平方和,這恰好是(9.17)式右邊的第三項。從的表達式可以看出,其第一項和第二項都與的選擇沒有任何關系,倘若要盡力減少誤差,目標自然注意到第三項,然而第三部分是無法知道且也是無法估計的,因為既然我們只選取一個初級單元,又如何能估計所有的呢?第二十二頁,共四十五頁。由于是二階抽樣,也不可能取。在一般情況下,為了方便起見,常采用選取=常數,不管取到哪一個初級單元,總抽預先指定好的樣本容量,要不,取與成一定的比例比較合理一些。不是的無偏估計這一缺陷是由“等可能”抽取而引起的,這時候每一個有著同等重要的地位而由于初級單元大小不同,在的構造中顯然不是有著同等地位的,這個事實使我們找到了一個彌補“等可能”所引起缺陷的辦法,那就是在構造估計量時考慮被抽到的初級單元的大小作為“權”:(9.18)第二十三頁,共四十五頁。其中表示所有初級單元的平均大小。這個估計的意義很清楚,它的乘以成為第i個初級單元內總和的估計,再乘以N成為總體總和的估計,這個估計除以作為的估計量是合理的?!皺唷钡淖饔檬鞘钩跫墕卧闹笜嘶癁榇渭墕卧挠嘘P指標。既然是第i個初級單元的總和的無偏估計,由于第一階抽樣的“等可能性”,應當是總體總和的無偏估計,于是有:(9.19)(9.20)的方差為:第二十四頁,共四十五頁。應當指出,對彌補的只是“期望”或“平均”上的偏倚,至于在精度上是否獲益則很難定。例如,倘若各個初級單元的平均數比較穩(wěn)定,而相距較大,引起前的系數的差異較大,這種場合下比起來變化范圍顯然大得多,效果就比較差。(2)不等概率抽取初級單元用等概率方法抽取初級單元對于大小不等的初級單元情形顯然不太合理,精度較差是可想而知的。一般地,我們采用的不等概率抽取法有如下幾種:①按概率抽取到第i個初級單元,此時構造的估計量為:(9.21)第二十五頁,共四十五頁。與表面上形式相同,只不過取的概率為而取的概率為(9.22)即是的無偏估計量。(9.23)第二十六頁,共四十五頁。②抽取概率按預先指定的一組概率來實施,構造估計量為:(9.24)(9.25)即是的無偏估計量。(9.26)第二十七頁,共四十五頁。顯然,若取,則。若取,則。③抽取方式與②相同,但構造的關于的估計量為:(9.27)此時,每個具有權,因此(9.28)一般地,因此是有偏估計。其均方誤差為:(9.29)第二十八頁,共四十五頁。Cochran構造了一個虛擬總體(N=3)進行抽樣以對上述五種方法進行比較:例9.2Cochran(1977)N=3初級單元(大小不等)的虛擬總體1230,11,2,2,33,3,4,4,5,524618240.5000.6670.8000.52.04.0第二十九頁,共四十五頁。方法抽取各單元的概率的估計量是否無偏單元間單元內總計Ⅱ無偏05.7920.2566.048Ⅲ無偏01.8130.1892.002Ⅳ無偏03.5830.2133.796Ⅴ有偏0.0621.8000.1732.035ⅠⅠ有偏0.3402.0560.1442.5410.3402.0560.1832.579取Ⅰ唯取第三十頁,共四十五頁。上表中最后一列的MSE是比較優(yōu)劣的關鍵,盡管是無偏估計,但是效果最差。同樣是無偏估計,的效果最好。這兩個事實也表明了“無偏性”對于估計量的誤差判斷并非是決定性的,有時為了使均方誤差小一些,人們寧可放棄無偏性,作為有偏估計其效果幾乎不亞于。注意到Ⅲ、Ⅳ、Ⅴ三種方法都是不等概率抽樣,Ⅴ與Ⅲ除了不同外其余均相同,由于與差異不大,因此Ⅴ的效果相對也就比較好。而對于,盡管與相同,但對其估計量“刻意”要求無偏卻引起了均方誤差的很不理想!第三十一頁,共四十五頁。2、抽取個初級單元情形兩個以上的初級單元里進行第二階抽樣,合理的基本假定是在不同的初級單元內的抽樣過程相互之間獨立。為方便起見,仍像以前一樣假定第二階抽樣為簡單隨機抽樣,在這一小段討論中,我們主要考慮總體總和的估計。(1)初級單元按多項抽樣方法抽取設初級單元以給定的一組概率逐個放回地抽取n次,在每個被抽中的初級單元里實施容量為的簡單隨機抽樣:假若第i個初級單元在第一階抽樣中被抽中二次或二次以上,那么在第i個初級單元中將獨立地對全體次級單元進行二次或二次以上的容量為的簡單隨機抽樣。第三十二頁,共四十五頁。顯然,對第i個初級單元的總和可自然地找到無偏估計,以這些代替的話,那么整群抽樣中的Hansen—Hurwitz型估計無疑為提供了無偏估計:(9.30)其方差為:(9.31)其中第三十三頁,共四十五頁。(2)初級單元按簡單隨機抽取方式抽取由于二階抽樣都是采用簡單隨機抽樣形式,于是可對總體總和采用一個最為簡單的估計形式:(9.32)由于與是與的無偏估計,因此也是的無偏估計。其方差為:(9.33)第三十四頁,共四十五頁。方差的無偏估計為:(9.34)其中這類簡單估計雖然形式簡單,而且結構也容易為人們接受,同時又是總體的無偏估計,但是它的效果并不理想,方差顯得較大。第三十五頁,共四十五頁。(3)按不放回不等概率抽取初級單元如果抽取到的第i個初級單元的總和估計為(簡單隨機抽樣下的無偏估計),那么由第六章第二節(jié)易知,總體總和的二階估計可采用如下形式的Horvitz—Thompson估計量?,F在考慮初級單元是按不放回不等概率抽取,而第二階抽取仍為在抽取的初級單元中實行簡單隨機抽樣。那么在第一階抽樣中就存在包含概率。(9.35)由于或是的無偏估計,又是的無偏估計,所以是的無偏估計。第三十六頁,共四十五頁。其方差為:(9.38)其中方差的無偏估計為:(9.39)其中第三十七頁,共四十五頁?!?三階及多階抽樣將有關二階抽樣的一些公式與估計推廣到三階乃至更高階的情況是很現實的,其實基本上是依樣畫葫蘆,只不過在符號與計算方面更為復雜些,尤其是對于各級單元大小都相等時更是如此,下面以三階為例。1、各級單元大小均相等時的三階抽樣設總體中含有N個初級單元,每個初級單元包含M個次級單元,而每一個次級單元均包含K個三級單元。各階的抽樣容量分別為n、m、k,引進一些必要的記號:—表示第初級單元

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論