比估計(jì)與回歸估計(jì).ppt_第1頁
比估計(jì)與回歸估計(jì).ppt_第2頁
比估計(jì)與回歸估計(jì).ppt_第3頁
比估計(jì)與回歸估計(jì).ppt_第4頁
比估計(jì)與回歸估計(jì).ppt_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、前面討論的簡單隨機(jī)抽樣和分層抽樣,我們所關(guān)心的參數(shù)都是單指標(biāo)的,給出的估計(jì)量也是線性形式。這一章我們將要討論比較復(fù)雜的情況,我們關(guān)心的參數(shù)不再是單指標(biāo)的而是兩個(gè)或兩個(gè)以上的指標(biāo)。此時(shí),遇到的統(tǒng)計(jì)量不再是線性形式,往往呈現(xiàn)出非線性形式,比如兩個(gè)變量之比,或呈現(xiàn)變量之間的回歸關(guān)系。,第五章 比估計(jì)與回歸估計(jì),所謂回歸關(guān)系就是變量之間的關(guān)系不是確定的,是帶有 隨機(jī)影響的。比如身高和體重的關(guān)系,身高增加時(shí),一般來 說,體重也會(huì)增加,但又不能說一定如此。要確定身高和體,1 概 述,一、問題的提出,重的關(guān)系,一般用回歸的方法。這類問題首先是由英國統(tǒng)計(jì) 學(xué)家高爾頓研究兒子的身高與父親身高關(guān)系時(shí)提出的,他發(fā)

2、現(xiàn)兒子的身高有回到家族平均身高的趨勢,因而把所得關(guān)系 式稱為回歸方程,于是回歸的名詞就沿用下來了。,比估計(jì)與比例估計(jì),輔助變量:用來幫助主要指標(biāo)估計(jì)的其他指標(biāo)。,二、比估計(jì)與回歸估計(jì)的作用與使用條件,(一)作用:提高估計(jì)的精度,(二)使用條件,1.主要指標(biāo)與輔助變量之間有良好的線性相關(guān)關(guān)系。,2.輔助變量的總體總量或均值是已知的。,2 比 估 計(jì),設(shè)有一個(gè)二元變量的總體 :,有 4 個(gè)參數(shù)是我們所熟悉的:,指標(biāo) 的平均數(shù),指標(biāo) 的方差,如果簡單隨機(jī)樣本為 ,則 及 的估計(jì)為:,(5.3),(5.4),在討論比估計(jì)之前,先考察總體的兩個(gè)平均數(shù)之比,即,由于 分別是 的無偏估計(jì), 的估計(jì)自然定義為

3、,假如 或 已知,總體平均數(shù) 與總體總和 的比估計(jì) 量定義為:,(5.5),(5.6),通常的比估計(jì)是指 (5.5) 式與 (5.6) 式,而 則稱為比值 的 估計(jì)。,由 (5.5) 式與 (5.6) 式可知, 與 的習(xí)性主要依賴于估計(jì)量 ,因此在不少場合,我們常用 來說明。,盡管 分別是 的無偏估計(jì),由于 的非線性形式,因 此 關(guān)于 是有偏的,從而 關(guān)于 也是有偏的。,一個(gè)合理的估計(jì)量,應(yīng)該隨著樣本容量 n 的增加,估計(jì)量的 期望與參數(shù)之差應(yīng)該越來越小并漸漸趨于零,即“漸近無偏”,比估計(jì)是否漸近無偏呢?,利用Taylor展開式,有,將比估計(jì) 表示為:,(5.7),當(dāng) n 相當(dāng)大時(shí), 與 相當(dāng)

4、接近,而 是常數(shù),又 是 的 無偏估計(jì),因此,實(shí)質(zhì)上 ,所以 。,(5.7)式的好處不單單告訴我們 這一事實(shí),而且告 訴了我們,當(dāng) n 相當(dāng)大時(shí), ,表明 可以表示成 的平均數(shù),因此 的分布可近似正態(tài)分布,因此,可利用 近似標(biāo)準(zhǔn)正態(tài)分布獲得 的置信區(qū)間,(5.10),公式(5.8)、(5.9)、(5.10)為我們提供了 的估計(jì)量的形式。具體計(jì)算時(shí),只要將 分別換為 即可。我們將由此得到的估計(jì)量分別記為:,那么, 的置信水平為 的置信區(qū)間分別為:,( , ),下面說明比估計(jì)的優(yōu)點(diǎn)。主要針對 與 來說明,因?yàn)?它們僅相差一個(gè)常數(shù)因子,因此,只需討論其中一個(gè)就可以。,當(dāng) n 充分大時(shí),,而,欲使 ,

5、僅需,或,( , ),(5.12)表明,如果變量X與Y正相關(guān),且相關(guān)程度非常密 切的話,那么比估計(jì)的精度高于簡單隨機(jī)抽樣的精度。如果 相關(guān)程度不那么密切( ),此時(shí)已知的X信息并 沒有較多地提供Y的信息,借助X來推斷 也許會(huì)“幫倒忙” 假如X與Y是負(fù)相關(guān),則更不能采用比估計(jì)方法,此時(shí)應(yīng)采用 所謂乘積估計(jì),即:,(5.13),成立,例5.1 某縣小麥種植面積為218756畝,分布在N=576個(gè)村,為 估計(jì)全縣產(chǎn)量,隨機(jī)無放回地抽取n=24個(gè)村,所得數(shù)據(jù)如下,每個(gè)村有兩個(gè)指標(biāo):面積 和產(chǎn)量 ,即:,經(jīng)計(jì)算可得:,所以該縣平均畝產(chǎn)小麥估計(jì)為:,采用比估計(jì)可得 和 分別為:,僅利用 數(shù)據(jù)估計(jì)該縣小麥總

6、產(chǎn)量 與估計(jì)量方差分別為:,顯然, 的方差遠(yuǎn)遠(yuǎn)小于 的方差。理由很清楚!小麥畝產(chǎn) 量與土地?fù)碛辛砍尸F(xiàn)正相關(guān),且相關(guān)程度相當(dāng)密切,因此, 在抽樣調(diào)查中對每個(gè)村了解有關(guān)產(chǎn)量和土地畝數(shù),利用已知 該縣土地的固有已知數(shù),能比較精確地推斷總產(chǎn)量。事實(shí)上 在實(shí)際操作中人們正是這樣去做的!,現(xiàn)在來求總產(chǎn)量的95的置信區(qū)間,首先,2 分層抽樣中的比估計(jì),1、分別比估計(jì),設(shè)總體分為 k 層,第 h 層的樣本均值記為 ,在該層 中 與 的比估計(jì)記為 ,又記 和 為第 h 層中指標(biāo) 的平均數(shù)與總和, 與 分別為該層中 的方差 和協(xié)方差,若 換為 , 換為 ,則顯然表示該層樣本 的方差和協(xié)方差。,我們可以得到有關(guān)總體

7、 和 的分別比估計(jì)為:,分層抽樣中的比估計(jì)有兩種:一是分層之后,先在各層 獲得比估計(jì),然后按層權(quán)平均得到總體參數(shù)估計(jì);二是先對 作分層估計(jì),然后再采用比估計(jì)方法。前者稱為分別比 估計(jì),后者稱為聯(lián)合比估計(jì)。,(5.15),(5.16),由上節(jié)可知,各層中的 是 的漸近無偏估計(jì)量,因此 是 的漸近無偏估計(jì)量:,各層的抽樣又是獨(dú)立進(jìn)行的,由(5.10)式,可以近似得到 的方差或均方誤差,當(dāng)各個(gè) 都相當(dāng)大時(shí):,(5.17),(5.18),(5.17), (5.18)告訴我們,即使每層 相當(dāng)大,但如果層數(shù)k 比較大,由于誤差的積累, 產(chǎn)生的偏倚與誤差可能相當(dāng) 大。,2、聯(lián)合比估計(jì),而 的相應(yīng)(聯(lián)合)比估

8、計(jì)可以寫成:,(5.20),(5.21),為與分別比估計(jì)進(jìn)行比較,我們討論聯(lián)合比估計(jì)的期 望和方差。當(dāng) n 相當(dāng)大時(shí),有,(5.23),其中 為總體的比值。,(5.22),(5.22)表明, 是 的漸近無偏估計(jì),(5.23)與(5.18)非常相 似,唯一不同的是在(5.18)中用的是各層的比值 ,而(5.23) 中用的是總體的比值 。,3、分別比估計(jì)與聯(lián)合比估計(jì)的比較,(5.24),僅就總體總和進(jìn)行比較。如果各層的 相當(dāng)大,由(5.18) 和(5.23)可得:,當(dāng)對一切 h 有 時(shí),這兩種估計(jì)方差相同,也就是說當(dāng) 分層對比值并無多大意義情況下,談?wù)摲謩e比估計(jì)與聯(lián)合比 估計(jì)孰優(yōu)孰劣已經(jīng)無多大意義

9、。,然而,如果各層有自己的特色, 不可能在每一層均等 于 ,此時(shí)倘若對每一層來說, 與 之間的關(guān)系是比例 關(guān)系,即 ,此時(shí) ,于是(5.24)式內(nèi)求 和式內(nèi)每一項(xiàng)中括號(hào)內(nèi)第二部分等于零,這樣顯然有,即“分別比估計(jì)”比“聯(lián)合比估計(jì)”精度高一些。其實(shí),只要比 估計(jì)非常有效,即對一切 h , 時(shí),這一項(xiàng)值相 對地就小,此時(shí)中括號(hào)中均以第一部分占主導(dǎo)地位,仍有,當(dāng)然,有些層的 不是相當(dāng)大,這種場合分別比估計(jì)的偏倚 可能很大而使總的均方誤差增大,于是我們寧可采用聯(lián)合比 估計(jì)的方法。,3 數(shù)值例子,例5.2 某地區(qū)有976個(gè)自然村,根據(jù)該地區(qū)的地貌將各村所屬 耕地劃為三種類型,各村按類型上報(bào)了耕地面積 (

10、以畝計(jì)算) 為核實(shí)這些上報(bào)數(shù)據(jù),采用按比例分配的分層隨機(jī)抽樣方法 在每一種類型中抽取若干村進(jìn)行實(shí)測核實(shí),倘若以 X表示上 報(bào)數(shù)據(jù),以Y表示實(shí)測數(shù)據(jù),抽樣結(jié)果如下表:,有關(guān)計(jì)算結(jié)果及其它數(shù)據(jù)如下表:,試對總體總和 (該地區(qū)實(shí)際耕地面積總和)用各種手法進(jìn)行 估計(jì).,(1)簡單隨機(jī)抽樣估計(jì),由于分層抽樣是在各層按比例分配進(jìn)行的,因此可以將 23個(gè)村所得數(shù)據(jù)看作是從總體 976 個(gè)村中抽取的一個(gè)較合理 的簡單隨機(jī)樣本,上表中最后一行的數(shù)據(jù)都是基于這樣的“ 簡單隨機(jī)樣本”而計(jì)算的。,為求精度,常用其標(biāo)準(zhǔn)差,若用 ,則有,然而我們的這些數(shù)據(jù)畢竟是從分層抽樣而得到的,利用分層 估計(jì)真正的簡單隨機(jī)抽樣的平均數(shù)

11、的方差,可以借用一個(gè)近 似公式(用于按比例分配的分層抽樣情況)也許更為精確:,(5.25),此時(shí),兩種算法的差距并不大。,(2)簡單隨機(jī)抽樣比估計(jì),(3)分層隨機(jī)抽樣簡單估計(jì),(4)分層隨機(jī)抽樣分別比估計(jì),(5)分層隨機(jī)抽樣聯(lián)合比估計(jì),從以上五種情況的結(jié)果分析,兩種簡單估計(jì)的精度較差 因?yàn)樗麄儧]有充分利用已知的 及 的信息,三種比估計(jì)由 于利用了 的信息,顯然精度大大提高了。,同時(shí)我們注意到分層隨機(jī)抽樣的兩種比估計(jì)比起簡單隨 機(jī)抽樣的比估計(jì)效果略好一些,這是因?yàn)樵趯?shí)際測量中已分 的三層的確有所區(qū)別。,最后我們指出,在分層隨機(jī)抽樣中,分別比估計(jì)與聯(lián)合 比估計(jì)有著幾乎差不多的效果,這正是我們在正文

12、中所闡述 的理由,當(dāng)每層抽樣容量 不很大時(shí),聯(lián)合比估計(jì)不比分別 比估計(jì)來的差。,一個(gè)有趣的事實(shí)是對于 的估計(jì),恰好三個(gè)比估計(jì)比起 兩個(gè)簡單估計(jì)要略低一些,由于隨機(jī)性,當(dāng)然我們不能指認(rèn) 到底哪一個(gè)估計(jì)比較接近事實(shí),但是三種比估計(jì)統(tǒng)統(tǒng)略低會(huì) 使我們產(chǎn)生這樣一個(gè)想法:這是否會(huì)是由于比估計(jì)本身時(shí)有 偏性而引起的呢?對于上面具體例子我們?nèi)狈Ω鶕?jù)說它們偏 小了些。但是比估計(jì)的有偏性卻在理論上是無法否認(rèn)的事實(shí) 調(diào)查工作者與統(tǒng)計(jì)學(xué)家一直在設(shè)法盡力減少偏差,這稱為估 計(jì)量的“糾偏”。,4 回歸估計(jì)量,前面討論的比估計(jì)之所以能在精度方面獲益匪淺,是因 為我們充分利用了已知的輔助變量 X 的信息,而且這個(gè)輔助 變量

13、 X 與我們所關(guān)心的變量 Y 之間有著密切的關(guān)系,這種關(guān) 系越密切,對 Y 的某些指標(biāo)的估計(jì)精度就越高。,現(xiàn)在假定變量Y與X之間存在著線性回歸關(guān)系(但不是通 過原點(diǎn)),又假設(shè)X的信息已知或部分已知,我們想利用X的 信息提高對Y的估計(jì)精度。,1、簡單隨機(jī)抽樣情況,設(shè)從總體 中隨機(jī)無放回的抽取樣本 ,若變量 關(guān)于 的回歸直線不通過 原點(diǎn),具有如下形式:,(5.26),的回歸值 估計(jì)為,相應(yīng)的,總體總和 的回歸估計(jì)為:,這里 可以是一個(gè)設(shè)定的常數(shù),也可以是估計(jì)得到的回歸 系數(shù)。例如,若設(shè)定 ,則 即為簡單估計(jì)量; 若令 是一個(gè)估計(jì)量,則,其中 是 的估計(jì)量。為方便起見,記 ,我們可 以用所有 N個(gè)

14、的回歸值 的平均值來估計(jì)總體平均數(shù) 這樣就得到 的線性回歸估計(jì),倘若 已知,有:,即為比估計(jì)量??梢娀貧w估計(jì)包含簡單估計(jì)和比估計(jì)。,(5.27),(5.28),(5.29),(1) 為設(shè)定常數(shù)的情形,這種情況在實(shí)際應(yīng)用中是存在的。比如為同一目的進(jìn)行 的調(diào)查已重復(fù)進(jìn)行多次,將以前數(shù)據(jù)中 關(guān)于 計(jì)算而得的 回歸系數(shù)(倘若前幾次該系數(shù)比較穩(wěn)定在某一數(shù)值的話)直 接作為最新調(diào)查的 設(shè)定值。,首先研究這種簡單回歸估計(jì)值的期望。注意到 是 的 無偏估計(jì), 又是 的無偏估計(jì),因此,有:,(5.30),即回歸估計(jì)量是總體平均數(shù)的無偏估計(jì)。,的方差可計(jì)算為:,(5.32),由(5.30)以及(5.32)可知,無

15、論 是怎樣的設(shè)定值, 總 是 的無偏估計(jì),估計(jì)的精度與 的設(shè)定值有關(guān)。,(5.32)式的右端實(shí)際上是 的二次三項(xiàng)式,又由于 前的系 數(shù)為 是個(gè)正數(shù),因此,只要適當(dāng)選取 就可使 達(dá) 到最小值,利用高等數(shù)學(xué)的知識(shí),可得使 達(dá)到最小 值的 應(yīng)為:,其中 為 X 和 Y 的相關(guān)系數(shù),此時(shí)最小方差為:,(5.34),(5.33),(2) 取樣本回歸系數(shù)的情形,(5.35),這實(shí)際上就是樣本回歸系數(shù)。利用 得到的回歸,由于 是比值型隨機(jī)變量,與比估計(jì)一樣的理由, 不可能是總 體平均數(shù)的無偏估計(jì)。但當(dāng) n 相當(dāng)大時(shí),有下列近似結(jié)果:,(5.36),(5.37),因此,對簡單隨機(jī)抽樣,當(dāng)樣本容量 n 相當(dāng)大時(shí)

16、,回歸 估計(jì) (不管 是否設(shè)定)的方差均近似地看作:,與簡單隨機(jī)抽樣時(shí) 的簡單估計(jì) 的方差相比,只要 , 則回歸估計(jì)一定優(yōu)于簡單估計(jì)。,至于 的情況,則表示X與Y沒有任何線性關(guān)系,那么 用X、Y的線性回歸來估計(jì) 就相當(dāng)于單純依賴 去估計(jì),回歸估計(jì)與簡單隨機(jī)抽樣時(shí)的比估計(jì)相比孰優(yōu)孰劣呢?,當(dāng) n 相當(dāng)大時(shí),比估計(jì)的方差為:,欲使回歸估計(jì)優(yōu)于比估計(jì),當(dāng)且僅當(dāng):,即,這是一個(gè)當(dāng)然的不等式。一般情況總是回歸估計(jì)優(yōu)于比估計(jì) 除非 ,此時(shí)這兩種估計(jì)量效果幾乎一樣。,回歸估計(jì)量的上述性質(zhì)都是在樣本容量 n 相當(dāng)大時(shí)才成 立,當(dāng) n 偏小時(shí)容易產(chǎn)生較大偏倚,(5.36)式中關(guān)于1/n的同 階無窮小這一項(xiàng)就蘊(yùn)涵

17、了這種可能性。,當(dāng) n 相當(dāng)大時(shí), 或 如何估計(jì)呢?,由于這兩個(gè)參數(shù)的主要部分都是 ,因此,要 給出估計(jì),只要將 S 換為 s,X、Y 換為 x、y,N 換為 n即可,形式上的估計(jì)可以寫成,實(shí)質(zhì)上是殘差平方和,其自由度為(n2),因此得到 或 的估計(jì)為:,(5.39),為樣本回歸系數(shù),故,例5.3 (續(xù)例5.1)使用回歸估計(jì)繼續(xù)討論某縣小麥畝產(chǎn)與總產(chǎn) 量問題。,樣本回歸系數(shù),小麥產(chǎn)量的估計(jì)為:,小麥總產(chǎn)量的估計(jì)為:,顯見,回歸估計(jì)比起比估計(jì)精度略高一點(diǎn),但相差不大,它 們比簡單估計(jì)則要精確的多!,2、分層隨機(jī)抽樣情況,與比估計(jì)情形一樣,在分層隨機(jī)抽樣中考慮兩種形式的 回歸估計(jì):分別回歸估計(jì)與聯(lián)

18、合回歸估計(jì)。,(1)分別回歸估計(jì),所謂分別回歸估計(jì),就是先在各層中對該層的平均數(shù)或 總和進(jìn)行回歸估計(jì),然后再按層權(quán)平均或相加。,設(shè)第 h 層的樣本平均數(shù)回歸估計(jì)為 ,那么分別回歸估計(jì)為,其中 分別為第 h 層的樣本均值、回歸參數(shù)。,(5.41),(5.40),當(dāng)各層的 為預(yù)先設(shè)定時(shí),那么這兩個(gè)估計(jì)量都是無偏估 計(jì)量。又由于各層抽樣都是相互獨(dú)立的,由(5.31)式立即可 得:,(5.42),并且當(dāng) 時(shí),達(dá)到最小值:,(5.43),(5.44),(5.45),(5.46),若以 表示第 h 層的相關(guān)系數(shù),那么 的估計(jì)為:,當(dāng)各層的 都比較大時(shí):,如果 需要利用樣本來估計(jì),還是采用最小二乘估計(jì):,(2)聯(lián)合回歸估計(jì),然后構(gòu)造 與 的聯(lián)合回歸估計(jì):,聯(lián)合回歸估計(jì)是先對 與 作分層估計(jì):,同樣當(dāng) 事先給定時(shí),它們是無偏估計(jì),方差為:,(5.49),(5.47),(5.48),它在 取如下值時(shí)達(dá)到極小值,(5.50),(5.52),這里的 恰好就是分別回歸估計(jì)中的 ,它使分別回歸 (平均數(shù))估計(jì)的方差達(dá)到最小。為比較分別回歸估計(jì)與 聯(lián)合回歸估計(jì)之間的優(yōu)劣,將 代入(5.49)式,再減去 (5.43)式右邊,得到差為:,直觀上這是因?yàn)椤胺謩e”方法比起“聯(lián)合”方法更多地關(guān)心 到各層的指標(biāo)與特征,只要分層有意義

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論