非參數(shù)統(tǒng)計分析_第1頁
非參數(shù)統(tǒng)計分析_第2頁
非參數(shù)統(tǒng)計分析_第3頁
非參數(shù)統(tǒng)計分析_第4頁
非參數(shù)統(tǒng)計分析_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)于非參數(shù)統(tǒng)計分析第1頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/71思考的要點(diǎn)各種檢驗(yàn)方法的思路各種檢驗(yàn)方法統(tǒng)計量的構(gòu)造各種檢驗(yàn)方法的應(yīng)用場合在SAS與R中如何完成

第2頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/72第一節(jié)符號檢驗(yàn)第二節(jié)Cox-Stuart趨勢檢驗(yàn)第三節(jié)游程檢驗(yàn)第四節(jié)Wilcoxon符號秩檢驗(yàn)第五節(jié)正態(tài)記分檢驗(yàn)第六節(jié)與參數(shù)檢驗(yàn)相對效率比較第3頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/73符號檢驗(yàn)的統(tǒng)計量為B=得正號的個數(shù)。符號檢驗(yàn)。設(shè)隨機(jī)變量X1,…,Xn是從某個總體X中抽出的簡單隨機(jī)樣本。且分布函數(shù)F(X)在X=0是連續(xù)的。假設(shè)檢驗(yàn)問題檢驗(yàn)的統(tǒng)計量可以取B。第一節(jié)符號檢驗(yàn)在原假設(shè)為真的條件下,B服從參數(shù)為n和0.5的二項(xiàng)分布b(n,0.5)。由于原假設(shè)為真時,B應(yīng)該不太大,也不太小,如果B太大或太小,應(yīng)該拒絕原假設(shè)。第4頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/74

精確的符號檢驗(yàn)是指檢驗(yàn)的p值是由精確的概率給出的。我們利用正號和負(fù)號的數(shù)目,來檢驗(yàn)?zāi)臣僭O(shè),這是一種最簡單的非參數(shù)方法。

【例4】聯(lián)合國人員在世界上71個大城市的生活花費(fèi)指數(shù)(上海是44位,數(shù)據(jù)為63.5)按自小至大的次序排列如下。一、精確中位數(shù)的符號檢驗(yàn)第5頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/75有人說64應(yīng)該是這種大城市花費(fèi)指數(shù)的中位數(shù),有人說64頂多是低位數(shù)(下四分位數(shù)),進(jìn)行檢驗(yàn)。數(shù)據(jù)如下:122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8第6頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/76第7頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/77通常在正態(tài)總體分布的假設(shè)下,關(guān)于總體均值的假設(shè)檢驗(yàn)和區(qū)間估計是用與t檢驗(yàn)有關(guān)的方法進(jìn)行的。然而,在本例中,總體分布是未知的。為此,首先看該數(shù)據(jù)的直方圖從圖中很難說這是什么分布。假定用總體中位數(shù)來表示中間位置,這意味著樣本點(diǎn),取大于me的概率應(yīng)該與取小于me的概率相等。所研究的問題,可以看作是只有兩種可能“成功”或“失敗”。

第8頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/78符號檢驗(yàn)的思路,記成功:X-0大于零,即大于中位數(shù)M,記為“+”;失?。篨-0小于零,即小于中位數(shù)M,記為“-”。令S+=得正符號的數(shù)目

S-=得負(fù)符號得數(shù)目可以知道S+或S—均服從二項(xiàng)分布B(65,0.5)。則可以用來作檢驗(yàn)的統(tǒng)計量。其假設(shè)為:第9頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/79關(guān)于非參數(shù)檢驗(yàn)統(tǒng)計量需要說明的問題在非參數(shù)檢驗(yàn)中,可以得到兩個相互等價的統(tǒng)計量,比如在符號檢驗(yàn)中,得負(fù)號與得正好的個數(shù),就是一對等價的統(tǒng)計量,因?yàn)镾++S-=N。那么我們在檢驗(yàn)時應(yīng)該用那個呢?約定選擇統(tǒng)計量第10頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/710假設(shè)檢驗(yàn)統(tǒng)計量S-=28是得負(fù)號的個數(shù)得正號的個數(shù)43。P-值檢驗(yàn)的結(jié)果拒絕零假設(shè)結(jié)論中位數(shù)大于64第11頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/711該檢驗(yàn)R的代碼x<-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)==1)pbinom(71-y,71,0.50)第12頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/712二、大樣本的情形當(dāng)樣本容量足夠大,我們可以利用二項(xiàng)分布的正態(tài)近似來對該問題進(jìn)行檢驗(yàn)。因?yàn)橛嫈?shù)統(tǒng)計量在原假設(shè)為真時,服從b(n,0.5)。且其均值為0.5n,方差為0.25n。則檢驗(yàn)的統(tǒng)計量為

第13頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/713第二節(jié)Cox-Stuart趨勢檢驗(yàn)人們經(jīng)常要看某項(xiàng)發(fā)展的趨勢.但是從圖表上很難看出是遞增,遞減,還是大致持平.

【例5】我國自1985年到1996年出口和進(jìn)口的差額(balance)為(以億美元為單位)—149.0119.737.777.5—66.087.480.543.5122.254.0167.0122.2從這個數(shù)字,我們能否說這個差額總的趨勢是增長,還是減,還是都不明顯呢?下圖為該數(shù)據(jù)的點(diǎn)圖.從圖可以看出,總趨勢似乎是增長,但1993年有個低谷;這個低谷能否說明總趨勢并不是增長的呢?我們希望能進(jìn)行檢驗(yàn).第14頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/714第15頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/715三種假設(shè):

怎么進(jìn)行這些檢驗(yàn)?zāi)?可以把每一個觀察值和相隔大約n/2的另一個觀察值配對比較;因此大約有n/2個對子.然后看增長的對子和減少的對子各有多少來判斷總的趨勢.具體做法為取和。這里第16頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/716在這個例子中n=12,因而c=6。這6個對子為(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)。第17頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/717用每一對的兩元素差Di=xi-xi+c的符號來衡量增減。令S+為正Di=xi-xi+c的數(shù)目,而令S-為負(fù)的Di=xi-xi+c的數(shù)。顯然當(dāng)正號太多時,即S+很大時(或S-很小時),有下降趨勢,反之,則有增長趨勢.在沒有趨勢的零假設(shè)下它們應(yīng)服從二項(xiàng)分布b(6,0.5),這里n為對子的數(shù)目(不包含差為0的對子)。該檢驗(yàn)在某種意義上是符號檢驗(yàn)的一個特例。第18頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/718類似于符號檢驗(yàn),對于上面1,2,3三種檢驗(yàn),分別取檢驗(yàn)統(tǒng)計量K=S+,K=S-和K=min(S+,S-)。在本例中,這6個數(shù)據(jù)對的符號為5負(fù)1正,所以我們不能拒絕原假設(shè)。假設(shè)統(tǒng)計量

P值K=min(S+,S-)P(K<k)K=min(S+,S-)P(K<k)K=min(S+,S-)2P(K<k)第19頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/719

【例6】天津機(jī)場從1995年1月到2003年12月的108個月旅客旅客吞吐量數(shù)據(jù)如下:

543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603討論是否存在顯著的增長趨勢。第20頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/720第21頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/721SPSS無此檢驗(yàn),我們用R完成該檢驗(yàn),代碼如下。x<-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,67759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,106186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603)d=x[1:54]-x[55:108]y=sum(sign(d)==1)pbinom(y,54,0.5)

直接得到p值=0.001919<0.05,拒絕無趨勢的原假設(shè)原假設(shè)。第22頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/722補(bǔ)充:檢驗(yàn)的p值在假設(shè)檢驗(yàn)中,常常通過檢驗(yàn)的p值來決策。p值為拒絕原假設(shè)的最小概率。對于t檢驗(yàn),如果計算出的統(tǒng)計量的值為t0,則左尾檢驗(yàn)的p值為概率p(tt0)右尾檢驗(yàn)的p值為概率p(tt0)雙尾檢驗(yàn)的p值為概率p(|t||t0|)。但是對于非參數(shù)檢驗(yàn)來說由于有兩個等價的統(tǒng)計量,如得正號的個數(shù)與得負(fù)號的個數(shù)之和等于樣本容量n;兩個總體的秩和等于N(N+1)/2。第23頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/723比如是左側(cè)檢驗(yàn),如果總體真實(shí)的中位數(shù)比假設(shè)的小,則檢驗(yàn)的統(tǒng)計量w+表現(xiàn)出過小,w-表現(xiàn)出大,檢驗(yàn)的p值為p(w+w小),此時用的最小的統(tǒng)計量。對于右側(cè)檢驗(yàn),如果總體真實(shí)的中位數(shù)比假設(shè)的大,則檢驗(yàn)的統(tǒng)計量w+表現(xiàn)出過大,w-表現(xiàn)出小。檢驗(yàn)的p值為p(w+w大)。實(shí)際上

p(w+w大)

=p(-w+-w大)=p[N(N+1)/2-w+N(N+1)/2-w大]=p[w-w小]可見檢驗(yàn)的統(tǒng)計量用k=min(w+,w-)是合理的。另外雙側(cè)檢驗(yàn)的p值是單側(cè)的兩倍。第24頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/724游程檢驗(yàn)是樣本的隨機(jī)性檢驗(yàn),其用途很廣。例如當(dāng)我們要考察生產(chǎn)中次品出現(xiàn)是隨機(jī)的,還是成群的,一個時間序列是平穩(wěn)的還是非平穩(wěn)的。第三節(jié)游程檢驗(yàn)第25頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/725從生產(chǎn)線上抽取產(chǎn)品檢驗(yàn),是否應(yīng)采用頻繁抽取小樣本的方法。在一個剛剛建成的制造廠內(nèi),質(zhì)檢員需要設(shè)計一種抽樣方法,以保證質(zhì)量檢驗(yàn)的可靠性。生產(chǎn)線上抽取的產(chǎn)品可以分成兩類,有瑕疵,無瑕疵。檢驗(yàn)費(fèi)用與受檢產(chǎn)品數(shù)量有關(guān)。一般情況下,有毛病的產(chǎn)品如果是成群出現(xiàn)的,則要頻繁抽取小樣本,進(jìn)行檢驗(yàn)。如果有毛病的產(chǎn)品是隨機(jī)產(chǎn)生的,則每天以間隔較長地抽取一個大樣本。現(xiàn)隨機(jī)抽了28件產(chǎn)品,按生產(chǎn)線抽取的順序排列:檢驗(yàn)瑕疵的產(chǎn)品是隨機(jī)出現(xiàn)的嗎?

有瑕疵的產(chǎn)品是隨機(jī)出現(xiàn)有瑕疵的產(chǎn)品是成群出現(xiàn)第26頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/726隨機(jī)抽取的一個樣本,其觀察值按某種順序排列,如果研究所關(guān)心的問題是:被有序排列的兩種類型符號是否隨機(jī)排列,則可以建立雙側(cè)備擇.假設(shè)組為H0:序列是隨機(jī)的

H1:序列不是隨機(jī)的(雙側(cè)檢驗(yàn))如果關(guān)心的是序列是否具有某種傾向,則應(yīng)建立單側(cè)備擇,假設(shè)組為H0:序列是隨機(jī)的

H1:序列具有混合的傾向(右側(cè)檢驗(yàn),游程過多)

H0:序列是隨機(jī)的H1:序列具有成群的傾向(左側(cè)檢驗(yàn),游程過小)游程:連續(xù)出現(xiàn)的具有相同特征的樣本點(diǎn)為一個游程。第27頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/727檢驗(yàn)統(tǒng)計量。在H0為真的情況下,兩種類型符號出現(xiàn)的可能性相等,其在序列中是交互的。相對于一定的m和n,序列游程的總數(shù)應(yīng)在一個范圍內(nèi)。若游程的總數(shù)過少,表明某一游程的長度過長,意味著有較多的同一符號相連,序列存在成群的傾向;若游程總數(shù)過多,表明游程長度很短,意味著兩個符號頻繁交替,序列具有混合的傾向。選擇的檢驗(yàn)統(tǒng)計量為R=游程的總數(shù)目。

第28頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/728可以證明則第29頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/729游程R的分布為,奇數(shù)時關(guān)于此可以做如下的考慮游程R的分布為,偶數(shù)時第30頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/730

先在m+n個抽屜里隨機(jī)選擇m個,抽出的抽屜里放入“1”,沒有的放入“0”,所有可能基本的基本事件數(shù)為:有種。

或先在m+n個抽屜里隨機(jī)選擇n個,抽出的抽屜里放入“0”,沒有的放入“1”,所有可能基本的基本事件數(shù)為:有種。第31頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/7311、必定有k+1個由“1”構(gòu)成的游程和k個由“0”構(gòu)成的游程;2、或必定有k+1個由“0”構(gòu)成的游程和k個由“1”構(gòu)成的游程。如果游程數(shù)為奇數(shù)R=2K+1,這意味著:第32頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/732這就必須在m-1個位置中插入K個“隔離元”,使有“1”有k+1個游程,可以有種,同樣可以在n-1個“0”的n-1個空位上插入K-1個“隔離元”,有種。共有有利基本事件數(shù)。第33頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/733在第二種情形下,有故:得同理第34頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/734備擇假設(shè)P值序列具有混合的傾向右尾概率序列具有聚類的傾向左尾概率序列是非隨機(jī)的較小的左尾概率的兩倍第35頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/735

【例7】,在我國的工業(yè)和商業(yè)企業(yè)隨機(jī)抽出22家進(jìn)行資產(chǎn)負(fù)債率行業(yè)間的差異比較。有如下資料:這兩個行業(yè)的負(fù)債水平是否相等。首先,設(shè)“1”為工業(yè),“2”為商業(yè),將兩個行業(yè)的數(shù)據(jù)排序,得行業(yè)編號得游程:1111121111222111222222工業(yè)647655825982707561647383商業(yè)7780806593918491848686第36頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/736游程檢驗(yàn)的菜單選擇。第37頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/737第38頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/738游程檢驗(yàn)的結(jié)果:共有21個個案,12個小于1.4286,9個大于等于1.4286。游程6個。檢驗(yàn)的統(tǒng)計量的值為-2.19,相應(yīng)的漸近p值=0.029,則拒絕原假設(shè)。第39頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/739

【例8】公司委托市場調(diào)查公司進(jìn)行隨機(jī)抽樣調(diào)查。為了對調(diào)查表的真?zhèn)芜M(jìn)行判斷,市場調(diào)查公司按順序抽取了20份問卷。其中消費(fèi)者每年消費(fèi)該公司的產(chǎn)品的花費(fèi)數(shù)據(jù)如下表,分析問卷數(shù)據(jù)是否真實(shí)。用游程檢驗(yàn)。樣本編號12345678910消費(fèi)額405205245465257234445375291291樣本編號11121314151617181920消費(fèi)額261210305295125257260197160150第40頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/740檢驗(yàn)結(jié)果說明p值=0.808,不能拒絕隨機(jī)數(shù)據(jù)的原假設(shè)。第41頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/741第四節(jié)單樣本的Wilcoxon符號秩檢驗(yàn)一、Wilcoxon符號秩檢驗(yàn)

前面幾種推斷的方法都只依賴于數(shù)據(jù)的符號,即方向。沒有考慮數(shù)據(jù)的大小,Wilcoxon符號秩檢驗(yàn)是檢驗(yàn)關(guān)于中位數(shù)對稱的總體的中位數(shù)是否等于某個特定值,檢驗(yàn)的假設(shè):第42頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/742檢驗(yàn)的步驟:1.計算,它們代表這些樣本點(diǎn)到的距離;2.把上面的n個絕對值排序,并找出它們的n個秩;如果有相同的樣本點(diǎn),每個點(diǎn)取平均秩(如1,4,4,5的秩為1,2.5,2.5,4),然后分別將得正號的秩和得負(fù)號的秩相加。另指滿足括號里的條件等于1,不滿足等于零。第43頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/743

3.雙在零假設(shè)下,和應(yīng)差不多.因而,當(dāng)其中之一非常小時,應(yīng)懷疑零假設(shè);取檢驗(yàn)統(tǒng)計量T=min(,);

第44頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/744統(tǒng)計量的均值和方差如下:第45頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/7455.根據(jù)得到的T值,查Wilcoxon符號秩檢驗(yàn)的分布表以得到在零假設(shè)下p值.如果n很大要用正態(tài)近似:得到一個與T有關(guān)的正態(tài)隨機(jī)變量Z的值,再查表得P值或直接用計算機(jī)得到P值。第46頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/746Wilcoxon符號秩檢驗(yàn)表假設(shè)檢驗(yàn)的統(tǒng)計量P值

第47頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/747

【例9】歐洲10個城鎮(zhèn)每人每年平均消費(fèi)酒類相當(dāng)于純酒精數(shù)(單位:升)。

4.125.817.639.7410.3911.9212.3212.8913.5414.45。人們普遍認(rèn)為其中位數(shù)為8。檢驗(yàn)該假設(shè)。

x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)wilcox.test(x-8)第48頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/748

Wilcoxonsignedranktestdata:x-8V=46,p-value=0.06445alternativehypothesis:truelocationisnotequalto0第49頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/749

【例10】為了了解垃圾郵件對大型公司決策層工作的影響程度,某個網(wǎng)站收集了19家大型公司的CEO每天收到的垃圾郵件件數(shù),得到如下數(shù)據(jù):310,350,370,375,385,400,415,425,440,195,325,295,250,340,295,365,375,360,385檢驗(yàn)收到的垃圾郵件的數(shù)量的中間位置是否超過了320封。第50頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/750x<-c(310,350,370,375,385,400,415,425,440,195,325,295,250,340,295,365,375,360,385)wilcox.test(x-320)data:x-320V=146,p-value=0.04207alternativehypothesis:truelocationisnotequalto0第51頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/751注Holdges-Lemmann估計量

定義2.1

假設(shè)X1,X2,…,Xn為簡單隨機(jī)樣本,計算任意兩個樣本點(diǎn)的平均數(shù),從而得到一個樣本長度為n(n+1)/2的新的數(shù)據(jù),這組數(shù)據(jù)稱為Walsh平均值,即第52頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/752定理由定義2.1,Wilcoxon符號秩統(tǒng)計量W+可以表示為

即W+是Walsh平均值中符號為正的個數(shù)。如果中心是,則定義即W+()是檢驗(yàn)的統(tǒng)計量。第53頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/753定義2.2假定假設(shè)X1,X2,…,Xn為F(X-)的簡單隨機(jī)樣本,如果F(X)為對稱,則定義Walsh中位數(shù)如下:

作為的Holdges-Lemmann估計量。

第54頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/754從應(yīng)用的角度看,這種中位數(shù)的計算對于樣本容量非常小時,更為合理。比如X11季節(jié)調(diào)整中,季節(jié)變動和不規(guī)則變動相對數(shù)的平均值,就是計算的Holdges-Lemmann中位數(shù)估計量。補(bǔ)充:X11季節(jié)調(diào)整。第55頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/755

定理假定假設(shè)X1,X2,…,Xn為F(X-)的簡單隨機(jī)樣本,如果F(X)為對稱,則定義Walsh平均,記為{WA(1),WA(2),...WA(N)},則其中第56頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/756x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)walsh=NULLi<-c(1:10)for(iin1:10)for(jini:10)walsh=c(walsh,(x[i]+x[j])/2)walsh=sort(walsh)qsignrank(0.025,10)第57頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/757為了了解垃圾郵件對大型公司決策層工作的影響程度,某個網(wǎng)站收集了19家大型公司的CEO影響每天收到的垃圾郵件件數(shù),得到如下數(shù)據(jù):310350370375385400415425440195325295250340295365375360385從平均的意義看,收到的垃圾郵件的數(shù)量的中間位置是否超過了320封。第58頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/758dataa;inputx1-x19;cards;310350370375385400415425440195325295250340295365375360385;%macro

PGI;datab;seta;%doi=1%to19;%doj=&i%to19;walsh=(x&i+X&j)/2;ifwalshthenoutput;keepwalsh;%end;%end;%mend;%PGI;第59頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/759proc

printdata=b;run;proc

sortdata=bout=b2;bywalsh;proc

printdata=b2;run;datab3;setb2;n+1;l=int(19*20/4-1.96*(19*20*39/24)**0.5)+1;ifn=95thenoutput;ifn=96thenoutput;elsedelete;proc

printdata=b3;run;第60頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/760

Obswalshnl1355.095472357.59647第61頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/761第五節(jié)正態(tài)得分檢驗(yàn)

(一)思想在各種各樣的秩檢驗(yàn)中,檢驗(yàn)的統(tǒng)計量為秩的函數(shù),而秩本身在沒有結(jié)時是有限個自然數(shù)的排列,它的分布是均勻分布。人們自然會用其他分布的樣本。自然我們會想到正態(tài)分布。正態(tài)記分檢驗(yàn)的基本思想就是把升冪排列的秩Ri用升冪排列的正態(tài)分位點(diǎn)來替代。我們在Wilcoxon符號檢驗(yàn)的基礎(chǔ)上,建立線性符號秩統(tǒng)計量。第62頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/762正態(tài)記分檢驗(yàn)的基本思想就是:把升冪排列的秩用升冪排列的正態(tài)分位點(diǎn)來替代。首先將按升冪排列,記秩為第63頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/763例如Wilcoxon統(tǒng)計量為Wilcoxon記分函數(shù)1n-1n累積概率1/(n+1)(n-1)/(n+1)n/(n+1)正態(tài)記分函數(shù)例如正態(tài)記分檢驗(yàn)統(tǒng)計量為第64頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/764正態(tài)積分檢驗(yàn)的統(tǒng)計量為:第65頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/765(二)檢驗(yàn)

檢驗(yàn)的假設(shè)為:第66頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/766則檢驗(yàn)的統(tǒng)計量為

第67頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/767例、下面的數(shù)據(jù)是亞洲10個國家的新生兒死亡率(‰)33

363115964657788第68頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/768

符號秩

平方33110.090909-1.33518-1.335181.78270136220.181818-0.90846-0.908460.82529531330.272727-0.60459-0.604590.365523151940.363636-0.34876-0.348760.12163192550.454545-0.11419-0.114190.01303862860.5454550.1141850.1141850.01303843070.6363640.3487560.3487560.121631653180.7272730.6045850.6045850.365523774390.8181820.9084580.9084580.8252958854100.9090911.3351781.3351781.782701合計6.216376第69頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/769第70頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/770接受原假設(shè)。第71頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期六2022/12/771假定表示犯第一類錯誤的概率,而表示犯第二類錯誤的概率(檢驗(yàn)的勢為1-)。對于任意的檢驗(yàn)T,理論上總可以找到樣本容量n,使該檢驗(yàn)滿足固定的和。顯然為了達(dá)到這個要求,需要樣本容量大的檢驗(yàn)就不如需要樣本容量小的檢驗(yàn)效率高。為了達(dá)到同樣的和,檢驗(yàn)T1需要n1個樣本點(diǎn),檢驗(yàn)T2需要n2個樣本點(diǎn).我們用n1/n2來定義T2相對于T1的效率。當(dāng)然這個比值越大,T2需要的樣本容量越小,T2的效率越高。定義漸近相對效率ARE為第72頁,共89頁,2022年,5月20日,13點(diǎn)28分,星期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論