版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
#多元數(shù)據(jù)的正態(tài)性檢驗(yàn)摘要:本文對(duì)多元正態(tài)性檢驗(yàn)的兩種主要方法一一X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法和主成分檢驗(yàn)法進(jìn)行了討論,介紹其基本原理、具體實(shí)施步驟,通過(guò)實(shí)例分析進(jìn)行應(yīng)用研究,并比較它們的優(yōu)劣,發(fā)現(xiàn)主成分檢驗(yàn)法的實(shí)用性和應(yīng)用價(jià)值更強(qiáng).關(guān)鍵詞:多元正態(tài)性X2統(tǒng)計(jì)量Q-Q圖檢驗(yàn)法主成分檢驗(yàn)法TheNormalityTestforMultivariateDataAbstract:Inthispaper,wediscusstwomainmethodsofmultiplenormaltests,Q-Qcharttestandprincipalcomponenttest,introducethebasicprincipleandthespecificimplementationsteps,researchthroughstudyingthecase,andcomparetheiradvantagesanddisadvantages.WefoundthattheprincipalcomponenttestisbetterthanQ-Qcharttestinpracticalityandappliedvalue.Keywords:Multivariatenormality;Chi-squarestatistic;Q-Qchartest;Principalcomponenttest引言正態(tài)分布在學(xué)習(xí)中是一種很重要的分布,在自然界中占據(jù)著很重要的位置,它能描述許多隨機(jī)現(xiàn)象,從而充當(dāng)一個(gè)真實(shí)的總體模型.盡管在學(xué)習(xí)中我們總是碰到很多問(wèn)題的總體服從正態(tài)分布,然而,在一個(gè)實(shí)際問(wèn)題中,總體一定是正態(tài)分布嗎?一般的講,所作統(tǒng)計(jì)推斷的結(jié)論是否正確,取決于實(shí)際總體與正態(tài)總體接近的程度如何.因此,建立一些方法來(lái)檢驗(yàn)多元觀測(cè)數(shù)據(jù)與多元正態(tài)數(shù)據(jù)的差異是否顯著是十分必要的.如今,一元數(shù)據(jù)的正態(tài)檢驗(yàn)的理論已相當(dāng)成熟,但對(duì)于多元數(shù)據(jù)的正態(tài)性檢驗(yàn)問(wèn)題還處在摸索前進(jìn)的階段,沒(méi)有形成行之有效、有足夠說(shuō)服力的檢驗(yàn)方法.本文將在第一節(jié)中介紹文中用到的一元正態(tài)性檢驗(yàn)的兩種基本方法:圖方法和矩法;第二節(jié)中介紹X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法基本原理和檢驗(yàn)步驟;第三節(jié)中介紹主成分正態(tài)檢驗(yàn)法的基本原理和檢驗(yàn)步驟;第四節(jié)中通過(guò)兩個(gè)實(shí)例做應(yīng)用分析;第五節(jié)中對(duì)這兩種方法在應(yīng)用中的優(yōu)劣做比較分析.1一元正態(tài)性檢驗(yàn)的方法鑒于一元數(shù)據(jù)正態(tài)性檢驗(yàn)的多樣性,本文不一一介紹,只介紹本文中用到的X2檢驗(yàn)法和偏峰檢驗(yàn)法.1.1圖方法設(shè)x,xx是來(lái)自總體的X隨機(jī)樣本,檢驗(yàn)H:X?N(卩,62)?如果沒(méi)有關(guān)12n0于樣本的附加信息可以利用,首選推薦的是利用正態(tài)概率紙畫(huà)圖?它讓人們立即看到觀測(cè)的分布是否接近正態(tài)分布.
對(duì)于一張正態(tài)概率紙,它的橫軸的刻度是均勻的,縱軸按標(biāo)準(zhǔn)正態(tài)分布的P分位數(shù)均勻刻度,標(biāo)上相應(yīng)的P值.正態(tài)概率紙上的坐標(biāo)軸系統(tǒng)使正態(tài)分布的分布函數(shù)呈一條直線.利用正態(tài)概率紙檢驗(yàn)一組觀測(cè)值是否服從正態(tài)分布,可以按如下步驟進(jìn)行:把n個(gè)觀測(cè)值按非降次序排列成x<x^-<x.12n然后把數(shù)對(duì)(X,亠8)(k=1,2,…,n)點(diǎn)在正態(tài)概率紙上.如果所畫(huà)的n個(gè)點(diǎn)kn+1/4明顯地不成一條直線,則拒絕原假設(shè).如果這些點(diǎn)散布在一條直線附近,則可以粗略地說(shuō),樣本來(lái)自正態(tài)分布.這時(shí),可以憑直覺(jué)配一條直線,使它離各點(diǎn)的偏差盡可能地小,其中在縱軸刻度為50%附近各點(diǎn)離直線的偏差要優(yōu)先照顧,使其盡可能地小,并且使直線兩邊的點(diǎn)數(shù)大致相等.如果發(fā)現(xiàn)得到的點(diǎn)系統(tǒng)地偏離一條直線,在拒絕原假設(shè)后,可以考慮備擇假設(shè)的類型?特別,如果幾個(gè)較大的值明顯地傾向于由其它值確定的直線的下方,作y=logX或y八&等變換可能使圖形更符合一條直線.這種方法也就是人們常說(shuō)的P-P圖法或Q-Q圖法.1.2矩法矩法,也稱動(dòng)差法、偏峰檢驗(yàn)法,它是利用中心距的概念引入的兩個(gè)量,正態(tài)分布的這兩個(gè)量有著很好的特征,因此,常用這兩個(gè)量進(jìn)行正態(tài)性檢驗(yàn).總體X的偏度是刻畫(huà)X分布的對(duì)稱程度的量,記為(1.2.1)cE(X-EX)3(1.2.1)G_—3[E(X-EX2)]2G=0,X的分布對(duì)稱;G>0,稱為正偏;G<0,稱為負(fù)偏.111總體X的峰度是衡量X的概率分布密度陡峭程度的量,記為(1.2.2)廠E(X-EX)4(1.2.2)G二[E(X-EX2)]2正態(tài)分布的偏度為0,峰度為3.一個(gè)分布如果G遠(yuǎn)離0或G遠(yuǎn)離3,則可認(rèn)為它12與正態(tài)分布相差很大,為了檢驗(yàn)樣本x,xx是否來(lái)自正態(tài)總體,先計(jì)算偏度-x)4(工(-x)4(工(x-x)3)2ii=1(x—x)3和峰度的估計(jì)量g=「丄1V-3(厶(x-x)3)2ii=1當(dāng)總體服從正態(tài)分布且樣本容量n很大時(shí),統(tǒng)計(jì)量g和g近似正態(tài)分布,且12有E(g)沁0,Var(g)?24,如果以下不等式-2,:6<g<2〕6,―厶卑<g-3<^:'24,12nn1'nn2n只要有一個(gè)不成立,就認(rèn)為總體不服從正態(tài)分布[41%2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法2.1%2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法的原理為了充分解釋咒2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法的基本原理,先引入分位數(shù)和經(jīng)驗(yàn)分布函數(shù)的概念以及一個(gè)重要結(jié)論.定義2.1對(duì)0<p<1,稱滿足不等式P(X<x)>p,P(X>x)>1-p的x值為隨機(jī)變量X的P階分位數(shù).如果X是連續(xù)型的,那么P階分位數(shù)就是滿足方程F(x)=p的x的值.如果X是離散型的,那么,P階分位數(shù)存在唯一性的問(wèn)題.因此采用以下定義更準(zhǔn)確:設(shè)X的分布函數(shù)為F(x),對(duì)0<p<1,定義x的P階分位數(shù)為x=inf{x:F(x)>pp所以x=F-1(p)就是分布函數(shù)的反函數(shù),且只存在唯一的P階分位數(shù),即pFG)的左側(cè)分位數(shù).分位數(shù)是隨機(jī)變量的重要數(shù)字特征,在描述數(shù)據(jù)的分布時(shí)非常有用.定義2.2設(shè)G,x,…x)是總體X的一組樣本觀察值,將它們按大小順序排12n列為x<x<…<x,x為任意實(shí)數(shù),稱函數(shù)(1)(2)(n)0,x<xF(x)=/,(1)x<x<x,(n)n(k)(k+1)1,x>x(n)為經(jīng)驗(yàn)分布函數(shù).經(jīng)驗(yàn)分布函數(shù)的圖像是一條階梯曲線,若觀察值不重復(fù)則階梯的每一個(gè)躍度都是丄,若重復(fù),則按1的倍數(shù)跳躍上升?對(duì)任意的實(shí)數(shù)x,F(xiàn)(x)的值等于樣本nnn的觀察值x,x,…,x中不超過(guò)x的頻率,由頻率與概率的關(guān)系,F(xiàn)(x)可以作為總12nn體X的分布函數(shù)F(x)的一個(gè)近似值,隨n的增大,近似程度越好.結(jié)論2.1設(shè)X?N(r,E),Z>0,則X為-1X?X2(p,5),其中§'工.p證明:因?yàn)?,由正定矩陣的分解可得X=CC'(C為非退化方陣),令Y=C-1X,即X=CY,則Y?N(C-1r,I),Pp因X=CC',所以Y?N(C-屮,I),且有ppXS-1X=YC空-1CY=YY?X2(p,5),其中5/(C—1卩丿二卩'屮.下面介紹咒2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法的原理,設(shè)X=(X,...;X)(a=1,…,n)為(a)alap來(lái)自p元總體X的隨機(jī)樣本,檢驗(yàn)H:X?N(卩,Z),H:X不服從N⑴工).0P1p由上面的結(jié)論1可知在h0成立時(shí),(X-卩)rZ-1(X-卩)~X2(p),所以將x到總體中心r的馬氏距離D2(X,卩)=(X-Q工-i(X-Q記為D2,則有D2?X2(p).以下構(gòu)造的檢驗(yàn)方法是檢驗(yàn)量D2是否有D2~X2(P)成立.先由樣品X計(jì)(a)TOC\o"1-5"\h\z算D2(a=1,…,n),并對(duì)D2排序:D2<D2<...D2;取統(tǒng)計(jì)量D2的經(jīng)驗(yàn)分布函數(shù)為aa(1)(2)(n)F(D2)=t-0.5=p,記H(D2|p)表示X2(p)的分布函數(shù)在D2的值,則在H下有n(t)nt(t)(t)0p?H(D2|p);由經(jīng)驗(yàn)分布得到樣本的p分位數(shù)D2=F-1(p),同時(shí)設(shè)x2分布的pt(t)t(t)ntt分位數(shù)為X2,若假設(shè)H成立,應(yīng)有:D2UX2.t0(t)t然后繪制點(diǎn)(D2,X2)的散點(diǎn)圖,這些點(diǎn)應(yīng)散布在一條過(guò)原點(diǎn)且斜率為1的直(t)t線上,如果存在明顯的偏離,則可以拒絕原假設(shè).這種檢驗(yàn)法其實(shí)就是X2分布的Q-Q圖檢驗(yàn)法?如果不利用分位數(shù),直接用概率散點(diǎn)(p,H(D2|p))繪圖,就是X2分t(t)布的P-P圖檢驗(yàn)法.2.2X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法一般步驟為了方便應(yīng)用,將上述思路的具體實(shí)施步驟歸納如下:(a)由n個(gè)p維樣品X(a=1,…,n)計(jì)算樣本均值X和樣本協(xié)方差陣(a)(a)(2.2.1)s二丄X(X—XXx—X);(2.2.1)n-1(a)(a)a=1計(jì)算樣品點(diǎn)X(t=1,2,…,n)到X的馬氏距離:(t)D2=(X—X)S-1(X—X)(t=1,…,n);t(t)(t)⑶對(duì)馬氏距離D戚從小到大的次序排序:tD(1)<D(2)<._<D(n)計(jì)算p=05(t=1,2,…,n)以及X2,其中X2滿足:tnttHC2|p)=p(或計(jì)算H\D2Ip)的值);tt(/)以馬氏距離為橫坐標(biāo),咒2分位數(shù)為縱坐標(biāo)作平面坐標(biāo)系,用n個(gè)點(diǎn)(D2,咒2)繪(t)t制散布圖,即得到X2分布的Q-Q圖;或者用另n個(gè)點(diǎn)(p,H(d2|pJ*)繪制散布圖,t(t)即得X2分布的P-P圖;考察這n個(gè)點(diǎn)是否散布在一條通過(guò)原點(diǎn),斜率為1的直線上,若是,接受數(shù)據(jù)來(lái)自p元正態(tài)總體的假設(shè);否則拒絕正態(tài)性假設(shè).主成分檢驗(yàn)法3.1主成分檢驗(yàn)法的基本原理目前,關(guān)于主成分的研究很多,但大多數(shù)集中在進(jìn)行綜合評(píng)價(jià)及回歸分析,用來(lái)做檢驗(yàn)的則幾乎沒(méi)有.主成分檢驗(yàn)法是建立在主成分變量基礎(chǔ)上的統(tǒng)計(jì)方法,基本思想是降維:將多元數(shù)據(jù)集轉(zhuǎn)化為多個(gè)一元互相獨(dú)立的數(shù)據(jù)集,通過(guò)檢驗(yàn)一元數(shù)據(jù)集的正態(tài)性來(lái)判斷原多元數(shù)據(jù)集的正態(tài)性.為充分解釋這一思想,先引入主成分的定義.定義3.1.1設(shè)X=(X,X,…,X)'是p維隨機(jī)向量,均值E(X)二卩,協(xié)方差陣12pD(X)=S,稱Z=a'X為X的第i主成分(i=1,2.…?p),如果:iia'a=1(i=1,2.…,p);當(dāng)i>1時(shí),a工a=0(j=1,2.…,i—1);ijVar(Z)=maxVar(a'X)?i???a'a=1,a2a.=0(j=1,2.,i—1)若已知E的特征值為X>X>-->X>0,a,a,…,a為相應(yīng)的單位正交特征向12p12p量,則X的第i主成分Z=a,X(i=1,2.….p)具體的證明過(guò)程參見(jiàn)文獻(xiàn)[1].如果可以證明:z:…;Z是相互獨(dú)立的,這時(shí)p元數(shù)據(jù)的正態(tài)性檢驗(yàn)可1p化為P個(gè)相互獨(dú)立的主成分的一元數(shù)據(jù)的正態(tài)性檢驗(yàn),這種檢驗(yàn)方法稱為主成分檢驗(yàn)法.下面說(shuō)明主成分的不相關(guān)性?設(shè)D(X)=Z,如果工是對(duì)角矩陣,即p維向量的分量互不相關(guān),這時(shí)可以直接把p元正態(tài)性檢驗(yàn)問(wèn)題轉(zhuǎn)化為p個(gè)一元正態(tài)性檢驗(yàn)問(wèn)題?但一般工不是對(duì)角矩陣,即分量間是相關(guān)的,利用主成分分析法,求得X的p個(gè)主成分Z,…,Z?下證Z,…,Z是不相關(guān)的.TOC\o"1-5"\h\z1p1p令Z=(Z,Z,…,Z),由于Z,…,Z依次為X的第i主成分的充要條件是12p1pD(Z)=diag(X,X,X)?即有12pCov(z,z)=r1主j,又X三X三……三X>0,ij[XI=j12pi即說(shuō)明任意兩個(gè)不相同的主成分之間是不相關(guān)的,故Z,Z,…,Z不相關(guān).12p文獻(xiàn)[2]中給出了主成分?jǐn)?shù)據(jù)處理的基本方法,并分析了方法的不足,提出了改進(jìn)的方法?直接將標(biāo)準(zhǔn)化的數(shù)據(jù)代入Z=AX*T,則得到主成分得分.其中,pxnpxn系數(shù)矩陣A為對(duì)應(yīng)特征向量組成的矩陣,X*t為標(biāo)準(zhǔn)化的數(shù)據(jù)集?從中我們看pxnpxn到,計(jì)算主成分得分實(shí)際上是將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)投影到旋轉(zhuǎn)后的坐標(biāo)中.結(jié)論3.1.1若X?N(卩,工),則Z?N(Ay,A工A);反之,若Z服從多元正態(tài)分布,則X也服從多元正態(tài)分布.證明:由主成分的定義知,Z=A,X,其中,A=(a,a,…,a)且為正交矩陣?由12p于X?N(y,工),則E(Z)=E(AX)=AE(X)=Ay,D(Z)=D(A'X)=AD(X)A=A'工A,從而,由多元正態(tài)分布的線性性質(zhì),Z?N(Ay,A'工A),反過(guò)來(lái),由Z服從正態(tài)分布,同理可知X服從正態(tài)分布.結(jié)論3.1.2若Z,z,…,Z獨(dú)立同正態(tài)分布,則Z服從多元正態(tài)分布.12p證明:此命題的結(jié)論可以直接從多元正態(tài)分布的定義得出.由主成分的理論特征知,主成分變量是新的互不相關(guān)的變量,因此,只要說(shuō)明主成分變量Z,Z,…,Z分別服從一元正態(tài)分布,就可以說(shuō)明Z服從多元正態(tài)分12p布,從而由結(jié)論3.1.1知X也服從多元正態(tài)分布.3.2主成分正態(tài)檢驗(yàn)的一般步驟具體檢驗(yàn)步驟如下:由n個(gè)p維樣品X(a=1,…,n)計(jì)算樣本均值X和樣本協(xié)方差陣S,計(jì)算公式(a)同(2.2.1)式;利用坐標(biāo)變換計(jì)算每個(gè)樣本點(diǎn)的主成分得分,得到新的主成分得分集Z,Z,…,Z;12p⑶對(duì)每個(gè)乙(i=1,2,…,p),求出其對(duì)應(yīng)的偏度和峰度值;考察偏度是否趨近0,峰度是否趨近3?若是,則接受X來(lái)自于正態(tài)總體;若兩個(gè)條件有一個(gè)不滿足,則拒絕正態(tài)性假設(shè).應(yīng)用研究為了說(shuō)明這兩種方法具有很好的實(shí)用價(jià)值,并進(jìn)行比較,本文給出兩個(gè)實(shí)例研究.4.1實(shí)例1對(duì)20名健康成年女性的出汗(X1),鈉的含量(X2)和鉀的含量(X3)的數(shù)據(jù)
進(jìn)行正態(tài)性檢驗(yàn)?本例數(shù)據(jù)與文獻(xiàn)[4]中第45頁(yè)例1的數(shù)據(jù)一樣,文獻(xiàn)[4]中是對(duì)樣本數(shù)據(jù)進(jìn)行均值向量的假設(shè)檢驗(yàn),檢驗(yàn)方法是基于樣本數(shù)據(jù)來(lái)自于3元正態(tài)分布的假設(shè),但文獻(xiàn)[4]并沒(méi)有對(duì)樣本數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),現(xiàn)本文分別用X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法和主成分檢驗(yàn)法進(jìn)行多元正態(tài)性檢驗(yàn).(1)X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法根據(jù)2.2節(jié)給出的一般步驟,結(jié)合數(shù)據(jù)集,首先利用SAS中主成分程序(程序同見(jiàn)附錄3)計(jì)算出協(xié)方差陣s:X1X2X3X11000004173—5597X20417310000—2095--?5597—209510000表4T協(xié)方差陣然后利用Matlab編程計(jì)算馬氏距離(程序見(jiàn)附錄1),并按升序排列;同時(shí)利用SAS軟件計(jì)算出對(duì)應(yīng)的x2分位數(shù)(程序見(jiàn)附錄2),結(jié)果見(jiàn)下表:序號(hào)馬氏距離p分位數(shù)序號(hào)馬氏距離p分位數(shù)10.0030.2158110.10962.501620.00610.472120.1232.790930.00640.6924130.14463.109840.01790.9018140.22383.467550.02961.1086150.22413.877560.03551.3174160.35714.361370.0611.5316170.4554.956680.08851.754180.49025.739490.08871.9875190.84396.9046100.09152.2354201.14479.3484表4-2馬氏距離和p分位數(shù)最后以馬氏距離為橫坐標(biāo),以卡方分位數(shù)為縱坐標(biāo)作散點(diǎn)圖,見(jiàn)圖4-1:圖4-1X2統(tǒng)計(jì)量的Q-Q圖從圖中可以看出,這些點(diǎn)基本在一條直線的上下波動(dòng),偏離不是很大?因此,從直觀上判斷可以接受原多元數(shù)據(jù)集來(lái)自于多元正態(tài)分布的假設(shè).(2)主成分檢驗(yàn)法首先通過(guò)編程(程序見(jiàn)附錄3)計(jì)算出主成分得分集,見(jiàn)表4-3:obsZ1Z2Z3obsZ1Z2Z31—2.35056—1.60948—0.6380911—0.628270.32780.1673421.28027—1.571510.6829312—1.409790.374680.6970830.29161—1.15274—0.4416913—0.545580.43448—0.12583
4-0.99597-0.99533-0.16326141.685290.48243-0.5693550.24255-0.76054-0.4243215-0.16380.59492-0.9863360.34761-0.480320.3077160.687090.595250.9434972.73671-0.456720.58714170.186840.856080.5504181.30752-0.447590.41891181.386780.98895-1.183319-0.052720.03561-0.6876319-0.904021.14607-0.1885110-2.800040.157190.6998620-0.301541.480770.35344表4-3主成分得分集然后對(duì)主成分得分集進(jìn)行分析,用SAS中的UNIVARIATE命令和SAS中的分析家中的Q-Q圖分別對(duì)Zl、Z2、Z3做正態(tài)性檢驗(yàn)?我們先看偏峰檢驗(yàn)的結(jié)果表4—4:變量偏度峰度均值標(biāo)準(zhǔn)差方差Z1-0.15099760.776310920.1237131.2590211.58513Z2-0.3508053-0.62672680.0847090.833050.69397Z3-0.421413-0.89060520.0335830.623830.38916表4-4偏峰度檢驗(yàn)結(jié)果從表4-4中可以看出偏度是在0附近波動(dòng),但是峰度的波動(dòng)很大,絕對(duì)值在0.7附近,結(jié)合2.2節(jié)中的結(jié)論可知,可以拒絕原數(shù)據(jù)集是來(lái)自3元正態(tài)分布的假設(shè).我們?cè)倏磮D方法檢驗(yàn)的結(jié)果,見(jiàn)圖4-2:卜――■卜――■孑,<':片圖4-2QQ圖(依次為Z1、Z2、Z3)從圖中左上角給出的擬合方差以及均值可以看出,直線的擬合度非常好,由此可以判斷Z1、Z2、Z3都服從一元正態(tài)分布,從而可以接受原數(shù)據(jù)集來(lái)自于3元正態(tài)分布的假設(shè).從上面的分析我們看到一元正態(tài)檢驗(yàn)的2檢驗(yàn)法和Q-Q檢驗(yàn)法得到了兩種截然相反的結(jié)果,那哪個(gè)結(jié)果更可信呢?出現(xiàn)這樣的情況也是正常的,最重要的原因是中心矩的結(jié)果很容易受到頻數(shù)分布的影響?不同的分布可能計(jì)算出同樣的中心矩,這樣就造成檢驗(yàn)誤差增大.4.2實(shí)例2本例選取我國(guó)2006年各地區(qū)城市設(shè)施水平數(shù)據(jù)作正態(tài)性檢驗(yàn),包含6個(gè)指標(biāo),X1:城市用水普及率;X2:城市燃?xì)馄占奥剩籜3:每萬(wàn)人擁有公共交通車輛;X4:人均城市道路面積;X5:人均公園綠地面積;X6:每萬(wàn)人擁有公共廁所?用1~31依次表示北京、天津、河北、山西、內(nèi)蒙古、遼寧、吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南,湖北,湖南,廣東,廣西,海南,重慶,四川,貴州,云南,西藏,陜西,甘肅,青海,寧夏,新疆全國(guó)31個(gè)省、直轄市、自治區(qū)的名稱.
(1)咒2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法參照3.1.1中的步驟說(shuō)明,可以得出相關(guān)的結(jié)果如下:X1X2X3X4X5X6XI10.82120.3768-0.14790.1356-0.1812X20.821210.53320.0750.2839-0.0797X30.37680.533210.09230.23220.2216X4-0.14790.0750.092310.56650.0193X50.13560.28390.23220.566510.0371X6-0.1812-0.07970.22160.01930.03711表4-5相關(guān)陣obs卡方分位數(shù)馬氏距離obs卡方分位數(shù)馬氏距離11.0437330.0421175.6147290.191621.6135270.0569185.8910930.238132.0032440.0579196.1812120.255742.3289340.0659206.486020.275252.620030.0713216.8107940.357162.8893580.0725227.1578030.387673.1460930.0767237.5348350.522283.3933550.0774247.9485090.651793.6359720.0783258.4081440.762103.8756490.0849268.9326740.7744114.1136470.0889279.5443230.786124.3531610.09192810.291531.5253134.594260.09392911.262311.7016144.839940.09433012.680481.825155.090180.11273115.595162.0393165.3481210.1665表4-6馬氏距離和X2分位數(shù)最終得到X2統(tǒng)計(jì)量的Q-Q圖如下:DA-BDA-B口口弓I1522.5圖4-3X2統(tǒng)計(jì)量的Q-Q圖從圖4-3中可以看出,大部分?jǐn)?shù)據(jù)呈拋物線分布,因此,拒絕原數(shù)據(jù)集來(lái)自
于6元正態(tài)分布的假設(shè).(2)主成分檢驗(yàn)法同樣地,參照4.1.2中的步驟得出的結(jié)果如下:citiesZ1Z2Z3Z4Z5Z624-2.05186-2.10895-0.178150.07102-0.387460.2819825-1.81218-0.9331-0.06106-1.00455-0.754370.1386426-1.625683.741322.27013-1.62679-0.26124-0.034528-1.33918-0.30283-0.98131-0.02720.23251.0418811-1.107290.44231-0.05868-0.797140.37661-0.430738-0.982110.087962.616461.210530.07019-0.139919-0.890950.22395-1.469170.20427-1.04632-0.5074416-0.88536-0.10507-0.193020.44094-0.301730.6120727-0.82205-1.28346-0.33327-0.624660.26040.124157-0.81962-0.374690.984260.72292-0.077-0.389024-0.79483-0.852330.463781.039920.493790.1013320-0.7629-0.14111-0.86564-0.22601-0.04011-0.2669122-0.72434-1.12470.10215-0.36347-0.07823-0.3905323-0.70682-0.31605-0.37032-0.09493-0.38889-0.191545-0.666071.034671.185321.70276-0.39431-0.1117213-0.53337-0.43944-0.63015-0.52333-0.30519-0.5578330-0.372591.62408-0.184650.331890.66170.6305718-0.14585-0.80235-0.38255-0.130570.183710.1840212-0.13232-0.18019-0.802740.008010.613350.2428414-0.01007-0.73393-0.768020.15566-0.178780.10139210.114321.80327-1.713390.00923-0.797220.03847100.456331.77173-0.520470.276850.37677-0.1906730.589850.102920.021830.721270.77028-0.1537260.60268-0.780830.5020.75057-0.14062-0.38502310.81752-0.069931.13096-0.398030.789660.14311170.835080.07841-0.4441-0.10520.145590.01334291.40432-0.414171.68992-1.10294-0.52070.2899622.07803-0.426210.33992-0.631651.58452-0.0194792.1885-0.99621-0.76545-0.489410.81465-0.58464152.830352.73515-1.818150.57662-0.214270.0657415.26848-1.260251.23356-0.0766-1.487270.34416表4-7主成分得分集變量偏度峰度方差標(biāo)準(zhǔn)差Z10.039881144.77090789143.4042211.97515Z20.7109616118731713.815686Z31.834257793.6994776213.9635083.7367778Z40.661437030.215325288.42852932.9031929Z51.296210182.147064572.40113661.5495601Z61.115613740.932670812.62474221.6201056表4-8偏峰檢驗(yàn)結(jié)果從表4-7中可以看出,Z1比較符合正態(tài)分布的特征,但從后面的方差以及標(biāo)準(zhǔn)差(根據(jù)Q-Q圖擬合直線與點(diǎn)之間的關(guān)系得到的,方差和標(biāo)準(zhǔn)差越小說(shuō)明Q-Q圖越接近于一條直線,也就說(shuō)明該變量越服從正態(tài)分布)來(lái)看X3?X6擬合度比較好?無(wú)論怎樣,從偏峰度和Q-Q圖都可得出,原多元數(shù)據(jù)集不服從正態(tài)性檢驗(yàn).這個(gè)結(jié)果說(shuō)明我國(guó)各省、直轄市、自治區(qū)在上面描述的六個(gè)指標(biāo)中不存在都強(qiáng)或都弱的情況,都是此強(qiáng)彼弱,這很好的映證了目前我國(guó)各省、直轄市、自治區(qū)實(shí)際情況.兩種方法的比較從上面的原理介紹和應(yīng)用分析可以看出,多元數(shù)據(jù)正態(tài)性檢驗(yàn)的X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法和主成分檢驗(yàn)法存在各自的優(yōu)缺點(diǎn).相對(duì)來(lái)說(shuō),主成分正態(tài)性檢驗(yàn)法涉及到主成分的計(jì)算,較為麻煩,但容易在軟件上實(shí)現(xiàn),具有較強(qiáng)的實(shí)用性和應(yīng)用價(jià)值.這也可以從主成分也能對(duì)一元變量進(jìn)行檢驗(yàn)可以看出來(lái),但是需要注意的是一元檢驗(yàn)的是新的主成分變量,并不是原始數(shù)據(jù)集的某一指標(biāo)的一元檢驗(yàn).X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法具有結(jié)論簡(jiǎn)單明了的直觀效果,但是它沒(méi)有現(xiàn)成的命令可以套用,對(duì)于專業(yè)知識(shí)不夠的人是難以得出結(jié)果的.從理論上講,主成分檢驗(yàn)法是優(yōu)于X2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法,這是因?yàn)橄鄬?duì)來(lái)說(shuō)一元數(shù)據(jù)的正態(tài)性檢驗(yàn)理論已經(jīng)相當(dāng)成熟,在得出主成分變量后,就可以直接用相應(yīng)的軟件命令來(lái)實(shí)現(xiàn),簡(jiǎn)單,但分析起來(lái)就相對(duì)麻煩些.結(jié)束語(yǔ)本文只是比較了多元數(shù)據(jù)正態(tài)性檢驗(yàn)的兩種常用方法的異同,對(duì)于其他分布的檢驗(yàn)問(wèn)題,由主成分的較好的特征,是否可以將主成分檢驗(yàn)法推廣到其他類型分布的檢驗(yàn)上呢?本文受能力和時(shí)間限制沒(méi)有研究.另外,主成分提出至今,通過(guò)大量的實(shí)踐驗(yàn)證,發(fā)展形成了比較系統(tǒng)的體系.目前比較常見(jiàn)的有核主成分見(jiàn)文獻(xiàn)[5]、灰(也稱模糊)主成分見(jiàn)文獻(xiàn)[6]、偽主成分見(jiàn)文獻(xiàn)[7]、非線性主成分見(jiàn)文獻(xiàn)[8]等分析方法,這些方法的提出彌補(bǔ)了主成分一般方法的不足.對(duì)于這些改進(jìn)方法見(jiàn)文獻(xiàn)[9],是否也可將之應(yīng)用到本文中的主成分檢驗(yàn)法中,使主成分檢驗(yàn)法的結(jié)論更為準(zhǔn)確,也沒(méi)有研究.本文的創(chuàng)新之處在于通過(guò)了兩個(gè)實(shí)例來(lái)衡量?jī)煞N檢驗(yàn)方法的優(yōu)劣,這樣做的好處是避免了以偏概全,而且很好的利用軟件將x2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法的結(jié)果得出來(lái)了,并總結(jié)了兩種檢驗(yàn)方法的長(zhǎng)處和短處?美中不足的是對(duì)于x2統(tǒng)計(jì)量的Q-Q圖檢驗(yàn)法沒(méi)有編寫(xiě)出一個(gè)完整的程序直接得出Q-Q圖?限于作者的學(xué)術(shù)水平,文中難免有錯(cuò)誤和不足,歡迎批評(píng)指正.致謝本論文選題及寫(xiě)作都是在徐偉老師的親切關(guān)懷和細(xì)心指導(dǎo)下完成的.他的嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵(lì)著我,使我不僅接受了全新的思想觀念,樹(shù)立了宏偉的學(xué)術(shù)目標(biāo),領(lǐng)會(huì)了基本的思考方式,掌握了通用的研究方法,而且還明白了許多為人處事的道理,在此,我對(duì)徐老師表示深深的感謝.與此同時(shí),我還要感謝教過(guò)我的所有的老師,沒(méi)有他們諄諄的教導(dǎo)就不會(huì)有我今天論文的完成,謝謝了老師,您們辛苦了.參考文獻(xiàn)高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005A.H.Al-Ibrahim,NoriahM.Al-Kandari.Stabilityofprincipalcomponents[J],ComputationalStatistics23(8),2008.9賈明輝,華志強(qiáng)?
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物標(biāo)志物在藥物臨床試驗(yàn)中的生物標(biāo)志物研究?jī)r(jià)值
- 生物制品穩(wěn)定性試驗(yàn)效率提升方法
- 生物制劑治療哮喘的肺功能終點(diǎn)指標(biāo)選擇
- 生物制劑失應(yīng)答后IBD的黏膜愈合評(píng)估標(biāo)準(zhǔn)
- 生物3D打印與器官芯片的協(xié)同構(gòu)建策略
- 順豐速運(yùn)快遞員績(jī)效考核與激勵(lì)機(jī)制含答案
- 生活方式調(diào)整的指導(dǎo)方案
- 采購(gòu)協(xié)調(diào)員筆試考試題庫(kù)含答案
- 工藝安全知識(shí)競(jìng)賽試題集
- 云計(jì)算架構(gòu)師考試重點(diǎn)題及答案
- 2025-2026學(xué)年教科版小學(xué)科學(xué)新教材三年級(jí)上冊(cè)期末復(fù)習(xí)卷及答案
- 中投公司高級(jí)職位招聘面試技巧與求職策略
- 2026中國(guó)大唐集團(tuán)資本控股有限公司高校畢業(yè)生招聘考試歷年真題匯編附答案解析
- 2025福建三明市農(nóng)業(yè)科學(xué)研究院招聘專業(yè)技術(shù)人員3人筆試考試備考題庫(kù)及答案解析
- 統(tǒng)編版(部編版)小學(xué)語(yǔ)文四年級(jí)上冊(cè)期末測(cè)試卷( 含答案)
- 養(yǎng)老金贈(zèng)予合同范本
- 抵押車非本人協(xié)議書(shū)
- 倉(cāng)庫(kù)安全風(fēng)險(xiǎn)辨識(shí)清單
- 安全閥校驗(yàn)質(zhì)量手冊(cè)
- 人民幣發(fā)展史演示文稿
- 公司入場(chǎng)安全須知中英文對(duì)照
評(píng)論
0/150
提交評(píng)論