第一章多元統(tǒng)計.ppt_第1頁
第一章多元統(tǒng)計.ppt_第2頁
第一章多元統(tǒng)計.ppt_第3頁
第一章多元統(tǒng)計.ppt_第4頁
第一章多元統(tǒng)計.ppt_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2020/7/8,1,2020/7/8,2,第一章 多元正態(tài)分布,目錄 上頁 下頁 返回 結(jié)束,1.1 多元分布的基本概念,1.2 統(tǒng)計距離和馬氏距離,1.3 多元正態(tài)分布,1.4 均值向量和協(xié)方差陣的估計,1.5 常用分布及抽樣分布,2020/7/8,3,第一章 多元正態(tài)分布,一元正態(tài)分布在統(tǒng)計學(xué)的理論和實際應(yīng)用中都有著重要的地位。同樣,在多變量統(tǒng)計學(xué)中,多元正態(tài)分布也占有相當(dāng)重要的位置。原因是: 許多隨機(jī)向量確實遵從正態(tài)分布,或近似遵從正態(tài)分布; 對于多元正態(tài)分布,已有一整套統(tǒng)計推斷方法,并且得到了許多完整的結(jié)果。,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,4,第一章 多元正態(tài)分布,

2、多元正態(tài)分布是最常用的一種多元概率分布。除此之外,還有多元對數(shù)正態(tài)分布,多項式分布,多元超幾何分布,多元 分布、多元 分布、多元指數(shù)分布等。本章從多維變量及多元分布的基本概念開始,著重介紹多元正態(tài)分布的定義及一些重要性質(zhì)。,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,5,1.1多元分布的基本概念,目錄 上頁 下頁 返回 結(jié)束,1.1.1 隨機(jī)向量,1.1.2 分布函數(shù)與密度函數(shù),1.1.3 多元變量的獨立性,1.1.4 隨機(jī)向量的數(shù)字特征,2020/7/8,6,1.1.1 隨機(jī)向量,表示對同一個體觀測的 個變量。若觀測了 個個體,則可得到如下表1-1的數(shù)據(jù),稱每一個個體的 個變量為一個樣品

3、,而全體 個樣品形成一個樣本。,假定所討論的是多個變量的總體,所研究的數(shù)據(jù)是同時觀測 個指標(biāo)(即變量),又進(jìn)行了 次觀測得到的,把這 個指標(biāo)表示為 常用向量,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,7,橫看表1-1,記 , 它表示第 個樣品的觀測值。豎看表1-1,第 列的元素 表示對 第個變量 的n次觀測數(shù)值。下面為表1-1,目錄 上頁 下頁 返回 結(jié)束,1.1.1 隨機(jī)向量,2020/7/8,8,1.1.1 隨機(jī)向量,因此,樣本資料矩陣可用矩陣語言表示為:,目錄 上頁 下頁 返回 結(jié)束,若無特別說明,本書所稱向量均指列向量,定義1.1 設(shè) 為p個隨機(jī)變量,由它們組成 的向量 稱為隨機(jī)

4、向量。,2020/7/8,9,1.1.2 分布函數(shù)與密度函數(shù),描述隨機(jī)變量的最基本工具是分布函數(shù),類似地描述隨機(jī)向量的最基本工具還是分布函數(shù)。,目錄 上頁 下頁 返回 結(jié)束,多元分布函數(shù)的有關(guān)性質(zhì)此處從略。,定義1.2 設(shè) 是以隨機(jī)向量,它的多元分布 函數(shù)是,式中:,2020/7/8,10,1.1.2 分布函數(shù)與密度函數(shù),目錄 上頁 下頁 返回 結(jié)束,定義1.3:設(shè) = ,若存在一個非負(fù)的函數(shù) ,使得,對一切 成立,則稱 (或 )有分布密度 并稱 為連續(xù)型隨機(jī)向量。,一個p維變量的函數(shù)f()能作為 中某個隨機(jī)向量的分布密度,當(dāng)且僅當(dāng),2020/7/8,11,1.1.3 多元變量的獨立性,目錄

5、上頁 下頁 返回 結(jié)束,定義1.4:兩個隨機(jī)向量 和 稱為是相互獨立的,若,注意:在上述定義中, 和 的維數(shù)一般是不同的。,對一切 成立。若 為 的聯(lián)合分布函數(shù), 分別為 和 的分布函數(shù),則 與 獨立當(dāng)且僅當(dāng) (1.4),若 有密度 ,用 分別表示 和 的分布密度,則 和 獨立當(dāng)且僅當(dāng) (1.5),2020/7/8,12,1.1.4 隨機(jī)向量的數(shù)字特征,是一個p維向量,稱為均值向量.,目錄 上頁 下頁 返回 結(jié)束,當(dāng) 為常數(shù)矩陣時,由定義可立即推出如下性質(zhì):,1、隨機(jī)向量 X的均值 設(shè) 有P個分量。若 存在,我們定義隨機(jī)向量X的均值為:,2020/7/8,13,1.1.4 隨機(jī)向量的數(shù)字特征,

6、目錄 上頁 下頁 返回 結(jié)束,2、隨機(jī)向量 自協(xié)方差陣,稱它為 維隨機(jī)向量 的協(xié)方差陣,簡稱為 的協(xié)方差陣。稱 為 的廣義方差,它是協(xié)差陣的行列式之值。,2020/7/8,14,目錄 上頁 下頁 返回 結(jié)束,1.1.4 隨機(jī)向量的數(shù)字特征,3、隨機(jī)向量X 和Y 的協(xié)差陣,設(shè) 分別為 維和 維隨機(jī)向量,它們之間的協(xié)方差陣定義為一個 矩陣,其元素是 ,即,當(dāng)A、B為常數(shù)矩陣時,由定義可推出協(xié)差陣有如下性質(zhì):,2020/7/8,15,目錄 上頁 下頁 返回 結(jié)束,1.1.4 隨機(jī)向量的數(shù)字特征,(3)設(shè)X為 維隨機(jī)向量,期望和協(xié)方差存在記 則,對于任何隨機(jī)向量 來說,其協(xié)差陣都是對稱陣,同時總是非負(fù)

7、定(也稱半正定)的。大多數(shù)情形下是正定的。,2020/7/8,16,目錄 上頁 下頁 返回 結(jié)束,1.1.4 隨機(jī)向量的數(shù)字特征,4、隨機(jī)向量X 的相關(guān)陣 若隨機(jī)向量 的協(xié)差陣存在,且每個分量的方差大于零,則X的相關(guān)陣定義為:,也稱為分量 與 之間的(線性)相關(guān)系數(shù)。,2020/7/8,17,在數(shù)據(jù)處理時,為了克服由于指標(biāo)的量綱不同對統(tǒng)計分析結(jié)果帶來的影響,往往在使用某種統(tǒng)計分析方法之前,常需將每個指標(biāo)“標(biāo)準(zhǔn)化”,即做如下變換,目錄 上頁 下頁 返回 結(jié)束,1.1.4 隨機(jī)向量的數(shù)字特征,2020/7/8,18,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,歐氏距離,馬氏距離,20

8、20/7/8,19,1.2 統(tǒng)計距離和馬氏距離,歐氏距離,在多指標(biāo)統(tǒng)計分析中,距離的概念十分重要,樣品間的不少特征都可用距離去描述。大部分多元方法是建立在簡單的距離概念基礎(chǔ)上的。即平時人們熟悉的歐氏距離,或稱直線距離.如幾何平面上的點p=(x1,x2)到原點O=(0,0)的歐氏距離,依勾股定理有,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,20,1.2 統(tǒng)計距離和馬氏距離,但就大部分統(tǒng)計問題而言,歐氏距離是不能令人滿意的。這里因為,每個坐標(biāo)對歐氏距離的貢獻(xiàn)是同等的。當(dāng)坐標(biāo)軸表示測量值時,它們往往帶有大小不等的隨機(jī)波動,在這種情況下,合理的辦法是對坐標(biāo)加權(quán),使得變化較大的坐標(biāo)比變化小的坐標(biāo)有

9、較小的權(quán)系數(shù),這就產(chǎn)生了各種距離。 歐氏距離還有一個缺點,這就是當(dāng)各個分量為不同性質(zhì)的量時,“距離”的大小竟然與指標(biāo)的單位有關(guān)。,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,21,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,例如,橫軸 代表重量(以kg為單位),縱軸 代表長度(以cm為單位)。有四個點A、B、C、D見圖1.1,它們的坐標(biāo)如圖1.1所示,2020/7/8,22,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,這時,顯然AB比CD要長。,結(jié)果CD反而比AB長!這顯然是不夠合理的。,現(xiàn)在,如果 用mm作單位, 單位保持不變,此時A坐標(biāo)為(0,50),C坐標(biāo)

10、為(0,100),則,2020/7/8,23,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,因此,有必要建立一種距離,這種距離要能夠體現(xiàn)各個變量在變差大小上的不同,以及有時存在著的相關(guān)性,還要求距離與各變量所用的單位無關(guān)??磥砦覀冞x擇的距離要依賴于樣本方差和協(xié)方差。因此,采用“統(tǒng)計距離” 這個術(shù)語,以區(qū)別通常習(xí)慣用的歐氏距離。最常用的一種統(tǒng)計距離是印度統(tǒng)計學(xué)家馬哈拉諾比斯(Mahalanobis)于1936年引入的距離,稱為“馬氏距離”。,2020/7/8,24,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,下面先用一個一維的例子說明歐氏距離與馬氏距離在概率上的差異。,

11、設(shè)有兩個一維正態(tài)總體 。若有一個樣品,其值在A處,A點距離哪個總體近些呢?由圖1-2,圖1-2,2020/7/8,25,1.2 統(tǒng)計距離和馬氏距離,目錄 上頁 下頁 返回 結(jié)束,由圖1-2可看出,從絕對長度來看,A點距左面總體G1近些,即A點到 比A點到 要“近一些”(這里用的是歐氏距離,比較的是A點坐標(biāo)與 到 值之差的絕對值),但從概率觀點來看,A點在 右側(cè)約4 處,A點在 的左側(cè)約3 處,若以標(biāo)準(zhǔn)差的觀點來衡量,A點離 比A點離 要“近一些”。顯然,后者是從概率角度上來考慮的,因而更為合理些,它是用坐標(biāo)差平方除以方差(或說乘以方差的倒數(shù)),從而化為無量綱數(shù),推廣到多維就要乘以協(xié)方差陣的逆矩

12、陣 ,這就是馬氏距離的概念,以后將會看到,這一距離在多元分析中起著十分重要的作用。,2020/7/8,26,1.2 統(tǒng)計距離和馬氏距離,馬氏距離,設(shè)X、Y從均值向量為,協(xié)方差陣為的總體G中抽取的兩個樣品,定義X、Y兩點之間的馬氏距離為,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,27,1.2 統(tǒng)計距離和馬氏距離,設(shè) 表示一個點集, 表示距離,它 是到 的函數(shù),可以證明,馬氏距離符合如下距離的四條基本公理 :,(2) 當(dāng)且僅當(dāng) ;,(3),(4),目錄 上頁 下頁 返回 結(jié)束,2020/7/8,28,1.3 多元正態(tài)分布,多元正態(tài)分布是一元正態(tài)分布的推廣。迄今為止,多元分析的主要理論都是建立

13、在多元正態(tài)總體基礎(chǔ)上的,多元正態(tài)分布是多元分析的基礎(chǔ)。另一方面,許多實際問題的分布常是多元正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于多元正態(tài)分布。 本節(jié)將介紹多元正態(tài)分布的定義,并簡要給出它的基本性質(zhì)。,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,29,1.3 多元正態(tài)分布,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,30,1.3.1 多元正態(tài)分布的定義,|為協(xié)差陣的行列式。,目錄 上頁 下頁 返回 結(jié)束,定義1.5:若 元隨機(jī)向量 的概率密度函數(shù)為:,則稱 遵從 元正態(tài)分布,也稱X為P元正態(tài)變量。記為,2020/7/8,31,定理1.1將正態(tài)分布的參數(shù)和賦于了

14、明確的統(tǒng)計意義。有關(guān)這個定理的證明可參見文獻(xiàn)3。,多元正態(tài)分布不止定義1.5一種形式,更廣泛地可采用特征函數(shù)來定義,也可用一切線性組合均為正態(tài)的性質(zhì)來定義等,有關(guān)這些定義的方式參見文獻(xiàn)3。,目錄 上頁 下頁 返回 結(jié)束,1.3.1 多元正態(tài)分布的定義,定理1.1:設(shè) 則,2020/7/8,32,1.3.2 多元正態(tài)分布的性質(zhì),目錄 上頁 下頁 返回 結(jié)束,1、如果正態(tài)隨機(jī)向量 的協(xié)方差陣是對角陣,則X的各分量是相互獨立的隨機(jī)變量。證明參見文獻(xiàn)4,p.33。,容易驗證, ,但 顯然不是正態(tài)分布。,2、多元正態(tài)分布隨機(jī)向量X的任何一個分量子集的分布(稱為X的邊緣分布)仍然遵從正態(tài)分布。而反之,若一

15、個隨機(jī)向量的任何邊緣分布均為正態(tài),并不能導(dǎo)出它是多元正態(tài)分布。 例如,設(shè) 有分布密度,2020/7/8,33, 1.3.2 多元正態(tài)分布的性質(zhì),目錄 上頁 下頁 返回 結(jié)束,4、若 ,則 若為定值,隨著 的變化其軌跡為一橢球面,是 的密度函數(shù)的等值面.若 給定,則 為 到 的馬氏距離。,m,3、多元正態(tài)向量 的任意線性變換仍然遵從多元正態(tài)分布。即設(shè) ,而m維隨機(jī)向量 ,其中 是 mp階的常數(shù)矩陣,b是m維的常向量。則m維隨機(jī)向量Z也是正態(tài)的,且 。即Z遵從m元態(tài)分布,其均值向量為 ,協(xié)差陣為 。,2020/7/8,34, 1.3.3 條件分布和獨立性,目錄 上頁 下頁 返回 結(jié)束,我們希望求給

16、定 的條件分布,即 的分布。下一個定理指出:正態(tài)分布的條件分布仍為正態(tài)分布。,設(shè) p2,將X、和剖分如下:,2020/7/8,35,證明參見文獻(xiàn)3。,目錄 上頁 下頁 返回 結(jié)束, 1.3.3 條件分布和獨立性,定理1.2:設(shè) ,0,則,2020/7/8,36,(1.28),目錄 上頁 下頁 返回 結(jié)束, 1.3.3 條件分布和獨立性,定理1.3:設(shè) ,0,將X,剖分如下:,2020/7/8,37,則 有如下的條件均值和條件協(xié)差陣的遞推公式:,(1.29),(1.30),證明參見3,目錄 上頁 下頁 返回 結(jié)束, 1.3.3 條件分布和獨立性,2020/7/8,38,在定理1.2中,我們給出了

17、對X、和作形如(1.25)式剖分時條件協(xié)差陣 的表達(dá)式及其與非條件協(xié)差陣的關(guān)系,令 表示 的元素,則可以定義偏相關(guān)系數(shù)的概念如下:,定義1.6:當(dāng) 給定時, 與 的偏相關(guān)系數(shù)為:,目錄 上頁 下頁 返回 結(jié)束, 1.3.3 條件分布和獨立性,2020/7/8,39,目錄 上頁 下頁 返回 結(jié)束, 1.3.3 條件分布和獨立性,定理1.4:設(shè) 將X、按同樣方式剖分為,其中,,證明參見文獻(xiàn)3,2020/7/8,40,1.4 均值向量和協(xié)方差陣的估計,上節(jié)已經(jīng)給出了多元正態(tài)分布的定義和有關(guān)的性質(zhì),在實際問題中,通常可以假定被研究的對象是多元正態(tài)分布,但分布中的參數(shù)和是未知的,一般的做法是通過樣本來估

18、計。,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,41,1.4 均值向量和協(xié)方差陣的估計,均值向量的估計,在一般情況下,如果樣本資料陣為:,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,42,1.4 均值向量和協(xié)方差陣的估計,即均值向量的估計量,就是樣本均值向量.這可由極大似然法推導(dǎo)出來。推導(dǎo)過程參見文獻(xiàn)3。,目錄 上頁 下頁 返回 結(jié)束,設(shè)樣品 相互獨立,同遵從于P元正態(tài)分布 ,而且 ,0,則總體參數(shù)均值的估計量是,2020/7/8,43,1.4 均值向量和協(xié)方差陣的估計,協(xié)方差陣的估計,總體參數(shù)協(xié)差陣的極大似然估計是,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,44,1.4 均值

19、向量和協(xié)方差陣的估計,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,45,1.5常用分布及抽樣分布,多元統(tǒng)計研究的是多指標(biāo)問題,為了了解總體的特征,通過對總體抽樣得到代表總體的樣本,但因為信息是分散在每個樣本上的,就需要對樣本進(jìn)行加工,把樣本的信息濃縮到不包含未知量的樣本函數(shù)中,這個函數(shù)稱為統(tǒng)計量,如前面介紹的樣本均值向量 、樣本離差陣 等都是統(tǒng)計量.統(tǒng)計量的分布稱為抽樣分布.,在數(shù)理統(tǒng)計中常用的抽樣分布有 分布、 分布和 分布.在多元統(tǒng)計中,與之對應(yīng)的分布非別為Wishart分布、 分布和Wilks分布.,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,46,1.5常用分布及抽樣分布,1.

20、5.2 分布與 分布,1.5.1 分布與Wishart分布,1.5.3 中心分布與Wilks分布,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,47,分布有兩個重要的性質(zhì):,1.5.1 分布與Wishart分布,在數(shù)理統(tǒng)計中,若 ( ),且相互獨立,則 所服從的分布為自由度為 的 分布(chi squared distribution),記為 .,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,48,2. 設(shè) ( ),且相互獨立, 為 個 階對稱陣,且 (階單位陣),記 , 則 為相互獨立的 分布的充要條件為 .此時 , .,這個性質(zhì)稱為Cochran定理,在方差分析和回歸分析中起著重要作用

21、.,目錄 上頁 下頁 返回 結(jié)束,1.5.1 分布與Wishart分布,2020/7/8,49,所服從的分布稱為自由度為 的 維非中心Wishart分布,記為 ,目錄 上頁 下頁 返回 結(jié)束,1.5.1 分布與Wishart分布,2020/7/8,50,由Wishart分布的定義知,當(dāng) 時, 退化為 ,此時中心Wishart分布就退化為 ,由此可以看出, Wishart分布實際上是 分布在多維正態(tài)情形下的推廣.,下面不加證明的給出Wishart分布的5條重要性質(zhì):,相互獨立.,和,(1),(2),目錄 上頁 下頁 返回 結(jié)束,1.5.1 分布與Wishart分布,2020/7/8,51,目錄

22、上頁 下頁 返回 結(jié)束,1.5.1 分布與Wishart分布,2.若,且相互獨立,則,2020/7/8,52,特別的,設(shè) 和 分別為 和 的第 個對角元,則:,5. 若 , 為任一 元非零常向量,比值,目錄 上頁 下頁 返回 結(jié)束,1.5.1 分布與Wishart分布,2020/7/8,53,1.5.2 分布與 分布,在數(shù)理統(tǒng)計中,若 , ,且 與 相互獨立,則稱 服從自由度為 的 分布,又稱為學(xué)生分布(student distribution),記為 .如果將 平方,即 ,則 ,即 分布的平方服從第一自由度為1第二自由度為 的中心分布.,目錄 上頁 下頁 返回 結(jié)束,2020/7/8,54,所服從的分布稱為第一自由度為 第二自由度為 的中心 分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論