應(yīng)用多元統(tǒng)計(jì)分析講稿(朱建平)_第1頁(yè)
應(yīng)用多元統(tǒng)計(jì)分析講稿(朱建平)_第2頁(yè)
應(yīng)用多元統(tǒng)計(jì)分析講稿(朱建平)_第3頁(yè)
應(yīng)用多元統(tǒng)計(jì)分析講稿(朱建平)_第4頁(yè)
應(yīng)用多元統(tǒng)計(jì)分析講稿(朱建平)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

精心整理精心整理精心整理第一章多元分析概述第一節(jié)引言多元統(tǒng)計(jì)分析是運(yùn)用數(shù)理統(tǒng)計(jì)方法來(lái)研究解決多指標(biāo)問(wèn)題的理論和方法。近30年來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計(jì)分析技術(shù)被廣泛地應(yīng)用于地質(zhì)、氣象、水文、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)和經(jīng)濟(jì)等許多領(lǐng)域,已經(jīng)成為解決實(shí)際問(wèn)題的有效方法。然而,隨著Internet的日益普及,各行各業(yè)都開(kāi)始采用計(jì)算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和決策,這使得各企事業(yè)單位生成、收集、存儲(chǔ)和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。在信息爆炸的今天,人們已經(jīng)意識(shí)到數(shù)據(jù)最值錢(qián)的時(shí)代已經(jīng)到來(lái)。顯然,大量信息在給人們帶來(lái)方便的同時(shí)也帶來(lái)一系列問(wèn)題。比如:信息量過(guò)大,超過(guò)了人們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應(yīng)用帶來(lái)困難;信息組織形式的不一致性導(dǎo)致難以對(duì)信息進(jìn)行有效統(tǒng)一處理等等,這種變化使傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)和數(shù)據(jù)處理手段已經(jīng)不能滿足要求.Internet的迅猛發(fā)展也使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針。這樣又給多元統(tǒng)計(jì)分析理論的發(fā)展和方法的應(yīng)用提出了新的挑戰(zhàn)。多元統(tǒng)計(jì)分析起源于上世紀(jì)初,1928年Wishart發(fā)表論文《多元正態(tài)總體樣本協(xié)差陣的精確分布》,可以說(shuō)是多元分析的開(kāi)端。20世紀(jì)30年代R.A.Fisher、H.Hotelling、、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速得發(fā)展。20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計(jì)算量大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長(zhǎng)得時(shí)間。20世紀(jì)50年代中期,隨著電子計(jì)算機(jī)得出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學(xué)、社會(huì)學(xué)等方面得到廣泛得應(yīng)用。20世紀(jì)60年代通過(guò)應(yīng)用和實(shí)踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現(xiàn)又促使它的應(yīng)用范圍更加擴(kuò)大。20世紀(jì)70年代初期在我國(guó)才受到各個(gè)領(lǐng)域的極大關(guān)注,并在多元統(tǒng)計(jì)分析的理論研究和應(yīng)用上也取得了很多顯著成績(jī),有些研究工作已達(dá)到國(guó)際水平,并已形成一支科技隊(duì)伍,活躍在各條戰(zhàn)線上。在20世紀(jì)末與本世紀(jì)初,人們獲得的數(shù)據(jù)正以前所未有的速度急劇增加,產(chǎn)生了很多超大型數(shù)據(jù)庫(kù),遍及超級(jí)市場(chǎng)銷(xiāo)售、銀行存款、天文學(xué)、粒子物理、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域,多元統(tǒng)計(jì)與人工智能和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,已在經(jīng)濟(jì)、商業(yè)、金融、天文等行業(yè)得到了成功的應(yīng)用。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計(jì)分析的理論與方法,本書(shū)重點(diǎn)介紹多元正態(tài)總體的參數(shù)估計(jì)和假設(shè)檢驗(yàn)以及常用的統(tǒng)計(jì)方法。這些方法包括判別分析、聚類(lèi)分析、主成分分析、因子分析、對(duì)應(yīng)分析、典型相關(guān)分析、多維標(biāo)度法以及多變量的可視化分析等。與此同時(shí),我們將利用在我國(guó)廣泛流行的SPSS統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)實(shí)證分析,做到在理論的學(xué)習(xí)中體會(huì)應(yīng)用,在應(yīng)用的分析中加深理論。第二節(jié)應(yīng)用背景二、多元統(tǒng)計(jì)分析方法的應(yīng)用這里我們要通過(guò)一些實(shí)際的問(wèn)題,解釋選擇統(tǒng)計(jì)方法和研究目的之間的關(guān)系,這些問(wèn)題以及本書(shū)中的大量案例能夠使得讀者對(duì)多元統(tǒng)計(jì)分析方法在各個(gè)領(lǐng)域中的廣泛應(yīng)用有一定的了解。多元分析方法從研究問(wèn)題的角度可以分為不同的類(lèi),相應(yīng)有具體解決問(wèn)題的方法,參看表1.1。多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理、農(nóng)業(yè)、醫(yī)學(xué)、教育學(xué)、體育科學(xué)、生態(tài)學(xué)、地質(zhì)學(xué)、社會(huì)學(xué)、考古學(xué)、環(huán)境保護(hù)、軍事科學(xué)、文學(xué)等方面都有廣泛的應(yīng)用,這里我們例舉一些實(shí)際問(wèn)題,進(jìn)一步了解多元統(tǒng)計(jì)分析的應(yīng)用領(lǐng)域,讓讀者從感性上加深對(duì)多元統(tǒng)計(jì)分析的認(rèn)識(shí)。問(wèn)題內(nèi)容方法數(shù)據(jù)或結(jié)構(gòu)性化簡(jiǎn)盡可能簡(jiǎn)單地表示所研究的現(xiàn)象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。多元回歸分析、聚類(lèi)分析、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析分類(lèi)和組合基于所測(cè)量到的一些特征,給出好的分組方法,對(duì)相似的對(duì)象或變量分組。判別分析、聚類(lèi)分析、主成分分析、可視化分析變量之間的相關(guān)關(guān)系變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)。多元回歸、典型相關(guān)、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析預(yù)測(cè)與決策通過(guò)統(tǒng)計(jì)模型或最優(yōu)準(zhǔn)則,對(duì)未來(lái)進(jìn)行預(yù)見(jiàn)或判斷。多元回歸、判別分析、聚類(lèi)分析、可視化分析假設(shè)的提出及檢驗(yàn)檢驗(yàn)由多元總體參數(shù)表示的某種統(tǒng)計(jì)假設(shè),能夠證實(shí)某種假設(shè)條件的合理性。多元總體參數(shù)估計(jì)、假設(shè)檢驗(yàn)1、城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來(lái)描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項(xiàng)指標(biāo)存在一定的線性關(guān)系。為了研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需要將相關(guān)強(qiáng)的指標(biāo)歸并到一起,這實(shí)際就是對(duì)指標(biāo)進(jìn)行聚類(lèi)分析。2、在企業(yè)經(jīng)濟(jì)效益的評(píng)價(jià)中,涉及到的指標(biāo)往往很多,如百元固定資產(chǎn)原值實(shí)現(xiàn)產(chǎn)值、百元固定資產(chǎn)原值實(shí)現(xiàn)利稅、百元資金實(shí)現(xiàn)利稅、百元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅、百元銷(xiāo)售收入實(shí)現(xiàn)利稅、每噸標(biāo)準(zhǔn)煤實(shí)現(xiàn)工業(yè)產(chǎn)值、每千瓦時(shí)電力實(shí)現(xiàn)工業(yè)產(chǎn)值、全員勞動(dòng)生產(chǎn)率、百元流動(dòng)資金實(shí)現(xiàn)產(chǎn)值。如何將這些具有錯(cuò)綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個(gè)較少的因子,既有利于對(duì)問(wèn)題進(jìn)行分析和解釋?zhuān)帜鼙阌谧プ≈饕茏龀隹茖W(xué)的評(píng)價(jià)??捎弥鞒煞址治龊鸵蜃臃治龇?。3、某一產(chǎn)品是用兩種不同原料生產(chǎn)的,試問(wèn)此兩種原料生產(chǎn)的產(chǎn)品壽命有無(wú)顯著差異?又比如,若考察某商業(yè)行業(yè)今年和去年的經(jīng)營(yíng)狀況,這時(shí)需要看這兩年經(jīng)營(yíng)指標(biāo)的平均水平是否有顯著差異以及經(jīng)營(yíng)指標(biāo)之間的波動(dòng)是否有顯著差異??捎枚嘣龖B(tài)總體均值向量和協(xié)差陣的假設(shè)檢驗(yàn)。4、按現(xiàn)行統(tǒng)計(jì)報(bào)表制度,農(nóng)村家庭純收入是指農(nóng)村常住居民家庭總收入中扣除從事生產(chǎn)和非生產(chǎn)經(jīng)營(yíng)用支出、稅款和上交承包集體任務(wù)金額以后剩余的、可直接用于進(jìn)行生產(chǎn)的、非生產(chǎn)性建設(shè)投資、生產(chǎn)性消費(fèi)的那一部分收入。如果我們收集某年各個(gè)省、自治區(qū)、直轄市農(nóng)民家庭人均純收入的數(shù)據(jù),可以用相應(yīng)分析,揭示全國(guó)農(nóng)民人均純收入的特征以及各省、自治區(qū)、直轄市與各收入指標(biāo)的關(guān)系。5、某醫(yī)院已有100個(gè)分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個(gè)人若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)。如果對(duì)于一個(gè)新的病人,當(dāng)也測(cè)得這若干項(xiàng)癥狀指標(biāo)時(shí),可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對(duì)每?jī)煞N酒進(jìn)行品嘗對(duì)比,給出一種相近程度的得分(越相近得分越高,相差越遠(yuǎn)得分越低),希望用這些得分?jǐn)?shù)據(jù)來(lái)了解這100種酒之間的結(jié)構(gòu)關(guān)系。這樣的問(wèn)題就可以用多維標(biāo)度法來(lái)解決。7、在地質(zhì)學(xué)中,常常要研究礦石中所含化學(xué)成分之間的關(guān)系。設(shè)在某礦體中采集了60個(gè)標(biāo)本,對(duì)每個(gè)標(biāo)本測(cè)得20個(gè)化學(xué)成分的含量。我們希望通過(guò)對(duì)這20個(gè)化學(xué)成分的分析,了解礦體的性質(zhì)和礦體形成的主要原因。8、對(duì)1000個(gè)類(lèi)似的魚(yú)類(lèi)樣本,如何根據(jù)測(cè)量的特征如體重、身長(zhǎng)、鰭數(shù)、鰭長(zhǎng)、頭寬等,我們可以利用聚類(lèi)分析方法將這類(lèi)魚(yú)分成幾個(gè)不同品種。9、考古學(xué)家對(duì)挖掘出來(lái)的人頭蓋骨的高、寬等特征來(lái)判斷是男或女,根據(jù)挖掘出的動(dòng)物牙齒的有關(guān)測(cè)試指標(biāo),判別它是屬于哪一類(lèi)動(dòng)物牙齒、是哪一個(gè)時(shí)代的。10、在高考招生工作中,我們知道每個(gè)考生的基本情況,通過(guò)分析我們不僅可以了解到學(xué)生喜歡學(xué)習(xí)的科目,還可以進(jìn)一步從考生每門(mén)課程的成績(jī),分析出學(xué)生的邏輯思維能力、形象思維能力和記憶力等等對(duì)學(xué)習(xí)成績(jī)的影響。第二章多元正態(tài)分布的參數(shù)估計(jì)第一節(jié)引言多元統(tǒng)計(jì)分析涉及到的都是隨機(jī)向量或多個(gè)隨機(jī)向量放在一起組成的隨機(jī)矩陣。例如在研究公司的運(yùn)營(yíng)情況時(shí),要考慮公司的獲利能力、資金周轉(zhuǎn)能力、競(jìng)爭(zhēng)能力以及償債能力等財(cái)務(wù)指標(biāo);又如在研究國(guó)家財(cái)政收入時(shí),稅收收入、企業(yè)收入、債務(wù)收入、國(guó)家能源交通重點(diǎn)建設(shè)基金收入、基本建設(shè)貸款歸還收入、國(guó)家預(yù)算調(diào)節(jié)基金收入、其他收入等都是需要同時(shí)考察的指標(biāo)。顯然,如果我們只研究一個(gè)指標(biāo)或是將這些指標(biāo)割裂開(kāi)分別研究,是不能從整體上把握研究問(wèn)題的實(shí)質(zhì)的,解決這些問(wèn)題就需要多元統(tǒng)計(jì)分析方法。為了更好的探討這些問(wèn)題,本章我們首先論述有關(guān)隨機(jī)向量的基本概念和性質(zhì)。在實(shí)用中遇到的隨機(jī)向量常常是服從正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于正態(tài)分布。因此現(xiàn)實(shí)世界中許多實(shí)際問(wèn)題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。在多元統(tǒng)計(jì)分析中,多元正態(tài)分布占有很重要地位,本書(shū)所介紹的方法大都假定數(shù)據(jù)來(lái)之多元正態(tài)分布。為此,本章將要介紹多元正態(tài)分布的定義和有關(guān)性質(zhì)。然而在實(shí)際問(wèn)題中,多元正態(tài)分布中均值向量和協(xié)差陣通常是未知的,一般的做法是由樣本來(lái)估計(jì)。這是本章討論的重要內(nèi)容之一,在此我們介紹最常見(jiàn)的最大似然估計(jì)法對(duì)參數(shù)進(jìn)行估計(jì),并討論其有關(guān)的性質(zhì)。第二節(jié)基本概念一、隨機(jī)向量我們所討論的是多個(gè)變量的總體,所研究的數(shù)據(jù)是同時(shí)p個(gè)指標(biāo)(變量),又進(jìn)行了n次觀測(cè)得到的,我們把這個(gè)p指標(biāo)表示為X1,X2,L,Xp,常用向量X=(X1,X2,L,XP)'表示對(duì)同一個(gè)體觀測(cè)的p個(gè)變量。這里我們應(yīng)該強(qiáng)調(diào),在多元統(tǒng)計(jì)分析中,仍然將所研究對(duì)象的全體稱(chēng)為總體,它是由許多(有限和無(wú)限)的個(gè)體構(gòu)成的集合,如果構(gòu)成總體的個(gè)體是具有p個(gè)需要觀測(cè)指標(biāo)的個(gè)體,我們稱(chēng)這樣的總體為p維總體(或p元總體)。上面的表示便于人們用數(shù)學(xué)方法去研究p維總體的特性。這里“維”(或“元”)的概念,表示共有幾個(gè)分量。若觀測(cè)了n個(gè)個(gè)體,則可得到如表2.1的數(shù)據(jù),稱(chēng)每一個(gè)個(gè)體的p個(gè)變量為一個(gè)樣品,而全體n個(gè)樣品組成一個(gè)樣本。表2.1數(shù)據(jù)變量序號(hào)12在這里橫看表2.1,記為,表示第個(gè)樣品的觀測(cè)值。豎看表2.1,第列的元素,表示對(duì)第個(gè)變量的次觀測(cè)數(shù)值。因此,表2.1所反映出的樣本資料可用矩陣表示為(2.1)簡(jiǎn)記為X。定義2.1將個(gè)隨機(jī)變量的整體稱(chēng)為維隨機(jī)向量,記為。在對(duì)隨機(jī)向量的研究仍然限于討論離散型和連續(xù)型兩類(lèi)隨機(jī)向量。二、多元分布先回顧一下一元統(tǒng)計(jì)中分布函數(shù)和密度函數(shù)的定義。設(shè)是一個(gè)隨機(jī)變量,稱(chēng)為的概率分布函數(shù)或簡(jiǎn)稱(chēng)為分布函數(shù),記為。若隨機(jī)變量在有限或可列個(gè)值上取值,記,且,則稱(chēng)為離散型隨機(jī)變量,稱(chēng),為的概率分布。設(shè),若存在一個(gè)非負(fù)函數(shù),使得一切實(shí)數(shù)有:,則稱(chēng)為的分布密度函數(shù),簡(jiǎn)稱(chēng)為密度函數(shù)。一個(gè)函數(shù)能作為某個(gè)隨機(jī)變量的分布密度函數(shù)的重要條件是:(1),對(duì)一切實(shí)數(shù);(2)。定義2.2設(shè)是維隨機(jī)向量,它的多元分布函數(shù)定義為(2.2)記為,其中,表示維歐氏空間。多維隨機(jī)向量的統(tǒng)計(jì)特性可用它的分布函數(shù)來(lái)完整地描述。定義2.3設(shè)是維隨機(jī)向量,若存在有限個(gè)或可列個(gè)維數(shù)向量,記,且滿足,則稱(chēng)為離散型隨機(jī)向量,稱(chēng),為的概率分布。設(shè),若存在一個(gè)非負(fù)函數(shù),使得對(duì)一切有(2.3)則稱(chēng)為連續(xù)型隨機(jī)變量,稱(chēng)為分布密度函數(shù),簡(jiǎn)稱(chēng)為密度函數(shù)或分布密度。一個(gè)元函數(shù)能作為中某個(gè)隨機(jī)向量的密度函數(shù)的主要條件是:(1),;(2)離散型隨機(jī)向量的統(tǒng)計(jì)性質(zhì)可由它的概率分布完全確定,連續(xù)型隨機(jī)向量的統(tǒng)計(jì)性質(zhì)可由它的分布密度完全確定。【例2.1】試證函數(shù)為隨機(jī)向量密度函數(shù)。證:只要驗(yàn)證滿足密度函數(shù)兩個(gè)條件即可(1)顯然,當(dāng)時(shí)有(2)定義2.4設(shè)是維隨機(jī)向量,稱(chēng)由它的個(gè)分量組成的子向量的分布為的邊緣(或邊際)分布,相對(duì)地把的分布稱(chēng)為聯(lián)合分布。通過(guò)變換中各分量的次序,總可假定正好是的前個(gè)分量,其余個(gè)分量為,則,相應(yīng)的取值也可分為兩部分。當(dāng)?shù)姆植己瘮?shù)是時(shí),的分布函數(shù)即邊緣分布函數(shù)為:當(dāng)有分布密度時(shí)(亦稱(chēng)聯(lián)合分布密度函數(shù)),則也有分布密度,即邊緣密度函數(shù)為:【例2.2】對(duì)例2.1中的求邊緣密度函數(shù)。解:同理定義2.5若個(gè)隨機(jī)變量的聯(lián)合分布等于各自的邊緣分布的乘積,則稱(chēng)是相互獨(dú)立的?!纠?.3】問(wèn)例2.2中的與是否相互獨(dú)立?解:由于,故與相互獨(dú)立。這里我們應(yīng)該注意,由相互獨(dú)立,可推知任何與獨(dú)立,但反之不真。定義2.6設(shè),若存在且有限,則稱(chēng)為的均值(向量)或數(shù)學(xué)期望,有時(shí)也把和分別記為和,即,容易推得均值(向量)具有以下性質(zhì):(1)(2)(3)其中,、為隨機(jī)向量,、為大小適合運(yùn)算的常數(shù)矩陣。定義2.7設(shè),,稱(chēng)(2.4)為的方差或協(xié)差陣,有時(shí)把簡(jiǎn)記為,簡(jiǎn)記為,從而有;稱(chēng)隨機(jī)向量和的協(xié)差陣為(2.5)當(dāng)時(shí),即為。若,則稱(chēng)和不相關(guān),由和相互獨(dú)立易推得,即和不相關(guān);但反過(guò)來(lái),當(dāng)和不相關(guān)時(shí),一般不能推知它們獨(dú)立。當(dāng)、為常數(shù)矩陣時(shí),由定義可以推出協(xié)方差陣有如下性質(zhì):(1)對(duì)于常數(shù)向量,有(2)(3)(4)設(shè)為維隨機(jī)向量,期望和協(xié)方差存在,記,,為常數(shù)陣,則這里我們應(yīng)該注意到,對(duì)于任何的隨機(jī)向量來(lái)說(shuō),其協(xié)差陣都是對(duì)稱(chēng)陣,同時(shí)總是非負(fù)定(半正定)的。大多數(shù)情況是正定的。若的協(xié)差陣存在,且每個(gè)分量的方差大于零,則稱(chēng)隨機(jī)向量的相關(guān)陣為,其中(2.6)為與的相關(guān)系數(shù)。在數(shù)據(jù)處理時(shí),為了克服由于指標(biāo)的量綱不同對(duì)統(tǒng)計(jì)分析結(jié)果帶來(lái)的影響,往往在使用各種統(tǒng)計(jì)分析之前,常需要將每個(gè)指標(biāo)“標(biāo)準(zhǔn)化”,即進(jìn)行如下變換,(2.7)那么由(2.7)構(gòu)成的隨機(jī)向量。令,,有:那么,標(biāo)準(zhǔn)化后的隨機(jī)向量均值和協(xié)差陣分別為即標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)差陣正好是原指標(biāo)的相關(guān)陣。第三節(jié)多元正態(tài)分布一、多元正態(tài)分布的定義我們先來(lái)回顧一元正態(tài)分布的密度函數(shù),即為上式可以改寫(xiě)為(2.8)由于(2.8)式中的,均為一維的數(shù)字,可以用代表的轉(zhuǎn)置。根據(jù)上面的表述形式,我們可以將其推廣,給出多元正態(tài)分布的定義。定義2.8若維隨機(jī)向量的密度函數(shù)為:(2.9)其中,是維隨機(jī)向量,是階正定陣,則稱(chēng)服從元正態(tài)分布,也稱(chēng)為維正態(tài)隨機(jī)向量,簡(jiǎn)記為,顯然當(dāng)時(shí),即為一元正態(tài)分布密度函數(shù)。可以證明為的均值(向量),為的協(xié)差陣。這里我們應(yīng)該提及的是,當(dāng)時(shí),不存在,也就不存在通常意義下的密度函數(shù),然而可以形式的給出一個(gè)表達(dá)式,是的有些問(wèn)題可以利用這一形式對(duì)及的情況給出一個(gè)統(tǒng)一的處理。當(dāng)時(shí),設(shè)服從二元正態(tài)分布,則,這里,分別是與的方差,是與的相關(guān)系數(shù)。即有故與的密度函數(shù)為對(duì)于,那么與是相互獨(dú)立的;若,則與趨于正相關(guān);若,則與趨于負(fù)相關(guān)。定理2.1設(shè),則有,。關(guān)于這個(gè)定理的證明可以參考文獻(xiàn)[1],該定理將多元正態(tài)分布的參數(shù)和賦予了明確的統(tǒng)計(jì)意義。這里我們需要明確的是,多元正態(tài)分布的定義不止是一種,更廣泛的可以采用特征函數(shù)來(lái)定義,也可以用一切線性組合均為正態(tài)的性質(zhì)來(lái)定義。二、多元正態(tài)分布的性質(zhì)在討論多元統(tǒng)計(jì)分析的理論和方法時(shí),經(jīng)常用到多元正態(tài)變量的某些性質(zhì),利用這些性質(zhì)可使得正態(tài)分布的處理變得容易一些。1.若,是對(duì)角陣,則相互獨(dú)立。2.若,為階常數(shù)陣,為維常數(shù)向量,則即正態(tài)隨機(jī)向量的線性函數(shù)還是正態(tài)的。3.若,將,,作如下剖分則,。這里需要指出的是:第一,多元正態(tài)分布的任何邊緣分布為正態(tài)分布,但反之不真。第二,由于,故表示和不相關(guān),因此可知,對(duì)于多元正態(tài)變量而言,和的不相關(guān)與獨(dú)立是等價(jià)的?!纠?.4】若其中,設(shè),,則(1)其中(2)其中(3)記則其中在此我們應(yīng)該注意到,如果服從元正態(tài)分布,則它的每個(gè)分量必服從一元正態(tài)分布,因此把某個(gè)分量的個(gè)樣品值作成直方圖,如果斷定不呈正態(tài)分布,則就可以斷定隨機(jī)向量也不可能服從元正態(tài)分布。第四節(jié)多元正態(tài)分布的參數(shù)估計(jì)一、多元樣本的數(shù)字特征設(shè)樣本資料可用矩陣表示為在這里我們給出樣本均值向量、樣本離差陣、樣本協(xié)差陣以及樣本相關(guān)陣的定義。定義2.9設(shè)為來(lái)自元總體的樣本,其中,。樣本均值向量定義為其中(2)樣本離差陣定義為(2.11)這里,(3)樣本協(xié)差陣定義為(2.12)這里,(4)樣本相關(guān)陣定義為(2.13)其中在此,我們應(yīng)該提及的是,樣本均值向量和離差陣也可用樣本資料陣直接表示如下:其中由于那么,(2.11)式可以表示為:(2.14)其中二、均值向量與協(xié)差陣的最大似然估計(jì)多元正態(tài)分布有兩組參數(shù),均值和協(xié)差陣,在許多問(wèn)題中它們是未知的,需要通過(guò)樣本來(lái)估計(jì)。那么,通過(guò)樣本來(lái)估計(jì)總體的參數(shù)叫做參數(shù)估計(jì),參數(shù)估計(jì)的原則和方法是很多的,這里用最常見(jiàn)的且具有很多優(yōu)良性質(zhì)的最大似然法給出和的估計(jì)量。設(shè)來(lái)自正態(tài)總體容量為的樣本,每個(gè)樣品,,樣本資料陣為(2.1)式表示,即則可由最大似然法求出和的估計(jì)量,即有,(2.15)實(shí)際上,最大似然法求估計(jì)量可以這樣得到。針對(duì)來(lái)自正態(tài)總體容量為的樣本,構(gòu)造似然函數(shù),即(2.16)為了求出使(2.16)式取極值的和的值,將(2.16)兩邊取對(duì)數(shù),即(2.17)因?yàn)閷?duì)數(shù)函數(shù)是一個(gè)嚴(yán)格單調(diào)增函數(shù),所以可以通過(guò)對(duì)的極大值而得到和的估計(jì)量。這里我們要注意到,根據(jù)矩陣代數(shù)理論,對(duì)于實(shí)對(duì)稱(chēng)矩陣,有,,。那么,針對(duì)對(duì)數(shù)似然函數(shù)(2.17)分別對(duì)和求偏導(dǎo)數(shù),則有(2.18)由(2.18)式可以得到極大似然估計(jì)量分別為由此可見(jiàn),多元正態(tài)總體的均值向量的極大似然估計(jì)量就是樣本均值向量,其協(xié)差陣的極大似然估計(jì)就是樣本協(xié)差陣。和的估計(jì)量有如下基本性質(zhì):1.,即是的無(wú)偏估計(jì);,即不是的無(wú)偏估計(jì),而,即是的無(wú)偏估計(jì);2.,分別是,的有效估計(jì);3.,(或)分別是,的一致估計(jì)(相合估計(jì))。樣本均值向量和樣本離差陣在多元統(tǒng)計(jì)推斷中具有十分重要的作用,并有如下結(jié)論:定理2.2設(shè)和分別是正態(tài)總體的樣本均值向量和離差陣,則1.;2.離差陣可以寫(xiě)為其中,獨(dú)立同分布于;3.和相互獨(dú)立;4.為正定陣的充要條件是。三、Wishart分布在實(shí)際應(yīng)用中,常采用和來(lái)估計(jì)和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(Wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。Wishart分布是Wishart在1928年推導(dǎo)出來(lái)的,而該分布的名稱(chēng)也即由此得來(lái)。定義2.10設(shè),且相互獨(dú)立,則由組成的隨機(jī)矩陣:(2.19)的分布稱(chēng)為非中心Wishart分布,記為。其中,稱(chēng)為非中心參數(shù);當(dāng)時(shí)稱(chēng)為中心Wishart分布,記為,當(dāng),,有密度存在,其表達(dá)式為:(2.20)顯然,當(dāng),時(shí),就是的分布密度,此時(shí)(2.19)式為,有。因此,Wishart分布是分布在維正態(tài)情況下的推廣。下面給出Wishart分布的基本性質(zhì):1.若,且相互獨(dú)立,則樣本離差陣,其中。2.若,,且相互獨(dú)立,則。3.若,為非奇異陣,則。這里我們有必要說(shuō)明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。這里我們有必要說(shuō)明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。設(shè)隨機(jī)矩陣將該矩陣的列向量(或行向量)一個(gè)接一個(gè)地連接起來(lái),組成一個(gè)長(zhǎng)的向量,即拉直向量:的分布定義為該陣的分布。若為對(duì)稱(chēng)陣時(shí),由于,,故只取其下三角部分組成的拉直向量,即。第三章多元正態(tài)分布均值向量和協(xié)差陣的檢驗(yàn)第一節(jié)引言在單一變量的統(tǒng)計(jì)分析中,已經(jīng)給出了正態(tài)總體N(?,?2)的均值?和方差?2的各種檢驗(yàn)。對(duì)于多變量的正態(tài)總體Np(?,∑),各種實(shí)際問(wèn)題同樣要求對(duì)?和∑進(jìn)行統(tǒng)計(jì)推斷。例如,我們要考察全國(guó)各省、自治區(qū)和直轄市的社會(huì)經(jīng)濟(jì)發(fā)展?fàn)顩r,與全國(guó)平均水平相比較有無(wú)顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗(yàn)問(wèn)題等。本章類(lèi)似單一變量統(tǒng)計(jì)分析中的各種均值和方差的檢驗(yàn),相應(yīng)地給出多元統(tǒng)計(jì)分析中的各種均值向量和協(xié)差陣的檢驗(yàn)。其基本思想和步驟均可歸納為:第一,提出待檢驗(yàn)的假設(shè)H0和H1; 第二,給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分布; 第三,給定檢驗(yàn)水平,查統(tǒng)計(jì)量的分布表,確定相應(yīng)的臨界值,從而得到否定域; 第四,根據(jù)樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量的值,看是否落入否定域中,以便對(duì)待判假設(shè)做出決策(拒絕或接受)。在檢驗(yàn)的過(guò)程中,關(guān)鍵在于對(duì)不同的檢驗(yàn)給出不同的統(tǒng)計(jì)量,而有關(guān)統(tǒng)計(jì)量的給出大多用似然比方法得到。由于多變量問(wèn)題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計(jì)量的合理性,而不給出推導(dǎo)過(guò)程,最后給出幾個(gè)實(shí)例。為了更好的說(shuō)明檢驗(yàn)過(guò)程中統(tǒng)計(jì)量的分布,本章還要介紹HotellingT2分布和Wilks分布的定義。第二節(jié)均值向量的檢驗(yàn)一、單一變量檢驗(yàn)的回顧及HotellingT2分布為了對(duì)多元正態(tài)總體均值向量作檢驗(yàn),首先需要給出HotellingT2分布的定義。在單一變量的檢驗(yàn)問(wèn)題中,設(shè)來(lái)自總體的樣本,我們要檢驗(yàn)假設(shè)當(dāng)已知時(shí),用統(tǒng)計(jì)量(3.1)其中,為樣本均值。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從正態(tài)分布,從而否定域?yàn)?,為的上分位點(diǎn)。當(dāng)未知時(shí),用(3.2)作為的估計(jì)量,用統(tǒng)計(jì)量:(3.3)來(lái)做檢驗(yàn)。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從自由度為的分布,從而否定域?yàn)椋瑸樽杂啥葹榈姆植忌系姆治稽c(diǎn)。這里我們應(yīng)該注意到,(3.3)式可以表示為(3.4)對(duì)于多元變量而言,可以將分布推廣為下面將要介紹的Hotelling分布。定義3.1設(shè),且與相互獨(dú)立,,則稱(chēng)統(tǒng)計(jì)量的分布為非中心HotellingT2分布,記為。當(dāng)時(shí),稱(chēng)服從(中心)Hotelling分布。記為。由于這一統(tǒng)計(jì)量的分布首先由HaroldHotelling提出來(lái)的,故稱(chēng)為Hotelling分布,值得指出的是,我國(guó)著名統(tǒng)計(jì)學(xué)家許寶祿先生在1938年用不同方法也導(dǎo)出分布的密度函數(shù),因表達(dá)式很復(fù)雜,故略去。在單一變量統(tǒng)計(jì)分析中,若統(tǒng)計(jì)量分布,則分布,即把分布的統(tǒng)計(jì)量轉(zhuǎn)化為統(tǒng)計(jì)量來(lái)處理,在多元統(tǒng)計(jì)分析中統(tǒng)計(jì)量也具有類(lèi)似的性質(zhì)。定理3.1若,且與相互獨(dú)立,令,則(3.5)在我們后面所介紹的檢驗(yàn)問(wèn)題中,經(jīng)常會(huì)用到這一性質(zhì)。設(shè)是來(lái)自維正態(tài)總體的樣本,且,。協(xié)差陣已知時(shí)均值向量的檢驗(yàn)(為已知向量)假設(shè)成立,檢驗(yàn)統(tǒng)計(jì)量為(3.6)給定檢驗(yàn)水平,查分布表使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里要對(duì)統(tǒng)計(jì)量的選取做一些解釋?zhuān)瑸槭裁丛摻y(tǒng)計(jì)量服從分布。根據(jù)二次型分布定理知道,若,則。顯然,其中,,因此,(二)協(xié)差陣未知時(shí)均值向量的檢驗(yàn)(為已知向量)假設(shè)成立,檢驗(yàn)統(tǒng)計(jì)量為(3.7)其中,給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里需要解釋的是,當(dāng)未知時(shí),自然想到要用樣本協(xié)差陣取代替,因是的無(wú)偏估計(jì)量,而樣本離差陣由定義3.1知再根據(jù)Hotelling分布的性質(zhì),所以在處理實(shí)際問(wèn)題時(shí),單一變量的檢驗(yàn)和多變量檢驗(yàn)可以聯(lián)合使用,多元的檢驗(yàn)具有概括和全面考察的特點(diǎn),而一元的檢驗(yàn)容易發(fā)現(xiàn)各變量之間的關(guān)系和差異,能給人們提供更多的統(tǒng)計(jì)分析信息。三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)(一)當(dāng)協(xié)差陣相等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè),,為來(lái)自維正態(tài)總體的容量為的樣本;,,為來(lái)自維正態(tài)總體的容量為的樣本。兩組樣本相互獨(dú)立,,且,。1.針對(duì)有共同已知協(xié)差陣的情形對(duì)假設(shè)進(jìn)行檢驗(yàn)。對(duì)此問(wèn)題,假設(shè)成立時(shí),所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為(3.8)給出檢驗(yàn)水平,查分布表使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計(jì)中進(jìn)行均值相等檢驗(yàn)所給出的統(tǒng)計(jì)量為顯然此式恰為上邊統(tǒng)計(jì)量當(dāng)時(shí)的情況,不難看出這里給出的檢驗(yàn)統(tǒng)計(jì)量是單一變量檢驗(yàn)情況的推廣。2.針對(duì)有共同的未知協(xié)差陣的情形對(duì)假設(shè)進(jìn)行檢驗(yàn)。對(duì)此問(wèn)題,假設(shè)成立時(shí),所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為(3.9)其中,,,給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里我們需要解釋的是,當(dāng)兩個(gè)總體的協(xié)差陣未知時(shí),自然想到用每個(gè)總體的樣本協(xié)差陣和去代替,而從而。又由于所以下述假設(shè)檢驗(yàn)統(tǒng)計(jì)量的選取和前邊統(tǒng)計(jì)量的選取思路是一樣的,以下只提出待檢驗(yàn)的假設(shè),然后給出統(tǒng)計(jì)量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。(二)協(xié)差陣不等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè)從兩個(gè)總體和中,分別抽取兩個(gè)樣本,即,;,,其容量分別為和,且兩組樣本相互獨(dú)立,,,。對(duì)假設(shè)進(jìn)行檢驗(yàn)。1.針對(duì)的情形令假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為(3.10)2.針對(duì)的情形在此,我們不妨假設(shè),令假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)解決多個(gè)正態(tài)總體均值向量的檢驗(yàn)問(wèn)題,實(shí)際上應(yīng)用到多元方差分析的知識(shí)。多元方差分析是單因素方差分析直接的推廣。為了容易理解多元方差分析方法,我們有必要先回顧單因素方差分析方法。(一)單因素方差分析的基本思想及Wilks分布設(shè)個(gè)正態(tài)總體分別為,,從個(gè)總體取個(gè)獨(dú)立樣本如下:假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為(3.11)這里稱(chēng)為組間平方和;稱(chēng)為組內(nèi)平方和;稱(chēng)為總平方和。其中給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出值,若,則否定,否則接受。定義3.2若,則稱(chēng)協(xié)差陣的行列式為的廣義方差。稱(chēng)為樣本廣義方差。其中。定義3.3若,,且和相互獨(dú)立,則稱(chēng)為Wilks統(tǒng)計(jì)量,的分布稱(chēng)為Wilks分布,簡(jiǎn)記為,其中為自由度。這里我們需要說(shuō)明的是,在實(shí)際應(yīng)用中經(jīng)常把統(tǒng)計(jì)量化為統(tǒng)計(jì)量進(jìn)而化為統(tǒng)計(jì)量,利用統(tǒng)計(jì)量來(lái)解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問(wèn)題。表3.1列舉常見(jiàn)的一些情形。表3.1與統(tǒng)計(jì)量的關(guān)系統(tǒng)計(jì)量及分別任意任意1任意任意21任意任意2任意任意以上幾個(gè)關(guān)系式說(shuō)明對(duì)一些特殊的統(tǒng)計(jì)量可以化為統(tǒng)計(jì)量,而當(dāng),時(shí),可用統(tǒng)計(jì)量或統(tǒng)計(jì)量來(lái)近似表示,后面給出。(二)多元方差分析法設(shè)有個(gè)維正態(tài)總體,,從每個(gè)總體抽取獨(dú)立樣本個(gè)數(shù)分別為,,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下:第一個(gè)總體:,第二個(gè)總體:,………………第個(gè)總體:,全部樣品的總均值向量:各總體樣品的均值向量:,此處類(lèi)似一元方差分析辦法,將諸平方和變成了離差陣即:這里,我們稱(chēng)為組間離差陣;為組內(nèi)離差陣;為總離差陣。很顯然有。我們的問(wèn)題是檢驗(yàn)假設(shè)用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為(3.13)給定檢驗(yàn)水平,查Wilks分布表,確定臨界值,然后作出統(tǒng)計(jì)判斷。在這里我們特別要注意,Wilks分布表可用分布或分布來(lái)近似。巴特萊特(Bartlett)提出了用分布來(lái)近似。設(shè),令(3.14)則近似服從分布。其中,。Rao后來(lái)又研究用分布來(lái)近似。設(shè),令(3.15)則近似服從,這里不一定為整數(shù),可用與它最近的整數(shù)來(lái)作為的自由度,且。其中,第三節(jié)協(xié)差陣的檢驗(yàn)一、一個(gè)正態(tài)總體協(xié)差陣的檢驗(yàn)設(shè)來(lái)自維正態(tài)總體的樣本,未知,且。首先,我們考慮檢驗(yàn)假設(shè)所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為(3.16)其中然后,我們考慮檢驗(yàn)假設(shè)因?yàn)?,所以存?),使得。令則因此,檢驗(yàn)等價(jià)于檢驗(yàn)此時(shí)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為(3.17)其中給定檢驗(yàn)水平,因?yàn)橹苯佑煞植加?jì)算臨界值很困難,所以通常采用的近似分布。在成立時(shí),極限分布是分布。因此當(dāng),由樣本值計(jì)算出值,若即,則拒絕,否則接受。設(shè)有個(gè)正態(tài)總體分別為,,且未知,。從個(gè)總體分別取個(gè)樣本;這里為總樣本容量。我們考慮檢驗(yàn)假設(shè)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為(3.18)其中巴特萊特(Bartlett)建議,將改為,從而變?yōu)?,變換以后的記為,稱(chēng)為修正的統(tǒng)計(jì)量,則近似分布。其中第四章判別分析第一節(jié)引言在我們的日常生活和工作實(shí)踐中,常常會(huì)遇到判別分析問(wèn)題,即根據(jù)歷史上劃分類(lèi)別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個(gè)新的樣本歸屬哪一類(lèi)。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個(gè)患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)?,F(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對(duì)于一個(gè)新的病人,當(dāng)測(cè)得這些癥狀指標(biāo)數(shù)據(jù)時(shí),能夠判定其患有哪種病。又如,在天氣預(yù)報(bào)中,我們有一段較長(zhǎng)時(shí)間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來(lái)預(yù)報(bào)第六天是什么天氣的方法。這些問(wèn)題都可以應(yīng)用判別分析方法予以解決。把這類(lèi)問(wèn)題用數(shù)學(xué)語(yǔ)言來(lái)表達(dá),可以敘述如下:設(shè)有n個(gè)樣本,對(duì)每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類(lèi)別(或總體)G1,G2,…,Gk中的某一類(lèi),且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類(lèi)別的樣本點(diǎn)盡可能地區(qū)別開(kāi)來(lái),并對(duì)測(cè)得同樣p項(xiàng)指標(biāo)(變量)數(shù)據(jù)的一個(gè)新樣本,能判定這個(gè)樣本歸屬于哪一類(lèi)。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來(lái)區(qū)分,有兩個(gè)總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來(lái)分,有線性判別和非線性判別;按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問(wèn)題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法:距離判別法、Fisher判別法、Bayes判別法和逐步判別法。第二節(jié)距離判別法一、馬氏距離的概念設(shè)維歐氏空間中的兩點(diǎn)和,通常我們所說(shuō)的兩點(diǎn)之間的距離,是指歐氏距離,即(4.1)在解決實(shí)際問(wèn)題時(shí),特別是針對(duì)多元數(shù)據(jù)的分析問(wèn)題,歐氏距離就顯示出了它的薄弱環(huán)節(jié)。第一、設(shè)有兩個(gè)正態(tài)總體,~和~,現(xiàn)有一個(gè)樣品位于如圖4.1所示的點(diǎn),距總體的中心遠(yuǎn),距總體的中心遠(yuǎn),那么,點(diǎn)處的樣品到底離哪一個(gè)總體近呢?若按歐氏距離來(lái)量度,點(diǎn)離總體要比離總體“近一些”。但是,從概率的角度看,點(diǎn)位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點(diǎn)離總體“近一些”。顯然,后一種量度更合理些。第二、設(shè)有量度重量和長(zhǎng)度的兩個(gè)變量與,以單位分別為kg和cm得到樣本,,,。今按照歐氏距離計(jì)算,有;如果我們將長(zhǎng)度單位變?yōu)閙m,那么,有;量綱的變化,將影響歐氏距離計(jì)算的結(jié)果。為此,我們引入一種由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。設(shè)和是來(lái)自均值向量為,協(xié)方差為的總體中的維樣本,則總體內(nèi)兩點(diǎn)與之間的馬氏距離定義為(4.2)定義點(diǎn)到總體的馬氏距離為(4.3)這里應(yīng)該注意到,當(dāng)(單位矩陣)時(shí),即為歐氏距離的情形。二、距離判別的思想及方法1、兩個(gè)總體的距離判別問(wèn)題問(wèn)題:設(shè)有協(xié)方差矩陣∑相等的兩個(gè)總體G1和G2,其均值分別是?1和?2,對(duì)于一個(gè)新的樣品X,要判斷它來(lái)自哪個(gè)總體。一般的想法是計(jì)算新樣品X到兩個(gè)總體的馬氏距離D2(X,G1)和D2(X,G2),并按照如下的判別規(guī)則進(jìn)行判斷(4.4)這個(gè)判別規(guī)則的等價(jià)描述為:求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。我們考慮其中是兩個(gè)總體均值的平均值,,記(4.5)則判別規(guī)則(4.4)式可表示為(4.6)這里稱(chēng)為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱(chēng)為線性判別函數(shù),稱(chēng)為判別系數(shù)。在實(shí)際應(yīng)用中,總體的均值和協(xié)方差矩陣一般是未知的,可由樣本均值和樣本協(xié)方差矩陣分別進(jìn)行估計(jì)。設(shè)來(lái)自總體的樣本,是來(lái)自總體的樣本,和的一個(gè)無(wú)偏估計(jì)分別為和的一個(gè)聯(lián)合無(wú)偏估計(jì)為這里此時(shí),兩總體距離判別的判別函數(shù)為其中,。這樣,判別規(guī)則為(4.7)這里我們應(yīng)該注意到:(1)當(dāng),和的分布分別為和時(shí),均為已知,且,則判別系數(shù)為,判別函數(shù)為判別規(guī)則為(2)當(dāng),時(shí),我們采用(4.4)式作為判別規(guī)則的形式。選擇判別函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為2、多個(gè)總體的距離判別問(wèn)題問(wèn)題:設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別是和,而且。對(duì)于一個(gè)新的樣品,要判斷它來(lái)自哪個(gè)總體。該問(wèn)題與兩個(gè)總體的距離判別問(wèn)題的解決思想一樣。計(jì)算新樣品到每一個(gè)總體的距離,即4.8)這里,,。由(4.8)式,可以取線性判別函數(shù)為,相應(yīng)的判別規(guī)則為如果(4.9)針對(duì)實(shí)際問(wèn)題,當(dāng)和均未知時(shí),可以通過(guò)相應(yīng)的樣本值來(lái)替代。設(shè)是來(lái)自總體中的樣本(),則()和可估計(jì)為,和,其中同樣,我們注意到,如果總體的協(xié)方差矩陣分別是,而且它們不全相等,則計(jì)算到各總體的馬氏距離,即則判別規(guī)則為如果(4.10)當(dāng)和均未知時(shí),()的估計(jì)同前,()的估計(jì)為,三、判別分析的實(shí)質(zhì)我們知道,判別分析就是希望利用已經(jīng)測(cè)得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類(lèi)別的樣本點(diǎn)盡可能地區(qū)別開(kāi)來(lái)。為了更清楚的認(rèn)識(shí)判別分析的實(shí)質(zhì),以便能靈活的應(yīng)用判別分析方法解決實(shí)際問(wèn)題,我們有必要了解“劃分”這樣概念。設(shè)R1,R2,…,Rk是p維空間Rp的k個(gè)子集,如果它們互不相交,且它們的和集為Rp,則稱(chēng)R1,R2,…,Rk為Rp的一個(gè)劃分。在兩個(gè)總體的距離判別問(wèn)題中,利用可以得到空間的一個(gè)劃分(4.11)新的樣品落入推斷,落入推斷這樣我們將會(huì)發(fā)現(xiàn),判別分析問(wèn)題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對(duì)p維空間Rp構(gòu)造一個(gè)“劃分”,這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。第三節(jié)貝葉斯(Bayes)判別法從上節(jié)看距離判別法雖然簡(jiǎn)單,便于使用。但是該方法也有它明顯的不足之處。 第一,判別方法與總體各自出現(xiàn)的概率的大小無(wú)關(guān); 第二,判別方法與錯(cuò)判之后所造成的損失無(wú)關(guān)。Bayes判別法就是為了解決這些問(wèn)題而提出的一種判別方法。一、Bayes判別的基本思想問(wèn)題:設(shè)有個(gè)總體,其各自的分布密度函數(shù)互不相同的,假設(shè)個(gè)總體各自出現(xiàn)的概率分別為(先驗(yàn)概率),,。假設(shè)已知若將本來(lái)屬于總體的樣品錯(cuò)判到總體時(shí)造成的損失為,。在這樣的情形下,對(duì)于新的樣品判斷其來(lái)自哪個(gè)總體。下面我們對(duì)這一問(wèn)題進(jìn)行分析。首先應(yīng)該清楚、,對(duì)于任意的成立。設(shè)個(gè)總體相應(yīng)的維樣本空間為,即為一個(gè)劃分,故我們可以簡(jiǎn)記一個(gè)判別規(guī)則為。從描述平均損失的角度出發(fā),如果原來(lái)屬于總體且分布密度為的樣品,正好取值落入了,我們就將會(huì)錯(cuò)判為屬于。故在規(guī)則下,將屬于的樣品錯(cuò)判為的概率為如果實(shí)屬的樣品,錯(cuò)判到其它總體所造成的損失為,則這種判別規(guī)則對(duì)總體而言,樣品錯(cuò)判后所造成的平均損失為其中由于個(gè)總體出現(xiàn)的先驗(yàn)概率分別為,則用規(guī)則來(lái)進(jìn)行判別所造成的總平均損失為(4.12)所謂Bayes判別法則,就是要選擇,使得(4.12)式表示的總平均損失達(dá)到極小。二、Bayes判別的基本方法設(shè)每一個(gè)總體的分布密度為,,來(lái)自總體的樣品被錯(cuò)判為來(lái)自總體()時(shí)所造成的損失記為,并且。那么,對(duì)于判別規(guī)則產(chǎn)生的誤判概率記為,有如果已知樣品X來(lái)自總體Gi的先驗(yàn)概率為qi,則在規(guī)則R下,由(4.12)式知,誤判的總平均損失為(4.13)令,那么,(4.13)式為如果空間有另一種劃分,則它的總平均損失為那么,在兩種劃分下的總平均損失之差為(4.14)由的定義,在上對(duì)一切成立,故(4.14)式小于或等于零,這說(shuō)明確能使總平均損失達(dá)到極小,它是Bayes判別的解。這樣,我們以Bayes判別的思想得到的劃分為(4.15)具體說(shuō)來(lái),當(dāng)抽取了一個(gè)未知總體的樣本值,要判斷它屬于哪個(gè)總體,只要前計(jì)算出個(gè)按先驗(yàn)分布加權(quán)的誤判平均損失(4.16)然后比較這個(gè)誤判平均損失的大小,選取其中最小的,則判定樣品來(lái)自該總體。這里我們看一個(gè)特殊情形,當(dāng)時(shí),由(4.16)式得從而若令,則判別規(guī)則可表示為(4.17)如果在此,與分別為和,那么其中由(4.5)所定義。于是,判定樣品來(lái)自該總體時(shí),判別規(guī)則(4.17)成(4.18)對(duì)比判別規(guī)則(4.6),唯一的差別僅在于閾值點(diǎn),(4.6)用0作為閾值點(diǎn),而這里用。當(dāng),時(shí),,,則(4.6)與(4.18)完全一致。第四節(jié)費(fèi)歇(Fisher)判別法Fisher判別法是1936年提出來(lái)的,該方法的主要思想是通過(guò)將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將總體與總體之間盡可能的放開(kāi),然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類(lèi)判別。一、Fisher判別的基本思想從個(gè)總體中抽取具有個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù)(4.19)其中系數(shù)確定的原則是使得總體之間區(qū)別最大,而使每個(gè)總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對(duì)于一個(gè)新的樣品,將它的個(gè)指標(biāo)值代入線性判別函數(shù)(4.19)式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。二、Fisher判別函數(shù)的構(gòu)造 1、針對(duì)兩個(gè)總體的情形假設(shè)有兩個(gè)總體,其均值分別為和,協(xié)方差矩陣為和。當(dāng)時(shí),我們可以求出的均值和方差,即,,在求線性判別函數(shù)時(shí),盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時(shí)要求每一個(gè)總體內(nèi)的離差平方和最小,即,則我們可以建立一個(gè)目標(biāo)函數(shù)(4.20)這樣,將問(wèn)題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。從而可以構(gòu)造出所要求的線性判別函數(shù)。 2、針對(duì)多個(gè)總體的情形假設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別為和()。同樣,我們考慮線性判別函數(shù),在的條件下,有令其中,。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)(4.21)達(dá)到極大。這里我們應(yīng)該說(shuō)明的是,如果我們得到線性判別函數(shù),對(duì)于一個(gè)新的樣品可以這樣構(gòu)造一個(gè)判別規(guī)則,如果(4.22)則判定來(lái)自總體。三、線性判別函數(shù)的求法針對(duì)多個(gè)總體的情形,我們討論使目標(biāo)函數(shù)(4.21)式達(dá)到極大的求法。設(shè)為維空間的樣品,那么其中注意到從而這里,,為的單位陣,。即有(4.23)求使得(4.23)式達(dá)到極大的。為了確保解的唯一性,不妨設(shè),這樣問(wèn)題轉(zhuǎn)化為,在的條件下,求使得式達(dá)到極大??紤]目標(biāo)函數(shù)(4.24)對(duì)(4.24)式求導(dǎo),有對(duì)(4.25)式兩邊同乘,有從而,的極大值為。再用左乘(4.25)式,有(4.27)由(4.27)式說(shuō)明為特征值,為的特征向量。在此最大特征值所對(duì)應(yīng)的特征向量為我們所求結(jié)果。這里值得注意的是,本書(shū)有幾處利用極值原理求極值時(shí),只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因?yàn)樵趯?shí)際問(wèn)題中,往往根據(jù)問(wèn)題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點(diǎn)只有一個(gè),這時(shí)就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點(diǎn)就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識(shí)或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。在解決實(shí)際問(wèn)題時(shí),當(dāng)總體參數(shù)未知,需要通過(guò)樣本來(lái)估計(jì),我們僅對(duì)的情形加以說(shuō)明。設(shè)樣本分別為和,則那么當(dāng)和均未知時(shí),()的估計(jì)同前,()的估計(jì)為,第五章聚類(lèi)分析第一節(jié)引言“物以類(lèi)聚,人以群分”。對(duì)事物進(jìn)行分類(lèi),是人們認(rèn)識(shí)事物的出發(fā)點(diǎn),也是人們認(rèn)識(shí)世界的一種重要方法。因此,分類(lèi)學(xué)已成為人們認(rèn)識(shí)世界的一門(mén)基礎(chǔ)科學(xué)。在生物、經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域的研究中,存在著大量量化分類(lèi)研究。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對(duì)生物進(jìn)行分類(lèi)。在經(jīng)濟(jì)研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費(fèi)情況,往往需要?jiǎng)澐植煌念?lèi)型去研究。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類(lèi)。在人口學(xué)研究中,需要構(gòu)造人口生育分類(lèi)模式、人口死亡分類(lèi)狀況,以此來(lái)研究人口的生育和死亡規(guī)律。但歷史上這些分類(lèi)方法多半是人們主要依靠經(jīng)驗(yàn)作定性分類(lèi),致使許多分類(lèi)帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對(duì)于多因素、多指標(biāo)的分類(lèi)問(wèn)題,定性分類(lèi)的準(zhǔn)確性不好把握。為了克服定性分類(lèi)存在的不足,人們把數(shù)學(xué)方法引入分類(lèi)中,形成了數(shù)值分類(lèi)學(xué)。后來(lái)隨著多元統(tǒng)計(jì)分析的發(fā)展,從數(shù)值分類(lèi)學(xué)中逐漸分離出了聚類(lèi)分析方法。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,利用數(shù)學(xué)方法研究分類(lèi)不僅非常必要而且完全可能,因此近年來(lái),聚類(lèi)分析的理論和應(yīng)用得到了迅速的發(fā)展。聚類(lèi)分析就是分析如何對(duì)樣品(或變量)進(jìn)行量化分類(lèi)的問(wèn)題。通常聚類(lèi)分析分為Q型聚類(lèi)和R型聚類(lèi)。Q型聚類(lèi)是對(duì)樣品進(jìn)行分類(lèi)處理,R型聚類(lèi)是對(duì)變量進(jìn)行分類(lèi)處理。第二節(jié)相似性的量度一、樣品相似性的度量在聚類(lèi)之前,要首先分析樣品間的相似性。Q型聚類(lèi)分析,常用距離來(lái)測(cè)度樣品之間的相似程度。每個(gè)樣品有p個(gè)指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個(gè)p維的向量。如果把n個(gè)樣品看成p維空間中的n個(gè)點(diǎn),則兩個(gè)樣品間相似程度就可用p維空間中的兩點(diǎn)距離公式來(lái)度量。兩點(diǎn)距離公式可以從不同角度進(jìn)行定義,令dij表示樣品Xi與Xj的距離,存在以下的距離公式:1.明考夫斯基距離明考夫斯基距離簡(jiǎn)稱(chēng)明氏距離,按的取值不同又可分成:(1)絕對(duì)距離()(5.2)(2)歐氏距離()(5.3)(3)切比雪夫距離()歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問(wèn)題時(shí),歐氏距離就顯示出了它的不足之處。一是它沒(méi)有考慮到總體的變異對(duì)“距離”遠(yuǎn)近的影響,顯然一個(gè)變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對(duì)多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。 2.馬氏距離設(shè)Xi與Xj是來(lái)自均值向量為?,協(xié)方差為∑=(>0)的總體G中的p維樣品,則兩個(gè)樣品間的馬氏距離為馬氏距離又稱(chēng)為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測(cè)變量之間的相關(guān)性。如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。馬氏距離還考慮了觀測(cè)變量之間的變異性,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。3.蘭氏距離它僅適用于一切Xij>0的情況,這個(gè)距離也可以克服各個(gè)指標(biāo)之間量綱的影響。這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性。 4.距離選擇的原則一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的距離公式,會(huì)得到不同的分類(lèi)結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點(diǎn)和實(shí)際意義都有不同。因此我們?cè)谶M(jìn)行聚類(lèi)分析時(shí),應(yīng)注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類(lèi)分析方法。如在進(jìn)行聚類(lèi)分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。(3)要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問(wèn)題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類(lèi)分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類(lèi),然后對(duì)聚類(lèi)分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。二、變量相似性的度量多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個(gè)有向線段表示。在對(duì)多元數(shù)據(jù)進(jìn)行分析時(shí),相對(duì)于數(shù)據(jù)的大小,我們更多地對(duì)變量的變化趨勢(shì)或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1、夾角余弦兩變量Xi與Xj看作p維空間的兩個(gè)向量,這兩個(gè)向量間的夾角余弦可用下式進(jìn)行計(jì)算顯然,∣cos?ij∣?1。2.相關(guān)系數(shù) 相關(guān)系數(shù)經(jīng)常用來(lái)度量變量間的相似性。變量Xi與Xj的相關(guān)系數(shù)定義為顯然也有,∣rij∣?1。無(wú)論是夾角余弦還是相關(guān)系數(shù),它們的絕對(duì)值都小于1,作為變量近似性的度量工具,我們把它們統(tǒng)記為cij。當(dāng)∣cij∣=1時(shí),說(shuō)明變量Xi與Xj完全相似;當(dāng)∣cij∣近似于1時(shí),說(shuō)明變量Xi與Xj非常密切;當(dāng)∣cij∣=0時(shí),說(shuō)明變量Xi與Xj完全不一樣;當(dāng)∣cij∣近似于0時(shí),說(shuō)明變量Xi與Xj差別很大。 據(jù)此,我們把比較相似的變量聚為一類(lèi),把不太相似的變量歸到不同的類(lèi)內(nèi)。在實(shí)際聚類(lèi)過(guò)程中,為了計(jì)算方便,我們把變量間相似性的度量公式作一個(gè)變換為dij=1?∣cij∣(5.9) 或者dij2=1?cij2(5.10)用表示變量間的距離遠(yuǎn)近,小則與先聚成一類(lèi),這比較符合人們的一般思維習(xí)慣。第三節(jié)系統(tǒng)聚類(lèi)分析法一、系統(tǒng)聚類(lèi)的基本思想系統(tǒng)聚類(lèi)的基本思想是:距離相近的樣品(或變量)先聚成類(lèi),距離相遠(yuǎn)的后聚成類(lèi),過(guò)程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類(lèi)中。系統(tǒng)聚類(lèi)過(guò)程是:假設(shè)總共有n個(gè)樣品(或變量),第一步將每個(gè)樣品(或變量)獨(dú)自聚成一類(lèi),共有n類(lèi);第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個(gè)樣品(或變量)聚合為一類(lèi),其它的樣品(或變量)仍各自聚為一類(lèi),共聚成n?1類(lèi);第三步將“距離”最近的兩個(gè)類(lèi)進(jìn)一步聚成一類(lèi),共聚成n?2類(lèi);……,以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)全聚成一類(lèi)。為了直觀地反映以上的系統(tǒng)聚類(lèi)過(guò)程,可以把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖。所以有時(shí)系統(tǒng)聚類(lèi)也稱(chēng)為譜系分析。除系統(tǒng)聚類(lèi)法外,還有有序聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法、圖論聚類(lèi)法、模糊聚類(lèi)法等,限于篇幅,我們只介紹系統(tǒng)聚類(lèi)方法。二、類(lèi)間距離與系統(tǒng)聚類(lèi)法在進(jìn)行系統(tǒng)聚類(lèi)之前,我們首先要定義類(lèi)與類(lèi)之間的距離,由類(lèi)間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類(lèi)法。常用的類(lèi)間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類(lèi)法也有8種,分別為最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類(lèi)平均法、可變類(lèi)平均法、可變法和離差平方和法。它們的歸類(lèi)步驟基本上是一致的,主要差異是類(lèi)間距離的計(jì)算方法不同。以下用dij表示樣品Xi與Xj之間距離,用Dij表示類(lèi)Gi與Gj之間的距離。1.最短距離法 定義類(lèi)與之間的距離為兩類(lèi)最近樣品的距離,即為設(shè)類(lèi)與合并成一個(gè)新類(lèi)記為,則任一類(lèi)與的距離為最短距離法進(jìn)行聚類(lèi)分析的步驟如下: (1)定義樣品之間距離,計(jì)算樣品的兩兩距離,得一距離陣記為D(0),開(kāi)始每個(gè)樣品自成一類(lèi),顯然這時(shí)Dij=dij。 (2)找出距離最小元素,設(shè)為Dpq,則將Gp和Gq合并成一個(gè)新類(lèi),記為Gr,即Gr={Gp,Gq}。 (3)按(5.12)計(jì)算新類(lèi)與其它類(lèi)的距離。(4)重復(fù)(2)、(3)兩步,直到所有元素。并成一類(lèi)為止。如果某一步距離最小的元素不止一個(gè),則對(duì)應(yīng)這些最小元素的類(lèi)可以同時(shí)合并?!纠?.1】設(shè)有六個(gè)樣品,每個(gè)只測(cè)量一個(gè)指標(biāo),分別是1,2,5,7,9,10,試用最短距離法將它們分類(lèi)。 (1)樣品采用絕對(duì)值距離,計(jì)算樣品間的距離陣D(0),見(jiàn)表5.1G1G2G3G4G5G6G10G210G3430G46520G587420G6985310(2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.12)式計(jì)算新類(lèi)與其它類(lèi)的距離D(1),見(jiàn)表5.2G7G3G4G8G70G330G4520G87420(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并,又與G8合并,因此G3、G4、G8合并成一個(gè)新類(lèi)G9,其與其它類(lèi)的距離D(2),見(jiàn)表5.3G7G9G70G930(4)最后將G7和G9合并成G10,這時(shí)所有的六個(gè)樣品聚為一類(lèi),其過(guò)程終止。 上述聚類(lèi)的可視化過(guò)程見(jiàn)圖5.1所示,橫坐標(biāo)的刻度表示并類(lèi)的距離。這里我們應(yīng)該注意,聚類(lèi)的個(gè)數(shù)要以實(shí)際情況所定,其詳細(xì)內(nèi)容將在后面討論。2.最長(zhǎng)距離法定義類(lèi)與之間的距離為兩類(lèi)最遠(yuǎn)樣品的距離,即為(5.13)最長(zhǎng)距離法與最短距離法的并類(lèi)步驟完全一樣,也是將各樣品先自成一類(lèi),然后將距離最小的兩類(lèi)合并。將類(lèi)與合并為,則任一類(lèi)與的類(lèi)間距離公式為再找距離最小兩類(lèi)并類(lèi),直至所有的樣品全歸為一類(lèi)為止。可以看出最長(zhǎng)距離法與最短距離法只有兩點(diǎn)不同:一是類(lèi)與類(lèi)之間的距離定義不同;另一是計(jì)算新類(lèi)與其它類(lèi)的距離所用的公式不同。 3.中間距離法最短、最長(zhǎng)距離定義表示都是極端情況,我們定義類(lèi)間距離可以既不采用兩類(lèi)之間最近的距離也不采用兩類(lèi)之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,稱(chēng)為中間距離法。 中間距離將類(lèi)Gp與Gq類(lèi)合并為類(lèi)Gr,則任意的類(lèi)Gk和Gr的距離公式為(?1/4???0)(5.15)設(shè)Dkq>Dkp,如果采用最短距離法,則Dkr=Dkp,如果采用最長(zhǎng)距離法,則Dkr=Dkq。如圖5.2所示,(5.15)式就是取它們(最長(zhǎng)距離與最短距離)的中間一點(diǎn)作為計(jì)算Dkr的根據(jù)。特別當(dāng)?=?1/4,它表示取中間點(diǎn)算距離,公式為圖5.2中間距離法4.重心法重心法定義類(lèi)間距離為兩類(lèi)重心(各類(lèi)樣品的均值)的距離。重心指標(biāo)對(duì)類(lèi)有很好的代表性,但利用各樣本的信息不充分。設(shè)與分別有樣品,個(gè),其重心分別為和,則與之間的距離定義為和之間的距離,這里我們用歐氏距離來(lái)表示,即(5.17)設(shè)將和合并為,則內(nèi)樣品個(gè)數(shù)為,它的重心是,類(lèi)的重心是,那么依據(jù)(5.17)式它與新類(lèi)的距離為(5.18)這里我們應(yīng)該注意,實(shí)際上(5.18)式表示的類(lèi)與新類(lèi)的距離為:利用代入上式,有(5.19)【例5.2】針對(duì)例5.1的數(shù)據(jù),試用重心法將它們聚類(lèi)。(1)樣品采用歐氏距離,計(jì)算樣品間的平方距離陣D2(0),見(jiàn)表5.4所示。G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910(2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.18)式計(jì)算新類(lèi)與其它類(lèi)的距離得到距離陣D2(1),見(jiàn)表5.5:G1G2G3G4G10G212.250G330.2540G46420.256.250其它結(jié)果類(lèi)似可以求得(3)在D2(1)中最小值是D234=4,那么G3與G4合并一個(gè)新類(lèi)G9,其與與其它類(lèi)的距離D2(2),見(jiàn)表5.6:G7G9G8G70G920.250G86412.50(4)在中最小值是=12.5,那么與合并一個(gè)新類(lèi),其與與其它類(lèi)的距離,見(jiàn)表5.7:G7G10G70G1039.06250(5)最后將G7和G10合并成G11,這時(shí)所有的六個(gè)樣品聚為一類(lèi),其過(guò)程終止。 上述重心法聚類(lèi)的可視化過(guò)程見(jiàn)圖5.3所示,橫坐標(biāo)的刻度表示并類(lèi)的距離。

5.類(lèi)平均法類(lèi)平均法定義類(lèi)間距離平方為這兩類(lèi)元素兩兩之間距離平方的平均數(shù),即為(5.20)設(shè)聚類(lèi)的某一步將和合并為,則任一類(lèi)類(lèi)與的距離為:(5.21)類(lèi)平均法的聚類(lèi)過(guò)程與上述方法完全類(lèi)似,這里就不在詳述了。6.可變類(lèi)平均法由于類(lèi)平均法中沒(méi)有反映出Gp和Gq之間的距離Dpq的影響,因此將類(lèi)平均法進(jìn)一步推廣,如果將Gp和Gq合并為新類(lèi)Gr,類(lèi)Gk與新并類(lèi)Gr的距離公式為:其中?是可變的且?<1,稱(chēng)這種系統(tǒng)聚類(lèi)法為可變類(lèi)平均法。7.可變法針對(duì)于中間法而言,如果將中間法的前兩項(xiàng)的系數(shù)也依賴(lài)于,那么,如果將和合并為新類(lèi),類(lèi)與新并類(lèi)的距離公式為:(5.23)其中是可變的,且。顯然在可變類(lèi)平均法中取,即為可變法。可變類(lèi)平均法與可變法的分類(lèi)效果與的選擇關(guān)系很大,在實(shí)際應(yīng)用中常取負(fù)值。8.離差平方和法該方法是Ward提出來(lái)的,所以又稱(chēng)為Ward法。該方法的基本思想來(lái)自于方差分析,如果分類(lèi)正確,同類(lèi)樣品的離差平方和應(yīng)當(dāng)較小,類(lèi)與類(lèi)的離差平方和較大。具體做法是先將n個(gè)樣品各自成一類(lèi),然后每次縮小一類(lèi),每縮小一類(lèi),離差平方和就要增大,選擇使方差增加最小的兩類(lèi)合并,直到所有的樣品歸為一類(lèi)為止。 設(shè)將n個(gè)樣品分成k類(lèi)G1,G2,…,Gk,用Xit表示Gt中的第I個(gè)樣品,nt表示Gt中樣品的個(gè)數(shù),是Gt的重心,則Gt的樣品離差平方和為如果和合并為新類(lèi)類(lèi)內(nèi)離差平方和分別為它們反映了各自類(lèi)內(nèi)樣品的分散程度,如果和這兩類(lèi)相距較近,則合并后所增加的離散平方和應(yīng)較?。环駝t,應(yīng)較大。于是定義和之間的平方距離為:其中,可以證明類(lèi)間距離的遞推公式為這種系統(tǒng)聚類(lèi)法稱(chēng)為離差平方和法或Ward方法。下面論證離差平方和法的距離遞推(5.26)式。從而,由(5.25)式知(5.27)那么,由(5.27)式和(5.19)式,可以得到離差平方和法的平方距離的遞推公式為:上述八種系統(tǒng)聚類(lèi)法的步驟完全一樣,只是距離的遞推公式不同。蘭斯(Lance)和威廉姆斯(Williams)于1967年給出了一個(gè)統(tǒng)一的公式。(5.28)其中ap、aq、?、?是參數(shù),不同的系統(tǒng)聚類(lèi)法,它們?nèi)〔煌臄?shù),詳見(jiàn)表5.8。這里應(yīng)該注意,不同的聚類(lèi)方法結(jié)果不一定完全相同,一般只是大致相似。如果有很大的差異,則應(yīng)該仔細(xì)考查,找到問(wèn)題所在;另外,可將聚類(lèi)結(jié)果與實(shí)際問(wèn)題對(duì)照,看哪一個(gè)結(jié)果更符合經(jīng)驗(yàn)。表5.8系統(tǒng)聚類(lèi)法參數(shù)表方法最短距離法1/21/20-1/2最長(zhǎng)距離法1/21/201/2中間距離法1/21/2-1/40重心法0類(lèi)平均法00可變類(lèi)平均法0可變法0離差平方和法0第四節(jié)K均值聚類(lèi)分析系統(tǒng)聚類(lèi)法需要計(jì)算出不同樣品或變量的距離,還要在聚類(lèi)的每一步都要計(jì)算“類(lèi)間距離”,相應(yīng)的計(jì)算量自然比較大;特別是當(dāng)樣本的容量很大時(shí),需要占據(jù)非常大的計(jì)算機(jī)內(nèi)存空間,這給應(yīng)用帶來(lái)一定的困難。而K—均值法是一種快速聚類(lèi)法,采用該方法得到的結(jié)果比較簡(jiǎn)單易懂,對(duì)計(jì)算機(jī)的性能要求不高,因此應(yīng)用也比較廣泛。K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個(gè)樣品分配給最近中心(均值)的類(lèi)中,具體的算法至少包括以下三個(gè)步驟:1.將所有的樣品分成K個(gè)初始類(lèi);2.通過(guò)歐氏距離將某個(gè)樣品劃入離中心最近的類(lèi)中,并對(duì)獲得樣品與失去樣品的類(lèi),重新計(jì)算中心坐標(biāo);3.重復(fù)步驟2,直到所有的樣品都不能再分配時(shí)為止。K均值法和系統(tǒng)聚類(lèi)法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類(lèi)的,但是兩者的不同之處也是明顯的:系統(tǒng)聚類(lèi)對(duì)不同的類(lèi)數(shù)產(chǎn)生一系列的聚類(lèi)結(jié)果,而K—均值法只能產(chǎn)生指定類(lèi)數(shù)的聚類(lèi)結(jié)果。具體類(lèi)數(shù)的確定,離不開(kāi)實(shí)踐經(jīng)驗(yàn)的積累;有時(shí)也可以借助系統(tǒng)聚類(lèi)法以一部分樣品為對(duì)象進(jìn)行聚類(lèi),其結(jié)果作為K—均值法確定類(lèi)數(shù)的參考。下面通過(guò)一個(gè)具體問(wèn)題說(shuō)明K均值法的計(jì)算過(guò)程?!纠?.3】假定我們對(duì)A、B、C、D四個(gè)樣品分別測(cè)量?jī)蓚€(gè)變量和得到結(jié)果見(jiàn)表5.9。樣品變量A53B-11C1-2D-3-2試將以上的樣品聚成兩類(lèi)。第一步:按要求取K=2,為了實(shí)施均值法聚類(lèi),我們將這些樣品隨意分成兩類(lèi),比如(A、B)和(C、D),然后計(jì)算這兩個(gè)聚類(lèi)的中心坐標(biāo),見(jiàn)表5.10所示。聚類(lèi)中心坐標(biāo)(A、B)22(C、D)-1-2表5.10中的中心坐標(biāo)是通過(guò)原始數(shù)據(jù)計(jì)算得來(lái)的,比如(A、B)類(lèi)的,等等。第二步:計(jì)算某個(gè)樣品到各類(lèi)中心的歐氏平方距離,然后將該樣品分配給最近的一類(lèi)。對(duì)于樣品有變動(dòng)的類(lèi),重新計(jì)算它們的中心坐標(biāo),為下一步聚類(lèi)做準(zhǔn)備。先計(jì)算A到兩個(gè)類(lèi)的平方距離:,由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計(jì)算B到兩類(lèi)的平方距離:,由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類(lèi),得到新的聚類(lèi)是(A)和(B、C、D)。更新中心坐標(biāo)如表5.11所示。聚類(lèi)中心坐標(biāo)(A)53(B、C、D)-1-1第三步:再次檢查每個(gè)樣品,以決定是否需要重新分類(lèi)。計(jì)算各樣品到各中心的距離平方,得結(jié)果見(jiàn)表5.12。聚類(lèi)樣品到中心的距離平方ABCD(A)0404189(B、C、D)52455到現(xiàn)在為止,每個(gè)樣品都已經(jīng)分配給距離中心最近的類(lèi),因此聚類(lèi)過(guò)程到此結(jié)束。最終得到K=2的聚類(lèi)結(jié)果是A獨(dú)自成一類(lèi),B、C、D聚成一類(lèi)。第五節(jié)有序樣品的聚類(lèi)分析法以上的系統(tǒng)聚類(lèi)和K—均值聚類(lèi)中,樣品的地位是彼此獨(dú)立的,沒(méi)有考慮樣品的次序。但在實(shí)際應(yīng)用中,有時(shí)樣品的次序是不能變動(dòng)的,這就產(chǎn)生了有序樣品的聚類(lèi)分析問(wèn)題。例如對(duì)動(dòng)植物按生長(zhǎng)的年齡段進(jìn)行分類(lèi),年齡的順序是不能改變的,否則就沒(méi)有實(shí)際意義了;又例如在地質(zhì)勘探中,需要通過(guò)巖心了解地層結(jié)構(gòu),此時(shí)按深度順序取樣,樣品的次序也不能打亂。如果用X(1),X(2),…,X(n)表示n個(gè)有序的樣品,則每一類(lèi)必須是這樣的形式,即X(i),X(i+1),…,X(j),其中1?r?n,且j?n,簡(jiǎn)記為Gi={i,i+1,…,j}。在同一類(lèi)中的樣品是次序相鄰的。這類(lèi)問(wèn)題稱(chēng)為有序樣品的聚類(lèi)分析。一、有序樣品可能的分類(lèi)數(shù)目n個(gè)有序樣品分成k類(lèi),則一切可能的分法有種。實(shí)際上,n個(gè)有序樣品共有(n?1)個(gè)間隔,分成k類(lèi)相當(dāng)于在這(n?1)個(gè)間隔中插入k?1根“棍子”。由于不考慮棍子的插入順序,是一個(gè)組合問(wèn)題,共有種插法。這就是n個(gè)有序樣品分成k類(lèi)的一切可能分法。因此,對(duì)于有限的n和k,有序樣品的所有可能分類(lèi)結(jié)果是有限的,可以在某種損失函數(shù)意義下,求得最優(yōu)解。所以有序樣品聚類(lèi)分析又稱(chēng)為最優(yōu)分割,該算法是費(fèi)希爾(Fisher)最先提出來(lái)的,故也稱(chēng)之為費(fèi)希爾最優(yōu)求解法。二、費(fèi)希爾最優(yōu)求解法2.定義分類(lèi)的損失函數(shù)。費(fèi)希爾最優(yōu)求解法定義的分類(lèi)損失函數(shù)的思想類(lèi)似于系統(tǒng)聚類(lèi)分析中的Ward法,即要求分類(lèi)后產(chǎn)生的離差平方和的增量最小。用表示將個(gè)有序樣品分為類(lèi)的某一種分法:,,,其中。定義上述分類(lèi)法的損失函數(shù)為(5.31)上式中的。對(duì)于固定的和,越小,表示各類(lèi)的離差平方和越小,分類(lèi)就是越有效的。因此,要求尋找一種分法,使分類(lèi)的損失函數(shù)最小,這種最優(yōu)分類(lèi)法記為。3.求最優(yōu)分類(lèi)法的遞推公式。具體計(jì)算最優(yōu)分類(lèi)的過(guò)程是通過(guò)遞推公式獲得的。先考慮的情形對(duì)所有的考慮使得,最小的。得到最優(yōu)分類(lèi):,。圖5.5時(shí)的情形進(jìn)一步考慮對(duì)于,求。這里需要注意,若要尋找將n個(gè)樣品分為k類(lèi)的最優(yōu)分割,則對(duì)于任意的j(k?j?n),先將前面j?1個(gè)樣品最優(yōu)分割為k?1類(lèi),得到p(j?1,k?1),否則從j到n這最后一類(lèi)就不可能構(gòu)成k類(lèi)的最優(yōu)分割,參見(jiàn)圖5.6。再考慮使L[b(n,k)]最小的j*,得到p(n,k)。因此我們得到費(fèi)希爾最優(yōu)求解法的遞推公式為4.費(fèi)希爾最優(yōu)求解法的實(shí)際計(jì)算。從遞推公式(5.32)可知,要得到分點(diǎn),使得從而獲得第類(lèi):,必須先計(jì)算使得從而獲得第類(lèi):。依此類(lèi)推,…,要得到分點(diǎn),使得從而獲得第3類(lèi):,必須先計(jì)算從而獲得第2類(lèi):。這時(shí)自然獲得。最后獲得最優(yōu)分割:。因此,實(shí)際計(jì)算過(guò)程中是從計(jì)算開(kāi)始的,一直到最后計(jì)算出為止。總之,為了求最優(yōu)解,主要是計(jì)算和,}。三、一個(gè)典型例子【例5.4】為了了解兒童的生長(zhǎng)發(fā)育規(guī)律,今隨機(jī)抽樣統(tǒng)計(jì)了男孩從出生到11歲每年平均增長(zhǎng)的重量數(shù)據(jù)表5.13,試問(wèn)男孩發(fā)育可分為幾個(gè)階段?年齡(歲)123增重(公斤)在分析這是一個(gè)有序樣品的聚類(lèi)問(wèn)題時(shí),我們通過(guò)圖形可以看到男孩增重隨年齡順序變化的規(guī)律,從圖5.6中發(fā)現(xiàn)男孩發(fā)育確實(shí)可以分為幾個(gè)階段。下面通過(guò)有序樣品的聚類(lèi)分析確定男孩發(fā)育分成幾個(gè)階段較合適。步驟如下:(1)計(jì)算直徑{},結(jié)果如表5.14。例如計(jì)算,此類(lèi)包含兩個(gè)樣品{9.3,1.8},故有:=5.55,=28.125其它依此計(jì)算,其結(jié)果見(jiàn)表5.14。12345678910228.125337.0070.005442.2080.0200.020545.9920.0880.0800.020649.1280.2320.2000.0800.020751.1000.2800.2320.0880.0200.005851.5290.4170.3930.3080.2900.2870.180951.9800.4670.4540.3930.3880.3700.2070.0051052.0290.8020.8000.7740.7730.7080.4200.0870.0801152.1820.9090.9090.8950.8890.7930.4520.0880.0800.020(2)計(jì)算最小分類(lèi)損失函數(shù)},結(jié)果如表5.15。234567891030.005(2)40.020(2)0.005(4)50.088(2)0.020(5)0.005(5)60.232(2)0.040(5)0.020(6)0.005(6)70.280(2)0.040(5)0.025(6)0.010(6)0.005(6)80.417(2)0.280(8)0.040(8)0.025(8)0.010(8)0.005(8)90.469(2)0.285(8)0.045(8)0.030(8)0.015(8)0.010(3)0.005(8)100.802(2)0.367(8)0.127(8)0.045(10)0.030(10)0.015(10)0.010(10)0.005(8)110.909(2)0.368(8)0.128(8)0.065(10)0.045(11)0.030(11)0.015(11)0.010(11)0.005(11)首先計(jì)算{}(即表中的列),例如計(jì)算:極小值是在處達(dá)到,故記,其它類(lèi)似計(jì)算。再計(jì)算{}(即表中的列),例如計(jì)算:表5.15中其它數(shù)值同樣計(jì)算,括弧內(nèi)的數(shù)字表示最優(yōu)分割處的序號(hào)。(3)分類(lèi)個(gè)數(shù)的確定。如果能從生理角度事先確定k當(dāng)然最好;有時(shí)不能事先確定k時(shí),可以從L[p(l,k)]隨k的變化趨勢(shì)圖中找到拐點(diǎn)處,作為確定k的根據(jù)。當(dāng)曲線拐點(diǎn)很平緩時(shí),可選擇的k很多,這時(shí)需要用其它的辦法來(lái)確定,比如均方比和特征根法,限于篇幅此略,有興趣的讀者可以查看其它資料。本例從表5.15中的最后一行可以看出k=3,4處有拐點(diǎn),即分成3類(lèi)或4類(lèi)都是較合適的,從圖5.8中可以更明顯看出這一點(diǎn)。(4)求最優(yōu)分類(lèi)。例如我們把兒童生長(zhǎng)分成4個(gè)階段,即可查表5.15中例的最后一行(即行)得,說(shuō)明最優(yōu)損失函數(shù)值為0.128,最后的最優(yōu)分割在第8個(gè)元素處,因此或。進(jìn)一步從表中查,因此或,再?gòu)谋碇胁榈米詈蠡颍O碌?。第六章主成分分析第一?jié)引言多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問(wèn)題。由于變量較多,增加了分析問(wèn)題的復(fù)雜性。但在實(shí)際問(wèn)題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過(guò)克服相關(guān)性、重疊性,用較少的變量來(lái)代替原來(lái)較多的變量,而這種代替可以反映原來(lái)多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想。主成分分析也稱(chēng)主分量分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過(guò)線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過(guò)程,……,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。一般說(shuō)來(lái),在主成分分析適用的場(chǎng)合,用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過(guò)主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。我們知道,當(dāng)一個(gè)變量只取一個(gè)數(shù)據(jù)時(shí),這個(gè)變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個(gè)變量取一系列不同數(shù)據(jù)時(shí),我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說(shuō)明它對(duì)各種場(chǎng)景的“遍歷性”越強(qiáng),提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個(gè)變量構(gòu)成的p維隨機(jī)向量為X=(X1,…,Xp)′。對(duì)X作正交變換,令Y=T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個(gè)分量的方差是最大的,第二個(gè)分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。第二節(jié)主成分的幾何意義及數(shù)學(xué)推導(dǎo)一、主成分的幾何意義主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個(gè)坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個(gè)樣品,每個(gè)樣品都測(cè)量了兩個(gè)指標(biāo)(X1,X2),它們大致分布在一個(gè)橢圓內(nèi)如圖6.1所示。事實(shí)上,散點(diǎn)的分布總有可能沿著某一個(gè)方向略顯擴(kuò)張,這個(gè)方向就把它看作橢圓的長(zhǎng)軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨(dú)看這n個(gè)點(diǎn)的分量X1和X2,它們沿著x1方向和x2方向都具有較大的離散性,其離散的程度可以分別用的X1方差和X2的方差測(cè)定。如果僅考慮X1或X2中的任何一個(gè)分量,那么包含在另一分量中的信息將會(huì)損失,因此,直接舍棄某個(gè)分量不是“降維”的有效辦法。如果我們將該坐標(biāo)系按逆時(shí)針?lè)较蛐D(zhuǎn)某個(gè)角度變成新坐標(biāo)系,這里是橢圓的長(zhǎng)軸方向,是橢圓的短軸方向。旋轉(zhuǎn)公式為(6.1)我們看到新變量和是原變量和的線性組合,它的矩陣表示形式為:(6.2)其中,為旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有或。易見(jiàn),n個(gè)點(diǎn)在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱(chēng)它們?yōu)樵甲兞縓1和X2的綜合變量,n個(gè)點(diǎn)y1在軸上的方差達(dá)到最大,即在此方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論