下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三章 判別分析,判別分析(discriminant analysis)是研究判斷個(gè)體所屬類型的一種統(tǒng)計(jì)方法。,判別分析的應(yīng)用十分廣泛。如判別產(chǎn)品質(zhì)量的等級;判斷一個(gè)國家的經(jīng)濟(jì)發(fā)展程度;判斷該地的礦物類型;,判斷病人患哪種疾??;判斷明天是晴、多云或有雨等等。判斷分析所處理的問題往往是包含大量的數(shù)據(jù)資料,且其數(shù)量指標(biāo)往往是多元的。判別分析是一種有效的多元數(shù)據(jù)分析方法,它能科學(xué)地判斷得到的樣品屬于什么類型,揭示內(nèi)在的規(guī)律,做出正確的判斷。,判別分析的模型如下: 設(shè)有k個(gè)總體G1,Gk,都是p元總體,其數(shù)量指標(biāo)是,設(shè)Gi的分布函數(shù)Fi(x), 概率密度fi(x)=fi(x1,x2,xp)。對任一樣品
2、 x=(x1,x2, , xp)T,判斷它來自哪個(gè)總體。,X=(X1, X2, , Xp)T,由于判別準(zhǔn)則不同,則有不同的判別分析方法,本章主要介紹距離判別、Bayes 判別和Fisher判別。,一、兩個(gè)總體的情況,設(shè)有兩個(gè)總體G1和G2, x=(x1,x2, ,xp)是一個(gè)樣品,若能定義x到G1和G2的距離d(x,G1)和d(x,G2),則判別規(guī)則為,3.1 距離判斷,定義3.1 設(shè)x,y是從均值向量為、協(xié)方差矩陣為 的總體G中抽取的兩個(gè)樣品,則x,y兩點(diǎn)之間的馬氏距離平方是,定義3.1 設(shè)x,y是從均值向量為、協(xié)方差矩陣為 的總體G中抽取的兩個(gè)樣品,則x,y兩點(diǎn)之間的馬氏距離平方是,又定義
3、x與總體G的馬氏距離平方是,當(dāng)兩總體G1和G2的均值向量分別為(1)和 (2),協(xié)方差矩陣均為1和2,則,當(dāng)兩總體G1和G2的均值向量分別為(1)和 (2),協(xié)方差矩陣均為1和2,則,若1=2=,則,其中,1. 兩個(gè)總體協(xié)方差矩陣相等的情況,是x的線性函數(shù),稱為線性判別函數(shù)。,判別準(zhǔn)則為,其中,其中,若記,其中W(x)也是線性函數(shù)。,實(shí)際上,這種情況還可以進(jìn)一步簡化為,判別規(guī)則:,當(dāng), (1), (2)未知時(shí),用樣本估計(jì)。設(shè),來自兩個(gè)總體的樣本,均值和協(xié)方差矩陣的估計(jì)為,當(dāng)1=2=時(shí), 的無偏估計(jì)為,此時(shí)為非線性判別。,2. 兩個(gè)總體協(xié)方差矩陣不等的情況:12,判別準(zhǔn)則為,當(dāng)1, 2 , 1,
4、 2未知時(shí)的樣本估計(jì)為,二、 判別準(zhǔn)則的評價(jià),當(dāng)一個(gè)判別法則提出以后,還要研究其優(yōu)良性??疾煲粋€(gè)判別法則的優(yōu)良性,要考察誤判率,即考察 x屬于G1而誤判為屬于G2或x屬于G2而誤判為屬于 G1 的概率。,1. 誤差率回代估計(jì)法,設(shè),分別是來自兩個(gè)總體的樣本,將每個(gè)樣品進(jìn)行回代判別,其判別結(jié)果如下表:,1. 誤差率回代估計(jì)法,設(shè),分別是來自兩個(gè)總體的樣本,將每個(gè)樣品進(jìn)行回代判別,其判別結(jié)果如下表:,其中 n11+n12=n1, n12為樣品屬于G1而誤判為G2的個(gè)數(shù);,n21+n22=n2, n21為樣品屬于G2而誤判為G1的個(gè)數(shù).,誤判率的回代估計(jì)為,2. 誤判率的交叉確認(rèn)估計(jì),誤判率的交叉確
5、認(rèn)估計(jì)是每次剔除樣本中的一個(gè)樣品, 利用其余n1+n2-1樣品建立判別準(zhǔn)則, 再用所建立的判別準(zhǔn)則對刪除的那個(gè)樣品作判別. 對樣本中的每個(gè)樣品作上述分析, 以其誤判比例作為誤判概率的估計(jì)。,設(shè)G1的n1個(gè)樣品中, 有n*12個(gè)樣品被誤判;G2的n*21個(gè)樣品被誤判。則誤判率的交叉確認(rèn)估計(jì)為,SAS系統(tǒng)可以計(jì)算誤判率的交叉確認(rèn)估計(jì)。,例3.1 馬尾松苗紫化病是一種生理性病害,現(xiàn)從病苗(紫化苗)中選取12株,健苗中選取8株分別測定其每平方厘米葉片所含5種元素的微克數(shù),其數(shù)據(jù)見表3.1,試據(jù)此作距離判別分析。,表3.1 馬尾松苗數(shù)據(jù),解 SAS程序:,data ex3_1; input group$
6、 x1-x5; cards; a 12.5 0.6 5.2 0.1 0.5 . a 11.2 0.7 4.9 0.1 0.5 b 12.1 0.4 2.8 0.2 0.6 b 7.5 0.3 2.2 0.3 0.6 ;,數(shù)據(jù)步,proc discrim data=ex3_1 pool=test slpool=0.1 method=normal distance simple list crosslisterr wcov pcov; class group; var x1-x5; run;,說明:pool=test 檢驗(yàn)方差陣相等(或=yes或=no);,slpool=0.1 指定顯著性水平,僅
7、與pool=test匹配;,method=normal (或npar非參數(shù)方法)前者為缺?。?distance 輸出各組間距離并進(jìn)行檢驗(yàn), 理論從略;,simple 輸出簡單統(tǒng)計(jì)量;,過 程 步,crosslisterr 輸出交叉確認(rèn)法誤判率信息;,list 輸出每個(gè)樣品的判別結(jié)果;,wcov 輸出各類的組內(nèi)協(xié)差陣;,pcov 輸出聯(lián)合協(xié)方差矩陣。,輸出結(jié)果:,(1)簡單統(tǒng)計(jì)量,(2)協(xié)方差矩陣,(3)協(xié)方差矩陣是否相等的檢驗(yàn),檢驗(yàn)結(jié)果不顯著(p=0.73410.1),即兩總體的協(xié)方差矩陣相等。,(4)類間距離的檢驗(yàn),檢驗(yàn)結(jié)果顯著(p=0.0007),兩總體間差異顯著。,(5)線性判別函數(shù),W
8、1(x) = -41.05361 0.74441 x1+100.24194 x2,+1.39795 x3 + 4.56860 x4+ 41.67557 x5,W2(x) = -30.81622 + 0.11215 x1 + 67.67498 x2,-0.28010 x3 +12.18045 x4+ 48.55509 x5,(6)樣品回判結(jié)果,(7)回判結(jié)果概要與誤判率,(8)交叉確認(rèn)回判結(jié)果概要與誤判率,協(xié)方差矩陣分別為1, 2, , k。類似兩總體距離判別,計(jì)算新樣品到各總體的馬氏距離, 距離最短者屬于響應(yīng)的總體。,三、多個(gè)總體的距離判斷 設(shè)有k個(gè)總體G1,G2, Gk, 均值向量分別為1,
9、2,.,k,任取兩個(gè)總體Gi, Gj, 考察x到Gi,Gj的馬氏距離的平方差,1. 總體協(xié)方差矩陣相等,其中:,這樣, 得到多總體在總體協(xié)方差矩陣相等時(shí)的距離判別準(zhǔn)則:若總體Gj0滿足,易見,則判定 x 屬于Gj0。,當(dāng)總體均值j和協(xié)方差矩陣未知時(shí),用樣本估計(jì)。設(shè),是來自總體Gj的樣本,均值和協(xié)方差矩陣的估計(jì)為,總體協(xié)方差矩陣j不全相等,計(jì)算x至各總體Gj的馬氏平方距離,記二次判別函數(shù),判別準(zhǔn)則:若總體Gj0滿足,則判定 x 屬于Gj0。,當(dāng)總體均值j和協(xié)方差矩陣j未知時(shí),用樣本估計(jì)。,其估計(jì)值為,對多總體的距離判別,同兩總體情況一樣,做出誤判率的回代估計(jì)及交叉確認(rèn)估計(jì)。,3.2 貝葉斯(Ba
10、yes)判別,Bayes統(tǒng)計(jì)思想是假定對研究對象已有一定的認(rèn)識,常用先驗(yàn)概率分布來描述這種認(rèn)識。然后取得一個(gè)樣本, 用樣本來修正已有的認(rèn)識(先驗(yàn)概率分布)得后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將Bayes統(tǒng)計(jì)思想用于判別分析就得到Bayes判別。,設(shè)有k個(gè)總體G1,G2,Gk分別具有p維密度函數(shù)f1(x), f2(x), ,fk(x),已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率為q1,q2,,qk(q1+q2+qk=1), 我們希望建立判別函數(shù)和判別規(guī)則。,用D1, D2, ,Dk表示p維歐氏空間P的一個(gè)劃分,即D1, D2,,Dk互不相交,且D1D2Dk=RP。如果這個(gè)劃分取得適當(dāng),正好對
11、應(yīng)于這k個(gè)總體,這時(shí)判別規(guī)則可以采用如下辦法:,設(shè)有k個(gè)總體G1,G2,Gk分別具有p維密度函數(shù)f1(x), f2(x), ,fk(x),已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率為q1,q2,,qk(q1+q2+qk=1), 我們希望建立判別函數(shù)和判別規(guī)則。,問題是如何獲得這個(gè)劃分?,xi 若x落入Di, i=1,2,k,用c(j|i)表示樣品來自i而誤判為j的損失,這一誤判的概率為,于是由判別規(guī)則所帶來的平均損失ECM(expected cost of miscalculation)為,我們總是定義c(i|i)=0。目的是求D1,D2,Dk使ECM達(dá)到最小 。,可以證明,定理3.1 在本節(jié)假定下,Bay
12、es判別解 D1,D2,Dk 為,其中,Dt= x|ht(x)hj(x), jt, j=1,2, k , t=1,2,k,例3.2 當(dāng)k=2時(shí),h1(x)=q2 f2(x)c(1|2),h2(x)=q1 f1(x)c(2|1),從而,D1=x|q2 f2(x)c(1|2),q1 f1(x)c(2|1) ,D2=x|q2 f2(x)c(1|2),q1 f1(x)c(2|1) ,h1(x)=q2 f2(x)c(1|2),h2(x)=q1 f1(x)c(2|1),從而,D1=x|q2 f2(x)c(1|2),q1 f1(x)c(2|1) ,D2=x|q2 f2(x)c(1|2),q1 f1(x)c(
13、2|1) ,若令判別函數(shù)為,V(x)=f1 (x)/f2(x),d=q2c(1|2)/q1c(2|1),則判別規(guī)則可表示為,例3.3 若f1(x)與f2(x)分別為p維正態(tài)分布Np(1, ), Np(2,)的密度函數(shù),此時(shí),V(x)=f1 (x)/f2(x),其中W(x)與距離判別的相同。則判別規(guī)則可表示為,當(dāng)q1=q2,c(1|2)=c(2|1),則d=1,lnd=0。此時(shí)即為距離判別。,定理5.1 在本節(jié)假定下,Bayes判別解 D1,D2,Dk 為,其中,實(shí)際中,損失c(j|i)不易給出,常取c(j|i)=1, ij。,Dt= x|ht(x)hj(x), jt, j=1,2, k , t
14、=1,2,k,推論 如果c(j|i)=1, ij,則Bayes解為,Dt= x|qtft(x)qjfj(x), jt, j=1,2, k , t=1,2,k,例如 設(shè)G1,Gk的分布為Np(1, ), Np(k,), 則,推論 如果c(j|i)=1, ij,則Bayes解為,Dt= x|qtft(x)qjfj(x), jt, j=1,2, k , t=1,2,k,例如 設(shè)G1,Gk的分布為Np(1, ), Np(k,), 則,其中線性判別函數(shù)Wi(x)為:,判別規(guī)則也可以寫為:,對協(xié)方差陣不同的情況有類似的結(jié)果。,標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時(shí),它屬于t的概率,記作(
15、t|x),這個(gè)概率作為樣品歸類的尺度,其概率意義更為直接。易見,判別規(guī)則為:,標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時(shí),它屬于t的概率,記作(t/x),這個(gè)概率作為樣品歸類的尺度,其概率意義更為直接。易見,或?qū)憺椋?例3.5 某城市環(huán)保監(jiān)測站在全市均勻地布置了14個(gè)監(jiān)測點(diǎn),測得污染元素含量數(shù)據(jù)如下表。污染情況分為三類:第一類為嚴(yán)重污染(6,8,9,13號監(jiān)測點(diǎn));第二類為一般污染(1,2,3,7,10,14號監(jiān)測點(diǎn));第三類為基本沒有污染(4,5,11,12號監(jiān)測點(diǎn))。該城市另有2個(gè)單位在同一期間測定了所在單位大氣中三種污染元素的含量(表中最后2行),試判斷這2個(gè)單位的污染情況
16、屬哪一類。 x1二氧化硫;x2氮氧化物;x3飄塵。,大氣污染數(shù)據(jù),data ex3_5; input group$ x1-x3; cards; 2 0.045 0.043 0.265 . 1 0.205 0.068 0.284 2 0.088 0.058 0.215 . 0.101 0.052 0.181 . 0.045 0.005 0.122 ; proc discrim pool=no distance simple list ; class group; var x1-x3; priors prop; /* 先驗(yàn)概率,prop為樣本頻率ni/n。*/ run;,輸出主要結(jié)果:,由此知,兩
17、單位被判為第二類,即屬于一般污染地區(qū)。,3.3 Fisher判別*,設(shè)從k個(gè)總體分別取得k組p維觀察值如下:,n=n1+n2+nk,令a為RP中的向量,U(x)=a x為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:,令a為RP中的向量,U(x)=a x為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:,正好組成單因素方差分析數(shù)據(jù),其組間平方和為,正好組成單因素方差分析數(shù)據(jù),其組間平方和為,組內(nèi)(誤差)平方和為,若k組均值有顯著差異,則,若k組均值有顯著差異,則,應(yīng)充分大,或,應(yīng)充分大。故我們可以求a使(a)達(dá)到極大。由特征根的極值性質(zhì)知,a為 |B-E|=0 (或E-1B)的最大特征根1對應(yīng)的特征
18、向量1。(1)=1稱為判別效率。第一線性判別函數(shù)為 u(x)= 1Tx,同理有第二線性判別函數(shù),,若存在唯一的i0使,則,否則再用第二、三等線性 判別函數(shù)。,例3.7 (胃癌的鑒別)有三個(gè)總體:胃癌、萎縮性胃炎和非胃炎患者。從每個(gè)總體中抽5個(gè)病人,每個(gè)病人化驗(yàn)4項(xiàng)生化指標(biāo):血清銅藍(lán)蛋白(x1)、藍(lán)色反應(yīng)(x2)、尿吲哚乙酸(x3)和中性硫化物(x4),數(shù)據(jù)如下表。試用Fisher方法建立判別準(zhǔn)則并對這15個(gè)樣品進(jìn)行判別歸類。,胃癌檢驗(yàn)的生化指標(biāo)值,data ex3_7; input group$ x1-x4; cards; 1 228 134 20 11 3 100 117 7 2 ; pro
19、c candisc data=ex3_7 out=c103 ncan=2 distance simple; class group; var x1-x4; run; proc discrim data=c103 distance list; class group; var can1 can2;run;,解 SAS程序如下:,說明: out=c103生成含原數(shù)據(jù)和典變量得分?jǐn)?shù)據(jù)集; ncan=2(p)選兩個(gè)典變量can1,can2.,類間距離的檢驗(yàn),2與3兩總體間差異不顯著。,樣品回判結(jié)果,3.4 逐步判別,與回歸分析一樣, 變量選擇是否恰當(dāng), 是判別效果成敗的關(guān)鍵。如果忽略了主要變量, 判別
20、效果一定不好。如果變量過多, 由于變量間的相關(guān)性, 判別效果也不一定好。一般開始選用較多的變量, 然后進(jìn)行篩選。篩選的方法有前進(jìn)法、后退法和逐步法。,逐步判別原理,為其樣本。n=n1+nk,設(shè)有k個(gè)總體G1,G2, ,Gk,GjNp(j,), j=1,2,k,逐步判別原理,為其樣本。n=n1+nk,設(shè)有k個(gè)總體G1,G2, ,Gk,GjNp(j,), j=1,2,k,分別為組內(nèi)離差矩陣和組間離差矩陣。,總離差矩陣為 W(0)=E(0)+B(0),記,從矩陣W(0)與E(0)開始,作所謂的消去變換,每一次消去變換,都是在上一次變換的基礎(chǔ)上進(jìn)行的。例如,假設(shè)對矩陣W(0)、E(0)已作了r 次消去變換而得到W(r)、E(r),則對W(r)和E(r)再作一次消去變換便得到W(r+1)及E(r+1)。矩陣W(r)與E(r)的元素以w(r)ij與e(r)ij表示。,W(0)=E(0)+B(0),在r+1 步要引進(jìn)變量xj時(shí),衡量該變量重要性的統(tǒng)計(jì)量叫維爾克斯(Wilks)統(tǒng)計(jì)量(越小越重要),檢驗(yàn)統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026湖北武漢市某國企寫字樓會務(wù)崗位招聘1人考試備考題庫及答案解析
- 2026江蘇南京大學(xué)圖書館倉儲人員招聘考試參考題庫及答案解析
- 2026中國礦業(yè)大學(xué)(北京)招聘9人考試備考題庫及答案解析
- 2026中國農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所食物營養(yǎng)與功能性食品創(chuàng)新團(tuán)隊(duì)招聘合同制科研助理考試備考題庫及答案解析
- 2026江西九江市彭澤縣紅光港管理服務(wù)中心招聘海關(guān)協(xié)管員3人考試備考題庫及答案解析
- 2026廣東深圳九州光電子技術(shù)有限公司招聘運(yùn)維工程師等崗位3人考試參考試題及答案解析
- 2025浙江杭州余杭水務(wù)有限公司招聘36人考試參考試題及答案解析
- 2026達(dá)州農(nóng)商銀行通川支行寒假實(shí)習(xí)生招聘考試參考試題及答案解析
- 2026廣西桂林市七星區(qū)編外聘用人員招聘2人考試參考試題及答案解析
- 2026日照銀行見習(xí)人員招聘10人考試備考題庫及答案解析
- 靜脈治療不良事件的警示教育講課件
- 膝關(guān)節(jié)針刀治療講課件
- 旋挖鉆機(jī)地基承載力驗(yàn)算2017.7
- 2025-2030中國金屬部分覆蓋膽道支架行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 抖音賬號合作合同協(xié)議書
- 衛(wèi)生間隔斷協(xié)議書
- 輪機(jī)管理題庫(助理管輪)
- 餐廳衛(wèi)生管理制度方案
- 浙江開放大學(xué)信息時(shí)代的生產(chǎn)技術(shù)作業(yè)題庫
- 豬場產(chǎn)房技術(shù)員述職報(bào)告
- 2025年獨(dú)家總經(jīng)銷權(quán)合同
評論
0/150
提交評論