SAS統(tǒng)計(jì)之第十二章判別_第1頁
SAS統(tǒng)計(jì)之第十二章判別_第2頁
SAS統(tǒng)計(jì)之第十二章判別_第3頁
SAS統(tǒng)計(jì)之第十二章判別_第4頁
SAS統(tǒng)計(jì)之第十二章判別_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二節(jié) 貝葉斯判別分析第一節(jié) 距離判別分析第十二章第十二章 判別分析判別分析Chap.II Discrimination Analysis第三節(jié) 逐步判別分析第四節(jié) Logistic判別分析第十二章第十二章 判別分析判別分析Chap.II Discrimination Analysisl 判別分析是一種應(yīng)用樣本的數(shù)值特征來將樣本劃入若干個(gè)已知的類別中的某一類的統(tǒng)計(jì)分析方法。l 現(xiàn)實(shí)生活中,判別問題經(jīng)常遇到: 醫(yī)生根據(jù)某人的癥狀和生化指標(biāo)來判斷是得病還是健康;氣象學(xué)家根據(jù)天氣資料判斷明天是晴天、陰天、刮風(fēng)和下雨;考古學(xué)家根據(jù)出土的文物來判斷它所處的歷史時(shí)期;根據(jù)冬天的氣象條件判斷來年的病蟲害發(fā)生

2、情況;法國學(xué)者通過對葡萄形態(tài)的測量來判斷葡萄的品種;還可以通過DNA鑒定某個(gè)人所屬的家族;第十二章第十二章 判別分析判別分析Chap.II Discrimination Analysisl 與聚類分析不同之處是: 聚類分析之前,我們對“所研究的事例(或樣品)應(yīng)如 何分類”、“某一個(gè)事例(或樣品)屬于那一類”等問 題是并不知曉; 但在進(jìn)行判別分析之前,必須有足夠數(shù)量的樣品(或 事例),并對它們歸屬于那一類有相當(dāng)正確的認(rèn)識。 l 判別分析的作用在于將某個(gè)樣品歸到正確的類別。l 做法是:根據(jù)掌握的分類資料建立一個(gè)較優(yōu)的判別函數(shù),使判錯(cuò)率最小,將欲判定的樣品值代入判別函數(shù),從而判定它屬于已知類別中的哪

3、一類。第一節(jié)第一節(jié) 距離判別分析方法距離判別分析方法Distance Discrimination Analysisl距離判別分析的基本思路: 計(jì)算樣品到給定類別的距離,把它劃歸到距離最 近的類別l設(shè)X,Y是從均值向量為,協(xié)方差陣為的總體G中抽取的兩個(gè)樣品,定義X,Y之間的馬氏距離平方為:l 定義X,與總體G之間的馬氏距離平方為:21(,)()()dX GXX21(, )()()dX YXYXY第一節(jié)第一節(jié) 距離判別分析方法距離判別分析方法Distance Discrimination Analysisl 設(shè)有k個(gè)已知的類別(記為G1,G2,Gk),各類的 平均數(shù)分別為 1, 2, , k,方

4、差協(xié)方差矩陣為1,2, , k。欲將某個(gè)樣品x歸入到這 k 類中的一類, 其判別函數(shù)為馬氏距離,判別準(zhǔn)則為xGj,當(dāng)d (x,Gj )Min d (x,Gi ) 其中Min是對 i 1,2,k 類的距離求極小值; d (x,Gi )(x )i1(x )1/2。計(jì)算時(shí)用 作 i 的估計(jì)值,用 Si 作i的估計(jì)值。ixixix第一節(jié)第一節(jié) 距離判別分析方法距離判別分析方法Distance Discrimination Analysisl 距離判別法的計(jì)算步驟:第一步、計(jì)算出 k 個(gè)類別的方差協(xié)方差矩陣及其逆陣。第二步、計(jì)算出各訓(xùn)練樣本到這 k 個(gè)類別的馬氏距離, 比較這 k 個(gè)距離,把訓(xùn)練樣本歸到

5、距離最短的類中。第三步、計(jì)算第二步中的錯(cuò)判率。如果錯(cuò)判率太大, 說明要么原來的分類不可靠;要么是盡管原來的分 類是對的,但用距離判別得不到精確的結(jié)果。第四步、如果還有新的待判樣本,計(jì)算各個(gè)新樣本到 這 k 個(gè)類別的馬氏距離,比較 k 個(gè)距離,把各個(gè)新樣 本歸到距離最短的類中。第二節(jié)第二節(jié) 貝葉斯判別分析方法貝葉斯判別分析方法Bayes Discrimination Analysisl 貝葉斯判別分析:考慮到各個(gè)樣本出現(xiàn)在不同類別中的概率大小不同和樣本判錯(cuò)以后造成的損失。l 設(shè)有k個(gè)已知的類別(記為G1,G2,Gk),它們具 有概率分布函數(shù) f1(x),f2(x),fk(x)。又設(shè)某一樣 品x(

6、x1,x2,xm)屬于各個(gè)類別的概率分別為q1, q2,qk。如果將某種劃分方式記為 R R1,R2,Rk, 于是判別規(guī)則為: xGi,當(dāng)x落在R i (i 1,2,k)第二節(jié)第二節(jié) 貝葉斯判別分析方法貝葉斯判別分析方法Bayes Discrimination Analysisl 貝葉斯判別分析的基本思路:l 如果已知將原應(yīng)屬于Gi的樣品誤判為屬于Gj所造成 的損失為 C ( j | i ), 造成這種誤判的可能性為概率 P(j | i, R), 則按這種劃分方式把原應(yīng)屬于Gi的樣品 誤判為屬于其它類別的平均損失為 ri (R ) kjRijPijC1),|()|(其中C (i | i) 0,

7、即不誤判時(shí)損失為0。 g (R ) (i, j1, 2, , k)l 因?yàn)闃悠穢來自Gi的先驗(yàn)概率為qi,所以通過這 種劃分方式進(jìn)行判別的總平均損失為 kikjiRijPijCq11),|()|( 貝葉斯判別法的 目的是尋找一種劃分 方式 R 使總的平均損 失g (R )達(dá)到最小。第二節(jié)第二節(jié) 貝葉斯判別分析方法貝葉斯判別分析方法Bayes Discrimination Analysisl 統(tǒng)計(jì)學(xué)已證明:如果總體服從正態(tài)分布,并且各類 別的方差協(xié)方差矩陣為12k時(shí), 可以推導(dǎo)出對于樣品x的判別函數(shù)為 yijx1(i j)(i j)1(i j)/2 其中i,j1, 2, k 且 i j。計(jì)算時(shí)以

8、合并的樣本方 差協(xié)方差矩陣S(Q1Q2Qk)/(nk)作為總體 的估計(jì);n n1n2nk為全部訓(xùn)練樣本的數(shù) 目;Q1,Q2,Qk為各類的類內(nèi)離均差平方和。 l 判別準(zhǔn)則為: xGi,當(dāng)yijlog(qj/qi) ( j1, 2, k 且 i j ) l 即如果所有 i j 的 yij 都大于log(qj/qi)時(shí),應(yīng)將該樣 本歸入第 i 類。第二節(jié)第二節(jié) 貝葉斯判別分析方法貝葉斯判別分析方法Bayes Discrimination Analysisl 貝葉斯判別法的計(jì)算步驟:第一步、計(jì)算訓(xùn)練樣本數(shù)據(jù)中各類的平均數(shù)向量;第二步、計(jì)算訓(xùn)練樣本數(shù)據(jù)中各類的離均差平方和矩 陣; 第三步、將各類的離均差

9、平方和矩陣相加得合并的離 均差平方和矩陣,用合并的離均差平方和矩陣除以 合并自由度 (nk) 得到方差協(xié)方差矩陣,并求出方 差協(xié)方差矩陣的逆陣; 第四步、求判別函數(shù)表達(dá)式。將所有訓(xùn)練樣本回代進(jìn) 去,判別歸類,進(jìn)行檢驗(yàn);第五步、如果有待判數(shù)據(jù),將其代入,并判別歸類。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 與多元回歸分析相似,在進(jìn)行判別分析時(shí),并不是 變量越多越好。有些變量對于類別的劃分有重要的 意義,但有些變量卻對判別分類起了干擾的作用, 把它們引進(jìn)到分析中,反而使分類之后的類內(nèi)差異 增大。因此,仿照逐步回歸分析的思路,也

10、開發(fā)了 一種逐步判別分析方法。l 逐步判別分析逐步判別分析:對進(jìn)行判別分析的變量逐步進(jìn)行優(yōu) 劣選擇的方法。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 逐步判別分析的基本思路:l 設(shè)有k個(gè)已知的類別(記為G1,G2,Gk),它們分 別服從平均向量為 1, 2, , k,方差協(xié)方差矩陣為的m元正態(tài)分布。現(xiàn)在從它們中抽出大小分別為 n1, n2, , nk 的樣本。如果要使判別有意義,那么1, 2, , k之間應(yīng)該有顯著的差異。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analy

11、sisl 按此思路,可以在m個(gè)變量中,先引進(jìn)可以使分類 結(jié)果的類間差異最顯著的變量。又以此變量為基礎(chǔ), 引進(jìn)第二個(gè)可以使分類結(jié)果的類間差異更顯著的變 量。再看看已有的變量中,是否可以剔除某個(gè)變量, 使利用剩余的變量進(jìn)行判別的分類結(jié)果的類間差異 更為顯著。如果有,便將它剔除。然后再考慮是否 可以再引進(jìn),再剔除,再引進(jìn),直至不能再剔除, 也不能再引進(jìn)為止。 l 使用最終選定的變量,建立判別函數(shù)(通常采用貝 葉斯判別法的判別函數(shù)),按判別函數(shù)值的大小來 對訓(xùn)練樣本和待判樣本進(jìn)行判別歸類。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl

12、對變量進(jìn)行剔除和引進(jìn)的方法lWilks 統(tǒng)計(jì)量 |Qw| |Qw| |QhQe| |Qt| 其中分子是類內(nèi)離均差平方和矩陣的行列式,分母 是總離均差平方和矩陣的行列式。Qw(w表示類內(nèi) within group),Qt (t表示總的 total)。 l 使設(shè)含 p 個(gè)變量時(shí)的 Wilks 統(tǒng)計(jì)量為p,增加一個(gè)變 量 (xr) 后的 Wilks 統(tǒng)計(jì)量為 p+1,可以很容易在未作 出判別結(jié)果之前算出這兩個(gè)的比值。利用這個(gè)比值, 可以進(jìn)行測驗(yàn)。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 在含p1個(gè)變量的模型中,類內(nèi)離均差平方和矩

13、陣: Qw rrrprrprpppprprpwwwwwwwwwwwwwwww2121222221111211l 使其中虛線左上部分便是只含 p 個(gè)變量的模型中的 類內(nèi)離均差平方和矩陣Q ,而整個(gè)矩陣則是含p1 個(gè)變量的模型中的類內(nèi)離均差平方和矩陣Q 。)1(pw)( pwl 統(tǒng)計(jì)學(xué)已經(jīng)證明:|Q |Q | wrr 。)1(pw)( pw第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 在含p1個(gè)變量的模型中,總的離均差平方和矩陣: Q t rrrprrprpppprprptttttttttttttttt21212222211112

14、11l 使其中虛線左上部分便是只含 p 個(gè)變量的模型中的 總的離均差平方和矩陣Q ,而整個(gè)矩陣則是含p1 個(gè)變量的模型中的總的離均差平方和矩陣Q 。)1(pt)( ptl 統(tǒng)計(jì)學(xué)也已證明:|Q |Q | trr 。)1(pt)( pt第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 記wrr/trr 為Vr 可見 Vr 是在原模型的基礎(chǔ)上加進(jìn)變量 xr 之后,的 增長率。我們稱 Vr 為部分值或偏 值。 l 用 F 測驗(yàn)可以檢驗(yàn)增長是否顯著。11111|pwppppttwpppwpwtptpptwrrrrrppwtrrrrQQQQ

15、QQQQQQwwVQQtt第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 為了對偏值進(jìn)行統(tǒng)計(jì)測驗(yàn),應(yīng)先指定一個(gè)考察能 否將一個(gè)新變量引進(jìn)模型的F值(稱引進(jìn)F限)和一個(gè) 考察能否將一個(gè)變量從模型中剔除的F值(稱剔除F 限)。然后計(jì)算統(tǒng)計(jì)量 當(dāng) F 值大于引進(jìn) F 限時(shí)即可將變量引進(jìn)模型; 當(dāng) F 值小于剔除 F 限時(shí)即可將變量從模型剔除。 ) 1()(1 kkpnVVFrrl F 值的自由度:df1k 1,df2n pk。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysis

16、l 經(jīng)剛才的 F 測驗(yàn)僅僅表明某個(gè)變量是否可以引進(jìn)或 刪除,但引進(jìn)或刪除后得到的新模型是否能使類間 差異顯著地大于類內(nèi)差異呢?還需進(jìn)行測驗(yàn)。如果 差異顯著,說明分類有效;否則,用該模型分類無 效。l “模型是否有效”可以用單向分類資料的多元方差分 析 F 測驗(yàn)進(jìn)行檢驗(yàn)。l F 測驗(yàn):先利用關(guān)系p+1pVr算出新模型的, 計(jì)算轉(zhuǎn)換的 F 值、df1、df2,將算得的F 值進(jìn)行檢驗(yàn)。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 經(jīng)過一次剔選后,模型中的變量不同了,因而離均 差平方和矩陣也改變了。如果記原來的矩陣為Qw和 陣Qt,經(jīng)一步轉(zhuǎn)換后的矩陣為 Qw 和Qt,那么,兩 步中矩陣元素的轉(zhuǎn)換公式為: l 對于tij也有相應(yīng)的關(guān)系。wij rrrjirijrrirrrrjrrwwwwwwwww/1當(dāng) ir,jr時(shí)當(dāng) ir,jr時(shí)當(dāng) ir,jr時(shí)當(dāng) ir,jr時(shí)l 又以這兩個(gè)矩陣為基礎(chǔ),進(jìn)行下一步的剔選。第三節(jié)第三節(jié) 逐步判別分析方法逐步判別分析方法Stepwise Discrimination Analysisl 用最后選定的變量,構(gòu)構(gòu)造判別函數(shù),l 如果還有新的待判樣本,也對它們進(jìn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論