《多元統(tǒng)計(jì)分析》(第6版)課件 第4章 判別分析_第1頁(yè)
《多元統(tǒng)計(jì)分析》(第6版)課件 第4章 判別分析_第2頁(yè)
《多元統(tǒng)計(jì)分析》(第6版)課件 第4章 判別分析_第3頁(yè)
《多元統(tǒng)計(jì)分析》(第6版)課件 第4章 判別分析_第4頁(yè)
《多元統(tǒng)計(jì)分析》(第6版)課件 第4章 判別分析_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心1§4.1判別分析的基本思想§4.2距離判別§4.3Bayes判別§4.4Fisher判別§4.5逐步判別§4.6判別分析應(yīng)用的幾個(gè)例子第4章判別分析

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2目錄上頁(yè)下頁(yè)返回結(jié)束第4章判別分析

本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費(fèi)者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別的情況下有著廣泛的應(yīng)用。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心3目錄上頁(yè)下頁(yè)返回結(jié)束第4章判別分析

潛在的應(yīng)用包括預(yù)測(cè)新產(chǎn)品的成功或失敗決定一個(gè)學(xué)生是否被錄取按職業(yè)興趣對(duì)學(xué)生分組確定某人信用風(fēng)險(xiǎn)的種類預(yù)測(cè)一個(gè)公司是否成功2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心4目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本思想

有時(shí)會(huì)遇到被解釋變量是屬性變量而解釋變量是度量變量的問題,就需要選擇一種合適的分析方法。比如,我們希望區(qū)分好和差的信用風(fēng)險(xiǎn)。如果有信用風(fēng)險(xiǎn)的度量指標(biāo),就可以使用多元回歸。但我們可能僅能判斷某人是在好的或者差的一類,這就不是多元回歸分析所要求的度量類型。當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本思想

判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析(Multiplediscriminantanalysis)。判別分析的假設(shè)條件判別分析最基本的要求是:分組類型在兩組以上;在第一階段工作是每組個(gè)案的規(guī)模必須至少在一個(gè)以上。解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6目錄上頁(yè)下頁(yè)返回結(jié)束判別分析的假設(shè)一:每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。假設(shè)二:各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。

§4.1判別分析的基本思想

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心7目錄上頁(yè)下頁(yè)返回結(jié)束假設(shè)三:是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確?!?.1判別分析的基本思想

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心8§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

在距離判別中,由樣品估計(jì)出各個(gè)總體(類)的均值和協(xié)方差陣,以待判樣品到各總體(類)的距離大小作為待判樣品的歸屬依據(jù),故這種判別方法不要求上述假設(shè)二和假設(shè)三成立。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心9§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束4.2.1兩總體情況

設(shè)有兩個(gè)總體G1和G2,x是一個(gè)p維樣品,若能定義樣品到總體G1和G2的距離d(x,G1)和d(x,G2),則可用如下的規(guī)則進(jìn)行判別:

若樣品x到總體G1的距離小于到總體G2的距離,則認(rèn)為樣品x屬于總體G1;

反之,則認(rèn)為樣品x屬于總體G2;

若樣品x到總體G1和G2的距離相等,則待判。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10目錄上頁(yè)下頁(yè)返回結(jié)束§4.2距離判別

這個(gè)準(zhǔn)則的數(shù)學(xué)模型可描述如下:

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心11目錄上頁(yè)下頁(yè)返回結(jié)束§4.2距離判別

這里,μ1,

μ2,Σ1,Σ2分別為總體G1和G2的均值和協(xié)方差陣。當(dāng)總體不是正態(tài)總體時(shí),有時(shí)也可以用馬氏距離來描述x到總體的遠(yuǎn)近。

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心12§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

于是判別規(guī)則可表示為:2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心13§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心14§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心15§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心16§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心17§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束2.協(xié)差陣不相同

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心18§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

判別規(guī)則為:2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心19§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心20§4.3Bayes判別

目錄上頁(yè)下頁(yè)返回結(jié)束

貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。

設(shè)有k個(gè)總體G1,G2,…,Gk,分別具有p維密度函數(shù)p1(x),p2(x),…,pk(x),已知出現(xiàn)這k個(gè)總體的先驗(yàn)分布為q1,q2,…,qk,我們希望建立判別函數(shù)和判別規(guī)則。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心21§4.3Bayes判別

目錄上頁(yè)下頁(yè)返回結(jié)束用D1,D2,…,Dk表示Rp的一個(gè)劃分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=Rp。如果這個(gè)劃分取得適當(dāng),正好對(duì)應(yīng)于k個(gè)總體,這時(shí)判別規(guī)則可以表示為:

x∈Gi,x落入Di,i=1,2,…,k問題是如何獲得這個(gè)劃分。用c(j|i)表示樣品來自Gi而誤判為Gj的損失,這一誤判的概率為:

p(j|i)=∫Djpi(x)dx于是由以上判別規(guī)則,所帶來的平均損失2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心22§4.3Bayes判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心23§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心24§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束

令a為Rp中的任一向量,u(x)=a'x為x向以a為法線方向的投影,這時(shí),上述數(shù)據(jù)的投影為:

它正好組成一元方差分析的數(shù)據(jù),其組間平方和為:2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心25§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心26§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束

|B-λE|=02025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心27§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束的最大特征根.設(shè)l1,l2,…,lr為相應(yīng)的特征向量,當(dāng)a=l1時(shí),可使Δ(·)達(dá)到最大。由于Δ(a)的大小可衡量判別函數(shù)u(x)=a'x的效果,故稱Δ(a)為判別效率。

綜上所述,得到如下定理。

定理4.1費(fèi)歇準(zhǔn)則下的線性判別函數(shù)u(x)=a'x的解a為方程|B-λE|=0的最大特征根λ1所對(duì)應(yīng)的特征向量l1,且相應(yīng)的判別效率為Δ(l1)=λ1。

在有些問題中,僅用一個(gè)線性判別函數(shù)不能很好地區(qū)分各個(gè)總體,可取λ2對(duì)應(yīng)的特征向量l2,建立第二個(gè)判別函數(shù)l'2x。如還不夠,可建立第三個(gè)線性判別函數(shù)l'3x,依此類推。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心28§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束

迄今為止,我們僅僅給出了費(fèi)歇準(zhǔn)則下的判別函數(shù),沒有給出判別規(guī)則。前面曾講過,在費(fèi)歇準(zhǔn)則下的判別函數(shù)并不唯一,若u(x)=l'x為判別函數(shù),則au(x)+β為與u(x)

具有相同判別效率的判別函數(shù)。不唯一性對(duì)于制定判別規(guī)則并沒有妨礙,我們可從中任取一個(gè)。一旦選定了判別函數(shù),根據(jù)它就可以確定判別規(guī)則。

關(guān)于費(fèi)歇判別具體的性質(zhì)、詳細(xì)的數(shù)學(xué)證明及推導(dǎo)可參見參考文獻(xiàn)[2]。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心29§4.5逐步判別

目錄上頁(yè)下頁(yè)返回結(jié)束

在多元回歸中,變量選擇的好壞直接影響回歸的效果,而在判別分析中也有類似的問題。如果在某個(gè)判別問題中,忽略了最主要的指標(biāo),由此建立的判別函數(shù)效果一定不好。但是,在許多問題中,事先并不十分清楚哪些指標(biāo)是主要的。這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算才好呢?理論和實(shí)踐證明,指標(biāo)太多,不僅帶來大量的計(jì)算,而且許多對(duì)判別無作用的指標(biāo)反而會(huì)產(chǎn)生干擾而影響判別效果,有時(shí)還會(huì)增加錯(cuò)判次數(shù)。

因此,適當(dāng)篩選變量就成為一件很重要的事情。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心30§4.5逐步判別

目錄上頁(yè)下頁(yè)返回結(jié)束

凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見參考文獻(xiàn)[1][2]所討論指標(biāo)的附加信息檢驗(yàn)。

逐步判別的原則為:

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心31§4.5逐步判別

目錄上頁(yè)下頁(yè)返回結(jié)束落入接受域,如果不顯著,則表明一個(gè)變量也選不中,不能用判別分析;如果顯著,則進(jìn)入下一步。(2)在未選中的變量中,計(jì)算它們與已選中的變量x1配合的Λ值。選擇使Λ1·i(2≤i≤m)

達(dá)到最小的變量作為第二個(gè)變量。這樣,如已選中了r個(gè)變量,不妨設(shè)為x1,x2,…,xr,則在未選中的變量中逐次選一個(gè)與它們配合,計(jì)算Λ1,2,…,r·l(r<l≤m),選擇使其達(dá)到極小的變量作為第r+1個(gè)變量,并檢驗(yàn)新選的第r+1個(gè)變量能否提供附加信息,如果不能則轉(zhuǎn)入(4),否則轉(zhuǎn)入(3)。(3)在已選中的r個(gè)變量中,要考慮較早選的變量其重要性2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心32§4.5逐步判別

目錄上頁(yè)下頁(yè)返回結(jié)束有沒有較大的變化,應(yīng)及時(shí)剔除不能提供附加信息的變量。剔除的原則等同于引進(jìn)的原則。例如在已進(jìn)入的r個(gè)變量中要考察xl(1≤l≤r)是否應(yīng)剔除,就是計(jì)算Λl·1,…,l-1,l+1,…,r,選擇達(dá)到極小(大)的l,看是否顯著,如不顯著則將該變量剔除,繼續(xù)考察余下的變量是否需要剔除,如顯著則回到(2)。(4)這時(shí)既不能選入新變量,又不能剔除已選中的變量,利用已選中的變量建立判別函數(shù)。有關(guān)逐步判別的計(jì)算方法和案例可參見參考文獻(xiàn)[1][2]。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心33§4.6判別分析應(yīng)用的幾個(gè)例子

目錄上頁(yè)下頁(yè)返回結(jié)束判別分析的邏輯框圖如下:

2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心34目錄上頁(yè)下頁(yè)返回結(jié)束圖4.1判別分析步驟框圖

§4.6判別分析應(yīng)用的幾個(gè)例子

下面用SPSS軟件中的Discriminant模塊來實(shí)現(xiàn)判別分析§4.6判別分析應(yīng)用的幾個(gè)例子

定義新的變量y為被解釋變量,用“1”代表Setosa鳶尾花,用“2”代表Versicolor鳶尾花,用“3”代表Virginica鳶尾花,將萼片長(zhǎng)(sepallength)、萼片寬(sepalwidth)、花瓣長(zhǎng)(petallength)和花瓣寬(petalwidth)四個(gè)變量作為解釋變量。使用SPSS軟件中的Analyze→Classify→Discriminant,就進(jìn)入了判別分析的對(duì)話框。分組變量(GroupingVariable)選擇y,然后定義其區(qū)域,最小值是1,最大值是3。解釋變量(Independents)選擇sepal.length,sepal.width,petal.length和petal.width?!?.6判別分析應(yīng)用的幾個(gè)例子

保存(Save)選項(xiàng)中可以選擇預(yù)測(cè)的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Method)。得到分析結(jié)果如下(見輸出結(jié)果4-1)。

輸出結(jié)果4—1分析的是各組的描述統(tǒng)計(jì)量和對(duì)各組均值是否相等的檢驗(yàn)。第1張表反映的是有效樣本量及變量缺失的情況。第2張表是各組變量的描述統(tǒng)計(jì)分析。第3張表是對(duì)各組均值是否相等的檢驗(yàn)。由第3張表可以看出,在0.01的顯著性水平上我們拒絕變量萼片長(zhǎng)(sepallength)、萼片寬§4.6判別分析應(yīng)用的幾個(gè)例子

(sepalwidth)、花瓣長(zhǎng)(petallength)和花瓣寬(petalwidth)在三組的均值相等的假設(shè),即認(rèn)為變量萼片長(zhǎng)(sepallength)、萼片寬(sepalwidth)、花瓣長(zhǎng)(petallength)和花瓣寬(petalwidth)在三組的均值是有顯著差異的。§4.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

輸出結(jié)果4-2是對(duì)各組協(xié)方差矩陣是否相等的Box’sM檢驗(yàn)。第1張表反映協(xié)方差矩陣的秩和行列式的對(duì)數(shù)值。它顯示各協(xié)方差陣的秩均為4,為滿秩矩陣。由行列式的對(duì)數(shù)值可以看出,協(xié)方差矩陣不是病態(tài)矩陣。第2張表是對(duì)各總體協(xié)方差陣是否相等的統(tǒng)計(jì)檢驗(yàn)。由F值及其顯著性水平,我們?cè)?.05的顯著性水平下拒絕原假設(shè)(原假設(shè)假定各總體協(xié)方差陣相等)。因此,在分類(Classify)選項(xiàng)中的協(xié)方差矩陣選擇可以考慮采用Separate-groups,以檢驗(yàn)采用Within-groups和Separate-groups兩種協(xié)方差所得出§4.6判別分析應(yīng)用的幾個(gè)例子

出的結(jié)果是否存在顯著差異。如果存在顯著差異,就應(yīng)該采用Separate-groups協(xié)方差矩陣;反之,則采用Within-groups協(xié)方差矩陣。

下面是費(fèi)歇判別分析結(jié)果。輸出結(jié)果4-3分析的是典型判別函數(shù)?!?.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

第1張表反映判別函數(shù)的特征根、解釋方差的比例和典型相關(guān)系數(shù)。第一判別函數(shù)解釋了99.1%的方差,第二判別函數(shù)解釋了0.9%的方差,兩個(gè)判別函數(shù)解釋了全部方差。第2張表是對(duì)兩個(gè)判別函數(shù)的顯著性檢驗(yàn)。由WilksLambda檢驗(yàn),認(rèn)為兩個(gè)判別函數(shù)在0.05的顯著性水平下是顯著的。§4.6判別分析應(yīng)用的幾個(gè)例子

輸出結(jié)果4-4顯示的是判別函數(shù)、判別載荷和各組的重心

第1張表是標(biāo)準(zhǔn)化的判別函數(shù),表示為:y1=-0.427sepal.length*-0.521sepal.width*+0.947petal.length*+0.575petal.width*y2=0.012sepal.length*+0.735sepal.width*-0.401petal.length*+0.581petal.width*

這里*表示標(biāo)準(zhǔn)化變量,標(biāo)準(zhǔn)化變量的系數(shù)也就是前面所講的判別權(quán)重?!?.6判別分析應(yīng)用的幾個(gè)例子

第2張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出,哪些解釋變量對(duì)判別函數(shù)的貢獻(xiàn)較大。§4.6判別分析應(yīng)用的幾個(gè)例子

第3張表是非標(biāo)準(zhǔn)化的判別函數(shù),表示為:y1=-2.105-0.829sepal.length-1.534sepal.width+2.201petal.length+2.810petal.widthy2=-6.661+0.024sepal.length+2.165sepal.width-0.932petal.length+2.839petal.width我們可以根據(jù)這個(gè)判別函數(shù)計(jì)算每個(gè)觀測(cè)的判別Z得分。

第4張表是反映判別函數(shù)在各組的重心。根據(jù)結(jié)果,判別函數(shù)在y=1這一組的重心為(-7.608,0.215),在y=2這一組的重心為(1.825,-0.728),在y=3這一組的重心為(5.783,0.513)。這樣,我們就可以根據(jù)每個(gè)觀測(cè)的判別Z得分對(duì)觀測(cè)進(jìn)行分類?!?.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

下面是基于先驗(yàn)概率的貝葉斯判別結(jié)果。輸出結(jié)果4-5是分類的統(tǒng)計(jì)結(jié)果。第1張表概括了分類過程,說明150個(gè)觀測(cè)都參與分類?!?.6判別分析應(yīng)用的幾個(gè)例子

第2張表說明各組的先驗(yàn)概率,我們?cè)贑lassify選項(xiàng)中選擇的是所有組的先驗(yàn)概率相等?!?.6判別分析應(yīng)用的幾個(gè)例子

第3張表是每組的分類函數(shù)(區(qū)別于典型判別函數(shù)),也稱費(fèi)歇線性判別函數(shù).

由表中的結(jié)果可以說明:y=1這組的分類函數(shù)是

f1=-86.308+23.544sepal.length+23.588sepal.width-16.431petal.length-17.398petal.width§4.6判別分析應(yīng)用的幾個(gè)例子

y=2這組的分類函數(shù)是

f2=-72.853+15.698sepal.length+7.073sepal.width+5.211petal.length+6.434petal.widthy=3這組的分類函數(shù)是

f3=-104.368+12.446sepal.length+3.685sepal.width+12.767petal.length+21.079petal.width

我們可以計(jì)算出每個(gè)觀測(cè)在各組的分類函數(shù)值,然后將觀測(cè)分類到較大的分類函數(shù)值中。§4.6判別分析應(yīng)用的幾個(gè)例子

第4張表是分類矩陣表?!?.6判別分析應(yīng)用的幾個(gè)例子

PredictedGroupMembership表示預(yù)測(cè)的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗(yàn)證的所屬組關(guān)系,這里交叉驗(yàn)證是采用“留一個(gè)在外”的原則,即每個(gè)觀測(cè)是通過除了這個(gè)觀測(cè)以外的其他觀測(cè)推導(dǎo)出的判別函數(shù)來分類的。由第4張表可以看出,通過判別函數(shù)預(yù)測(cè),有147個(gè)觀測(cè)是分類正確的,其中,y=1組50個(gè)觀測(cè)全部被判對(duì),y=2組50個(gè)觀測(cè)中有48個(gè)觀測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中有49個(gè)觀測(cè)被判對(duì),從而有147/150=98%的原始觀測(cè)被判對(duì)?!?.6判別分析應(yīng)用的幾個(gè)例子

在交叉驗(yàn)證中,y=1組50個(gè)觀測(cè)全部被判對(duì),y=2組50個(gè)觀測(cè)中有48個(gè)觀測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中有49個(gè)觀測(cè)被判對(duì),從而交叉驗(yàn)證有147/150=98%的原始觀測(cè)被判對(duì)。還可以通過分類結(jié)果分析判對(duì)和判錯(cuò)的百分比。最后為分類結(jié)果圖(見圖4-2),可以看到,Setosa鳶尾花與Versicolor鳶尾花和Virginica鳶尾花可以很清晰地區(qū)分開,而Versicolor鳶尾花和Virginica鳶尾花這兩種之間存在重合區(qū)域,即存在誤判?!?.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

我們還可以通過保存(Save)選項(xiàng)選擇預(yù)測(cè)的類別關(guān)系和判別得分等,對(duì)觀測(cè)進(jìn)行診斷。

由前面分析發(fā)現(xiàn),協(xié)方差矩陣不等,可以考慮采用Separate-groups協(xié)方差矩陣。選擇Separate-groups協(xié)方差矩陣,其他選擇同上,得到分類結(jié)果如下(見輸出結(jié)果4-6和圖4-3)?!?.6判別分析應(yīng)用的幾個(gè)例子

由輸出結(jié)果4-6中的表可以看出,通過判別函數(shù)預(yù)測(cè),有146個(gè)觀測(cè)是分類正確的,其中,y=1組50個(gè)觀測(cè)全部被判對(duì),y=2組50個(gè)觀測(cè)中有47個(gè)觀測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中有49個(gè)觀測(cè)被判對(duì),從而有146/150=97.3%的原始觀測(cè)被判對(duì)?!?.6判別分析應(yīng)用的幾個(gè)例子

§4.6判別分析應(yīng)用的幾個(gè)例子

圖4-3為分類結(jié)果圖,可以看到,Setosa鳶尾花與Versicolor鳶尾花和Virginica鳶尾花可以很清晰地區(qū)分開,而Versicolor鳶尾花和Virginica鳶尾花這兩種之間存在重合區(qū)域,即存在誤判。

由輸出結(jié)果4-6可以看出,采用Separate-groups協(xié)方差矩陣與采用Within-groups協(xié)方差矩陣的預(yù)測(cè)效果沒有明顯的差別,因此,可以采用Within-groups協(xié)方差矩陣來進(jìn)行判別。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心63§4.6判別分析應(yīng)用的幾個(gè)例子

聯(lián)合國(guó)開發(fā)計(jì)劃署發(fā)表的2016年人類發(fā)展報(bào)告中公布了世界大部分國(guó)家和地區(qū)的人類發(fā)展指數(shù),并將人類發(fā)展水平劃分為極高、高、中等和低四個(gè)等級(jí),本例分別用1,2,3,4來表示這四個(gè)等級(jí)。人類發(fā)展指數(shù)是基于出生時(shí)預(yù)期壽命(歲)、預(yù)期受教育年限(年)、平均受教育年限(年)和人均國(guó)民總收入(國(guó)際元/人)指標(biāo)計(jì)算得到的?,F(xiàn)采用這四個(gè)指標(biāo)作為判別指標(biāo),并選取報(bào)告中公布了人類發(fā)展水平等級(jí)的20個(gè)國(guó)家和地區(qū)(未選擇人類發(fā)展水平低的國(guó)家),試圖建立判別函數(shù),然后判定中國(guó)內(nèi)地和中國(guó)香港分別屬于哪個(gè)等級(jí)。判別指標(biāo)的原始數(shù)據(jù)及已有的相應(yīng)分類如表4-1所示例4-22025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心64§4.6判別分析應(yīng)用的幾個(gè)例子

序號(hào)國(guó)家和地區(qū)出生時(shí)預(yù)期壽命(X1)預(yù)期受教育年限(X2)平均受教育年限(X3)人均國(guó)民總收入(X4)等級(jí)1挪威81.717.712.76761412瑞士83.116.013.45636413美國(guó)79.216.513.25324514英國(guó)80.816.313.33793115韓國(guó)82.116.612.23454116意大利83.316.310.93357317烏拉圭77.415.58.61914828馬來西亞74.913.110.12462029巴拿馬77.813.09.919470210土耳其75.514.67.918705211墨西哥77.013.38.616383212巴西74.715.27.814145213秘魯74.813.49.011295214泰國(guó)74.613.67.914519215印度尼西亞69.112.97.910053316巴勒斯坦73.112.88.95256317菲律賓68.311.79.38395318南非57.713.010.312087319印度68.311.76.35663320巴基斯坦66.4

8.15.1503131中國(guó)香港84.215.711.654265

2中國(guó)內(nèi)地76.013.57.613345

表4-1

2015年人類發(fā)展水平數(shù)據(jù)2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心65§4.6判別分析應(yīng)用的幾個(gè)例子

本例中組數(shù)k=3,判別指標(biāo)p=4,各類中樣本量分別為n1=6,n2=8,n3=6,待判樣品個(gè)數(shù)為2。計(jì)算總體協(xié)方差陣的估計(jì)矩陣的逆為

由于SPSS中的判別分析沒有距離判別這一方法,因此距離判別法無法在SPSS中直接實(shí)現(xiàn),我們使用R語言編程,分別計(jì)算每個(gè)樣品到G1,G2,G3類的馬氏距離,然后2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心66§4.6判別分析應(yīng)用的幾個(gè)例子

比較3個(gè)距離的大小并將其歸入距離最小的類。20個(gè)國(guó)家和地區(qū)的回判結(jié)果以及中國(guó)內(nèi)地和中國(guó)香港兩個(gè)待判樣品的判別結(jié)果如表4-2所示。由表4-2可知,中國(guó)內(nèi)地被判為第2類,屬于高人類發(fā)展水平,中國(guó)香港被判為第1類,屬于極高人類發(fā)展水平,與人類發(fā)展報(bào)告公布的結(jié)果一致,而且回判的誤判率為0,說明本例使用距離判別法建立的判別函數(shù)是有效的。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心67§4.6判別分析應(yīng)用的幾個(gè)例子

國(guó)家和地區(qū)原類別最小距離及歸類正誤判標(biāo)志(正=0;誤=1)挪威17.79710瑞士12.49410美國(guó)11.13110英國(guó)12.53410韓國(guó)12.58110意大利13.48810烏拉圭22.12620馬來西亞22.87120巴拿馬23.18920土耳其21.29120墨西哥20.47020巴西22.85520秘魯21.18220泰國(guó)20.74520印度尼西亞31.55530巴勒斯坦35.89130菲律賓31.71630南非311.39930印度31.92230巴基斯坦310.76430中國(guó)香港待判3.0753091

中國(guó)內(nèi)地待判0.7925182

表4-2所有樣品的判別結(jié)果這里順便指出,回判的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時(shí)參考。2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心68§4.6判別分析應(yīng)用的幾個(gè)例子

從系統(tǒng)聚類法的譜系圖圖3-18、圖3-19和圖3-20可知,若將2022年全國(guó)31個(gè)省、自治區(qū)、直轄市城鎮(zhèn)居民的人均消費(fèi)支出水平劃分為2類,則北京和上海為一類,其余地區(qū)為一類?,F(xiàn)將廣東和西藏作為待判樣品,具體分類數(shù)據(jù)如表4-3所示。

試建立費(fèi)歇線性判別函數(shù),并將廣東和西藏兩個(gè)待判省區(qū)歸類。例4-32025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心69§4.6判別分析應(yīng)用的幾個(gè)例子

X1食品煙酒支出X2衣著支出X3居住支出X4生活用品及服務(wù)支出X5交通通信支出X6教育文化娛樂支出X7醫(yī)療保健支出X8其他用品及服務(wù)支出地區(qū)X1X2X3X4X5X6X7X8Group北京9644.51977.418604.82322.54260.53271.54304.01231.71天津9873.91759.88175.41926.84164.42839.93811.61271.72河北7104.41641.06374.31625.13139.22211.92338.8636.62山西6006.81555.24943.11354.82647.12371.32442.2602.02內(nèi)蒙古7208.42003.66008.11561.34233.52534.42340.7777.02遼寧8426.51781.25677.41539.03188.52712.32466.4861.02吉林6406.01497.54829.31139.52776.82238.22377.5570.12黑龍江7240.61636.15099.61167.22884.72490.52798.9693.42上海12880.31763.518298.72211.84611.93313.73719.31311.51江蘇9967.62022.410983.42198.05281.13284.12839.11220.02浙江12105.62465.511890.12685.26791.14237.72864.51471.42安徽8924.91762.36078.81631.12910.02877.81933.6713.92福建11144.81768.610679.11913.53949.13375.72064.3797.02江西8102.11440.95828.01580.63319.32909.22185.7609.72山東7702.81987.66354.62220.93966.83332.42339.6650.32河南6681.01637.25357.11509.82916.82597.82220.1619.62湖北8783.61771.16586.01628.23834.73265.32538.4713.62湖南8443.51894.66031.61924.54069.34006.02562.0648.62廣西7172.3905.34760.41250.43032.72791.12097.0428.82海南9656.8914.46663.71145.83375.12564.01615.0482.82重慶10100.92190.65841.82030.33745.23139.92697.9827.22四川9358.51764.55557.51806.43467.22638.52343.1701.62貴州7572.51673.44352.11513.83786.12906.11876.2549.82云南8090.51469.26029.01478.33258.32699.72610.2604.72陜西6796.51554.55701.01638.43031.02566.02832.4646.12表4-3

2022年31個(gè)地區(qū)城鎮(zhèn)居民人均消費(fèi)水平劃分?jǐn)?shù)據(jù)單位:元2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心70§4.6判別分析應(yīng)用的幾個(gè)例子

地區(qū)X1X2X3X4X5X6X7X8Group甘肅7530.31759.46006.01523.93334.82470.52005.1577.12青海7187.71532.34457.61253.43028.01527.42156.1557.82寧夏6943.81720.34734.41600.43330.42833.32481.2569.52新疆7811.41615.34438.01407.93137.01947.62773.61011.52廣東12129.81381.49925.71905.84888.53747.82019.2937.8

西藏9109.22663.56171.52164.24614.01411.81342.0789.2

續(xù)表

在SPSS中進(jìn)行費(fèi)歇判別分析是十分快捷的。

首先按照表4-3把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點(diǎn)擊Analyze→Classify→Discriminant,打開DiscriminantAnalysis對(duì)話框,將對(duì)話框左側(cè)變量列表中的Group選入GroupingVariable框,并點(diǎn)擊DefineRange,在彈出的2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心71§4.6判別分析應(yīng)用的幾個(gè)例子

DiscriminantAnalysis:DefineRange對(duì)話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1,在Maximum處輸入2,點(diǎn)擊Continue返回DiscriminantAnalysis對(duì)話框。再?gòu)膶?duì)話框左側(cè)的變量列表中將8個(gè)變量選入Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點(diǎn)擊Statistics,彈出DiscriminantAnalysis:Statistics對(duì)話框,在Descriptives欄中選Means項(xiàng),要求對(duì)各組的各變量做均值與標(biāo)準(zhǔn)差的描述;在FunctionCoefficients欄中選Unstandardized項(xiàng)(注意,不是Fisher’s項(xiàng)),要求顯示費(fèi)歇2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心72§4.6判別分析應(yīng)用的幾個(gè)例子

判別法建立的非標(biāo)準(zhǔn)化系數(shù)。之后,點(diǎn)擊Continue返回DiscriminantAnalysis對(duì)話框。點(diǎn)擊Save,彈出DiscriminantAnalysis:Save對(duì)話框,選Predictedgroupmembership項(xiàng)要求將回判的結(jié)果存入原始數(shù)據(jù)庫(kù)中。點(diǎn)擊Continue返回DiscriminantAnalysis對(duì)話框,其他項(xiàng)目不變,點(diǎn)擊OK即完成分析。

分析結(jié)果如輸出結(jié)果4-7所示,可以看到各組均值、標(biāo)準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計(jì)結(jié)果以及判別函數(shù)。回判結(jié)果如表4-4所示,可以看到判別結(jié)果已經(jīng)作為一個(gè)新的變量被保存,廣東和西藏均被劃分為第二類.2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心73§4.6判別分析應(yīng)用的幾個(gè)例子

另外,根據(jù)原29個(gè)地區(qū)的回判結(jié)果可知,沒有出現(xiàn)誤判,回判準(zhǔn)確率很高。GroupMeanStd.DeviationValidN(listwise)UnweightedWeighted1X19042.6001374.898422.000X22238.900571.483722.000X312672.000769.332222.000X42189.600454.528222.000X54762.700445.760122.000X64294.100338.562722.000X72734.850148.563122.000X81121.35027.223622.000輸出結(jié)果4-7

GroupStatistics2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心74§4.6判別分析應(yīng)用的幾個(gè)例子

2X16219.3371161.92612727.000X21705.056367.54292727.000X34265.4851035.99502727.000X41308.322212.29772727.000X52920.152669.68012727.000X62419.000414.39122727.000X71624.448351.98212727.000X8519.670139.21622727.000TotalX16414.0451360.59902929.000X21741.872395.03832929.000X34845.2452391.12022929.000X41369.100317.61392929.000X53047.224805.79722929.000X62548.317630.37352929.000X71701.028444.77782929.000X8561.166205.17892929.0002025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心75§4.6判別分析應(yīng)用的幾個(gè)例子

GroupX1X2X3X4X5X6X7X81X11890345.680-785732.0401057753.600-624930.160-612874.880465489.360204259.220-37429.700X2-785732.040326593.620-439660.800259755.480254744.640-193483.080-84901.41015557.850X31057753.600-439660.800591872.000-349683.200-342937.600260467.200114294.400-20944.000X4-624930.160259755.480-349683.200206595.920202610.560-153886.320-67526.14012373.900X5-612874.880254744.640-342937.600202610.560198702.080-150917.760-66223.52012135.200X6465489.360-193483.080260467.200-153886.320-150917.760114624.72050297.940-9216.900X7204259.220-84901.410114294.400-67526.140-66223.52050297.94022071.005-4044.425X8-37429.70015557.850-20944.00012373.90012135.200-9216.900-4044.425741.1252X11350072.16757475.636882691.851118834.795465123.658203424.077-6737.91974307.576X257475.636135087.78078701.83255496.80998760.67266431.36882062.52240168.093X3882691.85178701.8321073285.663108681.785542771.720256115.86518761.12378143.489X4118834.79555496.809108681.78545070.29672511.11347391.94329208.02420927.284X5465123.65898760.672542771.72072511.113448471.480198259.05077587.62863622.064X6203424.07766431.368256115.86547391.943198259.050171720.10539397.23330159.471X7-6737.91982062.52218761.12329208.02477587.62839397.233123891.40029826.198X874307.57640168.09378143.48920927.28463622.06430159.47129826.19819381.161TotalX11851229.534125539.7732435775.633253491.037755957.827557575.820209520.657180630.839X2125539.773156055.241355825.94292096.830166218.451121345.905112590.17459215.394X32435775.633355825.9425717455.923581111.9291521838.3441295406.319642277.517408185.179X4253491.03792096.830581111.929100878.587182554.321148405.11889787.56955137.127X5755957.827166218.4511521838.344182554.321649309.083408471.254205742.499133237.237X6557575.820121345.9051295406.319148405.118408471.254397370.784176845.244102704.757X7209520.657112590.174642277.51789787.569205742.499176845.244197827.28871982.018X8180630.83959215.394408185.17955137.127133237.237102704.75771982.01842098.375CovarianceMatricesa

a.Thetotalcovariancematrixhas28degreesoffreedom.2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心76§4.6判別分析應(yīng)用的幾個(gè)例子

Function

1

X1-.000639X2-.001325X3.001545X4.001959X5-.001496X6.000341X7.001173X8.002039(Constant)-3.212915CanonicalDiscriminantFunctionCoefficientsUnstandardizedcoefficients2025/12/15中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心77§4.6判別分析應(yīng)用的幾個(gè)例子

地區(qū)X1X2X3X4X5X6X7X8GroupDis_1北京9644.51977.418604.82322.54260.53271.54304

1231.711天津9873.91759.88175.41926.84164.42839.93811.61271.722河北7104.41641

6374.31625.13139.22211.92338.8636.622山西6006.81555.24943.11354.82647.12371.32442.2602

22內(nèi)蒙古7208.42003.66008.11561.34233.52534.42340.7777

22遼寧8426.51781.25677.41539

3188.52712.32466.4861

22吉林6406

1497.54829.31139.52776.82238.22377.5570.122黑龍江7240.61636.15099.61167.22884.72490.52798.9693.422上海12880.31763.518298.72211.84611.93313.73719.31311.511江蘇9967.62022.410983.42198

5281.13284.12839.11220

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論