多元統(tǒng)計(jì)課件:判別分析_第1頁
多元統(tǒng)計(jì)課件:判別分析_第2頁
多元統(tǒng)計(jì)課件:判別分析_第3頁
多元統(tǒng)計(jì)課件:判別分析_第4頁
多元統(tǒng)計(jì)課件:判別分析_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

??§4.1§4.2判別分析判別分析的基本思想

距離判別??§4.3

Bayes判別

§4.4

Fisher判別??§4.5§4.6逐步判別判別分析應(yīng)用的幾個(gè)例子1判別分析?

本章介紹的判別分析來解決被解釋變量是非度量

變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解

釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為

什么某人是或者不是消費(fèi)者,一家公司成功還是

破產(chǎn)等。?

判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別的

情況下有著廣泛的應(yīng)用。潛在的應(yīng)用包括預(yù)測(cè)新

產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、

按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種

類、或者預(yù)測(cè)一個(gè)公司是否成功。在每種情況下,

將對(duì)象進(jìn)行分組,并且要求使用這兩種方法中的

一種可以通過人們選擇的解釋變量來預(yù)測(cè)或者解

釋每個(gè)對(duì)象的所屬類別。2目錄

上頁

下頁

返回

結(jié)束§4.1判別分析的基本思想??????有時(shí)會(huì)遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問

題,這時(shí)需要選擇一種合適的分析方法。比如,我們希望區(qū)

分好和差的信用風(fēng)險(xiǎn)。如果有信用風(fēng)險(xiǎn)的度量指標(biāo),就可以

使用多元回歸。但我們可能僅能判斷某人是在好的或者差的

一類,這就不是多元回歸分析所要求的度量類型。當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分

析是合適的統(tǒng)計(jì)分析方法。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以

上時(shí),稱作多組判別分析(Multiple

discriminant

analysis)。

判別分析的假設(shè)條件判別分析最基本的要求是,分組類型在兩組以上;在第一階段

工作是每組個(gè)案的規(guī)模必須至少在一個(gè)以上。解釋變量必須

是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)

用于統(tǒng)計(jì)函數(shù)。3目錄

上頁

下頁

返回

結(jié)束判別分析的假設(shè)之一,是每一個(gè)判別變量(解釋變量)不

能是其他判別變量的線性組合。即不存在多重共線性問題。

判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判

別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們

是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假

設(shè)條件下,可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行

顯著性檢驗(yàn)。判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分

布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。

在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概

率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。4目錄

上頁

下頁

返回

結(jié)束§4.24.2.1

兩總體情況距離判別5目錄

上頁

下頁

返回

結(jié)束§4.2距離判別6目錄

上頁

下頁

返回

結(jié)束§4.2距離判別7目錄

上頁

下頁

返回

結(jié)束§4.2距離判別8目錄

上頁

下頁

返回

結(jié)束§4.2距離判別9目錄

上頁

下頁

返回

結(jié)束§4.24.2.2

多總體情況1.

協(xié)差陣相同距離判別10目錄

上頁

下頁

返回

結(jié)束§4.2距離判別2.

協(xié)差陣不相同11目錄

上頁

下頁

返回

結(jié)束§4.2距離判別12目錄

上頁

下頁

返回

結(jié)束§4.2距離判別13目錄

上頁

下頁

返回

結(jié)束§4.3

Bayes判別貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究的

對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來描述這

種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來修正已

有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,

各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將貝葉

斯思想用于判別分析,就得到貝葉斯判別。14目錄

上頁

下頁

返回

結(jié)束§4.3

Bayes判別15目錄

上頁

下頁

返回

結(jié)束§4.4

Fisher判別16目錄

上頁

下頁

返回

結(jié)束§4.4

Fisher判別17目錄

上頁

下頁

返回

結(jié)束§4.4

Fisher判別18目錄

上頁

下頁

返回

結(jié)束§4.4

Fisher判別19目錄

上頁

下頁

返回

結(jié)束§4.4

Fisher判別20目錄

上頁

下頁

返回

結(jié)束§4.5逐步判別在多元回歸中熟知,變量選擇的好壞直接影響回歸的效果,

而在判別分析中也有類似的問題。如果在某個(gè)判別問題中,

將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果

一定不好。但是在許多問題中,事先并不十分清楚哪些指

標(biāo)是主要的,這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算

才好呢?理論和實(shí)踐證明,指標(biāo)太多了,不僅帶來大量的

計(jì)算,同時(shí)許多對(duì)判別無作用的指標(biāo)反而會(huì)干擾了我們的

視線。因此適當(dāng)篩選變量的問題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通

常的判別分析一樣,逐步判別也有許多不同的原則,從而

產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見[1]所討

論指標(biāo)的附加信息檢驗(yàn)。21目錄

上頁

下頁

返回

結(jié)束§4.5逐步判別的原則逐步判別22目錄

上頁

下頁

返回

結(jié)束§4.5逐步判別23目錄

上頁

下頁

返回

結(jié)束§4.5逐步判別(ⅳ)這時(shí)既不能選進(jìn)新變量,又不能剔除

已選進(jìn)的變量,將已選中的變量建立判別函

數(shù)。目錄

上頁

下頁

返回

結(jié)束24§4.6

判別分析應(yīng)用的幾個(gè)例子

判別分析的邏輯框圖如下:25目錄

上頁

下頁

返回

結(jié)束圖4.1判別分析步驟框圖目錄

上頁

下頁

返回

結(jié)束26?

下面用SPSS軟件中的

Discriminant模塊來實(shí)現(xiàn)判別分

析。定義新的變量y為被解釋變量,用“1”代表Setosa鳶尾花,用

“2”代表Versicolor鳶尾花,用“3”代表Virginica鳶尾花,將萼片

長(zhǎng)(sepal

length)、萼片寬(sepal

width)、花瓣長(zhǎng)(petal

length)

和花瓣寬(petal

width)四個(gè)變量作為解釋變量。使用SPSS軟件中的Analyze→Classify→Discriminant,就進(jìn)入

了判別分析的對(duì)話框。分組變量(Grouping

Variable)選擇y,然后定

義其區(qū)域,最小值是1,最大值是3。解釋變量(Independents)選擇

sepal.length,sepal.width,petal.length和petal.width。?

保存(Save)選項(xiàng)中可以選擇預(yù)測(cè)的分類、判別得分以及所

屬類別的概率。如果采用逐步判別法,我們還可以選擇判

別的方法(Method)。得到分析結(jié)果如下(見輸出結(jié)果4—1)

。?輸出結(jié)果4—1分析的是各組的描述統(tǒng)計(jì)量和對(duì)各組均值是否相等的檢驗(yàn)。第1張表

反映的是有效樣本量及變量缺失的情況。第2張表是各組變量的描述統(tǒng)計(jì)分析。第

3張表是對(duì)各組均值是否相等的檢驗(yàn)。由第3張表可以看出,在0.01的顯著性水平上

我們拒絕變量萼片長(zhǎng)(sepal

length)、萼片寬(sepal

width)、花瓣長(zhǎng)(petal

length)和

花瓣寬(petal

width)在三組的均值相等的假設(shè),即認(rèn)為變量萼片長(zhǎng)(sepal

length)、

萼片寬(sepal

width)、花瓣長(zhǎng)(petal

length)和花瓣寬(petal

width)在三組的均值是

有顯著差異的。?

輸出結(jié)果4—2是對(duì)各組協(xié)方差矩陣是否相等的Box’s

M檢

驗(yàn)。第1張表反映協(xié)方差矩陣的秩和行列式的對(duì)數(shù)值。由

行列式值可以看出,協(xié)方差矩陣不是病態(tài)矩陣。第2張表是

對(duì)各總體協(xié)方差陣是否相等的統(tǒng)計(jì)檢驗(yàn)。由F值及其顯著

水平,我們?cè)?.05的顯著性水平下拒絕原假設(shè)(原假設(shè)假定

各總體協(xié)方差陣相等)。因此,在分類(Classify)選項(xiàng)中的協(xié)

方差矩陣選擇可以考慮采用Separate-groups,以檢驗(yàn)采用

Within-groups和Separate-groups兩種協(xié)方差所得出的結(jié)

果是否存在顯著差異。如果存在顯著差異,就應(yīng)該采用

Separate-groups協(xié)方差矩陣;反之,就用Within-groups協(xié)方

差矩陣。*

*

**

*

*?

輸出結(jié)果4—4顯示的是判別函數(shù)、判別載荷和各組的重心。第1張表

是標(biāo)準(zhǔn)化的判別函數(shù),表示為:y1=-0.427Sepal.Length

-0.521Sepal.Width

+0.947Petal.Length

+0.575Petal.Width*?y2=0.012Sepal.Length

+0.735Sepal.Width

-0.401Petal.Length

+0.581Petal.Width*?

這里*表示標(biāo)準(zhǔn)化變量,標(biāo)準(zhǔn)化變量的系數(shù)也就是前面講的判別權(quán)重。

第2張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出,

哪些解釋變量對(duì)判別函數(shù)的貢獻(xiàn)較大。第3張表是非標(biāo)準(zhǔn)化的判別函

數(shù),表示為:y1=-2.105-0.829Sepal.Length-1.534Sepal.Width+2.201Petal.Length+2.810Petal.Width

y2=-6.661+0.024Sepal.Length+2.165Sepal.Width-0.932Petal.Length+2.839Petal.Width?

我們可以根據(jù)這個(gè)判別函數(shù)計(jì)算每個(gè)觀測(cè)的判別Z得分。

第4張表是反映判別函數(shù)在各組的重心。根據(jù)結(jié)果,判別函

數(shù)在y=1這一組的重心為(-7.608,0.215),在y=2這一組的

重心為(1.825,-0.728),在y=3這一組的重心為

(5.783,0.513)。這樣,我們就可以根據(jù)每個(gè)觀測(cè)的判別Z

得分對(duì)觀測(cè)進(jìn)行分類。39?輸出結(jié)果4—5是分類的統(tǒng)計(jì)結(jié)果。第1張表概括了分類過程,說明150

個(gè)觀測(cè)都參與分類。第2張表說明各組的先驗(yàn)概率,我們?cè)贑lassify選

項(xiàng)中選擇的是所有組的先驗(yàn)概率相等。第3張表是每組的分類函數(shù)(區(qū)

別于判別函數(shù)),也稱費(fèi)歇線性判別函數(shù),由表中的結(jié)果可以說明:?

y=1這一組的分類函數(shù)是?

f1=-86.308+23.544Sepal.Length+23.588Sepal.Width?

-16.431Petal.Length-17.398Petal.Width?

y=2這組的分類函數(shù)是?

f2=-72.853+15.698Sepal.Length+7.073Sepal.Width?

+5.211Petal.Length+6.434Petal.Width?

y=3這組的分類函數(shù)是?

f3=-104.368+12.446Sepal.Length+3.685Sepal.Width?

+12.767Petal.Length+21.079Petal.Width?

我們可以計(jì)算出每個(gè)觀測(cè)在各組的分類函數(shù)值,然后將觀測(cè)分類到

較大的分類函數(shù)值中。第4張表是分類矩陣表。Predicted

Group

Membership表示預(yù)測(cè)的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)

系,Cross-validated表示交叉驗(yàn)證的所屬組關(guān)系,這里交叉驗(yàn)證是采用“

留一個(gè)在外”的原則,即每個(gè)觀測(cè)是通過除了這個(gè)觀測(cè)以外的其他觀測(cè)

推導(dǎo)出來的判別函數(shù)來分類的。由第4張表可以看出,通過判別函數(shù)預(yù)

測(cè),有147個(gè)觀測(cè)是分類正確的,其中,y=1組50個(gè)觀測(cè)全部被判對(duì),y=2組

50個(gè)觀測(cè)中有48個(gè)觀測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中有49個(gè)觀測(cè)被判對(duì),

從而有147/150=98%的原始觀測(cè)被判對(duì)。在交叉驗(yàn)證中,y=1組50個(gè)觀

測(cè)全部被判對(duì),y=2組50個(gè)觀測(cè)中有48個(gè)觀測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中

有49個(gè)觀測(cè)被判對(duì),從而交叉驗(yàn)證有147/150=98%的原始觀測(cè)被判對(duì)

。還可以通過分類結(jié)果分析判對(duì)和判錯(cuò)的百分比。最后為分類結(jié)果圖,

從圖中可以看到,Setosa鳶尾花與Versicolor鳶尾花和Virginica鳶尾花

可以很清晰地區(qū)分開,而Versicolor鳶尾花和Virginica鳶尾花這兩種之

間存在重合區(qū)域,即存在誤判。?

我們還可以通過保存(Save)選項(xiàng)選擇預(yù)測(cè)的類別關(guān)系和判別得分等

,對(duì)觀測(cè)進(jìn)行診斷。?

由前面分析發(fā)現(xiàn),協(xié)方差矩陣不等,可以考慮采用Separate-groups

協(xié)方差矩陣。選擇Separate-groups協(xié)方差矩陣,其他選擇同上,得到分

類結(jié)果如下(見輸出結(jié)果4—6)。由輸出結(jié)果4—6的表(1)可以看出,通過判別函數(shù)預(yù)測(cè),有146個(gè)觀測(cè)是

分類正確的,其中,y=1組50個(gè)觀測(cè)全部被判對(duì),y=2組50個(gè)觀測(cè)中有47個(gè)觀

測(cè)被判對(duì),y=3組50個(gè)觀測(cè)中有49個(gè)觀測(cè)被判對(duì),從而有146/150=97.3%的

原始觀測(cè)被判對(duì)。輸出結(jié)果4—6(2)為分類結(jié)果圖,從圖中可以看到,Setosa鳶尾花與

Versicolor鳶尾花和Virginica鳶尾花可以很清晰地區(qū)分開,而Versicolor

鳶尾花和Virginica鳶尾花這兩種之間存在重合區(qū)域,即存在誤判。????例4—2距離判別案例。為了研究2012年全國各地區(qū)農(nóng)村居民家庭

人均消費(fèi)支出情況,按人均收入、人均GDP以及消費(fèi)支出將29個(gè)

省、直轄市、自治區(qū)(除福建和陜西以外)分為三種類型,設(shè)置

Group變量取值分別為1,2,3。試建立判別函數(shù),判定福建、陜西

分別屬于哪個(gè)消費(fèi)水平類型。判別指標(biāo)及原始數(shù)據(jù)如表4—1所

示。(見書105頁)距離判別法無法在SPSS中直接實(shí)現(xiàn),用R軟件可以運(yùn)行,參見參考

文獻(xiàn)[11]。解:本例中組數(shù)k=3,判別指標(biāo)p=8,各組中樣本為:n1=5,n2=13,n3=11,待判樣品個(gè)數(shù)為2。

?16.63

47.51

14.73

13.67

-19.15-4.24

-12.94

-40.50-1.48

13.67

-4.49

150.71

-7.74

11.18

-53.22

-22.70-2.22

-12.94

-1.93

-53.22

-13.57

-18.99

53.46

-4.82?

總體協(xié)方差陣的逆矩陣:∑

=

8.56

6.63

5.42

-1.48

-0.45

-11.59

-2.22

-7.19

5.42

14.73

51.26

-4.49

-21.81

-19.12

-1.93

-12.01

-0.45

-19.15

-21.81

-7.74

49.96

14.99

-13.57

6.11

-11.59

-4.24

-19.12

11.18

14.99

38.95

-18.99

-12.95

-7.19

-40.50

-12.01

-22.70

6.11

-12.95

-4.82

198.48

×

10?648??將原29個(gè)樣品的回判結(jié)果列于表4—2,兩個(gè)待判樣品的判別結(jié)果列于

表4—3。福建省應(yīng)判歸第一類消費(fèi)水平,陜西省歸入第三類消費(fèi)水平

為宜。本例的回判準(zhǔn)確率高,回判正確率為89.66%,說明各地區(qū)農(nóng)村居

民的消費(fèi)水平劃分為三種類型是合適的。由于SPSS中的判別分析沒

有距離判別這一方法,因此距離判別法無法在SPSS中直接實(shí)現(xiàn),本書是

用R軟件程序?qū)崿F(xiàn)的,距離判別程序略。結(jié)果見書106-107頁x1人均糧食支出(元/人)x5人均衣著支出(元/人)x2人均副食支出(元/人)x6人均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論