第四章 判別分析_第1頁
第四章 判別分析_第2頁
第四章 判別分析_第3頁
第四章 判別分析_第4頁
第四章 判別分析_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章判別分析第一頁,共五十五頁,2022年,8月28日內(nèi)容和要求內(nèi)容:

判別分析簡介、基本原理、判別分析方法要求:1、熟悉判別分析基本原理。2、掌握常用的判別分析準(zhǔn)則。

3、能熟練使用軟件進(jìn)行判別分析,并能對判別結(jié)果作深入討論。

第二頁,共五十五頁,2022年,8月28日第一節(jié)判別分析簡介關(guān)于判別分析基本概念和基本原理第三頁,共五十五頁,2022年,8月28日一、什么是判別分析?判別分析是在已知分類情況的條件下根據(jù)一定的指標(biāo)對未知類別的數(shù)據(jù)進(jìn)行歸類的方法。判別分析在生物學(xué)、醫(yī)學(xué)、地質(zhì)學(xué)、石油、氣象等領(lǐng)域得到較為廣泛的應(yīng)用,在經(jīng)濟(jì)分析和市場研究中也是我們認(rèn)知事物的重要方法。舉例

第四頁,共五十五頁,2022年,8月28日例中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,選定4個經(jīng)濟(jì)指標(biāo):

X1總負(fù)債率(現(xiàn)金收益/總負(fù)債)

X2收益性指標(biāo)(純收入/總財產(chǎn))

X3短期支付能力(流動資產(chǎn)/流動負(fù)債)

X4生產(chǎn)效率性指標(biāo)(流動資產(chǎn)/純銷售額)對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進(jìn)行了調(diào)查,得如下資料:第五頁,共五十五頁,2022年,8月28日總負(fù)債率收益性指標(biāo)短期支付能力生產(chǎn)效率指標(biāo)類別-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532第六頁,共五十五頁,2022年,8月28日.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判第七頁,共五十五頁,2022年,8月28日.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判第八頁,共五十五頁,2022年,8月28日企業(yè)序號判別類型判別函數(shù)得分判別為1的概率判別為2的概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988第九頁,共五十五頁,2022年,8月28日

判別分析利用已知類別的樣本培訓(xùn)模型,為未知樣本判類的一種統(tǒng)計方法。它產(chǎn)生于本世紀(jì)30年代。近年來,在自然科學(xué)、社會學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。

判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點時,只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點所屬的類別。第十頁,共五十五頁,2022年,8月28日二、判別分析原理原理:判別分析是利用原有的分類信息,得到體現(xiàn)這種分類的函數(shù)關(guān)系式(即判別函數(shù),一般是與分類相關(guān)的若干個指標(biāo)的線性關(guān)系式),然后利用該函數(shù)去判斷未知樣品屬于哪一類要點:1、判別分析需要明確所研究樣本共有幾個類別2、判別分析需要從現(xiàn)有已知類別的樣本數(shù)據(jù)中提練出一個判別函數(shù)第十一頁,共五十五頁,2022年,8月28日三、常用判別方法距離判別法Fisher判別法貝葉斯判別法典型判別與逐步判別法第十二頁,共五十五頁,2022年,8月28日第二節(jié)距離判別法第十三頁,共五十五頁,2022年,8月28日一、基本思想由訓(xùn)練樣本得出每個分類的重心(中心)坐標(biāo),然后對新樣品求出它們離各個類別重心的距離遠(yuǎn)近,從而歸入離得最近的分類。最常用的距離是馬氏距離。第十四頁,共五十五頁,2022年,8月28日(一)馬氏距離

距離判別的最直觀的想法是計算樣品到第i類總體的平均數(shù)的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構(gòu)造一個恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。

第十五頁,共五十五頁,2022年,8月28日

設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個觀測值,則稱

為X與Y之間的Mahalanobis距離

樣本X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:

第十六頁,共五十五頁,2022年,8月28日

(二)兩個總體距離判別法

先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體和,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來指定判別規(guī)則,有:1、方差相等第十七頁,共五十五頁,2022年,8月28日第十八頁,共五十五頁,2022年,8月28日則前面的判別法則表示為

當(dāng)和已知時,

是一個已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來最方便,在實際中的應(yīng)用也最廣泛。常數(shù)項第十九頁,共五十五頁,2022年,8月28日

例4.1在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)。考核企業(yè)經(jīng)營狀況的指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?第二十頁,共五十五頁,2022年,8月28日變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90第二十一頁,共五十五頁,2022年,8月28日第二十二頁,共五十五頁,2022年,8月28日線性判別函數(shù):由此可以判斷第一個企業(yè)屬于優(yōu)秀企業(yè),第二個企業(yè)屬于一般企業(yè)第二十三頁,共五十五頁,2022年,8月28日

2、當(dāng)總體的協(xié)方差已知,且不相等第二十四頁,共五十五頁,2022年,8月28日

當(dāng)總體的方差未知時,應(yīng)該用樣本的協(xié)方差矩陣代替。步驟如下(假如兩個總體):(1)分別計算各組的離差矩陣S1和S2;

(2)計算(3)計算類的均值(4)計算(5)計算從而計算

(6)生成判別函數(shù),將檢驗樣本代入,得分,判類。第二十五頁,共五十五頁,2022年,8月28日

隨著計算機(jī)計算能力的增強(qiáng)和計算機(jī)的普及,距離判別法的判別函數(shù)也在逐步改進(jìn),一種等價的距離判別為:設(shè)有個K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,各總體出現(xiàn)的先驗概率相等。又設(shè)Y是一個待判樣品。則距離為(即判別函數(shù))(三)多總體的距離判別法

上式中的第一項Y’Σ-1Y與i無關(guān),則舍去,得一個等價的函數(shù)第二十六頁,共五十五頁,2022年,8月28日

將上式中提-2,得則距離判別法的判別函數(shù)為:判別規(guī)則為注:這與前面所提出的距離判別是等價的.第二十七頁,共五十五頁,2022年,8月28日(三)、判別分析效果檢驗良好的判別效果即是指所建立的判別函數(shù)具有相當(dāng)?shù)姆€(wěn)定性和準(zhǔn)確性,優(yōu)良的判別函數(shù)應(yīng)該是:一理論基礎(chǔ)穩(wěn)固,具有準(zhǔn)確判別的能力;二回代錯判率低;三具有良好的外部數(shù)據(jù)應(yīng)用性質(zhì)。由于判別分析是假設(shè)兩組或多組樣品取自不同總體,因此要求樣本各類型的均值向量在統(tǒng)計上具有顯著差異,如能反映出顯著差異,則判別函數(shù)顯著,有能力將不同的類型區(qū)別開來。第二十八頁,共五十五頁,2022年,8月28日所以對判別效果的檢驗即是對多元正態(tài)總體的均值向量是否相等進(jìn)行檢驗,利用HotellingT2統(tǒng)計量進(jìn)行檢驗?;卮侵笇⒂?xùn)練樣本依次代入判別函數(shù),檢查錯判情況,回代錯判率低即是指依訓(xùn)練樣本建立的判別函數(shù)偏差小,建立方法可靠。良好的外部應(yīng)用性質(zhì)是指該判別函數(shù)具有相當(dāng)程度的穩(wěn)定性,不僅適用于本訓(xùn)練樣本,而且在大多數(shù)情況下具有普遍應(yīng)用能力,這也正是我們建立判別函數(shù)想要達(dá)到的目的。第二十九頁,共五十五頁,2022年,8月28日為檢驗外部性,可采用的方法有:1.外部數(shù)據(jù)驗證法:即判別函數(shù)建立完成后,重新再收集一部分?jǐn)?shù)據(jù),用判別函數(shù)進(jìn)行判別,看錯判是否嚴(yán)重。這種驗證方法從理論上說較好,但再收集樣本數(shù)據(jù)不能用來建立判別函數(shù)有些浪費,而且很難保證兩個樣本具有同質(zhì)性。2.樣本二分法:是外部數(shù)據(jù)法的改進(jìn),采用隨機(jī)函數(shù)將所用樣本分為兩部分,一般是按2:1的比例拆分,多的部分用于建立判別函數(shù),剩下的用于驗證。這種做法可以保證驗證樣本和訓(xùn)練樣本的同質(zhì)性是最為理想的,但它要求樣本量較大,否則建立的判別函數(shù)不穩(wěn)定,白白浪費信息。第三十頁,共五十五頁,2022年,8月28日3.交互驗證:這是近年來逐漸發(fā)展起來的一種非常重要的判別效果驗證技術(shù)。它在樣本二分法的基礎(chǔ)上又大大前進(jìn)了一步,具體來說,就是在建立判別函數(shù)時依次去掉一例,然后用建立起來的判別函數(shù)對該例進(jìn)行判別,用這種方法可以非常有效地避免強(qiáng)影響點的干擾。在SPSS中已經(jīng)提供了交互驗證功能,可直接使用對話框操作。第三十一頁,共五十五頁,2022年,8月28日第三節(jié)

費歇爾(Fisher)判別法

該方法是Fisher,R.A等人在1936年提出的最優(yōu)判別準(zhǔn)則以及判別函數(shù)的求解法。最佳的判別函數(shù)應(yīng)該具有準(zhǔn)確區(qū)分不同類別的能力,根據(jù)方差分析的基本原理構(gòu)造判別函數(shù),該函數(shù)的確定可以使組內(nèi)的方差達(dá)到最小,而使組間的方差達(dá)到最大,由此構(gòu)造出求解條件,從而確定判別函數(shù)。根據(jù)該判別函數(shù)對待判樣本計算判別值,根據(jù)判別值與判別臨界值的相對位置進(jìn)行判別第三十二頁,共五十五頁,2022年,8月28日一、兩組Fisher判別法基本思想:從兩個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)或判別式,其中各系數(shù)的確定原則是使兩組間的區(qū)別最大,而使每個組內(nèi)部的離差最小。依據(jù)該判別式,求出新樣本的判別值并與臨界值相比較判別其類型。第三十三頁,共五十五頁,2022年,8月28日判別函數(shù)的導(dǎo)出。判別函數(shù)的一般形式:要確定該判別函數(shù)就是要確定各個系數(shù)ci的值。對于p元總體而言,線性判別函數(shù)一般是要確定該判別函數(shù)就是要確定各個系數(shù)ci的值。第三十四頁,共五十五頁,2022年,8月28日函數(shù)的導(dǎo)出:第三十五頁,共五十五頁,2022年,8月28日Fisher兩組判別的步驟:第三十六頁,共五十五頁,2022年,8月28日判別準(zhǔn)則第三十七頁,共五十五頁,2022年,8月28日例4.2利用例4.1數(shù)據(jù)對上例兩企業(yè)作兩組Fisher判別,寫出Fisher判別函數(shù),求出判別臨界值對待判樣品進(jìn)行判別,對訓(xùn)練樣本進(jìn)行回代判斷,對判別效果進(jìn)行評價。第三十八頁,共五十五頁,2022年,8月28日二、多個總體的Fisher判別法

(一)判別函數(shù)Fisher判別法實際上是致力于尋找一個最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù),設(shè)有個總體,分別有均值向量,,…,和協(xié)方差陣,分別各總體中得到樣品:第三十九頁,共五十五頁,2022年,8月28日第i個總體的樣本均值向量

綜合的樣本均值向量

第i個總體樣本組內(nèi)離差平方和

綜合的組內(nèi)離差平方和第四十頁,共五十五頁,2022年,8月28日組間離差平方和第四十一頁,共五十五頁,2022年,8月28日如果判別分析是有效的,則所有的樣品的線性組合滿足組內(nèi)離差平方和小,而組間離差平方和大。則而所對應(yīng)的特征向量即。Fisher樣品判別函數(shù)是

第四十二頁,共五十五頁,2022年,8月28日

然而,如果組數(shù)k太大,討論的指標(biāo)太多,則一個判別函數(shù)是不夠的,這時需要尋找第二個,甚至第三個線性判別函數(shù)其特征向量構(gòu)成第二個判別函數(shù)的系數(shù)。類推得到m(m<k)個線性函數(shù)。第四十三頁,共五十五頁,2022年,8月28日關(guān)于需要幾個判別函數(shù)得問題,需要累計判別效率達(dá)到85%以上,即有設(shè)為B相對于E得特征根,則第四十四頁,共五十五頁,2022年,8月28日

以m個線性判別函數(shù)得到的函數(shù)值為新的變量,再進(jìn)行距離判別。判別規(guī)則:設(shè)Yi(X)為第i個線性判別函數(shù),,則第四十五頁,共五十五頁,2022年,8月28日

辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人?第四節(jié)貝葉斯判別法一、標(biāo)準(zhǔn)的Bayes判別第四十六頁,共五十五頁,2022年,8月28日第四十七頁,共五十五頁,2022年,8月28日

距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應(yīng)用也更廣泛。貝葉斯公式是一個我們熟知的公式

第四十八頁,共五十五頁,2022年,8月28日

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。第四十九頁,共五十五頁,2022年,8月28日二、考慮錯判損失的Bayes判別分析

設(shè)有總體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論