版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、,第六章,判別分析,(Discriminant Analysis),第一節(jié) 什么是判別分析 第二節(jié) 距離判別(jisuan) 第三節(jié) 貝葉斯判別 第四節(jié) 費(fèi)歇判別(計(jì)算) 第五節(jié) 逐步判別,第一節(jié) 什么是判別分析,判別分析是判別樣品所屬類型的一種統(tǒng)計(jì)方法。 它產(chǎn)生于本世紀(jì)30年代。近年來,在自然科學(xué)、社會(huì)學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。,例如:政府根據(jù)反映當(dāng)前宏觀經(jīng)濟(jì)運(yùn)行狀況的各種經(jīng)濟(jì)指標(biāo)來判斷當(dāng)前宏觀經(jīng)濟(jì)的運(yùn)行是正常還是過熱或者過冷; 又如:在考古學(xué)中,根據(jù)發(fā)掘出來的人類頭蓋骨的高、寬等特征來判斷其性別是男性還是女性。,判別分析的基本思想(簡答),把這類問題用數(shù)學(xué)語言加以表達(dá),可以這樣敘述
2、:,判別分析和聚類分析的區(qū)別與聯(lián)系(簡答),判別分析是在已知有多少類以及都是些什么類的情況下對(duì)未知類型的樣品進(jìn)行判別分類; 聚類分析是在不知道樣品需要分多少類和都有些什么類的情況下對(duì)樣品的分類。 判別分析和聚類分析往往聯(lián)合起來使用。,判別分析的分類,1.按判別的總體數(shù)不同,分為兩總體判別分析和多總體判別分析 2.按區(qū)分不同總體所用的數(shù)學(xué)模型,分為線性判別和非線性判別 3.按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等 4.按判別準(zhǔn)則的不同,可以分為距離判別、費(fèi)歇判別、貝葉斯判別等,第二節(jié) 距離判別,一、馬氏距離 二、兩總體距離判別 三、多總體距離判別,一、馬氏距離,距離判別的最直觀的想法
3、是計(jì)算樣品到第i類總體的平均數(shù)的距離,哪個(gè)距離最小就將它判歸哪個(gè)總體,所以,我們首先考慮的是是否能夠構(gòu)造一個(gè)恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。,馬氏距離和歐式距離之間的差別,馬氏距離,歐氏距離,馬氏距離有如下的特點(diǎn):,2、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐氏距離;,1、馬氏距離不受計(jì)量單位的影響;,3、若變量之間是相互無關(guān)的,則協(xié)方差矩陣為對(duì)角矩陣;此時(shí)馬氏距離退化為歐氏距離。,二、兩總體距離判別法,設(shè)有兩個(gè)協(xié)差陣相同的p維正態(tài)總體G1和G2,對(duì)于給定的樣品Y,判別這個(gè)樣品Y到底是來自哪一個(gè)總體,一個(gè)最直觀的想法是計(jì)算Y到兩個(gè)總體的距離。故我們用馬氏距離來給定判別規(guī)則,
4、有:,由馬氏距離的定義,樣品y到總體G1和G2的距離平方分別為: 我們可以計(jì)算上述兩個(gè)平方距離二者之差,然后再考察其差正負(fù)。,則前面的判別法則表示為(判別準(zhǔn)則記住),當(dāng) 和已知時(shí), 是一個(gè)已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。,例 在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)兩類??己似髽I(yè)經(jīng)營狀況的指標(biāo)有(重點(diǎn)) 資金利潤率=利潤總額/資金占用總額 % 勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù) 千元/人 產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值 % 這三個(gè)指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個(gè)企業(yè),三個(gè)指標(biāo)的觀測向量分別為 (7.8,39.1,9.6)和
5、(8.1,34.2,6.9),問這兩個(gè)企業(yè)各應(yīng)該屬于哪一類?,兩類企業(yè)的均值向量和協(xié)差陣,求出共同協(xié)方差矩陣的逆矩陣和兩類企業(yè)均值向量的離差向量分別為:,由上可求出判別系數(shù)向量為:,兩類企業(yè)均值向量的平均數(shù)向量為:,將判別系數(shù)向量和此平均數(shù)向量代入判別函數(shù)的表達(dá)式,得線性判別函數(shù)為:,第一個(gè)企業(yè)的判別函數(shù)值為: 第二個(gè)企業(yè)的判別函數(shù)值為: 由此可以判斷,第一個(gè)企業(yè)屬于優(yōu)秀企業(yè),而第二個(gè)企業(yè)屬于一般企業(yè)。,類似兩總體的討論,可以推廣到多個(gè)總體。,三、 多總體的距離判別法,(1),將(2)式中提取-2,得,注:這與前面所提出的距離判別是等價(jià)的.,判別規(guī)則為,則距離判別法的判別函數(shù)為:,距離判別只要
6、求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)和協(xié)方差未知時(shí),就用樣本的均值和協(xié)方差矩陣來估計(jì)。 距離判別方法簡單實(shí)用,但沒有考慮到每個(gè)總體出現(xiàn)的機(jī)會(huì)大小,即先驗(yàn)概率;沒有考慮到錯(cuò)判的損失。貝葉斯判別法正是為了解決這兩個(gè)問題提出的判別分析方法。,第三節(jié) 貝葉斯判別法,一、 Bayes判別的基本思想 二、最大后驗(yàn)準(zhǔn)則 三、最小平均誤判損失準(zhǔn)則,一、Bayes判別的基本思想,Bayes判別法的基本思想總是假定對(duì)所研究對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率來描述這種認(rèn)識(shí)。,同時(shí),我們也可以使用錯(cuò)判損失最小的概念來進(jìn)行判定 定義:,這樣相應(yīng)地就產(chǎn)生了兩大判別準(zhǔn)則: 1.最大后驗(yàn)準(zhǔn)則 2.最小平均誤判損失
7、準(zhǔn)則,辦公室新來了一個(gè)雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識(shí),一個(gè)人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會(huì)做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。,二、最大后驗(yàn)準(zhǔn)則,距離判別簡單直觀,很實(shí)用,但是距離判別的方法把總體等同看待,沒有考慮到總體會(huì)以不同的概率(先驗(yàn)概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。 一個(gè)好的判別方法,既要考慮到各個(gè)總體出現(xiàn)的先驗(yàn)概率,又要考慮到錯(cuò)判造成的損失,Bayes判別就具有這些優(yōu)點(diǎn),其判別效果更加理想,應(yīng)用也更
8、廣泛。,貝葉斯公式是一個(gè)我們熟知的公式,設(shè)有總體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計(jì)分析,知道 出現(xiàn)的概率為 。即當(dāng)樣本 發(fā)生時(shí),求它屬于某類的概率。由貝葉斯公式計(jì)算后驗(yàn)概率,有:,判別規(guī)則,則 判給 。在正態(tài)的假定下, 為正態(tài)分布的 密度函數(shù)。,則 判給 。,上式兩邊取對(duì)數(shù)并去掉與i無關(guān)的項(xiàng),則等價(jià)的判別函數(shù)為:,特別,總體服從正態(tài)分布的情形,問題轉(zhuǎn)化為若 ,則判 。,當(dāng)協(xié)方差陣相等,則判別函數(shù)退化為,問題轉(zhuǎn)化為若 ,則判 。,令,完全成為距離判別法 。,令,有,問題轉(zhuǎn)化為若 ,則判 。,當(dāng)先驗(yàn)概率相等,,三、 最小平均誤判損失準(zhǔn)則,又D1,D2,Dk是R(p)的一個(gè)劃分,判別法則
9、為: 當(dāng)樣品X落入Di時(shí),則判,關(guān)鍵的問題是尋找D1,D2,Dk劃分,這個(gè)劃分應(yīng)該使平均錯(cuò)判率最小。,【定義】(平均錯(cuò)判損失),用P(j/i)表示將來自總體Gi的樣品錯(cuò)判到總體Gj的條件概率。,C(j/i)表示相應(yīng)錯(cuò)判所造成的損失。,則平均錯(cuò)判損失為:,使ECM最小的劃分,是Bayes判別分析的解。,注: 若記 則平均錯(cuò)判損失,【定理】,若總體G1,G2,Gk的先驗(yàn)概率為,且相應(yīng)的密度函數(shù)為 ,損失為 則劃分的Bayes解為,其中,含義是:當(dāng)抽取了一個(gè)未知總體的樣品值x,要判別它屬于哪個(gè)總體,只要先計(jì)算出k個(gè)按先驗(yàn)概率加權(quán)的誤判平均損失。,為了直觀說明,作為例子,我們討論k=2的情形。,然后比
10、較其大小,選取其中最小的,則判定樣品屬于該總體。,由此可見,要使ECM最小,被積函數(shù)必須在D1是負(fù)數(shù),則有劃分,Bayes判別準(zhǔn)則為:,特別,與標(biāo)準(zhǔn)Bayes判別等價(jià),下表是某金融機(jī)構(gòu)客戶的個(gè)人資料,這些資料對(duì)一個(gè)金融機(jī)構(gòu)來說,對(duì)于客戶信用度的了解至關(guān)重要,因?yàn)槔眠@些資料,可以挖掘出許多的信息,建立客戶的信用度評(píng)價(jià)體系。所選變量為: x1: 月收入 x2:月生活費(fèi)支出 x3:虛擬變量,住房的所有權(quán),自己的為“1”,租用的“0” x4: 目前工作的年限 x5: 前一個(gè)工作的年限 x6:目前住所的年限 x7:前一個(gè)住所的年限 X8: 家庭贍養(yǎng)的人口數(shù) X9:信用程度,“5”的信用度最高,“1”的
11、信用度最低。,第四節(jié) 費(fèi)歇(Fisher)判別,Fisher判別法是1936年提出來的,它是借助于方差分析的思想,來導(dǎo)出判別函數(shù)和建立判別準(zhǔn)則。 由于線性函數(shù)計(jì)算簡便,使用起來也方便,所以在費(fèi)歇判別中通常也都使用線性判別函數(shù)。,一、兩總體Fisher判別 1.基本思想,2.判別函數(shù)的導(dǎo)出 顯然,要求出上述線性判別函數(shù)只要求出其判別系數(shù)的值就可以了。,而這些個(gè)體的判別函數(shù)值之間的方差則為:,同理,可以求出G2中的各個(gè)個(gè)體x(2)的判別函數(shù)值的均值和方差分別為:,因此,兩個(gè)總體的判別函數(shù)值之間的離差平方和可求出為:,而兩個(gè)總體內(nèi)各個(gè)個(gè)體判別函數(shù)值的方差之和則為:,運(yùn)用方差分析的思想,要有好的判別效
12、果,就應(yīng)該使類間離差平方和最大,而使類內(nèi)離差平方和最小,因此定義判別效率為: 要使判別效率最大,運(yùn)用極值原理,求L(a)對(duì)a的偏導(dǎo)數(shù),并令其為0,得:,因?yàn)閍a是一個(gè)常數(shù),所以上式可寫為:,而判別函數(shù)則為: 顯然,費(fèi)歇準(zhǔn)則的判別函數(shù)并不唯一,如果 是費(fèi)歇準(zhǔn)則的判別函數(shù),則對(duì)任何 與任意常數(shù) 來說, 也都是它的判別函數(shù)。 但費(fèi)歇判別函數(shù)的這種不唯一性并不妨礙它的應(yīng)用,因?yàn)檫@里僅僅給出了判別函數(shù)而沒有給定判別規(guī)則,即只僅僅是將多維變量化成了一個(gè)一維變量。,3.判別規(guī)則的制定 費(fèi)歇準(zhǔn)則下的判別規(guī)則的制定,同距離判別規(guī)則相同,令兩個(gè)總體均值向量的均值為: 則該點(diǎn)的判別值就是判別函數(shù)的臨界值 由此可得判
13、別規(guī)則為:,另一種方法是將它們看成等協(xié)差陣,將樣品混合起來估計(jì),有: 由此則得樣本判別函數(shù)為: 去掉常數(shù)項(xiàng)(n1+n2-2),得:,例:某種產(chǎn)品的生產(chǎn)廠商有很多個(gè),有些廠商的產(chǎn)品在市場上比較受歡迎,而有些廠商的產(chǎn)品在市場上不大受歡迎,批發(fā)商店現(xiàn)有12家廠商的產(chǎn)品,其中7家是受歡迎的,5家屬于不太受歡迎的。該商店對(duì)這12家廠商的產(chǎn)品就其式樣、包裝和耐久性進(jìn)行了評(píng)估,評(píng)分采用10分制,評(píng)估結(jié)果如下表所示。 試用費(fèi)歇判別準(zhǔn)則建立判別函數(shù)和判別規(guī)則?,F(xiàn)有一新廠商推銷其產(chǎn)品,產(chǎn)品特性評(píng)分為式樣6分,包裝4分,耐久性5分,問該廠商的產(chǎn)品是否受消費(fèi)者歡迎?(重點(diǎn)),某種產(chǎn)品各品牌的各項(xiàng)評(píng)分,1.可計(jì)算得到兩
14、組產(chǎn)品的均值向量分別為:,2.兩組產(chǎn)品的離差矩陣即中心化變換后的數(shù)據(jù)矩陣為每組數(shù)值減去其均值),3.兩類的樣本離差陣分別為:,4.求解S及其逆矩陣,5.判別系數(shù)向量為:,6.判別函數(shù)為: 7.兩組均值向量為:,8.判別函數(shù)的閾值為: 9.新產(chǎn)品的判別值為: 所以新產(chǎn)品將會(huì)暢銷,二、多類費(fèi)歇判別,類似于兩類的情形,因?yàn)榫€性判別函數(shù)計(jì)算簡便,所以多類費(fèi)歇判別的判別函數(shù)也可設(shè)定為線性函數(shù),即令判別函數(shù)的形式為: 由于實(shí)踐中各類的總體均值向量和協(xié)方差陣一般都是未知的,所以為了簡化,這里只討論根據(jù)各類的樣本資料進(jìn)行判別的問題。,則定義判別效率為: 類似于兩類費(fèi)歇判別的思想,多類判別也應(yīng)使上述判別效率達(dá)到
15、最大。為此求L(a)對(duì)a的偏導(dǎo)數(shù),并令其為0,得到: 由此可得:,多類費(fèi)歇判別的判別規(guī)則可根據(jù)距離判別的思想給出。對(duì)于給定的一個(gè)樣品,該樣品的判別函數(shù)值離哪一個(gè)總體的距離近,就將該樣品判歸哪一類。因此,就有下列判別規(guī)則:,三、費(fèi)歇判別與距離判別和貝葉斯判別之間的比較,1.費(fèi)歇準(zhǔn)則和距離判別對(duì)判別變量的分布類型并無要求,二者只要求有各類總體的二階矩存在;而貝葉斯判別則必須要知道判別變量的分布類型。因此,費(fèi)歇判別和距離判別相對(duì)于貝葉斯判別而言,比較簡單。 2.當(dāng)k=2時(shí),如果1=2=,則費(fèi)歇判別與距離判別是等價(jià)的;當(dāng)判別變量服從正態(tài)分布時(shí),二者與貝葉斯判別也是等價(jià)的。 而當(dāng)12時(shí),費(fèi)歇判別用1+2
16、作為共同的協(xié)差陣,這與距離判別和貝葉斯判別是不同的。,第五節(jié) 逐步判別,一、什么是逐步判別法 前面介紹的判別方法都是用已給定的全部變量x1,x2,xp來建立判別式的,但這些變量在判別式中所起的作用,一般來說是不同的,有些可能起重要作用,有些可能作用低微,如果將判別能力低微的變量保留在判別式中,不僅會(huì)增加計(jì)算量,而且會(huì)產(chǎn)生干擾影響效果。如果將其中的重要變量忽略了,那么做出的判別效果也一定不好。 這樣,就需要我們篩選出具有顯著判別能力的變量來建立判別式。凡具有篩選變量能力的判別方法都稱為逐步判別法。,逐步判別法有許多不同的原則,從而產(chǎn)生各種方法。 目前使用最多的逐步判別法篩選變量的過程類似于逐步回
17、歸,變量的選取是逐步漸進(jìn)的,每步選一個(gè)變量。,二、逐步判別法的基本思想,逐步判別法采用“有進(jìn)有出”的算法,即逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量,如果其判別能力隨新引入變量而變?yōu)椴伙@著了(例如其作用被后引入的幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除去,直到判別式中沒有不重要的變量需要剔除,而剩下來的變量也沒有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。 這個(gè)篩選過程實(shí)質(zhì)就是作假設(shè)檢驗(yàn),通過檢驗(yàn)找出顯著性變量,剔除不顯著變量。,中小企業(yè)的破產(chǎn)模型 為了研究中小企業(yè)的破產(chǎn)模型,首先選定了X1總負(fù)債率(現(xiàn)金收益/總負(fù)債),X2收益性指標(biāo)(純收入/
18、總財(cái)產(chǎn)),X3短期支付能力(流動(dòng)資產(chǎn)/流動(dòng)負(fù)債)和X4生產(chǎn)效率性指標(biāo)(流動(dòng)資產(chǎn)/純銷售額)4個(gè)經(jīng)濟(jì)指標(biāo),對(duì)17個(gè)破產(chǎn)企業(yè)為“1”和21個(gè)正常運(yùn)行企業(yè)“2”進(jìn)行了調(diào)查,得資料如下。如果這些指標(biāo)是用來做判別分析和聚類分析的變量,他們之間沒有顯著性差異是不恰當(dāng)?shù)?,所以檢驗(yàn)所選擇的指標(biāo)在不同類型企業(yè)之間是否有顯著的差異。,x1,x2,x3,x4均為判別變量,x1, x3為判別變量,Dependent Variable: x1 (對(duì)X1進(jìn)行的檢驗(yàn)) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.8746679
19、1 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 X1在類間有顯著性差異。,Dependent Variable: x2 (對(duì)X2進(jìn)行的檢驗(yàn)) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105 X2在類間沒有顯著性差異。,多元假設(shè)檢驗(yàn) Sta
20、tistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004,Pillais Trace,設(shè)有n樣品,分別來自 k個(gè)類G1,G2,Gk其中ni個(gè)來自Gi,,(一)變量組間差異的顯著檢驗(yàn),樣品分別為:,即,p個(gè)指標(biāo)對(duì)G1,
21、G2,Gk無區(qū)別能力;,p個(gè)指標(biāo)對(duì)G1,G2,Gk有區(qū)別能力。,當(dāng)比值 很小,類內(nèi)的離差平方和在總離差平方和中所占比率小,則類間的離差平方和所占比重大。在原假設(shè)為真的條件下, 服從維爾克斯分布 。,p個(gè)指標(biāo)對(duì)G1,G2,Gk有強(qiáng)的區(qū)別能力,拒絕原假設(shè)。,接受原假設(shè);,(二)附加信息的檢驗(yàn),在回歸分析中,變量的好壞直接影響回歸的效果。在判別分析中也有類似的問題。如果在某個(gè)判別分析問題中,將其中最主要的指標(biāo)忽略了。判別效果一定不會(huì)好。但是在許多問題中,事先并不知道那些是主要的指標(biāo)。因此篩選變量的問題就成了非常重要的了。從而產(chǎn)生了逐步判別法,而逐步判別法的基礎(chǔ)是附加信息的檢驗(yàn)。,向后剔除 開始時(shí),所
22、有變量依賴于VAR語句中的變量都在模型中。每一步,在Wilks的統(tǒng)計(jì)量的準(zhǔn)則下對(duì)模型中判別能力貢獻(xiàn)最小的變量剔除。當(dāng)所有余下的變量都達(dá)到留在模型中的標(biāo)準(zhǔn)時(shí),向后剔除過程停止。 逐步選擇 開始時(shí)如同向前選擇一樣,模型中沒有變量,每一步都被檢查。如果在Wilks的準(zhǔn)則下統(tǒng)計(jì)量對(duì)模型的判別能力貢獻(xiàn)最小的變量達(dá)不到留在模型中的標(biāo)準(zhǔn),它就被剔除。否則,不在模型中對(duì)模型的判別能力貢獻(xiàn)最大的變量被選入模型。當(dāng)模型中的所有變量都達(dá)到留在模型中的標(biāo)準(zhǔn)而沒有其他變量能達(dá)到進(jìn)入模型的標(biāo)準(zhǔn),逐步選擇過程停止。,逐步判別法采用有進(jìn)有出的算法,即每一步都進(jìn)行檢驗(yàn)。首先,將判別能力最強(qiáng)的變量引進(jìn)判別函數(shù),而對(duì)較早進(jìn)入判別函
23、數(shù)的變量,隨著其他變量的進(jìn)入,其顯著性可能發(fā)生變化,如果其判別能力不強(qiáng)了,則刪除。 向前選入 開始時(shí)模型中沒有變量。每一步,Wilks的統(tǒng)計(jì)量最小者,進(jìn)入模型。當(dāng)不再有未被選入的變量小于選入的臨界值時(shí),向前選入過程停止。,設(shè)有n樣品,分別來自 k個(gè)類G1,G2,Gk其中ni個(gè)來自Gi。,樣品分別為:,即,p個(gè)指標(biāo)對(duì)G1,G2,Gk無區(qū)別能力;,設(shè)判別函數(shù)中已經(jīng)有q個(gè)變量,要檢驗(yàn)?zāi)硞€(gè)變量xj對(duì)判別效果的貢獻(xiàn),或者說變量對(duì)判別是否有附加的信息。 H0: xj判別分析沒有附加的信息 H1: xj對(duì)判別分析有附加的信息,將q+1個(gè)變量構(gòu)成的叉積將矩陣分塊,利用分塊矩陣的行列式的性質(zhì)有:,它是在給定了q
24、個(gè)指標(biāo)的條件下,第q+1個(gè)指標(biāo)的 附加信息量的度量,該統(tǒng)計(jì)量服從維爾克斯分布,該統(tǒng)計(jì)量服從F(k-1,n-p-k)分布,當(dāng)F很大時(shí),則 拒絕原假設(shè),第q+1個(gè)指標(biāo)有附加信息;否則,接受 原假設(shè)。,2、剔除變量 對(duì)于判別函數(shù)中已有的q1個(gè)變量 ,是否有對(duì)判別能力貢獻(xiàn)不顯著的變量存在,則應(yīng)該將其從判別函數(shù)中刪除。 H0: xk對(duì)判別分析貢獻(xiàn)不顯著,即應(yīng)該剔除; H1: xk對(duì)判別分析貢獻(xiàn)顯著,即應(yīng)該保留;,檢驗(yàn)的統(tǒng)計(jì)量,步驟, 第一步:通過計(jì)算單變量的統(tǒng)計(jì)量,逐步選擇判別變量,統(tǒng)計(jì)量最小者首先進(jìn)入模型。, 第二步:分別計(jì)算未被選中的其它變量與選中變量x1的統(tǒng)計(jì)量,,統(tǒng)計(jì)量1i得值最小者與x1搭配進(jìn)
25、入模型。, 第三步:類推假設(shè)已經(jīng)有q1個(gè)變量進(jìn)入了模型,要考慮較早選入模型得變量得重要性是否有較大得變化,應(yīng)及時(shí)將其從模型中剔除。其原則與引入相同。統(tǒng)計(jì)量得值最小者或F最大者保留。, 第四步:進(jìn)行判別分析。,The STEPDISC Procedure(逐步判別過程) The Method for Selecting Variables is STEPWISE Observations 38 Variable(s) in the Analysis 4 Class Levels 2 Variable(s) will be Included 0 Significance Level to Ente
26、r 0.15 Significance Level to Stay 0.15 Class Level Information Variable class Name Frequency Weight Proportion 1 _1 17 17.0000 0.447368 2 _2 21 21.0000 0.552632,Stepwise Selection: Step 1(第一步) Statistics for Entry, DF = 1, 36 Variable R-Square F Value Pr F Tolerance x1 0.3195 16.90 0.0002 1.0000 x2
27、0.0514 1.95 0.1710 1.0000 x3 0.3734 21.45 F Wilks Lambda 0.626628 21.45 1 36 .0001 Pillais Trace 0.373372 21.45 1 36 .0001,Stepwise Selection: Step 2(第二步) Statistics for Removal, DF = 1, 36 Variable R-Square F Value Pr F x3 0.3734 21.45 F Tolerance x1 0.1070 4.19 0.0482 0.6638 x2 0.0094 0.33 0.5672
28、0.9379 x4 0.0172 0.61 0.4386 0.9546 Variable x1 will be entered.(X1進(jìn)入),Stepwise Selection: Step 3(第三步) Statistics for Removal, DF = 1, 35 Partial Variable R-Square F Value Pr F x1 0.1070 4.19 0.0482 x3 0.1777 7.56 0.0094 No variables can be removed. Statistics for Entry, DF = 1, 34 Partial Variable
29、R-Square F Value Pr F Tolerance x2 0.0196 0.68 0.4154 0.4120 x4 0.0057 0.20 0.6614 0.6119 No variables can be entered.(無變量能進(jìn)入) No further steps are possible. (進(jìn)一步是不可能的),Linear Discriminant Function for class 線性判別函數(shù) Variable 1 2 Constant -2.45595 -5.25152 x3 2.18098 3.52968 x1 -4.55096 -0.52018,Numbe
30、r of Observations and Percent Classified into class From class 1 2 Total 1 14 3 17 82.35 17.65 100.00 2 3 18 21 14.29 85.71 100.00 Total 17 21 38 44.74 55.26 100.00 Priors 0.44737 0.55263,Error Count Estimates for class 1 2 Total Rate 0.1765 0.1429 0.1579 Priors 0.4474 0.5526,Number of Observations
31、and Percent Classified into class From class 1 2 Total 1 14 3 17 82.35 17.65 100.00 2 4 17 21 19.05 80.95 100.00 Total 18 20 38 47.37 52.63 100.00 Priors 0.44737 0.55263 Error Count Estimates for class 1 2 Total Rate 0.1765 0.1905 0.1842 Priors 0.4474 0.5526,Posterior Probability of Membership in cl
32、ass Classified Obs into class 1 2 1 1 0.6482 0.3518 2 1 0.7667 0.2333 3 1 0.6605 0.3395 4 1 0.8029 0.1971 5 2 0.3065 0.6935 6 2 0.2759 0.7241 7 2 0.2984 0.7016 8 2 0.0742 0.9258,將樣本分成兩部分,一部分用于確定判別函數(shù),另一部分用于檢查判別的效果。如果樣本量很大,可將樣本平均地或隨機(jī)地分成兩部分。,選擇變量 (1)和判別分析的目的密切相關(guān) (2)反映要判類變量的特征 (3)在不同研究對(duì)象上的值有明顯的差異,確定分析樣本
33、和驗(yàn)證樣本,一、主要步驟,估計(jì)鑒別函數(shù) 選擇某種方法建立判別規(guī)則,有距離判別、貝葉斯判別和典型判別,計(jì)算錯(cuò)判比率和正確判定的比率。將判別函數(shù)用于驗(yàn)證 樣本,通過驗(yàn)證樣本的錯(cuò)判比率和正確判定的比率來確定判 別的效果。所謂錯(cuò)判,就是把原來是第一類的樣本判給了第 二類。對(duì)于正確判定的比率應(yīng)該達(dá)到多少才能接受,并沒有 嚴(yán)格的規(guī)則。,檢查判別的效果,用逐步判別法篩選變量 在第一步所選的變量可能在類間無差異,應(yīng)該將對(duì)判別分析無貢獻(xiàn)的變量剔除,5 典型判別法,一、兩個(gè)總體的費(fèi)歇(Fisher)判別法,X不能使總體單位 盡可能分開的方向,u能使總體單位 盡可能分開的方向,旋轉(zhuǎn)坐標(biāo)軸至總體單位盡可能分開的方向,
34、此時(shí)分類變量被簡化為一個(gè),(一)費(fèi)歇判別的基本思想,從距離判別法,我們已經(jīng)看到判別規(guī)則是一個(gè)線性函數(shù),由于線性判別函數(shù)使用簡便,因此我們希望能在更一般的情況下,建立一種線性判別函數(shù)。Fisher判別法是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個(gè)總體的線性判別法,F(xiàn)isher在1936年提出。該判別方法對(duì)總體的分布不做任何要求。,從兩個(gè)總體中抽取具有P個(gè)指標(biāo)的樣品觀測數(shù)據(jù),借助于方差分析的思想構(gòu)造一個(gè)線性判別函數(shù):,其中系數(shù) 確定的原則是使兩組間的組間離差最大,而每個(gè)組的組內(nèi)離差最小。當(dāng)建立了判別式以后,對(duì)一個(gè)新的樣品值,我們可以將他的P個(gè)指標(biāo)值代入判別式中求出Y值,然后與某個(gè)臨界值比較,就
35、可以將該樣品歸某類。,假設(shè)我們可以得到一個(gè)線性判別函數(shù):,我們可以把兩個(gè)總體的樣品代入上面的判別式,分別對(duì)上面兩式左右相加,再除以樣品個(gè)數(shù),可得 兩個(gè)總體的重心:,最佳的線性判別函數(shù)應(yīng)該是:兩個(gè)重心的距離越大越好,兩個(gè)組內(nèi)的離差平方和越小越好。,取對(duì)數(shù),求導(dǎo)數(shù),稱 為典型函數(shù).,(三)判別準(zhǔn)則,如果由原始數(shù)據(jù)y求得判別函數(shù)得分為Y*, 對(duì)與一個(gè)樣品代入判別函數(shù)中,若Y*Y0,則判給G1,否則判給G2。,二、多個(gè)總體的Fisher判別法,(一) 判別函數(shù),Fisher判別法實(shí)際上是致力于尋找一個(gè)最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù) ,設(shè)有 個(gè)總體 ,分別有均值向量 , , 和協(xié)方
36、差陣 , 分別各總體中得到樣品:,第i個(gè)總體的樣本均值向量,綜合的樣本均值向量,第i個(gè)總體樣本組內(nèi)離差平方和,綜合的組內(nèi)離差平方和,組間離差平方和,如果判別分析是有效的,則所有的樣品的線性組合 滿足組內(nèi)離差平方和小,而組間離差平方和大。則,而 所對(duì)應(yīng)的特征向量即 。,Fisher樣品判別函數(shù)是,然而,如果組數(shù)k太大,討論的指標(biāo)太多,則一個(gè)判別函數(shù)是不夠的,這時(shí)需要尋找第二個(gè),甚至第三個(gè)線性判別函數(shù) 其特征向量構(gòu)成第二個(gè)判別函數(shù)的系數(shù)。 類推得到m(mk)個(gè)線性函數(shù)。,關(guān)于需要幾個(gè)判別函數(shù)得問題,需要累計(jì)判別效率達(dá)到85以上,即有 設(shè) 為B相對(duì)于E得特征根,則,以m個(gè)線性判別函數(shù)得到的函數(shù)值為新的變量,再進(jìn)行距離判別。 判別規(guī)則:,設(shè)Yi(X)為第i個(gè)線性判別函數(shù), ,,則,例 某種產(chǎn)品的生產(chǎn)廠家有12家,其中7家的產(chǎn)品受消費(fèi)者歡迎,屬于暢銷品,定義為1類;5家的產(chǎn)品不大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職藥劑(藥物分析實(shí)驗(yàn))試題及答案
- 2025年中職水產(chǎn)養(yǎng)殖技術(shù)(苗種繁育)試題及答案
- 2025年大學(xué)市場營銷(市場營銷調(diào)研)試題及答案
- 2025年大學(xué)智慧林業(yè)技術(shù)(森林資源監(jiān)測)試題及答案
- 2025年中職民用爆炸物品技術(shù)(生產(chǎn)工藝)試題及答案
- 2025年大學(xué)農(nóng)學(xué)(作物栽培)試題及答案
- 2025年中職(數(shù)字媒體技術(shù)應(yīng)用)動(dòng)畫制作基礎(chǔ)試題及答案
- 2025年高職(應(yīng)用化工技術(shù))化工工藝優(yōu)化試題及答案
- 2025年高職機(jī)電一體化(電氣控制)試題及答案
- 2025年大學(xué)大二(農(nóng)業(yè)機(jī)械化及其自動(dòng)化)農(nóng)業(yè)機(jī)械設(shè)計(jì)階段測試試題及答案
- 2022年上海市各區(qū)中考一模語文試卷及答案
- 重慶市智慧園林綠化管理信息系統(tǒng)-可行性研究報(bào)告(國信咨詢)
- 污水處理銷售工作總結(jié)
- 迎接期末+做自己的英雄 高二上學(xué)期心理健康教育主題班會(huì)
- TRIZ-阿奇舒勒矛盾矩陣表格
- GB/T 4074.5-2024繞組線試驗(yàn)方法第5部分:電性能
- 招標(biāo)代理服務(wù)服務(wù)方案
- 氣體制劑機(jī)械相關(guān)項(xiàng)目可行性研究分析報(bào)告
- 食堂外包監(jiān)督管理制度
- 頂板離層儀管理規(guī)定
- 長輸管道施工技術(shù)(完整版)
評(píng)論
0/150
提交評(píng)論