判別分析數(shù)學建模.ppt_第1頁
判別分析數(shù)學建模.ppt_第2頁
判別分析數(shù)學建模.ppt_第3頁
判別分析數(shù)學建模.ppt_第4頁
判別分析數(shù)學建模.ppt_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、判別分析,判別,有一些昆蟲的性別很難看出,只有通過解剖才能夠判別; 但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統(tǒng)計學家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預測變量)得到一個標準,并且利用這個標準來判別其他未知性別的昆蟲。 這樣的判別雖然不能保證百分之百準確,但至少大部分判別都是對的,而且用不著殺死昆蟲來進行判別了。,判別分析(discriminant analysis),這就是本章要講的是判別分析。 判別分析和前面的聚類分析有什么不同呢? 主要不同點就是,在聚類分析中一般人們事先并不知道或一定要明確應該分成幾類,完全根據(jù)數(shù)據(jù)來確定。 而在判別分析中,至少有一個已經(jīng)

2、明確知道類別的“訓練樣本”,利用這個數(shù)據(jù),就可以建立判別準則,并通過預測變量來為未知類別的觀測值進行判別了。,判別分析例子,數(shù)據(jù)disc.sav:企圖用一套打分體系來描繪企業(yè)的狀況。該體系對每個企業(yè)的一些指標(變量)進行評分。 這些指標包括:企業(yè)規(guī)模(is)、服務(se)、雇員工資比例(sa)、利潤增長(prr)、市場份額(ms)、市場份額增長(msr)、流動資金比例(cp)、資金周轉速度(cs)等等。 另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。 我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類別(三個類別之一:group-1代表上升,group-2代表穩(wěn)定,group

3、-3代表下降)找出一個分類標準,以對沒有被該刊物分類的企業(yè)進行分類。 該數(shù)據(jù)有90個企業(yè)(90個觀測值),其中30個屬于上升型,30個屬于穩(wěn)定型,30個屬于下降型。這個數(shù)據(jù)就是一個“訓練樣本”。,Disc.sav數(shù)據(jù),根據(jù)距離的判別(不用投影),Disc.sav數(shù)據(jù)有8個用來建立判別標準(或判別函數(shù))的(預測)變量,另一個(group)是類別。 因此每一個企業(yè)的打分在這8個變量所構成的8維空間中是一個點。這個數(shù)據(jù)有90個點, 由于已經(jīng)知道所有點的類別了,所以可以求得每個類型的中心。這樣只要定義了如何計算距離,就可以得到任何給定的點(企業(yè))到這三個中心的三個距離。 顯然,最簡單的辦法就是離哪個中

4、心距離最近,就屬于哪一類。通常使用的距離是所謂的Mahalanobis距離。用來比較到各個中心距離的數(shù)學函數(shù)稱為判別函數(shù)(discriminant function).這種根據(jù)遠近判別的方法,原理簡單,直觀易懂。,Fisher判別法(先進行投影),所謂Fisher判別法,就是一種先投影的方法。 考慮只有兩個(預測)變量的判別分析問題。 假定這里只有兩類。數(shù)據(jù)中的每個觀測值是二維空間的一個點。見圖(下一張幻燈片)。 這里只有兩種已知類型的訓練樣本。其中一類有38個點(用“o”表示),另一類有44個點(用“*”表示)。按照原來的變量(橫坐標和縱坐標),很難將這兩種點分開。 于是就尋找一個方向,也就

5、是圖上的虛線方向,沿著這個方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚??梢钥闯?,如果向其他方向投影,判別效果不會比這個好。 有了投影之后,再用前面講到的距離遠近的方法來得到判別準則。這種首先進行投影的判別方法就是Fisher判別法。,逐步判別法(僅僅是在前面的方法中加入變量選擇的功能),有時,一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進判別能力最強的變量, 這個過程可以有進有出。一個變量的判別能力的判斷方法有很多種,主要利用各種檢驗,例如Wilks Lambda、Raos V、The Squared Mahalano

6、bis Distance、Smallest F ratio或The Sum of Unexplained Variations等檢驗。其細節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計軟件的各種選項來實現(xiàn)。逐步判別的其他方面和前面的無異。,Disc.sav例子,利用SPSS軟件的逐步判別法淘汰了不顯著的流動資金比例(cp),還剩下七個變量is,se,sa,prr,ms,msr,cs,得到兩個典則判別函數(shù)(Canonical Discriminant Function Coefficients): 0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.3

7、85CS-3.166 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384,這兩個函數(shù)實際上是由Fisher判別法得到的向兩個方向的投影。這兩個典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的:,Disc.sav例子,根據(jù)這兩個函數(shù),從任何一個觀測值(每個觀測值都有7個變量值)都可以算出兩個數(shù)。把這兩個數(shù)目當成該觀測值的坐標,這樣數(shù)據(jù)中的150個觀測值就是二維平面上的150個點。它們的點圖在下面圖中。,Disc.sav例子,從上圖可以看出,第一個投影(相應于來自于第一個典則判別函數(shù)橫坐標值)已經(jīng)能夠很好地分辨出三個企業(yè)類型了

8、。這兩個典則判別函數(shù)并不是平等的。其實一個函數(shù)就已經(jīng)能夠把這三類分清楚了。SPSS的一個輸出就給出了這些判別函數(shù)(投影)的重要程度:,前面說過,投影的重要性是和特征值的貢獻率有關。該表說明第一個函數(shù)的貢獻率已經(jīng)是99%了,而第二個只有1%。當然,二維圖要容易看一些。投影之后,再根據(jù)各點的位置遠近算出具體的判別公式(SPSS輸出):,Disc.sav例子,具體的判別公式(SPSS輸出),由一張分類函數(shù)表給出:,該表給出了三個線性分類函數(shù)的系數(shù)。把每個觀測點帶入三個函數(shù),就可以得到分別代表三類的三個值,哪個值最大,該點就屬于相應的那一類。當然,用不著自己去算,計算機軟件的選項可以把這些訓練數(shù)據(jù)的每

9、一個點按照這里的分類法分到某一類。當然,我們一開始就知道這些訓練數(shù)據(jù)的各個觀測值的歸屬,但即使是這些訓練樣本的觀測值(企業(yè))按照這里推導出的分類函數(shù)來分類,也不一定全都能夠正確劃分。,Disc.sav例子,下面就是對我們的訓練樣本的分類結果(SPSS):,誤判和正確判別率,從這個表來看,我們的分類能夠100%地把訓練數(shù)據(jù)的每一個觀測值分到其本來的類。 該表分成兩部分;上面一半(Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來判斷每一個點的結果(前面三行為判斷結果的數(shù)目,而后三行為相應的百分比)。 下面一半(Cross validated)是對每一個觀測值,都用缺少該觀測的全部數(shù)據(jù)得到的判別函數(shù)

10、來判斷的結果。 這里的判別結果是100%判別正確,但一般并不一定。,Disc.sav例子,如果就用這個數(shù)據(jù),但不用所有的變量,而只用4個變量進行判別:企業(yè)規(guī)模(is)、服務(se)、雇員工資比例(sa)、資金周轉速度(cs)。結果的圖形和判別的正確與否就不一樣了。下圖為兩個典則判別函數(shù)導出的150個企業(yè)的二維點圖。它不如前面的圖那么容易分清楚了,原先的圖,Disc.sav例子,下面是基于4個變量時分類結果表:,這個表的結果是有87個點(96.7%)得到正確劃分,有3個點被錯誤判別;其中第二類有兩個被誤判為第一類,有一個被誤判為第三類。,判別分析要注意什么?,訓練樣本中必須有所有要判別的類型,分

11、類必須清楚,不能有混雜。 要選擇好可能由于判別的預測變量。這是最重要的一步。當然,在應用中,選擇的余地不見得有多大。 要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關分析來驗證。 判別分析是為了正確地分類,但同時也要注意使用盡可能少的預測變量來達到這個目的。使用較少的變量意味著節(jié)省資源和易于對結果進行解釋。,判別分析要注意什么?,在計算中需要看關于各個類的有關變量的均值是否顯著不同的檢驗結果(在SPSS選項中選擇Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The S

12、um of Unexplained Variations等檢驗的計算機輸出),以確定是否分類結果是僅僅由于隨機因素。 此外成員的權數(shù)(SPSS用prior probability,即“先驗概率”,和貝葉斯統(tǒng)計的先驗概率有區(qū)別)需要考慮;一般來說,加權要按照各類觀測值的多少,觀測值少的就要按照比例多加權。 對于多個判別函數(shù),要弄清各自的重要性。 注意訓練樣本的正確和錯誤分類率。研究被誤分類的觀測值,看是否可以找出原因。,SPSS選項,打開disc.sav數(shù)據(jù)。然后點擊AnalyzeClassifyDiscriminant, 把group放入Grouping Variable,再定義范圍,即在De

13、fine Range輸入13的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enter independents together,而選擇Use stepwise method, 在方法(Method)中選挑選變量的準則(檢驗方法;默認值為Wilks Lambda)。 為了輸出Fisher分類函數(shù)的結果可以在Statistics中的Function Coefficient選 Fisher和UnStandardized(點則判別函數(shù)系數(shù)) ,在Matrices中選擇輸出所需要的相關陣; 還可以在Classify中的Display選summary table,

14、Leave-one-out classification;注意在Classify選項中默認的Prior Probability為All groups equal表示所有的類都平等對待,而另一個選項為Compute from group sizes,即按照類的大小加權。 在Plots可選 Combined-groups, Territorial map等。,14.4.3 判別分析實例P379,鳶尾花數(shù)據(jù)(花瓣,花萼的長寬) 5個變量:花瓣長(slen),花瓣寬(swid), 花萼長(plen), 花萼寬(pwid), 分類號(1:Setosa, 2:Versicolor, 3:Virginica

15、)(data14-04),StatisticsClassify Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table) Sta

16、tistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardized) Matrix (Within-groups correlation, Within-groups covariance, Separate-groups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership),鳶尾花數(shù)據(jù)(數(shù)據(jù)分析過程簡明表),鳶尾花數(shù)據(jù)(原始數(shù)據(jù)

17、的描述),鳶尾花數(shù)據(jù)(合并類內(nèi)相關陣和協(xié)方差陣),鳶尾花數(shù)據(jù)(總協(xié)方差陣),鳶尾花數(shù)據(jù)(特征值表)Eigenvalue:用于分析的前兩個典則判別函數(shù)的特征值, 是組間平方和與組內(nèi)平方和之比值. 最大特征值與組均值最大的向量對應, 第二大特征值對應著次大的組均值向量典則相關系數(shù)(canonical correlation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.,鳶尾花數(shù)據(jù)(Wilks Lambda統(tǒng)計量)檢驗的零假設是各組變量均值相等. Lambda接近0表示組均值不同,接近1表示組均值沒有不同. Chi-square是lambda的卡方轉換, 用于確定其

18、顯著性.,鳶尾花數(shù)據(jù)(有關判別函數(shù)的輸出),標準化的典則判別函數(shù)系數(shù)(使用時必須用標準化的自變量),鳶尾花數(shù)據(jù)(有關判別函數(shù)的輸出),典則判別函數(shù)系數(shù),鳶尾花數(shù)據(jù)(有關判別函數(shù)的輸出)這是類均值(重心)處的典則判別函數(shù)值,這是典則判別函數(shù)(前面兩個函數(shù))在類均值(重心)處的值,鳶尾花數(shù)據(jù)(用判別函數(shù)對觀測量分類結果),先驗概率(沒有給),費歇判別函數(shù)系數(shù) 把自變量代入三個式子,哪個大歸誰.,Territorial Map Canonical Discriminant Function 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論