試驗設(shè)計與統(tǒng)計分析SAS實(shí)踐教程課件:判別分析_第1頁
試驗設(shè)計與統(tǒng)計分析SAS實(shí)踐教程課件:判別分析_第2頁
試驗設(shè)計與統(tǒng)計分析SAS實(shí)踐教程課件:判別分析_第3頁
試驗設(shè)計與統(tǒng)計分析SAS實(shí)踐教程課件:判別分析_第4頁
試驗設(shè)計與統(tǒng)計分析SAS實(shí)踐教程課件:判別分析_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

12.1導(dǎo)言12.2Bayes判別分析12.3歐氏距離判別分析12.4Fisher判別分析12.5逐步Bayes判別分析12.6逐步歐氏距離判別分析上機(jī)報告上機(jī)目的

了解判別分析原理,掌握用SAS進(jìn)行判別分析(DiscriminantAnalysis)的主要方法。理解SAS程序的輸出結(jié)果和意義,能解決實(shí)際問題。

上機(jī)內(nèi)容

①利用discrim過程實(shí)現(xiàn)Bayes判別分析;②利用discrim過程實(shí)現(xiàn)歐氏距離判別分析;③利用candisc過程實(shí)現(xiàn)Fisher判別分析;④利用stepdisc過程實(shí)現(xiàn)逐步Bayes判別分析;⑤利用stepdisc過程實(shí)現(xiàn)逐步歐氏距離判別分析。12.1導(dǎo)

判別分析處理的數(shù)據(jù)表要求具有表12-1所示的內(nèi)容和格式。其中,變量Sample稱做分類變量,它的一個水平(變量值)表示一個被觀測的樣品。數(shù)值變量X1、X2、…、Xp稱做屬性變量,該變量集描述樣品的數(shù)值特征。一個樣品的一組屬性變量值稱做一個屬性觀測,如(X11,X12,…,X1p)是樣品S1的一個屬性觀測,每種樣品可有多個屬性觀測。樣本中的變量名是自定義的,可選擇其它規(guī)范的字符串,即字母或字母與數(shù)字的組合。如表12-1所示。

由已知樣品(驗證確認(rèn)過的)和它的屬性觀測構(gòu)成的樣本稱做“訓(xùn)練樣本”或“標(biāo)度樣本”,由未知樣品和它的屬性觀測構(gòu)成的樣本稱做“檢測樣本”或“測試樣本”。

判別分析是一種數(shù)值分類方法。設(shè)計一個在判別歸類上具有最優(yōu)性質(zhì)的判別函數(shù)(分類尺度),一般采用屬性變量的線性組合,以類間距離與類內(nèi)距離比、先驗概率等構(gòu)建概率型或損失型的目標(biāo)函數(shù),以最大概率或最小損失對判別函數(shù)中的未知系數(shù)作出估計,計算未知樣品的判別函數(shù)值并與閾值比較,將未知樣品判歸概率最大或損失最小的那一類。判別函數(shù)具有下面的形式:其中,Y為判別函數(shù),C為判別系數(shù),X為屬性變量集。

判別分析和聚類分析雖均為數(shù)值分類方法,但兩者的分類方法顯著不同。聚類分析事先并不知道樣本中的樣品分成幾類,完全是根據(jù)屬性變量的觀測和判別準(zhǔn)則把樣品分成主觀的幾類,而判別分析至少有一個已明確知道其分類的“訓(xùn)練樣本”,通過由它建立的判別函數(shù)依據(jù)判別準(zhǔn)則將每個未知樣品判歸已知的一個類。

判別分析可劃分為多種類型。按照判別函數(shù)的內(nèi)涵,可劃分為Bayes判別分析、Fisher判別分析、歐氏距離判別分析和逐步判別分析。按照屬性變量的概率分布,可劃分為多元正態(tài)型和非參數(shù)型。按照先驗概率的分布類型,可劃分為等概率型(樣品的先驗概率均相等)、比率型(先驗概率與樣本中樣品的頻率相等)和離散概率型(任意指定樣品的先驗概率)。

12.2Bayes判別分析

設(shè)訓(xùn)練樣本有M個類和P個屬性變量,樣品的屬性觀測可看做P維空間的一個點(diǎn),假定P個屬性變量遵從P維正態(tài)分布,M個類在P維空間形成M個類中心(重心),一個點(diǎn)到一個類中心的馬氏距離與類的概率分布參數(shù)和該點(diǎn)到類中心的歐氏距離有關(guān)。以馬氏距離和類先驗概率估計判別函數(shù)、概率最大或損失最小為目標(biāo)判別一個點(diǎn)的類歸屬稱做Bayes判別分析。Bayes判別分析要求先驗概率已知。

【例12-1】通過衛(wèi)星遙感和地面驗證確認(rèn)獲得了地球上五種作物(SamCrop)的四種遙感變量(X1~X4)訓(xùn)練樣本,如表12-2所示。試?yán)肧AS的Bayes判別分析對表12-3中的遙感數(shù)據(jù)代表何種作物作出判斷。表12-3中給出了TestCrop的初始判別結(jié)果,它可以由已往的經(jīng)驗主觀判斷擬定。

Bayes判別分析由SAS的discrim過程實(shí)現(xiàn)。該過程要求訓(xùn)練樣本和檢測樣本中的屬性變量名必須一致,如表12-2和表12-3中的X1~X4。而分類變量名(如表12-2中的SamCrop和表12-3中的Testcrop)和區(qū)分每個觀測的變量(如表12-2中的Obs和表12-3中的TestObs)可以不一樣。

(1)將表12-2所示訓(xùn)練樣本創(chuàng)建為SAS數(shù)據(jù)表sasuser.xulian01。將表12-3所示的檢測樣本創(chuàng)建為SAS數(shù)據(jù)表sasuser.jiance01。

(2)認(rèn)為頻率較高的衛(wèi)星遙感觀測其數(shù)值穩(wěn)定性和發(fā)生的概率亦較高,故用訓(xùn)練樣品在樣本中出現(xiàn)的比率(頻率)作為各個類的先驗概率估計。SAS在discrim過程中設(shè)置選項priorsproportional或priorsprop實(shí)現(xiàn)這項功能。

(3)采用discrim過程實(shí)現(xiàn)Bayes判別分析。過程選項data=指定調(diào)用訓(xùn)練樣本sasuser.xunlian01。過程選項testdata=指定調(diào)用檢測樣本sasuser.jiance01。語句class指定訓(xùn)練樣本中SamCrop為分類變量。語句priorsproportional指定先驗概率與樣品的比率成正比,缺省則指定先驗概率均相等,也可以指定一個先驗概率的任意離散序列。語句var指定X1~X4為參與計算的屬性變量。缺省則為所有的數(shù)值變量。語句id指定訓(xùn)練樣本中Obs為標(biāo)識觀測的變量。語句testclass指定檢測樣本中TestCrop為分類變量。語句testid指定檢測樣本中TestObs為標(biāo)識觀測的變量。SAS程序如下:procdiscrimdata=sasuser.xunlian01testdata=sasuser.jiance01;

classSamCrop;

priorsproportional;

varX1-X4;

idObs;

testclassTestCrop;

testidTestObs;

run;quit;

(5)由統(tǒng)計學(xué)知識可知,馬氏距離與目標(biāo)類的先驗概率有關(guān),表12-5中第1列為觀測距離的起點(diǎn),第1行為要?dú)w入的目標(biāo)類。訓(xùn)練樣本中存在類內(nèi)距離大于類間距離的現(xiàn)象,如棉花類;存在類內(nèi)距離與類間距離差別較小的現(xiàn)象,如甜菜類和大豆類。這些現(xiàn)象有可能導(dǎo)致較高的判錯率。如表12-5所示。

(6)訓(xùn)練樣本中判別正確率較高的樣品依次為谷物、苜蓿、大豆、甜菜和棉花,其中谷物達(dá)85.71%,而棉花僅達(dá)16.67%。判別函數(shù)未能較好地區(qū)分各個類,各個類的分布特性還需進(jìn)一步研究。詳情如表12-7所示。表12-8檢測樣本的判別結(jié)果和百分率

(8)訓(xùn)練樣本的錯判率達(dá)50%(過高),說明所建判別函數(shù)未能較好的適合訓(xùn)練樣本,判別分析結(jié)果未能達(dá)到可接受的程度,如表12-9所示。檢測樣本的錯判率達(dá)63.89%(也過高),導(dǎo)致這樣的結(jié)果既與訓(xùn)練樣本錯判率有關(guān)又與檢測樣品的初始?xì)w類有關(guān),尚需進(jìn)一步深入研究,并尋求更合適的判別函數(shù)以減少錯誤率。如表12-9所示。

12.3歐氏距離判別分析

歐氏距離判別分析是一種根據(jù)檢測樣品與各個類之間歐氏平方距離的遠(yuǎn)近進(jìn)行判別歸類的方法,實(shí)質(zhì)上它是一種先驗概率均等的Bayes判別分析。

【例12-2】假定各個類的先驗概率相同,對于例12-1所述的問題,試通過距離遠(yuǎn)近將檢測樣品歸于合適的類。訓(xùn)練樣本如表12-2所示。檢測樣本如表12-3所示。

(1)將表12-2所示訓(xùn)練樣本創(chuàng)建為SAS數(shù)據(jù)表sasuser.xulian01。將表12-3所示檢測樣本創(chuàng)建為SAS數(shù)據(jù)表sasuser.jiance01。

(2)認(rèn)為訓(xùn)練樣本中各個類發(fā)生的概率相同和各個屬性變量的分布參數(shù)相同,故采用discrim過程執(zhí)行先驗概率相同的Bayes判別分析,過程選項priors缺省則指定先驗概率相等,此時判別結(jié)果決定于樣品與類的歐氏平方距離。SAS程序如下:

procdiscrimdata=sasuser.xunlian01testdata=sasuser.jiance01;

classSamCrop;

varX1-X4;

idObs;

testclassTestCrop;

testidTestObs;

run;quit;

(3)程序輸出的檢測樣本判別結(jié)果如表12-10至表12-13所示。

(4)訓(xùn)練樣本中,各個類均存在含較小類間距離的現(xiàn)象,這樣的距離分布有可能導(dǎo)致錯判均衡分散化,易發(fā)生類內(nèi)樣品愈多錯判率愈大的現(xiàn)象。如表12-10所示。

(5)訓(xùn)練樣本中,苜蓿的11個樣品有5個被錯判,谷物的7個樣品有3個被錯判,棉花的6個樣品有2個被錯判,大豆的6個樣品有3個被錯判,甜菜的6個樣品有4個被錯判,判別結(jié)果與例12-1不同??梢钥闯?,錯判均衡分散了,原來不易錯判的類其錯判率有所上升,其余無明顯改善。如表12-11所示。

(6)檢測樣本中,被判別樣品苜蓿被錯誤地歸到訓(xùn)練樣本中的棉花類,被檢測樣品棉花被錯誤地歸到訓(xùn)練樣本中的大豆類,被檢測樣品甜菜被錯誤地歸到訓(xùn)練樣本中的苜蓿類,其余判別正確。判別結(jié)果與例12-1的判別結(jié)果相同。詳細(xì)情況如表12-12所示。

(7)與例12-1的判別結(jié)果相比,訓(xùn)練樣本和檢驗樣本的錯判率均略有降低,分別為49.48%和60%,但沒有明顯改善。如表12-13所示。12.4Fisher判別分析

Fisher判別分析亦稱做典型判別分析(CanonicalDiscriminantAnalysis),是一種與主分量分析和典型相關(guān)分析有關(guān)的降維分類方法。其基本思想是,將所有樣本點(diǎn)(樣品的屬性觀測)投影到某個方向(一維空間)上,使投影后的類間距離盡可能分離和類內(nèi)距離盡可能聚合,使被檢測樣品容易判歸到概率最大或損失最小的那一類。

【例12-3】試通過Fisher判別分析解決例12-1所述問題。處理的樣本與例12-1相同,訓(xùn)練樣本如表12-2所示,檢測樣本如表12-3所示。

(1)引用表12-2和表12-3所示的SAS數(shù)據(jù)表sasuser.xunlian01和sasuser.jiance01。

(2)執(zhí)行兩次discrim過程完成fisher典型判別分析。

第1個discrim過程處理訓(xùn)練樣本sasuser.xunlian01,目的是獲得屬性變量的典型系數(shù)和典型變量值(得分),詳見程序輸出的數(shù)據(jù)表canstat01。過程選項data=指定要處理的訓(xùn)練樣本sasuser.xunlian01。過程選項canonical指定執(zhí)行典型判別分析。過程選項ncan=2指定選用前2個典型變量,這是因為它們可解釋屬性變量變異的93.49%。過程選項outstat=指定輸出含典型系數(shù)和屬性變量均值等統(tǒng)計量的數(shù)據(jù)表canstat01。過程選項out=指定輸出含訓(xùn)練樣本和典型變量值的數(shù)據(jù)表canxunlian01。

DATA步程序引用第1個discrim過程生成的典型系數(shù)(RAWSCORE)和屬性變量均值(MEAN),計算并創(chuàng)建含檢測樣本和典型變量值的數(shù)據(jù)表canjiance01,為利用典型變量進(jìn)行判別分析做準(zhǔn)備。

第2個discrim過程以典型變量can1和can2做屬性變量處理訓(xùn)練樣本canxunlian01和檢測樣本canjiance01執(zhí)行判別分析。SAS程序如下:(3)程序輸出的主要結(jié)果如表12-14和表12-18所示。

(4)

DATA步程序中計算典型變量值的公式如下所示:

其中,

為第

典型變量,

為第j屬性變量在第i典型變量中的典型系數(shù),Xj為第j屬性變量,

為第j屬性變量的樣本均值。

(5)訓(xùn)練樣本中的先驗概率設(shè)為各個類相同,根據(jù)對問題的認(rèn)識也可以設(shè)置其它離散概率序列。如表12-14所示。

(6)由于采用均等的先驗概率,馬氏平方距離與歐氏平方距離相同,這樣突出了典型變量的作用,類內(nèi)距離為0。由于采用典型變量做屬性變量,類間距離已拉開,這將有利于減少錯判率。詳細(xì)情況如表12-15所示。

(7)訓(xùn)練樣本中的類被錯判的個數(shù)與例12-1相比已明顯減少,其中谷物全部正確歸類,說明典型變量構(gòu)成的判別函數(shù)較適合衛(wèi)星遙感樣本。詳細(xì)情況如表12-16所示。

(8)被檢測樣品苜蓿被錯誤地歸到訓(xùn)練樣本中的棉花類,被檢測樣品棉花被錯誤地歸到訓(xùn)練樣本中的大豆類,被檢測樣品甜菜被錯誤地歸到訓(xùn)練樣本中的苜蓿類,其余歸類正確。與例12-1相比判別結(jié)果沒有變化,可能是檢測樣品的初始?xì)w類存在偏差,如若初始不擬定樣品的類型,則錯判率應(yīng)該與訓(xùn)練樣本相同。如表12-17所示。

(9)訓(xùn)練樣本的錯判率減小到36.06%,是目前各個判別方法中效果最好的。檢驗樣本的錯判率達(dá)60%(較高),需仔細(xì)考慮檢測樣品的初始?xì)w類問題。如表12-18所示。

12.5逐步Bayes判別分析

逐步判別分析是一種通過F檢驗刪減不顯著屬性變量從而獲得優(yōu)化變量集的判別分類方法。先驗概率不同則稱做逐步Bayes判別分析。

【例12-4】試通過逐步Bayes判別分析解決例12-1所述問題。處理的樣本與例12-1相同,訓(xùn)練樣本如表12-2所示,檢測樣本和表12-3所示。

(1)引用表12-2和表12-3所示的SAS數(shù)據(jù)表sasuser.xunlian01和sasuser.jiance01。

(2)由于sas的stepdisc過程只完成了屬性變量集的優(yōu)選,對檢測變量集的判別分析還需由discrim完成,故采用stepdisc過程和discrim過程聯(lián)合編程實(shí)現(xiàn)逐步判別分析。采用stepdisc過程對訓(xùn)練樣本sasuser.xunlian01執(zhí)行屬性變量集的優(yōu)選。采用discrim過程和優(yōu)選的屬性變量集對檢測樣本sasuser.jiance01執(zhí)行判別分析。SAS程序如下:

(3)程序輸出的主要結(jié)果如表12-19和表12-24所示。

(4)逐步判別的結(jié)果只有X1一個變量被選取,模型的顯著性P值達(dá)0.0039,典型相關(guān)指數(shù)的顯著性P值達(dá)0.0039。如表12-19所示。(5)類棉花、大豆和甜菜存在類內(nèi)距離大于類間距離的情況,這將可能導(dǎo)致較大的判別錯誤率。詳細(xì)情況如表12-21所示。

(6)訓(xùn)練樣品錯判的數(shù)目與例12-1相比增加了無法歸入現(xiàn)有類別中的2個,總錯誤率增加到55.56%,說明縮減的變量集存在信息損失的問題,實(shí)際上逐步判別分析只有在原屬性變量集較大時才存在明顯優(yōu)勢。詳細(xì)情況如表12-22所示。

(7)被檢驗樣品棉花被錯誤地歸到訓(xùn)練樣本中的苜蓿類,被檢驗樣品大豆被錯誤地歸到訓(xùn)練樣本中的谷物類,被檢驗樣品甜菜被錯誤地歸到訓(xùn)練樣本中的苜蓿類。錯判的結(jié)果與例12-1的錯判結(jié)果不同。如表12-23所示。

(8)訓(xùn)練樣本的錯判率達(dá)55.56%與例12-1相比略有上升。檢驗樣本的錯判率達(dá)50.00%,與例12-1的判別結(jié)果63.89%相比有所改善。如表12-24所示。

12.6逐步歐氏距離判別分析

逐步判別分析的先驗概率相同則稱做逐步歐氏距離判別分析。

【例12-5】試通過逐步歐氏距離判別分析解決例12-1所述問題。處理的樣本與例12-1相同,訓(xùn)練樣本如表12-2所示,檢測樣本如表12-3所示。

(1)引用表12-2和表12-3所示的SAS數(shù)據(jù)表sasuser.xunlian01和sasuser.jiance01。

(2)采用stepdisc過程對訓(xùn)練樣本sasuser.xunlian01執(zhí)行屬性變量集的優(yōu)選。采用discrim過程對檢測樣本sasuser.jiance0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論