版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元統(tǒng)計(jì)分析判別分析MultivariateStatisticalAnalysis案例Fisher的鳶尾花分類?
Fisher在1936收集鳶尾花數(shù)據(jù)(Iris),依據(jù)花萼長(zhǎng)度、寬度,花瓣長(zhǎng)度、寬度4個(gè)屬性特征,對(duì)未知鳶尾花判別屬于三個(gè)種類中的哪一種。該數(shù)據(jù)集成為了機(jī)器學(xué)習(xí)中各種分類技術(shù)的典型實(shí)驗(yàn)案例。R.A.Fisher
(1890-1962)第12章判別分析12.1什么是判別分析?12.2距離判別法12.3費(fèi)歇(Fisher)判別法12.4貝葉斯(Bayes)判別法判別分析(DiscriminateAnalysis,簡(jiǎn)稱DA)又稱“分辨法”。12.1什么是判別分析?判別分析通過學(xué)習(xí)以往數(shù)據(jù)(根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法),判定一個(gè)新的樣本歸屬哪一類。例如在天氣預(yù)報(bào)中,根據(jù)某地區(qū)每天氣象的歷史記錄資料(晴陰雨、氣溫、氣壓、濕度等),建立一種用連續(xù)五天的氣象資料來預(yù)報(bào)第六天是什么天氣的方法。例如預(yù)測(cè)新產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種類、預(yù)測(cè)一個(gè)公司是否成功。判別分析分類:1.按判別的組數(shù):兩組判別分析和多組判別分析;2.按判別函數(shù)的形式:線性判別和非線性判別;3.按判別時(shí)所處理的變量方法不同:逐步判別和序貫判別等;4.按照判別準(zhǔn)則:馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失
最小準(zhǔn)則、最大概率準(zhǔn)則等;5.根據(jù)資料的性質(zhì):定性資料和定量資料的判別分析。
問題的數(shù)學(xué)語言敘述:設(shè)有n個(gè)樣本,對(duì)每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類別(或總體)G1,…,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),…,F(xiàn)k(x)。希望利用數(shù)據(jù),找出一種判別函數(shù),使得它具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能區(qū)別開,并對(duì)新樣本,能判定這個(gè)樣本歸屬于哪一類。學(xué)習(xí)檢測(cè)評(píng)價(jià)訓(xùn)練樣本檢測(cè)樣本距離最小準(zhǔn)則Fisher準(zhǔn)則平均損失最小準(zhǔn)則……本章介紹常用的判別方法:距離判別法、Fisher判別法、Bayes判別法。判別待判樣本指導(dǎo)12.2距離判別法
距離判別法按就近原則歸類,樣品與哪類距離最近,就判它屬于哪類,即通過構(gòu)造恰當(dāng)?shù)木嚯x函數(shù),計(jì)算樣品與某類別之間距離的大小,判別其所屬類別。
距離判別法直觀、簡(jiǎn)單,也稱為直觀判別法。我們首先考慮一個(gè)恰當(dāng)?shù)木嚯x?印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis1936)提出“馬氏距離”。
1、兩個(gè)總體的距離判別問題問題:設(shè)有兩個(gè)總體G1和G2,其均值分別是
(1)和
(2),對(duì)于一個(gè)新樣品X,要判斷它來自哪個(gè)總體。一般的想法是計(jì)算新樣品X到兩個(gè)總體的馬氏距離D2(X,
G1)和D2(X,G2),并按照如下的判別規(guī)則進(jìn)行判斷這個(gè)判別規(guī)則的等價(jià)描述:求新樣品X到G1的距離與到G2
的距離之差,如果其值為正,X屬于G2;否則X屬于G1。這時(shí)判別準(zhǔn)則可分為以下兩種情況:聯(lián)合無偏估計(jì)無偏估計(jì)判別規(guī)則?可見距離判別法對(duì)各類(或總體)的分布,無特定的要求。設(shè)D1,…,Dk是p維空間Rp的k個(gè)子集,如果它們互不相交,且它們和集為Rp,則稱D1,…,Dk為Rp的一個(gè)劃分。“劃分”圖12.2.1錯(cuò)判概率示意圖用距離判別所得判別準(zhǔn)則是合理的。錯(cuò)判
2、多個(gè)總體的距離判別問題例12.2
人文發(fā)展指數(shù)是聯(lián)合國(guó)開發(fā)計(jì)劃署于1990年5月發(fā)表的第一份《人類發(fā)展報(bào)告》中公布的。該報(bào)告建議,對(duì)人文發(fā)展的衡量應(yīng)當(dāng)以人生的三大要素為重點(diǎn),衡量人生三大要素的指示指標(biāo)分別為:出生時(shí)的預(yù)期壽命、成人識(shí)字率和實(shí)際人均GDP,將以上三個(gè)指示指標(biāo)的數(shù)值合成為一個(gè)復(fù)合指數(shù),即為人文發(fā)展指數(shù)。從1995年世界各國(guó)人文發(fā)展指數(shù)的排序中,選取高等及中等發(fā)展水平的國(guó)家各五個(gè)作為兩組樣品,另選四個(gè)國(guó)家作為待判樣品。假定兩總體協(xié)差陣相等,請(qǐng)做距離判別分析。
類別序號(hào)國(guó)家名稱出生時(shí)的預(yù)期壽命(歲)x1成人識(shí)字率(%)1992x2調(diào)正后人均GDP1992x3第一類(高發(fā)展水平國(guó)家)12345美國(guó)日本瑞士阿根廷阿聯(lián)酋7679.57872.173.899999995.977.753745359537252425370第二類(中等發(fā)展水平國(guó)家)678910保加利亞古巴巴拉圭格魯吉亞南非71.275.37072.862.99394.991.29980.642503412339023003799待判樣品11121314中國(guó)羅馬尼亞希臘哥倫比亞68.569.977.669.379.396.993.890.31950284052335158表12.2.11995年數(shù)據(jù)數(shù)據(jù)《世界經(jīng)濟(jì)統(tǒng)計(jì)研究》1996,UNDP《人類發(fā)展報(bào)告》1995。(2)判別準(zhǔn)則的評(píng)價(jià):例12.1知道總體分布,能計(jì)算錯(cuò)判率,對(duì)判別準(zhǔn)則進(jìn)行評(píng)價(jià)。本問題總體分布未知,只有已知類別的樣品(通常稱為訓(xùn)練樣本),可行做法是基于訓(xùn)練樣本數(shù)據(jù)對(duì)錯(cuò)判率進(jìn)行估計(jì)??傻帽绢}目錯(cuò)判率的回代估計(jì)為0,全部判對(duì)。美國(guó)W(x)=10.5,判為第1類古巴W(x)=-7.1,判為第2類
判類原類合計(jì)交叉核實(shí)法(舍一法):每次剔除訓(xùn)練樣本中一個(gè)樣品,利用其余的訓(xùn)練樣本建立判別準(zhǔn)則,然后用此判別準(zhǔn)則對(duì)剔除的那個(gè)樣品做判別。對(duì)訓(xùn)練樣本中的每一個(gè)樣品都這樣進(jìn)行。以誤判的總比例作為錯(cuò)判率的估計(jì)表12.2.2交叉核實(shí)(3)對(duì)待判樣品判別歸類,結(jié)果如表12.2.3:表12.2.3待判樣品判別歸類樣品號(hào)國(guó)
家判別函數(shù)W(x)值判別類別11121314中
國(guó)羅馬尼亞希
臘哥倫比亞-24.47899-15.5813510.294434.182892211事實(shí)上這四個(gè)國(guó)家的實(shí)際分類是有的,我們將判別分析的結(jié)果與實(shí)際結(jié)果比較,結(jié)果相符。(4)對(duì)判別效果的檢驗(yàn)判別分析是假設(shè)兩組樣品取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,作判別分析意義就不大。例如鳶尾花(Iris)數(shù)據(jù)集,花萼和花瓣長(zhǎng)寬,共4個(gè)屬性。3個(gè)亞屬:山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica)。為便于觀察,先取某兩個(gè)屬性特征,繪制散點(diǎn)圖。借助方差分析思想。怎么找最佳投影方向?將多維數(shù)據(jù)投影到某個(gè)方向,投影后使得總體與總體之間盡可能分開---得到判別準(zhǔn)則。12.3費(fèi)歇(Fisher)判別法Fisher判別法是Fisher在1936年提出,基本思想是投影。圖12.3.1Fisher判別法的投影示意圖(12.3.6)圖12.3.2Fisher判別法示意圖續(xù)例12.2利用人文發(fā)展指數(shù)的數(shù)據(jù)作Fisher判別分析。解:(1)建立判別函數(shù)表12.3.1判別歸類(4)對(duì)已知類別的樣品判別歸類序號(hào)國(guó)
家判別函數(shù)y的值原類號(hào)判歸類別1美
國(guó)12.2122112日
本12.4812113瑞
士12.3731114阿根廷11.7450115阿聯(lián)酋11.9960116保加利亞10.5851227古
巴10.0078228巴拉圭9.5460229格魯吉亞8.59682210南
非9.397322回判結(jié)果表明:總的回代判對(duì)率為100%,錯(cuò)判率的回代估計(jì)為0。表12.3.2判別結(jié)果序號(hào)國(guó)
家判別函數(shù)y的值判屬類別11中
國(guó)7.8342212羅馬尼亞8.9464213希
臘12.1809114哥倫比亞11.416912.多總體Fisher判別法類似兩總體Fisher判別法可給出多總體Fisher判別法。(省略)12.4貝葉斯(Bayes)判別法比如研究得癌和沒得癌,由長(zhǎng)期經(jīng)驗(yàn)知道,得癌先驗(yàn)概率遠(yuǎn)小于沒得癌的先驗(yàn)概率。損失也不同。距離判別法雖然簡(jiǎn)單,便于使用。但是該方法有不足之處。 第一,判別方法與總體各自出現(xiàn)的概率的大小無關(guān); 第二,判別方法與錯(cuò)判之后所造成的損失無關(guān)。Bayes判別法可以解決這些問題。貝葉斯公式:將貝葉斯思想用于判別分析就得到貝葉斯判別法。1.貝葉斯判別的基本思想
辦公室新來一個(gè)雇員小王,小王是好人還是壞人大家都在猜測(cè)。按人們主觀意識(shí),一個(gè)人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會(huì)做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。所以根據(jù)后驗(yàn)概率的大小,判斷小王是好人比較合理。2.貝葉斯判別準(zhǔn)則將原各組樣品進(jìn)行回判結(jié)果如下表12.4.1:表12.4.1判別情況樣品序號(hào)原類號(hào)判別函數(shù)f1值判別函數(shù)f2值回判類別歸入該類的后驗(yàn)概率11326.2073315.663011.000021345.9698333.273511.000031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102191.8280203.802721.0000從表12.4.1第2、5列可見,回判結(jié)果表明,總的回代判對(duì)率為100%,這與統(tǒng)計(jì)資料的結(jié)果相符,并與前面的距離判別法、Fisher判別法的結(jié)果也相同。待判樣品判別結(jié)果如表12.4.2,表明,標(biāo)準(zhǔn)Bayes判屬類別與前面的距離、Fisher判屬類別完全相同,即中國(guó)、羅馬尼亞屬于第二類,希臘、哥倫比亞屬于第一類。表12.4.2判別結(jié)果樣品序號(hào)國(guó)
家判別函數(shù)f1值判別函數(shù)f2值歸入該類的后驗(yàn)概率判屬類號(hào)11中
國(guó)160.9455185.42521.0000212羅馬尼亞202.2739219.59391.0000213希
臘329.3008319.00730.99997114哥倫比亞277.7460273.56380.98501表12.4.3某地區(qū)人口死亡狀況數(shù)據(jù)
x1x2x3x4x5x6group134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.9797.368.81440.1713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.021.0815.15103.1264.831454.1725.032.1125.15110.1463.731528.072.010.073.0281.2268.33待判50.226.661.0822.54170.665.2.待判34.647.331.117.7895.1669.3.待判33.426.221.1222.95160.3168.3.待判44.0215.361.0716.45105.364.2.解:(一)判別分析SPSS軟件操作:1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,圖12.4.1。將左邊的變量列表中的“組別”變量“group”選入GroupingVariable框中,將
X1—X6選入Independents框中?!敖M別”變量到GroupingVariable框中時(shí),DefineRange按鈕變?yōu)榭捎?,點(diǎn)擊按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。圖12.4.1判別分析主界面2.單擊Statistics…按鈕,圖12.4.2。指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個(gè)選項(xiàng)的含義:Fisher’s:給出Bayes判別函數(shù)的系數(shù)。Unstandardized:給出未標(biāo)準(zhǔn)化的Fisher判別函數(shù)的系數(shù)(SPSS默認(rèn)給出標(biāo)準(zhǔn)化的Fisher判別函數(shù)系數(shù))。注:SPSS中的判別分析沒有距離判別這一方法.圖12.4.2Statistics對(duì)話框3.單擊Classify…按鈕,定義判別參數(shù),圖12.4.3。在PriorProbabilities組的矩形框中選擇先驗(yàn)概率,兩者選其一。①Allgroupsequal各類先驗(yàn)概率相等。②Computerfromgroupsizes由各類的樣本量計(jì)算決定在各類的先驗(yàn)概率與其樣本比。交互驗(yàn)證結(jié)果判別結(jié)果表分類小結(jié)圖12.4.3Classify對(duì)話框4.單擊Save按鈕,指定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年海南省公需課學(xué)習(xí)-生態(tài)環(huán)境公益訴訟制度研究1026
- 2025年?duì)I養(yǎng)健康顧問知識(shí)競(jìng)賽題庫及答案(共120題)
- 2025年安全生產(chǎn)知識(shí)競(jìng)賽題及答案(共60題)
- 期末培優(yōu)驗(yàn)收卷三(試卷)2025-2026學(xué)年六年級(jí)語文上冊(cè)(統(tǒng)編版)
- 深圳數(shù)學(xué)試卷及詳細(xì)答案
- 隴南醫(yī)院招聘試題及答案
- 農(nóng)村荒山購買合同范本
- 維護(hù)版權(quán)的合同范本
- 2025年高考美術(shù)統(tǒng)考題庫及答案
- 2025年紀(jì)委監(jiān)委筆試真題及答案
- 公司法人變更協(xié)議書
- 7《包身工》課件2025-2026學(xué)年統(tǒng)編版高中語文選擇性必修中冊(cè)
- 2025廣東珠海市金灣區(qū)紅旗鎮(zhèn)招聘編外人員23人筆試考試參考試題及答案解析
- (新教材)部編人教版三年級(jí)上冊(cè)語文 習(xí)作:那次經(jīng)歷真難忘 教學(xué)課件
- 甘草成分的藥理作用研究進(jìn)展-洞察及研究
- 具身智能+文化遺產(chǎn)數(shù)字化保護(hù)方案可行性報(bào)告
- (2025年新教材)部編人教版二年級(jí)上冊(cè)語文 語文園地七 課件
- 廣東深圳市2026屆化學(xué)高三第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 電力公司考試大題題庫及答案
- 國(guó)企金融招聘筆試題及答案
- 重慶市金太陽好教育聯(lián)盟2026屆高三10月聯(lián)考(26-65C)英語(含答案)
評(píng)論
0/150
提交評(píng)論