SPSS判別分析.ppt_第1頁
SPSS判別分析.ppt_第2頁
SPSS判別分析.ppt_第3頁
SPSS判別分析.ppt_第4頁
SPSS判別分析.ppt_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三講判別分析 0判別分析的問題 對(duì)于非度量 nonmetric 變量的研究 研究者對(duì)于預(yù)測(cè)和解釋一個(gè)對(duì)象所屬類別的關(guān)系感興趣 比如一家公司成功還是破產(chǎn) 1判別分析的基本思想 有時(shí)會(huì)遇到包含屬性解釋變量和幾個(gè)度量解釋變量的問題 這時(shí)需要選擇一種合適的分析方法 判別分析的假設(shè)條件 1 分組類型在兩組以上 在第一階段工作時(shí)每組案例的規(guī)模必須至少在一個(gè)以上 解釋變量必須是測(cè)量的 才能夠計(jì)算其平均值和方差 使其能夠合理的應(yīng)用與統(tǒng)計(jì)函數(shù) 2 每一個(gè)判別變量 解釋變量 不能是其他判別變量的線性組合 這時(shí) 為其他變量線性組合的判別變量不能提供新的信息 更重要的是在這種情況下無法估計(jì)判別函數(shù) 4 各判別變量之間具有多元正態(tài)分布 3 各組變量的協(xié)方差陣相等 判別分析最簡(jiǎn)單和最常用的形式是線性判別函數(shù) 它們是判別變量的簡(jiǎn)單線性組合 在各組協(xié)方差陣相等的假設(shè)條件下 可以用簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn) 一兩總體情況 2距離判別分析 設(shè)有兩個(gè)總體G1和G2 x是一個(gè)p維樣品 若能定義兩總體G1和G2的距離d x G1 和d x G2 則可用如下的規(guī)則進(jìn)行判別 若樣品x到總體G1的距離小于到總體G2的距離 則認(rèn)為樣品屬于總體G1 反之 則以為樣品屬于總體G2 若樣品x到總體G1和G2的距離相等 則讓它待判 這個(gè)判別準(zhǔn)則的數(shù)學(xué)模型可做如下的描述 當(dāng)總體G1和G2為正態(tài)總體且協(xié)方差陣相等時(shí) 距離選用馬氏距離 即 分別為總體G1和G2的均值和 協(xié)方差陣 當(dāng)總體不是正態(tài)分布時(shí) 有時(shí)也可以用馬氏距離來描述樣本到總體的遠(yuǎn)近 于是判別規(guī)則為 這個(gè)規(guī)則取決于W x 的值 通常稱W x 為判別函數(shù) 由于它是線性函數(shù) 又稱為線性判別函數(shù) a為判別系數(shù) 類似于回歸系數(shù) 來自于G2的樣本 可以得到如下估計(jì) 其中 當(dāng)兩個(gè)總體協(xié)方差陣 1與 2不相等時(shí) 可用 作為判別函數(shù) 這時(shí)它是x的二次函數(shù) 二 多總體情況 1 協(xié)方差陣相同設(shè)有k個(gè)總體G1 Gk 它們的均值分別是 1 k 協(xié)方差陣均為 類似于兩總體的討論 判別函數(shù)為 i j 1 k 相應(yīng)的判別規(guī)則是 若 1 k 未知時(shí) 設(shè)從Ga中抽取的樣本為x1 a xna a a 1 k 則它們的估計(jì)為 2 協(xié)方差陣不相同 這時(shí)判別函數(shù)為 的估計(jì)是一致的 而 式中 Aa與協(xié)方差陣相同時(shí)的估計(jì)是一致 這時(shí)的判別規(guī)則為 例1從經(jīng)驗(yàn)得知 可以用病人心電圖中的兩個(gè)指標(biāo)x1與x2來區(qū)分健康人 G1 主動(dòng)脈硬化患者 G2 及冠心病患者 G3 三類人 其經(jīng)驗(yàn)數(shù)據(jù)所示 見文件患者數(shù)據(jù) xls 一個(gè)病人的心電圖中x1 267 88 x2 10 66 該病人應(yīng)歸入哪一類 解 例2對(duì)破產(chǎn)的企業(yè)收集他們?cè)谄飘a(chǎn)前兩年的年度財(cái)務(wù)數(shù)據(jù) 同時(shí)對(duì)財(cái)務(wù)良好的企業(yè)也收集同一時(shí)期的數(shù)據(jù) 數(shù)據(jù)涉及四個(gè)變量 3Bayes判別 1貝葉斯統(tǒng)計(jì)的思想是 假定對(duì)研究的對(duì)象有一定的認(rèn)識(shí) 常用先驗(yàn)概率分布來來描述這種認(rèn)識(shí) 然后得到一個(gè)樣本 用樣本來修正已有的認(rèn)識(shí) 先驗(yàn)概率分布 得到后驗(yàn)概率分布 各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行 將貝葉斯思想用于判別分析 就得到貝葉斯判別 設(shè)有k個(gè)總體G1 Gk 分別具有p維密度函數(shù) 已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率分布為q1 qk 建立相應(yīng)的判別函數(shù)和判別規(guī)則 例1設(shè)有和三個(gè)組 欲判別某樣品屬于何組 已知 現(xiàn)計(jì)算屬于各組的后驗(yàn)概率 解 設(shè)有k個(gè)總體D1 Dk 分別具有Rp的一個(gè)劃分 即D1 Dk互不相交 且D1 Dk Rp 如果這個(gè)劃分取的適當(dāng) 正好對(duì)應(yīng)與k個(gè)總體 這時(shí)的判別規(guī)則可以采用如下方法 問題是如何得到這個(gè)劃分 用c j i 表示樣品來自于Gi而被誤判為Gj的損失 這一誤判的概率為 于是有以上判別規(guī)則 所帶來的平均損失為 2貝葉斯判別分析的基本方法 目的是求 使平均損失最小 假設(shè)有空間Rm 的平均損失 以貝葉斯判別的思想得到劃分D1 Dk為 當(dāng)抽取了一個(gè)未知總體的樣本值X 要判斷它屬于哪個(gè)總體 只要計(jì)算出k個(gè)按先驗(yàn)分布加權(quán)的誤判平均損失 具體來說 在兩種劃分下的總平均損失達(dá)到極小 說明是貝葉斯判別的解 例3設(shè)有和三個(gè)組 欲判別某樣品屬于何組 已知 假定誤判損失矩陣為 4Fisher判別 Fisher判別的思想是投影 將k組p維數(shù)據(jù)投影到某一個(gè)方向 使得它們的投影組與組之間盡可能地分開 設(shè)從k個(gè)總體分別取得k組p維觀測(cè)值 令a為Rp中地任意向量 u x a x為x向以a為法線方向的投影 上述數(shù)據(jù)的投影為 正好組成方差分析的數(shù)據(jù) 其組間平方和為 組內(nèi)平方和 如果k組均值有差異 則 應(yīng)充分大 或者 應(yīng)充分大 所以可以求a 使得 a 達(dá)到最大 由于這個(gè)a不唯一 因?yàn)槿绻鸻使得 a 達(dá)到極大 則ca也使 a 達(dá)到極大 c為任意實(shí)數(shù) 由矩陣知識(shí) a 的極大值為 1 它是 B E 0的最大特征根 l1 lr為相應(yīng)的特征向量 當(dāng)a l1 時(shí) 可使 a 達(dá)到最大 由于 a 的大小可衡量判別函數(shù)u x a x的效果 故稱 a 為判別效率 定理4 1費(fèi)歇準(zhǔn)則下的線性判別函數(shù)u x a x的解a為方程 B E 0的最大特征根 1所對(duì)應(yīng)的特征向量l1 且相應(yīng)的判別效率為 1 1 在實(shí)際問題中 僅用一個(gè)線性判別函數(shù)不能很好的區(qū)別各個(gè)總體 可取 2對(duì)應(yīng)的特征向量l2 建立第二個(gè)判別函數(shù)l 2x 若u x l x為判別函數(shù) 則 u x 也為具有與u x 相同的判別函數(shù) 判別規(guī)則為 例3為研究一個(gè)城市的居民家庭 按有無割草機(jī)可以分為兩組 有割草機(jī)的一組記為1 無割草機(jī)的一組記為0 割草機(jī)工廠欲判斷一些家庭是否購買割草機(jī) 調(diào)查兩個(gè)指標(biāo) 家庭收入和房前屋后土地面積 試建立判別函數(shù) 割草機(jī) sav 5逐步判別 變量選擇的好壞直接影響判別的好壞 如果在某個(gè)判別問題中將主要的指標(biāo)忽略了 由此建立的判別函數(shù)其效果一定不好 在實(shí)際問題 事先并不十分清楚哪些指標(biāo)時(shí)是主要的 這時(shí) 是否將有關(guān)的指標(biāo)盡量的加入計(jì)算 理論和實(shí)踐證明 指標(biāo)太多 不僅帶來大量的計(jì)算而且許多對(duì)判別無用指標(biāo)反而會(huì)干擾我們的視線 因此適當(dāng)篩選變量就成為一個(gè)很重要的問題 凡具有篩選變量能力的判別方法稱為逐步判別法 逐步判別法的原則 在x1 xm 即m個(gè)自變量 中選出一個(gè)變量 它使 維爾克斯統(tǒng)計(jì)量達(dá)到最小 假定首先挑選的變量次序是按自然的次序 即第r步正好選中xr 第一步選中x1 如不顯著 則表明一個(gè)變量不選 不能用判別分析 如顯著 則進(jìn)入下一步 仿此 如已入選r個(gè)變量 不妨設(shè)為x1 xr 則在未選中 的變量中逐次選一個(gè)與它們進(jìn)行配合 計(jì)算 1i r l m 選擇使上式達(dá)到最小的變量作為第r 1個(gè)變量 進(jìn)行檢驗(yàn) 配合的 1值 選擇使 1i達(dá)到最小的作為第二個(gè)變量 2 在未選中的變量中 計(jì)算它們與已選中的變量x1 3 在已選入的r個(gè)變量 要考慮較早選中的變量其重要性是否發(fā)生變化 應(yīng)及時(shí)把不能提供附加信息的變量剔除出去 4 最后即不能引進(jìn)變量也不能剔除變量 根據(jù)已選中的變量建立判別函數(shù) 6判別分析方法步驟 一 判別分析的對(duì)象 研究目的 1 確定在兩個(gè)或者更多事先定義的組上的一組變量的均值是否存在顯著性差異 2 確定哪些變量在兩個(gè)或更多組的平均得分剖面的的差異中解釋最多 3 在一組變量得分的基礎(chǔ)上 建立將對(duì)象分類的步驟 根據(jù)目的 對(duì)于組間差異或者正確地將個(gè)體進(jìn)行分類歸類感興趣 進(jìn)行判別分析 4 建立由這兩組變量形成的組與組之間判別維數(shù)的數(shù)目與構(gòu)成 二 判別分析的研究設(shè)計(jì) 1 解釋變量與被解釋變量的選擇 2 樣本容量 3 樣本的分割 三 判別分析的假定 四 估計(jì)判別模型和評(píng)估整體擬合 1 計(jì)算方法 2 統(tǒng)計(jì)顯著性 3 評(píng)估整體擬合 1 計(jì)算判別z得分 根據(jù)判別函數(shù) 可以建立判別z得分的值 式中 Zjk為對(duì)象k對(duì)判別函數(shù)j的判別得分 a為截距 Wi為解釋變量i的判別權(quán)重 Xik為對(duì)象k的解釋變量i 2 檢驗(yàn)組的差異 一種評(píng)估整體擬合的方法式根據(jù)判別z得分 確定各組的差異大小 各組差異的綜合測(cè)量是比較組的重心 判別分析中每個(gè)觀測(cè)是通過它是否被正確歸類來評(píng)價(jià)的 考慮 利用分類矩陣的統(tǒng)計(jì)和實(shí)際的基本原理 分割點(diǎn)的確定 分類矩陣的構(gòu)造和評(píng)價(jià)分類精度的標(biāo)準(zhǔn) 判別函數(shù)的顯著性檢驗(yàn)并沒有說明函數(shù)擬合有多好 如果判別檢驗(yàn)顯示判別函數(shù)顯著通常構(gòu)造分類矩陣來提供判別函數(shù)的判別效力的更精確的估計(jì) 3 評(píng)價(jià)組關(guān)系預(yù)測(cè)的精度 首先臨界得分 每個(gè)觀測(cè)得分與臨界得分相比較來確定個(gè)體應(yīng)分到哪一類中 臨界得分 最優(yōu)臨界得分因各組大小是否相等而不同如果兩組是相同的大小 最優(yōu)臨界得分是兩組的重心的中點(diǎn) 臨界最優(yōu)得分定義為 各組不是相等的大小 但可假定可以代表總體部分 加權(quán)的組的重心可以為判別函數(shù)最優(yōu)臨界得分 所有計(jì)算臨界得分的公式都是假定正態(tài)分布和已知組的協(xié)方差結(jié)構(gòu) 可以用偏Q統(tǒng)計(jì)量來檢驗(yàn)分類矩陣的判別效力 評(píng)估模型擬合的最后一個(gè)方法是在每個(gè)觀測(cè)的基礎(chǔ)上研究預(yù)測(cè)結(jié)果 目的是理解被錯(cuò)判的觀測(cè)和不是該組代表的觀測(cè) 五 結(jié)果解釋 推薦用 1 標(biāo)準(zhǔn)化判別權(quán)重 2 判別載荷 3 偏F值 研究預(yù)測(cè)結(jié)果 目的是理解被錯(cuò)判的觀測(cè)和不是該組代表的觀測(cè) 解釋問題 首先能簡(jiǎn)化判別權(quán)重或載荷以利于刻畫判別函數(shù) 如何表示解釋變量對(duì)判別函數(shù)的影響 當(dāng)保留兩個(gè)或兩個(gè)以上的判別函數(shù)時(shí)需要一個(gè)綜合的量來描述一個(gè)變量對(duì)所有顯著函數(shù)的貢獻(xiàn) 能力指數(shù)是反映每個(gè)變量判別能力的相對(duì)指標(biāo) 它包括一個(gè)變量對(duì)判別函數(shù)的貢獻(xiàn) 判別載荷 又包含一個(gè)方程對(duì)整個(gè)解的相對(duì)貢獻(xiàn) 對(duì)方程特征根的相對(duì)測(cè)量 綜合指數(shù)只對(duì)有顯著性的判別函數(shù)上的個(gè)體能力指數(shù)之和 綜合指數(shù)僅當(dāng)每個(gè)變量的相對(duì)重要性時(shí)是有用的 能力指數(shù)計(jì)算 第一步 計(jì)算每個(gè)顯著的判別函數(shù)的能力值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論