版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《多元統(tǒng)計分析》課程實施大綱1.教學理念 12.課程介紹 22.1課程的性質 22.2課程在學科專業(yè)結構中的地位、作用 22.3課程的前沿及發(fā)展趨勢 22.4學習本課程的必要性 23.教師簡介 33.1教師的職稱、學歷 33.2教育背景 33.3研究興趣(方向) 34.先修課程 45.課程目標 45.1知識與技能方面 45.2過程與方法方面 45.3情感、態(tài)度與價值觀方面 46.課程內容 56.1課程的內容概要 56.2教學重點、難點 66.3學時安排 77.課程實施 87.1教學單元一多元正態(tài)分布、均值向量和協(xié)方差陣的檢驗 87.2教學單元二聚類分析 107.3教學單元三判別分析 157.4教學單元四主成分分析 187.5教學單元四因子分析 277.6教學單元四對應分析 317.7教學單元四典型相關分析 447.8教學單元四多重線性分析 498.課程要求 518.1學生自學要求 518.2課外閱讀要求 528.3課堂討論要求 528.4課程實踐要求 529.課程考核 529.1出勤(遲到、早退等)、作業(yè)、報告等的要求 529.2成績的構成與評分規(guī)則說明 529.3考試形式及說明 5210.學術誠信 5210.1考試違規(guī)與作弊處理 5210.2杜撰數(shù)據(jù)、信息處理等 5210.3學術剽竊處理等 5211.課堂規(guī)范 5211.1課堂紀律 5211.2課堂禮儀 5312.課程資源 5312.1教材與參考書 5312.2專業(yè)學術著作 5312.3專業(yè)刊物 5312.4網(wǎng)絡課程資源 5312.5課外閱讀資源 5313.教學合約 5313.1閱讀課程實施大綱,理解其內容 5313.2同意遵守課程實施大綱中闡述的標準和期望 5314.其他說明 53PAGE511.教學理念1.1全面貫徹以學生為主體的教學策略。關注學生現(xiàn)有基礎和認知發(fā)展水平,在課堂中講授真正能讓學生的進步和發(fā)展的多元統(tǒng)計知識技能和思維方式。首先,在課前做到“備學生”認真、充分。其次,本課程要促進學生全面的發(fā)展。不僅傳授多元統(tǒng)計學學科的發(fā)展,而且向學生傳遞多元統(tǒng)計思想方法、分析問題的思維角度等。1.2關注教學活動的效益。授課時不能以最短時間講授最多內容為衡量效益的標準,而要時刻考查學生的習得情況(根據(jù)課堂提問、隨堂練習、課后作業(yè)、輔導答疑來實現(xiàn)),來指導教學,故而效益的衡量標準應該是在有限的時間內讓學生學到、學懂更多的知識。對教授的要有詳略處理知識,那些有效知識、在學生以后的學習、生活中起重要作用的知識要重點講、哪怕會多花些時間也是值得的??傊痪湓挘涸谟邢迺r間內讓學生掌握更多的有效知識是衡量教學效益的標準。1.3關注教學的量化?!爸褐?,百戰(zhàn)不殆”,量化是了解你從事工作有無效果、將來如何采取措施的前提。量化分為對學生的量化和對教師的量化。如對學生的量化,課后習題一定要有針對性,主要瞄準你所教授的有效知識來設置。對教師的量化,如教學目標盡可能明確與具體,以便檢測教師的工作效益。但是并不能簡單地說量化就是好的、科學的。應該科學地對待定量與定性、過程與結果的結合,全面地反映學生的學業(yè)成就與教師的工作表現(xiàn)。因此,有效教學既要反對拒絕量化,又要反對過于量化。1.4課后反思教學。對教學活動勤于反思,教學活動效果好,總結為什么會好?有沒有會更好的教學方式?教學活動效果差,尋找差的原因,如何在今后的教學中避免類似的問題。2.課程介紹2.1課程的性質本課程為統(tǒng)計學專業(yè)學生的限選課,考核方式為閉卷考試。2.2課程在學科專業(yè)結構中的地位、作用多元統(tǒng)計分析是從經(jīng)典統(tǒng)計學中發(fā)展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯(lián)的情況下分析它們的統(tǒng)計規(guī)律,很適合現(xiàn)代科學研究的特點。主要內容包括多元正態(tài)分布及其抽樣分布、多元正態(tài)總體的均值向量和協(xié)方差陣的假設檢驗、多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應用。簡稱多元分析。當總體的分布是多維(多元)概率分布時,處理該總體的數(shù)理統(tǒng)計理論和方法。數(shù)理統(tǒng)計學中的一個重要的分支學科。2.3課程的前沿及發(fā)展趨勢多元統(tǒng)計分析有狹義與廣義之分,當假定總體分布是多元正態(tài)分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。隨著“大數(shù)據(jù)”時代的到來,人們有原來注重因果分析轉移到注重相關關系分析分析,多元統(tǒng)計分析勢必會在該領域取得更大的發(fā)展。2.4學習本課程的必要性作為統(tǒng)計學專業(yè)本科生專業(yè)限選課程,《多元統(tǒng)計分析》無論從夯實學生理論基礎、完善學生知識結構還是從培養(yǎng)學生思維方式等角度看,都是非常重要的。多元統(tǒng)計分析知識與實際問題銜接非常緊密,是學生將來從事專業(yè)工作的基本方法和基本的思維方法。4.先修課程高等代數(shù)、數(shù)學分析、概率論與數(shù)理統(tǒng)計、統(tǒng)計學導論等5.課程目標5.1知識與技能方面掌握現(xiàn)代統(tǒng)計學重要方法——多元統(tǒng)計方法體系的具體方法:多元正態(tài)總體的均值向量和協(xié)方差陣的假設檢驗、多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量。會對簡單的理論進行證明分析。技能方面:能運用相關知識結合Spss軟件對數(shù)據(jù)進行分析,書寫數(shù)據(jù)分析報告。5.2過程與方法方面在學習過程中讓學生體會甚至能吸收掌握運用多元統(tǒng)計分析的基本統(tǒng)計思想:抓數(shù)據(jù)信息的主要矛盾、正交變換等重要思想,體會這些思想如何用統(tǒng)計的工具去實現(xiàn),體會知識創(chuàng)造的過程。5.3情感、態(tài)度與價值觀方面在學習過程中可以貫穿一些科學研究的奇聞軼事和豐富的實際例子來激發(fā)學生對統(tǒng)計學的學習熱情、對本專業(yè)的熱愛。培養(yǎng)學生對統(tǒng)計科學的嚴謹態(tài)度和尊重數(shù)據(jù)客觀性的態(tài)度。6.課程內容6.1課程的內容概要多元統(tǒng)計分析研究客觀事物中多個變量(或多個因素)之間相互依賴的統(tǒng)計規(guī)律性。它的重要基礎之一是多元正態(tài)分析。又稱多元分析
。如果每個個體有多個觀測數(shù)據(jù),或者從數(shù)學上說,如果個體的觀測數(shù)據(jù)能表為P維歐幾里得空間的點,那么這樣的數(shù)據(jù)叫做多元數(shù)據(jù),而分析多元數(shù)據(jù)的統(tǒng)計方法就叫做多元統(tǒng)計分析。它是數(shù)理統(tǒng)計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統(tǒng)計分析在理論上得到迅速發(fā)展。50年代中期,隨著電子計算機的發(fā)展和普及,多元統(tǒng)計分析在地質、氣象、生物、醫(yī)學、圖像處理、經(jīng)濟分析等許多領域得到了廣泛的應用,同時也促進了理論的發(fā)展。各種統(tǒng)計軟件包如SAS,SPSS等,使實際工作者利用多元統(tǒng)計分析方法解決實際問題更簡單方便。重要的多元統(tǒng)計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。多重回歸分析簡稱回歸分析。其特點是同時處理多個因變量。回歸系數(shù)和常數(shù)的計算公式與通常的情況相仿,只是由于因變量不止一個,原來的每個回歸系數(shù)在此都成為一個向量。因此,關于回歸系數(shù)的檢驗要用T2統(tǒng)計量;對回歸方程的顯著性檢驗要用Λ統(tǒng)計量。判別分析由k個不同總體的樣本來構造判別函數(shù),利用它來決定新的未知類別的樣品屬于哪一類,這是判別分析所處理的問題。它在醫(yī)療診斷、天氣預報、圖像識別等方面有廣泛的應用。聚類分析又稱數(shù)值分類。聚類分析和判別分析的區(qū)別在于,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標準,對N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、后背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變量(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。主成分分析又稱主分量分析,是將多個變量通過線性變換以選出較少個數(shù)重要變量的一種方法。設原來有p個變量x1,x2,…,xp,為了簡化問題,選一個新變量z。要求z盡可能多地反映p個變量的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定后,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變量,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變量的信息。對應分析這是70年代地質學家提出的方法。對非負值指標的樣本資料矩陣作適當?shù)奶幚砗?同時進行R型與Q型的主成分分析,將結果綜合在圖上進行解釋,可以得到指標隨時間、空間位置變化的規(guī)律。它的理論正在引起多方面的重視。因子分析它是由樣本的資料將一組變量分解為一些公共因子f與特殊因子s的線性組合,即有常數(shù)矩陣A使у=Af+s。公共因子f的客觀內容有時是明確的,如在心理研究中,根據(jù)學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易于解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。典型相關分析它是尋求兩組變量各自的線性函數(shù)中相關系數(shù)達到最大值的一對,這稱為第一對典型變量,還可以求第二對,第三對,等等,這些成對的變量,彼此是不相關的。各對的相關系數(shù)稱為典型相關系數(shù)。通過這些典型變量所代表的實際含意,可以找到這兩組變量間的一些內在聯(lián)系。典型相關分析雖然30年代已經(jīng)出現(xiàn),但至今未能廣泛應用。多元方差分析它是處理多變量方差分析的方法。6.2教學重點、難點重點:聚類分析、主成分分析和因子分析難點:多元統(tǒng)計分析的理論基礎、矩陣論相關知識、主成分分析6.3學時安排第一章多元正態(tài)分布3學時
1.1多元分布的基本概念
1.2統(tǒng)計距離
1.3多元正態(tài)分布
1.4均值向量和協(xié)方差陣的估計
1.5常用分布及抽樣分布第二章均值向量和協(xié)方差陣的檢驗3學時
2.1均值向量的檢驗
2.2協(xié)方差陣的檢驗
2.3有關檢驗的上機實現(xiàn)第三章聚類分析6學時
3.1聚類分析的基本思想
3.2相似性度量
3.3類和類的特征
3.4系統(tǒng)聚類法
3.5模糊聚類分析
3.6K-均值聚類和有序樣品的聚類
3.7計算步驟與上機實現(xiàn)
3.8社會經(jīng)濟案例研究第四章判別分析4學時
4.1判別分析的基本思想
4.2距離判別
4.3貝葉斯判別
4.4費歇判別
4.5逐步判別
4.6判別分析應用的幾個例子第五章主成分分析6學時
5.1主成分分析的基本原理
5.2總體主成分及其性質
5.3樣本主成分的導出
5.4有關問題的討論
5.5主成分分析步驟及框圖
5.6主成分分析的上機實現(xiàn)第六章因子分析4學時
6.1因子分析的基本理論
6.2因子載荷的求解
6.3因子分析的步驟與邏輯框圖
6.4因子分析的上機實現(xiàn)第七章對應分析4學時
7.1列聯(lián)表及列聯(lián)表分析
7.2對應分析的基本理論
7.3對應分析的步驟及邏輯框圖
7.4對應分析的上機實現(xiàn)第八章典型相關分析4學時
8.1典型相關分析的基本理論及方法
8.2典型相關分析的步驟及邏輯框圖
8.3典型相關分析的上機實現(xiàn)
8.4社會經(jīng)濟案例研究
第九章多重線性分析4學時
9.1對數(shù)線性模型基本理論和方法
9.2對數(shù)線性模型的上機實現(xiàn)
9.3Logistic回歸基本理論和方法
9.4Iogistic回歸的方法及步驟課堂討論與習題解答7學時7.課程實施7.1教學單元一多元正態(tài)分布、均值向量和協(xié)方差陣的檢驗7.1.1教學日期2015-2016學年第一學期第九周周二、周四、周五7.1.2教學目標掌握多元統(tǒng)計分析基本理論、會進行均值向量和協(xié)方差陣的檢驗7.1.3教學內容(含重點、難點)重點:常用分布及抽樣分布,難點:協(xié)方差陣的檢驗7.1.4教學過程1.1多元正態(tài)分布如同一元統(tǒng)計分析中一元正態(tài)分布的重要地位一樣,多元正態(tài)分布在多元統(tǒng)計分析分析中占有重要的地位,因為多元統(tǒng)計分析中的許多重要理論和方法都是直接或間接建立在正態(tài)分布的基礎上,多元正態(tài)分布是多元統(tǒng)計分析的基礎。在實用中遇到的隨機向量常常是服從正態(tài)分析或近似正態(tài)分布。因此現(xiàn)實世界中許多實際問題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。多元正態(tài)分布是一元正態(tài)分布的推廣,多元分析中的很多統(tǒng)計方法,大都假定數(shù)據(jù)來自多元正態(tài)總體,但要判斷已有的一批數(shù)據(jù)是否來自多元正態(tài)總體,并不是一件容易的事。可是反過來要肯定數(shù)據(jù)不是來自多元正態(tài)總體,我們可對各個分量做正態(tài)檢驗,如果各個分量不服從一元正態(tài)分布,我們可以斷定這批數(shù)據(jù)不服從多元正態(tài)分布。§1.1.1隨機向量§1.1.2分布函數(shù)與密度函數(shù)§1.1.3多元變量的獨立性定義1.4:兩個隨機向量和稱為是相互獨立的,若§1.1.4隨機向量的數(shù)字特征§1.2統(tǒng)計距離和馬氏距離設X、Y從均值向量為μ,協(xié)方差陣為∑的總體G中抽取的兩個樣品,定義X、Y兩點之間的馬氏距離為§1.3多元正態(tài)分布§1.4均值向量和協(xié)方差陣的估計§1.5常用分布及抽樣分布1.5.1分布與Wishart分布1.5.2分布與分布1.5.3F中心分布與Wilks分布§1.6均值向量和協(xié)方差陣的檢驗§1.6.1均值向量的檢驗§1.6.2多元均值檢驗§1.6.3兩總體均值的比較§1.6.4多總體均值的檢驗7.1.5教學方法講授為主、課堂討論相結合的方法7.1.6作業(yè)安排及課后反思布置作業(yè)5題:基本概念2題,上機檢驗問題3題7.1.7課前準備情況及其他相關特殊要求課前布置學生預習所講內容7.1.8參考資料(具體到哪一章節(jié)或頁碼)1、方開泰《多元統(tǒng)計分析》第一章全部7.2教學單元二聚類分析7.2.1教學日期第十周周二、周四、周五7.2.2教學目標通過本章的教學應使學生了解聚類分析的原理和作用,了解聚類分析中常用的距離和相似系數(shù)以及它們各自的特點及適用范圍。掌握系統(tǒng)聚類法,能夠應用系統(tǒng)聚類法解決實際數(shù)據(jù)分析問題。7.2.3教學內容(含重點、難點)重點:系統(tǒng)聚類法,難點:模糊聚類分析7.2.4教學過程第一節(jié)什么是聚類分析一﹑聚類分析的概念聚類分析又稱群分析、點群分析,是定量研究樣品或指標分類問題的一種多元統(tǒng)計方法。其中類指相似元素的集合。二﹑聚類分析的基本思想認為所研究的樣品或指標之間存在著程度不同的相似性,根據(jù)一批樣品的多個觀測指標,找出能夠度量樣品或變量之間相似程度的統(tǒng)計量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個體有較大的相似性,不同類中的個體差異較大。第二節(jié)距離與相似系數(shù)聚類分析的目的是將研究對象進行分類。它是在事先不知類別的情況下對數(shù)據(jù)進行分類的分析方法。分類的依據(jù)有兩類:距離與相似系數(shù)。常用的距離有以下幾種:1﹑明考夫斯基距離2﹑絕對距離3﹑歐氏距離4﹑切比雪夫距離5﹑馬氏距離6﹑蘭氏距離常用的相似系數(shù)有以下幾種:1﹑夾角余弦2﹑相關系數(shù)聚類分析根據(jù)所用方法不同可分為系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法等等;根據(jù)分類對象不同又分為對樣品聚類(又稱Q型聚類分析)以及對變量進行聚類(又稱R型聚類分析)。對前者聚類多用距離,而后者聚類時多用相似系數(shù)。系統(tǒng)聚類法一﹑系統(tǒng)聚類法的基本思路首先,將n個樣品看成n類,定義各樣品之間的距離(此時其亦為類間距離);其次,按照某種原則將最接近的兩類合并為一個新類,于是得到n-1類,定義并計算各類間距離,然后再從中找出最接近的兩類合并成一個新類,重復以上步驟,直到全部樣品合并成一類為止,將上述合并過程畫成聚類譜系圖,據(jù)此圖可將全部樣品分類。二﹑八種系統(tǒng)聚類方法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法,系統(tǒng)聚類方法包括最短距離法﹑最長距離法﹑類平均法﹑重心法﹑WARD法等八種不同的方法,但這些方法聚類的步驟是完全一樣的。當采用歐氏距離時,八種并類方法可歸結為統(tǒng)一的遞推公式。三﹑譜系圖及利用譜系圖進行分類根據(jù)譜系圖確定分類個數(shù)的準則:Bemirmen于1972年提出了應根據(jù)研究的目的來確定適當?shù)姆诸惙椒?,并提出了一些根?jù)譜系圖來分析的準則。準則A:各類重心之間的距離必須很大;準則B:確定的類中,各類所包含的元素都不要太多;準則C:類的個數(shù)必須符合實用目的;準則D:若采用幾種不同的聚類方法處理,則在各自的聚類圖中應發(fā)現(xiàn)相同的類。應該指出,關于類的個數(shù)如何確定的問題,至今還沒有一個合適的標準,也就是說對任何觀測數(shù)據(jù)都沒有唯一正確的分類方法。第四節(jié)聚類分析的微機實現(xiàn)一﹑系統(tǒng)聚類分析在SPSS中的實現(xiàn)在SPSS主菜單中選擇Analyze→Classify→HierarchicalCluster,可實現(xiàn)系統(tǒng)聚類分析。二﹑系統(tǒng)聚類分析在SAS中的實現(xiàn)在SAS/ASSIST模塊中沒有現(xiàn)成的菜單操作,須通過編程來實現(xiàn)聚類分析。SAS/STAT模塊中的Cluster過程可實現(xiàn)系統(tǒng)聚類分析,可調用Tree過程生成聚類譜系圖。1.CLUSTER過程的一般格式為:PROCCLUSTERDATA=輸入數(shù)據(jù)集METHOD=聚類方法選項;VAR聚類用變量;COPY復制變量;RUN;其中的VAR語句指定用來聚類的變量。COPY語句把指定的變量復制到OUTTREE=的數(shù)據(jù)集中。PROCCLUSTER語句的主要選項有:(1)METHOD=選項,這是必須指定的,此選項決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計方法(K=、R=或HYBRID)。(2)DATA=輸入數(shù)據(jù)集,可以是原始觀測數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。(3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類樹的信息輸出到一個數(shù)據(jù)集,可以用TREE過程調用此數(shù)據(jù)集繪圖樹形圖并實際分類。(4)STANDARD選項,把變量標準化為均值為0,標準差為1。(5)PSEUDO選項和CCC選項。PSEUDO選項要求計算偽F和偽統(tǒng)計量,CCC選項要求計算、半偏和CCC統(tǒng)計量。其中CCC統(tǒng)計量也是一種考察聚類效果的統(tǒng)計量,CCC較大的聚類水平是較好的。2.TREE過程用法TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE=數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫出譜系聚類的樹形圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結果數(shù)據(jù)集。其一般格式如下: PROCTREEDATA=數(shù)據(jù)集OUT=輸出數(shù)據(jù)集NCLUSTER=類數(shù)選項; COPY復制變量; RUN;其中COPY語句把輸入數(shù)據(jù)集中的變量復制到輸出數(shù)據(jù)集(實際上這些變量也必須在CLUSTER過程中用COPY語句復制到OUTTREE=數(shù)據(jù)集)。PROCTREE語句的重要選項有:(1)DATA=數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE=數(shù)據(jù)集作為輸入數(shù)據(jù)集。(2)OUT=數(shù)據(jù)集,指定包含最后分類結果(每一個觀測屬于哪一類,用一個CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。(3)NCLUSTERS=選項,由用戶指定最后把樣本觀測分為多少個類(即聚類水平)。(4)HORIZONTAL,畫樹形圖時沿水平方向畫,即繪制水平方向的樹形圖,系統(tǒng)默認繪制垂直方向的樹形圖。3.例題我們以多元統(tǒng)計分析中一個經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對每一種測量了50棵植株的花瓣長(PETALLEN)、花瓣寬(PETALWID)、花萼長(SEPALLEN)、花萼寬(SEPALWID)。這個數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個觀測屬于的類別),用SAS去進行聚類分析,如果得到的類數(shù)和分類結果符合真實的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見系統(tǒng)幫助菜單的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。為了進行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計量,編寫如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以顯示如下的聚類過程(節(jié)略):TPseudoPseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt**2e149OB16OB7620.0000001.0000....148OB2OB5820.0000071.0000..1854.1.T147OB96OB10720.0000071.0000..1400.1.T146OB89OB11320.0000071.0000..1253.1.T145OB65OB12620.0000071.0000..1182.9.T………………………25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL36OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725950.00000.0000000.000.502.8偽F圖形7.2.5教學方法講授、操作演示和課堂討論7.2.6作業(yè)安排及課后反思1﹑簡述系統(tǒng)聚類法的基本思路。2﹑寫出樣品間相關系數(shù)公式。3﹑常用的距離及相似系數(shù)有哪些?它們各有什么特點?4﹑利用譜系圖分類應注意哪些問題?5﹑在SAS和SPSS中如何實現(xiàn)系統(tǒng)聚類分析?7.2.7課前準備情況及其他相關特殊要求課前預習7.2.8參考資料(具體到哪一章節(jié)或頁碼)1﹑于秀林﹑任雪松,多元統(tǒng)計分析,中國統(tǒng)計出版社,1999第五章2﹑王學民,應用多元分析,上海財經(jīng)大學出版社,1999第六章7.3教學單元三判別分析7.3.1教學日期第十一周周二、周四7.3.2教學目標通過本章的教學應使學生了解判別分析的基本思想和幾種常用判別分析方法,能夠用這些方法分析解決實際問題。7.3.3教學內容(含重點、難點)判別分析的基本思想;幾種常用判別分析方法的微機實現(xiàn);用判別分析方法分析解決實際問題。7.3.4教學過程第一節(jié)什么是判別分析一﹑判別分析的基本思想判別分析是用于判斷個體所屬類別的一種統(tǒng)計方法。根據(jù)已知觀測對象的分類和若干表明觀測對象特征的變量值,建立判別函數(shù)和判別準則,并使其錯判率最小,對于一個未知分類的樣本,將所測指標代入判別方程,從而判斷它來自哪個總體。當然,這種準則在某種意義上是最優(yōu)的,如錯判概率最小或錯判損失最小等。其前提是總體均值有顯著差異,否則錯分率大,判別分析無意義。二﹑判別分析與聚類分析的關系區(qū)別:判別分析是在研究對象分類已知的情況下,根據(jù)樣本數(shù)據(jù)推導出一個或一組判別函數(shù),同時指定一種判別準則,用于確定待判樣品的所屬類別,使錯判率最小。聚類分析預先不知道分類,它要解決的問題,正是對給定的未知分類的樣品進行分類,它是一種純統(tǒng)計技術,只要有多指標存在,就能根據(jù)各觀測的變量值近似程度排序,只是描述性的統(tǒng)計,而判別分析能對未知分類觀測判別分類,帶有預測性質。聯(lián)系:兩者都是研究分類問題,兩種方法往往聯(lián)合起來使用。樣品聚類是進行判別分析之前的必要工作,根據(jù)樣品聚類的結果進行判別分析。第二節(jié)距離判別法一﹑距離判別法的基本思想如果事先已有m類的先驗知識,將每一類視為一個總體,計算各樣品與各總體之間的距離,將各樣品分別歸入與其距離最近的類。二﹑兩總體距離判別設有兩個總體G1、G2,X為一樣品,定義X到兩總體的距離分別為d(X,G1)和d(X,G2),判別準則為:判別準則的直觀表述即樣品離哪個總體最近,則判該樣品屬于哪個總體。與上述準則等價的想法,就是算出樣品到各總體間距離的差,根據(jù)差值來判斷樣品的歸屬。三﹑兩總體距離判別的幾何意義四﹑多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準則無差異。第三節(jié)費歇判別法一﹑費歇判別法的基本思想從兩類總體中抽取具有p個指標的樣品的觀測數(shù)據(jù),借助于方差分析的思想構造一個判別函數(shù),即y=c1x1+c2x2+…+CPXP,其中系數(shù)c1,c2,…,cp的確定原則是使兩組間的區(qū)別達到最大,而使兩組內部的離差達到最小。二﹑判別函數(shù)費歇準則下的線性判別函數(shù)y(x)=cx的解應為方程|B—λE|=0的最大特征根λ1對應的特征向量ι1。三﹑判別準則對于待判樣品,將樣品的P個變量值代入判別函數(shù)中求出K個判別分Y值,比較結果大小,將樣品分入最大判別值對應的組中去。貝葉斯判別法一﹑貝葉斯判別法的基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計思想的一種判別分析法。這種方法先假定對研究對象已有一定的認識,這種認識以先驗概率來描述,然后取得一個樣本,用樣本來修正已有的認識,得到后驗概率分布,利用后驗概率分布進行統(tǒng)計推斷。二﹑判別規(guī)則1﹑后驗概率最大2﹑錯判的平均損失最小逐步判別法從模型中沒有任何變量開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻大的變量加入到模型中去,同時也檢驗在模型中是否存在由于新變量的引入而對判別貢獻不太顯著的變量,如果有,將其從模型中刪除,直到模型中的所有變量都符合引入模型的條件,而模型外的變量都不符合引入模型的條件為止,整個過程結束。整個篩選過程實質就是作假設檢驗,通過檢驗引入顯著性變量,剔除不顯著變量。反映在輸出結果上,通??梢杂肍值的大小作為變量引入模型的標準,即一個變量是否能進入模型主要取決于協(xié)方差分析的F檢驗的顯著水平。逐步判別過程本身并不建立判別函數(shù),篩選出重要變量后,可用前面所講的方法建立判別函數(shù)和判別準則,對新樣品進行判別歸類。第六節(jié)判別分析的微機實現(xiàn)一﹑判別分析在SPSS中的實現(xiàn)在SPSS主菜單中選擇Analyze→Classify→Discriminant,可實現(xiàn)判別分析。二﹑判別分析在SAS中的實現(xiàn)在SAS/ASSIST模塊中沒有現(xiàn)成的菜單操作,須通過編程來實現(xiàn)判別分析。SAS/STAT模塊中實現(xiàn)判別分析的過程有:Discrim,實現(xiàn)最基本的判別分析;Candisc,將判別分析與典型相關分析相結合;Stepdisc,逐步判別分析,是一個變量的篩選過程。1.SAS/STAT的DISCRIM過程一般格式如下: PROCDISCRIMDATA=輸入數(shù)據(jù)集選項; CLASS分類變量; VAR判別用自變量集合; RUN; 其中,PROCDISCRIM語句的選項中“輸入數(shù)據(jù)集”為訓練數(shù)據(jù)的數(shù)據(jù)集,包括一個分類變量(在CLASS語句中說明)和用來建立判別公式的自變量集合(在VAR語句中說明)??梢杂谩癟ESTDATA=數(shù)據(jù)集”選項指定一個檢驗數(shù)據(jù)集,檢驗數(shù)據(jù)集必須包含與訓練數(shù)據(jù)集相同的自變量集合,用訓練數(shù)據(jù)集產(chǎn)生判別準則后將對檢驗數(shù)據(jù)集中的每一個觀測給出分類值,如果這個檢驗數(shù)據(jù)集中有表示真實分類的變量可以在過程中用“TESTCLASS分類變量”語句指定,這樣可以檢驗判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來判別檢驗數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓練樣本及后驗概率、交叉確認分類的數(shù)據(jù)集。用“OUTD=數(shù)據(jù)集”指定訓練樣本及組密度估計數(shù)據(jù)集。用“TESTOUT=數(shù)據(jù)集”指定檢驗數(shù)據(jù)的后驗概率及分類結果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗數(shù)據(jù)及組密度估計。PROCDISCRIM語句還有一些指定判別分析方法的選項。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過檢驗決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計半徑”選項來規(guī)定核估計方法或者指定“K=最近鄰個數(shù)”來規(guī)定最近鄰估計方法。PROCDISCRIM語句有一些規(guī)定顯示結果的選項。用LISTERR顯示訓練樣本錯判的觀測。用CROSSLISTERR顯示用刀切法對訓練樣本判別錯判的觀測。用LIST對每一觀測顯示結果。用NOCLASSIFY取消對訓練樣本的分類檢驗。用CROSSLIST顯示對訓練樣本的刀切法的判別結果。用CROSSVALIDATE要求進行交叉核實。當有用“TESTDATA=”指定的檢驗數(shù)據(jù)集時用TESTLIST選項顯示檢驗數(shù)據(jù)集的檢驗結果,當有TESTCLASS語句時用TESTLISTERR可以列出檢驗樣本判錯的觀測,用POSTERR選項可以打印基于分類結果的分類準則的后驗概率錯誤率估計。用NOPRINT選項可以取消結果的顯示。在DISCRIM過程中還可以使用PRIORS語句指定先驗概率的取法。“PRIORSEQUAL”指定先驗概率相等?!癙RIORSPROPORTIONAL”指定先驗概率與各類個數(shù)成正比。“PRIORS概率值表”可以直接指定各組的先驗概率值。7.3.5教學方法講授、操作演示和課堂討論7.3.6作業(yè)安排及課后反思1﹑簡述距離判別法的基本思路,圖示其幾何意義。2﹑判別分析與聚類分析有何異同?3﹑簡述貝葉斯判別的基本思路。4﹑簡述費歇判別的基本思路。5在SPSS軟件中如何實現(xiàn)判別分析?7.3.7課前準備情況及其他相關特殊要求課前預習7.3.8參考資料(具體到哪一章節(jié)或頁碼)1﹑于秀林﹑任雪松,多元統(tǒng)計分析,中國統(tǒng)計出版社,1999第六章2﹑王學民,應用多元分析,上海財經(jīng)大學出版社,1999第五章7.4教學單元四主成分分析7.4.1教學日期第十一周周五第十二周周二、周四7.4.2教學目標通過本章的教學應使學生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能夠應用這一方法分析數(shù)據(jù),解決實際問題。7.4.3教學內容(含重點、難點)主成分分析的作用及其應用;貢獻率、累計貢獻率的意義及其在實際應用中的作用;主成分分析的微機實現(xiàn);應用主成分分析方法分析數(shù)據(jù),解決實際問題。7.4.4教學過程第一節(jié)主成分分析及基本思想一﹑主成分分析的概念主成分分析的工作對象是樣本點*定量變量類型的數(shù)據(jù)表。主成分分析的工作目標,就是要對這種多變量的平面數(shù)據(jù)表進行最佳綜合簡化。也就是說,要在力保數(shù)據(jù)信息丟失最少的原則下,對高維變量空間進行降維處理。很顯然,在一個低維空間分析問題要比在一個高維空間中分析容易的多。英國統(tǒng)計學家斯格特(scott)在1961年對157個英國城鎮(zhèn)發(fā)展水平進行調查時,原始測量的變量有57個。通過主成分分析發(fā)現(xiàn),只需5個新的綜合變量(他們是原變量的線性組合),就可以95%的精度表示原數(shù)據(jù)的變異情況,這樣,對問題的研究一下子從57維降到了5維??梢韵胂?,在5維空間對系統(tǒng)進行任何分析,都比在57維中更加快捷和有效。另一項十分著名的工作是美國的統(tǒng)計學家斯通(STONE)在1947年關于國民經(jīng)濟的研究。他曾利用美國1929-1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼﹑消費資料和生產(chǎn)資料﹑純公共支出﹑凈增庫存﹑股息﹑利息和外貿(mào)平衡等。在進行主成分分析后,竟以97.4%的精度,用3個新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入﹑總收入變化率和經(jīng)濟發(fā)展或衰退的趨勢。這樣,用3個綜合變量取代了原來的17個變量,問題得到了極大的簡化。一個多變量的高維系統(tǒng)如何進行降維處理,可以用幾個最直觀的例子來說明主成分分析的工作思路。假設有一個二維數(shù)據(jù)表,表中數(shù)據(jù)點的分布如圖所示,重心為g,很顯然,在長軸方向上,數(shù)據(jù)的離差最大,因此,所反映的數(shù)據(jù)信息也最多,這個方向被稱為數(shù)據(jù)變異的最大方向。如果將原點平移到g,并且做旋轉變換,便得到一個正交坐標系??梢钥闯觯羰÷远梯S,將數(shù)據(jù)點在長軸上投影,就會得到一個簡化的一維數(shù)據(jù)系統(tǒng)。因此,降維處理的核心思想,就是省卻變異不大的變量方向。又如,一個三維數(shù)據(jù)群點的分布是球形的,假若這個球是餅狀的,其變異較大的方向為u1和u2,而u3方向的變異很小,即在該方向上各樣本點取值沒有很大的差別,就可以不考慮u3方向,三維空間的數(shù)據(jù)點就可以在二維平面圖上得以顯示。達到降維的目的。從中也可以看出主成分分析從幾何上看是尋找p維空間中橢球體的主軸問題。主成分分析是考察多個定量(數(shù)值)變量間相關性的一種多元統(tǒng)計方法。它是研究如何通過少數(shù)幾個主成分來解釋多變量的方差—協(xié)方差結構,其功能在于簡化原有的變量群。具體地說,就是設法將原來多個指標重新組合成一組新的相互無關的綜合指標,來代替原來指標,同時根據(jù)實際需要從中可取幾個較少的綜合指標盡可能多的反映原來指標的信息。這些綜合指標是原來指標的線性組合,我們稱之為主成分。通過這種方法可以降低數(shù)據(jù)維數(shù),消除原始變量之間的相關性以便進一步利用其他方法對數(shù)據(jù)進行分析。二﹑主成分分析的基本思想各指標間既然有一定的相關性,就必然存在著起支配作用的共同因素,根據(jù)這一點,通過對原始變量相關矩陣內部結構關系的研究,找出影響某一過程的幾個綜合指標,使綜合指標為原來變量的線性組合,并使其盡可能多的反映原來指標的信息,綜合指標反映的信息量用其方差來表達,即綜合指標的方差越大,表示其包含的信息越多。在所有的線性組合中方差最大的稱為第一主成分,如果第一主成分不足以代表原來P個指標的信息,再選取第二個線性組合作為第二主成分,第一主成分已有的信息就不需要再出現(xiàn)在第二主成分中,依次可造出P個主成分。這些主成分之間不僅不相關,而且它們的方差依次遞減。在解決實際問題時,一般不是取P個主成分,而是根據(jù)累計貢獻率的大小取前幾個最大主成分,既保留了原指標大部分的信息,又達到降維的目的。第二節(jié)主成分分析模型及幾何解釋一﹑主成分分析的數(shù)學模型設原始變量為x1,x2,…,xp,考慮它們的線性變換yi=a1ix1+a2ix2+…+apixp(i=1,2,…,p)其中y1,y2,…,yp滿足以下條件:(1)cov(yi,yj)=0,(i≠j);(2)D(y1)≥D(y2)≥…≥D(yp)即y1是x1,x2,…,xp的一切線性組合中方差最大者,y2是方差次大者,依此類推,稱y1為x1,x2,…xp的第一主成分,y2為第二主成分,…,yp為第p個主成分。二﹑主成分的幾何意義主成分分析從幾何上看是尋找p維空間中橢球體的主軸問題。第三節(jié)主成分的計算一﹑主成分的概念主成分其實就是原來指標的一些特殊的線性組合,這些線性組合的系數(shù)就是原指標協(xié)方差矩陣特征值所對應的特征向量。用數(shù)學語言來描述即:設D(X)=V,則隨機向量X=(x1,x2,…,xp)ˊ的第i個主成分yi=aˊiX(i=1,2,…,p),其中ai為V的第i大特征根λi對應的單位特征向量。求主成分關鍵在于求出協(xié)方差陣V的特征向量,但實際中V是未知的,一般可用S作為V的估計求出S的特征值和特征向量作為V的特征值和特征向量的估計。通常,在進行數(shù)據(jù)分析之前,為了消除量綱影響要先將數(shù)據(jù)進行標準化,而對于標準化數(shù)據(jù)來說,其S與R相同,故在實際中常由樣本相關陣去估計V的特征值和特征向量。二﹑貢獻率和累計貢獻率貢獻率即λk在特征值總和中所占的比重;累計貢獻率即前m個特征值在特征值總和中所占的比重。累計貢獻率表達了前m個主成分對原始變量x1,x2,…,xp的信息提取率。通常取k使得前k個主成分的累計貢獻率達到70%至80%即可。第四節(jié)主成分分析的微機實現(xiàn)一﹑主成分分析在SPSS中的實現(xiàn)在SPSS主菜單中選擇Analyze→DataReduction→Factor,可借用因子分析過程實現(xiàn)主成分分析。二﹑主成分分析在SAS中的實現(xiàn)1.SAS中的PRINTCOMP過程有如下功能:(1)完成主成份分析。(2)主成份的個數(shù)可以由用戶自己確定,主成份的名字可以由用戶自己規(guī)定,主成份得分是否標準化可自己規(guī)定。(3)輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關陣、協(xié)方差陣或叉積陣。輸入為原始數(shù)據(jù)時,用戶還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關陣出發(fā)進行分析。由協(xié)方差陣出發(fā)時方差大的變量在分析中起到更大的作用。(4)計算結果有:簡單統(tǒng)計量,相關陣或協(xié)方差陣,從大到小排序的特征值和相應特征向量,每個主成份解釋的方差比例,累計比例等??缮蓛蓚€輸出數(shù)據(jù)集:一個包含原始數(shù)據(jù)及主成份得分,另一個包含有關統(tǒng)計量,類型為TYPE=CORR或COV。(5)可揭示變量間的共線關系。若某特征值特別接近0說明變量線性相關,這時用這些變量作回歸自變量可能得到錯誤的結果。2.主成分分析在SAS中的實現(xiàn)有窗口菜單操作,在SAS主菜單中選擇Solutions→ASSIST→DataAnalysis→Multivariate→PrincipalComponents,可實現(xiàn)主成分分析。下面是主成分分析中經(jīng)常用到的一些選項。PRINCOMP主要使用PROCPRINCOMP語句與VAR語句。PROCPRINCOMP語句用來規(guī)定輸入輸出和一些運行選項,包括:DATA=輸入數(shù)據(jù)集,可以是原始數(shù)據(jù)集,也可以是TYPE=CORR,COV的數(shù)據(jù)集;OUT=輸出包含原始數(shù)據(jù)和主成份得分的數(shù)據(jù)集;OUTSTAT=統(tǒng)計量輸出數(shù)據(jù)集;COV要求從協(xié)方差陣出發(fā)計算主成份。缺省為從相關陣出發(fā)計算。N=要計算的主成份個數(shù)。缺省時全算。STD要求在OUT=的數(shù)據(jù)集中把主成份得分標準化為單位方差。不規(guī)定時方差為相應特征值。用VAR語句指定原始變量。必須為數(shù)值型變量。3.例題(1)美國各種類型犯罪的主成份分析在數(shù)據(jù)集CRIME中有美國各個州的各種類型犯罪的犯罪率數(shù)據(jù)。希望對這些犯罪率數(shù)據(jù)進行主成份分析以概括犯罪情況。程序如下:/*EXAMPLE2*/DATACRIME;TITLE'各州每十萬人的犯罪率';INPUTCARDS;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONAARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHOILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTSMICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0;PROCPRINCOMPOUT=CRIMCOMP;RUN;PROCSORT;BYPRIN1;PROCPRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主成份作為總犯罪率排列';PROCSORT;BYPRIN2;PROCPRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主成份作為金錢犯罪與暴力犯罪對比的排列';輸入數(shù)據(jù)后,用PROCPRINCOMP對數(shù)據(jù)進行主成份分析,結果先給出了各變量的簡單統(tǒng)計量,變量的相關陣,其特征值和特征向量結果如下:EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046第一主成份貢獻率只有59%,前兩個主成份累計貢獻率達到76%,可以用前兩個主成份。前三個主成份累計貢獻率已達到87%,所以前三個主成份可以表現(xiàn)犯罪率的大部分信息。第一主成份的計算系數(shù)都是正數(shù),所以它是一個州的犯罪率的一個加權平均,代表這個州的總的犯罪情況。第二主成份在入室盜竊(BURGLARY)、盜竊罪(LARCENY)、汽車犯罪(AUTO)上有較大的正系數(shù),在謀殺(MURDER)、強奸(RAPE)、攻擊(ASSAULT)上有較大的負系數(shù),所以代表了暴力犯罪與其它犯罪的一種對比。第三主成份為搶劫、汽車犯罪等與盜竊罪、入室盜竊、強奸的對比,其意義不易解釋。為了看出各州按第一主成份和第二主成份由低到高排列的情況,先用SORT過程對主成分得分排了序,然后用PRINT過程打印了結果(結果略)。在按第一主成份排序中,NorthDakota、SouthDakota、WestVirginia排列在前,說明其犯罪率最低,Nevada、California排列在后,說明其犯罪率最高。在按第二主成份排列的結果中,Mississippi排在最前,說明其暴力犯罪最高,Massachusetts最后,說明其暴力犯罪最低。(2)一月和七月平均氣溫的主成份分析在數(shù)據(jù)集TEMPERAT中存放著美國一些城市一月和七月的平均氣溫。我們希望對這兩個氣溫進行主成分分析,希望用一個統(tǒng)一的溫度來作為總的可比的溫度,所以進行主成份分析。程序如下:/*EXAMPLE1*/DATATEMPERAT;INPUTCARDS;MOBILE51
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年銷售員技能等級考試模擬卷
- 2026年數(shù)據(jù)庫管理與系統(tǒng)開發(fā)綜合練習題
- 2026江蘇南京市東南大學網(wǎng)絡空間安全學院勞務派遣崗位招聘1人備考題庫完整參考答案詳解
- 2026山西醫(yī)科大學第二醫(yī)院急需緊缺高層次人才招聘8人備考題庫及一套完整答案詳解
- 2026年智慧城市建設與管理知識競賽題庫
- 2025至2030《中國咖啡行業(yè)市場現(xiàn)狀消費趨勢及品牌競爭格局研究報告》
- 2026湖北東風汽車研發(fā)總院整車與平臺開發(fā)招聘備考考試試題及答案解析
- 跨部門協(xié)作溝通指南(提高協(xié)作效率)
- 2026年寧德周寧縣消防救援大隊專職消防員招聘1人考試參考題庫及答案解析
- 公共安全教育推廣承諾書范文6篇
- 重點傳染病診斷標準培訓診斷標準
- 機柜端口對應表
- GB/T 3934-2003普通螺紋量規(guī)技術條件
- 蘭渝鐵路指導性施工組織設計
- CJJ82-2019-園林綠化工程施工及驗收規(guī)范
- 小學三年級閱讀練習題《鴨兒餃子鋪》原文及答案
- 六宮格數(shù)獨100題
- 杭州電子招投標系統(tǒng)使用辦法
- 車輛贈與協(xié)議模板
- CG5重力儀操作手冊
- 電解鋁項目投資計劃書(范文)
評論
0/150
提交評論