版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多元統(tǒng)計(jì)分析方法研究,一、如何做主成分分析 二、如何做因子分析 三、如何做聚類(lèi)分析 四、如何做判別分析,第十一章,主成分分析,一、基本思想 二、數(shù)學(xué)模型 三、模型的求解 四、主成分的性質(zhì) 五、基本步驟與應(yīng)用實(shí)例,因子分析,一、基本思想 二、數(shù)學(xué)模型 三、因子載荷的統(tǒng)計(jì)含義 四、因子的求解 五、因子得分 六、基本步驟與應(yīng)用實(shí)例,聚類(lèi)分析,一、基本思想 二、統(tǒng)計(jì)量 三、分類(lèi)方法 四、基本步驟與應(yīng)用實(shí)例,判別分析,一、基本思想 二、基本方法 三、判別效果的評(píng)價(jià) 四、基本步驟與應(yīng)用實(shí)例,基本思想,主成分分析就是設(shè)法將原來(lái)指標(biāo)重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中可
2、取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來(lái)的指標(biāo)的信息。,二維空間 多維空間,數(shù)學(xué)模型,x1,y1,x2,y2,旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)在y1軸方向上的離散程度最大,即y1的方差最大,變量y1代表了原始數(shù)據(jù)的絕大部分信息,在研究問(wèn)題時(shí),即使不考慮變量y2也損失不多的信息。 Y1與y2除起了濃縮作用外,還具有不相關(guān)性。 Y1稱(chēng)為第一主成分,y2稱(chēng)為第二主成分。,數(shù)學(xué)模型,如果系數(shù)uij滿(mǎn)足 ;而且系數(shù)uij的確使yi、與yj(ij)相互無(wú)關(guān),并使y1是x1,x2,xp的一切線(xiàn)性組合中方差最大者,y2是與y1不相關(guān)的x1,x2,xp的所有線(xiàn)性組合中方差最大者,yp是與y1,y2 ,,yp-1
3、都不相關(guān)的x1,x2,xp的所有線(xiàn)性組合中方差最大者,則稱(chēng)y1,y2,yp為原變量的第一,第二, ,第p主成分。,模型的求解,在應(yīng)用主成分分析研究問(wèn)題時(shí),通常先將數(shù)據(jù)標(biāo)準(zhǔn)化,以消除量綱對(duì)結(jié)果的影響。標(biāo)準(zhǔn)化的常用公式為:,為了求出主成分,只需求樣本協(xié)方差矩陣S或相關(guān)系數(shù)矩陣R的特征根和特征向量就可以。 (可以證明,變量x1,x2,xp標(biāo)準(zhǔn)化以后,其協(xié)方差矩陣S與相關(guān)系數(shù)矩陣R相等。 ),主成分的性質(zhì),性質(zhì)1:第k個(gè)主成分yk的系數(shù)向量是第k個(gè)特征根k所對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量Uk。 性質(zhì)2:第k個(gè)主成分的方差為第k個(gè)特征根k,且任意兩個(gè)主成分都是不相關(guān)的,也就是主成分y1,y2,yp的樣本協(xié)方差矩陣
4、是對(duì)角矩陣。 性質(zhì)3:樣本主成分的總方差等于原變量樣本的總方差。 性質(zhì)4:第k個(gè)樣本主成分與第j個(gè)變量樣本之間的相關(guān)系數(shù)為: 該相關(guān)系數(shù)又稱(chēng)為因子載荷量。 主成分個(gè)數(shù)的選取,基本步驟,(1)對(duì)原變量的樣本數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化變換 (2)求標(biāo)準(zhǔn)化數(shù)據(jù)矩陣的相關(guān)系數(shù)矩陣R (3)求R的特征根及相應(yīng)的特征向量和貢獻(xiàn)率等 (4)確定主成分的個(gè)數(shù) (5)解釋主成分的實(shí)際意義和作用,應(yīng)用實(shí)例,【例11.1】我國(guó)2000年各地區(qū)大中型工業(yè)企業(yè)主要經(jīng)濟(jì)效益指標(biāo)見(jiàn)表11.1,對(duì)各地區(qū)經(jīng)濟(jì)效益作出分析。,【解】1. 將數(shù)據(jù)標(biāo)準(zhǔn)化(結(jié)果見(jiàn)附表1),并求相關(guān)矩陣R為:,應(yīng)用實(shí)例,2. 求R的特征根及相應(yīng)的單位正交特征向
5、量和貢獻(xiàn)率 由R的特征方程 求得R的單位特征根為:,再由齊次線(xiàn)性方程組求得特征向量U,將具體結(jié)果整理為下表:,應(yīng)用實(shí)例,3. 確定主成分的個(gè)數(shù)q 按 的原則,取三個(gè)主成分就能夠?qū)I(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,且這三個(gè)主成分的累計(jì)方差貢獻(xiàn)率達(dá)到84.06%主成分的表達(dá)式為:,4. 主成分的經(jīng)濟(jì)意義 y1的含義是在綜合其它變量所反映信息的基礎(chǔ)上,突出地反映了企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)的大小。 y2在綜合其它變量信息的基礎(chǔ)上,突出地反映了企業(yè)投入資金的周轉(zhuǎn)速度。 y3在綜合其它變量信息的基礎(chǔ)上,突出地反映了工業(yè)產(chǎn)品滿(mǎn)足社會(huì)需求的情況,Excel操作,基本思想,因子分析的基本思想是通過(guò)對(duì)變量相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,
6、找出能夠控制所有變量的少數(shù)幾個(gè)潛在隨機(jī)變量去描述多個(gè)顯在隨機(jī)變量之間的相關(guān)關(guān)系,換句話(huà)說(shuō),因子分析是把每個(gè)可觀(guān)測(cè)的原始變量分解為兩部分因素,一部分是由所有變量共同具有少數(shù)幾個(gè)公共因子構(gòu)成的,另一部分是每個(gè)原始變量獨(dú)自具有的,即特殊因子部分,對(duì)于所研究的問(wèn)題就可試圖用最少個(gè)數(shù)的不可觀(guān)測(cè)的公共因子的線(xiàn)性函數(shù)與特殊因子之和來(lái)描述原來(lái)觀(guān)測(cè)的每一分量。,數(shù)學(xué)模型,(一)符號(hào)與假定 設(shè)有n個(gè)樣本,每個(gè)樣本觀(guān)測(cè)p個(gè)變量,記: 原始變量矩陣為X: ,公共因子變量矩陣為F: , 特殊因子矩陣為E: 假定因子模型具有以下性質(zhì): 1. E(x)=0,cov(x)= 2. E(F)=0,cov(F)=I 3. E(E
7、)=0,cov(e)=diag(12, 22, p2) 4. Cov(F,E)=0,數(shù)學(xué)模型,若用矩陣形式表示,則為:X=AF+E,式中的A,稱(chēng)為因子載荷矩陣,并且稱(chēng)aij 為第i個(gè)變量在第j個(gè)公共因子上的載荷,反映了第i個(gè)變量在第j個(gè)公共因子上的相對(duì)重要性。,因子載荷的統(tǒng)計(jì)含義,可以證明因子載荷aij 為第i個(gè)變量xi與第j個(gè)公共因子Fj的相關(guān)系數(shù),即反映了變量與公共因子的關(guān)系密切程度,aij越大,表明公共因子Fj與變量xi的線(xiàn)性關(guān)系越密切。,變量共同度 公共因子的方差貢獻(xiàn),因子的求解,設(shè)相關(guān)系數(shù)矩陣的特征根為12p,相應(yīng)的特征向量為U1,U2,Up,設(shè)由列向量構(gòu)成的矩陣有A表示,即A=,一
8、般來(lái)說(shuō),公共因子的個(gè)數(shù)q要小于等于變量的個(gè)數(shù)p,基本步驟,1. 用公式 對(duì)原始數(shù)據(jù)標(biāo)準(zhǔn)化 2. 建立相關(guān)系數(shù)矩陣R 3. 根據(jù) 及 求R的單位特征根與特征向量U; 4. 根據(jù) 求因子載荷矩陣A; 5. 寫(xiě)出因子模型X=AF+E,應(yīng)用實(shí)例,【例11.2】仍以我國(guó)2000年各地區(qū)大中型工業(yè)企業(yè)主要經(jīng)濟(jì)效益指標(biāo)作為研究對(duì)象,試求:(1)正交因子模型;(2)各個(gè)變量的共同度以及特殊因子方差;(3)每個(gè)因子的方差貢獻(xiàn)率以及三個(gè)因子的累計(jì)方差貢獻(xiàn)率;,【解】 1. (1) 將原始數(shù)據(jù)標(biāo)準(zhǔn)化后求得其相關(guān)系數(shù)矩陣R為,應(yīng)用實(shí)例,(2)特征根與特征向量,.440 -.250 .414 .460 .228 .24
9、1 -.408 .227 .247 U= .158 .689 -.373 .487 -.126 .130 .408 .153 -.450 -.022 .566 .592,(3)因子載荷矩陣為:,應(yīng)用實(shí)例,(4)因子模型為,應(yīng)用實(shí)例,基本思想,其基本思想是認(rèn)為研究的樣本或變量之間存在著程度不同的相似性,根據(jù)一批樣本的多個(gè)觀(guān)測(cè)指標(biāo),具體找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù),把一些相似程度較大的樣本(或變量)聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(變量)也聚合為一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有的樣本
10、(或變量)都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng);最后再把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張圖,將親疏關(guān)系表示出來(lái)。,統(tǒng)計(jì)量,聚類(lèi)分析可以分為Q型聚類(lèi)和R型聚類(lèi)兩種,Q型聚類(lèi)是指對(duì)樣本進(jìn)行分類(lèi),R型聚類(lèi)是指對(duì)變量進(jìn)行分類(lèi)。 通常Q型聚類(lèi)采用距離統(tǒng)計(jì)量,R型聚類(lèi)采用相似系數(shù)統(tǒng)計(jì)量,分類(lèi)方法(系統(tǒng)聚類(lèi)法),分類(lèi)的形成 類(lèi)與類(lèi)間的距離,基本步驟,1、先對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱對(duì)數(shù)據(jù)的影響; 2、認(rèn)為各樣本點(diǎn)自成一類(lèi)(即n個(gè)樣本點(diǎn)一共有n類(lèi)),然后計(jì)算各樣本點(diǎn)之間的距離,并將距離最近的兩個(gè)樣本點(diǎn)并成一類(lèi); 3、選擇并計(jì)算類(lèi)與類(lèi)之間的距離,并將距離最近的兩類(lèi)合并; 4、重復(fù)上面作法直至所
11、有樣本點(diǎn)歸為所需類(lèi)數(shù)為止; 5、最后繪制聚類(lèi)圖。,應(yīng)用實(shí)例,【例11.3】為了研究2000年我國(guó)部分地區(qū)工業(yè)企業(yè)經(jīng)濟(jì)效益的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型劃分。,基本思想,判別分析是在已知研究對(duì)象用某種方法已分成若干類(lèi)的情況下,確定新的觀(guān)察數(shù)據(jù)屬于已知類(lèi)別中的哪一類(lèi)的分析方法。 判別分析方法在處理問(wèn)題時(shí),通常要給出一個(gè)衡量新樣本與已知組別接近程度的描述指標(biāo),即判別函數(shù),同時(shí)也指定一種判別規(guī)則,用以判定新樣本的歸屬。,基本方法,距離判別 費(fèi)歇爾判別 貝葉斯判別,判別效果的評(píng)價(jià),每次從已知類(lèi)別的樣本中剔除一個(gè)樣本點(diǎn),用剩余的樣本建立判別函數(shù),然后用這一判別函數(shù)去判別被剔除的樣本;依此類(lèi)推,直到所有已知
12、類(lèi)別的樣本都被判別過(guò)。記下所有被錯(cuò)判的樣本,計(jì)算出每個(gè)總體中的錯(cuò)判率和總的錯(cuò)判率,根據(jù)錯(cuò)判率的大小來(lái)衡量判別效果。,基本步驟,1. 計(jì)算判別函數(shù); 2. 檢驗(yàn)判別效果; 3. 根據(jù)判別函數(shù)對(duì)待判樣本進(jìn)行判別所屬類(lèi)別。,應(yīng)用實(shí)例,【例11.4】13個(gè)地區(qū)按經(jīng)濟(jì)效益已分為兩大類(lèi),若又取得三個(gè)地區(qū)的資料,試對(duì)其進(jìn)行判別分析。,工業(yè)增加值 資產(chǎn)貢獻(xiàn)率 資產(chǎn)負(fù)債率 流動(dòng)資產(chǎn)周轉(zhuǎn)次數(shù) 勞動(dòng)生產(chǎn)率 產(chǎn)品銷(xiāo)售率 ,企業(yè)經(jīng)濟(jì)效益,高??蒲星闆r,學(xué)校教師人數(shù) 承擔(dān)科研項(xiàng)目 學(xué)??蒲薪?jīng)費(fèi) 課題項(xiàng)目完成數(shù) 獲得獎(jiǎng)勵(lì)數(shù) ,二維空間,以?xún)蓚€(gè)指標(biāo)為例,信息總量以總方差表示:,其中y1、y2分別都是x1、x2的線(xiàn)性組合,并且
13、信息盡可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1來(lái)分析問(wèn)題,起到了降維的作用。,多維空間,推而廣之,第一主成分y1的方差達(dá)到最大,其方差越大,表示其所包含的信息越多。如果第一主成分還不能反映原指標(biāo)的全部信息,再考慮選取第二主成分y2,y2在剩余的線(xiàn)性組合中方差最大,并且與y1不相關(guān),如若第一、第二主成分仍然不能反映原變量的全部信息,再考慮選取第三主成分y3,y3在剩余的線(xiàn)性組合中方差最大,并且與y1、y2不相關(guān),依此可求出全部p個(gè)主成分,它們的方差是依次遞減的。 在實(shí)際工作中,在不損失較多信息的情況下,通常選取前幾個(gè)主成分來(lái)進(jìn)行分析,達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的。,主成分個(gè)數(shù)的選取,
14、1.累積貢獻(xiàn)率達(dá)到85%以上 2.根據(jù)特征根的變化來(lái)確定,表11.1,附表1:,Excel 操作主成分分析菜單,Excel 操作主成分分析對(duì)話(huà)框,變量共同度,因子載荷矩陣中各行元素的平方和:,稱(chēng)為變量x1,x2,xp的共同度。它表示q個(gè)公共因子F1,F2,Fq對(duì)變量xi的方差貢獻(xiàn),變量共同度的最大值為1,值越接近于1,說(shuō)明該變量所包含的原始信息被公共因子所解釋的部分越大,用q個(gè)公共因子描述變量xi就越有效;而當(dāng)值接近于0時(shí),說(shuō)明公共因子對(duì)變量的影響很小,主要由特殊因子來(lái)描述。,公共因子的方差貢獻(xiàn),因子載荷矩陣中各列元素的平方和:,稱(chēng)為公共因子F1,F2,Fq的方差貢獻(xiàn)。它與p個(gè)變量的總方差之比
15、為: 是衡量各個(gè)公共因子相對(duì)重要程度的一個(gè)指標(biāo)。方差貢獻(xiàn)率越大,該因子就越重要。,距離,設(shè)有n個(gè)樣本,每個(gè)樣本觀(guān)測(cè)p個(gè)變量,數(shù)據(jù)結(jié)構(gòu)為,絕對(duì)距離: 歐氏距離: 切比雪夫距離: 馬氏距離:,相似系數(shù),夾角余弦: 相關(guān)系數(shù):,分類(lèi)的形成,先將所有的樣本各自算作一類(lèi),將最近的兩個(gè)樣本點(diǎn)首先聚類(lèi) ,再將這個(gè)類(lèi)和其他類(lèi)中最靠近的結(jié)合,這樣繼續(xù)合并,直到所有的樣本合并為一類(lèi)為止。 若在聚類(lèi)過(guò)程中,距離的最小值不唯一,則將相關(guān)的類(lèi)同時(shí)進(jìn)行合并。,類(lèi)與類(lèi)間的距離,設(shè)兩個(gè)類(lèi) , ,分別為n1和n2個(gè)樣本, 最短距離法: 最長(zhǎng)距離法: 重心法:兩類(lèi)的重心分別為 ,則 類(lèi)平均法: 離差平方和法:首先將所有的樣本自成
16、為一類(lèi),然后每次縮小一類(lèi),每縮小一類(lèi)離差平方和就要增大,選擇使整個(gè)類(lèi)內(nèi)離差平方和增加最小的兩類(lèi)合并,直到所有的樣本歸為一類(lèi)為止。,距離判別,距離判別法的基本思想是,先根據(jù)已知分類(lèi)的數(shù)據(jù),分別計(jì)算各類(lèi)的重心,然后計(jì)算待判樣本與各類(lèi)的距離,與哪一類(lèi)距離最近,就判待判樣本x屬于哪一類(lèi)。,判別函數(shù)為:W(x)=D(x,G2)-D(x,G1) 判別準(zhǔn)則為:,費(fèi)歇爾判別,費(fèi)歇爾判別法的基本思想是通過(guò)將多維數(shù)據(jù)投影至某個(gè)方向上,投影的原則是將總體與總體之間盡可能分開(kāi),然后再選擇合適的判別規(guī)則,將待判的樣本進(jìn)行分類(lèi)判別。所謂的投影實(shí)際上是利用方差分析的思想構(gòu)造也一個(gè)或幾個(gè)超平面,使得兩組間的差別最大,每組內(nèi)的差別最小。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026中共海南省委黨校(省行政學(xué)院 省社會(huì)主義學(xué)院)考核招聘高層次人才13人備考題庫(kù)有完整答案詳解
- 2025年數(shù)據(jù)中心接地專(zhuān)項(xiàng)考核試卷及答案
- 2026 年中職表演類(lèi)(器樂(lè)基礎(chǔ))試題及答案
- 蘇州2025年昆山市機(jī)關(guān)事業(yè)單位招聘23名編外工作人員筆試歷年參考題庫(kù)附帶答案詳解
- 福州2025年福建福州市中醫(yī)院招聘55人筆試歷年參考題庫(kù)附帶答案詳解
- 鹽城2025下半年江蘇鹽城師范學(xué)院招聘35人筆試歷年參考題庫(kù)附帶答案詳解
- 湖南2025年湖南洞口縣事業(yè)單位及國(guó)有企業(yè)人才引進(jìn)筆試歷年參考題庫(kù)附帶答案詳解
- 攀枝花2025年四川攀枝花市西區(qū)事業(yè)單位秋季引才(5人)筆試歷年參考題庫(kù)附帶答案詳解
- 德陽(yáng)2025下半年四川德陽(yáng)旌陽(yáng)區(qū)衛(wèi)生事業(yè)單位招聘急需緊缺專(zhuān)業(yè)技術(shù)人員12人筆試歷年參考題庫(kù)附帶答案詳解
- 唐山2025年河北唐山高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)招聘就業(yè)見(jiàn)習(xí)崗筆試歷年參考題庫(kù)附帶答案詳解
- 矢量網(wǎng)絡(luò)分析儀校準(zhǔn)規(guī)范
- 高考英語(yǔ)閱讀理解分類(lèi)及方法課件
- 紹興金牡印染有限公司年產(chǎn)12500噸針織布、6800萬(wàn)米梭織布高檔印染面料升級(jí)技改項(xiàng)目環(huán)境影響報(bào)告
- DHA乳狀液制備工藝優(yōu)化及氧化穩(wěn)定性的研究
- 2023年江蘇省五年制專(zhuān)轉(zhuǎn)本英語(yǔ)統(tǒng)考真題(試卷+答案)
- 岳麓書(shū)社版高中歷史必修三3.13《挑戰(zhàn)教皇的權(quán)威》課件(共28張PPT)
- GC/T 1201-2022國(guó)家物資儲(chǔ)備通用術(shù)語(yǔ)
- 污水管網(wǎng)監(jiān)理規(guī)劃
- GB/T 6730.65-2009鐵礦石全鐵含量的測(cè)定三氯化鈦還原重鉻酸鉀滴定法(常規(guī)方法)
- GB/T 35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范
- 《看圖猜成語(yǔ)》課件
評(píng)論
0/150
提交評(píng)論