版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第六章主成分分析第一節(jié)引言第二節(jié)主成分的幾何意義及數(shù)學(xué) 推導(dǎo)
第三節(jié)主成分的性質(zhì)第四節(jié)主成分方法應(yīng)用中應(yīng)注意 的問題
第五節(jié)實例分析與計算機(jī)實現(xiàn)第一節(jié)引言多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。我們知道,當(dāng)一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的“遍歷性”越強(qiáng),提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個變量構(gòu)成的p維隨機(jī)向量為X=(X1,…,Xp)′。對X作正交變換,令Y=T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個分量的方差是最大的,第二個分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。第二節(jié)主成分的幾何意義及數(shù) 學(xué)推導(dǎo)
一主成分的幾何意義
二主成分的數(shù)學(xué)推導(dǎo)
一、主成分的幾何意義主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個樣品,每個樣品都測量了兩個指標(biāo)(X1, X2),它們大致分布在一個橢圓內(nèi)如圖6.1所示。事實上,散點(diǎn)的分布總有可能沿著某一個方向略顯擴(kuò)張,這個方向就把它看作橢圓的長軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨(dú) 看這n個點(diǎn)的分量X1和X2,它們沿著x1方向和x2方向都具有 較大的離散性,其離散的程度可以分別用的X1方差和X2的方 差測定。如果僅考慮X1或X2中的任何一個分量,那么包含在 另一分量中的信息將會損失,因此,直接舍棄某個分量不是“降維”的有效辦法。圖6.1主成分的幾何意義
易見,n個點(diǎn)在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱它 們?yōu)樵甲兞縓1和X2的綜合變量,n個點(diǎn)y1在軸上的方差達(dá) 到最大,即在此方向上包含了有關(guān)n個樣品的最大量信息。 因此,欲將二維空間的點(diǎn)投影到某個一維方向上,則選擇y1
軸方向能使信息的損失最小。我們稱Y1為第一主成分,稱Y2
為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān) 系,橢圓越是扁平,n個點(diǎn)在y1軸上的方差就相對越大,在y2
軸上的方差就相對越小,用第一主成分代替所有樣品所造成 的信息損失也就越小??紤]兩種極端的情形:一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主成分只含有二維空間點(diǎn)的約一半信息,若僅用這一個綜合變量,則將損失約50%的信息,這顯然是不可取的。造成它的原因是,原始變量X1和X2的相關(guān)程度幾乎為零,也就是說,它們所包含的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成分包含有二維空間點(diǎn)的全部信息,僅用這一個綜合變量代替原始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當(dāng)然沒有信息損失。二、主成分的數(shù)學(xué)推導(dǎo)
第三節(jié)主成分的性質(zhì)
一主成分的一般性質(zhì)
二主成分的方差貢獻(xiàn)率
一、主成分的一般性質(zhì)
二、主成分的方差貢獻(xiàn)率
第四節(jié)主成分方法應(yīng)用中應(yīng)注 意的問題
一實際應(yīng)用中主成分分析的出發(fā)點(diǎn)
二如何利用主成分分析進(jìn)行綜合評價
一、實際應(yīng)用中主成分分析的出發(fā)點(diǎn)
這里我們需要進(jìn)一步強(qiáng)調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認(rèn)為,如果各指標(biāo)之間的數(shù)量級相差懸殊,特別是各指標(biāo)有不同的物理量綱的話,較為合理的做法是使用R代替∑。對于研究經(jīng)濟(jì)問題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標(biāo)準(zhǔn)化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實經(jīng)濟(jì)意義,不僅便于剖析實際問題,又可以避免突出數(shù)值大的變量。
二、如何利用主成分分析進(jìn)行綜合
評價人們在對某個單位或某個系統(tǒng)進(jìn)行綜合評價時都會遇到如何選擇評價指標(biāo)體系和如何對這些指標(biāo)進(jìn)行綜合的困難。一般情況下,選擇評價指標(biāo)體系后通過對各指標(biāo)加權(quán)的辦法來進(jìn)行綜合。但是,如何對指標(biāo)加權(quán)是一項具有挑戰(zhàn)性的工作。指標(biāo)加權(quán)的依據(jù)是指標(biāo)的重要性,指標(biāo)在評價中的重要性判斷難免帶有一定的主觀性,這影響了綜合評價的客觀性和準(zhǔn)確性。由于主成分分析能從選定的指標(biāo)體系中歸納出大部分信息,根據(jù)主成分提供的信息進(jìn)行綜合評價,不失為一個可行的選擇。這個方法是根據(jù)指標(biāo)間的相對重要性進(jìn)行客觀加權(quán),可以避免綜合評價者的主觀影響,在實際應(yīng)用中越來越受到人們的重視。對主成分進(jìn)行加權(quán)綜合。我們利用主成分進(jìn)行綜合評價時,主要是將原有的信息進(jìn)行綜合,因此,要充分的利用原始變量提供的信息。將主成分的權(quán)數(shù)根據(jù)它們的方差貢獻(xiàn)率來確定,因為方差貢獻(xiàn)率反映了各個主成分的信息含量多少。
第五節(jié)實例分析與計算機(jī)實現(xiàn)一主成分分析實例
二利用SPSS進(jìn)行主成分分析
一、主成分分析實例表6.1是某市工業(yè)部門13個行業(yè)的8項重要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),這8項經(jīng)濟(jì)指標(biāo)分別是: X1:年末固定資產(chǎn)凈值,單位:萬元; X2:職工人數(shù)據(jù),單位:人; X3:工業(yè)總產(chǎn)值,單位:萬元; X4:全員勞動生產(chǎn)率,單位:元/人年; X5:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元; X6:資金利稅率,單位:%; X7:標(biāo)準(zhǔn)燃料消費(fèi)量,單位:噸; X8:能源利用效果,單位:萬元/噸。表6.1某市工業(yè)部門13個行業(yè)8項指標(biāo)我們要考慮的是:如何從這些經(jīng)濟(jì)指標(biāo)出發(fā),對各工業(yè)部門進(jìn)行綜合評價與排序?我們先計算這些指標(biāo)的主成分,然后通過主成分的大小進(jìn)行排序。表6.2和表6.3分別是特征根(累計貢獻(xiàn)率)和特征向量的信息。利用主成分得分進(jìn)行綜合評價時,從特征向量我們可以寫出所有8個主成分的具體形式:表6.2特征根和累計貢獻(xiàn)率表6.3特征向量表6.4各行業(yè)主成分得分及排序我們以特征根為權(quán),對8個主成分進(jìn)行加權(quán)綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。綜合得分的計算公式是: 根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。從上表可以看出,機(jī)器行業(yè)在該地區(qū)的綜合評價排在第一,原始數(shù)據(jù)也反映出機(jī)器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。二、利用SPSS進(jìn)行主成分分析SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結(jié)果,可以很容易地實現(xiàn)主成分分析。具體來講,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥店企業(yè)財務(wù)制度
- 浮光報銷財務(wù)制度
- 中國物流財務(wù)制度
- 物業(yè)業(yè)委會財務(wù)制度
- 工程造價公司財務(wù)制度
- 養(yǎng)老院老人康復(fù)設(shè)施維修人員管理制度
- 夜市活動引流方案策劃(3篇)
- 圓形池子施工方案(3篇)
- 施工現(xiàn)場施工防生物污染制度
- 罕見腫瘤的表觀遺傳調(diào)控異常
- 2025年高爾基《童年》閱讀測試+答案
- 95-1輕機(jī)槍射擊課件
- 跟單轉(zhuǎn)正述職報告
- GB/T 46425-2025煤矸石山生態(tài)修復(fù)技術(shù)規(guī)范
- 2024-2025學(xué)年度黃河水利職業(yè)技術(shù)學(xué)院單招《職業(yè)適應(yīng)性測試》考前沖刺試卷附答案詳解【綜合卷】
- 中資企業(yè)在泰國發(fā)展報告(2024-2025)-境外商會聯(lián)席會議-202509
- 企業(yè)辦公室主任年終總結(jié)
- 馬鈴薯脫毒試管苗繁育技術(shù)規(guī)程
- 2025人教版四年級數(shù)學(xué)上學(xué)期杭州市期末真題卷(含答案)
- 院感新規(guī)范解讀
- 醫(yī)務(wù)人員感染標(biāo)準(zhǔn)預(yù)防
評論
0/150
提交評論