版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
概率模型主成分分析主成分分析的基本原理主成分分析的計算步驟主成分分析方法應(yīng)用實例假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地擺出去嗎?當然不能。你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。9匯報什么?主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。本章就介紹一種種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(
principalcomponent
analysis)。10在很多情形,特征之間是有一定的相關(guān)關(guān)系的,當兩個特征之間有一定相關(guān)關(guān)系時,可以解釋
為這兩個變量反映樣本的信息有一定的重疊。
主成分分析是對于原先提出的所有特征,建立
盡可能少的新特征,使得這些新變量是兩兩不
相關(guān)的,而且這些新變量在反映研究對象的信
息方面盡可能保持原有的信息。主成分分析的基本思想當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。12橢球的長短軸13-4-2024-4-2024主軸和主成分對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal
compone1n4
t)。15主成分之選取正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。一、主成分分析的基本原理假定有n個樣本,每個樣本共有p個特征,構(gòu)成一個n×p階的數(shù)據(jù)矩陣=
xnpn
2n
1
xx
xx1
pxX2
p
2221
x11
x12
x(3.5.1)當p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多地反映原來較多變量指標所反映的信息,同時它們之間又是彼此獨立的。定義:記x1,x2,…,xP為原變量指標,
zzm
=
lm1
x1
+
lm
2
x2
+
+
lmp
xp
2z1,z2,…,zm(m≤p)為新變量指標
z1
=
l11
x1
+
l12
x2
+
+
l1
p
xp=
l21
x1
+
l22
x2
+
+
l2
p
xp..........
..(3.5.2)系數(shù)lij的確定原則:①zi與zj(i≠j;i,j=1,2,…,m)不相關(guān);②
z1是x1,x2,…,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,…,xP的所有線性組合中方差最大者;…;
zm是與z1,
z2,……,zm-1都不相關(guān)的x1,x2,…xP,
的所有線性組合中方差最大者。則新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xP的第1,第2,…,第m主成分。從以上的分析可以看出,主成分分析的實質(zhì)就是確定原來變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij(
i=1,2,…,m;j=1,2
,…,p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個較大的特征值所對應(yīng)的特征向量。二、主成分分析的計算步驟(一)計算相關(guān)系數(shù)矩陣
pp
rrR
=
r
r
rp
1
p
22221r1
p
2
p
r11
r12
r(3.5.3)n
nkik
=1nijr=
k
=1
rij(i,j=1,2,…,p)為原變量xi與xj的相關(guān)系數(shù),rij=rji,其計算公式為(xki-
xi
)(xkj
-
x
j
)2-
xi
)
(x
-
x
)2kj
j(xk
=1(3.5.4)(二)計算特征值與特征向量①
解特征方程
lI
-
R
=
0,求出特征值,并使其按大小順序排列
;l1
?
l2
??
lp
?
0②分別求出對應(yīng)于特征值li
的特征向量=1,即,的第j個分量。ie
(i
=
1,2,
,
p)
,要求
ei=
12ijpj
=1ee其中ij
表示向量ei③計算主成分貢獻率及累計貢獻率貢獻率(i
=
1,2
,
,
p
)p
lkk
=1li累計貢獻率i(i
=
1,2,
,
p
)
k
=1
p
lkk
=1
lk一般取累計貢獻率達85%~95%的特征值所對應(yīng)的第1、第2、…、第m(m≤p)個主成分。l1
,
l2
,,
lm④計算主成分載荷li
eij
(i,
j
=1,2,,
p)=
p(zi
,
x
j
)
=lij(3.5.5)三、主成分分析方法應(yīng)用實例下面,我們根據(jù)表給出的數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)做主成分分析。某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù)樣本序號人口密度x
/(人.km-2)1人均耕地面積x
/hm22森林覆蓋率
x
3/%農(nóng)民人均純收入x
/(元.人-1)4人均糧食產(chǎn)量x
/(kg.人-1)5經(jīng)濟作物占農(nóng)作物播面比例
x
6/%耕地占土地面積比率
x
7/%果園與林地面積之比x
8/%1363.9120.35216.101192.11295.3426.72418.4922.2312141.5031.68424.3011
752.35452.2632.31414.4641.4553100.6951.06765.6011
181.54270.1218.2660.1627.4744143.7391.33633.2051
436.12354.2617.48611.8051.8925131.4121.62316.6071
405.09586.5940.68314.4010.303668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071
501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011
255.42211.5511.1023.1330.013.4251699.2650.65460.7021
251.03220.914.3834.6150.0115.59317118.510.66163.3041
246.47242.1610.7066.0530.1548.70118141.470.73754.206814.21193.4611.4196.4420.01212.94519137.760.59855.9011
124.05228.449.5217.8810.06912.65420117.611.24554.503805.67175.2318.1065.7890.0488.46121122.780.73149.1021
313.11236.2926.7247.1620.09210.078步驟如下:(1)將表3.5.1中的數(shù)據(jù)作標準差標準化處理,然后將它們代入公式(3.5.4)計算相關(guān)系數(shù)矩陣(表3.5.2)。x1x2x3x4x5x6x7x8x9x11-0.327-0.714-0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078-0.109-0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表3.5.2
相關(guān)系數(shù)矩陣(2)由相關(guān)系數(shù)矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(表
3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累計貢獻率已高達86.596%(大于
85%),故只需要求出第1、第2、第3主成分
z1,z2,z3即可。主成分特征值貢獻率/%累計貢獻率/%z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.045
30.50499.65z90.03150.35100表3.5.3特征值及主成分貢獻率(3)對于特征值=4.661
0,=2.089
0,=1.0430分別求出其特征向量e1,e2,e3,再用公式(3.5.5)計算各變量x1,x2,…,x9在主成分z1,z2,z3上的載荷(表3.5.4)。z1z2z3占方差的百分數(shù)/%x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.009
60.009
592.948x40.004
20.8680.003
775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009
292.939表3.5.4主成分載荷分析:第1主成分z1與x1,x5,x6,x7,x9呈現(xiàn)出較強的正相關(guān),與x3呈現(xiàn)出較強的負相關(guān),而這幾個變量則綜合反映了生態(tài)經(jīng)濟結(jié)構(gòu)狀況,因此可以認為第1主成分z1是生態(tài)經(jīng)濟結(jié)構(gòu)的代表。第2主成分z2與x2,x4,x5呈現(xiàn)出較強的正相關(guān),與x1呈現(xiàn)出較強的負相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認為第2主成分z2代表了人均資源量。第3主成分z3與x8呈現(xiàn)出的正相關(guān)程度最高,其次是x6,而與x7呈負相關(guān),因此可以認為第3主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟結(jié)構(gòu)。另外,表3.5.4中最后一列(占方差的百分數(shù)),在一定程度上反映了3個主成分z1、z2、z3包含原變量(x1,x2,…,x9)的信息量多少。顯然,用3個主成分z1、z2、z3代替原來
9個變量(x
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生院信息報送工作制度
- 農(nóng)村衛(wèi)生所協(xié)管制度
- 萬達公共衛(wèi)生間管理制度
- 水果間衛(wèi)生監(jiān)管制度
- 某單位衛(wèi)生管理制度
- 衛(wèi)生健康宣傳制度
- 衛(wèi)生保健所規(guī)章制度
- 精神科食品衛(wèi)生管理制度
- 學(xué)校衛(wèi)生間消殺制度
- 選煤廠職業(yè)衛(wèi)生管理制度
- 加班工時管控改善方案
- 2025年江蘇省高考地理真題(含答案解析)
- 口腔科院感預(yù)防與控制考核試題附答案
- 心肌梗死護理教學(xué)課件
- 2025年市場監(jiān)督管理局招聘面試題及答案
- DB42T 1279-2017 機動車檢驗檢測機構(gòu)資質(zhì)認定評審?fù)?用指南
- 應(yīng)急測繪服務(wù)方案(3篇)
- 2025至2030年中國移動充電車行業(yè)市場全景評估及發(fā)展策略分析報告
- 2025年湖南省長沙市長郡教育集團中考三模道德與法治試題
- 南京市五校聯(lián)盟2024-2025學(xué)年高二上學(xué)期期末考試英語試卷(含答案詳解)
- 云南省昆明市五華區(qū)2024-2025學(xué)年高一上學(xué)期1月期末考試地理試題(解析版)
評論
0/150
提交評論