版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、-. z.第一講主成分分析在數(shù)學(xué)建模中的應(yīng)用1學(xué)習(xí)目的1.理解主成分分析的根本思想;2.會用SAS軟件編寫相關(guān)程序,對相關(guān)數(shù)據(jù)進展主成分分析;3.會用SAS軟件編程結(jié)合主成分分析方法解決實際問題。2學(xué)習(xí)要求1.理解主成分分析的根本原理,掌握主成分分析的根本步驟;2.會用SAS軟件編寫相關(guān)程序,對相關(guān)數(shù)據(jù)進展分析處理和假設(shè)檢驗;3.撰寫不少于3000字的小論文;4. 精讀一篇優(yōu)秀論文。理論根底1根本思想 在實際問題的研究中,往往會涉及眾多的變量。但是,變量太多不但會增加計算的復(fù)雜性,而且也給合理地分析問題和解釋問題帶來困難。一般來說,雖然每個變量提供了一定的信息,但其重要性有所不同,而在很多情況
2、下,變量間有一定的相關(guān)性,從而使得這些變量所提供的信息在一定程度上有所重疊。因而人們希望對這些變量加以改造,用為數(shù)較少的互不相關(guān)的新變量來反映原來變量所提供的絕大局部信息,通過對新變量的分析到達(dá)解決問題的目的。主成分分析就是在這種降維的思想下產(chǎn)生的處理高維數(shù)據(jù)的方法。3.2 根本原理1.總體的主成分定義1.設(shè)為P維隨機向量,稱為*的第i主成分i=1,2,P,如果: (1) (2) 當(dāng)i1時, (3)定理1.設(shè)是P維隨機向量,且,的特征值為,為相應(yīng)的單位正交特征向量,則*的第i主成分為定義2.我們稱為主成分的奉獻(xiàn)率;又稱為主成分的累計奉獻(xiàn)率。記,其中為的特征值,是相應(yīng)的單位正交特征向量,記正交矩
3、陣主成分,其中則總體主成分有如下的性質(zhì):性質(zhì)1.,即P個主成分的方差為:,且它們是互不相關(guān)的。性質(zhì)2.,通常稱為原總體*的總方差或稱總慣量。性質(zhì)3.主成分與原始變量的相關(guān)系數(shù)為并把主成分與原始變量的相關(guān)系數(shù)稱為因子負(fù)荷量。性質(zhì)4.。性質(zhì)5.假設(shè)記,即令這時標(biāo)準(zhǔn)化后的隨機向量的協(xié)方差陣就是原隨機向量*的相關(guān)陣R。從相關(guān)陣R出發(fā)求主成分,記主成分向量為,則有與總體主成分相應(yīng)的性質(zhì):性質(zhì)1.,其中為相關(guān)矩陣R的特征值。性質(zhì)2.性質(zhì)3.主成分與標(biāo)準(zhǔn)化變量的相關(guān)系數(shù)為,其中是R對應(yīng)于的單位正交特征向量。性質(zhì)4.性質(zhì)5.。2.樣本的主成分定義1.設(shè)變量的n次觀測數(shù)據(jù)陣*已標(biāo)準(zhǔn)化,這時樣本的協(xié)方差陣就是樣本
4、相關(guān)陣R,且R的特征值為,其相應(yīng)標(biāo)準(zhǔn)化特征向量為,樣本主成分為 類似總體主成分,樣本主成分也具有如下的性質(zhì):性質(zhì)1.因為0,而上式說明當(dāng)時,第i個主成分得分向量與第j個主成分得分向量是相互正交的。性質(zhì)2.。稱為樣本主成分的奉獻(xiàn)率;又稱為樣本主成分的累計奉獻(xiàn)率。性質(zhì)3.樣本主成分具有是殘差平方和最小的優(yōu)良性。3.3根本步驟 數(shù)據(jù)標(biāo)準(zhǔn)化其中,為第列的方差; 計算協(xié)方差矩陣; 計算協(xié)方差矩陣的特征值與特征向量;利用特征方程求出按大小排列特征值以及相應(yīng)的特征向量; 選擇前幾個特征向量,確定主成分;3.4 根本命令使用proc prinp過程進展主成分分析,其主要語句格式如下:Proc prinp ;V
5、ar 變量列表;Run;其中:1Proc prinp語句用來規(guī)定輸入、輸出和一些運行選項,其選項及功能如下:data=數(shù)據(jù)集名1:指明所要分析的數(shù)據(jù)集,假設(shè)省略則表示分析最新生成的數(shù)據(jù)集。out=數(shù)據(jù)集名2:命名一個輸出SAS數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分得分即各主成分的觀測值。outstat=數(shù)據(jù)集名3:命名一個包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的SAS數(shù)據(jù)集。covariance(cov):要求從協(xié)方差矩陣出發(fā)作主成分分析,假設(shè)省略此選項,則從相關(guān)矩陣出發(fā)進展分析;除非各變量的度量單位是可比擬的或已經(jīng)過*種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項,應(yīng)從相關(guān)矩陣出
6、發(fā)作主成分分析。N=n:指定要計算的主成分的個數(shù),其默認(rèn)值為參與分析的變量的個數(shù)。prefi*=name:規(guī)定各主成分名稱的前綴。省略此句則SAS系統(tǒng)自動賦予各主成分名稱分別為prin1,prin2,;假設(shè)name=A,則各主成分名稱分別為A1,A2,前綴的字符個數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過8個字符。2VAR variables;此句中的variables局部列出數(shù)據(jù)集中參與主成分分析的變量名稱。假設(shè)省略此句,則被分析數(shù)據(jù)集中所有數(shù)值變量均參與分析。4舉例【例1】 (中學(xué)生身體四項指標(biāo)的主成分分析) 在*中學(xué)隨機抽取*年級30名學(xué)生,測量其身高*1、體重*2、胸圍*3和坐高*4,數(shù)據(jù)見教材P27
7、7的表7.4。試對這30名學(xué)生體四項指標(biāo)數(shù)據(jù)做主成分分析。data d721;input number *1-*4 ;cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 795 159 45 80 86 6 142 31 66 767 153 43 76 83 8 150 43 77 799 151 42 77 80 10 139 31 68 7411 140 29 64 74 12 161 47 78 8413 158 49 78 83 14 140 33 67 7715 137 31 66 73 16 152 35 7
8、3 7917 149 47 82 79 18 145 35 70 7719 160 47 74 87 20 156 44 78 8521 151 42 73 82 22 147 38 73 7823 157 39 68 80 24 147 30 65 7525 157 48 80 88 26 151 36 74 8027 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;procprinpdata=d721 prefi*=z out=o721 ;var *1-*4;run;options ps=32 ls=85;procpl
9、otdata=o721;plot z2*z1 $ number=*/href=-1href=2vref=0;run;procsortdata=o721;by z1;run;procprintdata=o721;var number z1 z2 *1-*4;run;quit;由PRINP過程由相關(guān)陣出發(fā)進展主成分分析。由下面的相關(guān)陣來看, 指標(biāo)之間存在著嚴(yán)重的共線關(guān)系,就要用主成分的方法進展降維也就是說用較少的指標(biāo)就能很好衡量學(xué)生的身體根本情況。從相關(guān)陣的特征直來看,第一主成分的奉獻(xiàn)率已高達(dá)88.53%,且前兩個主成分的累計奉獻(xiàn)率已高達(dá)96.36%,因此只需用兩個主成分就能很好地概括這組數(shù)據(jù)。另
10、由第四個特征值近似為0,可以看出這4個標(biāo)準(zhǔn)化后的身體指標(biāo)變量有近似的共線性。由最大的兩個特征值對應(yīng)的特征向量可以寫出第一和第二主成分:利用特征向量的值對各個主成分進展分析。第一主成分特征值對應(yīng)的第一個特征向量的各個分量均在0.5附近,而且都是正值,它反映學(xué)生的魁梧程度。身體高大的學(xué)生,他的4個部位的尺度都比擬大;而身體矮小的學(xué)生,他的4個部位的尺寸都比擬小。因此我們可以稱第一主成分為大小因子。第二大特征值對應(yīng)的特征向量中第一和第四個分量均為負(fù)值,其它的都為正值,它反映學(xué)生的胖瘦情況,可稱為形態(tài)因子。從第二主成分得分對第一主成分得分的散布圖看,很直觀地看出,按學(xué)生的身體指標(biāo)尺寸,這30名學(xué)生大約
11、分三組以第一主成分得分值為-1和2為分界點。每一組包括哪幾名學(xué)生可由每一給散點旁邊的序號可以得知。5訓(xùn)練題5.1用主成分分析方法探討城市工業(yè)主體構(gòu)造。表1是*市工業(yè)部門13個行業(yè)8項指標(biāo)的數(shù)據(jù)。表1 *市工業(yè)部門13個行業(yè)8項指標(biāo)的數(shù)據(jù)年末固定資產(chǎn)凈值萬元職工人數(shù)人工業(yè)總產(chǎn)值萬元全員勞動產(chǎn)率元/人年百元固定原資產(chǎn)值實現(xiàn)產(chǎn)值元資金利稅率標(biāo)準(zhǔn)燃料消費量噸能源利用效果萬元/噸1(冶金)90342524551010911927282.00016.1001974350.1722(電力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178
12、036.1008.2007263960.0034(化學(xué))4945436241815572250498.10025.9003482260.9855(機械)1391902035052158981060993.20012.6001395720.6286(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(紡織)17111239075210821796221.50021.5006
13、38060.27610(縫紉)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造紙)525161551038316875146.40027.500787960.15113(文教藝術(shù)用品)1434113203193961469194.60017.80063541.574試用主成分分析方法確定8項指標(biāo)的樣本主成分綜合變量;假設(shè)要求損失信息不超過15,應(yīng)取幾個主成分;并對這幾個主成分進展解釋;利用主成分得分對13個行業(yè)進展排序和分類。5.2 *市為了全面分析機械類各企業(yè)的經(jīng)濟
14、效益,選擇了8個不同的利潤指標(biāo),14家企業(yè)關(guān)于這8個指標(biāo)的統(tǒng)計數(shù)據(jù)如表3所示。試進展主成分分析,并對所選取的主成分作出解釋。表2 14家企業(yè)的利潤指標(biāo)的統(tǒng)計數(shù)據(jù) 變量企業(yè)號凈產(chǎn)值利潤率固定資產(chǎn)利潤率總產(chǎn)值利潤率銷售收入利潤率產(chǎn)品本錢利潤率物耗利潤率人均利潤率流動資金利潤率140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416
15、.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6【模型一】 美國各種類型犯罪的主成分模型根據(jù)美國各個州的
16、各種類型犯罪的犯罪率數(shù)據(jù)見表1。希望對這些犯罪率數(shù)據(jù)進展主成分分析,并分析犯罪特征。表1:美國各個州的各種類型犯罪率數(shù)據(jù)MurderLarcenyAutoALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.01
17、70.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01
18、085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.53.1
19、20.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.13
20、55.02453.14212.6559.2NEW HAMPSHIRE3.210.723.276.01041.72343.9293.4NEW JERSEY5.621.0180.4185.11435.82774.5511.5NEW ME*ICO8.839.1109.6343.41418.73008.6259.5NEW YORK10.729.4472.6319.11728.02782.0745.8NORTH AROLINA10.617.061.3318.31154.12037.8192.1NORTH DAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190
21、.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODE ISLAND3.610.586.5201.01489.52844.1791.4SOUTH CAROLINA11.933.0105.9485.31613.62342.4245.1SOUTH DAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TE*AS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WEST VIRGINIA6.013.242.290.9597.41341.7163.3WISCONS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 包裝工創(chuàng)新實踐能力考核試卷含答案
- 真空電子器件金屬零件制造工誠信競賽考核試卷含答案
- 鍋爐設(shè)備裝配工崗前個人防護考核試卷含答案
- 燃?xì)廨啓C值班員創(chuàng)新應(yīng)用模擬考核試卷含答案
- 重冶固體物料配料工安全文化模擬考核試卷含答案
- 海水捕撈工8S執(zhí)行考核試卷含答案
- 中藥質(zhì)檢員安全宣教能力考核試卷含答案
- 養(yǎng)蜂員安全生產(chǎn)規(guī)范測試考核試卷含答案
- 2024年襄樊市直屬機關(guān)遴選公務(wù)員筆試真題匯編附答案
- 2025年三明醫(yī)學(xué)科技職業(yè)學(xué)院輔導(dǎo)員招聘考試真題匯編附答案
- 學(xué)堂在線 雨課堂 學(xué)堂云 批判性思維-方法和實踐 章節(jié)測試答案
- 語音廳新人培訓(xùn)課件
- 北京市通州區(qū)2024-2025學(xué)年七年級下學(xué)期期末道德與法治試題(含答案)
- 地質(zhì)年代學(xué)-洞察及研究
- 兒童游樂園安全知識培訓(xùn)課件
- 員工心理健康疏導(dǎo)培訓(xùn)
- TCFLP0030-2021國有企業(yè)網(wǎng)上商城采購交易操作規(guī)范
- 儀表設(shè)備管理規(guī)劃
- 手外傷課件教學(xué)課件
- 假肢器械基礎(chǔ)知識培訓(xùn)課件
- 可摘局部義齒印模技術(shù)
評論
0/150
提交評論