版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
FILENAMEUnit31Sas商務(wù)數(shù)據(jù)分析電子商務(wù)系列上海財經(jīng)大學經(jīng)濟信息管理系IS/SHUFEPagePAGE1ofNUMPAGES21主成分分析主成分的導出主成分分析(principalcomponentanalysis)是1901年提出,再由Hotelling(1933)加以發(fā)展的一種統(tǒng)計方法。其主要目的是在于將許多變量減少,并使其改變?yōu)樯贁?shù)幾個相互獨立的線性組合形成的變量(主成分),而在經(jīng)由線性組合而得的成分之方差會變?yōu)樽畲螅沟迷季S資料在這些成分上顯示最大的個別差異來。用一句話來說,主成分分析是將多個變量化為少數(shù)綜合變量的一種多元統(tǒng)計方法。設(shè)有組樣品,每組樣品有個變量,記組樣品數(shù)據(jù)見表35.1。表35.1個變量的組樣品數(shù)據(jù)樣品號變量12…n ……嵌入Equation.3嵌入Equation.3嵌入Equation.3嵌入Equation.3…嵌入Equation.3如果個變量是相互獨立的,則可以將問題化為單變量逐個處理,這是比較簡單的。但是對大量的實際問題中提出來的數(shù)據(jù),各變量之間往往存在著不同程度的相關(guān)關(guān)系,這時要搞清這些數(shù)據(jù)之間的關(guān)系,就必須在高維空間中加以研究,這顯然是比較麻煩的,為了克服這一困難,一個很自然的想法就是采取降維的方法,也就是利用全部個變量來重新構(gòu)造個新的綜合變量(),并使得這些較少的變量既能盡可能多地反映原來個變量的統(tǒng)計特性,并且它們之間又是相互獨立的。假定,,…,是一組隨機變量,并且,協(xié)方差陣嵌入Equation.3??紤],,…,的一個線性組合(或稱線性變換):(35.1)這里。對于綜合變量,我們要選擇一組系數(shù)使得的方差最大;由于,對任意給定的常數(shù),,如果對不加以限制,上述問題就變得毫無意義。于是限制,求的最大值。根據(jù)限制性條件下的拉格朗日極值理論可以證明,在此情況下的的最大值等價于求:(35.2)的值,就等于矩陣的最大特征根,就是對應(yīng)的特征向量。若記矩陣Σ*的p個特征值≥≥…≥>=…==0,且m個非零特征值所對應(yīng)的特征向量分別為,,…,,則:那么,把矩陣的非0特征根≥≥…≥>0所對應(yīng)的單位特征向量,,…,分別作為,,…,的系數(shù)向量,分別稱為隨機向量的第1主成分、第2主成分,…,第m主成分。當時(35.3)所以,主成分之間是不相關(guān)的。而且可以看到,主成分分析主要就是由觀察數(shù)據(jù)陣得到協(xié)方差的估計,從出發(fā)計算它的特征值和特征向量。維隨機向量的主成分其實就是個變量的一些特殊的線性組合,在幾何上這些線性組合正好把構(gòu)成的原坐標系統(tǒng)經(jīng)過旋轉(zhuǎn)后產(chǎn)生新坐標系統(tǒng),這個新坐標系統(tǒng)的軸方向上具有最大的變異,同時提供了協(xié)方差陣的最簡潔的表示(非對角線上為0)。例如,我們有一個=2維隨機向量的=100個點構(gòu)成一個橢圓形狀,如圖35-1所示。第一主成分則是這個橢圓的長軸方向,因為原坐標系的100點按長軸方向旋轉(zhuǎn)后數(shù)據(jù)最離散,具有最大的方差,設(shè)定旋轉(zhuǎn)方向的表示為單元圓上的一個單位方向,與長軸平行的單位方向具有,因此,不難求出第一主成分的系數(shù)向量的具體值。而橢圓的短軸與長軸是垂直的,是第二個主成分的方向,因為短軸是與長軸不相關(guān)方向中具有最大的方差,同樣與短軸平行的單位方向具有,同求第一主成分的系數(shù)向量一樣,我們也能容易求出的具體值。圖圖35-1二維隨機向量的第一、第二主成分示意圖用開頭個主成分形成的維子空間,從幾何上看,當采用從每個數(shù)據(jù)點到子空間的垂直距離的平方和作為度量時,這個維子空間對數(shù)據(jù)點給出了最好的擬合。例如,在圖35-1所示中,所有數(shù)據(jù)點到第一主成分軸(橢圓的長軸)的垂直距離的平方和是最小的。要特別注意,它不同于最小二乘回歸的幾何表示,回歸是最小化所有數(shù)據(jù)點到擬合直線的垂直偏差的平方和。貢獻率與累積貢獻率由主成分的性質(zhì)可知,主成分的方差,,…,與隨機變量x1,x2,…,xp的方差S11,S22,…,Spp之間有關(guān)系:(35.4)我們稱:嵌入Equation.3(35.5)為第k個主成分的貢獻率,它反映了第k個主成分提取全部信息的多少。又稱:(35.6)為前k個主成分的累積貢獻率,它反映了前k個主成分共同提取全部信息的多少。我們進一步還可以考慮第k主成分與p個變量x1,x2,…,xp的相關(guān)系數(shù),稱其為因子負荷量,記為L(Zk,xi)(對相關(guān)陣的主成分或標準化后的數(shù)據(jù)),有:(35.7)其中,嵌入Equation.3為第k個特征值所對應(yīng)的特征向量的第i個分量。樣本資料數(shù)據(jù)的主成分分析在實際分析中,我們一般得到如表(35.1)所示的數(shù)據(jù)資料,設(shè),第i個樣品的數(shù)據(jù)為,樣本資料數(shù)據(jù)用矩陣表示為嵌入Equation.3,則平均值向量為,其中,協(xié)方差矩陣的估計量為,其中。我們可以求出協(xié)方差矩陣的特征根和特征向量,不妨設(shè)為≥≥…≥>0,其所對應(yīng)的特征向量分別為,,…,,那么,就是向量的第一主成分、第二主成分,…,第m主成分。實際上我們沒有必要求出向量的全部主成分。一般情況下,如果前m個主成分的累積貢獻率大于等于85%,則就取m個主成分,就已經(jīng)能夠反映全部p個變量的絕大部分信息了。數(shù)據(jù)的標準化實際的數(shù)據(jù)單位往往不一致,這會給分析帶來不便,為此,常將數(shù)據(jù)進行標準化的處理,即使得第i個變量的均值為0,方差為1。設(shè),令稱為標準化后的數(shù)據(jù)。實際計算時首先對數(shù)據(jù)進行標準化處理,這樣所得出的協(xié)方差陣與相關(guān)陣就是相同的。應(yīng)注意的幾個問題主成分分析,除了用來綜合變量之間的關(guān)系外,亦可用來削減回歸分析或聚類分析中的變量數(shù)目。此外,為了達到最大變異的目的,我們可用主成分分析將原來的變量轉(zhuǎn)變?yōu)槌煞郑讷@得所要的成分之后,可將各變量的原始數(shù)據(jù)轉(zhuǎn)換為成分數(shù)據(jù),以供進一步深入的統(tǒng)計分析。通常,在進行主成分分析時,應(yīng)注意下面幾個問題:主成分分析是通過降維技術(shù)用少數(shù)幾個綜合變量來代替原始多個變量的一種統(tǒng)計分析方法。這些綜合變量集中了原始變量的大部分信息。第一主成分所包含的信息量最大,第二主成分其次,其他主成分依次遞減,各主成分之間互不相關(guān),這就保證了各主成分所含的信息互不重復(fù)。在實際研究里,研究者如果用不超過五或六個主成分,就能解釋變異之70%~80%,已可令人滿意。取多少個主成分,既要考慮之前幾個主成分的累計貢獻率達到一定比例,也要考慮到應(yīng)選取盡可能少的主成分以較好地達到降維的目的。Kaiser(1960)主張將特征值小于1的主成分予以放棄,而只保留特征值大于1的主成分。當各變量的單位不相同時,應(yīng)從相關(guān)矩陣出發(fā)進行主成分分析。計算出主成分之后,應(yīng)對要使用的前若干個主成分作出符合實際背景和意義的解釋。princomp主成分過程主成分分析過程為princomp,可以從原始變量分析,也可直接從協(xié)方差矩陣、相關(guān)系數(shù)矩陣或叉積陣(SSCP)分析。分析結(jié)果可以存儲到數(shù)據(jù)集中,供其他過程調(diào)用。princomp過程一般由下列語句控制:procprincompdata=數(shù)據(jù)集</選項列表>;var變量列表;partial變量列表;weight變量;freq變量;by變量;run;princomp過程的結(jié)果表包括每一變量的簡單統(tǒng)計數(shù)、相關(guān)系數(shù)或方差-協(xié)方差矩陣、特征值和特征向量等。procprincomp語句</選項列表>。type=cov或type=corr——指明數(shù)據(jù)集類型,例如,data=newtype=corr:表明new為一相關(guān)系數(shù)corr數(shù)據(jù)集。out=數(shù)據(jù)集名——規(guī)定存儲原始數(shù)據(jù)和主分量得分的輸出數(shù)據(jù)集。outstat=數(shù)據(jù)集名——生成一個包括變量的平均數(shù)、標準差、相關(guān)系數(shù)、特征值、特征向量的輸出數(shù)據(jù)集。另外,如果規(guī)定cov選項,還包括由協(xié)方差矩陣進行的計算(一般由相關(guān)系數(shù)矩陣進行計算)。n=個數(shù)——指定主分量個數(shù)。std——要求在out=的數(shù)據(jù)集里把主成分得分標準化為單位方差。如果沒有規(guī)定此項,主成分得分的方差等于相應(yīng)的特征值。noint——要求在模型中不含截距。noprint——不打印輸出分析結(jié)果。procprincomp過程中的主要語句。var語句——指明分析的數(shù)值變量。如果省略var語句,則對所有數(shù)值變量進行分析。partial語句——指明對偏相關(guān)陣或偏協(xié)方差矩陣進行分析時,被偏出去的這些數(shù)值變量的名字。實例分析例35.1調(diào)查美國50個州7種犯罪率,得結(jié)果列于表35.1,其中,給出的是美國50個州每100000個人中七種犯罪的比率數(shù)據(jù)。這七種犯罪是:murder(殺人罪),rape(強奸罪),robbery(搶劫罪),assault(斗毆罪),burglary(夜盜罪),larceny(偷盜罪),auto(汽車犯罪),試作主成分分析。很難直接從這七個變量出發(fā)來評價各州的治安和犯罪情況,而使用主成分分析卻可以把這些變量概括為兩個或三個綜合變量(即主成分),以便幫助我們較簡便地分析這些數(shù)據(jù)。表35.1美國50個州七種犯罪的比率數(shù)據(jù)state州Murder殺人罪rape強奸罪robbery搶劫罪assault斗毆罪burglary夜盜罪larceny偷盜罪auto汽車犯罪ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODE3.610.586.5201.01489.52844.1791.4S11.933.0105.9485.31613.62342.4245.1S2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0建立數(shù)據(jù)文件程序如下:dataprinc1;inputstate$1-15murderraperobberyassaultburglarylarcenyauto;title‘Crimeratesper100,000populationbystate’;cards;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3………WYOMING5.421.939.7173.9811.62772.2282.0;run;調(diào)用主成分分析princomp過程菜單操作方法為選擇Globals/SAS/Assist/DataAnalysis/Multivariate/PrincipalComponents…(主成分分析)命令,再選擇Activedataset為work.princ1,Columnstobeanalyzed為所有7個變量,在Additionaloptions選項子菜單中,將Tabletocontainoriginaldataandscores項所指定的表數(shù)據(jù)集設(shè)為crimcomp,然后提交運行。編程方法如下:procprincompdata=princ1out=crimcomp;procsortdata=crimcomp;byprin1;procprint;idstate;varprin1prin2murderraperobberyassaultburglarylarcenyauto;procsortdata=crimcomp;byprin2;procprint;idstate;varprin1prin2murderraperobberyassaultburglarylarcenyauto;procplotdata=crimcompformchar='||+|'vpct=65hpct=65;plotprin2*prin1=state;run;程序說明:procprincomp語句進行主成分分析,結(jié)果存儲在crimcomp數(shù)據(jù)集中(輸出結(jié)果見表35.2);procsort過程按第一主成分prin1和第二主成分prin2進行排序,結(jié)果由procprint過程輸出(輸出結(jié)果見表35.3和表35.4);procplot過程按第一和第二主成分作散點圖(輸出圖這里省略)。運行后得到以下結(jié)果:表35.2對美國50個州七種犯罪比率的主成分分析PrincipalComponentAnalysisPrincipalComponentAnalysis50Observations7Variables(a)SimpleStatistics(簡單描述統(tǒng)計量)MURDERRAPEROBBERYASSAULTMean7.44400000025.73400000124.0920000211.3000000StD3.86676894110.7596299588.3485672100.2530492BURGLARYLARCENYAUTOMean1291.9040002671.288000377.5260000StD432.455711725.908707193.3944175(b)CorrelationMatrix(相關(guān)矩陣)MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTOMURDER1.00000.60120.48370.64860.38580.10190.0688RAPE0.60121.00000.59190.74030.71210.61400.3489ROBBERY0.48370.59191.00000.55710.63720.44670.5907ASSAULT0.64860.74030.55711.00000.62290.40440.2758BURGLARY0.38580.71210.63720.62291.00000.79210.5580LARCENY0.10190.61400.44670.40440.79211.00000.4442AUTO0.06880.34890.59070.27580.55800.44421.0000(c)EigenvaluesoftheCorrelationMatrix(相關(guān)矩陣的特征值)EigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000(d)Eigenvectors(特征向量)PRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046表35.3按第一主成分排序的美國50個州(給出前5條和后5條)STATEPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTONORTHDAKOTA-3.964080.387670.99.013.343.8446.11843.0144.7SoutHDAKOTA-3.17203-0.254462.013.517.9155.7570.51704.4147.5WESTVIRGINIA-3.14772-0.814256.013.242.290.9597.41341.7163.3IOWA-2.581560.824752.310.641.289.8812.52685.1219.9WISCONSIN-2.502960.780832.812.952.263.7846.92614.2220.7STATEPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTONORTHDAKOTA-3.964080.387670.99.013.343.8446.11843.0144.7SoutHDAKOTA-3.17203-0.254462.013.517.9155.7570.51704.4147.5WESTVIRGINIA-3.14772-0.814256.013.242.290.9597.41341.7163.3IOWA-2.581560.824752.310.641.289.8812.52685.1219.9WISCONSIN-2.502960.780832.812.952.263.7846.92614.2220.7……ARIZONA3.014140.844959.534.2138.2312.32346.14467.4439.5FLORIDA3.11175-0.6039210.239.6187.9449.11859.93840.5351.4NEWYORK3.452480.4328910.729.4472.6319.11728.02782.0745.8CALIFORNIA4.283800.1431911.549.4287.0358.02139.43499.8663.5NEVADA5.26699-0.2526215.849.1323.1355.02453.14212.6559.2STATEPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTOSTATEPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTOMISSISSIPPI-1.50736-2.5467114.319.665.7189.1915.61239.9144.4SoutHCAROLINA1.60336-2.1621111.933.0105.9485.31613.62342.4245.1ALABAMA-0.04988-2.0961014.225.296.8278.31135.51881.9280.7LOUISIANA1.12020-2.0832715.530.9142.9335.51165.52469.9337.7NORTHCAROLINA-0.69925-1.6702710.617.061.3318.31154.12037.8192.1……DELAWARE0.964581.296746.024.9157.0194.21682.63678.4467.0CONNECTICUT-0.541331.501234.216.8129.5131.81346.02620.7593.2HAWAII0.823131.823927.225.5128.064.11911.53920.4489.4RHODEMASSACHUSETTS0.978442.631053.120.8169.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理理論深化月度課程
- 成人肺炎患者的家庭護理指南
- 護理簡歷中的實習與工作經(jīng)歷描述
- 新手入門:身體護理產(chǎn)品選擇
- 頭發(fā)護理與遺傳因素
- 2025年山東公務(wù)員考試題及答案
- 邊坡工程考試及答案
- 2025年設(shè)計考試高分試卷及答案
- 安全生產(chǎn)場景演講講解
- 2025福建福州建總地產(chǎn)有限公司選聘1人筆試備考重點試題及答案解析
- 6第六章 項目管理架構(gòu)
- 2025年全新中醫(yī)藥學概論試題與答案
- 2026年湖南電子科技職業(yè)學院單招職業(yè)技能考試題庫及參考答案詳解
- 2025秋小學湘科版(新教材)科學三年級上冊知識點及期末測試卷及答案
- 2026年稅務(wù)風險培訓
- 2025重慶兩江新區(qū)公安機關(guān)輔警招聘56人備考題庫含答案詳解(完整版)
- 負債整合委托協(xié)議書
- 2026年上海市各區(qū)高三語文一模試題匯編之積累運用(學生版)
- 河南2024級高中會考數(shù)學試卷
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認證機構(gòu)要求》中文版(機翻)
- 【精品模板】蘭州交通大學畢業(yè)論文答辯演示PPT模板_
評論
0/150
提交評論