版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
主成分分析數(shù)學(xué)建模第1頁,共93頁,2023年,2月20日,星期五一項(xiàng)十分著名的工作是美國的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等?!?引言一、一個(gè)例子
第2頁,共93頁,2023年,2月20日,星期五在進(jìn)行主成分分析后,斯通竟以97.4%的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢F3。更有意思的是,這三個(gè)變量其實(shí)都是可以直接測量的。斯通將他得到的主成分與實(shí)際測量的總收入I、總收入變化率I以及時(shí)間t因素做相關(guān)分析,得到下表:第3頁,共93頁,2023年,2月20日,星期五
F1F2F3i△itF11
F201
F3001
i0.995-0.0410.057l
i-0.0560.948-0.124-0.102l
t-0.369-0.282-0.836-0.414-0.1121第4頁,共93頁,2023年,2月20日,星期五主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化的分析方法。在社會經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。
二、主成分分析的意義第5頁,共93頁,2023年,2月20日,星期五主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。很顯然,識辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。第6頁,共93頁,2023年,2月20日,星期五在力求數(shù)據(jù)信息丟失最少的原則下,研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息,這種分析叫主成分分析,這些綜合指標(biāo)就稱為主成分,主成分相互獨(dú)立。第7頁,共93頁,2023年,2月20日,星期五1、主成分假定條件?2、主成分的方差與原始變量方差有何關(guān)系?3、主成分如何求解?主成分分析的結(jié)構(gòu),即系數(shù)和方差的數(shù)學(xué)上的含義?4、主成分分析如何評價(jià)?5、主成分分析的應(yīng)用。要討論的問題是:第8頁,共93頁,2023年,2月20日,星期五(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。(2)選擇幾個(gè)主成分。主成分分析的目的是簡化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義。主成分分析中要思考的問題第9頁,共93頁,2023年,2月20日,星期五§2數(shù)學(xué)形狀與幾何解釋
假設(shè)我們所討論的實(shí)際問題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。第10頁,共93頁,2023年,2月20日,星期五第11頁,共93頁,2023年,2月20日,星期五滿足如下的條件:主成分之間相互獨(dú)立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為1。即第12頁,共93頁,2023年,2月20日,星期五為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。由圖可以看出這n個(gè)樣本點(diǎn)無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個(gè),那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會有較大的損失。
第13頁,共93頁,2023年,2月20日,星期五?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸第14頁,共93頁,2023年,2月20日,星期五?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?第15頁,共93頁,2023年,2月20日,星期五????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?第16頁,共93頁,2023年,2月20日,星期五?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????????????????????????????????????第17頁,共93頁,2023年,2月20日,星期五上面的四張圖中,哪一種有更高的精度?原始變量的信息損失最少?第18頁,共93頁,2023年,2月20日,星期五旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問題時(shí),即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。第19頁,共93頁,2023年,2月20日,星期五Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時(shí)避免了信息重疊所帶來的虛假性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。第20頁,共93頁,2023年,2月20日,星期五§3主成分的推導(dǎo)一、線性代數(shù)的結(jié)論
若A是p階實(shí)對稱陣,其中i(i=1,2,┅,p)是A的特征根。即有ui,使Ui是正交的特征向量。第21頁,共93頁,2023年,2月20日,星期五則一定可以找到正交陣U,使第22頁,共93頁,2023年,2月20日,星期五上述矩陣的特征根所對應(yīng)的單位特征向量為實(shí)對稱陣A屬于不同特征根所對應(yīng)的特征向量是正交的,即有則U為第23頁,共93頁,2023年,2月20日,星期五(一)
第一主成分設(shè)X的協(xié)方差陣為二、主成分的推導(dǎo)第24頁,共93頁,2023年,2月20日,星期五由于Σx為非負(fù)定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得其中1,2,…,p為Σx的特征根,不妨假設(shè)12…p。而U恰好是由特征根相對應(yīng)的特征(列)向量所組成的正交陣。第25頁,共93頁,2023年,2月20日,星期五
下面我們來看,是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。第26頁,共93頁,2023年,2月20日,星期五設(shè)有P維正交向量第27頁,共93頁,2023年,2月20日,星期五第28頁,共93頁,2023年,2月20日,星期五當(dāng)且僅當(dāng)a1=u1時(shí),即時(shí),有最大的方差1。因?yàn)?/p>
第一主成分的信息不夠,則需要尋找第二主成分。第29頁,共93頁,2023年,2月20日,星期五(二)
第二主成分在約束條件和下,尋找第二主成分。
因?yàn)閯t,對p維向量,有第30頁,共93頁,2023年,2月20日,星期五所以如果取線性變換,
則的方差次大。第31頁,共93頁,2023年,2月20日,星期五(三)
第三主成分在約束條件因?yàn)閯t,對p維向量,有尋找第三主成分第32頁,共93頁,2023年,2月20日,星期五所以如果取線性變換,
則的方差次大。第33頁,共93頁,2023年,2月20日,星期五思考題:第k(k≤p)個(gè)特征根約為0,說明什么?類推說明第k到第p個(gè)特征根所對應(yīng)的特征向量構(gòu)成的線性組合等于常數(shù),因?yàn)槠浞讲顬榱恪5?4頁,共93頁,2023年,2月20日,星期五寫為矩陣形式:第35頁,共93頁,2023年,2月20日,星期五§4主成分的性質(zhì)一、均值二、方差為所有特征根之和說明主成分分析把P個(gè)隨機(jī)變量的總方差分解成為P個(gè)不相關(guān)的隨機(jī)變量的方差之和。根據(jù):協(xié)方差矩陣的對角線上的元素之和等于特征根之和。第36頁,共93頁,2023年,2月20日,星期五三、精度分析1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重,稱為貢獻(xiàn)率,反映了原來P個(gè)指標(biāo)多大的信息,有多大的綜合能力。2)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,用這k個(gè)主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻(xiàn)率。1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重,稱為貢獻(xiàn)率,反映了原來P個(gè)指標(biāo)多大的信息,有多大的綜合能力。第37頁,共93頁,2023年,2月20日,星期五我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來的P個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率≥80%時(shí)的主成分的個(gè)數(shù)就足夠了。最常見的情況是主成分為2到3個(gè)。第38頁,共93頁,2023年,2月20日,星期五四、原始變量與主成分之間的相關(guān)系數(shù)
第39頁,共93頁,2023年,2月20日,星期五可見,和的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。
請問:在什么場合下,xi和Fj相關(guān)系數(shù)為零?第40頁,共93頁,2023年,2月20日,星期五例
設(shè)的協(xié)方差矩陣為解得特征根為,,,,第一個(gè)主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個(gè)原始變量的信息,所以應(yīng)該取兩個(gè)主成分。第41頁,共93頁,2023年,2月20日,星期五Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方x10.9250.85500x2-0.9980.99600x30011第42頁,共93頁,2023年,2月20日,星期五F1F2…Fpx1…x2…┇┇┇┇xp…第43頁,共93頁,2023年,2月20日,星期五五、原始變量方差被主成分的提取率
前面我們討論了主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,它度量了F1,F(xiàn)2,……,F(xiàn)m分別從原始變量組(X1,X2,……XP)中提取了多少信息。第44頁,共93頁,2023年,2月20日,星期五那么X1,X2,……XP各有多少信息分別主成分組(F1,F(xiàn)2,……,F(xiàn)m)被提取了。應(yīng)該用什么指標(biāo)來度量?我們考慮到當(dāng)討論F1分別與X1,X2,……XP的關(guān)系時(shí),可以討論F1分別與X1,X2,……XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負(fù),所以只有考慮相關(guān)系數(shù)的平方。第45頁,共93頁,2023年,2月20日,星期五是Fj
能說明的第i原始變量的方差原始變量的方差最大大不過λ1原始變量的方差最小小不過λp第46頁,共93頁,2023年,2月20日,星期五是Fj
提取的第i原始變量信息的比重,也是二者的相關(guān)系數(shù)的平方。結(jié)論:xi與所有的主成分Fj(j=1,2,…,m)的相關(guān)系數(shù)的平方和為1,即xi與Fj(j=1,2,…,m)的復(fù)相關(guān)系數(shù)為1。第47頁,共93頁,2023年,2月20日,星期五如果我們僅僅提出了m個(gè)主成分,則第i原始變量信息的被提取率為:第48頁,共93頁,2023年,2月20日,星期五定義:如果一個(gè)主成分僅僅對某一個(gè)原始變量有作用,則稱為特殊成分。如果一個(gè)主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子)第49頁,共93頁,2023年,2月20日,星期五六、載荷矩陣
第50頁,共93頁,2023年,2月20日,星期五§5主成分分析的步驟在實(shí)際問題中,X的協(xié)方差通常是未知的,樣品有第一步:由X的協(xié)方差陣Σx,求出其特征根,即解方程,可得特征根。一、基于協(xié)方差矩陣第51頁,共93頁,2023年,2月20日,星期五第二步:求出分別所對應(yīng)的特征向量U1,U2,…,Up,第三步:計(jì)算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)。第四步:計(jì)算所選出的k個(gè)主成分的得分。將原始數(shù)據(jù)的中心化值:
代入前k個(gè)主成分的表達(dá)式,分別計(jì)算出各單位k個(gè)主成分的得分,并按得分值的大小排隊(duì)。第52頁,共93頁,2023年,2月20日,星期五二、基于相關(guān)系數(shù)矩陣如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計(jì)算得分時(shí)應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。第53頁,共93頁,2023年,2月20日,星期五例一應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價(jià)顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。
第54頁,共93頁,2023年,2月20日,星期五1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項(xiàng)。2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負(fù)載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。同時(shí),還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支付能力。3、資本(用X3表示),指顧客的財(cái)務(wù)勢力和財(cái)務(wù)狀況,表明顧客可能償還債務(wù)的背景。4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。
第55頁,共93頁,2023年,2月20日,星期五首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個(gè)企業(yè)的5個(gè)指標(biāo)打分,然后分別計(jì)算企業(yè)5個(gè)指標(biāo)的平均值,如表。
76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;第56頁,共93頁,2023年,2月20日,星期五TotalVariance=485.31477778EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulativePRIN1410.506367.2420.8458540.84585PRIN243.26422.5940.0891460.93500PRIN320.67012.5990.0425910.97759PRIN48.0715.2660.0166300.99422PRIN52.805.0.0057791.00000
EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.468814-.8306120.0214060.254654-.158081X20.4848760.3299160.014801-.287720-.757000X30.472744-.021174-.412719-.5885820.509213X40.4617470.430904-.2408450.7062830.210403X50.3292590.1229300.878054-.0842860.313677第57頁,共93頁,2023年,2月20日,星期五第一主成份的貢獻(xiàn)率為84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5
的各項(xiàng)系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價(jià)指標(biāo)都有近似的載荷,是對所有指標(biāo)的一個(gè)綜合測度,可以作為綜合的信用等級指標(biāo)??梢杂脕砼判?。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計(jì)算各企業(yè)的得分,并按分值大小排序:第58頁,共93頁,2023年,2月20日,星期五在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強(qiáng)應(yīng)收帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序43712851069第59頁,共93頁,2023年,2月20日,星期五例二基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個(gè)證券和石油產(chǎn)業(yè)的2個(gè)證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。1)利用相關(guān)系數(shù)矩陣做主成分分析。2)決定要保留的主成分個(gè)數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231第60頁,共93頁,2023年,2月20日,星期五EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000
EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472006-.175599X50.4212240.581970-.435176-.3824390.385024第61頁,共93頁,2023年,2月20日,星期五根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法?!?
主成分分析主要有以下幾方面的應(yīng)用第62頁,共93頁,2023年,2月20日,星期五
2.有時(shí)可通過因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。
3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。第63頁,共93頁,2023年,2月20日,星期五
4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來選擇量,獲得選擇最佳變量子集合的效果。第64頁,共93頁,2023年,2月20日,星期五主成分回歸介紹第65頁,共93頁,2023年,2月20日,星期五國際旅游外匯收入是國民收入是國民經(jīng)濟(jì)發(fā)展的重要組成部分,影響一個(gè)國家或地區(qū)旅游收入的因素包括自然、文化、社會、經(jīng)濟(jì)、交通等多方面的因素?!吨袊y(tǒng)計(jì)年鑒》把第三次產(chǎn)業(yè)劃分為12個(gè)組成部分,分別為:
一、提出問題第66頁,共93頁,2023年,2月20日,星期五x1:農(nóng)林牧漁服務(wù)業(yè)x2:地質(zhì)勘查水利管理業(yè)x3:交通運(yùn)輸倉儲和郵電通訊業(yè)x4:批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險(xiǎn)業(yè)x6:房地產(chǎn)業(yè)x7:社會服務(wù)業(yè)x8:衛(wèi)生體育和社會福利業(yè)x9:教育文藝和廣播x10:科學(xué)研究和綜合藝術(shù)x11:黨政機(jī)關(guān)x12:其他行業(yè)選自1998年我國31個(gè)省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。第67頁,共93頁,2023年,2月20日,星期五InterceptCoefficients-205.236116.8459-1.75646
0.096008
標(biāo)準(zhǔn)誤差tStatP-valueXVariable1-1.4004522.8676-0.061240.951842XVariable22.67500118.575080.144010.887092XVariable33.3008772.4645561.3393390.197128XVariable4-0.944021.296117-0.728340.475774XVariable5-5.50164.508593-1.220250.238117XVariable64.0544343.9537451.0254670.318728XVariable74.1425.0699840.8169650.42463XVariable8-15.364910.82589-1.419270.172905XVariable917.367668.353372.0791210.052178XVariable109.07888310.147280.8947110.38275XVariable11-10.585.610696-1.885690.075582XVariable121.3507095.0015040.270060.790186
這個(gè)模型是不理想的,一個(gè)最嚴(yán)重的問題是多重共線性的問題。第68頁,共93頁,2023年,2月20日,星期五線性回歸模型的方差分析表方差來源自由度離差平方和方差F統(tǒng)計(jì)量顯著性水平回歸分析1211690140974178.310.513358.15025E-06
殘差18166789992661.04總計(jì)3113358039
利用主成分的互不相關(guān)性來建立應(yīng)變量與主成分的回歸,在理論上可以達(dá)到消除多重共線性。
第69頁,共93頁,2023年,2月20日,星期五二、主成分回歸方法第70頁,共93頁,2023年,2月20日,星期五原始數(shù)據(jù)觀測矩陣主成分系數(shù)矩陣第71頁,共93頁,2023年,2月20日,星期五主成分得分矩陣第72頁,共93頁,2023年,2月20日,星期五根據(jù)最小二乘估計(jì),則基于協(xié)方差矩陣的主成分回歸基于相關(guān)系數(shù)矩陣的主成分回歸第73頁,共93頁,2023年,2月20日,星期五主成分回歸系數(shù)的協(xié)方差矩陣第74頁,共93頁,2023年,2月20日,星期五第75頁,共93頁,2023年,2月20日,星期五第76頁,共93頁,2023年,2月20日,星期五第77頁,共93頁,2023年,2月20日,星期五1、經(jīng)濟(jì)分析數(shù)據(jù)
Y:進(jìn)口總額X1:GDP
X2:積累總額X3:消費(fèi)總額求進(jìn)口總額與GDP、積累總額和消費(fèi)總額之間的回歸方程。三、主成分回歸的實(shí)例第78頁,共93頁,2023年,2月20日,星期五dataa;inputx1-x3y;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;proc
reg
outest=b;modely=x1-x3/pcomit=1,2
outvif;proc
data=b;proc
standard
data=aout=cmean=0
std=1;varx1-x3y;proc
princomp
data=cout=dprefix=z;varx1-x3;proc
reg
data=d;modely=z1z2/noint;run;第79頁,共93頁,2023年,2月20日,星期五AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel3204.7761468.25871285.61<.0001Error71.672950.23899CorrectedTotal10206.44909第80頁,共93頁,2023年,2月20日,星期五RootMSE0.48887R-Square0.9919DependentMean21.89091AdjR-Sq0.9884CoeffVar2.23321ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-10.127991.21216-8.36<.0001x11-0.051400.07028-0.730.4883x210.586950.094626.200.0004x310.286850.102212.810.0263第81頁,共93頁,2023年,2月20日,星期五EigenvaluesoftheCorrelationMatrix
EigenvalueDifferenceProportionCumulative11.999154931.001000760.66640.666420.998154180.995463290.33270.999130.002690890.00091.0000
EigenvectorsF1F2F3x10.706330-.0356890.706982x20.0435010.9990290.006971x30.706544-.025830-.707197第82頁,共93頁,2023年,2月20日,星期五Obsx1x2x3y*F1F2F31-1.509720.54571-1.53319-1.31852-2.125890.638660.0207222-1.113050.48507-1.20848-1.20848-1.618930.555540.0711133-0.76971-0.12127-0.80140-0.63625-1.11517-0.072980.0217304-0.63637-0.12127-0.62209-0.61424-0.89430-0.08237-0.0108135-0.45970-1.33395-0.37008-0.68027-0.64421-1.30669-0.0725826-0.12970-0.66697-0.09869-0.32813-0.19035-0.65915-0.02655370.25031-0.727610.303550.178070.35962-0.74367-0.04278180.593651.394580.696101.014400.971801.35406-0.06286391.050321.030781.093501.366541.559320.96405-0.023574101.243661.091411.190421.256491.767001.015220.044988111.48033-1.576481.350350.970381.93110-1.662660.080613第83頁,共93頁,2023年,2月20日,星期五
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel29.882784.94139379.38<.0001Error90.117220.01302UncorrectedTotal1110.0000ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|F110.689980.0255227.03<.0001F210.191300.036125.300.0005第84頁,共93頁,2023年,2月20日,星期五第85頁,共93頁,2023年,2月20日,星期五可見,系數(shù)的符號沒有與經(jīng)濟(jì)概念相悖。一般建議,當(dāng)VIF>10時(shí),多重共線性是嚴(yán)重的。第86頁,共93頁,2023年,2月20日,星期五2、朗萊用美國聯(lián)邦政府雇員人數(shù)Y和國民總產(chǎn)出隱含平減指數(shù)X1,國民總產(chǎn)出X2,失業(yè)人數(shù)X3,武裝力量人數(shù)X4,14歲及以上非慈善機(jī)構(gòu)人口數(shù)X5,時(shí)間變量X6。朗萊所用數(shù)據(jù)是美國47—62年數(shù)據(jù),該例是主成分回歸用得較早的例子。第87頁,共93頁,2023年,2月20日,星期五第88頁,共93頁,2023年,2月20日,星期五EigenvaluesoftheCorrelationMatrix(相關(guān)系數(shù)矩陣的特征根)EigenvalueDifferenceProportionCumulative(特征根)(差值)(貢獻(xiàn)率)(累計(jì)貢獻(xiàn)率)14.603377453.428037110.76720.767221.175340350.971915180.19590.963130.203425170.188496890.03390.997040.014928280.012376240.00250.999550.002552040.002175330.00040.999960.000376710.00011.0000第89頁,共93頁,2023年,2月20日,星期五Eigenvectors(特征向量)Prin1Prin2Prin3Prin4Prin5Prin6x10.4618350.057843-.149120-.7928740.337934-.135193x20.4615040.053211-.2776810.121625-.1495500.818485x30.321317-.5955130.728306-.0076450.0092350.107451x40.2015100.7981930.5616070.0772550.0242530.017970x50.462279-.045544-.1959850.5897430.548569-.311589x60.4649400.000619-.1281160.052285-.749556-.450388第90頁,共93頁,2023年,2月20日,星期五Prin1Prin2Prin3Prin4Prin5Prin63.47885-0.75147-0.307950.164240.008797-0.0025793.01051-0.84904-0.64223-0.125920.061546-0.0119802.34330-1.540000.493430.008820.005746-0.0050622.09390-1.276320.111290.06126-0.0618450.0136771.43824
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校矛盾糾紛排查調(diào)處工作情況報(bào)告
- 銀行關(guān)于反洗錢工作的自查報(bào)告
- 供水行業(yè)水質(zhì)檢驗(yàn)工高級技能鑒定模擬試題及答案
- 【真題】2025年安工技術(shù)真題及答案解析,速來看
- (2025年)綏棱縣直機(jī)關(guān)公開遴選公務(wù)員筆試題及答案解析
- (2025年)心電監(jiān)護(hù)考核試題【附答案】
- 2025年不動產(chǎn)異議登記申請書
- 2026浙江寧波開發(fā)投資集團(tuán)有限公司招聘2人備考題庫完整參考答案詳解
- 企業(yè)消防演練方案
- 銷售2025年工作總結(jié)及2025年工作計(jì)劃
- 2026山東聊城市新聊泰城市建設(shè)發(fā)展有限公司首批用人招聘10人備考題庫及答案詳解參考
- dbj41河南省城市軌道交通客 運(yùn)服務(wù)標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)
- 房地產(chǎn)公司開發(fā)全流程法律風(fēng)險(xiǎn)手冊(定稿)模版
- 2026國家國防科技工業(yè)局所屬事業(yè)單位第一批招聘62人備考題庫帶答案詳解
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會成熟人才招聘備考題庫及1套完整答案詳解
- 2025班組三級安全安全教育考試題庫(+答案解析)
- CRM培訓(xùn)教學(xué)課件
- 安徽省亳州市2025屆高三上學(xué)期期末質(zhì)量檢測生物試卷(含答案)
- 天津市考市直面試真題題+解析
- 研究受試者知情同意書
- 五年級數(shù)學(xué)應(yīng)用題專題訓(xùn)練50題
評論
0/150
提交評論