簡(jiǎn)單相關(guān)分析 教程_第1頁(yè)
簡(jiǎn)單相關(guān)分析 教程_第2頁(yè)
簡(jiǎn)單相關(guān)分析 教程_第3頁(yè)
簡(jiǎn)單相關(guān)分析 教程_第4頁(yè)
簡(jiǎn)單相關(guān)分析 教程_第5頁(yè)
已閱讀5頁(yè),還剩80頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

學(xué)習(xí)目標(biāo)本章架構(gòu)14.1.1共變異數(shù)的意義14.1.2相關(guān)係數(shù)的意義14.1.3相關(guān)係數(shù)的估計(jì)14.1.4相關(guān)係數(shù)的檢定相關(guān)分析(correlationanalysis)探討數(shù)值變數(shù)間線性關(guān)係的程度與方向的方法,共變異數(shù)(covariance)與相關(guān)係數(shù)是用來(lái)瞭解兩變數(shù)間線性關(guān)係的工具。如果變數(shù)間無(wú)法區(qū)分出所謂的依變數(shù)(dependentvariable)與自變數(shù)(或獨(dú)立變數(shù))(independentvariable)時(shí),則使用相關(guān)分析來(lái)探討變數(shù)間的線性關(guān)係;如果變數(shù)是可以區(qū)分的話,則使用線性迴歸分析來(lái)探討變數(shù)間的線性關(guān)係。14.1.1共變異數(shù)的意義共變異數(shù)(covariance)測(cè)量?jī)蓚€(gè)數(shù)值變數(shù)間的線性關(guān)係。線性關(guān)係當(dāng)一個(gè)變數(shù)變動(dòng)時(shí),另一變數(shù)則呈同方向或相反方向變動(dòng)。共變異數(shù)的意義(續(xù))母體共變異數(shù)其中N代表母體總數(shù)。樣本共變異數(shù)

其中n代表樣本數(shù)。共變異數(shù)的意義(續(xù)1)共變異數(shù)的性質(zhì)共變異數(shù)的值介於-

到之間。X與Y的共變異數(shù)大於零,表示X與Y同方向變動(dòng)。X與Y的共變異數(shù)小於零,表示X與Y反方向變動(dòng)。X與Y的共變異數(shù)等於零,表示兩變數(shù)間沒(méi)有「線性」關(guān)係,但並不表示兩者之間沒(méi)有其他關(guān)係存在。共變異數(shù)的意義(續(xù)3)當(dāng)兩變數(shù)與的共變異數(shù)大於零時(shí),可以看出與大局部落於第一與第三象限,也就是兩者移動(dòng)的方向是一致的,亦即正的線性關(guān)係。(如圖14.1之左上圖)當(dāng)兩變數(shù)與的共變異數(shù)小於零時(shí),可以看出與大局部落於第二與第四象限,也就是兩者移動(dòng)的方向是相反的,亦即負(fù)的線性關(guān)係。(如圖14.1之右上圖)當(dāng)兩變數(shù)與的共變異數(shù)等於零時(shí),可以看出與均勻落於所有四個(gè)象限,而看不出兩者間線性移動(dòng)的關(guān)係,但卻可能存在其他非線性關(guān)係。(如圖14.1之下方二圖)共變異數(shù)的意義(續(xù)2)圖14.1:不同共變異數(shù)值情況下X與Y的散佈圖例14.1停留時(shí)間與消費(fèi)額的關(guān)係某遊樂(lè)區(qū)經(jīng)理想了解遊客停留時(shí)間與消費(fèi)額的關(guān)係,於是蒐集了10位遊客的資料如表14.1表14.110位遊客的停留時(shí)間與消費(fèi)額

續(xù)例14.1

由表14.1可知14.1.2相關(guān)係數(shù)的意義相關(guān)係數(shù)〔correlationcoefficient)乃是指皮爾生相關(guān)係數(shù)〔Pearsoncorrelationcoefficient),其用途在於測(cè)量?jī)蓚€(gè)數(shù)值變數(shù)間的線性關(guān)係。當(dāng)兩變數(shù)有相關(guān)存在,並不代表兩者一定存在因果關(guān)係,但是當(dāng)相關(guān)程度高的時(shí)候,彼此的預(yù)測(cè)能力也高。計(jì)算至2003/3/24資料來(lái)源:Bloomberg整理:怡富投顧相關(guān)係數(shù)應(yīng)用實(shí)例二我國(guó)在漸邁入高齡化社會(huì)的同時(shí),整體社會(huì)每年平均花在醫(yī)療保健上的費(fèi)用,將益為提高。由此可看出:年齡是影響個(gè)人每年花在醫(yī)療保健費(fèi)用多寡的原因之一。

個(gè)人每年花在醫(yī)療保健費(fèi)用和個(gè)人總財(cái)富累積這兩個(gè)因素,同時(shí)受年齡的影響,才使得醫(yī)療保健費(fèi)用和個(gè)人總財(cái)富累積兩個(gè)變數(shù)間間接地具高度線性相關(guān),而其實(shí)醫(yī)療保健費(fèi)用和個(gè)人總財(cái)富累積兩個(gè)變數(shù)間並不具有因果關(guān)係。但是,如果醫(yī)療保健費(fèi)用和總財(cái)富累積兩個(gè)變數(shù),都去除掉年齡的影響後,將發(fā)現(xiàn)這兩個(gè)因素呈低度線性相關(guān)。也就是說(shuō),去除掉年齡的影響後,醫(yī)療保健費(fèi)用和總財(cái)富累積的偏相關(guān)係數(shù)變得很接近0?!爸灰?床?口袋裏的孫中山就會(huì)愈多〞的奇怪推論,在去除幕後的藏鏡人—年齡之後,自可迎刃而解。(資料來(lái)源︰易得太資訊(統(tǒng)計(jì)桃花源))14.1.2相關(guān)係數(shù)的意義(續(xù))母體相關(guān)係數(shù)其中μX,σX為隨機(jī)變數(shù)X的平均數(shù)與標(biāo)準(zhǔn)差;

μY,σY為隨機(jī)變數(shù)Y的平均數(shù)與標(biāo)準(zhǔn)差;

σXY為隨機(jī)變數(shù)X與Y之共變異數(shù)。14.1.2相關(guān)係數(shù)的意義(續(xù)1)假設(shè)X與Y為成對(duì)資料則母體相關(guān)係數(shù)可表為14.1.2相關(guān)係數(shù)的意義(續(xù)2)相關(guān)係數(shù)的性質(zhì):相關(guān)係數(shù)的值介於–1與1之間。當(dāng)ρXY=1,表示X與Y為完全正相關(guān),亦即當(dāng)X變動(dòng)時(shí),Y亦以相同方向變動(dòng);反之,亦然。當(dāng)ρXY=–1,表示X與Y為完全負(fù)相關(guān),亦即當(dāng)X變動(dòng)時(shí),Y亦以相反方向來(lái)變動(dòng);反之,亦然。當(dāng)ρXY=0,代表X與Y完全沒(méi)有線性關(guān)係,不過(guò)並不代表兩者之間沒(méi)有其他型態(tài)關(guān)係(如拋物線關(guān)係)存在。14.1.3相關(guān)係數(shù)的估計(jì)我們必須假設(shè)之母體為一二維常態(tài)分配(Bivariatenormaldistribution),然後抽出樣本資料,來(lái)計(jì)算樣本相關(guān)係數(shù),而其定義如下:其中例14.2續(xù)例14.1假設(shè)試問(wèn)停留時(shí)間與消費(fèi)額之相關(guān)係數(shù)為何,可利用Excel來(lái)計(jì)算相關(guān)係數(shù),步驟如下:輸入表14.1的資料。點(diǎn)選「工具」、「資料分析」、「相關(guān)係數(shù)」。輸入資料範(fàn)圍$A$1:$B$10,並按確定。結(jié)果可得rXY=0.425265。14.1.3相關(guān)係數(shù)的估計(jì)〔續(xù)〕圖14.2不同的

XY時(shí),X與Y的散布圖14.1.4相關(guān)係數(shù)的檢定

XY=0的檢定假設(shè)

H0:

XY=0

H1:

XY0檢定統(tǒng)計(jì)量

當(dāng)XY=0且(x,y)來(lái)自二元常態(tài)分配時(shí),檢定統(tǒng)計(jì)量t*為一自由度為n-2的t

分配。例14.3續(xù)例14.2在例14.1中,試在α=0.05的水準(zhǔn)下,檢定停留時(shí)間與消費(fèi)額是否有關(guān)係存在??稍O(shè)定虛無(wú)與對(duì)立假設(shè)為

H0:

XY=0

H1:

XY0檢定統(tǒng)計(jì)量:拒絕域:例14.3續(xù)例14.2〔續(xù))相關(guān)係數(shù):檢定統(tǒng)計(jì)量之值:所以不拒絕H0,亦即無(wú)充分證據(jù)顯示停留時(shí)間與消費(fèi)額間有相關(guān)存在。相關(guān)係數(shù)的檢定(續(xù))

XY=

0的檢定假設(shè)

H0:

XY=

0

H1:

XY

0檢定統(tǒng)計(jì)量採(cǎi)用Fisher轉(zhuǎn)換Zr14.1.4相關(guān)係數(shù)的檢定(續(xù)1)

XY=

0的檢定當(dāng)n>30時(shí),Zr近似於常態(tài)分配,即,其中所以可以透過(guò)Z檢定來(lái)完成,亦即例14.4廣告費(fèi)用與銷售量某公司想瞭解廣告費(fèi)用與銷售量之間的相關(guān),於是蒐集了過(guò)去36個(gè)月的資料,並計(jì)算得相關(guān)係數(shù)為0.68,試在0.05的顯著水準(zhǔn)下,檢定以下的假設(shè): H0:XY=0.75 H1:XY0.75先求例14.4廣告費(fèi)用與銷售量〔續(xù)〕再求檢定統(tǒng)計(jì)量值∵,所以不拒絕H0,亦即無(wú)充分證據(jù)顯示廣告費(fèi)用與銷售量之間的相關(guān)係數(shù)不為0.75。自變數(shù)與依變數(shù)迴歸分析適用在研究者可以掌握因果關(guān)係,以後採(cǎi)用的相關(guān)性分析。自變數(shù)即是獨(dú)立變數(shù),在因果關(guān)係中,它是獨(dú)立的,因其並不依賴其他變數(shù)。依變數(shù),即是在此因果關(guān)係中人們關(guān)切的變數(shù)。被假設(shè)變數(shù)的因與果之間,必須有著某種理論的聯(lián)繫,須符合以下五條件:一個(gè)變數(shù)之變化必須聯(lián)繫於另一個(gè)變數(shù)的變化。原因之變數(shù)在時(shí)間上必須早於或居先於另一變數(shù)。因與果之關(guān)係必須大致可信。所主張之關(guān)係必須與其他證據(jù)一致。所指認(rèn)的因素必須是最重要的因素。(資料來(lái)源︰石之瑜—迴歸方法作為社會(huì)科學(xué)方法的省思)練習(xí)思考題假設(shè)要分析豬肉的需求與其價(jià)格的關(guān)係時(shí),請(qǐng)問(wèn)如何利用迴歸分析來(lái)分析之?承1,假設(shè)以相關(guān)分析來(lái)分析,則有何異同?例14.5廣告支出與營(yíng)業(yè)額例14.5廣告支出與營(yíng)業(yè)額(續(xù))例14.5廣告支出與營(yíng)業(yè)額(續(xù)1)假設(shè)條件Y為依變數(shù),是需要被預(yù)測(cè)(或)解釋的變數(shù)。X為自變數(shù),是用來(lái)預(yù)測(cè)的變數(shù),沒(méi)有誤差。

、

為未知常數(shù)。

~N(0,

2)。

Cov(

i,

j)=0;

i≠j。14.2.2線性迴歸方程式14.2.2線性迴歸方程式〔續(xù))14.2.2線性迴歸方程式(續(xù)1)圖14.4迴歸方程式與Y的分配關(guān)係如果a與b,分別代表α與β的估計(jì)統(tǒng)計(jì)量,代表Y的估計(jì)值,則估計(jì)線性迴歸方程式(estimatedlinearregressionequation):

在X=xi的情況下,則估計(jì)線性迴歸方程式:最小平方法(leastsquaremethod)假設(shè)Q代表所有與間之差的平方和,則最小平方法的原理便是在Q為最小的情況下,所找出的a與b,即為與的估計(jì)式。微積分的原理

迴歸係數(shù)的其他計(jì)算公式:

其中,為X的變異數(shù),為X與Y的樣本共變異數(shù)。最小平方法的重要性統(tǒng)計(jì)學(xué)史家思泰格拉〔Stigler〕“最小平方法是十九世紀(jì)統(tǒng)計(jì)學(xué)的主題曲。從許多方面來(lái)看,它之於統(tǒng)計(jì)學(xué)就相當(dāng)於十八世紀(jì)的微積分之於數(shù)學(xué)。〞例14.6續(xù)例14.5試由表14.3的資料計(jì)算出廣告支出與營(yíng)業(yè)額間的估計(jì)線性迴歸方程式。由表14.3我們整理得表14.4以方便計(jì)算a與b。例14.6續(xù)例14.5(續(xù))表14.4ABC公司的估計(jì)線性迴歸方程式之計(jì)算14.4迴歸方程式的適合度14.4迴歸方程式的適合度(續(xù))迴歸模型之變異分解14.4迴歸方程式的適合度(續(xù)1)變異的分解:14.4迴歸方程式的適合度(續(xù)2)變異的計(jì)算公式:14.4迴歸方程式的適合度(續(xù)3)判定係數(shù)(coefficientofdetermination;R2)

R2之值介於0與1之間。R2愈高,代表估計(jì)線性迴歸方程式的配適度愈好。假設(shè)將判定係數(shù)以百分比表示時(shí),則R2可視為總變異可用估計(jì)迴歸方程式解釋的程度,也就是Y可以被X解釋的程度。14.4迴歸方程式的適合度〔續(xù)4〕判定係數(shù)的計(jì)算公式:14.4迴歸方程式的適合度〔續(xù)5〕上述之判定係數(shù),並沒(méi)有考慮到SST與SSE的自由度,如果再將這個(gè)觀念參加,那麼我們就定義另一個(gè)新的判定係數(shù),稱之為調(diào)整判定係數(shù)(adjustedcoefficientofdetermination),一般以表示之,而

一般而言會(huì)比R2小,在不同判定係數(shù)值的比較時(shí),由於多考慮了自由度,因此以來(lái)作比較會(huì)客觀些。例14.7續(xù)例14.6如何求例14.6之估計(jì)迴歸方程式的判定係數(shù),可由表14.4算出

例14.7續(xù)例14.6(續(xù))判定係數(shù)為以ABC公司的例子而言,我們可說(shuō)85.07%的總變異可由估計(jì)的迴歸方程式解釋,或是營(yíng)業(yè)額可以被廣告支出解釋的部份是85.07%。調(diào)整判定係數(shù)為14.5迴歸方程式的檢定14.5.1與

的顯著性檢定14.5.2迴歸方程式的F檢定14.5迴歸方程式的檢定(續(xù))由於α與β的估計(jì)式a與b都是依變數(shù)Y的函數(shù),而Y的變異數(shù)亦是隨機(jī)誤差項(xiàng)ε的變異數(shù)σ2,因此就需求出σ2的估計(jì)式。估計(jì)隨機(jī)誤差項(xiàng)ε的變異數(shù)σ2:SSE的均方誤差(meansquareerror)MSE可以經(jīng)數(shù)學(xué)證明作為σ2的不偏估計(jì)式,故,其中

14.5.1與

的顯著性檢定因?yàn)閅為一常態(tài)分配,所以a與b的抽樣分配亦為常態(tài)分配,

其中14.5.1與

的顯著性檢定(續(xù))14.5.1與

的顯著性檢定(續(xù)1)

的(1-)%信賴區(qū)間:例14.8續(xù)例14.7試在顯著水準(zhǔn)為0.05的情況下,檢定廣告支出是否對(duì)營(yíng)業(yè)額有影響。虛無(wú)與對(duì)立假設(shè)為:H0:

=0vs.H1:

0

檢定統(tǒng)計(jì)量之值:其中例14.8續(xù)例14.7(續(xù))因?yàn)?,所以拒絕H0,亦即資料顯示廣告支出對(duì)營(yíng)業(yè)額有影響。在ABC公司的例子而言,β的95%區(qū)間估計(jì)如下:14.5.1與的顯著性檢定(續(xù)2〕有關(guān)

的檢定假設(shè):H0:

=0vs.

H1:

0檢定統(tǒng)計(jì)量:決策法則:或時(shí),拒絕H0。註:

當(dāng)樣本數(shù)大於等於30時(shí),則可使用z檢定,其檢定統(tǒng)計(jì)量不變。14.5.1與的顯著性檢定(續(xù)3〕的(1-)%的信賴區(qū)間14.5.2迴歸方程式的F檢定有關(guān)迴歸方程式解釋能力檢定虛無(wú)與對(duì)立假設(shè)

H0:迴歸方程式不具解釋能力(

=0)

H1:迴歸方程式具解釋能力(

0)檢定統(tǒng)計(jì)量:決策法則:,時(shí)拒絕H0。14.5.2迴歸方程式的F檢定〔續(xù)〕表14.5變異數(shù)分析表例14.9續(xù)例14.6試用F檢定來(lái)決定廣告支出是否對(duì)營(yíng)業(yè)額有影響,可由例14.6的估計(jì)迴歸方程式,我們整理得到表14.6表14.6ABC公司變異數(shù)分析表因此拒絕H0,亦即資料顯示線性迴歸方程式具解釋能力。14.6利用估計(jì)線性迴歸方程式進(jìn)行預(yù)測(cè)在求得估計(jì)迴歸方程式後,如果它的配適度很高,亦即判定係數(shù)R2很高,那麼我們就可以利用它來(lái)估計(jì)在某一特定值下,依變數(shù)的值為何?在下,對(duì)依變數(shù)的估計(jì)可分為兩種,第一種是估計(jì)全部可能值的平均數(shù),以表之,另一種則是估計(jì)個(gè)別的值,以表之。14.6利用估計(jì)線性迴歸方程式

進(jìn)行預(yù)測(cè)(續(xù))X=x0下估計(jì)點(diǎn)估計(jì)值,的(1-α)%區(qū)間估計(jì)註:當(dāng)大樣本時(shí),tn-2,α/2以zα/2代之。例14.10續(xù)例14.6

假設(shè)該行銷經(jīng)理想預(yù)測(cè)當(dāng)廣告支出為25仟元時(shí),營(yíng)業(yè)額的平均值為何?又其95%的信賴區(qū)間為何?估計(jì)迴歸方程式為在廣告支出為25仟元時(shí),平均營(yíng)業(yè)額的預(yù)測(cè)為99.07仟元。例14.10續(xù)例14.6(續(xù))平均營(yíng)業(yè)額的95%區(qū)間估計(jì)為亦即,在廣告支出為25仟元,95%的信賴區(qū)間水準(zhǔn)下,平均營(yíng)業(yè)額的信賴區(qū)間為96.97仟元到101.17仟元之間。14.6利用估計(jì)線性迴歸方程式

進(jìn)行預(yù)測(cè)(續(xù)1)X=x0下估計(jì)其中

14.6利用估計(jì)線性迴歸方程式

進(jìn)行預(yù)測(cè)〔續(xù)2〕

的(1-α)%區(qū)間估計(jì)註:當(dāng)大樣本時(shí),tn-2,α/2以zα/2代之。例14.11續(xù)例14.6廣告支出為25仟元時(shí)的營(yíng)業(yè)額預(yù)測(cè)值為何?又95%的信賴區(qū)間為何?當(dāng)廣告支出為25仟元時(shí)的營(yíng)業(yè)額預(yù)測(cè)值為99.07千元。例14.11續(xù)例14.6(續(xù))95%信賴區(qū)間為在廣告支出為25仟元,95%的信賴水準(zhǔn)下,營(yíng)業(yè)額的信賴區(qū)間為92.19仟元到105.95仟元之間。14.6利用估計(jì)線性迴歸方程式進(jìn)行預(yù)測(cè)〔續(xù)3〕與比較的信賴區(qū)間較窄。當(dāng)愈靠近,則與愈小,因此信賴區(qū)間就愈窄。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論