第五 相關(guān)與回歸分析_第1頁
第五 相關(guān)與回歸分析_第2頁
第五 相關(guān)與回歸分析_第3頁
第五 相關(guān)與回歸分析_第4頁
第五 相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五相關(guān)與回歸分析第1頁,共54頁,2023年,2月20日,星期一相關(guān)與回歸分析是研究變量之間存在的相互依存關(guān)系的一種統(tǒng)計分析方法。變量間的關(guān)系有兩種:一類是變量間存在著完全確定性的關(guān)系,這類變量間的關(guān)系稱為函數(shù)關(guān)系。另一類是變量間存在著不完全確定的數(shù)量依存關(guān)系,不能用精確的數(shù)學(xué)公式來表示,這些變量間的關(guān)系稱為相關(guān)關(guān)系。存在相關(guān)關(guān)系的變量稱為相關(guān)變量。前言第2頁,共54頁,2023年,2月20日,星期一相關(guān)變量間的關(guān)系:一種是因果關(guān)系,即一個變量的變化受另一個或幾個變量的影響;另一種是平行關(guān)系,即兩個以上變量之間共同受到另外因素的影響。相關(guān)分析主要研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系?;貧w分析研究呈因果關(guān)系的相關(guān)變量間的關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為因變量?;貧w分析事先都要確定自變量與因變量,相關(guān)分析一般無需確定自變量與因變量。第3頁,共54頁,2023年,2月20日,星期一第一節(jié)相關(guān)分析的基本問題一、相關(guān)關(guān)系與函數(shù)關(guān)系第4頁,共54頁,2023年,2月20日,星期一函數(shù)關(guān)系是指變量間存在的嚴格確定的數(shù)量依存關(guān)系(一一對應(yīng))。當(dāng)變量x取某個數(shù)值時,

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。所有的觀測點落在一條線上。xy1、函數(shù)關(guān)系第5頁,共54頁,2023年,2月20日,星期一2、相關(guān)關(guān)系

變量間存在不嚴格確定的數(shù)量依存關(guān)系當(dāng)變量x取某個值時,變量y的取值可能有幾個。各觀測點分布在直線周圍可以表示為:y=f(x)+(隨機因素)xy第6頁,共54頁,2023年,2月20日,星期一3、相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別與聯(lián)系

(1)都可用函數(shù)式加以描述,但表達式不同(2)函數(shù)有時也可能表現(xiàn)為相關(guān)關(guān)系(3)相關(guān)分析有時需要利用函數(shù)關(guān)系數(shù)學(xué)表達式來研究(4)相關(guān)關(guān)系是相關(guān)分析的研究對象,函數(shù)關(guān)系是相關(guān)分析的工具第7頁,共54頁,2023年,2月20日,星期一二、相關(guān)關(guān)系的種類

相關(guān)關(guān)系變量個數(shù)的多少相關(guān)的密切程度單相關(guān)多元相關(guān)相關(guān)的方向相關(guān)的形式線性相關(guān)非線性相關(guān)完全相關(guān)不完全相關(guān)不相關(guān)正相關(guān)負相關(guān)第8頁,共54頁,2023年,2月20日,星期一三、相關(guān)分析的作用及內(nèi)容相關(guān)分析的目的在于探討相互關(guān)系的密切程度及變化的規(guī)律性,以進行必要的預(yù)測和控制內(nèi)容主要包括以下兩方面:(一)確定變量之間有無相關(guān)關(guān)系及其表現(xiàn)形式(二)確定相關(guān)關(guān)系的密切程度(主要通過相關(guān)圖表與相關(guān)系數(shù)測算)第9頁,共54頁,2023年,2月20日,星期一第二節(jié)相關(guān)關(guān)系的測度(一)定性判斷(二)利用相關(guān)表判斷(三)利用相關(guān)圖判斷(四)計算相關(guān)系數(shù)第10頁,共54頁,2023年,2月20日,星期一*簡單相關(guān)表利用未分組的原始資料,將兩個現(xiàn)象的變量值一一對應(yīng)地填列在同一張表格上,這種表就叫簡單相關(guān)表,簡單相關(guān)表適用于資料的項數(shù)較少的情況。年份銷售額(萬元)流通費用(萬元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.3銷售額與流通費用相關(guān)表某企業(yè)銷售額與流通費用的散點圖第11頁,共54頁,2023年,2月20日,星期一*單變量分組表

只對自變量進行分組,因變量不分組,只是計算出其次數(shù)和平均數(shù),這種表稱為單變量分組表。

家庭月收入(元)家庭戶數(shù)(戶)家庭月平均支出(元)8000以上7000~80006000~70005000~60004000~50003000~40002000~30001000~20001000以下

3369834201163025282026522486225519601536976662某市家庭收入與消費支出相關(guān)表家庭收入與家庭消費支出的相關(guān)圖第12頁,共54頁,2023年,2月20日,星期一家庭月收入(元)家庭月支出(元)合計500以下500~10001000~15001500~20002000~25002500~30003000以上8000以上7000~80006000~70005000~60004000~50003000~40002000~30001000~20001000以下23145316942114713551321221111336983420116合計51320242783100*雙變量分組表第13頁,共54頁,2023年,2月20日,星期一不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)完全負線性相關(guān)完全正線性相關(guān)散點圖第14頁,共54頁,2023年,2月20日,星期一二、相關(guān)系數(shù)的計算1、含義說明兩變量之間線性相關(guān)密切程度的統(tǒng)計分析指標(biāo)。用r表示。絕對值r界于0與1之間

當(dāng)r<1,表示負相關(guān);r>1,表示正相關(guān)絕對值r越接近1,線性相關(guān)越密切絕對值r越接近0,相關(guān)程度越弱數(shù)值說明(一)皮爾遜線性相關(guān)系數(shù)r第15頁,共54頁,2023年,2月20日,星期一-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加第16頁,共54頁,2023年,2月20日,星期一通常:當(dāng)相關(guān)系數(shù)的絕對值:小于0.3時,表示不相關(guān)或微弱相關(guān)介于0.3至0.5,表示低度相關(guān)介于0.5至0.8,表示顯著相關(guān)大于0.8時,表示高度相關(guān)第17頁,共54頁,2023年,2月20日,星期一2、直線單相關(guān)系數(shù)r的計算公式(過程)

(1)計算自變量數(shù)列的標(biāo)準(zhǔn)差

(2)計算因變量的標(biāo)準(zhǔn)差

(3)計算兩者的協(xié)方差

(4)計算相關(guān)系數(shù)

第18頁,共54頁,2023年,2月20日,星期一3.相關(guān)系數(shù)的其他公式(1)積差法公式:

(2)積差法簡化式:

(3)簡捷公式:

第19頁,共54頁,2023年,2月20日,星期一例1:某企業(yè)某種產(chǎn)品產(chǎn)量與單位成本的資料如下:計算直線相關(guān)系數(shù)產(chǎn)量(千件)單位成本(元/件)273372471373469568理論上可以先通過定性判斷、畫散點圖等確定兩個變量間是否有關(guān)系,在此基礎(chǔ)上可以直接用公式計算相關(guān)系數(shù)。公式的選擇可以根據(jù)實際的資料和計算條件來確定。注意:在計算相關(guān)系數(shù)時,無需確定自變量和因變量,所以x,y的確定是任意的。第20頁,共54頁,2023年,2月20日,星期一用簡捷公式的相關(guān)系數(shù)計算表產(chǎn)量x(千件)單位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合計2142614817930268r=-0.9091即單位成本與產(chǎn)量間存在著高度的線性負相關(guān)關(guān)系。第21頁,共54頁,2023年,2月20日,星期一(二)時間序列自相關(guān)的測定時間數(shù)列自相關(guān)是考察變量值在動態(tài)上的相關(guān)情況。1.變量值動態(tài)上相關(guān)有兩種情況:(1)時間數(shù)列的自相關(guān):即某一個變量自身隨時間不同,其數(shù)值在前后期之間表現(xiàn)出一定的依存關(guān)系。(2)兩個或兩個以上時間數(shù)列間的相關(guān):即兩個或兩個以上的變量在不同時間中表現(xiàn)出一定的依存關(guān)系。(這種情況可以視同兩變量間的相關(guān))2.時間序列自相關(guān)也有正相關(guān)、負相關(guān),線性相關(guān)與非線,性相關(guān)等情況。當(dāng)考慮本期數(shù)值與上期數(shù)值呈線性相關(guān)的情況時,可以計算時間數(shù)列的自相關(guān)系數(shù):

第22頁,共54頁,2023年,2月20日,星期一(三)斯皮爾曼等級相關(guān)系數(shù)的計算1.等級相關(guān)的含義就是把有關(guān)聯(lián)的數(shù)量標(biāo)志或品質(zhì)標(biāo)志的具體表現(xiàn)按等級次序排列,形成X和Y這兩個序列,再測定這兩個序列之間的相關(guān)程度,得到的相關(guān)系數(shù)即為等級相關(guān)系數(shù)。常用的有斯皮爾曼相關(guān)系數(shù)、肯特爾相關(guān)系數(shù)等。2.等級相關(guān)的優(yōu)缺點優(yōu)點:簡單易行、應(yīng)用廣泛,適用于不精確計量標(biāo)志缺點:精確度稍差于按積差法計算的相關(guān)系數(shù)

第23頁,共54頁,2023年,2月20日,星期一3.斯皮爾曼等級相關(guān)系數(shù)的計算計算步驟定等級依此計算每對觀察值相應(yīng)的等級差D計算D2代入公式第24頁,共54頁,2023年,2月20日,星期一例2:以下是兩組消費者對十種商品的評分資料,據(jù)此計算兩組資料間的等級相關(guān)系數(shù)編號甲組評分乙組評分183782808438584490805797567273777868688097075108173合計計算等級相關(guān)系數(shù),首先應(yīng)將原數(shù)據(jù)轉(zhuǎn)化為等級,本例中甲組最低分是68分,則可將它的等級數(shù)定為1,70分的等級數(shù)就是2,72分的為3,依次類推,如果兩個數(shù)值相等,則值以平均位置數(shù)代替。第25頁,共54頁,2023年,2月20日,星期一等級相關(guān)系數(shù)計算表編號甲組評分乙組評分等級x等級yD2183788642808468.56.253858498.50.254908010795797554.50.256727332.50.257778641036868701109707524.56.2510817372.520.25合計82.25代入公式得:R=0.05第26頁,共54頁,2023年,2月20日,星期一*r的顯著性檢驗通常我們計算的相關(guān)系數(shù)都是根據(jù)樣本數(shù)據(jù)計算得到的,其數(shù)值大小帶有一定的隨機性。樣本相關(guān)能否說明總體的相關(guān)?需要經(jīng)過假設(shè)性檢驗。計算t統(tǒng)計量:服從自由度為n-2的t分布給定顯著性水平,得臨界值。當(dāng)t大于臨界值,拒絕H0,認為x與y的線性相關(guān)性顯著。否則可能來自于總體相關(guān)系數(shù)等于0的總體。第27頁,共54頁,2023年,2月20日,星期一第三節(jié)回歸分析(一)概念:回歸分析是在相關(guān)分析基礎(chǔ)上對具有相關(guān)關(guān)系的兩個或兩個以上變量之間的數(shù)量變化進行數(shù)量測定,配合一定的模型,以便對因變量進行估計或預(yù)測的一種統(tǒng)計分析方法?;貧w分析的實質(zhì)是在相關(guān)分析的基礎(chǔ)上,研究現(xiàn)象間的數(shù)量變化規(guī)律。一、回歸分析的含義第28頁,共54頁,2023年,2月20日,星期一(二)回歸分析的特點

1、在眾多變量中,必須確定一個為因變量,其余為自變量;

2、在沒有明顯因果關(guān)系的兩個變量中,可求得兩個回歸方程;(y對x或x對y皆可)

3、回歸方程的作用在于以自變量估計因變量的可能值或限定因變量的范圍來推斷自變量的控制范圍;

4、自變量的系數(shù)為回歸系數(shù)。符號正則表示變量間正相關(guān),負則表示變量間負相關(guān)。

5、相關(guān)分析中兩變量都是隨機的,回歸分析中因變量是隨機的,但自變量是給定的。第29頁,共54頁,2023年,2月20日,星期一二、回歸分析的內(nèi)容(一)根據(jù)研究目的和變量間的內(nèi)在聯(lián)系,確定自變量和因變量(二)確定回歸分析模型的類型及數(shù)學(xué)表達式(三)估計參數(shù)并對回歸分析模型進行評價(四)根據(jù)自變量的給定值確定因變量的數(shù)值第30頁,共54頁,2023年,2月20日,星期一三、回歸模型的種類第31頁,共54頁,2023年,2月20日,星期一四、一元線性回歸模型描述因變量y

如何依賴于自變量x

和誤差項

的方程稱為回歸模型。一元線性回歸模型可表示為

y=a

+bx+ey是x的線性函數(shù)(部分)加上誤差項(1)線性部分反映了由于x的變化而引起的y的變化。(2)誤差項

是隨機變量。反映了除x和y之間的線性關(guān)系之外的隨機因素對y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性a

和b

稱為模型的參數(shù)(一)模型的基本理論第32頁,共54頁,2023年,2月20日,星期一誤差項ε是一個期望值為0的隨機變量,即E(ε)=0。對于一個給定的x值,y的期望值為E(y)=a+b

x對于所有的x值,ε的方差σ2都相同誤差項ε是一個服從正態(tài)分布的隨機變量,且相互獨立。即ε~N(0,σ2)*獨立性意味著對于一個特定的x值,它所對應(yīng)的ε與其他x值所對應(yīng)的ε不相關(guān)。*對于一個特定的x值,它所對應(yīng)的y值與其他x所對應(yīng)的y值也不相關(guān)基本假設(shè)第33頁,共54頁,2023年,2月20日,星期一描述y的平均值或期望值如何依賴于x的方程稱為回歸方程。一元線性回歸方程的表現(xiàn)形式為:

E(y)=a+b

x*方程的圖示是一條直線,也稱為直線回歸方程*a表示回歸直線在y軸上的截距,即當(dāng)x=0時y的期望值。*b表示直線的斜率,稱為回歸系數(shù),反映當(dāng)x每變動一個單位時,y的平均變動值?;貧w方程第34頁,共54頁,2023年,2月20日,星期一

要求:實際值(觀察值)與理論值(趨勢值)的離差平方和達到最小。即:用這種方法求出的回歸直線是原有資料的“最佳”擬合直線。(二)參數(shù)的估計方法---最小二乘估計法第35頁,共54頁,2023年,2月20日,星期一

整理得:最后得到:

第36頁,共54頁,2023年,2月20日,星期一(三)回歸分析的應(yīng)用在計算相關(guān)系數(shù)時,我們曾列出了一個企業(yè)的產(chǎn)量和單位成本的兩組數(shù)據(jù),通過計算,我們得出了這兩個變量呈現(xiàn)高度負相關(guān)的結(jié)論。那么進一步研究,來看看它們之間到底呈現(xiàn)怎樣的數(shù)量關(guān)系呢?產(chǎn)量的變動對成本的具體影響又是如何呢?我們可以用最小二乘法來求解參數(shù),作出判斷和預(yù)測。第37頁,共54頁,2023年,2月20日,星期一例3回歸分析計算表產(chǎn)量x(千件)單位成本y(元/件)xyx2273146437221694712841637321994692761656834025合計21426148179由于是進行回歸分析,所以必須確定自變量和因變量,在無明顯因果關(guān)系時,理論上可以擬合兩條回歸方程,視要求選擇。而如果變量間有明顯因果關(guān)系時,必須將“因”作為自變量,“果”作為因變量。本例中我們研究產(chǎn)量變動對成本的影響,故以產(chǎn)量為x,成本為y。第38頁,共54頁,2023年,2月20日,星期一解得:則成本依產(chǎn)量回歸的方程為:Yc=77.37-1.82x回歸系數(shù)b=-1.82說明當(dāng)產(chǎn)量每增加1千件時,單位成本平均下降1.82元。兩者呈負相關(guān)。同時,用回歸方程還可以進行預(yù)測,例:當(dāng)產(chǎn)量達到10千件時,單位成本會降到66.55元。第39頁,共54頁,2023年,2月20日,星期一(四)估計標(biāo)準(zhǔn)誤差概念:它是衡量回歸方程代表性大小的統(tǒng)計分析指標(biāo),反映實際觀察值在回歸直線周圍的分散狀況,又稱回歸估計標(biāo)準(zhǔn)誤。計算公式:或第40頁,共54頁,2023年,2月20日,星期一回歸分析計算表產(chǎn)量x(千件)單位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合計2142614817930268第41頁,共54頁,2023年,2月20日,星期一(五)變差及其分解1、變差的產(chǎn)生:在直線回歸中,因變量y的大小取值是不同的,它圍繞平均值上下波動。y取值的這種波動稱為變差。變差來源于兩個方面一是由于自變量x的取值不同造成的。二是除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響造成的。對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示第42頁,共54頁,2023年,2月20日,星期一xyy{}}變差構(gòu)成圖解:第43頁,共54頁,2023年,2月20日,星期一2、變差的分解

TSS=SSR+SSE總平方和(TSS){回歸平方和(SSR)殘差平方和(SSE){{第44頁,共54頁,2023年,2月20日,星期一(1)總平方和(TSS)反映因變量的n個觀察值與其均值的總離差(2)回歸平方和(SSR)反映由于x與y之間的線性關(guān)系引起的y的取值變化,也稱可解釋的平方和。說明自變量x的變化對因變量y取值變化的影響。(3)殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和。第45頁,共54頁,2023年,2月20日,星期一3、判定系數(shù)r2

回歸平方和占總離差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論