1、2021-11-216-1【引例6.0】 (數(shù)據(jù)文件為example 6.0)某公司經(jīng)理想研究公司員工的年薪問(wèn)題,根據(jù)初步分析,他認(rèn)為員工的當(dāng)前年薪y(tǒng)(元)與員工的開(kāi)始年薪x1(元)、在公司的工作時(shí)間x2(月)、先前的工作經(jīng)驗(yàn)x3(月)和受教育年限x4(年)有關(guān)系,他隨機(jī)抽樣調(diào)查了36個(gè)員工,收集到以下數(shù)據(jù):第1頁(yè)/共113頁(yè)2021-11-216-2第2頁(yè)/共113頁(yè)2021-11-216-3問(wèn)題 經(jīng)理想根據(jù)以上樣本數(shù)據(jù),構(gòu)建一個(gè)模型來(lái)反映y與x1、x2、x3和x4之間關(guān)系,并希望利用該模型在給定一個(gè)員工的x2、x3和x4的條件下,預(yù)測(cè)該員工的當(dāng)前年薪y(tǒng)。 此外,經(jīng)理認(rèn)為,公司男女員工的薪水
2、結(jié)構(gòu)不同,他想在建立模型的時(shí)候能把性別因素考慮進(jìn)來(lái),這是否可行? 第3頁(yè)/共113頁(yè)2021-11-216-46.1 相關(guān)分析 相關(guān)的概念 1. 人的身高與體重有相關(guān)關(guān)系。 2. 居民可支配收入與支出有相關(guān)關(guān)系。 3. 糧食產(chǎn)量與施肥量有相關(guān)關(guān)系。 第4頁(yè)/共113頁(yè)2021-11-216-5相關(guān)的種類(lèi) 1. 按相關(guān)程度劃分: 分為完全相關(guān)、不完全相關(guān)和不相關(guān);如圖6.1所示。 2. 按相關(guān)方向劃分: 分為正相關(guān)和負(fù)相關(guān)。如圖6.2所示。 3. 按相關(guān)形式劃分: 分為線性相關(guān)和非線性相關(guān);如圖6.3所示 。 4. 按變量多少劃分: 分為簡(jiǎn)單相關(guān)和復(fù)相關(guān)。 第5頁(yè)/共113頁(yè)2021-11-21
3、6-6相關(guān)關(guān)系的度量 1. 簡(jiǎn)單線性相關(guān)系數(shù) 第6頁(yè)/共113頁(yè)2021-11-216-7第7頁(yè)/共113頁(yè)2021-11-216-8第8頁(yè)/共113頁(yè)2021-11-216-92. 偏相關(guān)系數(shù)第9頁(yè)/共113頁(yè)2021-11-216-10【例6.1】 第10頁(yè)/共113頁(yè)2021-11-216-11第11頁(yè)/共113頁(yè)2021-11-216-12第12頁(yè)/共113頁(yè)2021-11-216-136.2 一元線性回歸 回歸的含義 回歸(regression)一詞最早由英國(guó)生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓(F.Galton)于1886年在論文“Regression towards mediocrity i
4、n hereditary stature”中正式提出。 回歸分析(regression analysis)是通過(guò)建立回歸模型來(lái)研究相關(guān)變量的關(guān)系并作出相應(yīng)估計(jì)和預(yù)測(cè)的一種統(tǒng)計(jì)方法, 第13頁(yè)/共113頁(yè)2021-11-216-14一元線性回歸第14頁(yè)/共113頁(yè)2021-11-216-15第15頁(yè)/共113頁(yè)2021-11-216-16最小二乘估計(jì)圖圖6.4 x和和y的散點(diǎn)圖的散點(diǎn)圖第16頁(yè)/共113頁(yè)2021-11-216-17第17頁(yè)/共113頁(yè)2021-11-216-18第18頁(yè)/共113頁(yè)2021-11-216-19第19頁(yè)/共113頁(yè)2021-11-216-20第20頁(yè)/共113頁(yè)2
5、021-11-216-21第21頁(yè)/共113頁(yè)2021-11-216-22【例6.2】 (數(shù)據(jù)文件為example 6.2) 已知我國(guó)2007年31個(gè)地區(qū)城鎮(zhèn)居民年人均可支配收入和年人均消費(fèi)性支出數(shù)據(jù)如下表(單位:元),試分析城鎮(zhèn)居民年人均可支配收入和年人均消費(fèi)性支出之間的關(guān)系,如果有線性相關(guān)關(guān)系,試建立一元線性回歸模型。 第22頁(yè)/共113頁(yè)2021-11-216-23第23頁(yè)/共113頁(yè)2021-11-216-24圖6.5人均可支配收入x和人均消費(fèi)性支出y散點(diǎn)圖 第24頁(yè)/共113頁(yè)2021-11-216-25第25頁(yè)/共113頁(yè)2021-11-216-26第26頁(yè)/共113頁(yè)2021-1
6、1-216-27第27頁(yè)/共113頁(yè)2021-11-216-28回歸方程的檢驗(yàn) 第28頁(yè)/共113頁(yè)2021-11-216-291. F檢驗(yàn)第29頁(yè)/共113頁(yè)2021-11-216-30第30頁(yè)/共113頁(yè)2021-11-216-31第31頁(yè)/共113頁(yè)2021-11-216-32第32頁(yè)/共113頁(yè)2021-11-216-332. t檢驗(yàn)第33頁(yè)/共113頁(yè)2021-11-216-343.r檢驗(yàn)第34頁(yè)/共113頁(yè)2021-11-216-35第35頁(yè)/共113頁(yè)2021-11-216-36【例6.3】 給定顯著水平,對(duì)例6.2的回歸方程進(jìn)行檢驗(yàn)。第36頁(yè)/共113頁(yè)2021-11-216-
7、37第37頁(yè)/共113頁(yè)2021-11-216-38第38頁(yè)/共113頁(yè)2021-11-216-39估計(jì)與預(yù)測(cè)第39頁(yè)/共113頁(yè)2021-11-216-40第40頁(yè)/共113頁(yè)2021-11-216-41圖6.6 回歸預(yù)測(cè)的預(yù)測(cè)區(qū)間第41頁(yè)/共113頁(yè)2021-11-216-426.3 多元線性回歸 多元線性回歸模型第42頁(yè)/共113頁(yè)2021-11-216-43引入矩陣符號(hào) 第43頁(yè)/共113頁(yè)2021-11-216-44第44頁(yè)/共113頁(yè)2021-11-216-45第45頁(yè)/共113頁(yè)2021-11-216-46多元線性回歸方程的檢驗(yàn)第46頁(yè)/共113頁(yè)2021-11-216-47第4
8、7頁(yè)/共113頁(yè)2021-11-216-482. 方程顯著性檢驗(yàn)第48頁(yè)/共113頁(yè)2021-11-216-49第49頁(yè)/共113頁(yè)2021-11-216-50表6.11 多元回歸方程顯著性檢驗(yàn)的方差分析表第50頁(yè)/共113頁(yè)2021-11-216-513. 回歸系數(shù)顯著性檢驗(yàn)第51頁(yè)/共113頁(yè)2021-11-216-52【例6.5】 (數(shù)據(jù)文件為example 6.0) 沿用本章引例中的資料,建立多元線性回歸方程并對(duì)回歸方程進(jìn)行檢驗(yàn)(給定顯著水平=0.05)。 解: 1. 先點(diǎn)散點(diǎn)圖,用SPSS打開(kāi)數(shù)據(jù)文件example 6.0,選擇GraphsLegacy DialogsScatter/
9、Dot.Simple Scatter,點(diǎn)Define,將兩個(gè)變量開(kāi)始年薪x和當(dāng)前年薪y(tǒng)分別選入X Axis和Y Axis,點(diǎn)OK。 第52頁(yè)/共113頁(yè)2021-11-216-53圖6.7 當(dāng)前年薪對(duì)開(kāi)始年薪的散點(diǎn)圖 第53頁(yè)/共113頁(yè)2021-11-216-542做多元線性回歸: 選擇AnalyzeRegressionLinear,將自變量開(kāi)始年薪、工作時(shí)間、先前工作經(jīng)驗(yàn)和受教育年限選入Independent,再將因變量當(dāng)前年薪y(tǒng)選入Dependent中,然后選擇Method為默認(rèn)值Enter,點(diǎn)OK即可得3個(gè)主要表格 :表6.12至6.14。 第54頁(yè)/共113頁(yè)2021-11-216-
10、55表6.12 員工年薪問(wèn)題的回歸方程的可決系數(shù)第55頁(yè)/共113頁(yè)2021-11-216-56表6.13 員工年薪問(wèn)題的方差分析表第56頁(yè)/共113頁(yè)2021-11-216-57表6.14 員工年薪問(wèn)題的多元回歸方程回歸系數(shù)表第57頁(yè)/共113頁(yè)2021-11-216-58于是可得如下回歸方程: 從回歸方程可以看出:當(dāng)前年薪y(tǒng)與開(kāi)始年薪x1和受教育年限x4正相關(guān)(回歸系數(shù)為正),這是合理的;但與工作時(shí)間x2和先前工作經(jīng)驗(yàn)x3負(fù)相關(guān)(回歸系數(shù)為負(fù)),這是不合理的,為什么?12341613.938 1.68334.55213.000808.322(6.55)yxxxx第58頁(yè)/共113頁(yè)2021
11、-11-216-593對(duì)回歸方程進(jìn)行檢驗(yàn)。第59頁(yè)/共113頁(yè)2021-11-216-60估計(jì)與預(yù)測(cè) 1. 均值E(y0)的估計(jì)第60頁(yè)/共113頁(yè)2021-11-216-612. 個(gè)值 y0的預(yù)測(cè)第61頁(yè)/共113頁(yè)2021-11-216-626.4 虛擬變量回歸第62頁(yè)/共113頁(yè)2021-11-216-63【例6.6】 在例6.5中,將性別作為虛擬變量引入回歸方程,建立當(dāng)前年薪y(tǒng)關(guān)于受教育年限和性別虛擬變量的線性回歸模型。 解: 性別x5是虛擬變量,所以這是虛擬變量回歸問(wèn)題;將性別變量“量化”, x5=0表示男性, x5=1表示女性,統(tǒng)計(jì)模型設(shè)定為 04455yxx第63頁(yè)/共113頁(yè)2
12、021-11-216-64 用SPSS打開(kāi)數(shù)據(jù)文件example 6.0,選擇AnalyzeGeneral Linear ModelUnivariate,將因變量當(dāng)前年薪y(tǒng)選入Dependent Variable中,把定量自變量受教育年限x4選入Covariate中,把虛擬變量性別x5選入Fixed Factor中,在Options中選擇Parameter Estimates,點(diǎn)擊Model,在Specify Model中選Custom,再把定量自變量x4和虛擬變量x5選入右邊,在Building Term中選Main effect,然后點(diǎn)Continue回到主對(duì)話框,在Options中的Di
13、splay中選擇Parameter estimates,點(diǎn)ContinueOK即可得參數(shù)估計(jì)值表表6.15。第64頁(yè)/共113頁(yè)2021-11-216-65表6.15 引入性別虛擬變量的線性回歸模型回歸系數(shù)表第65頁(yè)/共113頁(yè)2021-11-216-66由表6.15容易得如下回歸方程 顯然,這兩條線是截距不同的兩條平行線,截距的差異表示男女職工年薪的差別。 545411556.010 4434.394 11556.010 4434.39416840.481xmyxxfyx男職工:女職工:第66頁(yè)/共113頁(yè)2021-11-216-676.5 Logistic回歸 本節(jié)討論因變量是二值定性變量
14、的回歸,即Logistic 回歸。 第67頁(yè)/共113頁(yè)2021-11-216-68【例6.7】 為了研究家庭年收入與是否有私家車(chē)的關(guān)系,隨機(jī)調(diào)查了50個(gè)家庭的情況得結(jié)果如表6.16,以是否有私家車(chē)為因變量(它是一個(gè)二值定性變量),年收入為自變量建立回歸方程,并估計(jì)年收入為12萬(wàn)元的家庭有私家車(chē)的可能性。 第68頁(yè)/共113頁(yè)2021-11-216-69表6.15 抽樣調(diào)查得到的50個(gè)家庭的數(shù)據(jù)資料第69頁(yè)/共113頁(yè)2021-11-216-70第70頁(yè)/共113頁(yè)2021-11-216-71第71頁(yè)/共113頁(yè)2021-11-216-72利用SPSS軟件實(shí)現(xiàn)Logistic回歸 具體操作如下
15、: 打開(kāi)數(shù)據(jù)文件example 6.6,選擇AnalyzeRegressionBinary Logistic,將因變量y選入Dependent中,把自變量x選入Covariate中,點(diǎn)OK即可得參數(shù)估計(jì)表表6.17。 第72頁(yè)/共113頁(yè)2021-11-216-73表6.17 Logistic回歸方程回歸系數(shù)表第73頁(yè)/共113頁(yè)2021-11-216-74 如果要估計(jì)年收入為12萬(wàn)元的家庭有私家車(chē)的可能性,可以打開(kāi)數(shù)據(jù)文件example 6.6,在x變量末尾增加一個(gè)值12,選擇AnalyzeRegressionBinary Logistic,將因變量y選入Dependent中,把自變量x選入
16、Covariate中,點(diǎn)Save在Predicted Values里選 Probabilities,返回主對(duì)話框,點(diǎn)OK,在原數(shù)據(jù)文件里就會(huì)得到一列預(yù)測(cè)值(PRE_1),對(duì)應(yīng)于x=12的PRE值為0.18237,這就是年收入為12萬(wàn)元的家庭有私家車(chē)的可能性的估計(jì)值。 第74頁(yè)/共113頁(yè)2021-11-216-756.6 回歸分析的擴(kuò)展 異方差 1. 異方差的概念2Var( )ii第75頁(yè)/共113頁(yè)2021-11-216-76異方差的三種類(lèi)型 (1) 單調(diào)遞增型:隨的增大而增大; (2) 單調(diào)遞減型:隨的增大而減??; (3) 復(fù)雜型:隨的的變化呈復(fù)雜形式變化。第76頁(yè)/共113頁(yè)2021-1
17、1-216-77圖6.8 異方差的類(lèi)型第77頁(yè)/共113頁(yè)2021-11-216-782. 異方差的修正第78頁(yè)/共113頁(yè)2021-11-216-79加權(quán)最小二乘(WLS)估計(jì) 第79頁(yè)/共113頁(yè)2021-11-216-80第80頁(yè)/共113頁(yè)2021-11-216-81【例6.8】 在例6.5中,求當(dāng)前年薪y(tǒng) (元)關(guān)于開(kāi)始年薪 x1(元)的線性回歸方程。第81頁(yè)/共113頁(yè)2021-11-216-82 解: 用SPSS打開(kāi)數(shù)據(jù)文件example 6.0,做的散點(diǎn)圖圖6.7,容易看出模型存在異方差性,因此先用OLS法求的估計(jì),選擇AnalyzeRegressionLinear,將自變量開(kāi)
18、始年薪x1選入Independent,再將因變量當(dāng)前年薪y(tǒng)選入Dependent中,然后選擇Method為默認(rèn)值Enter,點(diǎn)Save,在Residuals中選Unstandardized(將回歸殘差保存到原數(shù)據(jù)文件中),點(diǎn)ContinueOK即可得3個(gè)主要表格:表6.18,6.19和6.20。第82頁(yè)/共113頁(yè)2021-11-216-83表6.18 普通最小二乘回歸方程的可決系數(shù)第83頁(yè)/共113頁(yè)2021-11-216-84表6.19普通最小二乘回歸方程的方差分析表 第84頁(yè)/共113頁(yè)2021-11-216-85表6.20普通最小二乘回歸方程的回歸系數(shù)表第85頁(yè)/共113頁(yè)2021-1
19、1-216-86加權(quán)最小二乘回歸 選擇TransformCompute,在Target Variable中輸入目標(biāo)變量名ei,在Numeric Expression中輸入表達(dá)式ABS(RES_1)求得殘差向量的絕對(duì)值ei,類(lèi)似再計(jì)算殘差向量的絕對(duì)值ei的倒數(shù)inei:TransformCompute,在Target Variable中輸入目標(biāo)變量名inei,在Numeric Expression中輸入表達(dá)式1/ei,回到數(shù)據(jù)窗口可見(jiàn)已經(jīng)產(chǎn)生了兩列新數(shù)據(jù):殘差向量的絕對(duì)值ei和它的倒數(shù)inei,最后進(jìn)行加權(quán)最小二乘回歸:AnalyzeRegressionLinear,將自變量開(kāi)始年薪x1選入In
20、dependent,將因變量當(dāng)前年薪y(tǒng)選入Dependent中,將權(quán)向量inei選入WLS Weight中,然后選擇Method為默認(rèn)值Enter,點(diǎn)OK即可得3個(gè)主要表格:表6.21,6.22和6.23。 第86頁(yè)/共113頁(yè)2021-11-216-87表6.21加權(quán)最小二乘回歸方程可決系數(shù) 第87頁(yè)/共113頁(yè)2021-11-216-88表6.22加權(quán)最小二乘回歸方程的方差分析表第88頁(yè)/共113頁(yè)2021-11-216-89表6.23加權(quán)最小二乘回歸方程的回歸系數(shù)表第89頁(yè)/共113頁(yè)2021-11-216-90多重共線 多元回歸模型(6.34)的基本假定之一是自變量是互不相關(guān)的,如果其
21、中兩個(gè)或多個(gè)自變量之間出現(xiàn)了相關(guān)性,則稱(chēng)為存在多重共線性。 第90頁(yè)/共113頁(yè)2021-11-216-91第91頁(yè)/共113頁(yè)2021-11-216-92第92頁(yè)/共113頁(yè)2021-11-216-93第93頁(yè)/共113頁(yè)2021-11-216-94【例6.5(續(xù))】 試建立當(dāng)前年薪y(tǒng)關(guān)于開(kāi)始年薪x1,工作時(shí)間x2 ,先前工作經(jīng)驗(yàn)x3和受教育年限x4的多元線性回歸模型。 第94頁(yè)/共113頁(yè)2021-11-216-95 AnalyzeRegressionLinear,將自變量開(kāi)始年薪x1 ,工作時(shí)間x2 ,先前工作經(jīng)驗(yàn)x3和受教育年限x4選入Independent,再將因變量當(dāng)前年薪y(tǒng)選入D
22、ependent中,然后選擇Method為默認(rèn)值Enter(全變量回歸),點(diǎn)OK即可得表6.12,6.13和6.14。從方差分析表表6.13可以看出,對(duì)應(yīng)的p值,所以回歸方程顯著;但從回歸系數(shù)表表6.14可知回歸系數(shù)對(duì)應(yīng)的t統(tǒng)計(jì)量的p值分別為0.793,0.353和0.150,都大于0.05,所以這三個(gè)回歸系數(shù)都不顯著,因此估計(jì)存在多重共線性。 解:1. 全變量回歸,第95頁(yè)/共113頁(yè)2021-11-216-962. 逐步回歸, AnalyzeRegressionLinear,將自變量開(kāi)始年薪x1 ,工作時(shí)間x2 ,先前工作經(jīng)驗(yàn)x3和受教育年限x4選入Independent,再將因變量當(dāng)前年
23、薪y(tǒng)選入Dependent中,然后選擇Method為Stepwise(逐步回歸法),點(diǎn)OK即可得以下回歸系數(shù)表表6.24。 第96頁(yè)/共113頁(yè)2021-11-216-97表6.24逐步回歸方程回歸系數(shù)表第97頁(yè)/共113頁(yè)2021-11-216-986.7 可化為線性情形的非線性回歸第98頁(yè)/共113頁(yè)2021-11-216-99第99頁(yè)/共113頁(yè)2021-11-216-100第100頁(yè)/共113頁(yè)2021-11-216-101第101頁(yè)/共113頁(yè)2021-11-216-102【例6.9】 (數(shù)據(jù)文件為example 6.8) 表6.25給出了1990-2002年某市人均消費(fèi)性支出x和教
24、育支出y的數(shù)據(jù),試建立y關(guān)于x的回歸模型。第102頁(yè)/共113頁(yè)2021-11-216-103表6.25人均消費(fèi)性支出和人均教育支出數(shù)據(jù)第103頁(yè)/共113頁(yè)2021-11-216-104解: 1. 先點(diǎn)散點(diǎn)圖,圖圖6.9人均消費(fèi)性支出人均消費(fèi)性支出x對(duì)人均教育支出對(duì)人均教育支出y的散點(diǎn)圖的散點(diǎn)圖第104頁(yè)/共113頁(yè)2021-11-216-105 2. 再?lài)L試采用二次、三次曲線、冪函數(shù)曲線和指數(shù)函數(shù)曲線擬合數(shù)據(jù):AnalyzeRegressionCurve Estimation ,將自變量人均消費(fèi)性支出x選入Independent,再將因變量人均教育支出y選入Dependent中,在Mode
25、ls中選Linear(線性函數(shù),形如),Quadratic(二次曲線,形如),Cubic(三次曲線,形如),Power(冪函數(shù),形如(6.75)式)和Compound(指數(shù)函數(shù),形如(6.79)式),點(diǎn)OK可得如下擬合結(jié)果。第105頁(yè)/共113頁(yè)2021-11-216-106表6.26五種模型的模型小結(jié)和回歸系數(shù)表第106頁(yè)/共113頁(yè)2021-11-216-107 從表6.26可知,擬合優(yōu)度最高的是指數(shù)函數(shù)和三次曲線,但從輸出的方差分析表和回歸系數(shù)顯著性檢驗(yàn)結(jié)果(具體表格略)來(lái)看,三次曲線中包含回歸系數(shù)不顯著的解釋變量,而指數(shù)函數(shù)的回歸系數(shù)都顯著,所以不采納三次曲線模型而采納指數(shù)函數(shù)模型: 20.955 1.0004xy 第107頁(yè)/共113頁(yè)2021-11-216-108本章小結(jié) 本章介紹了相關(guān)分析和回歸分
評(píng)論
0/150
提交評(píng)論