《應(yīng)用數(shù)理統(tǒng)計(jì)》 課件 劉志華 7 相關(guān)分析、8 回歸分析_第1頁
《應(yīng)用數(shù)理統(tǒng)計(jì)》 課件 劉志華 7 相關(guān)分析、8 回歸分析_第2頁
《應(yīng)用數(shù)理統(tǒng)計(jì)》 課件 劉志華 7 相關(guān)分析、8 回歸分析_第3頁
《應(yīng)用數(shù)理統(tǒng)計(jì)》 課件 劉志華 7 相關(guān)分析、8 回歸分析_第4頁
《應(yīng)用數(shù)理統(tǒng)計(jì)》 課件 劉志華 7 相關(guān)分析、8 回歸分析_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

在數(shù)據(jù)分析中,人們常常還需要分析變量之間的關(guān)系,比如,我們會(huì)關(guān)心一個(gè)地區(qū)的經(jīng)濟(jì)增長(zhǎng)與什么變量相關(guān),一個(gè)網(wǎng)絡(luò)移動(dòng)節(jié)點(diǎn)位置的定位準(zhǔn)確性和什么因素相關(guān),企業(yè)的銷量和什么相關(guān)。我們還可能關(guān)心許多實(shí)證性的問題,例如,大學(xué)生的業(yè)余偏好是否和專業(yè)相關(guān),在剔除了外界環(huán)境的影響之后,移動(dòng)節(jié)點(diǎn)目標(biāo)跟蹤算法的誤差和已知位置的節(jié)點(diǎn)密度是否相關(guān),技術(shù)購(gòu)買的決策是否與企業(yè)的技術(shù)實(shí)力相關(guān),等等。第七章相關(guān)分析§7.1相關(guān)分析的概念7.1.1相關(guān)關(guān)系的種類1、兩個(gè)隨機(jī)變量的總體(線性)相關(guān)系數(shù)定義1:在概率論中,通常用協(xié)方差和相關(guān)系數(shù)來衡量?jī)蓚€(gè)隨機(jī)變量X、Y的取值之間相互關(guān)系的程度和方向,其計(jì)算公式如下式中,是一個(gè)無量綱的量,稱為隨機(jī)變量X、Y之間的相關(guān)系數(shù)??梢宰C明,相關(guān)系數(shù)是區(qū)間[-1,1]之間的一個(gè)量。若,則稱X、Y不相關(guān)。若X、Y相互獨(dú)立,由概率論的知識(shí)我們可以知道,即,X、Y不相關(guān)。反之,若與X、Y不相關(guān),則X、Y不一定相互獨(dú)立。但不相關(guān)的兩個(gè)服從正態(tài)分布的隨機(jī)變量,是相互獨(dú)立的。第七章相關(guān)分析§7.1相關(guān)分析的概念7.1.1相關(guān)關(guān)系的種類2、兩組樣本的線性相關(guān)定義2:設(shè)是的一組樣本,則樣本的線性相關(guān)為

(7.3)其中,,,稱為樣本的中心化處理結(jié)果,這里的數(shù)據(jù)是刻度級(jí)的。樣本相關(guān)系數(shù)是對(duì)總體樣本間的線性相關(guān)關(guān)系的描述,這種相關(guān)也稱為Pearson積矩相關(guān),通常簡(jiǎn)稱為Pearson相關(guān)(皮爾遜相關(guān))。樣本相關(guān)系數(shù)也是區(qū)間[-1,1]之間的一個(gè)量。第七章相關(guān)分析§7.1相關(guān)分析的概念7.1.1相關(guān)關(guān)系的種類3、兩組樣本的Spearman等級(jí)相關(guān)對(duì)兩組配對(duì)的順序級(jí)樣本而言,無法求出Pearson積矩相關(guān)系數(shù),而應(yīng)當(dāng)采用Spearman(斯皮爾曼)等級(jí)相關(guān)來分析。定義3:設(shè)是總體的一組順序級(jí)數(shù)據(jù)樣本,則樣本的Spearman(斯皮爾曼)等級(jí)相關(guān)為

(7.4)Spearman(斯皮爾曼)等級(jí)相關(guān)又稱為非參數(shù)相關(guān)、秩相關(guān)或名次相關(guān)。定義4:設(shè)是總體的一組刻度級(jí)數(shù)據(jù)樣本,設(shè)為Xi的名次,為Yj的名次,,,則可以用下面的方式求出等級(jí)相關(guān)系數(shù)

(7.5)第七章相關(guān)分析§7.1相關(guān)分析的概念/7.1.1相關(guān)關(guān)系的種類4、樣本的偏相關(guān)定義5:已知變量X、Y、Z是彼此有關(guān)聯(lián)的一組變量,那么,在剔除(控制)了變量Z的影響之后,變量X、Y的偏相關(guān)系數(shù)為

(7.6)定義6:已知變量X、Y、Z1、Z2是彼此有關(guān)聯(lián)的一組變量,那么,在剔除(控制)了變量Z1、Z2的影響之后,變量X、Y的偏相關(guān)系數(shù)為

(7.7)式中,是偏相關(guān)系數(shù),下標(biāo)中逗號(hào)“,”之后的變量是被控制的變量。逗號(hào)“,”前面的變量是被計(jì)算偏相關(guān)的兩個(gè)變量。第七章相關(guān)分析§7.1相關(guān)分析的概念/7.1.2散點(diǎn)圖第七章相關(guān)分析§7.1相關(guān)分析的概念/7.1.3相關(guān)強(qiáng)度的表達(dá)要通過樣本相關(guān)系數(shù)來判斷兩個(gè)隨機(jī)變量的相關(guān)性的強(qiáng)弱,首先要做相關(guān)系數(shù)是否顯著異于0的顯著性檢驗(yàn)。例如,統(tǒng)計(jì)量的顯著性概率p值,小于你設(shè)定的顯著性水平a,你才能斷定兩個(gè)隨機(jī)變量在a水平上顯著相關(guān)。只有兩個(gè)隨機(jī)變量顯著相關(guān)的前提下,樣本相關(guān)系數(shù)的絕對(duì)值的大小才反映了兩個(gè)隨機(jī)變量關(guān)系的強(qiáng)弱。另一個(gè)反映相關(guān)性強(qiáng)弱的參考指標(biāo),是統(tǒng)計(jì)量的顯著性概率p值的大小。由于統(tǒng)計(jì)量的顯著性概率p值越小,你推斷兩個(gè)隨機(jī)變量相關(guān)時(shí),犯錯(cuò)誤的概率越小。所以,統(tǒng)計(jì)量的顯著性概率大小在一定意義上反映了兩個(gè)隨機(jī)變量相關(guān)性的強(qiáng)弱。第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)7.2.1問題引入例1以下是7個(gè)省區(qū)人均GDP(元)和建筑合同的價(jià)值(億元),試計(jì)算兩個(gè)變量之間的相關(guān)系數(shù),并在0.05的顯著性水平下對(duì)顯著性進(jìn)行檢驗(yàn)(數(shù)據(jù)見文件“CH7例1-例4建筑合同”)。2、比較均值模塊的SPSS操作示例:(1)在錄入數(shù)據(jù)后(見CH7例1-例4建筑合同.sav),點(diǎn)擊:【圖形】→【舊對(duì)話框】→【散點(diǎn)/點(diǎn)狀】,系統(tǒng)彈出散點(diǎn)圖類型的選擇窗口,我們選擇【簡(jiǎn)單分布】,點(diǎn)擊【定義】。(2)系統(tǒng)彈出簡(jiǎn)單散點(diǎn)圖的坐標(biāo)定義窗口,將變量“人均GDP”放入選擇框“X軸”中,“建筑合同”放入選擇框“Y軸”中,如圖7.2所示。第七章相關(guān)分析省區(qū)ABCDEFG人均GDP100705509105689588325460196678建筑合同27.4020.2425.9323.3916.2012.518.88§7.2簡(jiǎn)單線性相關(guān)7.2.1問題引入例1(3)點(diǎn)擊【確定】,生成兩變量的散點(diǎn)圖,如圖7.3所示。從圖7.3可以清楚看出,變量“人均GDP”和“建筑合同”之間存在近似的正相關(guān)關(guān)系。(4)接下來點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,進(jìn)入“雙變量相關(guān)性”分析模塊。第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)/7.2.1問題引入例1(5)在“雙變量相關(guān)性”分析模塊主窗口(圖7.4)中,在左框選擇要做相關(guān)分析的變量,本例選中左框的變量“人均GDP”和“建筑合同”放入右邊的“變量”框中。(6)在對(duì)話框“相關(guān)系數(shù)”區(qū)域?qū)υ捒蛑校谐隽巳N相關(guān)系數(shù),供選擇:①Pearson相關(guān)系數(shù)(系統(tǒng)的默認(rèn)值),本例選擇此項(xiàng),因?yàn)樽鱿嚓P(guān)分析的兩列數(shù)據(jù)均為刻度級(jí);②Kandall’stau-b相關(guān)系數(shù),是一種依據(jù)配對(duì)樣本之差的正負(fù)號(hào)的個(gè)數(shù),計(jì)算出來的相關(guān)系數(shù),本書略去;③Spearman等級(jí)相關(guān)系數(shù)。(7)在對(duì)話窗口的第二組選項(xiàng)區(qū)塊,選擇單尾檢驗(yàn)還是雙尾檢驗(yàn),系統(tǒng)默認(rèn)值是雙尾。本題可以接受系統(tǒng)的默認(rèn)值,也可以選擇單尾,因?yàn)閺膱D7.3中,可以確定兩個(gè)變量是正相關(guān)關(guān)系。(8)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果,如表7.2所示。(9)結(jié)果說明:在表7.2中可見人均GDP和建筑合同之間的Pearson相關(guān)系數(shù)為0.694,顯著性概率p=0.084>0.05,說明兩個(gè)隨機(jī)變量的相關(guān)系數(shù)是沒有顯著異于0的。第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)/7.2.2線性相關(guān)分析的原理第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)/7.2.2線性相關(guān)分析的原理思路還是使棄真錯(cuò)誤的概率足夠小。假設(shè)H0為真的情況下,如果由樣本計(jì)算出來的rXY偏離0很多,則我們應(yīng)該傾向于選擇,放棄H0,并讓放棄這個(gè)事件的概率很小,為a。對(duì)應(yīng)的是,t統(tǒng)計(jì)量的值大于臨界值時(shí),我們放棄原假設(shè)H0,并使得棄真的概率很小,為

a。

(7.10)④從臨界值的角度考慮,若,則表明由樣本計(jì)算出來的rXY較大,所以,以a的概率(或在a水平上)拒絕H0,即總體X和Y的總體相關(guān)系數(shù)與0的差異足夠大。反之,接受H0,即兩個(gè)總體間的相關(guān)系數(shù)與0沒有顯著差異。⑤從p值法的角度考慮,在SPSS中,相關(guān)性的判別和前面章節(jié)的假設(shè)檢驗(yàn)的方法類似,也可以用統(tǒng)計(jì)值的外側(cè)概率p(顯著性概率)的2倍與比較大小,來判別接受還是拒絕H0。

第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)7.2.3線性相關(guān)分析的SPSS操作例2(讀入例1的數(shù)據(jù)文件“CH7例1-例4建筑合同”,請(qǐng)分析一下“人均GDP”和“建筑合同”與其它變量(“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”)的相關(guān)關(guān)系。(1)點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,進(jìn)入“雙變量相關(guān)性”分析模塊。(2)在“雙變量相關(guān)性”分析模塊主窗口(圖7.5)中,選中左框的變量“人均GDP”、“建筑合同”、“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”放入右邊的“因變量列表”框中。(3)在對(duì)話框的第一組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(計(jì)算Pearson相關(guān)系數(shù))。(4)在對(duì)話框的第二組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(雙尾檢驗(yàn))。(5)在對(duì)話框的第三組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(標(biāo)記顯著性相關(guān))。第七章相關(guān)分析§7.2簡(jiǎn)單線性相關(guān)7.2.3線性相關(guān)分析的SPSS操作例2(6)點(diǎn)擊【粘貼】,系統(tǒng)彈出語法編輯器,在“建筑合同”與“流通費(fèi)用率”之間寫上“with”,見圖7.6。(7)在圖7.5中,點(diǎn)擊綠色三角按鈕“運(yùn)行選定內(nèi)容”,系統(tǒng)輸出結(jié)果,如表7.3所示。第七章相關(guān)分析表7.3相關(guān)性

流通費(fèi)用率農(nóng)業(yè)GDP占比人均GDPPearson相關(guān)性.745-.477顯著性(雙尾).055.279N77建筑合同Pearson相關(guān)性.474-.941**顯著性(雙尾).283.002N77**.在置信度(雙測(cè))為0.01時(shí),相關(guān)性是顯著的?!?.3偏相關(guān)7.3.1問題引入例3在例2中我們分析了“人均GDP”和“建筑合同”與“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”的相關(guān)關(guān)系,那么是否可以據(jù)此得出結(jié)論,“農(nóng)業(yè)GDP占比”是“建筑合同”降低的原因呢?(1)點(diǎn)擊:【分析】→【相關(guān)】→【偏相關(guān)】,系統(tǒng)彈出一個(gè)對(duì)話窗口。(2)在“偏相關(guān)”分析模塊主窗口(圖7.7)中,選中左框的變量“農(nóng)業(yè)GDP占比”和“建筑合同”放入右邊的“變量”框中。(3)在“偏相關(guān)”分析模塊主窗口(圖7.7)中,選中左框的變量“人均GDP”與“流通費(fèi)用率”放入右邊的“控制”框中。(4)在對(duì)話框的第二組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(雙尾檢驗(yàn))。(5)在對(duì)話框的第三組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(標(biāo)記顯著性相關(guān))。(6)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果,見表7.4。第七章相關(guān)分析§7.3偏相關(guān)7.3.1問題引入例3在例2中我們分析了“人均GDP”和“建筑合同”與“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”的相關(guān)關(guān)系,那么是否可以據(jù)此得出結(jié)論,“農(nóng)業(yè)GDP占比”是“建筑合同”降低的原因呢?在表7.4中,偏相關(guān)系數(shù)是-0.975,顯著性概率p=0.005<0.05,說明剔除了“人均GDP”和“流通費(fèi)用率”后,變量“農(nóng)業(yè)GDP占比”和“建筑合同”仍然存在顯著性的關(guān)系。第七章相關(guān)分析表7.4偏相關(guān)系數(shù)與顯著性檢驗(yàn)控制變量農(nóng)業(yè)GDP占比建筑合同人均GDP&流通費(fèi)用率農(nóng)業(yè)GDP占比相關(guān)性1.000-.975顯著性(雙側(cè))..005df03建筑合同相關(guān)性-.9751.000顯著性(雙側(cè)).005.df30§7.3偏相關(guān)7.3.2偏相關(guān)分析的算法步驟①求剔除(控制)了變量Z的影響之后,變量X,Y的偏相關(guān)系數(shù)②計(jì)算檢驗(yàn)偏相關(guān)系數(shù)是否顯著異于0的t統(tǒng)計(jì)量

(7.13)③做假設(shè)檢驗(yàn),設(shè)總體X和Y的總體偏相關(guān)系數(shù)為

第七章相關(guān)分析§7.3偏相關(guān)7.3.2偏相關(guān)分析的算法步驟第七章相關(guān)分析§7.4等級(jí)相關(guān)7.4.1問題引入例4在例1中,變量“建筑合同排名”明顯是順序級(jí)的數(shù)據(jù),問:“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”與“建筑合同排名”是否等級(jí)相關(guān)(如果把“建筑合同”視為刻度級(jí)變量,就可以直接求Pearson相關(guān)系數(shù))?(1)點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,系統(tǒng)彈出一個(gè)對(duì)話窗口。(2)在對(duì)話窗口(圖7.8)中,選中左框的變量“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”與“建筑合同排名”放入右邊的“變量”框中。(3)在對(duì)話框的第一組選項(xiàng)區(qū)塊中,選擇Spearman等級(jí)相關(guān)系數(shù),(此時(shí)把“流通費(fèi)用率”、“農(nóng)業(yè)GDP占比”作為了順序級(jí)的數(shù)據(jù))。此處如果只分析“流通費(fèi)用率”和“農(nóng)業(yè)GDP占比”的相關(guān)關(guān)系的話,由于這兩個(gè)變量的數(shù)據(jù)也是刻度級(jí)數(shù)據(jù),所以可以同時(shí)選擇Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)。見圖7.8。而本例還包括順序級(jí)數(shù)據(jù)“建筑合同排名”,所以只選擇Spearman相關(guān)系數(shù)。(4)在對(duì)話框的第二組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(雙尾檢驗(yàn))。第七章相關(guān)分析§7.4等級(jí)相關(guān)(5)在對(duì)話框的第三組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(標(biāo)記顯著性相關(guān))。(6)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果,如表7.5所示。第七章相關(guān)分析表7.5等級(jí)相關(guān)系數(shù)與顯著性檢驗(yàn)

建筑合同排名流通費(fèi)用率農(nóng)業(yè)GDP占比斯皮爾曼等級(jí)相關(guān)系數(shù)建筑合同排名相關(guān)系數(shù)1.000-.393.964**顯著性(雙尾)..383.000N777流通費(fèi)用率相關(guān)系數(shù)-.3931.000-.250顯著性(雙尾).383..589N777農(nóng)業(yè)GDP占比相關(guān)系數(shù).964**-.2501.000顯著性(雙尾).000.589.N777**.相關(guān)性在0.01級(jí)別顯著(雙尾)?!?.4等級(jí)相關(guān)7.4.2等級(jí)相關(guān)分析的算法步驟第七章相關(guān)分析§7.4等級(jí)相關(guān)7.4.2等級(jí)相關(guān)分析的算法步驟第七章相關(guān)分析§7.5非線性相關(guān)7.5.1問題引入例5打開數(shù)據(jù)文件“CH7例5CH8非線性相關(guān)、曲線回歸.sav”,試分析變量和的相關(guān)性。按照線性相關(guān)性分析的方法,不難算出,線性相關(guān)系數(shù)為,,兩個(gè)隨機(jī)變量似乎沒什么關(guān)系,但是,畫出以為橫坐標(biāo),以y為縱坐標(biāo)的散點(diǎn)圖,不難發(fā)現(xiàn),和y存在較為明顯的二次關(guān)系。至少,從直覺上,不能因?yàn)閮蓚€(gè)變量之間不存在明顯的線性關(guān)系,就斷言兩個(gè)變量之間不存在相關(guān)關(guān)系。(1)點(diǎn)擊:【圖形】→【舊對(duì)話框】→【散點(diǎn)/點(diǎn)狀】,系統(tǒng)彈出一個(gè)散點(diǎn)圖類型的選擇對(duì)話窗口,見圖7.8。(2)在這個(gè)窗口中,有5種類型的散點(diǎn)圖的選擇,接受默認(rèn)值“簡(jiǎn)單分布”。(3)點(diǎn)擊【定義】按鈕,系統(tǒng)彈出簡(jiǎn)單散點(diǎn)圖的坐標(biāo)定義窗口,見圖7.9。(4)在圖7.9中,分別把左框中的變量和用箭頭送入右邊的X軸和Y軸框中。(5)點(diǎn)擊【確定】,系統(tǒng)輸出散點(diǎn)圖,見圖7.10。第七章相關(guān)分析§7.5非線性相關(guān)7.5.1問題引入從圖7.10可以看出,變量x和y存在較為明顯的二次關(guān)系,看得出y是x的二次曲線,圖形中散點(diǎn)的最低點(diǎn)的位置,大約在x=3的附近,于是推測(cè)。因此,在下一階段做非線性變換。第七章相關(guān)分析§7.5非線性相關(guān)7.5.1問題引入(6)在數(shù)據(jù)窗口中,點(diǎn)擊:【轉(zhuǎn)換】→【計(jì)算變量】,在彈出的窗口中,完成。預(yù)計(jì)之間有很高的線性相關(guān)性,接下來,完成之間、之間的(線性)相關(guān)系數(shù)的計(jì)算。(7)在數(shù)據(jù)窗口中,點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,在彈出的對(duì)話窗口中,用箭頭把變量送入右框中。(8)點(diǎn)擊【粘貼】按鈕,在彈出的“語法編輯器”窗口中,把第一個(gè)命令句“/VARIABLES=xyz”改為“/VARIABLES=ywithzx”。注意,改動(dòng)不僅僅增加了命令詞“with”,而且變量的位置也變了。這樣做的意義是:分別計(jì)算y與x之間、y與z之間的線性相關(guān)系數(shù)。(9)在“語法編輯器”窗口中,點(diǎn)擊綠色的三角形“運(yùn)行選定內(nèi)容”。系統(tǒng)輸出結(jié)果,見表7.6。第七章相關(guān)分析§7.5非線性相關(guān)7.5.1問題引入從表7.6的數(shù)據(jù)可以看出,之間檢驗(yàn)顯著性概率為0.988,顯然不存在顯著性線性相關(guān)的關(guān)系。但是之間的線性相關(guān)系數(shù)(Pearson相關(guān)性)是0.994,顯著性(雙尾)值為0.000(在SPSS輸出的表格中,雙擊這個(gè)數(shù)字,會(huì)顯示更精確的值),小于0.01,說明在1%的顯著性水平上與0有顯著性差異。這表明,可以推斷之間是以構(gòu)造的函數(shù)形式高度非線性相關(guān)的。第七章相關(guān)分析表7.6與

之間、

之間的線性相關(guān)性

zxyPearson相關(guān)性.994**-.005顯著性(雙尾).000.988N1313**.在置信度(雙測(cè))為0.01時(shí),相關(guān)性是顯著的?!?.5非線性相關(guān)7.5.2非線性相關(guān)分析的算法步驟非線性相關(guān)分析的基本步驟:①做兩個(gè)變量的散點(diǎn)圖;②估計(jì)兩變量的非線性相關(guān)的函數(shù)形式,并做相應(yīng)的非線性變換;③計(jì)算變換前配對(duì)變量的相關(guān)系數(shù),及非線性變換后的相關(guān)系數(shù);④如果變換后的函數(shù)變量和原因變量存在顯著的線性關(guān)系,則說明原因變量和原自變量之間存在估計(jì)的函數(shù)形式關(guān)系的非線性關(guān)系。例6打開數(shù)據(jù)文件“CH7例6GDP”,文件中是發(fā)達(dá)程度不同的10個(gè)國(guó)家的人均GDP和農(nóng)業(yè)GDP占總GDP的比重?cái)?shù)據(jù),選擇適當(dāng)?shù)姆蔷€性曲線,計(jì)算它們之間的相關(guān)系數(shù)。(1)按照上面的步驟,我們先做兩個(gè)變量的散點(diǎn)圖。點(diǎn)擊:【圖形】→【舊對(duì)話框】→【散點(diǎn)/點(diǎn)狀】,系統(tǒng)彈出一個(gè)散點(diǎn)圖類型的選擇對(duì)話窗口,見圖7.8。第七章相關(guān)分析§7.5非線性相關(guān)7.5.2非線性相關(guān)分析的算法步驟(2)在這個(gè)窗口中,有5種類型的散點(diǎn)圖的選擇,接受默認(rèn)值【簡(jiǎn)單分布】。(3)點(diǎn)擊【定義】按鈕,系統(tǒng)彈出簡(jiǎn)單散點(diǎn)圖的坐標(biāo)定義窗口,分別把左框中的變量“農(nóng)業(yè)GDP占比”用箭頭送入右邊的X軸框中,把“人均GDP”用箭頭送入右邊的Y軸框中。(4)點(diǎn)擊【確定】,系統(tǒng)輸出散點(diǎn)圖,見圖7.11。第七章相關(guān)分析§7.5非線性相關(guān)7.5.2非線性相關(guān)分析的算法步驟(5)在數(shù)據(jù)窗口中,點(diǎn)擊:【轉(zhuǎn)換】→【計(jì)算變量】,在彈出的窗口中,完成z=ln"農(nóng)業(yè)GDP占比"和z1=2000/"農(nóng)業(yè)GDP占比"。預(yù)計(jì)"人均GDP"與z、z1之間有很高的線性相關(guān)性,接下來,完成"人均GDP"與z、z1之間的(線性)相關(guān)系數(shù)的計(jì)算。(6)在數(shù)據(jù)窗口中,點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,在彈出的對(duì)話窗口中,用箭頭把變量"人均GDP"、"農(nóng)業(yè)GDP占比"與z、z1都送入右框中。(7)點(diǎn)擊【粘貼】按鈕,在彈出的“語法編輯器”窗口中,把第一個(gè)命令句“/VARIABLES=人均GDP農(nóng)業(yè)GDP占比zz1”改為“/VARIABLES=人均GDPwith農(nóng)業(yè)GDP占比zz1”。注意,改動(dòng)增加了命令詞“with”,“with”前后均有空格。這樣做的意義是:分別計(jì)算"人均GDP"與"農(nóng)業(yè)GDP占比"、z、z1之間的線性相關(guān)系數(shù)。(8)在“語法編輯器”窗口中,點(diǎn)擊綠色的三角形“運(yùn)行選定內(nèi)容”。系統(tǒng)輸出結(jié)果,見表7.7。第七章相關(guān)分析§7.5非線性相關(guān)7.5.2非線性相關(guān)分析的算法步驟從表7.7的數(shù)據(jù)可以看出,在1%的顯著水平上,“人均GDP”與“農(nóng)業(yè)GDP占比”、z、z1都是明顯相關(guān)的?!叭司鵊DP”與“農(nóng)業(yè)GDP占比”之間t檢驗(yàn)顯著性概率為0.002,“人均GDP”與z、z1之間的線性相關(guān)系數(shù)(Pearson相關(guān)性)是-0.918和0.950,顯著性(雙尾)值分別為0.000175和0.000026(在SPSS輸出的表格中,分別雙擊這兩個(gè)數(shù)字,會(huì)顯示更精確的值),均小于0.01,說明在1%的顯著性水平上與0均有顯著性差異。這表明,“人均GDP”和“農(nóng)業(yè)GDP占比”之間的基于對(duì)數(shù)函數(shù)和反函數(shù)的非線性關(guān)系是顯著的,遠(yuǎn)遠(yuǎn)優(yōu)于兩者之間的線性關(guān)系。第七章相關(guān)分析表7.7人均GDP與農(nóng)業(yè)GDP占比、z、z1相關(guān)性

農(nóng)業(yè)GDP占比 z z1人均GDPPearson相關(guān)性-.838**-.918**.950**顯著性(雙尾).002.000.000N101010**.在置信度(雙測(cè))為0.01時(shí),相關(guān)性是顯著的?!?.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.1問題引入例7打開數(shù)據(jù)文件“CH7例7卡路里”,文件中是不同漢堡所含卡路里和是否有奶酪(二值名義級(jí)數(shù)據(jù))兩個(gè)變量的數(shù)據(jù),請(qǐng)對(duì)兩個(gè)變量做顯著性檢驗(yàn)。為了有一個(gè)直觀的感覺,我們先做一個(gè)橫坐標(biāo)為“有無奶酪”,縱坐標(biāo)為“卡路里”的散點(diǎn)圖。第七章相關(guān)分析漢堡名稱漢堡奶酪漢堡1/4磅漢堡奶酪1/4磅漢堡BigMac卡路里270320430530530有無奶酪01011§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.1問題引入例7(4)點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,進(jìn)入“雙變量相關(guān)性”分析模塊。(5)在“雙變量相關(guān)性”分析模塊主窗口(圖7.4)中,選中左框的變量“有無奶酪”和“卡路里”放入右邊的“變量”框中。(6)在對(duì)話框的第一組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(計(jì)算Pearson相關(guān)系數(shù))。(7)在對(duì)話框的第二組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(雙尾檢驗(yàn))。(8)在對(duì)話框的第三組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(標(biāo)記顯著性相關(guān))。(9)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果如表7.9所示。第七章相關(guān)分析表7.9點(diǎn)雙列相關(guān)系數(shù)(Correlations)

卡路里有無奶酪卡路里Pearson相關(guān)性1.506顯著性(雙尾)

.384N55有無奶酪Pearson相關(guān)性.5061顯著性(雙尾).384

N55§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.2算法原理1、二值名義級(jí)變量與刻度級(jí)變量的相關(guān)方向與強(qiáng)度的測(cè)量:點(diǎn)雙列相關(guān)系數(shù)當(dāng)一個(gè)變量是二值名義級(jí)變量,另一個(gè)變量是刻度級(jí)變量時(shí),可以把Pearson相關(guān)系數(shù)的計(jì)算方法,延伸到這里。顯然,在運(yùn)用Pearson積矩相關(guān)系數(shù)公式

(7.18)式中,,,計(jì)算之前,必須解決二值名義級(jí)變量取值的刻度化問題。點(diǎn)雙列相關(guān)系數(shù)所反映與的相關(guān)方向是相對(duì)的、人為指定的,反映從一個(gè)指定的狀態(tài)變?yōu)榱硪粋€(gè)狀態(tài)時(shí),的取值傾向的特征。也就是說,改變符號(hào)并不改變點(diǎn)雙列相關(guān)系數(shù)的本質(zhì)特征。而常規(guī)的Pearson相關(guān)系數(shù)的正負(fù)號(hào)卻具有本質(zhì)的意義,人們不能隨意改變常規(guī)Pearson相關(guān)系數(shù)的正負(fù)號(hào)。第七章相關(guān)分析§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.2算法原理2、兩個(gè)二值名義級(jí)變量的相關(guān)方向與強(qiáng)度的測(cè)量:點(diǎn)雙列相關(guān)系數(shù)當(dāng)所要考察的兩個(gè)變量都是二值名義級(jí)變量時(shí),我們可以仿照上面的做法,把二值的編碼(一般用0、1)數(shù)值化,然后借用Pearson相關(guān)系數(shù)公式分析。例8某市關(guān)于“抽煙與患肺病”的抽樣調(diào)查結(jié)果是:不抽煙健康人員有360人,不抽煙患肺病人員有190人,抽煙健康人員有290人,抽煙患肺病人員有480人,數(shù)據(jù)見文件“CH7例8抽煙與肺病”。在SPSS數(shù)據(jù)文件中,每一條記錄表示一個(gè)被抽到的人,變量值有兩個(gè),一個(gè)是“是否抽煙”,一個(gè)是“是否患肺病”。打開這個(gè)數(shù)據(jù)文件后,發(fā)現(xiàn)是如下縮約格式的,所以,先要進(jìn)行加權(quán)處理。第七章相關(guān)分析§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.2算法原理(1)在數(shù)據(jù)窗口的菜單中,點(diǎn)擊:【數(shù)據(jù)】→【加權(quán)個(gè)案】,在彈出的窗口中,選擇“加權(quán)個(gè)案”,然后把權(quán)重變量“頻次”用箭頭送入右邊的“頻率變量”框中。然后,為了直觀考察這兩個(gè)變量的關(guān)系,我們用SPSS來做分組條形圖。(2)點(diǎn)擊:【圖形】→【舊對(duì)話框】→【條形圖】→【集群條形圖】,圖形中的數(shù)據(jù)默認(rèn)選擇“個(gè)案組摘要”,然后點(diǎn)擊【定義】,進(jìn)入“定義堆積條形圖”對(duì)話框。(3)在彈出的窗口中,把變量“是否抽煙”用箭頭送入“類別軸”框中,把變量“是否患肺病”用箭頭送入“定義聚類”的方框中。(4)點(diǎn)擊【確定】,就得到圖7.16了。第七章相關(guān)分析§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)7.6.2算法原理從圖7.16看出,不抽煙的患肺病人數(shù)在較低的位置,而抽煙的患肺病人數(shù)的數(shù)值相對(duì)高很多??磥恚瑑蓚€(gè)變量可能有相關(guān)的關(guān)系。兩個(gè)二值名義級(jí)變量的相關(guān)系數(shù)用表示,在這種情況下就是Pearson相關(guān)系數(shù)。(5)點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,進(jìn)入“雙變量相關(guān)性”分析模塊。(6)在“雙變量相關(guān)性”分析模塊主窗口(圖7.4)中,選中左框的變量“是否抽煙”和“是否患肺病”放入右邊的“變量”框中。(7)在對(duì)話框的第一組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(計(jì)算Pearson相關(guān)系數(shù))。(8)在對(duì)話框的第二組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(雙尾檢驗(yàn))。(9)在對(duì)話框的第三組選項(xiàng)區(qū)塊中,接受系統(tǒng)的默認(rèn)值(標(biāo)記顯著性相關(guān))。(10)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果如表7.10所示。第七章相關(guān)分析§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)表7.10中數(shù)據(jù)顯示,“是否抽煙”與“是否患肺病”的相關(guān)系數(shù)是0.274,顯著性概率是0.000(雙擊后看到具體數(shù)值是),拒絕零假設(shè),相關(guān)系數(shù)與0存在顯著性差異,也就是說,拒絕兩個(gè)變量不相關(guān)的假設(shè)。第七章相關(guān)分析表7.10兩個(gè)二值名義級(jí)變量的

相關(guān)系數(shù)

是否抽煙是否患肺病是否抽煙Pearson相關(guān)性1.274**顯著性(雙尾)

.000N13201320是否患肺病Pearson相關(guān)性.274**1顯著性(雙尾).000

N13201320**.在置信度(雙測(cè))為0.01時(shí),相關(guān)性是顯著的?!?.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)兩個(gè)二值名義級(jí)變量的相關(guān)系數(shù),還可以用SPSS的另一個(gè)模塊計(jì)算:(1)點(diǎn)擊:【分析】→【描述統(tǒng)計(jì)】→【交叉表格】,進(jìn)入“交叉表格”窗口。(2)在彈出的窗口中,選中左框的變量“是否抽煙”和“是否患肺病”,一個(gè)放入右邊的“行”框,另一個(gè)送入右邊的“列”框中。(3)點(diǎn)擊【Statistics…】按鈕,在彈出的框中選擇【Phi和Gramer’sV】統(tǒng)計(jì)量,也就是相關(guān)系數(shù)。如圖7.17所示。第七章相關(guān)分析§7.6至少有一個(gè)變量是二值名義級(jí)的相關(guān)(4)點(diǎn)擊【繼續(xù)】,回到主窗口。(5)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果如表7.11所示。其結(jié)果與直接點(diǎn)擊:【分析】→【相關(guān)】→【雙變量】,計(jì)算的Pearson相關(guān)系數(shù)相同,都為0.274。注:這里的正負(fù)號(hào)是無關(guān)緊要的,因?yàn)楦淖內(nèi)魏我粋€(gè)二值名義級(jí)變量取值的編碼位置時(shí),相關(guān)系數(shù)的符號(hào)會(huì)改變但絕對(duì)值不會(huì)變,讀者可以試著自己證明一下。第七章相關(guān)分析

表7.11相關(guān)系數(shù)計(jì)算結(jié)果

值上次讀取的顯著性名義到名義Phi.274.000CramerV.274.000有效個(gè)案數(shù)1320

作業(yè):課后1-12題.第七章作業(yè)回歸分析是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,其用意是研究一個(gè)被解釋變量(又稱因變量)與一個(gè)或多個(gè)解釋變量(又稱自變量)之間的統(tǒng)計(jì)關(guān)系。其次,可以利用回歸關(guān)系對(duì)目標(biāo)變量進(jìn)行控制。第八章回歸分析§8.1輸入式線性回歸8.1.1問題引入例1

研究我國(guó)31個(gè)省市自治區(qū)的“人均食品支出”對(duì)“人均收入”的依賴關(guān)系。(數(shù)據(jù)文件為“CH8例1例2一元與多元回歸”)設(shè)“人均食品支出”用隨機(jī)變量Y來表示,“人均收入”用隨機(jī)變量X來表示,那么這道題所求的兩個(gè)變量之間的不確定關(guān)系,可以用下式來表示

(8.2)式中,“人均食品支出”是被解釋變量,“人均收入”是解釋變量,是待估參數(shù)(截距項(xiàng)),是待估參數(shù)(斜率項(xiàng),反映了X的邊際效益),u是隨機(jī)干擾項(xiàng),與X無關(guān),它反映了Y被X解釋的不確定性。如果隨機(jī)干擾項(xiàng)的均值為0,那么對(duì)上式兩邊在的條件下求均值,有

(8.3)反映出從“平均”角度看的確定函數(shù)關(guān)系。第八章回歸分析我們可以先從SPSS的操作方面來看看這個(gè)問題是怎么解答的。在上一章討論兩個(gè)變量:“人均食品支出”和“人均收入”存在顯著性相關(guān)關(guān)系的前提下,接著(1)錄入數(shù)據(jù),點(diǎn)擊:【分析】→【回歸】→【線性】,系統(tǒng)彈出一個(gè)對(duì)話窗口。(2)在左欄中選擇變量“人均食出”,點(diǎn)擊向右的箭頭,放入“因變量”框中。在左欄中選擇變量“人均收入”,點(diǎn)擊向右的箭頭,放入“自變量”框中,如圖8.1所示。第八章回歸分析(3)點(diǎn)擊窗口右側(cè)的【Statistic…】按鈕,彈出一個(gè)新的對(duì)話框,如圖8.1所示。在該“線性回歸:統(tǒng)計(jì)”窗口的“回歸系數(shù)”框中,有三項(xiàng)選擇:①估計(jì):這是系統(tǒng)的默認(rèn)值。選擇此項(xiàng),系統(tǒng)會(huì)輸出:回歸系數(shù)B、B的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)回歸系數(shù)Beta、B的值及其雙尾檢驗(yàn)的值。②誤差條形圖的表征:復(fù)選項(xiàng)。選擇此項(xiàng),系統(tǒng)輸出每一個(gè)B(非標(biāo)準(zhǔn)化回歸系數(shù))的95%的置信區(qū)間。我們選擇此項(xiàng)。③協(xié)方差矩陣:不選擇。點(diǎn)擊【繼續(xù)】,回到主對(duì)話窗口。(4)點(diǎn)擊【確定】,輸出結(jié)果。(5)結(jié)果分析:第八章回歸分析表8.2模型總體參數(shù)表模型RR平方調(diào)整后的R平方標(biāo)準(zhǔn)估算的錯(cuò)誤1.921a.848.84373.635a.預(yù)測(cè)變量:(常量),人均收入表8.3方差分析表模型平方和自由度均方F顯著性1回歸878568.6211878568.621162.035.000b殘差157240.218295422.076

總計(jì)1035808.83930

a.因變量:人均食品支出b.預(yù)測(cè)變量:(常量),人均收入表8.4是回歸系數(shù)表,該表第一列是對(duì)模型的解釋變量的說明。第八章回歸分析表8.4回歸系數(shù)及顯著性檢驗(yàn)表a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性B的95.0%置信區(qū)間B標(biāo)準(zhǔn)錯(cuò)誤貝塔下限值上限1(常量)-50.94667.745

-.752.458-189.50087.607人均收入.422.033.92112.729.000.354.490a.因變量:人均食品支出§8.1輸入式線性回歸8.1.2定義定義1:一元線性回歸的總體回歸函數(shù)有兩種表現(xiàn)形式:(1)條件期望表現(xiàn)形式當(dāng)自變量X取某一固定值時(shí),Y的取值并不確定,Y的不同取值會(huì)形成一定的分布,這是Y在X取不同值時(shí)的條件分布。

(8.4)(2)個(gè)別值表現(xiàn)形式

(8.5)其中為樣本對(duì),n為樣本個(gè)數(shù)。ui為各個(gè)Yi與條件期望的偏差,顯然ui是個(gè)可負(fù)可正的隨機(jī)變量,代表排除在自變量Xi以外的所有因素對(duì)Yi的影響,稱為隨機(jī)誤差項(xiàng)。第八章回歸分析第八章回歸分析第八章回歸分析第八章回歸分析第八章回歸分析第八章回歸分析第八章回歸分析第八章回歸分析§8.1輸入式線性回歸8.1.3擬合優(yōu)度的度量樣本回歸直線是對(duì)樣本數(shù)據(jù)的一種擬合,不同估計(jì)方法可擬合出不同的回歸線,從例1的散點(diǎn)圖上看,樣本回歸直線與樣本觀測(cè)值總是一定程度上存在或正或負(fù)的偏離。對(duì)所估計(jì)出的樣本回歸線首先要考察對(duì)樣本觀測(cè)數(shù)據(jù)擬合的優(yōu)劣程度,即對(duì)所謂的擬合優(yōu)度進(jìn)行度量。對(duì)樣本回歸擬合優(yōu)度的度量是建立在對(duì)因變量總離差平方和分解的基礎(chǔ)上的。回顧已經(jīng)估計(jì)的樣本回歸函數(shù)

(8.27)如果以平均值為基準(zhǔn),比較觀測(cè)值和估計(jì)值對(duì)的偏離程度,(8.24)式可以用離差表示為

(8.28)將上式兩邊平方,并對(duì)所有觀測(cè)值加總,近似得

(8.29)第八章回歸分析第八章作業(yè)第八章作業(yè)§8.1輸入式線性回歸8.1.4兩個(gè)假設(shè)檢驗(yàn)1、關(guān)于回歸效果的F檢驗(yàn)在線性回歸中,當(dāng)有多個(gè)自變量作用于因變量時(shí)就要考察聯(lián)合起來后與因變量之間是否存在顯著性的線性關(guān)系了,即應(yīng)當(dāng)對(duì)回歸系數(shù)進(jìn)行整體檢驗(yàn)。該檢驗(yàn)是在方差分析的基礎(chǔ)上利用檢驗(yàn)進(jìn)行的。對(duì)回歸效果進(jìn)行假設(shè)檢驗(yàn)的基本思想是,用“已解釋平方和”即回歸平方和與“未解釋平方和”殘差平方和的比值即(服從F分布)與的比較,來判別在a水平上,回歸效果是否顯著。① 求出F統(tǒng)計(jì)量的值定義8:檢驗(yàn)回歸效果的F統(tǒng)計(jì)量定義為

(8.33)第八章回歸分析第八章回歸分析第八章回歸分析3、多元線性回歸示例例2研究我國(guó)31個(gè)省市自治區(qū)的“人均食品支出”對(duì)“人均收入”、“糧食單價(jià)”的依賴關(guān)系。(數(shù)據(jù)文件為“CH8例1例2一元與多元回歸”)(1)打開數(shù)據(jù)文件后,點(diǎn)擊:【分析】→【回歸】→【線性】,系統(tǒng)彈出一個(gè)對(duì)話窗口。(2)在左欄中選擇變量“人均食品支出”,點(diǎn)擊向右的箭頭,放入“因變量”框中。在左欄中選擇變量“人均收入”、“糧食平均單價(jià)”,點(diǎn)擊向右的箭頭,放入“自變量”框中,如圖8.3左側(cè)所示。(3)點(diǎn)擊窗口右側(cè)的【Statistic…】按鈕,彈出一個(gè)新的對(duì)話框,如圖8.3右側(cè)所示。在該“線性回歸:統(tǒng)計(jì)”窗口的“回歸系數(shù)”框中,有三項(xiàng)選擇:估計(jì):這是系統(tǒng)的默認(rèn)值。選擇此項(xiàng),系統(tǒng)會(huì)輸出:回歸系數(shù)B、B的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)回歸系數(shù)Beta、B的值及其雙尾檢驗(yàn)的值。誤差條形圖的表征:復(fù)選項(xiàng)。系統(tǒng)會(huì)輸出每一個(gè)B(非標(biāo)準(zhǔn)化回歸系數(shù))的95%的置信區(qū)間。我們選擇此項(xiàng)。協(xié)方差矩陣:不選擇。點(diǎn)擊【繼續(xù)】,回到主對(duì)話窗口。第八章回歸分析3、多元線性回歸示例例2(4)點(diǎn)擊【方法】對(duì)應(yīng)的箭頭,出現(xiàn)一個(gè)下拉菜單,提供一些可供選擇的其他方法,我們先采用系統(tǒng)默認(rèn)的“輸入”方法,意味著兩個(gè)自變量都輸入回歸方程參與分析。(5)點(diǎn)擊【確定】,輸出結(jié)果。(6)結(jié)果分析第八章回歸分析表8.6模型摘要模型RR平方調(diào)整后的R平方標(biāo)準(zhǔn)估算的錯(cuò)誤1.940a.883.87565.651a.預(yù)測(cè)變量:(常量),人均收入,糧食平均單價(jià)表8.7回歸的方差分析表模型平方和自由度均方F顯著性1回歸915129.0502457564.525106.164.000b殘差120679.788284309.992

總計(jì)1035808.83930

a.因變量:人均食品支出b.預(yù)測(cè)變量:(常量),人均收入,糧食平均單價(jià)表8.8回歸系數(shù)及顯著性檢驗(yàn)表模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性B的95.0%置信區(qū)間B標(biāo)準(zhǔn)錯(cuò)誤貝塔下限值上限1(常量)-87.36861.680

-1.416.168-213.71438.979糧食平均單價(jià)213.42373.278.2432.913.00763.320363.526人均收入.352.038.7679.185.000.273.430a.因變量:人均食品支出定義9:標(biāo)準(zhǔn)回歸系數(shù)標(biāo)準(zhǔn)回歸系數(shù)的設(shè)立原因是用來描述自變量的一種相對(duì)的重要性,比如說,雖然我們不能絕對(duì)地說出教育程度和工齡在決定收入上的重要性,但如果大家的教育程度比較相似,那么在收入上,工作年數(shù)就是決定因素;反之,如果工作年數(shù)沒有太大區(qū)別,那么受教育程度就成為了重要原因。這里的重要性是相對(duì)的,是根據(jù)不同情況而改變的。對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,即將原始數(shù)據(jù)減去相應(yīng)變量的均值后再除以該變量的標(biāo)準(zhǔn)差,然后再按照上面的回歸方法計(jì)算得到的回歸方程稱為標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)稱為標(biāo)準(zhǔn)化回歸系數(shù)。標(biāo)準(zhǔn)化過程如下

,(8.36)式中,,,。第八章回歸分析也可以在SPSS中,點(diǎn)擊【分析】→【描述統(tǒng)計(jì)】→【描述】,勾選復(fù)選框“將標(biāo)準(zhǔn)化得分另存為變量”,然后按上述線性回歸分析的步驟點(diǎn)擊。結(jié)果如下,我們可以看到,此時(shí)的非標(biāo)準(zhǔn)化的回歸系數(shù)和標(biāo)準(zhǔn)系數(shù)貝塔的值是一樣的。第八章回歸分析表8.9數(shù)據(jù)標(biāo)準(zhǔn)化后的回歸系數(shù)及顯著性檢驗(yàn)表模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性B標(biāo)準(zhǔn)錯(cuò)誤貝塔1(常量)-1.817E-16.063

.0001.000Zscore:糧食平均單價(jià).243.083.2432.913.007Zscore:人均收入.767.083.7679.185.000a.因變量:Zscore:人均食品支出§8.2逐步回歸問題8.2.1逐步回歸法問題引入例3研究某城市散戶股民的證券市場(chǎng)的“投入市場(chǎng)總資金”是否可以用變量“證券市場(chǎng)外的收入”、“受教育程度”、“入市年份”和“股民年齡”來說明。數(shù)據(jù)見文件“CH8例3證券市場(chǎng)”。(1)打開數(shù)據(jù)文件后,點(diǎn)擊:【分析】→【回歸】→【線性】,系統(tǒng)彈出一個(gè)對(duì)話窗口。(2)在左欄中選擇變量“投入市場(chǎng)總資金”,點(diǎn)擊向右的箭頭,放入“因變量”框中。在左欄中選擇變量“證券市場(chǎng)以外年收入”、“受教育程度”、“入市年份”和“年齡”(股民年齡)點(diǎn)擊向右的箭頭,放入“自變量”框中,如圖8.4左側(cè)所示。(3)點(diǎn)擊【方法】對(duì)應(yīng)的箭頭,出現(xiàn)一個(gè)下拉菜單,本例題我們選擇“逐步法”,選擇后如圖8.4所示。第八章回歸分析8.2.1逐步回歸法問題引入例3(4)點(diǎn)擊主窗口右下角的【選項(xiàng)】按鈕,見圖8.4,可以發(fā)現(xiàn)在上述三種逐步回歸法(逐步、后退、前進(jìn))中,SPSS所默認(rèn)的進(jìn)入回歸方程的變量的系數(shù)的F統(tǒng)計(jì)量的概率為0.05,所默認(rèn)的從回歸方程中刪除變量的系數(shù)的F統(tǒng)計(jì)量的概率為0.10。兩者的差距有明顯的作用,它能夠使進(jìn)入回歸方程的變量不容易從方程中刪除。在逐步回歸的過程中,當(dāng)新的解釋變量進(jìn)入方程后,一般會(huì)改變已經(jīng)進(jìn)入方程的“貢獻(xiàn)”,使原來的統(tǒng)計(jì)量的顯著性概率發(fā)生變化,例如變?yōu)?.08。如果從方程中刪除自變量的顯著性概率值還是0.05,那么這個(gè)變量Xj就應(yīng)該從方程中刪除了。但是現(xiàn)在不用從方程中刪除,因?yàn)?.08還小于設(shè)定的顯著性概率值0.10。正因?yàn)槿绱?,才避免了如下死循環(huán)的發(fā)生:一個(gè)解釋變量Xj剛進(jìn)方程→新的解釋變量進(jìn)方程后改變了Xj的統(tǒng)計(jì)量的顯著性概率,例如變?yōu)?.08(大于0.05)→于是,Xj出方程→然后Xj又進(jìn)方程→……。本例接受系統(tǒng)的默認(rèn)值。點(diǎn)擊【繼續(xù)】,返回主窗口。(5)點(diǎn)擊窗口右側(cè)的【Statistic…】按鈕,彈出一個(gè)新的對(duì)話框,如圖8.5所示。第八章回歸分析8.2.1逐步回歸法問題引入例3(6)點(diǎn)擊【繼續(xù)】,回到主對(duì)話窗口。(7)點(diǎn)擊主窗口右上方的【繪圖】按鈕,系統(tǒng)彈出所要繪制圖形的對(duì)話窗,見圖8.6。(8)點(diǎn)擊【繼續(xù)】,返回主對(duì)話框。(9)在主對(duì)話窗口中,點(diǎn)擊【保存】按鈕,可選擇有關(guān)計(jì)算結(jié)果保存下來。(10)點(diǎn)擊【確定】,系統(tǒng)輸出結(jié)果。(11)結(jié)果分析:第八章回歸分析表8.10回歸問題中的方差分析表模型平方和自由度均方F顯著性1回歸43028.424143028.42418.978.000b殘差326494.0941442267.320

總計(jì)369522.517145

2回歸54693.770227346.88512.421.000c殘差314828.7481432201.600

總計(jì)369522.517145

a.因變量:投入證券市場(chǎng)總資金b.預(yù)測(cè)變量:(常量),證券市場(chǎng)以外年收入c.預(yù)測(cè)變量:(常量),證券市場(chǎng)以外年收入,年齡8.2.1逐步回歸法問題引入例3(表8.11是回歸系數(shù)表,第一列是對(duì)模型的解釋變量的說明。第二列B為回歸系數(shù)非標(biāo)準(zhǔn)化的回歸系數(shù)。第三列為“標(biāo)準(zhǔn)系數(shù)貝塔”。第四列為t值,第五列“顯著性”為t值的顯著性概率p值。第八章回歸分析表8.11回歸系數(shù)與顯著性檢驗(yàn)表a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性B標(biāo)準(zhǔn)錯(cuò)誤貝塔1(常量)15.7317.674

2.050.042證券市場(chǎng)以外年收入5.9921.375.3414.356.0002(常量)-8.63713.010

-.664.508證券市場(chǎng)以外年收入5.8261.357.3324.292.000年齡7.8503.410.1782.302.023a.因變量:投入證券市場(chǎng)總資金表8.12排除的系數(shù)顯著性檢驗(yàn)表a模型輸入貝塔t顯著性偏相關(guān)共線性統(tǒng)計(jì)容許1年齡.178b2.302.023.189.997受教育程度-.067b-.838.403-.070.968入市年份-.151b-1.950.053-.1611.0002受教育程度-.031c-.388.699-.033.927入市年份-.105c-1.288.200-.107.895a.因變量:投入證券市場(chǎng)總資金b.模型中的預(yù)測(cè)變量:(常量),證券市場(chǎng)以外年收入c.模型中的預(yù)測(cè)變量:(常量),證券市場(chǎng)以外年收入,年齡8.2.2逐步回歸的原理第八章回歸分析8.2.2逐步回歸的原理第八章回歸分析8.2.2逐步回歸的原理向前法的優(yōu)點(diǎn)是可以自動(dòng)去掉高度相關(guān)的自變量,但也有一定的局限性,向前法在自變量選擇的過程中,只在自變量引入模型時(shí)考察其是否有統(tǒng)計(jì)學(xué)意義,并不考慮在引入模型后每個(gè)自變量值的變化,后續(xù)變量的引入可能會(huì)使先進(jìn)入方程的自變量變得無統(tǒng)計(jì)學(xué)意義。向后法與向前法正好相反,它事先將全部自變量選入回歸模型,任何逐個(gè)剔除對(duì)殘差平方和貢獻(xiàn)較小的自變量。如果說向前法是選拔員工,那么后退法就相當(dāng)于公司裁員,每一次裁掉一個(gè)對(duì)公司貢獻(xiàn)最小且無顯著性意義的員工(例如:剔除標(biāo)準(zhǔn)p>0.01),然后對(duì)剩下的員工再次進(jìn)行評(píng)估,裁掉一個(gè)貢獻(xiàn)最小的員工,以此類推不斷有員工被裁掉,直到公司認(rèn)為即使再裁掉其他員工,也不會(huì)額外減少對(duì)公司的貢獻(xiàn),此時(shí)裁員停止,以上即為向后法的基本流程。向后法的優(yōu)點(diǎn)是考慮了自變量的組合作用,但是當(dāng)自變量數(shù)目較多或者自變量間高度相關(guān)時(shí),可能得不出正確的結(jié)論。第八章回歸分析8.2.2逐步回歸的原理逐步回歸法,是在向前法和向后法的基礎(chǔ)上,進(jìn)行雙向篩選變量的一種方法。逐步回歸分析的實(shí)施過程是:每一步都要對(duì)已引入回歸方程的變量計(jì)算其偏回歸平方和(即貢獻(xiàn)),然后選一個(gè)偏回歸平方和最小的變量,在預(yù)先給定的水平下進(jìn)行顯著性檢驗(yàn),若顯著則該變量不必從回歸方程中剔除,這時(shí)方程中其他幾個(gè)變量也都不需要剔除(因?yàn)槠渌麕讉€(gè)變量的偏回歸平方和都大于最小的一個(gè)更不需要剔除)。相反,如果不顯著,則該變量需要剔除,然后按偏回歸平方和由小到大地依次對(duì)方程中其他變量進(jìn)行檢驗(yàn)。對(duì)影響不顯著的變量全部剔除,保留的都是顯著的。接著再對(duì)未引入回歸方程中的變量分別計(jì)算其偏回歸平方和,并選其中偏回歸方程和最大的一個(gè)變量,同樣在給定水平下作顯著性檢驗(yàn),如果顯著則將該變量引入回歸方程,這一過程一直持續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時(shí)為止,這時(shí)逐步回歸過程結(jié)束。第八章回歸分析8.2.2逐步回歸的原理向前法的優(yōu)點(diǎn)是可以自動(dòng)去掉高度相關(guān)的自變量,但也有一定的局限性,向前法在自變量選擇的過程中,只在自變量引入模型時(shí)考察其是否有統(tǒng)計(jì)學(xué)意義,并不考慮在引入模型后每個(gè)自變量值的變化,后續(xù)變量的引入可能會(huì)使先進(jìn)入方程的自變量變得無統(tǒng)計(jì)學(xué)意義。向后法與向前法正好相反,它事先將全部自變量選入回歸模型,任何逐個(gè)剔除對(duì)殘差平方和貢獻(xiàn)較小的自變量。如果說向前法是選拔員工,那么后退法就相當(dāng)于公司裁員,每一次裁掉一個(gè)對(duì)公司貢獻(xiàn)最小且無顯著性意義的員工(例如:剔除標(biāo)準(zhǔn)p>0.01),然后對(duì)剩下的員工再次進(jìn)行評(píng)估,裁掉一個(gè)貢獻(xiàn)最小的員工,以此類推不斷有員工被裁掉,直到公司認(rèn)為即使再裁掉其他員工,也不會(huì)額外減少對(duì)公司的貢獻(xiàn),此時(shí)裁員停止,以上即為向后法的基本流程。向后法的優(yōu)點(diǎn)是考慮了自變量的組合作用,但是當(dāng)自變量數(shù)目較多或者自變量間高度相關(guān)時(shí),可能得不出正確的結(jié)論。第八章回歸分析§8.3線性回歸中的虛擬解釋變量問題8.3.1問題引入例4

某研究者調(diào)查了16家公司CEO的年收入(萬元)、年齡、是否有MBA學(xué)位的數(shù)據(jù),見表(數(shù)據(jù)見文件“CH8例4CEO”),試分析獲MBA學(xué)位對(duì)年收入的影響。讀入數(shù)據(jù)后:(1)點(diǎn)擊:【圖形】→【舊對(duì)話框】→【折線圖】→【多線線圖】→【定義】。(2)在圖8.7的左側(cè)框中,把變量“年齡”拖到右邊的“類別軸”框中,把虛擬變量“獲MBA”拖入右邊的“定義線的方式”框中。這里“定義線的方式”的含義是,用不同類型的線條(例如實(shí)線、虛線等)來區(qū)別變量“MBA”對(duì)應(yīng)的不同的值。本例在數(shù)據(jù)窗口設(shè)置了兩個(gè)含義相同的虛擬變量,一個(gè)名為“獲MBA”,是數(shù)值型的;另一個(gè)是“MBA”是字符串型的。此時(shí)兩種類型的變量均可以作為“定義線的方式”。(3)點(diǎn)擊【確定】按鈕,系統(tǒng)輸出多線線圖,見圖8.8所示。第八章回歸分析年收入232716.833322034274332273545423926年齡25273640414245465051555060616353獲MBA0101101001001100§8.3線性回歸中的虛擬解釋變量問題8.3.1問題引入例4

在解釋變量中含有虛擬變量的線性回歸,與不含有虛擬變量的線性回歸的點(diǎn)擊過程是完全相同的。讀入數(shù)據(jù)后:(1)錄入數(shù)據(jù),點(diǎn)擊:【分析】→【回歸】→【線性】,系統(tǒng)彈出一個(gè)對(duì)話窗口,與圖8.1相同。(2)在左欄中選擇變量“年收入”,點(diǎn)擊向右的箭頭,放入“因變量”框中。在左欄中選擇變量“年齡”和“獲MBA”,點(diǎn)擊向右的箭頭,放入“自變量”框中。(3)接受“方法”中的“輸入”方法,點(diǎn)擊【確定】,系統(tǒng)輸出回歸計(jì)算結(jié)果。也可以用逐步回歸方法。第八章回歸分析§8.3線性回歸中的虛擬解釋變量問題8.3.1問題引入例4

下面我們來看一下結(jié)果。由表8.13的數(shù)據(jù)可見,假設(shè)顯著性檢測(cè)水平,自變量“年齡”和虛擬變量“獲MBA”的作用都是顯著的,因?yàn)橄鄳?yīng)回歸系數(shù)的統(tǒng)計(jì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論