版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十一章調(diào)查資料的統(tǒng)計分析第一節(jié)統(tǒng)計分析概述第二節(jié)單變量統(tǒng)計分析
一、頻數(shù)分布與頻率分布二、集中趨勢分析三、離散趨勢分析第三節(jié)雙變量統(tǒng)計分析一、交互分類二、相關(guān)分析三、回歸分析第四節(jié)推論統(tǒng)計
第十一章調(diào)查資料的統(tǒng)計分析第一節(jié)統(tǒng)計分析概述第一節(jié)統(tǒng)計分析概述一、統(tǒng)計分析的含義與作用運用統(tǒng)計學的方法,對調(diào)查所得資料的數(shù)量特征進行描述,并用各種數(shù)學模型揭示調(diào)查資料中所隱含的關(guān)系、規(guī)律及發(fā)展趨勢。1為社會調(diào)查研究提供一套精確的形式化語言2使抽樣調(diào)查成為可能3有助于揭示社會現(xiàn)象的規(guī)律4有助于較精確地預測社會現(xiàn)象的發(fā)展趨勢含義作用第一節(jié)統(tǒng)計分析概述一、統(tǒng)計分析的含義與作用運用統(tǒng)計學的方二、統(tǒng)計分析的特點統(tǒng)計分析要以定性分析為基礎(chǔ)根據(jù)研究目的制定具體的統(tǒng)計分析計劃統(tǒng)計分析的內(nèi)容集中趨勢分析離散趨勢分析相關(guān)分析回歸分析區(qū)間估計假設(shè)檢驗描述統(tǒng)計推論統(tǒng)計用最簡單的概括形式反映出大量數(shù)據(jù)資料所容納的基本信息從樣本調(diào)查中所得的數(shù)據(jù)資料來推斷總體的情況基本方法基本內(nèi)容二、統(tǒng)計分析的特點統(tǒng)計分析要以定性分析為基礎(chǔ)根據(jù)研究目的制定第二節(jié)單變量統(tǒng)計分析一、頻數(shù)分布與頻率分布
所謂頻數(shù)分布,就是指一組數(shù)據(jù)中取不同值的個案的次數(shù)分布情況,它一般以頻數(shù)表的形式表達。某班有25名學生,其年齡情況如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。年齡(歲)
學生人數(shù)171819202125105325合計該班學生的年齡分布表例如第二節(jié)單變量統(tǒng)計分析一、頻數(shù)分布與頻率分布
頻數(shù)分布表的作用
一是簡化資料,即將調(diào)查所得到的一長串原始數(shù)據(jù),以一個十分簡潔的統(tǒng)計表反映出來;二是從頻數(shù)分布表中,可以更清楚地了解調(diào)查數(shù)據(jù)的眾多信息。頻數(shù)分布表的作用所謂頻率分布,則是指一組數(shù)據(jù)中不同取值的頻數(shù)相對于總數(shù)的比率分布情況,這種比率通常以百分比的形式表達,頻率分布情況以頻率表的形式出現(xiàn)。頻率分布表除具備頻數(shù)分布表的優(yōu)點外,還能反映各類所占的比重,便于不同總體或不同類別之間的比較。這種分布的應(yīng)用更為普遍。例如年齡(歲)
百分比1718192021820402012100合計某班學生的年齡分布SPSS操作例所謂頻率分布,則是指一組數(shù)據(jù)中不同取值的頻數(shù)相對于總數(shù)的比率二、集中趨勢分析所謂集中趨勢分析,指的是用一個典型值或代表值來反映一組數(shù)據(jù)的一般水平,或向這個典型值集中的情況。最常見的集中趨勢統(tǒng)計量平均數(shù)眾數(shù)中位數(shù)二、集中趨勢分析所謂集中趨勢分析,指的是用一個典型值或代表值
平均數(shù)
(算術(shù)平均數(shù))用總體各單位數(shù)值之和除以總體單位總數(shù)的商。平均數(shù)又稱為均值或均數(shù)。計算公式及應(yīng)用舉例①由原始數(shù)據(jù)計算平均數(shù)。設(shè)總體單位總數(shù)為n,總體各單位的數(shù)值為xi(i=1,2,…,n),則計算公式為:②由單值分組資料計算平均數(shù)。首先要將每一個組的量值乘以所對應(yīng)的頻數(shù);然后將各組的數(shù)之和全部相加,最后除以單位總數(shù),得出平均數(shù)。其計算公式為:③由組距分組資料求平均數(shù)。先計算出各組的組中值Xm
,然后再按照單值分組資料計算平均數(shù)的公式計算。平注:組中值是各組變量范圍內(nèi)的一個中間數(shù)值,一般由各組的上限和下限進行簡單平均計算,即:組中值=(上限+下限)÷2若為開口組,其組中值按下列公式計算:缺下限的最小組組中值=上限-鄰組組距÷2缺上限的最大組組中值=下限+鄰組組距÷2注:例題例1某班10名學生的年齡分別為20歲、21歲、19歲、19歲、20歲、20歲、21歲、22歲、18歲、20歲,求他們的平均年齡。例2調(diào)查某年級150名學生的年齡,得到下列結(jié)果(右表),求平均年齡。(19.33)
年齡(歲)
人數(shù)(f)
合計15017181920212210255040205例3調(diào)查某廠100名職工的收入情況如下(右表),求他們的平均收入。(212)收入(元)職工數(shù)(人)100—140140—180180—220220—260260--3001010402020合計100例:某單位職工月工資資料如下表,試求該單位職工月平均工資。(833.3元/人)按月工資額分組
組/元組中值
X/元職工人數(shù)
f/人各組職工工資額
Xf/元600以下600-800800-10001000-12001200以上
500700900110013001202503608060600001750003240008800078000合計—870725000例題例1某班10名學生的年齡分別為20歲、21歲、19歲、中位數(shù)把一組數(shù)據(jù)按值的大小順序排列起來,處于中央位置的那個數(shù)值叫中位數(shù)。中位數(shù)通常用Me表示,它將整個數(shù)據(jù)資料一分為二,其中一半的數(shù)值比它大,而另一半的數(shù)值比它小。當數(shù)據(jù)為偶數(shù)個時,取中間兩數(shù)的平均數(shù)。中位數(shù)的作用:不受極端數(shù)值的影響,在總體標志值差異很大時,具有較強的代表性。中位數(shù)把一組數(shù)據(jù)按值的大小順序排列起來,處于中央位置的那個數(shù)中位數(shù)的位次為:即第3個單位的標志值就是中位數(shù)例:某售貨小組5個人,某天的銷售額按從小到大的順序排列為440元、480元、520元、600元、750元,則中位數(shù)的確定(未分組資料)中位數(shù)的位次為中位數(shù)應(yīng)為第3和第4個單位標志值的算術(shù)平均數(shù),即【例】若上述售貨小組為6個人,某天的銷售額按從小到大的順序排列為440元、480元、520元、600元、750元、760元,則(未分組資料)【例】某企業(yè)某日工人的日產(chǎn)量資料如下:日產(chǎn)量(件)工人人數(shù)(人)向上累計次數(shù)(人)10111213147010038015010070170550700800合計800—計算該企業(yè)該日全部工人日產(chǎn)量的中位數(shù)。中位數(shù)的位次:(單項數(shù)列)中位數(shù)的位次為:即第3個單位的標志值就是中位數(shù)例:某售貨小組
為中位數(shù)所在組的組距。式中,假定中位數(shù)所在組的頻數(shù)在該組內(nèi)是均勻分布的。組距數(shù)列計算中位數(shù):采用公式計算中位數(shù)的近似值:∑?為數(shù)據(jù)的個數(shù)(總次數(shù));L為中位數(shù)所在組的下限值;為中位數(shù)所在組以前各組的累積頻數(shù);為中位數(shù)所在組的頻數(shù);為中位數(shù)所在組的組距。組距數(shù)列計算中位數(shù):采用公式計算中
ACiXBACiXB個次數(shù)或頻數(shù),式中的C點AB區(qū)域即整個中位數(shù)所在的組內(nèi),次數(shù)分布是均勻的,依次分布著個次數(shù)或頻數(shù)。
再假定AC區(qū)域內(nèi),次數(shù)分布也是均勻的,且依次分布著是中位數(shù)所在的位置,為中位數(shù)所在組以前各組的累積頻數(shù)。
個次數(shù)或頻數(shù),式中的C點AB區(qū)域即整個中位數(shù)所在的組內(nèi),次數(shù)
例、設(shè)某車間50名工人日加工零件數(shù)分組表如下:按零件數(shù)分組(個)頻數(shù)(人)頻率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合計50100計算該車間50名工人日加工零件數(shù)的中位數(shù)。例、設(shè)某車間50名工人日加工零件數(shù)分組表如下:按零件數(shù)分眾數(shù)
眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多(即頻數(shù)最高)的那個數(shù)值。通常用M表示。眾數(shù)的求法①由單值分組資料求眾數(shù)。由于單值分組資料中已將各標志值及其所對應(yīng)的頻數(shù)都一一列出,故只需采用直接觀察的方法就可求得眾數(shù)。具體做法是,首先在頻數(shù)一欄中找出最大的頻數(shù),假定為fm;然后根據(jù)fm找到它所對應(yīng)的標志值Xm,則眾數(shù)即為Xm。②由組距分組資料求眾數(shù)。由組距分組資料求眾數(shù)的常用的方法是組中值法。用組中值法求眾數(shù)分為三步:首先通過直接觀察找出最高的頻數(shù);然后根據(jù)最高的頻數(shù)找到它所對應(yīng)的組;最后求出該組的組中值即是眾數(shù)。眾數(shù)眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多(即頻數(shù)最高)的那個
求眾數(shù)往往要求數(shù)據(jù)具備一定的條件,即只有當總體單位數(shù)目較多且其數(shù)據(jù)有明顯的集中趨勢時才能計算眾數(shù)。調(diào)查某年級150名學生的年齡,得到下列結(jié)果。首先我們在人數(shù)(頻數(shù))一欄中找出最大的頻數(shù)50,再從50找到所對應(yīng)的年齡19歲。則資料中的眾數(shù)為19歲。例如
年齡(歲)
人數(shù)(f)17181920212210255040205
合計150某廠100名職工的收入情況,首先在職工數(shù)一欄中,找到最大的頻數(shù)40;然后找到40所對應(yīng)的組:180~220;最后計算該組的組中值,計算結(jié)果為200元。因此,該例中的眾數(shù)為200元。收入(元)職工數(shù)(人)100—140140—180180—220220—260260--3001010402020合計100求眾數(shù)往往要求數(shù)據(jù)具備一定的條件,即只有當總體
眾數(shù)、中位數(shù)和均值都是對數(shù)據(jù)集中趨勢的測度,
1、均值由全部數(shù)據(jù)計算,包含了全部數(shù)據(jù)的信息,具有良好的數(shù)學性質(zhì),當數(shù)據(jù)接近對稱分布時,具有較好的代表性;但對于偏態(tài)分布,其代表性較差;受極端值的影響較大。
2、中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響,對于偏態(tài)分布的數(shù)據(jù),其代表性要比均值好。
3、眾數(shù)是一組數(shù)據(jù)分布的峰值,是一種位置的代表,與數(shù)據(jù)出現(xiàn)的次數(shù)有關(guān),當數(shù)據(jù)的分布具有明顯的集中趨勢時,尤其對于偏態(tài)分布,眾數(shù)的代表性比均值好。但具有不唯一性。
4、對接近正態(tài)的分布數(shù)據(jù),常用均值描述數(shù)據(jù)的集中趨勢;對偏態(tài)分布,常用眾數(shù)或中位數(shù)描述數(shù)據(jù)的集中趨勢。
5、均值只適用于定距或定比尺度的數(shù)據(jù);定序尺度數(shù)據(jù)可用中位數(shù)或眾數(shù)進行描述,而對定類尺度數(shù)據(jù),只能用眾數(shù)進行描述。
眾數(shù)、中位數(shù)和均值的應(yīng)用場合眾數(shù)、中位數(shù)和均值都是對數(shù)據(jù)集中趨勢的測度,眾數(shù)、數(shù)據(jù)分布形狀
Shape表明數(shù)據(jù)是如何分布的偏態(tài)Skew與對稱Symmetry
左偏:均值<中位數(shù) 右偏:均值>中位數(shù) 對稱(零偏度):均值=中位數(shù)右偏的左偏的對稱的均值
=中位數(shù)
=眾數(shù)均值
中位數(shù)
眾數(shù)眾數(shù)
中位數(shù)
均值數(shù)據(jù)分布形狀Shape表明數(shù)據(jù)是如何分布的右偏的左偏的對三、離散趨勢分析
離散趨勢(又稱離中趨勢)分析指的是用一個特定的數(shù)值來反映一組數(shù)據(jù)相互之間的離散程度。作用:它與集中趨勢一起,分別從兩個不同的側(cè)面描述和揭示一組數(shù)據(jù)的分布狀況,共同反映出資料分布的全面特征;同時,它還對集中趨勢的統(tǒng)計量(如平均數(shù)、眾數(shù)、中位數(shù))的代表性作出補充說明。三、離散趨勢分析離散趨勢(又稱離中趨勢)分析指的某校三個系各選5名同學,參加智力競賽,他們的成績分別如下:中文系:7879808182X=80
數(shù)學系:6572808895X=80
政治系:35788998100X=80如果僅以集中趨勢統(tǒng)計量(平均數(shù))來衡量,那么,三個系代表隊的水平一樣高,不存在什么差別。但從直觀上不難發(fā)現(xiàn),三個代表隊中五名隊員的成績相互之間的差跟程度(離散程度)很不一樣。中文系成績十分接近;數(shù)學系成績比較分散;而政治系隊成績則相差十分懸殊。80分對中文系隊同學的代表性最高,而對政治系隊同學的代表性最低。某校三個系各選5名同學,參加智力競賽,他們的成績分別如下:如
離散趨勢的各種統(tǒng)計量,一方面揭示出數(shù)據(jù)相互分離的程度;另一方面又對相應(yīng)的集中趨勢統(tǒng)計量的代表性作出判斷。結(jié)論集中趨勢統(tǒng)計量的代表性與所對應(yīng)的離散趨勢統(tǒng)計量是反比關(guān)系,即離散趨勢統(tǒng)計量越大,則所對應(yīng)的集中趨勢統(tǒng)計量的代表性就越??;反之,則越大。離散趨勢的各種統(tǒng)計量,一方面揭示出數(shù)據(jù)相互分離離散趨勢統(tǒng)計量全距標準差異眾比率四分位差離散系數(shù)對應(yīng)眾數(shù)平均數(shù)中位數(shù)對應(yīng)對應(yīng)離散趨勢統(tǒng)計量全距標準差異眾比率四分位差離散系數(shù)對應(yīng)眾數(shù)平均1.全距也叫極距,它是一組數(shù)據(jù)中最大值與最小值之差。全距是離散趨勢統(tǒng)計量中最簡單的一種。在原始數(shù)據(jù)資料條件下,只需將全部數(shù)據(jù)按大小順序排列,然后用最大值減去最小值即可。1.全距全距的意義在于,一組數(shù)據(jù)的全距越大,在一定程度上說明這組數(shù)據(jù)的離散趨勢越大,而集中趨勢統(tǒng)計量的代表性越低。反之,一組數(shù)據(jù)的全距越小,則說明這組數(shù)據(jù)的離散趨勢越小,集中趨勢統(tǒng)計量的代表性就越高。由于全距僅僅依靠兩個極端值,因而帶有很大的偶然性,它對于大量的處于兩個極端值之間的數(shù)值分布情況.以及在中心點周圍的集中情況,都無法提供任何信息,比較粗糙。全距的意義在于,一組數(shù)據(jù)的全距越大,在一定程度上說明這組數(shù)據(jù)2、四分位差
四分位差是先將一組數(shù)據(jù)按大小排列成序,然后將其四等分,去掉序列中最高的四分之一和最低的四分之一,僅就中間的一半數(shù)值來測定序列的全距。四分位差的符號通常用Q表示。Q=Q3—Q1
而Q1、Q3分別表示第一個四分位點和第三個四分位點。2、四分位差四分位差是先將一組數(shù)據(jù)按大小排列成例:位分組資料計算四分位差某班7位同學的成績依次為:55,61,72,80,83,88,92。計算其四分位差。Q1=(N+1)/4=2;Q2=2(N+1)/4=4;Q3=3(N+1)/4=6Q=(Q3-Q1)/2=(88-61)/2=13.5四分位差是指舍去資料中的數(shù)值最高的25%數(shù)據(jù)和數(shù)值最低的25%數(shù)據(jù),僅就屬于中間的50%數(shù)據(jù)求其量數(shù)作為離散量數(shù)。四分位差能夠避免次數(shù)分配數(shù)列中兩端極端數(shù)值的影響,中間部分數(shù)列分配愈集中,標志值的差異愈小,四分位差也愈小。例:位分組資料計算四分位差
3.標準差標準差:一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均數(shù)的平方根。它是用得最多、也是最重要的離散趨勢統(tǒng)計量。通常用符號來表示,其計算公式根據(jù)資料的形式不同而稍有差別。公式①由原始數(shù)據(jù)計算標準差②由單值分組資料計算標準差(f為X所對應(yīng)的頻數(shù))③由組距分組資料計算標準差。其方法與上述單值分組資料計算標準差的方法相似,唯一不同的是需要先計算出各組的組中值,然后采用下述公式:
【例】某銷售小組5個人,某天的銷售額分別為440元、480元、520元、600元、750元,求該銷售小組銷售額的標準差。解:即該售貨小組銷售額的標準差為109.62元?!纠磕充N售小組5個人,某天的銷售額分別為440元、480元標準差計算例單項數(shù)列:某村社會救助款額發(fā)放資料如表所示,求加權(quán)標準差。115.67元組距數(shù)列:以下表資料為例,計算加權(quán)標準差。676.68萬元社會救助款額(元)人數(shù)fXf(X-X)(X-X)2(X-X)2f6407508909409803356319202250445056402940-220-110308012048400121009006400144001452003630045003840043200
合計2017200
—
—267600保險基金收繳額(萬元)縣市數(shù)(個)組中值(萬元)Xf(X-X)(X-X)2(X-X)2f1000以下1000-15001500-20002000-25002500-30003000以上61417322110750125017502250275032504500175002975072000577503250013908903901106101110193210079210015210012100372100123210011592600110894002585700387200781410012321000合計100
—214000
—
—45790000標準差計算例單項數(shù)列:某村社會救助款額發(fā)放資料如表所示,求4.離散系數(shù)
離散系數(shù)是一種相對的離散趨勢統(tǒng)計量,它使我們能夠?qū)煞N不同單位的離散趨勢統(tǒng)計量,或者對兩個不同總體的離散程度進行比較。標準差與平均數(shù)的比值,用百分比表示。定義:標準差系數(shù)4.離散系數(shù)離散系數(shù)是一種相對的離散趨在平均數(shù)不為零的條件下,離散系數(shù)越大,表明數(shù)據(jù)的離散程度越大,而所對應(yīng)的集中趨勢統(tǒng)計量的代表性就越?。环粗?,則數(shù)據(jù)的離散程度越小,集中趨勢統(tǒng)計量的代表性就越大。應(yīng)用舉例一項調(diào)查得到下列結(jié)果,某市人均月養(yǎng)老保險金為92元,標準差為17元;人均住房面積7.5平米,標準差為1.8平米。試比較該市人均養(yǎng)老保險和住房情況哪一個差異程度比較大。計算結(jié)果:人均養(yǎng)老保險的離散系數(shù)為18.5%,人均住房面積的離散系數(shù)為24%可見人均住房面積的差異情況比人均養(yǎng)老的差異情況要大。某校學生的平均年齡為20歲,標準差為2歲;該校教師的平均年齡為28歲,標準差為4.5歲。試比校學生年齡與教師年齡哪一個差異程度更大。計算結(jié)果:學生年齡的離散系數(shù)為10%,教師年齡的離散系數(shù)為11.8%可見教師年齡間的差異程度更大一些。以上是同一總體不同指標間的比較,下列則是同一指標不同總體間的比較在平均數(shù)不為零的條件下,離散系數(shù)越大,表明數(shù)據(jù)的離散程度【例】某年級一、二兩班某門課的平均成績分別為82分和76分,其成績的標準差分別為15.6分和14.8分,比較兩班平均成績代表性的大小。解:一班成績的標準差系數(shù)為:二班成績的標準差系數(shù)為:因為,所以一班平均成績的代表性比二班大。【例】某年級一、二兩班某門課的平均成績分別為82分和76分,【例】
:如果你是一家制造業(yè)公司的供應(yīng)部門經(jīng)理,與兩家原材料供應(yīng)商聯(lián)系供貨,兩家供應(yīng)商均表示能在大約10個工作日內(nèi)供齊所需原材料。幾個月的運轉(zhuǎn)之后,你發(fā)現(xiàn)盡管兩家供貨商供貨的平均時間都是大約10天,但他們供貨所需天數(shù)的分布情況卻是不同的(圖)。問:兩家供貨商按時供貨的可信度相同嗎?考慮它們直方圖的差異,你更愿意選擇哪家供貨商供貨呢?【例】:如果你是一家制造業(yè)公司的供應(yīng)部門經(jīng)理,與兩家原材料
5.異眾比率異眾比率:一組數(shù)據(jù)中非眾數(shù)的次數(shù)與總體全部單位數(shù)的比率。公式:(這里fmo為眾數(shù)的次數(shù))異眾比率的意義是指眾數(shù)所不能代表的其他數(shù)值(即非眾數(shù)的數(shù)值)在總體中的比重。因此,異眾比率越大,即眾數(shù)所不能代表的其他數(shù)值的比重越大,則眾數(shù)在總體中所占的比重自然就越小,這樣眾數(shù)的代表性也就越小。
第三節(jié)雙變量統(tǒng)計分析一、交互分類1.交互分類的定義與作用所謂交互分類,就是將一組數(shù)據(jù)按照兩個不同變量的類型進行綜合的分類。交互分類的結(jié)果通常以交互分類表的形式反映出來。老年中年青年合計小學以下初中高中中專以上4520324418261510133965516合計100100100300第三節(jié)雙變量統(tǒng)計分析一、交互分類1.交互分類的定義與作用
上表是對總數(shù)為300人的調(diào)查對象按照年齡和文化程度兩個變量的標準進行交互分類的結(jié)果。每一個被調(diào)查者按這兩種標準被劃分到某一個格內(nèi)。即格內(nèi)數(shù)字就是分類的結(jié)果。作用通過對各種不同類型格內(nèi)的頻數(shù)或相對額數(shù)(即百分比)的分析,來研究和探討變量之間是否存在關(guān)系。結(jié)論即被調(diào)查者的文化程度與他們的年齡有關(guān),并呈現(xiàn)出年齡越低,總體文化程度越高的狀況。上表是對總數(shù)為300人的調(diào)查對象按照年齡和文化程度兩交互分類方法的適用對象主要是定類與定序?qū)哟蔚淖兞?,而在社會調(diào)查研究中的絕大部分變量正好又是這兩個層次的。因此,交互分類的方法對于大量社會調(diào)查資料的相關(guān)分析有著十分重要的作用。交互分類方法的適用對象主要是定類與定序?qū)哟蔚淖兞浚谏鐣{(diào)二、相關(guān)分析交互分類主要處理的是定類(或定序)變量間的關(guān)系問題,對于定距及定比變量來說,則有另一些方法來探討。這里主要簡單介紹相關(guān)系數(shù)的計算方法及一元線性回歸模型。二、相關(guān)分析交互分類主要處理的是定類(或定序)變量間的關(guān)系問相關(guān)分析的意義社會、經(jīng)濟現(xiàn)象中,一些現(xiàn)象與另一些現(xiàn)象之間往往存在著依存關(guān)系,當我們用變量來反映這些現(xiàn)象的特征時,便表現(xiàn)為變量之間的依存關(guān)系。
如,職業(yè)種類和收入之間的關(guān)系、政府投入和經(jīng)濟增長之間的關(guān)系、廣告投入和經(jīng)濟效益之間的關(guān)系、治療手段和治愈率之間的關(guān)系等等。這些都是二元的關(guān)系。還有更加復雜的諸多變量之間的相互關(guān)系,如企業(yè)的固定資產(chǎn)、流動資產(chǎn)、預算分配、管理模式、生產(chǎn)率、債務(wù)和利潤等諸因素的關(guān)系則不能用簡單的一些二元關(guān)系描述。相關(guān)分析的意義社會、經(jīng)濟現(xiàn)象中,一些現(xiàn)象與另一些現(xiàn)象之間往往在分析變量的依存關(guān)系時,把變量分為兩種:自變量因變量引起其他變量發(fā)生變化的量。受自變量的影響發(fā)生對應(yīng)變化的量如:家庭收入決定消費支出,收入的變化必然引起消費支出的變化,這兩個變量中收入是自變量,而消費支出則是因變量。在分析變量的依存關(guān)系時,把變量分為兩種:自變量因變量引起其他函數(shù)關(guān)系指變量之間存在著確定性依存關(guān)系。即當一個或一組變量每取一個值時,相應(yīng)的另一個變量必然有一個確定值與之對應(yīng)。
函數(shù)關(guān)系可以用一個確定的公式,即函數(shù)式或:Y=F(X)來表示。現(xiàn)象之間的相互關(guān)系,可以概括為兩種不同的類型:(一)函數(shù)關(guān)系(二)相關(guān)關(guān)系函數(shù)關(guān)系指變量之間存在著確定性依存關(guān)系。即當一個或一組變量每相關(guān)關(guān)系指變量之間存在著非確定性依存關(guān)系。即當一個或一組變量每取一個值時,相應(yīng)的另一個變量可能有多個不同值與之對應(yīng)。
例、根據(jù)消費理論,商品需求量Q與商品價格P、居民收入I之間具有的相關(guān)關(guān)系;工資收入與工齡之間的關(guān)系;工作業(yè)績與文化程度的關(guān)系等等。相關(guān)關(guān)系指變量之間存在著非確定性依存關(guān)系。即當一個或一組變量相關(guān)關(guān)系分析
1.廣義上的相關(guān)分析包括以下五個方面:
(1)確定現(xiàn)象之間是否存在相關(guān)關(guān)系
(2)確定相關(guān)關(guān)系的表現(xiàn)形式
(3)判定相關(guān)關(guān)系的方向和密切程度
(4)對達到一定密切程度的相關(guān)關(guān)系建立適當?shù)臄?shù)學模型,以確定自變量與因變量之間數(shù)量變化的規(guī)律性。
(5)測定數(shù)學模型的代表性大小并根據(jù)自變量數(shù)值對因變量的數(shù)量變化做出具有一定概率保證程度的推算和預測。
2.前三個方面內(nèi)容稱為狹義的相關(guān)分析,后兩方面內(nèi)容的研究稱為回歸分析。相關(guān)關(guān)系分析1.廣義上的相關(guān)分析包括以下五個方面:單相關(guān)
是兩個變量之間存在的相關(guān)關(guān)系,即一個因變量與一個自變量之間的依存關(guān)系。因此也稱為一元相關(guān)。復相關(guān)也稱多元相關(guān),是指三個或三個以上變量之間存在的相關(guān)關(guān)系,通常涉及一個因變量與兩個或更多個自變量,也稱多元相關(guān)。相關(guān)關(guān)系的種類:1、按相關(guān)關(guān)系涉及變量的多少可分為:例
只研究家庭收入對消費支出的影響為單相關(guān);如果研究家庭收入、家庭人員構(gòu)成、家庭生活方式等因素對于家庭消費支出的影響則為復相關(guān)。單相關(guān)是兩個變量之間存在的相關(guān)關(guān)系,即一個因變量與一正相關(guān)當自變量X值增加(或減少)時,因變量Y值也隨之增加(或減少),這樣的相關(guān)關(guān)系就是正相關(guān),也叫同向相關(guān)。負相關(guān)當自變量X的值增加(或減少)時,因變量Y的值隨之而減少(或增加),這樣的相關(guān)關(guān)系就是負相關(guān),也叫異向相關(guān)。相關(guān)關(guān)系的種類:2、按相關(guān)的方向可分為:例國民生產(chǎn)總值與社會福利設(shè)施建設(shè)投資額,存在著同向增加的關(guān)系,為正相關(guān);教育程度與工資水平呈一定程度的反向關(guān)系;為負相關(guān)正相關(guān)當自變量X值增加(或減少)時,因變量Y值也隨之增加(線性正相關(guān)線性正相關(guān)價格700600500400300200消費量100806040200線性負相關(guān)非線性相關(guān)價格700600500400300200消費量1008060無(不)相關(guān)無(不)相關(guān)相關(guān)關(guān)系的種類:3、按相關(guān)關(guān)系的密切程度分為:完全相關(guān)因變量完全隨自變量變動而變動,存在著嚴格的依存關(guān)系。即變量間的關(guān)系為函數(shù)關(guān)系。不完全相關(guān)變量之間存在著不嚴格的依存關(guān)系,即因變量的變動除了受自變量變動的影響外,還受其他因素的影響。它是相關(guān)關(guān)系的主要表現(xiàn)形式。完全不相關(guān)自變量與因變量彼此獨立,互不影響,其數(shù)量變化毫無聯(lián)系。相關(guān)關(guān)系的種類:3、按相關(guān)關(guān)系的密切程度分為:完全相關(guān)因變相關(guān)關(guān)系的測定定性分析是依據(jù)研究者的理論知識和實踐經(jīng)驗,對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系,以及何種關(guān)系作出判斷定量分析在定性分析的基礎(chǔ)上,通過編制相關(guān)表、繪制相關(guān)圖、計算相關(guān)系數(shù)與判定系數(shù)等方法,來判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度相關(guān)關(guān)系的測定定性分析是依據(jù)研究者的理論知識和實踐經(jīng)驗,對客定性和定量變量間的混和關(guān)系
假想關(guān)于高等學校的數(shù)據(jù)的一些指標包括:在校生人數(shù)(S),研究生比例(G),教師人數(shù)(F),職工人數(shù)(ST),SCI和SSCI文章數(shù)目(P),SCI和SSCI文章引用數(shù)目(Q),科研項目數(shù)(PR),科研經(jīng)費(B),總經(jīng)費及招生范圍(N)等從該數(shù)據(jù)很難馬上看到任何關(guān)系。但是從數(shù)據(jù)可以得到許多有用的關(guān)系和結(jié)論。如,可以得到任何一個變量和其余變量之間的定量關(guān)系或者多個變量之間的定量關(guān)系(因而可以建立模型,進行預測和各種推斷);也可以利用其中一些變量把各個高等學校分類;還可以把眾多的變量用少數(shù)幾個變量代替以利于分析和理解;數(shù)據(jù)可以作為高校排名的根據(jù)之一……定性和定量變量間的混和關(guān)系假想關(guān)于高等學校的數(shù)據(jù)的一些指相關(guān)表相關(guān)關(guān)系的測定將兩個變量伴隨變動結(jié)果編成一張統(tǒng)計表,即相關(guān)表。簡單相關(guān)表兩個變量均不分組而形成的相關(guān)表。分組相關(guān)表對變量進行分組而形成的相關(guān)表。依兩個變量是否同時分組,又分為:單變量分組相關(guān)表多變量分組相關(guān)表只對其中一個變量分組。對兩個變量同時分組。相關(guān)表相關(guān)關(guān)系的測定將兩個變量伴隨變動結(jié)果編成一張統(tǒng)計表,即簡單相關(guān)表適用于所觀察的樣本單位數(shù)較少,不需要分組的情況分組相關(guān)表適用于所觀察的樣本單位數(shù)較多,標志變異又較復雜,需要分組的情況兩種相關(guān)表的適用范圍簡單適用于所觀察的樣本單位數(shù)較少,不需要分組的情況分組適用于企業(yè)編號月產(chǎn)量(千噸)X生產(chǎn)費用(萬元)Y123456781.22.03.13.85.06.17.28.0628680110115132135160八個同類工業(yè)企業(yè)的月產(chǎn)量與生產(chǎn)費用簡單相關(guān)表企業(yè)編號月產(chǎn)量(千噸)X生產(chǎn)費用(萬元)Y11.262八個同[例]簡單相關(guān)表某市居民月消費支出和可支配收入相關(guān)表(單位:百元)[例]簡單相關(guān)表平均每晝夜產(chǎn)量
固定資產(chǎn)原值35~4040~4545~5050~5555~6060~6565~70600~65011550~600123500~550213450~5001517400~450224350~4000300~35022223543120(百萬元)(噸)20個同類工業(yè)企業(yè)固定資產(chǎn)原值與平均每晝夜產(chǎn)量分組相關(guān)表平均每晝夜產(chǎn)量固定資相關(guān)圖相關(guān)關(guān)系的測定將變量之間的伴隨變動繪于坐標圖上所形成的統(tǒng)計圖。又稱散點圖。簡單相關(guān)圖根據(jù)未分組資料的原始數(shù)據(jù)直接繪制的相關(guān)圖。分組相關(guān)圖根據(jù)分組資料繪制的相關(guān)圖。相關(guān)圖相關(guān)關(guān)系的測定將變量之間的伴隨變動繪于坐標圖上所形成的正相關(guān)負相關(guān)曲線相關(guān)不相關(guān)xyxyxyxy用直角坐標系的x軸代表自變量,y軸代表因變量,將兩個變量間相對應(yīng)的變量值用坐標點的形式描繪出來,用以表明相關(guān)點分布狀況的圖形。相關(guān)關(guān)系的測定相關(guān)圖的繪制正相關(guān)負相關(guān)曲線相關(guān)不相關(guān)xyxyxyxy用直角相關(guān)系數(shù)工具的選擇:1定類變量:可以使用卡方或者LAMBDA系數(shù);2定序變量,或者至少有一個定序:行與列相等時用GAMMA系數(shù),其他用SOMER’SD相關(guān)系數(shù)。3定距和定比變量,或者定序取值達到或超過5:用皮爾遜相關(guān)系數(shù)。注意:在統(tǒng)計軟件中一般把前兩類的計算歸于描述性統(tǒng)計類別里,而后者才在相關(guān)分析類別里。相關(guān)系數(shù)工具的選擇:1定類變量:可以使用卡方或者LAMBD定類變量間的相關(guān)測定:系數(shù)(Lambda)定類變量之間的相關(guān)系數(shù),只能以變量值的次數(shù)來計算,常用Lambda系數(shù)法。例:性別與對吸煙的態(tài)度資料見下表性別與對吸煙態(tài)度態(tài)度y性別x男女合計(Fy)容忍反對37158424557合計(Fx)5250102
定類變量間的相關(guān)測定:系數(shù)(Lambda)性別與對吸Analyze-DescriptiveStatistics-CrosstabsAnalyze-DescriptiveStatistics調(diào)查資料的統(tǒng)計分析課件Spss操作自行練習,參見《SPSS.11_0統(tǒng)計分析教程.(基礎(chǔ)篇)》第14章定序變量間的相關(guān)測定:G系數(shù)(Gamma)例:管理人員的管理能力與聲望的交互分類表聲望y管理能力x高低合計(Fy)高低37158424557合計(Fx)5250102Spss操作自行練習,參見《SPSS.11_0統(tǒng)計分析教程.SPSS中列聯(lián)表分析的常用方法1、適用于兩定類變量的方法2、適用于兩定序變量的方法3、適用于一定類變量、一定序變量的方法定類與定序變量間的相關(guān)測定在SPSS中的分析工具主要位于描述性統(tǒng)計類別-Crosstabs之中。具體分類如下文所述:SPSS中列聯(lián)表分析的常用方法定類與定序變量間的相關(guān)測定在S調(diào)查資料的統(tǒng)計分析課件1、適用于兩定類變量的方法Phi系數(shù):適用于2×2的列聯(lián)表,是對Pearson卡方統(tǒng)計量的修正??ǚ街等菀资軜颖玖康挠绊?。Phi系數(shù)是一種排除樣本量影響的卡方檢驗修正方法。1、適用于兩定類變量的方法Gramer’sV系數(shù):V系數(shù)也是對Pearson卡方統(tǒng)計量的修正。V系數(shù)在考慮了樣本數(shù)影響的同時,還考慮了列聯(lián)表的單元格數(shù)。V系數(shù)的取值在0~1之間,越接近1表明變量的相關(guān)系數(shù)越強。Gramer’sV系數(shù):V系數(shù)也是對Pearson卡方統(tǒng)計2、適用于兩定序變量的方法這些方法都是圍繞“同序?qū)?shù)”與“異序?qū)?shù)”展開的,它們是變量相關(guān)性檢驗的給參數(shù)方法中的兩個重要指標。如果同序?qū)φ级鄶?shù),則認為兩個變量為正相關(guān);如果異序?qū)^多,則認為兩變量為負相關(guān);如果同序?qū)彤愋驅(qū)?shù)大致相同,則認為兩個變量無線性關(guān)系。2、適用于兩定序變量的方法2、適用于兩定序變量的方法Kendall’stau-b系數(shù):取值范圍在-1~+1之間,正負符號代表相關(guān)方向。絕對值越接近1,變量的相關(guān)性越強。通常用于方形列聯(lián)表。Kendall’stau-c系數(shù):取值范圍在-1~+1之間,絕對值越接近1,變量的相關(guān)性越強。通常用于任意格數(shù)的列聯(lián)表。Gamma系數(shù):取值范圍在-1~+1之間,絕對值越接近1,變量的相關(guān)性越強。通常用于2×2列聯(lián)表。2、適用于兩定序變量的方法Kendall’stau-b系3、適用于一定類變量、一定距變量的方法Eta系數(shù):該方法的核心思想類似于單因素方差分析。它通常是將定類變量當作控制變量,將定距變量當作觀測變量,然后分析觀測變量的變差中,有多少比例是可由控制變量解釋的,是因控制變量取值的變化而引起的。
Eta系數(shù)的平方和取值在0~1之間。Eta系數(shù)的取值范圍也在0~1之間,越接近1,表示兩變量的相關(guān)系數(shù)越強。3、適用于一定類變量、一定距變量的方法4、定距變量與定距變量直接用Correlation不宜用列聯(lián)表頻數(shù)分析。4、定距變量與定距變量定類與定序變量間的相關(guān)測定例:Eg:德育調(diào)查數(shù)據(jù)分析定距、定比變量間的相關(guān)測定例:Eg:國民生產(chǎn)總值與第三產(chǎn)業(yè)產(chǎn)值相關(guān)分析定類與定序變量間的相關(guān)測定例:
表我國人均國民收入與人均消費金額數(shù)據(jù)單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例】在研究我國人均消費水平的問題中,把全國人均消費額記為y,把人均國民收入記為x。我們收集到1981~1993年的樣本數(shù)據(jù)(xi
,yi),i=1,2,…,13,數(shù)據(jù)見表,計算相關(guān)系數(shù)。表我國人均國民收入與人均消費金額解:根據(jù)樣本相關(guān)系數(shù)的計算公式有人均國民收入與人均消費金額之間的相關(guān)系數(shù)為0.9989解:根據(jù)樣本相關(guān)系數(shù)的計算公式有相關(guān)關(guān)系不等于因果關(guān)系;相關(guān)系數(shù)只度量變量間的線性關(guān)系,因此,弱相關(guān)不一定表明變量間沒有關(guān)系;警惕虛假相關(guān)使用相關(guān)系數(shù)時應(yīng)注意的問題:相關(guān)關(guān)系不等于因果關(guān)系;使用相關(guān)系數(shù)時應(yīng)注意的問題:三、回歸分析
相關(guān)分析的目的在于了解兩個變量之間的關(guān)系強度,即用相關(guān)系數(shù)r來描述X和Y兩個變量之間的共變特征。它并不指出X和Y哪個是原因,哪個是結(jié)果.回歸分析則是對有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其關(guān)系的形態(tài)找出一個合適的數(shù)學模型,即建立回歸方程,來近似地表達變量間的平均變化關(guān)系,以使依據(jù)回歸方程對未知的情況進行估計。即回歸分析增加了因果性,并具有了預測的功能,因此,它比相關(guān)分析作用更大。三、回歸分析相關(guān)分析的目的在于了解兩個變量之間回歸分析通過一個變量x或一些變量(x1,x2,x3…)的變化解釋另一變量y的變化.即根據(jù)相關(guān)關(guān)系的數(shù)量表達式(回歸方程式)與給定的自變量x,揭示因變量y在數(shù)量上的平均變化和求得因變量的預測值的統(tǒng)計分析方法回歸方程回歸模型反映自變量和因變量之間數(shù)學聯(lián)系的表達式。某一類回歸方程的總稱。簡單線性回歸模型回歸分析通過一個變量x或一些變量(x1,x2,x3…)的變化
自變量(independentvariable):解釋變量,給定的或可以控制的、用來解釋、預測應(yīng)變量的變量。因變量(dependentvariable):響應(yīng)變量,由自變量來解釋其變化的變量。XYXY????????自變量(independentvaria回歸分析的分類根據(jù)變量的多少分為:簡單回歸多元回歸只有一個自變量和一個因變量的回歸自變量數(shù)目在兩個或兩個以上根據(jù)建立的回歸模型形式分為:線性回歸非線性回歸從所擬合的回歸模型來看,一變量表現(xiàn)為其它變量的線性組合。從所擬合的回歸模型來看,一變量表現(xiàn)為其它變量的非線性組合回歸分析的分類根據(jù)變量的多少分為:簡單回歸多元回歸只有一個自例:研究廣告費對特定商品銷售量的影響時,這種回歸分析就稱為簡單回歸研究廣告費、產(chǎn)品質(zhì)量、商品價格、消費者收入及行為偏好等多種因素對商品銷售量的影響時,這種回歸分析稱為多元回歸。上例中,自變量和因變量分別是什么?
例:研究廣告費對特定商品銷售量的影響時,這種回歸分析就稱為簡回歸分析與相關(guān)分析的關(guān)系1.區(qū)別
(1)相關(guān)分析所研究的兩個變量是對等關(guān)系
回歸分析所研究的兩個變量不是對等關(guān)系,必須根據(jù)研究目的,確定自變量和因變量。
(2)相關(guān)分析只能計算一個相關(guān)系數(shù),改變自變量和因變量的地位不影響相關(guān)系數(shù)的數(shù)值;
回歸分析可以根據(jù)研究目的分別建立兩個不同的回歸方程。
(3)相關(guān)分析中兩個變量都必須是隨機變量;
回歸分析中自變量是給定的變量,因變量是隨機變量。(4)相關(guān)分析測定相關(guān)程度和方向,
回歸分析用回歸模型進行預測和控制?;貧w分析與相關(guān)分析的關(guān)系1.區(qū)別回歸分析與相關(guān)分析的聯(lián)系
(1)相關(guān)分析是回歸分析的基礎(chǔ)和前提。如果缺少相關(guān)分析,沒有從定性上說明現(xiàn)象間是否存在相關(guān)關(guān)系及相關(guān)關(guān)系的密切程度,就無法進行回歸分析。
(2)回歸分析是相關(guān)分析的深入和繼續(xù)。僅僅說明現(xiàn)象間具有密切的相關(guān)關(guān)系是不夠的,只有進行回歸分析,擬合回歸方程,才可能進行深入分析和回歸預測,相關(guān)分析才有實際應(yīng)用價值。回歸分析與相關(guān)分析的聯(lián)系指根據(jù)成對的兩個變量的數(shù)值,配合直線方程式,根據(jù)自變量的變動,來推算因變量發(fā)展變動趨勢的方法,其模型為:其中:Yi表示因變量Y在總體中某一個具體的觀察值;Xi表示在研究總體中自變量X的具體觀察數(shù)值;A與B是參數(shù),稱為回歸系數(shù);εi是一個隨機變量,其平均數(shù)為0,方差為σ2.
總體回歸模型簡單線性回歸模型總體一元線性回歸方程指根據(jù)成對的兩個變量的數(shù)值,配合直線方程式,根據(jù)自變量的變動1、正態(tài)性假定3、線性假定2、同方差假定4、獨立性假定當確定某一個Xi時,相應(yīng)的Y就有許多Yi值與之對應(yīng)。Yi是一個隨機變量,這些Yi構(gòu)成一個在X取值為Xi條件下的條件分布、并假設(shè)其服從正態(tài)分布。假定所有Yi這一條件分布的方差是相等的。
假定所有Yi這一條件分布的平均數(shù)位于一條直線上,這條直線為Yi=A+BX,
假定Yi之間是獨立的,也就是說抽樣時,Y的值在每取一個X值的條件分布相互獨立。簡單線性回歸模型的假設(shè)1、正態(tài)性假定3、線性假定2、同方差假定4、獨立性假定在實際應(yīng)用中,我們對X和Y所代表的總體往往不可能全面的觀察和了解,而只能從中抽取部分資料作為樣本,并通過樣本提供的信息來認識總體,找出總體回歸模型的估計式,其估計式的方程式可寫為:其中:a,b和ei分別為A、B及εi的估計量。由于抽樣的隨機性,使樣本回歸線不可能與總體回歸完全重合,從而會出現(xiàn)樣本回歸函數(shù)高估或低估總體回歸函數(shù)的情況,我們能做的就是設(shè)法使樣本回歸函數(shù)盡可能接近總體回歸函數(shù),也就是說要使回歸方程參數(shù)的估計值a、b盡量接近總體真實參數(shù)A、B。樣本回歸模型簡單線性回歸模型在實際應(yīng)用中,我們對X和Y所代表的總體往往不可能全面的觀察和截距斜率一元線性回歸方程的可能形態(tài)為正為負為0一元線性回歸方程的幾何意義截距斜率一元線性回歸方程的可能形態(tài)為正為負為0一元線性總體一元線性回歸方程:樣本一元線性回歸方程:以樣本統(tǒng)計量估計總體參數(shù)斜率(回歸系數(shù))截距截距a表示在沒有自變量x的影響時,其它各種因素對因變量y的平均影響;回歸系數(shù)b表明自變量x每變動一個單位,因變量y平均變動b個單位。(估計的回歸方程)總體一元線性樣本一元線性回歸方程:以樣本統(tǒng)計量估計總體參數(shù)斜隨機干擾:各種偶然因素、觀察誤差和其他被忽視因素的影響X對y的線性影響而形成的系統(tǒng)部分,反映兩變量的平均變動關(guān)系,即本質(zhì)特征。隨機干擾:各種偶然因素、觀察誤差和其他被忽視因素的影響X對y一元線性回歸方程中參數(shù)a、b的確定:最小平方法基本數(shù)學要求一元線性回歸方程最小平方法基本數(shù)學要求整理得到由兩個關(guān)于a、b的二元一次方程組成的方程組:進一步整理,有:整理得到由兩個關(guān)于a、b的二元一次方程組成的方程組:進一步整
例一個10戶居民的可支配收入(百元)與消費支出(百元)的統(tǒng)計資料按升序排列入下表(相關(guān)表):消費支出15203040425360657078可支配收入18254560627588929998消費與可支配收入的相關(guān)圖例一個10戶居民的可支配收入(百元)與消費支計算回歸系數(shù)y=-0.208+0.718x從回歸模型可知:居民每增加1元的可支配收入,將增加0.718元用于消費支出。
因此,如果估計其中一位居民可支配收入提高到100元,則可預測其消費支出將上升到71.556元。計算回歸系數(shù)y=-0.208+0.718x從回歸模型可線性回歸模型側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過線性表達式,即線性回歸方程,來描述其關(guān)系,進而確定一個或幾個變量的變化對另一個變量的影響程度,為預測提供科學依據(jù)。一般線性回歸的基本步驟:①確定回歸方程中的自變量和因變量。②從收集到的樣本數(shù)據(jù)出發(fā)確定自變量和因變量之間的數(shù)學關(guān)系式,即確定回歸方程。③建立回歸方程,在一定統(tǒng)計擬合準則下估計出模型中的各個參數(shù),得到一個確定的回歸方程。④對回歸方程進行各種統(tǒng)計檢驗。(R2,F檢驗,t檢驗)⑤利用回歸方程進行預測?;貧w分析的內(nèi)容和步驟線性回歸模型側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過線性表達式
對線性回歸方程,需要測定方程的擬合程度、檢驗回歸方程和回歸系數(shù)的顯著性。(1)擬合優(yōu)度檢驗(R2)測定多元線性回歸的擬合程度,與一元線性回歸中的判定系數(shù)類似,使用多重判定系數(shù),其定義為回歸分析的統(tǒng)計檢驗對線性回歸方程,需要測定方程的擬合程度、檢驗回歸方程
(2)回歸方程的顯著性檢驗(F檢驗)多元線性回歸方程的顯著性檢驗一般采用F檢驗,利用方差分析的方法進行。方差分析中的F檢驗用于檢驗回歸模型與數(shù)據(jù)的擬合程度,如果F值很大并且顯著性水平(Sig)小于臨界值如0.05或者0.01,則表明預測變量與指標變量之間存在很強的線性關(guān)系,也可以說回歸方程顯著。
(2)回歸方程的顯著性檢驗(F檢驗)
(3)回歸系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)的顯著性檢驗是檢驗各自變量x1,x2,…,對因變量y的影響是否顯著,從而找出哪些自變量對y的影響是重要的,哪些是不重要的。t檢驗是用于檢驗回歸方程各個參數(shù)是否顯著為0的單一檢驗。如果t值對應(yīng)的顯著性水平(Sig)小于臨界值如0.05或者0.01,則表明該自變量對y的影響是顯著的。(3)回歸系數(shù)的顯著性檢驗(t檢驗)
例:以employeedata.sav為例,以CurrentSalary為因變量,自行選擇自變量,分別嘗試進行一元線性回歸和多元線性回歸分析,并給出相應(yīng)的模型解釋。例:以employeedata.sav為例,以Cu第四節(jié)推論統(tǒng)計推論統(tǒng)計就是利用樣本的統(tǒng)計值對總體的參數(shù)值進行估計的方法。推論統(tǒng)計的內(nèi)容主要包括兩個方面:一是參數(shù)估計,一是假設(shè)檢驗。其中參數(shù)估計包括:——點估計(直接用樣本指標作為總體指標的估計值)——區(qū)間估計第四節(jié)推論統(tǒng)計推論統(tǒng)計就是利用樣本的統(tǒng)計值對總體的參數(shù)值參數(shù)估計的方法有點估計和區(qū)間估計二種.區(qū)間估計給出總體未知參數(shù)所在的可能區(qū)間即置信區(qū)間,它會隨樣本的不同而不同,可以解決參數(shù)估計的精確度與可靠性問題,它能夠以一定的置信度保證估計的正確性.置信度與精確度關(guān)系:一般情況下,置信度越高,允許誤差越大,精確度越低.在樣本容量一定時,通常是在確保一定置信度的前提下提高精確度.掌握的樣本不同所用區(qū)間估計的公式不同.參數(shù)估計的方法有點估計和區(qū)間估計二種.簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間正態(tài)總體,σ2已知正態(tài)總體,σ2未知n<30非正態(tài)總體,n≥30σ未知時,用S有限總體,n≥30(不重復)總體均值(μ)σ未知時,用S區(qū)間估計公式(1)(一)一個總體均值的區(qū)間估計簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間正態(tài)總體,σ2已知正態(tài)已知原始數(shù)據(jù)資料的參數(shù)估計-----AnalyzeComparemeans§單個總體均值的區(qū)間估計步驟:1、選擇AnalyzeComparemeansone-sampleTTest對話框已知原始數(shù)據(jù)資料的參數(shù)估計-----Analy檢驗值欄選擇置信度和控制缺失值處理檢驗變量欄檢驗值欄選擇置信度和控制缺失值處理檢驗變量欄Options子對話框
------選擇置信度和控制缺失值處理刪除所有帶缺失值的觀測量只刪除與分析有關(guān)的帶有缺失值的觀測量Options子對話框
------選擇置信度和控制缺失值(二)兩個總體均值之差的區(qū)間估計待估計參數(shù)已知條件置信區(qū)間兩個正態(tài)總體已知兩個正態(tài)總體未知但相等兩個非正態(tài)總體n1,n2≥30兩個總體均值之差μ1-μ2§
區(qū)間估計公式(2)(二)兩個總體均值之差的區(qū)間估計待估計參數(shù)已知條件置信區(qū)間兩§兩個總體均值之差的區(qū)間估計步驟1、若是兩個獨立樣本(n1
≠n2
)則運行兩個獨立樣本之差的T檢驗Independent-SamplesTTest過程;2、若是兩個獨立樣本(n1=n2),則運行兩個配對樣本均值之差的T檢驗Paired–SamplesTTest過程.意義:運行檢驗過程可得兩個總體均值之差在一定把握程度下的區(qū)間估計.二者比較:利用配對樣本可使兩個樣本中許多其它因素保持完全相同.因此估計誤差會比獨立樣本小.§兩個總體均值之差的區(qū)間估計步驟1、Independent-SampleTTest過程選擇AnalyzeCompareMeans
Independent-SamplesTTest,
打開Independent-SamplesTTest對話框,1、Independent-SampleTTest過程打開Independent-SamplesTTest對話框,檢驗變量欄分組變量欄,只能有一個分組變量定義分組按鈕打開Independent-SamplesTTest例1、學生對教學改革態(tài)度的分析(onesample)
某校在對實行掛牌上課教學改革措施的效果評價中,隨機抽選了60位學生進行態(tài)度調(diào)查,他們的10項態(tài)度量表的態(tài)度反映資料如下:掛牌上課態(tài)度反映得分(X)人數(shù)(f)10—2020—3030—4040—5050—6060—702610122010合計60例1、學生對教學改革態(tài)度的分析(onesample)掛牌
(1分表示“很不同意”,7分表示“很同意”,將10項態(tài)度分累加后得一總態(tài)度分,這種量叫7級李克累加量表):試計算:(1)學生態(tài)度得分的平均值和標準差;(2)構(gòu)造學生態(tài)度得分平均值的98%置信區(qū)間。(1分表示“很不同意”,7分表示“很同意”,將1操作步驟:(1)定義變量X和f,X為組中值,輸入數(shù)據(jù)資料;(2)選擇DataWeightCases,對f進行加權(quán)。(3)選擇AnalyzeComparemeansone-sampleTTest(4)將變量X放入Test欄中(5)激活options子對話框,置信度為98%,返回one-sampleTTest主對話框;(6)單擊確定按鈕執(zhí)行。操作步驟:(1)定義變量X和f,X為組中值,輸入數(shù)據(jù)資料T-Test
T-Test
結(jié)論:表1:學生態(tài)度得分的平均值為47分,標準差為13.6295分.表2:以98%的置信區(qū)間估計學生總體態(tài)度得分平均值的置信區(qū)間為(42.7925,51.2075)從中可以反映出學生對掛牌上課這一教改措施普遍贊成,但并不十分擁護,可見還需進一步改進和完善.結(jié)論:表1:學生態(tài)度得分的平均值為47分,標準差為13.62例2___電視廣告平均受益量的估計2、某電視臺廣告部想要估計一下各企業(yè)在該電臺的黃金時間播放電視廣告后的一個月內(nèi)的平均受益量.為此他們抽取了33家播放廣告的同類企業(yè)的隨機樣本,資料如下:
該電視臺想以95%的置信度宣布平均受益量(平均利潤增長量),試構(gòu)造適當?shù)闹眯艆^(qū)間.例2___電視廣告平均受益量的估計2、某電視臺廣告部想要估計數(shù)據(jù):企業(yè)序號1234567891011利潤增量(萬元)7.38.67.76.59.48.37.110.25.49.28.8企業(yè)序號1213131415161718192021利潤增量(萬元)9.76.94.311.28.28.77.69.16.68.58.9企業(yè)序號2324252627282930313233利潤增量(萬元)10.412.814.67.511.76.013.213.69.05.99.6數(shù)據(jù):企業(yè)序號1234567891011利潤增量(萬元)7.該電視臺宣布的平均受益量應(yīng)該是最小受益量,故構(gòu)造置信下限.設(shè)X為企業(yè)利潤增量.操作步驟:
(1)定義變量X輸入數(shù)據(jù)資料;(2)選擇AnalyzeComparemeansone-sampleTTest(3)將變量X放入Test欄中(4)激活Options子對話框,置信度改為90%,返回one-sampleTTest主對話框;(5)單擊OK按鈕執(zhí)行該電視臺宣布的平均受益量應(yīng)該是最小受益量,故構(gòu)造置信下限.設(shè)T-TestT-Test結(jié)論:表1:33家平均受益量為8.8636萬元,標準差為2.4027萬元.表2:該項電視臺可以95%的置信度宣布在該電臺黃金時間做廣告給企業(yè)帶來的平均受益量至少在8.1552萬元以上.結(jié)論:表1:33家平均受益量為8.8636萬元,標準差為2例3___新舊電池使用壽命比較(Independent)
某一個新的制造過程可以增加電池的使用壽命,假設(shè)電池使用壽命服從正態(tài)分布.在新電池中隨機抽取15個,而在舊電中隨機抽取12個同時測試其使用壽命,資料如下:新舊兩種電池平均使用壽命之差95%的置信區(qū)間.新電池(日):18.2\10.4\12.6\18.0\11.7\15.0\24.0\17.6\23.6\24.8\19.3\20.5\19.8\17.1\16.3舊電池(日):12.1\17.5\8.6\13.9\7.8\15.1\17.9\10.6\13.8\14.2\15.3\11.6例3___新舊電池使用壽命比較(Independent)已知的原始數(shù)據(jù)是總體服從正態(tài)分布的兩個獨立樣本。設(shè)X代表電池使用壽命,g代表分組號操作步驟:(1)定義變量X和g,輸入數(shù)據(jù)資料,新舊電池壽命數(shù)據(jù)全部輸入X同一列中,g分別取1和2,新電池組號為1,舊電池組號為2(2)選擇AnalyzeCompareMeansIndependent-SamplesTTest,
打開Independent-SamplesTTest對話框,(3)將變量X放入Test欄中(4)激活DefineGroups按鈕,打開該對話框Groups1中輸入1Groups2中輸入2,單擊Continue返回主對話框;(5)單擊OK按鈕執(zhí)行已知的原始數(shù)據(jù)是總體服從正態(tài)分布的兩個獨立樣本。設(shè)X代表電池T-TestT-Test結(jié)論:表1:得出兩個獨立樣本各自的均值,標準差以及平均標準誤差.新電池的平均使用壽命明顯長于舊電池。表2:可以看出新舊電池平均使用壽命之差的95%的置信區(qū)間為:若兩個樣本方差相等則為(2.4454,8.6746);若兩個樣本方差不等則為(2.5437,8.5763)結(jié)論:表1:得出兩個獨立樣本各自的均值,標準差以及平均標準誤2、Paired-SamplesTTest過程選擇AnalyzeCompareMeans
Paired-SampleTTest,
打開Paired-SampleTTest主對話框2、Paired-SamplesTTest過程選擇An2、Paired-SamplesTTest過程配對變量欄當前選擇欄選擇項按鈕2、Paired-SamplesTTest過程配對變量例4___吸煙有害廣告作用的分析(Paired)
形形色色的廣告已深入到社會各個方面,與人民生活密不可分.成功的廣告將留給人們較深的印象,并帶給企業(yè)豐厚的回報,如何鑒定廣告的效果,如何選擇最佳的廣告制作,對此西方國家更多地采用統(tǒng)計方法來判斷,舉例如下:
為了研究吸煙有害廣告對吸煙者減少吸煙量甚至戒煙是否有作用,從某吸煙者中隨機抽取33位吸煙者,調(diào)查他們在觀看廣告前后的每天吸煙量(支)數(shù)據(jù)如下表.試問影片對他們的吸煙量有無產(chǎn)生作用?為了支持你的答案,請構(gòu)造一個99%的置信區(qū)間.例4___吸煙有害廣告作用的分析(Paired)吸煙者編號1234567891011看前X1(支)看后X2(支)20181515141011101213161219152620221716799吸煙者編號1213141516171819202122看前X1(支)看后X2(支)1710333425208441401910263016163120271862吸煙者編號2324252627282930313233看前X1(支)看后X2(支)13112422222548504134669133827251129102821吸煙者編號1234567891011看前X1(支)20151解:配對樣本的試驗,比較觀看前后平均數(shù)的大小可解決第一個問題,求出兩平均數(shù)之差的99%的雙側(cè)置信區(qū)間可解答第二個問題.操作步驟:1)定義變量X1和X2,輸入數(shù)據(jù);(2)選擇AnalyzeComparemeansPaired-samplesTTest(3)將變量X1和X2放入Test欄中(4)激活Options…
子對話框,置信度改為99%,單擊Continue按鈕,返回Paired-samplesTTest主對話框;(5)單擊OK按鈕執(zhí)行解:配對樣本的試驗,比較觀看前后平均數(shù)的大小可解決第一個問題T-TestT-Test結(jié)論:表1:顯示觀看影片前的平均每日吸煙量約為21.5758支.觀看影片后的平均每日吸煙量約為17.5758支,說明該影片發(fā)生了作用.表2:反映了影片觀看前與后存在著顯著相關(guān)關(guān)系,相關(guān)系數(shù)為0.878.表3:顯示了前后兩個總體平均每日吸煙量之差的99%置信區(qū)間為(1.4888,6.5112),這意味著不管隨機抽到哪幾對樣本單位做調(diào)查,均有99%的把握保證,觀看影片前的平均每日吸煙量大于觀看影片后的平均每日吸煙量之差在(1.4888支至6.5112支之間,即大約在2—7支之間.結(jié)論:表1:顯示觀看影片前的平均每日吸煙量約為21.5758§未知原始數(shù)據(jù)資料的參數(shù)估計
在現(xiàn)實中可能遇到?jīng)]有完整的原始資料,只有幾個樣本數(shù)據(jù)特征的情況。此時可用Compute過程可解決樣本平均數(shù)抽樣分布和未知原始數(shù)據(jù)資料情況下的參數(shù)區(qū)間估計問題。步驟:
(1)定義變量X
(2)選擇TransformCompute打開ComputeVariable對話框(3)在目標變量Target欄中,輸入新變量名cdf(分布函數(shù)形式出現(xiàn))\idf(正態(tài)分布的反函數(shù));在numericExpression框中輸入數(shù)學表達式(4)單擊OK?!煳粗紨?shù)據(jù)資料的參數(shù)估計在現(xiàn)實中可能遇到?jīng)]有例5——農(nóng)民年平均收入估計(Compute):1、為了解某村1300戶農(nóng)民的年純收入狀況,不重復抽取一個由70戶組成的樣本進行調(diào)查得出每戶農(nóng)民年平均收入為4500元,標準差為260元。試求該村每戶農(nóng)民年平均純收入置信度為95%的置信區(qū)間。(4440.75,4559.25)例5——農(nóng)民年平均收入估計(Compute):1、為了解某例6——產(chǎn)品包裝容量分析:
某產(chǎn)品包裝容量為正態(tài)分布,隨機抽取125包產(chǎn)品,發(fā)現(xiàn)10包分量不足,試求分量不足比例的90%的信賴區(qū)間。若誤差界限為0.02,把握程度為95%應(yīng)抽多少樣本單位?根據(jù)過去資料包裝分量不足的比例大約為0.06.(0.04,0.1199)例6——產(chǎn)品包裝容量分析:某產(chǎn)品包裝容量為正態(tài)分布,隨機調(diào)查資料的統(tǒng)計分析課件例7——產(chǎn)品購買量分析:3、某公司作市場調(diào)查,在甲居民區(qū)抽取500戶家庭,其中有35%的家庭購買過該公司的產(chǎn)品.在居民區(qū)抽取600戶家庭,其中有22%的家庭購買過該公司的產(chǎn)品,試求總體成數(shù)之差置信度為95%的置信區(qū)間.例7——產(chǎn)品購買量分析:3、某公司作市場調(diào)查,在甲居民區(qū)抽取抽樣分布是參數(shù)估計的基礎(chǔ),中心極限定理在抽樣分布理論中占有十分重要的地位,進行參數(shù)估計需要根據(jù)研究的問題和已知條件的不同采用不同的方法.在SPSS軟件中參數(shù)估計分已知原始資料和未知原始資料兩種情況,根據(jù)原始數(shù)據(jù)資料運行CompareMeans過程,未知原始資料則運行Compute過程.參數(shù)估計有雙側(cè)區(qū)間估計和單側(cè)區(qū)間估計之分,而軟件直接顯示的是雙側(cè)區(qū)間的估計值,因此在單側(cè)區(qū)間估計時應(yīng)注意將置信度轉(zhuǎn)換為.抽樣分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年河南輕工職業(yè)學院高職單招職業(yè)適應(yīng)性測試模擬試題有答案解析
- 2026年河北勞動關(guān)系職業(yè)學院高職單招職業(yè)適應(yīng)性測試參考題庫帶答案解析
- 神經(jīng)外科微創(chuàng)手術(shù)技術(shù)
- 財險合規(guī)培訓課件
- 胡蜂螫傷規(guī)范化診治專家共識總結(jié)2026
- 生物材料在組織工程中的應(yīng)用前景
- 護理護理護理信息化建設(shè)與護理管理
- 醫(yī)療護理專業(yè)禮儀與形象
- 2026年常州工程職業(yè)技術(shù)學院單招綜合素質(zhì)筆試參考題庫帶答案解析
- 心臟重癥護理流程優(yōu)化
- 2025年陜西延安市直事業(yè)單位選聘工作人員歷年高頻重點提升(共500題)附帶答案詳解
- 幼教培訓課件:《幼兒園冬季保育護理》
- 2024-2025學年湖州市吳興區(qū)數(shù)學三上期末統(tǒng)考試題含解析
- 塔司、信號工安全晨會(班前會)
- 2024全國職業(yè)院校技能大賽ZZ060母嬰照護賽項規(guī)程+賽題
- 回顧性臨床研究的設(shè)計和分析
- 配電一二次融合技術(shù)的發(fā)展應(yīng)用
- 鋼板鋪設(shè)安全施工方案
- 八年級物理上冊期末測試試卷-附帶答案
- 硬件設(shè)計與可靠性
- 垃圾滲濾液處理站運維及滲濾液處理投標方案(技術(shù)標)
評論
0/150
提交評論