實用社會統(tǒng)計分析技術.ppt_第1頁
實用社會統(tǒng)計分析技術.ppt_第2頁
實用社會統(tǒng)計分析技術.ppt_第3頁
實用社會統(tǒng)計分析技術.ppt_第4頁
實用社會統(tǒng)計分析技術.ppt_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實用社會統(tǒng)計分析技術,及SPSS和STATA統(tǒng)計軟件操作說明 第二講,一個以上變量的描述統(tǒng)計,考查變量之間的關系 相關系數(shù) 回歸,相關系數(shù),考查兩個事物(在數(shù)據(jù)里我們稱之為變量)之間的關聯(lián)程度 也就是說,當某一個變量發(fā)生變化時,另一個變量會產生什么變化 相關系數(shù)是對兩個變量之間關系的量度,或者說兩個變量變化的共同趨勢有多少,皮爾遜相關系數(shù)I,如果兩個變量都是連續(xù)變量(如年齡、身高、收入等),我們采用Pearson product-moment correlation來測量。簡稱皮爾遜相關系數(shù),其值在-1至+1之間。,皮爾遜相關系數(shù)II,如果有兩個變量,X、Y 當相關系數(shù)為0時,X和Y兩變量無關

2、系。 當X的值增大,Y也增大,正相關關系,相關系數(shù)在0.00與1.00之間 當X的值減小,Y也減小,正相關關系,相關系數(shù)在0.00與1.00之間 當X的值增大,Y減小,負相關關系,相關系數(shù)在-1.00與0.00之間 當X的值減小,Y增大,負相關關系,相關系數(shù)在-1.00與0.00之間,皮爾遜相關系數(shù)III,相關系數(shù)的絕對值越大,相關性越強,相關系數(shù)越接近于1和-1,相關度越強,相關系數(shù)越接近于0,相關度越弱。 通常情況下: 相關系數(shù)0.8-1.0為極強相關 0.6-0.8為強相關 0.4-0.6為中等程度相關 0.2-0.4為弱相關 0.0-0.2為極弱相關或無相關,皮爾遜相關系數(shù)IV,相關系

3、數(shù)公式,圖視相關系數(shù):散點圖(scatterplot) 圖1:完全相關(相關系數(shù)r=1 ),圖2:正相關(相關系數(shù)r=0.702),圖3:負相關(相關系數(shù)r= - 0.8),圖4 不相關(相關系數(shù)r=0.071),確定系數(shù)和不確定系數(shù),把相關系數(shù)加以平方,我們稱之為確定系數(shù)(coefficient of determination)。確定系數(shù)的意思是一個變量的變化有百分之多少可以由另一個變量來解釋。 其余的百分之多少不能由這個變量來解釋,這就是不確定系數(shù)。,例如:,學生的高考成績的分數(shù)與學生每天學習多少小時這兩個變量的相關系數(shù)是0.7。那么確定系數(shù)為0.72,等于0.49。它的意思是說,高考成

4、績的高低變化(方差variance)有49%是可以由每天學習時間來解釋。 如果有49%方差可以解釋,那么就還有另外的51%不能解釋,不能解釋的這部分方差我們稱之為異質系數(shù)或不確定系數(shù)(coefficient of alienation,coefficient of nondetermination),相關系數(shù) 確定系數(shù) 變量X 變量Y rxy=0 rxy2=0 rxy=.5 rxy2=.25或25% rxy=.9 rxy2=.81或81%,用圖形顯示共變,相關矩陣表(受教育年限、月收入、年齡),其它類型的相關性測量,用線性回歸做預測,我們不僅可以計算兩個變量之間的相關程度,而且,基于這種相關性

5、,我們也可以從一個變量的值去預測另一個變量的值。這是相關的另一種應用方式,而且,在社會科學和行為科學中,這種方法是非常常用的工具。 采用這種方法的基本思想是,用收集到的數(shù)據(jù),計算兩個變量(X和Y)之間的相關,確定兩者之間存在相關,然后應用這種相關,在已知X變量的數(shù)值情況下去預測Y變量的數(shù)值。,最簡單的預測模型:線性回歸模型,預測的邏輯 預測指的是由目前的狀況去推算未來的狀況的一種活動,經濟學尤其使用多。我們要從一個變量去預測另一個變量,首先要計算這兩個變量之間的相關性。,用線性回歸做預測,兩個變量之間的相關系數(shù)越高,從一個變量去預測另一個變量的精確度就越高,這是因為相關系數(shù)越高,就意味著這兩個

6、變量的共變部分越多,所以從其中一個變量的變化就可越多地獲知另一個變量的變化。如果兩個變量之間的相關系數(shù)為1或-1,那么你完全可由變量X去獲知變量Y的值。,舉例:高考總分與第一學年各科總分,回歸線,這條回歸線反映出我們在已知X變量分值(即高考分數(shù))的情況下,對于Y變量的分值(即大學第一學年各科總分)的一種最好的猜測(best guess)。,當X=300時, 預測Y的值(280),X=330, Y=370,預測誤差,如何進行這種預測?,三個步驟: 我們把上述提到的Y變量(第一學年的各科成績總分)稱之為因變量(dependent variable)或(criterion),把X變量(高考分數(shù))稱之

7、為自變量(independent variable)或(predictor variable)。 我們產生一條上面提到的回歸線?;貧w線是根據(jù)已收集到的數(shù)據(jù)所建立的一個回歸方程而得出的。 依據(jù)這個方程,每一個X變量的值(預測變量)都可以預測出相應的Y變量的值。,一般化的回歸方程的公式,(第一學年各科總分 = b*高考總分 + a),Y是基于已知的X變量的值所預測的Y變量值 b是回歸線的斜率(slope)或方向(direction) a是截距(也稱常數(shù)項),指回歸線在Y軸上的始點,即當X為0時Y的值。,斜率b的計算公式為:,最終計算出:b=0.704,截距a的計算公式為:,最終計算出:a=71.9

8、77,把a和b代入回歸公式:Y=0.704X + 71.977,以一個人的高考分數(shù)來預測他在大學第一學年的各科總分,比如:有一個學生高考分數(shù)為280分,根據(jù)回歸公式預測出此學生大學第一學年各科總分可能為261分 : Y=0.704*280+71.977=269 根據(jù)這一公式,任何一個X的分值我們都可以預測出它相應的Y的分值。,如何判斷我們所做的預測有多準確?,觀察用我們得出的回歸公式計算出的Y與實際的Y之間的差距到底有多大,X=280, Y=350,估計誤差,預測的Y=269,根據(jù)上面的回歸公式,我們計算出,如果高考分數(shù)為280分,第一學年各科總分應該是269分。但實際上(散點圖所顯示的),那個高考分數(shù)為280分的學生,他第一學年各科總分是350分。350分與269分之間的差距是81分。這就是估計的誤差(error of estimate)。,標準誤,如果我們把所有這些差距綜合考慮,也就是說,把每一個數(shù)據(jù)點與回歸線之間的差距(或者說每一個實際的Y的分值與預測的Y的分值之間的差距)加以平均,這個平均差異就是估計的標準誤(standard error of estimate)。 標準誤的值就告訴我們,預測的準確程度。 當然,我們也可以由相關程度來判斷預測的準確程度。相關程度越高,標準誤越低。當兩個變量完全相關,相關系數(shù)為+1或-1時,標準誤為0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論