第五章-SPSS基本統(tǒng)計(jì)分析課件_第1頁
第五章-SPSS基本統(tǒng)計(jì)分析課件_第2頁
第五章-SPSS基本統(tǒng)計(jì)分析課件_第3頁
第五章-SPSS基本統(tǒng)計(jì)分析課件_第4頁
第五章-SPSS基本統(tǒng)計(jì)分析課件_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、,統(tǒng)計(jì)分析 描述性統(tǒng)計(jì)分析:從總體中隨機(jī)抽取樣本,用統(tǒng)計(jì)圖表或少數(shù)統(tǒng)計(jì)指標(biāo)來描述大量原始樣本數(shù)據(jù)的某種現(xiàn)象或特征。常用的內(nèi)容:集中和離散趨勢、峰度和偏度、統(tǒng)計(jì)圖形分析。 推斷性統(tǒng)計(jì)分析:根據(jù)樣本資料的特性對總體的特性作估計(jì)或推論,常用方法是參數(shù)估計(jì)和假設(shè)檢驗(yàn)。,1,PPT學(xué)習(xí)交流,第五章,SPSS基本統(tǒng)計(jì)分析 描述性統(tǒng)計(jì)分析,2,PPT學(xué)習(xí)交流,內(nèi)容提要 1、頻數(shù)分析(重點(diǎn):統(tǒng)計(jì)量含義、相互聯(lián)系) 2、描述統(tǒng)計(jì) 3、列聯(lián)表分析 (掌握分析適用條件、作用、結(jié)果判定) 4、多選項(xiàng)問題 多選問題賦值方法(重點(diǎn)掌握) 定義多選變量集合(重點(diǎn)掌握) 多選變量的頻次分析(重點(diǎn)掌握) 多選變量的列聯(lián)表分析(

2、重點(diǎn)掌握) 5、探索分析(了解分析工作的作用、掌握假設(shè)檢驗(yàn)的判斷/認(rèn)識(shí)莖葉圖) 6、比率分析(了解),3,PPT學(xué)習(xí)交流,SPSS的主要分析工具Analyze菜單,報(bào)告Rports 描述性統(tǒng)計(jì)分析Descriptive Statistics菜單 表格Tables 均數(shù)間的比較Compare Means菜單 一般線性模型General Linear Model菜單 相關(guān)分析Correlate菜單 多元線性回歸與曲線擬合 Regression菜單 對數(shù)線性模型Loglinear菜單 聚類分析與判別分析Classify菜單 因子分析與對應(yīng)分析Data Reduction菜單 信度分析與多維尺度分析S

3、cale菜單 非參數(shù)檢驗(yàn)Nonparametric Tests菜單 時(shí)間序列分析Time series,4,PPT學(xué)習(xí)交流,SPSS基本統(tǒng)計(jì)分析(描述性統(tǒng)計(jì)分析)的作用: 分析數(shù)據(jù)的基本統(tǒng)計(jì)特征(如集中度、離散度等); 分析數(shù)據(jù)的總體分布情況; 是下一步的建模和進(jìn)行正確統(tǒng)計(jì)推斷的先決條件。,5,PPT學(xué)習(xí)交流,SPSS的許多模塊均可完成描述性分析,但專門為該目的而設(shè)計(jì)的幾個(gè)模塊則集中在Descriptive Statistics菜單中,包括: Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量) Descriptives:數(shù)據(jù)描述過程,進(jìn)行一般性的統(tǒng)計(jì)描述(主要針對定距型

4、變量) Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時(shí)的探索性分析 Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析) Ratio statistics:比率分析,用于兩個(gè)定距型變量間變量值比率變化分析。,6,PPT學(xué)習(xí)交流,5.1 頻數(shù)分析,5.1.1 頻數(shù)分析的目的和基本任務(wù) 1、目的:基本統(tǒng)計(jì)分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。(如:樣本是否有代表性、抽樣是否存在系統(tǒng)性偏差等) 適用對象:主要是定序或分類變量,7,PPT學(xué)習(xí)交流,2、基本任務(wù) (1)頻數(shù)分析的第一個(gè)基本任務(wù)是編制頻數(shù)分布表(可選項(xiàng))。 頻數(shù)(Freque

5、ncy):即變量值落在某個(gè)區(qū)間(或某個(gè)類別)中的次數(shù) 百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比 有效百分比(Valid Percent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)總樣本缺失樣本數(shù) 累計(jì)百分比(Cumulative Percent):即各百分比逐級累加起來的結(jié)果。最終取值為100。,8,PPT學(xué)習(xí)交流,(2)頻數(shù)分析的第二個(gè)任務(wù)是繪制統(tǒng)計(jì)圖 條形圖(Bar Chart):用寬度相同的條形的高度或長短來表示頻數(shù)分布(或百分比)變化的圖形,適用于定序和定類變量的分析。 餅圖(Pie Chart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)(或百分比)變化的圖形,以利于研究事物內(nèi)

6、在結(jié)構(gòu)組成等問題。 直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。,9,PPT學(xué)習(xí)交流,5.1.2 頻數(shù)分析的基本操作 (1)選擇菜單AnalyzeDescriptive StatisticsFrequencies。 (2)將若干頻數(shù)分析變量選擇到Variable(s)框中。 (3)單擊Chart按鈕選擇繪制統(tǒng)計(jì)圖形,在Chart Values框中選擇條形圖中縱坐標(biāo)(或餅圖中扇形面積)的含義,其中Frequencies表示頻數(shù);Percentages表示百分比。,10,PPT學(xué)習(xí)交流,5.1.3 SPSS頻數(shù)分析的擴(kuò)展功能 1、計(jì)算分位數(shù)(Per

7、centile Values) 分位數(shù)是變量在不同分位點(diǎn)上的取值。分位點(diǎn)在0100之間。一般使用較多的是四分位點(diǎn)(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點(diǎn)依次是25,50,75。于是四分位數(shù)便分別是25,50,75點(diǎn)所對應(yīng)的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。 SPSS提供了計(jì)算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cut points for n equal groups)。還可以直接指定分位點(diǎn)(Percentile)。,11,PPT學(xué)習(xí)交流,輸出百分位數(shù): 輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù); 將數(shù)據(jù)平均分為所設(shè)定的相等等份,可

8、輸入2100 的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù) 自定義百分位數(shù),可輸入0100 的整數(shù)。,離散趨勢,分布形態(tài)欄,集中趨勢欄,輸出統(tǒng)計(jì)量對話框,12,PPT學(xué)習(xí)交流,2、計(jì)算其他基本描述統(tǒng)計(jì)量 SPSS頻數(shù)分析還能夠計(jì)算其他基本統(tǒng)計(jì)量,其中包括描述集中趨勢(Central Tendency)的基本統(tǒng)計(jì)量、描述離散程度(Dispersion)的基本統(tǒng)計(jì)量、描述分布形態(tài)(Distribution)的基本統(tǒng)計(jì)量等。,13,PPT學(xué)習(xí)交流,Format 對話框,控制頻數(shù)表輸出的分類數(shù)量。默認(rèn)為10,多變量框中可設(shè)定多變量表格輸出的格式,設(shè)置頻數(shù)表輸出的格式,選擇頻數(shù)表中排列順序 按變量升

9、序排列,此為默認(rèn) 按變量降序排列 按變量各種取值發(fā)生的頻數(shù)的升序排列 按變量各種取值發(fā)生的頻數(shù)的降序排列,14,PPT學(xué)習(xí)交流,(2)multiple variables單選框組: 如果選擇了兩個(gè)以上變量作頻數(shù)表,則compare variables可以將所有變量的結(jié)果在同一個(gè)頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organize output by variables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個(gè)變量一張表。,15,PPT學(xué)習(xí)交流,3、頻數(shù)分布表格式(Format)的定義 (1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Order by):頻數(shù)分布表中的內(nèi)容的輸出順序可以 按變量值

10、的升序輸出(Ascending values) 按變量值的降序輸出(Descending values)(以上兩類適合分類數(shù)量較少的情形) 按頻數(shù)的升序輸出( Ascending counts) 按頻數(shù)的降序輸出( Descending counts)(以上兩類適合分類數(shù)量較多的情形),16,PPT學(xué)習(xí)交流,(3)壓縮頻數(shù)分布表(Suppress tables with more than n categories) 如果變量取值的個(gè)數(shù)或取值區(qū)間的個(gè)數(shù)太多,頻數(shù)分布表將很龐大,此時(shí)可以壓縮它。SPSS默認(rèn),如果變量取值的個(gè)數(shù)或取值區(qū)間的個(gè)數(shù)大于10,則不輸出相應(yīng)的頻數(shù)分布表。應(yīng)用中可以修改該值

11、。,17,PPT學(xué)習(xí)交流,5.1.4 頻數(shù)分析的應(yīng)用舉例 利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)進(jìn)行頻數(shù)分析,有以下兩個(gè)分析目標(biāo): 目標(biāo)一:分析儲(chǔ)戶的戶口和職業(yè)的基本情況。 目標(biāo)二:分析儲(chǔ)戶一次存款金額的分布,并對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。,18,PPT學(xué)習(xí)交流,分析: 目標(biāo)一:分析儲(chǔ)戶的戶口和職業(yè)的基本情況 (1)戶口和職業(yè)兩個(gè)變量都是定類型變量,可通過基本頻數(shù)分析實(shí)現(xiàn)。 (2)職業(yè)變量的取值(分類)數(shù)目較多,為使頻數(shù)分布表更一目了然,應(yīng)對內(nèi)容的輸出順序進(jìn)行調(diào)整,單擊Format按鈕,選擇Descending counts按頻數(shù)的降序輸出。 (3)單擊Chart按鈕指定輸出戶口變量的餅圖和職業(yè)變量的條形圖。

12、,19,PPT學(xué)習(xí)交流,目標(biāo)二:分析儲(chǔ)戶一次存款金額的分布,并對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。 1、分析思路: (1)由于存(?。┛罱痤~數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。(recode,frequency) (2)進(jìn)行數(shù)據(jù)拆分,并分別計(jì)算城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶的一次存(?。┛罱痤~的四分位數(shù),并通過四分位數(shù)比較兩者分布上的差異。,20,PPT學(xué)習(xí)交流,2、分析過程: (1)數(shù)據(jù)分組,將存(?。┛罱痤~重新分成五組,五組區(qū)間分布為,少于500元,5002000元,20003500元,35005000元,5000元以上

13、。分組后進(jìn)行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。 (2)利用SPSS的頻數(shù)分析計(jì)算所有樣本的存(取)款金額的四分位數(shù);然后,按照戶口類型對數(shù)據(jù)進(jìn)行拆分(Split file)并重新計(jì)算分位數(shù),分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存(?。┛罱痤~的四分位數(shù)。,21,PPT學(xué)習(xí)交流,5.2 計(jì)算基本描述統(tǒng)計(jì)量,5.2.1 基本描述統(tǒng)計(jì)量 適用對象:定距數(shù)據(jù) 常見的基本描述統(tǒng)計(jì)量有三大類: 刻畫集中趨勢的統(tǒng)計(jì)量 刻畫離中趨勢的統(tǒng)計(jì)量 刻畫分布形態(tài)的統(tǒng)計(jì)量,22,PPT學(xué)習(xí)交流,1、刻畫集中趨勢的描述統(tǒng)計(jì)量 集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。 (1)均值(Mean):即算術(shù)平均數(shù),是反映某變量所有取值的

14、集中趨勢或平均水平的指標(biāo)。如某企業(yè)職工的平均月收入。其計(jì)算公式為:,23,PPT學(xué)習(xí)交流,均值適用條件: 定距變量; 單峰或基本對稱分布情況下適用(為什么?),24,PPT學(xué)習(xí)交流,(2)中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價(jià)社會(huì)的老齡化程度時(shí),可用中位數(shù)。 中位數(shù)特點(diǎn): 位置平均數(shù),不受極端值影響,適用于任意分布類型數(shù)據(jù); 定序和定價(jià)數(shù)據(jù)都適用; 樣本量很小時(shí),中位數(shù)不穩(wěn)定;,25,PPT學(xué)習(xí)交流,(3)眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號(hào)鞋的生產(chǎn)計(jì)劃時(shí)應(yīng)該運(yùn)用眾數(shù)。 眾數(shù)特點(diǎn): 出現(xiàn)頻數(shù)最高的數(shù),不受極端值

15、影響,但是不容易確定; 適用于任意類型數(shù)據(jù),特別是單峰對稱分布; 僅使用頻數(shù)最高這一信息,信息損失較大;,26,PPT學(xué)習(xí)交流,2、刻畫離散程度的描述統(tǒng)計(jì)量 離散程度是指一組數(shù)據(jù)遠(yuǎn)離其“中心值”的程度。 如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個(gè)“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。,27,PPT學(xué)習(xí)交流,常見的刻畫離散程度的描述統(tǒng)計(jì)量如下: (1)全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。 特點(diǎn): 易

16、受極端值影響; 不能反映中間數(shù)據(jù)分布; 一般是作預(yù)備性檢查。,28,PPT學(xué)習(xí)交流,(2)方差(Variance):也是表示變量取值離散程度的統(tǒng)計(jì)量,是各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計(jì)算公式為: 特點(diǎn): 容易受極端值影響; 計(jì)算中使用了均值,因此,均值必須能夠代表集中度時(shí)才能適用。 是離散指標(biāo)中最可靠的。,29,PPT學(xué)習(xí)交流,(3)標(biāo)準(zhǔn)差(Standard Deviation:Std Dev):表示變量取值距離均值的平均離散程度的統(tǒng)計(jì)量。其計(jì)算公式為: 標(biāo)準(zhǔn)差值越大,說明變量值之間的差異越大,距均值這個(gè)“中心值”的離散趨勢越大。,30,PPT學(xué)習(xí)交流,(4)均值標(biāo)準(zhǔn)誤差(Sta

17、ndard Error of Mean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計(jì)量。其計(jì)算公式為: 其中: 為總體標(biāo)準(zhǔn)差,n為樣本單位數(shù),31,PPT學(xué)習(xí)交流,3、刻畫分布形態(tài)的描述統(tǒng)計(jì)量 數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等。 刻畫分布形態(tài)的統(tǒng)計(jì)量主要有兩種: (1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計(jì)量。其計(jì)算公式為:,32,PPT學(xué)習(xí)交流,當(dāng)分布為對稱分布時(shí),正負(fù)總偏差相等,偏度值等于0; 當(dāng)分布為不對稱分布時(shí),正負(fù)總偏差不相等,偏度值大于0或小于0。 偏度值大于0表示正偏差值大,稱為正偏或右偏; 偏度值小于0表示負(fù)偏差值大,稱

18、為負(fù)偏或左偏。 偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。,33,PPT學(xué)習(xí)交流,(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計(jì)量。其計(jì)算公式為: 當(dāng)數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布的陡峭程度相同時(shí),峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布平緩,為平峰分布。,34,PPT學(xué)習(xí)交流,5.2.2 計(jì)算基本描述統(tǒng)計(jì)量的操作 (1)選擇菜單AnalyzeDescriptive StatisticsDescriptives,出現(xiàn)如下窗口:,35,PPT學(xué)習(xí)交流,(2)將需計(jì)算的數(shù)值型變量選擇到Variable(s)框中

19、。 (3)單擊Option按鈕指定計(jì)算哪些基本描述統(tǒng)計(jì)量,出現(xiàn)如下窗口:,36,PPT學(xué)習(xí)交流,Options 對話框,基本統(tǒng)計(jì)量,當(dāng)Variables框中有多個(gè)變量時(shí),此框確定其輸出順序: 按Variables框中的排列順序輸出 按各變量的字母順序輸出 按均值的升序排列 按均值的降序排列,分布,37,PPT學(xué)習(xí)交流,在上面窗口中,用戶可以指定分析多變量時(shí)結(jié)果輸出的次序(Display Order)。其中,Variable list表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;Ascending Means表示按均值升序輸出;Descending Means

20、表示按均值降序輸出。 至此,SPSS便自動(dòng)計(jì)算所選變量的基本描述統(tǒng)計(jì)量并顯示到輸出窗口中。,38,PPT學(xué)習(xí)交流,5.2.3 計(jì)算基本描述統(tǒng)計(jì)量的應(yīng)用舉例 1. 利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù),對一次存款金額變量計(jì)算基本描述統(tǒng)計(jì)量。有以下分析目標(biāo): 計(jì)算存款金額的基本描述統(tǒng)計(jì)量,并分別對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。,39,PPT學(xué)習(xí)交流,分析思路: 首先,由于存(?。┛罱痤~數(shù)據(jù)為定距型變量,可直接采用基本描述統(tǒng)計(jì)分析。 然后,按照戶口對數(shù)據(jù)進(jìn)行拆分(Split file),然后計(jì)算存(?。┛罱痤~的基本描述統(tǒng)計(jì)量。,40,PPT學(xué)習(xí)交流,2. 分析儲(chǔ)戶一次存款的數(shù)量是否存在不均衡現(xiàn)象。 分析: (1)假設(shè)

21、儲(chǔ)戶一次存款金額服從正態(tài)分布,跟據(jù)3 原則,異常值通常為3個(gè)標(biāo)準(zhǔn)差范圍之外的值,可通過對數(shù)據(jù)的標(biāo)準(zhǔn)化處理來判斷。標(biāo)準(zhǔn)化的數(shù)學(xué)定義為:,41,PPT學(xué)習(xí)交流,(2)計(jì)算儲(chǔ)戶一次存款金額的標(biāo)準(zhǔn)化值。(通過標(biāo)準(zhǔn)化可以得到一系列新變量值,通常稱為標(biāo)準(zhǔn)化值或z分?jǐn)?shù)。計(jì)算標(biāo)準(zhǔn)化值可以通過對話框中的復(fù)選框save standardized values as variables來實(shí)現(xiàn),并將結(jié)果保存在一個(gè)新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個(gè)字符。) (3)接下來可對新變量進(jìn)行排序并瀏覽其標(biāo)準(zhǔn)化值的取值情況,可以發(fā)現(xiàn)z分?jǐn)?shù)值得絕對數(shù)大于3的儲(chǔ)戶是存在的。 (4)對其分組為三組:za53. (5)

22、進(jìn)行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在不均衡現(xiàn)象。,42,PPT學(xué)習(xí)交流,思考:頻數(shù)和基本描述統(tǒng)計(jì)量可以描述單個(gè)變量的分布情況。能否用于分析多個(gè)變量的聯(lián)合分布情況?,43,PPT學(xué)習(xí)交流,5.3 交叉分組下的頻數(shù)分析,5.3.1 目的和基本任務(wù) 交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。 1、目的:分析多個(gè)分類變量不同取值下的分布,進(jìn)而分析變量之間的相互影響和關(guān)系。即分析兩個(gè)或兩個(gè)以上分類變量的分布情況。 適用范圍:兩個(gè)或兩個(gè)以上定類或定序變量,44,PPT學(xué)習(xí)交流,2、基本任務(wù): (1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表; (2)在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在一定的相關(guān)性進(jìn)行分析

23、。,45,PPT學(xué)習(xí)交流,5.3.2 交叉列聯(lián)表的主要內(nèi)容 編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個(gè)任務(wù)。交叉列聯(lián)表是兩個(gè)或兩個(gè)以上的變量交叉分組后形成的頻數(shù)分布表。 例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):,46,PPT學(xué)習(xí)交流,47,PPT學(xué)習(xí)交流,上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標(biāo)題和列標(biāo)題分別是兩個(gè)變量的變量值(或分組值)。表格中間是觀測頻數(shù)(Observed Counts)和各種百分比。16名職工中,本科、專科、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工程師、工程師、助

24、理工程師、無技術(shù)職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個(gè)本科學(xué)歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。,48,PPT學(xué)習(xí)交流,在交叉列聯(lián)表中,除了頻數(shù)外還引進(jìn)了各種百分比。例如表中第一行中的33.3, 33.3, 33.3分別是高級工程師3人中各學(xué)歷人數(shù)所占的比例,稱為行百分比(Row percentage),一行的百分比總和為100;表中第一列的25.0,25.0,50.0分別是本科學(xué)歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Column percentage),一列的

25、列百分比總和為100,表中的6.3,6.3,12.5等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Total percentage),所有格子中的總百分比之和也為100。,49,PPT學(xué)習(xí)交流,5.3.3 交叉分組下的頻數(shù)分析的基本操作 (1)菜單選項(xiàng)AnalyzeDescriptive StatisticsCrosstabs,出現(xiàn)窗口如下:,50,PPT學(xué)習(xí)交流,該框中的變量作為分布表中的行變量和列變量。,該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個(gè)控制變量。,顯示每一組中各變量的分類條形圖。,只輸出統(tǒng)計(jì)量,不輸出多維列聯(lián)表。,Crosstabs 對話框,51,

26、PPT學(xué)習(xí)交流,(2)如果進(jìn)行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s) 和Column(s)框中有多個(gè)變量名,SPSS會(huì)將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進(jìn)行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關(guān)系。,52,PPT學(xué)習(xí)交流,(3)選擇Display clustered bar charts選項(xiàng),指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppress tables表示不輸出列聯(lián)表,在僅分析

27、行列變量間關(guān)系時(shí)可選擇該選項(xiàng)。 (4)單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下:,53,PPT學(xué)習(xí)交流,Crosstabs的Cell Display 對話框,選擇在列聯(lián)表中輸出的統(tǒng)計(jì)量,包括觀測量數(shù)、百分比、殘差,輸出觀測量的實(shí)際數(shù)量 如果行和列變量在統(tǒng)計(jì)上是獨(dú)立的或不相關(guān)的,那么會(huì)在單元格中輸出期望的觀測值的數(shù)量。,輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比 輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比 輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比,計(jì)算非標(biāo)準(zhǔn)化殘差 計(jì)算標(biāo)準(zhǔn)化殘差 計(jì)算調(diào)整后殘差,54,PPT學(xué)習(xí)交流,SPSS默認(rèn)列聯(lián)表單元格中只輸出觀

28、測頻數(shù)(Observed)。為便于分析,通常還應(yīng)指定輸出Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。Counts框中的Expected表示輸出期望頻數(shù);Residuals框中的各個(gè)選項(xiàng)表示在各個(gè)單元格中輸出剩余。其中,Unstandardized為非標(biāo)準(zhǔn)化剩余,定義為觀測頻數(shù)期望頻數(shù);Standardized為標(biāo)準(zhǔn)化剩余,又稱Pearson剩余,定義為:,55,PPT學(xué)習(xí)交流,(5)單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列,是SPSS默認(rèn)項(xiàng);Descending表示以行變量取值的降序排

29、列。 (6)單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系,窗口如下,其中,Chi-Square為卡方檢驗(yàn)。,56,PPT學(xué)習(xí)交流,5.3.4 交叉列聯(lián)表行列變量間關(guān)系的分析 對交叉列聯(lián)表中的行變量和列變量之間關(guān)系進(jìn)行分析是交叉分組下頻數(shù)分析的第二個(gè)任務(wù)。 為了理解行、列變量之間的關(guān)系,可以從分析兩個(gè)極端的例子出發(fā): (1)年齡與工資收入的交叉列聯(lián)表(一),57,PPT學(xué)習(xí)交流,(2)年齡與工資收入交叉列聯(lián)表(二) 表一中表示年齡與工資收入呈正相關(guān)關(guān)系,表二表示年齡與工資收入呈負(fù)相關(guān)關(guān)系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個(gè)單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系

30、強(qiáng)弱程度,此時(shí)就要借助非參數(shù)檢驗(yàn)方法。通常用的方法是卡方檢驗(yàn)。,58,PPT學(xué)習(xí)交流,交叉列聯(lián)表的卡方檢驗(yàn),卡方檢驗(yàn)屬假設(shè)檢驗(yàn)的范疇,步驟如下: (1)建立原假設(shè) 在列聯(lián)表分析中卡方檢驗(yàn)的原假設(shè)為行變量與列變量獨(dú)立 (2)選擇和計(jì)算檢驗(yàn)統(tǒng)計(jì)量 列聯(lián)表分析卡方檢驗(yàn)統(tǒng)計(jì)量是Pearson卡方統(tǒng)計(jì)量,其數(shù)學(xué)定義為:,59,PPT學(xué)習(xí)交流,其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù); 為觀察頻數(shù), 為期望頻數(shù)(Expected Count)。期望頻數(shù)的計(jì)算方法是: 其中,RT是指定單元格所在行的觀測頻數(shù)合計(jì),CT是指定單元格所在列的觀測頻數(shù)合計(jì),n是觀測頻數(shù)的合計(jì)。 期望頻數(shù)的分布反映的是行列變量互不相

31、干下的分布。,60,PPT學(xué)習(xí)交流,61,PPT學(xué)習(xí)交流,例如,具有本科學(xué)歷的高級工程師的期望頻數(shù)是0.75的計(jì)算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個(gè)職工的學(xué)歷分布是25%:25%:31.3%:18.8%,如果遵從這種學(xué)歷的總體比例關(guān)系,高級職稱三人的學(xué)歷分布也應(yīng)為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個(gè)職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學(xué)歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。,62,PPT學(xué)習(xí)交流

32、,卡方統(tǒng)計(jì)量觀測值的大小取決于兩個(gè)因素: 第一:列聯(lián)表的單元格子數(shù); 第二:觀測頻數(shù)與期望頻數(shù)的總差值。 在列聯(lián)表確定的情況下,卡方統(tǒng)計(jì)量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。 當(dāng)總差值越大時(shí),卡方值也就越大,實(shí)際分布與期望分布的差距越大,表明行列變量之間越相關(guān); 反之表明行列變量之間越獨(dú)立。,63,PPT學(xué)習(xí)交流,問題:在統(tǒng)計(jì)上卡方統(tǒng)計(jì)量的觀測值究竟達(dá)到什么程度才能斷定行列變量不獨(dú)立呢? 由于該檢驗(yàn)中的pearson卡方統(tǒng)計(jì)量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。,64,PPT學(xué)習(xí)交流,(3)確定顯著性水平(Significant Le

33、vel)和臨界值 顯著性水平 是指原假設(shè)為真卻將其拒絕的風(fēng)險(xiǎn),即棄真的概率。通常設(shè)為0.05或0.01。在卡方檢驗(yàn)中,由于卡方統(tǒng)計(jì)量服從自由度為(行數(shù)1)(列數(shù)1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時(shí),卡方臨界值是可唯一確定的。,65,PPT學(xué)習(xí)交流,(4)結(jié)論和決策(對統(tǒng)計(jì)推斷做決策通常有兩種方式) 根據(jù)統(tǒng)計(jì)量觀測值和臨界值比較的結(jié)果進(jìn)行決策。 如果卡方觀測值大于臨界值,則認(rèn)為實(shí)際分布與期望分布之間的差距顯著,可以拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在相關(guān)關(guān)系; 如果卡方觀測值小于臨界值,接受原假設(shè)。,66,PPT學(xué)習(xí)交流,根據(jù)統(tǒng)計(jì)量觀測值的概率p值和顯著性水平 比較的結(jié)果

34、進(jìn)行決策。 如果p值小于等于 ,則認(rèn)為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在依存關(guān)系; 反之,接受原假設(shè)。,67,PPT學(xué)習(xí)交流,什么是P 值?,是一個(gè)概率值; 如果原假設(shè)為真,P-值是抽樣分布中大于或等于樣本統(tǒng)計(jì)量的概率; 被稱為觀察到的(或?qū)崪y的)顯著性水平。,68,PPT學(xué)習(xí)交流,雙側(cè)檢驗(yàn)的P 值,69,PPT學(xué)習(xí)交流,左側(cè)檢驗(yàn)的P 值,70,PPT學(xué)習(xí)交流,右側(cè)檢驗(yàn)的P 值,71,PPT學(xué)習(xí)交流,利用 P 值進(jìn)行檢驗(yàn) (決策準(zhǔn)則),若p-值 ,不拒絕 H0 若p-值 =5,樣本數(shù)n=40 時(shí),直接用Pearson 卡方檢驗(yàn); 當(dāng)1 = 40 時(shí),用

35、連續(xù)性校正公式; 當(dāng)T1 ,或者 n =5619) Stem width: 1000.00 Each leaf: 1 case(s),108,PPT學(xué)習(xí)交流,利用各地區(qū)保險(xiǎn)業(yè)務(wù)保費(fèi)收入數(shù)據(jù),對財(cái)產(chǎn)保險(xiǎn)保費(fèi)收入進(jìn)行探索性分析-箱圖,109,PPT學(xué)習(xí)交流,練習(xí),利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù),對一次存款金額變量進(jìn)行探索性分析,分析目的: 1、數(shù)據(jù)是否存在極端值; 2、對城鄉(xiāng)居民的儲(chǔ)蓄數(shù)據(jù)進(jìn)行正態(tài)分布檢驗(yàn)。,110,PPT學(xué)習(xí)交流,5.6 比率分析,5.6.1 比率分析的目的和主要指標(biāo) 比率分析用于對兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量。 例如根據(jù)1999年各地區(qū)保險(xiǎn)業(yè)務(wù)情況的數(shù)據(jù),分析各地區(qū)財(cái)產(chǎn)保險(xiǎn)業(yè)務(wù)的保費(fèi)收入占全部業(yè)務(wù)保費(fèi)收入的比例情況。,111,PPT學(xué)習(xí)交流,通常的分析可以生成各個(gè)地區(qū)財(cái)產(chǎn)保險(xiǎn)業(yè)務(wù)的保費(fèi)收入占全部業(yè)務(wù)保費(fèi)收入的比率變量,然后對該比率變量計(jì)算基本描述統(tǒng)計(jì)量(如均值、中位數(shù)、標(biāo)準(zhǔn)差、全距等),進(jìn)而刻畫比率變量的集中趨勢和離散程度。 SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標(biāo),大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論