第五章-SPSS基本統(tǒng)計(jì)分析課件

上傳人：石*** IP屬地：廣東上傳時(shí)間：2020-06-20 格式：PPT 頁數(shù)：123 大?。?.38MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩118頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、,統(tǒng)計(jì)分析描述性統(tǒng)計(jì)分析：從總體中隨機(jī)抽取樣本，用統(tǒng)計(jì)圖表或少數(shù)統(tǒng)計(jì)指標(biāo)來描述大量原始樣本數(shù)據(jù)的某種現(xiàn)象或特征。常用的內(nèi)容：集中和離散趨勢、峰度和偏度、統(tǒng)計(jì)圖形分析。推斷性統(tǒng)計(jì)分析：根據(jù)樣本資料的特性對總體的特性作估計(jì)或推論，常用方法是參數(shù)估計(jì)和假設(shè)檢驗(yàn)。,1,PPT學(xué)習(xí)交流,第五章,SPSS基本統(tǒng)計(jì)分析描述性統(tǒng)計(jì)分析,2,PPT學(xué)習(xí)交流,內(nèi)容提要 1、頻數(shù)分析（重點(diǎn)：統(tǒng)計(jì)量含義、相互聯(lián)系） 2、描述統(tǒng)計(jì) 3、列聯(lián)表分析 (掌握分析適用條件、作用、結(jié)果判定) 4、多選項(xiàng)問題多選問題賦值方法（重點(diǎn)掌握）定義多選變量集合（重點(diǎn)掌握）多選變量的頻次分析（重點(diǎn)掌握）多選變量的列聯(lián)表分析（

2、重點(diǎn)掌握） 5、探索分析（了解分析工作的作用、掌握假設(shè)檢驗(yàn)的判斷/認(rèn)識(shí)莖葉圖） 6、比率分析（了解）,3,PPT學(xué)習(xí)交流,SPSS的主要分析工具Analyze菜單,報(bào)告Rports 描述性統(tǒng)計(jì)分析Descriptive Statistics菜單表格Tables 均數(shù)間的比較Compare Means菜單一般線性模型General Linear Model菜單相關(guān)分析Correlate菜單多元線性回歸與曲線擬合 Regression菜單對數(shù)線性模型Loglinear菜單聚類分析與判別分析Classify菜單因子分析與對應(yīng)分析Data Reduction菜單信度分析與多維尺度分析S

3、cale菜單非參數(shù)檢驗(yàn)Nonparametric Tests菜單時(shí)間序列分析Time series,4,PPT學(xué)習(xí)交流,SPSS基本統(tǒng)計(jì)分析（描述性統(tǒng)計(jì)分析）的作用：分析數(shù)據(jù)的基本統(tǒng)計(jì)特征（如集中度、離散度等）；分析數(shù)據(jù)的總體分布情況；是下一步的建模和進(jìn)行正確統(tǒng)計(jì)推斷的先決條件。,5,PPT學(xué)習(xí)交流,SPSS的許多模塊均可完成描述性分析，但專門為該目的而設(shè)計(jì)的幾個(gè)模塊則集中在Descriptive Statistics菜單中，包括： Frequencies：頻數(shù)分析過程，特色是產(chǎn)生頻數(shù)表（主要針對分類變量） Descriptives：數(shù)據(jù)描述過程，進(jìn)行一般性的統(tǒng)計(jì)描述（主要針對定距型

4、變量） Explore：數(shù)據(jù)探察過程，用于對數(shù)據(jù)概況不清時(shí)的探索性分析 Crosstabs：多維頻數(shù)分布交叉表分析（列聯(lián)表分析） Ratio statistics：比率分析，用于兩個(gè)定距型變量間變量值比率變化分析。,6,PPT學(xué)習(xí)交流,5.1 頻數(shù)分析,5.1.1 頻數(shù)分析的目的和基本任務(wù) 1、目的：基本統(tǒng)計(jì)分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況，對把握數(shù)據(jù)的分布特征是非常有用的。（如：樣本是否有代表性、抽樣是否存在系統(tǒng)性偏差等）適用對象：主要是定序或分類變量,7,PPT學(xué)習(xí)交流,2、基本任務(wù) （1）頻數(shù)分析的第一個(gè)基本任務(wù)是編制頻數(shù)分布表（可選項(xiàng)）。頻數(shù)（Freque

5、ncy）：即變量值落在某個(gè)區(qū)間（或某個(gè)類別）中的次數(shù) 百分比（Percent）：即各頻數(shù)占總樣本數(shù)的百分比有效百分比（Valid Percent）：即各頻數(shù)占有效樣本數(shù)的百分比，這里有效樣本數(shù)總樣本缺失樣本數(shù) 累計(jì)百分比（Cumulative Percent）：即各百分比逐級累加起來的結(jié)果。最終取值為100。,8,PPT學(xué)習(xí)交流,（2）頻數(shù)分析的第二個(gè)任務(wù)是繪制統(tǒng)計(jì)圖條形圖（Bar Chart）：用寬度相同的條形的高度或長短來表示頻數(shù)分布（或百分比）變化的圖形，適用于定序和定類變量的分析。餅圖（Pie Chart）：用圓形及圓內(nèi)扇形的面積來表示頻數(shù)（或百分比）變化的圖形，以利于研究事物內(nèi)

6、在結(jié)構(gòu)組成等問題。直方圖（Histograms）：用矩形的面積來表示頻數(shù)分布變化的圖形，適用于定距型變量的分析。,9,PPT學(xué)習(xí)交流,5.1.2 頻數(shù)分析的基本操作（1）選擇菜單AnalyzeDescriptive StatisticsFrequencies。（2）將若干頻數(shù)分析變量選擇到Variable(s)框中。（3）單擊Chart按鈕選擇繪制統(tǒng)計(jì)圖形，在Chart Values框中選擇條形圖中縱坐標(biāo)（或餅圖中扇形面積）的含義，其中Frequencies表示頻數(shù)；Percentages表示百分比。,10,PPT學(xué)習(xí)交流,5.1.3 SPSS頻數(shù)分析的擴(kuò)展功能 1、計(jì)算分位數(shù)（Per

7、centile Values）分位數(shù)是變量在不同分位點(diǎn)上的取值。分位點(diǎn)在0100之間。一般使用較多的是四分位點(diǎn)（Quartiles），即將所有數(shù)據(jù)按升序排序后平均等分成四份，各分位點(diǎn)依次是25，50，75。于是四分位數(shù)便分別是25，50，75點(diǎn)所對應(yīng)的變量值。此外，還有八分位數(shù)、十六分位數(shù)等。 SPSS提供了計(jì)算任意分位數(shù)的功能，用戶可以指定將數(shù)據(jù)等分為n份（Cut points for n equal groups）。還可以直接指定分位點(diǎn)（Percentile）。,11,PPT學(xué)習(xí)交流,輸出百分位數(shù)：輸出四分位數(shù)，顯示25%、50%、75%的百分位數(shù)；將數(shù)據(jù)平均分為所設(shè)定的相等等份，可

8、輸入2100 的整數(shù)，如鍵入4則輸出第25、50、75百分位數(shù) 自定義百分位數(shù)，可輸入0100 的整數(shù)。,離散趨勢,分布形態(tài)欄,集中趨勢欄,輸出統(tǒng)計(jì)量對話框,12,PPT學(xué)習(xí)交流,2、計(jì)算其他基本描述統(tǒng)計(jì)量 SPSS頻數(shù)分析還能夠計(jì)算其他基本統(tǒng)計(jì)量，其中包括描述集中趨勢（Central Tendency）的基本統(tǒng)計(jì)量、描述離散程度（Dispersion）的基本統(tǒng)計(jì)量、描述分布形態(tài)（Distribution）的基本統(tǒng)計(jì)量等。,13,PPT學(xué)習(xí)交流,Format 對話框,控制頻數(shù)表輸出的分類數(shù)量。默認(rèn)為10,多變量框中可設(shè)定多變量表格輸出的格式,設(shè)置頻數(shù)表輸出的格式,選擇頻數(shù)表中排列順序按變量升

9、序排列，此為默認(rèn) 按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列,14,PPT學(xué)習(xí)交流,（2）multiple variables單選框組：如果選擇了兩個(gè)以上變量作頻數(shù)表，則compare variables可以將所有變量的結(jié)果在同一個(gè)頻數(shù)表過程輸出結(jié)果中顯示，便于互相比較；organize output by variables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示，每一個(gè)變量一張表。,15,PPT學(xué)習(xí)交流,3、頻數(shù)分布表格式（Format）的定義（1）調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序（Order by）：頻數(shù)分布表中的內(nèi)容的輸出順序可以按變量值

10、的升序輸出（Ascending values）按變量值的降序輸出（Descending values）（以上兩類適合分類數(shù)量較少的情形）按頻數(shù)的升序輸出（ Ascending counts）按頻數(shù)的降序輸出（ Descending counts）（以上兩類適合分類數(shù)量較多的情形）,16,PPT學(xué)習(xí)交流,（3）壓縮頻數(shù)分布表（Suppress tables with more than n categories）如果變量取值的個(gè)數(shù)或取值區(qū)間的個(gè)數(shù)太多，頻數(shù)分布表將很龐大，此時(shí)可以壓縮它。SPSS默認(rèn)，如果變量取值的個(gè)數(shù)或取值區(qū)間的個(gè)數(shù)大于10，則不輸出相應(yīng)的頻數(shù)分布表。應(yīng)用中可以修改該值

11、。,17,PPT學(xué)習(xí)交流,5.1.4 頻數(shù)分析的應(yīng)用舉例利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)進(jìn)行頻數(shù)分析，有以下兩個(gè)分析目標(biāo)：目標(biāo)一：分析儲(chǔ)戶的戶口和職業(yè)的基本情況。目標(biāo)二：分析儲(chǔ)戶一次存款金額的分布，并對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。,18,PPT學(xué)習(xí)交流,分析：目標(biāo)一：分析儲(chǔ)戶的戶口和職業(yè)的基本情況（1）戶口和職業(yè)兩個(gè)變量都是定類型變量，可通過基本頻數(shù)分析實(shí)現(xiàn)。（2）職業(yè)變量的取值（分類）數(shù)目較多，為使頻數(shù)分布表更一目了然，應(yīng)對內(nèi)容的輸出順序進(jìn)行調(diào)整，單擊Format按鈕，選擇Descending counts按頻數(shù)的降序輸出。（3）單擊Chart按鈕指定輸出戶口變量的餅圖和職業(yè)變量的條形圖。

12、,19,PPT學(xué)習(xí)交流,目標(biāo)二：分析儲(chǔ)戶一次存款金額的分布，并對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。 1、分析思路：（1）由于存（?。┛罱痤~數(shù)據(jù)為定距型變量，直接采用頻數(shù)分析不利于對其分布形態(tài)的把握，因此考慮依據(jù)第三章中的數(shù)據(jù)分組功能對數(shù)據(jù)分組后再編制頻數(shù)分布表。（recode，frequency）（2）進(jìn)行數(shù)據(jù)拆分，并分別計(jì)算城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶的一次存（?。┛罱痤~的四分位數(shù)，并通過四分位數(shù)比較兩者分布上的差異。,20,PPT學(xué)習(xí)交流,2、分析過程：（1）數(shù)據(jù)分組，將存（?。┛罱痤~重新分成五組，五組區(qū)間分布為，少于500元，5002000元，20003500元，35005000元，5000元以上

13、。分組后進(jìn)行頻數(shù)分析并繪制帶正態(tài)曲線的直方圖。（2）利用SPSS的頻數(shù)分析計(jì)算所有樣本的存（取）款金額的四分位數(shù)；然后，按照戶口類型對數(shù)據(jù)進(jìn)行拆分（Split file）并重新計(jì)算分位數(shù)，分別得到城鎮(zhèn)戶口和農(nóng)村戶口的存（?。┛罱痤~的四分位數(shù)。,21,PPT學(xué)習(xí)交流,5.2 計(jì)算基本描述統(tǒng)計(jì)量,5.2.1 基本描述統(tǒng)計(jì)量適用對象：定距數(shù)據(jù) 常見的基本描述統(tǒng)計(jì)量有三大類：刻畫集中趨勢的統(tǒng)計(jì)量刻畫離中趨勢的統(tǒng)計(jì)量刻畫分布形態(tài)的統(tǒng)計(jì)量,22,PPT學(xué)習(xí)交流,1、刻畫集中趨勢的描述統(tǒng)計(jì)量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。（1）均值（Mean）：即算術(shù)平均數(shù)，是反映某變量所有取值的

14、集中趨勢或平均水平的指標(biāo)。如某企業(yè)職工的平均月收入。其計(jì)算公式為：,23,PPT學(xué)習(xí)交流,均值適用條件：定距變量；單峰或基本對稱分布情況下適用（為什么？）,24,PPT學(xué)習(xí)交流,（2）中位數(shù)（Median）：即一組數(shù)據(jù)按升序排序后，處于中間位置上的數(shù)據(jù)值。如評價(jià)社會(huì)的老齡化程度時(shí)，可用中位數(shù)。中位數(shù)特點(diǎn)：位置平均數(shù)，不受極端值影響，適用于任意分布類型數(shù)據(jù)；定序和定價(jià)數(shù)據(jù)都適用；樣本量很小時(shí)，中位數(shù)不穩(wěn)定；,25,PPT學(xué)習(xí)交流,（3）眾數(shù)（Mode）：即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號(hào)鞋的生產(chǎn)計(jì)劃時(shí)應(yīng)該運(yùn)用眾數(shù)。眾數(shù)特點(diǎn)：出現(xiàn)頻數(shù)最高的數(shù)，不受極端值

15、影響，但是不容易確定；適用于任意類型數(shù)據(jù)，特別是單峰對稱分布；僅使用頻數(shù)最高這一信息，信息損失較大；,26,PPT學(xué)習(xí)交流,2、刻畫離散程度的描述統(tǒng)計(jì)量離散程度是指一組數(shù)據(jù)遠(yuǎn)離其“中心值”的程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍，數(shù)據(jù)的離散程度較小，說明這個(gè)“中心值”對數(shù)據(jù)的代表性好；相反，如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍，數(shù)據(jù)的離散程度較大，則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。,27,PPT學(xué)習(xí)交流,常見的刻畫離散程度的描述統(tǒng)計(jì)量如下：（1）全距（Range）：也稱極差，是數(shù)據(jù)的最大值（Maximum）與最小值（Minimum）之間的絕對離差。特點(diǎn)：易

16、受極端值影響；不能反映中間數(shù)據(jù)分布；一般是作預(yù)備性檢查。,28,PPT學(xué)習(xí)交流,（2）方差（Variance）：也是表示變量取值離散程度的統(tǒng)計(jì)量，是各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計(jì)算公式為：特點(diǎn)：容易受極端值影響；計(jì)算中使用了均值，因此，均值必須能夠代表集中度時(shí)才能適用。是離散指標(biāo)中最可靠的。,29,PPT學(xué)習(xí)交流,（3）標(biāo)準(zhǔn)差（Standard Deviation：Std Dev）：表示變量取值距離均值的平均離散程度的統(tǒng)計(jì)量。其計(jì)算公式為：標(biāo)準(zhǔn)差值越大，說明變量值之間的差異越大，距均值這個(gè)“中心值”的離散趨勢越大。,30,PPT學(xué)習(xí)交流,（4）均值標(biāo)準(zhǔn)誤差（Sta

17、ndard Error of Mean）：描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計(jì)量。其計(jì)算公式為：其中：為總體標(biāo)準(zhǔn)差，n為樣本單位數(shù),31,PPT學(xué)習(xí)交流,3、刻畫分布形態(tài)的描述統(tǒng)計(jì)量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱，偏斜程度如何，分布陡峭程度等。刻畫分布形態(tài)的統(tǒng)計(jì)量主要有兩種：（1）偏度（Skewness）：描述變量取值分布形態(tài)對稱性的統(tǒng)計(jì)量。其計(jì)算公式為：,32,PPT學(xué)習(xí)交流,當(dāng)分布為對稱分布時(shí)，正負(fù)總偏差相等，偏度值等于0；當(dāng)分布為不對稱分布時(shí)，正負(fù)總偏差不相等，偏度值大于0或小于0。偏度值大于0表示正偏差值大，稱為正偏或右偏；偏度值小于0表示負(fù)偏差值大，稱

18、為負(fù)偏或左偏。偏度絕對值越大，表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。,33,PPT學(xué)習(xí)交流,（2）峰度（Kurtosis）：描述變量取值分布形態(tài)陡峭程度的統(tǒng)計(jì)量。其計(jì)算公式為：當(dāng)數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布的陡峭程度相同時(shí)，峰度值等于0；峰度大于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭，為尖峰分布；峰度小于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布平緩，為平峰分布。,34,PPT學(xué)習(xí)交流,5.2.2 計(jì)算基本描述統(tǒng)計(jì)量的操作（1）選擇菜單AnalyzeDescriptive StatisticsDescriptives,出現(xiàn)如下窗口：,35,PPT學(xué)習(xí)交流,（2）將需計(jì)算的數(shù)值型變量選擇到Variable(s)框中

19、。（3）單擊Option按鈕指定計(jì)算哪些基本描述統(tǒng)計(jì)量，出現(xiàn)如下窗口：,36,PPT學(xué)習(xí)交流,Options 對話框,基本統(tǒng)計(jì)量,當(dāng)Variables框中有多個(gè)變量時(shí)，此框確定其輸出順序：按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列,分布,37,PPT學(xué)習(xí)交流,在上面窗口中，用戶可以指定分析多變量時(shí)結(jié)果輸出的次序（Display Order）。其中，Variable list表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出；Alphabetic表示按字母順序輸出；Ascending Means表示按均值升序輸出；Descending Means

20、表示按均值降序輸出。至此，SPSS便自動(dòng)計(jì)算所選變量的基本描述統(tǒng)計(jì)量并顯示到輸出窗口中。,38,PPT學(xué)習(xí)交流,5.2.3 計(jì)算基本描述統(tǒng)計(jì)量的應(yīng)用舉例 1. 利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)，對一次存款金額變量計(jì)算基本描述統(tǒng)計(jì)量。有以下分析目標(biāo)：計(jì)算存款金額的基本描述統(tǒng)計(jì)量，并分別對城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。,39,PPT學(xué)習(xí)交流,分析思路：首先，由于存（?。┛罱痤~數(shù)據(jù)為定距型變量，可直接采用基本描述統(tǒng)計(jì)分析。然后，按照戶口對數(shù)據(jù)進(jìn)行拆分（Split file），然后計(jì)算存（?。┛罱痤~的基本描述統(tǒng)計(jì)量。,40,PPT學(xué)習(xí)交流,2. 分析儲(chǔ)戶一次存款的數(shù)量是否存在不均衡現(xiàn)象。分析： (1)假設(shè)

21、儲(chǔ)戶一次存款金額服從正態(tài)分布，跟據(jù)3 原則，異常值通常為3個(gè)標(biāo)準(zhǔn)差范圍之外的值，可通過對數(shù)據(jù)的標(biāo)準(zhǔn)化處理來判斷。標(biāo)準(zhǔn)化的數(shù)學(xué)定義為：,41,PPT學(xué)習(xí)交流,(2)計(jì)算儲(chǔ)戶一次存款金額的標(biāo)準(zhǔn)化值。（通過標(biāo)準(zhǔn)化可以得到一系列新變量值，通常稱為標(biāo)準(zhǔn)化值或z分?jǐn)?shù)。計(jì)算標(biāo)準(zhǔn)化值可以通過對話框中的復(fù)選框save standardized values as variables來實(shí)現(xiàn)，并將結(jié)果保存在一個(gè)新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個(gè)字符。）（3）接下來可對新變量進(jìn)行排序并瀏覽其標(biāo)準(zhǔn)化值的取值情況，可以發(fā)現(xiàn)z分?jǐn)?shù)值得絕對數(shù)大于3的儲(chǔ)戶是存在的。（4）對其分組為三組：za53. (5)

22、進(jìn)行頻數(shù)分析可以發(fā)現(xiàn)存款金額存在不均衡現(xiàn)象。,42,PPT學(xué)習(xí)交流,思考：頻數(shù)和基本描述統(tǒng)計(jì)量可以描述單個(gè)變量的分布情況。能否用于分析多個(gè)變量的聯(lián)合分布情況？,43,PPT學(xué)習(xí)交流,5.3 交叉分組下的頻數(shù)分析,5.3.1 目的和基本任務(wù) 交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。 1、目的：分析多個(gè)分類變量不同取值下的分布，進(jìn)而分析變量之間的相互影響和關(guān)系。即分析兩個(gè)或兩個(gè)以上分類變量的分布情況。適用范圍：兩個(gè)或兩個(gè)以上定類或定序變量,44,PPT學(xué)習(xí)交流,2、基本任務(wù)：（1）根據(jù)收集到的樣本數(shù)據(jù)，產(chǎn)生二維或多維交叉列聯(lián)表；（2）在交叉列聯(lián)表的基礎(chǔ)上，對兩兩變量間是否存在一定的相關(guān)性進(jìn)行分析

23、。,45,PPT學(xué)習(xí)交流,5.3.2 交叉列聯(lián)表的主要內(nèi)容編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個(gè)任務(wù)。交叉列聯(lián)表是兩個(gè)或兩個(gè)以上的變量交叉分組后形成的頻數(shù)分布表。例：職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表（見下頁表）：,46,PPT學(xué)習(xí)交流,47,PPT學(xué)習(xí)交流,上表中的職稱變量稱為行變量（Row），文化程度稱為列變量（Column）。行標(biāo)題和列標(biāo)題分別是兩個(gè)變量的變量值（或分組值）。表格中間是觀測頻數(shù)（Observed Counts）和各種百分比。16名職工中，本科、專科、高中、初中的人數(shù)分別為4，4，5，3，構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布；高級工程師、工程師、助

24、理工程師、無技術(shù)職稱的人數(shù)分別為3，4，6，3，構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布；4個(gè)本科學(xué)歷職工中各職稱的人數(shù)分別是1，1，2等，這些頻數(shù)構(gòu)成的分布稱為條件分布，即在行變量（列變量）取值條件下的列變量（行變量）的分布。,48,PPT學(xué)習(xí)交流,在交叉列聯(lián)表中，除了頻數(shù)外還引進(jìn)了各種百分比。例如表中第一行中的33.3， 33.3， 33.3分別是高級工程師3人中各學(xué)歷人數(shù)所占的比例，稱為行百分比（Row percentage），一行的百分比總和為100；表中第一列的25.0，25.0，50.0分別是本科學(xué)歷4人中各職稱人數(shù)所占的比例，稱為列百分比（Column percentage），一列的

25、列百分比總和為100，表中的6.3，6.3，12.5等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比，稱為總百分比（Total percentage），所有格子中的總百分比之和也為100。,49,PPT學(xué)習(xí)交流,5.3.3 交叉分組下的頻數(shù)分析的基本操作（1）菜單選項(xiàng)AnalyzeDescriptive StatisticsCrosstabs，出現(xiàn)窗口如下：,50,PPT學(xué)習(xí)交流,該框中的變量作為分布表中的行變量和列變量。,該框中的變量作為控制變量，決定頻數(shù)分布表中的層，可有多個(gè)控制變量。,顯示每一組中各變量的分類條形圖。,只輸出統(tǒng)計(jì)量，不輸出多維列聯(lián)表。,Crosstabs 對話框,51,

26、PPT學(xué)習(xí)交流,（2）如果進(jìn)行二維列聯(lián)表分析，則將行變量選擇到Row(s)框中，將列變量選擇到Column(s)框中。如果Row(s) 和Column(s)框中有多個(gè)變量名，SPSS會(huì)將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進(jìn)行三維或多維列聯(lián)表分析，則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的，也可以是逐層疊加的，可通過Previous或Next按鈕確定控制變量間的層次關(guān)系。,52,PPT學(xué)習(xí)交流,（3）選擇Display clustered bar charts選項(xiàng)，指定繪制各變量交叉分組下頻數(shù)分布條形圖。Suppress tables表示不輸出列聯(lián)表，在僅分析

27、行列變量間關(guān)系時(shí)可選擇該選項(xiàng)。（4）單擊Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容，窗口如下：,53,PPT學(xué)習(xí)交流,Crosstabs的Cell Display 對話框,選擇在列聯(lián)表中輸出的統(tǒng)計(jì)量，包括觀測量數(shù)、百分比、殘差,輸出觀測量的實(shí)際數(shù)量如果行和列變量在統(tǒng)計(jì)上是獨(dú)立的或不相關(guān)的，那么會(huì)在單元格中輸出期望的觀測值的數(shù)量。,輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比,計(jì)算非標(biāo)準(zhǔn)化殘差計(jì)算標(biāo)準(zhǔn)化殘差計(jì)算調(diào)整后殘差,54,PPT學(xué)習(xí)交流,SPSS默認(rèn)列聯(lián)表單元格中只輸出觀

28、測頻數(shù)（Observed）。為便于分析，通常還應(yīng)指定輸出Percentage框中的行百分比（Row）、列百分比（Column）、總百分比（Total）。Counts框中的Expected表示輸出期望頻數(shù)；Residuals框中的各個(gè)選項(xiàng)表示在各個(gè)單元格中輸出剩余。其中，Unstandardized為非標(biāo)準(zhǔn)化剩余，定義為觀測頻數(shù)期望頻數(shù)；Standardized為標(biāo)準(zhǔn)化剩余，又稱Pearson剩余，定義為：,55,PPT學(xué)習(xí)交流,（5）單擊Format按鈕指定列聯(lián)表各單元格的輸出排列順序。Ascending表示以行變量取值的升序排列，是SPSS默認(rèn)項(xiàng)；Descending表示以行變量取值的降序排

29、列。（6）單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系，窗口如下，其中，Chi-Square為卡方檢驗(yàn)。,56,PPT學(xué)習(xí)交流,5.3.4 交叉列聯(lián)表行列變量間關(guān)系的分析對交叉列聯(lián)表中的行變量和列變量之間關(guān)系進(jìn)行分析是交叉分組下頻數(shù)分析的第二個(gè)任務(wù)。為了理解行、列變量之間的關(guān)系，可以從分析兩個(gè)極端的例子出發(fā)：（1）年齡與工資收入的交叉列聯(lián)表（一）,57,PPT學(xué)習(xí)交流,（2）年齡與工資收入交叉列聯(lián)表（二）表一中表示年齡與工資收入呈正相關(guān)關(guān)系，表二表示年齡與工資收入呈負(fù)相關(guān)關(guān)系。但大多數(shù)情況下，觀測頻數(shù)分散在列聯(lián)表的各個(gè)單元格中，不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系

30、強(qiáng)弱程度，此時(shí)就要借助非參數(shù)檢驗(yàn)方法。通常用的方法是卡方檢驗(yàn)。,58,PPT學(xué)習(xí)交流,交叉列聯(lián)表的卡方檢驗(yàn),卡方檢驗(yàn)屬假設(shè)檢驗(yàn)的范疇，步驟如下：（1）建立原假設(shè) 在列聯(lián)表分析中卡方檢驗(yàn)的原假設(shè)為行變量與列變量獨(dú)立（2）選擇和計(jì)算檢驗(yàn)統(tǒng)計(jì)量列聯(lián)表分析卡方檢驗(yàn)統(tǒng)計(jì)量是Pearson卡方統(tǒng)計(jì)量，其數(shù)學(xué)定義為：,59,PPT學(xué)習(xí)交流,其中，r為列聯(lián)表的行數(shù)，c為列聯(lián)表的列數(shù)；為觀察頻數(shù)，為期望頻數(shù)（Expected Count）。期望頻數(shù)的計(jì)算方法是：其中，RT是指定單元格所在行的觀測頻數(shù)合計(jì)，CT是指定單元格所在列的觀測頻數(shù)合計(jì)，n是觀測頻數(shù)的合計(jì)。期望頻數(shù)的分布反映的是行列變量互不相

31、干下的分布。,60,PPT學(xué)習(xí)交流,61,PPT學(xué)習(xí)交流,例如，具有本科學(xué)歷的高級工程師的期望頻數(shù)是0.75的計(jì)算公式是3*4/16=0.75。這里，期望頻數(shù)可以理解為，總共16個(gè)職工的學(xué)歷分布是25%：25%：31.3%：18.8%，如果遵從這種學(xué)歷的總體比例關(guān)系，高級職稱三人的學(xué)歷分布也應(yīng)為25%：25%：31.3%：18.8%，于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解，總共16個(gè)職工的職稱分布為18.8%：25%：37.5%：18.8%，本科學(xué)歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。,62,PPT學(xué)習(xí)交流

32、,卡方統(tǒng)計(jì)量觀測值的大小取決于兩個(gè)因素：第一：列聯(lián)表的單元格子數(shù)；第二：觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下，卡方統(tǒng)計(jì)量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當(dāng)總差值越大時(shí)，卡方值也就越大，實(shí)際分布與期望分布的差距越大，表明行列變量之間越相關(guān)；反之表明行列變量之間越獨(dú)立。,63,PPT學(xué)習(xí)交流,問題：在統(tǒng)計(jì)上卡方統(tǒng)計(jì)量的觀測值究竟達(dá)到什么程度才能斷定行列變量不獨(dú)立呢？由于該檢驗(yàn)中的pearson卡方統(tǒng)計(jì)量近似服從卡方分布，因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值，即卡方臨界值。,64,PPT學(xué)習(xí)交流,（3）確定顯著性水平（Significant Le

33、vel）和臨界值顯著性水平是指原假設(shè)為真卻將其拒絕的風(fēng)險(xiǎn)，即棄真的概率。通常設(shè)為0.05或0.01。在卡方檢驗(yàn)中，由于卡方統(tǒng)計(jì)量服從自由度為（行數(shù)1）（列數(shù)1）的卡方分布，因此，在行列數(shù)目和顯著性水平確定時(shí)，卡方臨界值是可唯一確定的。,65,PPT學(xué)習(xí)交流,（4）結(jié)論和決策（對統(tǒng)計(jì)推斷做決策通常有兩種方式）根據(jù)統(tǒng)計(jì)量觀測值和臨界值比較的結(jié)果進(jìn)行決策。如果卡方觀測值大于臨界值，則認(rèn)為實(shí)際分布與期望分布之間的差距顯著，可以拒絕原假設(shè)，斷定列聯(lián)表的行列變量間不獨(dú)立，存在相關(guān)關(guān)系；如果卡方觀測值小于臨界值，接受原假設(shè)。,66,PPT學(xué)習(xí)交流,根據(jù)統(tǒng)計(jì)量觀測值的概率p值和顯著性水平比較的結(jié)果

34、進(jìn)行決策。如果p值小于等于，則認(rèn)為卡方觀測值出現(xiàn)的概率是很小的，拒絕原假設(shè)，斷定列聯(lián)表的行列變量間不獨(dú)立，存在依存關(guān)系；反之，接受原假設(shè)。,67,PPT學(xué)習(xí)交流,什么是P 值?,是一個(gè)概率值；如果原假設(shè)為真，P-值是抽樣分布中大于或等于樣本統(tǒng)計(jì)量的概率；被稱為觀察到的(或?qū)崪y的)顯著性水平。,68,PPT學(xué)習(xí)交流,雙側(cè)檢驗(yàn)的P 值,69,PPT學(xué)習(xí)交流,左側(cè)檢驗(yàn)的P 值,70,PPT學(xué)習(xí)交流,右側(cè)檢驗(yàn)的P 值,71,PPT學(xué)習(xí)交流,利用 P 值進(jìn)行檢驗(yàn) (決策準(zhǔn)則),若p-值 ,不拒絕 H0 若p-值 =5，樣本數(shù)n=40 時(shí)，直接用Pearson 卡方檢驗(yàn)；當(dāng)1 = 40 時(shí)，用

35、連續(xù)性校正公式；當(dāng)T1 ，或者 n =5619) Stem width: 1000.00 Each leaf: 1 case(s),108,PPT學(xué)習(xí)交流,利用各地區(qū)保險(xiǎn)業(yè)務(wù)保費(fèi)收入數(shù)據(jù)，對財(cái)產(chǎn)保險(xiǎn)保費(fèi)收入進(jìn)行探索性分析-箱圖,109,PPT學(xué)習(xí)交流,練習(xí),利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)，對一次存款金額變量進(jìn)行探索性分析，分析目的： 1、數(shù)據(jù)是否存在極端值； 2、對城鄉(xiāng)居民的儲(chǔ)蓄數(shù)據(jù)進(jìn)行正態(tài)分布檢驗(yàn)。,110,PPT學(xué)習(xí)交流,5.6 比率分析,5.6.1 比率分析的目的和主要指標(biāo) 比率分析用于對兩變量間變量值比率變化的描述分析，適用于數(shù)值型變量。例如根據(jù)1999年各地區(qū)保險(xiǎn)業(yè)務(wù)情況的數(shù)據(jù)，分析各地區(qū)財(cái)產(chǎn)保險(xiǎn)業(yè)務(wù)的保費(fèi)收入占全部業(yè)務(wù)保費(fèi)收入的比例情況。,111,PPT學(xué)習(xí)交流,通常的分析可以生成各個(gè)地區(qū)財(cái)產(chǎn)保險(xiǎn)業(yè)務(wù)的保費(fèi)收入占全部業(yè)務(wù)保費(fèi)收入的比率變量，然后對該比率變量計(jì)算基本描述統(tǒng)計(jì)量（如均值、中位數(shù)、標(biāo)準(zhǔn)差、全距等），進(jìn)而刻畫比率變量的集中趨勢和離散程度。 SPSS的比率分析除能夠完成上述分析外，還提供了其他相對比描述指標(biāo)，大

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第五章-SPSS基本統(tǒng)計(jì)分析課件

文檔簡介

溫馨提示

最新文檔

評論

第五章-SPSS基本統(tǒng)計(jì)分析課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔