第講-SPSS探索和交叉表分析.ppt_第1頁(yè)
第講-SPSS探索和交叉表分析.ppt_第2頁(yè)
第講-SPSS探索和交叉表分析.ppt_第3頁(yè)
第講-SPSS探索和交叉表分析.ppt_第4頁(yè)
第講-SPSS探索和交叉表分析.ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余35頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、描述和頻率分析回顧,集中趨勢(shì)的描述統(tǒng)計(jì)量 :均值、中位數(shù)、眾數(shù) ,代表了數(shù)據(jù)的集中位置 均值(Mean) :代表中心值或平均值的描述統(tǒng)計(jì)量,只適用于間隔尺度變量計(jì)算 中位數(shù)(Median)是將數(shù)據(jù)排序后,排在第n/2位置上的案例所對(duì)應(yīng)的數(shù)值,由于中位數(shù)只是進(jìn)行排序,因此間隔尺度和順序尺度變量都可以計(jì)算中位數(shù),而名義尺度變量不能計(jì)算中位數(shù)。 在實(shí)際應(yīng)用中,應(yīng)該根據(jù)數(shù)據(jù)的特點(diǎn)決定使用哪種集中趨勢(shì)描述統(tǒng)計(jì)量,均值的特點(diǎn)是易受極端值影響,因此如果數(shù)據(jù)中有特別大或特別小的值時(shí),不推薦使用均值,應(yīng)該使用中位數(shù)作為集中趨勢(shì)統(tǒng)計(jì)量。,離散趨勢(shì)的描述統(tǒng)計(jì)量:全距、樣本方差、樣本標(biāo)準(zhǔn)差 全距(Range)也稱極差

2、,定義是:,是一個(gè)比較粗糙的描述離散趨勢(shì)的描述統(tǒng)計(jì)量,通過排序就可以獲得,它只能說明數(shù)據(jù)的分布范圍,而不能準(zhǔn)確刻畫數(shù)據(jù)離中心的程度,因此實(shí)際中不常用。由于全距涉及距離,因此,只適合間隔尺度變量計(jì)算。 離散趨勢(shì)的描述統(tǒng)計(jì)量刻畫了數(shù)據(jù)離中心的分散程度,也把此類統(tǒng)計(jì)量成為分布尺度(Scale)統(tǒng)計(jì)量,尺度越大,就越分散,從另一個(gè)角度講,數(shù)據(jù)越分散,離中心遠(yuǎn)的數(shù)據(jù)越多,中心的代表性就越差,因此,也可以認(rèn)為離散趨勢(shì)的描述統(tǒng)計(jì)量是刻畫集中趨勢(shì)的代表性的統(tǒng)計(jì)量。,分布形態(tài)的描述統(tǒng)計(jì)量 :偏度和峰,偏度是描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量,如果數(shù)據(jù)關(guān)于中心(均值)的分布是對(duì)稱的,此時(shí)稱為分布對(duì)稱或偏度為0,如果數(shù)據(jù)大

3、部分分布在中心左邊,小部分分布在中心右邊,說明此時(shí)中心右邊有偏大的值,即右邊的值距離中心遠(yuǎn),左邊值距離中心近,這樣右邊的少數(shù)距離能夠“抵消”左邊的多數(shù)距離。此時(shí),偏度為正,稱為正偏或右偏分布,反之稱為負(fù)偏或左偏分布 峰度大于0,說明數(shù)據(jù)分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭; 峰度小于0,說明數(shù)據(jù)分布不如標(biāo)準(zhǔn)正態(tài)分布陡峭; 等于0,說明數(shù)據(jù)分布陡峭程度和標(biāo)準(zhǔn)正態(tài)分布相當(dāng)。 值得指出的是,在經(jīng)濟(jì)學(xué)和金融學(xué)中得到的數(shù)據(jù),很多都具有“尖峰后尾”的特點(diǎn),即峰度大于0,偏度也大于0,在處理這類數(shù)據(jù)時(shí),要特別小心,5.1 探 索 分 析,1 定義和計(jì)算公式,定義:調(diào)用此過程可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析,故稱

4、之為探索分析。它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,顯得更加細(xì)致與全面,有助于用戶思考對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析的方案。,2. 探索分析的內(nèi)容包括下面幾個(gè)方面, 檢查數(shù)據(jù)是否有錯(cuò)誤:過大或過小的數(shù)據(jù)均有可能是奇異值、影響點(diǎn)或錯(cuò)誤數(shù)據(jù)。要找出這樣的數(shù)據(jù),并分析原因,然后決定是否從分析中刪除這些數(shù)據(jù)。因?yàn)槠娈愔岛陀绊扅c(diǎn)往往對(duì)分析的影響較大,不能真實(shí)反映數(shù)據(jù)的總體特征。, 對(duì)數(shù)據(jù)規(guī)律的初步觀察:通過初步觀察獲得數(shù)據(jù)的一些內(nèi)部規(guī)律,例如,兩個(gè)變量間是否線性相關(guān)。,3探索分析的考察方法,探索分析一般通過數(shù)據(jù)文件在分組與不分組的情況下,獲得常用統(tǒng)計(jì)量和圖形。 一般以圖形方式輸出,

5、直觀幫助用戶確定奇異值、影響點(diǎn)、進(jìn)行假設(shè)檢驗(yàn),以及確定用戶要使用的某種統(tǒng)計(jì)方式是否合適。,4正態(tài)分布檢驗(yàn),常用的正態(tài)分布檢驗(yàn)是Q-Q圖。,5方差齊次性檢驗(yàn),對(duì)數(shù)據(jù)分析不僅需要進(jìn)行正態(tài)分布檢驗(yàn),有時(shí)候還需要比較各個(gè)分組的方差是否相同,這就要進(jìn)行方差齊次性檢驗(yàn)。 例如,在進(jìn)行獨(dú)立右邊的T檢驗(yàn)之前,就需要事先確定兩個(gè)數(shù)據(jù)的方差是否相同。,如果通過分析發(fā)現(xiàn)各個(gè)方差不同,還需要對(duì)數(shù)據(jù)進(jìn)行方差分析,那么就需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換使得方差盡可能相同。在探索分析中可以使用Levene檢驗(yàn)。,Levene檢驗(yàn)對(duì)數(shù)據(jù)進(jìn)行方差齊次性檢驗(yàn)時(shí),不強(qiáng)求數(shù)據(jù)必須服從正態(tài)分布,它先計(jì)算出各個(gè)觀測(cè)值減去組內(nèi)均值的差,然后再通過這些差

6、值的絕對(duì)值進(jìn)行單因素方差分析。如果得到顯著性水平小于0.05,那么就可以拒絕方差相同的假設(shè)。,6. SPSS中實(shí)現(xiàn)過程, 研究問題 表5.1給出兩個(gè)天津、濟(jì)南兩個(gè)城市某年個(gè)月份的平均氣溫,根據(jù)對(duì)天津平均氣溫和濟(jì)南平均氣溫進(jìn)行探索性統(tǒng)計(jì)分析,研究天津平均氣溫和濟(jì)南平均氣溫的基本特征。,用于從左側(cè)的變量列表中選入因子變量,一般為分類變量,用于從左側(cè)的變量列表中選入標(biāo)簽變量,用以在結(jié)果里標(biāo)識(shí)觀測(cè)個(gè)案。,用于從左側(cè)的變量列表中選入因變量,一般為連續(xù)變量,選中此項(xiàng)會(huì)輸出含有:均值,中位數(shù)、5%修整均數(shù)、標(biāo)準(zhǔn)誤、方差、最小值、最大值、全距、峰度系數(shù)、峰度系數(shù)標(biāo)準(zhǔn)誤、偏度系數(shù)及偏度系數(shù)標(biāo)準(zhǔn)誤,計(jì)算并輸出比均

7、值和中位數(shù)更為定的數(shù)據(jù)中心估計(jì)值,包括4個(gè):Hubers、Andrews、Hampels和Tukeys 主要用來(lái)判別數(shù)據(jù)中有無(wú)明顯異常值,輸出5個(gè)最大值與最小值,包括觀測(cè)量的標(biāo)簽,箱式圖,圖由箱體部分和線組成, 箱體上沿為數(shù)據(jù)75%分位數(shù),下沿為數(shù)據(jù)25%分位數(shù),箱體中間的橫線表示50%分位數(shù),即中位數(shù),箱體上方和下方橫線之間的細(xì)線長(zhǎng)度為1.5倍箱體長(zhǎng)度,超出橫線范圍用“”表示的稱為離群點(diǎn)(Outlier),其值在1.5倍箱體長(zhǎng)度到3倍箱體長(zhǎng)度之間,而超出橫線用“”表示的成為極端值(Extreme Value),其值在3倍箱體長(zhǎng)度以上,記號(hào)上的數(shù)值表示其案例編號(hào)。從箱式圖可以看出,數(shù)據(jù)有一些離

8、群點(diǎn)和極端值,呈現(xiàn)右偏分布。,Q-Q圖,圖中斜線表示正態(tài)分布的理論值,而“”表示數(shù)據(jù)實(shí)際值,當(dāng)數(shù)據(jù)確實(shí)是正態(tài)分布時(shí),數(shù)據(jù)實(shí)際值應(yīng)該在理論線上或者附近,沒有明顯的偏離,如果出現(xiàn)明顯偏離,就好像圖中情況,說明數(shù)據(jù)不是正態(tài)分布。,箱式圖(Boxplots),是利用最小值、25%分位數(shù)、中位數(shù)、75%分位數(shù)和最大值五個(gè)數(shù)繪制而成,可以描述數(shù)據(jù)分布的特征。 莖葉圖(Stem-and-leaf),是根據(jù)數(shù)據(jù)數(shù)值繪制的圖形,類似直方圖,但更精細(xì)。 Q-Q圖(Q-Q plots),檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。,【上機(jī)練習(xí)】, 研究問題 20名10歲少兒的身高(cm)資料,數(shù)據(jù)如表3-9所示,試作探索性分析。,第

9、六講 交叉列聯(lián)表分析,1 定義和計(jì)算公式,定義:前面的分析都是對(duì)單個(gè)變量的數(shù)據(jù)分布情況進(jìn)行分析。但在實(shí)際分析中,還需要掌握多個(gè)變量在不同取值情況下的數(shù)據(jù)分布情況,從而進(jìn)一步深入分析變量之間的相互影響和關(guān)系,這種分析就稱為交叉列聯(lián)表分析。,交叉列聯(lián)表分析除了列出交叉分組下的頻數(shù)分布外,還需要分析兩個(gè)變量之間是否具有獨(dú)立性或一定的相關(guān)性。要獲得變量之間的相關(guān)性,僅僅靠頻數(shù)分布的數(shù)據(jù)是不夠的,還需要借助一些變量間相關(guān)程度的統(tǒng)計(jì)量和一些非參數(shù)檢驗(yàn)的方法。,常用的衡量變量間相關(guān)程度的統(tǒng)計(jì)量是簡(jiǎn)單相關(guān)系數(shù),但在交叉列聯(lián)表分析中,由于行列變量往往不是連續(xù)變量,不符合計(jì)算簡(jiǎn)單相關(guān)系數(shù)的前提條件。因此需要根據(jù)變

10、量的性質(zhì),選擇其他的相關(guān)系數(shù),如Kendall等級(jí)相關(guān)系數(shù)、Eta值等。,SPSS提供了多種適用于不同相關(guān)系數(shù)的相關(guān)關(guān)系,這些檢驗(yàn)的零假設(shè)是:行和列變量之間彼此獨(dú)立,不存在顯著的相關(guān)關(guān)系。SPSS將自動(dòng)給出檢驗(yàn)的相伴概率,如果相伴概率小于顯著性水平0.05,那么應(yīng)拒絕零假設(shè),認(rèn)為行列變量之間彼此相關(guān)。,計(jì)算公式如下。 (1)卡方統(tǒng)計(jì)量檢驗(yàn)是常用的檢驗(yàn)行列變量之間是否相關(guān)的方法。交叉列聯(lián)表的卡方檢驗(yàn)零假設(shè)是:行列變量之間獨(dú)立,計(jì)算公式為,卡方統(tǒng)計(jì)量服從(行數(shù)1)(列數(shù)1)個(gè)自由度的卡方統(tǒng)計(jì),SPSS在自動(dòng)計(jì)算卡方統(tǒng)計(jì)量后,還會(huì)給出相應(yīng)的相關(guān)概率。,(2)Contingency coefficie

11、nt:列聯(lián)系數(shù)。用于名義變量之間的相關(guān)系數(shù)計(jì)算。計(jì)算公式由卡方統(tǒng)計(jì)量修改而得,公式為 其中,N為樣本系數(shù),(3)Phi and Cramers V:系數(shù)。用于名義變量之間的相關(guān)系數(shù)計(jì)算。計(jì)算公式由卡方統(tǒng)計(jì)量修改而得,公式為 數(shù)值界于01之間,其中K為行數(shù)和列數(shù)較小的實(shí)際數(shù)。,交叉表操作過程,1、【分析】|【描述統(tǒng)計(jì)】|【交叉表】 2、變量設(shè)置 3、精確檢驗(yàn)設(shè)置 4、統(tǒng)計(jì)量設(shè)置 5、單元格顯示設(shè)置 6、格式設(shè)置,參數(shù)說明,應(yīng)用于聯(lián)列表的行,應(yīng)用于聯(lián)列表的列,用于選入封層變量,單擊上一張、下一張可以指定多組分層變量。,輸出關(guān)于各類別頻數(shù)統(tǒng)計(jì)的復(fù)式條形圖,選中表示不輸出頻數(shù)統(tǒng)計(jì)表格,基于檢驗(yàn)統(tǒng)計(jì)量的

12、漸進(jìn)分布計(jì)算顯著性水平,次方法適用于較大的數(shù)據(jù)集,當(dāng)數(shù)據(jù)較少或者沒有明顯的分布特征時(shí),可能會(huì)不穩(wěn)定。,對(duì)精確性顯著性水平的無(wú)偏估計(jì),此種方法適用于數(shù)據(jù)量太大,無(wú)法使用其他方法進(jìn)行計(jì)算的情況,由此計(jì)算出的顯著性水平低于0.5時(shí)被認(rèn)為是顯著的,即認(rèn)為行列變量之間存在一定的相關(guān)性,包括Pearson卡方檢驗(yàn)、似然比卡方檢驗(yàn)等,進(jìn)行相關(guān)性檢驗(yàn),包括行、列變量的Pearson相關(guān)系數(shù),基于卡方的相關(guān)統(tǒng)計(jì)量,其值介于0-1,0表示行列變量之間沒有關(guān)系,越接近1表示相關(guān)性越強(qiáng),Phi是基于卡方統(tǒng)計(jì)量的關(guān)聯(lián)性測(cè)量,它是將卡方檢驗(yàn)統(tǒng)計(jì)量除以樣本大小,并取結(jié)果的平方根,Cramer是基于卡方統(tǒng)計(jì)量的關(guān)聯(lián)性測(cè)量,用

13、于反映自由變量預(yù)測(cè)因變量時(shí)的誤差縮減比例,取值為1表示用自變量能完全預(yù)測(cè)因變量,越接近0表示自變量對(duì)因變量的預(yù)測(cè)作用越小,相關(guān)性測(cè)量,表示當(dāng)一個(gè)變量的值用來(lái)預(yù)測(cè)其它變量的值時(shí),誤差比例下降的程度,關(guān)于兩個(gè)有序變量相關(guān)性的對(duì)稱性度量,取值在-11之間,關(guān)于兩個(gè)有序變量相關(guān)性的非對(duì)稱性度量,取值在-11,關(guān)于有序變量相關(guān)性的非參數(shù)統(tǒng)計(jì)量,關(guān)于有序變量相關(guān)性的非參數(shù)統(tǒng)計(jì)量,計(jì)算時(shí)不考慮結(jié)的問題,取值在-11,符號(hào)表示相關(guān)性的方向,當(dāng)一個(gè)變量為分類變量,一個(gè)變量為連續(xù)變量時(shí),選擇此欄。Eta的取值范圍:01,輸出Cohens Kappa統(tǒng)計(jì)量,用于衡量?jī)煞N方法評(píng)價(jià)同一對(duì)象時(shí)的一致性,取值在01,越接近1表示兩種方法的評(píng)價(jià)越一致,只有當(dāng)表格的行列變量有相同的取值個(gè)數(shù)以及相同的取值范圍時(shí)才會(huì)輸出,用來(lái)衡量某個(gè)因素與某件事發(fā)生與否的相關(guān)性大小,也就是行列變量的相關(guān)性。 如果計(jì)算所得的置信區(qū)間包含1,則認(rèn)為此因素與事件發(fā)生與否沒有顯著的相關(guān)性,關(guān)于兩個(gè)二分量的非參數(shù)檢驗(yàn),用卡方分布檢驗(yàn)相應(yīng)的改變,檢驗(yàn)兩個(gè)二分變量獨(dú)立性的統(tǒng)計(jì)量,實(shí)際頻數(shù)與期望頻數(shù)的差,2 SPSS中實(shí)現(xiàn)過程, 研究問題 用兩個(gè)班級(jí)學(xué)生進(jìn)行兩個(gè)感冒疫苗的試驗(yàn),兩個(gè)班級(jí)學(xué)生患感冒結(jié)果如表所示,問兩個(gè)班級(jí)學(xué)生的患病比例有無(wú)差別。,兩班級(jí)學(xué)生的患

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論