基本統(tǒng)計(jì)分析課件_第1頁
基本統(tǒng)計(jì)分析課件_第2頁
基本統(tǒng)計(jì)分析課件_第3頁
基本統(tǒng)計(jì)分析課件_第4頁
基本統(tǒng)計(jì)分析課件_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基本統(tǒng)計(jì)分析返回1§1

頻數(shù)分布分析返回2定義:頻數(shù)就是一個(gè)變量在各個(gè)變量值上取值的個(gè)案數(shù)。如要了解學(xué)生某次考試的成績(jī)情況,需要計(jì)算出學(xué)生所有分?jǐn)?shù)取值,以及每個(gè)分?jǐn)?shù)取值有多少個(gè)人,這就需要用到頻數(shù)分析。變量的頻數(shù)分析正是實(shí)現(xiàn)上述分析的最好手段,它可以使人們非常清楚地了解變量取值的分布情況。3利用一維頻數(shù)分布表可以對(duì)數(shù)據(jù)按組進(jìn)行歸類整

理,形成各變量的不同水平的頻數(shù)分布表和圖形,以便對(duì)各變量的數(shù)據(jù)特征好觀測(cè)量分布狀況有一

個(gè)概括的認(rèn)識(shí)。交叉表分析過程可以生成二維或多維頻數(shù)表,還可以進(jìn)行分類變量之間的獨(dú)立性檢驗(yàn)。4一、一維頻數(shù)分布分析過程(data05-01)Analyze

descriptive

statistics

frequencies返回5選擇statistics(輸出統(tǒng)計(jì)量)對(duì)話框如果中位數(shù)與眾數(shù)相差很大,說明觀測(cè)量中存在異常值返回6Charts(圖形)參數(shù)選擇對(duì)話框返回7頻數(shù)分布表format(格式)對(duì)話框返回8Data05-01

age

eudc不同年齡人員與其受教育年限的統(tǒng)計(jì)表返回9受教育年限的頻數(shù)分布表返1回0age變量的直方圖返1回1educ變量直方圖返1回2二、交叉表分析analyze

descriptivestatistics

crosstabs (data05-01)前面的分析都是對(duì)單個(gè)變量的數(shù)據(jù)分布情況進(jìn)行分析。但在實(shí)際分析中,還需要掌握多個(gè)變量在不同取值情況下的數(shù)據(jù)分布情況,從而進(jìn)一步深入分析變量之間的相互影響和關(guān)系,這種分析就稱為交叉列聯(lián)表分析。交叉列聯(lián)表分析除了列出交叉分組下的頻數(shù)分布外,還需要分析兩個(gè)變量之間是否具有獨(dú)立性或一定的相關(guān)性。要獲得變量之間的相關(guān)性,僅僅靠頻數(shù)分布的數(shù)據(jù)是不夠的,還需要借助一些變量間相關(guān)程度的統(tǒng)計(jì)量和一些非參數(shù)檢驗(yàn)的方法。返1回3常用的衡量變量間相關(guān)程度的統(tǒng)計(jì)量是簡(jiǎn)單相關(guān)系數(shù)(參見本書有關(guān)章節(jié)),但在交叉列聯(lián)表分析中,由于行列變量往往不是連續(xù)變量,不符合計(jì)算簡(jiǎn)單

相關(guān)系數(shù)的前提條件。因此需要根據(jù)變量的性質(zhì),

選擇其他的相關(guān)系數(shù),如Kendall等級(jí)相關(guān)系數(shù)、Eta值等。14SPSS提供了多種適用于不同相關(guān)系數(shù)的相關(guān)關(guān)系,這些檢驗(yàn)的零假設(shè)是:行和列變量之間彼此獨(dú)立,不存在顯著的相關(guān)關(guān)系。SPSS將自動(dòng)給出檢驗(yàn)的P值,如果P值小于顯著性水平0.05,那么應(yīng)拒絕零假設(shè),認(rèn)為行列變量之間彼此相關(guān)。15計(jì)算公式如下。(1)卡方統(tǒng)計(jì)量檢驗(yàn)是常用的檢驗(yàn)行列變量之間是否相關(guān)的方法。交叉列聯(lián)表的卡方檢驗(yàn)零假設(shè)是:行列變量之間獨(dú)立,計(jì)算公式為16卡方統(tǒng)計(jì)量服從(行數(shù)?1)×(列數(shù)?1)個(gè)自由度的卡方統(tǒng)計(jì),SPSS在自動(dòng)計(jì)算卡方統(tǒng)計(jì)量后,還會(huì)給出相應(yīng)的P值。17注意:使用這個(gè)統(tǒng)計(jì)量進(jìn)行檢驗(yàn)時(shí),要求期望頻數(shù)大于等于5。若不滿足該條件需要使用精確檢驗(yàn)法。(2)Contingency

coefficient:列聯(lián)系數(shù)。用于名義變量之間的相關(guān)系數(shù)計(jì)算。計(jì)算公式由卡方統(tǒng)計(jì)量修改而得,公式為其中,N為觀測(cè)量數(shù)其數(shù)值在0~1之間,0表示行列變量之間沒有關(guān)聯(lián),1表示行列變量之間有很強(qiáng)的關(guān)聯(lián)。18(3)Phi

and

Cramer‘s

V:ψ系數(shù)。用于名義變量之間的相關(guān)系數(shù)計(jì)算。計(jì)算公式由卡方統(tǒng)計(jì)量修改而得,公式為數(shù)值界于0~1之間,其中K為行數(shù)和列數(shù)較小的實(shí)際數(shù)。19一個(gè)行變量和一個(gè)列變量可以形成一個(gè)二維交叉

表,再指定一個(gè)分組變量作為控制變量就形成三

維交叉表。如果可以指定多個(gè)行、列、控制變量,就會(huì)形成一個(gè)復(fù)雜的多維交叉表。交叉表的數(shù)據(jù)可以是數(shù)值型或字符型變量,短字符串變量可以直接作為分類變量。返2回021選擇statistics(統(tǒng)計(jì)量)對(duì)話框返2回2Exact(精確檢驗(yàn))對(duì)話框提供兩種針對(duì)小數(shù)據(jù)量與不平衡表的檢驗(yàn)方法此值小于0.05則認(rèn)為行、列變量存在關(guān)系返2回3Cells(顯示單元格)對(duì)話框返2回4Format(格式)對(duì)話框返2回5大樣本的交叉表實(shí)例Data05-01child/occcat80/region觀測(cè)量統(tǒng)計(jì)處理摘要返2回6返2回7卡方檢驗(yàn)返2回8小樣本的交叉表實(shí)例data05-02

sex/earnings觀測(cè)量統(tǒng)計(jì)處理摘要返2回9交叉表及卡方檢驗(yàn)結(jié)果返3回0§2

統(tǒng)

計(jì)返3回1描述統(tǒng)計(jì)分析對(duì)話框analyze

descriptive

statistics

descriptives(data05-03)返3回2Options(選擇項(xiàng))對(duì)話框返3回3全美各種犯罪數(shù)據(jù)描述統(tǒng)計(jì)量返3回4§3

析返3回5定義:調(diào)用此過程可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析,故稱之為探索分析。它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,顯得更加細(xì)致與全面,有助于用戶思考對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析的方案。36探索分析提供對(duì)數(shù)據(jù)的考查:檢查數(shù)據(jù)是否有錯(cuò)誤。過大或過小的數(shù)據(jù)均有可能是奇異值、影響點(diǎn)或錯(cuò)誤數(shù)據(jù)。數(shù)據(jù)分布特征。許多分析方法對(duì)數(shù)據(jù)的分布有一定要求。許多分析方法要求樣本來自正態(tài)分布總體,對(duì)兩組數(shù)據(jù)均值差異性的分析要求方差相等。37EXPLORE過程提供數(shù)據(jù)在分組與不分組的情況下,常用的統(tǒng)計(jì)量與統(tǒng)計(jì)圖形。EXPLORE的圖形可以直觀的將奇異值、非正常值、丟失的數(shù)據(jù)及數(shù)據(jù)本身的特點(diǎn)呈現(xiàn)出來。提供的考查方法:箱線圖莖葉圖正態(tài)分布檢驗(yàn)方差齊性檢驗(yàn)38一、箱圖異常值所使用的標(biāo)記為“0”極值所使用的標(biāo)記為“*”返3回9二、莖葉圖近似值=(莖值+葉值×0.1)×莖寬返4回9三、正態(tài)性檢驗(yàn)觀測(cè)量數(shù)據(jù)的正態(tài)分布檢驗(yàn)需要特別指出的是:對(duì)數(shù)據(jù)進(jìn)行正態(tài)分布的檢驗(yàn)時(shí),幾乎都有理由

認(rèn)定數(shù)據(jù)拒絕正態(tài)分布假設(shè),此時(shí)如果數(shù)據(jù)量

足夠大,進(jìn)行統(tǒng)計(jì)計(jì)算時(shí)就不必強(qiáng)求觀測(cè)量一

定服從正態(tài)分布,只要數(shù)據(jù)接近于正態(tài)分布就

可以了。常用的檢驗(yàn)方法有:①P-P概率圖和Q-Q概率圖;②LILLIFORS統(tǒng)計(jì)量檢驗(yàn)法一般情況下,當(dāng)其顯著性水平小于0.05時(shí),就可以拒絕數(shù)據(jù)的正態(tài)分布假設(shè)。零假設(shè):數(shù)據(jù)分布為正態(tài)分布41四、方差齊性檢驗(yàn)①Spreadvslevel圖顯示圖形的同時(shí)還輸出回歸方程斜率以及為使方差變齊的

Levene穩(wěn)健估計(jì)量,即為使兩個(gè)方差相同,對(duì)數(shù)據(jù)進(jìn)行冪轉(zhuǎn)換的冪值。②Levene檢驗(yàn)其好處為:進(jìn)行方差齊性檢驗(yàn)時(shí),不強(qiáng)求數(shù)據(jù)必須服從正態(tài)分布的條件。一般情況下,如果它的顯著性水平小于0.05,就可以拒絕各方差相等的假設(shè)。?M估計(jì)M估計(jì)在計(jì)算時(shí)對(duì)所有觀測(cè)量賦權(quán),隨觀測(cè)量距離分布中心的遠(yuǎn)近而變。計(jì)算包括極端值。極端值由于靠外,因此比位于中心部位的觀測(cè)量給予較小的權(quán)重。常用的M估計(jì)方法有Huber、Andrew、Hampel和Tukey。通過實(shí)踐,這四種方法都可以很好的取代平均值以及中位數(shù),其中Hube估計(jì)方法對(duì)于近似正態(tài)分布的數(shù)據(jù)效果最好。零假設(shè):各方差全相等42五、實(shí)例analyze

descriptive

statistics

explore(data05-04

salary/gender/id)43選擇statistics描述統(tǒng)計(jì)量對(duì)話框返4回4plots統(tǒng)計(jì)圖對(duì)話框返4回5實(shí)例輸出之一:觀測(cè)量摘要表返4回6salary變量的描述統(tǒng)計(jì)量返4回7M估計(jì)值全部比均值小,但與中位數(shù)十分接近,初步判斷觀測(cè)量數(shù)據(jù)可能呈現(xiàn)偏態(tài)分布48變量的極端值返4回9數(shù)據(jù)正態(tài)分布檢測(cè)統(tǒng)計(jì)量顯著性水平均小于0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論