版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章SPSS統(tǒng)計(jì)分析軟件概述主要內(nèi)容?
SPSS使用基礎(chǔ)?
SPSS的基本運(yùn)行方式?
SPSS進(jìn)行數(shù)據(jù)分析的基本步驟SPSS軟件概述àSPSS的英文縮寫:àStatistical
Package
for
Social
ScienceàStatistical
Product
and
Service
SolutionsSPSS軟件概述à
SPSS的發(fā)展:l
60年代:美國斯坦福大學(xué)三位研究生研制l
70年代:SPSS總部成立于芝加哥,推出
SPSSX中小型機(jī)版l
80年代:SPSS公司(SPSS/PC+微機(jī)版1~3)
l
90年代:SPSS公司(SPSS
WINDOWS版5~16)l
2009:IBM收購,命名為:IBM
SPSSStatistics(多國語言版23版)SPSS主要特點(diǎn)操作簡便。絕大多數(shù)操作是通過菜單、按鈕、對話框完成的。無需計(jì)算機(jī)編程、需記憶大量命令和參數(shù)。分析方法豐富、分析結(jié)果清晰、直觀??梢灾苯幼x取其他軟件格式的數(shù)據(jù)文件,如:xls、sas等。最新版本采用分布式分析系統(tǒng),適應(yīng)互聯(lián)網(wǎng),支持動態(tài)收集、分析數(shù)據(jù)和HTML報(bào)告不方便與一般的辦公軟件直接兼容SPSS主要窗口:數(shù)據(jù)編輯器窗口?
窗口標(biāo)題:數(shù)據(jù)編輯器(數(shù)據(jù)集)?
功能:對SPSS的數(shù)據(jù)文件進(jìn)行錄入、
修改、管理等基本操作的窗口。?
組成:窗口主菜單、工具欄、數(shù)據(jù)編輯區(qū)、狀態(tài)區(qū)?
特點(diǎn):T
SPSS運(yùn)行過程中自動打開T
SPSS中各統(tǒng)計(jì)分析功能都是針對該窗口中的數(shù)據(jù)進(jìn)行的T
窗口中的數(shù)據(jù)文件以.sav存于磁盤上T
兩個(gè)視圖:數(shù)據(jù)視圖和變量視圖SPSS主要窗口:數(shù)據(jù)查看器窗口窗口標(biāo)題:查看器功能:SPSS統(tǒng)計(jì)分析報(bào)表及圖形的輸出的窗口。組成:窗口主菜單、工具欄、結(jié)果顯示區(qū)、狀態(tài)區(qū)特點(diǎn):輸出窗口可以關(guān)閉,窗口內(nèi)容以.SPV存于磁盤上兩個(gè)部分:目錄視圖和內(nèi)容視圖SPSS基本運(yùn)行方式完全窗口菜單方式:所有分析操作過程都是通過菜單和按鈕及對話框方式進(jìn)行的.是經(jīng)常使用的一種運(yùn)行方式,適用于一般分析和SPSS的初學(xué)者.SPSS基本運(yùn)行方式程序運(yùn)行方式:手工編寫S
P
S
S命令程序一次性提交計(jì)算機(jī)運(yùn)行適用于大規(guī)模的分析工作和熟練的S
P
S
S程序員.實(shí)現(xiàn)方法:打開語法窗口并編寫和修改SPSS程序點(diǎn)擊語法窗口中的運(yùn)行菜單項(xiàng),選擇運(yùn)行方式運(yùn)行SPSS基本運(yùn)行方式菜單程序混合運(yùn)行方式:先通過菜單選擇分析過程和參數(shù),不立即提交(確定)執(zhí)行,而是按粘貼按鈕.計(jì)算機(jī)自動將用戶剛定義的分析過程和參數(shù)轉(zhuǎn)換成S
P
S
S的命令,并顯示到語法窗口中.用戶可對其進(jìn)行必要的修改后再提交給計(jì)算機(jī)執(zhí)行.一般適用于熟練的S
P
S
S程序員.利用SPSS進(jìn)行數(shù)據(jù)分析的步驟建立SPSS數(shù)據(jù)文件定義數(shù)據(jù)文件結(jié)構(gòu)錄入修改和編輯待分析數(shù)據(jù)數(shù)據(jù)的統(tǒng)計(jì)分析統(tǒng)計(jì)分析之前的預(yù)處理統(tǒng)計(jì)分析數(shù)據(jù)和分析結(jié)果的保存結(jié)果的說明和解釋第二章SPSS數(shù)據(jù)文件的建立和管理主要內(nèi)容?
SPSS的數(shù)據(jù)文件?
SPSS數(shù)據(jù)組織的特點(diǎn)?
單選項(xiàng)問題和多選項(xiàng)問題?
SPSS數(shù)據(jù)的結(jié)構(gòu)SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件年級性別問題1……問題n11……….422………
2…………………...31…………
1文件結(jié)構(gòu)數(shù)據(jù)變量名個(gè)案case變量一份簡單的調(diào)查問卷單項(xiàng)選擇題提供幾個(gè)備選擇答案,從其中選擇一個(gè)答案一道問題對應(yīng)一個(gè)S
P
S
S變量變量類型:分類型、定序型、定距型數(shù)據(jù)類型:數(shù)值多項(xiàng)選擇題提供幾個(gè)備選擇答案,從其中選擇多個(gè)答案例:在下列品牌中您信任哪些品牌?例:根據(jù)你的喜好給出以下你經(jīng)常購物網(wǎng)站的序號多項(xiàng)選擇題需對應(yīng)多個(gè)S
P
S
S變量,以后專門討論SPSS數(shù)據(jù)的結(jié)構(gòu)變量名(Variable name):變量存取的唯一標(biāo)志。默認(rèn)變量名為VARn(如var
00001)變量類型(type)與顯示寬度(width)標(biāo)準(zhǔn)數(shù)值型(
Numeric):
默認(rèn)類型 8
.
2如:12345678、12345.67、-1234.56帶逗號的數(shù)值型(Comma):從個(gè)位開始三位一個(gè)逗號
8.2如:1,234.56Notation):表示很大或很小科學(xué)計(jì)數(shù)法(Scientific的數(shù)據(jù)8.2如:1.2
E+05帶美元符號(Dollar):表示貨幣 格式很多,如:$
12.30SPSS數(shù)據(jù)的結(jié)構(gòu)?
變量類型(type)與存儲寬度(width)T
字符型(String):
存儲字符數(shù)據(jù)
8位如:beijing處理時(shí)用雙引號擴(kuò)起來T
日期型(Date):存儲日期數(shù)據(jù)格式很多,如:20-AUG-1999T
其他:T
如:圓點(diǎn)數(shù)值型(dot)等SPSS數(shù)據(jù)的結(jié)構(gòu)?
標(biāo)簽(變量名標(biāo)簽
Variable
label)?
對變量名的一些解釋說明,增強(qiáng)分析結(jié)果的可視性??梢允÷?
值(變量值標(biāo)簽
Value
label)?
對變量所取值的一些解釋說明,增強(qiáng)分析結(jié)果的可視性??梢允÷許PSS數(shù)據(jù)的結(jié)構(gòu)?
變量列格式(Column
Format)?
對齊方式(Text
Alignment):左對齊(Left):字符型默認(rèn);右對齊(Right):數(shù)值型默認(rèn);居中對齊(Center)?
列寬度(Column
Width):默認(rèn)值為變量的存儲寬度?
列寬度不影響存儲寬度?
度量標(biāo)準(zhǔn)(計(jì)量尺度
Measurement)?
度量(Scale):定距?
序號(Ordinal):有固有順序?
名義(Nominal):無固有順序SPSS數(shù)據(jù)的結(jié)構(gòu)?
缺失(缺失值
Missing
Values)?
缺失值:漏填數(shù)據(jù);明顯錯誤的數(shù)據(jù)?
SPSS的用戶缺失值:?
指定某個(gè)特定值為缺失值?
一般處理?
事先指定:指定某個(gè)特定值為用戶缺失值?
修正:以均值、眾數(shù)替代等?
SPSS的系統(tǒng)缺失值:?
數(shù)值型:點(diǎn)
(?)?
字符型:空定義SPSS數(shù)據(jù)結(jié)構(gòu)操作方法:利用變量視圖SPSS數(shù)據(jù)的錄入與保存?
錄入時(shí)應(yīng)注意:T
黃框單元當(dāng)前數(shù)據(jù)單元。T錄入帶有變量值標(biāo)簽的數(shù)據(jù):手工輸入變量值打開值標(biāo)簽開關(guān):屏幕顯示變量值標(biāo)簽,從下拉框中選擇。SPSS數(shù)據(jù)的錄入與保存數(shù)據(jù)保存格式:(1)*.sav
:SPSS數(shù)據(jù)文件(默認(rèn))。(2)*.xls
:
Excel工作表文件?!?/p>
注意:有些信息會丟失SPSS數(shù)據(jù)的編輯(一)打開數(shù)據(jù)文件菜單選項(xiàng):文件
->
打開
->
.sav(二)數(shù)據(jù)定位?按個(gè)案號碼定位菜單:
編輯->轉(zhuǎn)至個(gè)案->
輸入樣本號?按值定位光標(biāo)定位到某列變量上
->
編輯->
查找SPSS數(shù)據(jù)的編輯(三)插入和刪除一個(gè)個(gè)案?插入:編輯->
插入個(gè)案?刪除:選定待刪行,鼠標(biāo)右鍵選擇清除(四)插入和刪除一個(gè)變量?插入:光標(biāo)定位到某列變量上
->
編輯
->
插入變量(插到某列前)
或鼠標(biāo)右鍵選擇菜單?刪除:選定列,鼠標(biāo)右鍵選擇清除SPSS數(shù)據(jù)的編輯(五)數(shù)據(jù)移動、復(fù)制和刪除定義源數(shù)據(jù)塊鼠標(biāo)右鍵:選擇相應(yīng)菜單項(xiàng)確定目標(biāo)單元鼠標(biāo)右鍵:選擇相應(yīng)菜單項(xiàng)與其他軟件數(shù)據(jù)共享數(shù)據(jù)共享?
x
l
s格式文件的共享?是否有存放變量名的單元?
文本數(shù)據(jù)的讀入?利用文本向?qū)ёx入數(shù)據(jù)?
數(shù)據(jù)庫文件的共享?利用O
D
B
C共享數(shù)據(jù)SPSS數(shù)據(jù)文件的合并目的:將兩個(gè)S
P
S
S數(shù)據(jù)文件合并到一個(gè)數(shù)據(jù)文件中。文件合并的方式:縱向合并橫向合并(一)縱向數(shù)據(jù)合并
(1)含義:
將磁盤或其他數(shù)據(jù)編輯器窗口中的SPSS數(shù)據(jù)追加到當(dāng)前數(shù)據(jù)編輯器窗口中的數(shù)據(jù)文件中。前提:
兩個(gè)SPSS數(shù)據(jù)文件應(yīng)可以合并的內(nèi)容,且最好有相同的變量名和變量類型。菜單選項(xiàng):數(shù)據(jù)
->
合并文件
->
添加個(gè)案SPSS數(shù)據(jù)文件的合并SPSS數(shù)據(jù)文件的合并(二)橫向數(shù)據(jù)合并
(1)含義:T
將磁盤或其他數(shù)據(jù)編輯器窗口中的S
P
S
S數(shù)據(jù)中的若干個(gè)變量增加到當(dāng)前數(shù)據(jù)編輯器窗口中的數(shù)據(jù)文件中。(2)前提:兩個(gè)數(shù)據(jù)文件必須有一個(gè)共同的變量名為關(guān)鍵字段---合并的依據(jù);兩個(gè)數(shù)據(jù)文件應(yīng)事先按關(guān)鍵字段升序排序。SPSS數(shù)據(jù)文件的合并(二)橫向數(shù)據(jù)合并
(3)菜單選項(xiàng):數(shù)據(jù)
->
合并文件
->
添加變量(4)選項(xiàng)說明:以關(guān)鍵字作為合并標(biāo)志。合并后的文件的數(shù)據(jù)由兩個(gè)文件共同提供。以當(dāng)前數(shù)據(jù)編輯器中的數(shù)據(jù)為基礎(chǔ)添加。以磁盤文件或其他編輯器窗口中的數(shù)據(jù)為基礎(chǔ)添加。第三章SPSS數(shù)據(jù)的預(yù)處理主要內(nèi)容?
個(gè)案排序?
變量計(jì)算?
數(shù)據(jù)分組?
個(gè)案選取?
計(jì)數(shù)?
分類匯總?
指定加權(quán)變量目標(biāo):排序在數(shù)據(jù)分析中的作用?快速找到可能的離群點(diǎn)手段:將所有個(gè)案按照用戶指定的某一個(gè)或多個(gè)變量的變量值的升序或降序重新排列菜單選項(xiàng):數(shù)據(jù)->排序個(gè)案注意:排序的次序:升序、降序。多重排序,選擇變量名的次序很關(guān)鍵。數(shù)據(jù)排序變量計(jì)算目的:產(chǎn)生新變量或?qū)υ兞窟M(jìn)行必要的轉(zhuǎn)換(如:預(yù)測問題
產(chǎn)生比率數(shù)據(jù)
偏態(tài)數(shù)據(jù)的正態(tài)處理
時(shí)間序列的平穩(wěn)處理等)含義:根據(jù)用戶給出的SPSS算術(shù)表達(dá)式,對所有或部分樣本數(shù)據(jù)進(jìn)行加工。菜單選項(xiàng):轉(zhuǎn)換-
>
計(jì)算變量;
如果按鈕SPSS算術(shù)表達(dá)式:由算術(shù)運(yùn)算符(+、-、*、/、*
*)、S
P
S
S函數(shù)以及S
P
S
S變量名組成的式子。算術(shù)函數(shù)統(tǒng)計(jì)函數(shù)●Abs()
sqrt()
rnd()
trunc()
mod()分布函數(shù)●mean()
sd()
sum()
cfvar()
max()
min()邏輯函數(shù)●normal()
uniform()
rv.()
cdf.()
idf.()字符串函數(shù)缺失值函數(shù)●range()
any()日期時(shí)間函數(shù)●index()
length()
lower()
lpad()
ltrim()其他函數(shù)substr()missing()
sysmis()(4)
SPSS函數(shù)變量計(jì)算(5)SPSS條件表達(dá)式:由SPSS關(guān)系運(yùn)算符、邏輯運(yùn)算符、SPSS函數(shù)以及SPSS變量名組成的式子。T
關(guān)系運(yùn)算符:
>
(大于)、<(小于)、=(等于)、~=(不等于)、>=(大于等于)、<=(小于等于)如:nl>32、sr<=700T
邏輯運(yùn)算符:&(AND):并且、|(OR):或者、~(NOT):非如:(nl>32)and(sr<=700)如:(nl=32)|
(sr<>700)如:not
xb=1變量計(jì)算個(gè)案選取目標(biāo):個(gè)案選取的意義?手段:從現(xiàn)有數(shù)據(jù)中選出部分?jǐn)?shù)據(jù)按條件選??;隨機(jī)選??;選取指定區(qū)間中的樣本例:對住房調(diào)查數(shù)據(jù)挑出本市戶口的樣本隨機(jī)挑出7
0%的樣本注意:以后的操作都針對選出的數(shù)據(jù)進(jìn)行計(jì)數(shù)目標(biāo):例:學(xué)生成績整體狀況的分析例:住房滿意程度的粗略分析手段:對所有或部分個(gè)案,計(jì)算若干個(gè)變量中有幾個(gè)變量的值落在指定的區(qū)域內(nèi),并將結(jié)果存入新變量中例:學(xué)生成績得優(yōu)門次的整體狀況分析住房滿意程度的粗略分析數(shù)據(jù)分組目標(biāo):更好地了解連續(xù)型變量的分布特點(diǎn)手段:組距分組指定按哪個(gè)變量分組;定義分組區(qū)間(不重不漏);指定存放分組結(jié)果的組標(biāo)志變量SPSS的區(qū)間狹義區(qū)間:職工工資的分組(
8
5
0以下,8
5
1至9
0
0,9
0
1至9
5
0,9
5
1至1
0
0
0,1
0
0
0以上)廣義區(qū)間:用戶缺失值的定義;變量類別的重新調(diào)整數(shù)據(jù)分組性格打分(內(nèi)向、一般、外向)
1、與生人交往會“自來熟”(1)從不
(2)偶爾
(3)有時(shí)2、與不熟悉的異性交往,會臉紅(4)經(jīng)常(1)從不
(2)偶爾
(3)有時(shí)
(4)經(jīng)常3、
在公眾場合下你會大聲發(fā)表自己的意見(1)從不
(2)偶爾
(3)有時(shí)
(4)經(jīng)常極為內(nèi)向:3分;較為內(nèi)向:6分;較為外向:9分;極為外向:12分分類匯總目標(biāo):分析各分組下樣本的統(tǒng)計(jì)特征手段:按指定的分組變量值對樣本分組分別計(jì)算各組中匯總變量的基本統(tǒng)計(jì)量例:對比男女職工的平均年齡和平均工資原始數(shù)據(jù)按性別變量匯總數(shù)據(jù)分類匯總菜單選項(xiàng):數(shù)據(jù)
->
分類匯總說明:多重分組時(shí),變量名的選擇順序。生成的新文件名默認(rèn)為:a
g
g
r.s
a
v。可修改。生成的新變量名默認(rèn)為原變量名后加_
1??尚薷目梢栽谛挛募写尜A各分組個(gè)案數(shù).指定加權(quán)變量?
目標(biāo):T
例:蔬菜的平均價(jià)格、男足打分?
手段:指定某一變量為加權(quán)變量?
例:蔬菜的平均價(jià)格?
菜單選項(xiàng):數(shù)據(jù)
->
加權(quán)個(gè)案?
說明:T
如果取消加權(quán)變量應(yīng)重新定義第四章SPSS基本統(tǒng)計(jì)分析主要內(nèi)容?
頻數(shù)分析?
計(jì)算描述統(tǒng)計(jì)量?
列聯(lián)分析?
多選項(xiàng)分析頻數(shù)分析目的:粗略把握變量值的分布狀況。例:研究被調(diào)查者的特征(如:性別,年齡,收入)研究被調(diào)查者對某個(gè)問題的總體看法(如:教學(xué)方式,選修課程)采用的方法計(jì)算頻分布表:包括頻數(shù)、累計(jì)頻數(shù)、百分比、累計(jì)百分比繪制統(tǒng)計(jì)圖形:條形圖、餅圖頻數(shù)分析基本操作步驟(1)菜單選項(xiàng):分析->描述統(tǒng)計(jì)->頻率
(2)選擇幾個(gè)待分析的變量到變量框.
(3)圖表選項(xiàng),選擇所需要的圖形頻數(shù)分析頻數(shù)分析中的其他分析計(jì)算分位數(shù):適用于定距數(shù)據(jù)–數(shù)據(jù)按升序排序后,找到若干個(gè)分位點(diǎn)上的變量值–計(jì)算四分位數(shù):25%(QL)、50%(中位數(shù))、
75%(QU)分位數(shù)的應(yīng)用:在排除極端值影響的條件下,通過計(jì)算分位數(shù)差,比較兩組樣本數(shù)據(jù)的離散程度例:(QL=50,QU=80)和(QL=70,QU=75)的比較與頻數(shù)分析相關(guān)的圖形?
以制作條形圖為例?
第一種模式:用于變量在各組下的頻數(shù)對比?
第二種模式:用于多個(gè)變量基本描述統(tǒng)計(jì)量的對比與頻數(shù)分析相關(guān)的圖形?
交互作圖:以制作條形圖為例計(jì)算描述統(tǒng)計(jì)量目的:精確把握變量的總體分布狀況,了解數(shù)據(jù)的集中趨勢、離散趨勢、對稱程度、陡峭程度。基本方法:計(jì)算基本描述統(tǒng)計(jì)量計(jì)算描述統(tǒng)計(jì)量描述集中趨勢的統(tǒng)計(jì)量均值:表示某變量所有變量值集中趨勢或平均水平的統(tǒng)計(jì)量。適用于定距數(shù)據(jù)。特點(diǎn):利用了全部數(shù)據(jù),易受極端值的影響。描述離散程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差:表示某變量的所有變量值離散程度的統(tǒng)計(jì)量。SPSS中計(jì)算的是樣本標(biāo)準(zhǔn)差極差:最大值—最小值計(jì)算描述統(tǒng)計(jì)量描述對稱程度的統(tǒng)計(jì)量偏度(s
k
e
w
n
e
s
s):描述某變量分布形態(tài)的偏斜程度和方向的統(tǒng)計(jì)量.偏度為0表示對稱;大于0表示正偏差大(右偏)小于0表示負(fù)偏差大(左偏)計(jì)算描述統(tǒng)計(jì)量描述陡峭程度的統(tǒng)計(jì)量峰度(k
u
rto
s
is):描述某變量所有變量值分布形態(tài)陡緩程度的統(tǒng)計(jì)量。峭度為0表示與標(biāo)準(zhǔn)正態(tài)分布峭度相同。大于0表示比標(biāo)準(zhǔn)正態(tài)分布陡,尖峰。小于0表示比標(biāo)準(zhǔn)正態(tài)分布緩,平峰。計(jì)算描述統(tǒng)計(jì)量其他統(tǒng)計(jì)量–均值標(biāo)準(zhǔn)誤差(means
of
S.E)中心極限定理認(rèn)為:樣本均值~N(u,
2/n)反映樣本均值與總體真值間的平均離散程度樣本數(shù)越大,樣本均值的離散程度越小,對真值的估計(jì)越準(zhǔn)確計(jì)算描述統(tǒng)計(jì)量基本操作步驟(1)菜單選項(xiàng):分析->描述統(tǒng)計(jì)->描述(2)選擇將參加計(jì)算的數(shù)值型變量名到變量框其他功能數(shù)據(jù)標(biāo)準(zhǔn)化處理新變量的均值為0,標(biāo)準(zhǔn)差為1;小于0表示在平均水平下,大于0反之.正態(tài)分布的數(shù)據(jù)標(biāo)準(zhǔn)化后呈標(biāo)準(zhǔn)正態(tài)分布·
3
準(zhǔn)則:(68.2%,95.4%,99.7%)將變量作標(biāo)準(zhǔn)化后,結(jié)果存入名為“Z+原變量名”的新變量中.計(jì)算描述統(tǒng)計(jì)量描述連續(xù)變量分布的圖形?
箱線圖:以四分位差的1.5倍為標(biāo)準(zhǔn)剔除極端值描述連續(xù)變量分布的圖形?
直方圖和金字塔圖?
Q-Q圖和P-P圖:累計(jì)分布函數(shù)(CDF)和概率密度函數(shù)(PDF)函數(shù)的應(yīng)用交叉分組下的頻數(shù)分析目的:了解不同變量在不同水平下的數(shù)據(jù)分布例:學(xué)習(xí)成績與性別有關(guān)聯(lián)嗎?(兩變量)例:職業(yè)、性別、愛逛商店有關(guān)聯(lián)嗎?(三變量)分析的主要步驟產(chǎn)生交叉列聯(lián)表分析列聯(lián)表中變量間的關(guān)系列聯(lián)表列變量行變量地區(qū)?
列聯(lián)表中的元素:控制變量頻數(shù)產(chǎn)生交叉列聯(lián)表基本操作步驟(1)菜單選項(xiàng):
分析->描述統(tǒng)計(jì)->
交叉表(2)選擇一個(gè)變量作為行變量到行框.選擇一個(gè)變量作為列變量到列框.可選一個(gè)或多個(gè)變量作為控制變量到層框.T
控制變量的層次設(shè)置:同層為水平數(shù)加;不同層為水平數(shù)積.是否顯示復(fù)式條形圖產(chǎn)生交叉列聯(lián)表進(jìn)一步計(jì)算單元格選項(xiàng):選擇在頻數(shù)分析表中輸出各種百分比.行百分比;列百分比;總百分比列聯(lián)表?
例:住房滿意程度與購房計(jì)劃列聯(lián)表中行列變量間的關(guān)系目的:通過列聯(lián)表分析,檢驗(yàn)行列變量之間是否獨(dú)立方法:卡方檢驗(yàn)(分類變量相關(guān)性的檢驗(yàn))年齡與工資收入交叉列聯(lián)表青低4
0
0中0高0中05
0
00老006
0
0低中高青005
0
0中06
0
00老4
0
000列聯(lián)表中行列變量間的關(guān)系?卡方檢驗(yàn)基本步驟
(1)H0:行列變量獨(dú)立構(gòu)造卡方統(tǒng)計(jì)量:從(r-1)*(c-1)個(gè)自由度的卡方分布?期望分布反映的是H0成立情況下的分布特征計(jì)算卡方的觀測值,得到概率P值比較顯著性水平和概率P值。小于等于則拒絕H0,否則不能拒絕列聯(lián)表中行列變量間的關(guān)系?
例:不同行業(yè)的人職業(yè)選擇標(biāo)準(zhǔn)是否存在差異?–制造業(yè)服務(wù)業(yè)物質(zhì)報(bào)酬10545穩(wěn)定性40352乘2的列聯(lián)表進(jìn)行yates連續(xù)性校正:列聯(lián)表中行列變量間的關(guān)系卡方檢驗(yàn)的要求:一般要求列聯(lián)表中期望頻數(shù)小于5的格子數(shù)不超過2
0%,否則會夸大卡方值,容易得出拒絕結(jié)論,可以合并單元格。卡方值會受樣本數(shù)的影響列聯(lián)表中行列變量間的關(guān)系?
行列變量相關(guān)性的其他測度指標(biāo)?
phi系數(shù):適用于2×2列聯(lián)表?
行列變量獨(dú)立時(shí)(期望頻數(shù)):有:?
行列變量完全相關(guān)時(shí)::有?
越接近于1,相關(guān)性越強(qiáng)。越接近0,相關(guān)性越弱A11A12
R1A21A22R2C1C2列聯(lián)表中行列變量間的關(guān)系?
行列變量相關(guān)性的其他測度指標(biāo)?
列聯(lián)C系數(shù)(contingency
coefficient):?
[0,1);取值受到行列數(shù)的影響?
V系數(shù):[0,1]?
值越大表示行列變量的相關(guān)性越大多選項(xiàng)分析?
多選項(xiàng)分析是針對多選項(xiàng)問題的?
SPSS多選項(xiàng)問題的處理思路:?
將一個(gè)問題定義成幾個(gè)變量。分別用幾個(gè)變量描述問題的幾個(gè)可能被選擇的答案?
具體策略:采用不同的編碼方式?
多選項(xiàng)二分法(multiple
dichotomize
method)?
將每個(gè)答案作為一個(gè)變量,每個(gè)變量只有兩個(gè)取值(0或1)?
多選項(xiàng)分類法(multiple
category
method)?
預(yù)先指定多選項(xiàng)問題被選擇的最多答案數(shù)?
每個(gè)答案建立一個(gè)變量,取值為多選項(xiàng)問題的備選答案多選項(xiàng)分析多選項(xiàng)分析的基本思路定義多選項(xiàng)變量集多選項(xiàng)頻數(shù)分析多選項(xiàng)交叉分組下的頻數(shù)分析多選項(xiàng)分析定義多選項(xiàng)變量集目的:將已分解的變量定義為一個(gè)集合,便于進(jìn)行多選項(xiàng)分析菜單選項(xiàng):分析->多重響應(yīng)->定義變量集從原變量中選取被分解的變量(數(shù)值型)到集合中的變量框指定被分解的變量是按多選項(xiàng)二分法分解還是按多選項(xiàng)分類法分解的為變量集命名。系統(tǒng)自動在名字前加字符$.多選項(xiàng)分析多選項(xiàng)頻數(shù)分析菜單選項(xiàng):分析->多重響應(yīng)->頻率多選項(xiàng)交叉分析下的頻數(shù)分析菜單選項(xiàng):分析->多重響應(yīng)->交叉表第五章SPSS的參數(shù)檢驗(yàn)主要內(nèi)容?
單個(gè)總體的均值檢驗(yàn)?
兩個(gè)總體的均值比較?
利用兩個(gè)獨(dú)立樣本?
利用兩個(gè)配對樣本?
統(tǒng)計(jì)學(xué)的范疇:推論統(tǒng)計(jì)?
根據(jù)樣本數(shù)據(jù)推斷總體的分布或均值方差等總體統(tǒng)計(jì)參數(shù)?
方法:?
參數(shù)檢驗(yàn)?
非參數(shù)檢驗(yàn)統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)概述假設(shè)檢驗(yàn)是一種根據(jù)樣本數(shù)據(jù)推斷總體的分布或均值、方差等總體統(tǒng)計(jì)參數(shù)的方法。根據(jù)樣本來推斷總體的原因:總體數(shù)據(jù)不可能全部收集到。如:質(zhì)量檢測問題收集到總體全部數(shù)據(jù)要耗費(fèi)大量的人力和財(cái)力假設(shè)檢驗(yàn)包括:參數(shù)檢驗(yàn)非參數(shù)檢驗(yàn)假設(shè)檢驗(yàn)的基本步驟提出基本假設(shè)H
0構(gòu)造服從某種理論分布的檢驗(yàn)統(tǒng)計(jì)量利用樣本數(shù)據(jù)和基本假設(shè)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值,并得到概率P值(檢驗(yàn)統(tǒng)計(jì)量在特定極端區(qū)域取值在H
0
成立時(shí)的概率)如果概率P值小于用戶給定的顯著性水平a,則拒絕H
0
;否則,不拒絕H
0假設(shè)檢驗(yàn)的基本原理基本信念:利用小概率原理進(jìn)行反證明。小概率事件在一次實(shí)驗(yàn)中不可能發(fā)生。例如:對大學(xué)男生平均身高進(jìn)行推斷H
0
:平均身高為1
7
3樣本平均身高為1
7
8
,
由于存在抽樣誤差,
不能直接拒絕H
0
。而需要考慮:
在H
0
成立的條件下,
一次抽樣得到平均身高為1
7
8
的可能性有多大。如果可能性較大,
是個(gè)大概率事件(
與
相比較),
則認(rèn)為H
0
正確。否則,
如果可能性較小,
是個(gè)小概率事件,
但確實(shí)發(fā)生了,
則只能認(rèn)為H
0不正確。概率P值即為觀測結(jié)果或更極端現(xiàn)象在零假設(shè)成立時(shí)出現(xiàn)的概率SPSS中的參數(shù)檢驗(yàn)方法單樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)兩配對樣本t檢驗(yàn)單樣本t檢驗(yàn)?zāi)康模簩δ硞€(gè)總體的均值與指定的檢驗(yàn)值之間是否存在顯著差異進(jìn)行檢驗(yàn)例:大學(xué)畢業(yè)生的月平均工資與3500元是否有顯著差異手段:利用單個(gè)樣本的均值對總體均值進(jìn)行檢驗(yàn)理論依據(jù):樣本均值的抽樣分布抽樣分布:樣本統(tǒng)計(jì)量的概率分布結(jié)果來自容量相同的所有可能樣本提供了有關(guān)樣本統(tǒng)計(jì)量的概率信息,是推斷的理論基礎(chǔ),是抽樣推斷科學(xué)性的重要依據(jù)?當(dāng)總體服從正態(tài)分布N~(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X的數(shù)學(xué)期望為μ,方差為σ2/n。即X~N(μ,σ2/n)?設(shè)從均值為 ,方差為
2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布基本步驟:H
0
:u=u
0
,總體均值與檢驗(yàn)值之間不存在顯著差異選擇檢驗(yàn)統(tǒng)計(jì)量計(jì)算t統(tǒng)計(jì)量的觀測值和概率P值結(jié)論:P≤α,拒絕H
0
,認(rèn)為總體均值與檢驗(yàn)值之間有顯著差異.P>α,不能拒絕H
0?注意:SPSS給出的雙側(cè)檢驗(yàn)的概率P值單樣本t檢驗(yàn)基本操作步驟菜單選項(xiàng):分析->比較均值->單樣本T檢驗(yàn)指定檢驗(yàn)值:
在檢驗(yàn)值框中輸入原假設(shè)值單樣本t檢驗(yàn)SPSS中的選項(xiàng)置信區(qū)間:指定輸出缺失值的處理策略—
0
的置信區(qū)間.默認(rèn)值為9
5%.當(dāng)涉及缺失值變量的計(jì)算時(shí)剔除包含缺失值的樣本剔除所有含缺失值的個(gè)案后再計(jì)算兩獨(dú)立樣本t檢驗(yàn)?zāi)康模簩煽傮w的均值是否有顯著差異進(jìn)行推斷例:男女生的月平均工資是否存在顯著差異手段:利用兩個(gè)獨(dú)立樣本的均值差對兩總體的均值差進(jìn)行檢驗(yàn)獨(dú)立樣本:抽取一個(gè)樣本對抽取另一個(gè)沒有影響理論依據(jù):兩獨(dú)立樣本均值差的抽樣分布兩獨(dú)立樣本t檢驗(yàn)?
理論依據(jù):兩獨(dú)立樣本均值差的抽樣分布?
理論依據(jù):兩獨(dú)立樣本均值差的抽樣分布?
兩總體方差已知:?
兩總體方差未知且相等:?
兩總體方差未知且相等:基本步驟:H
0
:u
1
-u
2
=0,兩總體均值不存在顯著差異選擇檢驗(yàn)統(tǒng)計(jì)量計(jì)算t統(tǒng)計(jì)量的觀測值和概率P值SPSS給出方差齊性和異方差下的兩個(gè)檢驗(yàn)結(jié)果首先判斷方差是否齊性;然后對t檢驗(yàn)做決策SPSS方差齊性F檢驗(yàn):Levene
F檢驗(yàn)H
0
:兩總體方差無顯著差異.方法:計(jì)算各觀測與所屬組均值之差的絕對值;對絕對離差進(jìn)行單因素方差分析.兩獨(dú)立樣本t檢驗(yàn)結(jié)論:首先,如果F檢驗(yàn)的P≤α,則拒絕F檢驗(yàn)的H
0
,認(rèn)為方差不齊性;其次看方差不齊行的t檢驗(yàn)概率.如果≤α,則拒絕t檢驗(yàn)的H
0
,認(rèn)為兩總體均值有顯著差異;如果>α,則不拒絕t檢驗(yàn)的H
0
.首先,如果F檢驗(yàn)的P>α,則不能拒絕F檢驗(yàn)的H
0
,認(rèn)為方差齊性;其次看方差齊行的t檢驗(yàn)概率.其余同上兩獨(dú)立樣本t檢驗(yàn)基本操作步驟(1)菜單選項(xiàng):分析->比較均值->獨(dú)立樣本T檢驗(yàn)
(2)選擇若干變量作為檢驗(yàn)變量到檢驗(yàn)變量框(3)選擇代表不同總體的變量作為分組變量到分組變量框
(4)定義分組變量的分組情況:定義分組變量的分組標(biāo)志值分別是什么若分組變量為連續(xù)變量.輸入一個(gè)數(shù)字,將大于等于該值的分成一組,小于該值的分成另一組.兩配對樣本t檢驗(yàn)?zāi)康模簩煽傮w的均值是否有顯著差異進(jìn)行推斷例:研究某減肥產(chǎn)品的減肥效果,對比減肥前與減肥后的體重總體手段:利用兩配對樣本的均值差對兩總體的均值差進(jìn)行檢驗(yàn)配對樣本:抽取一個(gè)樣本對抽取另一個(gè)有影響理論依據(jù):均值差的抽樣分布實(shí)質(zhì):先求出每對測量值的差值;然后檢驗(yàn)差值樣本的均值是否與0有顯著差異.兩配對樣本t檢驗(yàn)基本步驟:H
0:差值樣本的均值u
0
=0.構(gòu)造統(tǒng)計(jì)量:同單樣本均值檢驗(yàn)如果差值的均值與0有顯著差異,認(rèn)為兩總體均值存在顯著差異;否則,與0無顯著差異,則認(rèn)為兩總體均值不存在顯著差異兩配對樣本t檢驗(yàn)基本操作步驟(1)菜單選項(xiàng):分析->比較均值->配對樣T檢驗(yàn)(2)選擇一對或若干對配對變量作為檢測變量到成對變量框.第六章SPSS的方差分析主要內(nèi)容?
多個(gè)總體的均值比較:利用多個(gè)獨(dú)立樣本?
單因素方差分析?
多因素方差分析?
協(xié)方差分析多個(gè)總體的均值檢驗(yàn)?
目的:對多個(gè)總體的均值是否有顯著差異進(jìn)行推斷?
例:不同專業(yè)大學(xué)生月平均收入是否存在顯著差異?
手段:利用兩獨(dú)立樣本的均值差對兩總體的均值差進(jìn)行逐對檢驗(yàn)(多次采用兩獨(dú)立樣本的t檢驗(yàn))?
問題:犯第一類錯誤的概率明顯增大?
例:K個(gè)總體做兩兩t檢驗(yàn)需作N=k!÷(2!×(k-2)!)次。若
為0.05,則每次不犯
錯的概率為0.95。N錯的概率為次檢驗(yàn)均不犯
錯的概率為0.95N,犯1-0.95N,遠(yuǎn)遠(yuǎn)大于設(shè)定的0.05?
解決方法:方差分析方差分析概述?目的:試驗(yàn)設(shè)計(jì)中最優(yōu)方案的設(shè)計(jì)?例:不同品種的畝產(chǎn)量分析?例:為獲得最佳的產(chǎn)品銷售量研究:哪些因素是影響銷售量的主要因素;哪些因素的那種情況更利于提高銷售量;哪些因素的組合更利于提高銷售量?特點(diǎn):從分析數(shù)據(jù)的差異入手,分析哪些因素是影響數(shù)據(jù)差異的眾多因素中的主要因素?相關(guān)概念:?觀測變量;控制變量及水平;隨機(jī)因素控制因素觀測變量三個(gè)水平研究對象:來自觀測變量多個(gè)總體的多個(gè)獨(dú)立樣本核心思路:從數(shù)據(jù)差異角度看:觀測變量的差異=控制因素造成+隨機(jī)因素造成當(dāng)控制因素對結(jié)果有顯著影響時(shí),和隨機(jī)因素共同作用必然使觀測變量產(chǎn)生顯著變動;反之,觀測變量的變動較小,將歸結(jié)為隨機(jī)性造成的(指抽樣誤差)方差分析概述?
類型:?
單因素方差分析:只考慮一個(gè)控制因素的影響?
多因素方差分析:考慮兩個(gè)以上的控制因素和它們的交互作用對觀測變量的影響?
協(xié)方差分析:在盡量排除其他因素的影響下,分析單個(gè)或多個(gè)控制因素對觀測變量的影響(引入?yún)f(xié)變量)?
研究一個(gè)數(shù)值型變量和多個(gè)分類型變量之間的關(guān)系單因素方差分析目的:檢驗(yàn)?zāi)硞€(gè)控制因素的改變是否會給觀察變量帶來顯著影響例:考察不同肥料對某農(nóng)作物畝產(chǎn)量是否有顯著差異;例:考察不同溫度下某化工產(chǎn)品的獲得率例:考察婦女生育率在不同地區(qū)是否有顯著差異例:考察不同學(xué)歷是否對工資收入產(chǎn)生顯著影響單因素方差分析基本思路入手點(diǎn):檢驗(yàn)控制變量的不同水平下,各總體的分布是否存在顯著差異,進(jìn)而判斷控制變量是否對觀測變量產(chǎn)生了顯著影響.前提:各組樣本獨(dú)立;不同水平下各總體服從方差相等的正態(tài)分布.H
0
:不同水平下,各總體均值無顯著差異.即:不同水平下控制因素的影響不顯著單因素方差分析檢驗(yàn)統(tǒng)計(jì)量:總變差=組間差異+組內(nèi)差異SST=SSA+SSE(設(shè):k個(gè)水平,每個(gè)水平有ni個(gè)數(shù)據(jù))考察平均的組間差異與平均的組內(nèi)差異的比值:~F(k-1,n-k)方差齊性檢驗(yàn)?
各水平下的方差齊性檢驗(yàn)?
SPSS方差齊性F檢驗(yàn):Levene
F檢驗(yàn)T
H0:兩總體方差無顯著差異.T
方法:計(jì)算各觀測與所屬組均值之差的絕對值;對絕對離差進(jìn)行單因素方差分析.單因素方差分析中的多重比較目的:若各總體均值存在差異,F檢驗(yàn)不能說明哪個(gè)水平造成了觀察變量的顯著差異對每個(gè)水平的均值逐對進(jìn)行比較檢驗(yàn)幾種常用的多重比較方法L
S
D(L
e
a
s
t
s
ig
n
ific
a
n
t
D
iffe
re
n
c
e)最小顯著性差異法特點(diǎn):利用全部樣本數(shù)據(jù);在一定程度上克服了放大犯一類錯誤的問題多因素方差分析?目的:檢驗(yàn)若干個(gè)控制因素的不同水平以及交叉是否給觀測變量帶來顯著影響?例如:多因素方差分析基本思路:認(rèn)為觀測變量的變動是由各控制變量獨(dú)立作用、它們的交互作用、以及隨機(jī)因素造成的以兩個(gè)控制變量為例:SST=SSA+SSB+SSAB+SSE(
main
effects) (
N-
way交互)(explained)(
Residual)其中:SSAB表示兩個(gè)控制變量交互影響帶來的變差?
基本思路:SST=SSA+SSB+SSAB+SSEA有p個(gè)水平,B有q個(gè)水平,每組有r個(gè)樣本多因素方差分析說明?
多因素方差分析中因素的劃分:?
固定效應(yīng)因素:該因素的所有可能水平在樣本中都出現(xiàn)。?
如:性別;糖尿病有無:糖尿病,糖耐量異常,正常人--固定效應(yīng)模型?
隨機(jī)效應(yīng)因素:無法對所有水平值進(jìn)行準(zhǔn)確控制和觀測,研究的水平值是隨機(jī)挑選出的?
如:城市規(guī)模,教育水平等--
隨機(jī)效應(yīng)模型?
混合效應(yīng)模型?交互效應(yīng):兩個(gè)或多個(gè)控制變量各水平搭配對觀測變量的影響。若一個(gè)因素所產(chǎn)生的效應(yīng)在另一個(gè)因素的不同水平下有明顯差異,則稱這兩因素存在交互效應(yīng)?直觀上:飲食習(xí)慣、適量運(yùn)動對減肥的作用;排球?qū)Φ亩魇趾椭鞴ナ謱A球的作用?
交互作用的圖形觀察:A1A2A1A2B125B125B2710B273當(dāng)A從A1變化到A2時(shí),觀測變量值均增加且幅度相同,與B1或B2無關(guān);同理BA對觀測變量值的影響與B取什么水平有關(guān)協(xié)方差分析?
目的:將無法或很難控制的因素作為協(xié)變量,在排除協(xié)變量影響下分析控制變量對觀測變量的影響.?
例:協(xié)方差分析?基本思路:?觀測變量總變差:協(xié)變量、控制變量、交互作用、隨機(jī)因素?用線性回歸的方法找出觀測變量與協(xié)變量之間的數(shù)量關(guān)系,求得在假定協(xié)變量相等情況下的修正的觀測變量值,然后再進(jìn)行方差分析?
H0:協(xié)變量對觀測變量沒有顯著影響;在剔除協(xié)變量影響的條件下,控制變量各水平下觀測變量的總體均值無顯著差異.協(xié)方差分析?
對協(xié)變量的要求:?
協(xié)變量是數(shù)值型的;協(xié)變量與觀測變量的線性關(guān)系在各水平均成立,且斜率大致相同?
協(xié)方差分析是界于方差分析和回歸分析之間的一種分析方法(定距型變量、分類變量)?
檢驗(yàn)統(tǒng)計(jì)量:?
F=
MSA/MSE?
F=
MSAB/MSEF=MSB/MSEF=
MSZ/
MSE協(xié)方差分析?
例:不同飼料是否對小豬體重的增加產(chǎn)生顯著差異?
一般單因素方差分析?
注意:R2值不很高?
存在的問題:初始體重有顯著差異(單因素方差分析)?
第一種飼料豬的初始體重最低,第三種飼料豬的初始體重最高?
如果初始體重對豬的催肥有顯著影響,則它與飼料的效應(yīng)就會混雜?
觀測每種飼料下初始體重與增重的關(guān)系:散點(diǎn)圖可見,線性關(guān)系,且斜率大致相同,可考慮采用協(xié)方差分析?
例:采用協(xié)方差分析?
注意:R2值有提高,變差分析發(fā)生變化?變差的分解:?SSA的分解:SSA是各水平均值與總均值差的平方和。為排除協(xié)變量影響,應(yīng)從總體上將協(xié)變量作用扣除后再計(jì)算SSA?利用所有數(shù)據(jù)計(jì)算回歸方程:?
從體重增量的總變差中扣除回歸平方和后的剩余平方和為喂養(yǎng)前體重不能解釋的變差(934.834),為剔排除協(xié)變量影響后的觀測變量的總變差?
飼料可解釋的變差:SST-SSE=SSA?
變差的分解:?SSE的分解:SSE是各觀測值與各組均值差的平方和。為排除協(xié)變量影響,應(yīng)在各組內(nèi)部將協(xié)變量的作用扣除后再計(jì)算SSE:?
(1)分別建立三個(gè)水平下的回歸方程:?
分別計(jì)算三個(gè)水平下協(xié)變量和觀測變量的差積Szy以及協(xié)變量離差平方和Szz(利用已知的SSR和B計(jì)算)Szy
=SSR/B
Szz=Szy/B?
變差的分解:SSE的分解?
(2)計(jì)算共同的B*?
(3)計(jì)算各水平下具有共同斜率的三個(gè)回歸方程:?
SSE為:對剔除協(xié)變量影響后的殘差的組內(nèi)離差平方和(227.615)?
變差的分解:協(xié)變量可解釋的總變差(1010.76):Szy
=SSR/B
Szz=Szy/B?
各水平均值的對比:?
利用均值進(jìn)行比較?
利用修正的均值進(jìn)行比較:?
修正是將各水平下本組協(xié)變量的效益從本組觀測變量中剔除?
計(jì)算三種飼料下增重的修正均值分別約為:
94.95、99.05、82.175。第一種飼料比第三種飼料平均多增重12.793,第二種比第三種平均多增重17.336,第二種比第一種平均多重4.52第七章SPSS的非參數(shù)檢驗(yàn)主要內(nèi)容?
在總體分布未知的情況下,利用樣本數(shù)據(jù)對總體的分布或各總體的分布是否有顯著差異進(jìn)行推斷?
單樣本非參數(shù)檢驗(yàn)?
兩獨(dú)立樣本的非參數(shù)檢驗(yàn)?
多獨(dú)立樣本的非參數(shù)檢驗(yàn)?
兩配對樣本的非參數(shù)檢驗(yàn)?
多配對樣本的非參數(shù)檢驗(yàn)單樣本非參數(shù)檢驗(yàn)總體分布的chi-square檢驗(yàn)?zāi)康?根據(jù)樣本數(shù)據(jù)推斷總體的分布與某個(gè)已知分布是否有顯著差異---吻合性檢驗(yàn)。適用于分類資料的統(tǒng)計(jì)推斷(2)基本假設(shè)H0:總體分布與理論分布無顯著差異(3)基本方法
根據(jù)已知總體的構(gòu)成比計(jì)算出樣本中各類別的期望頻數(shù),計(jì)算實(shí)際觀察頻數(shù)與期望頻數(shù)的差距,即:計(jì)算卡方值
卡方值較小,則實(shí)際頻數(shù)和期望頻數(shù)相差較小.如果P大于a,不能拒絕H0,認(rèn)為總體分布與已知分布無顯著差異.反之單樣本卡方檢驗(yàn)單樣本非參數(shù)檢驗(yàn)K-S檢驗(yàn)(1)目的:利用樣本數(shù)據(jù)推斷總體是否服從某個(gè)理論分布(正態(tài)分布、均勻分布、指數(shù)分布和泊松分布)適用于探索連續(xù)隨機(jī)變量的分布情況單樣本K-S檢驗(yàn)(2)基本假設(shè)H0:總體服從指定的分布.
(3)基本方法–根據(jù)用戶指定檢驗(yàn)的總體分布,構(gòu)造出一理論的頻數(shù)分布,并計(jì)算相應(yīng)的累計(jì)頻率.–與樣本在相同點(diǎn)的累計(jì)頻率進(jìn)行比較.如果相差較小,則認(rèn)為樣本所代表的總體符合指定的總體分布.單樣本非參數(shù)檢驗(yàn)變量值的隨機(jī)性檢驗(yàn)?zāi)康?利用樣本數(shù)據(jù)對總體可能出現(xiàn)的變量值是否隨機(jī)進(jìn)行檢驗(yàn).基本假設(shè):H
0
:總體可能出現(xiàn)的變量值是隨機(jī)的.隨機(jī)性檢驗(yàn)(3)基本方法:觀察樣本變量值序列出現(xiàn)了多少游程(ru
n).游程是樣本變量值序列中連續(xù)出現(xiàn)的變量值的次數(shù).一般出現(xiàn)太多或太少的游程表示變量值序列有一定的非隨機(jī)性.兩獨(dú)立樣本非參數(shù)檢驗(yàn)(一)目的?由獨(dú)立樣本數(shù)據(jù)推斷兩總體的分布是否存在顯著差異(或兩樣本是否來自同一總體)。(二)基本假設(shè)?H0:兩總體分布無顯著差異(兩樣本來自同一總體)
(三)數(shù)據(jù)要求?樣本數(shù)據(jù)和分組標(biāo)志兩獨(dú)立樣本非參數(shù)檢驗(yàn)(四)基本方法曼-惠特尼U檢驗(yàn)(Mann-Whitney
U):平均秩檢驗(yàn)將兩樣本數(shù)據(jù)混合并按升序排序求出其秩對兩樣本的秩分別求平均如果兩樣本的平均秩大致相同,則認(rèn)為兩總體分布無顯著差異兩獨(dú)立樣本非參數(shù)檢驗(yàn)2.k-s檢驗(yàn)將兩樣本混合并按升序排序分別計(jì)算兩個(gè)樣本在相同點(diǎn)上的累計(jì)頻數(shù)和累計(jì)頻率兩個(gè)累計(jì)頻率相減.如果差距較小,則認(rèn)為兩總體分布無顯著差異應(yīng)保證有較大的樣本數(shù)兩獨(dú)立樣本非參數(shù)檢驗(yàn)游程檢驗(yàn)(Wald-Wolfowitz
runs)將兩樣本混合并按升序排序計(jì)算分組標(biāo)志序列的游程數(shù)如果游程數(shù)較大,則說明是由于兩類樣本數(shù)據(jù)充分混合的結(jié)果,即:認(rèn)為兩總體分布無顯著差異.如果兩樣本中有相同的樣本值,則會使游程數(shù)發(fā)生變化.系統(tǒng)會作出提示.多獨(dú)立樣本非參數(shù)檢驗(yàn)(一)目的:?由獨(dú)立樣本數(shù)據(jù)推斷多個(gè)總體的分布是否存在顯著差異.(二)基本假設(shè):?
H0:多個(gè)總體分布無顯著差異.
(三)數(shù)據(jù)要求:?樣本數(shù)據(jù)和分組標(biāo)志多獨(dú)立樣本非參數(shù)檢驗(yàn)(四)基本方法:相同中位數(shù)檢驗(yàn)(median)判斷多個(gè)總體是否是具有相同的中位數(shù)將多個(gè)樣本數(shù)混合并按升序排序求出混合樣本序列的中位數(shù)如果各獨(dú)立樣本中大于此中位數(shù)的個(gè)案數(shù)和小于此中位數(shù)的個(gè)案數(shù)大致相同,則認(rèn)為總體有相同的中位數(shù)多獨(dú)立樣本非參數(shù)檢驗(yàn)2.k-w檢驗(yàn)(推廣的平均秩檢驗(yàn))將多個(gè)樣本數(shù)混合并按升序排序,求出其秩對多個(gè)樣本的秩分別求平均秩序如果各樣本的平均秩大致相等,則認(rèn)為多個(gè)總體分布無顯著差異兩配對樣本非參數(shù)檢驗(yàn)(一)含義:?由配對樣本數(shù)據(jù)推斷兩總體分布是否存在顯著差異.(二)基本假設(shè):?H0:兩總體分布無顯著差異.
(三)數(shù)據(jù)要求:?兩配對的樣本數(shù)據(jù).兩配對樣本非參數(shù)檢驗(yàn)(四)基本方法:變化顯著性檢驗(yàn)(McNemar)將研究對象作為自身的對照者檢驗(yàn)其“前后”的變化是否顯著關(guān)心的是發(fā)生變化的兩格中的頻數(shù)變化.如果頻數(shù)變化相當(dāng),則認(rèn)為無顯著變化.數(shù)據(jù)要求只能是二分值數(shù)據(jù)兩配對樣本非參數(shù)檢驗(yàn)正負(fù)符號檢驗(yàn)(sign)將樣本2的各樣本值減去樣本1的各樣本值.如果差值為正,則記為正號;如果差值為負(fù),則記為負(fù)號如果正號的個(gè)數(shù)與負(fù)號的個(gè)數(shù)相當(dāng),則認(rèn)為無顯著變化.否則,認(rèn)為有顯著變化例如:采用新訓(xùn)練方法前后的最好成績比較兩配對樣本非參數(shù)檢驗(yàn)3.符號平均秩檢驗(yàn)(wilcoxon)正負(fù)符號檢驗(yàn)只考慮了兩總體數(shù)據(jù)變化的性質(zhì),而沒有注意其變化的程度.符號平均秩檢驗(yàn)注意到了這點(diǎn)T
將樣本2的各樣本值減去樣本1的各樣本值.如果差值為正,則記為正號;如果差值為負(fù),則記為負(fù)號.T
將差值按升序排序,并求其秩.分別計(jì)算正號秩和負(fù)號秩總和T
如果正秩和負(fù)秩相當(dāng),認(rèn)為正負(fù)變化程度相當(dāng),兩總體無顯著差異.多配對樣本非參數(shù)檢驗(yàn)(一)目的:由多匹配樣本數(shù)據(jù)推斷多個(gè)總體分布是否存在顯著差異.(二)基本假設(shè):H0:各總體分布無顯著差異.
(三)數(shù)據(jù)要求:多配對的樣本數(shù)據(jù).多配對樣本非參數(shù)檢驗(yàn)(四)基本方法:推廣的平均秩檢驗(yàn)(雙向Friedman檢驗(yàn))將個(gè)案的變量值數(shù)據(jù)按升序排序,并求其秩求各樣本的平均秩如果平均秩相當(dāng),則認(rèn)為各總體分布無顯著差異多配對樣本非參數(shù)檢驗(yàn)2.諧同系數(shù)檢驗(yàn)(Kendall
W檢驗(yàn))諧同系數(shù)檢驗(yàn)方法與推廣的平均秩檢驗(yàn)方法相同主要用在分析評判者的評判標(biāo)準(zhǔn)是否一致和公平通過諧同系數(shù)W進(jìn)行判定.W表示了橫向各樣本數(shù)據(jù)之間相關(guān)的強(qiáng)弱程度,取值在
0和1之間.越接近1,則表示相關(guān)性越強(qiáng),即:評判者的評判標(biāo)準(zhǔn)一致第八章SPSS的相關(guān)分析主要內(nèi)容?
相關(guān)分析?
偏相關(guān)分析相關(guān)分析概述(一)相關(guān)關(guān)系函數(shù)關(guān)系:事物間的一種一一對應(yīng)的確定性關(guān)系.即:當(dāng)一個(gè)變量x取一定值時(shí),另一變量y可以依確定的關(guān)系取一個(gè)確定的值T
如:銷售額與銷售量;圓面積和圓半徑統(tǒng)計(jì)關(guān)系:事物間的關(guān)系不是確定性的.即:當(dāng)一個(gè)變量x取一定值時(shí),另一變量y的取值可能有幾個(gè).一個(gè)變量的值不能由另一個(gè)變量唯一確定如:收入和消費(fèi);身高的遺傳.相關(guān)分析概述統(tǒng)計(jì)關(guān)系的常見類型:線性相關(guān):正線性相關(guān)、負(fù)線性相關(guān)非線性相關(guān)統(tǒng)計(jì)關(guān)系不象函數(shù)關(guān)系那樣直接,但卻普遍存在,且有強(qiáng)有弱.如何測度?相關(guān)分析的研究對象:統(tǒng)計(jì)關(guān)系相關(guān)分析旨在測度變量間線性關(guān)系的強(qiáng)弱程度相關(guān)分析(一)目的通過樣本數(shù)據(jù),研究兩變量間線性相關(guān)程度的強(qiáng)弱.(二)基本方法繪制散點(diǎn)圖、計(jì)算相關(guān)系數(shù)繪制散點(diǎn)圖散點(diǎn)圖將數(shù)據(jù)以點(diǎn)的形式繪制在直角平面上.比較直觀,可以用來發(fā)現(xiàn)變量間的關(guān)系和可能的趨勢.正相關(guān)趨勢繪制散點(diǎn)圖不相關(guān)負(fù)線性相關(guān)正線性相關(guān)非線性相關(guān)完全負(fù)線性相關(guān)完全正線性相關(guān)計(jì)算相關(guān)系數(shù)相關(guān)系數(shù)作用:以精確的相關(guān)系數(shù)(r)體現(xiàn)兩個(gè)變量間的線性關(guān)系程度.r:[-1,+1];r=1:完全正相關(guān);r=-1:完全負(fù)相關(guān);r=0:無線性相關(guān);|r|>0.8:強(qiáng)相關(guān);|r|<0.3:弱相關(guān)計(jì)算相關(guān)系數(shù)說明:相關(guān)系數(shù)只是較好地度量了兩變量間的線性相關(guān)程度,不能描述非線性關(guān)系.如:x和y的取值為:(-1,-1)(-1,1)(1,-1)(1,1),r=0但x
2
+y
2
=2數(shù)據(jù)中存在極端值時(shí)不好如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1),r=0.3
3,但總體上表現(xiàn)出x=y,應(yīng)結(jié)合散點(diǎn)圖分析計(jì)算相關(guān)系數(shù)種類:簡單線性相關(guān)系數(shù)(P
e
a
rs
o
n):針對定距數(shù)據(jù).(如:身高和體重)計(jì)算相關(guān)系數(shù)Spearman相關(guān)系數(shù):用來度量定序變量間的線性相關(guān)關(guān)系(如:不同年齡段與不同收入段,職稱和受教育年份)利用秩(數(shù)據(jù)的排序次序).認(rèn)為:如果x與y相關(guān),則相應(yīng)的秩U
i
、V
i
也具有同步性.首先得到兩變量中各數(shù)據(jù)的秩(U
i
、V
i
),并計(jì)算D
i
2
統(tǒng)計(jì)量.若兩變量存在強(qiáng)正相關(guān)性,則D
i
2
應(yīng)較小,秩序相關(guān)系數(shù)較大.若兩變量存在強(qiáng)負(fù)相關(guān)性,則D
i
2
應(yīng)較大,秩序相關(guān)系數(shù)為負(fù),絕對值較大計(jì)算S
p
e
a
rm
a
n相關(guān)系數(shù),與簡單相關(guān)系數(shù)形式完全相同.計(jì)算相關(guān)系數(shù)Kendall相關(guān)系數(shù):度量定序變量間的線性相關(guān)關(guān)系首先計(jì)算一致對數(shù)目(
U
)
和非一致對數(shù)目(
V
)如:
對x
和y
求秩后為:
x:
2
4
3
5
1y:
3
4
1
5
2x
的秩按自然順序排序后:
x:
1
2
3
4
5y:
2
3
1
4
5非一致對一致對U:(2,3)(2,4)(2,5)(3,4)(3,5)(1,4)(1,5)(4,5);
V:(2,1)(3,1)然后計(jì)算K
e
n
d
a
ll相關(guān)系數(shù)若兩變量存在強(qiáng)相關(guān)性,則V較小,秩相關(guān)系數(shù)較大;若兩變量存在強(qiáng)負(fù)關(guān)性,則V較大,秩相關(guān)系數(shù)為負(fù),絕對值較大計(jì)算相關(guān)系數(shù)相關(guān)系數(shù)檢驗(yàn):應(yīng)對兩變量來自的總體是否相關(guān)進(jìn)行統(tǒng)計(jì)推斷.原因:抽樣的隨機(jī)性、樣本容量小等H
0
:兩總體零相關(guān)構(gòu)造統(tǒng)計(jì)量簡單相關(guān)系數(shù)Spearman系數(shù),大樣本下,近似正態(tài)分布kendall系數(shù),大樣本下,近似
正態(tài)分布計(jì)算相關(guān)系數(shù)相關(guān)系數(shù)檢驗(yàn)(3)計(jì)算統(tǒng)計(jì)量的值,并得到對應(yīng)的相伴概率p(4)結(jié)論:T
如果p<=a,則拒絕H
0
,兩總體存在線性相關(guān);
T
如果p>a,不能拒絕H
0
.計(jì)算相關(guān)系數(shù)基本操作步驟菜單選項(xiàng):分析->相關(guān)->雙變量選擇計(jì)算相關(guān)系數(shù)的變量到變量框.
(3)選擇相關(guān)系數(shù).顯著性檢驗(yàn)輸出雙尾檢驗(yàn)概率P輸出單尾檢驗(yàn)概率P偏相關(guān)分析(一)偏相關(guān)系數(shù)
(1)含義:在控制了其他變量的影響下計(jì)算兩變量的相關(guān)系數(shù)虛假相關(guān).研究商品的需求量和價(jià)格、消費(fèi)者收入之間的關(guān)系.因?yàn)?需求量和價(jià)格之間的相關(guān)關(guān)系包含了消費(fèi)者收入對商品需求量的影響;收入對價(jià)格也產(chǎn)生影響,并通過價(jià)格變動傳遞到對商品需求量的影響中。偏相關(guān)分析(2)計(jì)算方法:偏相關(guān)分析(二)基本操作步驟(1)菜單選項(xiàng):分析->相關(guān)->偏相關(guān)
(2)選擇將參加計(jì)算的變量到變量框
(3)選擇控制變量到控制框(4)選項(xiàng):零階相關(guān)系數(shù):輸出簡單相關(guān)系數(shù)矩陣第九章SPSS的線性回歸分析回歸分析概述(一)回歸分析理解“回歸”的含義:galton研究父親身高和兒子身高的關(guān)系時(shí)的獨(dú)特發(fā)現(xiàn).回歸線的獲得方式一:局部平均T
回歸曲線上的點(diǎn)給出了相應(yīng)于每一個(gè)x(父親)值的y(兒子)平均數(shù)的估計(jì)回歸線的獲得方式二:擬和函數(shù)使數(shù)據(jù)擬和于某條曲線;通過若干參數(shù)描述該曲線;利用已知數(shù)據(jù)在一定的統(tǒng)計(jì)準(zhǔn)則下找出參數(shù)的估計(jì)值(得到回歸曲線的近似);回歸分析概述(二)回歸分析的基本步驟(1)確定自變量和因變量(父親身高關(guān)于兒子身高的回歸與兒子身高關(guān)于父親身高的回歸是不同的).(2)從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學(xué)關(guān)系式,并對回歸方程的各個(gè)參數(shù)進(jìn)行估計(jì).(3)對回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn).(4)利用回歸方程進(jìn)行預(yù)測.回歸分析概述(三)參數(shù)估計(jì)的準(zhǔn)則目標(biāo):觀察值與回歸線上的預(yù)測值之間的距離總和達(dá)到最小最小二乘法(利用最小二乘法擬和的回歸直線與樣本數(shù)據(jù)點(diǎn)在垂直方向上的偏離程度最低)一元線性回歸分析(一)一元回歸方程:T
y
=
β0
+
β1
xT
β0
為常數(shù)項(xiàng);β1
為y對x回歸系數(shù),即:x每變動一個(gè)單位所引起的y的平均變動(二)一元回歸分析的步驟利用樣本數(shù)據(jù)建立回歸方程回歸方程的擬和優(yōu)度檢驗(yàn)回歸方程的顯著性檢驗(yàn)(t檢驗(yàn)和F檢驗(yàn))殘差分析預(yù)測一元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):目的:檢驗(yàn)樣本觀察點(diǎn)聚集在回歸直線周圍的密集程度,評價(jià)回歸方程對樣本數(shù)據(jù)點(diǎn)的擬和程度思路:因?yàn)?因變量取值的變化受兩個(gè)因素的影響自變量不同取值的影響;其他因素的影響于是:因變量總變差=自變量引起的+其他因素引起的即:因變量總變差=回歸方程可解釋的+不可解釋的可證明:因變量總離差平方和=回歸平方和+剩余平方和一元線性回歸方程的檢驗(yàn)(3)統(tǒng)計(jì)量:判定系數(shù)R
2
=
S
S
R
/
S
S
T
=
1
-
S
S
E
/
S
S
T
.R
2
體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R
2
則體現(xiàn)了因變量總變差中,回歸方程所無法解釋的比例。R
2
越接近于1,則說明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程能夠較好擬合樣本數(shù)據(jù)點(diǎn)在一元回歸中R
2
=r
2
;因此,從這個(gè)意義上講,判定系數(shù)能夠比較好地反映回歸直線對樣本數(shù)據(jù)的代表程度和線性相關(guān)性。一元線性回歸方程的檢驗(yàn)(二)回歸方程的顯著性檢驗(yàn):F檢驗(yàn)(1)目的:檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來表示.(2)H0:β=0即:回歸系數(shù)與0無顯著差異
(3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量:T
F=平均的回歸平方和/平均的剩余平方和~F(1,n-1-1)T如果F值較大,則說明自變量造成的因變量的線性變動遠(yuǎn)大于隨機(jī)因素對因變量的影響,自變量于因變量之間的線性關(guān)系較顯著(4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p(5)判斷T
p<=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0一元線性回歸方程的檢驗(yàn)(三)回歸系數(shù)的顯著性檢驗(yàn):t檢驗(yàn)(
1
)
目的:
檢驗(yàn)自變量對因變量的線性影響是否顯著.(
2
)
H
0
:
β=
0
即:
回歸系數(shù)與0
無顯著差異(3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量:T
其中:
S
y是回歸方程標(biāo)準(zhǔn)誤差(
S
t
a
n
d
a
r
d
E
r
r
o
r
)
的估計(jì)值,
由均方誤差開方后得到,
反映了回歸方程無法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度T
如果回歸系數(shù)的標(biāo)準(zhǔn)誤較小,必然得到一個(gè)相對較大的t值,表明該自變量x解釋因變量線性變化的能力較強(qiáng)。(4)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p(5)判斷一元線性回歸方程的檢驗(yàn)(四)t檢驗(yàn)與F檢驗(yàn)的關(guān)系T
一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即:F=t
2
,兩種檢驗(yàn)可以相互替代(五)F統(tǒng)計(jì)量和R
2
值的關(guān)系T
如果回歸方程的擬合優(yōu)度高,F(xiàn)統(tǒng)計(jì)量就越顯著。F統(tǒng)計(jì)量越顯著,回歸方程的擬合優(yōu)度就會越高。線性回歸方程的殘差分析(一)殘差序列的正態(tài)性檢驗(yàn):T
繪制標(biāo)準(zhǔn)化殘差的直方圖或累計(jì)概率圖(二)殘差序列的隨機(jī)性檢驗(yàn)T
繪制殘差和預(yù)測值的散點(diǎn)圖,應(yīng)隨機(jī)分布在經(jīng)過零的一條直線上下線性回歸方程的殘差分析(三)殘差序列獨(dú)立性檢驗(yàn):殘差序列是否存在后期值與前期值相關(guān)的現(xiàn)象,利用D.W(Durbin-Watson)檢驗(yàn)d-w=0:殘差序列存在完全正自相關(guān);d-w=4:殘差序列存在完全負(fù)自相關(guān);0<d-w<2:殘差序列存在某種程度的正自相關(guān);2<d-w<4:殘差序列存在某種程度的負(fù)自相關(guān);d-w=2:殘差序列不存在自相關(guān).殘差序列不存在自相關(guān),可以認(rèn)為回歸方程基本概括了因變量的變化;否則,認(rèn)為可能一些與因變量相關(guān)的因素沒有引入回歸方程或回歸模型不合適或滯后性周期性的影響.線性回歸方程的殘差分析(四)異常值(casewise或outliers)診斷利用標(biāo)準(zhǔn)化殘差不僅可以知道觀察值比預(yù)測值大或小,并且還知道在絕對值上它比大多數(shù)殘差是大還是小.一般標(biāo)準(zhǔn)化殘差的絕對值大于3,則可認(rèn)為對應(yīng)的樣本點(diǎn)為奇異值異常值并不總表現(xiàn)出上述特征.當(dāng)剔除某觀察值后,回歸方程的標(biāo)準(zhǔn)差顯著減小,也可以判定該觀察值為異常值線性回歸方程的預(yù)測(一)點(diǎn)估計(jì)y
0(二)區(qū)間估計(jì)x0為xi的均值時(shí),預(yù)測區(qū)間最小,精度最高.x0越遠(yuǎn)離均值,預(yù)測區(qū)間越大,精度越低.多元線性回歸分析(一)多元線性回歸方程多元回歸方程:
y=
β0
+β1
x
1
+β2
x
2
+...+βkxkT
β1
、β2
、βk
為偏回歸系數(shù)。T
β1
表示在其他自變量保持不變的情況下,自變量x
1
變動一個(gè)單位所引起的因變量y的平均變動(二)多元線性回歸分析的主要問題回歸方程的檢驗(yàn)自變量篩選多重共線性問題多元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):判定系數(shù)R
2
:TR是y和x
i
的復(fù)相關(guān)系數(shù)(或觀察值與預(yù)測值的相關(guān)系數(shù)),測定了因變量y與所有自變量全體之間線性相關(guān)程度調(diào)整的R
2考慮的是平均的剩余平方和,克服了因自變量增加而造成R
2
也增大的弱點(diǎn)在某個(gè)自變量引入回歸方程后,如果該自變量是理想的且對因變量變差的解釋說明是有意義的,那么必然使得均方誤差減少,從而使調(diào)整的R
2得到提高;反之,如果某個(gè)自變量對因變量的解釋說明沒有意義,那么引入它不會造成均方誤差減少,從而調(diào)整的R
2
也不會提高。多元線性回歸方程的檢驗(yàn)(二)回歸方程的顯著性檢驗(yàn):目的:檢驗(yàn)所有自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來表示.H0:β1=β2=…=βk
=0即:所有回歸系數(shù)同時(shí)與0無顯著差異
(3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量:T
F=平均的回歸平方和/平均的剩余平方和~F(k,n-k-1)T如果F值較大,則說明自變量造成的因變量的線性變動大于隨機(jī)因素對因變量的影響,自變量于因變量之間的線性關(guān)系較顯著計(jì)算F統(tǒng)計(jì)量的值和相伴概率p判斷:p<=a:拒絕H0,即:所有回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0多元線性回歸方程的檢驗(yàn)(三)回歸系數(shù)的顯著性檢驗(yàn)(1)目的:檢驗(yàn)每個(gè)自變量對因變量的線性影響是否顯著.(
2
)
H
0
:
βi
=
0即:第i個(gè)回歸系數(shù)與0無顯著差異利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量:逐個(gè)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p(5)判斷多元線性回歸方程的檢驗(yàn)(四)t統(tǒng)計(jì)量與F統(tǒng)計(jì)量一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即:F=t
2
,可以相互替代在多元回歸中,F(xiàn)檢驗(yàn)與t檢驗(yàn)不能相互替代F
c
ha
n
g
e=
ti
2從F
c
ha
n
g
e角度上講,如果由于某個(gè)自變量x
i
的引入,使得F
c
h
a
n
g
e
是顯著的(通過觀察F
c
h
a
n
g
e
的相伴概率值),那么就可以認(rèn)為該自變量對方程的貢獻(xiàn)是顯著的,它應(yīng)保留在回歸方程中,起到與回歸系數(shù)t檢驗(yàn)同等的作用。自變量篩選(一)自變量篩選的目的多元回歸分析引入多個(gè)自變量.
如果引入的自變量個(gè)數(shù)較少,則不能很好的說明因變量的變化;并非自變量引入越多越好.原因:有些自變量可能對因變量的解釋沒有貢獻(xiàn)自變量間可能存在較強(qiáng)的線性關(guān)系,即:多重共線性.因而不能全部引入回歸方程.自變量篩選(二)自變量向前篩選法(forward):即:自變量不斷進(jìn)入回歸方程的過程.首先,選擇與因變量具有最高相關(guān)系數(shù)的自變量進(jìn)入方程,并進(jìn)行各種檢驗(yàn);其次,在剩余的自變量中尋找偏相關(guān)系數(shù)最高的變量進(jìn)入回歸方程,并進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)的概率值小于P
I
N(0.0
5)才可以進(jìn)入方程.反復(fù)上述步驟,直到?jīng)]有可進(jìn)入方程的自變量為止.自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過程.首先,將所有自變量全部引入回歸方程;其次,在一個(gè)或多個(gè)t值不顯著的自變量中將t值最小的那個(gè)變量剔除出去,并重新擬和方程和進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)值大于P
O
U
T(0.1
0),則剔除出方程如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過程結(jié)束.否則,重復(fù)上述過程,直到無變量可剔除為止.自變量篩選(四)自變量逐步篩選法(stepwise):?即:是“向前法”和“向后法”的結(jié)合。?向前法只對進(jìn)入方程的變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),而對已經(jīng)進(jìn)入方程的其他變量的回歸系數(shù)不再進(jìn)行顯著性檢驗(yàn),即:變量一旦進(jìn)入方程就不回被剔除?隨著變量的逐個(gè)引進(jìn),由于變量之間存在著一定程度的相關(guān)性,使得已經(jīng)進(jìn)入方程的變量其回歸系數(shù)不再顯著,因此會造成最后的回歸方程可能包含不顯著的變量。?逐步篩選法則在變量的每一個(gè)階段都考慮的剔除一個(gè)變量的可能性。線性回歸分析中的共線性檢測(一)共線性帶來的主要問題T高度的多重共線會使回歸系數(shù)的標(biāo)準(zhǔn)差隨自變量相關(guān)性的增大而不斷增大,以至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計(jì)值精度減低.(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Tol
i
=1-R
i
2
.其中:R
i
2
是自變量x
i
與方程中其他自變量間的復(fù)相關(guān)系數(shù)的平方.容忍度越大則與方程中其他自變量的共線性越低,應(yīng)進(jìn)入方程.(具有太小容忍度的變量不應(yīng)進(jìn)入方程,spss會給出警)(T<0.1一般認(rèn)為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數(shù)SPSS在回歸方程建立過程中不斷計(jì)算待進(jìn)入方程自變量的容忍度,并顯示目前的最小容忍度線性回歸分析中的共線性檢測(二)共線性診斷用特征根刻畫自變量的方差若自變量間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨(dú)立的因素(成分)來.從自變量的相關(guān)系數(shù)矩陣出發(fā),計(jì)算相關(guān)系數(shù)矩陣的特征根,得到相應(yīng)的若干成分.若某個(gè)特征根
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中材地質(zhì)工程勘查研究院有限公司招聘備考題庫及答案詳解1套
- 2026年哈爾濱銀行七臺河分行招聘外包員工5人備考題庫及答案詳解參考
- 2026年中信銀行誠聘駐點(diǎn)客戶經(jīng)理(國企可接受無經(jīng)驗(yàn))招聘備考題庫完整參考答案詳解
- 2026年如皋市衛(wèi)健系統(tǒng)部分單位公開招聘事業(yè)編制工作人員49人備考題庫及答案詳解1套
- 2026年中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究水環(huán)境健康與模擬學(xué)科組招聘備考題庫帶答案詳解
- 2025年安徽某國有企業(yè)新媒體運(yùn)營崗招聘備考題庫參考答案詳解
- 產(chǎn)后母乳喂養(yǎng):解決喂養(yǎng)難題
- 癌性創(chuàng)面護(hù)理的重要性及實(shí)踐技巧
- 2026春招:媒介專員面試題及答案
- 2026春招:浪潮信息真題及答案
- 2025年廣東省茂名農(nóng)墾集團(tuán)公司招聘筆試題庫附帶答案詳解
- 礦業(yè)企業(yè)精益管理實(shí)施方案與案例
- 裝置性違章課件
- 2024年水利部黃河水利委員會事業(yè)單位招聘高校畢業(yè)生考試真題
- 2025四川成都益民集團(tuán)所屬企業(yè)招聘財(cái)務(wù)綜合崗等崗位28人考試重點(diǎn)題庫及答案解析
- 腦缺血與急性腦梗死的影像學(xué)表現(xiàn)教學(xué)設(shè)計(jì)
- 中國倉儲物流中心運(yùn)營管理現(xiàn)狀與發(fā)展趨勢研究報(bào)告
- 2025年中共湛江市委巡察服務(wù)保障中心、湛江市清風(fēng)苑管理中心公開招聘事業(yè)編制工作人員8人備考題庫完整參考答案詳解
- 2025年鄉(xiāng)鎮(zhèn)衛(wèi)生院黨風(fēng)廉政建設(shè)自查報(bào)告
- 顱內(nèi)腫瘤切除術(shù)手術(shù)配合
- 2025年八年級歷史時(shí)間軸梳理試卷(附答案)
評論
0/150
提交評論