教學(xué)課件:《數(shù)據(jù)統(tǒng)計(jì)分析-SPSS-原理及應(yīng)用》黃潤(rùn)龍_第1頁(yè)
教學(xué)課件:《數(shù)據(jù)統(tǒng)計(jì)分析-SPSS-原理及應(yīng)用》黃潤(rùn)龍_第2頁(yè)
教學(xué)課件:《數(shù)據(jù)統(tǒng)計(jì)分析-SPSS-原理及應(yīng)用》黃潤(rùn)龍_第3頁(yè)
教學(xué)課件:《數(shù)據(jù)統(tǒng)計(jì)分析-SPSS-原理及應(yīng)用》黃潤(rùn)龍_第4頁(yè)
教學(xué)課件:《數(shù)據(jù)統(tǒng)計(jì)分析-SPSS-原理及應(yīng)用》黃潤(rùn)龍_第5頁(yè)
已閱讀5頁(yè),還剩450頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章概述

1.1特點(diǎn)

1.2運(yùn)行和運(yùn)行環(huán)境

1.3SPSS的主要功能

1.4窗口形式及其功能

1.5系統(tǒng)參數(shù)設(shè)置“工欲善其事,必先利其器”,SPSS注意結(jié)合計(jì)算機(jī)及相關(guān)軟件的發(fā)展,引進(jìn)先進(jìn)的數(shù)據(jù)分析工具。注意到國(guó)際社會(huì)學(xué)的發(fā)展趨勢(shì)和計(jì)算機(jī)的發(fā)展,2004年我們和南京財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)系等單位合作,在高等教育出版社出版教材《數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)——社會(huì)統(tǒng)計(jì)軟件教程》,2010年3月將出版新教材《社會(huì)統(tǒng)計(jì)軟件教程》,系統(tǒng)介紹國(guó)內(nèi)外社會(huì)統(tǒng)計(jì)學(xué)最新的研究方法?;厩闆r:力求講清社會(huì)統(tǒng)計(jì)的基本原理和思路,而不講具體數(shù)學(xué)上的證明、弄清社會(huì)統(tǒng)計(jì)的使用條件和主要特點(diǎn),通過(guò)大量例題講明相應(yīng)統(tǒng)計(jì)知識(shí)的應(yīng)用,通過(guò)課堂演示和課后練習(xí),使學(xué)生不僅具有正確運(yùn)用統(tǒng)計(jì)知識(shí)和充分運(yùn)用現(xiàn)成統(tǒng)計(jì)軟件處理數(shù)據(jù)的能力,而且增強(qiáng)學(xué)生分析社會(huì)問(wèn)題的能力。提高學(xué)生對(duì)于社會(huì)調(diào)查數(shù)據(jù)的搜集、整理、匯總、綜合分析和定性解釋的綜合能力。具體方法為:1)抓應(yīng)用。經(jīng)過(guò)連續(xù)20年《社會(huì)統(tǒng)計(jì)學(xué)》的講授實(shí)踐,我們的做法是,先設(shè)計(jì)和確定自己所講的內(nèi)容,對(duì)于大學(xué)教學(xué)來(lái)說(shuō),教材上的內(nèi)容不一定都要平鋪直敘地講,有的內(nèi)容可以不講或簡(jiǎn)講,而有的內(nèi)容必須重點(diǎn)講,這就要求教師本人在詳略取舍之間有一個(gè)恰當(dāng)安排。2)重聯(lián)系。教師在設(shè)計(jì)和確定自己的教學(xué)內(nèi)容做到抓住重點(diǎn)的同時(shí),還要突出知識(shí)本身之間的聯(lián)系性。其中尤其要著力突出社會(huì)資料處理的基本方法和技術(shù)。3)重方法。明確重點(diǎn)、突出聯(lián)系,認(rèn)真?zhèn)湔n完成課堂講授工作。這些年來(lái),課堂講授一般按照問(wèn)題由大而小,由抽象而具體,定性與定量之間相聯(lián)系的原則進(jìn)行。經(jīng)過(guò)多年的摸索,同時(shí)結(jié)合計(jì)算機(jī)軟件的內(nèi)在特點(diǎn),對(duì)這門課程的講授,教學(xué)常用規(guī)范化個(gè)案討論常在以下9個(gè)中選擇:①南京市飲料市場(chǎng)消費(fèi)行為訪問(wèn)問(wèn)卷設(shè)計(jì)②某企業(yè)人事工資資料統(tǒng)計(jì)分析③1993年美國(guó)社會(huì)調(diào)查基礎(chǔ)資料分析④1995年世界各國(guó)社會(huì)經(jīng)濟(jì)情況分析⑤2000年中國(guó)人口普查資料分析⑥2000年中國(guó)2868個(gè)縣區(qū)基本社會(huì)經(jīng)濟(jì)文化資料分析⑦2005年大學(xué)生能力調(diào)查資料分析⑧2007年江蘇各縣市基本社會(huì)經(jīng)濟(jì)文化資料分析⑨1990年某省勞動(dòng)力數(shù)量及質(zhì)量分析SPSS原是指“StatisticsPackageforSocialScience”,即社會(huì)科學(xué)統(tǒng)計(jì)軟件包,但其實(shí)際應(yīng)用范圍已遠(yuǎn)遠(yuǎn)超出社會(huì)科學(xué)范疇,在很多自然科學(xué)、生物和醫(yī)學(xué)科學(xué)領(lǐng)域也得到廣泛的應(yīng)用。20世紀(jì)90年代SPSS已改變成“StatisticalProducts&ServiceSolutions”,即統(tǒng)計(jì)產(chǎn)品與服務(wù)整體解決方案,在Windows環(huán)境下執(zhí)行,適用于WindowsXP和Vista。SPSS軟件是世界上問(wèn)世最早,應(yīng)用最廣,最易于操作的統(tǒng)計(jì)軟件,同時(shí)也是我國(guó)最流行的社會(huì)調(diào)查資料分析軟件。SPSS適用于市場(chǎng)營(yíng)銷、銷售分析、市場(chǎng)調(diào)查、統(tǒng)計(jì)報(bào)告、質(zhì)量控制、科學(xué)研究、社會(huì)調(diào)查、企業(yè)管理、教學(xué)及行政管理等領(lǐng)域,具有數(shù)據(jù)管理,統(tǒng)計(jì)分析,數(shù)據(jù)和圖形展示打印等功能。1.1特點(diǎn)

為完成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析工作,本軟件有以下特點(diǎn)。(1)操作簡(jiǎn)便。一般可以通過(guò)鼠標(biāo)點(diǎn)擊相應(yīng)“菜單”和“對(duì)話框”完成操作,無(wú)需編寫程序。(2)在線幫助方便:用戶可在任一過(guò)程中獲得幫助、查詢主題和索引,或根據(jù)幫助框中的指導(dǎo)進(jìn)行操作。也可以解釋統(tǒng)計(jì)輸出結(jié)果。(3)對(duì)用戶的統(tǒng)計(jì)分析原理要求不高。只要粗通統(tǒng)計(jì)分析原理,即可得到統(tǒng)計(jì)分析結(jié)果。(4)與其他軟件有數(shù)據(jù)轉(zhuǎn)換接口。該軟件生成的表格、圖形等文件很容易拷貝、復(fù)制或剪貼到EXCEL、WORD文件中。(5)統(tǒng)計(jì)分析方法豐富、全面。本軟件提供了從簡(jiǎn)單描述統(tǒng)計(jì)到多因素?cái)?shù)據(jù)分析等幾乎所以的統(tǒng)計(jì)分析技術(shù)。兼有很強(qiáng)的統(tǒng)計(jì)圖表的生成、編輯功能。內(nèi)存可調(diào)整??赏瑫r(shí)運(yùn)行300多變量,100萬(wàn)個(gè)以上樣本的數(shù)據(jù)資料文件。1.2運(yùn)行和運(yùn)行環(huán)境SPSS軟件包適應(yīng)性強(qiáng),對(duì)計(jì)算機(jī)硬件要求條件低,16.0版本安裝前占1個(gè)文件夾27個(gè)文件199M硬盤空間,安裝以后占59個(gè)文件夾2414個(gè)文件425M硬盤空間,軟件運(yùn)行最低要求32M內(nèi)存容量。

SPSS漢化版本不夠成熟,早期漢化版本是非統(tǒng)計(jì)專業(yè)人士翻譯,常常詞不達(dá)意。目前大部分版本屏幕、提示、窗口全是英文的,但該軟件的英文單詞非常有限。SPSS的變量、變量值、變量標(biāo)簽(說(shuō)明)、變量值說(shuō)明(標(biāo)簽)及其輸出是能夠漢化的,其可在中文XP版本或Vista版本下直接運(yùn)行。但能夠漢化的僅是變量、變量值、變量標(biāo)簽、值標(biāo)簽等,對(duì)于大量的菜單、提示、輸出格式等都不能漢化,這是學(xué)習(xí)中遇到的主要困難之一。1.2.1系統(tǒng)的運(yùn)行及主屏幕介紹打開SPSS軟件,主畫面就會(huì)出現(xiàn)包括6項(xiàng)選擇的屏幕提示①Runthetutorial運(yùn)行SPSS電子教員,即圖解幫助程序。

②Typeindata在SPSS提供的電子表格中輸入資料。

③Runanexistingquery執(zhí)行一個(gè)已經(jīng)存在的SPSS數(shù)據(jù)庫(kù)文件。

④CreatenewqueryusingDatabaseCaptureWizard在資料收集系統(tǒng)引導(dǎo)下,一步一步建立、創(chuàng)造新文件。

⑤Openanexistingdatafile為缺省項(xiàng),打開已存在的SPSS文件。

⑥Openanothertypeoffile為打開已存在的SPSS其他文件,如輸出文件等。若在最下面的小方框內(nèi)點(diǎn)一下,那么以后開機(jī)時(shí)將不出現(xiàn)此顯示屏幕。如果選擇默認(rèn)項(xiàng)⑤,則打開已存在的SPSS數(shù)據(jù)文件

圖中第一行是標(biāo)題欄,第二、三和四行分別是菜單欄、標(biāo)準(zhǔn)工具欄和編輯欄。再下面是個(gè)電子表格,橫欄表示列標(biāo)題欄(變量名),縱列表示每個(gè)個(gè)案,常表示被調(diào)查的個(gè)例數(shù)。

菜單欄位于SPSS表的第二行,SPSS共有File(文件)、Edit(編輯)、View(視圖)、Data(數(shù)據(jù))、Transform(數(shù)據(jù)轉(zhuǎn)換)、Analyze(統(tǒng)計(jì)分析)、Graphs(圖形)、Utilities(通用)、Windows(窗口)和Help(幫助)等10個(gè)選擇。1.2.2與其它數(shù)據(jù)處理軟件的聯(lián)系與區(qū)別1.與EXCEL的差異與聯(lián)系都是用電子表格處理數(shù)據(jù)的計(jì)算機(jī)軟件,前者是普及型的、后者是專業(yè)型的軟件,它們之間有同亦有異。相同之處,數(shù)據(jù)輸入格式都采用電子表格,數(shù)據(jù)處理都采用菜單格式的統(tǒng)計(jì)分析軟件,都有豐富的函數(shù)庫(kù),提供數(shù)據(jù)便捷處理方式;EXCEL的數(shù)據(jù)可以直接粘貼到SPSS數(shù)據(jù)窗口或WORD文字處理窗口,SPSS輸出數(shù)據(jù)、圖形也可直接粘貼到EXCEL窗口或WORD文字處理窗口。其差異為:EXCEL包含在辦公(OFFICE)系統(tǒng)內(nèi),EXCEL軟件非常適合于各種數(shù)學(xué)運(yùn)算、統(tǒng)計(jì)功能相對(duì)較弱,有中文版本,使用人數(shù)較多。SPSS則是專業(yè)性數(shù)據(jù)處理軟件,適合于各種統(tǒng)計(jì)運(yùn)算,不適合進(jìn)行靈活的數(shù)學(xué)運(yùn)算,沒(méi)有中文版本,大多是統(tǒng)計(jì)專業(yè)人員使用,SPSS適合于處理大規(guī)模數(shù)據(jù),樣本可達(dá)幾千萬(wàn)個(gè),變量也可達(dá)數(shù)百個(gè),SPSS的數(shù)據(jù)適合于多人使用、長(zhǎng)時(shí)間保存、綜合開發(fā)使用。此外,從形式上講,EXCEL可有多張電子表格,數(shù)據(jù)的排列隨意性比較強(qiáng),數(shù)據(jù)處理比較靈活,而SPSS僅有一張電子表格,對(duì)數(shù)據(jù)的排列有嚴(yán)格要求,“行”為樣本,“列”為變量,不可交換,數(shù)據(jù)處理格式比較固定;從功能上講,SPSS能夠借助這些統(tǒng)計(jì)功能完成幾乎所有的統(tǒng)計(jì)任務(wù)。EXCEL發(fā)展多年,從格式到模型比較完善、成熟,近年較少改動(dòng);SPSS每次改版變化較大。2.SPSS與其他統(tǒng)計(jì)專業(yè)軟件之間的關(guān)系FOXBASE、ACCESS是數(shù)據(jù)間查詢數(shù)據(jù)庫(kù),注重的是數(shù)據(jù)外部邏輯關(guān)系、外部結(jié)構(gòu)問(wèn)題,不涉及數(shù)據(jù)內(nèi)部統(tǒng)計(jì)、分析、結(jié)構(gòu)問(wèn)題;SPSS研究數(shù)據(jù)內(nèi)部的數(shù)理關(guān)系或邏輯結(jié)構(gòu),具體是數(shù)據(jù)的加工處理、數(shù)據(jù)挖掘處理。SPSS與SAS、S-Plus、Stata并列的當(dāng)今世界功能最為強(qiáng)大、使用最為流行的統(tǒng)計(jì)軟件包。SAS曾被譽(yù)為國(guó)際上標(biāo)準(zhǔn)統(tǒng)計(jì)軟件和最權(quán)威的組合式優(yōu)秀統(tǒng)計(jì)軟件,但該軟件學(xué)習(xí)困難,需要編程;人機(jī)對(duì)話界面不甚常見。S-Plus軟件以6.0版本為例,有極為強(qiáng)大的統(tǒng)計(jì)功能和繪圖能力,應(yīng)用上以理論研究、統(tǒng)計(jì)建模為主,用者需要有較好的數(shù)理統(tǒng)計(jì)背景,對(duì)編程能力要求高,該軟件流行程度和可獲得程度差。Stata軟件以7.0版本為例,軟件小巧、統(tǒng)計(jì)分析能力極強(qiáng),數(shù)據(jù)接口差,不提供對(duì)話界面,同樣該軟件流行程度差、可獲得程度低。1.3SPSS的主要功能1、數(shù)據(jù)編輯功能在數(shù)據(jù)編輯器窗口中,不僅可以對(duì)打開的變量進(jìn)行增加、刪除、復(fù)制、剪切和粘貼等常規(guī)操作,還可以對(duì)數(shù)據(jù)文件中的數(shù)據(jù)進(jìn)行排序、轉(zhuǎn)置、拆分、聚合、加權(quán)等操作,對(duì)多個(gè)數(shù)據(jù)文件可以根據(jù)變量或個(gè)案進(jìn)行合并。2、表格、圖形的生成和編輯

SPSS可以生成數(shù)十種不同風(fēng)格的表格,根據(jù)功能可有一般表、多響應(yīng)表和頻數(shù)表等。利用專門的編輯窗口或直接在查看器中可編輯所生成的表格。利用SPSS可以生成數(shù)十種基本圖和交互圖。有的基本圖中又可進(jìn)一步細(xì)分。交互圖比基本圖更漂亮。圖形生成以后,可以進(jìn)行編輯。SPSS提供了強(qiáng)大的圖形編輯功能,然而,很多圖形同樣可以在EXCEL軟件中獲得。3、統(tǒng)計(jì)功能基本統(tǒng)計(jì)功能包括:描述性分析;統(tǒng)計(jì)檢驗(yàn)(包括參數(shù)檢驗(yàn)及非參數(shù)檢驗(yàn));方差分析;列聯(lián)表;相關(guān)分析;回歸分析;聚類分析;判別分析;因子分析等。大致分22個(gè)分菜單,90個(gè)子菜單。1.4窗口形式及其功能1)Fi1e文件操作

2)Edit文件編輯

3)View視圖

4)Data數(shù)據(jù)文件建立與編輯

5)Transform數(shù)據(jù)轉(zhuǎn)換

6)Analyze統(tǒng)計(jì)分析

7)Graphs統(tǒng)計(jì)圖表的建立與編輯

8)Utilities實(shí)用程序

9)Add-ons新增項(xiàng)目和解釋(16.0版本新增)

10)Window窗口控制

11)Help幫助

在菜單中,最重要、最有特色的是“Data”、“Transform”、“Analyze”三個(gè)子菜單。而“Add-ons”是16.0版本新增項(xiàng)目和解釋,主要是連線解決電話調(diào)查、文本調(diào)查、多語(yǔ)言文本調(diào)查等具體問(wèn)題。而“Analyze”菜單幾乎包括了大學(xué)、研究生文理科專業(yè)的主要統(tǒng)計(jì)分析過(guò)程,是學(xué)習(xí)的重點(diǎn)和難點(diǎn)。

SPSS軟件中包括數(shù)據(jù)編輯窗口、程序編寫窗口、結(jié)果輸出窗口、圖形編輯窗口、幫助窗口等多種不同的窗口形式。1.4.1數(shù)據(jù)編輯窗口

當(dāng)數(shù)據(jù)未定義時(shí),數(shù)據(jù)編輯窗口(DataEditor)最上方標(biāo)有“Untitled”,在SPSS啟動(dòng)后屏幕顯示的主畫面上的激活窗口即是該數(shù)據(jù)編輯窗。窗口中有一個(gè)可擴(kuò)展的單頁(yè)平面二維電子表格。由于可以在該窗中編輯數(shù)據(jù)文件,因此也可以稱其為數(shù)據(jù)編輯窗口。值得注意的是,該窗口下方常分為數(shù)據(jù)窗口(DataView)和變量窗口(VariableView)兩個(gè),以后會(huì)反復(fù)用到。若打開計(jì)算機(jī)自帶文件Cars.sav,并在屏幕左下方選擇并用鼠標(biāo)左鍵單擊VariableView,就可進(jìn)入變量定義、編輯窗口(圖1.5)。在該窗口可以定義或修改變量的命名(Name)、類型(Type)、內(nèi)存長(zhǎng)度(Width)、小數(shù)點(diǎn)后位數(shù)(Decimals)、變量標(biāo)簽(Label)、變量值標(biāo)簽(Values)、缺失值定義(Missing)、屏幕顯示寬度(Columns)、變量對(duì)齊格式(Align)和變量度量類型(Measure)。1.5系統(tǒng)參數(shù)設(shè)置系統(tǒng)初始狀態(tài)和系統(tǒng)默認(rèn)值的設(shè)置與改變,是通過(guò)“Options”對(duì)話框完成的,“Options”功能項(xiàng)在數(shù)據(jù)顯示屏“Edit”菜單內(nèi)。參數(shù)與狀態(tài)設(shè)置生效的時(shí)間不同,一旦生效,設(shè)定的狀態(tài)或參數(shù)即替代了原來(lái)系統(tǒng)給定的默認(rèn)值。若用鼠標(biāo)單擊主菜單的“Edit”菜單項(xiàng)展開下拉菜單,在下拉菜單中選擇最后一項(xiàng)“Options”,就可打開相應(yīng)的對(duì)話框。在該對(duì)話框中可進(jìn)行系統(tǒng)狀態(tài)、參數(shù)的設(shè)置,具體包括“General”(總體設(shè)置)、“Viewer”(顯示器設(shè)置)、“Data”(資料格式設(shè)置)、“Currency”(貨幣格式設(shè)置)、“OutputLabels”(輸出字符)、“Charts”(圖形設(shè)置)、“PivotTables”(表格設(shè)計(jì))、“FileLocations”(文件設(shè)置)和“Scripts”(手稿)等9種系統(tǒng)狀態(tài)、參數(shù)的設(shè)置,有些需要操作對(duì)話框的相應(yīng)按鈕方能完成。1.5幫助系統(tǒng)用戶使用SPSS過(guò)程中,遇到什么困難,對(duì)某統(tǒng)計(jì)結(jié)果無(wú)法解釋,或?qū)δ稠?xiàng)目不清楚,可以通過(guò)SPSS所提供的幫助信息得到幫助和提示。SPSS軟件有很強(qiáng)大的幫助功能,這個(gè)幫助系統(tǒng)包括聯(lián)機(jī)幫助、在線幫助、圖解幫助、右鍵提示和動(dòng)態(tài)提示等多種方法,利用這些方法可以方便地實(shí)現(xiàn)查詢和釋疑,引導(dǎo)人們更快地熟悉SPSS基本內(nèi)容、操作方法、掌握SPSS的內(nèi)涵和精髓。從提供幫助的內(nèi)容而言,有主題詞幫助、各統(tǒng)計(jì)過(guò)程分菜單幫助提示,和Help主菜單幫助系統(tǒng)。1、如何及時(shí)取得提示和幫助(Help)利用SPSS的幫助窗口可方便地獲得SPSS軟件中各種功能的使用方法。其中包括窗口操作、圖標(biāo)操作、鍵盤及鼠標(biāo)操作、語(yǔ)句的語(yǔ)法解釋等各類操作。單擊Help菜單打開幫助菜單,有8項(xiàng)基本選擇項(xiàng),其功能如下:Topics:按目錄、內(nèi)容或字母次序檢索,可打印或顯示結(jié)果。Tutorial:電子教員,可提供整書或某個(gè)章節(jié)一步一步的教學(xué)。CaseStudies:提供個(gè)案的動(dòng)態(tài)提示引導(dǎo)人們一步一步的進(jìn)行分析。StatisticsCoach:統(tǒng)計(jì)教練,教您如何看懂統(tǒng)計(jì)圖表、統(tǒng)計(jì)結(jié)果。CommandSyntaxReference:SPSS句法引導(dǎo),提供SPSS的基本句法結(jié)構(gòu)。SPSSDeveloperCentral:用上機(jī)聯(lián)網(wǎng)方式聯(lián)系SPSS公司發(fā)展中心。About…:SPSS版權(quán)及有關(guān)信息。Algorithms:提供算法導(dǎo)論方面的解釋和說(shuō)明SPSSHomePage:用上機(jī)聯(lián)網(wǎng)方式尋找SPSS主頁(yè),建立與該公司的聯(lián)系。CheckforUpdates:用上機(jī)聯(lián)網(wǎng)方式尋找SPSS版本的升級(jí)。ProductRegistration:SPSS產(chǎn)品登記。單擊各幫助條目即可獲得相應(yīng)的幫助信息。2、按目錄、內(nèi)容或字母次序檢索使用方法利用鼠標(biāo)先后單擊菜單Help及Topic,打開在線幫助——OnlineHelp。有目錄、索引、搜索和收藏夾等4個(gè)菜單可供選擇。目錄是系統(tǒng)性地提示所需信息;索引是按單詞的字母順序提示所需信息;搜索是通過(guò)輸入任意信息查找所需信息;收藏夾功能可方便地對(duì)幫助信息進(jìn)行檢索說(shuō)明。1)目錄菜單能系統(tǒng)性地引導(dǎo)或提供整個(gè)軟件或軟件某部分一步一步的教學(xué),是按照具體內(nèi)容分層次教學(xué)的。2)索引是按照字母分層次,按單詞字母的順序提供某個(gè)章節(jié)一步一步地教學(xué),根據(jù)需要了解的問(wèn)題,選擇相應(yīng)層次,右邊就給出問(wèn)題相應(yīng)的解釋。3)搜索是將需要查找的內(nèi)容(單詞、主題)輸入計(jì)算機(jī),找出相應(yīng)的主題詞,選擇具體需要了解的主題詞,按顯示按鈕,右邊就給出了該主題詞相應(yīng)的解釋。4)收藏夾功能可以方便的對(duì)幫助信息進(jìn)行檢索說(shuō)明,就好像是在對(duì)一本書進(jìn)行標(biāo)簽操作??梢苑奖愕牟檎宜璧膸椭畔?,打開該菜單后進(jìn)行相應(yīng)的選擇,被標(biāo)簽過(guò)的內(nèi)容就會(huì)馬上出現(xiàn)在當(dāng)前窗口中。3、個(gè)案分析(CaseStudies)

若打開個(gè)案分析菜單,就可看到與電子教員十分類似的屏幕顯示。個(gè)案分析的選擇有12個(gè),分別是:引論(Introduction)基本系統(tǒng)(BaseSystem)高級(jí)模型選擇(AdvancedModelsOption)分類、對(duì)應(yīng)分析選擇(CategoriesOption)分類樹選擇(ClassificationTreesOption)復(fù)雜樣本分析選擇(ComplexSamplesOption)聯(lián)合分析、正交設(shè)計(jì)選擇(ConjointOption)數(shù)據(jù)預(yù)分析選擇(DataPreparationOption)缺失值分析選擇(MissingValuesAnalysisOption)神經(jīng)網(wǎng)絡(luò)分析選擇(NeuralNetworksOption)回歸模型選擇(RegressionModels)趨勢(shì)分析選擇(TrendsOption)第2章數(shù)據(jù)統(tǒng)計(jì)處理實(shí)例2.1常量、變量和表達(dá)式2.2構(gòu)建新變量2.3自建數(shù)據(jù)文件處理——實(shí)例12.4已輸入數(shù)據(jù)文件的處理——實(shí)例2統(tǒng)計(jì)口徑社會(huì)撫養(yǎng)費(fèi)俗稱超生、計(jì)劃外罰款,是指對(duì)不符合法定條件生育子女的公民征收的費(fèi)用。廣東省衛(wèi)計(jì)委公布2012年度全省社會(huì)撫養(yǎng)費(fèi)征收金額為14.56億元,而廣東省財(cái)政廳提供的26.13億元。衛(wèi)計(jì)委的金額是指2012年度違法生育者所實(shí)際繳納的金額。而財(cái)政廳提供的26.13億元為2012年度財(cái)政決算數(shù)。該26.13億元為2012年度全省社會(huì)撫養(yǎng)費(fèi)入庫(kù)金額,是根據(jù)各市縣財(cái)政部門上報(bào)的決算數(shù)匯總形成的全省決算數(shù),既包括2012年度違法生育者所繳納的金額,也包括往年違法生育者所繳納的金額。廣東省衛(wèi)計(jì)委稱,之所以會(huì)出現(xiàn)往年違法生育者繳納社會(huì)撫養(yǎng)費(fèi)的情況,一是由于財(cái)政核算采用收付實(shí)現(xiàn)制,二是由于一部分往年違法生育者確有實(shí)際困難,按《廣東省社會(huì)撫養(yǎng)費(fèi)征收管理辦法》的規(guī)定采取了分期繳納的方式。2013年12月18日國(guó)家統(tǒng)計(jì)局和廣州市國(guó)土房管局同時(shí)發(fā)布了11月廣州房?jī)r(jià)數(shù)據(jù)。國(guó)家統(tǒng)計(jì)局稱廣州房?jī)r(jià)同比上漲20.9%,環(huán)比上漲0.8%。而廣州市國(guó)土房管局說(shuō),同比下降7.1%,環(huán)比下降了10.6%?!F(xiàn)代快報(bào),2013.12.22.A3版問(wèn)題:1、什么是同比、什么是環(huán)比2、為什么有差異,那個(gè)數(shù)據(jù)更準(zhǔn)確一些?調(diào)查顯示,廣州的官方數(shù)據(jù)算出房?jī)r(jià)下降,根本原因在于它把原來(lái)沒(méi)有包括在內(nèi)的從化、增城兩個(gè)遠(yuǎn)郊縣級(jí)市納入,以其低房?jī)r(jià)拉低整體的價(jià)格數(shù)據(jù)。這兩個(gè)地方房?jī)r(jià)不到萬(wàn)元,而廣州市區(qū)房?jī)r(jià)達(dá)到四五萬(wàn)元。這就是說(shuō),廣州市數(shù)據(jù)所說(shuō)的房?jī)r(jià)下降,根本就是一個(gè)虛假的數(shù)字。今年納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),與去年納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),可以比;今年不納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),與去年不納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),也可以比;但今年納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),與去年不納入兩個(gè)遠(yuǎn)郊區(qū)的數(shù)據(jù),根本就不是可比的數(shù)據(jù)。廣州市國(guó)土房管局為何有興趣玩這種“房?jī)r(jià)下降”的把戲呢?無(wú)非是房?jī)r(jià)調(diào)控成了一個(gè)考核指標(biāo)。如果房?jī)r(jià)上漲不能在數(shù)字上有一個(gè)被遏制的表現(xiàn),國(guó)土房管局乃至地方政府都要被追究責(zé)任。所以到了要交賬時(shí),它們就需要一個(gè)可供考核的數(shù)字。

2.1常量、變量和表達(dá)式樣本(Case)是指記錄或事件。調(diào)查多少人或單位,就有多少樣本,常用不同的行表示。變量(Variable)是指調(diào)查的項(xiàng)目、指標(biāo)或問(wèn)題,常用不同的列來(lái)表示。SPSS僅對(duì)列變量進(jìn)行各種加、減、乘、除運(yùn)算,即對(duì)所有樣本進(jìn)行運(yùn)算。若要對(duì)部分樣本進(jìn)行運(yùn)算,就需先對(duì)行變量(樣本)進(jìn)行檢索、篩選、分類。變量的取值稱變量值,也就是被調(diào)查對(duì)象提供的具體調(diào)查數(shù)據(jù)。

2.1.1常量常量包括數(shù)值型常量,在引號(hào)中的字符串常量,或按日期格式表示的日期和時(shí)間型常量等三種,其中日期型常量用得比較少。1、常量的定義數(shù)值型常量有兩種書寫方式。一種是定點(diǎn)(小數(shù)點(diǎn)位置固定)——普通書寫方式,例如26、38.4等。另一種是浮點(diǎn)——科學(xué)記數(shù)法,常用于表示特別大或特別小的數(shù)字,例如1.23D3、2.56E-2、3.86-1,分別表示1230、0.0256、0.386。其中D3、E-2、-1表示10的3、-2、-1次冪。字符串常量是指被單引號(hào)或雙引號(hào)包括起來(lái)的一串字符。如果字符串中本身帶有單引號(hào),則該字符串須使用雙引號(hào)括起來(lái)。例如“Girl’sBook”。2、觀察值的錄入1)數(shù)據(jù)錄入方法SPSS輸入數(shù)據(jù)方法多種多樣,一般按行(樣本或觀測(cè)量)輸入。輸入前要弄清多少(m)個(gè)變量、多少(n)個(gè)樣本,以便輸入m列n行。這和EXCEL完全不同。數(shù)據(jù)輸入和EXCEL電子表格相同,這里不在多述。2)變量標(biāo)簽和變量值標(biāo)簽的定義標(biāo)簽是SPSS特有的對(duì)變量或變量值的進(jìn)一步說(shuō)明或注釋,因?yàn)楸举Y料使用年數(shù)長(zhǎng)、人數(shù)多,若無(wú)特殊說(shuō)明容易造成誤會(huì)而無(wú)法使用。變量標(biāo)簽、變量值標(biāo)簽具有一個(gè)可選擇的屬性,即可以定義、也可以不定義標(biāo)簽。若變量名(值)本身十分清楚,如學(xué)生考試成績(jī)87分,變量為學(xué)生成績(jī),變量值為87,則不需要定義值標(biāo)簽。但有些就必須要定義值標(biāo)簽,如性別變量的值1、2;出生地變量的值A(chǔ)、B、C、D、E……等等。①變量標(biāo)簽(VariableLabels)變量標(biāo)簽Label是對(duì)變量名的附加的進(jìn)一步說(shuō)明。由于一般變量名的組成字符比較短,很難表示變量的確切含義,資料存放時(shí)間長(zhǎng)了難免會(huì)忘記。如何對(duì)變量名的含義加以詳細(xì)說(shuō)明和注釋,就要用變量標(biāo)簽。標(biāo)簽可包括空格、編號(hào)和漢字在內(nèi)。在統(tǒng)計(jì)輸出中可在與變量名相對(duì)應(yīng)的位置顯示該變量的標(biāo)簽,這樣有助于分析、輸出易讀的結(jié)果。例如:在SPSS自帶文件“Cars.sav”中,變量名mpg對(duì)應(yīng)的變量標(biāo)簽:MilespreGallon(每加侖汽油行多少英里),變量名weight對(duì)應(yīng)的變量標(biāo)簽VehicleWeight(車輛重量),變量名horse對(duì)應(yīng)的變量標(biāo)簽Horsepower(馬力)。②變量值標(biāo)簽,簡(jiǎn)稱值標(biāo)簽(ValueLabels)在數(shù)據(jù)處理中,同樣的數(shù)值代表的內(nèi)容可能完全不一樣。變量值標(biāo)簽是對(duì)變量值作進(jìn)一步說(shuō)明和注釋。尤其是對(duì)分類變量,往往都要定義其取值的標(biāo)簽。因此,在貼標(biāo)簽之前,要弄清變量或變量值代表的意義。變量值標(biāo)簽內(nèi)容可包括空格和編號(hào)等。貼標(biāo)簽或分類時(shí),還應(yīng)注意歷史上編碼、分類的連續(xù)性,如職業(yè)編碼和行業(yè)編碼等。③變量標(biāo)簽及值標(biāo)簽定義方法變量標(biāo)簽(Label)在SPSS屏幕左下方的VariableView選項(xiàng)下,在Label列下直接輸入對(duì)應(yīng)變量的標(biāo)簽。變量值標(biāo)簽(ValuesLabel)定義比較麻煩,先用類似方式打開“ValueLabels”對(duì)話框如圖2.1,在第一個(gè)矩形框中輸入變量值;在第二個(gè)矩形框中輸入對(duì)應(yīng)值的標(biāo)簽(對(duì)該變量含義的解釋),按左面第一個(gè)按鈕“Add”,值標(biāo)簽加入到值標(biāo)簽清單中。例如,定義變量SEX,值m表示男性;f表示女性。則先在第一個(gè)小框中輸入“m”,再把插入點(diǎn)光標(biāo)移至第二個(gè)矩形框中,輸入“男性”,按“Add”按鈕,清單中顯示:m=“男性”;然后,在第一個(gè)小矩形框中輸入“f”,在第二個(gè)矩形框中輸入“女性”,再按“Add”按鈕,清單中又增加了一個(gè)值標(biāo)簽。至此,所有值標(biāo)簽定義完畢。注意:這里定義的f、m與數(shù)據(jù)輸入的大小寫、書寫格式必須一致。對(duì)變量值標(biāo)簽的修改,只要在“VariableLabel”后最下面的矩形框中點(diǎn)擊原錯(cuò)誤標(biāo)簽,該標(biāo)簽的數(shù)值和標(biāo)簽,顯示在矩形框內(nèi),重新輸入新定義的值或值標(biāo)簽。按Change鍵原值改變?yōu)樾露x的值;按Remove鍵原值移走。2.1.2變量輸入數(shù)據(jù)(觀察值)之前首先要定義變量的屬性,即定義變量名、變量類型、變量長(zhǎng)度(包括小數(shù)位數(shù))、變量標(biāo)簽(或值標(biāo)簽),和變量的格式(顯示寬度、對(duì)齊方式、缺失值標(biāo)記等)。定義變量有兩種方法。鼠標(biāo)放置于某變量名位置上,鼠標(biāo)光標(biāo)呈現(xiàn)一向下的箭頭,左鍵快速雙擊該變量名;或用鼠標(biāo)左鍵單擊某變量名,然后用鼠標(biāo)點(diǎn)擊屏幕左下方的VariableView,就可打開變量定義狀態(tài)欄如圖2.3。由此可依次定義變量名、變量類型、變量長(zhǎng)度、小數(shù)位數(shù)、變量標(biāo)簽等。變量類型一般默認(rèn)為數(shù)值型,變量長(zhǎng)度默認(rèn)為f8.2,標(biāo)簽?zāi)J(rèn)為無(wú)。注意:Width和Columns之間的差異。1)變量名的定義若不輸入變量名,而直接輸入變量值,則系統(tǒng)按變量的輸入順序給出的變量名的默認(rèn)值為:VAR00001、VAR00002、VAR00003依此類推。于是,可轉(zhuǎn)入VariableView后,用鍵盤輸入自己定義的變量名。如將“VAR1”、“SEX”等作為變量名。在該變量名后出現(xiàn)一系列變量其他屬性的默認(rèn)值。您可以修改或直接予以確認(rèn)。變量默認(rèn)值的修改,有三種情況。一種是方框右邊帶有三點(diǎn),表示有二級(jí)對(duì)話框可供選擇或展開,例如Type、Values和Missing;右邊帶有上下箭頭的,表示可通過(guò)尖頭,將默認(rèn)值增加或減少,也可直接將該數(shù)修改;右邊為空白的,可直接輸入相關(guān)值。

2)變量命名應(yīng)遵循的原則:①變量名由若干字符組成。首字符是字母、中文或特殊符號(hào)@,但不能是空格或數(shù)字;其后可為字母、數(shù)字、中文、特殊符號(hào)“.”、“$”、“@”,但“?”“!”和“*”字符除外;最后一個(gè)字符不能以下劃線“_”和圓點(diǎn)“.”,以免引起誤會(huì)。②變量名不能與SPSS保留字相同,以免引起混亂。SPSS有ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH等13個(gè)保留字。③系統(tǒng)不區(qū)分變量名中的大小寫字符。例如:ABC和abc被認(rèn)為是同一個(gè)變量。如:“A_s1”,“a.8$@1”,“南京產(chǎn)量”等都是合法變量名;而“Name_@123”,“name_1”,“_J13name”,“Name?1”,“all”,“Femle”,“2var”等都是不合法變量名,計(jì)算機(jī)無(wú)法接受的變量名。同學(xué)們可以輸入一下看能否作為變量名。3)變量類型和寬度的定義鼠標(biāo)光標(biāo)對(duì)準(zhǔn)VariableView屏幕下Type選項(xiàng)下,某變量對(duì)應(yīng)的按鈕Numeric,單擊其右部,或用鼠標(biāo)左鍵單擊其三點(diǎn),展開定義變量類型對(duì)話框如圖2.4所示。SPSS變量有三種基本類型:數(shù)值型、字符型、日期型。數(shù)值型變量又按不同要求分為六種,因此共可定義八種類型的變量。變量的系統(tǒng)默認(rèn)長(zhǎng)度一般為F8.2,其中8是顯示寬度,2是小數(shù)點(diǎn)后面的位數(shù),但可通過(guò)主菜單Edit中的“Options”重新設(shè)置。寬度Width是指在數(shù)據(jù)窗中該變量所占的列數(shù)。應(yīng)該區(qū)分定義變量類型時(shí)指定的寬度,與定義格式時(shí)的寬度。定義變量格式寬度應(yīng)該綜合考慮變量類型定義的總長(zhǎng)度,和變量名所占寬度,取其較大的一個(gè)作為該變量定義格式寬度。圖2.4中“width”右面的方框內(nèi)顯示的是內(nèi)存所占寬度,下面“decimal”右面的方框中顯示的是小數(shù)位數(shù)。若要改變系統(tǒng)默認(rèn)值,可將插入點(diǎn)光標(biāo)移至方框內(nèi),即可用鍵盤刪除原值,輸入合適的值。①標(biāo)準(zhǔn)數(shù)值型變量(Numeric)默認(rèn)總長(zhǎng)度8、小數(shù)位數(shù)為2位、小數(shù)點(diǎn)用圓點(diǎn)。其變量值可用標(biāo)準(zhǔn)數(shù)值格式輸入,也可以用科學(xué)記數(shù)法輸入。輸入時(shí)使用科學(xué)記數(shù)法,如-364、527-2、5.6467E5,顯示出來(lái)的都是標(biāo)準(zhǔn)數(shù)值格式。②帶逗點(diǎn)的數(shù)值型變量(Comma)默認(rèn)總長(zhǎng)度8、小數(shù)位數(shù)為2位(除非另外指定)、用圓點(diǎn)作小數(shù)點(diǎn)、其整數(shù)值部分自右向左每三位用一個(gè)逗點(diǎn)作分隔符。如–6,452.72、82,435.1。③為什么用圓點(diǎn)表示小數(shù)點(diǎn),而逗點(diǎn)表示整數(shù)值的分隔符呢?能否交換一下?有部分人就標(biāo)新立異進(jìn)行了這樣的交換。SPSS采用圓點(diǎn)數(shù)值型變量(Dot),用逗點(diǎn)作為小數(shù)點(diǎn),整數(shù)部分自右向左每三位用一個(gè)圓點(diǎn)作分隔符。④浮點(diǎn)或科學(xué)記數(shù)法(Scientificnotation)默認(rèn)總長(zhǎng)度8、小數(shù)位數(shù)為2。標(biāo)準(zhǔn)格式用一位整數(shù)、若干小數(shù)和指數(shù)所構(gòu)成。表示指數(shù)的字母可以用E、D,可帶正負(fù)號(hào);甚至指數(shù)部分不用字母D或E,直接用符號(hào)表示。如123,可以用1.23E2、1.23D2、1.23E+2、1.23+2等方式輸入或顯示。

⑤帶美元符號(hào)的數(shù)值型變量(Dollar)默認(rèn)總長(zhǎng)度8(包括“$”符號(hào)在內(nèi))、小數(shù)位數(shù)為2,顯示其有效數(shù)字前帶有“$”,用逗點(diǎn)作分隔符、用圓點(diǎn)作小數(shù)點(diǎn)。輸入時(shí)可以帶、也可以不帶“$”,由系統(tǒng)自動(dòng)加上“$”符號(hào)和分隔符。當(dāng)輸入的數(shù)值小數(shù)位數(shù)超過(guò)格式規(guī)定時(shí),系統(tǒng)自動(dòng)進(jìn)行四舍五入處理。⑥自定義型幣制(CustomCurrency)變量是一種由用戶利用Edit菜單下的Option功能定義的(圖2.5)。CCA、CCB、CCC、CCD和CCE可以定義五種不同的貨幣。⑦字符型變量(string)默認(rèn)長(zhǎng)度8位,變量值是一串字符。字符型變量分:由8個(gè)及其以下字符組成的短字符變量,和由8個(gè)以上字符組成的長(zhǎng)字符變量。前者使用范圍較寬,使用時(shí)受限制少,使用較頻繁。字符型中的大寫、小寫字母被系統(tǒng)認(rèn)為是截然不同的兩種字符,字符型變量不能參與算術(shù)運(yùn)算。⑧日期型變量(Date)可表示日期,也可表示時(shí)間。日期的表示形式多種多樣,SPSS共收集了27種不同的表示方法。實(shí)際使用較少,這里從略。SPSS變量最常用的是標(biāo)準(zhǔn)數(shù)值型、短字符串兩種基本變量。

3)用戶缺失值定義對(duì)年齡、身高和婚姻狀態(tài)的調(diào)查中,或?qū)€(gè)人經(jīng)濟(jì)狀況和性知識(shí)等方面調(diào)查中,由于涉及到個(gè)人隱私,使記錄的數(shù)據(jù)缺失、失真,這就是用戶缺失值(MissingValue)。再如,數(shù)據(jù)有明顯邏輯性錯(cuò)誤,而又無(wú)法查詢其真實(shí)數(shù)據(jù)。用戶可以用不常見的數(shù)字或字符來(lái)定義自己的缺失值,如對(duì)數(shù)值型變量定義缺失值為-9、對(duì)字符型變量定義缺失值為U等。這種定義分兩部分,遇到缺失值就用該定義的值輸入;告訴計(jì)算機(jī)某值為缺失值。用戶缺省值作為單獨(dú)一項(xiàng)參加頻數(shù)、頻率統(tǒng)計(jì),但不參加有效百分比的統(tǒng)計(jì)。另一種因機(jī)器無(wú)法運(yùn)算(如除數(shù)為0,或遇到用戶缺失值)產(chǎn)生的缺失值,叫系統(tǒng)缺失值。在VariableView屏幕下,打開Missing列對(duì)話框如圖2.6所示。有4種方式可選擇來(lái)定義用戶缺失值。①無(wú)缺失值,這也是系統(tǒng)的默認(rèn)狀態(tài)。②離散缺失值(Discretemissingvalues)。③連續(xù)缺失值(Rangeofmissingvalues)。④一個(gè)連續(xù)范圍加一個(gè)離散值為缺失值(Rangeplusonemissingvalue)。4)變量顯示格式的定義變量的屏幕顯示格式包括兩個(gè)內(nèi)容,分別是變量屏幕顯示寬度(Column)和變量左右對(duì)齊方式(Align)。變量屏幕顯示列寬度默認(rèn)值是8位,但可通過(guò)箭頭調(diào)整其寬度值。width后面的方框內(nèi)顯示的是內(nèi)存總寬度。數(shù)值型變量對(duì)齊方式的默認(rèn)值是右對(duì)齊Right,字符型變量系統(tǒng)默認(rèn)的對(duì)齊方式是左對(duì)齊Left,但可通過(guò)調(diào)整其為中間對(duì)齊Center,或其他對(duì)齊方式。對(duì)齊方式對(duì)數(shù)據(jù)運(yùn)算并無(wú)任何影響。2.1.3表達(dá)式*在某種條件下需要對(duì)原始資料進(jìn)行計(jì)算(Compute)、樣本選擇(SelectCases&If對(duì)話框)以形成新變量,則應(yīng)運(yùn)用邏輯運(yùn)算符或關(guān)系運(yùn)算符對(duì)部分樣本進(jìn)行選擇。如根據(jù)出生年月計(jì)算周歲年齡。SPSS的基本運(yùn)算共有三種:數(shù)學(xué)運(yùn)算、關(guān)系運(yùn)算、邏輯運(yùn)算,相應(yīng)運(yùn)算的算符如表2.2。1)算術(shù)表達(dá)式算術(shù)運(yùn)算符可以連接數(shù)值型的常數(shù)、變量和函數(shù)構(gòu)成算術(shù)表達(dá)式,其運(yùn)算結(jié)果為數(shù)值型常數(shù)。應(yīng)該注意的是,常數(shù)、變量、函數(shù)和算術(shù)表達(dá)式的輸入必須在英文狀態(tài)下,而不能在中文狀態(tài)下,否則無(wú)法計(jì)算;必須嚴(yán)格執(zhí)行計(jì)算機(jī)格式而不是手寫格式,例3X必須寫為3*X。在運(yùn)算表達(dá)式中,運(yùn)算的優(yōu)先順序?yàn)椋豪ㄌ?hào)、函數(shù)、乘冪、乘或除,加或減的順序,同一優(yōu)先級(jí)的,從左到右運(yùn)算。乘冪是**,而不是^,這與EXCEL等軟件不同的。

2)比較表達(dá)式比較算符建立的是兩個(gè)量之間的比較關(guān)系式,由系統(tǒng)判斷關(guān)系是否成立。如果比較關(guān)系成立,比較表達(dá)式的值為“真”(1),否則為“假”(0)。相互比較兩個(gè)量的類型必須一致,無(wú)論進(jìn)行比較的兩個(gè)量是字符型還是數(shù)值型,比較的結(jié)果均是邏輯型常量。表2.2中列出的比較算符均有兩種表示方法,用符號(hào)表示和用字母表示,這兩種算符是等價(jià)的。例如A>5和AGT5是等價(jià)的;假如A=6,表達(dá)式A>5為真,其值為1;假如A=5,表達(dá)式A>5的值為假,值為0。

3)邏輯表達(dá)式邏輯算符即布爾算符有兩種表示方法,用符號(hào)表示和用字母表示,這兩種算符也是等價(jià)的,例如A&B與AandB是等價(jià)的。邏輯算符與邏輯型的變量,或其值為邏輯型的比較表達(dá)式構(gòu)成邏輯表達(dá)式,邏輯表達(dá)式的值為邏輯型常量?!斑壿嬇c”運(yùn)算符&(或and)前后的兩個(gè)量均為真時(shí),邏輯表達(dá)式的值為“真”,否則為“假”;如邏輯表達(dá)式:A>B&C>0只有當(dāng)A的值大于B的值,且C為正數(shù)時(shí),該邏輯表達(dá)式的值為“真”。對(duì)于(A=3&B=2&C=6),該邏輯表達(dá)式的值為“真”;如實(shí)際C=0,則該邏輯表達(dá)式的值為“假”?!斑壿嫽颉边\(yùn)算符|(或or)前后的兩個(gè)量只要有一個(gè)為“真”時(shí),邏輯表達(dá)式的值為“真”。只有當(dāng)操作符前后兩個(gè)量均為假時(shí),邏輯表達(dá)式的值才為“假”?!斑壿嫹恰边\(yùn)算符~(或not)是前置算符,它對(duì)其后面的變量作“邏輯非”運(yùn)算。NOT后面的量值為“真”,則NOT運(yùn)算結(jié)果為“假”。邏輯與的運(yùn)算順序高于邏輯或。在SPSS中不存在語(yǔ)句if…than…else,也沒(méi)有for…next。不能使用5<X<8這類不等式連續(xù)表達(dá)方法。在cars.sav文件中,如果使用邏輯表達(dá)式選擇日本1975-1982年生產(chǎn)的機(jī)車馬力為60以上的汽車。則在DataView屏幕下選擇Data下的SelectCases↙,選擇ifconditionissatisfied,打開IF對(duì)話框,通過(guò)面版和箭頭輸入如下表達(dá)式:origin=3&year>=75&year<=82&horse>=60

如果挑選出高考成績(jī)(SCORE)在520-570分的城市(AREA=City)考生,和500-550元的農(nóng)村(rural)考生,則輸入表達(dá)式可以為:Score>=520&Score<570&area=city|Score>=500&Score<550&area=rural2.2構(gòu)建新變量在進(jìn)行數(shù)據(jù)的分析處理時(shí),僅根據(jù)原始測(cè)量的變量值往往是不夠的,常常需要根據(jù)已經(jīng)存在的變量建立新變量。例如將出生年月與調(diào)查時(shí)點(diǎn)相減,計(jì)算被調(diào)查者的年齡;根據(jù)家庭男性人數(shù)、女性人數(shù),計(jì)算家庭總?cè)藬?shù);根據(jù)區(qū)域總?cè)丝诤腿丝诿芏扔?jì)算區(qū)域面積等,這些工作可以直接由SPSS語(yǔ)句實(shí)現(xiàn)。對(duì)SPSS來(lái)說(shuō),體現(xiàn)其特點(diǎn)的更直觀方法是通過(guò)Compute對(duì)話框完成。2.2.1新變量構(gòu)建方法使用Compute對(duì)話框完成建立新變量的方法與步驟是:1)首先打開所要研究的數(shù)據(jù)文件,如World95.sav,打開DataView下的Transform菜單中Compute選項(xiàng),出現(xiàn)對(duì)話框如圖2.7。其包括目標(biāo)變量(TargetVariable)、源變量、數(shù)學(xué)表達(dá)式(NumericExpression)、函數(shù)庫(kù)(Functions)和計(jì)算關(guān)系板。2)在目標(biāo)變量框中輸入一個(gè)目標(biāo)變量的名稱,用來(lái)接收計(jì)算的值。在數(shù)學(xué)表達(dá)式框中(NumericExpression)下面輸入新變量值的數(shù)學(xué)表達(dá)式。另外,在矩形顯示框中的變量名應(yīng)該從左下方的源變量中選擇適當(dāng)變量,再單擊按鈕,使選中的變量名入選到表達(dá)式矩形框中。注意:所有的計(jì)算符號(hào)必須是半角狀態(tài)中的英文形式;為避免輸入錯(cuò)誤,建議使用函數(shù)庫(kù)函數(shù)。SPSS是對(duì)整列全部樣本進(jìn)行運(yùn)算的。如rnd(VAR1)就是對(duì)VAR1變量的所有樣本,無(wú)論是10個(gè)樣本還是2萬(wàn)個(gè)樣本,全部進(jìn)行四舍五入處理。如果對(duì)部分樣本進(jìn)行處理,則需先用“選擇”樣本,刪除不相干數(shù)據(jù),這樣可以提高計(jì)算機(jī)運(yùn)算速度。當(dāng)計(jì)算的新變量適應(yīng)于部分樣本時(shí),或當(dāng)不同特點(diǎn)的樣本使用不同的表達(dá)式時(shí),或新變量的值需要分步進(jìn)行計(jì)算時(shí),就要用對(duì)話框右下方if條件表達(dá)式選擇合適的樣本。比如計(jì)算某批被調(diào)查人員的周歲年齡,如果出生時(shí)間在調(diào)查時(shí)點(diǎn)以前(假如為7月1日),其年齡就可直接用調(diào)查年份減去出生年份;出生時(shí)間在調(diào)查時(shí)點(diǎn)以后(7月1日后),則年齡為調(diào)查年份減去出生年份再減1。這時(shí)就要用表達(dá)式進(jìn)行判別。對(duì)條件表達(dá)式為真的觀測(cè)量使用ComputeVariable對(duì)話框中確定的表達(dá)式計(jì)算新變量的值,而對(duì)那些使條件表達(dá)式為假或缺失的觀測(cè)量,保留原值而不賦予新變量的值。若在ComputeVariab1e對(duì)話框中單擊下if按鈕,打開條件表達(dá)式窗口,就可根據(jù)需要選擇下列兩項(xiàng)之一:①Includeallcases包括所有樣本(個(gè)案),這是默認(rèn)選項(xiàng)。即對(duì)所有個(gè)案使用主對(duì)話框中的計(jì)算表達(dá)式計(jì)算新變量的值。②Includeifcasesatisfycondition只對(duì)滿足條件表達(dá)式的樣本計(jì)算新變量的值。若選擇了此項(xiàng),就激活其下面的矩形框,可以利用其下關(guān)系表達(dá)式或鍵盤,在矩形框中輸入條件表達(dá)式。條件表達(dá)式至少要包括一個(gè)關(guān)系操作符;且通過(guò)關(guān)系操作符可以連接多個(gè)條件表達(dá)式;每一個(gè)關(guān)系表達(dá)式必須單獨(dú)完成,例:age>=15&age<=49合法,而age>=15&<=49為非法。如age>=15表示僅有age大于等于15的樣本才會(huì)被選擇;Salary<500&jobcat=5表示僅有Salary小于500且jobcat變量值等于5的樣本才被選擇?!纠?-1】打開計(jì)算機(jī)自帶文件1991U.S.GeneralSocialSurvey.sav,選擇16-59歲男性(sex=1)人口以及16-54歲女性人口:age>=16&age<=59&sex=1|age>=16&age<=54&sex=2計(jì)算一個(gè)新變量,往往需要賦予相應(yīng)的類型與標(biāo)簽說(shuō)明,在目標(biāo)變量下方單擊Type&Label按鈕,就可打開變量類型與標(biāo)簽對(duì)話框,直接定義新變量的標(biāo)簽label和變量類型Type,默認(rèn)設(shè)置是數(shù)值型Numeric。為說(shuō)明函數(shù)的使用,再舉如下一例?!纠?-2】用隨機(jī)變數(shù)發(fā)生器UNIFORM建立200個(gè)男女學(xué)生模擬的出生年月及各門課程的成績(jī),計(jì)算各同學(xué)的年齡。在第一個(gè)變量第200個(gè)樣本處任意輸入一數(shù)據(jù),比如50;②假定每個(gè)學(xué)生都出生在1975-1985年,則輸入模擬值year=RND(1975+UNIFORM(10))③輸入20人出生月份(1-12月份)模擬值month=RND(1+UNIFORM(11))④輸入各人性別變量的模擬值sex=RND(1+UNIFORM(1))⑤假定2010年11月1日進(jìn)行調(diào)查,可計(jì)算每人年齡為AGE=2010-YEAR(IFMONTH<=10)AGE=2010-1-YEAR(IFMONTH>=11)即出生月份在10月以前,年齡為(2010-出生年份);若出生月份在11月以后,年齡為(2010-1-出生年份)。⑥設(shè)置本人各門功課的成績(jī),假定每人各門課成績(jī)?yōu)?5分以上,100分以下,呈均勻分布:MATH=RND(55+UNIFORM(45))ENGLISH=RND(55+UNIFORM(45))CHINESE=RND(55+UNIFORM(45))⑦最后將第一列刪除。2.2.2構(gòu)建新變量的主要函數(shù)SPSS函數(shù)的使用不如EXCEL函數(shù)使用得那么頻繁,這是由兩類軟件性質(zhì)、服務(wù)對(duì)象所決定的。首先,EXCEL軟件面向大眾,主要服務(wù)于非專業(yè)統(tǒng)計(jì)人群,處理小而靈活的數(shù)據(jù);SPSS軟件面向?qū)I(yè)統(tǒng)計(jì)人員,主要處理大容量的數(shù)據(jù)。其次,SPSS軟件的很多統(tǒng)計(jì)過(guò)程本身就可直接處理數(shù)據(jù),或本身都提供了若干數(shù)據(jù)預(yù)處理的具體方案,不需要專門用轉(zhuǎn)換函數(shù)進(jìn)行數(shù)據(jù)處理了。再次,EXCEL軟件的函數(shù)可以處理一維函數(shù)、也可以進(jìn)行兩維函數(shù)的處理;而SPSS軟件坐標(biāo)是固定的,因此幾乎沒(méi)有兩維數(shù)據(jù)處理能力。但是,在SPSS數(shù)據(jù)轉(zhuǎn)換中,函數(shù)往往起著關(guān)鍵性的作用。在SPSS16函數(shù)庫(kù)共收集有日期和時(shí)間函數(shù)、累計(jì)分布函數(shù)、隨機(jī)數(shù)產(chǎn)生函數(shù)、字符串函數(shù)、逆分布函數(shù)、算術(shù)函數(shù)、統(tǒng)計(jì)函數(shù)、缺失值定義函數(shù)、邏輯函數(shù)和數(shù)值與字符相互轉(zhuǎn)換函數(shù)增加到18類184種函數(shù)。根據(jù)本人20年使用經(jīng)驗(yàn),SPSS數(shù)據(jù)轉(zhuǎn)換中最經(jīng)常用的也就是算術(shù)函數(shù)、統(tǒng)計(jì)函數(shù)、缺失值定義函數(shù)、邏輯函數(shù)等4類十來(lái)個(gè)(表2.3)。函數(shù)的表示方法是在函數(shù)關(guān)鍵字后面括號(hào)中寫入相應(yīng)的數(shù)值,函數(shù)自變量。函數(shù)自變量有的要求使用單個(gè)值,或變量名;有的允許使用表達(dá)式;少數(shù)可以使用“:”來(lái)隔開多個(gè)變量名。如果使用變量名或帶有變量名的表達(dá)式作為自變量,則必須在使用該函數(shù)前對(duì)這些變量賦值。SPSS比較常見的函數(shù)大致有:1)算術(shù)函數(shù):2)統(tǒng)計(jì)函數(shù)MAX(數(shù)值,數(shù)值,……),返回帶有多個(gè)(≥2)數(shù)值中的最大合法值。MEAN(數(shù)值,數(shù)值,……),返回多個(gè)(≥2)數(shù)值的平均數(shù)。MOD(數(shù)值,模數(shù),……),返回被模除后的余數(shù),模數(shù)不能為零。NVALUE(數(shù)值,數(shù)值,……)返回有效變量個(gè)數(shù)。SD(數(shù)值,數(shù)值,……),返回所有(≥2)數(shù)值的標(biāo)準(zhǔn)差。VARIANCE(數(shù)值,數(shù)值,……),返回所有(≥2)數(shù)值的方差。3)分布函數(shù):NORMAL(標(biāo)準(zhǔn)差)返回一個(gè)來(lái)自均值為0,給定大于零標(biāo)準(zhǔn)差分布總體的隨機(jī)數(shù)。UNIFORM(最大值)返回一個(gè)均勻分布范圍在0到最大值之間的隨機(jī)數(shù)。在錄入數(shù)據(jù)之前首先要對(duì)如何處理數(shù)據(jù)有個(gè)設(shè)想,即根據(jù)調(diào)查樣本、調(diào)查內(nèi)容,準(zhǔn)備計(jì)算哪些變量,做什么樣的統(tǒng)計(jì)處理,準(zhǔn)備生成哪些統(tǒng)計(jì)圖表。本例將對(duì)每個(gè)變量做一般性統(tǒng)計(jì)描述處理,并對(duì)兩個(gè)變量建立散點(diǎn)圖。

1、數(shù)據(jù)處理的構(gòu)思【例2-3】調(diào)查了10個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)和英語(yǔ)的學(xué)習(xí)成績(jī)?nèi)绫?.4,現(xiàn)進(jìn)行數(shù)據(jù)匯總,要求每人每門課程的平均成績(jī)。首先,設(shè)定變量名,由于軟件對(duì)變量名有很多具體的規(guī)定,給定的變量名往往無(wú)法表達(dá)其真實(shí)涵義,因此要給變量名標(biāo)注合適的標(biāo)簽或注釋,使得變量和文件能長(zhǎng)久保存而不至于產(chǎn)生混亂,并使輸出資料十分醒目、清楚,易于理解。其次,要確定變量的類型,資料的形式一般有兩種,一種以0-9數(shù)字表達(dá)的數(shù)字變量,一種是以中文、數(shù)字或英文表達(dá)的字符變量。前者可用F6.2表示,即6位數(shù)而帶2位小數(shù),后者用String表示。原則上,可以直接用中文將學(xué)生姓名、性別輸入而不作任何改變,但這樣工作量大,實(shí)際意義并不大。因此,輸入計(jì)算機(jī)之前往往先將問(wèn)卷進(jìn)行編碼,將個(gè)人的學(xué)號(hào)(姓名)作為地址碼用數(shù)字表示,該變量相應(yīng)由字符型轉(zhuǎn)變?yōu)閿?shù)字型。性別編碼時(shí),男為m、女為f。另外,對(duì)于未答、缺測(cè)、缺考、情況不清的編碼,常使用不可能出現(xiàn)的字符表示。如字符變量用U、數(shù)據(jù)變量用-9表示,編碼結(jié)果見表2.4。2.4已輸入數(shù)據(jù)文件的處理——實(shí)例2很多文件數(shù)據(jù)不是直接輸入,而是由其他數(shù)據(jù)庫(kù)軟件轉(zhuǎn)換而來(lái),或已經(jīng)輸入的數(shù)據(jù)。這時(shí)需對(duì)原數(shù)據(jù)文件進(jìn)行邏輯檢查,而后進(jìn)行適當(dāng)數(shù)據(jù)處理?!纠?-4】打開SPSS軟件,如C盤下的Progamfiles,接著打開SPSSInc→SPSS16→Samples目錄下的Cars.sav文件。將變量名、變量標(biāo)簽進(jìn)行漢化處理,將英制變量轉(zhuǎn)換為公制變量,并制作合適的圖表。1、變量名、變量標(biāo)簽的漢化打開SPSS數(shù)據(jù)庫(kù)以后,用鼠標(biāo)左鍵單擊File菜單下的Open選項(xiàng),接著打開Cars文件?;緮?shù)據(jù)中列變量為研究變量的變量名(Variables),行變量為樣本(Cases)。當(dāng)鼠標(biāo)輕放在變量名上就會(huì)顯示出該變量的標(biāo)簽或說(shuō)明。例mpg變量表示MilesperGalon(每一加侖汽油所行英里數(shù)),accel變量表示TimeAcceleratefrom0to60mph(從靜止加速到60英里時(shí)所花費(fèi)的時(shí)間,秒)等等。如果將這兩個(gè)變量進(jìn)行漢化處理,鼠標(biāo)左鍵連續(xù)快擊mpg兩下,將mpg改為耗油量、其標(biāo)簽改為每加侖英里數(shù);accel改為加速度,相應(yīng)標(biāo)簽改為靜止加速到60英里時(shí)所花費(fèi)秒數(shù)。類似可對(duì)變量值進(jìn)行處理,如Origin中1、2和3分別可改為美國(guó)、歐洲和日本。如果要觀察漢化后的變量名和變量值標(biāo)簽,則回到圖1.2的DataView,將最上面第三行倒數(shù)第三個(gè)功能圖標(biāo)按鈕打開,可顯示漢化以后的變量值標(biāo)簽。但是漢化后的變量名不能直接顯示在數(shù)據(jù)文件中,若將鼠標(biāo)放在變量名上,則可看見被漢化的新變量名。2、變量的轉(zhuǎn)換考慮到1英里等于1.609公里,1加侖等于3.785升(美制),若要將英制改為公制,mpg*1.609/3.785,原耗油量變量就轉(zhuǎn)換成每升多少公里的耗油量,若再要計(jì)算每100公里汽車耗油量,就需要對(duì)其取倒數(shù)后乘上100。具體是打開圖2.14中Transform下Compute,計(jì)算Mpg2如圖2.15,于是得到每100公里消耗汽油數(shù)。讀者看看,哪個(gè)國(guó)家產(chǎn)的汽車最省油,哪個(gè)國(guó)家產(chǎn)的汽車最費(fèi)油。類似,可計(jì)算,或從靜止加速到100公里所需的秒數(shù)。圖2.15基本數(shù)據(jù)變量的轉(zhuǎn)換3、統(tǒng)計(jì)分析和制圖根據(jù)數(shù)據(jù)處理要求統(tǒng)計(jì)出本次調(diào)查美國(guó)、歐洲和日本所生產(chǎn)汽車的汽缸數(shù)。具體做法是單擊Analyze菜單,然后選擇DescriptiveStatistics,單擊Crosstabs即得對(duì)話框,在左邊上下框內(nèi)分別輸入行變量cylinders和列變量origin,于是可得各地汽車與汽缸數(shù)的聯(lián)立分布表。由輸出表可見,有效樣本資料為405個(gè),為總樣本的99.8%,8汽缸的汽車占主要位置,8汽缸、6汽缸的汽車也有相當(dāng)比例。在被調(diào)查的汽車中,美國(guó)產(chǎn)的汽車最多為253輛,日本汽車汽缸數(shù)較少、僅以4汽缸為主;歐洲次之;美國(guó)以6汽缸、8汽缸為多。注意,交叉表要求行變量值與列變量值都為有限個(gè),所以一般采用分組變量,而非連續(xù)變量。如果采用連續(xù)變量,年齡、成績(jī)、身高、體重等,變量值太多,尤其是列變量值太多,將無(wú)法看出兩變量之間的內(nèi)在關(guān)系。這時(shí)就必須將變量進(jìn)行重新編碼,將連續(xù)變量設(shè)置為分組(離散)變量,然后進(jìn)行交叉分析。第3章數(shù)據(jù)預(yù)處理本章提要數(shù)據(jù)正式處理之前,常需將數(shù)據(jù)進(jìn)行預(yù)先處理。比如對(duì)數(shù)據(jù)進(jìn)行選擇、加權(quán)、合并等,以便提高效率、對(duì)數(shù)據(jù)進(jìn)行有針對(duì)性的處理。本章介紹了數(shù)據(jù)的主要預(yù)處理過(guò)程,具體包括數(shù)據(jù)的排序、轉(zhuǎn)置、拆分、合并、選擇、加權(quán)和轉(zhuǎn)換。數(shù)學(xué)神題:ABCD*9DCBA問(wèn):ABCD=?3.1數(shù)據(jù)的排序有些過(guò)程運(yùn)行以前,需要對(duì)數(shù)據(jù)按照變量值大小進(jìn)行排序(Sort),如數(shù)據(jù)文件的拆分和合并等。在數(shù)據(jù)編輯器中輸入原數(shù)據(jù)文件以后,執(zhí)行以下操作,可實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行排序。在SPSS文件中,排序有兩種,一種是直接改變樣本順序(SortCases),一種是給出排序的順序號(hào)碼(rankcase)?!纠?-1】打開1995年世界各國(guó)人口經(jīng)濟(jì)資料(World95.sav)文件,以第一種方法進(jìn)行排序。在主菜單中單擊Data菜單選項(xiàng),打開該菜單條;單擊SortCases選項(xiàng),打開SortCases對(duì)話框(如圖3.1所示)。從對(duì)話框左邊窗口選擇一變量(如人口密度density),將該變量名送到Sortby窗口中。這就可將所選變量,根據(jù)變量值的大小對(duì)原文件進(jìn)行排序。選擇了density變量作為Sortby變量,意味著將根據(jù)density變量中數(shù)據(jù)的大小,對(duì)“World95”文件中的數(shù)據(jù)進(jìn)行排序。在SortOrder方框中,有兩種排序選擇方式。Ascending和Descending分別表示將根據(jù)所選變量按從小到大,或從大到小的順序?qū)υ瓟?shù)據(jù)中的各樣本進(jìn)行排序,這里選擇后者??梢赃x擇多個(gè)變量作為Sortby變量,根據(jù)這多個(gè)變量數(shù)據(jù)的大小對(duì)原數(shù)據(jù)文件中的個(gè)案進(jìn)行排序。但排序結(jié)果與這些變量輸入Sortby窗口的先后順序有關(guān)。最先輸入的變量作為第一排序變量,其后輸入的變量作為第二、第三,……,第n排序變量。SPSS按照先后順序,首先根據(jù)第一Sortby變量對(duì)數(shù)據(jù)進(jìn)行排序,然后對(duì)這一排序結(jié)果中,大小相同的第一Sortby變量所對(duì)應(yīng)的樣本,根據(jù)第二Sort的變量及排序方式進(jìn)行排序,后面依次類推。若選擇人口密度(density)變量和城市人口比例(urban)變量作為Sortby第一、第二排序變量,前者為降序,后者為升序;還可選擇人口數(shù)(populatn)作為第三排序變量,排序方式為降序,結(jié)果見圖3.2??梢钥闯觯瑂pss首先根據(jù)density變量進(jìn)行排序,完成以后,對(duì)于density變量值相同的個(gè)例,再根據(jù)urban變量進(jìn)行排序,并對(duì)density、urban變量值都相同的個(gè)例,按populatn從大到小進(jìn)行排序。如果將第一排序變量與第二排序變量交換,就會(huì)產(chǎn)生不同的排序結(jié)果,同學(xué)們不妨作一些對(duì)比。還有一種數(shù)據(jù)排序的方法是產(chǎn)生一個(gè)新變量,給出原數(shù)據(jù)的序號(hào),而并不打亂原變量的順序,這種方法往往比前一種方法更為常用有效,這種方法見圖3.2中Transform下的RankCases對(duì)話框(圖3.3)。在Variables對(duì)話框中輸入主要排序變量,排序的方向由AssignRank而確定,By后表示按照…變量進(jìn)行分組排序,Ties是對(duì)同值排序時(shí)的處理方法,若打開對(duì)話框,可取幾個(gè)序號(hào)平均(Mean),最小序號(hào)(Low)、最大序號(hào)(High),或僅用一個(gè)序號(hào)(Sequentialrankstouniquevalues)作為同值序號(hào)。若進(jìn)一步打開RankTypes對(duì)話框(圖3.4)可得秩次編碼方法的選擇,Rank是新變量值即秩——排序號(hào),新變量名為原變量名前加r;Fractionalrank新變量值為秩除以所有合法值的觀察個(gè)案數(shù)之和;Fractionalrankas%是在上述基礎(chǔ)上再乘以100;Ntile是分段排序,如果后面輸入為5,則低于20%的觀察量被賦值為1、位于20-40%的觀察量被賦值為2……、高于80%的觀察量被賦值為5;Sumofcaseweights新變量值等于各觀察量權(quán)重之和;Savagescore新變量值是依據(jù)指數(shù)分布所得原始分?jǐn)?shù),新變量名為原變量名前加s。這里用得較多得是Rank、Ntile、Fractionalrankas%等。3.2數(shù)據(jù)的轉(zhuǎn)置數(shù)據(jù)轉(zhuǎn)置(Transpose),如矩陣轉(zhuǎn)置,將行列互換,使原來(lái)的行變量變成列變量,同時(shí)將列變量轉(zhuǎn)變?yōu)樾凶兞?。有些新學(xué)員輸入時(shí)將調(diào)查樣本按列輸入,使行變成變量,列變成樣本。這就需要進(jìn)行轉(zhuǎn)置,否則無(wú)法進(jìn)行統(tǒng)計(jì)及運(yùn)算。數(shù)據(jù)轉(zhuǎn)置的具體方法是單擊圖3.2主菜單下Data→Transpose↙,打開圖3.5對(duì)話框。在左邊窗口中選擇并單擊那些擬轉(zhuǎn)置變量的變量名,再單擊右箭頭鍵,把選定的變量移到Variable窗口中。單擊“OK”按鈕,會(huì)彈出一對(duì)話框提示“只選擇了所有變量中的一部分,實(shí)施轉(zhuǎn)置以后,未被選擇的變量在新的文件中將會(huì)丟失”。這時(shí)可單擊“確定”按鈕,繼續(xù)操作。原文件中的行變成了新文件中的列,原文件中的列變成了新文件中的行。原文件中的變量成為新文件中的樣本(Case),原文件中的樣本變成了新文件中的變量。實(shí)施轉(zhuǎn)置后,原數(shù)據(jù)文件中用戶指定的缺失值被轉(zhuǎn)換為系統(tǒng)缺失值,原字符串變量則被轉(zhuǎn)換為缺失值。3.3數(shù)據(jù)的選擇SPSS是對(duì)變量的所有樣本進(jìn)行處理,而實(shí)際上有時(shí)僅研究部分樣本,為節(jié)省大量的時(shí)間,將從大量的原始數(shù)據(jù)中,選擇所需要研究的某些樣本,是個(gè)案樣本選擇(SelectCase)。具體是依次打開Data和Selectcase按鈕,彈出4種數(shù)據(jù)選擇的方法(圖3.6)使用最多的是第二種。(1)根據(jù)邏輯關(guān)系表達(dá)式有目的地挑選數(shù)據(jù)(Ifconditionissatisfied)

(2)無(wú)目的地隨機(jī)選取數(shù)據(jù)(Randomsampleofcases)

(3)按日期、時(shí)間或樣本編號(hào),在給定范圍內(nèi)選擇數(shù)據(jù)(Basedontimeorcaserange)

(4)用變量過(guò)濾器選取數(shù)據(jù)(Usefiltervariable)3.3.1根據(jù)邏輯關(guān)系表達(dá)式選擇數(shù)據(jù)【例3-2】研究人口大國(guó)的社會(huì)經(jīng)濟(jì)狀態(tài)。打開SPSS軟件自帶文件“World95”,選擇人口數(shù)大于5000萬(wàn)以上的國(guó)家。注意,人口數(shù)據(jù)原基本單位為千,而不是萬(wàn)。用邏輯關(guān)系表達(dá)式選擇數(shù)據(jù)執(zhí)行以下操作:(1)單擊圖3.2中的Data菜單項(xiàng),打開下拉式菜單。(2)在菜單中單擊SelectCases選項(xiàng),打開對(duì)話框,進(jìn)入圖3.6對(duì)話框,窗口左為變量列表。列表右邊為兩個(gè)方框,Select方框中提供了5個(gè)單選按鈕,用于確定數(shù)據(jù)的選擇方式,缺省方式為選擇全部樣本。UnselectedCasesAre框提供了2個(gè)單選按鈕用于控制輸出顯示。(3)單擊Ifconditionissatisfied單選按鈕,If按鈕變?yōu)榭捎?,單擊該按鈕,打開If對(duì)話框(圖3.7),圖左方是已有變量表,右上方是邏輯關(guān)系表達(dá)式輸入?yún)^(qū)間,中間是小鍵盤,右下方是函數(shù)表達(dá)式。在lf對(duì)話框中,單擊左邊列表框中選定的變量名,單擊向右箭頭鍵,可將該變量名移到右側(cè)列表框中。數(shù)字、數(shù)學(xué)運(yùn)算符、關(guān)系運(yùn)算符等可以通過(guò)鍵盤輸入,也可以通過(guò)鼠標(biāo)單擊對(duì)話框中間小鍵盤上的按鈕來(lái)輸入。如果關(guān)系表達(dá)式中有函數(shù),建議從小鍵盤右邊的Function列表框中進(jìn)行選擇,然后單擊上方的向上小箭頭“▲”,函數(shù)名顯示到表達(dá)式窗口中,然后輸入?yún)?shù)。直接計(jì)算時(shí),若任一數(shù)據(jù)缺失則會(huì)導(dǎo)致整個(gè)樣本無(wú)法計(jì)算。小鍵盤中有以下幾類符號(hào):數(shù)字和小數(shù)點(diǎn)包括0-9十個(gè)數(shù)字和小數(shù)點(diǎn);數(shù)學(xué)運(yùn)算符,關(guān)系運(yùn)算符,邏輯運(yùn)算符包括邏輯與(&)、邏輯或(|)和邏輯非(~)。其他符號(hào)和工具等。邏輯運(yùn)算的基本格式為“A(邏輯運(yùn)算符)B”,運(yùn)算的結(jié)果如下:A&B表示A與B運(yùn)算,如果A和B均為真,則上面表達(dá)式的結(jié)果為真。如果A和B中至少有一個(gè)為假,則表達(dá)式為假。A|B表示A或B運(yùn)算,如果A和B中至少有一個(gè)為真,則上面表達(dá)式為真。只有當(dāng)A、B均為假時(shí),結(jié)果才為假。A~B表示A非B運(yùn)算,當(dāng)A為真時(shí),表達(dá)式“~=A”的結(jié)果為假,當(dāng)A為假時(shí),表達(dá)式的結(jié)果為真。本例中,在關(guān)系表達(dá)式窗口中輸入“populatn>50000”,表示選擇人口大于5000萬(wàn)人的國(guó)家數(shù)據(jù)。(4)單擊“Continue”按鈕,回到上一對(duì)話框,單擊“OK”按鈕,進(jìn)行數(shù)據(jù)選擇。對(duì)未選中的樣本處理方法有兩種(圖3.8):Filtered表示可恢復(fù)的數(shù)據(jù)過(guò)濾,Deleted表示內(nèi)存中不可恢復(fù)的數(shù)據(jù)篩選,僅能從硬盤上重新取出原來(lái)的數(shù)據(jù)(注意在這種模式下千萬(wàn)不要存盤,以免原始數(shù)據(jù)的丟失)。3.3.2隨機(jī)選取數(shù)據(jù)有時(shí)因?yàn)閿?shù)據(jù)太多,如某地普查3000-8000萬(wàn)樣本,進(jìn)行試運(yùn)行時(shí)沒(méi)有必要全部運(yùn)算,常用隨機(jī)選取數(shù)據(jù)的方法,作為正式運(yùn)算前的試算,正式運(yùn)算則取全部數(shù)據(jù)。具體步驟如下:1)、2)與前面相同:3)在圖3.6中的SelectCases對(duì)話框中,選擇Randomsampleofcases單選按鈕,單擊Samples按鈕,打開RandomSample對(duì)話框如圖3.9。4)在RandomSample對(duì)話框中,有兩種方式來(lái)確定隨機(jī)樣本的大小。第一種是從總樣本中抽取一定比例的數(shù)據(jù)樣本,第二種是指定從本數(shù)據(jù)文件中前A個(gè)樣本中抽取B個(gè)樣本。第一種方式為缺省方式。第二個(gè)選擇要求在兩個(gè)窗口中分別輸入數(shù)字,如從前面100個(gè)數(shù)據(jù)中抽取30個(gè)數(shù)據(jù),后面的數(shù)據(jù)必須大于或等于前面數(shù)據(jù),如圖3.9所示。圖3.9從前100個(gè)原始數(shù)據(jù)中隨機(jī)地抽取30個(gè)數(shù)據(jù)的選擇框5)單擊“Continue”按鈕,回到上一級(jí)對(duì)話框,單擊“OK”按鈕,進(jìn)行計(jì)算。3.3.3在給定范圍內(nèi)選取數(shù)據(jù)這里的“范圍”可以是日期的范圍、時(shí)間的范圍(對(duì)于時(shí)間序列數(shù)據(jù))或個(gè)案的范圍。但實(shí)際上大多是指?jìng)€(gè)例樣本范疇,具體步驟如下:1)-2)同前。3)在SelectCases對(duì)話框中選擇Basedontimeorcaserange單選鈕。Range變?yōu)榭捎?,單擊該按鈕,顯示對(duì)話框如圖3.10所示。4)在First窗口中輸入起始樣本個(gè)案號(hào),在LastCase窗口中輸入最終個(gè)案號(hào)。例如,F(xiàn)irst窗口中輸入2,LastCase窗口中輸入23。5)選擇以后,原數(shù)據(jù)文件中只保留個(gè)案號(hào)為2至23的個(gè)案,其余樣本個(gè)案均被濾掉。3.4數(shù)據(jù)的加權(quán)加權(quán)(Weight)是一種通過(guò)人為方法來(lái)調(diào)節(jié)樣本或數(shù)據(jù)大小的方法,在資料輸入、樣本分析和科學(xué)評(píng)價(jià)中經(jīng)常起到舉足輕重的作用。如在1%抽樣調(diào)查中,實(shí)際有些抽取了0.8%、有些抽取了1.3%,在有條件的情況下,就可對(duì)不同的樣本進(jìn)行不同的權(quán)重,進(jìn)行調(diào)整;再如,各門成績(jī)學(xué)分?jǐn)?shù)不同,不能算簡(jiǎn)單的平均,而要根據(jù)不同的學(xué)分進(jìn)行加權(quán)處理;利用加權(quán)方法還可大量節(jié)約輸入時(shí)間和輸入工作量。加權(quán)就是給相應(yīng)被加權(quán)對(duì)象乘上一個(gè)不同的系數(shù)(權(quán)重)。當(dāng)系數(shù)小于平均權(quán)重時(shí),被加權(quán)對(duì)象在整體中的影響被縮??;系數(shù)大于平均權(quán)重時(shí),被加權(quán)對(duì)象在整體中的影響被擴(kuò)大。3.4.1概述在SPSS軟件中,加權(quán)常用于以下兩種情況:減少輸入數(shù)量,進(jìn)行復(fù)權(quán)。1)對(duì)變量的值進(jìn)行加權(quán)是一種通過(guò)改變變量的值來(lái)修正樣本或數(shù)據(jù)的方法?!纠?-3】有140位同學(xué)的5分制學(xué)習(xí)成績(jī),求平均成績(jī)、成績(jī)的標(biāo)準(zhǔn)差。先輸入140個(gè)同學(xué)中文成績(jī),如輸入35(5+12+18)個(gè)3;65(20+22+23)個(gè)4;40(20+12+8)個(gè)5,再輸入英文成績(jī),輸入5個(gè)3;12個(gè)4;18個(gè)5;20個(gè)3;22個(gè)4;23個(gè)5,……,這樣需要輸入420個(gè)數(shù)據(jù),效率太低。因此,常??梢灾苯虞斎敕纸M資料(9組資料),具體是將各組人數(shù)或頻數(shù)F作為權(quán)重,僅輸入中文成績(jī)、英文成績(jī)和相應(yīng)的頻數(shù)。這樣可大幅度節(jié)省輸入工作量(9/140)。【例3-4】某地區(qū)21歲人口的調(diào)查資料如下,問(wèn)無(wú)業(yè)、已婚人數(shù)占總?cè)藬?shù)的比例分別是多少?按照傳統(tǒng)做法,先編碼,再輸入,接著是計(jì)算。假定X1為性別,男性為1,女性為0;X2為工作狀態(tài),無(wú)業(yè)為0,工作為1;X3為婚姻狀態(tài),已婚為1,未婚為0。本例共有3個(gè)變量、1170例,在SPSS軟件中應(yīng)該輸入3列1170行,先輸入男性無(wú)業(yè)已婚人群,即1,0,1為43個(gè)樣本;男性有業(yè)已婚人群,即1,1,1為39個(gè)樣本;……,共輸入3510個(gè)數(shù)據(jù)。但如果將人數(shù)作為頻數(shù),那就方便多了,僅需輸入1,0,1,43;1,1,1,39;……,共輸入8組32個(gè)數(shù)據(jù)。計(jì)算分析前,僅需對(duì)頻數(shù)進(jìn)行加權(quán),即可進(jìn)行運(yùn)算。2)加權(quán)主要使用在抽樣調(diào)查中,如果僅調(diào)查10%甚至更低比例的人群,但是實(shí)際上,被抽中的各組成部分并非等權(quán)。【例3-5】通過(guò)抽樣調(diào)查來(lái)研究某學(xué)校學(xué)生每月消費(fèi)情況,從所有學(xué)生中抽取10%,研究資料匯總后發(fā)現(xiàn),被調(diào)查一年級(jí)學(xué)生占實(shí)際一年級(jí)學(xué)生的11.11%,而四年級(jí)學(xué)生僅占6.67%,(即高年級(jí)的比例過(guò)高,低年級(jí)學(xué)生被調(diào)查的比例過(guò)低)。這樣,利用現(xiàn)有數(shù)據(jù)進(jìn)行對(duì)比,可能會(huì)引起結(jié)果的偏差,因此有必要對(duì)樣本大小進(jìn)行調(diào)整。為全面反映調(diào)查情況、進(jìn)行合理的對(duì)比,必須對(duì)不同的樣本(高低年級(jí)學(xué)生或男女學(xué)生)加上不同的權(quán)重(以實(shí)際人群與抽中樣本人群的比例為權(quán)重)。當(dāng)然,加權(quán)系數(shù)的確定方法有很多種,與相關(guān)專業(yè)也有關(guān)系,視具體情況而定。SPSS的WeightCases對(duì)話框,可以很方便地對(duì)個(gè)案加權(quán)。3.4.2對(duì)個(gè)案加權(quán)

在SPSS中對(duì)個(gè)案進(jìn)行加權(quán)的具體方法如下:1)單擊Data菜單選項(xiàng),打開Data下拉式菜單。2)在下拉式菜單中單擊Weightcases選項(xiàng),打開Weightcases對(duì)話框。如圖3.11所示。3)Weightcases對(duì)話框中有兩個(gè)選項(xiàng),可以用來(lái)確定是否進(jìn)行加權(quán)。Donotweightcases不對(duì)個(gè)案進(jìn)行加權(quán),為缺省選項(xiàng);Weightcasesby選擇該項(xiàng),在左邊列表框中選擇一個(gè)變量,單擊向右箭頭鍵,將所選變量移到Frequency窗口中。則所選變量對(duì)應(yīng)于每一個(gè)案的值便是對(duì)該個(gè)案的加權(quán)值。本例中,將人數(shù)變量F移到Frequency窗口中,作為權(quán)重。4)單擊“OK”按鈕,進(jìn)行加權(quán)。3.5數(shù)據(jù)的轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是利用原有數(shù)據(jù),通過(guò)某種函數(shù)或數(shù)值之間的聯(lián)系,轉(zhuǎn)換關(guān)系來(lái)生成新數(shù)據(jù),為達(dá)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論