版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、SPSS社會(huì)統(tǒng)計(jì)軟件學(xué)習(xí),MARKETING INVESTIGATION,李彬彬 王亮,統(tǒng)計(jì)學(xué)基本知識(shí),統(tǒng)計(jì)學(xué)定義:它是關(guān)于收集分析表述和解釋統(tǒng)計(jì)數(shù)據(jù)的方法論科學(xué) 統(tǒng)計(jì)的功能:主要是信息咨詢和監(jiān)督 現(xiàn)代統(tǒng)計(jì)學(xué)分科:描述統(tǒng)計(jì)學(xué)與推斷統(tǒng)計(jì)學(xué)(統(tǒng)計(jì)方法構(gòu)成) 理論統(tǒng)計(jì)學(xué)與應(yīng)用統(tǒng)計(jì)學(xué)(方法研究與應(yīng)用) 基本概念 統(tǒng)計(jì)總體:是指客觀存在的,在同一性質(zhì)基礎(chǔ)上結(jié)合起來的許多個(gè)別單位 的整體,如上海地區(qū)的人口總數(shù) 樣本總體:在統(tǒng)計(jì)總體里,按照一定抽樣方法抽取的部分個(gè)體,這些個(gè)體客 觀地反映總體的特征,如合理抽樣100個(gè)學(xué)生樣本進(jìn)行相關(guān)統(tǒng)計(jì) 指 標(biāo) :反映現(xiàn)象總體數(shù)量特征的概念,如樣本平均數(shù) 變 量: 統(tǒng)計(jì)總體
2、個(gè)單位所具有的共同特征。如年齡,性別,一 基本概念,二 統(tǒng)計(jì)數(shù)據(jù)分布特征的描述,1 統(tǒng)計(jì)變量集中趨勢(shì)的測(cè)定 2 統(tǒng)計(jì)變量離散程度的測(cè)定 3 變量分布偏度與峰度的描述,1 統(tǒng)計(jì)變量集中趨勢(shì)的測(cè)定 定義:統(tǒng)計(jì)數(shù)據(jù)的集中趨勢(shì)是指數(shù)據(jù)向其中心值靠近或集中的趨勢(shì) 測(cè)定集中趨勢(shì)的作用 1)反映總體各單位變量分布的集中趨勢(shì)和一般水平 2)比較同類現(xiàn)象在不同單位的發(fā)展水平 3)比較同類現(xiàn)象在不同時(shí)期的發(fā)展變化趨勢(shì)或規(guī)律 4)分析現(xiàn)象之間的依存關(guān)系 測(cè)量集中趨勢(shì)的度量:位置平均數(shù)和數(shù)值平均數(shù),位置平均數(shù) 眾數(shù)(Mode):總體中出現(xiàn)次數(shù)最多的那個(gè)變量值,眾數(shù)在描述數(shù)據(jù)集中趨勢(shì)方面有一定的意義。例如,制鞋廠可以根
3、據(jù)消費(fèi)者所需鞋的尺碼的眾數(shù)來安排生產(chǎn)。 求某醫(yī)院當(dāng)天出生新生兒的體重的眾數(shù),數(shù)據(jù)如表1-1所示。,中位數(shù)(Median):將總體中的數(shù)據(jù)按順序排列后,處于數(shù)列中點(diǎn)位置上的那個(gè)數(shù)據(jù)或變量值。它是一種位置代表值,所以不會(huì)受到極端數(shù)值的影響,具有較高的穩(wěn)健性。 如果N為奇數(shù),那么該數(shù)列的中位數(shù)就是位置 上的數(shù); 如果N為偶數(shù),中位數(shù)則是該數(shù)列中第 與第 +1位置上兩個(gè)數(shù)值的平均數(shù) 求某班級(jí)學(xué)生身高的中位數(shù),數(shù)據(jù)如表1-2所示。,四分位數(shù):將一組個(gè)案由小到大(或由大到?。┡判蚝?,用3個(gè)點(diǎn)將全部數(shù)據(jù)分為四等份,與3個(gè)點(diǎn)上相對(duì)應(yīng)的變量稱為四分位數(shù),分別記為Q1(第一四分位數(shù))、Q2(第二四分位數(shù))、Q3(
4、第三四分位數(shù))。其中,Q3到Q1之間的距離的一半又稱為四分位差,記為Q。四分位差越小,說明中間的數(shù)據(jù)越集中;四分位差越大,則意味著中間部分的數(shù)據(jù)越分散。,頻數(shù)(Frequency):一個(gè)變量在各個(gè)變量值上取值的個(gè)案數(shù)。如要了解學(xué)生某次考試的成績(jī)情況,需要計(jì)算出學(xué)生所有分?jǐn)?shù)取值,以及每個(gè)分?jǐn)?shù)取值有多少個(gè)人,這就需要用到頻數(shù)分析。 變量的頻數(shù)分析正是實(shí)現(xiàn)上述分析的最好手段,它可以使人們非常清楚地了解變量取值的分布情況。 例子 10個(gè)學(xué)生在某次數(shù)學(xué)、語文、化學(xué)考試中成績(jī)?nèi)绫?-3所示,試求學(xué)生在3門課程上的頻數(shù)分布。,數(shù)值平均數(shù) 算術(shù)平均數(shù)(mean):是表現(xiàn)數(shù)據(jù)的集中趨勢(shì)和代表性水品,基本形式為總
5、體標(biāo)志總量比上總體單位總數(shù)。例如,學(xué)生某門學(xué)科的平均成績(jī)、公司員工的平均收入、某班級(jí)學(xué)生的平均身高等。 加權(quán)算術(shù)平均數(shù)(weighted mean):主要用于數(shù)據(jù)已經(jīng)分組,并編制出次數(shù)分布的條件下,這時(shí)必須先將各組標(biāo)志值乘以相應(yīng)的次數(shù),得到各組的標(biāo)志總量,然后再相加得到總體標(biāo)志總量。,三個(gè)常用描述性度量比較,2 統(tǒng)計(jì)變量離散程度的測(cè)定 集中趨勢(shì)是統(tǒng)計(jì)總體數(shù)據(jù)特征之一,但由于個(gè)體的差異性,總體中的各數(shù)據(jù)還呈現(xiàn)相分散的離中趨勢(shì),因此對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析,除了要反映其分布的集中趨勢(shì)外,還要反映數(shù)據(jù)的離散程度,以到達(dá)對(duì)數(shù)據(jù)變動(dòng)規(guī)律的全面描述。 定義:離散程度是度量統(tǒng)計(jì)分布離中趨勢(shì)的指標(biāo),同時(shí)反映了總體中各
6、個(gè)單位標(biāo)志值的變異程度和平均數(shù)的代表水平。 測(cè)定變量離散程度的作用 1)反映現(xiàn)象總體中變量分布的離中趨勢(shì) 2)衡量均值的代表性 3)測(cè)定現(xiàn)象變動(dòng)的均勻性或穩(wěn)定性程度 測(cè)量離中趨勢(shì)的度量:極差平均差四分位差方差標(biāo)準(zhǔn)差離散系數(shù)等,極差(range):又稱全距,離散程度的最簡(jiǎn)單測(cè)度值,是最大和最小變量值之間的距離在相同樣本容量情況下的兩組數(shù)據(jù),全距大的一組數(shù)據(jù)要比全距小的一組數(shù)據(jù)更為分散。 例子,某地農(nóng)民人均年收入最高是8000元,最地是2600元一年,則該地區(qū)農(nóng)民收入的極差是8000-2600等于5400元 。,方差(variance):所有變量值與平均數(shù)偏差平方的平均值,它是測(cè)定離散程度最常用的
7、指標(biāo),離散程度最靈敏的指標(biāo)。 標(biāo)準(zhǔn)差(standard deviation): 它是方差的平方根。它表示了一組數(shù)據(jù)關(guān)于平均數(shù)的平均離散程度。 方差和標(biāo)準(zhǔn)差越大,說明變量值之間的差異越大,距離平均數(shù)這個(gè)“中心”的離散趨勢(shì)越大。,四分位差(quartile deviation): 分位差是極差的一種改進(jìn),四分位差是在數(shù)列中剔除最大和最小各四分之一的數(shù)據(jù),是第一和第三個(gè)分位數(shù)之間距離的二分之一,表明中位數(shù)到這兩個(gè)四分位數(shù)的平均距離,是說明中位數(shù)代表性高低的測(cè)量值。 平均差(mean absolute deviation): 是分配數(shù)列中各單位標(biāo)志值與其計(jì)算平均數(shù)之間離差絕對(duì)值的平均數(shù)。 離散系數(shù):適
8、用于比較不同現(xiàn)象或不同水平數(shù)據(jù)的變異程度的情況。,3 變量分布偏度與峰度的描述 集中趨勢(shì)和離中趨勢(shì)是數(shù)據(jù)分布的兩個(gè)重要特征,但是要全面了解數(shù)據(jù)分布的特點(diǎn),還要知道數(shù)據(jù)分布的形態(tài)特征。 偏度:指分布不對(duì)稱的方向和程度。偏度指標(biāo)為,=0 數(shù)列分布為正態(tài)分布 0數(shù)列分布正(右)偏分布 0數(shù)列分布負(fù)(左)偏分布,峰度:指分布圖形的尖峭程度或峰凸程度。峰度是分布集中趨勢(shì)高峰的形狀。用表示 當(dāng)=0時(shí),頻率分布的峰度為正態(tài)分布的峰度 當(dāng)0時(shí),頻率分布的峰度比正態(tài)分布的峰度要高尖態(tài)峰,表明集中趨勢(shì)顯著,離中趨勢(shì)低 當(dāng)0時(shí),頻率分布的峰度比正態(tài)分布的峰度要低平坦峰,表明離中趨勢(shì)顯著,集中趨勢(shì)低,小結(jié) 本節(jié)主要介
9、紹平均數(shù)、中位數(shù)、眾數(shù)、方差、百分位、頻數(shù)、峰度、偏度等統(tǒng)計(jì)學(xué)相關(guān)基本知識(shí),基本統(tǒng)計(jì)知識(shí)是進(jìn)行SPSS統(tǒng)計(jì)分析的基礎(chǔ)和前提。通過基本統(tǒng)計(jì)方法的學(xué)習(xí),可以對(duì)要分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,從而有助于選擇其他更為深入的統(tǒng)計(jì)分析方法。,希望大家課后多查閱相關(guān)資料書籍,以更好的運(yùn)用SPSS社會(huì)學(xué)統(tǒng)計(jì)軟件!,歡迎你進(jìn)入SPSS學(xué)習(xí),SPSS簡(jiǎn)介,一SPSS的產(chǎn)生、發(fā)展和應(yīng)用領(lǐng)域 二SPSS13.0的安裝、啟動(dòng)和退出 三SPSS的窗口簡(jiǎn)介 四SPSS13.0的Help系統(tǒng),一 SPSS的產(chǎn)生、發(fā)展和應(yīng)用領(lǐng)域,社會(huì)科學(xué)統(tǒng)計(jì)軟件包(Statistical Package for the Social S
10、cience,SPSS)是世界著名的統(tǒng)計(jì)分析軟件之一。 1968年,3位美國斯坦福大學(xué)的學(xué)生開發(fā)了最早的SPSS系統(tǒng),并基于這一系統(tǒng)于1975年在芝加哥合伙成立了SPSS公司。 SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等。 經(jīng)近40年的發(fā)展,在全球已擁有大量的用戶, SPSS主要應(yīng)用于農(nóng)業(yè)、工業(yè)、商業(yè)、醫(yī)學(xué)、交通運(yùn)輸、公檢法、社會(huì)學(xué)、市場(chǎng)分析、股市行情、軍事地理、旅游業(yè)等多個(gè)領(lǐng)域和行業(yè),是世界上應(yīng)用最廣泛的專業(yè)統(tǒng)計(jì)軟件。 SPSS的最新版本為19.0,主要開發(fā)為vista使用系統(tǒng),SPSS13.0的經(jīng)典版,穩(wěn)定性比較高。 總之,可以這么說,有需要數(shù)據(jù)分析的地方,就可以用到S
11、PSS,同學(xué)們要認(rèn)真學(xué)。,請(qǐng)見演示,二 SPSS13.0的安裝、啟動(dòng)和退出,三 SPSS的窗口簡(jiǎn)介,SPSS主界面主要有兩個(gè),一個(gè)是SPSS數(shù)據(jù)編輯窗口,另一個(gè)是SPSS輸出窗口。 數(shù)據(jù)編輯窗口由標(biāo)題欄、菜單欄、工具欄、編輯欄、變量名欄、內(nèi)容區(qū)、窗口切換標(biāo)簽頁和狀態(tài)欄組成,見下圖。,數(shù)據(jù)編輯窗口,1、菜單介紹 File:“文件”菜單用于新建SPSS 各種類型文件,打開一個(gè)已存在的文件,從文本文件或其它數(shù)據(jù)源讀入數(shù)據(jù)。 Edit:“編輯”菜單用于撤消操作、剪切、復(fù)制、粘貼、查找、改變SPSS 默認(rèn)設(shè)置等。 View:運(yùn)用“視圖”菜單顯示或隱藏狀態(tài)行、工具欄、網(wǎng)絡(luò)線、值標(biāo)簽和改變字體。 Data:
12、運(yùn)用“數(shù)據(jù)”菜單對(duì)SPSS 數(shù)據(jù)文件進(jìn)行全局變化,例如定義變量,合并文件,轉(zhuǎn)置變量和記錄,或產(chǎn)生分析的觀測(cè)值子集等。 Transform:“轉(zhuǎn)換”菜單在數(shù)據(jù)文件中對(duì)所選擇的變量進(jìn)行變換,并在已有變量值的基礎(chǔ)上計(jì)算新的變量。,Analyze:“分析”菜單在以前版本中為“統(tǒng)計(jì)(Statistics)”,可進(jìn)行各種統(tǒng)計(jì)分析,包括各種統(tǒng)計(jì)過程(Procedure),如回歸分析、相關(guān)分析、因子分析等等。 Graphs:“圖表”菜單產(chǎn)生條形圖、餅圖、直方圖、散點(diǎn)圖和其它全顏色、高分辨率的圖形,以及動(dòng)態(tài)的交互式圖形。有些統(tǒng)計(jì)過程也產(chǎn)生圖形,所有的圖形都可以編輯。 Utilities:“工具”菜單可以顯示數(shù)據(jù)
13、文件和變量的信息,定義子集,運(yùn)行腳本程序,自定義SPSS 菜單等。 Window:“窗口”菜單用于選擇不同窗口和最小化所有窗口。 Help:“幫助”菜單包含SPSS 幫助主題、SPSS 教程、SPSS 公司主頁、統(tǒng)計(jì)教練等菜單項(xiàng)。,該窗口下方有兩個(gè)標(biāo)簽:“Data View”(數(shù)據(jù)視圖)和“Variable View”(變量視圖)。,(1)一個(gè)列對(duì)應(yīng)一個(gè)變量,即每一列代表一個(gè)變量(Variable)或一個(gè)被觀測(cè)量的特征。例如問卷上的每一項(xiàng)就是一個(gè)變量。 (2)行是觀測(cè),即每一行代表一個(gè)個(gè)體、一個(gè)觀測(cè)、一個(gè)樣品,在SPSS中稱為事件(Case)。例如,問卷上的每一個(gè)人就是一個(gè)觀測(cè)。,SPSS結(jié)果
14、輸出窗口名為Viewer,它是顯示和管理SPSS統(tǒng)計(jì)分析結(jié)果、報(bào)表及圖形的窗口。,SPSS結(jié)果輸出窗口,用鼠標(biāo)雙擊結(jié)果輸出窗口中的圖形,進(jìn)入圖形編輯窗口,可以對(duì)圖形進(jìn)行定義編輯,圖形編輯窗口,四 SPSS13.0的Help系統(tǒng),在運(yùn)行SPSS的任何時(shí)候,單擊“Help”菜單中的“topics”命令,會(huì)彈出幫助主題窗口。在其中選擇相關(guān)的命令,即可得到所需的各種幫助。 Help系統(tǒng)可以為不同級(jí)別的用戶提供不同階段的指導(dǎo),有如入門級(jí)用戶的tutorial”命令,實(shí)例學(xué)習(xí)“Case studies”過程,還有手把手的“Statistics Coach”的過程,小結(jié) SPSS是在當(dāng)前社會(huì)經(jīng)濟(jì)分析中應(yīng)用最
15、廣泛的軟件之一。繼SPSS13.0之后,SPSS公司推出了最新的SPSS19.0,這是一個(gè)功能強(qiáng)大、設(shè)計(jì)人性化的統(tǒng)計(jì)學(xué)軟件。 SPSS的主界面有兩個(gè),一個(gè)是SPSS數(shù)據(jù)編輯窗口,一個(gè)是SPSS結(jié)果輸出窗口,例外還有一個(gè)圖形編輯窗口。,下面讓我們進(jìn)入主題吧!,數(shù)據(jù)輸入和整理,一 定義變量,SPSS對(duì)數(shù)據(jù)的處理是以變量為前提的,因此本節(jié)主要介紹定義變量、輸入數(shù)據(jù)和數(shù)據(jù)整理。,輸入數(shù)據(jù)前首先要定義變量。定義變量即要定義變量名、變量類型、變量長(zhǎng)度(小數(shù)位數(shù))、變量標(biāo)簽(或值標(biāo)簽)和變量的格式。 單擊數(shù)據(jù)編輯窗口左下方的“Variable View”標(biāo)簽或雙擊列的題頭(Var),進(jìn)入如下圖所示的變量定義
16、視圖窗口,在此窗口中即可定義變量。,在上圖所示的窗口中每一行表示一個(gè)變量的定義信息,包括Name、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。,1定義變量名(Name) SPSS默認(rèn)的變量為Var00001、Var00002等,用戶也可以根據(jù)自己的需要來命名變量。SPSS變量的命名和一般的編程語言一樣,有一定的命名規(guī)則,具體內(nèi)容如下。, 變量名必須以字母、漢字或字符開頭,其他字符可以是任何字母、數(shù)字或_、#、$等符號(hào)。 變量最后一個(gè)字符不能是句號(hào)。 變量名總長(zhǎng)度不能超過8個(gè)字符(即4個(gè)漢字)。 不能使用空白字符或
17、其他特殊字符(如“!”、“?”等)。 變量命名必須惟一,不能有兩個(gè)相同的變量名。 在SPSS中不區(qū)分大小寫。例如,HXH、hxh或Hxh對(duì)SPSS而言,均為同一變量名稱。圖2-3 定義變量類型對(duì)話框 SPSS的保留字(Reserved Keywords)不能作為變量的名稱,如ALL、AND、WITH、OR等。,2定義變量類型(Type),單擊Type相應(yīng)單元中的按鈕,彈出如圖2-3所示的對(duì)話框,在對(duì)話框中選擇合適的變量類型并單擊“OK”按鈕,即可定義變量類型。,SPSS的主要變量類型如下。 Numeric Comma(帶逗點(diǎn)的數(shù)值型)整數(shù)部分每三位數(shù)加一逗號(hào),1,200,000 Dot(逗點(diǎn)作
18、小數(shù)點(diǎn)的數(shù)值型)可定義小數(shù),12345顯示12.345,00 Scientific notation(科學(xué)記數(shù)法)定義width為10,decimal places為 3,則1234567.89顯示為1.235+E006 Date Dollar Custom currency String,3變量長(zhǎng)度(Width) 設(shè)置變量的長(zhǎng)度,當(dāng)變量為日期型時(shí)無效。,4變量小數(shù)點(diǎn)位數(shù)(Decimal) 變量小數(shù)點(diǎn)位數(shù)設(shè)置數(shù)值變量的小數(shù)點(diǎn)位數(shù),當(dāng)變量為日期型時(shí)無效。,5變量標(biāo)簽(Label) 變量標(biāo)簽是對(duì)變量名的進(jìn)一步描述,變量標(biāo)簽可長(zhǎng)達(dá)120 個(gè)字符,變量標(biāo)簽對(duì)大小寫敏感,顯示時(shí)與輸入值完全一樣,需要時(shí)可
19、用變量標(biāo)簽對(duì)變量名的含義加以解釋。,6變量值標(biāo)簽(Values) 變量值標(biāo)簽是對(duì)變量的每一個(gè)可能取值的進(jìn)一步描述,當(dāng)變量是定類或定序變量時(shí),這是非常有用的。,7缺失值的定義方式(Missing) SPSS有兩類缺失值:系統(tǒng)缺失值和用戶缺失值。 單擊Missing相應(yīng)單元中的按鈕,在彈出的如下圖所示的對(duì)話框中可改變?nèi)笔е档亩x方式,在SPSS中有兩種定義缺失值的方式。 可以定義3個(gè)單獨(dú)的缺失值。 可以定義一個(gè)缺失值范圍和一個(gè)單獨(dú)的缺失值。 默認(rèn)值為None,8變量的顯示寬度(Columns) 輸入變量的顯示寬度,默認(rèn)為8。,9變量顯示的對(duì)齊方式(Align) 選擇變量值顯示時(shí)的對(duì)齊方式:Left
20、(左對(duì)齊)、Right(右對(duì)齊)、Center(居中對(duì)齊)。默認(rèn)是右對(duì)齊。,10變量的測(cè)量尺度(Measure) 變量為定距變量或定比變量,則在Scale相應(yīng)單元的下拉列表中選擇Scale;如果變量為定序變量,則選擇Ordinal;如果變量為定類變量,則選擇Nominal, Scale的測(cè)量水平最高,能加減乘除, Ordinal能進(jìn)行排序測(cè)量,只能比較大小或順序, Nominal只是一種類別代表,如性別, 測(cè)量尺度和變量類型一樣,都是對(duì)變量進(jìn)行更準(zhǔn)確的定義,其在數(shù)據(jù)分析中不是很明顯。 變量按測(cè)量精度可以分為 (1)定性變量。 (2)定序變量。 (3)定距變量。 (4)定比變量。,問卷錄入時(shí)注意
21、的幾個(gè)問題,(1)注意定義不同的數(shù)據(jù)類型Type 各色各樣的問卷題目的類型大致可以分為單選、多選、排序、開放題目四種類型,他們的變量的定義和處理的方法各有不同,我們?cè)敿?xì)舉例介紹如下:,定義了所有變量后,單擊“Data View”標(biāo)簽,即可在出現(xiàn)的數(shù)據(jù)視圖(編輯)窗中輸入數(shù)據(jù)。 數(shù)據(jù)錄入時(shí)可以逐行錄入,也可以逐列。 注意:在錄入帶有變量值標(biāo)簽的數(shù)據(jù)時(shí),用戶手工輸入的是實(shí)際的變量值,而屏幕上顯示的是與該變量對(duì)應(yīng)的變量值標(biāo)簽。,二 數(shù)據(jù)的錄入和保存,在錄入數(shù)據(jù)時(shí),應(yīng)及時(shí)保存數(shù)據(jù),防止數(shù)據(jù)的丟失,以便再次使用該數(shù)據(jù) 。 用戶確定盤符、路徑、文件名以及文件格式后單擊“Save”按鈕,即可保存為指定類型的
22、數(shù)據(jù)文件。SPSS支持的常見的數(shù)據(jù)文件,一般默認(rèn)格式SPSS(*.sav),三 SPSS數(shù)據(jù)文件的整理,在建立和輸入好數(shù)據(jù)文件以后,往往還需要進(jìn)行數(shù)據(jù)文件的加工、整理,經(jīng)過 整理以后的文件才能更好地滿足數(shù)據(jù)分析的要求。包括觀測(cè)量排序、數(shù)據(jù)文件轉(zhuǎn)置、數(shù)據(jù)文件合并、數(shù)據(jù)分類匯總、變量計(jì)算變量值排序等。一般在菜單Data和Transform中進(jìn)行操作。 由于課程時(shí)間原因,這里就不贅述了,大家課下查閱相關(guān)資料自學(xué)。,變量名(Name),變量類型(Type),變量長(zhǎng)度(Width),變量小數(shù)點(diǎn)位數(shù)(Decimal),變量標(biāo)簽(Label),變量值標(biāo)簽(Values),缺失值的定義(Missing),變量
23、的顯示寬度(Columns),變量的測(cè)量尺度(Measure),小結(jié)一下!,下一節(jié),是我們的重點(diǎn)。,常用數(shù)據(jù)分析方法,一 SPSS的統(tǒng)計(jì)圖形繪制 二 常用SPSS數(shù)據(jù)分析方法,一 SPSS的統(tǒng)計(jì)圖形繪制,統(tǒng)計(jì)圖是數(shù)據(jù)最直觀的表示,統(tǒng)計(jì)工作的服務(wù)對(duì)象多是非專業(yè)的人士。非專業(yè)人士通常不明白什么是相關(guān)分析、什么是回歸分析、什么是因子分析,等等。 下面我們先來介紹一下統(tǒng)計(jì)圖的繪制,主要包括:條形圖、線圖、面積圖、餅圖、高低圖、箱圖、直方圖、P-P圖、 Q-Q圖、散點(diǎn)圖等。,1條形圖:利用寬度相同的條形的長(zhǎng)短或高低來表現(xiàn)統(tǒng)計(jì)數(shù)據(jù)大小或變動(dòng)情況的統(tǒng)計(jì)圖。 條形圖分為簡(jiǎn)單條圖、分組條圖、分段條圖,分組條圖-
24、性別對(duì)牛奶品牌的選擇,分段條圖-不同年齡對(duì)牛奶品牌的選擇,簡(jiǎn)單條圖主要針對(duì)觀測(cè)量的描述,分組條圖更側(cè)重于刻畫各組之間的比較關(guān)系,而分段條圖則側(cè)重于刻畫各段與整體的關(guān)系。,2線圖:用線段的升降來說明現(xiàn)象變動(dòng)情況的一種統(tǒng)計(jì)圖。 比較線線圖對(duì)話框和條圖非常相似,都是由定義圖形類型和定義圖形數(shù)據(jù)描述方式兩部分組成,其實(shí)不僅僅是條圖和線圖對(duì)話框類似,在SPSS中幾乎所有的圖形第一個(gè)對(duì)話框都是這樣的! 線圖分為簡(jiǎn)單線圖,復(fù)式線圖,垂線圖。,3面積圖:用線段下的陰影面積來強(qiáng)調(diào)現(xiàn)象變化的統(tǒng)計(jì)圖。,4餅圖:是以整個(gè)圓的面積代表被研究現(xiàn)象的總體,按各組成部分占總體比重的大小把圓面積分割成若干扇形,用以表示現(xiàn)象的部
25、分對(duì)總體的比例關(guān)系的統(tǒng)計(jì)圖。 即餅圖表示部分與整體的關(guān)系。,5直方圖:是常用的描述觀測(cè)數(shù)據(jù)頻數(shù)分布的統(tǒng)計(jì)圖形,它由一組無間的矩形組成,每一矩形條的寬度表示數(shù)據(jù)范圍的間隔,其高度則表示落入給定間隔內(nèi)的觀測(cè)數(shù)據(jù)頻數(shù),利用直方圖可以直觀反映觀測(cè)變量的統(tǒng)計(jì)分布。,6 P-P圖和 Q-Q圖:用來檢驗(yàn)數(shù)據(jù)是否服從某種分布。,在P-P圖中檢驗(yàn)數(shù)據(jù)是否服從某種分布標(biāo)準(zhǔn)有兩個(gè): 第一,看P-P圖上的數(shù)據(jù)點(diǎn)和直線的重合度 第二,看P-P去勢(shì)圖的點(diǎn)是否關(guān)于直線Y=0在較小的范圍上波動(dòng),7 散點(diǎn)圖:用來表示兩個(gè)或兩個(gè)以上變量之間的相互關(guān)系的圖形。 在統(tǒng)計(jì)數(shù)據(jù)分析中,要選擇恰當(dāng)?shù)慕y(tǒng)計(jì)方法,通常都離不開散點(diǎn)圖,1描述性統(tǒng)
26、計(jì)分析(單變量描述和均值差異比較) 2相關(guān)分析與回歸分析(變量間的統(tǒng)計(jì)關(guān)系研究) 3其他數(shù)據(jù)分析方法,二 常用SPSS數(shù)據(jù)分析方法,1 變量描述性統(tǒng)計(jì)分析,描述性統(tǒng)計(jì)分析是基礎(chǔ)的統(tǒng)計(jì)分析過程。對(duì)于整理好的數(shù)據(jù),通過描述性統(tǒng)計(jì)分析,可以挖掘出很多統(tǒng)計(jì)量的特征。 常用的描述性統(tǒng)計(jì)方法主要包括如下: 頻數(shù)分布表分析(Frequencies過程) 最基礎(chǔ)的統(tǒng)計(jì)量分析(Descriptive過程) 探索性分析(Explore過程) 列聯(lián)表分析(Crosstabs過程),頻數(shù)分布表分析(Frequencies過程) 產(chǎn)生變量值的頻數(shù)分布表,并可計(jì)算描述性統(tǒng)計(jì)量和繪制相對(duì)應(yīng)的統(tǒng)計(jì)圖。 來獲得變量分布的直觀特
27、征,為進(jìn)一步的復(fù)雜分析提供重要參考,最基礎(chǔ)的統(tǒng)計(jì)量分析(Descriptive過程) 主要用于輸出變量的各類描述性統(tǒng)計(jì)量的值,如要描述一個(gè)班級(jí)學(xué)生的身高,描述被試的收入情況。,顯示次序是多個(gè)變量輸入結(jié)果的排列順序,探索性分析(Explore過程) 定義:可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析,它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,顯得更加細(xì)致與全面,有助于用戶思考對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析的方案。主要包括: (1)提供觀測(cè)數(shù)據(jù)可能存在的異常值。 (2)輸出觀測(cè)數(shù)據(jù)的描述統(tǒng)計(jì)量表與統(tǒng)計(jì)圖形。 (3)進(jìn)行觀測(cè)數(shù)據(jù)的分布正態(tài)性檢驗(yàn)。,20名10歲少兒的身高(cm)資料,數(shù)
28、據(jù)如下表所示,試作探索性分析。,在結(jié)果輸出窗口中將看到如下統(tǒng)計(jì)數(shù)據(jù)。 (1)首先輸出如下個(gè)案觀察量摘要表,如下表所示。,(3)接著輸出如下4個(gè)不同權(quán)重下作中心趨勢(shì)的粗略最大似然確定數(shù),,(4)再接著輸出百分位數(shù),也是分組后的百分位數(shù),如下表所示。,(5)分別輸出兩個(gè)組中的最大5個(gè)數(shù)和最小5個(gè)數(shù),并且包括這些值對(duì)應(yīng)的ID,如下表所示。,(6)輸出方差齊次性檢驗(yàn)結(jié)果。,(7)系統(tǒng)還進(jìn)行數(shù)據(jù)的莖葉情形描述。,(8)系統(tǒng)輸出箱圖,如下圖。,(10)輸出身高正態(tài)概率圖(Normal Q-Q Plot of身高),如下圖。,(11)輸出離散正態(tài)概率圖(Detrended Normal Q-Q Plot o
29、f身高),男孩身高和女孩身高如圖所示。橫坐標(biāo)是身高,縱坐標(biāo)是和正態(tài)分布的偏離。,列聯(lián)表分析(Crosstabs過程) 常用來作變量間交叉分組下的頻數(shù)分析,用以揭示變量間是否具有獨(dú)立性或具有一定的相關(guān)性。如想分析吸煙習(xí)慣和患病率的關(guān)系。,頻數(shù)分析注意的幾個(gè)問題,1 頻數(shù)分析:Frequencies過程可以做單變量的頻數(shù)分布圖;顯示數(shù)據(jù)文件中由用戶指定的變量的特定值發(fā)生的頻數(shù);獲得描述性統(tǒng)計(jì)量和描述性數(shù)值范圍的統(tǒng)計(jì)量。 適用范圍:?jiǎn)芜x題,排序題,多選題 2 描述分析:可以計(jì)算單變量的描述統(tǒng)計(jì)量,這些統(tǒng)計(jì)量有平均值,算術(shù)和,標(biāo)準(zhǔn)差,最大值,最小值,方差等。 適用范圍:選擇并排序題,開放性數(shù)值題,3
30、多響應(yīng)頻數(shù)分析:也是一種描述性統(tǒng)計(jì)方法 適用范圍:多選題的二分法 實(shí)現(xiàn):第一步在Multiple ResponseDefines Set 把一道多選題定義了的所有變量集合在一起,給新的變量取名,在Dichotomies Counted 中輸入1。 第二步在Multiple Response.Frequencies中作頻數(shù)分析。,4 交叉頻數(shù)分析:解決多變量的各水平組合的頻數(shù)分析的問題。 適用范圍:用于兩個(gè)或兩個(gè)以上變量進(jìn)行交叉分類形成的列聯(lián)表,對(duì)變量之間的關(guān)聯(lián)性進(jìn)行分析。比如要知道不同工作性質(zhì)的人上班適用交通工具的情況,可以通過交叉分析得到的一個(gè)二維頻數(shù)表則一目了然。 實(shí)現(xiàn):第一步根據(jù)分析的目
31、的來確定交叉分析的選項(xiàng),確定控制變量和解釋變量(如上面的例子中不同工作的人是控制變量,適用交通工具是解釋變量。 第二步選擇Descriptive statisticsCrosstabs,均值描述:計(jì)算各類描述性統(tǒng)計(jì)量,并且分析方差分析結(jié)果。,1-2均值比較與方差分析,單樣本T檢驗(yàn)(one-Sample T Test) 單樣本T檢驗(yàn)是比較樣本均值和總體均值的T檢驗(yàn),如某一個(gè)鋼鐵含鐵量服從4.53的正態(tài)分布,試檢驗(yàn)樣本是否服從4.53。,獨(dú)立兩樣本的T檢驗(yàn)Independent-sample T Test 單樣本T檢驗(yàn)是檢驗(yàn)樣本均值和總體均值是否相當(dāng),二獨(dú)立兩樣本的T檢驗(yàn)是檢驗(yàn)兩個(gè)獨(dú)立樣本的均值是
32、否相當(dāng)。如甲乙兩種藥的治療效果比較。,方差分析(ANOVA過程) 兩組的均值比較用T檢驗(yàn),為了進(jìn)行兩組以上均數(shù)的比較,通??梢允褂梅讲罘治龇椒?。 在科學(xué)實(shí)驗(yàn)和生產(chǎn)過程中,影響一事物的因素是多方面的。比如農(nóng)作物的產(chǎn)量受到品種、肥料、水份、氣候等影響,這些因素有的對(duì)產(chǎn)量的影響大,有的影響小。 方差分析就是采用數(shù)理統(tǒng)計(jì)方法對(duì)所有的結(jié)果進(jìn)行分析,以鑒別各個(gè)因素對(duì)研究對(duì)象的某些特征值影響大小的一種有效方法。,單因素方差分析(One-way ANOVA過程) 單因素方差分析只考慮一個(gè)因素對(duì)研究對(duì)象的影響,此時(shí)其他因素都不變或者控制在一定范圍內(nèi)。,小結(jié),描述性統(tǒng)計(jì)主要有頻數(shù)分析、最基礎(chǔ)的統(tǒng)計(jì)量分析、探索性分
33、析、列聯(lián)表分析、均值描述、 T檢驗(yàn)和方差分析等,均值描述和T檢驗(yàn)是解決兩樣本均值的比較,方差分析是多個(gè)變量均值的比較。 描述性統(tǒng)計(jì)是進(jìn)行其他統(tǒng)計(jì)分析的基礎(chǔ)和前提。利用這些基本統(tǒng)計(jì)方法,可以對(duì)要分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,同時(shí)也為更深入的分析提供了依據(jù)。,2相關(guān)分析與回歸分析(變量間的統(tǒng)計(jì)關(guān)系研究),在實(shí)際統(tǒng)計(jì)中,常常要研究?jī)蓚€(gè)及兩個(gè)以上變量的,比如,醫(yī)學(xué)統(tǒng)計(jì)中研究青少年年齡與身高的關(guān)系,經(jīng)濟(jì)學(xué)中研究利率與股票價(jià)格的關(guān)系等,研究這些關(guān)系主要通過相關(guān)分析和回歸分析。 變量和變量之間的關(guān)系可以分為確定關(guān)系和不確定關(guān)系。所謂確定關(guān)系是指變量之間可以用精確的函數(shù)來描述,而不精確關(guān)系是已知變量之間
34、存在著某種關(guān)系,但是這種關(guān)系不能用函數(shù)來表示。 相關(guān)分析就是研究變量之間的相互關(guān)系的密切程度和變化趨勢(shì),并通過適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)描述。 回歸分析是把變量之間的關(guān)系用函數(shù)關(guān)系表示出來。,2-1相關(guān)分析 相關(guān)分析主要分為:兩變量相關(guān)分析、偏相關(guān)分析、距離分析 兩變量相關(guān)分析:兩個(gè)連續(xù)變量之間的相關(guān)和兩個(gè)等級(jí)變量之間的秩相關(guān)。 偏相關(guān)分析:當(dāng)兩個(gè)變量的取值受其他變量的影響,則采用偏相關(guān)分析的方法控制其他變量的影響,研究?jī)蓚€(gè)變量之間的相關(guān)關(guān)系。 距離分析:主要分析同一變量?jī)?nèi)觀測(cè)值之間或者多個(gè)變量之間的相似或不相似程度。,相關(guān)系數(shù),相關(guān)系數(shù)的取值范圍在1和+1之間,即1r+1。其中: 若0r1,表明變量之間
35、存在正相關(guān)關(guān)系,即兩個(gè)變量的相隨變動(dòng)方向相同; 若1r0,表明變量之間存在負(fù)相關(guān)關(guān)系,即兩個(gè)變量的相隨變動(dòng)方向相反;,對(duì)于定距變量的數(shù)據(jù),常通過Pearson相關(guān)系數(shù)值和相關(guān)系數(shù)的Sig的值來驗(yàn)證。 對(duì)于定類變量和等級(jí)變量的數(shù)據(jù),通常使用Spearman和Kendall系數(shù)來表 示。 0.01Sig0.05,相關(guān)系數(shù)用“*”標(biāo)記,表示相關(guān)性顯著,Sig0.01,相關(guān)系數(shù)用“*”標(biāo)記,表示相關(guān)性高度顯著。,兩變量相關(guān)分析,偏相關(guān)分析 在實(shí)際問題中,兩變量的相關(guān)關(guān)系往往還要受到其他因素的影響,這些影響有時(shí)候會(huì)使相關(guān)分析的結(jié)果變得不那么可靠了,偏相關(guān)分析是指研究?jī)蓚€(gè)變量之間的相關(guān)關(guān)系時(shí),將與這兩個(gè)變
36、量有聯(lián)系的其他變量控制不變的統(tǒng)計(jì)方法。 根據(jù)控制變量的個(gè)數(shù),分為零階相關(guān)分析、一階相關(guān)分析、二階相關(guān)分析。零階相關(guān)分析指沒有相關(guān)變量的相關(guān)分析。一階相關(guān)分析是指有一個(gè)控制變量的相關(guān)分析。,例子:分析品牌傾向與教育程度的偏相關(guān)關(guān)系,選擇職業(yè)為控制變量,距離分析: 前面介紹的兩個(gè)樣本相關(guān)分析和偏相關(guān)分析都是研究?jī)蓸颖局g的相關(guān)關(guān)系。對(duì)于兩個(gè)變量,研究?jī)蓚€(gè)變量的近似程度也十分重要。 距離分析就是研究變量是否近似的一種相關(guān)分析方法。例如,分析各個(gè)城市的日照數(shù)是否相似。這里不在介紹,感興趣的同學(xué)自己查資料研究。,2-2回歸分析 定義:用一變量作為自變量,另一個(gè)變量作為因變量,建立兩者之間的數(shù)學(xué)表達(dá)式,從
37、自變量去估計(jì)因變量的取值,這個(gè)過程叫著回歸分析。 回歸分析和相關(guān)分析的區(qū)別:相關(guān)分析只能大概描述出兩個(gè)變量之間的相關(guān)系數(shù),如正相關(guān)或負(fù)相關(guān),而回歸分析能夠通過數(shù)學(xué)表達(dá)式來定量描述變量之間的關(guān)系。 回歸分析的應(yīng)用:一般在生物統(tǒng)計(jì)和醫(yī)學(xué)統(tǒng)計(jì)上,如估計(jì)各類微量元素的攝入量對(duì)人體血紅蛋白含量的影響?;貧w分析能夠求出自變量和因變量之間的經(jīng)驗(yàn)公式,所以回歸分析在數(shù)據(jù)挖掘上有預(yù)測(cè)和控制功能,譬如在商品流通領(lǐng)域,經(jīng)常使用回歸分析商品價(jià)格和商品需要量之間的關(guān)系,以便對(duì)商品的價(jià)格和需求量進(jìn)行控制。,回歸分析的應(yīng)用:一般在生物統(tǒng)計(jì)和醫(yī)學(xué)統(tǒng)計(jì)上,如估計(jì)各類微量元素的攝入量對(duì)人體血紅蛋白含量的影響。回歸分析能夠求出自變
38、量和因變量之間的經(jīng)驗(yàn)公式,所以回歸分析在數(shù)據(jù)挖掘上有預(yù)測(cè)和控制功能,譬如在商品流通領(lǐng)域,經(jīng)常使用回歸分析商品價(jià)格和商品需要量之間的關(guān)系,以便對(duì)商品的價(jià)格和需求量進(jìn)行控制。 分類:線性回歸、曲線擬合、二類變量Logistic回歸、非線性回歸 本課程里我們主要探討線性回歸,它主要包括一元線性回歸和多元線性回 歸,其他作為了解。,回歸分析的步驟: 1 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,找到合適的變量進(jìn)行分析,如研究某地區(qū)的商品房?jī)r(jià)格,則與之相關(guān)的變量有面積,地段,住宅風(fēng)格等 2 做散點(diǎn)圖,觀察變量間的趨勢(shì),初步選擇回歸分析方法 3 進(jìn)行回歸分析,擬合自變量和因變量之間的公式 4 檢驗(yàn),線性回歸分析 根據(jù)自變量的個(gè)數(shù),將線性回歸分為一元線性回歸和多元線性回歸。 一元線性回歸:是回歸分析中處理兩個(gè)變量線性相關(guān)關(guān)系最簡(jiǎn)單的數(shù)學(xué)模型。設(shè)變量Y與X有下述關(guān)系: y = a+bx+c,一元線性回歸的操作,多元線性回歸的操作,除了上面的描述性分析和相關(guān)分析,SPSS強(qiáng)大的功能還可以對(duì)問卷進(jìn)行深入的分析,比較常用的有聚類分析、因子分析與對(duì)應(yīng)分析、非參數(shù)檢驗(yàn)等,由于涉及到很專業(yè)的統(tǒng)計(jì)學(xué)知識(shí),下面只對(duì)概念做個(gè)簡(jiǎn)單的介紹。,3其他數(shù)據(jù)分析方法,聚類分析:就是把沒有分類的信息的資料按照相似程度歸類,并對(duì)這些分類進(jìn)行比例分析,從而明確調(diào)研關(guān)心的全體,如按消費(fèi)特征對(duì)被調(diào)查者
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年教育培訓(xùn)課程授權(quán)合同協(xié)議
- 2026年監(jiān)控錄像設(shè)備合同協(xié)議
- 2026年車庫房屋租賃合同協(xié)議
- 2026年創(chuàng)業(yè)借款合同協(xié)議
- 2026年別墅買賣合同備案要求
- 2026年配音表演委托合同協(xié)議
- 2026年數(shù)據(jù)庫開發(fā)服務(wù)合同協(xié)議
- 農(nóng)村土地永久承包合同
- 高考英語應(yīng)用文-邀請(qǐng)信件-2026屆高考英語二輪復(fù)習(xí)專項(xiàng)
- 《動(dòng)畫場(chǎng)景設(shè)計(jì)(第二版)》課件全套 第1-7單元 動(dòng)畫場(chǎng)景概述-不同類型動(dòng)畫場(chǎng)景設(shè)計(jì)
- 2024年內(nèi)蒙古能源集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 《半導(dǎo)體器件物理》復(fù)習(xí)題2012
- 物業(yè)客服培訓(xùn)課件PPT模板
- 市政道路電力、照明、通信管道工程施工方案
- 眾辰變頻器z2400t-15gy-1說明書
- 全國行政區(qū)劃代碼
- 刑事偵查卷宗
- 星級(jí)供電所匯報(bào)總結(jié)
- 公路工程計(jì)量培訓(xùn)講義
- 兒童嚴(yán)重過敏反應(yīng)急救演示文稿
- 電除塵器檢查運(yùn)行維護(hù)課件
評(píng)論
0/150
提交評(píng)論