版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、探索性數(shù)據(jù)分析目的p 調(diào)用此過程可產(chǎn)生所有個(gè)案或不同分組個(gè)案的綜合統(tǒng)計(jì)量及圖形,提供各種不同的統(tǒng)計(jì)量與描述作圖,可進(jìn)行數(shù)據(jù)篩查,發(fā)現(xiàn)奇異值,描述性分析,假設(shè)檢驗(yàn)及不同分組 個(gè)案的特征描述p 可幫助用戶決定選擇哪種統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析,選擇將數(shù)據(jù)轉(zhuǎn)換成正態(tài)方法及是否使用非參數(shù)基本操作按Analyze-Descriptive Statistics-Explore 順序單擊,打開Explore 主對(duì)話框。Explore 主對(duì)話框該框中的變量作為個(gè)案標(biāo)識(shí)符可同時(shí)輸出基本統(tǒng)計(jì)量和圖形只輸出基本統(tǒng)計(jì)量只輸出圖形選擇一個(gè)或多個(gè)變量進(jìn)入Dependent框作為因變量此作為分組變量,可以是字符變量,對(duì)因變量的分
2、析將按該變量的觀測(cè)值進(jìn)行分組分析??捎卸鄠€(gè)分組變量,這時(shí)會(huì)按多個(gè)變量的交叉組合進(jìn)行分組。Statistics對(duì)話框輸出基本統(tǒng)計(jì)量均值的置信區(qū)間,可鍵入199%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢(shì)的的穩(wěn)健最大似然估計(jì)量,當(dāng)數(shù)據(jù)分布均勻,且兩尾較長(zhǎng),或當(dāng)數(shù)據(jù)中存在 值時(shí),可給出比均值或中位數(shù)更合理的估計(jì)。輸出最大和最小的5個(gè)數(shù),且在輸出窗口中加以標(biāo)明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。輸出帶檢驗(yàn)的正態(tài)圖Explore 欄中Plots對(duì)話框只有指定分組變量才有效,可輸出分布水平圖,同時(shí)輸出回歸直線 斜率以及對(duì)方差的Levenes檢驗(yàn)不輸出分布水平圖功
3、效估計(jì)根據(jù)在Power參數(shù)框中指定的變換對(duì)原始數(shù)據(jù)進(jìn)行變換。 不對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換箱型圖 每一個(gè)因變量生成一個(gè)箱形圖 所有因變量生成一個(gè)箱形圖 不顯示任何箱形圖生成莖葉圖為默認(rèn)生成直方圖Explore 欄中Options對(duì)話框確定缺失值的處置: 因變量或分組變量中帶有缺失值的觀測(cè)量都將在分析過程中被剔除。 在分析過程中剔除此分析中含缺失值個(gè)案。 分組變量的缺失值被單獨(dú)分為一組, 在結(jié)果中產(chǎn)生一個(gè)附加分類。實(shí)例child.sav,根據(jù)因子變量性別對(duì)身高進(jìn)行探索性數(shù)據(jù)分析EXAMINE VARIABLES=x5 BY x2/PLOT BOXPLOT STEMLEAF/COMPARE GROUP/STA
4、TISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.列聯(lián)表分析p 列聯(lián)表c 2 檢驗(yàn)pp 相關(guān)性測(cè)度數(shù)據(jù)的類型與列聯(lián)分析列聯(lián)分析連續(xù)數(shù)據(jù)離散數(shù)據(jù)定性數(shù)據(jù)(品質(zhì)數(shù)據(jù))定量數(shù)據(jù)(數(shù)值型數(shù)據(jù))數(shù) 據(jù)定性數(shù)據(jù)1.定性變量的結(jié)果表現(xiàn)為類別例如:性別 (男, 女)2.3.各類別用符號(hào)或數(shù)字代碼來(lái)測(cè)度使用定類或定序尺度n 你吸煙嗎?o1.是;2.否n 你贊成還是反對(duì)這一改革方案?o1.贊成;2.反對(duì)對(duì)定性數(shù)據(jù)的描述和分析通常使用列聯(lián)表可使用 c2檢驗(yàn)4.5.列聯(lián)表(例題分析)【例】一個(gè)集團(tuán)公司在四個(gè)不同的地區(qū)設(shè)有分公司,現(xiàn)該集團(tuán)公司欲進(jìn)行一項(xiàng)
5、改革,此項(xiàng)改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個(gè)分公司共抽取420個(gè)樣本單位(人),了解職工對(duì)此項(xiàng)改革的看法,調(diào)查結(jié)果如下表一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420列聯(lián)表(contingency table)列聯(lián)表按多個(gè)(兩個(gè)或兩個(gè)以上)變量的不同取值對(duì)不同情形進(jìn)行劃分,也即劃分不同的行或列。用以分行的變量 稱為行(row)變量,和用以分列的變量則稱為列(column)變量。表格中間各行變量和列變量不同取值的交匯處,就是這種情形出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。列聯(lián)表中行變量和列變量的個(gè)
6、數(shù)稱為列聯(lián)表的維數(shù)。二維的列聯(lián)表又稱為交叉表(cross table)。三維或三維以上的列聯(lián)表叫做高維列聯(lián)表。ooooo列聯(lián)表(contingency table)o列聯(lián)表中每個(gè)行變量或列變量又有兩個(gè)或更多的不同取值,這些取值常稱為水平(level)。 每一種不同的水平組合就代表一種不同的情形。列聯(lián)表的結(jié)構(gòu)(2 2 列聯(lián)表)列(cj)行 (ri)列( cj )合計(jì)j =1j =2i =1f11f12f11+ f12i =2f21f22f21+ f22合計(jì)f11+ f21f12+ f22n列聯(lián)表的結(jié)構(gòu)(r c 列聯(lián)表的一般表示)fij表示第 i 行第 j 列的觀察頻數(shù)列(cj)行(ri)列(cj
7、)合計(jì)j =1j = 2i =1f11f12r1i = 2f21f22r2:合計(jì)c1c2n高維列聯(lián)表關(guān)于某項(xiàng)政策調(diào)查的結(jié)果3 2 2 列聯(lián)表觀點(diǎn):贊成觀點(diǎn):反對(duì)低收入中等收入高收入低收入中等收入高收入男201055810女25157279觀察值的分布1.邊緣分布行邊緣分布o(jì)o行觀察值的合計(jì)數(shù)的分布例如,贊成改革方案的共有279人,反對(duì)改革方案的141 人列邊緣分布o(jì)o列觀察值的合計(jì)數(shù)的分布例如,四個(gè)分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人2.條件分布與條件頻數(shù)變量 X 條件下變量 Y的分布的分布,或在變量 Y條件下變量 X每個(gè)具體的觀察值稱為條件頻數(shù)觀察值的分布(圖示)行
8、邊緣分布條件頻數(shù)列邊緣分布一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420百分比分布(概念要點(diǎn))1.2.條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對(duì)比為在相同的基數(shù)上進(jìn)行比較,可以計(jì)算相應(yīng)的百分比,稱為百分比分布行百分比:行的每一個(gè)觀察頻數(shù)除以相應(yīng)的行合計(jì)數(shù)(fij / ri)列百分比:列的每一個(gè)觀察頻數(shù)除以相應(yīng)的列合計(jì)數(shù)( fij / cj )總百分比:每一個(gè)觀察值除以觀察值的總個(gè)數(shù)( fij / n )期望頻數(shù)的分布1.2.假定行變量和列變量是獨(dú)立的一個(gè)實(shí)際頻數(shù) fij 的期望頻數(shù) eij ,是總頻數(shù)的個(gè)數(shù) n 乘
9、以該實(shí)際頻數(shù) fij 落入第 i 行 和第j列的概率,即 c jri c j ri= n =nneijnc2統(tǒng)計(jì)量1.2.3.用于檢驗(yàn)列聯(lián)表中變量間擬合優(yōu)度和獨(dú)立性用于測(cè)定兩個(gè)分類變量之間的相關(guān)程度計(jì)算公式為( f- e)2rc= c 2ijijeiji=1j =1其自由度為(r - 1)(c - 1)式中:fij 列聯(lián)表中第i行第j列類別的實(shí)際頻數(shù)eij 列聯(lián)表中第i行第j列類別的期望頻數(shù)列聯(lián)表中的相關(guān)測(cè)量一.二.三.j 相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V 相關(guān)系數(shù)j相關(guān)系數(shù)(correlation coefficient)1.2.3.測(cè)度22列聯(lián)表中數(shù)據(jù)相關(guān)程度對(duì)于22 列聯(lián)表,j 系數(shù)的值在01之間
10、j 相關(guān)系數(shù)計(jì)算公式為c 2j =nn為實(shí)際頻數(shù)的總個(gè)數(shù),即樣本容量列聯(lián)相關(guān)系數(shù)(coefficient of contingency)1.2.用于測(cè)度大于22列聯(lián)表中數(shù)據(jù)的相關(guān)程度計(jì)算公式為c 2C =c 2+ nC 的取值范圍是 0C1C = 0表明列聯(lián)表中的兩個(gè)變量獨(dú)立C的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù), 并隨行數(shù)和列數(shù)的增大而增大根據(jù)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較V 相關(guān)系數(shù)(V correlation coefficient)1.計(jì)算公式為c 2V=n min(r -1),(c -1)式中:min (r - 1), (c - 1)表示取(r - 1), (c - 1)中
11、較小的一個(gè)V 的取值范圍是 0V1V = 0表明列聯(lián)表中的兩個(gè)變量獨(dú)立V=1表明列聯(lián)表中的兩個(gè)變量完全相關(guān)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較當(dāng)列聯(lián)表中有一維為2,min(r-1),(c-1)=1,此時(shí)V=j2.3.4.5.6.j、C、V 的比較同一個(gè)列聯(lián)表,j、C、V 的結(jié)果會(huì)不同不同的列聯(lián)表,j、C、V 的結(jié)果也不同在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)1.2.3.操作步驟按 Analyze-Descriptive Statistics- Crosstabs 順序打開 Crosstabs 主對(duì)話框。Crosstabs
12、對(duì)話框顯示每一組中各變量的分類條形圖。精確檢驗(yàn)exact只輸出統(tǒng)計(jì)量,不輸出列聯(lián)表。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個(gè)控制變量該框中的變量作為分布表中的列變量,該框中的變量作為分布表中的行變量,Statistics 對(duì)話框內(nèi)部一致性系數(shù),用于檢驗(yàn)兩個(gè)評(píng)估人對(duì)同一對(duì)象的評(píng)估是否具有一致系。相對(duì)危險(xiǎn)度,檢驗(yàn)?zāi)持g的關(guān)系發(fā)生和某因子進(jìn)行兩個(gè)相關(guān)的二值變量的非參數(shù)檢驗(yàn)進(jìn)行一個(gè)二值因素變量和一個(gè)二值響應(yīng)變量的獨(dú)立性檢驗(yàn)。適用于連兩定序變量,相關(guān)性檢驗(yàn)適用于一定類一定距變量:用于檢驗(yàn)相關(guān)性適用于定類變量的統(tǒng)計(jì)量: 相關(guān)性檢驗(yàn)卡方檢驗(yàn)計(jì)算相關(guān)系 數(shù) : Pearson相關(guān)系數(shù)和Spea
13、rman 相關(guān)系數(shù)Crosstabs的Cell Display 對(duì)話框計(jì)算非標(biāo)準(zhǔn)化殘差計(jì)算標(biāo)準(zhǔn)化殘差計(jì)算調(diào)整后殘差輸出單元格中觀測(cè)量的數(shù)目占整行全部觀測(cè)量數(shù)目的百分比輸出單元格中觀測(cè)值的數(shù)目占整列全部觀測(cè)量數(shù)目的百分比輸出單元格中觀測(cè)量的數(shù)目占全部觀測(cè)量數(shù)目的百分比輸出觀測(cè)量的實(shí)際數(shù)量如果行和列變量在統(tǒng)計(jì)上是獨(dú)立的或不相關(guān)的, 那么會(huì)在單元格中輸出期望的觀測(cè)值的數(shù)量。選擇在列聯(lián)表中輸出的統(tǒng)計(jì)量, 包括觀測(cè)量數(shù)、百分比、殘差Table Format對(duì)話框決定各行的排列順序: 各行的排列按升序各行的排列按降序?qū)嵗治鰧?duì)居民儲(chǔ)蓄調(diào)查數(shù)據(jù).sav建立列聯(lián)表,分析戶口和職業(yè)的關(guān)系CROSSTABS/TA
14、BLES=a13BY a14/FORMAT= AVALUE TABLES/CELLS= COUNT/COUNT ROUND CELL .實(shí)例分析1為了探討吸煙與慢性支氣管炎有無(wú)關(guān)系,調(diào)查了339人,情況如下:(數(shù)據(jù)為:吸煙與支氣管炎.sav)患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙13121實(shí)例分析1 操作步驟:在Data菜單中選Weight Cases項(xiàng),打開Weight Cases對(duì)話框。 Weight Cases by,再將變量x3選入Frequence Variable 框,單擊OK完成加權(quán)。按Analyze-Descriptive Statistics-Crootabs 順
15、序打開Crootabs 主對(duì)話框。將x1變量 選入Row框作為行變量, 將x2變量選入Column 框作為列變量。打開Statistics對(duì)話框,選中Chi-square、Contingencycoefficient和Phi and CramersV復(fù)選框,單擊Continue返回。單擊Cell按鈕,打開Cell display對(duì)話框,選中observed和Expected復(fù)選框,單擊Continue返回;單擊OK。2輸出結(jié)果及分析輸出結(jié)果如下表:表吸煙與患病統(tǒng)計(jì)摘要表統(tǒng)計(jì)摘要表,列出觀測(cè)量有效值個(gè)數(shù)、缺失值個(gè)數(shù)和總的個(gè)數(shù)。從列聯(lián)表中可看出,吸煙人中患病者有43 人,比期望值33.9大,不吸煙
16、人中患病者只有13人,比期望值22.1小。Cas e Pr ocess ing Summa ryCasesValidMissingTotalNPercentNPercentNPercent是否吸煙 * 是否患病339100.0%0.0%339100.0%表吸煙與患病列聯(lián)表表卡方檢驗(yàn)Chi-Square Testsa. Computed only for a 2x2 tableb. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.14.ValuedfAsymp. Sig. (2-sid
17、ed)Exact Sig. (2-sided)Exact Sig. (1-sided)Pearson Chi-SquareContinuity Correction a Likelihood Ratio Fishers Exact TestLinear-by-Linear AssociationN of Valid Cases7.469b6.6747.9257.4473391111.006.010.005.006.007.004是否吸煙 * 是否患病 Crosstabulation是否患病Total患病不患病是否吸煙吸煙CountExpected Count4333.9162171.12052
18、05.0不吸煙CountExpected Count1322.1121111.9134134.0TotalCountExpected Count5656.0283283.0339339.0卡方檢驗(yàn)表中可看出,Chi-Square值為7.469,顯著值為0.0060.05,應(yīng)零假設(shè),即認(rèn)為吸煙與患慢性支氣管炎是不獨(dú)立的。由于使用卡方檢驗(yàn)要求每個(gè)單元格頻數(shù)不少于5,當(dāng)條件不滿足時(shí),還可用Fisher精確檢驗(yàn)。其雙側(cè)檢驗(yàn)顯著值為0.007。對(duì)稱性測(cè)量表表明,變量間相關(guān)關(guān)系弱, 不應(yīng)拒絕原假設(shè)表對(duì)稱性檢驗(yàn)表Symmetric Measuresa. Not assuming the null hypothesis.b. Using the asymptotic standard error
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)藝術(shù)學(xué)(音樂欣賞)試題及答案
- 七年級(jí)生物(生物體的結(jié)構(gòu))2026年上學(xué)期期末測(cè)試卷
- 2025年大學(xué)大三(統(tǒng)計(jì)學(xué))多元統(tǒng)計(jì)分析基礎(chǔ)試題及答案
- 2025年大學(xué)(公共關(guān)系學(xué))危機(jī)公關(guān)處理期末試題及答案
- 第2講 帶電粒子在磁場(chǎng)中的運(yùn)動(dòng)
- 中職第二學(xué)年(內(nèi)科護(hù)理)內(nèi)科常見病護(hù)理2026年綜合測(cè)試題及答案
- 2025年高職軟件工程(面向?qū)ο缶幊蹋┰囶}及答案
- 深度解析(2026)GBT 18310.39-2001纖維光學(xué)互連器件和無(wú)源器件 基本試驗(yàn)和測(cè)量程序 第2-39部分試驗(yàn) 對(duì)外界磁場(chǎng)敏感性
- 深度解析(2026)《GBT 17980.110-2004農(nóng)藥 田間藥效試驗(yàn)準(zhǔn)則(二) 第110部分殺菌劑防治黃瓜細(xì)菌性角斑病》
- 深度解析(2026)《GBT 17967-2000信息技術(shù) 開放系統(tǒng)互連 基本參考模型 OSI服務(wù)定義約定》
- 2025年高職物理(電磁學(xué)基礎(chǔ))試題及答案
- 技術(shù)部門項(xiàng)目交付驗(yàn)收流程與標(biāo)準(zhǔn)
- 林場(chǎng)管護(hù)知識(shí)培訓(xùn)課件
- 公司反貪腐類培訓(xùn)課件
- 寢室內(nèi)務(wù)規(guī)范講解
- 部隊(duì)地雷使用課件
- 航空材料基礎(chǔ)培訓(xùn)課件
- 2025至2030軍工自動(dòng)化行業(yè)市場(chǎng)深度研究及發(fā)展前景投資可行性分析報(bào)告
- 老舊小區(qū)消防系統(tǒng)升級(jí)改造方案
- 起重機(jī)械應(yīng)急救援預(yù)案演練記錄
- 護(hù)理事業(yè)十五五發(fā)展規(guī)劃(2026-2030年)
評(píng)論
0/150
提交評(píng)論