4章SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能071111.ppt_第1頁(yè)
4章SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能071111.ppt_第2頁(yè)
4章SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能071111.ppt_第3頁(yè)
4章SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能071111.ppt_第4頁(yè)
4章SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能071111.ppt_第5頁(yè)
已閱讀5頁(yè),還剩84頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、4.1 參數(shù)估計(jì) 4.2 假設(shè)檢驗(yàn) 4.3 相關(guān)分析 4.4 回歸分析,第四章 SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能,總體均值的區(qū)間估計(jì),總體方差 已知時(shí):,總體方差 未知時(shí):,(給定顯著性水平 ),某學(xué)校在新生中隨機(jī)抽出25名學(xué)生做IQ測(cè)試,測(cè)試的平均成績(jī)?yōu)?20分;若新生的IQ成績(jī)服從正態(tài)分布,且其標(biāo)準(zhǔn)差為5分,在顯著性水平為0.05條件下,試建立IQ平均成績(jī)的置信區(qū)間。,data IQSCORE1; n=25;mean=120;sigma=5;alpha=0.05; z=probit(1- alpha/2); lc=mean-z*sigma/sqrt(n); uc=mean+z*sigma/sq

2、rt(n); proc print; run;,例4.1,總體均值的區(qū)間估計(jì),(給定顯著性水平 ),(標(biāo)準(zhǔn)正態(tài)分布左側(cè)p分位數(shù)),例4.2,若例4.1中,新生總體IQ成績(jī)的標(biāo)準(zhǔn)差未知,其樣本標(biāo)準(zhǔn)差的計(jì)算結(jié)果為5分,在顯著性水平為0.05條件下,試建立IQ平均成績(jī)的置信區(qū)間。,data IQSCORE2; n=25;mean=120; s=5; alpha=0.05; t=tinv(1- alpha/2),n-1); lc=mean-t*s/sqrt(n); uc=mean+t*s/sqrt(n); proc print; run;,總體均值的區(qū)間估計(jì),(給定顯著性水平 ),(t分布的左側(cè)p分位

3、數(shù)),data E3; n=100; s2=9; alpha=0.01; chi1=cinv(alpha/2,n-1); chi2=cinv(1-alpha/2),n-1); lc=(n-1)*s2/chi2; uc=(n-1)*s2/chi1; proc print;run;,(卡方分布的左側(cè)p分位數(shù)),對(duì)于正態(tài)分布總體,當(dāng)已知樣本的原始數(shù)據(jù)時(shí),可以利用Capability過(guò)程的Intervals語(yǔ)句計(jì)算總體均值和方差的置信區(qū)間,或者利用Means過(guò)程的CLM統(tǒng)計(jì)量計(jì)算總體均值95的置信區(qū)間。,輸出結(jié)果:,用SAS/INSIGHT作置信區(qū)間,輸出結(jié)果:,用分析員應(yīng)用作置信區(qū)間,輸出結(jié)果:,4

4、.1 參數(shù)估計(jì) 4.2 假設(shè)檢驗(yàn) 4.3 相關(guān)分析 4.4 回歸分析,第四章 SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能,正態(tài)性檢驗(yàn),用編程作正態(tài)性檢驗(yàn),在PROC UNIVARIATE語(yǔ)句中加上NORMAL選項(xiàng),輸出結(jié)果(部分),步驟,步驟,用SAS/INSIGHT作正態(tài)性檢驗(yàn),用分析員應(yīng)用作正態(tài)性檢驗(yàn),兩獨(dú)立樣本的均值檢驗(yàn),用編程作兩獨(dú)立樣本的均值檢驗(yàn),設(shè) 和 分別是來(lái)自?xún)蓚€(gè)正態(tài)分布總體 和 的獨(dú)立樣本,檢驗(yàn)假設(shè):,PROC TTEST DATA=數(shù)據(jù)集; CLASS分類(lèi)變量名; VAR分析變量名列; RUN;,TTEST過(guò)程的一般形式:,輸出結(jié)果:,用分析員應(yīng)用作兩獨(dú)立樣本的均值檢驗(yàn),(作均值檢驗(yàn)前需

5、先檢驗(yàn)兩樣本方差是否相等),(SAS/INSIGHT未提供兩獨(dú)立樣本均值檢驗(yàn)的功能),輸出結(jié)果,?,檢驗(yàn)兩獨(dú)立樣本的方差是否相等:,方差檢驗(yàn)輸出結(jié)果,若樣本呈非正態(tài)分布,則t檢驗(yàn)無(wú)效,可使用非參數(shù)檢驗(yàn)中的Wilcoxon秩和檢驗(yàn)方法檢驗(yàn)兩獨(dú)立樣本的中心位置是否相同。,輸出結(jié)果,配對(duì)樣本的均值檢驗(yàn),設(shè) 為第 個(gè)樣本單位實(shí)驗(yàn)前后的對(duì)比測(cè)量值,且 , 為 總體的均值,則檢驗(yàn)假設(shè):,data tempulse; set sunny.pulse; d=pre-post; run; proc means mean stderr prt maxdec=4; var d; run;,輸出結(jié)果,輸出結(jié)果(部分)

6、,4.1 參數(shù)估計(jì) 4.2 假設(shè)檢驗(yàn) 4.3 相關(guān)分析 4.4 回歸分析,第四章 SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能,正態(tài)分布等間隔測(cè)度的變量X與Y之間的相關(guān)關(guān)系,可用皮爾遜(Pearson)相關(guān)系數(shù)來(lái)測(cè)算,即:,有序變量或不滿(mǎn)足正態(tài)分布假設(shè)的變量X與Y之間的相關(guān)關(guān)系,可用斯皮爾曼(Spearman)等級(jí)相關(guān)系數(shù)來(lái)測(cè)算,即:,式中, 分別為變量 秩次, 分別為 的平均。,相關(guān)系數(shù)的計(jì)算,編程,常用選項(xiàng)有:,PEARSON 計(jì)算皮爾遜相關(guān)系數(shù)(缺省值); SPEARMAN 計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù); NOSIMPLE 不打印輸出各變量的描述性統(tǒng)計(jì)量; NOPROB 省略檢驗(yàn)統(tǒng)計(jì)量p-值; COV(CO

7、VARIANCE) 打印協(xié)方差矩陣; NOCCORR 儲(chǔ)存時(shí)省略相關(guān)系數(shù); OUTP= 指定皮爾遜相關(guān)系數(shù)存儲(chǔ)的數(shù)據(jù)集; OUTS= 指定斯皮爾曼相關(guān)系數(shù)存儲(chǔ)的數(shù)據(jù)集。,數(shù)據(jù)集SUNNY.CARS是關(guān)于不同類(lèi)型汽車(chē)的價(jià)格和性能的數(shù)據(jù)資料,各變量含義如下: MANUFAC(制造商)、MODEL (型號(hào))、 MIDPRICE (中間價(jià))、CITYMPG (市內(nèi)每加侖油平均行駛哩數(shù))、HWYMPG (高速公路每加侖油平均行駛哩數(shù))、CYLINDER (汽缸數(shù))、EGNSIZE (配置引擎容量:升)、RPM (達(dá)到最大功率時(shí)每分鐘轉(zhuǎn)數(shù))、 REVLTNS (最高速行駛一哩時(shí)引擎轉(zhuǎn)數(shù))、 FUELTNK

8、 (儲(chǔ)油箱容量:加侖)、 PERFORM (使用效率:功率與車(chē)重之比)。,例4.9,輸出結(jié)果,proc corr data=sunny.cars nosimple noprob; var midprice citympg hwympg cylinder egnsize; with rpm perform; run;,相關(guān)系數(shù)的計(jì)算,步驟,SAS/INSIGHT方式,分析員應(yīng)用方式,4.1 參數(shù)估計(jì) 4.2 假設(shè)檢驗(yàn) 4.3 相關(guān)分析 4.4 回歸分析,第四章 SAS系統(tǒng)的基本統(tǒng)計(jì)分析功能,4.4 回歸分析,4.4.1 回歸分析概述 4.4.2 線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.3 非線(xiàn)性回歸及其實(shí)現(xiàn)

9、4.4.4 回歸診斷,現(xiàn)象之間的相互聯(lián)系,在許多情況下表現(xiàn)為一定的因果關(guān)系,將這些現(xiàn)象數(shù)量化則成為變量:其中一個(gè)或若干個(gè)起著影響作用的變量稱(chēng)為自變量,通常用X表示,它是引起另一現(xiàn)象變化的原因,是可以控制、給定的值;而受自變量影響的變量稱(chēng)為因變量,通常用Y表示,它是自變量變化的結(jié)果,是不確定的值。,各類(lèi)回歸分析的SAS過(guò)程及對(duì)資料的要求,4.4 回歸分析,4.4.1 回歸分析概述 4.4.2 線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.3 非線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.4 回歸診斷,線(xiàn)性回歸分析,式中: 分別為因變量和自變量的第 次觀測(cè)值; 為待估參數(shù); 為殘差(假設(shè)滿(mǎn)足相互獨(dú)立、正態(tài)分布、零均值、同方差)。,一元

10、線(xiàn)性回歸模型:,利用最小二乘法(LSE)估計(jì)未知參數(shù) ,有:,即回歸趨勢(shì)方程為:,只有通過(guò)統(tǒng)計(jì)檢驗(yàn)的回歸方程才可以用來(lái)解釋 之間的關(guān)系,并根據(jù) 的取值對(duì)相應(yīng)的 進(jìn)行預(yù)測(cè); 檢驗(yàn)回歸方程擬合程度的統(tǒng)計(jì)量及參數(shù)主要有:用來(lái)檢驗(yàn)回歸系數(shù)顯著性的 值及其概率 和標(biāo)準(zhǔn)差,用來(lái)檢驗(yàn)回歸方程整體擬合優(yōu)度及顯著性的 值及其概率 、判定系數(shù) 、標(biāo)準(zhǔn)差 、自由度 等。,線(xiàn)性回歸分析,點(diǎn)預(yù)測(cè),線(xiàn)性回歸分析,單個(gè)預(yù)測(cè)值的置信區(qū)間(CLI),預(yù)測(cè)值均值(回歸均值)的置信區(qū)間(CLM),預(yù)測(cè)(已知 預(yù)測(cè) ),線(xiàn)性回歸分析,則多元線(xiàn)性回歸模型為:,記,利用最小二乘法(LSE)估計(jì)未知參數(shù) ,有:,線(xiàn)性回歸分析,點(diǎn)預(yù)測(cè),線(xiàn)性

11、回歸分析,單個(gè)預(yù)測(cè)值的置信區(qū)間(CLI),預(yù)測(cè)(已知 ,預(yù)測(cè) ),預(yù)測(cè)值均值(回歸均值)的置信區(qū)間(CLM),REG過(guò)程可以計(jì)算回歸函數(shù)的各種參數(shù)、顯著性檢驗(yàn)、方差分析、置信區(qū)間、殘差分析等。,線(xiàn)性回歸分析,PROC REG過(guò)程的常用選項(xiàng)有:,SIMPLE 計(jì)算并打印各變量的基本描述性統(tǒng)計(jì)量; SXORR 打印各變量的相關(guān)行列式; NOPRINT 不打印輸出; OUTEST=數(shù)據(jù)集名 指定回歸值輸出的數(shù)據(jù)集; COVOUT=數(shù)據(jù)集名 將所估計(jì)的協(xié)方差陣存入數(shù)據(jù)集; OUTSSCP=數(shù)據(jù)集名 指定相關(guān)矩陣輸出的數(shù)據(jù)集。,線(xiàn)性回歸分析,MODEL語(yǔ)句常用選項(xiàng)有:,MODEL語(yǔ)句用來(lái)設(shè)定回歸模型中因

12、變量、自變量及有關(guān)回歸計(jì)算、估計(jì)、預(yù)測(cè)值和殘差等內(nèi)容。,MODEL語(yǔ)句常用選項(xiàng)有:,回歸線(xiàn)的作圖,proc reg data=sunny.bclass; model weight=height/CLM; run; proc gplot data=sunny.bclass; plot weight*height; symbol v=star h=0.7 i=rl c=orange ci=blue w=2; run;,Data new; input height ; cards; 170 173 174 175 ; proc sort data=sunny.bclass out=sorted; b

13、y height; Data new; Set sorted new; proc reg data=new; model weight=height/p; id height; run;,proc reg data=sunny.cars; model midprice=citympg hwympg cylinder egnsize rpm revltns fueltnk perform/selection=stepwise; run;,proc reg data=sunny.cars; model midprice=citympg hwympg cylinder egnsize rpm rev

14、ltns fueltnk perform; run; /* delete citympg hwympg fueltnk perform; print; run;*/,REG過(guò)程具有連續(xù)交互性,執(zhí)行了部分語(yǔ)句后,仍可繼續(xù)提交語(yǔ)句讓它執(zhí)行,直至提交quit語(yǔ)句或因執(zhí)行其它過(guò)程而終止.,SAS/INSIGHT方式,分析員應(yīng)用方式,線(xiàn)性回歸分析,4.4 回歸分析,4.4.1 回歸分析概述 4.4.2 線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.3 非線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.4 回歸診斷,非線(xiàn)性回歸分析,當(dāng)兩變量呈非線(xiàn)性關(guān)系時(shí),可對(duì)變量作變換后再作線(xiàn)性回歸分析,也可以利用PROC NLIN或PROC GLM過(guò)程直接進(jìn)行

15、非線(xiàn)性擬合; 若進(jìn)入回歸的變量有一定的優(yōu)先次序(如對(duì)多項(xiàng)式,線(xiàn)性項(xiàng)先于二次項(xiàng),二次項(xiàng)先于三次項(xiàng)等),應(yīng)該用型平方和及相應(yīng)的 統(tǒng)計(jì)量;若平等地考慮各個(gè)變量是否進(jìn)入回歸,則可用平方和及其相應(yīng)的 統(tǒng)計(jì)量。,擬合多項(xiàng)式回歸,SAS/INSIGHT方式,進(jìn)入INSIGHT方式并調(diào)入數(shù)據(jù)后,在下拉菜單中選:,擬合多項(xiàng)式回歸,編程,Data tem; set sunny.bclass; a2=height*height; a3=height*height*height; a4=height*height*height*height; Run; proc glm data=tem; model weight=

16、height a2 a3 a4/ss1; run;,4.4 回歸分析,4.4.1 回歸分析概述 4.4.2 線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.3 非線(xiàn)性回歸及其實(shí)現(xiàn) 4.4.4 回歸診斷,回歸診斷,合適模型,存在有例外數(shù)據(jù)點(diǎn),模型不合適,存在有強(qiáng)影響點(diǎn),回歸診斷,回歸診斷的方法,考察余差,由余差與因變量的散點(diǎn)圖,考察余差是否滿(mǎn)足等方差、相互獨(dú)立的假定或模型是否適合; 直接由余差的散點(diǎn)圖,考察余差是否滿(mǎn)足等方差、相互獨(dú)立的的假定或模型是否適合; 由標(biāo)準(zhǔn)化余差(standardized residual)或?qū)W生化余差(studentized residual),檢測(cè)各觀測(cè)數(shù)據(jù)相對(duì)于擬合的回歸是否為例外點(diǎn)(

17、一般認(rèn)為標(biāo)準(zhǔn)化余差絕對(duì)值超過(guò)2者,需考察其是否為例外點(diǎn))。,有時(shí)將標(biāo)準(zhǔn)化余差也稱(chēng)作學(xué)生化的,而把學(xué)生化余差稱(chēng)作將觀測(cè)排除在外的(studentized residual without current Obs),回歸診斷的方法,識(shí)別有影響的觀測(cè),DFFITS統(tǒng)計(jì)量是衡量一個(gè)觀測(cè)排除與否對(duì)預(yù)測(cè)影響的統(tǒng)計(jì)量,若 ( 為進(jìn)入回歸的自變量個(gè)數(shù)),則可認(rèn)為該觀測(cè)是對(duì)回歸有較大影響的觀測(cè); Cook D統(tǒng)計(jì)量是從回歸系數(shù)的改變來(lái)衡量一個(gè)觀測(cè)影響的統(tǒng)計(jì)量,若 ,則可認(rèn)為該觀測(cè)是對(duì)回歸有較大影響的觀測(cè)。,回歸診斷的方法,共線(xiàn)性診斷,由方差膨脹因子 來(lái)衡量回歸系數(shù)估計(jì)量由于自變量共線(xiàn)性而引起的方差增加相對(duì)量,若

18、 ,則可認(rèn)為該自變量有共線(xiàn)性問(wèn)題存在; 由條件指數(shù)(Condition Index)衡量變量間的線(xiàn)性相關(guān)程度,若條件指數(shù)過(guò)大并伴隨一個(gè)變量超過(guò)0.5的方差比例,則可認(rèn)為該自變量有共線(xiàn)性問(wèn)題存在(一般認(rèn)為條件指數(shù)值在1030之間為弱相關(guān),在30100之間為中等相關(guān),大于100為強(qiáng)相關(guān)) 。,回歸診斷的方法,復(fù)驗(yàn)數(shù)據(jù),確認(rèn)有無(wú)數(shù)據(jù)輸入錯(cuò)誤發(fā)生; 若數(shù)據(jù)有效,則模型可能不適合,可考慮使用高階模型; 對(duì)于有效但可能反常的數(shù)據(jù),可考慮增加樣本容量以驗(yàn)證現(xiàn)有的擬合結(jié)果; 因?yàn)槟承┯杏绊懹^測(cè)可能包含重要信息,不能輕易將其剔除,若要剔除,也應(yīng)給出對(duì)剔除觀測(cè)的描述和說(shuō)明。,對(duì)于例外觀測(cè)或強(qiáng)影響觀測(cè)的處理:,回歸

19、診斷的實(shí)現(xiàn),SAS/INSIGHT方式,考察余差 :,SAS/INSIGHT方式,考察余差 :,回歸診斷的實(shí)現(xiàn),輸出結(jié)果:,利用右鍵彈出菜單中Extract選項(xiàng)生成數(shù)據(jù)子集:,SAS/INSIGHT方式,檢測(cè)觀測(cè)對(duì)回歸的影響- Cook D,回歸診斷的實(shí)現(xiàn),輸出結(jié)果:,利用右鍵彈出菜單中Extract選項(xiàng)生成數(shù)據(jù)子集:,SAS/INSIGHT方式,回歸診斷的實(shí)現(xiàn),檢測(cè)觀測(cè)對(duì)回歸的影響- Dffits,輸出結(jié)果:,利用右鍵彈出菜單中Extract選項(xiàng)生成數(shù)據(jù)子集:,SAS/INSIGHT方式,共線(xiàn)性診斷-方差膨脹因子,回歸診斷的實(shí)現(xiàn),利用Fit(X Y)菜單擬合線(xiàn)性回歸時(shí),方差膨脹因子(VIF)

20、自動(dòng)包含在擬合窗中,由輸出結(jié)果可以看出,各變量的方差膨脹因子均小于10,即可認(rèn)為模型中各自變量間不存在共線(xiàn)性問(wèn)題。,SAS/INSIGHT方式,共線(xiàn)性診斷-條件指數(shù)和方差比例,回歸診斷的實(shí)現(xiàn),輸出結(jié)果:,分析員應(yīng)用方式,回歸診斷的實(shí)現(xiàn),制作余差或標(biāo)準(zhǔn)化余差等的散點(diǎn)圖 :,輸出結(jié)果:,分析員應(yīng)用方式,回歸診斷的實(shí)現(xiàn),考察余差及有影響的觀測(cè),輸出結(jié)果(diagnostics table):,(可將該結(jié)果另存為SAS數(shù)據(jù)集work.diagnostics),輸出結(jié)果:,分析員應(yīng)用方式,回歸診斷的實(shí)現(xiàn),共線(xiàn)性診斷,輸出結(jié)果(部分):,編程,回歸診斷的實(shí)現(xiàn),proc reg data=sunny.cars; model midprice=cylinder

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論