用SAS作回歸分析PPT課件講義_第1頁
用SAS作回歸分析PPT課件講義_第2頁
用SAS作回歸分析PPT課件講義_第3頁
用SAS作回歸分析PPT課件講義_第4頁
用SAS作回歸分析PPT課件講義_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

用SAS作回歸分析SASInstitute(Shanghai)Co.,Ltd.1(RegressionAnalysis)變量的相關(guān)關(guān)系散點(diǎn)圖是直觀地觀察連續(xù)變化變量間相依

關(guān)系的重要工具Insight,Air或Iris看散點(diǎn)圖陣2Insight:AnalyzeScatterplot(YX)或

Multivariate(Y's)編程:procgplotAnalyst:GraphsScatterplot變量的相關(guān)關(guān)系3用直線描述用曲線描述可能有周期變化無明顯關(guān)系相關(guān)系數(shù)(CorrelationCoef.)線性聯(lián)系是描述變量聯(lián)系中最簡單和最常

用的一種(Y=a1x1+a2x2+b)相關(guān)系數(shù)是描述兩個變量間線性聯(lián)系程度

的統(tǒng)計指標(biāo)相關(guān)系數(shù)的計算公式:InsightIris看散點(diǎn)圖與相關(guān)4相關(guān)系數(shù)(CorrelationCoef.)5正相關(guān):一個變量數(shù)值增加時另一個變量也增加負(fù)相關(guān):一個變量數(shù)值增加時另一個變量減少相關(guān)系數(shù)(CorrelationCoef.)Insight:置信橢圓6若變量有高度線性相關(guān)時相關(guān)系數(shù)接近1若變量有正相關(guān)時相關(guān)系數(shù)>0若變量有負(fù)相關(guān)時相關(guān)系數(shù)<0相關(guān)系數(shù)(CorrelationCoef.)強(qiáng)相關(guān)并不表示存在因果關(guān)系7弱相關(guān)并不表示變量間不存在關(guān)系個別極端數(shù)據(jù)可能影響相關(guān)系數(shù)相關(guān)系數(shù)的計算

SAS/INSIGHT8

AnalyzeMultivariate(Y's)

OutputCorr在多變量分析窗中,由下拉菜單

TablesCorr在散點(diǎn)圖上加置信橢圓認(rèn)識相關(guān)大小

CurvesConfidenceEllipse

Prediction:...相關(guān)系數(shù)的計算

Analyst9StatisticsDescriptiveCorrelations散點(diǎn)圖與相關(guān)計算

Insight散點(diǎn)圖:bclassY:W,X:H,sex:顏色

age:符號,放大散點(diǎn)圖陣:carsmidprice,citympg,egnsize,rpm,fueltnk,perform旋轉(zhuǎn)圖:cars(iris)perform,egnsize,idprice相關(guān)系數(shù):carsmidprice,citympg,hwympg,egnsize,rpm,perform+p-value+置信橢圓10散點(diǎn)圖與相關(guān)計算

Analyst與編程Analyst:相關(guān)計算:fitnessOxygen,rstpulse,runpulse,runtime+options:p-value+plots散點(diǎn)圖+置信橢圓編程:carsp2395變量相關(guān)p241nosimplenoprobwith11相關(guān)系數(shù)的計算Cor001Class,Cor002Fitnesswith,Cor003Cars1n不等12PROCCORRDATA=數(shù)據(jù)集名;

RUN;PROCCORRDATA=數(shù)據(jù)集名;

var變量名列;with變量名列;partial變量名列;by變量名列;

RUN;相關(guān)與回歸相關(guān)分析量化連續(xù)變化變量間線性相

關(guān)的強(qiáng)度回歸分析確定一個連續(xù)變量與另一些

連續(xù)變量間的關(guān)系13回歸(Regression)描述一個變量與另一些變量間統(tǒng)計聯(lián)系的關(guān)系式,Y=f(x1,x2,...,xm),用于解釋和預(yù)測。確定回歸: 確定變量:Y

與那些x1,x2,..,xm

有關(guān) 選擇形式:Y

與x1,x2,..,xm

以什麼形式

相聯(lián)系,即f

的表示式 確定系數(shù):確定Y=a1x1+a2x1x2+a3x12+...

中的ai

14回歸的簡單線性模型Yi=b0+b1xi+ei

i=1,2,...,n

Yi:因變量的第

i

次觀測值

xi:

自變量的第i次觀測值

b0,b1:

待估計的未知參數(shù)

ei:

余差(residual相互獨(dú)立,正態(tài)分布,零均值,同方差)一般的:Yi=b0+b1x1i+b2x2i+...+bpxpi+ei

15回歸的簡單線性模型16回歸的簡單線性模型17線性回歸的擬合18最小二乘法估計(LSE)19SAS/INSIGHT

擬合線性回歸20散點(diǎn)圖、擬合:AnalyzeFit(X,Y)Noint:強(qiáng)制截距為零下拉菜單:

Tables:

方程、參數(shù)、Anova預(yù)測值計算:在數(shù)據(jù)表獨(dú)立變量欄鍵入數(shù)據(jù)Curve:置信曲線(ind.,mean)簡單線性回歸

Insight----AnalystInsight:Cars:Y:midprice,X:perform

解釋輸出結(jié)果生成預(yù)測加回歸和預(yù)測置信帶shipment:Y:costnointAnalyst:Fitness:Y:oxygen,X:runtime+plot散點(diǎn)圖+置信帶shipment:nointY:cost,X:delay21回歸的方差分解22總變異回歸闡明部分回歸未闡明部分回歸的方差分解23....回歸的方差分解

24回歸的假設(shè)檢驗原假設(shè):簡單線性模型擬合數(shù)據(jù)不比基線

模型好

b1=0,

r=0,|b1|小,SS(Model)小備選假設(shè):簡單線性模型擬合數(shù)據(jù)比基線

模型好

b1^=0,

r

^=0,|b1|不為零,SS(Model)大25

26回歸的方差分解SS(Total)27=SS(error)+SS(Ind.-var)+SS(Const.)預(yù)測值與置信限

28回歸分析計算

Analyst29Analyst:Statistics

Regression

Simple...回歸分析計算30PROCREGDATA=數(shù)據(jù)集名;

MODEL應(yīng)變量=自變量;

RUN;回歸分析計算P:p,加預(yù)測值和余差31PROCREGDATA=數(shù)據(jù)集名;

MODEL應(yīng)變量=自變量;

RUN;PROCREGDATA=數(shù)據(jù)集名;

MODEL應(yīng)變量=自變量名列/pcliclm

noprint

noint;

id=變量名;

output=數(shù)據(jù)集名關(guān)鍵統(tǒng)計量名=輸出名...;

RUN;回歸分析計算

編程P256fitnessoxy=runtimep257shipmentnointp258fitness/pidp259計算預(yù)測值p260/cli作圖p261regoxy*runtimep262/conf95pred95p264-1gplotI=rlp264-2I=rlclm95p265/overlayP266I=rl0clmp267bclassw*h=sex變換為線性Diamond32回歸分析計算p180最簡p182id/pp182_1加入新自變量預(yù)測p183/clmclip183_1加入新自變量預(yù)測p184/noprint;plotp184_1graphicsNoint:Reg033散點(diǎn),Reg034擬合Reg039_1擬合圖,Reg039_2合一Reg039_3擬合+置信變換為線性Diamond33回歸線作圖34PROCREGDATA=數(shù)據(jù)集名graphicsnoprint;

MODEL應(yīng)變量=自變量/pcliclmr;PLOTy變量*x變量/選項;symbolnc=顏色

v=值;

RUN;利用procreg中的graphics選項和plot語句

可以繪制與擬合數(shù)據(jù)有關(guān)散點(diǎn)圖、回歸線

和置信曲線、預(yù)測區(qū)間曲線graphics高分辨圖,noprint打印擬合數(shù)據(jù)回歸線作圖p185_1--4散點(diǎn),余差,CL散點(diǎn),置信曲線35PROCREGDATA=數(shù)據(jù)集名graphicsnoprint;

MODEL應(yīng)變量=自變量/pcliclmr;PLOTy變量*x變量/選項;symbolnc=顏色

v=值;

RUN;y變量和x變量可以是應(yīng)變量、

自變量和其它與回歸分析有關(guān)

的變量:p.(predicted)

預(yù)測值r.(residual)

余差U95.,L95.

預(yù)測值置信限

U95M.,L95M.預(yù)測均值置信限選項:conf95

作預(yù)測均值置信曲線pred95

作預(yù)測值置信曲線overlay將語句中規(guī)定的圖

迭置在一幅圖上AICCPMSESSE

在圖上顯示相應(yīng)的統(tǒng)

計量回歸線作圖P36PROCGPLOTDATA=數(shù)據(jù)集;

PLOT縱軸變量*橫軸變量;

RUN;PROCGPLOTDATA=數(shù)據(jù)集;

PLOT縱軸變量*橫軸變量縱軸變量*橫軸變量../overlay;symbol1i=rlcli|rlclm置信百分?jǐn)?shù)其它圖形選項;

symbol2i=rlcli|rlclm置信百分?jǐn)?shù)其它圖形選項;

RUN;圖形選項:c=value=cv=height=font=Line=

width=interpol=r<類型><0><clm|cli><50..99>ci=回歸線作圖用ProcReg

作圖P185_1散點(diǎn)+擬合P185_2r.*runtimeP185_3p.U95....P185_4擬合及置信曲線

用gplot:p186I,v,cv,hp187I,ci,w,lp188置信,clmcli/cp189overlayReg039_1--3noint擬合與置信p190class男女兩條線37多變量線性模型觀測方程

Yi=b0+b1xi1+...+bpxip+ei,i=1,...,n38ei:相互獨(dú)立、正態(tài)分布、同方差、零均值最小二乘估計:歸為b0,b1,...,bp

的一個線性方程組多變量線性模型多變量線性模型可同時研究Y與多個獨(dú)立

變量x1,x2,..,xp間的關(guān)系對多變量模型進(jìn)行解釋和選擇最優(yōu)要比單

變量的模型復(fù)雜在試驗結(jié)果的解釋、分析、預(yù)測等方面,

多變量線性模型是一個有力的工具。一些變量間的非線性關(guān)系也可歸為多變量

線性模型(例多項式關(guān)系)p276Cars2剔除hwympg,fueltnk看citympg.rpm39多變量線性模型

40平方和分解

41Options:P,CLM,CLI

42多變量線性模型的檢驗在多變量回歸分析輸出的回歸參數(shù)的t-檢驗里,都是假定其它相依變量進(jìn)入回

歸的前提下檢驗該變量進(jìn)入的顯著性。若模型中有兩個變量有相關(guān),在這一檢驗

中兩者的顯著性都可被隱蔽起來。所以,

這一檢驗結(jié)果必須小心分析。刪除變量時,必須逐個刪除。并在刪除每

個變量后,注意觀測其它變量的p-值的

變化。43變量(模型)選擇在回歸方程中,若遺漏了應(yīng)加入的變量,

將使所有的回歸系數(shù)估計量產(chǎn)生偏差;

若加入了不該加入的變量,將加大所有

的回歸系數(shù)估計量的方差?;貧w分析中變量的選擇是要在獨(dú)立變量中

找出合適的子集,用以描述模型和進(jìn)行

預(yù)報。常用的有:全部可能回歸方法(更多的侯選模型)和逐步回歸法(節(jié)省計算資源)。44變量選擇準(zhǔn)則

(逐步回歸)逐步回歸方式挑選有關(guān)的選項:NONE:全部進(jìn)入,不加選擇FORWARD:逐個加入BACKWARD:全部加入后逐個剔除STEPWISE:邊進(jìn)邊出MAXR:逐個加入和對換,使R2增加最大MINR:逐個加入和對換,使R2增加最小45變量選擇準(zhǔn)則

(逐步回歸)MAXR:開始加入使R2增加最大的變量 以后每一步選擇模型內(nèi)外變量進(jìn)行對換,

選擇R2增加最大的對換 選擇加入一個使R2增加最大的新變量MAXR:開始加入使R2增加最小的變量 以后每一步選擇模型內(nèi)外變量進(jìn)行對換,

選擇R2增加最小的對換 選擇加入一個使R2增加最小的新變量46變量選擇準(zhǔn)則

(全部回歸)

47回歸分析計算48Analyst:StatisticsRegression

Linear..變量選擇:Model多變量回歸分析Insight:FitnessY:midprice,X:其它7個數(shù)值變量+(copy)deletehwympgdst.paper多項式回歸Y:strengthamount**4+ItypetestsAnalyst:FitnessY:Oxygen,X:age,maxp,rstp.,runp.,runtimeweight+Modelmethodf.49回歸分析計算--變量選擇PROCREGDATA=數(shù)據(jù)集名;

MODEL應(yīng)變量=自變量名列/pcliclmrnoprint

selection=backward|forward|stepwise

rsquare|adjrsq|cpslentry=0.50slstay=0.10

best=個數(shù)aicsbcrmseinclude=n;id=變量名;output=數(shù)據(jù)集名關(guān)鍵統(tǒng)計量名=輸出名...;

RUN;P50多變量回歸分析變量選擇:Dst:Fitnessp282oxy=ageweightrstpmaxprunpruntp284deleterstpp285/selection=stepwisep288/sel.=rsquarebp289-1/sel.=rsq.bbest=2p289-2/sel=cpadjrsq

多項回歸:paperp290streng.=amount**3p291glm看檢驗4次

--------------------------p191全進(jìn);p192delete

p193backwardforward(slstay=slentry=0.1)p195stepwizep198rsquareadjrsqcpp199best=251擬合多項式模型多項式函數(shù)是非線性函數(shù)中較為簡單的一

類,它也可通過多元線性回歸來擬合

Y=b0+b1x+b2x2+b3x3+...引入新變量xi=xiY=b0+b1x1+b2x2+b3x3+...INSIGHT提供簡便的方法擬合多項式并顯

示圖形procreg和procglm都可用于擬合多項式Insightdst.paper,Reg084_1--2擬合及圖看SS152I型平方和I型(Sequential)平方和記錄回歸變量逐個

進(jìn)入回歸時,模型平方和的增加量53I型平方和I型平方和可轉(zhuǎn)化為F統(tǒng)計量,用以對回歸模

型Y=b0+b1x1+b2x2+b3x3+e

作如下的檢驗:54兩種平方和:SS1,SS2

55兩種平方和:SS1,SS2因此,若進(jìn)入回歸的變量有一定的優(yōu)先次序(如對多項式,線性項先二次項,二次項先于三次項等),應(yīng)該用I型平方和及相應(yīng)的F統(tǒng)計量。若平等地考慮各個變量是否進(jìn)入回歸,則可用II型平方和及其相應(yīng)的F統(tǒng)計量。56兩種平方和:SS1,SS2

Insight57Insight:TablesTypeI(III)Tests

兩種平方和:SS1,SS2

多項式:Reg084_3擬合SS1SS258Analyst:Statistics

RegressionLinear..StatisticsStatisticsSS1SS2

兩種平方和:SS1,SS259PROCREGDATA=數(shù)據(jù)集名;

MODEL

因變量名列=自變量名列

</SS1SS2

其它選項>;

OUTPUTOUT=

數(shù)據(jù)集名<選項>;RUN;PROCGLMPROCGLM用最小二乘法擬合一般的線性

模型,包括回歸分析、方差分析等它與procreg一樣提供方差分析,參數(shù)估

計檢驗和兩類平方和它提供關(guān)于兩類平方和的檢驗擬合多項式回歸時不必預(yù)先生成變量的高

次項它不提供回歸診斷的信息60PROCGLM多項式:Reg094,084_4擬合.圖reg097,reg098.綜合:fish例61PROCGLMDATA=數(shù)據(jù)集名;

CLASS變量名列;

MODEL

因變量名列=自變量名列

</SS1SS2其它選項>;

OUTPUTOUT=

數(shù)據(jù)集名<選項>;RUN;變量*變量*...變量|變量|...FIT(X,Y)

62回歸診斷例外值(outliers)或異常作用點(diǎn)的檢查從已擬合回歸的數(shù)據(jù)中分析線性模型的假定是否被破壞:

應(yīng)變量的均值是否是獨(dú)立變量的線性函數(shù),是否

需要對變量進(jìn)行變換或擬合曲線回歸

余差(residuals)是否同方差,不相關(guān),正態(tài)分布獨(dú)立變量間是否存在線性關(guān)系(僅多元有)考察余差散點(diǎn)圖是進(jìn)行回歸診斷的必要步驟63回歸診斷64回歸診斷

Ascombe’s

例Ascombe’s例Insight:dst.ascombereg228編程作4圖合一reg228,1-4分別作圖reg222,1-3編程分析

A:x1,y1,I:x1,y2,O:x1,y3,H:x2,y465回歸診斷回歸分析的余差值是回歸診斷的重要工具66利用余差可以考察余差和預(yù)測值的散點(diǎn)圖

也可以檢驗余差分布的正態(tài)性回歸診斷67模型合適應(yīng)改曲線模型不等方差觀測值不獨(dú)立回歸診斷

生成余差68在INSIGHT中擬合回歸后在數(shù)據(jù)表中回自動

生成預(yù)測值、余差值和余差-預(yù)測散點(diǎn)圖回歸診斷

生成余差69Analyst:Statistics

RegressionLinear...

Predictions預(yù)測值、余差值回歸診斷Insight:CarsVarStdres.,找絕對值超過2者varCook’sD超過4/92=0.04348varDffits超過2sqrt((k+1)/n)=0.58977參數(shù)估計表中看vifoutput+collinearity…看條件指數(shù)與方差比例Analyst:Cars+p.,r.,studenttodst+plot:std.*p.+cookd>0.0435,dffits>58977+statisitcstestsCollinearity,vif70回歸診斷

生成余差71在PROCREG的model語句加上選項p,就會

輸出預(yù)測值和相應(yīng)的余差PROCREGDATA=數(shù)據(jù)集名graphics;

MODEL應(yīng)變量=自變量/p;PLOTy變量*x變量/選項;symbolnc=顏色

v=值;

RUN;利用plot語句plotr.*p.;

就可得到余差-

預(yù)測散點(diǎn)圖回歸診斷

識別異常觀測值72回歸診斷

識別異常觀測值73在PROCREG的model語句加上選項r,就會

輸出與預(yù)測值和余差有關(guān)的一些統(tǒng)計量。他

們可用于識別異常數(shù)據(jù)(outlier)及其影響PROCREGDATA=數(shù)據(jù)集名

;

MODEL應(yīng)變量=自變量/r;RUN;PredictValue預(yù)測值StdErrPredict預(yù)測值標(biāo)準(zhǔn)差Residual余差StdErrPredict余差標(biāo)準(zhǔn)差StudentResidualstudent化的余差-2-1012余差顯著性圖Cook'sDCook'sD統(tǒng)計量與余差有關(guān)的統(tǒng)計量

74回歸診斷

余差分布正態(tài)性有了余差的數(shù)據(jù),就可對其運(yùn)用圖形方法

或正式的分布正態(tài)性的檢驗在INSIGHT中可直接對數(shù)據(jù)表中的預(yù)測余

差變量進(jìn)行分析在PROCREG可利用下列語句用圖形分析

余差分布正態(tài)性75PROCREGDATA=數(shù)據(jù)集名graphics;

MODEL應(yīng)變量=自變量;PLOTnqq.*student.(nqq.*r.);

RUN;回歸診斷

識別有影響的觀測76回歸診斷

識別有影響的觀測CookD統(tǒng)計量度量一個觀測從分析中剔除

時參數(shù)估計值的變化 對一個觀測值其CookD統(tǒng)計量的值超

過4/n

時(n為樣本容量),這個觀測存在

反常效應(yīng)77SAS/INSIGHT

在下拉菜單選

VarCook'sD回歸診斷

識別有影響的觀測Dffitsi

度量第i

個觀測對預(yù)測值的影響78第i個觀測的預(yù)測值用排除第i個觀測的回歸對第i個觀測的預(yù)測值第i個觀測的預(yù)測值的標(biāo)準(zhǔn)差p

為模型中參數(shù)的個數(shù),n

為樣本容量SAS/INSIGHT

在下拉菜單選VarDffits回歸診斷

識別有影響的觀測79Analyst:Statistics

RegressionLinear...

SaveData回歸診斷

識別有影響的觀測80ProcREG

的Model語句加選項r可獲得

CookD

統(tǒng)計量ProcREG

的Model語句加選項influence

可獲得Dffits

等反映觀測值影響的統(tǒng)計量PROCREGDATA=數(shù)據(jù)集名

;

MODEL應(yīng)變量=自變量/r

influence;RUN;回歸診斷

編程Dst.carsp311/rp312output+p.r.student.p313plotstudent.*p.P314-1/influencep314-2outputcookddffitsp315/collinvif81選項

influence生成的統(tǒng)計量

R022Influence82回歸診斷

識別有影響的觀測偏杠桿圖是使有影響觀測可視化的方法偏杠桿圖是兩個回歸的散點(diǎn)圖 例如對變量xr的偏杠桿圖: 縱軸是Y關(guān)于除xr以外所有x的回歸的余差 橫軸是xr關(guān)于所有x的回歸的余差有影響觀測通常分離與其它數(shù)據(jù)點(diǎn)或在某

一軸上有極端數(shù)值偏杠桿圖還可識別要加入哪些變量的高次項83回歸診斷

識別有影響的觀測84SAS/INSIGHT

在下拉菜單選

GraphsPartialLeverageProcREG

的Model語句加選項partial可

獲得杠桿圖(低分辨)PROCREGDATA=數(shù)據(jù)集名

;

MODEL應(yīng)變量=自變量/partial;RUN;回歸診斷

識別有影響的觀測如何處理有影響的觀測 復(fù)驗數(shù)據(jù),確認(rèn)并無數(shù)據(jù)輸入錯誤發(fā)生 若數(shù)據(jù)是有效的,模型可能不合適。擬

合此數(shù)據(jù)可能需要使用高階模型 也可能數(shù)據(jù)是反常的一般,不剔除數(shù)據(jù)。某些有影響的觀測提

供重要的信息。要剔除數(shù)據(jù),應(yīng)給出必

要的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論