SAS數(shù)據(jù)管理(轉(zhuǎn)置).ppt_第1頁
SAS數(shù)據(jù)管理(轉(zhuǎn)置).ppt_第2頁
SAS數(shù)據(jù)管理(轉(zhuǎn)置).ppt_第3頁
SAS數(shù)據(jù)管理(轉(zhuǎn)置).ppt_第4頁
SAS數(shù)據(jù)管理(轉(zhuǎn)置).ppt_第5頁
已閱讀5頁,還剩83頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第15章 數(shù)據(jù)管理,清華大學(xué)經(jīng)管學(xué)院 朱世武,SAS系統(tǒng)提供的過程按其用途可分為四大類: 數(shù)據(jù)管理; 基礎(chǔ)統(tǒng)計(jì); 數(shù)據(jù)呈現(xiàn); 數(shù)據(jù)訪問。 和任何一種編程語言一樣,SAS 系統(tǒng)有一些數(shù)據(jù)管理過程,用于實(shí)現(xiàn)常用的中間操作或數(shù)據(jù)轉(zhuǎn)換。,本章將介紹的數(shù)據(jù)管理過程:,數(shù)據(jù)集排序; 數(shù)據(jù)集轉(zhuǎn)置; 改變輸出地點(diǎn); 添加觀測(cè); 數(shù)據(jù)庫復(fù)制。,數(shù)據(jù)集排序,利用SAS的排序過程可以對(duì)數(shù)據(jù)集中的觀測(cè)重新排序。 SAS許多和BY配合使用的語句,如對(duì)數(shù)據(jù)集進(jìn)行合并的語句或更新語句等,使用前必須先對(duì)BY變量進(jìn)行排序。 排序過程句法 PROC SORT ; BY variable-1 variable-n;,PROC SO

2、RT語句,PROC SORT ; 選項(xiàng)說明:,其中: 選項(xiàng)FORCE強(qiáng)行實(shí)施多余排序。排序并替換原來加索引的或取子集的數(shù)據(jù)集,即沒有規(guī)定OUT=選項(xiàng)時(shí),如果沒有規(guī)定FORCE,就不能對(duì)有索引的數(shù)據(jù)集進(jìn)行排序和替換。 沒有規(guī)定OUT=選項(xiàng)時(shí)必須使用FORCE的選項(xiàng)有: OBS=系統(tǒng)選項(xiàng); FIRSTOBS=系統(tǒng)選項(xiàng); DATA=數(shù)據(jù)集中的數(shù)據(jù)集選項(xiàng)WHERS=; PROC SORT 步用WHERE語句。,BY語句,BY variable-1variable-n; PROC SORT中必須使用BY語句,BY語句中可以規(guī)定任意多個(gè)變量。 BY語句中規(guī)定多個(gè)變量時(shí),SORT過程首先按第一個(gè)變量排序,然

3、后是第二個(gè)變量等。 BY語句中可以規(guī)定的選項(xiàng): DESCENDING對(duì)變量按下降次序排序。,應(yīng)用舉例,例15.1 按多變量排序。 data a; set ResDat.Idx000001; year=year(date); qtr=qtr(date); month=month(date); proc sort data=a out=b; by year qtr month; run; 例中,對(duì)上證數(shù)據(jù)Idx000001按年、季和月排序。,例15.2 按單變量降序排列。 proc sort data= ResDat.a600001 out=a; by descending clpr; proc

4、print data=a (obs=3) noobs; var date clpr; run; 例中,按收盤價(jià)CLPR的降序排列。,數(shù)據(jù)集轉(zhuǎn)置,轉(zhuǎn)置就是把數(shù)據(jù)集的觀測(cè)變?yōu)樽兞?,變量變?yōu)橛^測(cè)。利用SAS的轉(zhuǎn)置過程可以對(duì)數(shù)據(jù)集進(jìn)行轉(zhuǎn)置。,轉(zhuǎn)置過程句法,PROC TRANSPOSE ; BY variable-1 variable-n ; COPY variable(s); ID variable; IDLABEL variable; VAR variable(s);,語句說明:,PROC TRANSPOSE 語句,PROC TRANSPOSE ; 選項(xiàng)說明:,VAR語句和ID語句,VAR語句 VA

5、R variable-list; VAR語句列出要轉(zhuǎn)置的變量。 沒有VAR語句時(shí),則沒有列在其它語句里的所有數(shù)值變量被轉(zhuǎn)置。,ID語句 ID variable; ID語句規(guī)定輸入數(shù)據(jù)集中一個(gè)變量。ID變量的值為轉(zhuǎn)置后數(shù)據(jù)集的變量名。在沒有選項(xiàng)LET時(shí),ID變量的值在數(shù)據(jù)集中只能出現(xiàn)一次,使用BY語句,BY組內(nèi)只包含最后的ID值。,應(yīng)用舉例,例15.4 ID變量的值為轉(zhuǎn)置后數(shù)據(jù)集的變量名。 proc transpose data=ResDat.class out=a let; id name; proc print; run; 例中,原數(shù)據(jù)集CLASS中變量NAME的值為轉(zhuǎn)置后數(shù)據(jù)集A的變量名,

6、對(duì)所有數(shù)值變量轉(zhuǎn)置。數(shù)據(jù)集A中還有一變量_NAME_.,SAS 系統(tǒng) 1 2007年03月07日 星期五 下午09時(shí)21分17秒 Obs _NAME_ Alice Barbara Carol Jane Janet Joyce Judy Louise Mary Alfred 1 Age 13.0 13.0 14.0 12.0 15.0 11.0 14.0 12.0 15.0 14.0 2 Height 56.5 65.3 62.8 59.8 62.5 51.3 64.3 56.3 66.5 69.0 3 Weight 84.0 98.0 102.5 84.5 112.5 50.5 90.0 77

7、.0 112.0 112.5 Obs Henry James Jeffrey John Philip Robert Ronald Thomas William 1 14.0 12.0 13.0 12.0 16 12.0 15 11.0 15.0 2 63.5 57.3 62.5 59.0 72 64.8 67 57.5 66.5 3 102.5 83.0 84.0 99.5 150 128.0 133 85.0 112.0,例15.5 BY組內(nèi)最后一個(gè)ID值的觀測(cè)被轉(zhuǎn)置。 proc transpose data=ResDat.class out=a let; id sex; proc prin

8、t; run; 結(jié)果顯示:,proc transpose data=ResDat.class out=a let; id sex; by sex; proc print; run; 結(jié)果顯示:,例15.8 對(duì)每個(gè)BY組轉(zhuǎn)置。 options nodate pageno=1 linesize=80 pagesize=40; proc transpose data=ResDat.fishdata out=fishlength(rename=(col1=Measurement); var length1-length4; by location date; run; proc print data=

9、fishlength noobs; title Fish Length Data for Each Location and Date; run;,Fish Length Data for Each Location and Date 1 Location Date _NAME_ Measurement Cole Pond 02JUN95 Length1 31 Cole Pond 02JUN95 Length2 32 Cole Pond 02JUN95 Length3 32 Cole Pond 02JUN95 Length4 33 Cole Pond 03JUL95 Length1 33 Co

10、le Pond 03JUL95 Length2 34 Cole Pond 03JUL95 Length3 37 Cole Pond 03JUL95 Length4 32 Cole Pond 04AUG95 Length1 29 ,輸出窗口顯示,例15.10 對(duì)轉(zhuǎn)置后的數(shù)據(jù)集作統(tǒng)計(jì)分析。,options nodate pageno=1 linesize=80 pagesize=40; data split; set ResDat.weights; array s7 s1-s7; subject + 1; do Time=1 to 7; strength=stime; output; end; d

11、rop s1-s7; run; proc print data=split(obs=15) noobs; title Split Data Set; title2 First 15 Observations Only; run;,/*接左側(cè)*/ proc transpose data=split out=totsplit prefix=Str; by program subject; copy time strength; var strength; run; proc print data=totsplit(obs=15) noobs; title Totsplit Data Set; ti

12、tle2 First 15 Observations Only; run;,改變輸出地點(diǎn),缺省情況下,SAS過程輸出到OUTPUT窗口,SAS日志輸出到LOG窗口。利用SAS的PRINTTO過程可以設(shè)定SAS過程和日志的輸出地點(diǎn)。 PRINTTO過程有以下功能: 改變過程輸出的目的地; 改變SAS日志輸出的目的地; 有選擇地限制SAS輸出; 將輸出結(jié)果存放在永久文件中; 將輸出直接送到打印機(jī)上; 將SAS的輸出作為輸入數(shù)據(jù)(這時(shí)需要一些附加的程序語句)。,PRINTTO過程句法,PROC PRINTTO ; 選項(xiàng)說明 注意:一般情況下,PROC PRINTTO后面一定要加RUN語句。若省略RU

13、N語句,則會(huì)丟失PRINTTO后面DATA步或PROC步第一行的輸出。,應(yīng)用舉例,例15.11 將SAS日志輸出到外部永久文件。 proc printto log= d:log.dat; /*直接輸出到永久文件中*/ filename f1 d:out.txt; proc printto log= f1; /*輸出到文件標(biāo)記*/ 例15.12 將運(yùn)行結(jié)果輸出到外部永久文件。 filename f2 d:out.list; proc printto print=f2; /*輸出到文件標(biāo)記*/ proc printto print= d:out.list; /*直接輸出到永久文件中*/,例15.1

14、3 直接打印輸出結(jié)果。 filename f printer; proc printto print=f;/*直接打印*/ proc printto print=print;/*返回到缺省輸出地點(diǎn)*/ 例15.14 替換原輸出文件。 proc printto print=d:out.txt log= d:log.dat new; proc print data=ResDat.class; run;,添加觀測(cè),利用SAS的APPEND過程可以將一個(gè)SAS數(shù)據(jù)集的觀測(cè)添加到另一個(gè)SAS數(shù)據(jù)集的后面。,APPEND過程句法,PROC APPEND BASE=SAS-data-set ; APPEND

15、過程中只需要一個(gè)語句。 選項(xiàng)說明:,應(yīng)用舉例,例15.17 有條件添加數(shù)據(jù)。 proc append base=data1 data=data2(where=(X=1); run; proc append base=a data= ResDat.stk000001(where=(year(date)=1999) ; run; 例中,使用數(shù)據(jù)集選項(xiàng)WHERE=或WHERE語句來限制DATA=的數(shù)據(jù)集中只有滿足條件的觀測(cè)被加到BASE=的數(shù)據(jù)集中。,數(shù)據(jù)庫復(fù)制,利用SAS的COPY過程可以復(fù)制整個(gè)SAS數(shù)據(jù)庫或其中的數(shù)據(jù)庫成員。,COPY過程句法,PROC COPY OUT=libref-1 IN

16、=libref-2 ; EXCLUDE SAS-file(s) ; SELECT SAS-file(s) ; 子語句說明: Select規(guī)定要拷貝數(shù)據(jù)庫IN=中的成員; Exclude規(guī)定不拷貝數(shù)據(jù)庫IN=中的成員。,PROC COPY語句選項(xiàng),選項(xiàng)說明:,有效的成員類型(MEMTYPE):,應(yīng)用舉例,例15.18 兩個(gè)SAS邏輯庫之間復(fù)制數(shù)據(jù)集和目錄冊(cè)。 proc copy in=lib1 out=lib2 MTYPE=(data catalog); run; 例15.19 將邏輯庫LIB1的所有SAS文件移動(dòng)到LIB2中。 proc copy in=lib1 out=lib2 move;

17、run;,例15.21 選擇以DAT開頭的所有文件。 data ResDat.dat ResDat.dat1 ResDat.dat2 ResDat.dat3 (alter=zsw); var=move; run; proc copy in=ResDat out=work move; select dat: (alter=zsw); run;,第16章 統(tǒng)計(jì)量計(jì)算,清華大學(xué)經(jīng)管學(xué)院 朱世武 Z Resdat樣本數(shù)據(jù): SAS論壇: ,本章將介紹的統(tǒng)計(jì)量計(jì)算過程包括:,相關(guān)過程; 頻數(shù)過程; 均值過程; 單變量過程。,相關(guān)過程,相關(guān)過程(CORR)用于計(jì)算變量間的相關(guān)系數(shù)。 相關(guān)過程句法 PROC

18、 CORR ; BY variable-1 variable-n ; FREQ frequency-variable; PARTIAL variable(s); VAR variable(s); WEIGHT weight-variable; WITH variable(s);,語句說明:,PROC CORR語句,PROC CORR ; PROC CORR語句選項(xiàng)說明由下頁表給出。,選項(xiàng)說明:,其它語句,VAR語句 VAR variable-list; 列出要計(jì)算相關(guān)系數(shù)的變量。 WITH語句 WITH variable-list; 該語句和VAR語句聯(lián)合使用計(jì)算變量間特殊組合的相關(guān)系數(shù)。用V

19、AR語句列出的變量放在相關(guān)陣的上方,而用WITH語句列出的變量放在相關(guān)陣左邊。 PARTIAL語句 PARTIAL variable-list; 計(jì)算Pearson偏相關(guān),Spearman偏秩序相關(guān),或Kendall偏tau-b。該語句給出偏相關(guān)變量的名子。,WEIGHT語句 WEIGHT variable; 計(jì)算加權(quán)的乘積矩相關(guān)系數(shù),該語句給出權(quán)數(shù)變量名字。該語句用于Pearson(皮爾遜)相關(guān)。 FREQ語句 FREQ variable; 該語句指定一個(gè)數(shù)值型的FREQ變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測(cè)出現(xiàn)的頻數(shù)。該變量的值應(yīng)為正整數(shù)。若FREQ變量值1或缺失,相應(yīng)的觀測(cè)不參加計(jì)算統(tǒng)計(jì)量

20、;若這個(gè)值不是正整數(shù),取整數(shù)部分。 BY語句 BY variable-list; 對(duì)BY變量定義的觀測(cè)組分別計(jì)算其相應(yīng)的簡(jiǎn)單統(tǒng)計(jì)量。當(dāng)使用BY語句時(shí),要求輸入數(shù)據(jù)集已按BY變量排序的次序排列,除非指定NOTSORTED。,應(yīng)用舉例,例16.1 計(jì)算Pearson相關(guān)系數(shù)及其它關(guān)聯(lián)測(cè)度。 proc corr data=ResDat.fitness pearson spearman hoeffding; var weight oxygen runtime; title Measures of Association for; title2 a Physical Fitness Study; run

21、;,例16.2 計(jì)算并輸出相關(guān)指標(biāo)。 proc corr data=ResDat.Idx000001 pearson spearman kendall hoeffding; var oppr hipr lopr clpr; title Spearman 的rho, Kendall的tau-b, Pearson和Hoeffding相關(guān); run; proc corr data=ResDat.Idx000001 csscp cov; var oppr hipr lopr ; partial clpr; title 偏相關(guān)陣; run; proc corr data=ResDat.Idx000001

22、 cov alpha outp=corrout; var oppr hipr lopr ; title 協(xié)方差陣和相關(guān)陣; run; proc print data=corrout; title2 PROC CORR產(chǎn)生的輸出數(shù)據(jù)集; run; 例中,計(jì)算上證指數(shù)ResDat.Idx000001中變量OPPR, HIPR, LOPR, CLPR之間4種類型的關(guān)聯(lián)測(cè)度, PEARSON偏相關(guān)陣,CRONBACH系數(shù)并產(chǎn)生TYPE=CORR的含有協(xié)方差及相關(guān)陣的輸出數(shù)據(jù)集。,例16.3 計(jì)算兩個(gè)數(shù)據(jù)集中相同變量之間的相關(guān)系數(shù)。 data a; /*數(shù)據(jù)集準(zhǔn)備 */ merge ResDat.Idx

23、000001(keep=date oppr clpr) ResDat.szcz(keep=date oppr clpr rename=(oppr=oppr_sz clpr=clpr_sz) ); by date; run; proc corr data=a nomiss cov; var oppr_sz clpr_sz; with oppr clpr; title2 長方形的COV和CORR陣; run; proc corr data=a cov csscp outp=oup; title2 從含有缺失值的數(shù)據(jù)集中計(jì)算CSSCP和COV; run; 例中,對(duì)上證指數(shù)ResDat.Idx0000

24、01和深證成指ResDat.SZCZ中的變量開盤價(jià)和收盤價(jià)作相應(yīng)的計(jì)算。,頻數(shù)過程,頻數(shù)過程(FREQ)用于計(jì)算各種形式的頻數(shù)及一些檢驗(yàn)統(tǒng)計(jì)量。,頻數(shù)過程句法,PROC FREQ options; OUTPUT ; TABLES requests / options; WEIGHT variable; EXACT statistic-keywords; BY variable-list;,語句說明:,PROC FREQ語句,PROC FREQ options; 選項(xiàng)說明:,ORDER=選項(xiàng)及說明:,FORMCHAR(1,2,7)= 符號(hào)串: 1規(guī)定垂直線字符; 2規(guī)定水平線字符; 7規(guī)定水平與

25、垂直交叉線字符。 通常情況下的FORMCHAR=選項(xiàng): FORMCHAR(1,2,7)= | - +; 表格沒有輪廓線和分隔線的FORMCHAR=選項(xiàng): FORMCHAR(1,2,7)= ; /* 三個(gè)空格 */,例16.6 按格式化值的順序排列。 proc format; value $sfmt M = male F =female; proc freq data=ResDat.class order=formatted; table sex; format sex $sfmt.; run; 例中,計(jì)算數(shù)據(jù)集ResDat.CLASS中變量SEX的分布,并以格式化值的順序排列。,FREQ 過程

26、 累積 累積 Sex 頻數(shù) 百分比 頻數(shù) 百分比 - female 9 47.37 9 47.37 male 10 52.63 19 100.00,WEIGHT語句,WEIGHT variable; 該語句規(guī)定一個(gè)WEIGHT變量,它的值表示相應(yīng)觀測(cè)的權(quán)數(shù)。該變量的值應(yīng)大于零。若這個(gè)值0或缺失,假定該值為0。,BY語句,BY variable-list; 對(duì)BY變量定義的觀測(cè)組分別計(jì)算其相應(yīng)的簡(jiǎn)單統(tǒng)計(jì)量。當(dāng)使用BY語句時(shí),要求輸入數(shù)據(jù)集已按BY變量排序的次序排列,除非指定NOTSORTED。,OUTPUT語句,OUTPUT ; 該語句創(chuàng)建一個(gè)由PROC FREQ過程輸出統(tǒng)計(jì)量的SAS數(shù)據(jù)集。O

27、UTPUT創(chuàng)建的數(shù)集可以包括由TABLES語句規(guī)定的任意統(tǒng)計(jì)量。 PROC FREQ過程每一次只允許使用一個(gè)OUTPUT語句。當(dāng)規(guī)定多個(gè)TABLES語句時(shí),OUTPUT語句創(chuàng)建的數(shù)據(jù)集內(nèi)容對(duì)應(yīng)于最后那個(gè)TABLES語句,當(dāng)一個(gè)TABLES語句中規(guī)定多個(gè)表時(shí),OUTPUT創(chuàng)建的數(shù)據(jù)集內(nèi)容對(duì)應(yīng)于最后那個(gè)表。 選項(xiàng)說明: OUT=規(guī)定輸出數(shù)據(jù)集; output-statistic-list規(guī)定輸出數(shù)據(jù)集中所包含的統(tǒng)計(jì)量。,應(yīng)用舉例,例16.8 隨機(jī)數(shù)頻數(shù)分析。 data a; do I=1 to 1000; X=int(uniform(8888)*3)+1; Y=int(uniform(8888)*

28、4)+1; output; end; proc freq data=a(drop=i); title 沒有TABLES語句; run; title; proc freq; tables x x*y/chisq; run; proc freq; tables x*y/list; run;,例中,產(chǎn)生區(qū)間0, 1上均勻分布的隨機(jī)數(shù)1000個(gè),分別將區(qū)間0, 1均分成3和4個(gè)小區(qū)間,并把產(chǎn)生的隨機(jī)數(shù)按所屬區(qū)間轉(zhuǎn)換為整數(shù)。然后對(duì)這些整數(shù)作頻數(shù)分析。,例16.10 對(duì)One-Way頻率表作卡方檢驗(yàn)。 proc sort data=ResDat.color; by region; run; proc fr

29、eq data=ResDat.color order=data; weight count; tables hair/nocum testp=(30 12 30 25 3); by region; title Hair Color of European Children; run;,例16.13 創(chuàng)建包含卡方統(tǒng)計(jì)量的數(shù)據(jù)集。 options nodate pageno=1 pagesize=60; proc freq data=ResDat.color order=data; weight count; tables eyes*hair /chisq expected cellchi2 no

30、row nocol; output out=chisqdat pchi lrchi n nmiss; title Chi-Square Tests for 3 by 5 Table of Eye and Hair Color; run; proc print data=chisqdat noobs; title Chi-Square Statistics for Eye and Hair Color; title2 Output Data Set from the FREQ Procedure; run;,例16.16 信用等級(jí)轉(zhuǎn)移矩陣計(jì)算。 proc freq data=ResDat.rat

31、ing; table _col3*_col4 _col4*_col5 /nocol norow nopercent ; run;,均值過程,均值過程(MEANS)用于計(jì)算變量的基本描述統(tǒng)計(jì)量。,均值過程句法,PROC MEANS ; BY variable-1 variable-n ; CLASS variable(s) ; FREQ variable; ID variable(s); OUTPUT ; TYPES request(s); VAR variable(s) ; WAYS list; WEIGHT variable;,語句說明:,PROC MEANS語句,PROC MEANS ;

32、option-list選項(xiàng)說明:,ORDER=選項(xiàng)及說明: VARDEF=選項(xiàng)及說明:,statistic-keyword-list選項(xiàng)就是均值過程可以計(jì)算的描述統(tǒng)計(jì)量。規(guī)定的關(guān)鍵詞可以分為三類: 描述統(tǒng)計(jì)量關(guān)鍵詞; 分位數(shù)關(guān)鍵詞; 假設(shè)檢驗(yàn)關(guān)鍵詞。,其它語句,VAR語句 VAR variable-list 規(guī)定要求計(jì)算簡(jiǎn)單描述統(tǒng)計(jì)量的數(shù)值變量及次序。缺省時(shí)指輸入數(shù)據(jù)集中除BY、CLASS、ID、FREQ和WEIGHT語句中列出的變量之外所有數(shù)值變量。 BY語句 BY variable-list; 對(duì)BY變量定義的BY組分別計(jì)算其相應(yīng)的簡(jiǎn)單統(tǒng)計(jì)量。當(dāng)使用BY語句時(shí),要求輸入數(shù)據(jù)集已按BY變量排

33、序的次序排列,除非指定NOTSORTED。,CLASS語句 CLASS variable-list; 該語句和BY語句一樣,定義的觀測(cè)組并分別計(jì)算觀測(cè)組的描述統(tǒng)計(jì)量。不同點(diǎn)是在排序要求及輸出格式上的不同,CLASS語句不要求輸入數(shù)據(jù)集事先已按CLASS變量排序。CLASS語句和BY語句可以一起使用。 FREQ語句 FREQ variable; 該語句指定一個(gè)數(shù)值型的FREQ變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測(cè)出現(xiàn)的頻數(shù)。該變量的值應(yīng)為正整數(shù)。當(dāng)FREQ變量值1或缺失時(shí),相應(yīng)的觀測(cè)不參加計(jì)算,若這個(gè)值不是正整數(shù),取整數(shù)部分。,WEIGHT語句 WEIGHT variable; 該語句規(guī)定一個(gè)WE

34、IGHT變量,其值表示相應(yīng)觀測(cè)的權(quán)數(shù)。該變量的值應(yīng)大于零。當(dāng)這個(gè)值0或缺失時(shí),假定該值為0。 ID語句 ID variable-list; 該語句對(duì)MEANS過程產(chǎn)生的輸出數(shù)據(jù)集增加一個(gè)或幾個(gè)附加變量,用于識(shí)別輸出數(shù)據(jù)集里的觀測(cè)。在輸出數(shù)據(jù)集里,某個(gè)觀測(cè)的ID變量值規(guī)定為生成這個(gè)觀測(cè)的數(shù)據(jù)集中相應(yīng)觀測(cè)組里ID變量具有的最大值,除非在PROC MEANS語句的選項(xiàng)中指定IDMIN。如果有兩個(gè)以上ID變量,這個(gè)最大值的選擇是對(duì)輸入數(shù)據(jù)集的相應(yīng)觀測(cè)組中的每個(gè)觀測(cè),這些ID變量組合成一個(gè)值的最大值。,OUTPUT語句 OUTPUT )=name-list; 該語句要求MEANS過程把計(jì)算的描述統(tǒng)計(jì)量輸

35、出到新的SAS數(shù)據(jù)集里,并用任選項(xiàng)規(guī)定新數(shù)據(jù)集的名字及所包含變量的名字列表。,應(yīng)用舉例,例16.17 分組求均值。 proc sort data=ResDat.dd_c; by date; proc means data=ResDat.dd_c noprint; by date; var sum; output out=sum sum=sum_c; run;,例16.19 計(jì)算特定的描述統(tǒng)計(jì)量。 options nodate pageno=1 linesize=80 pagesize=60; proc means data=ResDat.cake n mean max min range st

36、d fw=8; var PresentScore TasteScore; title Summary of Presentation and Taste Scores; run; 例16.20 計(jì)算有CLASS變量時(shí)的描述統(tǒng)計(jì)量。 proc means data=ResDat.grade maxdec=3; class Status Year; types () status*year; var Score; title Final Exam Grades for Student Status and Year of Graduation; run;,例16.21 BY語句和CLASS變量一起

37、使用。 options nodate pageno=1 linesize=80 pagesize=60; proc sort data=ResDat.Grade out=GradeBySection; by section; run; proc means data=GradeBySection min max median; by section; class Status Year; var Score; title1 Final Exam Scores for Student Status and Year of Graduation; title2 Within Each Sectio

38、n; run;,例16.25 計(jì)算均值的置信限。 proc means data=ResDat.charity fw=8 maxdec=2 alpha=.1 clm mean std; class Year; var MoneyRaised HoursVolunteered; title Confidence Limits for Fund Raising Statistics; title2 1992-94; run;,例16.26 計(jì)算輸出統(tǒng)計(jì)量。 options nodate pageno=1 linesize=80 pagesize=60; proc means data=ResDat

39、.Grade noprint; class Status Year; var finalgrade; output out=sumstat mean=AverageGrade idgroup (max(score) obs out (name)=BestScore) /ways levels; run; proc print data=sumstat noobs; title1 Average Undergraduate and Graduate Course Grades; title2 For Two Years; run;,例16.29 利用輸出統(tǒng)計(jì)量判別極端值。 options nod

40、ate pageno=1 linesize=80 pagesize=60; proc means data=ResDat.Charity n mean range; class School Year; var MoneyRaised HoursVolunteered; output out=Prize maxid(MoneyRaised(name) hoursVolunteered(name)=MostCash MostTime max= ; title Summary of Volunteer Work by School and Year; run; proc print data=Pr

41、ize; title Best Results: Most Money Raised and Most Hours Worked; run;,單變量過程,單變量過程(UNIVARIATE)除了能計(jì)算均值過程的基本統(tǒng)計(jì)量外,還可以實(shí)現(xiàn)的計(jì)算和功能有: 穩(wěn)健性估計(jì)量; 描述變量的分布圖; 頻數(shù)表; 多項(xiàng)檢驗(yàn)。,單變量過程句法,PROC UNIVARIATE ; BY variable-1 variable-n ; CLASS variable-1 ; FREQ variable; HISTOGRAM ; ID variable(s); INSET ; OUTPUT statistic-keywor

42、d-1=name(s) ; PROBPLOT ; QQPLOT ; VAR variable(s); WEIGHT variable;,PROC UNIVARIATE語句,PROC UNIVARIATE DATA= SAS-datas-et ; 選項(xiàng)說明: VARDEF=選項(xiàng)及說明:,其它語句,VAR語句 VAR variable-list; 規(guī)定將要計(jì)算描述統(tǒng)計(jì)量的數(shù)值變量及次序。缺省時(shí),為BY, CLASS, ID,FREQ和WEIGHT語句中列出的變量之外所有數(shù)值變量。 BY語句 BY variable-list; 對(duì)BY變量定義BY組計(jì)算統(tǒng)計(jì)量。當(dāng)使用BY語句時(shí),要求輸入數(shù)據(jù)集已按BY

43、變量排序的次序排列,除非指定NOTSORTED。,FREQ語句 FREQ variable; 指定一個(gè)數(shù)值型的FREQ變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測(cè)出現(xiàn)的頻數(shù)。該變量的值應(yīng)為正整數(shù)。若FREQ變量值1或缺失,相應(yīng)的觀測(cè)不參加計(jì)算統(tǒng)計(jì)量,若這個(gè)值不是正整數(shù),取整數(shù)部分。 WEIGHT語句 WEIGHT variable; 規(guī)定一個(gè)WEIGHT變量,其值表示相應(yīng)觀測(cè)的權(quán)數(shù)。該變量的值應(yīng)大于零。若這個(gè)值0或缺失,假定該值為0。,ID語句 ID variable-list; 對(duì)UNIVARIATE過程產(chǎn)生的輸出數(shù)據(jù)集增加一個(gè)或幾個(gè)附加變量,目的在于識(shí)別輸出數(shù)據(jù)集里的觀測(cè)。在輸出數(shù)據(jù)集里,某個(gè)觀測(cè)

44、的ID變量值規(guī)定為生成這個(gè)觀測(cè)的數(shù)據(jù)集中相應(yīng)觀測(cè)。組里ID變量具有的最大值,除非在PROC UNIVARIATE語句的選項(xiàng)中指定IDMIN。如果有兩個(gè)以上ID變量,這個(gè)最大值的選擇是對(duì)輸入數(shù)據(jù)集的相應(yīng)觀測(cè)組中的每個(gè)觀測(cè),這些ID變量組合成一個(gè)值的最大值。,OUTPUT語句 OUTPUT OUT=statistic-keyword-1=name(s) ; 要求UNIVARIATE過程把計(jì)算的描述統(tǒng)計(jì)量輸出到新的SAS數(shù)據(jù)集里,keyword為統(tǒng)計(jì)量關(guān)鍵詞,names為存放輸出統(tǒng)計(jì)量的變量名稱。 statistic-keyword-list選項(xiàng)就是單變量過程UNIVARIATE可以計(jì)算的描述統(tǒng)計(jì)量。規(guī)定的關(guān)鍵詞可以分為四類: 描述統(tǒng)計(jì)量關(guān)鍵詞; 分位數(shù)關(guān)鍵詞; 穩(wěn)健估計(jì)量關(guān)鍵詞; 假設(shè)檢驗(yàn)關(guān)鍵詞。 單變更量過程輸出全部均值過程的描述統(tǒng)計(jì)量與分位數(shù)。,應(yīng)用舉例,例16.30 應(yīng)用單變量過程進(jìn)行多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論