版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、試驗設(shè)計與數(shù)據(jù)處理(及統(tǒng)計軟件SAS),編者 江南大學(xué)理學(xué)院 吳有煒,目錄,課程目的與主要內(nèi)容 預(yù)備篇:SAS數(shù)據(jù)和SAS分析員應(yīng)用系統(tǒng) 第一章 矩陣代數(shù) 第二章 概率論與抽樣分布 第三章 統(tǒng)計推斷 第二節(jié) 區(qū)間估計 第三節(jié) 假設(shè)檢驗 第四章 方差分析 第五章正交試驗設(shè)計 第六章 回歸分析 第一節(jié)回歸方程的最小二乘估計 第二節(jié) 多元線性回歸 第三節(jié) 回歸模型的檢驗 第五節(jié)最優(yōu)回歸方程和逐步回歸法 第六節(jié)關(guān)于參數(shù)的線性模型,第七節(jié)響應(yīng)面分析 第八節(jié) 非線性回歸 第九節(jié)復(fù)共線性 第十節(jié)殘差分析 第七章回歸正交設(shè)計 第八章均勻設(shè)計 第九章 單純形優(yōu)化設(shè)計 SAS的試驗設(shè)計模塊(ADX) 第十章析因試
2、驗設(shè)計 第七節(jié) 重復(fù)試驗 第十一章 測試誤差 第十二章 多指標(biāo)綜合評價概論 第十三章 主成份分析法 第十四章 模糊綜合評價 第十五章 聚類分析與判別分析 第十六章 典型相關(guān)分析 穩(wěn)定性尋優(yōu)與三次設(shè)計(選講) 二分?jǐn)?shù)據(jù)回歸與LOGISTIC 回歸(選講) 列聯(lián)表分析(選講),課程目的與主要內(nèi)容,1. 試驗設(shè)計部分-介紹主要的試驗設(shè)計方法,用盡可能少的試驗點(diǎn)采集盡可能多的信息. 2. 數(shù)據(jù)處理部分-介紹常用的統(tǒng)計分析方法,從數(shù)據(jù)中根據(jù)需要有效地提取信息. 3. SAS軟件部分-學(xué)習(xí)操作SAS,應(yīng)用SAS進(jìn)行數(shù)據(jù)的實際分析.,預(yù)備篇:SAS數(shù)據(jù)和SAS分析員應(yīng)用系統(tǒng),一維數(shù)據(jù)輸入: data E21
3、; input N $ x1 x2 x3; /*說明N是字符型變量,N后加$*/ y=x1+x2;z=x1*x2;u=x1*3; /*用加,乘,乘方產(chǎn)生新變 量*/ cards; /*說明以下輸入數(shù)據(jù)*/ A 1.1 2.6 3.8 B 4.5 5.7 6.0 C 7.6 8.2 9.7 ; /*空語句說明數(shù)據(jù)輸入結(jié)束*/ Proc print; /*有此打印語句則在output窗口有輸出,否則 只在explorework儲存*/ run; SAS程序不區(qū)分大小寫字母 請看演示,不等重復(fù)數(shù)據(jù)的兩種輸入法,Data E4122; input c $ t ; cards; 1 19 1 15 1
4、22 1 20 1 18 2 20 2 40 2 21 2 33 2 27 3 16 3 17 3 15 3 18 3 16 4 18 4 22 4 19 ; proc print; RUN; Data E4122; do c=1 to 4; do rep=1 to 5; input t ; output; end; end; cards; 19 15 22 20 18 20 40 21 33 27 16 17 15 18 16 18 22 19 . . /*缺失數(shù)據(jù)需加點(diǎn)*/ ; proc print; RUN;,SAS數(shù)據(jù)輸入(帶三個下標(biāo)的一維變量Rijr),SAS數(shù)據(jù)輸入(帶二個下標(biāo)的二
5、維變量(x,y)ij),進(jìn)入SAS的分析員應(yīng)用系統(tǒng),1.編輯程序輸入數(shù)據(jù)并保存; 或者調(diào)用在V8中的數(shù)據(jù): FileOpen 選中數(shù)據(jù)名打開 2. SolutionAnalysis Analyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (Data norm見V8文件)(OK) Statistics 請看演示,調(diào)用其它SAS數(shù)據(jù)集中的數(shù)據(jù),形式: data 數(shù)據(jù)名; set 其它SAS數(shù)據(jù)集中數(shù)據(jù)名;(用于DATA步的其它SAS語句;) run; 例 data E20; input num
6、ber sex $ x1 x2 ; cards; 1 m 12 54 2 w 45 76 3 m 43 76 4 w 42 17 ; run; /*以下為調(diào)用*/ data E24; set E20; /* 注: set 調(diào)取sas數(shù)據(jù)庫數(shù)據(jù)E23 */ if sex=m; /*數(shù)據(jù)的刪選,即只選取E20中女性的數(shù)據(jù)進(jìn)入E24*/ y=(x1+x2)/3; z=x1*x2; I=int(y); /* 注: int(y)表對y取整數(shù)部分*/ run;,變量變換,data E23; input member $ sex $ x1 x2 x3; w=Abs(x2); /*絕對值函數(shù)*/ if x1x
7、2 then D=yes;else D=no; /*五種條件語句之 1*/ if x1x2 then Do; E=yes; end; else Do; E=no; end; /*五種條件語句之 2*/ if sex=m then sex1=男;else sex1=女; /*五種條件語句之3*/ if (x1=x2) or (x2=x3) then F=eql; /*邏輯判斷or或,and且,not否定五種條件語句之4*/ cards; A m 1.1 3.8 3.8 B w 4.5 -5.7 . /*遺漏數(shù)據(jù)一定要加符號.*/ C m -8.2 -8.2 9.7 ; title數(shù)據(jù)的各種輸入;
8、 run;,一般函數(shù) 1. x的絕對值A(chǔ)BS(x) 2. x的平方根sqrt(x) 3. 符號函數(shù)Sign(x) 例 sign(-6.7)=-1, sign(0)=0, sign(3.8)=1 4. 取整函數(shù)Int(x) 例Int(-3.6)=-4, Int(4.8)=4; 5. 數(shù)學(xué)函數(shù)Exp(x) Log(x) Log2(x) Log10(x) Cos(x) Sin(x) Tan(x) Arcos(x) Arsin(x) Atan(x),隨機(jī)變量X的分布函數(shù) F(x)滿足: F(x)=PXxPROBnorm(x) 標(biāo)準(zhǔn)正態(tài) 分布 PROBnorm(x)=Pux,其中u是標(biāo)準(zhǔn)正態(tài)隨機(jī)變量 P
9、ROBf(x,分子自由度,分母自由度,非中心參數(shù)) F-分布 PROBt(x, 自由度,非中心參數(shù)) t分布 隨機(jī)數(shù)函數(shù)-seed每隨意賦一個值可得到給定分布的隨機(jī)變量抽樣值 1 均勻分布隨機(jī)數(shù)函數(shù)UNIFORM(seed)或RANuni(seed) 2 標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù)函數(shù)normal(seed)或RANnor(seed) , 均值為a方差為2 的正態(tài)分布隨機(jī)數(shù)函數(shù) X=a+sqrt(2)* RANnor(seed), 以下程序運(yùn)行后產(chǎn)生兩組各100個抽樣于均值為170,方差為30的正態(tài)分布隨機(jī)數(shù) data norm; do seed=1 to 100; x=170+sqrt(30)*ra
10、nnor(seed); /*x=均值為170,方差為30的正態(tài)分布隨機(jī)數(shù)*/ y=170+sqrt(30)*rannor(seed);/*注意由于是隨機(jī)數(shù),兩組結(jié)果不一樣,且每次都不一樣*/ output; end; proc print; run;,預(yù)備篇練習(xí)題,第一章 矩陣代數(shù),第一種情況的例,第二種情況的例,向量代數(shù),第二章 概率論與抽樣分布,已經(jīng)知道隨機(jī)現(xiàn)象可以用隨機(jī)變量來描述.對于隨機(jī)變量X,最好知道它的分布函數(shù)(則講已經(jīng)完全掌握了它的變化規(guī)律),或者至少能知道它的某些數(shù)字特征(比如數(shù)學(xué)期望EX,方差DX).但是對于刻劃一個具體隨機(jī)現(xiàn)象的隨機(jī)變量,它的分布函數(shù)或它的某些數(shù)字特征往往是
11、未知的,如何確定它的分布函數(shù)或數(shù)字特征是數(shù)理統(tǒng)計要解決的問題.當(dāng)然對被研究的對象全體進(jìn)行全面觀測或試驗是解決此類問題獲得最準(zhǔn)確結(jié)果的方法,但這樣實施往往有很大的困難或不可行.例如,要了解全國人口的某些情況,雖然可以進(jìn)行全國人口普查,但由于工作量驚人而不可能輕易采用這種方法;又如要了解某廠家生產(chǎn)的一批燈管的質(zhì)量,由于試驗帶有破壞性不可能通過點(diǎn)壞所有燈管來確定壽命分布.在長期的實踐研究中,人們總結(jié)出解決上述問題的合適而有效的方法: 從研究對象中隨機(jī)抽取一小部分進(jìn)行試驗或觀測,對所得資料加以整理和分析,根據(jù)這些資料所顯示的統(tǒng)計規(guī)律性,應(yīng)用概率論原理,對研究對象的分布或它的某些數(shù)字特征作出推斷.依據(jù)概
12、率論原理由局部推斷整體是數(shù)理統(tǒng)計學(xué)科的的研究方法.數(shù)理統(tǒng)計方法往往涉及大量計算,隨著計算機(jī)科學(xué)技術(shù)的迅速普及,借助于計算機(jī)和計算軟件,數(shù)理統(tǒng)計在科學(xué)研究和國民經(jīng)濟(jì)的眾多領(lǐng)域已得到了廣泛的應(yīng)用.試驗設(shè)計與數(shù)據(jù)處理是以概率論與數(shù)理統(tǒng)計為理論基礎(chǔ)的實用性課程.,1.對于隨機(jī)事件A,概率P(A)是事件A發(fā)生的可能性大小的度量. 通過隨機(jī)變量X的分布F(x)可以給出隨機(jī)變量取某個區(qū)間上值的概率: PaXb=F(b)-F(a) 2. 隨機(jī)變量X分布的兩個最重要的數(shù)字特征: 1)數(shù)學(xué)期望(均值)EX 2)方差DX=E(X-EX)2 3.兩個隨機(jī)變量(X , Y)相互聯(lián)系密切程度的數(shù)字特征: 1)協(xié)方差V(X
13、,Y)=E(X-EX)(Y-EY) 2)相關(guān)系數(shù)(X ,Y)=V(X,Y)/ 4. 最重要的分布:正態(tài)分布N(,2),其中EX=,DX=2 在SAS中PROBNorm(x)=PYx,其中Y服從標(biāo)準(zhǔn)正態(tài)分布N(0,1) 描述性統(tǒng)計量 通過X的抽樣x1,x2,xn或(X,Y)抽樣(x1,y1),(x2,y2),(xn,yn) 可用樣本統(tǒng)計量作為隨機(jī)量數(shù)字特征的估計稱為描繪性統(tǒng)計量 常用的有以下:,第三章 統(tǒng)計推斷,統(tǒng)計推斷包括區(qū)間估計與假設(shè)檢驗,在SAS中用同一個菜單系統(tǒng)完成. SolutionAnalysis Analyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas Na
14、me(在Make one selection窗口中) work 選中數(shù)據(jù)名 (Data E3212見V8文件)(OK) Statistics Hypothesis Tests,第二節(jié) 區(qū)間估計,問題:估計分布的未知參數(shù),通常是均值和方差 抽樣x1,x2,xn 構(gòu)造統(tǒng)計量1(x1,x2,xn)與2(x1,x2,xn) 統(tǒng)計結(jié)論: 的置信區(qū)間(1 2)以顯著性水平為1-包含未知參數(shù),例3.2.12 設(shè)有一組來自正態(tài)總體N(,2)的樣本值:0. 497, 0. 506, 0. 518, 0. 524, 0. 488, 0. 510, 0. 510, 0. 515, 0. 512. 1.數(shù)據(jù)輸入: d
15、ata E3212; input x ; cards; 0.497 0.506 0.518 0.524 0.488 0.510 0.510 0.515 0.512 ; proc print; run; 以下介紹統(tǒng)計原理,SolutionAnalysis Analyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (Data E3212見V8文件)(OK) Statistics Hypothesis Tests One Sample ztest for a Mean待分析變量xVariables
16、td.dev.of(即)填入0.01(或Variance(即2)內(nèi)填入0.012) Tests Interval OK OK 類似可以求未知方差的的均值的區(qū)間估計及方差的區(qū)間估計.請看演示,第三節(jié) 假設(shè)檢驗,問題:檢驗分布的未知參數(shù). 統(tǒng)計方法:提出關(guān)于未知參數(shù)的零假設(shè)和備擇假設(shè). 小概率原理:小概率事件在一次觀測中是幾乎不可能發(fā)生的.如果在某個零假設(shè) 下,在一次觀測中小概率事件發(fā)生了,就要拒絕零假設(shè). 統(tǒng)計結(jié)論:當(dāng)零假設(shè)概率Pr0.05時接受零假設(shè);當(dāng)零假設(shè)概率Pr0.05時拒絕零假設(shè).,例3.3.1 某車間用一臺包裝機(jī)包裝葡萄糖. 包得的袋裝糖重是一個隨機(jī)變量,它服從正態(tài)分布. 當(dāng)機(jī)器正常
17、時,其均值為0.5公斤,標(biāo)準(zhǔn)差為0.015公斤. 某日開工為檢驗包裝機(jī)是否正常,隨機(jī)地抽取它所包裝的糖9袋,稱得凈重為(公斤): 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 問機(jī)器是否正常?(數(shù)據(jù)名Data E331) 請看通過菜單系統(tǒng)進(jìn)行假設(shè)檢驗的演示,SolutionAnalysis Analyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (Data E331見V8文件)(OK) Statistics Hypothesis
18、 Tests One Sample ztest for a Mean待分析變量xVariablestd.dev.of(即)填入0.015(或Variance(即2)內(nèi)填入0.0152) Tests Interval OK OK 類似可以求未知方差的的均值的假設(shè)檢驗及方差的假設(shè)檢測.請看演示,1.編程序輸入數(shù)據(jù): Data E335; input x y ; card; 6 2 4 1 5 2 5 2 6 1 5 0 5 3 6 2 4 1 6 0 7 1 4 3 ; proc print; run;,2. SolutionAnalysisAnalyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)Fil
19、eOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (DataE335見V8文件(OK) Statistics Hypothesis Tests Two Sample ttest for VarianceGroups are in 選Two variable (待分析變量xGroup1) (待分析變量yGroup2) (在Hypothesis框; 備擇假設(shè)Alternate(選擇)Variance1/ Variance21) Intervals(置信區(qū)間) Interval ) OK OK 特別提醒:PrF項下是零假設(shè)成立的概率,當(dāng)Pr0.
20、05時接受零假設(shè)否則拒絕零假設(shè). 請看演示,3. SolutionAnalysis Analyst(分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (DataE333見V8文件)(OK) Statistics Hypothesis Tests Two Sample ttest for MeansGroups are in 選Two variable (待分析變量xGroup1) (待分析變量yGroup2) (在Hypothesis框填入零假設(shè)值)Null: Mean1-Mean2=2; 備擇假設(shè)A
21、lternate(選擇) Mean1-Mean2 =2 TestsInterval OK OK 類似可求其它各種情況的假設(shè)檢驗,請看演示(E335),第三章練習(xí)題,第四章 方差分析,問題-研究分類變量取不同水平對指標(biāo)的影響 統(tǒng)計原理-將指標(biāo)的總波動(方差)分解成諸因素和隨機(jī)誤差之和,以隨機(jī)誤差的平均方差為參照對被考察對象的平均方差即方差比進(jìn)行分析. 設(shè)立零假設(shè):被檢驗對象效應(yīng)(即方差)(相對于誤差)不顯著 統(tǒng)計結(jié)論:零假設(shè)為Pr0.05因素的主效應(yīng)(或因素間的交互效應(yīng))不顯著;當(dāng)Pr0.05時認(rèn)為影響顯著;當(dāng)Pr0.01時認(rèn)為影響高度顯著.直觀上當(dāng)總波動主要由模型的波動解釋時稱模型顯著,而誤差
22、的波動在總波動中占比例較大時稱為不顯著. 三種情況: 1)單因素 2)二因素 3)多因素(3) 以及4)含協(xié)變量的協(xié)方差分析,第一節(jié) 單因素方差分析,例4.1.1 設(shè)有三臺機(jī)器,用來生產(chǎn)規(guī)格相同的鋁合金薄板. 取樣,測量薄板的厚度精確至千分之一厘米. 得結(jié)果如表所示. 問不同機(jī)器對生產(chǎn)的鋁合金板的厚度有無影響?,特別提醒:方差分析(無論單因素雙因素)中的誤差平方和本質(zhì)是重復(fù)試驗的隨機(jī)誤差平方和(區(qū)別于后面回歸分析中的誤差平方和),對前例編程進(jìn)行單因素方差分析 Data E411; input c $ y ; cards; 1 0.236 2 0.257 3 0.258 1 0.238 2 0.
23、253 3 0.264 1 0.248 2 0.255 3 0.259 1 0.245 2 0.254 3 0.267 1 0.243 2 0.261 3 0.262 ; proc glm data=E411; /*glm為方差分析*/ class c ; /*分類變量c*/ model y=c; /*模型 因變量=自變量*/ lsmeans c; /*最小誤差法*/ means c; /*求c的均值*/ RUN; 請看演示,輸出方差分析表如下:,利用菜單系統(tǒng)進(jìn)行方差分析(設(shè)已輸入數(shù)據(jù)data E411) SolutionAnalysisAnalyst(分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表) Fil
24、eOpen By Sas Name (在Make one selection窗口中)work 選中數(shù)據(jù)名E411 (OK) StatisticsANOVA One-Way ANOVA Independent填分類變量c Dependent因變量y Plots可選擇分水平的盒形圖(Box-Whisker Plot) ,條形圖(Bar Chart)及均值、標(biāo)準(zhǔn)差圖 MeansComparisons Methods給出了10種多重比較的方法 為選擇的顯著性水平, Breakdown可按水平分組出描述性統(tǒng)計量 OK (點(diǎn)擊運(yùn)行后的結(jié)果樹標(biāo)簽則會打開相應(yīng)圖.,*關(guān)于自由度自由度=變量個數(shù)-約束方程個數(shù)
25、譬如在單因素方差分析中:,自由度公式 總自由度ft=試驗次數(shù)n-1; 誤差自由度fe=總自由度ft-模型自由度f模型 方差分析中 (單因素模型)因素A (即模型)的自由度fA=水平數(shù)-1 (A,B雙因素考慮交互效應(yīng)模型) 因素A的自由度fA=水平數(shù)-1 因素B的自由度fB=水平數(shù)-1 交互效應(yīng)A*B的自由度fA*B= fA* fB 模型自由度f模型= fA +fB +fA*B 回歸分析中 項自由度=1 模型自由度f模型=項自由度之和,對于不等重復(fù)試驗,方差分析同樣進(jìn)行,請看例4.1.2,Data E412; input c $ t ; cards; 1 19 1 15 1 22 1 20 1
26、18 2 20 2 40 2 21 2 33 2 27 3 16 3 17 3 15 3 18 3 16 4 18 4 22 4 19 ; proc glm data=E412; /*glm為方差分析*/ class c ; /*分類變量c*/ model t=c; /*模型 因變量=自變量*/ lsmeans c; /*最小誤差法*/ means c; /*求c的均值*/ RUN;,第二節(jié) 兩因素方差分析,1.數(shù)據(jù)輸入:見Data Rocket 2.編程進(jìn)行: proc glm data=rocket; class f m; /* class語句說明對分類變量 f,m分析*/ model r
27、=f m f * m;/*模型: 連續(xù)變量r;考慮因素f,m及交互f*m*/ lsmeans f m f * m; run; 說明:如果要考慮交互效應(yīng),則每一水平組合必須做重復(fù)試驗,否則可以不做重復(fù)試驗.,3.應(yīng)用分析員應(yīng)用系統(tǒng): SolutionAnalysisAnalyst(分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表)FileOpen By Sas(在Make one selection窗口中) work (選中數(shù)據(jù)名Data rocket)(OK) Statistics ANOVA Factorial ANOVA Independent填分類變量f,mDependent填因變量R Model - S
28、tandard Models Main effects only只考慮主效應(yīng); Effects up to 2-way interactions考慮交互效應(yīng) Plots可選擇響應(yīng)變量的均值(主效應(yīng)或交互效應(yīng))連線圖 MeansComparisons Methods給出了10種多重比較的方法 為選擇的顯著性水平, Breakdown可按水平分組出描述性統(tǒng)計量 OK 請看演示,第三節(jié) 多因素(3)方差分析,對于多因素方差分析由于往往受試驗次數(shù)約束而采用回歸分析中的方差分析模型進(jìn)行平方和分解,此時顯著性參照物誤差為指標(biāo)的觀測值和理論模型值的均方差(與模型選擇有關(guān)),誤差來源于不在模型內(nèi)的因素(項)和
29、隨機(jī)誤差.這不同于ANOVA(或GLM)程序中的方差分析中的誤差來源于重復(fù)試驗. 指標(biāo)y(回收率),因素:XA(尿素量),XB(水量),XC(反應(yīng)時間),XD(溶劑量) (一)初步分析: 從數(shù)據(jù)表(見data Q98)看出各因素等間距取值,由正交多項式理論, 此時因素的主效應(yīng)(在以下變換的前提下,注意未經(jīng)變換主效應(yīng)的線性部分和二次項部分無法有正交性分解)可以進(jìn)一步分解成線性部分和二次項部分.對于顯著因素,如果二次項部分不顯著,只是線性項部分顯著,那么因素與指標(biāo)呈線性關(guān)系;如果二次項部分顯著那么因素與指標(biāo)呈拋物線關(guān)系. 因素等間距取值時,因素的取值與水平數(shù)(自然數(shù)1,2,3)可以有線性變換關(guān)系
30、新變量(可看成水平序號,已經(jīng)無量綱影響)=(原變量左端點(diǎn))/步長+1 此時在SAS中應(yīng)先用水平數(shù)為自變量進(jìn)行項的刪選,刪選結(jié)束用水平數(shù)與原始變量進(jìn)行方差分析和回歸分析結(jié)論完全相同,說明:A,B,C,B分別是四個因素在正交表上的水平值 (二)數(shù)據(jù)輸入 data Q98; input number $ A B C D XA XB XC XD y; A2=A*2;B2=B*2;C2=C*2;D2=D*2; XA2=XA*2;XB2=XB*2;XC2=XC*2; XD2=XD*2; cards; (數(shù)據(jù)略) proc print; run;,(三)分析過程 進(jìn)行分析時(1)當(dāng)因素很多或誤差自由度顯然不
31、夠時可先只考察所有因素的主效應(yīng),如有可能再進(jìn)一步考慮主要因素的二次項和交互項 或(2)當(dāng)試驗次數(shù)相對較多時直接在進(jìn)行變量代換 新變量(可看成水平序號)=(原變量左端點(diǎn))/步長+1 后,可考慮所有一次項和二次項采用逐步回歸刪去不顯著的項直接討論 本例先采用方法(1)分步討論 與直接采用方法(2)討論的結(jié)果是一致的 方法(1)第一步得輸出表如下:,分析:由于每個因素自由度2,合計模型自由度8,n-1-p=0即誤差自由度為0,從而無法產(chǎn)生統(tǒng)計量F和相應(yīng)概率Pr,但從平方和分解中可以看出因素效應(yīng)大小的順序,并看出因素D是不顯著的,故可以刪去因素D后進(jìn)入 Statistics Regression-Li
32、near重新分析(在選項Statistics中選擇型平方和SS)得表如下(從平方和比較中可以看出因素A只是線性效應(yīng)而因素B,C呈拋物線效應(yīng),):,刪除A2項重新上步工作得最終結(jié)果如表:,項的刪選結(jié)束后當(dāng)采用原始數(shù)據(jù)進(jìn)行回歸可發(fā)現(xiàn)方差分析結(jié)束完成一致并且得原變量和指標(biāo)的回歸方程見下表 方法(1)的以上過程與對新變量采用方法(2)直接利用逐步回歸直接完成的結(jié)論相同,多因素(3)方差分析(續(xù)),五因素三水平安排在正交表L18(37)上,要考察每個因素和其平方對指標(biāo)y的影響的顯著性.數(shù)據(jù)見下程序 data Q146; input number $ A B C D E y; A2=A*A; B2=B*B
33、; C2=C*C; D2=D*D; E2=E*E; cards; 1 1 1 1 1 1 943.44 2 1 2 2 2 2 975.06 (數(shù)據(jù)部分略) ; proc print; run;,SolutionAnalysis Analyst (“分析員應(yīng)用”)FileOpen By Sas Name (在Make one selection窗口中) work 選中數(shù)據(jù)名 Q146(OK) Statistics Regression Linear線性回歸 在線性回歸主窗口中Dependen填入因變量;Explanatory填入各自變量; (以下為返回式選項窗口,進(jìn)入該類窗口并進(jìn)行選擇后OK
34、返回) OK Model 選擇篩選變量的方法逐步回歸stepwise selection(如果對項的入選采取較寬容的態(tài)度可以適當(dāng)調(diào)大值譬如0.1)OK;Statistics選擇Type 1 sum of squares OK OK 請看演示,總和T以及各列的波動平方和S 和總波動平方和ST等可以用SAS求得: data Q143; input A B C Em y; cards; 1 1 1 1 5.09 /*數(shù)據(jù)前三列為正交表L9(34)前三列*/ 1 2 2 2 20.39 1 3 3 3 24.56 2 1 2 3 16.8 2 2 3 1 23.23 2 3 1 2 18.94 3 1
35、 3 2 21.01 3 2 1 3 15.59 3 3 2 1 22.34; proc print; run;,運(yùn)行數(shù)據(jù)后再利用SAS菜單系統(tǒng)進(jìn)行方差分析: SolutionAnalysis Analyst (分析員系統(tǒng)) (出現(xiàn)空白數(shù)據(jù)表) File Open By Sas(在Make one selection窗口中) work (選中數(shù)據(jù)名Data Q143) (OK) Statistics ANOVA Linear Models Independent填分類變量A,B,C Dependent因變量(響應(yīng)變量)填y 在選項 Statistics Type1下打勾 OK OK 請看演示,
36、發(fā)現(xiàn)因素A不顯著,準(zhǔn)備刪去因素A,重新進(jìn)入菜單系統(tǒng): StatisticsANOVALinearModels Reset后 Independent填分類變量B,C Dependent因變量(響應(yīng)變量)填y 在選項 Statistics Type1下打勾 OK OK 請看演示,方差分析中的平方和分解定理,第四節(jié) 協(xié)方差分析,data pig; input a $ ; /* 輸入字符變量A+數(shù)組(do-end語句實際給出相當(dāng)于 x1y1x2y2x8y8)*/ do i=1 to 8; input x ; /*用input x ; input y ;輸入向量(x,y) */ input y ; ou
37、tput; end; cards; (數(shù)據(jù)略) ; proc glm data=pig; class a ; model y=a x/solution; /* 模型: 連續(xù)(響應(yīng))變量y=分類變量a ,協(xié)變量x(用/solution表示) */ lsmeans a/stderr tdiff pdiff; /*用最小誤差平方和法估計的均值估計a(稱為修正均值) 選項stderr 要求輸出修正均值的標(biāo)誤 tdiff和pdiff表示要求輸出各組修正均值相互比較的t值和P值 */ means a; /*求出a中各組的均值*/ run;(運(yùn)行后主要輸出結(jié)果如下),data fab; do b = 1 t
38、o 4; do a = 1to 4; do rep = 1 to 2 ; /*注: 用三個do-end語句輸入三個下標(biāo)的二維向量(x,y)bar*/ input x ;/*(b=1-4;a=1-3;r=1,2)(下標(biāo): 兩因素+重復(fù))順序(外層內(nèi)層):*/ input y ; /*行(b=1-4)列(a=1-4)重復(fù)(r=1-2)向量(x,y)*/ output; end; end; end; cards; (數(shù)據(jù)略) ; proc glm; class a b ; model y= a b a * b x /solution; lsmeans a b a * b; means a b a *
39、 b ; run;,第四章練習(xí)題,第五章正交試驗設(shè)計,正交試驗設(shè)計由于具有優(yōu)良的均衡分散性和整齊可比性,其設(shè)計的試驗點(diǎn)具有強(qiáng)烈的代表性,在工藝改革等多因素試驗設(shè)計問題中,往往能以較少的試驗次數(shù),分析出各因素的主次順序以及對試驗指標(biāo)的影響規(guī)律,刪選出較滿意的試驗結(jié)果. 正交試驗法還滲透到其它一些試驗設(shè)計方法中,提高了試驗的效率和分析質(zhì)量. 正交試驗法應(yīng)用廣泛,具有卓越的經(jīng)濟(jì)效益,是多因素試驗設(shè)計問題中的常用手段.,第一節(jié)正交表介紹,L8(27)有8個橫行和7個縱列,由數(shù)碼“1”和“2”組成. 它有兩個特點(diǎn): (1)每縱列恰有四個“1”和四個“2”; (2)任意兩個縱列,其橫方向形成的八個數(shù)字對中
40、,恰好(1,1)、(1,2)、(2,1)和(2,2)各出現(xiàn)兩次. 這就是說對于任意兩個縱列,數(shù)碼“1”、“2”間的搭配是均衡的. 在正交表L9(34)中. (1)每縱列“1”、“2”和“3”出現(xiàn)的次數(shù)相同,都是三 (2)任意兩個縱列,其橫方向形成的九個數(shù)字對中, (1,1)、(1,2)、(1,3)、(2,1)、(2,2)、 (2,3)、(3,1)、(3,2)和(3,3)出現(xiàn)的次數(shù)相同,都是一次,即任意兩列的數(shù)碼“1”、“2”和“3”間的搭配是均衡的.,第二節(jié) 二水平正交試驗和分批試驗,分批試驗的思想:,例5.2.1 2,4二硝基苯肼的工藝改革,考察指標(biāo):產(chǎn)出率和顏色,第二批撒小網(wǎng),對第一批試驗
41、確定的主次因素,若認(rèn)為不再需要進(jìn)一步考慮的因素,則主要因素固定在好水平上,次要因素固定在適當(dāng)水平上,第二批試驗中要考慮的因素包括第一批試驗中確定的主要因素且認(rèn)為有必要進(jìn)一步詳細(xì)考察的因素以及第一批試驗中未及考慮到而認(rèn)為有必要在第二批試驗中補(bǔ)充考慮的因素.,第三節(jié)多水平正交試驗和水平趨勢圖,例5.3.1 晶體退火工藝改進(jìn),定量因素的水平趨勢圖 發(fā)現(xiàn)有用量選偏的因素(在本例中是恒溫溫度B)是認(rèn)識上的重大收獲. 下批試驗中把用量選準(zhǔn)后,常能取得明顯的進(jìn)展.,第四節(jié) 正交試驗設(shè)計的優(yōu)良性質(zhì),1.均衡分布見P.97圖5.4.1(L9(34)前三列)使每個試驗點(diǎn)有強(qiáng)烈的代表性 正交試驗的試驗次數(shù)(空心點(diǎn)總
42、數(shù)):全面試驗試驗次數(shù)(格子點(diǎn)數(shù)) =每個平面上空心點(diǎn)數(shù):每個平面上格子點(diǎn)數(shù) =每條棱上空心點(diǎn)數(shù):每條棱上格子點(diǎn)數(shù) 即 9/27=3/9=1/3 (三因素三水平場合) 局部試驗的最優(yōu)點(diǎn)的平均名次=(N+1)/(n+1) 這兒N是全面試驗次數(shù),n是局部試驗次數(shù),對于正交表L8(27)則有(128+1)/(8+1)14,2.整齊可比性使正交表的同一列可比較產(chǎn)生”好水平”. 下表說明A1的三次試驗(空心點(diǎn))中因素B的三個水平和因素C的三個水平各出現(xiàn)一次,A2和A3有同樣情況,就是說,對因素A的三個不同水平,受因素B和因素C的水平影響處于對等狀態(tài).,正交試驗采用極差分析或方差分析都可以,兩者沒有本質(zhì)區(qū)
43、別只是前者較方便而后者分析更精確,以下見例5.3.1用方差進(jìn)行分析(E531).data E531;input A B C D y;cards;input A B C D xa xb xc y;cards;(數(shù)據(jù)略);proc print;proc anova data=E531; class xa xb xc d;model y= xa xb xc d ; /*當(dāng)各因素單因素方差分析同時進(jìn)行時由于沒有誤差自由度所以無法進(jìn)行顯著性分析*/means xa xb xc d/snk ;/*選項snk要求作各水平組均值間的兩兩比較*/run;亦可利用菜單系統(tǒng)對每個因素進(jìn)行單因素方差分析,模型的平方和
44、即該因素的平方和在正交試驗的分析中與極差作用類似.亦可用因素的原始數(shù)據(jù)值(xa xb xc)求水平趨勢圖(plot選項中選取均值圖),第六節(jié) 正交表的靈活安排,定量因素的試驗用量或定性因素的狀態(tài)叫做因素的水平,在確定參加正交試驗的因素后,各種類型的正交表的格式是固定的,有時候各因素的水平必須靈活處理以適應(yīng)某張合適的正交表. 1.活動水平 2.擬水平和后備水平,配比試驗,第五章練習(xí)題,第六章 回歸分析,在現(xiàn)實世界中,存在著大量這樣的情況:一個變量和一個或多個變量, 譬如y和x1,x2,xp有一些依賴關(guān)系, 由x1,x2,xp可以部分地決定y的值,但這種決定往往不很確切. 常常用來說明這種依賴關(guān)系
45、的最簡單、直觀的例子是體重與身高、腰圍. 若用x1表示某人的身高,用x2表示某人的腰圍,用y表示他的體重, 眾所周知,一般說來,當(dāng)x1,x2大時,y也傾向于大,但由x1,x2不能嚴(yán)格地決定y. 類似的例子還很多. 變量之間的這種關(guān)系稱為“相關(guān)關(guān)系”,回歸模型就是研究相關(guān)關(guān)系的一個有力工具.,第一節(jié)回歸方程的最小二乘據(jù)估計,一元線性回歸的例6.2.1 data E621; input mumber $ y x ; cards; 數(shù)據(jù)略 ; proc print; run; 請看演示,例6.2.1散點(diǎn)圖,由散點(diǎn)圖可見x增大時y反而小,散點(diǎn)散布在一條直線附近.不過找不到一條直線穿過所有散點(diǎn)(這就是由
46、誤差決定的相關(guān)關(guān)系的特征).現(xiàn)在要求這樣的直線方程:y=b0+b1xi,即由數(shù)據(jù)確定回歸參數(shù)b0,b1.對于每一數(shù)據(jù)對(xi,yi)中的xi,同時有y的觀測值yi與回歸直線上的計算值b0+b1xi與之對應(yīng),相應(yīng)有誤差ei= yi-( b0+b1xi).回歸分析中參數(shù)的最小二乘估計就是要求這樣的b0,b1使,利用分析員應(yīng)用系統(tǒng)進(jìn)行一元回歸,SolutionAnalysis Analyst(“分析員應(yīng)用”) FileOpen By Sas Name(在Make one selection窗口中)work 選中數(shù)據(jù)名E621(OK)Statistics Regression Simple一元回歸(一
47、元回歸主窗口)在線性回歸主窗口中,Dependen因變量選中y; Explanatory自變量選中x;然后進(jìn)入各返回式選項窗口(進(jìn)入該類窗口并進(jìn)行選擇后OK 返回) OK 請看演示,第二節(jié) 多元線性回歸,假設(shè)y為因變量,x1,xp為對y有影響的p個自變量,并且它們之間具有線性關(guān)系 y=b0+b1x1+bpxp+e, 其中e為誤差項,它表示除了x1,xp之外其它因素對y的影響以及試驗或測量誤差. b0,b1,bp是待估計的未知參數(shù). 假定我們有了因變量y和自變量x1,xp的n組觀測值 ( xi1,xip;yi ),i=1,n, 它們滿足 yi=b0+ b1xi1+bpxip+ei ,i=1,n
48、(6.1.3) 這里ei為對應(yīng)的隨機(jī)誤差.,數(shù)據(jù)中心化,最小二乘的幾何意義,例6.4.1 研究某一地區(qū)土壤中含植物可給態(tài)磷的情況. 設(shè)y是35時土壤中可給態(tài)磷含量;x1是土壤中所含無機(jī)鹽濃度;x2是土壤中溶于K2CO3溶液并受溴化物水解的有機(jī)磷;x3是土壤中溶于K2CO3溶液但不溶于溴化物的有機(jī)磷,經(jīng)18次測量(見程序中數(shù)據(jù)),求x1,x2,x3對y的線性回歸方程 Y=b0+b1x1+b2x2+b3x3,data pcontent; input x1-x3 y; cards; 數(shù)據(jù)略 ; proc print; run;,利用SAS進(jìn)行多元線性回歸,1.編程進(jìn)行(設(shè)數(shù)據(jù)已輸入): proc r
49、eg data=pcontent; /*reg回歸分析*/ model y=x1-x3; /*模型 因變量=自變量*/ run; 2.利用菜單系統(tǒng): SolutionAnalysis Analyst(“分析員應(yīng)用”) FileOpen By Sas Name (在Make one selection窗口中) work 選中數(shù)據(jù)名 (OK) Statistics Regression Linear線性回歸 Dependen填入因變量;Explanatory填入各自變量;以下為返回式選項窗口(進(jìn)入該類窗口并進(jìn)行選擇后OK ) OK 請看演示,第三節(jié) 回歸模型的檢驗,SAS不能替我們選擇模型,模型的
50、選擇是我們決定的.但SAS可以幫我們判斷模型選擇的好壞,與此有關(guān)的就是方程的顯著性檢驗和失擬檢驗.看例 data E123; input x y; cards; 0.1 1.10 0.2 1.36 0.3 1.38 0.4 1.45 0.5 1.56 0.6 1.41 0.7 1.39 0.8 1.36 0.9 1.08 1.0 0.96 ; proc print; run;,用直線擬合數(shù)據(jù)E123,用拋物線擬合數(shù)據(jù)E123,顯著性檢驗的幾何意義: F=(b1x1*+b2x2*2/fr)/(e2/fe),回歸分析中的平方和分解定理,方程顯著性檢驗的三個方法 1. 總離差平方和St=回歸平方和S
51、r+誤差平方和Se,相應(yīng)有自由度: 總自由度ft=試驗次數(shù)-1; 回歸自由度fr =項數(shù); 誤差自由度fe= ft fr. 用F-統(tǒng)計量 F=(Sr/ fr)/(Se / fe) 參照臨界值F(ft, fe)判斷顯著性: 若F F0.01(fr, fe),稱方程高度顯著; 若F F0.05(fr, fe),稱方程顯著; 若F F0.05(fr, fe),(或FF0.1(fr, fe),稱方程不顯著;,2. 假設(shè)檢驗:零假設(shè)為 H0:b1=b2=bp=0 SAS根據(jù)數(shù)據(jù)給出零假設(shè)成立的概率(PrF)當(dāng)Pr0.05時接受零假設(shè),認(rèn)為方程不顯著; 當(dāng)Pr0.05時拒絕零假設(shè),認(rèn)為方程顯著; 當(dāng)Pr0
52、.01時拒絕零假設(shè),認(rèn)為方程高度顯著; 3. y和自變量集的(修正的)復(fù)相關(guān)系數(shù)(y;x1,xp)=cos(y*,b1x1*+bpxp*) 其平方越大越顯著建議采用考慮自由度的復(fù)相關(guān)系數(shù)平方 Adj R-sq 4.重復(fù)試驗和失擬檢驗(見第十章第七節(jié)) 請看演示:數(shù)據(jù)E123(分別用線性和二次進(jìn)行),數(shù)據(jù)pcontent的分析結(jié)果,第五節(jié)最優(yōu)回歸方程和逐步回歸法,由偏回歸平方和的概念可知當(dāng)回歸方程中項數(shù)p時,誤差平方和e2.同時顯著性檢驗統(tǒng)計量 F=(Sr/p)/(e2/n-1-p) 中卻有n-1-p,因此,當(dāng)p或時e2/n-1-p的變化決定于因子的顯著性,所謂“最優(yōu)”回歸方程,是指包括對因變量
53、有明顯影響的自變量,不包括那些影響不顯著或根本無影響的自變量,而且是殘余方差較小的回歸方程. SAS利用逐步回歸stepwise或Adjusted R-square等方法尋求最優(yōu)回歸方程,請看演示(數(shù)據(jù)名data rumay,逐步回歸中試用選入臨界值=0.6和淘汰=0.05看因素的進(jìn)出) 特別提醒:1)即使方程高度顯著,不能保證理論模型與實際擬合的優(yōu)劣,參見第十章第七節(jié)重復(fù)試驗 2)對于由于眾多小因素造成復(fù)共線性較嚴(yán)重模型(即使由于眾多因素的共同作用使方程高度顯著但每個因素都不顯著)以上方法無效,適合用主成份分析過濾復(fù)共線性后用主成份作為新因素對指標(biāo)進(jìn)行回歸,1.編程進(jìn)行: data ruma
54、y; input x1-x6 y; cards; 數(shù)據(jù)(略) ; Proc reg data=rumay; Model y=x1-x6/selection=stepwise; Run; 2.利用菜單系統(tǒng): 進(jìn)入多元線性回歸的主窗口Model選項選中stepwise selection即可 請看演示,方差分析和回歸分析中的平方和分解原理(1),方差分析和回歸分析中的平方和分解原理(2),第六節(jié) 關(guān)于參數(shù)的線性模型,例6.6.1 經(jīng)鉆探某地區(qū)煤礦上表面高度數(shù)據(jù)如表6.6.1,其中x為橫坐標(biāo),y為縱坐標(biāo),為了作趨勢面分析,建立上表面高度h的回歸方程. 我們用二次多項式擬合這組數(shù)據(jù),從而建立回歸模型 h=b0+b1x+b2y+b3x2+b4xy+b5y2+ (6.6.1) 其中是零均值隨機(jī)變量,結(jié)合表6.6.1,我們得 表6.6.1 地質(zhì)鉆探數(shù)據(jù),只要令x2=x2, xy=x*y, y2=y2,則模型( 6.6.1)式就變成5個自變量的線性回歸模型: y=b0+b1x+b2y+b3x2+b4xy+b5y2+ (6.6.2) 從而可以用線性回歸的計算公式和檢驗方法. 用SAS軟件來計算例6.6.1的程序是 data corn: /*數(shù)據(jù)h可看成帶行、列下標(biāo)的變量*/ do x=2 to 3 by 0.25 ;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 司法鑒定所財務(wù)制度
- 科創(chuàng)板對財務(wù)制度
- 食品會計財務(wù)制度
- 小微廠財務(wù)制度
- 農(nóng)家書屋三個制度
- 公路工程施工監(jiān)理招標(biāo)投標(biāo)制度
- 企業(yè)設(shè)備質(zhì)量管理制度(3篇)
- 國貿(mào)理發(fā)活動策劃方案(3篇)
- 2026江西九江市田家炳實驗中學(xué)臨聘教師招聘2人備考題庫有完整答案詳解
- 2026山東泰安市屬事業(yè)單位初級綜合類崗位招聘備考題庫及答案詳解(奪冠系列)
- 車輛工程系畢業(yè)論文
- 500萬的咨詢合同范本
- 七年級語文文言文閱讀理解專項訓(xùn)練
- 中藥熱熨敷技術(shù)及操作流程圖
- 臨床提高吸入劑使用正確率品管圈成果匯報
- 娛樂場所安全管理規(guī)定與措施
- 電影項目可行性分析報告(模板參考范文)
- 老年協(xié)會會員管理制度
- LLJ-4A車輪第四種檢查器
- 大索道竣工結(jié)算決算復(fù)審報告審核報告模板
- 2025年南充市中考理科綜合試卷真題(含標(biāo)準(zhǔn)答案)
評論
0/150
提交評論