版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第三章 區(qū)間估計(jì)與假設(shè)檢驗(yàn),3.1 區(qū)間估計(jì)與假設(shè)檢驗(yàn)的基本概念 3.2 總體均值的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.3 總體比例的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.4 總體方差的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.5 分布檢驗(yàn),3.1 區(qū)間估計(jì)與假設(shè)檢驗(yàn)的基本概念 3.1.1 區(qū)間估計(jì) 3.1.2 假設(shè)檢驗(yàn),3.1.1 區(qū)間估計(jì) 1. 點(diǎn)估計(jì)和區(qū)間估計(jì) 參數(shù)的估計(jì)方法主要有兩種:點(diǎn)估計(jì)和區(qū)間估計(jì)。 點(diǎn)估計(jì)是用樣本的觀測(cè)值估計(jì)總體未知參數(shù)的值。由于樣本的隨機(jī)性,不同樣本觀測(cè)值計(jì)算得出的參數(shù)的估計(jì)值間存在著差異,因此常用一個(gè)區(qū)間估計(jì)總體的參數(shù),并把具有一定可靠性和精度的估計(jì)區(qū)間稱為置信區(qū)間。
2、利用構(gòu)造的統(tǒng)計(jì)量及樣本觀測(cè)值,計(jì)算得出參數(shù)的置信區(qū)間的方法稱為參數(shù)的區(qū)間估計(jì)。,2. 參數(shù)的置信區(qū)間 在區(qū)間估計(jì)中,對(duì)于總體的未知參數(shù),需要求出兩個(gè)統(tǒng)計(jì)量1(X1,X2,.,Xn)和2(X1,X2,.,Xn)來分別估計(jì)總體參數(shù)的上限和下限,使得總體參數(shù)在區(qū)間(1,2)內(nèi)的概率為 P1 2 = 1 其中1 稱為置信水平,而(1,2)稱為的置信區(qū)間,1,2分別稱為置信下限和置信上限。置信水平為1 的含義是隨機(jī)區(qū)間(1,2)以1 的概率包含了參數(shù)。,3. 正態(tài)總體均值和方差的置信區(qū)間 參數(shù)的區(qū)間估計(jì)大多是對(duì)正態(tài)總體的參數(shù)進(jìn)行估計(jì),如對(duì)單總體均值、方差的估計(jì)、兩總體均值差的估計(jì)和兩總體方差比的估計(jì)等。
3、 正態(tài)總體參數(shù)的各種置信區(qū)間見表3-1。,正態(tài)總體參數(shù)的各種置信區(qū)間見表3-1。,其中,4. 總體比例與比例差的置信區(qū)間 實(shí)際應(yīng)用中經(jīng)常需要對(duì)總體比例進(jìn)行估計(jì),如產(chǎn)品的合格率、大學(xué)生的就業(yè)率和手機(jī)的普及率等。記和P分別表示總體比例和樣本比例,則當(dāng)樣本容量n很大時(shí)(一般當(dāng)nP和n(1 P)均大于5時(shí),就可以認(rèn)為樣本容量足夠大),樣本比例P的抽樣分布可用正態(tài)分布近似。總體比例與比例差的置信區(qū)間如表3-2所示。,3.1.2 假設(shè)檢驗(yàn) 1. 假設(shè)檢驗(yàn)的基本原理 對(duì)總體參數(shù)進(jìn)行假設(shè)檢驗(yàn)時(shí),首先要給定一個(gè)原假設(shè)H0,H0是關(guān)于總體參數(shù)的表述,與此同時(shí)存在一個(gè)與H0相對(duì)立的備擇假設(shè)H1,H0與H1有且僅有一
4、個(gè)成立;經(jīng)過一次抽樣,若發(fā)生了小概率事件(通常把概率小于0.05的事件稱為小概率事件),可以依據(jù)“小概率事件在一次實(shí)驗(yàn)中幾乎不可能發(fā)生”的理由,懷疑原假設(shè)不真,作出拒絕原假設(shè)H0,接受H1的決定;反之,若小概率事件沒有發(fā)生,就沒有理由拒絕H0,從而應(yīng)作出拒絕H1的決定。,2. 假設(shè)檢驗(yàn)的步驟 1) 根據(jù)問題確立原假設(shè)H0和備選假設(shè)H1; 2) 確定一個(gè)顯著水平,它是衡量稀有性(小概率事件)的標(biāo)準(zhǔn),常取為0.05; 3) 選定合適的檢驗(yàn)用統(tǒng)計(jì)量W(通常在原假設(shè)中相等成立時(shí),W的分布是已知的),根據(jù)W的分布及的值,確定H0的拒絕域。 4) 由樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量W的觀測(cè)值W0,如果W0落入H0的
5、拒絕域,則拒絕H0;否則,不能拒絕原假設(shè)H0。,注意:在SAS系統(tǒng)中,是由樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量W的觀測(cè)值W0和衡量觀測(cè)結(jié)果極端性的p值(p值就是當(dāng)原假設(shè)成立時(shí)得到樣本觀測(cè)值和更極端結(jié)果的概率),然后比較p和作判斷:p ,拒絕原假設(shè)H0;p,不能拒絕原假設(shè)H0。,p值通常由下面公式計(jì)算而得到。 p = P|W| |W0| = 2 P W |W0| (拒絕域?yàn)閮蛇厡?duì)稱的區(qū)域時(shí)) p = minPW W0,PW W0 (拒絕域?yàn)閮蛇叿菍?duì)稱區(qū)域時(shí)) p = PW W0 (拒絕域?yàn)橛疫厖^(qū)域時(shí)) p = PW W0 (拒絕域?yàn)樽筮厖^(qū)域時(shí)) 只需根據(jù)SAS計(jì)算出的p值,就可以在指定的顯著水平下,作出拒絕或
6、不能拒絕原假設(shè)的決定。,3. 正態(tài)總體均值和方差的假設(shè)檢驗(yàn) 對(duì)正態(tài)總體的參數(shù)進(jìn)行假設(shè)檢驗(yàn)是假設(shè)檢驗(yàn)的重要內(nèi)容,如對(duì)單總體均值、方差的檢驗(yàn)、兩總體均值之差的檢驗(yàn)和兩總體方差比的檢驗(yàn)等。正態(tài)總體參數(shù)的各種檢驗(yàn)方法見下表3-3至表3-5。 表3-3 單正態(tài)總體N(,2)均值的檢驗(yàn)法,表3-4 單正態(tài)總體N(,2)方差2的檢驗(yàn)法,或,表3-5 兩正態(tài)總體的均值差與方差比的檢驗(yàn),4. 總體比例與比例差的檢驗(yàn) 當(dāng)樣本容量n很大時(shí),可根據(jù)表3-6對(duì)總體比例與比例差進(jìn)行假設(shè)檢驗(yàn)。 表3-6 總體比例與比例差的檢驗(yàn),3.2 總體均值的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.2.1 使用INSIGHT模塊 3.2.2
7、 使用“分析家” 3.2.3 使用TTEST過程,3.2.1 使用INSIGHT模塊 1. 總體均值的區(qū)間估計(jì) 【例3-1】某藥材生產(chǎn)商要對(duì)其倉庫中的1000箱藥材的平均重量進(jìn)行估計(jì),藥材重量的總體方差未知,隨機(jī)抽取16箱樣本稱重后結(jié)果如表3-7所示。 表3-7 16箱藥材重量(單位:千克) 設(shè)藥材重量數(shù)據(jù)存放于數(shù)據(jù)集Mylib.yczl中,其中重量變量名為weight。求該倉庫中每箱藥材平均重量在95%置信水平下的置信區(qū)間。,步驟如下: 1) 啟動(dòng)INSIGHT模塊,并打開數(shù)據(jù)集Mylib.yczl; 2) 選擇菜單“Analyze”“Distribution(Y)”; 3) 在打開的“Di
8、stribution(Y)”對(duì)話框中進(jìn)行區(qū)間估計(jì)的設(shè)置(如圖)。,結(jié)果包括一個(gè)名為“95Confidence Intervals(95%置信區(qū)間)”的列表,表中給出了均值、標(biāo)準(zhǔn)差、方差的估計(jì)值(Parameter)、置信下限(LCL)和置信上限(UCL),如圖3-2所示。結(jié)果表明,根據(jù)抽樣樣本,該倉庫中藥材的平均重量以95%的可能性位于50.08千克至52.92千克之間。,2. 單樣本總體均值的假設(shè)檢驗(yàn) 【例3-2】一家食品廠以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋,每袋重量規(guī)定為100克。為了分析每袋重量是否符合要求,質(zhì)檢部門經(jīng)常進(jìn)行抽檢?,F(xiàn)從某天生產(chǎn)的一批食品中隨機(jī)抽取了25袋,測(cè)得
9、每袋重量如表3-8所示。 表3-8 25袋食品的重量(單位:克) 試從抽檢的樣本數(shù)據(jù)出發(fā),檢驗(yàn)變量WEIGHT的均值與100克是否有顯著差異。假定表3-8數(shù)據(jù)存放在數(shù)據(jù)集Mylib.spzl中,重量變量名為WEIGHT。,設(shè)變量WEIGHT的均值為,問題是希望通過樣本數(shù)據(jù)檢驗(yàn)變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。 使用INSIGHT對(duì)均值進(jìn)行檢驗(yàn)的步驟如下: 1) 首先啟動(dòng)INSIGHT,并打開數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Analyze”“Distribution(Y)”; 3) 在打開的“Distribution(Y)”對(duì)話框中選定分析變量W
10、EIGHT; 4) 單擊“OK”按鈕,得到變量的描述性統(tǒng)計(jì)量;,5) 選擇菜單“Tables(表)”“Tests for Location(位置檢驗(yàn))”;在彈出的“Tests for Location”對(duì)話框中輸入100,單擊“OK”按鈕得到輸出結(jié)果如圖所示。,結(jié)果顯示,觀測(cè)值不等于100克的觀測(cè)有24個(gè),其中19個(gè)觀測(cè)值大于100。 圖中第一個(gè)檢驗(yàn)為t檢驗(yàn)(Students t),需要假定變量服從正態(tài)分布,檢驗(yàn)的p值為0.0105,這個(gè)檢驗(yàn)在0.05水平下是顯著的,所以可認(rèn)為均值與100克有顯著差異。第二個(gè)檢驗(yàn)(Sign)是叫做符號(hào)檢驗(yàn)的非參數(shù)檢驗(yàn),其p值為0.0066,在0.05水平下也是
11、顯著的,結(jié)論不變。第三個(gè)檢驗(yàn)(Sgned Rank)是叫做符號(hào)秩檢驗(yàn)的非參數(shù)檢驗(yàn),其p值為0.0048,在0.05水平下是顯著的,結(jié)論不變。,3. 兩樣本總體均值的比較:成對(duì)匹配樣本 在INSIGHT中比較成對(duì)樣本均值是否顯著差異,可以計(jì)算兩變量的差值變量,再檢驗(yàn)差值變量的均值是否顯著為0。 【例3-3】由10名學(xué)生組成一個(gè)隨機(jī)樣本,讓他們分別采用A和B兩套試卷進(jìn)行測(cè)試,結(jié)果如表3-9所示。 表3-9 10名學(xué)生兩套試卷的成績(jī) 試從樣本數(shù)據(jù)出發(fā),分析兩套試卷是否有顯著差異。,步驟如下: 1) 首先生成差值變量: 啟動(dòng)INSIGHT,并打開數(shù)據(jù)集Mylib.sjdf。選擇菜單“Edit”“Var
12、iables”“Other”,打開“Edit Variables”對(duì)話框,選擇A為Y變量,B為X變量,然后選擇變換(Transformation):Y X,如圖,生成新的差值變量d;,2) 然后對(duì)變量d的均值做如下假設(shè): H0:d = 0,H1:d 0。 3) 選擇菜單“Analyze”“Distribution(Y)”;在打開的“Distribution(Y)”對(duì)話框中選定分析變量:選擇變量差值d,單擊“Y”按鈕,將變量d移到右上方的列表框中; 4) 單擊“Output”按鈕,在打開的對(duì)話框中選中“Tests for Location(位置檢驗(yàn))”復(fù)選框; 5) 兩次單擊“OK”按鈕,得到變
13、量的描述性統(tǒng)計(jì)量;,6) 選擇菜單“Tables(表)”“Tests for Location(位置檢驗(yàn))”;在彈出的“Tests for Location”對(duì)話框中輸入0,單擊“OK”按鈕得到輸出結(jié)果如圖所示。 結(jié)果顯示三個(gè)檢驗(yàn)的結(jié)論都是p值小于0.05,所以應(yīng)拒絕原假設(shè),即總體的均值與0有顯著差異。所以兩套試卷有顯著差異。 雖然SAS給出三個(gè)檢驗(yàn)結(jié)果,其實(shí)作結(jié)論時(shí)只需其中一個(gè)。如果可以認(rèn)為分析變量服從正態(tài)分布只要看t檢驗(yàn)結(jié)果;否則只須看符號(hào)秩檢驗(yàn)結(jié)果。只有在數(shù)據(jù)為兩兩比較的大小結(jié)果而沒有具體數(shù)值時(shí)符號(hào)檢驗(yàn)才有用。,3.2.2 使用“分析家” 1. 總體均值的置信區(qū)間 【例3-4】在“分析家
14、”中求例3-1中每箱藥材平均重量在95%置信水平下的置信區(qū)間。 步驟如下: 1) 在“分析家”模塊中打開數(shù)據(jù)集Mylib.yczl; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample t test for a Mean(單樣本均值t - 檢驗(yàn))”; 3) 在打開的“One Sample t test for a Mean”對(duì)話框中設(shè)置均值的置信區(qū)間(如圖3-6)。,3) 在打開的“One Sample t test for a Mean”對(duì)話框中設(shè)置均值的置信區(qū)間(如圖3-6)。 結(jié)果表明(下圖),根據(jù)抽樣樣本,該倉庫中藥材的
15、平均重量以95%的可能性位于50.08千克至52.92千克之間。,2. 單樣本總體均值的假設(shè)檢驗(yàn) 【例3-5】使用“分析家”檢驗(yàn)例3-2中食品重量是否符合要求。希望通過樣本數(shù)據(jù)檢驗(yàn)變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。 由于此時(shí)的方差未知,所以使用t檢驗(yàn)法。步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample t test for a Mean(單樣本均值t - 檢驗(yàn))”,打開“One Sample t test for a Mean
16、”對(duì)話框;,4)按圖3-8所示設(shè)置均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖左所示。; 顯示結(jié)果(圖右)表明t統(tǒng)計(jì)量的p值為0.01050.05,所以拒絕原假設(shè),即認(rèn)為總體的均值不等于100。,3. 兩樣本總體均值的比較:成對(duì)匹配樣本 【例3-6】使用“分析家”對(duì)例3-3中兩套試卷檢驗(yàn)有無顯著差異。 這是一個(gè)(成對(duì)匹配)雙樣本均值檢驗(yàn)問題,若1和2分別表示兩套試卷的平均成績(jī),則檢驗(yàn)的是: H0:1 2 = 0,H1:1 2 0; 分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.sjdf; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“T
17、wo Sample Paired t - Test for a Mean(均值的成對(duì)雙樣本t - 檢驗(yàn))”;,3) 在打開的“Two Sample Paired t - Test for a Mean”對(duì)話框中,按圖左所示設(shè)置雙樣本均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖右所示 結(jié)果顯示,無論兩總體的方差是否相等,t統(tǒng)計(jì)量的p值 = 0.0005 0.05,所以在95%的置信水平下,拒絕原假設(shè),兩總體的均值有顯著差異。 結(jié)果表明可以95%的把握認(rèn)為兩套試卷有顯著差異。,4. 兩樣本總體均值的比較:獨(dú)立樣本 【例3-7】為估計(jì)兩種方法組裝產(chǎn)品所需時(shí)間的差異,分別對(duì)兩種不同的組裝方法各隨機(jī)安排一些
18、個(gè)工人進(jìn)行操作試驗(yàn),每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間如表3-10所示。試以95%的置信水平推斷兩種方法組裝產(chǎn)品所需平均時(shí)間有無差異。 表3-10 兩種方法組裝產(chǎn)品所需的時(shí)間(單位:分鐘) 這是一個(gè)(獨(dú)立)兩樣本均值檢驗(yàn)問題,若1和2分別表示兩種方法組裝一件產(chǎn)品所需的平均時(shí)間,則檢驗(yàn)的是:H0:1 2 = 0,H1:1 2 0;,假定表3-10數(shù)據(jù)存放在數(shù)據(jù)集Mylib.zzcpsj中,將兩個(gè)樣本中被比較均值的變量的觀測(cè)值記在同一分析變量F下,不同的樣本用一個(gè)分類變量g的不同值加以區(qū)分,而且分類變量g只能取兩個(gè)值,否則無法進(jìn)行。 分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.zzcps
19、j; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“Two Sample t - Test for Mean(兩樣本均值的t - 檢驗(yàn))”;,3) 在打開的“Two Sample t - Test for a Mean”對(duì)話框中,按圖3-12所示設(shè)置雙樣本均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖3-13所示 結(jié)果顯示,由于t統(tǒng)計(jì)量的p值 = 0.0433,所以在95%的置信水平下,應(yīng)該拒絕原假設(shè),即兩種方法所需時(shí)間有差異。表明有95%的把握認(rèn)為兩種方法所需時(shí)間有差異。,3.2.3 使用TTEST過程 TTEST過程可以執(zhí)行單樣本均值的t檢驗(yàn)、配
20、對(duì)數(shù)據(jù)的t檢驗(yàn)以及雙樣本均值比較的t檢驗(yàn)。 1. 語法格式 PROC TTEST ; CLASS ; VAR ; PAIED ; BY ; RUN; 其中,PROC TTEST和RUN語句是必須的,其余語句都是可選的,而且可調(diào)換順序。,CLASS語句所指定的分組變量是用來進(jìn)行組間比較的;而BY語句所指定的分組變量是用來將數(shù)據(jù)分為若干個(gè)更小的樣本,以便SAS分別在各小樣本內(nèi)進(jìn)行各自獨(dú)立的處理。 VAR語句引導(dǎo)要檢驗(yàn)的所有變量列表,SAS將對(duì)VAR語句所引導(dǎo)的所有變量分別進(jìn)行組間均值比較的t檢驗(yàn)。,PAIED語句用來指定配對(duì)t檢驗(yàn)中要進(jìn)行比較的變量對(duì),其后所帶的變量名列表一般形式及其產(chǎn)生的效果見表
21、3-11。 表3-11 選項(xiàng)及其含義,PROC TTEST語句后可跟的選項(xiàng)及其表示的含義如表3-12所示。 表3-12 選項(xiàng)及其含義,2. 總體均值的置信區(qū)間 【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A和B。 data sjcj; input A B; cards; 78 71 63 44 72 61 89 84 91 74 49 51 68 55 76 60 85 77 55 39 ; run;,【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A
22、和B。 使用最簡(jiǎn)代碼求均值、標(biāo)準(zhǔn)差的置信區(qū)間: proc ttest data = sjcj; run; 代碼運(yùn)行結(jié)果給出兩個(gè)變量在95%置信水平下的均值、標(biāo)準(zhǔn)差的置信區(qū)間,以及對(duì)原假設(shè)0= 0所作的t檢驗(yàn)的p值,如圖所示。,3. 單樣本總體均值的假設(shè)檢驗(yàn) 在例3-8中增加原假設(shè)選項(xiàng)以及置信水平,代碼如下: proc ttest h0=70 alpha = 0.01 data=sjcj; var A; run; 代碼運(yùn)行結(jié)果除了給出變量A在99%置信水平下的均值、標(biāo)準(zhǔn)差的置信區(qū)間外,還給出對(duì)假設(shè)0 = 70,所作的t-檢驗(yàn)的p值,如圖3-15所示。 結(jié)果顯示t統(tǒng)計(jì)量的p值 = 0.5734,不
23、能拒絕(57.34%的把握)原假設(shè):均值 = 70。,4. 配對(duì)兩樣本均值的假設(shè)檢驗(yàn) 在例3-8中檢驗(yàn)兩套試卷有無顯著差異,代碼如下: proc ttest data=sjcj; paired A*B; run; 代碼運(yùn)行結(jié)果給出了對(duì)原假設(shè)1 2 = 0所作的t檢驗(yàn)的p值,如圖3-16所示。 結(jié)果顯示t統(tǒng)計(jì)量的p值 = 0.0005 0.05,因此拒絕原假設(shè)。說明兩套試卷有顯著差異。,5. 獨(dú)立兩樣本均值的假設(shè)檢驗(yàn) 過程TTEST還可以用于進(jìn)行獨(dú)立雙樣本均值比較的t檢驗(yàn)法。它的用法為 PROC TTEST DATA = ; CLASS ; VAR ; RUN; 使用這一格式要求將兩個(gè)樣本中被比
24、較均值的變量的觀測(cè)值記在同一分析變量下,不同的樣本用另一個(gè)分類變量的不同值加以區(qū)分,而且分類變量只能取兩個(gè)值,否則將報(bào)錯(cuò)。,【例3-9】仍然考慮例3-7中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集zzcpsj中: data zzcpsj; input f g$; cards; 28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 2 37.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 2 36 1 31.7 2 37.2 1 26 2 38.5 1 32 2 34.4 1 31.2 2 28 1 30 1 ; run;,將兩批工人的測(cè)量結(jié)果看作
25、兩個(gè)樣本,但其數(shù)據(jù)都放在一個(gè)數(shù)據(jù)集之中,所需的時(shí)間值是記錄在同一分析變量f之下,而兩種方法的差別是由變量g的值加以區(qū)分的,所以g可作為分類變量。檢驗(yàn)代碼如下: proc ttest data=zzcpsj; class g; var f; run; 檢驗(yàn)結(jié)果如圖所示。,在檢驗(yàn)中,先看其最后關(guān)于方差等式的檢驗(yàn)結(jié)果,檢驗(yàn)方差相等是用的F 統(tǒng)計(jì)量,其數(shù)值為1.29,相應(yīng)的p值為0.67790.05 = ,所以不能拒絕方差相等的假設(shè)。 在方差相等的前提下,檢驗(yàn)均值差異使用Pooled方法,對(duì)應(yīng)統(tǒng)計(jì)量的t值為2.16,相應(yīng)的p值為0.04330.05 = ,所以兩種方法所需的時(shí)間是有顯著差異的。 在異方
26、差的情況下,使用Satterthwaite法檢驗(yàn)均值的差異。,3.3 總體比例的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.3.1 總體比例的置信區(qū)間 3.3.2 單樣本總體比例的假設(shè)檢驗(yàn) 3.3.3 兩總體比例的比較,3.3.1 總體比例的置信區(qū)間 【例3-10】2004年底北京市私家車擁有量已達(dá)到129.8萬輛,位居全國之首,據(jù)業(yè)內(nèi)人士分析其中國產(chǎn)中低檔汽車的比例較大,為了估計(jì)目前北京市場(chǎng)個(gè)人購車的平均價(jià)格,調(diào)查人員于某日在北京最大的車市隨機(jī)抽取36位私人消費(fèi)購車者,得到他們所購汽車的價(jià)格,見下表。 表3-13 年底購車價(jià)格(單位:萬元) 根據(jù)以上調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)購買私家車在
27、15萬元以上的消費(fèi)者占有的比例。,設(shè)購車價(jià)格數(shù)據(jù)存放在數(shù)據(jù)集Mylib.gcjg中,價(jià)格變量名為price。這是一個(gè)單樣本比例的區(qū)間估計(jì)問題。由于在SAS中只能對(duì)兩水平的分類變量作比例的區(qū)間估計(jì)與檢驗(yàn),所以首先要按變量price生成一個(gè)新的分類變量。步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.gcjg; 2) 選擇主菜單“Edit(編輯)”“Mode(模式)”“Edit(編輯)”,使數(shù)據(jù)集可以被編輯(修改);,3) 選擇主菜單“Data(數(shù)據(jù))”“Transform(變換)”“Recode Ranges(重編碼范圍)”,打開“Recode Ranges Information”對(duì)話框
28、并按圖3-18(左)設(shè)置有關(guān)內(nèi)容; 4) 單擊“OK”按鈕,打開“Recode Ranges”對(duì)話框,按圖3-18右所示生成新變量price_f;,6) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample Test for a Proportion(單樣本比例檢驗(yàn))”; 7) 在打開的“One Sample Test for a Proportion”對(duì)話框中,按圖3-19設(shè)置比例的置信區(qū)間。,分析結(jié)果中包括變量的置信區(qū)間:按95%的置信水平變量price取值為“15”的比例在區(qū)間(0.109,0.391)范圍中(如圖3-20),即可
29、以95%的概率估計(jì)該地區(qū)所購買車輛在15萬元以上的消費(fèi)者所占比例在10.9%39.1%之間。,3.3.2 單樣本總體比例的假設(shè)檢驗(yàn) 【例3-11】考慮例3-10中的數(shù)據(jù),試檢驗(yàn)總體中購買車輛在15萬元以上者所占比例是否超過30%。 這是一個(gè)單樣本比例檢驗(yàn)問題,若表示總體中購買車輛在15萬元以上者所占比例,則檢驗(yàn)的是: H0: 0.3,H1: 0.3;,步驟如下: 1) 選擇菜單“Statistics”“Hypothesis Tests”“One Sample Test for a Proportion”,打開并按圖左設(shè)置“One Sample Test for a Proportion”對(duì)話框
30、;檢驗(yàn)結(jié)果如圖右所示。,顯示的結(jié)果表明樣本中購買車輛在15萬元以上者的比例為25%,檢驗(yàn)用的Z統(tǒng)計(jì)量的p值為0.2563 0.05,所以不能拒絕原假設(shè)。 結(jié)果表明購買車輛在15萬元以上者所占比例在95%的置信水平下超過30%。,3.3.3 兩總體比例的比較 【例3-12】2004年底很多類型的國產(chǎn)轎車價(jià)格都比年中有所下降,為了對(duì)比2004年底與年中私家購車族購車價(jià)格的差異,在年中新購車者中隨機(jī)抽取32人,調(diào)查得到的價(jià)格數(shù)據(jù)如表3-14。 表3-14 年中購車價(jià)格(單位:萬元): 綜合表3-13與表3-14的調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)年底與年中購買私家車在15萬元以上的消費(fèi)者占有比例
31、有無差異。,這是一個(gè)雙樣本比例檢驗(yàn)問題,若1和2分別表示總體中年底和年中購買私家車在15萬元以上的消費(fèi)者所占的比例,則檢驗(yàn)的是假設(shè): H0:1 2 = 0,H1:1 2 0;,首先將3-7與表3-8的調(diào)查數(shù)據(jù)存入一個(gè)數(shù)據(jù)集Mylib.gcjgQ中,價(jià)格變量名為price,使用變量period以區(qū)別年中數(shù)據(jù)(2)與年底數(shù)據(jù)(1)。按例3-10中的步驟由price生成兩水平分類變量price_F。圖3-23所示即為數(shù)據(jù)集Mylib.gcjgQ中的部分?jǐn)?shù)據(jù)。,然后,對(duì)上面假設(shè)進(jìn)行檢驗(yàn),步驟如下: 1) 在分析家中打開數(shù)據(jù)集Mylib.gcjgQ后,選擇菜單“Statistics”“Hypothesi
32、s Tests”“Two Sample Test for Proportion(雙樣本比例檢驗(yàn))”,在對(duì)話框中,按圖左設(shè)置雙樣本比例檢驗(yàn),分析結(jié)果如圖右所示。 結(jié)果顯示,由于Z統(tǒng)計(jì)量的p值為0.5664,所以在95%的置信水平下,不能拒絕原假設(shè)。即該地區(qū)2004年底與年中私家購車價(jià)格在15萬元以上者所占比例無明顯差異。,3.4 總體方差的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn) 3.4.1 總體方差的置信區(qū)間 3.4.2 單樣本總體方差的假設(shè)檢驗(yàn) 3.4.3 兩樣本總體方差的比較,3.4.1 總體方差的置信區(qū)間 【例3-13】表3-15所示為某中學(xué)1980年模擬高考數(shù)學(xué)的部分學(xué)生成績(jī),試估計(jì)本次模擬考試
33、成績(jī)的方差。 表3-15 部分學(xué)生成績(jī) 假定表3-15數(shù)據(jù)存放在數(shù)據(jù)集Mylib.kscj中,成績(jī)變量名為score。分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.kscj; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample Test for a Variance(方差的單樣本檢驗(yàn))”;,3) 在打開的“One Sample Test for a Variance”對(duì)話框中設(shè)置方差的置信區(qū)間(如圖3-26)。 分析結(jié)果中包括方差的置信區(qū)間估計(jì),如圖3-27所示。 結(jié)果表明,本次模擬考試成績(jī)方差在置信水平95%下的置
34、信區(qū)間為(7.1692,28.614)。,3.4.2 單樣本總體方差的假設(shè)檢驗(yàn) 【例3-14】考慮例3-13中的模擬考試成績(jī),檢驗(yàn)考試成績(jī)是否太集中。 這是一個(gè)單樣本方差檢驗(yàn)問題,若表示總體方差,則檢驗(yàn)的是: H0:2 52,H1:2 52; 步驟如下: 1) 選擇菜單“Statistics”“Hypothesis Tests”“One Sample Test for a Variance(單樣本方差檢驗(yàn))”,打開“One Sample Test for a Variance”對(duì)話框并按圖設(shè)置; 2) 單擊“OK”按鈕,得到結(jié)果。,結(jié)果(圖左)顯示,樣本方差為12.732,由于2檢驗(yàn)的p值 =
35、 0.9504,所以不能拒絕方差 25的原假設(shè)。 結(jié)果表明有95%的把握可以認(rèn)為該模擬考試的成績(jī)太過集中。,3.4.3 兩樣本總體方差的比較 【例3-15】已知兩只股票深發(fā)展(000001)和萬科A(000002)在2004年6月21個(gè)交易日的收益率如表3-16所示。試在0.05的顯著水平下判斷深發(fā)展的風(fēng)險(xiǎn)是否高于萬科A? 表3-16 深發(fā)展和萬科A在2004年6月21個(gè)交易日的收益率,這是一個(gè)雙樣本方差檢驗(yàn)問題,若1和2分別表示深發(fā)展和萬科A兩只股票收益率的方差,則檢驗(yàn)的是: H0:1 2,H1:1 2; 檢驗(yàn)步驟如下: 1) 首先,將表3-8中的數(shù)據(jù)生成數(shù)據(jù)集mylib.gupiao,深發(fā)
36、展和萬科的收益率可以用同一變量表示,另加一個(gè)分類變量以區(qū)別;也可用兩個(gè)變量表示,如分別用s和w表示。本例用第二種方法。,2) 在分析家中打開數(shù)據(jù)集mylib.gupiao后,選擇菜單“Statistics”“Hypothesis Tests”“Two-Sample Test for Variance(雙樣本方差檢驗(yàn))”,打開“Two-Sample Test for Variance”對(duì)話框并按圖左設(shè)置;單擊“OK”按鈕,得到分析結(jié)果。 結(jié)果顯示(圖右),在0.05的顯著性水平下不能拒絕原假設(shè),說明深發(fā)展的股票風(fēng)險(xiǎn)要高于萬科A。,3.5 分布檢驗(yàn) 3.5.1 數(shù)據(jù)的分布研究 3.5.2 在INS
37、IGHT模塊中研究分布 3.5.3 在“分析家”中研究分布 3.5.4 使用UNIVARIATE過程,3.5.1 數(shù)據(jù)的分布研究 1. 分布擬合圖 由于密度直方圖中矩形的面積是數(shù)據(jù)落入對(duì)應(yīng)區(qū)間中的頻率,根據(jù)大數(shù)定理,數(shù)據(jù)量很大時(shí),頻率近似于概率。所以,如果數(shù)據(jù)來自一個(gè)具有概率密度f(x)的連續(xù)型隨機(jī)變量,密度直方圖就可以作為概率密度f (x)的一個(gè)估計(jì)。,直方圖頂端的形態(tài)為折線,而常用的一些分布的密度曲線如正態(tài)分布等都是光滑曲線,所謂分布擬合圖就是在限定的參數(shù)分布類中通過對(duì)參數(shù)的估計(jì),用估計(jì)得到的參數(shù)所對(duì)應(yīng)的密度曲線去擬合直方圖頂部的形態(tài)。 圖3-31所示為分布擬合圖,左圖為正態(tài)分布擬合圖,右
38、圖為對(duì)數(shù)正態(tài)分布擬合圖。,在SAS系統(tǒng)中提供的參數(shù)分布類型有:正態(tài)(Normal)分布最為常用的分布、對(duì)數(shù)正態(tài)(Lognormal)分布、指數(shù)分布、Gamma分布、Weibull分布,它們的分布密度分別為: 1) 參數(shù)為(,)的正態(tài)分布 2) 參數(shù)為(,)的對(duì)數(shù)正態(tài)分布,3) 參數(shù)為(,)的指數(shù)分布的密度為 4) 參數(shù)為(,c,)的指數(shù)分布的密度為 5) 參數(shù)為(,)的Gamma分布的密度為 6) 參數(shù)為(,c,)的Weibull分布的密度為,2. QQ圖 不論密度直方圖還是分布擬合圖,要從圖上鑒別數(shù)據(jù)的分布是否近似于某種類別的分布是較困難的。QQ圖可以幫助我們方便地鑒別數(shù)據(jù)的分布是否近似于某
39、種類型的分布。 QQ圖是一種散點(diǎn)圖。對(duì)應(yīng)于正態(tài)分布的QQ圖由點(diǎn) 構(gòu)成,其橫坐標(biāo)為標(biāo)準(zhǔn)正態(tài)分布的分位 數(shù),縱坐標(biāo)x(i)(i = 1,2,n)是將x1,xn從小到大排序后的數(shù)列,為總體i/n分位點(diǎn)的估計(jì)。若觀測(cè)數(shù)據(jù)近似正態(tài)分布N(,2),則QQ圖上這些點(diǎn)近似在直線y = x +附近。,圖3-32所示為居民家庭收入情況的QQ圖,分別為對(duì)應(yīng)于正態(tài)分布與對(duì)數(shù)正態(tài)分布的QQ圖。 要利用QQ圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布,只需看QQ圖上的點(diǎn)是否近似地在一條直線附近,該直線的斜率為標(biāo)準(zhǔn)差,截距為均值。 同樣,也可以作對(duì)應(yīng)于對(duì)數(shù)正態(tài)分布、指數(shù)分布、Gamma分布、Weibull分布的QQ圖,以鑒別樣本數(shù)據(jù)是
40、否來自某一類型的總體分布。,3.5.2 在INSIGHT模塊中研究分布 1. 繪制分布擬合圖 【例3-16】在INSIGHT模塊中繪制居民家庭收入情況(參見例2-1)的分布擬合圖。 選擇菜單“Analyze”“Distribution (Y)”,打開“Distribution (Y)”對(duì)話框并按如圖3-33所示設(shè)置。,圖3-34 參數(shù)估計(jì)對(duì)話框與income變量的密度擬合圖 變量Income的密度擬合圖和參數(shù)密度估計(jì)如圖3-34右與圖3-35所示。 圖3-35 income變量的參數(shù)密度估計(jì),2. 繪制QQ圖 如果在圖3-33右所示的“Distribution (Y)”對(duì)話框中選中“Normal QQ Plot(正態(tài)QQ圖)”復(fù)選框,如圖左所示,則可以得到QQ圖,如圖右所示。,選擇菜單“Curves(曲線)”“QQ Ref Line(QQ參考線)”,打開“QQ Ref Line”對(duì)話框。選擇“Method(方法)”欄下的“Least Squares(最小二乘)”,如圖左,單擊“OK”按鈕得到帶參考線的QQ圖(圖右)。,選擇菜單“Graphs(圖形)”“QQ Plot(QQ圖)”,打開“QQ Plot”對(duì)話框。選擇“Distribution(分布)”欄下的“Lognormal QQ Pl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職微電子技術(shù)(芯片制造基礎(chǔ))試題及答案
- 2025年中職數(shù)控技術(shù)應(yīng)用(銑床操作與編程)試題及答案
- 2025-2030中國白靈菇市場(chǎng)投資效益分析與未來發(fā)展商機(jī)趨勢(shì)研究報(bào)告
- 2025-2030重慶農(nóng)產(chǎn)品初加工環(huán)節(jié)供需現(xiàn)狀調(diào)整及商業(yè)化發(fā)展布局規(guī)劃報(bào)告
- 2025-2030中國原色竹漿行業(yè)銷售量預(yù)測(cè)與前景運(yùn)營動(dòng)態(tài)研究研究報(bào)告
- 2025至2030中國醫(yī)藥物流市場(chǎng)現(xiàn)狀與投資前景預(yù)測(cè)分析報(bào)告
- 2025-2030汽車銷售渠道現(xiàn)狀供需分析及投資評(píng)估規(guī)劃研究報(bào)告
- 2025-2030汽車維修智能診斷設(shè)備行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030汽車模具制造行業(yè)市場(chǎng)需求分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030汽車新能源電池材料行業(yè)市場(chǎng)供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- (湘美版)五年級(jí)上冊(cè)書法指導(dǎo)練習(xí)教案
- 家具回收合同模板
- 福建省福州市2023-2024學(xué)年高一上學(xué)期期末考試物理試卷2
- 鋼結(jié)構(gòu)生產(chǎn)工藝流程
- 學(xué)習(xí)方法總結(jié)高效學(xué)習(xí)的技巧與方法
- 綜合醫(yī)院心身疾病診治
- 港口安全生產(chǎn)管理模版
- 產(chǎn)房與兒科交接登記表
- 教你填《廣東省普通高中學(xué)生檔案》精編版
- 韓國語topik單詞-初級(jí)+中級(jí)
- 克林頓1993年就職演講+(中英文)
評(píng)論
0/150
提交評(píng)論