《統(tǒng)計(jì)學(xué) 》課件-第七章 一個(gè)變量分布驗(yàn)證分析_第1頁
《統(tǒng)計(jì)學(xué) 》課件-第七章 一個(gè)變量分布驗(yàn)證分析_第2頁
《統(tǒng)計(jì)學(xué) 》課件-第七章 一個(gè)變量分布驗(yàn)證分析_第3頁
《統(tǒng)計(jì)學(xué) 》課件-第七章 一個(gè)變量分布驗(yàn)證分析_第4頁
《統(tǒng)計(jì)學(xué) 》課件-第七章 一個(gè)變量分布驗(yàn)證分析_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)第七章一個(gè)變量分布驗(yàn)證分析Chap9-27.1一個(gè)變量分布驗(yàn)證分析概述一個(gè)變量驗(yàn)證分析問題提出1、一個(gè)變量分布檢驗(yàn)的意義:一個(gè)變量的假設(shè)驗(yàn)證分析,目的是分析變量的變化是否顯著,因?yàn)榻y(tǒng)計(jì)學(xué)允許有誤差存在,所以絕對(duì)的數(shù)學(xué)的相等是暫時(shí)的,是靜態(tài)的或幾乎不存在的。7.1一個(gè)變量分布驗(yàn)證分析概述

一個(gè)變量的變化是要與參照標(biāo)準(zhǔn)比較才能得到縱向比較:是與自己過去的數(shù)據(jù)比較,以過去的數(shù)據(jù)為參照標(biāo)準(zhǔn)橫向比較:是與理論值、經(jīng)驗(yàn)值比較,以理論分析值為參照標(biāo)準(zhǔn)7.1一個(gè)變量分布驗(yàn)證分析概述變量差異很小的變化是無統(tǒng)計(jì)意義的。例如:啤酒生產(chǎn)線設(shè)計(jì)要求每餅凈重600克,但允許有一個(gè)誤差范圍,不要求每餅凈重絕對(duì)相等。例如:正常人的體溫也不是穩(wěn)定不變的;例如:正常的生產(chǎn)線上的產(chǎn)品也允許有誤差的。7.1一個(gè)變量分布驗(yàn)證分析概述

擲硬幣理論上“國(guó)徽”與“幣值”出現(xiàn)的概率相等,但多數(shù)情況不是頻數(shù)相等。彩票搖號(hào)不是每個(gè)號(hào)出現(xiàn)的次數(shù)都是相同,只是理論假設(shè)概率相等,不是出現(xiàn)的頻數(shù)相等。要研究變量的變化,其實(shí)就是研究變化的差異是否很大,差距大到要有統(tǒng)計(jì)學(xué)上的意義。例如:如果擲骰子5次均出6點(diǎn),就與理論值1/6的差距很大了。提出懷疑假設(shè)了,就需要進(jìn)行統(tǒng)計(jì)驗(yàn)證分析。7.1一個(gè)變量分布驗(yàn)證分析概述2、一個(gè)變量分布檢驗(yàn)的背景舉例如:驗(yàn)證一個(gè)骰子是否均勻,出各點(diǎn)概率是否相等,就是與理論值進(jìn)行比較檢驗(yàn)。如:研究日本青年人的身高是否與10年前有明顯增高,就是縱向比較的驗(yàn)證。7.1一個(gè)變量分布驗(yàn)證分析概述

如:某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含量不少于500克。從消費(fèi)者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗(yàn)證該產(chǎn)品制造商的說明是否屬實(shí)。如:某一小麥品種的平均產(chǎn)量為5200kg/hm2。一家研究機(jī)構(gòu)對(duì)小麥品種進(jìn)行了改良以期提高產(chǎn)量。為檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高,隨機(jī)抽取了36個(gè)地塊進(jìn)行試種,得到的樣本平均產(chǎn)量為5275kg/hm2,標(biāo)準(zhǔn)差為120/hm2。需要檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高?7.1一個(gè)變量分布驗(yàn)證分析概述如:一種機(jī)床加工的零件尺寸絕對(duì)平均誤差為1.35mm。生產(chǎn)廠家現(xiàn)采用一種新的機(jī)床進(jìn)行加工以期進(jìn)一步降低誤差。為檢驗(yàn)新機(jī)床加工的零件平均誤差與舊機(jī)床相比是否有顯著降低,從某天生產(chǎn)的零件中隨機(jī)抽取50個(gè)進(jìn)行檢驗(yàn)。利用這些樣本數(shù)據(jù),檢驗(yàn)新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比是否有顯著降低?7.1一個(gè)變量分布驗(yàn)證分析概述

3、一個(gè)變量分布驗(yàn)證分析的一般步驟:(1)、提出研究所設(shè)。研究假設(shè)是一個(gè)文字陳述語句。(2)、改寫成統(tǒng)計(jì)假設(shè)。將研究假設(shè)用統(tǒng)計(jì)假設(shè)表示,一般由零假設(shè)H0和備擇假設(shè)H1組成。(3)、根據(jù)問題的錯(cuò)判成本,確定顯著性水平α,(4)、根據(jù)變量的性質(zhì)和數(shù)據(jù)樣本量多少選擇驗(yàn)證統(tǒng)計(jì)方法7.1一個(gè)變量分布驗(yàn)證分析概述(5)、將數(shù)據(jù)與統(tǒng)計(jì)方法結(jié)合。用軟件進(jìn)行驗(yàn)證性分析得到驗(yàn)證概率值P(6)、比較P值與α的大小,判斷驗(yàn)證結(jié)論。當(dāng)P值小于顯著性水平α?xí)r,可以拒絕H0,接受H1;當(dāng)P值大于α?xí)r,當(dāng)前數(shù)據(jù)提供的證據(jù)不能拒絕H0。如果研究者仍然相信假設(shè),可以繼續(xù)搜集數(shù)據(jù)。7.1一個(gè)變量分布驗(yàn)證分析概述

一個(gè)變量驗(yàn)證分析方法分類圖7-1一個(gè)變量分布驗(yàn)證分析方法分類7.2一個(gè)變量分布驗(yàn)證分析與原理一個(gè)變量分布驗(yàn)證分析與原理字符型分布檢驗(yàn)原理字符變量可以表示為數(shù)值型的離散型變量,檢驗(yàn)離散型分布是否與理論分布一致,或與經(jīng)驗(yàn)分布是否一致。比較觀測(cè)頻數(shù)O與理論頻數(shù)E的差異,差異大則分布不一致,差異小則認(rèn)為分布基本一致。字符型變量分布檢驗(yàn)用非參數(shù)檢驗(yàn)原理---卡方檢驗(yàn):計(jì)算檢驗(yàn)的公式是:7.2一個(gè)變量分布驗(yàn)證分析與原理其中,觀察到的屬于第i個(gè)種類的事件的數(shù)目 =在下期望屬于第i個(gè)種類的事件的數(shù)目; 種類數(shù)。可以用于檢驗(yàn)觀測(cè)頻率與理論頻率比較,或觀測(cè)頻率與經(jīng)驗(yàn)頻率比較。7.2一個(gè)變量分布驗(yàn)證分析與原理字符型類型比例P的檢驗(yàn)原理在生活中有很多數(shù)據(jù)的取值是二值的例如,人群可以分成男性和女性,產(chǎn)品可以分成合格和不合格,投擲硬幣實(shí)驗(yàn)的結(jié)果可以分成出現(xiàn)正面和出現(xiàn)反面等。通常將這樣的二值分別用1或0表示7.2一個(gè)變量分布驗(yàn)證分析與原理

二項(xiàng)分布適用于檢驗(yàn)比例P值,如成功率,及格率,錄取率,陽性率,死亡率等。只具有兩種互斥結(jié)果(成功與失?。┑碾x散型隨機(jī)事件,稱為二項(xiàng)分類變量(dichotomousvariable),設(shè)關(guān)注事件發(fā)生的概率為在每一次獨(dú)立試驗(yàn)中都保持不變。事件發(fā)生的次數(shù)設(shè)為,則可能取值為。7.2一個(gè)變量分布驗(yàn)證分析與原理

其中,則稱隨機(jī)變量服從二項(xiàng)分布(BinomialDistribution)。記為。期望為np,方差為npq。7.2一個(gè)變量分布驗(yàn)證分析與原理

例7.1二項(xiàng)分布軟件計(jì)算EXCEL函數(shù)計(jì)算二項(xiàng)分布,n=10,K=8,P=0.5,計(jì)算概率P{X≤8}=BINOM.DIST(8,10,0.5,1)=0.989257813P{x=8}=BINOM.DIST(8,10,0.5,0)=0.043945313=BINOM.DIST(8,10,0.5,1)-BINOM.DIST(7,10,0.5,1)例:某人自稱命中率0.9,射擊兩次均未中。事件發(fā)生的概率?n=2,k=0,p=0.97.2一個(gè)變量分布驗(yàn)證分析與原理例7.2:泊松分布軟件計(jì)算λ=3,k=5,計(jì)算概率Execel函數(shù)法P{x≤5}=POISSON.DIST(5,3,1)=0.916082058P{x=5}==POISSON.DIST(5,3,0)=0.1008197.2一個(gè)變量分布驗(yàn)證分析與原理

字符型變量參數(shù)檢驗(yàn)檢驗(yàn)總體比例P設(shè)P為樣本比例,為總體比例H0:=0H1:00為假設(shè)的總體比率用連續(xù)修正的正態(tài)分布,要求Np>5,nq>5

7.2一個(gè)變量分布驗(yàn)證分析與原理數(shù)值變量的分布參數(shù)檢驗(yàn):檢驗(yàn)原理常用參數(shù)T檢驗(yàn)與非參數(shù)檢驗(yàn)H0:m=μ0H1:mμ0

7.2一個(gè)變量分布驗(yàn)證分析與原理常見的參數(shù)統(tǒng)計(jì)使用的分布如下:1、正態(tài)分布設(shè)隨機(jī)變量X的密度函數(shù)為其中為常數(shù),則稱隨機(jī)變量X服從參數(shù)為的正態(tài)分布或高斯(Gauss)分布記為7.2一個(gè)變量分布驗(yàn)證分析與原理

2、均勻分布設(shè)隨機(jī)變量的值只落在內(nèi),其密度函數(shù)為則稱隨機(jī)變量在[a,b]上服從均勻分布,記為X~U(a,b)。分布函數(shù)為7.2一個(gè)變量分布驗(yàn)證分析與原理3、指數(shù)分布其中,則稱隨機(jī)變量X服從參數(shù)為的指數(shù)分布。X的分布函數(shù)為:7.3一個(gè)字符型變量分布的驗(yàn)證分析一個(gè)字符型變量分布檢驗(yàn)1、檢驗(yàn)字符型各類是等概率分布例如:企業(yè)單位員工請(qǐng)假是否與星期幾有關(guān)?例如:檢驗(yàn)骰子點(diǎn)數(shù)是否是等概率?例如:股票漲跌是否與星期幾有關(guān)?是否有星期五效應(yīng)?7.3一個(gè)字符型變量分布的驗(yàn)證分析解:由卡方檢驗(yàn)公式計(jì)算表7-1卡方值計(jì)算表Excel函數(shù)計(jì)算P值=CHISQ.TEST(B2:B6,C2:C6)=0.0159247.3一個(gè)字符型變量分布的驗(yàn)證分析結(jié)果表明請(qǐng)假人數(shù)與星期幾是有關(guān)系的,請(qǐng)假人數(shù)不是均勻分布的。骰子點(diǎn)數(shù)123456出現(xiàn)次數(shù)663660454548例:檢驗(yàn)一枚骰子是否均勻(α=0.05)骰子點(diǎn)數(shù)123456出現(xiàn)次數(shù)362397檢驗(yàn)硬幣是否均勻例:擲100次硬幣,正面(國(guó)徽)向上65次,顯著性水平0.01。檢驗(yàn)是否均勻。7.3一個(gè)字符型變量分布的驗(yàn)證分析2、字符型變量的觀測(cè)分布與已知分布的檢驗(yàn)例7.4某省有五個(gè)4A級(jí)景區(qū),通過游客人數(shù)檢驗(yàn)五個(gè)景區(qū)的游客比例是否有顯著的差異;若已知上年各景區(qū)的旅客比例,檢驗(yàn)今年的游客比例與上年比例是否有差異。表7-2景區(qū)旅客數(shù)據(jù)7.3一個(gè)字符型變量分布的驗(yàn)證分析

一個(gè)字符型變量的比例檢驗(yàn)例7.5對(duì)某個(gè)旅游地景點(diǎn)游客男女比例進(jìn)行研究,景點(diǎn)吸引力是否與性別有關(guān),假定男女比例為1:1,檢驗(yàn)比例p=0.5。7.3一個(gè)字符型變量分布的驗(yàn)證分析從卡方檢測(cè)結(jié)果看,P-VALUE<1.736*10-35,男女比例顯著不為1:1。R軟件程序?yàn)閏hisq.test(c(900,1500))7.3一個(gè)字符型變量分布的驗(yàn)證分析例7.6、檢驗(yàn)樣本分布是否與已知的分布相等(α=0.01)表7-3旅游景點(diǎn)人數(shù)檢驗(yàn)研究問題:各景區(qū)觀測(cè)人數(shù)相等研究假設(shè):7.3一個(gè)字符型變量分布的驗(yàn)證分析

輸出結(jié)果:P=0.07189>0.01,不能拒絕原假設(shè),認(rèn)為實(shí)際各景點(diǎn)參觀人數(shù)差別不顯著。路口車輛行駛情況檢驗(yàn)車輛行駛方向直行通過左轉(zhuǎn)右轉(zhuǎn)專家意見比例0.50.250.25實(shí)際觀測(cè)1124842檢驗(yàn)專家意見(0.05)檢驗(yàn)三個(gè)電視頻道的收視率是否有差異電視頻道十三頻道新聞五頻道體育十頻道電視劇調(diào)查人數(shù)5364337.3一個(gè)字符型變量分布的驗(yàn)證分析例7.7某學(xué)校某班級(jí)50名學(xué)生的家庭的貧困狀態(tài)如下表所示,檢驗(yàn)該班級(jí)的貧困率是否超過0.18。用1表示家庭貧困,0表示非貧困。表7-4學(xué)生家庭貧困調(diào)查7.3一個(gè)字符型變量分布的驗(yàn)證分析

根據(jù)題目要求,利用二項(xiàng)分布檢驗(yàn)來處理本問題,設(shè)定原假設(shè)和備擇假設(shè)如下H0:p≧0.18,即該班級(jí)的貧困率大于等于0.18H1:p<0.18,即該班級(jí)的貧困率小于0.18用EXCEL函數(shù)統(tǒng)計(jì)貧困與非貧困人數(shù)按p=0.18計(jì)算理論期望值計(jì)算卡方檢驗(yàn)值由上述結(jié)果可知:樣本共有50個(gè),其中有4個(gè)樣本的貧困狀態(tài)為貧困。7.3一個(gè)字符型變量分布的驗(yàn)證分析例7.8有一種提高學(xué)生某種素質(zhì)的訓(xùn)練,有人說它是無效的,有人說它是有效的,那么真實(shí)情況究竟應(yīng)該是怎樣的呢?隨機(jī)地選取30名學(xué)生作為試驗(yàn)樣本,在訓(xùn)練開始前做了一次測(cè)驗(yàn),每個(gè)學(xué)生的素質(zhì)按優(yōu)、良、中、及、差打分,經(jīng)過三個(gè)月訓(xùn)練后,再做一次測(cè)試對(duì)每個(gè)學(xué)生打分。將優(yōu)、良、中、及、差以此編碼為5、4、3、2、1,數(shù)據(jù)如下表所示:表7-5訓(xùn)練效果比較注:本例數(shù)據(jù)文件SJ7-2.xlsx。我們將素質(zhì)提高用1表示,反之用0表示。顯著性水平取0.05。假設(shè)檢驗(yàn)為:即H0:p≦0.5,即訓(xùn)練之后學(xué)生素質(zhì)沒有提高。即H1:P>0.5,即訓(xùn)練之后學(xué)生素質(zhì)有提高。是否改善觀測(cè)人數(shù)121091、用條件語句識(shí)別是否有改善,有改善為1,否則為02、用Countif統(tǒng)計(jì)1,0個(gè)數(shù)3、用卡方檢驗(yàn)。由上述結(jié)果可知:p-value=0.02846,拒絕原假設(shè),接受備擇假設(shè),即訓(xùn)練之后學(xué)生素質(zhì)有提高。故該項(xiàng)訓(xùn)練是有效的,值得推廣。觀測(cè)理論期望1211509157.3一個(gè)字符型變量分布的驗(yàn)證分析頻數(shù)分布與已知概率的檢驗(yàn)例7.9如下表所示為2015年1月1日到2015年4月30日的共四個(gè)月的主要瀏覽器的市場(chǎng)份額和隨機(jī)抽取了某大學(xué)200名大三學(xué)生,調(diào)查了他們的瀏覽器使用情況。判斷該200名學(xué)生的中的瀏覽器偏好是否和整個(gè)市場(chǎng)中的瀏覽器的占比相同,數(shù)據(jù)文件SJ7-3.xlsx。7.3一個(gè)字符型變量分布的驗(yàn)證分析

表7.6瀏覽器使用情況注:本報(bào)告占比數(shù)據(jù),來源于百度統(tǒng)計(jì)所覆蓋的超過150萬的站點(diǎn),而不是的流量數(shù)據(jù)。7.4一個(gè)數(shù)值型變量分布的驗(yàn)證分析一個(gè)數(shù)值變量中心位置的檢驗(yàn)1、分布均值檢驗(yàn)例7.10一種機(jī)床加工的零件尺寸絕對(duì)平均誤差為1.35mm。生產(chǎn)廠家現(xiàn)采用一種新的機(jī)床進(jìn)行加工以期進(jìn)一步降低誤差。為檢驗(yàn)新機(jī)床加工的零件平均誤差與舊機(jī)床相比是否有顯著降低,從某天生產(chǎn)的零件中隨機(jī)抽取60個(gè)進(jìn)行檢驗(yàn)。利用這些樣本數(shù)據(jù),檢驗(yàn)新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比是否有顯著降低?(α=0.01)。7.4一個(gè)數(shù)值型變量分布的驗(yàn)證分析注:數(shù)據(jù)文件SJ7-4.xlsx1.241.012.031.120.951.021.131.061.541.081.261.191.310.971.810.961.061.000.941.101.121.21.250.990.970.741.500.500.591.451.981.970.911.221.351.361.051.101.641.371.171.121.230.820.861.131.231.111.700.991.121.031.161.381.601.260.981.31.311.20(1)EXCEL置信區(qū)間法求解:置信區(qū)間公式:均值±置信度。置信區(qū)間不包含總體檢驗(yàn)均值1.35,說明新舊機(jī)床有顯著差異。區(qū)間上限小于1.35,說明誤差減少了。7.4一個(gè)數(shù)值型變量分布的驗(yàn)證分析4、中心位置的中位數(shù)檢驗(yàn)法例7.11某電池廠商生產(chǎn)的電池中位數(shù)為140?,F(xiàn)從新生產(chǎn)的電池中抽取20個(gè)測(cè)試。檢驗(yàn)電池是否合格,數(shù)據(jù)如下表所示。137140138.3139144.3139.1141.7137.3133.5138.2141139136.5137135.6138140.9140.6136.3134.17.4一個(gè)數(shù)值型變量分布的驗(yàn)證分析置信區(qū)間檢驗(yàn)結(jié)果:拒絕原假設(shè),接受備擇假設(shè),即對(duì)稱中心的位置小于140,故這批電池不合格。上限139.5989下限137.1411地區(qū)在崗職工平均工資(元)地區(qū)在崗職工平均工資(元)北京93997青島55334天津68864鄭州45066石家莊43712武漢53684太原511

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論