版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計(jì)學(xué)從數(shù)據(jù)到結(jié)論第十四章 對應(yīng)分析 行和列變量的相關(guān)問題 在因子分析中,或者只對變量(列中的變量)進(jìn)行分析,或者只對樣品(觀測值或行中的變量)進(jìn)行分析;而且利用載荷圖來描述各個變量之間的接近程度。典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。行和列變量的相關(guān)問題 然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;這就是因子分析等方法所沒有說明的了。先看一個例子。例子(數(shù)據(jù)ChMath.txt )為了考察漢字具有的抽象圖形符號的特性能否會促進(jìn)兒童空間和抽象思維能力。該數(shù)據(jù)以列聯(lián)表形式展示在表中: 在研究讀寫漢字能力與數(shù)學(xué)的關(guān)系的研究時,人們?nèi)〉昧?32個
2、美國亞裔學(xué)生的數(shù)學(xué)成績和漢字讀寫能力的數(shù)據(jù)。例子(數(shù)據(jù)ChMath.txt )該數(shù)據(jù)關(guān)于漢字讀寫能力的變量有三個水平:“純漢字”意味著可以完全自由使用純漢字讀寫,“半漢字”意味著讀寫中只有部分漢字(比如日文),而“純英文”意味著只能夠讀寫英文而不會漢字。而數(shù)學(xué)成績有4個水平(A、B、C、D)。 人們可以對這個列聯(lián)表進(jìn)行前面所說的c2檢驗(yàn)來考察行變量和列變量是否獨(dú)立。結(jié)果在下面表中(通過AnalyzeDescriptive StatisticsCrosstabs) 所有的檢驗(yàn)都很顯著,看來兩個變量的確不獨(dú)立。對應(yīng)分析但是如何用象因子分析的載荷圖那樣的直觀方法來展示這兩個變量各個水平之間的關(guān)系呢?
3、這就是對應(yīng)分析(correspondence analysis)方法。對應(yīng)分析方法被普遍認(rèn)為是探索性數(shù)據(jù)分析的內(nèi)容,因此,讀者只要能夠會用數(shù)據(jù)畫出描述性的點(diǎn)圖,并能夠理解圖中包含的信息即可。 對應(yīng)分析 處理列聯(lián)表的問題僅僅是對應(yīng)分析的一個特例。一般地,對應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時所處理的數(shù)據(jù)形式。對應(yīng)分析 在對應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對。如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點(diǎn)圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個
4、因子載荷的兩個散點(diǎn)圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。對應(yīng)分析 由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應(yīng)分析的數(shù)學(xué)方法來研究行變量各個水平和列變量各個水平之間的關(guān)系;雖然對不同數(shù)據(jù)類型所產(chǎn)生結(jié)果的解釋有所不同,數(shù)學(xué)的原理是一樣的。下面通過對ChMath.txt數(shù)據(jù)的計(jì)算和結(jié)果分析來介紹對應(yīng)分析。 首先看對應(yīng)分析結(jié)果的一個主要SPSS展示,然后再解釋該圖的來源和解釋。 運(yùn)用純漢字的點(diǎn)和最好的數(shù)學(xué)成績A最接近,而不會漢字只會英文的點(diǎn)與最差的數(shù)學(xué)成績F(或者D,雖然在縱坐標(biāo)稍有差距)最接近,而用部分漢字的和數(shù)學(xué)成績B接近。對應(yīng)分析的數(shù)學(xué)原理是什
5、么?結(jié)果解釋根據(jù)SPSS對數(shù)據(jù)ChMath.sav的計(jì)算,得到一些表格。其中第一個就是下面的各維的匯總表。這里所涉及的是行與列因子載荷之間的關(guān)系;選擇行和列變量的顯著的因子載荷的標(biāo)準(zhǔn)是一樣的。選擇多少就涉及幾維。為了畫出散點(diǎn)圖,就至少要選擇兩維了。 表中的術(shù)語 Inertia慣量, 為每一維到其重心的加權(quán)距離的平方。它度量行列關(guān)系的強(qiáng)度。Singular Value奇異值(是慣量的平方根),反映了是行與列各水平在二維圖中分量的相關(guān)程度,是對行與列進(jìn)行因子分析產(chǎn)生的新的綜合變量的典型相關(guān)系數(shù)。Chi Square就是關(guān)于列聯(lián)表行列獨(dú)立性c2檢驗(yàn)的c2統(tǒng)計(jì)量的值,和前面表中的相同。其后面的Sig為
6、在行列獨(dú)立的零假設(shè)下的p-值,注釋表明自由度為(4-1)(3-1)=6,Sig.值很小說明列聯(lián)表的行與列之間有較強(qiáng)的相關(guān)性。Proportion of Inertia慣量比例,是各維度(公因子)分別解釋總慣量的比例及累計(jì)百分比,類似于因子分析中公因子解釋能力的說明。 解釋 從該表可以看出,由于第一維的慣量比例占了總比例的93.9%,因此,其他維的重要性可以忽略(雖然畫圖時需要兩維,但主要看第一維橫坐標(biāo))。在SPSS的輸出中還有另外兩個表分別給出了畫圖中兩套散點(diǎn)圖所需要的兩套坐標(biāo)。解釋 該表給出了圖中三個漢字使用點(diǎn)的坐標(biāo):純漢字(-.897,-.240),半漢字(.102,.491),純英文(.
7、970,-.338),以及四個數(shù)學(xué)成績點(diǎn)的坐標(biāo):數(shù)學(xué)A(-.693,-.345),數(shù)學(xué)B(-.340,.438),數(shù)學(xué)C(.928,.203),數(shù)學(xué)C(1.140,-.479)。兩表中的概念不必記;其中Mass為行與列的邊緣概率;Score in Dimension是各維度的分值 (二維圖中的坐標(biāo));Inertia:就是前面所提到的慣量,為每一行/列到其重心的加權(quán)距離的平方。 SPSS的實(shí)現(xiàn)打開ChMath.sav數(shù)據(jù),其形式和本章開始的列聯(lián)表有些不同。其中ch列代表漢字使用的三個水平;而math列代表數(shù)學(xué)成績的四個水平;第一列count實(shí)際上是ch和math兩個變量各個水平組合的出現(xiàn)數(shù)目,也
8、就是列聯(lián)表中間的數(shù)目。由于count把很大的本應(yīng)有232行的原始數(shù)據(jù)簡化成只有12行的匯總數(shù)據(jù),在進(jìn)行計(jì)算之前必須進(jìn)行加權(quán)。也就是點(diǎn)擊圖標(biāo)中的小天平,再按照count加權(quán)即可。SPSS的實(shí)現(xiàn)加權(quán)之后,選擇AnalyzeData ReductionCorrespondence Analysis,然后把“漢字使用”選入Row(行),再點(diǎn)擊Define Range來定義其范圍為1(Minimum value)到3(Maximum value),之后點(diǎn)擊Update。類似地,點(diǎn)擊Continue之后,把“數(shù)學(xué)成績”選入Column (列),并以同樣方式定義其范圍為1到4。由于其他選項(xiàng)可以用默認(rèn)值,就可
9、以直接點(diǎn)擊OK來運(yùn)行了。這樣就得到上述表格和點(diǎn)圖。附錄對應(yīng)分析的數(shù)學(xué)因子分析對變量和對樣品要分別對待. 對應(yīng)分析把變量和樣本同時反映到相同坐標(biāo)軸(因子軸)的一張圖形上. 數(shù)學(xué)上, 令A(yù)=aij為np矩陣, x=xi 為n-(列)向量, y=yj 為p-(列)向量. 那么(r,x,y)稱為對應(yīng)分析問題C0(A)的解, 如果行記分(row score) xi和列記分yj的加權(quán)均值成比例, 而列記分yj和行記分xi的加權(quán)均值成比例. 數(shù)值r為行列記分的相關(guān)(在典型相關(guān)的意義上). 記R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 則上面式子為rx=R-1A
10、y; ry=C-1Ax或rR1/2x=(R-1/2AC-1/2)C1/2y; rC1/2y=(C-1/2A R-1/2)R1/2x= (R-1/2 A C-1/2 )R1/2xX為一個解的條件是下面特征值問題有解(最大特征值為1是平凡解, 兩組非零特征值相同!)令前面的特征值問題可以寫成兩個特征值問題有同樣的非零特征值.如U是ZZ的特征向量, 則ZU是ZZ的特征向量. ZZ的特征根為l1l2lp; ZZ相應(yīng)的特征向量為u1,u2,up. ZZ相應(yīng)的特征向量為v1,v2,vn.對最大的m個特征值得因子載荷陣可以對變量和樣品作兩兩因子載荷圖.返回 教學(xué)重點(diǎn)教學(xué)過程教學(xué)總結(jié)第八章 區(qū)間估計(jì)STATS
11、TAT 一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,每天的產(chǎn)量約為8000袋左右。按規(guī)定每袋的重量應(yīng)不低于100克,否則即為不合格。為對產(chǎn)量質(zhì)量進(jìn)行檢測,企業(yè)設(shè)有質(zhì)量檢查科專門負(fù)責(zé)質(zhì)量檢驗(yàn),并經(jīng)常向企業(yè)高層領(lǐng)導(dǎo)提交質(zhì)檢報告。質(zhì)檢的內(nèi)容之一就是每袋重量是否符合要求。 由于產(chǎn)品的數(shù)量大,進(jìn)行全面的檢驗(yàn)是不可能的,可行的辦法是抽樣,然后用樣本數(shù)據(jù)估計(jì)平均每袋的重量。質(zhì)檢科從某天生產(chǎn)的一批食品中隨機(jī)抽取了25袋,下表1是對每袋食品重量的檢驗(yàn)結(jié)果。實(shí)踐中的統(tǒng)計(jì)STAT 根據(jù)表1的數(shù)據(jù),質(zhì)檢科估計(jì)出該天生產(chǎn)的食品每袋的平均重量在101.38109.34克之間,其中,估計(jì)的可信程度為95%,估計(jì)誤差不超過4克。產(chǎn)品
12、的合格率在96.07%73.93%之間,其中,估計(jì)的可信程度為95%,估計(jì)誤差不超過16%。表1 25袋食品的重量(克)112.5102.6100.0116.6136.8101.0107.5123.595.4102.8103.095.0102.097.8101.5102.010808101.6108.498.4100.5115.6102.2105.093.3STAT 質(zhì)檢報告提交后,企業(yè)高層領(lǐng)導(dǎo)人提出幾點(diǎn)意見:一是抽取的樣本大小是否合適?能不能用一個更大的樣本進(jìn)行估計(jì)?二是能否將估計(jì)的誤差在縮小一點(diǎn)?比如,估計(jì)平均重量時估計(jì)誤差不超過3克,估計(jì)合格率時誤差不超過10%。三是總體平均重量的方差是
13、多少?因?yàn)榉讲畹拇笮≌f明了生產(chǎn)過程的穩(wěn)定性,過大或過小的方差都意味著應(yīng)對生產(chǎn)過程進(jìn)行調(diào)整。STAT本章重點(diǎn)1、抽樣誤差的概率表述;2、區(qū)間估計(jì)的基本原理;3、小樣本下的總體參數(shù)估計(jì)方法;4、樣本容量的確定方法;本章難點(diǎn)1、一般正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布;2、t分布;3、區(qū)間估計(jì)的原理;4、分層抽樣、整群抽樣中總方差的分解。STAT點(diǎn)估計(jì)的缺點(diǎn):不能反映估計(jì)的誤差和精確程度區(qū)間估計(jì):利用樣本統(tǒng)計(jì)量和抽樣分布估計(jì)總體參數(shù)的可能區(qū)間【例1】CJW公司是一家專營體育設(shè)備和附件的公司,為了監(jiān)控公司的服務(wù)質(zhì)量, CJW公司每月都要隨即的抽取一個顧客樣本進(jìn)行調(diào)查以了解顧客的滿意分?jǐn)?shù)。根據(jù)以往的調(diào)查,滿意分?jǐn)?shù)的標(biāo)準(zhǔn)
14、差穩(wěn)定在20分左右。最近一次對100名顧客的抽樣顯示,滿意分?jǐn)?shù)的樣本均值為82分,試建立總體滿意分?jǐn)?shù)的區(qū)間。8.1.1抽樣誤差抽樣誤差:一個無偏估計(jì)與其對應(yīng)的總體參數(shù)之差的絕對值。抽樣誤差 = (實(shí)際未知)8.1總體均值的區(qū)間估計(jì)(大樣本n30)STAT要進(jìn)行區(qū)間估計(jì),關(guān)鍵是將抽樣誤差 求解。若 已知,則區(qū)間可表示為: 此時,可以利用樣本均值的抽樣分布對抽樣誤差的大小進(jìn)行描述。 上例中,已知,樣本容量n=100,總體標(biāo)準(zhǔn)差 ,根據(jù)中心極限定理可知,此時樣本均值服從均值為 ,標(biāo)準(zhǔn)差為 的正態(tài)分布。即:STAT8.1.2抽樣誤差的概率表述 由概率論可知, 服從標(biāo)準(zhǔn)正態(tài)分布,即,有以下關(guān)系式成立:一
15、般稱, 為置信度,可靠程度等,反映估計(jì)結(jié)果的可信程度。若事先給定一個置信度,則可根據(jù)標(biāo)準(zhǔn)正態(tài)分布找到其對應(yīng)的臨界值 。進(jìn)而計(jì)算抽樣誤差STAT若,則查標(biāo)準(zhǔn)正態(tài)分布表可得,抽樣誤差 此時抽樣誤差的意義可表述為:以樣本均值為中心的3.92的區(qū)間包含總體均值的概率是95%,或者說,樣本均值產(chǎn)生的抽樣誤差是3.92或更小的概率是0.95。 常用的置信度還有90%,95.45%,99.73%,他們對應(yīng)的臨界值分別為1.645,2和3,可以分別反映各自的估計(jì)區(qū)間所對應(yīng)的精確程度和把握程度。STAT8.1.3計(jì)算區(qū)間估計(jì): 在CJW公司的例子中,樣本均值產(chǎn)生的抽樣誤差是3.92或更小的概率是0.95。因此,
16、可以構(gòu)建總體均值的區(qū)間為,由于,從一個總體中抽取到的樣本具有隨機(jī)性,在一次偶然的抽樣中,根據(jù)樣本均值計(jì)算所的區(qū)間并不總是可以包含總體均值,它是與一定的概率相聯(lián)系的。如下圖所示:STAT3.923.92圖1 根據(jù)選擇的在 、 、 位置的樣本均值建立的區(qū)間STAT 上圖中,有95%的樣本均值落在陰影部分,這個區(qū)域的樣本均值3.92的區(qū)間能夠包含總體均值。 因此,總體均值的區(qū)間的含義為,我們有95%的把握認(rèn)為,以樣本均值為中心的3.92的區(qū)間能夠包含總體均值。 通常,稱該區(qū)間為置信區(qū)間,其對應(yīng)的置信水平為 置信區(qū)間的估計(jì)包含兩個部分:點(diǎn)估計(jì)和描述估計(jì)精確度的正負(fù)值。也將正負(fù)值稱為誤差邊際或極限誤差,
17、反映樣本估計(jì)量與總體參數(shù)之間的最大誤差范圍??偨Y(jié):STAT8.1.4計(jì)算區(qū)間估計(jì): 在大多數(shù)的情況下,總體的標(biāo)準(zhǔn)差都是未知的。根據(jù)抽樣分布定理,在大樣本的情況下,可用樣本的標(biāo)準(zhǔn)差s作為總體標(biāo)準(zhǔn)差的點(diǎn)估計(jì)值,仍然采用上述區(qū)間估計(jì)的方法進(jìn)行總體參數(shù)的估計(jì)。STAT【例2】 斯泰特懷特保險公司每年都需對人壽保險單進(jìn)行審查,現(xiàn)公司抽取36個壽保人作為一個簡單隨即樣本,得到關(guān)于、投保人年齡、保費(fèi)數(shù)量、保險單的現(xiàn)金值、殘廢補(bǔ)償選擇等項(xiàng)目的資料。為了便于研究,某位經(jīng)理要求了解壽險投保人總體平均年齡的90%的區(qū)間估計(jì)。投保人年齡投保人年齡投保人年齡投保人年齡12345678932504024334445484
18、410111213141516171847313639464539384519202122232425262727435436344823364228 2930313233343536343934354253284939STAT上表是一個由36個投保人組成的簡單隨機(jī)樣本的年齡數(shù)據(jù)?,F(xiàn)求總體的平均年齡的區(qū)間估計(jì)。分析:區(qū)間估計(jì)包括兩個部分點(diǎn)估計(jì)和誤差邊際,只需分別求出即可到的總體的區(qū)間估計(jì)。解:已知(1)樣本的平均年齡(2)誤差邊際STAT樣本標(biāo)準(zhǔn)差誤差邊際(3)90%的置信區(qū)間為39.5 2.13 即(37.37,41.63)歲。 注意(1)置信系數(shù)一般在抽樣之前確定,根據(jù)樣本所建立的區(qū)間能包
19、含總體參數(shù)的概率為(2)置信區(qū)間的長度(準(zhǔn)確度)在置信度一定的情況下,與樣本容量的大小呈反方向變動,若要提高估計(jì)準(zhǔn)確度,可以擴(kuò)大樣本容量來達(dá)到。STAT8.2總體均值的區(qū)間估計(jì):小樣本的情況在小樣本的情況下,樣本均值的抽樣分布依賴于總體的抽樣分布。我們討論總體服從正態(tài)分布的情況。t分布的圖形和標(biāo)準(zhǔn)正態(tài)分布的圖形類似,如下圖示:STAT0標(biāo)準(zhǔn)正態(tài)分布t分布(自由度為20)t分布(自由度為10)圖2標(biāo)準(zhǔn)正態(tài)分布與t分布的比較STAT在分布中,對于給定的置信度,同樣可以通過查表找到其對應(yīng)的臨界值,利用臨界值也可計(jì)算區(qū)間估計(jì)的誤差邊際因此,總體均值的區(qū)間估計(jì)在總體標(biāo)準(zhǔn)差未知的小樣本情況下可采用下式進(jìn)行
20、:假定總體服從正態(tài)分布;STAT【例3】謝爾工業(yè)公司擬采用一項(xiàng)計(jì)算機(jī)輔助程序來培訓(xùn)公司的維修支援掌握及其維修的操作,以減少培訓(xùn)工人所需要的時間。為了評價這種培訓(xùn)方法,生產(chǎn)經(jīng)理需要對這種程序所需要的平均時間進(jìn)行估計(jì)。以下是利用新方對名職員進(jìn)行培訓(xùn)的培訓(xùn)天數(shù)資料。根據(jù)上述資料建立置信度為的總體均值的區(qū)間估計(jì)。(假定培訓(xùn)時間總體服從正態(tài)分布)。職員時間職員時間職員時間STAT解:依題意,總體服從正態(tài)分布,(小樣本),此時總體方差未知。可用自由度為(n-1)=14的t分布進(jìn)行總體均值的區(qū)間估計(jì)。樣本平均數(shù)樣本標(biāo)準(zhǔn)差誤差邊際95%的置信區(qū)間為53.87 3.78 即(50.09,57.65)天。STAT
21、8.3確定樣本容量誤差邊際其計(jì)算需要已知若我們選擇了置信度由此,得到計(jì)算必要樣本容量的計(jì)算公式:STAT【例4】在以前的一項(xiàng)研究美國租賃汽車花費(fèi)的研究中發(fā)現(xiàn),租賃一輛中等大小的汽車,其花費(fèi)范圍為,從加利福尼亞州的奧克蘭市的每天36美元到康涅狄格州的哈特福德市的每天73.50美元不等,并且租金的標(biāo)準(zhǔn)差為9.65美元。假定進(jìn)行該項(xiàng)研究的組織想進(jìn)行一項(xiàng)新的研究,以估計(jì)美國當(dāng)前總體平均日租賃中等大小汽車的支出。在設(shè)計(jì)該項(xiàng)新的研究時,項(xiàng)目主管指定對總體平均日租賃支出的估計(jì)誤差邊際為2美元,置信水平為95%。解:依題意,可得將以上結(jié)果取下一個整數(shù)(90)即為必要的樣本容量。STAT 說明: 由于總體標(biāo)準(zhǔn)差
22、 在大多數(shù)情況下 是未知的,可以有以下方法取得 的值。(1)使用有同樣或者類似單元的以前樣本的樣本標(biāo)準(zhǔn)差;(2)抽取一個預(yù)備樣本進(jìn)行試驗(yàn)性研究。用實(shí)驗(yàn)性樣本的標(biāo)準(zhǔn)差作為 的估計(jì)值。(3)運(yùn)用對 值的判斷或者“最好的猜測”,例如,通常可用全距的作為 的近似值。STAT8.4總體比例的區(qū)間估計(jì)8.4.1區(qū)間估計(jì) 對總體比例 的區(qū)間估計(jì)在原理上與總體均值的區(qū)間估計(jì)相同。同樣要利用樣本比例 的抽樣分布來進(jìn)行估計(jì)。若, 則樣本比例近似服從正態(tài)分布。同樣,抽樣誤差類似的,利用抽樣分布(正態(tài)分布)來計(jì)算抽樣誤差STAT上式中, 是正待估計(jì)的總體參數(shù),其值一般是未知,通常簡單的用 替代 。即用樣本方差 替代總
23、體方差 。則, 誤差邊際的計(jì)算公式為:STAT【例5】1997年菲瑞卡洛通訊公司對全國范圍每內(nèi)的902名女子高爾夫球手進(jìn)行了調(diào)查,以了解美國女子高爾夫球手對自己如何在場上被對待的看法。調(diào)查發(fā)現(xiàn),397名女子高爾夫球手對得到的球座開球次數(shù)感到滿意。試在95%的置信水平下估計(jì)總體比例的區(qū)間。分解:解:依題意已知,(1)樣本比例(2)誤差邊際STAT (3)95%的置信區(qū)間0.44 0.0324 即(0.4076,0.4724)。 結(jié)論:在置信水平為95%時,所有女子高爾夫球手中有40.76%到47.24%的人對得到的球座開球數(shù)感到滿意。 8.4.2 確定樣本容量 在建立總體比例的區(qū)間估計(jì)時,確定樣
24、本容量的原理與8.3節(jié)中使用的為估計(jì)總體均值時確定樣本容量的原理相類似。STAT【例6】在例中,該公司想在1997年結(jié)果的基礎(chǔ)上進(jìn)行一項(xiàng)新的調(diào)查,以重新估計(jì)女子高爾夫球手的總體中對得到的球座開球此數(shù)感到滿意的人數(shù)所占的比例。調(diào)查主管希望這項(xiàng)新的調(diào)查在誤差邊際為0.025、置信水平為95%的條件下來進(jìn)行,那么,樣本容量應(yīng)該為多大?解:依題意,可得將以上結(jié)果取下一個整數(shù)(1515)即為必要的樣本容量。STAT 說明: 由于總體比例 在大多數(shù)情況下是未知的,可以有以下方法取得 的值。(1)使用有同樣或者類似單元的以前樣本的樣本比例;(2)抽取一個預(yù)備樣本進(jìn)行試驗(yàn)性研究。用實(shí)驗(yàn)性樣本的比例作為 的估計(jì)
25、值。(3)運(yùn)用對 值的判斷或者“最好的猜測”;(4)如果上面的方法都不適用,采用 。STAT8.5其他抽樣方法下總方差的計(jì)算 在第六章中學(xué)習(xí)到,除簡單隨機(jī)抽樣方法外,在現(xiàn)實(shí)中還可運(yùn)用分層抽樣、整群抽樣、系統(tǒng)抽樣等抽樣方法,每一次抽樣都涉及到對總體參數(shù)的估計(jì)過程。 通過前面的知識,可知對總體參數(shù)的估計(jì)過程中比較關(guān)鍵的因素是計(jì)算總體方差。如果已知總體方差,總體參數(shù)區(qū)間估計(jì)的過程與前面介紹的方法相同。STAT8.5.1分層抽樣在簡單隨機(jī)抽樣中,我們計(jì)算總方差是采用的公式是在分層抽樣中,我們事先將總體按一定的標(biāo)志進(jìn)行分層,所形成的數(shù)據(jù)實(shí)際等同于組距式數(shù)列,在組距式數(shù)列中,總方差需要運(yùn)用方差加法定理來計(jì)
26、算。STAT 這就是說,如果要計(jì)算總方差,則需分別將組間方差和平均組內(nèi)方差先計(jì)算出來。在分層抽樣下,是否真的需要由組間方差和平均組內(nèi)方差相加來計(jì)算總方差呢? 我們來考察一下分層抽樣的實(shí)施過程: 層間抽樣:在每一層抽取 全面調(diào)查 層間方差 層內(nèi)抽樣:抽取部分樣本單位 抽樣調(diào)查 層內(nèi)方差 我們說抽樣誤差是抽樣調(diào)查這種調(diào)查方式所特有的誤差,因此上述兩部分誤差中只有由于抽樣調(diào)查所形成的層內(nèi)方差才是抽樣誤差的組成部分,而由于全面調(diào)查所形成的層間方差不是抽樣誤差的組成部分。STAT因此,【例7】某廠有甲、乙兩個車間生產(chǎn)保溫瓶,乙車間產(chǎn)量是甲車間的2倍?,F(xiàn)按產(chǎn)量比例共抽查了60支,結(jié)果如下。試以95.45%
27、的可靠程度推斷該廠生產(chǎn)的保溫瓶的平均保溫時間的可能范圍。【例8】某地一萬住戶,按城鄉(xiāng)比例抽取一千戶,進(jìn)行彩電擁有量調(diào)查,結(jié)果如下。試以95.45%的概率推斷該地彩電擁有戶比率的范圍。STAT8.5.2整群抽樣與分層抽樣類似,整群抽樣下,總方差的計(jì)算仍然需要分解:同樣考察整群抽樣的實(shí)施過程:層間抽樣:在部分層中抽取 抽樣調(diào)查 群間方差層內(nèi)抽樣:抽取全部樣本單位 全面調(diào)查 群內(nèi)方差類似的,只有群間方差是抽樣誤差的組成部分。 STAT因此,【例9】某鄉(xiāng)播種某種農(nóng)作物3000畝,分布在60塊地段上,每塊地段50畝?,F(xiàn)抽取5塊地,得資料如下?,F(xiàn)要求以95%的概率估計(jì)這種農(nóng)作物的平均畝產(chǎn)??傮w:R=60群
28、樣本:r=5群兩個總體參數(shù)的區(qū)間估計(jì)兩個總體參數(shù)的區(qū)間估計(jì)總體參數(shù)符號表示樣本統(tǒng)計(jì)量均值之差比例之差方差比兩個總體均值之差的區(qū)間估計(jì)(獨(dú)立大樣本)兩個總體均值之差的估計(jì)(大樣本)1.假定條件兩個總體都服從正態(tài)分布,1、 2已知若不是正態(tài)分布, 可以用正態(tài)分布來近似(n130和n230)兩個樣本是獨(dú)立的隨機(jī)樣本使用正態(tài)分布統(tǒng)計(jì)量 z兩個總體均值之差的估計(jì) (大樣本)1.1, 2已知時,兩個總體均值之差1-2在1- 置信水平下的置信區(qū)間為1、 2未知時,兩個總體均值之差1-2在1- 置信水平下的置信區(qū)間為兩個總體均值之差的估計(jì)(例題分析)【例】某地區(qū)教育委員會想估計(jì)兩所中學(xué)的學(xué)生高考時的英語平均分
29、數(shù)之差,為此在兩所中學(xué)獨(dú)立抽取兩個隨機(jī)樣本,有關(guān)數(shù)據(jù)如右表 。建立兩所中學(xué)高考英語平均分?jǐn)?shù)之差95%的置信區(qū)間 兩個樣本的有關(guān)數(shù)據(jù) 中學(xué)1中學(xué)2n1=46n1=33S1=5.8 S2=57.2English兩個總體均值之差的估計(jì)(例題分析)解: 兩個總體均值之差在1-置信水平下的置信區(qū)間為 兩所中學(xué)高考英語平均分?jǐn)?shù)之差的置信區(qū)間為5.03分10.97分兩個總體均值之差的區(qū)間估計(jì)(獨(dú)立小樣本)兩個總體均值之差的估計(jì)(小樣本: 12= 22 )1.假定條件兩個總體都服從正態(tài)分布兩個總體方差未知但相等:1=2兩個獨(dú)立的小樣本(n130和n230)總體方差的合并估計(jì)量估計(jì)量x1-x2的抽樣標(biāo)準(zhǔn)差兩個總
30、體均值之差的估計(jì)(小樣本: 12=22 )兩個樣本均值之差的標(biāo)準(zhǔn)化兩個總體均值之差1-2在1- 置信水平下的置信區(qū)間為兩個總體均值之差的估計(jì)(例題分析)【例】為估計(jì)兩種方法組裝產(chǎn)品所需時間的差異,分別對兩種不同的組裝方法各隨機(jī)安排12名工人,每個工人組裝一件產(chǎn)品所需的時間(分鐘)下如表。假定兩種方法組裝產(chǎn)品的時間服從正態(tài)分布,且方差相等。試以95%的置信水平建立兩種方法組裝產(chǎn)品所需平均時間差值的置信區(qū)間兩個方法組裝產(chǎn)品所需的時間 方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個總體均值之差的估計(jì)(例題分析)解: 根據(jù)樣本數(shù)據(jù)計(jì)算得 合并估計(jì)量為:兩種方法組裝產(chǎn)品所需平均時間之差的置信區(qū)間為0.14分鐘7.26分鐘兩個總體均值之差的估計(jì)(小樣本: 12 22 )1.假定條件兩個總體都服從正態(tài)分布兩個總體方差未知且不相等:12兩個獨(dú)立的小樣本(n130和n230)使用統(tǒng)計(jì)量兩個總體均值之差的估計(jì)(小樣本: 1222 )兩個總體均值之差1-2在1- 置信水平下的置信區(qū)間為自由度兩個總體均值之差的估計(jì)(例題分析)【例】沿用前
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)員工考核制度
- 2026河南大學(xué)附屬中學(xué)招聘77人備考題庫附答案
- 養(yǎng)雞配種技術(shù)培訓(xùn)課件
- 2026湖南張家界中共桑植縣委組織部調(diào)工作人員2人招聘備考題庫附答案
- 2026湖南長沙市雨花區(qū)育新第二小學(xué)春季合同制教師招聘參考題庫附答案
- 2026福建南平市順昌縣工業(yè)園區(qū)開發(fā)有限公司招聘1人備考題庫附答案
- 2026福建省空天信息產(chǎn)業(yè)發(fā)展有限公司招聘2人考試備考題庫附答案
- 2026福建福州左海置地有限公司招聘20人參考題庫附答案
- 2026貴州畢節(jié)市黔西市公安局招聘警務(wù)輔助人員70人參考題庫附答案
- 2026重慶中醫(yī)藥學(xué)院附屬璧山醫(yī)院招聘37人備考題庫附答案
- 呼吸康復(fù)科普脫口秀
- 2025年《思想道德與法治》期末考試題庫及答案
- 2025初一英語閱讀理解100篇
- 2026屆四川省成都市青羊區(qū)樹德實(shí)驗(yàn)中學(xué)物理九年級第一學(xué)期期末考試試題含解析
- 高溫熔融金屬冶煉安全知識培訓(xùn)課
- 林業(yè)種苗培育與管理技術(shù)規(guī)范
- 遼寧中考數(shù)學(xué)三年(2023-2025)真題分類匯編:專題06 幾何與二次函數(shù)壓軸題 解析版
- 修復(fù)征信服務(wù)合同范本
- 湖南省5年(2021-2025)高考物理真題分類匯編:專題11 近代物理(原卷版)
- 螺桿泵知識點(diǎn)培訓(xùn)課件
- 2025年及未來5年中國鈉基膨潤土市場深度評估及行業(yè)投資前景咨詢報告
評論
0/150
提交評論