版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章全距也稱極差,是一組數(shù)據(jù)的最大值與最小值之差。R=最大值—最小值組距分組數(shù)據(jù)可根據(jù)最高組上限-最低組下限計(jì)算。四分位數(shù):數(shù)據(jù)按大小順序排序后把分割成四等分的三個(gè)分割點(diǎn)上的數(shù)值。SPSS中四分位數(shù)的位置為(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位數(shù)的位置分別為(n+3)/4,2(n+1)/4,(3n+1)/4。如果四分位數(shù)的位置不是整數(shù),則四分位數(shù)等于前后兩個(gè)數(shù)的加權(quán)平均。四分位距等于上四分位數(shù)與下四分位數(shù)之差I(lǐng)QR=Q3-Q1反映了中間50%數(shù)據(jù)的離散程度,數(shù)值越小說(shuō)明中間的數(shù)據(jù)越集中。不受極端值的影響.可以用于衡量中位數(shù)的代表性.方差是一組數(shù)據(jù)中各數(shù)值與其算術(shù)平均數(shù)離差平方的平均數(shù),標(biāo)準(zhǔn)差是方差正的平方根.是反映定量數(shù)據(jù)離散程度的最常用的指標(biāo)。離散系數(shù):標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,表示為百分?jǐn)?shù)。特點(diǎn):(1)反映了相對(duì)于均值的相對(duì)離散程度;(2)可用于比較計(jì)量單位不同的數(shù)據(jù)的離散程度;(3)計(jì)量單位相同時(shí),如果兩組數(shù)據(jù)的均值相差懸殊,離散系數(shù)可能比標(biāo)準(zhǔn)差等絕對(duì)指標(biāo)更有意義數(shù)據(jù)分布的不對(duì)稱性稱作偏態(tài)。偏態(tài)系數(shù)就是對(duì)數(shù)據(jù)分布的不對(duì)稱性(即偏斜程度)的測(cè)度.峰度:數(shù)據(jù)分布的扁平或尖峰程度。峰度系數(shù):數(shù)據(jù)分布峰度的度量值,對(duì)數(shù)據(jù)分布尖峰或扁平程度的測(cè)度,一般用K表示.箱線圖用于描述數(shù)據(jù)分布特征的一種圖形。最簡(jiǎn)單的箱線圖可以根據(jù)數(shù)據(jù)的最大值、最小值和三個(gè)四分位數(shù)繪制的:先根據(jù)三個(gè)四分位數(shù)Q1、Q2、Q3畫(huà)出中間的盒子,然后由盒子兩端分別向最大、最小值連線.在SPSS中標(biāo)準(zhǔn)的箱線圖一般是這樣繪制的:先根據(jù)三個(gè)四分位數(shù)Q1、Q2、Q3畫(huà)出中間的盒子;由Q3至Q3+1。5*IQR區(qū)間內(nèi)的最大值向盒子的頂端連線,由Q1至Q1—1。5*IQR區(qū)間內(nèi)的最小值向盒子的底部連線;處于Q3+1.5*IQR至Q3+3*IQR或者Q1-1.5*IQR至Q1-3*IQR范圍內(nèi)的數(shù)據(jù)用圓圈標(biāo)出;大于Q3+3*IQR或者小于Q1-3*IQR的用星號(hào)標(biāo)出。例子:數(shù)據(jù)的Z值也稱標(biāo)準(zhǔn)化值,等于變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差,用Z表示。Z值的均值等于0,標(biāo)準(zhǔn)差等于1.是對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量。z>0說(shuō)明觀測(cè)值大于均值。z<0說(shuō)明觀測(cè)值小于均值。z=1。2說(shuō)明觀測(cè)值比均值大1.2倍的標(biāo)準(zhǔn)差第四章假設(shè)檢驗(yàn)推斷統(tǒng)計(jì):在搜集、整理觀測(cè)樣本數(shù)據(jù)的基礎(chǔ)上,對(duì)有關(guān)總體作出推斷特點(diǎn):隨機(jī)性的觀測(cè)樣本數(shù)據(jù)以及問(wèn)題的條件和假定,對(duì)未知事物作出以概率形式表述的推斷參數(shù)估計(jì)(1)基本概念:點(diǎn)估計(jì):用估計(jì)量的數(shù)值作為總體參數(shù)的估計(jì)值。一個(gè)總體參數(shù)的估計(jì)量可以有多個(gè)。例如,在估計(jì)總體方差時(shí),和都可作為估計(jì)量。點(diǎn)估計(jì)量常用的評(píng)價(jià)準(zhǔn)則:a無(wú)偏性:估計(jì)量的數(shù)學(xué)期望與總體待估參數(shù)的真值相等:b有效性:在兩個(gè)無(wú)偏估計(jì)量中方差較小的估計(jì)量較為有效.c一致性:指隨著樣本容量的增大,估計(jì)量越來(lái)越接近被估計(jì)的總體參數(shù)。區(qū)間估計(jì):根據(jù)事先確定的置信度1-α給出總體參數(shù)的一個(gè)估計(jì)范圍。置信度1—α的含義是:在同樣的方法得到的所有置信區(qū)間中,有100(1—α)%的區(qū)間包含總體參數(shù)。置信是什么?抽樣分布:區(qū)間估計(jì)的理論基礎(chǔ)。從總體中抽取一個(gè)樣本量為n的隨機(jī)樣本,我們可以計(jì)算出統(tǒng)計(jì)量的一個(gè)值.如果從總體中重復(fù)抽取樣本量為n的樣本,就可以得到統(tǒng)計(jì)量的多個(gè)值。統(tǒng)計(jì)量的抽樣分布就是這一統(tǒng)計(jì)量所有可能值的概率分布.抽樣分布的要點(diǎn):抽樣分布是統(tǒng)計(jì)量的分布而不是總體或樣本的分布。在統(tǒng)計(jì)推斷中總體的分布一般是未知的,不可觀測(cè)的(常常被假設(shè)為正態(tài)分布)。樣本數(shù)據(jù)的統(tǒng)計(jì)分布是可以直接觀測(cè)的,最直觀的方式是直方圖,可以用來(lái)對(duì)總體分布進(jìn)行檢驗(yàn)。抽樣分布一般利用概率統(tǒng)計(jì)的理論推導(dǎo)得出,在應(yīng)用中也是不能直接觀測(cè)的。其形狀和參數(shù)可能完全不同于總體或樣本數(shù)據(jù)的分布。。樣本均值的均值(數(shù)學(xué)期望)等于總體均值。樣本均值的方差等于總體方差的1/n樣本均值抽樣分布結(jié)論:一般的,當(dāng)總體服從N(μ,σ2)時(shí),來(lái)自該總體的容量為n的樣本的均值也服從正態(tài)分布,X的期望為μ,方差為σ2/n.即~N(μ,σ2/n)。σ2=10/4=2。5中心極限定理:從均值為μ,方差為的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為/n的正態(tài)分布。簡(jiǎn)單隨機(jī)抽樣、重復(fù)抽樣時(shí),樣本均值抽樣分布的標(biāo)準(zhǔn)差等于,這個(gè)指標(biāo)在統(tǒng)計(jì)上稱為標(biāo)準(zhǔn)誤。統(tǒng)計(jì)軟件在對(duì)變量進(jìn)行描述統(tǒng)計(jì)時(shí)一般會(huì)輸出這一結(jié)果。簡(jiǎn)單隨機(jī)抽樣、不重復(fù)抽樣時(shí),樣本均值抽樣分布的方差略小于重復(fù)抽樣的方差,等于,稱為有限總體校正系數(shù),當(dāng)抽樣比(n/N)〈0.05時(shí)可以忽略有限總體校正系數(shù)。總體均值和比例的區(qū)間估計(jì)總體比例的區(qū)間估計(jì):當(dāng)時(shí)總體比例的置信區(qū)間可以使用正態(tài)分布來(lái)進(jìn)行區(qū)間估計(jì)。(樣本比例記為,總體比例記為π)置信區(qū)間的補(bǔ)充說(shuō)明:P=1—α置信度含義的說(shuō)明:必要樣本容量的確定:(1)實(shí)際抽樣誤差:總體參數(shù)估計(jì)值與真實(shí)值之間的絕對(duì)離差稱為實(shí)際抽樣誤差,是一個(gè)隨機(jī)變量.(2)抽樣平均誤差:樣本均值的標(biāo)準(zhǔn)差,也就是前面說(shuō)的標(biāo)準(zhǔn)誤。它反映樣本均值(或比例)與總體均值(比例)的平均差異程度。例如對(duì)簡(jiǎn)單隨機(jī)抽樣中的樣本均值有:我們通常說(shuō)“抽樣調(diào)查中可以對(duì)抽樣誤差進(jìn)行控制”,就是指的抽樣平均誤差。影響因素:1.總體內(nèi)部的差異程度;2。樣本容量的大??;3。抽樣的方式方法(3)最大允許誤差:在確定置信區(qū)間時(shí)樣本均值(或樣本比例)加減的量,一般用E來(lái)表示,等于置信區(qū)間長(zhǎng)度的一半。置信區(qū)間=是人為確定的,是調(diào)查者在相應(yīng)的置信度下可以容忍的誤差水平。必要樣本量受以下幾個(gè)因素的影響;(1)總體標(biāo)準(zhǔn)差??傮w的變異程度越大,必要樣本量也就越大.(2)最大允許誤差.最大允許誤差越大,需要的樣本量越小。(3)置信度1-α。要求的置信度越高,需要的樣本量越大。(4)抽樣方式。其它條件相同,在重復(fù)抽樣、不重復(fù)抽樣;簡(jiǎn)單隨機(jī)抽樣與分層抽樣等不同抽樣方式下要求的必要樣本容量也不同。簡(jiǎn)單隨機(jī)抽樣時(shí)的必要樣本量(計(jì)算題):估計(jì)總體比例時(shí)樣本容量的確定:上式中的總體比例π可以通過(guò)以下方式估計(jì):根據(jù)歷史資料確定通過(guò)試驗(yàn)性調(diào)查估計(jì)取為0。5估計(jì)總體均值時(shí)樣本容量的確定:上式中的總體方差σ可以通過(guò)以下方式估計(jì):根據(jù)歷史資料確定通過(guò)試驗(yàn)性調(diào)查估計(jì)不重復(fù)抽樣時(shí)的必要樣本量比重復(fù)抽樣時(shí)的必要樣本量要小.n0是重復(fù)抽樣時(shí)的必要樣本容量.例子需要多大規(guī)模的樣本才能在90%的置信水平上保證均值的誤差在±5之內(nèi)?前期研究表明總體標(biāo)準(zhǔn)差為45.95%置信度時(shí),/2=1。96,π未知時(shí)取為0。5假設(shè)檢驗(yàn):事先作出關(guān)于總體參數(shù)、分布形式、相互關(guān)系等的命題(假設(shè)),然后通過(guò)樣本信息來(lái)判斷該命題是否成立(檢驗(yàn))。利用假設(shè)檢驗(yàn)進(jìn)行推斷的基本原理是:小概率事件在一次試驗(yàn)中幾乎不會(huì)發(fā)生.假設(shè)檢驗(yàn)的步驟:(1)根據(jù)實(shí)際問(wèn)題提出一對(duì)假設(shè)(零假設(shè)和備擇假設(shè));(2)構(gòu)造某個(gè)適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,并確定其在零假設(shè)成立時(shí)的分布;(3)根據(jù)觀測(cè)的樣本計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值;(4)根據(jù)犯第一類(lèi)錯(cuò)誤的損失規(guī)定顯著性水平a;(5)確定決策規(guī)則:根據(jù)確定檢驗(yàn)統(tǒng)計(jì)量的臨界值并進(jìn)而給出拒絕域,或者計(jì)算p值等;下結(jié)論:根據(jù)決策規(guī)則得出拒絕或不能拒絕零假設(shè)的結(jié)論。注意“不能拒絕零假設(shè)”不同于“接受零假設(shè)"。零假設(shè)和備擇假設(shè)是互斥的,它們中僅有一個(gè)正確;等號(hào)必須出現(xiàn)在零假設(shè)中;單側(cè)檢驗(yàn)時(shí)零假設(shè)和備擇假設(shè)的選擇(1)通常把研究者要證明的假設(shè)作為備擇假設(shè);(2)將所作出的聲明作為原假設(shè);(3)把現(xiàn)狀作為原假設(shè);把不能輕易否定的假設(shè)作為原假設(shè);檢驗(yàn)統(tǒng)計(jì)量:用來(lái)決策(拒絕或不能拒絕零假設(shè))時(shí)依據(jù)的樣本統(tǒng)計(jì)量。不同的總體參數(shù)適用的檢驗(yàn)統(tǒng)計(jì)量不同。拒絕域:檢驗(yàn)統(tǒng)計(jì)量取值的集合,當(dāng)根據(jù)樣本得到的檢驗(yàn)統(tǒng)計(jì)量的值屬于該集合時(shí),拒絕零假設(shè).假設(shè)檢驗(yàn)中的兩類(lèi)錯(cuò)誤與顯著性水平兩類(lèi)錯(cuò)誤的概率兩類(lèi)錯(cuò)誤不可避免;要減小其中的一種錯(cuò)誤,通常只能通過(guò)增加另一種錯(cuò)誤的方法做到。假設(shè)檢驗(yàn)中通常首先控制控制第一類(lèi)錯(cuò)誤的概率不超過(guò)某個(gè)小概率水平,在滿足該條件的要求下使犯第二類(lèi)錯(cuò)誤的概率盡量小。允許犯第一類(lèi)錯(cuò)誤的概率α稱為顯著性水平。通常α取為0.01,0.05,0。1.根據(jù)α可以確定檢驗(yàn)統(tǒng)計(jì)量的臨界值,并根據(jù)統(tǒng)計(jì)量的樣本觀測(cè)值和臨界值得出檢驗(yàn)結(jié)論.單個(gè)總體的假設(shè)檢驗(yàn)均值的雙邊檢驗(yàn)?zāi)硰S生產(chǎn)的鐵絲抗拉力服從正態(tài)分布,其平均抗拉力為570kg,標(biāo)準(zhǔn)差為8kg.由于更換原材料,標(biāo)準(zhǔn)差不會(huì)變,但不知其抗拉力是否不變,從中抽取10個(gè)樣品,得平均抗拉力575kg,能否認(rèn)為平均抗拉力無(wú)顯著變化?(α=0.05)提出零假設(shè)和備擇假設(shè)2、選擇檢驗(yàn)統(tǒng)計(jì)量:根據(jù)題意3、檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值顯著性水平等于0。05。確定了零假設(shè)和備擇假設(shè),就可以確定是什么檢驗(yàn)了,σ是標(biāo)準(zhǔn)差,s是方差均值右側(cè)檢驗(yàn)問(wèn)題平均說(shuō)來(lái),一個(gè)有丈夫和兩個(gè)孩子的家庭主婦每周用于與家庭有關(guān)活動(dòng)的時(shí)間不超過(guò)55h.抽取8個(gè)家庭主婦的每周工作時(shí)間作為樣本,得到數(shù)據(jù):58,52,64,63,59,62,62,55。有婦聯(lián)組織認(rèn)為每周平均工作時(shí)間超過(guò)55小時(shí),你的結(jié)論是什么?(假設(shè)總體為正態(tài)分布)解:根據(jù)題意,觀測(cè)到的t統(tǒng)計(jì)量的值等于對(duì)于t分布,用表示t統(tǒng)計(jì)量的觀測(cè)值,雙側(cè)檢驗(yàn)時(shí),p值=P(),右側(cè)時(shí),p=P();左側(cè)p=P()描述統(tǒng)計(jì)結(jié)果p〉α=0。05,所以不能拒絕兩個(gè)總體均值的比較:檢驗(yàn)統(tǒng)計(jì)量的選擇兩個(gè)總體方差相等和不相等時(shí),t統(tǒng)計(jì)量的計(jì)算公式不同.因此,檢驗(yàn)兩個(gè)總體的均值是否相等時(shí),需要先檢驗(yàn)兩個(gè)總體的方差是否相等!例:某農(nóng)業(yè)研究所研制出一種新的化肥,現(xiàn)要研究施肥土地的小麥產(chǎn)量是否比不施肥土地的小麥產(chǎn)量有顯著提高,隨機(jī)抽取幾塊土地進(jìn)行試驗(yàn)。選10快試驗(yàn)田不施肥,結(jié)果最后的每畝產(chǎn)量數(shù)據(jù)為(單位:公斤):172、158、186、214、224、228、196、190、202、170。另選8塊試驗(yàn)田施肥,結(jié)果最后的每畝產(chǎn)量數(shù)據(jù)為:252、204、234、246、222、210、244、212。試檢驗(yàn)施肥和不施肥的平均畝產(chǎn)量有無(wú)顯著差異(α=0。05)p值=0.582p值=0.582>0.05,不能拒絕方差相等的原假設(shè)。
在方差相等時(shí)下面一行的輸出結(jié)果無(wú)效。
在方差不相等時(shí)上面一行的輸出結(jié)果無(wú)效。p值=0.004p值=0.004>0.05,拒絕均值相等的原假設(shè)。兩個(gè)總體均值差異的檢驗(yàn)(匹配樣本)如果兩個(gè)樣本是非獨(dú)立的匹配樣本,即兩個(gè)樣本中的數(shù)據(jù)是一一對(duì)應(yīng)的,這時(shí)對(duì)兩個(gè)總體的均值的比較,就是對(duì)兩個(gè)樣本對(duì)應(yīng)數(shù)據(jù)之差的檢驗(yàn).方差分析方差分析:主要目的是通過(guò)對(duì)方差的比較來(lái)檢驗(yàn)多個(gè)均值之間差異的顯著性(可看作t檢驗(yàn)的擴(kuò)展,只比較兩個(gè)均值時(shí)與t檢驗(yàn)等價(jià)),主要用于研究一個(gè)定量因變量與一個(gè)或多個(gè)定性自變量的關(guān)系。基本原理:1.比較兩類(lèi)誤差,以檢驗(yàn)均值是否相等2.比較的基礎(chǔ)是方差比3。如果系統(tǒng)(處理)誤差顯著地不同于隨機(jī)誤差,則均值就是不相等的;反之,均值就是相等的4。誤差是由各部分的誤差占總誤差的比例來(lái)測(cè)度的隨機(jī)誤差因素的同一水平(總體)下,樣本各觀察值之間的差異。比如,同一專(zhuān)業(yè)下不同畢業(yè)生的起薪是不同的。這種差異可以看成是隨機(jī)因素的影響,稱為隨機(jī)誤差系統(tǒng)誤差因素的不同水平(不同總體)下,各觀察值之間的差異.比如,不同專(zhuān)業(yè)之間的畢業(yè)生的起薪之間的差異這種差異可能是由于抽樣的隨機(jī)性所造成的,也可能是由于專(zhuān)業(yè)所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差組內(nèi)方差(withingroups):因素的同一水平(同一個(gè)總體)下樣本數(shù)據(jù)的方差;比如,專(zhuān)業(yè)一的畢業(yè)生的起薪的方差;組內(nèi)方差只包含隨機(jī)誤差組間方差(betweengroups):因素的不同水平(不同總體)下各樣本之間的方差;比如,四個(gè)專(zhuān)業(yè)的畢業(yè)生的起薪的方差;組間方差既包括隨機(jī)誤差,也包括系統(tǒng)誤差方差分析中的基本假設(shè)(1)每個(gè)總體都應(yīng)服從正態(tài)分布(2)各個(gè)總體的方差必須相同(3)觀察值是獨(dú)立的。(比如,每個(gè)專(zhuān)業(yè)畢業(yè)生的起薪與其他專(zhuān)業(yè)畢業(yè)生的起薪相互獨(dú)立)單因素方差分析:一個(gè)自變量(因素)和一個(gè)因變量。張三的起薪=專(zhuān)業(yè)1的平均起薪+隨機(jī)因素帶來(lái)的影響
=總平均起薪+專(zhuān)業(yè)1的平均值與總平均值之差
+隨機(jī)因素帶來(lái)的影響
各離差平方和的大小與觀察值的多少有關(guān),為了消除觀察值多少對(duì)離差平方和大小的影響,需將其平均,即均方。計(jì)算方法是用離差平方和除以相應(yīng)的自由度三個(gè)平方和的自由度分別是SST的自由度為n—1,n為全部觀察值的個(gè)數(shù)SSA的自由度為r-1,其中r為因素水平的個(gè)數(shù)SSE的自由度為n—r組間方差組間方差組內(nèi)方差若因素A的不同水平對(duì)結(jié)果沒(méi)有影響,那么在組間方差中只包含有隨機(jī)誤差,兩個(gè)方差的比值會(huì)接近1;反之,該比值就會(huì)大于1;當(dāng)這個(gè)比值大到某種程度時(shí),就可以說(shuō)因素A對(duì)結(jié)果有顯著影響。~F(r—1,n-r)F檢驗(yàn)當(dāng)H0為真時(shí),二者的比值服從分子自由度為k-1、分母自由度為n—k的F分布,即上面公式方差分析的步驟1。檢驗(yàn)數(shù)據(jù)是否符合方差分析的假設(shè)條件.2.提出零假設(shè)和備擇假設(shè):零假設(shè):各總體的均值之間沒(méi)有顯著差異,即
備擇假設(shè):至少有兩個(gè)均值不相等,即3。根據(jù)樣本計(jì)算F統(tǒng)計(jì)量的值。4。確定決策規(guī)則,根據(jù)p值與α的比較得出檢驗(yàn)結(jié)論.在零假設(shè)成立時(shí)組間方差與組內(nèi)方差的比值服從服從自由度為(r—1,n—r)的F分布。臨界值拒絕域臨界值拒絕域p-值α實(shí)際值F檢驗(yàn)的臨界值和拒絕域正態(tài)檢驗(yàn)Qq圖事后檢驗(yàn):在方差分析中,當(dāng)零假設(shè)被拒絕時(shí)我們可以確定至少有兩個(gè)總體的均值有顯著差異。但要進(jìn)一步檢驗(yàn)?zāi)男┚抵g有顯著差異還需要采用多重比較的方法進(jìn)行分析。用LSD法進(jìn)行多重比較的步驟(注意有木有“0”)非參數(shù)檢驗(yàn)也稱與總體分布無(wú)關(guān)的檢驗(yàn)特點(diǎn):(1)非參數(shù)檢驗(yàn)不需要嚴(yán)格假設(shè)條件,因而比參數(shù)檢驗(yàn)適用范圍廣.(2)非參數(shù)檢驗(yàn)幾乎可以處理包括定類(lèi)數(shù)據(jù)和定序數(shù)據(jù)在內(nèi)的所有類(lèi)型的數(shù)據(jù),而參數(shù)檢驗(yàn)通常只能用于定量數(shù)據(jù)的分析。(3)非參數(shù)檢驗(yàn)的功效要低于參數(shù)檢驗(yàn)方法(前提:參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)都適用)以下情況首選非參數(shù)方法:(1)參數(shù)檢驗(yàn)中的假設(shè)條件不滿足,從而無(wú)法應(yīng)用。例如總體分布為偏態(tài)或分布形式未知,且樣本為小樣本時(shí)。(2)檢驗(yàn)中涉及的數(shù)據(jù)為定類(lèi)或定序數(shù)據(jù)。(3)所涉及的問(wèn)題中并不包含參數(shù),如判斷某樣本是否為隨機(jī)樣本,判斷某樣本是否來(lái)自正態(tài)分布等.(4)對(duì)各種資料的初步分析。擬合優(yōu)度檢驗(yàn):在總體分布未知時(shí),根據(jù)來(lái)自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法。df為自由度,為卡方特別說(shuō)明:(1)大樣本、每個(gè)單元中的期望頻數(shù)大于等于5時(shí)可以使用c2分布。(2)小樣本時(shí)應(yīng)該按照精確方法計(jì)算得到的p值得出結(jié)論。(3)c2檢驗(yàn)也可以按照同樣的思想對(duì)正態(tài)分布或者任何其他分布進(jìn)行檢驗(yàn),但主要用于對(duì)定性變量的檢驗(yàn).(4)c2檢驗(yàn)也可以用于對(duì)兩個(gè)總體分布的比較.單樣本K-S檢驗(yàn)KolmogorovSmirnov通過(guò)對(duì)兩個(gè)分布差異的分析確定能否認(rèn)為樣本的觀察值來(lái)自所設(shè)定的理論分布總體定義:若對(duì)每一個(gè)x值來(lái)說(shuō),如果經(jīng)驗(yàn)分布函數(shù)與特定分布函數(shù)的擬合程度很高,則有理由認(rèn)為樣本數(shù)據(jù)來(lái)自具有該理論分布的總體。檢驗(yàn)統(tǒng)計(jì)量:根據(jù)檢驗(yàn)統(tǒng)計(jì)量的精確分布或漸近分布,我們可以計(jì)算出假設(shè)檢驗(yàn)的p值,從而得出檢驗(yàn)的結(jié)論。例子結(jié)果分析:在K-S檢驗(yàn)中如果使用的是小樣本,則根據(jù)漸近分布計(jì)算p值的誤差會(huì)增大。單樣本中位數(shù)的符號(hào)檢驗(yàn)在數(shù)據(jù)呈偏態(tài)分布的情況下,我們可能對(duì)總體的中位數(shù)更感興趣,希望對(duì)總體的中位數(shù)作出推斷,這時(shí)可以使用符號(hào)檢驗(yàn)(signtest)的方法.在非正態(tài)總體小樣本的情況下,如果要對(duì)總體分布的位置進(jìn)行推斷,由于t檢驗(yàn)不適用,也可使用符號(hào)檢驗(yàn)的方法。例子:在某地區(qū)隨機(jī)調(diào)查了60個(gè)家庭的月收入(數(shù)據(jù)文件:家庭月收入.sav)。根據(jù)樣本數(shù)據(jù)能否認(rèn)為總體中家庭月收入的中位數(shù)等于5000元(顯著性水a(chǎn)=0。05)?步驟:每個(gè)數(shù)據(jù)都減去零假設(shè)中的中位數(shù),記錄其差值的符號(hào)。計(jì)算正、負(fù)符號(hào)的個(gè)數(shù)(差值為0的不計(jì)算在任何一個(gè)中),當(dāng)原假設(shè)為真時(shí)二者應(yīng)該很接近;若兩者相差太遠(yuǎn),就有理由拒絕原假設(shè).當(dāng)正號(hào)和負(fù)號(hào)個(gè)數(shù)之和大于25時(shí),可以按照正態(tài)分布進(jìn)行近似計(jì)算。匹配樣本的非參數(shù)檢驗(yàn)如果t檢驗(yàn)的假設(shè)條件不滿足,t檢驗(yàn)就不適用了??梢杂梅?hào)檢驗(yàn)或Wilcoxon符號(hào)秩檢驗(yàn)替代.匹配樣本數(shù)據(jù)為用對(duì)應(yīng)的數(shù)據(jù)相減得到新的序列:零假設(shè):差值總體的中位數(shù)=0;備擇假設(shè):差值總體的中位數(shù)≠0。對(duì)于差值序列中正數(shù)的個(gè)數(shù)和負(fù)數(shù)的個(gè)數(shù),按照符號(hào)檢驗(yàn)的方法進(jìn)行假設(shè)檢驗(yàn)。Wilcoxon符號(hào)秩檢驗(yàn)步驟:(1)計(jì)算差值絕對(duì)值的秩(2)將差值絕對(duì)值從小到大排序,其位次就是的秩(rank),等于0值不參與排序秩就是該數(shù)據(jù)按照升序排列之后,每個(gè)觀測(cè)值的位置.數(shù)據(jù)中有相同的數(shù)值,稱為結(jié)。結(jié)中數(shù)字的秩為它們所占位置的平均值(3)分別計(jì)算出差值序列中正數(shù)的秩和以及負(fù)數(shù)的秩和。顯然,如果零假設(shè)成立,W+與W—應(yīng)該比較接近。如果二者過(guò)大或過(guò)小,則說(shuō)明零假設(shè)不成立。(4)將正數(shù)的秩和或者負(fù)數(shù)的秩作為檢驗(yàn)統(tǒng)計(jì)量,根據(jù)其統(tǒng)計(jì)分布計(jì)算p值,從而得出檢驗(yàn)的結(jié)論。符號(hào)檢驗(yàn)在匹配數(shù)據(jù)分析應(yīng)用中只用到差值的符號(hào),而對(duì)差值數(shù)值的大小未能考慮,因而失去了部分信息。Wilcoxon符號(hào)秩檢驗(yàn)既考慮差值的符號(hào),又考慮差值的大小,因此在所需的假設(shè)條件滿足時(shí)其功效比符號(hào)檢驗(yàn)高。Wilcoxon符號(hào)秩檢驗(yàn)也可以用于單樣本中位數(shù)的非參數(shù)檢驗(yàn),這時(shí)只需要將第二個(gè)樣本的值設(shè)為零假設(shè)中的數(shù)值即可。這里看不懂?!兩個(gè)獨(dú)立樣本的Wlicoxon秩和檢驗(yàn)如果零假設(shè)成立,在樣本量相同的情況下兩個(gè)秩和應(yīng)該比較接近;樣本量不同的情況下平均秩和的平均秩應(yīng)該比較接近.否則就說(shuō)明兩個(gè)總體的中位數(shù)是不相等的。例子:已知某企業(yè)職工的收入調(diào)查中20名本科畢業(yè)生和15名研究生的月收入(元)(數(shù)據(jù)文件:本科研究生收入.sav),試比較本科生和研究生的收入水平(顯著性水平a=0.05)。由于收入一般是右偏分布,因此不適合用t檢驗(yàn)進(jìn)行分析。我們用Wilcoxon符號(hào)秩檢驗(yàn)來(lái)比較兩個(gè)總體的中位數(shù)。檢驗(yàn)的零假設(shè)和備擇假設(shè)如下:H0:本科和研究生月收入的中位數(shù)相等;H1:本科和研究生月收入的中位數(shù)不相等.根據(jù)精確檢驗(yàn)的p值,在顯著性水平大于0。002時(shí)我們應(yīng)該拒絕原假設(shè),結(jié)論是本科與研究生的收入的中位數(shù)不相等。Kruskal—Wallis檢驗(yàn)也是根據(jù)秩和來(lái)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量的。Kruskal—Wallis檢驗(yàn)是Wlicoxon秩和檢驗(yàn)的推廣,用來(lái)對(duì)多個(gè)總體的中位數(shù)進(jìn)行比較。將所有樣本的數(shù)據(jù)合在一起,從小到大排序得到每個(gè)數(shù)值的秩,然后計(jì)算各樣本的秩和以及平均秩。如果各組沒(méi)有顯著性差異,則各組的平均秩應(yīng)該趨于相等;如果各組的平均秩相差較大,則各組中位數(shù)有顯著性差異的可能性較大。小結(jié):相關(guān)與回歸分析函數(shù)關(guān)系:當(dāng)一個(gè)變量取一定數(shù)值時(shí),另一個(gè)變量有確定值與之相對(duì)應(yīng).相關(guān)關(guān)系:當(dāng)一個(gè)變量取一定數(shù)值時(shí),與之相對(duì)應(yīng)的另一變量的數(shù)值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化.相關(guān)分析:研究變量之間相關(guān)的方向和相關(guān)的程度,但無(wú)法給出變量間相互關(guān)系的具體形式,因而無(wú)法從一個(gè)變量推測(cè)另一個(gè)變量。回歸分析:可以確定變量之間相互關(guān)系的具體形式(回歸方程),確定一個(gè)變量對(duì)另一個(gè)變量的影響程度,并根據(jù)回歸方程進(jìn)行預(yù)測(cè)。(更具體)散點(diǎn)圖是觀察兩個(gè)變量之間的相關(guān)程度和類(lèi)型最直觀的方法。是在直角坐標(biāo)系中用相對(duì)應(yīng)的兩個(gè)變量值作為圖中一個(gè)點(diǎn)的橫坐標(biāo)和縱坐標(biāo)描點(diǎn)得到的圖形。在散點(diǎn)圖中習(xí)慣上把因變量繪制在縱軸上。相關(guān)系數(shù)是用來(lái)衡量變量之間相關(guān)程度的指標(biāo),根據(jù)變量的多少和屬性可以有多種不同的計(jì)算方法.皮爾遜相關(guān)系數(shù)衡量?jī)蓚€(gè)定量變量之間線性相關(guān)程度的常用指標(biāo)。通常以ρ表示總體的相關(guān)系數(shù),以r表示樣本的相關(guān)系數(shù)。相關(guān)系數(shù)r的特征當(dāng)r>0時(shí),X與Y為正相關(guān);當(dāng)r<0時(shí),X與Y為負(fù)相關(guān)。沒(méi)有單位,取值介于—1與1之間。絕對(duì)值越接近1說(shuō)明關(guān)系越密切.r=1為完全正相關(guān),而r=—1為完全負(fù)相關(guān)。注意:當(dāng)r=0時(shí),只是表明兩個(gè)變量之間不存在線性關(guān)系,它并不意味著X與Y之間不存在其他類(lèi)型的相關(guān)關(guān)系。線性關(guān)系度量說(shuō)明樣本相關(guān)系數(shù)r的抽樣分布1.r的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化當(dāng)樣本數(shù)據(jù)來(lái)自正態(tài)總體時(shí),隨著n的增大,r的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系ρ數(shù)很小或接近0時(shí),趨于正態(tài)分布的趨勢(shì)非常明顯。而當(dāng)遠(yuǎn)離0時(shí),除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。2。當(dāng)ρ為較大的正值時(shí),r呈現(xiàn)左偏分布;當(dāng)ρ為較大的負(fù)值時(shí),r呈現(xiàn)右偏分布。只有當(dāng)ρ接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量.注意:相關(guān)關(guān)系≠因果關(guān)系!
典型的錯(cuò)誤推斷:統(tǒng)計(jì)分析表明,慶祝生日次數(shù)越多的人越長(zhǎng)壽。因此,慶祝生日有利于健康。調(diào)查表明,世界各國(guó)人均電視機(jī)擁有量與預(yù)期壽命存在很強(qiáng)的正相關(guān)性。因此,電視機(jī)擁有量越高,預(yù)期壽命越長(zhǎng)。對(duì)小學(xué)各年級(jí)學(xué)生的抽樣調(diào)查表明,學(xué)生的識(shí)字水平與他們鞋子的尺寸高度正相關(guān)。因此,學(xué)生穿的鞋越大,他的識(shí)字水平就越高。一元線性回歸分析回歸函數(shù)描述因變量y如何依賴于自變量x和隨機(jī)誤差項(xiàng)ε的方程.總體回歸函數(shù)的形式如下:樣本回歸函數(shù)是對(duì)總體回歸函數(shù)的一個(gè)樣本估計(jì)結(jié)果.樣本回歸函數(shù)與總體回歸函數(shù)區(qū)別1、總體回歸線是未知的,只有一條。樣本回歸線是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線。2、總體回歸函數(shù)中的β0和β1是未知的參數(shù),表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的和是隨機(jī)變量,其具體數(shù)值隨所抽取的樣本觀測(cè)值不同而變動(dòng)。3、總體回歸函數(shù)中的et是Yt與未知的總體回歸線之間的縱向距離,它是不可直接觀測(cè)的。而樣本回歸函數(shù)中的et是Yt與樣本回歸線之間的縱向距離,當(dāng)根據(jù)樣本觀測(cè)值擬合出樣本回歸線之后,可以計(jì)算出et的具體數(shù)值。一元線性回歸模型的統(tǒng)計(jì)假設(shè)在滿足一系列假設(shè)條件的情況下,最小二乘估計(jì)量是方差最小線性無(wú)偏估計(jì)量。需要的基本假設(shè)條件包括:最小二乘估計(jì)最小二乘回歸直線的性質(zhì)最小二乘估計(jì)量的有關(guān)性質(zhì)最小二乘估計(jì)量是Y的線性函數(shù)。最小二乘估計(jì)量是無(wú)偏估計(jì)量,它的期望值等于總體的真實(shí)值;最小二乘估計(jì)量在所有線性無(wú)偏估計(jì)量中具有最小方差。例子※上式中,0。725是邊際消費(fèi)傾向,表示人均可支配收入每增加1千元,人均消費(fèi)支出平均會(huì)增加0。725千元;0.566是自主性消費(fèi),即與收入無(wú)關(guān)的最基本人均消費(fèi)為0。566千元。將代入回歸方程,得到2011年人均消費(fèi)支出的預(yù)測(cè)值.一元線性回歸方程的評(píng)價(jià)和檢驗(yàn)擬合優(yōu)度決定系數(shù)(1)回歸直線與各觀測(cè)數(shù)據(jù)的接近程度稱為回歸直線的擬合優(yōu)度。(2)度量回歸直線的擬合優(yōu)度最常用的指標(biāo)是決定系數(shù)。該指標(biāo)是建立在對(duì)總離差平方和進(jìn)行分解的基礎(chǔ)之上的。何為“離差”?因變量y相對(duì)于其均值的差異稱為離差,用來(lái)表示。離差來(lái)源于兩個(gè)方面:由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響離差平方和的分解
(三個(gè)平方和的意義)(1)總平方和(SST)反映因變量的n個(gè)實(shí)際觀察值與其均值的總離差(2)回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,也即因變量的理論值與其樣本均值的離差,或者說(shuō),是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和.(3)殘差平方和(SSE)不能由回歸直線加以解釋的殘差平方和。反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和。決定系數(shù)為:其取值為:R2的取值范圍是[0,1]。R2越接近于1,表明回歸平方和占總離差平方和的比例越大,回歸直線與各觀測(cè)點(diǎn)越接近,回歸直線的擬合程度就越好。在一元線性回歸中,相關(guān)系數(shù)r的平方等于判定系數(shù),符號(hào)與自變量x的系數(shù)一致。因此可以根據(jù)回歸結(jié)果求出相關(guān)系數(shù)。所有的回歸程序都會(huì)給出R2的值。估計(jì)標(biāo)準(zhǔn)誤是對(duì)各觀測(cè)數(shù)據(jù)在回歸直線周?chē)稚⒊潭鹊囊粋€(gè)度量值,可以證明,是對(duì)誤差項(xiàng)ε的標(biāo)準(zhǔn)差σ的無(wú)偏估計(jì)。式中p為模型中自變量的個(gè)數(shù),一元回歸中等于1。估計(jì)標(biāo)準(zhǔn)誤反映了用估計(jì)的回歸方程擬合因變量Y時(shí)平均誤差的大小.各觀測(cè)數(shù)據(jù)越靠近回歸直線,估計(jì)標(biāo)準(zhǔn)誤就越小,回歸直線對(duì)各觀測(cè)數(shù)據(jù)的代表性就越好。與R2不同的是,估計(jì)標(biāo)準(zhǔn)誤是一個(gè)有單位的絕對(duì)數(shù)?;貧w分析中的顯著性檢驗(yàn)回歸分析中的顯著性檢驗(yàn)包括兩方面的內(nèi)容:(1)是對(duì)單個(gè)自變量回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn));(2)是對(duì)整個(gè)回歸方程(所有自變量回歸系數(shù))顯著性的整體檢驗(yàn)(F檢驗(yàn))。在一元線性回歸模型中,由于只有一個(gè)解釋變量X,因此,對(duì)β1=0的t檢驗(yàn)與對(duì)整個(gè)方程的F檢驗(yàn)是等價(jià)的。單個(gè)回歸系數(shù)顯著性的t檢驗(yàn)第1步:提出假設(shè)。一般為,對(duì)于一些具體問(wèn)題也可能需要進(jìn)行單側(cè)檢驗(yàn)。第2步:確定檢驗(yàn)的統(tǒng)計(jì)量.可以證明在回歸模型的基本假設(shè)成立時(shí),如果零假設(shè)正確,則有第3步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的樣本觀測(cè)值或p值.第4步:進(jìn)行決策根據(jù)顯著性水平a和自由度df=n-2確定檢驗(yàn)統(tǒng)計(jì)量的臨界值,時(shí)拒絕H0;或者p值〈a時(shí)拒絕H0。為什么要檢驗(yàn)回歸系數(shù)是否等于0?如果總體中的回歸系數(shù)等于零,說(shuō)明相應(yīng)的自變量對(duì)y缺乏解釋能力,在這種情況下我們可能需要從回歸方程中去掉這個(gè)自變量。我們也可以對(duì)常數(shù)項(xiàng)進(jìn)行t檢驗(yàn),但大部分情況下我們并不關(guān)心常數(shù)項(xiàng)的檢驗(yàn)結(jié)果.通常情況下即使常數(shù)項(xiàng)在模型中不顯著,我們也會(huì)在模型中保留常數(shù)項(xiàng),去掉常數(shù)項(xiàng)可能會(huì)對(duì)模型帶來(lái)不利影響。方程整體顯著性的F檢驗(yàn)第1步:提出假設(shè)。在一元回歸為(兩個(gè)變量之間的線性關(guān)系不顯著)(兩個(gè)變量之間的線性關(guān)系顯著)第2步:確定檢驗(yàn)統(tǒng)計(jì)量:MSR稱為均方回歸,MSE稱為均方殘差。第3步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的樣本觀測(cè)值或p值。第4步:進(jìn)行決策:根據(jù)顯著性水平α和自由度(1,n-2)確定檢驗(yàn)統(tǒng)計(jì)量的臨界值,F>時(shí)拒絕H0;或者p值<α?xí)r拒絕H0,如果不能拒絕零假設(shè),則說(shuō)明所有自變量作為一個(gè)整體對(duì)因變量都沒(méi)有解釋能力.注意這里F檢驗(yàn)是右側(cè)檢驗(yàn)!例子:根據(jù)表7—1的數(shù)據(jù),建立北京市城鎮(zhèn)居民消費(fèi)模型,以人均年消費(fèi)性支出(變量Y)為因變量,以人均年可支配收入(變量X)為自變量,建立一元線性回歸模型,并對(duì)回歸方程進(jìn)行顯著性檢驗(yàn).假設(shè)2011年北京市人均年可支配收入為2。9萬(wàn)元,請(qǐng)根據(jù)已建立的消費(fèi)模型預(yù)測(cè)2011年人均消費(fèi)支出。將帶入代入回歸方程,得到2011年人均消費(fèi)支出的預(yù)測(cè)值。多元線性回歸模型總體回歸函數(shù):樣本回歸方程:多元線性回歸模型的基本假設(shè)完全的多重共線性:一個(gè)自變量可以表示為其他自變量和常數(shù)項(xiàng)的線性函數(shù),例如x1=2x2+x3+5。例題7.3根據(jù)表7-1的數(shù)據(jù),建立北京市城鎮(zhèn)居民消費(fèi)模型,要求以人均年消費(fèi)性支出(變量Y)為因變量,以人均年可支配收入(變量X)和家庭恩格爾系數(shù)(變量Z)為自變量,建立二元線性回歸模型.二元線性回歸方程為:變量X的回歸系數(shù)為0。602,其統(tǒng)計(jì)含義:在居民家庭恩格爾系數(shù)不變的條件下,居民可支配收入每上升1個(gè)單位(千元),居民消費(fèi)“平均”上升0.602個(gè)單位(千元);變量Z的回歸系數(shù)為0。097,說(shuō)明在居民可支配收入不變的條件下,居民恩格爾系數(shù)每降低1個(gè)單位(即降低1%),居民消費(fèi)水平就會(huì)“平均”上升0。097個(gè)單位(千元).多元回歸方程的檢驗(yàn)R2的正的平方根稱為復(fù)相關(guān)系數(shù),它度量了因變量同p個(gè)自變量的相關(guān)程度。修正的判定系數(shù)n—1和n—p—1實(shí)際分別是總離差平方和與殘差平方和的自由度。Ra2小于1,但未必都大于0,在擬合極差的情況下,Ra2有可能為負(fù)值。修正后的擬合優(yōu)度可能為負(fù)值。①可決系數(shù)為0.997.這個(gè)指標(biāo)可用于計(jì)算“復(fù)相關(guān)系數(shù)”(正的平方根)。②修正的可決系數(shù)為0.997。③回歸標(biāo)準(zhǔn)誤差為0.27276,其統(tǒng)計(jì)含義為,根據(jù)該回歸方程對(duì)城鎮(zhèn)居民消費(fèi)水平進(jìn)行擬合時(shí),平均的估計(jì)誤差為272。76元。多元回歸中的t檢驗(yàn)非線性回歸分析(1)如果y與x之間不是線性關(guān)系,通??梢酝ㄟ^(guò)變量代換使其轉(zhuǎn)換成線性模型,然后再對(duì)線性模型進(jìn)行估計(jì)。(2)但并非所有的非線性模型都可以化為線性模型.逐步回歸的思想(1)將變量逐一引入回歸方程,先建立與y相關(guān)最密切的一元線性回歸方程,然后再找出第二個(gè)變量,建立二元線性回歸方程,….(2)在每一步中都要對(duì)引入變量的顯著性作檢驗(yàn),僅當(dāng)其顯著時(shí)才引入,而每引入一個(gè)新變量后,對(duì)前面已引進(jìn)的變量又要逐一檢驗(yàn),一旦發(fā)現(xiàn)某變量變得不顯著了,就要將它剔除。這些步驟反復(fù)進(jìn)行,直到引入的變量都是顯著的而沒(méi)有引入的變量都是不顯著的時(shí),就結(jié)束挑選變量的工作。(3)可以設(shè)定引入和刪除變量的條件。違背回歸模型統(tǒng)計(jì)假設(shè)的常見(jiàn)情況(1)異方差當(dāng)回歸模型隨機(jī)誤差項(xiàng)的方差不為常數(shù)時(shí),即為異方差現(xiàn)象:當(dāng)異方差出現(xiàn)時(shí),回歸模型的估計(jì)量不再具有最小方差的性質(zhì),因此不再保持有效性;同時(shí),我們此前介紹的t檢驗(yàn)也失效,無(wú)法對(duì)回歸系數(shù)的顯著性進(jìn)行檢驗(yàn).序列相關(guān)序列相關(guān)的后果:(1)盡管普通最小二乘估計(jì)量仍為無(wú)偏估計(jì)量,但不再具有最小方差的性質(zhì),即不是“最優(yōu)線性無(wú)偏估計(jì)量”;(2)回歸系數(shù)的顯著性檢驗(yàn)失效.多重共線性a完全多重共線性:一個(gè)自變量可以表示為其他自變量(包括常數(shù)項(xiàng))的線性函數(shù)。后果:違背基本假設(shè),模型的參數(shù)無(wú)法估計(jì)。需要去掉一個(gè)自變量。例如:在以下回歸模型中,存在完全多重共線性:因變量:消費(fèi)自變量:第一產(chǎn)業(yè)增加值;第二產(chǎn)業(yè)增加值;第三產(chǎn)業(yè)增加值;GDP。b。高度多重共線性:如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了高度的相關(guān)性,則稱為高度多重共線性。例如:在以下回歸模型中,應(yīng)該會(huì)有高度的多重共線性:因變量:消費(fèi);自變量:收入、財(cái)富。高度多重共線性的后果(1)并不違背OLS的基本假設(shè),存在高度多重共線性時(shí),正規(guī)方程仍有唯一解。因此OLS仍然是BLUE(BestLinearUnbiasedEstimate)的。(2)t檢驗(yàn)值會(huì)減小、系數(shù)的顯著性下降.(3)對(duì)于一組存在高度多重共線性的自變量,很難對(duì)單個(gè)系數(shù)進(jìn)行解釋。(4)有可能導(dǎo)致各回歸系數(shù)的符號(hào)同我們的預(yù)期相反。時(shí)間序列分析時(shí)間序列的構(gòu)成成分一個(gè)時(shí)間序列中可能包含以下四個(gè)(或者幾個(gè))組成成分:長(zhǎng)期趨勢(shì):現(xiàn)象在較長(zhǎng)時(shí)期內(nèi)持續(xù)發(fā)展變化的一種趨向或狀態(tài)----—可以分為線性趨勢(shì)和非線性趨勢(shì)季節(jié)變動(dòng):由于季節(jié)的變化引起的現(xiàn)象發(fā)展水平的規(guī)則變動(dòng)。季節(jié)變動(dòng)產(chǎn)生的原因主要有兩個(gè):自然因素;人為因素:法律、習(xí)俗、制度等“季節(jié)變動(dòng)”也用來(lái)指周期小于一年的規(guī)則變動(dòng),例如24小時(shí)內(nèi)的交通流量。循環(huán)波動(dòng)與長(zhǎng)期趨勢(shì)不同,它不是朝著單一方向的持續(xù)運(yùn)動(dòng),而是漲落相間的波浪式起伏變化;與季節(jié)變動(dòng)不同,它的波動(dòng)時(shí)間較長(zhǎng),變動(dòng)的周期長(zhǎng)短不一,變動(dòng)的規(guī)則性和穩(wěn)定性較差。不規(guī)則波動(dòng)時(shí)間序列分解模型時(shí)間序列的組成成分之間可能是乘法或加法的關(guān)系,因此,時(shí)間序列可用多種模型進(jìn)行分解加法模型假設(shè)時(shí)間序列中每一個(gè)指標(biāo)數(shù)值都是長(zhǎng)期趨勢(shì)、季節(jié)變動(dòng)、循環(huán)變動(dòng)和不規(guī)則變動(dòng)四種成分的總和,在加法模型中,四種成分之間是相互獨(dú)立的。某種成分的變動(dòng)并不影響其他成分的變動(dòng).各個(gè)成分都用絕對(duì)量表示,并且具有相同的量綱。乘法模型加乘混合模型如果季節(jié)變動(dòng)(循環(huán)變動(dòng)、不規(guī)則變動(dòng))依賴于長(zhǎng)期趨勢(shì)的變化,則宜選用乘法模型或加乘混合模型,否則可以考慮加法模型。時(shí)間序列長(zhǎng)期趨勢(shì)分析通過(guò)測(cè)定和分析過(guò)去一段時(shí)間之內(nèi)現(xiàn)象的發(fā)展趨勢(shì),來(lái)認(rèn)識(shí)和掌握現(xiàn)象發(fā)展變化的規(guī)律性;通過(guò)分析現(xiàn)象的長(zhǎng)期趨勢(shì),為統(tǒng)計(jì)預(yù)測(cè)提供必要的條件;移動(dòng)平均法在原時(shí)間序列內(nèi)依次求連續(xù)若干期的平均數(shù)作為其某一期的趨勢(shì)值,如此逐項(xiàng)遞移求得一系列的移動(dòng)平均數(shù),形成一個(gè)新的、派生的平均數(shù)時(shí)間序列。把時(shí)間序列連續(xù)N期的平均數(shù)作為最近一期(第t期)的趨勢(shì)值:中心化移動(dòng)平均把時(shí)間序列連續(xù)N期的平均數(shù)作為N期的中間一期的趨勢(shì)值。(1)如果N為奇數(shù),則把N期的移動(dòng)平均值作為中間一期的趨勢(shì)值.(2)如果N為偶數(shù),須將移動(dòng)平均數(shù)再進(jìn)行一次兩項(xiàng)移動(dòng)平均,以調(diào)整趨勢(shì)值的位置,使趨勢(shì)值能對(duì)準(zhǔn)某一時(shí)期).相當(dāng)于對(duì)原序列進(jìn)行一次N+1項(xiàng)移動(dòng)平均,首末兩個(gè)數(shù)據(jù)的權(quán)重為0。5,中間數(shù)據(jù)權(quán)重為1。例子作用:一般用來(lái)消除不規(guī)則變動(dòng)的影響,把序列進(jìn)行修勻(smoothing),以觀察序列的其他成分(1)如果移動(dòng)平均的項(xiàng)數(shù)等于季節(jié)長(zhǎng)度則可以消除季節(jié)成分的影響;(2)如果移動(dòng)平均的項(xiàng)數(shù)等于平均周期長(zhǎng)度的倍數(shù)則可以消除循環(huán)變動(dòng)的影響。2、時(shí)間回歸法(趨勢(shì)方程法)使用回歸分析中的最小二乘法,以時(shí)間t或t的函數(shù)為自變量擬合趨勢(shì)方程.習(xí)慣上t的取值為從1到n。也可以取其他值,不同取值方法不會(huì)影響到方程的擬合效果.常用的趨勢(shì)方程包括:趨勢(shì)方程可以使用回歸分析中的最小二乘法進(jìn)行估計(jì)。測(cè)定季節(jié)變動(dòng),一般需要先從原時(shí)間序列中剔除可能存在的長(zhǎng)期趨勢(shì),乘法模型中的季節(jié)成分通過(guò)季節(jié)指數(shù)來(lái)反映.季節(jié)指數(shù)(季節(jié)比率):反映季節(jié)變動(dòng)的相對(duì)數(shù).1、月(或季)的指數(shù)之和等于1200%(或400%)。2、季節(jié)指數(shù)離100%越遠(yuǎn),季節(jié)變動(dòng)程度越大,數(shù)據(jù)越遠(yuǎn)離其趨勢(shì)值。用移動(dòng)平均趨勢(shì)剔除法計(jì)算季節(jié)指數(shù)1、計(jì)算移動(dòng)平均值(TC),移動(dòng)期數(shù)為4或12,注意需要進(jìn)行移正操作。2、從序列中剔除移動(dòng)平均值(SI=Y(jié)/TC)。4、如果季節(jié)系數(shù)之和不等于為400%或1200%,需要用調(diào)整系數(shù)調(diào)整。季節(jié)調(diào)整將原序列實(shí)際數(shù)值除以季節(jié)指數(shù)可以消除季節(jié)變動(dòng)的影響。此數(shù)列通常被稱為“季節(jié)調(diào)整后的序列",它便于較為準(zhǔn)確地分析長(zhǎng)期趨勢(shì)和循環(huán)變動(dòng)。循環(huán)變動(dòng)分析剩余法-———-—先從原時(shí)間序列中消除長(zhǎng)期趨勢(shì)、季節(jié)變動(dòng)和不規(guī)則變動(dòng),求得循環(huán)變動(dòng)指數(shù)。計(jì)算步驟:1、如果有季節(jié)成分,計(jì)算季節(jié)指數(shù),得到季節(jié)調(diào)整后的數(shù)據(jù)(TCI);2、根據(jù)趨勢(shì)方程從季節(jié)調(diào)整后的數(shù)據(jù)中消除長(zhǎng)期趨勢(shì)得到序列CI;3、對(duì)消去季節(jié)成分和趨勢(shì)值的序列CI進(jìn)行移動(dòng)平均以消除不規(guī)則波動(dòng),得到循環(huán)變動(dòng)成分C。110。15/130。51=0.不規(guī)則變動(dòng)分解預(yù)測(cè)法就是依據(jù)時(shí)間序列的結(jié)構(gòu)模型將序列中的各種非隨機(jī)成分分離出來(lái),分別進(jìn)行預(yù)測(cè),最后將各部分預(yù)測(cè)值合成總的預(yù)測(cè)值。這種方法直觀易懂并可以提供較多有用的信息,從不同的方面把握數(shù)據(jù)的變化特征。例子指數(shù)平滑是一種加權(quán)移動(dòng)平均,用來(lái)描述時(shí)間序列的變化趨勢(shì),也可以實(shí)現(xiàn)時(shí)間序列的預(yù)測(cè)。指數(shù)平滑預(yù)測(cè)的基本原理是:用時(shí)間序列過(guò)去取值的加權(quán)平均作為未來(lái)的預(yù)測(cè)值,離當(dāng)前時(shí)刻越近的取值,其權(quán)重越大.單參數(shù)(一次)指數(shù)平滑適用場(chǎng)合(1)單參數(shù)(一次)指數(shù)平滑適用于不包含長(zhǎng)期趨勢(shì)和季節(jié)成分的時(shí)間序列預(yù)測(cè)(2)如果原序列有增長(zhǎng)趨勢(shì),平滑序列將系統(tǒng)的低于實(shí)際值(3)如果原序列有下降趨勢(shì),平滑序列將系統(tǒng)的高于實(shí)際值平滑系數(shù)的確定(1)選擇合適的平滑系數(shù)是提高預(yù)測(cè)精度。(2)如果序列波動(dòng)較小,則平滑系數(shù)應(yīng)取小一些初始預(yù)測(cè)值的確定(1)等于第一個(gè)觀測(cè)值(2)等于前k個(gè)值的算術(shù)平均適用場(chǎng)合:單參數(shù)(一次)指數(shù)平滑適用于不包含長(zhǎng)期趨勢(shì)和季節(jié)成分的平穩(wěn)時(shí)間序列預(yù)測(cè)平滑序列低于真實(shí)值!單參數(shù)模型不合適雙參數(shù)指數(shù)平滑包含兩個(gè)平滑參數(shù)適用于包含長(zhǎng)期趨勢(shì)、不包含季節(jié)成分的時(shí)間序列預(yù)測(cè)。其基本思想是:首先對(duì)序列選定其隨時(shí)間變化的線性模型,再通過(guò)對(duì)序列水平和增長(zhǎng)量分別進(jìn)行平滑來(lái)估計(jì)模型中的參數(shù)。三參數(shù)指數(shù)平滑包含季節(jié)變動(dòng)(和長(zhǎng)期趨勢(shì))的時(shí)間序列進(jìn)行預(yù)測(cè)常用溫特(Winter)指數(shù)平滑法。依據(jù)時(shí)間序列的乘法(或加法)結(jié)構(gòu)模型,在每一步平滑中將原始時(shí)間序列分解成趨勢(shì)成分和季節(jié)成分并對(duì)它們分別進(jìn)行平滑。從圖形看擬合效果很好ARIMA模型(Auto—regressiveIntegratedMovingAverage)隨機(jī)過(guò)程理論角度考察時(shí)間序列時(shí)間序列每一個(gè)時(shí)間點(diǎn)上的取值都具有隨機(jī)性時(shí)間序列可以看做一個(gè)離散隨機(jī)過(guò)程的一次樣本實(shí)現(xiàn)隨機(jī)時(shí)間序列分析方法可以更精確地刻畫(huà)時(shí)間序列隨時(shí)間變化的規(guī)律平穩(wěn)性是指時(shí)間序列沒(méi)有明顯的長(zhǎng)期趨勢(shì)、循環(huán)變動(dòng)和季節(jié)變動(dòng).如果序列的一、二階矩存在,而且對(duì)任意時(shí)刻滿足:(1)均值為常數(shù);(2)協(xié)方差僅與時(shí)間間隔有關(guān),則稱該序列為寬平穩(wěn)時(shí)間序列,也叫廣義平穩(wěn)時(shí)間序列。1平穩(wěn)時(shí)間序列模型ARMA模型的基本形式P階自回歸模型-AR(p)是互不相關(guān)的序列,且均值為零,方差為(即為白噪聲序列),一般假定其服從正態(tài)分布.為零均值平穩(wěn)時(shí)間序列滑動(dòng)平均模型-MA(q)自回歸滑動(dòng)平均模型ARMA(p,q)ARMA=AR+MA自相關(guān)函數(shù)(ACF)描述時(shí)間序列觀測(cè)值與其過(guò)去的觀測(cè)值之間的線性相關(guān)性。偏自相關(guān)函數(shù)(PACF)描述在給定中間觀測(cè)值的條件下時(shí)間序列觀測(cè)值與其過(guò)去的觀測(cè)值之間的線性相關(guān)性。Box-Jenkins的模型識(shí)別方法拖尾是指以指數(shù)率單調(diào)或振蕩衰減,截尾是指從某個(gè)開(kāi)始非常?。ú伙@著非零)。一個(gè)零均值時(shí)間序列的ACF和PACF模型階數(shù)的確定AIC信息準(zhǔn)則和BIC信息準(zhǔn)則(也稱為Schwarz信息準(zhǔn)則,記為SIC),使準(zhǔn)則函數(shù)達(dá)到極小的是最佳模型.ARMA模型的適應(yīng)性檢驗(yàn)主要是殘差序列的獨(dú)立性檢驗(yàn)。殘差序列可由估計(jì)出來(lái)的模型計(jì)算得到。如果殘差序列的自相關(guān)函數(shù)不顯著非零,可以認(rèn)為是獨(dú)立的。由下圖可以看出殘差不存在顯著的自相關(guān)性,可以認(rèn)為是獨(dú)立的,因而模型是適應(yīng)的。??MA(2)模型建立AR(1)模型的結(jié)果差分(Difference)運(yùn)算用原序列的每一個(gè)觀測(cè)值減去其前面一個(gè)觀測(cè)值,就形成原序列的一階差分序?qū)σ浑A差分后的序列再進(jìn)行一次差分運(yùn)算,稱為二階差分。一階差分可以消除原序列存在的線性趨勢(shì)大部分經(jīng)濟(jì)時(shí)間序列進(jìn)行一階或二階差分后都可以變?yōu)槠椒€(wěn)序列。對(duì)有季節(jié)性的時(shí)間序列,進(jìn)行季節(jié)差分(當(dāng)年的可以消除季節(jié)成分:ARIMA(1,1,0)模型第9章統(tǒng)計(jì)指數(shù)統(tǒng)計(jì)指數(shù)簡(jiǎn)稱指數(shù),有廣義和狹義兩種定義.廣義:一切用來(lái)測(cè)定社會(huì)經(jīng)濟(jì)現(xiàn)象數(shù)量變動(dòng)或差異程度的相對(duì)數(shù).狹義:用來(lái)表明復(fù)雜總體數(shù)量特征綜合變動(dòng)一種特殊相對(duì)數(shù)。簡(jiǎn)單總體:構(gòu)成總體的各事物在數(shù)量上能夠直接加總。如鋼產(chǎn)量。復(fù)雜總體:構(gòu)成總體的各種事物具有不同的使用價(jià)值和/或計(jì)量單位,各事物在數(shù)量上不能直接加總。如家電、衣服、食品的數(shù)量直接相加就沒(méi)有經(jīng)濟(jì)意義.質(zhì)量指數(shù):表明總體在內(nèi)涵上數(shù)量變動(dòng)的指數(shù),如價(jià)格指數(shù)、平均工資指數(shù)、產(chǎn)品單位成本指數(shù)、勞動(dòng)生產(chǎn)率指數(shù)等。其中使用最多的是價(jià)格指數(shù)(Priceindex)??傊笖?shù)的計(jì)算方法簡(jiǎn)單指數(shù)綜合指數(shù)法:先綜合、后對(duì)比.缺點(diǎn):不同商品的數(shù)量和價(jià)格不能直接加總;指數(shù)大小受商品計(jì)量單位的影響。平均指數(shù)法:先對(duì)比,后綜合缺點(diǎn):沒(méi)有適當(dāng)考慮不同商品的重要程度。加權(quán)綜合指數(shù)計(jì)算步驟:確定同度量因素;將同度量因素固定在同一時(shí)期;將兩個(gè)總量指標(biāo)進(jìn)行對(duì)比.1、同度量因素固定在基期拉斯拜爾指數(shù)或拉氏指數(shù)同度量因素固定在報(bào)告期派許指數(shù)或帕氏指數(shù):選擇公式時(shí)習(xí)慣的做法是:計(jì)算數(shù)量指數(shù)時(shí)把同度量因素固定在基期(拉氏指數(shù))。計(jì)算質(zhì)量指數(shù)時(shí)把同度量因素固定在報(bào)告期(帕氏指數(shù))加權(quán)平均指數(shù)加權(quán)算術(shù)平均指數(shù):用基期價(jià)值作為權(quán)數(shù)時(shí)一般用加權(quán)算術(shù)平均的公式計(jì)算:這時(shí)算術(shù)平均指數(shù)與拉氏指數(shù)相一致,可以看成拉氏公式的變形.加權(quán)算術(shù)平均指數(shù)主要用來(lái)計(jì)算數(shù)量指數(shù)。銷(xiāo)售量總體增長(zhǎng)了8.88%.因銷(xiāo)售量的變動(dòng)而使銷(xiāo)售額增長(zhǎng)2141—1966.3=174。7元。加權(quán)調(diào)和平均指數(shù)這時(shí)調(diào)和平均指數(shù)與帕氏指數(shù)相一致,可以看成帕氏公式的變形.加權(quán)調(diào)和平均指數(shù)主要用來(lái)計(jì)算質(zhì)量指數(shù)。固定加權(quán)算術(shù)平均指數(shù)加權(quán)綜合指數(shù)與加權(quán)平均指數(shù)聯(lián)系與區(qū)別聯(lián)系:都是計(jì)算總指數(shù)的方法,在一定的權(quán)數(shù)條件下具有變形關(guān)系。區(qū)別:出發(fā)點(diǎn)不同。加權(quán)綜合指數(shù)是先綜合后對(duì)比,而加權(quán)平均指數(shù)則是先對(duì)比后綜合;所用權(quán)數(shù)不同。加權(quán)綜合指數(shù)所使用的權(quán)數(shù)是不同時(shí)期的數(shù)量或者價(jià)格,加權(quán)平均指數(shù)所使用的權(quán)數(shù)是不同時(shí)期的價(jià)值;依據(jù)的資料不同。加權(quán)綜合指數(shù)需要有總體的全面資料,而加權(quán)平均指數(shù)既適用于全面的資料,也適用于非全面的資料.加權(quán)綜合指數(shù)與加權(quán)平均指數(shù)聯(lián)系與區(qū)別聯(lián)系:都是計(jì)算總指數(shù)的方法,在一定的權(quán)數(shù)條件下具有變形關(guān)系.區(qū)別:出發(fā)點(diǎn)不同。加權(quán)綜合指數(shù)是先綜合后對(duì)比,而加權(quán)平均指數(shù)則是先對(duì)比后綜合;所用權(quán)數(shù)不同。加權(quán)綜合指數(shù)所使
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來(lái)五年居民遠(yuǎn)途出行服務(wù)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略分析研究報(bào)告
- 施工現(xiàn)場(chǎng)外部環(huán)境安全監(jiān)測(cè)方案
- 物料管理流程標(biāo)準(zhǔn)化實(shí)施方案
- 工會(huì)年度活動(dòng)策劃及執(zhí)行方案匯編
- 教育行業(yè)在線教學(xué)質(zhì)量監(jiān)控方案
- 安全員A證考試考前沖刺試卷(能力提升)附答案詳解
- 2026年企業(yè)形象內(nèi)部宣傳合同協(xié)議
- 2026年企業(yè)用戶體驗(yàn)外包協(xié)議
- 中小學(xué)寒假安全教育方案與案例
- 安全員A證考試模擬題庫(kù)及答案詳解【易錯(cuò)題】
- 柴油維修技術(shù)培訓(xùn)課件
- 2026院感知識(shí)考試題及答案
- 《紅樓夢(mèng)》導(dǎo)讀 (教學(xué)課件) -高中語(yǔ)文人教統(tǒng)編版必修下冊(cè)
- 室外供熱管道安裝監(jiān)理實(shí)施細(xì)則
- 腰背部推拿課件
- 通信管道施工質(zhì)量管理流程解析
- 商場(chǎng)經(jīng)理2025年終工作總結(jié)(二篇)
- 2026年神木職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)含答案
- 化肥產(chǎn)品生產(chǎn)許可證實(shí)施細(xì)則(二)(磷肥產(chǎn)品部分)2025
- 2025年CFA二級(jí)《投資組合管理》模擬
- 基于杜邦分析法的比亞迪盈利能力分析
評(píng)論
0/150
提交評(píng)論