統(tǒng)計(jì)學(xué)復(fù)習(xí)課件_第1頁
統(tǒng)計(jì)學(xué)復(fù)習(xí)課件_第2頁
統(tǒng)計(jì)學(xué)復(fù)習(xí)課件_第3頁
統(tǒng)計(jì)學(xué)復(fù)習(xí)課件_第4頁
統(tǒng)計(jì)學(xué)復(fù)習(xí)課件_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)學(xué)

StatisticsforBusinessandEconomics

什么是統(tǒng)計(jì)學(xué)?不列顛百科全書統(tǒng)計(jì)學(xué)是一門收集、分析、表述和解釋數(shù)據(jù)的科學(xué)。統(tǒng)計(jì)學(xué)的特點(diǎn)以歸納為主要思維方式的統(tǒng)計(jì)不是以演繹為主的數(shù)學(xué)。從整體觀念出發(fā),研究大量普遍存在的整體特征,說明事物的規(guī)律性。研究客觀事物數(shù)量方面的方法論科學(xué)??傮w、個(gè)體和樣本總體(population),所研究對象的全體。分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的個(gè)體(individual),或總體單位,組成總體的元素。樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值只要總體不發(fā)生改變,總體參數(shù)不會(huì)改變總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù)大小取決于所抽取的樣本樣本統(tǒng)計(jì)量通常用小寫英文字母表示參數(shù)和統(tǒng)計(jì)量平均數(shù)標(biāo)準(zhǔn)差比例統(tǒng)計(jì)量xsp參數(shù)總體樣本數(shù)據(jù)的計(jì)量尺度定類尺度定序尺度定距尺度定比尺度一、數(shù)據(jù)的計(jì)量尺度由低級到高級分為四個(gè)層次二、抽樣調(diào)查從調(diào)查對象的總體中隨機(jī)抽取一部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果推斷總體數(shù)量特征。

抽樣方法簡單隨機(jī)抽樣分層抽樣整群抽樣系統(tǒng)抽樣多階段抽樣概率抽樣非概率抽樣抽樣方式

一個(gè)樣本可以得到總體參數(shù)的一個(gè)點(diǎn)估計(jì),該點(diǎn)估計(jì)值與總體參數(shù)真值之間的差異,即為抽樣誤差。

(一)實(shí)際抽樣誤差:

抽樣誤差(SamplingError)

(二)抽樣極限誤差一定概率下抽樣誤差的可能范圍(也稱允許誤差,誤差幅度):統(tǒng)計(jì)數(shù)據(jù)的收集方法1、訪問調(diào)查(派員調(diào)查):調(diào)查者與被調(diào)查者通過面對面的交談獲取調(diào)查資料;

2、郵寄調(diào)查:通過郵寄或其他方式將問卷送至被調(diào)查者,由被調(diào)查者填寫問卷并寄回或投放到指定收集點(diǎn);

3、電話調(diào)查:調(diào)查者利用電話同受訪者進(jìn)行語言交流以獲取信息;

4、座談會(huì)(集體訪談):將受訪者集中在調(diào)查現(xiàn)場,使其對調(diào)查主題發(fā)表意見以獲取調(diào)查資料;

5、個(gè)別深度訪問:一次只有一名受訪者參加的特殊的定性研究。第三章描述性統(tǒng)計(jì)Ⅰ:

數(shù)據(jù)的圖表展示第四章描述性統(tǒng)計(jì)II:

數(shù)值描述

集中趨勢(位置)偏態(tài)和峰態(tài)(形狀)離散趨勢

(分散程度)數(shù)據(jù)分布的特征離散程度的度量(變異度)異眾比率極差四分位差方差和標(biāo)準(zhǔn)差離散系數(shù)扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!偏態(tài)與峰態(tài)分布的形狀推斷統(tǒng)計(jì)三種不同性質(zhì)的分布總體分布樣本分布抽樣分布一個(gè)樣本中各觀察值的分布也稱經(jīng)驗(yàn)分布當(dāng)樣本容量n逐漸增大時(shí),樣本分布逐漸接近總體的分布樣本分布

(sampledistribution)樣本=50

=10X總體分布n=4抽樣分布xn=16當(dāng)總體服從正態(tài)分布N(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x的數(shù)學(xué)期望為μ,方差為σ2/n。即x~N(μ,σ2/n)

(2)當(dāng)總體分布未知時(shí),需要用到中心極限定理(CentrallimitTheorem)經(jīng)驗(yàn)上驗(yàn)證,當(dāng)樣本容量等于或大于30時(shí),無論總體的分布如何,樣本均值的分布則非常接近正態(tài)分布。因此統(tǒng)計(jì)上常稱容量在30(含30)以上的樣本為大樣本(large-sample-size)。抽樣分布與總體分布的關(guān)系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本樣本均值正態(tài)分布樣本均值正態(tài)分布樣本均值非正態(tài)分布樣本方差的分布在重復(fù)選取容量為n的樣本時(shí),由樣本方差的所有可能取值形成的相對頻數(shù)分布對于來自正態(tài)總體的簡單隨機(jī)樣本,則比值的抽樣分布服從自由度為(n-1)的2分布,即3、比例的抽樣分布

1、期望值:有限總體:無限總體

2、標(biāo)準(zhǔn)差:

3、樣本比例抽樣分布的形狀(Formofthesamplingdistributionofp)

根據(jù)中心極限定理有:當(dāng)樣本容量增大時(shí)(大樣本),樣本比例抽樣分布趨向于以樣本期望值為中心、以樣本方差為方差的正態(tài)分布。

區(qū)間估計(jì)則是根據(jù)樣本估計(jì)量以一定的可靠程度推斷總體參數(shù)所在的區(qū)間范圍。區(qū)間估計(jì)(IntervalEstimation)樣本統(tǒng)計(jì)量

(點(diǎn)估計(jì))置信區(qū)間置信下限置信上限抽樣極限誤差一定概率下抽樣誤差的可能范圍(也稱允許誤差,誤差幅度):置信區(qū)間的一般形式點(diǎn)估計(jì)±(臨界值)×(標(biāo)準(zhǔn)誤差)臨界值:根據(jù)置信水平和抽樣分布確定標(biāo)準(zhǔn)誤差:根據(jù)抽樣分布確定將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平表示為(1-為是總體參數(shù)未在區(qū)間內(nèi)的比例常用的置信水平值有

99%,95%,90%相應(yīng)的為0.01,0.05,0.10置信水平(置信度)

(confidencelevel)

置信區(qū)間

(95%的置信區(qū)間)重復(fù)構(gòu)造出的20個(gè)置信區(qū)間點(diǎn)估計(jì)值樣本容量的確定估計(jì)總體均值時(shí)樣本容量的確定估計(jì)總體均值時(shí)樣本容量n為樣本容量n與總體方差2、邊際誤差E、可靠性系數(shù)Z或t之間的關(guān)系為與總體方差成正比與誤差幅度的平方成反比與置信水平成正比樣本容量的圓整法則:當(dāng)計(jì)算出的樣本容量不是整數(shù)時(shí),將小數(shù)點(diǎn)后面的數(shù)值一律進(jìn)位成整數(shù),如24.68取25,24.32也取25等等定義:誤差幅度(邊際誤差)E=根據(jù)比例區(qū)間估計(jì)公式可得樣本容量n為估計(jì)總體比例時(shí)樣本容量的確定未知時(shí),可以選取試驗(yàn)樣本估計(jì)總體比例;也可取使方差最大值p=0.5(此時(shí)波動(dòng)性p(1-p)達(dá)到最大,可確保樣本量滿足要求。如果抽樣水平超過了承受能力,只能犧牲置信水平或增加誤差幅度E。)其中:假設(shè)檢驗(yàn)什么是假設(shè)檢驗(yàn)?

(hypothesistest)先對總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理假設(shè)檢驗(yàn)的基本思想...因此我們拒絕假設(shè)

=50...如果這是總體的假設(shè)均值樣本均值m=50抽樣分布H0這個(gè)值不像我們應(yīng)該得到的樣本均值...20假設(shè)檢驗(yàn)中的兩類錯(cuò)誤1. 第Ⅰ類錯(cuò)誤(棄真錯(cuò)誤)原假設(shè)為正確時(shí)拒絕原假設(shè)第Ⅰ類錯(cuò)誤的概率記為被稱為顯著性水平2. 第Ⅱ類錯(cuò)誤(取偽錯(cuò)誤)原假設(shè)為錯(cuò)誤時(shí)未拒絕原假設(shè)第Ⅱ類錯(cuò)誤的概率記為(Beta)顯著性水平

(significantlevel)1. 是一個(gè)概率值2. 原假設(shè)為真時(shí),拒絕原假設(shè)的概率抽樣分布的拒絕域3. 表示為(alpha)常用的

值有0.01,0.05,0.104. 由研究者事先確定假設(shè)檢驗(yàn)需要借助樣本統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)推斷,稱為檢驗(yàn)統(tǒng)計(jì)量。標(biāo)準(zhǔn)化結(jié)果原假設(shè)H0為真點(diǎn)估計(jì)量的抽樣分布檢驗(yàn)統(tǒng)計(jì)量(teststatistic)標(biāo)準(zhǔn)化的檢驗(yàn)統(tǒng)計(jì)量決策規(guī)則給定顯著性水平,查表得出相應(yīng)的臨界值z或z/2,t或t/2將檢驗(yàn)統(tǒng)計(jì)量的值與水平的臨界值進(jìn)行比較作出決策雙側(cè)檢驗(yàn):I統(tǒng)計(jì)量I>臨界值,拒絕H0左側(cè)檢驗(yàn):統(tǒng)計(jì)量<-臨界值,拒絕H0右側(cè)檢驗(yàn):統(tǒng)計(jì)量>臨界值,拒絕H0一個(gè)總體參數(shù)的檢驗(yàn)z檢驗(yàn)(單尾和雙尾)

t檢驗(yàn)(單尾和雙尾)z檢驗(yàn)(單尾和雙尾)

2檢驗(yàn)(單尾和雙尾)均值總體參數(shù)比例方差方差分析什么是方差分析(ANOVA)?

(analysisofvariance)

檢驗(yàn)多個(gè)總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等研究分類型自變量對數(shù)值型因變量的影響

一個(gè)或多個(gè)分類型自變量一個(gè)數(shù)值型因變量有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個(gè)分類的自變量雙因素方差分析:涉及兩個(gè)分類的自變量方差分析的基本思想和原理

(兩類誤差)組內(nèi)誤差(withingroups)因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)之間的差異這種差異可以看成是隨機(jī)因素的影響,稱為隨機(jī)誤差

組間誤差(betweengroups)因素的不同水平(不同總體)之間觀察值的差異比如,不同行業(yè)之間的被投訴次數(shù)之間的差異這種差異可能是由于抽樣的隨機(jī)性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差問題的一般提法設(shè)因素有k個(gè)水平,每個(gè)水平的均值分別用1,2,,k

表示要檢驗(yàn)k個(gè)水平(總體)的均值是否相等,需要提出如下假設(shè):H0:

12…k

H1:

1,2,,k

不全相等設(shè)1為零售業(yè)被投訴次數(shù)的均值,2為旅游業(yè)被投訴次數(shù)的均值,3為航空公司被投訴次數(shù)的均值,4為家電制造業(yè)被投訴次數(shù)的均值,提出的假設(shè)為H0:

1234

H1:

1,2,3,4

不全相等分析步驟提出假設(shè)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量統(tǒng)計(jì)決策單因素方差分析表

(基本結(jié)構(gòu))誤差來源平方和(SS)自由度(df)均方(MS)F值P值F臨界值組間(因素影響)SSAk-1MSAMSAMSE組內(nèi)(誤差)SSEn-kMSE總和SSTn-1關(guān)系強(qiáng)度的測量

變量間關(guān)系的強(qiáng)度用自變量平方和(SSA)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R就可以用來測量兩個(gè)變量之間的相關(guān)性方差分析中的多重比較

(multiplecomparisonprocedures)多重比較的步驟提出假設(shè)H0:mi=mj(第i個(gè)總體的均值等于第j個(gè)總體的均值)H1:mimj(第i個(gè)總體的均值不等于第j個(gè)總體的均值)檢驗(yàn)統(tǒng)計(jì)量:相關(guān)分析和回歸分析相關(guān)分析及其假定相關(guān)分析要解決的問題變量之間是否存在關(guān)系?(散點(diǎn)圖)如果存在關(guān)系,它們之間是什么樣的關(guān)系?變量之間的關(guān)系強(qiáng)度如何?(相關(guān)系數(shù))樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?(顯著性檢驗(yàn))為解決這些問題,在進(jìn)行相關(guān)分析時(shí),對總體有以下兩個(gè)主要假定兩個(gè)變量之間是線性關(guān)系兩個(gè)變量都是隨機(jī)變量相關(guān)系數(shù)

(計(jì)算公式)

樣本相關(guān)系數(shù)的計(jì)算公式或化簡為總體相關(guān)系數(shù)的計(jì)算公式回歸回歸是計(jì)量經(jīng)濟(jì)學(xué)的主要工具回歸是研究一個(gè)因變量對一個(gè)或多個(gè)自變量的依賴關(guān)系的過程,其用意在于通過后者的設(shè)定去估計(jì)或預(yù)測前者的均值(總體均值)。模型假定的簡化

1)E()=0;(E(yi)=xi)2)對于所有的i,Var()=.3)是服從正態(tài)分布N(0,)的.4)、(ij)是相互獨(dú)立的.術(shù)語:這些假定意味著來自n個(gè)相互獨(dú)立的同方差、但是期望不同的正態(tài)總體。最小二乘估計(jì)

(methodofleastsquares)德國科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù)

使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小線性回歸模型的檢驗(yàn)分二大類:統(tǒng)計(jì)檢驗(yàn)計(jì)量經(jīng)濟(jì)檢驗(yàn)從統(tǒng)計(jì)學(xué)的角度檢驗(yàn)所估計(jì)的樣本回歸函數(shù)的有效性擬合優(yōu)度檢驗(yàn)顯著性檢驗(yàn)一元線性回歸模型的檢驗(yàn)判定系數(shù)(coefficientofdetermination)的取值范圍:[0,1],越接近1,說明實(shí)際觀測點(diǎn)離樣本線越近,擬合優(yōu)度越高。樣本擬合優(yōu)度可用下面的判定系數(shù)測度:判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=r2估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)對誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),是在排除了x對y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測y時(shí)預(yù)測誤差的大小

計(jì)算公式為注:k為自變量的個(gè)數(shù)。方差的一個(gè)無偏估計(jì)。即E(s2)=顯著性檢驗(yàn)顯著性檢驗(yàn)包括對各回歸系數(shù)的檢驗(yàn)對整個(gè)回歸方程的檢驗(yàn)

整個(gè)回歸方程的顯著性檢驗(yàn)主要是要考察所選擇的變量是否從總體上對被解釋變量起線性作用,即各解釋變量前的參數(shù)是否不全為零。

因此,整個(gè)線性關(guān)系的檢驗(yàn)是通過如下F檢驗(yàn)進(jìn)行的整個(gè)回歸方程的顯著性檢驗(yàn)其中,k表示模型中自變量的個(gè)數(shù),n為樣本容量?;貧w系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)H0:b1=0H1:b1

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不拒絕H0殘差分析解決的問題是線性關(guān)系嗎?對誤差項(xiàng)作的假定適合嗎?1)等方差;2)相互獨(dú)立;3)正態(tài)分布;哪些數(shù)據(jù)屬于異常值?哪些觀測屬于對回歸模型有很大影響的?異常值

(outlier)如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢不相吻合,這個(gè)點(diǎn)就有可能是異常點(diǎn),或稱為野點(diǎn)如果異常值是一個(gè)錯(cuò)誤的數(shù)據(jù),比如記錄錯(cuò)誤造成的,應(yīng)該修正該數(shù)據(jù),以便改善回歸的效果如果是由于模型的假定不合理,使得標(biāo)準(zhǔn)化殘差偏大,應(yīng)該考慮采用其他形式的模型,比如非線性模型如果完全是由于隨機(jī)因素而造成的異常值,則應(yīng)該保留該數(shù)據(jù)在處理異常值時(shí),若一個(gè)異常值是一個(gè)有效的觀測值,不應(yīng)輕易地將其從數(shù)據(jù)集中予以剔除利用回歸方程進(jìn)行估計(jì)和預(yù)測利用回歸方程進(jìn)行估計(jì)和預(yù)測根據(jù)自變量x

的取值估計(jì)或預(yù)測因變量y的取值估計(jì)或預(yù)測的類型點(diǎn)估計(jì)y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論