統(tǒng)計(jì)學(xué)全套課件_第1頁
統(tǒng)計(jì)學(xué)全套課件_第2頁
統(tǒng)計(jì)學(xué)全套課件_第3頁
統(tǒng)計(jì)學(xué)全套課件_第4頁
統(tǒng)計(jì)學(xué)全套課件_第5頁
已閱讀5頁,還剩256頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章統(tǒng)計(jì)學(xué)導(dǎo)論統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域2經(jīng)濟(jì)學(xué)管理學(xué)醫(yī)學(xué)工程學(xué)社會(huì)學(xué)…統(tǒng)計(jì)學(xué)1.1

什么是統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué):收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué),其目的是探索數(shù)據(jù)的內(nèi)在數(shù)量規(guī)律性,以達(dá)到對(duì)客觀事物的科學(xué)認(rèn)識(shí)。1.數(shù)據(jù)搜集:例如,調(diào)查與試驗(yàn)2.數(shù)據(jù)整理:例如,排序、分組3.數(shù)據(jù)展示:例如,圖和表4.數(shù)據(jù)分析:例如,回歸分析5統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)描述統(tǒng)計(jì)

內(nèi)容搜集數(shù)據(jù)整理數(shù)據(jù)展示數(shù)據(jù)描述性分析

目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105推斷統(tǒng)計(jì)內(nèi)容參數(shù)估計(jì)假設(shè)檢驗(yàn)?zāi)康膶?duì)總體特征作出推斷樣本總體1.2統(tǒng)計(jì)數(shù)據(jù)的類型按計(jì)量尺度劃分分類尺度順序尺度間隔尺度比率尺度分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)據(jù)類型與統(tǒng)計(jì)方法分類數(shù)據(jù)順序數(shù)據(jù)品質(zhì)數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)量數(shù)據(jù)指出下面分別是哪種數(shù)據(jù)類型(1)職工工資(2)居民對(duì)住房問題是否滿意

非常不滿意、不滿意、一般、滿意、非常滿意(3)商品廣告、服務(wù)廣告、金融廣告、房地產(chǎn)廣告、招生招聘廣告、其他廣告(4)汽車產(chǎn)量(5)員工對(duì)企業(yè)某項(xiàng)改革措施的態(tài)度贊成、中立、反對(duì)統(tǒng)計(jì)數(shù)據(jù)類型按計(jì)量尺度按收集方法按時(shí)間狀況分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)觀測(cè)數(shù)據(jù)實(shí)驗(yàn)數(shù)據(jù)截面數(shù)據(jù)時(shí)序數(shù)據(jù)1.3統(tǒng)計(jì)學(xué)中的基本概念總體參數(shù)樣本統(tǒng)計(jì)量μσπ平均數(shù)標(biāo)準(zhǔn)差比例sp

變量:說明現(xiàn)象某種特征的概念,從一次觀察到下一次觀察,結(jié)果會(huì)呈現(xiàn)出變化。分類變量順序變量數(shù)值型變量離散型變量連續(xù)型變量變量的具體取值稱為變量值2.1數(shù)據(jù)的來源

調(diào)查調(diào)查數(shù)據(jù)實(shí)驗(yàn)實(shí)驗(yàn)數(shù)據(jù)數(shù)據(jù)的直接來源——一手資料數(shù)據(jù)的間接來源——二手資料

統(tǒng)計(jì)公報(bào)統(tǒng)計(jì)年鑒網(wǎng)上資料期刊雜志報(bào)紙

……調(diào)查的方式:

普查

抽樣調(diào)查2.2抽樣調(diào)查

概率抽樣非概率抽樣概率抽樣

也稱隨機(jī)抽樣,指遵循隨機(jī)原則進(jìn)行的抽樣,總體中每個(gè)單位都有一定的機(jī)會(huì)被選入樣。(1)簡(jiǎn)單隨機(jī)抽樣從包括總體N個(gè)單位的抽樣框中隨機(jī)地、一個(gè)一個(gè)地抽取n個(gè)單位作為樣本,每個(gè)單位入樣的概率是相等的。①抽簽法

②隨機(jī)數(shù)表法

先將總體中的所有個(gè)體(共有N個(gè))編號(hào),然后在隨機(jī)數(shù)表內(nèi)任選一個(gè)數(shù)作為開始,再從選定的起始數(shù),沿任意方向取數(shù)(不在號(hào)碼范圍內(nèi)的數(shù)、重復(fù)出現(xiàn)的數(shù)必須去掉),最后根據(jù)所得號(hào)碼抽取總體中相應(yīng)的個(gè)體,得到總體的一個(gè)樣本.(2)分層抽樣將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本。分層抽樣法適用于總體中個(gè)體差異明顯的抽樣層抽樣是按各層中含個(gè)體在總體中所占的比例,確定層抽樣的個(gè)體個(gè)數(shù)進(jìn)行隨機(jī)抽樣

例:

一個(gè)工廠有若干個(gè)車間,今采用分層抽樣方法從全廠某天2048件產(chǎn)品中抽取一個(gè)容量為128的樣本進(jìn)行質(zhì)量檢查.若一車間一天生產(chǎn)256件產(chǎn)品,則從該車間抽取產(chǎn)品件數(shù)為

.16(3)整群抽樣將總體中若干個(gè)單位合并為組,這樣的組稱為群,抽樣時(shí)直接抽取群,然后對(duì)中選群中的所有單位全部實(shí)施調(diào)查。(4)系統(tǒng)抽樣將總體中的所有單位按一定順序排列,按照擬抽樣數(shù),將其劃分成相同的段,然后在每一段中的固定位置抽取一個(gè)調(diào)查單位。

例:為了了解參加某種知識(shí)競(jìng)賽的1000名學(xué)生的成績(jī),從中抽取50名學(xué)生的成績(jī),若選擇系統(tǒng)抽樣的方法進(jìn)行抽樣,簡(jiǎn)述抽樣過程?例:為了了解參加某種知識(shí)競(jìng)賽的1003名學(xué)生的成績(jī),請(qǐng)用系統(tǒng)抽樣抽取一個(gè)容量為50的樣本,簡(jiǎn)述抽樣過程?(5)多階段抽樣

先按整群抽樣的方法,抽取群,再從選中的群中隨機(jī)抽取若干單位進(jìn)行調(diào)查,這是二階段抽樣。多階段抽樣以此類推。

某大型國(guó)有企業(yè)總部設(shè)在北京,在廣州、上海、西安、長(zhǎng)春有分公司,各公司員工規(guī)模相當(dāng)。該企業(yè)共有5000名員工,基層員工為3000名,中層干部1800名,高層領(lǐng)導(dǎo)有200名?,F(xiàn)今企業(yè)計(jì)劃進(jìn)行某項(xiàng)制度改革,針對(duì)改革方案收集員工的意見,要抽取100名員工調(diào)查了解情況。要求:①用最省時(shí)、省錢的方法抽樣②能反映各階層員工意見的方法抽樣③能反映各地區(qū)員工意見的方法抽樣非概率抽樣方便抽樣依據(jù)方便原則,自行確定入抽樣本判斷抽樣根據(jù)經(jīng)驗(yàn)、判斷、對(duì)研究對(duì)象的了解,有目的地抽樣自愿樣本自愿參加滾雪球抽樣針對(duì)特定稀少群體的研究配額抽樣先分類,在每類中用方便抽樣或判斷抽樣選取樣本非概率抽樣概率抽樣●不依據(jù)隨機(jī)原則●樣本無法對(duì)總體估計(jì),不計(jì)算估計(jì)誤差、置信區(qū)間……●操作簡(jiǎn)便●時(shí)效快●成本低●前期發(fā)現(xiàn)問題★隨機(jī)原則★樣本可以對(duì)總體進(jìn)行估計(jì),計(jì)算估計(jì)誤差、置信區(qū)間……★技術(shù)含量高★成本較高★適合用于驗(yàn)證問題作進(jìn)一步的數(shù)量分析搜集數(shù)據(jù)的基本方法

搜集數(shù)據(jù)的方法自填式面訪式電話式觀察法試驗(yàn)法2.3數(shù)據(jù)的誤差

數(shù)據(jù)的誤差抽樣誤差非抽樣誤差由于抽樣的隨機(jī)性引起的樣本結(jié)果與總體真值之間的誤差只在概率抽樣中除抽樣誤差之外的,由于其他原因引起的樣本觀察結(jié)果與總體真值之間的差異。存在于任何抽樣或調(diào)查中3.1數(shù)據(jù)的預(yù)處理1.數(shù)據(jù)審核

發(fā)現(xiàn)數(shù)據(jù)中的錯(cuò)誤2.數(shù)據(jù)篩選

找出符合條件的數(shù)據(jù)3.數(shù)據(jù)排序發(fā)現(xiàn)數(shù)據(jù)的基本特征升序和降序

數(shù)據(jù)篩選例3.1表3-1是8名學(xué)生4門課程的考試成績(jī)數(shù)據(jù)(單位:分)。試找出(1)統(tǒng)計(jì)學(xué)成績(jī)等于80分的學(xué)生(2)數(shù)學(xué)成績(jī)最高的前三名學(xué)生,英語成績(jī)最低的三名學(xué)生(3)統(tǒng)計(jì)學(xué)成績(jī)?cè)?0-90之間的學(xué)生(4)四門課程成績(jī)都大于70分的學(xué)生數(shù)據(jù)排序1.分類數(shù)據(jù)的排序字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分?jǐn)?shù)值型數(shù)據(jù)的排序

分類匯總

根據(jù)不同的研究目的,按照某個(gè)類別進(jìn)行匯總分析。分類匯總之前要先按分類項(xiàng)排序。簡(jiǎn)單分類匯總多級(jí)分類匯總數(shù)據(jù)透視表

利用數(shù)據(jù)透視表可以按照研究目的不同,進(jìn)行交叉匯總分析,使研究者可以從各種角度、維度去查看分析數(shù)據(jù),從繁雜的數(shù)據(jù)中挖掘和整合數(shù)據(jù)。3.2品質(zhì)數(shù)據(jù)的整理與展示3.2.1分類數(shù)據(jù)的整理與圖示

1.列出各類別

2.計(jì)算各類別的頻數(shù)

3.制作頻數(shù)分布表

4.用圖形展示分類數(shù)據(jù)中需要計(jì)算的指標(biāo)1.頻數(shù):落在各類別中的數(shù)據(jù)個(gè)數(shù)

頻數(shù)分布:把各個(gè)類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來。2.比例:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值3.百分比:將對(duì)比的基數(shù)作為100而計(jì)算的比值4.比率:不同類別數(shù)值之間的比值【例3.3】一家市場(chǎng)調(diào)查公司為研究不同品牌飲料的市場(chǎng)占有率,對(duì)隨機(jī)抽取的一家超市進(jìn)行調(diào)查。調(diào)查員在某天對(duì)50名顧客購買飲料的品牌進(jìn)行了記錄,如果一個(gè)顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。數(shù)據(jù)見Excel表。要求:對(duì)數(shù)據(jù)進(jìn)行整理,求不同品牌飲料的頻數(shù)分布、比例和百分比。如何利用Excel計(jì)算頻數(shù)插入——

函數(shù)——

COUNTIF數(shù)一數(shù)COUNTIF要計(jì)算某一類別的頻數(shù)分類數(shù)據(jù)的圖示條形圖

條形圖是用寬度相同的條形的高度或長(zhǎng)短來表示數(shù)據(jù)多少的圖形★各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖★對(duì)比條形圖——顯示分類變量在不同時(shí)間或不同空間上的差異或變化對(duì)比條形圖對(duì)比分類變量的取值在不同時(shí)間或不同空間上的差異或變化趨勢(shì)電腦品牌一季度二季度聯(lián)想290387IBM217307索尼387452戴爾438560對(duì)比條形圖分類數(shù)據(jù)的圖示—帕累托圖按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的柱形圖主要用于展示分類數(shù)據(jù)的分布餅圖餅圖:用圓形及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形。主要用于表示總體中各組成部分所占的比例,對(duì)于研究結(jié)構(gòu)性問題十分有用在繪制圓形圖時(shí),總體中各部分所占的百分比用圓內(nèi)的各個(gè)扇形面積表示,這些扇形的中心角度,是按各部分百分比占3600的相應(yīng)比例確定的環(huán)形圖環(huán)形圖中間有一個(gè)“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示環(huán)形圖與餅圖類似,但又有區(qū)別餅圖只能顯示一個(gè)總體各部分所占的比例環(huán)形圖則可以同時(shí)繪制多個(gè)總體的數(shù)據(jù)系列,每一個(gè)總體的數(shù)據(jù)系列為一個(gè)環(huán)環(huán)形圖可用于進(jìn)行比較研究環(huán)形圖可用于展示分類數(shù)據(jù)和順序數(shù)據(jù)8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

圖3-4甲乙兩城市家庭對(duì)住房狀況的評(píng)價(jià)3.2.2順序數(shù)據(jù)的整理與圖示累積頻數(shù):將各有序類別的頻數(shù)逐級(jí)累加起來得到的頻數(shù)。

向上累積:從類別順序的開始一方,向類別順序的最后一方累加頻數(shù);

向下累積:從類別順序的最后一方,向類別順序的開始一方累加頻數(shù)。2.累積頻率:將各類別的百分比逐級(jí)累加【例3.5】在一項(xiàng)城市住房問題的研究中,研究人員在甲乙兩個(gè)城市各抽樣調(diào)查300戶,其中的一個(gè)問題是:“您對(duì)您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;

3.一般;4.滿意;

5.非常滿意。甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)向上累積

向下累積

戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計(jì)300100.0————乙城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)向上累積

向下累積

戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意209812040226.732.74013.37.3合計(jì)300100.0————乙城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)向上累積

向下累積

戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意209812040226.732.74013.37.3201182382783006.739.479.492.7100300280182622210093.360.620.67.3合計(jì)300100.0————243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(a)向上累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(b)向下累積甲城市家庭對(duì)住房狀況評(píng)價(jià)的累積頻數(shù)分布圖3.3數(shù)值型數(shù)據(jù)的整理與顯示3.3.1數(shù)據(jù)的分組

分組方法等距分組異距分組單變量值分組組距分組單變量值分組

(要點(diǎn))★

適合于離散變量★

適合于變量值較少的情況步驟:

排序?qū)⒁粋€(gè)變量值作為一組

117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例3.6】某生產(chǎn)車間50名工人日加工零件數(shù)如下(單位:個(gè))。試采用單變量值對(duì)數(shù)據(jù)進(jìn)行分組。

107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139某車間50名工人日加工零件數(shù)分組表零件數(shù)(個(gè))頻數(shù)(人)零件數(shù)(個(gè))頻數(shù)(人)零件數(shù)(個(gè))頻數(shù)(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112組距分組

(要點(diǎn))■

適合于連續(xù)變量適合于變量值較多的情況將變量值的一個(gè)區(qū)間作為一組可采用等距分組,也可采用不等距分組~~~~~~~~~~組距分組

(幾個(gè)概念)1.下限:一個(gè)組的最小值2.上限:一個(gè)組的最大值3.組距:上限與下限之差4.組中值:下限與上限之間的中點(diǎn)值下限值+上限值2組中值=組距分組第1步:排序,確定組數(shù)(K)

5≤K≤15

能夠顯示數(shù)據(jù)的分布特征和規(guī)律第2步:確定組距組距=(最大值-最小值)÷組數(shù)

組距宜取5或10的倍數(shù)

◆第一組的下限應(yīng)低于最小值,

◆最后一組的上限應(yīng)高于最大值。遵循“不重不漏”的原則

第3步:根據(jù)分組整理成頻數(shù)分布表上組限不在內(nèi)等距分組表

(上下組限間斷)表3-6某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合計(jì)50100等距分組表

(上下組限重疊)表3-5某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合計(jì)50100等距分組表

(使用開口組)表3-7某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合計(jì)50100用Excel制作數(shù)值型數(shù)據(jù)的頻數(shù)分布表【工具】——【數(shù)據(jù)分析】——【直方圖】【輸入?yún)^(qū)域】:輸入原始數(shù)據(jù)區(qū)域

【接收區(qū)域】:輸入各組的上限值

【輸出區(qū)域】:選擇一個(gè)空白單元格(想要把輸出的結(jié)果放在那里)

【柏拉圖】、【累積百分率】(不需要時(shí),可不選)選擇【圖表輸出】

利用FREQUENCY函數(shù),制作頻數(shù)分布表

FREQUENCY(Data_array,Bins_array)Data_array為計(jì)算頻數(shù)的數(shù)據(jù)區(qū)域或數(shù)組

Bins_array為數(shù)據(jù)接收區(qū)間的數(shù)組,即指定的各分組的組上限值。注意:1.FREQUENCY函數(shù)返回的是一個(gè)數(shù)組;2.在輸入函數(shù)前,應(yīng)選定返回?cái)?shù)組的區(qū)域;3.函數(shù)錄入以后,應(yīng)按住Ctrl+Shift+回車(確定)分組數(shù)據(jù)—直方圖用矩形的寬度和高度來表示頻數(shù)分布的圖形,實(shí)際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖(Histogram)直方圖與條形圖的區(qū)別條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的;直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義。直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列。條形圖主要用于展示分類數(shù)據(jù),而直方圖則主要用于展示數(shù)值型數(shù)據(jù)。分組數(shù)據(jù)—折線圖折線圖也稱頻數(shù)多邊形圖(Frequencypolygon)是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(diǎn)(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個(gè)終點(diǎn)要與橫軸相交,具體的做法是第一個(gè)矩形的頂部中點(diǎn)通過豎邊中點(diǎn)(即該組頻數(shù)一半的位置)連接到橫軸,最后一個(gè)矩形頂部中點(diǎn)與其豎邊中點(diǎn)連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的1512963105110115120125130135140日加工零件數(shù)(個(gè))頻數(shù)(人)折線圖下的面積與直方圖的面積相等!某車間工人日加工零件數(shù)的折線圖未分組數(shù)據(jù)——莖葉圖用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉4.莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可大體上看出一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息樹莖樹葉788022347778889001222233334445566777889013344579910111213數(shù)據(jù)個(gè)數(shù)3132410莖葉圖類似橫置的直方圖某車間工人日加工零件數(shù)的莖葉圖未分組數(shù)據(jù)—箱線圖1.箱線圖由一組數(shù)據(jù)的5個(gè)特征值繪制而成,它由一個(gè)箱子和兩條線段組成2.其繪制方法是:首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me和兩個(gè)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個(gè)四分位數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接中位數(shù)4681012QUQLX最大值X最小值簡(jiǎn)單箱線圖時(shí)間序列數(shù)據(jù)—線圖

繪制線圖時(shí)應(yīng)注意以下幾點(diǎn)時(shí)間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸圖形的長(zhǎng)寬比例要適當(dāng),其長(zhǎng)寬比例大致為10:7一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時(shí),可以采取折斷的符號(hào)將縱軸折斷【例3.5】已知1991~1998年我國(guó)城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表3-11。試?yán)L制線圖¥

表3-111991~1998年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民199119921993199419951996199719981700.62026.62577.43496.24283.04838.95160.35425.1708.6784.0921.61221.01577.71926.12091.12162.0020004000600019911992199319941995199619971998城鎮(zhèn)居民農(nóng)村居民收入

(元)

圖3-14城鄉(xiāng)居民家庭人均收入多變量數(shù)據(jù)的圖示1.散點(diǎn)圖:用二維坐標(biāo)展示兩個(gè)變量之間關(guān)系的圖形。每組數(shù)據(jù)(xi,yi)在坐標(biāo)系中用一個(gè)點(diǎn)表示。2.氣泡圖:可用于展示三個(gè)變量之間的關(guān)系,一個(gè)變量放在x軸,另一個(gè)變量放在y軸,第三個(gè)變量用氣泡的大小表示。3.雷達(dá)圖:可顯示多個(gè)變量之間的關(guān)系,也稱為蜘蛛圖。雷達(dá)圖的制作

設(shè)有n組樣本S1,S2,…Sn,每個(gè)樣本測(cè)得P個(gè)變量X1,X2,Xp,要繪制這P個(gè)變量的雷達(dá)圖,其具體做法是★先做一個(gè)圓,然后將圓P等分,得到P個(gè)點(diǎn),令這P個(gè)點(diǎn)分別對(duì)應(yīng)P個(gè)變量,在將這P個(gè)點(diǎn)與圓心連線,得到P個(gè)幅射狀的半徑,這P個(gè)半徑分別作為P個(gè)變量的坐標(biāo)軸,每個(gè)變量值的大小由半徑上的點(diǎn)到圓心的距離表示

★再將同一樣本的值在P個(gè)坐標(biāo)上的點(diǎn)連線。這樣,n個(gè)樣本形成的n個(gè)多邊形就是一個(gè)雷達(dá)圖數(shù)據(jù)分布特征的測(cè)度◆集中趨勢(shì)的度量

——反映數(shù)據(jù)向其中心值靠攏或聚集的程度◆離散程度的度量

——反映數(shù)據(jù)遠(yuǎn)離其中心值的趨勢(shì)◆分布的形狀

——反映數(shù)據(jù)分布的偏態(tài)和峰態(tài)4.1集中趨勢(shì)的度量*一組數(shù)據(jù)向其中心值靠攏的傾向和程度*測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)一般水平的代表值或中心值*不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值分類數(shù)據(jù)——眾數(shù)

順序數(shù)據(jù)——中位數(shù)和分位數(shù)數(shù)值型數(shù)據(jù)——平均數(shù)眾數(shù)

眾數(shù)(MODE):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用Mo表示;◆主要用于測(cè)度分類數(shù)據(jù)的集中趨勢(shì),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù);◆眾數(shù)是位置代表值,不受極端值影響;◆可能沒有眾數(shù)、有一個(gè)眾數(shù)或幾個(gè)眾數(shù)眾數(shù)的不唯一性無眾數(shù)原始數(shù)據(jù):10591268一個(gè)眾數(shù)原始數(shù)據(jù):659855多于一個(gè)眾數(shù)原始數(shù)據(jù):25

282836

4242

分類數(shù)據(jù)的眾數(shù)表3-4某城市居民關(guān)注廣告類型的頻數(shù)分布

廣告類型人數(shù)(人)比例頻率(%)

商品廣告服務(wù)廣告金融廣告房地產(chǎn)廣告招生招聘廣告其他廣告472299850.470.220.090.090.080.0547229985合計(jì)1001100解:這里的變量為“廣告類型”,不同類型的廣告就是變量值。關(guān)注商品廣告的人數(shù)最多,為47人,占總被調(diào)查人數(shù)的47%,因此眾數(shù)為“商品廣告”這一類別,即

Mo=商品廣告【例4.1

】某城市居民關(guān)注廣告類型的眾數(shù)

順序數(shù)據(jù)的眾數(shù)表3-5甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510合計(jì)300100.0解:這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”。甲城市中對(duì)住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即

Mo=不滿意【例4.2

】求甲城市家庭對(duì)住房狀況評(píng)價(jià)的眾數(shù)數(shù)值型數(shù)據(jù)的眾數(shù)

(未分組)【例4.3】在某城市中隨機(jī)抽取9個(gè)家庭,調(diào)查得到每個(gè)家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計(jì)算人均月收入的眾數(shù)。

108075010801080850960200012501630

解:人均月收入出現(xiàn)次數(shù)最多的是1080,因此,

Mo=

1080元數(shù)值型分組數(shù)據(jù)的眾數(shù)2.相鄰兩組的頻數(shù)相等時(shí),眾數(shù)組的組中值即為眾數(shù)1.眾數(shù)的值與相鄰兩組頻數(shù)的分布有關(guān)Mo3.相鄰兩組的頻數(shù)不相等時(shí),眾數(shù)采用下列近似公式計(jì)算MoMoL為眾數(shù)組的下限值,i為眾數(shù)組的組距,f為眾數(shù)組的頻數(shù),f-1為眾數(shù)組前一組的頻數(shù),f+1為眾數(shù)組后一組的頻數(shù)。表3-6某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計(jì)50—【例4.4】根據(jù)第三章表3-6中的數(shù)據(jù),計(jì)算50名工人日加工零件數(shù)的眾數(shù)順序數(shù)據(jù):中位數(shù)和分位數(shù)中位數(shù)Me50%50%★不受極端值的影響★主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)★

排序后處于中間位置上的變量值計(jì)算中位數(shù)的步驟

1.排序

2.確定中位數(shù)的位置(按公式)N為數(shù)據(jù)的個(gè)數(shù)順序數(shù)據(jù)的中位數(shù)

(算例)表3-2甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300—解:順序數(shù)據(jù)本身就是排序的,根據(jù)中位數(shù)位置的確定公式:從累積頻數(shù)看,中位數(shù)在“一般”這一類中,即Me=一般數(shù)值型未分組數(shù)據(jù)的中位數(shù)

奇數(shù)個(gè)數(shù)據(jù)的算例

原始數(shù)據(jù): 2422212620

排序: 2021222426

位置: 123 45中位數(shù)=22偶數(shù)個(gè)數(shù)據(jù)的算例

原始數(shù)據(jù):105 91268

排序: 56891012

位置: 123

456位置

N+126+123.5中位數(shù)

8+928.5數(shù)值型分組數(shù)據(jù)的中位數(shù)1.計(jì)算累積頻數(shù)

2.確定中位數(shù)所在組

3.采用下列近似公式計(jì)算:L為中位數(shù)所在組的下限值,N為數(shù)據(jù)的個(gè)數(shù)Sm-1為中位數(shù)所在組以前各組的累積頻數(shù),fm為中位數(shù)所在組的頻數(shù),i為中位數(shù)所在組的組距【例4.5】根據(jù)第三章表3-5中的數(shù)據(jù),計(jì)算50名工人日加工零件數(shù)的中位數(shù)表3-5某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計(jì)50—四分位數(shù)◆排序后處于25%和75%位置上的值QLQMQU25%25%25%25%

◆不受極端值的影響◆主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)四分位數(shù)的計(jì)算1.排序2.確定四分位數(shù)的位置

下四分位數(shù)為QL,上四分位數(shù)為QU,公式為:QL位置=QU位置=★如果位置是整數(shù),四分位數(shù)就是該位置上的值;★如果是在0.5位置上,則取該位置兩側(cè)值的平均數(shù);★如果是在0.25或0.75位置上,則四分位數(shù)等于該位置的下側(cè)值加上按比例分?jǐn)偽恢脙蓚?cè)數(shù)值的差值。

【例4.6】由一組10個(gè)學(xué)生的月支出的調(diào)查數(shù)據(jù),要求計(jì)算該組數(shù)據(jù)的四分位數(shù)。

150075078010808509602000125016302500

數(shù)值型分組數(shù)據(jù)的四分位數(shù)1.計(jì)算累積頻數(shù)

2.確定四分位數(shù)所在組

3.采用下列近似公式計(jì)算:LL和LU為QL和QU所在組的下限值;SL和SU為QL和QU所在組以前各組的累積頻數(shù)fL和fU為QL和QU所在組的頻數(shù),iL和iU為QL和QU所在組的組距表3-5某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計(jì)50—【例4.7】計(jì)算50名工人日加工零件數(shù)的四分位數(shù)燈泡的使用壽命(小時(shí))頻數(shù)650—6602660—6705670—6806680—69014690—70026700—71018710—72013720—73010730—7403740—7503數(shù)值型數(shù)據(jù):平均數(shù)(均值)1.平均數(shù)是一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)得到的結(jié)果。

2.集中趨勢(shì)的最主要測(cè)度值

3.易受極端值的影響

4.用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)。簡(jiǎn)單平均數(shù)

對(duì)未分組數(shù)據(jù)計(jì)算的平均數(shù)公式為:加權(quán)平均數(shù)對(duì)分組數(shù)據(jù)計(jì)算的平均數(shù)設(shè)原始數(shù)據(jù)被分成k組,各組的組中值為M1,M2,

…,Mk,各組頻數(shù)為f1,f2,…,fk,則加權(quán)平均數(shù)為,-X簡(jiǎn)單平均數(shù)

算例【例4.8】計(jì)算第三章中50個(gè)工人日加工零件數(shù)的均值—x=(117+122+……121)/50=6149/50=122.98(個(gè))【例4.9】根據(jù)第三章表3-5中的數(shù)據(jù),計(jì)算50名工人日加工零件數(shù)的均值表4-1某車間50名工人日加工零件均值計(jì)算表按零件數(shù)分組組中值(Mi)頻數(shù)(Fi)MiFi105~110110~115115~120120~125125~130130~135135~140358141064合計(jì)—50表4-1某車間50名工人日加工零件均值計(jì)算表按零件數(shù)分組組中值(Xi)頻數(shù)(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合計(jì)—506160.0(個(gè))★簡(jiǎn)單平均數(shù),其數(shù)值的大小只與變量值的大小有關(guān);★加權(quán)平均數(shù),其數(shù)值的大小不僅受各組變量值大小的影響,而且受各組變量值出現(xiàn)的頻數(shù)即權(quán)數(shù)(fi)大小的影響。

如果某一組的權(quán)數(shù)較大,說明該組的數(shù)據(jù)較多,那么該組數(shù)據(jù)的大小對(duì)均值的影響就越大,反之則越小。幾何平均數(shù)1.幾何平均數(shù):N個(gè)變量值乘積的N次方根,用GM表示其計(jì)算公式為2.主要用于計(jì)算平均比率和平均發(fā)展速度GEOMEAN【例4.10】一位投資者持有一種股票,2001-2004年的收益率分別為4.5%,2.1%,25.5%,1.9%要求計(jì)算該投資者在這4年內(nèi)的平均收益率。

解:設(shè)平均收益率為G=108.0787%則G=GM–1=108.0787%-1=8.0787%__【例4.11】某水泥生產(chǎn)企業(yè)2001年的水泥產(chǎn)量為100萬噸,2002年的產(chǎn)量比2001增長(zhǎng)了9%,2003年比2002年增長(zhǎng)了16%,2004年比2003增長(zhǎng)20%。求該企業(yè)2002年、2003年、2004年這三年的平均增長(zhǎng)率。解:=114.91%則年平均增長(zhǎng)率為114.91%-100%=14.91%眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系1.如果數(shù)據(jù)分布是對(duì)稱的,則

2.如果數(shù)據(jù)是左偏分布,則3.如果數(shù)據(jù)是右偏分布,則

-Mo=Me=xx<Me<MoMo<Me<x--4.2離散程度的測(cè)度

離散程度:反映個(gè)體遠(yuǎn)離其中心值的程度。

離散程度越大,表示集中趨勢(shì)的測(cè)度值對(duì)數(shù)據(jù)的代表性越差;離散程度越小,表示集中趨勢(shì)的測(cè)度值對(duì)數(shù)據(jù)的代表性越好。分類數(shù)據(jù)——異眾比率順序數(shù)據(jù)——四分位差數(shù)值型數(shù)據(jù)——方差和標(biāo)準(zhǔn)差分類數(shù)據(jù):異眾比率1.離散程度的測(cè)度值之一2.非眾數(shù)組的頻數(shù)占總頻數(shù)的比率3.計(jì)算公式為

4.用于衡量眾數(shù)的代表性異眾比率

(算例)表3-1不同類型飲料的頻數(shù)分布

廣告類型人數(shù)(人)頻率(%)果汁礦泉水綠茶碳酸飲料其他610111581220223016合計(jì)50100解:

在調(diào)查的50人當(dāng)中,購買其他類型飲料的人數(shù)占70%,異眾比率比較大,用“碳酸飲料”來代表消費(fèi)者購飲料類型的狀況,其代表性不是很好。

Vr=50-1550

=1-1550

=0.70=70%順序數(shù)據(jù):四分位差1. 離散程度的測(cè)度值之一2. 也稱為內(nèi)距或四分間距3. 上四分位數(shù)與下四分位數(shù)之差

QD=QU

-QL4. 反映了中間50%數(shù)據(jù)的離散程度5.不受極端值的影響6.用于衡量中位數(shù)的代表性順序數(shù)據(jù)的四分位差計(jì)算甲城市家庭對(duì)住房滿意狀況評(píng)價(jià)的四分位差表3-2甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300—解:設(shè)非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5

QL=不滿意=2,

QU=

一般=

3四分位差:

QD=QU–

QL

=3–2

=1例:為調(diào)查我校大學(xué)生對(duì)趣味玩具的偏好情況,搜及200位同學(xué)對(duì)趣味玩具的態(tài)度,得到以下數(shù)據(jù),計(jì)算這組數(shù)據(jù)的四分位差?回答類別甲城市人數(shù)(人)累計(jì)頻數(shù)

非常喜歡(買的多)

喜歡(會(huì)買一些)

一般(偶爾買)不在意(不會(huì)買)不喜歡(不買不玩)2255653028合計(jì)200—數(shù)值型數(shù)據(jù)的離散程度

極差平均差

※方差

※標(biāo)準(zhǔn)差極差(range)1.一組數(shù)據(jù)的最大值與最小值之差,用R表示2.計(jì)算公式3.離散程度的最簡(jiǎn)單測(cè)度值4.易受極端值影響5.未考慮數(shù)據(jù)的分布未分組數(shù)據(jù)R

=max(Xi)-min(Xi).=組距分組數(shù)據(jù)R

最高組上限-最低組下限7891078910平均差(Md)1.各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù)2.以平均數(shù)為中心,反映每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度,能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散程度。3.

計(jì)算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)【例4.13】為調(diào)查大學(xué)生對(duì)課外培訓(xùn)班所愿意付出的最高費(fèi)用的離散程度,計(jì)算以下數(shù)據(jù)的平均差。表4-13課外培訓(xùn)班費(fèi)用調(diào)查按零件數(shù)分組組中值(Mi)頻數(shù)(fi)|Mi-X||Mi-X|Fi500以下500~800800~11001100~14001400~17001700~20002000以上101215381492合計(jì)—100—表4-13培訓(xùn)班費(fèi)用調(diào)查按零件數(shù)分組組中值(Mi)頻數(shù)(Fi)|Mi-X||Mi-X|Fi500以下500~800800~11001100~14001400~17001700~20002000以上3506509501250155018502150101215381492807507207933936939938070608431053534550262371986合計(jì)—100—34518方差和標(biāo)準(zhǔn)差方差:各變量值與其均值離差平方的平均數(shù)。標(biāo)準(zhǔn)差:方差的平方根1.反映了各變量值與均值的平均差異2.反映出數(shù)據(jù)的離散程度3.最常用的離散程度測(cè)度值4.根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差總體方差和標(biāo)準(zhǔn)差方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式未分組數(shù)據(jù)分組數(shù)據(jù)未分組數(shù)據(jù)分組數(shù)據(jù)樣本方差和標(biāo)準(zhǔn)差方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式未分組數(shù)據(jù)分組數(shù)據(jù)分組數(shù)據(jù)未分組數(shù)據(jù)注意:樣本方差用自由度n-1去除!自由度(degreeoffreedom)1.一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)2.當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí),若樣本均值

x確定后,則附加給n個(gè)觀測(cè)值1個(gè)約束條件,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)不能自由取值?!纠恳晃煌顿Y者有一筆現(xiàn)金可用于投資,現(xiàn)有兩個(gè)投資項(xiàng)目可供選擇。項(xiàng)目A和B有如下資料可供參考。試比較哪個(gè)投資項(xiàng)目較佳?回報(bào)率x(%)可能性(p)預(yù)期回報(bào)率5.56.57.58.50.250.250.250.25合計(jì)1項(xiàng)目A1.3751.6251.8752.1257回報(bào)率x(%)可能性p預(yù)期回報(bào)率456789100.050.10.150.40.150.10.05合計(jì)1項(xiàng)目B0.20.50.92.81.20.90.57解:比較哪個(gè)投資項(xiàng)目較好,要看哪個(gè)項(xiàng)目的預(yù)期回報(bào)率高、風(fēng)險(xiǎn)小。E(x)==7項(xiàng)目B的預(yù)期平均回報(bào)率為

項(xiàng)目A的預(yù)期平均回報(bào)率為E(x)==7項(xiàng)目A的標(biāo)準(zhǔn)差為項(xiàng)目B的標(biāo)準(zhǔn)差為

期望值或平均數(shù)衡量平均回報(bào)率或收益率方差或標(biāo)準(zhǔn)差反映每一個(gè)可能出現(xiàn)的回報(bào)率與平均回報(bào)率的平均差異。

方差或標(biāo)準(zhǔn)差越大,回報(bào)率的變化越大,風(fēng)險(xiǎn)越高;方差或標(biāo)準(zhǔn)差越小,回報(bào)率的變化越小,風(fēng)險(xiǎn)越低;當(dāng)投資回報(bào)率相等時(shí),風(fēng)險(xiǎn)較小的項(xiàng)目為最佳選擇當(dāng)投資回報(bào)率不相等時(shí),通過離散系數(shù)來衡量風(fēng)險(xiǎn)。標(biāo)準(zhǔn)分?jǐn)?shù)1.含義:變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù)。2.計(jì)算公式為3.給出某一個(gè)值在一組數(shù)據(jù)中的相對(duì)位置4. 可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)5. 用于對(duì)變量的標(biāo)準(zhǔn)化處理【例】一家公司在招聘時(shí),要對(duì)應(yīng)聘者進(jìn)行兩項(xiàng)能力測(cè)試。在A項(xiàng)測(cè)試中,平均分?jǐn)?shù)為100分,標(biāo)準(zhǔn)差是15分;在B項(xiàng)測(cè)試中,平均分?jǐn)?shù)是400分,標(biāo)準(zhǔn)差是50分。一位應(yīng)試者在A項(xiàng)測(cè)試中得了115分,在B項(xiàng)測(cè)試中得了425分,與平均分?jǐn)?shù)相比,該應(yīng)試者哪一項(xiàng)測(cè)試更為理想?經(jīng)驗(yàn)法則:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí),約有68%的數(shù)據(jù)在平均數(shù)±1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)在3個(gè)標(biāo)準(zhǔn)差范圍之外的數(shù)據(jù)稱為離群點(diǎn)切比雪夫不等式

適用于任何分布形狀的數(shù)據(jù)根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi),k是大于1的任意值。至少有75%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)在平均數(shù)±4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)離散系數(shù)(變異系數(shù))

離散系數(shù):標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比 計(jì)算公式為◆測(cè)度數(shù)據(jù)離散程度的相對(duì)統(tǒng)計(jì)量◆用于比較不同樣本數(shù)據(jù)離散程度【例】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如下,試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度表4-7某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬元)X1銷售利潤(rùn)(萬元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0X1=536.25(萬元)S1=309.19(萬元)V1=536.25309.19=0.577S2=23.09(萬元)V2=32.521523.09=0.710X2=32.5215(萬元)結(jié)論:計(jì)算結(jié)果表明,V1<V2,說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度表4-8數(shù)據(jù)類型和所適用的離散程度測(cè)度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測(cè)度值※異眾比率※四分位差※方差或標(biāo)準(zhǔn)差—

異眾比率※離散系數(shù)(比較時(shí)用)——

平均差——

極差——

四分位差——

異眾比率4.3偏態(tài)與峰態(tài)的度量——對(duì)分布形狀的測(cè)度

偏態(tài)

未分組

偏態(tài):數(shù)據(jù)分布偏斜程度的測(cè)度偏態(tài)系數(shù)(SK)——測(cè)度偏態(tài)的統(tǒng)計(jì)量

●偏態(tài)系數(shù)=0為對(duì)稱分布

●偏態(tài)系數(shù)>0為右偏分布

●偏態(tài)系數(shù)<0為左偏分布分組--

峰態(tài)峰態(tài):對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)度。峰態(tài)系數(shù)(K)——測(cè)度峰態(tài)的統(tǒng)計(jì)量

K=0時(shí),為正態(tài)分布

K>0時(shí),為尖峰分布

K<0時(shí),為扁平分布本章小結(jié)數(shù)據(jù)的特征和測(cè)度分布的形狀集中趨勢(shì)離散程度眾數(shù)中位數(shù)均值離散系數(shù)方差和標(biāo)準(zhǔn)差峰度四分位差異眾比率偏態(tài)本章主要公式名稱公式眾數(shù)(分組)中位數(shù)四分位數(shù)QL位置=QU位置=簡(jiǎn)單平均數(shù)加權(quán)平均數(shù)幾何平均數(shù)異眾比率四分位差QD=QU

-QLX總體方差總體標(biāo)準(zhǔn)差樣本方差樣本標(biāo)準(zhǔn)差6.1統(tǒng)計(jì)量1.統(tǒng)計(jì)量的形成2.統(tǒng)計(jì)量是樣本X1,X2……Xn的一個(gè)函數(shù)3.統(tǒng)計(jì)量不依賴任何未知參數(shù)4.將一組樣本的具體觀測(cè)值代入統(tǒng)計(jì)量函數(shù),可以計(jì)算出一個(gè)具體的統(tǒng)計(jì)量值。抽樣樣本構(gòu)造函數(shù)次序統(tǒng)計(jì)量定義:設(shè)X1,X2,…,Xn是從總體X中抽出的一個(gè)樣本,X(i)稱為第i個(gè)次序統(tǒng)計(jì)量,它是樣本滿足如下條件的函數(shù):每當(dāng)樣本得到一組觀測(cè)值x1,x2,…,xn時(shí),其由小到大的排序x(1)≤x(2)≤…≤x(i)≤…≤x(n)中,第i個(gè)值x(i)就作為次序統(tǒng)計(jì)量X(i)的觀測(cè)值,而X(1),X(2),…,X(n)稱為次序統(tǒng)計(jì)量。6.2樣本均值的抽樣分布

和中心極限定理1.從一個(gè)總體中隨機(jī)抽出容量相同的各種樣本,從這些樣本計(jì)算出的某統(tǒng)計(jì)量所有可能值的概率分布,稱為這個(gè)統(tǒng)計(jì)量的抽樣分布。

2.設(shè)X1,X2,…,Xn是取自總體X的樣本,樣本均值,所有可能樣本的均值構(gòu)成的概率分布即為樣本均值的抽樣分布。【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4??傮w的均值、方差及分布如下總體分布14230.1.2.3

現(xiàn)從總體中抽取n=2的簡(jiǎn)單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))

計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x所有樣本均值的均值和方差式中:M為樣本均值的個(gè)數(shù)

樣本均值的分布

當(dāng)總體服從正態(tài)分布N~(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值

X也服從正態(tài)分布,

X

的數(shù)學(xué)期望為μ,方差為σ2/n。即

X~N(μ,σ2/n)中心極限定理

設(shè)從均值為

,方差為

2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布。當(dāng)樣本容量足夠大時(shí)(n≥30),樣本均值的抽樣分布逐漸趨于正態(tài)分布標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤差:樣本統(tǒng)計(jì)量與總體參數(shù)之間的平均差異1.所有可能的樣本均值的標(biāo)準(zhǔn)差,測(cè)度所有樣本均值的離散程度2.樣本均值的標(biāo)準(zhǔn)誤差小于總體標(biāo)準(zhǔn)差3.計(jì)算公式為【例】設(shè)從一個(gè)均值μ=8、標(biāo)準(zhǔn)差σ=0.7的總體中隨機(jī)抽取容量為n=49的樣本。要求:(1)計(jì)算樣本均值小于7.9的近似概率(2)計(jì)算樣本均值超過7.9的近似概率(3)計(jì)算樣本均值在總體均值μ=8附近

0.1范圍的近似概率【例】某公司有400人,平均工齡為10年,標(biāo)準(zhǔn)差為3年。隨機(jī)抽出49名組成一個(gè)簡(jiǎn)單隨機(jī)樣本,試問樣本中工作人員的平均年齡不低于9年的概率有多大。解:雖然該總體的分布未知,但樣本容量n=49較大由中心極限定理可知,樣本均值的抽樣分布近似服從正態(tài)分布。則均值的期望均值的標(biāo)準(zhǔn)差=1-Φ(-2.33)=Φ(2.33)=0.99016.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布卡方(c2)分布定義:設(shè)隨機(jī)變量X1,X2,…Xn相互獨(dú)立,且Xi服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則它們的平方和服從自由度為n的c2分布。c2分布的數(shù)學(xué)期望為:E(c2)=nc2分布的方差為:D(c2)=2n當(dāng)自由度n足夠大時(shí),c2分布的概率密度曲線趨于對(duì)稱;當(dāng)n→+∞時(shí),c2分布的極限分布是正態(tài)分布。不同容量樣本的抽樣分布c2n=1n=4n=10n=20t分布和T統(tǒng)計(jì)量1.t分布:設(shè)隨機(jī)變量X~N(0,1),Y~c2(n),且X與Y獨(dú)立,則其分布稱為t分布,記為t(n),其中n為自由度。當(dāng)n≥2時(shí),t分布的E(t)=0當(dāng)n≥3時(shí),t分布的D(t)=n/(n-2)2.T統(tǒng)計(jì)量設(shè)X1,X2,…,Xn是來自正態(tài)總體N~

(μ,σ2)的一個(gè)樣本,稱為T統(tǒng)計(jì)量,它服從自由度為(n-1)的t分布。則F分布定義:設(shè)隨機(jī)變量Y與Z相互獨(dú)立,且Y和Z分別服從自由度為m和n的c2分布,隨機(jī)變量X有如下表達(dá)式:則稱X服從第一自由度為m,第二自由度為n的F分布,記為X~F(m,n)。6.4樣本比例的抽樣分布如果在樣本大小為n的樣本中具有某一特征的個(gè)體數(shù)為X,則樣本比例用p來表示:當(dāng)n充分大時(shí),p近似服從均值為,方差為的正態(tài)分布?!纠恳阎獙?duì)某超市服務(wù)水平不滿意的人數(shù)的比例為5%,現(xiàn)隨機(jī)抽取475名顧客組成的簡(jiǎn)單隨機(jī)樣本,問這475名顧客中不滿意的比例在0.03~0.075之間的概率有多大?解:設(shè)475名顧客中不滿意的比例為p,則

E(p)=0.05,

D(p)=0.05×0.95/475=0.0001p~N(0.05,0.0001)

某醫(yī)院治愈某種疾病的成功率為90%,現(xiàn)從該醫(yī)院治療過該種疾病的患者中隨機(jī)抽取100名,則試計(jì)算這100名患者治愈成功的比例在85%至95%的概率是多少?解:設(shè)100名患者治療成功的比例為p,根據(jù)中心極限定理,p~N(0.9,0.0009)因此,估計(jì)這100名患者治愈成功的比例在85%至95%的概率為90.5%6.5兩個(gè)樣本平均值之差的分布設(shè)是獨(dú)立地抽自總體的一個(gè)容量為n1的樣本的均值。是獨(dú)立地抽自總體的一個(gè)容量為n2的樣本的均值,則有【例】居民區(qū)甲有2000個(gè)家庭,平均居住時(shí)間為130個(gè)月,服從正態(tài)分布,標(biāo)準(zhǔn)差為30個(gè)月;居民區(qū)乙有3000個(gè)家庭,平均居住時(shí)間為120個(gè)月,也服從正態(tài)分布,標(biāo)準(zhǔn)差為35個(gè)月。從兩個(gè)居民區(qū)中獨(dú)立地各自抽取一個(gè)簡(jiǎn)單隨機(jī)樣本,樣本容量為70和100。問居民區(qū)甲樣本中的平均居住時(shí)間超過居民區(qū)乙樣本中的居民平均居住時(shí)間的概率是多大。【例】A班統(tǒng)計(jì)學(xué)考試平均分為75分,分?jǐn)?shù)服從正態(tài)分布,標(biāo)準(zhǔn)差為5分;B班統(tǒng)計(jì)學(xué)考試平均分為72分,也服從正態(tài)分布,標(biāo)準(zhǔn)差為7分?,F(xiàn)在從A、B兩班分別隨機(jī)抽出10名學(xué)生的統(tǒng)計(jì)學(xué)成績(jī),A班10名學(xué)生的統(tǒng)計(jì)學(xué)平均成績(jī)高于B班10名同學(xué)的統(tǒng)計(jì)學(xué)平均成績(jī)的可能性有多大??jī)蓚€(gè)樣本比例之差的分布

設(shè)分別從具有參數(shù)為π1和π2的兩個(gè)總體中抽取包含n1個(gè)觀測(cè)值和n2個(gè)觀測(cè)值的獨(dú)立樣本,當(dāng)n1和n2很大時(shí),(p1-p2)的抽樣分布近似服從正態(tài)分布:統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)7.1參數(shù)估計(jì)1.用樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù)。2.估計(jì)量——用來估計(jì)總體參數(shù)的統(tǒng)計(jì)量估計(jì)值——一個(gè)具體樣本計(jì)算出的統(tǒng)計(jì)量的數(shù)值參數(shù)估計(jì)的方法點(diǎn)估計(jì)區(qū)間估計(jì)二戰(zhàn)中的點(diǎn)估計(jì)—

德軍有多少輛坦克?

二戰(zhàn)期間,盟軍非常想知道德軍總共制造了多少輛坦克。德國(guó)人在制造坦克時(shí)是墨守成規(guī)的,他們把坦克從1開始進(jìn)行了連續(xù)編號(hào)。在戰(zhàn)爭(zhēng)過程中,盟軍繳獲了一些敵軍坦克,并記錄了它們的生產(chǎn)編號(hào)。那么怎樣利用這些號(hào)碼來估計(jì)坦克總數(shù)呢?在這個(gè)問題中,總體參數(shù)是未知的坦克總數(shù)N,而繳獲坦克的編號(hào)則是樣本。

假設(shè)我們是盟軍手下負(fù)責(zé)解決這個(gè)問題的統(tǒng)計(jì)人員。制造出來的坦克總數(shù)肯定大于等于記錄的最大編號(hào)。為了找到它比最大編號(hào)大多少,我們先找到被繳獲坦克編號(hào)的平均值,并認(rèn)為這個(gè)值是全部編號(hào)的中點(diǎn)。因此樣本均值乘以2就是總數(shù)的一個(gè)估計(jì);當(dāng)然要特別假設(shè)繳獲的坦克代表了所有坦克的一個(gè)隨機(jī)樣本。N的另一個(gè)點(diǎn)估計(jì)公式是:N=m(1+1/k)-1

,其中m是繳獲到的最大的坦克編號(hào),k是被俘虜坦克個(gè)數(shù)。假如你俘虜了10輛坦克,其中最大編號(hào)是50,那么坦克總數(shù)的一個(gè)估計(jì)是(1+1/10)50-1=54。此處我們認(rèn)為坦克的實(shí)際數(shù)略大于最大編號(hào)。從戰(zhàn)后發(fā)現(xiàn)的德軍記錄來看,盟軍的估計(jì)值非常接近所生產(chǎn)的坦克的真實(shí)值。記錄仍然表明統(tǒng)計(jì)估計(jì)比通常通過其他情報(bào)方式作出估計(jì)要大大接近于真實(shí)數(shù)目。統(tǒng)計(jì)學(xué)家們做得比間諜們更漂亮!點(diǎn)估計(jì)含義:從總體中抽取一個(gè)樣本,根據(jù)該樣本的統(tǒng)計(jì)量對(duì)總體的未知參數(shù)作出一個(gè)數(shù)值點(diǎn)的估計(jì)。1.點(diǎn)估計(jì)的可靠性用標(biāo)準(zhǔn)誤差來衡量。2.一個(gè)具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性度量區(qū)間估計(jì)含義:在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)取值的一個(gè)區(qū)間范圍。樣本統(tǒng)計(jì)量

(點(diǎn)估計(jì))置信區(qū)間置信下限置信上限1.置信區(qū)間※

由樣本統(tǒng)計(jì)量對(duì)總體參數(shù)進(jìn)行估計(jì)時(shí)的估計(jì)區(qū)間。在某種程度上確信置信區(qū)間中包含總體參數(shù)的真值2.置信水平(置信度、置信系數(shù))※

包含總體參數(shù)真值的置信區(qū)間占所有置信區(qū)間的比例。常用1-α表示置信水平。a.總體參數(shù)的真值是未知的、固定的,構(gòu)造出的置信區(qū)間可能包含真值,也可能不包含真值;

b.設(shè)置信水平為95%,則說明有95%的置信區(qū)間包含總體真值,有5%的置信區(qū)間不包含總體真值。練習(xí)題1.一個(gè)95%的置信區(qū)間是指()

A總體參數(shù)有95%的概率落在這一區(qū)間內(nèi)

B總體參數(shù)有5%的概率落在這一區(qū)間內(nèi)

C在用同樣方法構(gòu)造的總體參數(shù)的多個(gè)區(qū)間中,有95%的區(qū)間包含該總體參數(shù)

D在用同樣方法構(gòu)造的總體參數(shù)的多個(gè)區(qū)間中,有95%的區(qū)間不包含該總體參數(shù)2.根據(jù)一個(gè)具體的樣本求出的總體均值的95%的置信區(qū)間()

A以95%的概率包含總體均值

B有5%的可能性包含總體均值

C一定包含總體均值

D要么包含總體均值,要么不包含總體均值置信水平αα/2Zα/290%95%99%0.100.050.010.050.0250.0051.6451.962.58常用置信水平的臨界值(Zα/2值)評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)1.無偏性2.有效性對(duì)同一總體參數(shù)的兩個(gè)無偏估計(jì)量,標(biāo)準(zhǔn)差越小的估計(jì)量估計(jì)效果越好,稱估計(jì)量越有效。3.一致性隨著樣本量的增大,點(diǎn)估計(jì)量的值越來越接近被估總體的參數(shù)?!腅(θ)=θ7.2一個(gè)總體參數(shù)的區(qū)間估計(jì)7.2.1總體均值的區(qū)間估計(jì)總體均值的置信區(qū)間=樣本均值±邊際誤差總體是否為正態(tài)分布總體方差是否已知樣本是大樣本還是小樣本1.正態(tài)總體,方差已知或非正態(tài)總體、大樣本2.分布未知,方差未知,大樣本3.正態(tài)總體,方差未知,小樣本1.正態(tài)總體,方差已知或非正態(tài)總體、大樣本

樣本均值X~N(μ,σ2/n)總體均值μ在1-α的置信水平下的置信區(qū)間為【例】某廠成批生產(chǎn)某種金屬棒,其長(zhǎng)度服從正態(tài)分布,標(biāo)準(zhǔn)差為0.06厘米,對(duì)一個(gè)由25

根棒組成的隨機(jī)樣本進(jìn)行了測(cè)量,平均長(zhǎng)度為

7.48厘米,求這批金屬棒平均長(zhǎng)度μ的置信度為95%的置信區(qū)間。解:總體服從正態(tài)分布,方差已知,置信度為95%

則z0.025=1.96,在置信度為95%水平下,金屬棒的平均長(zhǎng)度在7.456~7.504厘米之間。【例】某大學(xué)從該校學(xué)生中隨機(jī)抽取100人,調(diào)查到他們平均每天參加體育鍛煉的時(shí)間為26分鐘。試以95%的置信水平估計(jì)該大學(xué)全體學(xué)生平均每天參加體育鍛煉的時(shí)間(已知總體方差為36分鐘)。解:雖然總體分布未知,但總體方差已知,樣本量充分大,

x=26,=6,n=100,Z

/2=1.96在95%的置信水平下估計(jì)大學(xué)生平均每天參加鍛煉的時(shí)間在24.824~27.176分鐘之間。2.方差未知,大樣本(n≥30)總體均值μ在1-α的置信水平下的置信區(qū)間為【例】一家保險(xiǎn)公司收集到由36位投保人組成的隨機(jī)樣本,他們的平均年齡為40歲,標(biāo)準(zhǔn)差為5歲,求這家保險(xiǎn)公司的所有投保人的平均年齡在90%的置信水平下的置信區(qū)間。解:總體的分布未知,總體方差也未知,但所抽樣本容量36為大樣本,因此,求總體均值的置信區(qū)間可用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差置信區(qū)間為:則投保人平均年齡在90%的置信度下的置信區(qū)間為38.63歲-41.37歲。3.

正態(tài)總體、方差未知、小樣本

用樣本方差s2代替總體方差σ2

樣本均值經(jīng)標(biāo)準(zhǔn)化處理后服從自由度為(n-1)的t分布總體均值μ在1-α的置信水平下的置信區(qū)間為【例】某時(shí)裝店的管理人員想估計(jì)其顧客的平均年齡,隨機(jī)抽取了16位顧客進(jìn)行了調(diào)查,得到樣本均值為32歲,樣本標(biāo)準(zhǔn)差為8歲,假定顧客的年齡近似服從正態(tài)分布,求該店全部顧客平均年齡在置信度為95%的置信區(qū)間。解:因?yàn)榭傮w近似服從正態(tài)分布,方差未知,所抽樣本為小樣本,則總體均值的置信區(qū)間為因此,有95%的把握估計(jì)全部顧客平均年齡在27.738至36.262之間。總體分布樣本量σ已知σ未知正態(tài)分布大樣本(n≥30)小樣本(n≤30)非正態(tài)分布大樣本(n≥30)不同情況下總體均值的區(qū)間估計(jì)7.2.2總體比例的區(qū)間估計(jì)當(dāng)樣本為大樣本時(shí),樣本比例p近似服從正態(tài)分布,當(dāng)總體比例π已知時(shí),總體比例π在1-α置信水平下的置信區(qū)間為:

實(shí)際情況中,π值是未知的,要被估計(jì)的,所以需要用樣本比例p來代替π,則總體比例的置信區(qū)間為:【例】某所大學(xué)想要了解應(yīng)屆畢業(yè)生在大四找到工作的學(xué)生中女生所占的比例,隨機(jī)抽取了100名找到工作的應(yīng)屆畢業(yè)生,其中42人為女生。試以95%的置信水平估計(jì)該校找到工作的應(yīng)屆畢業(yè)生中女同學(xué)的比例的置信區(qū)間。解:已知n=100,zα/2=1.96,p=42/100=0.42因此,該校找到工作的應(yīng)屆畢業(yè)生中女同學(xué)的比例為0.323-0.517【例】某企業(yè)在一項(xiàng)關(guān)于職工流動(dòng)原因的研究中,從該企業(yè)前職工的總體中隨機(jī)選取了200人組成一個(gè)樣本。在對(duì)其進(jìn)行訪問時(shí),有140人說他們離開該企業(yè)是由于同管理人員不能融洽相處。試對(duì)由于這種原因而離開該企業(yè)的人員的真正比例構(gòu)造95%的置信區(qū)間。解:已知n=200,=0.7,n=140>5,n(1-)=60>5,=0.95,Z

/2=1.96p

pp

我們可以95%的概率保證該企業(yè)職工由于同管理人員不能融洽相處而離開的比例在63.6%~76.4%之間總體方差的區(qū)間估計(jì)1. 估計(jì)一個(gè)總體的方差或標(biāo)準(zhǔn)差2. 假設(shè)總體服從正態(tài)分布總體方差

2

的點(diǎn)估計(jì)量為s2,且4.總體方差在1-

置信水平下的置信區(qū)間為總體方差的區(qū)間估計(jì)

2

21-

2

總體方差的1-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論