《統(tǒng)計(jì)學(xué)-基于SPSS》(第 5 版) 課件全套 賈俊平 第1-11章 數(shù)據(jù)與統(tǒng)計(jì)學(xué)- 時(shí)間序列預(yù)測(cè)_第1頁(yè)
《統(tǒng)計(jì)學(xué)-基于SPSS》(第 5 版) 課件全套 賈俊平 第1-11章 數(shù)據(jù)與統(tǒng)計(jì)學(xué)- 時(shí)間序列預(yù)測(cè)_第2頁(yè)
《統(tǒng)計(jì)學(xué)-基于SPSS》(第 5 版) 課件全套 賈俊平 第1-11章 數(shù)據(jù)與統(tǒng)計(jì)學(xué)- 時(shí)間序列預(yù)測(cè)_第3頁(yè)
《統(tǒng)計(jì)學(xué)-基于SPSS》(第 5 版) 課件全套 賈俊平 第1-11章 數(shù)據(jù)與統(tǒng)計(jì)學(xué)- 時(shí)間序列預(yù)測(cè)_第4頁(yè)
《統(tǒng)計(jì)學(xué)-基于SPSS》(第 5 版) 課件全套 賈俊平 第1-11章 數(shù)據(jù)與統(tǒng)計(jì)學(xué)- 時(shí)間序列預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩269頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

賈俊平2025/3/19統(tǒng)計(jì)學(xué)—基于SPSS(第5版)

21世紀(jì)統(tǒng)計(jì)學(xué)系列教材課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件SPSS學(xué)分與課時(shí)

3學(xué)分,1~17周,每周3課時(shí)課程簡(jiǎn)介賈俊平2025/3/191.1統(tǒng)計(jì)學(xué)及其應(yīng)用1.2數(shù)據(jù)及其來(lái)源1.3統(tǒng)計(jì)學(xué)與統(tǒng)計(jì)軟件

第1章數(shù)據(jù)與統(tǒng)計(jì)學(xué)問(wèn)題與思考—怎樣理解統(tǒng)計(jì)結(jié)論思考以下問(wèn)題吸煙對(duì)健康是有害的,吸香煙的男性減少壽命2250天不結(jié)婚的男性會(huì)減少壽命3500天,不結(jié)婚的女性會(huì)減少壽命1600天身體超重30%會(huì)使壽命減少1300天每天攝取500毫升維生素C,生命可延長(zhǎng)6年身材高的父親,其子女的身材也較高一項(xiàng)研究表明:杰出科學(xué)家做出重大貢獻(xiàn)的最佳年齡區(qū)在25~45歲之間,其最佳峰值年齡和首次貢獻(xiàn)的最佳成名年齡隨著時(shí)代的變化而逐漸增大上課坐在前面的學(xué)生平均考試分?jǐn)?shù)比坐在后面的學(xué)生高中國(guó)科學(xué)院空間環(huán)境研究預(yù)報(bào)中心的專家稱,在神舟七號(hào)載人航天飛行期間,飛船遭遇空間碎片的概率在百萬(wàn)分之一以下

1.1

統(tǒng)計(jì)學(xué)及其應(yīng)用什么是統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)——收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)描述性方法研究數(shù)據(jù)收集、整理和描述的統(tǒng)計(jì)學(xué)方法描述數(shù)據(jù)特征,找出數(shù)據(jù)的基本規(guī)律內(nèi)容包括:數(shù)據(jù)收集、處理、展示、描述性分析推斷性方法研究如何利用樣本數(shù)據(jù)來(lái)推斷總體特征的統(tǒng)計(jì)學(xué)方法對(duì)總體特征作出推斷內(nèi)容包括:參數(shù)估計(jì)和假設(shè)檢驗(yàn)

1.1

統(tǒng)計(jì)學(xué)及其應(yīng)用統(tǒng)計(jì)學(xué)研究什么統(tǒng)計(jì)學(xué)研究的是來(lái)自各領(lǐng)域的數(shù)據(jù)統(tǒng)計(jì)學(xué)沒(méi)有任何固定的對(duì)象,是一門獨(dú)特的學(xué)問(wèn)用于解決其他領(lǐng)域內(nèi)的問(wèn)題按薩維奇(L.J.Savage)的說(shuō)法:統(tǒng)計(jì)學(xué)基本上是寄生的??垦芯科渌I(lǐng)域內(nèi)的工作而生存。這不是對(duì)統(tǒng)計(jì)學(xué)的輕視,這是因?yàn)閷?duì)很多寄主來(lái)說(shuō),如果沒(méi)有寄生蟲(chóng)就會(huì)死。對(duì)有的動(dòng)物來(lái)說(shuō),如果沒(méi)有寄生蟲(chóng)就不能消化它們的食物。因此,人類奮斗的很多領(lǐng)域,如果沒(méi)有統(tǒng)計(jì)學(xué),雖然不會(huì)死亡,但一定會(huì)變得很弱

1.1

統(tǒng)計(jì)學(xué)的應(yīng)用統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域——幾個(gè)例子【例1-1】——用統(tǒng)計(jì)識(shí)別作者

1787—1788年,三位作者AlexanderHamilton,JohnJay和JamesMadison為了說(shuō)服紐約人認(rèn)可憲法,匿名發(fā)表了著名的85篇論文。這些論文中的大多數(shù)作者已經(jīng)得到了識(shí)別,但是,其中的12篇論文的作者身份引起了爭(zhēng)議通過(guò)對(duì)不同單詞的頻數(shù)進(jìn)行統(tǒng)計(jì)分析,得出的結(jié)論是,JamesMadison最有可能是這12篇論文的作者?,F(xiàn)在,對(duì)于這些存在爭(zhēng)議的論文,認(rèn)為JamesMadison是原創(chuàng)作者的說(shuō)法占主導(dǎo)地位,而且?guī)缀蹩梢钥隙ㄟ@種說(shuō)法是正確

1.1

統(tǒng)計(jì)學(xué)的應(yīng)用統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域——幾個(gè)例子【例1-2】——用簡(jiǎn)單的描述統(tǒng)計(jì)量得到一個(gè)重要發(fā)現(xiàn)費(fèi)舍(R.A.Fisher)在1952的一篇文章中舉了一個(gè)例子,說(shuō)明如何由基本的描述統(tǒng)計(jì)量的知識(shí)引出一個(gè)重要的發(fā)現(xiàn)。20世紀(jì)早期,哥本哈根卡爾堡實(shí)驗(yàn)室的施密特(J.Schmidt)發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚(yú)類的脊椎骨和鰓線的數(shù)量有很大不同;甚至在同一海灣內(nèi)不同地點(diǎn)所捕獲的同種魚(yú)類,也發(fā)現(xiàn)這樣的傾向然而,鰻魚(yú)的脊椎骨的數(shù)量變化不大。施密特從歐洲各地、冰島、亞速爾群島以及尼羅河等幾乎分離的海域里所捕獲的鰻魚(yú)的樣本中,計(jì)算發(fā)現(xiàn)了幾乎一樣的均值和標(biāo)準(zhǔn)偏差值。由此,施密特推斷所有各個(gè)不同海域內(nèi)的鰻魚(yú)是由海洋中某公共場(chǎng)所繁殖的。后來(lái)名為“戴納(Dana)”的科學(xué)考察船在一次遠(yuǎn)征中發(fā)現(xiàn)了這個(gè)場(chǎng)所

1.1

統(tǒng)計(jì)學(xué)的應(yīng)用統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域——幾個(gè)例子

1.1

統(tǒng)計(jì)學(xué)的應(yīng)用統(tǒng)計(jì)學(xué)誤用與濫用統(tǒng)計(jì)濫用不好的樣本或過(guò)小的樣本誤導(dǎo)性圖表局部描述故意曲解統(tǒng)計(jì)應(yīng)用上的兩個(gè)極端——不用或幾乎不用統(tǒng)計(jì);簡(jiǎn)單問(wèn)題復(fù)雜化在統(tǒng)計(jì)應(yīng)用中,這兩個(gè)極端都是不可取的簡(jiǎn)單的方法不一定沒(méi)用,復(fù)雜的方法也不一定有用。正如有的學(xué)者所說(shuō)的,最簡(jiǎn)單的模型往往是最有用的統(tǒng)計(jì)應(yīng)該恰當(dāng)?shù)貞?yīng)用到它能起作用的地方。不能把統(tǒng)計(jì)神秘化,更不能歪曲統(tǒng)計(jì),把統(tǒng)計(jì)作為掩蓋實(shí)事的陷阱

1.2

數(shù)據(jù)及其來(lái)源變量與數(shù)據(jù)——變量及其分類變量(variable)觀察一個(gè)企業(yè)的銷售額,這個(gè)月和上個(gè)月不同;觀察股票市場(chǎng)上漲股票的家數(shù),今天與昨天數(shù)量不一樣;觀察一個(gè)班學(xué)生的生活費(fèi)支出,一個(gè)人和另一個(gè)人不一樣;投擲一枚骰子觀察其出現(xiàn)的點(diǎn)數(shù),這次投擲的結(jié)果和下一次也不一樣“企業(yè)銷售額”、“上漲股票的家數(shù)”、“生活費(fèi)支出”、“投擲一枚骰子出現(xiàn)的點(diǎn)數(shù)”等就是變量數(shù)據(jù)(data)變量的觀測(cè)結(jié)果變量的分類類別變量(定性)無(wú)序類別變量(名義值)有序類別變量(順序值)數(shù)值變量(定量)離散變量(離散值)連續(xù)變量(連續(xù)值)

1.2

數(shù)據(jù)及其來(lái)源變量與數(shù)據(jù)——變量及其分類類別變量(categoricalvariable)取值為事物屬性或類別以及區(qū)間值的變量,也稱分類變量(classifiedvariable)或定性變量(qualitativevariable)比如,觀察人的性別、公司所屬的行業(yè)、用戶對(duì)商品的評(píng)價(jià)時(shí),得到的結(jié)果就不是數(shù)字,而是用法文字表示的類別類別變量根據(jù)取值是否有序分為兩種名義(nominal)值類別變量也稱無(wú)序類別變量,其取值是不可以排序的順序(ordinal)值類別變量也稱有序類別變量,其取值間可以排序數(shù)值變量(metricvariable)取值為數(shù)字的變量,也稱為定量變量(quantitativevariable)數(shù)值型變量根據(jù)其取值的不同,可以分為離散變量(discretevariable)和連續(xù)變量(continuousvariable)離散型變量是只能取有限個(gè)值是變量,而且其取值可以一一列舉。連續(xù)型變量是可以在一個(gè)或多個(gè)區(qū)間中取任何值的變量,它的取值是連續(xù)不斷的,不能一一列舉數(shù)據(jù)(data)變量的觀察結(jié)果二手?jǐn)?shù)據(jù)抽取樣本總體(population):包含所研究的全部個(gè)體(或數(shù)據(jù))的集合樣本(sample):從總體中抽取的一部分元素的集合樣本量(samplesize):構(gòu)成樣本的元素的數(shù)目概率抽樣方法根據(jù)已知的概率抽取樣本元素,也稱隨機(jī)抽樣數(shù)據(jù)的來(lái)源簡(jiǎn)單隨機(jī)抽樣從總體N個(gè)單位(元素)中隨機(jī)地抽取n個(gè)單位作為樣本,使得總體中每一個(gè)元素都有相同的機(jī)會(huì)(概率)被抽中抽取元素的具體方法有放回抽樣和無(wú)放回抽樣分層抽樣將總體單位按某種特征或規(guī)則劃分為不同層,再?gòu)牟煌膶又须S機(jī)地抽取樣本系統(tǒng)抽樣將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個(gè)單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本元素整群抽樣將總體中若干個(gè)單位合并為組(群),抽樣時(shí)直接抽取群,再對(duì)中選群中的所有單位全部實(shí)施調(diào)查

1.2

數(shù)據(jù)及其來(lái)源

SPSS操作第1步:選擇【數(shù)據(jù)】

【選擇個(gè)案】第2步:在【選擇】下點(diǎn)擊【隨機(jī)個(gè)案樣本】

【樣本】第3步:在【樣本大小】

【大約】后寫(xiě)入要抽取的個(gè)案百分比(比如要抽取全部記錄的30%的樣本,則輸入30)。若要抽取指定樣本量的一個(gè)隨機(jī)樣本,則在【正好為】后寫(xiě)入指定的樣本量;在【來(lái)自前】后寫(xiě)入指定從前若干個(gè)記錄中抽取。比如,要在50人里面抽取10人,在【正好為】后寫(xiě)入10,在【來(lái)自前】后寫(xiě)入50。點(diǎn)擊【繼續(xù)】返回主對(duì)話框。單擊【確定】抽取隨機(jī)樣本——SPSS應(yīng)用

1.2

數(shù)據(jù)及其來(lái)源【例1-4】從一個(gè)班級(jí)50個(gè)學(xué)生的名單,采用簡(jiǎn)單隨機(jī)抽樣抽出10個(gè)學(xué)生組成一個(gè)隨機(jī)樣本SPSSR——基于R語(yǔ)言的一種優(yōu)秀的統(tǒng)計(jì)軟件。在CRAN網(wǎng)站/上下載R的各種版本Python——一種面向?qū)ο蟮慕忉屝透呒?jí)編程語(yǔ)言,并擁有豐富而強(qiáng)大的開(kāi)源第三方庫(kù),也具有強(qiáng)大的數(shù)據(jù)分析可視化功能SAS——統(tǒng)計(jì)分析系統(tǒng)(StatisticalAnalysisSystem)的縮寫(xiě)Eviews——EconometricsViews的縮寫(xiě),通常稱為計(jì)量經(jīng)濟(jì)學(xué)軟件包EXCEL——Microsoft公司推出的Office系列產(chǎn)品之一,是一個(gè)功能強(qiáng)大的電子表格軟件常用統(tǒng)計(jì)軟件

1.3

統(tǒng)計(jì)學(xué)與統(tǒng)計(jì)軟件思維導(dǎo)圖描述應(yīng)用推斷統(tǒng)計(jì)方法分類與本書(shū)框架描述方法數(shù)據(jù)分析基礎(chǔ)圖表展示第2章圖表展示統(tǒng)計(jì)量描述第3章概括性度量推斷方法推斷理論與方法推斷理論基礎(chǔ)第4章概率分布估計(jì)原理與方法第5章參數(shù)估計(jì)檢驗(yàn)原理與方法第6章假設(shè)檢驗(yàn)其他方法關(guān)系分析類別變量與類別變量第7章類別變量分析因變量:數(shù)值自變量:類別第8章方差分析因變量:數(shù)值自變量:數(shù)值或類別第9章一元線性回歸第10章多元線性回歸預(yù)測(cè)時(shí)間序列第11章時(shí)間序列預(yù)測(cè)思維導(dǎo)圖統(tǒng)計(jì)方法分類與本書(shū)框架描述方法數(shù)據(jù)分析基礎(chǔ)圖表展示第2章用圖表展示數(shù)據(jù)統(tǒng)計(jì)量描述第3章用統(tǒng)計(jì)量描述數(shù)據(jù)推斷方法統(tǒng)計(jì)方法基礎(chǔ)推斷理論基礎(chǔ)第4章概率分布估計(jì)原理與方法第5章參數(shù)估計(jì)檢驗(yàn)原理與方法第6章假設(shè)檢驗(yàn)其他方法關(guān)系分析類別變量與類別變量第7章類別變量推斷因變量:數(shù)值自變量:類別第8章方差分析與實(shí)驗(yàn)設(shè)計(jì)因變量:數(shù)值自變量:數(shù)值或類別第9章一元線性回歸第10章多元線性回歸預(yù)測(cè)時(shí)間序列第11章時(shí)間序列預(yù)測(cè)非參數(shù)檢驗(yàn)參數(shù)方法不適應(yīng)的情形第12章非參數(shù)檢驗(yàn)THANKSTHEEND2025/3/19THEENDTHANKS統(tǒng)計(jì)聰明使人賈俊平2025/3/19統(tǒng)計(jì)學(xué)—基于SPSS(第5版)賈俊平著中國(guó)人民大學(xué)出版社21世紀(jì)統(tǒng)計(jì)學(xué)系列教材課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件SPSS學(xué)分與課時(shí)

3學(xué)分,1~17周,每周3課時(shí)課程簡(jiǎn)介賈俊平2025/3/192.1生成頻數(shù)分布表2.2用圖表展示類別數(shù)據(jù)2.3用圖表展示數(shù)值數(shù)據(jù)2.4使用圖表的注意事項(xiàng)第2章用圖表展示數(shù)據(jù)問(wèn)題與思考—怎樣用圖表看數(shù)據(jù)思考以下問(wèn)題在2022年2月北京市和張家口市聯(lián)合舉辦的第24屆冬季奧林匹克運(yùn)動(dòng)會(huì)上,獲得金牌前6名的國(guó)家獎(jiǎng)牌數(shù)的分布狀況如下表所示顯然,用這樣的一張表格來(lái)表示獎(jiǎng)牌的分布就要比用文字來(lái)敘述更清晰。但是,如果我們用某種圖形來(lái)表示這些數(shù)據(jù),將會(huì)更加直觀易懂。根據(jù)上面的數(shù)據(jù),你認(rèn)為可以選擇哪些圖形來(lái)展示這6個(gè)國(guó)家所獲得的獎(jiǎng)牌情況?你選擇這些圖形的理由是什么?學(xué)完本章的圖表展示技術(shù),問(wèn)題就會(huì)迎刃而解排名國(guó)家金牌銀牌銅牌合計(jì)1挪威16813372德國(guó)12105273中國(guó)942154美國(guó)8107255瑞典855186荷蘭85417生成頻數(shù)分布表列出各類別計(jì)算各類別的頻數(shù)生成頻數(shù)分布表

2.1

生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表計(jì)算描述統(tǒng)計(jì)量頻數(shù)(frequency):落在各類別中的數(shù)據(jù)個(gè)數(shù)比例(proportion):某一類別數(shù)據(jù)個(gè)數(shù)占全部數(shù)據(jù)個(gè)數(shù)的比值百分比(percentage):將對(duì)比的基數(shù)作為100而計(jì)算的比值比率(ratio):不同類別數(shù)值個(gè)數(shù)的比值只涉及一個(gè)類別變量這個(gè)變量的各類別(取值)可以放在頻數(shù)分布表中“行”的位置,也可以放在“列”的位置將該變量的各類別及其相應(yīng)的頻數(shù)列出來(lái)就是一個(gè)簡(jiǎn)單的頻數(shù)表,也稱為一維列聯(lián)表

2.1

生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——簡(jiǎn)單頻數(shù)表——例題分析【例2-1】為研究人們對(duì)不同類型軟飲料的偏好情況,一家調(diào)查公司在某超市隨機(jī)調(diào)查了50名消費(fèi)者。表2-1是消費(fèi)者性別及其所偏好的飲料類型記錄。生成頻數(shù)分布表,觀察不同性別的消費(fèi)者及其所偏好的飲料類型的分布狀況性別飲料類型性別飲料類型女碳酸飲料女茶類飲料男茶類飲料男礦泉水男礦泉水女茶類飲料女礦泉水女碳酸飲料男碳酸飲料女礦泉水男礦泉水男其他飲料…………男其他飲料女茶類飲料女碳酸飲料女其他飲料男茶類飲料女果汁男茶類飲料男茶類飲料女碳酸飲料女其他飲料男碳酸飲料女礦泉水

2.1

生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——簡(jiǎn)單頻數(shù)表——例題分析【例2-1】SPSS輸出性別

頻率百分比有效百分比累積百分比有效男2244.044.044.0女2856.056.0100.0總計(jì)50100.0100.0

飲料類型

頻率百分比有效百分比累積百分比有效茶類飲料1122.022.022.0果汁612.012.034.0礦泉水1020.020.054.0其他飲料816.016.070.0碳酸飲料1530.030.0100.0總計(jì)50100.0100.0

涉及兩個(gè)類別變量將一個(gè)變量的各類別放在“行”的位置,另一個(gè)變量的各類別放在“列”的位置(行和列可以互換)生成頻數(shù)分布表,這樣表格稱為二維列聯(lián)表(contingencytable),簡(jiǎn)稱列聯(lián)表或交叉表(crosstable)列聯(lián)表主要用于反映兩個(gè)類別變量的交叉頻數(shù)分布狀況

2.1

生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——二維列聯(lián)表

2.1

生成頻數(shù)分布表類別數(shù)據(jù)的頻數(shù)分布表——二維列聯(lián)表——例題分析【例2-2】沿用例2-1。SPSS輸出結(jié)果性別*飲料類型交叉表計(jì)數(shù)

飲料類型總計(jì)茶類飲料果汁礦泉水其他飲料碳酸飲料性別男7162622女4546928總計(jì)1161081550性別*飲料類型交叉表

飲料類型總計(jì)茶類飲料果汁礦泉水其他飲料碳酸飲料性別男計(jì)數(shù)7162622占性別的百分比31.8%4.5%27.3%9.1%27.3%100.0%占飲料類型的百分比63.6%16.7%60.0%25.0%40.0%44.0%占總計(jì)的百分比14.0%2.0%12.0%4.0%12.0%44.0%女計(jì)數(shù)4546928占性別的百分比14.3%17.9%14.3%21.4%32.1%100.0%占飲料類型的百分比36.4%83.3%40.0%75.0%60.0%56.0%占總計(jì)的百分比8.0%10.0%8.0%12.0%18.0%56.0%總計(jì)計(jì)數(shù)1161081550占性別的百分比22.0%12.0%20.0%16.0%30.0%100.0%占飲料類型的百分比100.0%100.0%100.0%100.0%100.0%100.0%占總計(jì)的百分比22.0%12.0%20.0%16.0%30.0%100.0%

2.1

生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——數(shù)據(jù)分組——類別化處理——例題分析【例2-3】

某電商平臺(tái)連續(xù)120天的銷售額數(shù)據(jù)如表所示。生成頻數(shù)分布表觀察銷售額的分布特征272197225183200217210205191186181236172195222253205217224238225198252196201206212237204216199196187239224248218217224234188199216196202181217218188199240200243198193207214203225235191172246208203172206219222220204234207199261207215207209238192161243252203216265222226196212254167200218205215218228233194171203238235209233226229206241203224200208210216223230243

2.1

生成頻數(shù)分布表數(shù)值數(shù)據(jù)的頻數(shù)分布表——數(shù)據(jù)分組——類別化處理——例題分析

銷售額(分箱化)

頻率百分比有效百分比累積百分比有效<=17021.71.71.7171-18043.33.35.0181-19075.85.810.8191-2001714.214.225522.547.5211-2202016.716.764.2221-2301613.313.377.5231-2401310.810.888.3241-25075.85.894.2251-26043.33.397.5261-27021.71.799.2271-2801.8.8100.0總計(jì)120100.0100.0

條形圖(barchart)是用一定寬度的條形來(lái)表示各類別頻數(shù)的圖形,用于觀察不同類別頻數(shù)的多少或分布狀況各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪制的條形圖也稱為柱形圖(columnchart)只有一個(gè)類別變量時(shí),可以繪制簡(jiǎn)單條形圖和帕累托圖,有兩個(gè)類別變量時(shí),可以繪制簇狀條形圖或堆積條形圖

2.2y用圖形展示類別數(shù)據(jù)簡(jiǎn)單條形圖和帕累托圖——簡(jiǎn)單條形圖簡(jiǎn)單條形圖和帕累托圖——簡(jiǎn)單條形圖——例題分析【例2-1】

2.2y用圖形展示類別數(shù)據(jù)簡(jiǎn)單條形圖和帕累托圖——帕累托圖——例題分析【例2-1】帕累托圖(paretoplot)是以意大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名按各類別的頻數(shù)多少降序排列后繪制的條形圖帕累托圖可以看做是簡(jiǎn)單條形圖的一個(gè)變種,利用該圖很容易看出哪類頻數(shù)出現(xiàn)得多,哪類頻數(shù)出現(xiàn)得少

2.2y用圖形展示類別數(shù)據(jù)

簇狀條形圖和堆積條形圖——例題分析【例2-1】當(dāng)有據(jù)兩個(gè)類別變量時(shí),可以將兩個(gè)變量的條形圖以簇狀或堆積的方式繪制,這就是簇狀條形圖和堆積條形圖簇狀條形圖中,一個(gè)類別變量作為坐標(biāo)軸,另一個(gè)類別變量各類別頻數(shù)的條形并列擺放在堆積條形圖中,一個(gè)類別變量作為坐標(biāo)軸,另一個(gè)類別變量各類別的頻數(shù)按比例堆疊在同一個(gè)條中

2.2y用圖形展示類別數(shù)據(jù)餅圖——例題分析【例2-1】餅圖(piechart)是用圓形及圓內(nèi)扇形的角度來(lái)表示一個(gè)樣本(或總體)中各類別的頻數(shù)占總頻數(shù)比例大小的圖形對(duì)于研究結(jié)構(gòu)性問(wèn)題十分有用

2.2y用圖形展示類別數(shù)據(jù)展示數(shù)據(jù)分布——直方圖直方圖——將數(shù)據(jù)分組后,在x軸上用矩形的寬度表示每個(gè)組的組距,在y軸上用矩形的高度表示每個(gè)組的頻數(shù)或密度,多個(gè)矩形并列在一起就是直方圖利用直方圖的形狀可以觀察數(shù)據(jù)分布的特征幾種不同分布形狀的直方圖

2.3y用圖形展示數(shù)值數(shù)據(jù)展示分布分布——直方圖——例題分析【例2-2】

2.3y用圖形展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布——莖葉圖用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹(shù)莖,低位數(shù)字作樹(shù)葉樹(shù)葉上只保留最后一位數(shù)字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒(méi)有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù)

2.3y用圖形展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布——莖葉圖——例題分析【例2-2】圖中的第1列給出每個(gè)莖上葉子的頻數(shù)(顯示為頻率),第2列是“莖”(Stem),第3列是“葉”面列出了銷售額中的一個(gè)極端值(系統(tǒng)自動(dòng)將>=272的數(shù)值定義為極端值),莖的寬度(主干寬度)為10,每個(gè)葉代表一個(gè)數(shù)據(jù)(案例)。圖2-9顯示,銷售額主要集中在200萬(wàn)元到210萬(wàn)元之間,共有27天。莖葉圖類似于橫置的直方圖,它所反映的分布特征也與直方圖基本一致

2.3y用圖形展示數(shù)值數(shù)據(jù)

銷售額莖葉圖

頻率Stem&葉

2.0016.174.0017.12227.0018.113678817.0019.1123456666788999927.0020.00001233333445556667777889920.0021.0022455666677778888916.0022.022234444555668913.0023.03344556788897.0024.01333684.0025.22342.0026.151.00極值(>=272)

主干寬度:10

每個(gè)葉:1個(gè)案展示數(shù)據(jù)分布——箱形圖

箱形圖的示意圖

2.3y用圖形展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布——箱形圖不同分布對(duì)應(yīng)的箱形圖

2.3y用圖形展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布——箱形圖——例題分析【例2-3】

從某大學(xué)的5個(gè)學(xué)院中各隨機(jī)抽取30名學(xué)生,得到英語(yǔ)考試分?jǐn)?shù)的數(shù)據(jù)如表2-8所示。繪制箱線圖分析不同學(xué)院學(xué)生英語(yǔ)考試分?jǐn)?shù)的分布特征

2.3y用圖形展示數(shù)值數(shù)據(jù)經(jīng)濟(jì)學(xué)院法學(xué)院商學(xué)院理學(xué)院統(tǒng)計(jì)學(xué)院74839070787781957374787195808684689175668577606080……………85769383726975867289776678738481769270697969839084展示數(shù)據(jù)分布——箱形圖——例題分析【例2-3】圖中“

”和對(duì)應(yīng)的數(shù)字表示離群點(diǎn)的位置及其數(shù)值。圖3-20顯示,英語(yǔ)分?jǐn)?shù)的整體水平(中位數(shù)或平均數(shù))最高的是商學(xué)院,其次是經(jīng)濟(jì)學(xué)院和統(tǒng)計(jì)學(xué)院(二者差異不大),較低的是法學(xué)院和理學(xué)院(二者差異不大)。從分布形狀看,除統(tǒng)計(jì)學(xué)院外,其他4個(gè)學(xué)院的平均數(shù)都低于中位數(shù),表示英語(yǔ)分?jǐn)?shù)的分布呈現(xiàn)一定的左偏分布,其中,經(jīng)濟(jì)學(xué)院的箱線圖中出現(xiàn)了2個(gè)離群點(diǎn),商學(xué)院出現(xiàn)了1個(gè)離群點(diǎn)(通過(guò)添加數(shù)據(jù)標(biāo)簽可觀察期結(jié)果),統(tǒng)計(jì)學(xué)院的分?jǐn)?shù)則大致對(duì)稱

2.3y用圖形展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布——誤差條形圖——例題分析

2.3y用圖形展示數(shù)值數(shù)據(jù)展示變量間關(guān)系——散點(diǎn)圖及其解讀

2.3y用圖形展示數(shù)值數(shù)據(jù)展示變量間關(guān)系——散點(diǎn)圖和矩陣散點(diǎn)圖【例2-4】

2022年全國(guó)31個(gè)地區(qū)居民人均消費(fèi)支出數(shù)據(jù)。繪制食品煙酒支出和居住的簡(jiǎn)單散點(diǎn)圖以及8項(xiàng)支出的矩陣散點(diǎn)圖

2.3y用圖形展示數(shù)值數(shù)據(jù)地區(qū)食品煙酒衣著居住生活用品及服務(wù)交通通信教育文化娛樂(lè)醫(yī)療保健其他用品及服務(wù)北京9223.21860.817170.32193.34129.33008.03981.51116.8天津9313.11630.47468.11789.03888.62546.03555.51132.9河北6227.61350.94810.51314.52820.81864.32017.3484.3山西5058.21208.73960.81034.22078.21809.01943.6444.0內(nèi)蒙古6269.41546.54836.31225.43457.82111.12262.7589.3遼寧7140.01477.24702.11249.72855.82303.72192.3682.9吉林5466.91158.83636.5871.52389.61848.02067.9458.4黑龍江6362.61358.93969.2948.52618.22103.92524.9525.8上海12653.01716.717073.52128.04529.23099.63616.51229.0江蘇9138.71769.89073.01954.14586.92778.52564.0983.1浙江10931.52098.110557.72312.65823.33549.12533.51165.4安徽7678.81413.34925.11354.42483.82416.51749.6520.3福建9629.11469.58636.81586.93345.62807.21904.7661.9江西6946.21107.05057.41252.02624.12447.51856.0417.9山東6267.51485.94811.51668.23356.12566.22014.6470.3河南5466.91323.34143.51202.92355.92180.11920.1426.8湖北7519.51453.65385.21386.43432.82794.12299.9556.4湖南7046.61366.45038.41490.63135.33250.32295.7459.5廣東11025.81178.38406.21636.04174.33196.31783.0768.8廣西5873.0662.43892.6970.12438.52396.41803.3306.5海南8282.9700.15045.7900.32704.52129.71372.9364.3重慶8599.91698.04782.71656.63078.22585.02350.5620.2四川7738.31316.54361.81465.42806.42005.72105.4502.4貴州5607.11117.13414.31108.82729.82216.21373.7371.8云南6116.9939.64111.11008.12556.42028.01825.2365.4西藏5747.41305.13321.41092.02519.7792.8726.5380.8陜西5594.61171.34524.91254.92455.82001.12400.3445.5甘肅5364.21137.63918.51000.12322.21775.71612.6358.5青海5874.31211.93318.2953.42526.91175.21768.3432.5寧夏5643.91260.83681.81220.02719.02129.82067.2413.8新疆5765.31186.03303.41009.22357.01495.41968.5842.3展示變量間關(guān)系——散點(diǎn)圖和矩陣散點(diǎn)圖【例2-4】

2.3y用圖形展示數(shù)值數(shù)據(jù)展示樣本相似性的圖形——平行坐標(biāo)圖——例題分析平行坐標(biāo)圖(parallelcoordinateplot)也稱多線圖或輪廓圖(outlineplot),它用x軸表示各變量,用y軸表示變量的數(shù)值(x軸和y軸可以互換),將同一樣本在不同變量上的觀測(cè)值用折線連接起來(lái)就是平行坐標(biāo)圖觀察平行坐標(biāo)圖中各折線的形狀及其排列方式,可以比較各樣本在多個(gè)變量上取值的相似性及差異【例2-4】

2.3y用圖形展示數(shù)值數(shù)據(jù)展示時(shí)間序列——折線圖和面積圖——例題分析折線圖是描述時(shí)間序列最基本的圖形,它主要用于觀察和分析時(shí)間序列隨時(shí)間變化的形態(tài)和模式。折線圖的x軸是時(shí)間,y軸是變量的觀測(cè)值面積圖是在折線圖的基礎(chǔ)上繪制的,它將折線與x軸之間的區(qū)域用顏色填充,填充的區(qū)域即為面積。面積圖不僅美觀,而且能更好地展示時(shí)間序列變化的特征和模式。將多個(gè)時(shí)間序列繪制在一幅圖中時(shí),序列數(shù)不宜太多,否則圖形之間會(huì)有相互遮蓋,看起來(lái)會(huì)很亂。當(dāng)序列較多時(shí),可以將每個(gè)序列單獨(dú)繪制一幅圖【例2-5】

2000年—2023年我國(guó)城鎮(zhèn)居民和農(nóng)村居民的人均可支配收入如表2-10所示。繪制折線圖和面積圖分析居民消費(fèi)水平的變化特征

2.3y用圖形展示數(shù)值數(shù)據(jù)年份城鎮(zhèn)居民人均可支配收入村居民人均可支配收入年份城鎮(zhèn)居民人均可支配收入村居民人均可支配收入20006256228220122412783892001682424072013264679430200276522529201428844104892003840626902015311951142220049335302720163361612363200510382337020173639613432200611620373120183925114617200713603432720194235916021200815549499920204383417131200916901543520214741218931201018779627220224928320133201121427739420235182121691展示時(shí)間序列——折線圖和面積圖——例題分析【例2-5】

2.3y用圖形展示數(shù)值數(shù)據(jù)2000——2023年,無(wú)論是城鎮(zhèn)居民還是農(nóng)村居民,人均可支配收入都有逐年增長(zhǎng)的趨勢(shì),而城鎮(zhèn)居民人均可支配收入各年均高于農(nóng)村居民,而且,隨著時(shí)間的推移二者的差距有進(jìn)一步擴(kuò)大的趨勢(shì)注意事項(xiàng)——圖形標(biāo)題主標(biāo)題圖形標(biāo)題有主標(biāo)題、副標(biāo)題、坐標(biāo)軸標(biāo)題(標(biāo)簽)、圖例標(biāo)題等主標(biāo)題是指一幅圖的總標(biāo)題,它主要用于注釋圖形的內(nèi)容,一般包括圖中數(shù)據(jù)所屬的時(shí)間(when)、地點(diǎn)(where)和內(nèi)容(what)3個(gè)要素坐標(biāo)軸標(biāo)題也稱坐標(biāo)軸標(biāo)簽,用于說(shuō)明坐標(biāo)軸代表的變量名稱,以便于閱讀和理解坐標(biāo)軸標(biāo)題除給出變量名稱外,還應(yīng)給出數(shù)據(jù)的計(jì)量單位(主要是針對(duì)數(shù)值)如果在上下文中給出了原始數(shù)據(jù)及其計(jì)量單位的信息,為使圖形更簡(jiǎn)潔,也可以省略計(jì)量單位,否則,數(shù)據(jù)的計(jì)量單位就是必須的

2.4y使用圖表的注意事項(xiàng)標(biāo)題解析圖(a)主標(biāo)題只有編號(hào),沒(méi)有內(nèi)容,沒(méi)有坐標(biāo)軸標(biāo)題圖(b)主標(biāo)題沒(méi)有給出時(shí)間和地點(diǎn)信息,不知道是哪個(gè)地區(qū)的地區(qū)生產(chǎn)總值,也不知道是什么時(shí)間的地區(qū)生產(chǎn)總值;y軸標(biāo)題沒(méi)有計(jì)量單位,無(wú)法理解數(shù)據(jù)的含義圖(c)主標(biāo)題只給出了地區(qū)信息,但沒(méi)給出時(shí)間信息,不知道是什么時(shí)間的地區(qū)生產(chǎn)總值;二是y軸標(biāo)題沒(méi)有計(jì)量單位,同樣難以理解圖(d)是一幅完整的規(guī)范圖形,主標(biāo)題給出時(shí)間、地點(diǎn)和內(nèi)容信息,y軸標(biāo)題給出了計(jì)量單位,這樣的圖形就很容易理解

2.4y使用圖表的注意事項(xiàng)注意事項(xiàng)——圖形標(biāo)題使用線性標(biāo)尺的坐標(biāo)軸繪圖,數(shù)軸的數(shù)值起點(diǎn)應(yīng)從0開(kāi)始條形圖的y軸須從0開(kāi)始,時(shí)間序列圖的y軸可根據(jù)需要確定2023年1月~12月某地區(qū)居民消費(fèi)價(jià)格指數(shù)的折線圖

2.4y使用圖表的注意事項(xiàng)注意事項(xiàng)——坐標(biāo)軸刻度起點(diǎn)二維圖形是由4個(gè)點(diǎn)構(gòu)成的一個(gè)矩形(當(dāng)然有些圖形也可以畫(huà)出正方形如果把x軸定義為寬度(width),y軸定義為高度(height),圖形寬度和高度的比例大致為10:7或4:3從視覺(jué)效果看,這樣的圖形比例能夠更合理地展示數(shù)據(jù),也易于對(duì)圖形的解讀,過(guò)寬或過(guò)高的圖形都有可能歪曲數(shù)據(jù),給人留下錯(cuò)誤的印象2000~2023年我國(guó)發(fā)電量的折線圖

2.4y使用圖表的注意事項(xiàng)注意事項(xiàng)——圖形比例思維導(dǎo)圖可視化數(shù)據(jù)的圖表展示生成頻數(shù)表類別數(shù)據(jù)簡(jiǎn)單頻數(shù)表二維列聯(lián)表數(shù)值數(shù)據(jù)類別化分組表展示類別數(shù)據(jù)觀察頻數(shù)簡(jiǎn)單條形圖帕累托圖簇狀條形圖堆積條形圖觀察頻數(shù)構(gòu)成餅圖展示數(shù)值數(shù)據(jù)展示數(shù)據(jù)分布直方圖莖葉圖箱線圖誤差條形圖展示變量間關(guān)系散點(diǎn)圖矩陣散點(diǎn)圖展示樣本相似性平行坐標(biāo)圖展示時(shí)間序列折線圖面積圖注意事項(xiàng)THANKSTHEEND2025/3/19THEENDTHANKS一圖千言勝過(guò)賈俊平2025/3/19統(tǒng)計(jì)學(xué)—基于SPSS(第5版)賈俊平著中國(guó)人民大學(xué)出版社21世紀(jì)統(tǒng)計(jì)學(xué)系列教材課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件SPSS學(xué)分與課時(shí)

3學(xué)分,1~17周,每周3課時(shí)課程簡(jiǎn)介賈俊平2025/3/193.1水平的描述3.2差異的描述3.3分布形狀的描述3.4數(shù)據(jù)的綜合描述

第3章數(shù)據(jù)的描述性分析:概括性度量問(wèn)題與思考—如何分析空氣質(zhì)量思考以下問(wèn)題空氣質(zhì)量由空氣質(zhì)量指數(shù)(AirQualityIndex,AQI)用描述,其數(shù)值越大,說(shuō)明空氣污染越嚴(yán)重。參與空氣質(zhì)量評(píng)價(jià)的主要污染物有細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧濃度(O3)等6項(xiàng)。根據(jù)空氣質(zhì)量指數(shù)將空氣質(zhì)量分為6級(jí):優(yōu)(0~50)、良(51~100)、輕度污染(101~150)、中度污染(151~200)、重度污染(201~300)、嚴(yán)重污染(300以上);分別用綠色(green)、黃色(yellow)、橙色(orange)、紅色(red)、紫色(purple)、褐紅色(maroon)表示。下表是2024年3月1日—3月31日北京市的空氣質(zhì)量數(shù)據(jù)何分析這些數(shù)據(jù)呢?我們可以用直方圖、莖葉圖或箱線圖等來(lái)描述AQI的分布狀況,比如,分布是否對(duì)稱等。除此之外,還可以做哪些分析?你認(rèn)為可以用哪些統(tǒng)計(jì)量來(lái)描述考試成績(jī)?這些統(tǒng)計(jì)量的用途是什么?選擇這些統(tǒng)計(jì)量的理由是什么?本章介紹的描述性分析方法就將解決這些問(wèn)題日期AQI質(zhì)量等級(jí)日期AQI質(zhì)量等級(jí)2024/3/137優(yōu)2024/3/1743優(yōu)2024/3/275良2024/3/18108輕度污染2024/3/356良2024/3/1970良2024/3/456良2024/3/2055良2024/3/577良2024/3/2183良2024/3/646優(yōu)2024/3/2265良2024/3/750優(yōu)2024/3/2377良2024/3/840優(yōu)2024/3/2484良2024/3/961良2024/3/2580良2024/3/10113輕度污染2024/3/26110輕度污染2024/3/1170良2024/3/27142輕度污染2024/3/1249優(yōu)2024/3/28199中度污染2024/3/1361良2024/3/2998良2024/3/1462良2024/3/3050優(yōu)2024/3/15109輕度污染2024/3/3183良2024/3/1695良

3.1

水平的描述平均數(shù)

簡(jiǎn)單平均數(shù)加權(quán)平均數(shù)

平均數(shù)——例題分析【例3-1】

在某年級(jí)中隨機(jī)抽取30名學(xué)生,得到每名學(xué)生的統(tǒng)計(jì)學(xué)考試分?jǐn)?shù)如表4-1所示。計(jì)算30名學(xué)生考試分?jǐn)?shù)的平均數(shù)

3.1

水平的描述859783616786559270868175915596868991668772925082799090859566

分位數(shù)——中位數(shù)——例題分析分位數(shù)——一組數(shù)據(jù)按從小到大排序后,可以找出排在某個(gè)位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水平的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)。常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等中位數(shù)——排序后處于中間位置上的值。不受極端值影響位置確定數(shù)值計(jì)算

3.1

水平的描述分位數(shù)——四分位數(shù)——例題分析四分位數(shù)——一組數(shù)據(jù)排序后處在25%和75%位置上的數(shù)值它是用3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。中間的四分位數(shù)就是中位數(shù),通常所說(shuō)的四分位數(shù)是指處在25%位置上和75%位置上的兩個(gè)數(shù)值位置確定

3.1

水平的描述分位數(shù)——百分位數(shù)——例題分析百分位數(shù)——用99個(gè)點(diǎn)將數(shù)據(jù)分成100等份,處在各分位點(diǎn)上的數(shù)值就是百分位數(shù)百分位數(shù)提供了各項(xiàng)數(shù)據(jù)在最小值和最大值之間分布的信息位置確定

3.1

水平的描述

計(jì)算分位數(shù)第1步:選擇【分析】

【描述統(tǒng)計(jì)—頻率】。第2步:在出現(xiàn)的對(duì)話框中,將要分析的變量(如分?jǐn)?shù))選入【變量】,然后點(diǎn)擊【統(tǒng)計(jì)】。第3步:在出現(xiàn)的對(duì)話框中,若只計(jì)算中位數(shù)和四分位數(shù),選中【四分位數(shù)】即可;若要計(jì)算其他百分位數(shù),在【百分位數(shù)】框內(nèi)寫(xiě)入要計(jì)算的百分位數(shù)(如計(jì)算第10個(gè)百分位數(shù),則輸入10,要計(jì)算第90個(gè)百分位數(shù),則輸入90等等)并依次單擊【增加】。其他統(tǒng)計(jì)量可根據(jù)需要選擇。然后點(diǎn)擊【繼續(xù)】,點(diǎn)擊【確定】。(注:如果選中【分割點(diǎn)】,在框內(nèi)輸入要分割的分位點(diǎn)(默認(rèn)按10進(jìn)行等分),可以得到各分位數(shù)。)眾數(shù)——各統(tǒng)計(jì)量的比較眾數(shù)——一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù)適合于數(shù)據(jù)量較多時(shí)使用實(shí)際中很少使用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實(shí)際中最常用數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好

3.1

水平的描述極差和四分位差

3.2

差異的描述

方差和標(biāo)準(zhǔn)差——例題分析方差——各變量值與均值的平均差異標(biāo)準(zhǔn)差——上四分位數(shù)與下四分位數(shù)之差

樣本標(biāo)準(zhǔn)差s

3.2

差異的描述

變異系數(shù)——例題分析變異系數(shù)——標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較計(jì)算公式為【例3-6】

為分析不同行業(yè)上市公司每股收益的差異,在互聯(lián)網(wǎng)服和機(jī)械制造板塊各隨機(jī)抽取10家上市公司,得到某年度的每股收益數(shù)據(jù)如表3-3所示。計(jì)算變異系數(shù),比較兩類上市公司每股收益的離散程度

3.2

差異的描述互聯(lián)網(wǎng)公司機(jī)械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.85標(biāo)準(zhǔn)分?jǐn)?shù)——例題分析標(biāo)準(zhǔn)分?jǐn)?shù)——也稱標(biāo)準(zhǔn)化值對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用于對(duì)變量的標(biāo)準(zhǔn)化處理計(jì)算公式為【例3-7】

沿用例3-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)

3.2

差異的描述0.37841.28650.2270-1.4378-0.98380.4540-1.89190.9081-0.75670.45400.0757-0.37840.8324-1.89191.21080.45400.68110.8324-1.05940.5297-0.60540.9081-2.27020.1513-0.07570.75670.75670.37841.1351-1.0594標(biāo)準(zhǔn)分?jǐn)?shù)——經(jīng)驗(yàn)法則與切比雪夫不等式——判斷數(shù)據(jù)的離群點(diǎn)經(jīng)驗(yàn)法則——當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)切比雪夫不等式——如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)對(duì)于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)

3.2

差異的描述偏度系數(shù)

3.3

分布形狀的度量

計(jì)算公式

峰度系數(shù)峰度(kurtosis)——指數(shù)據(jù)分布峰值的高低由統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出峰度系數(shù)—測(cè)度一組數(shù)據(jù)分布峰值高低的統(tǒng)計(jì)量是(coefficientofkurtosis),記作K

3.3

分布形狀的度量計(jì)算公式

數(shù)據(jù)的綜合描述——例題分析

3.4

數(shù)據(jù)的綜合描述【例3-8】

沿用例3-6。計(jì)算互聯(lián)網(wǎng)公司和機(jī)械制造公司每股盈的描述統(tǒng)計(jì)量,并進(jìn)行綜合分析

計(jì)算描述統(tǒng)計(jì)量第1步:選擇【分析】

【描述統(tǒng)計(jì)-頻率】。第2步:將用于描述的變量選入【變量】;點(diǎn)擊【統(tǒng)計(jì)】,選擇所需要的描述統(tǒng)計(jì)量。點(diǎn)擊【繼續(xù)】回到主對(duì)話框。點(diǎn)擊【確定】。(注:使用【分析】

【描述統(tǒng)計(jì)-描述】或【分析】

【描述統(tǒng)計(jì)-探索】也可以得到所需的描述統(tǒng)計(jì)量。幾種方式輸出的統(tǒng)計(jì)量多少略有差異。統(tǒng)計(jì)

互聯(lián)網(wǎng)公司機(jī)械制造公司個(gè)案數(shù)有效1010缺失00平均值1.1360.5240中位數(shù)1.2650.5100眾數(shù)1.38.03a標(biāo)準(zhǔn)偏差.35500.34082偏度-.876-.120偏度標(biāo)準(zhǔn)誤差.687.687峰度-.179-1.051峰度標(biāo)準(zhǔn)誤差1.3341.334范圍1.11.95最大值1.57.98總和11.365.24百分位數(shù)25.8525.2725501.2650.5100751.3850.8750a.存在多個(gè)眾數(shù)。顯示了最小的值。直方圖分析數(shù)據(jù)的綜合描述——例題分析【例3-9】在某大學(xué)隨機(jī)抽取60個(gè)大學(xué)生,調(diào)查得到他們的性別、家庭所在地和月生活費(fèi)支出(單位:元)的數(shù)據(jù)如表3-7所示。對(duì)調(diào)查數(shù)據(jù)進(jìn)行綜合分析。性別家庭所在地月生活費(fèi)支出性別家庭所在地月生活費(fèi)支出女中小城市1500女鄉(xiāng)鎮(zhèn)地區(qū)1850男大型城市2000女鄉(xiāng)鎮(zhèn)地區(qū)2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860

……

……

女中小城市1600男鄉(xiāng)鎮(zhèn)地區(qū)1500男大型城市1300男大型城市2000女大型城市1800男大型城市1900女大型城市1550女大型城市2300男中小城市1350女中小城市1900

3.4

數(shù)據(jù)的綜合描述數(shù)據(jù)的綜合描述——例題分析——分類描述

3.4

數(shù)據(jù)的綜合描述

用【均值】過(guò)程進(jìn)行分類描述第1步:選擇【分析】

【比較平均值

平均值】。第2步:在出現(xiàn)的對(duì)話框中,將用月生活費(fèi)支出變量選入【因變量列表】;將性別和家庭所在地選入【自變量列表】。點(diǎn)擊【選項(xiàng)】。將所需要的描述統(tǒng)計(jì)量從【統(tǒng)計(jì)】列表中選入【單元格統(tǒng)計(jì)】。點(diǎn)擊【繼續(xù)】回到主對(duì)話框。點(diǎn)擊【確定】月生活費(fèi)支出*性別月生活費(fèi)支出

性別平均值個(gè)案數(shù)標(biāo)準(zhǔn)偏差最小值最大值范圍偏度男1701.2025275.48911002000900-.549女1891.7135331.152130028001500.503總計(jì)1812.3360320.996110028001700.316月生活費(fèi)支出*家庭所在地月生活費(fèi)支出

家庭所在地平均值個(gè)案數(shù)標(biāo)準(zhǔn)偏差最小值最大值范圍偏度大型城市1848.8526364.135110028001700.321鄉(xiāng)鎮(zhèn)地區(qū)1757.0010236.03413002000700-1.053中小城市1795.8324308.657130023601060.269總計(jì)1812.3360320.996110028001700.316數(shù)據(jù)的綜合描述——例題分析——分類描述

3.4

數(shù)據(jù)的綜合描述

用【探索】分析進(jìn)行分類描述第1步:選擇【分析】

【描述統(tǒng)計(jì)—探索】。第2步:在出現(xiàn)的對(duì)話框中,將用月生活費(fèi)支出變量選入【因變量列表】;將性別和家庭所在地選入【因子列表】。點(diǎn)擊【繪制】選擇所需的圖形。點(diǎn)擊【確定】。計(jì)統(tǒng)量描述思維導(dǎo)圖數(shù)據(jù)的概括性度量水平的描述平均數(shù)分位數(shù)中位數(shù)四分位數(shù)百分位數(shù)眾數(shù)差異的描述極差和四分位差方差和標(biāo)準(zhǔn)差離散系數(shù)標(biāo)準(zhǔn)分?jǐn)?shù)分布形狀的描述偏度系數(shù)峰度系數(shù)THANKSTHEEND2025/3/19THEENDTHANKS概括數(shù)據(jù)特征度量賈俊平2025/3/19統(tǒng)計(jì)學(xué)—基于SPSS(第5版)賈俊平著中國(guó)人民大學(xué)出版社21世紀(jì)統(tǒng)計(jì)學(xué)系列教材課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件SPSS學(xué)分與課時(shí)

3學(xué)分,1~17周,每周3課時(shí)課程簡(jiǎn)介賈俊平2025/3/194.1什么是概率4.2隨機(jī)變量概率分布4.3樣本統(tǒng)計(jì)量的概率分布

第4章隨機(jī)變量的概率分布問(wèn)題與思考—彩票中獎(jiǎng)的可能性有多大思考以下問(wèn)題很多想在彩票市場(chǎng)上賺大錢,這可以理解,但贏得大獎(jiǎng)的人總是少數(shù)。山東的一打工者為了碰運(yùn)氣,半個(gè)小時(shí)花去了1000元錢,買了500張即開(kāi)型福利彩票,結(jié)果也沒(méi)撞上大獎(jiǎng)。有人曾做過(guò)統(tǒng)計(jì),最賺錢的彩票,中彩的概率最高是500萬(wàn)分之一,有的達(dá)到1000萬(wàn)分之一甚至更低假定每張彩票面值是2元,大獎(jiǎng)的獎(jiǎng)金額是500萬(wàn)元,中將概率是500萬(wàn)分之一,你花掉1000萬(wàn)元購(gòu)買500萬(wàn)張彩票,即使中了500萬(wàn)的大獎(jiǎng),你仍然虧損500萬(wàn)。況且,從概率的意義上看,即使你購(gòu)買500萬(wàn)張彩票,也不能肯定就中大獎(jiǎng)法國(guó)人就有這樣的俗語(yǔ):“中彩的機(jī)會(huì)比空難還少?!睂?duì)于多數(shù)人來(lái)說(shuō),彩票只是一種數(shù)字游戲,是社會(huì)籌集閑散資金的一種方式,而不是一種投資,更不是賭博。相信有了本章介紹的概率方面的知識(shí),你就不會(huì)再跟彩票較勁如何來(lái)分析這些數(shù)據(jù)呢?除此圖表外,還可以做哪些分析?你認(rèn)為可以用哪些統(tǒng)計(jì)量來(lái)描述考試成績(jī)?這些統(tǒng)計(jì)量的用途是什么?選擇這些統(tǒng)計(jì)量的理由是什么?本章介紹的描述性分析方法就將解決這些問(wèn)題

4.1

什么是概率概率

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概括性度量——隨機(jī)變量事先不知道會(huì)出現(xiàn)什么結(jié)果,一般用

X,Y,Z

來(lái)表示投擲兩枚硬幣出現(xiàn)正面的數(shù)量一座寫(xiě)字樓,每平方米的出租價(jià)格一個(gè)消費(fèi)者對(duì)某一特定品牌飲料的偏好離散型隨機(jī)變量隨機(jī)變量X取有限個(gè)值或所有取值都可以逐個(gè)列舉出來(lái)以確定的概率取這些不同的值連續(xù)型隨機(jī)變量可以取一個(gè)或多個(gè)區(qū)間中任何值所有可能取值不可以逐個(gè)列舉出來(lái),而是取數(shù)軸上某一區(qū)間內(nèi)的任意點(diǎn)

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概括性度量——離散型——期望值和方差

【例4-1】一家手機(jī)制造商聲稱,它們所生產(chǎn)的手機(jī)100個(gè)中擁有次品的個(gè)數(shù)及相應(yīng)的概率如下表所示。求該手機(jī)次品數(shù)的期望值和標(biāo)準(zhǔn)差次品數(shù)X=xi0123概率P(X=xi)

pi0.750.120.080.05example4_1<-read.csv("C:/example/ch4/example4_1.csv")mymean<-sum(example4_1$次品數(shù)*example4_1$概率)mymean

myvar<-sum((example4_1$次品數(shù)-mymean)^2*example4_1$概率)myvarsqrt(myvar)

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概括性度量——連續(xù)型——期望值和方差期望值方差

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——離散型

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——離散型——二項(xiàng)分布二項(xiàng)分布建立在Bernoulli試驗(yàn)基礎(chǔ)上貝努里試驗(yàn)滿足下列條件一次試驗(yàn)只有兩個(gè)可能結(jié)果,即“成功”和“失敗”“成功”是指我們感興趣的某種特征一次試驗(yàn)“成功”的概率為p,失敗的概率為q=1-p,且概率p對(duì)每次試驗(yàn)都是相同的試驗(yàn)是相互獨(dú)立的,并可以重復(fù)進(jìn)行n次在n次試驗(yàn)中,“成功”的次數(shù)對(duì)應(yīng)一個(gè)離散型隨機(jī)變量X

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——離散型——二項(xiàng)分布——概率計(jì)算【例4-2】已知一批產(chǎn)品的次品率為6%,從中有放回地抽取5個(gè)。求5個(gè)產(chǎn)品中:(1)沒(méi)有次品的概率(2)恰好有1個(gè)次品的概率(3)有3個(gè)及3個(gè)以下次品的概率

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布連續(xù)型隨機(jī)變量可以取某一區(qū)間或整個(gè)實(shí)數(shù)軸上的任意一個(gè)值它取任何一個(gè)特定的值的概率都等于0不能列出每一個(gè)值及其相應(yīng)的概率通常研究它取某一區(qū)間值的概率用概率密度函數(shù)的形式和分布函數(shù)的形式來(lái)描述正態(tài)分布由C.F.高斯(CarlFriedrichGauss,1777—1855)作為描述誤差相對(duì)頻數(shù)分布的模型而提出描述連續(xù)型隨機(jī)變量的最重要的分布許多現(xiàn)象都可以由正態(tài)分布來(lái)描述可用于近似離散型隨機(jī)變量的分布,如二項(xiàng)分布經(jīng)典統(tǒng)計(jì)推斷的基礎(chǔ)概率密度函數(shù)

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布正態(tài)分布圖形是關(guān)于x=

對(duì)稱鐘形曲線,且峰值在x=

處均值

和標(biāo)準(zhǔn)差

一旦確定,分布形式也惟一確定,不同參數(shù)正態(tài)分布構(gòu)成一個(gè)完整的“正態(tài)分布族”均值

可取實(shí)數(shù)軸上的任意數(shù)值,決定正態(tài)曲線的具體位置;標(biāo)準(zhǔn)差決定曲線的“陡峭”或“扁平”程度。

越大,正態(tài)曲線扁平;

越小,正態(tài)曲線越高陡峭X的取值向橫軸左右兩個(gè)方向無(wú)限延伸,曲線的兩個(gè)尾端也無(wú)限漸近橫軸,理論上永遠(yuǎn)不會(huì)與之相交在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1不同均值和標(biāo)準(zhǔn)差對(duì)應(yīng)的正態(tài)曲線

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布任何一個(gè)一般的正態(tài)分布,可通過(guò)下面的線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)常用區(qū)間的正態(tài)概率

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布——概率計(jì)算

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布——數(shù)據(jù)的正態(tài)性評(píng)估

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——連續(xù)型——正態(tài)分布——數(shù)據(jù)的正態(tài)性評(píng)估直方圖與正態(tài)概率圖的比較

4.2

隨機(jī)變量的概率分布隨機(jī)變量的概率分布——數(shù)據(jù)的正態(tài)性評(píng)估——例題分析【例4-4】根據(jù)第3章例3-9中的數(shù)據(jù)繪制正態(tài)概率圖,判斷大學(xué)生的月生活費(fèi)支出是否服從正態(tài)分布

繪制正態(tài)概率圖第1步:選擇【分析】

【描述統(tǒng)計(jì)】

【Q-Q圖】(或選擇【P-P】圖)。第2步:在出現(xiàn)的對(duì)話框中,將繪圖變量選入【變量】。點(diǎn)擊【確定】

4.2

隨機(jī)變量的概率分布其他幾個(gè)重要的統(tǒng)計(jì)分布——連續(xù)型——卡方分布

不同自由度的的卡方分布的圖像

4.2

隨機(jī)變量的概率分布其他幾個(gè)重要的統(tǒng)計(jì)分布——連續(xù)型——卡方分布——例題分析【例4-5】計(jì)算:(1)自由度為15,值小于10的概率;(2)自由度為15,值大于20的概率;(3)自由度為15,分布右尾概率為0.05時(shí)的反函數(shù)值(在估計(jì)和檢驗(yàn)中稱為臨界解:(1)由SPSS函數(shù)【CDF.CHISQ(quant,df)】得:CDF.CHISQ(10,15)=0.180260(2)由SPSS函數(shù)【CDF.CHISQ(quant,df)】或函數(shù)【SIG.CHISQ(quant,df)】得1-(CDF.CHISQ(20,15))=SIG.CHISQ(20,15)=0.171933(3)由SPSS函數(shù)【IDF.CHISQ(prob,df)】得:IDF.CHISQ(0.95,15)=24.995790。

4.2

隨機(jī)變量的概率分布其他幾個(gè)重要的統(tǒng)計(jì)分布——連續(xù)型——t分布

T分布與標(biāo)準(zhǔn)正態(tài)分布曲線的比較【例4-6】計(jì)算:(1)自由度為10,值小于-2的概率;(2)自由度為10,值大于3的概率;(3)自由度為10,分布雙尾概率為0.05時(shí)的值解:(1)由SPSS函數(shù)【CDF.T(quant,df)】得:CDF.T(-2,10)=0.036694。(2)由SPSS函數(shù)【CDF.T(quant,df)】得:1-CDF.T(3,10)=.006672。(2)由SPSS函數(shù)【IDF.Tprob,df)】得:IDF.T(0.025,10)=-2.228139。

4.2

隨機(jī)變量的概率分布其他幾個(gè)重要的統(tǒng)計(jì)分布——連續(xù)型——F分布

不同自由度的F分布【例4-7】計(jì)算:(1)分子自由度為10,分母自由度為8,值小于3的概率;(2)分子自由度為10,分母自由度為8,值大于2.5的概率;(3)分子自由度為10,分母自由度為8,分布累積概率為0.95時(shí)的值。解:(1)由SPSS函數(shù)【CDF.F(quant,df1,df2)】得:CDF.F(3,10,8)=0.933549(2)由SPSS函數(shù)【CDF.F(quant,df1,df2)】或函數(shù)【SIG.F(quant,df1,df2)】得:1-CDF.F(2.5,10,8)=SIG.F(2.5,10,8)=0.103594(3)由SPSS函數(shù)【IDF.F(prob,df1,df2)】得:IDF.F(0.95,10,8)=3.347163。

4.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論