版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論第三章數(shù)據(jù)的描述在對數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象。可以借助于圖形和簡單的運(yùn)算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個(gè)近似的描述。§3.1如何用圖來表示數(shù)據(jù)?§3.1.1定量變量的圖表示:1.直方圖對于一個(gè)定量變量,比如某個(gè)地區(qū)(地區(qū)1)測量了163個(gè)高三男生的身高(S3height1.txt)。用圖形來表示這個(gè)數(shù)據(jù),使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或“形狀”的一個(gè)辦法是畫直方圖(histogram)。圖3.1就是利用這個(gè)數(shù)據(jù)由SPSS軟件所畫的直方圖。該圖的橫坐標(biāo)是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而縱坐標(biāo)為各種身高區(qū)間的身高的頻數(shù)。
直方圖§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個(gè)是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個(gè)地區(qū)(地區(qū)2)的高三學(xué)生的身高(height.txt,height.sav,第三章例.xls)。盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點(diǎn));按照SPSS的默認(rèn)選項(xiàng),如果所有樣本中的數(shù)目都在離四分位點(diǎn)1.5倍盒子長度之內(nèi),則線的端點(diǎn)為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨(dú)點(diǎn)出§3.1.1定量變量的圖表示:3.莖葉圖
在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復(fù)數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個(gè)數(shù)字001223344代表九個(gè)數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個(gè)頻數(shù)(比如第一行有9個(gè)數(shù)目,第二行有17個(gè)等等);可以看出最長的一行為從165cm到169cm的一段(有35個(gè)數(shù))?!?.1.1定定量量變量量的圖圖表示示:4.散散點(diǎn)圖圖數(shù)據(jù)會(huì)會(huì)有兩兩個(gè)變變量,,如美美國男男士和和女士士初婚婚年限限數(shù)據(jù)據(jù)(marriage.txt))。該數(shù)據(jù)據(jù)描述述了自自1900年到到1998年男男女第第一次次婚姻姻延續(xù)續(xù)的時(shí)時(shí)間。。這里年年份是是一個(gè)個(gè)變量量,婚婚姻延延續(xù)時(shí)時(shí)間是是第二二個(gè)變變量。。由于于不可可能將將所有有人的的婚姻姻年限限都給給出來來,所所以每每年就就取了了一個(gè)個(gè)中間間的值值(中中位數(shù)數(shù))作作為代代表。。散點(diǎn)圖圖§3.1.2定定性性變量量的圖圖表示示:餅餅圖定性變變量((或?qū)賹傩宰冏兞?,,分類類變量量)不不能點(diǎn)點(diǎn)出直直方圖圖、散散點(diǎn)圖圖或莖莖葉圖圖,但但可以以描繪繪出它它們各各類的的比例例。下面用用SPSS繪的的圖3.5(餅圖圖,piechart)表示了了說世世界各各種主主要語語言人人數(shù)的的比例例(language.txt).餅圖§3.1.2定定性性變量量的圖圖表示示:條條形圖圖而用同同樣數(shù)數(shù)據(jù)畫畫的圖圖3.6稱稱為條形圖圖(barchart)。從每一一條可可以看看出講講各種種語言言的實(shí)實(shí)際人人數(shù),,而且且分別別給出出了每每個(gè)語語種中中母語語和日日常使使用的的人數(shù)數(shù)(在在圖中中并排排放置置)。。條形形圖顯顯示比比例不不如餅餅圖直直觀。。條形圖圖§3.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?大量的的數(shù)字字既繁繁瑣又又不直直觀;;需要要對數(shù)數(shù)據(jù)做做人們們時(shí)間間和耐耐心所所允許許的簡簡化我們可可以用用““平均均”,,“差差距””或百百分比比等來來概括括大量量數(shù)字字。由于定定性變變量主主要是是計(jì)數(shù)數(shù),比比較簡簡單,,常用用的概概括就就是比比例或或百分分比。。下面面主要要介紹紹關(guān)于于定量量變量量的數(shù)數(shù)字描描述。?!?.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?可用少少量所所謂匯匯總統(tǒng)統(tǒng)計(jì)量量或概括統(tǒng)統(tǒng)計(jì)量量(summarystatistic)來描述述定量量變量量的數(shù)數(shù)據(jù)。。這些數(shù)數(shù)字是是從樣樣本數(shù)數(shù)據(jù)得得來的的,因因而也也是樣樣本的的函數(shù)數(shù),任何樣樣本的的函數(shù)數(shù),只只要不不包含含總體體的未未知參參數(shù),,都稱稱為統(tǒng)計(jì)量量(statistic)。樣本的的隨機(jī)機(jī)性決決定統(tǒng)統(tǒng)計(jì)量量的隨隨機(jī)性性(統(tǒng)統(tǒng)計(jì)量量也是是隨機(jī)機(jī)變量量)§3.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?概括統(tǒng)統(tǒng)計(jì)量量經(jīng)常常對應(yīng)應(yīng)于總總體的的無法法觀測測到的的某些些參數(shù)數(shù)。這時(shí),,統(tǒng)計(jì)計(jì)量可可作為為這些些參數(shù)數(shù)的估估計(jì)。。一些些統(tǒng)計(jì)計(jì)量還還可以以用來來檢驗(yàn)驗(yàn)樣本本和假假設(shè)的的總體體是否否一致致。§3.2如如何何用少少量數(shù)數(shù)字來來概括括數(shù)據(jù)據(jù)?注:一些統(tǒng)統(tǒng)計(jì)量量前面面有時(shí)時(shí)加上上“樣樣本””二字字,以以區(qū)別別于總總體的的同名名參數(shù)數(shù)。如如“樣樣本均均值””和““樣本本標(biāo)準(zhǔn)準(zhǔn)差””,以以區(qū)別別于總總體均均值和和總體體標(biāo)準(zhǔn)準(zhǔn)差;;但在在不會(huì)會(huì)混淆淆時(shí)可可以只只說““均值值”和和“標(biāo)標(biāo)準(zhǔn)差差”。。§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”數(shù)據(jù)有有位置置嗎??這里三三個(gè)數(shù)數(shù)據(jù)的的位置置一樣樣嗎??§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”“位置置”一一般是是關(guān)于于數(shù)據(jù)據(jù)中某某變量量觀測測值的的“中中心位位置””或者者數(shù)據(jù)據(jù)分布布的中中心((center或centertendency)。。和這種種“位位置””有關(guān)關(guān)的統(tǒng)統(tǒng)計(jì)量量就稱稱為位置統(tǒng)統(tǒng)計(jì)量量(locationstatistic)。位置統(tǒng)統(tǒng)計(jì)量量當(dāng)然然不一一定都都是描描述““中心心”了了,比比如后后面要要講的的k百百分位位數(shù)((或k%分分位數(shù)數(shù))。。§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”最常用用的位位置統(tǒng)統(tǒng)計(jì)量量就是是小學(xué)學(xué)時(shí)所所學(xué)到到的算算術(shù)平平均數(shù)數(shù),它它在統(tǒng)統(tǒng)計(jì)中中叫做做均值值(mean);嚴(yán)嚴(yán)格地地說叫叫做樣樣本均均值(samplemean),以以區(qū)別別于總總體均均值。。如果記記樣本本中的的觀測測值為為x1,…,xn,則樣樣本均均值定定義為為(樣本本)中中位數(shù)數(shù)(median)是是數(shù)據(jù)據(jù)按照照大小小排列列之后后位于于中間間的那那個(gè)數(shù)數(shù)(如如果樣樣本量量為奇奇數(shù)),或或者中中間兩兩個(gè)數(shù)數(shù)目的的平均均(如如果樣樣本量量為偶偶數(shù))。由于中中位數(shù)數(shù)不易易被極極端值值影響響,所所以中中位數(shù)數(shù)比均均值穩(wěn)穩(wěn)健(robust)。?!?.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”上下四四分位位數(shù)(或分分別稱稱為第一四四分位位數(shù)和和第三三四分分位數(shù)數(shù),firstquantile,thirdquantile))則分別別位于于(按按大小小排列列的))數(shù)據(jù)據(jù)的上上下四四分之之一的的地方方。§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”§3.2.1數(shù)數(shù)據(jù)據(jù)的““位置置”一般地地還稱稱上四四分位位數(shù)為為75百百分位位數(shù)((75pecentile,有75%%的觀觀測值值小于于它)),下下四分分位數(shù)數(shù)為25百百分位位數(shù)(有25%%的觀觀測值值小于于它))。一般地地,k百分分位數(shù)數(shù)(k-pecentile)意味味著有有k%%的觀觀測值值小于于它。。如果令令a=k%,則k百百分位位數(shù)也也稱為為a分位數(shù)數(shù)(a-quantile)。。樣本中中出現(xiàn)現(xiàn)最多多的數(shù)數(shù)目,,稱為為眾數(shù)(mode)§3.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”這兩個(gè)個(gè)數(shù)據(jù)據(jù)“胖胖瘦””一樣樣嗎??§3.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”數(shù)據(jù)中中數(shù)目目的分分散程程度由由尺度統(tǒng)統(tǒng)計(jì)量量(scalestatistic)來描述述。尺度統(tǒng)統(tǒng)計(jì)量量是描描述數(shù)數(shù)據(jù)散散布,,即描描述集集中與與分散散程度度或變變化((spread或variability)的的度量量?!?.2.2數(shù)數(shù)據(jù)據(jù)的““尺度度”從前面面兩個(gè)個(gè)高三三男生生身高高數(shù)據(jù)據(jù)的盒盒形圖圖。左左邊的的數(shù)據(jù)據(jù)平均均要高高些,,但右右邊的的數(shù)據(jù)據(jù)散布布范圍圍要小小得多多。統(tǒng)計(jì)中有許許多尺度統(tǒng)統(tǒng)計(jì)量。一一般來說,,數(shù)據(jù)越分分散,尺度度統(tǒng)計(jì)量的的值越大。。§3.2.2數(shù)據(jù)據(jù)的“尺度度”極差(range);就是極大大值和極小小值之間的的差。前面兩個(gè)高高三男生身身高數(shù)據(jù)的的極差分別別為50cm和32cm。盒形圖盒子子的長度為為兩個(gè)四分分位數(shù)之差差,稱為四分位數(shù)極極差或四分分位間距(interquantilerange);它描述了了中間半數(shù)數(shù)觀測值的的散布情況況。極差和和四分位極極差實(shí)際上上各自只依依賴于兩個(gè)個(gè)值,信息息量太少。。§3.2.2數(shù)據(jù)據(jù)的“尺度度”另一個(gè)常用用的尺度統(tǒng)統(tǒng)計(jì)量為((樣本)標(biāo)準(zhǔn)差(standarddeviation)。度量樣本本中各數(shù)值值到均值距距離的一種種平均。標(biāo)準(zhǔn)差實(shí)際際上是方差(variance)的平方根。。如果記樣樣本中的觀觀測值為x1,…,xn,則樣本方方差為§3.2.2數(shù)據(jù)據(jù)的“尺度度”兩個(gè)均值一一樣,但右右邊的要““胖”些,,方差為左左邊的一倍倍§3.2.3數(shù)據(jù)據(jù)的標(biāo)準(zhǔn)得得分假定兩個(gè)水水平類似的的班級(jí)(一一班和二班班)上同一一門課,但是由于兩兩個(gè)任課老老師的評(píng)分分標(biāo)準(zhǔn)不同同,使得兩兩個(gè)班成績績的均值和和標(biāo)準(zhǔn)差都都不一樣(數(shù)據(jù):grade.txt)。§3.2.3數(shù)據(jù)據(jù)的標(biāo)準(zhǔn)得得分一班分?jǐn)?shù)的的均值和標(biāo)標(biāo)準(zhǔn)差分別別為78.53和9.43,,而二班的的均值和標(biāo)標(biāo)準(zhǔn)差分別別為70.19和7.00。。那么得到90分的一一班的張穎穎是不是比比得到82分的二班班的劉疏成成績更好呢呢?怎么比比較才能合合理呢?§3.2.3數(shù)據(jù)據(jù)的標(biāo)準(zhǔn)得得分雖然這種均均值和標(biāo)準(zhǔn)準(zhǔn)差不同的的數(shù)據(jù)不能能夠直接比比較,但是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年臺(tái)安縣教育系統(tǒng)面向師范類院校應(yīng)屆畢業(yè)生校園招聘13人備考題庫及參考答案詳解
- 廣州市天河區(qū)靈秀小學(xué)2025年12月公開招聘編外聘用制專任教師二次延遲備考題庫及參考答案詳解一套
- 2025年九江一中招聘備考題庫完整參考答案詳解
- 2025年西安交通大學(xué)第一附屬醫(yī)院胸外科招聘派遣制助理醫(yī)生備考題庫含答案詳解
- 2025年中建三局北京公司總部職能管理崗位校園招聘備考題庫及參考答案詳解一套
- 2025年廣州市花都區(qū)華僑初級(jí)中學(xué)招聘備考題庫有答案詳解
- 2025年保山市隆陽區(qū)蒲縹鎮(zhèn)中心衛(wèi)生院公開招聘見習(xí)人員、鄉(xiāng)村醫(yī)生備考題庫及答案詳解1套
- 儋州市教育局2025年赴高校公開(考核)招聘中學(xué)教師備考題庫(一)及參考答案詳解1套
- 觀賞魚飼養(yǎng)技巧題庫及答案
- 2025年新余燃?xì)庥邢薰竟ぷ魅藛T面向江投集團(tuán)內(nèi)部公開招聘備考題庫帶答案詳解
- 南網(wǎng)綜合能源公開招聘筆試題庫2025
- 漢語水平考試HSK四級(jí)真題4-真題-無答案
- 銀行金融消費(fèi)者權(quán)益保護(hù)工作測試題及答案
- 2025年c2安全員考試題庫
- GB/T 22080-2025網(wǎng)絡(luò)安全技術(shù)信息安全管理體系要求
- 監(jiān)理公司檢查管理制度
- 國家開放大學(xué)《管理英語3》期末機(jī)考題庫
- 氯堿行業(yè)企業(yè)安全生產(chǎn)隱患排查治理體系實(shí)施指南
- 《孝南區(qū)國土空間總體規(guī)劃(2021-2035年)》
- 【MOOC期末】《大學(xué)體育-棒壘球》(東南大學(xué))期末考試慕課答案
- 山東青島市市南區(qū)城市發(fā)展有限公司及全資子公司招聘筆試題庫2025
評(píng)論
0/150
提交評(píng)論