統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論(人大吳喜之老師課件)03數(shù)據(jù)的描述.ppt_第1頁
統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論(人大吳喜之老師課件)03數(shù)據(jù)的描述.ppt_第2頁
統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論(人大吳喜之老師課件)03數(shù)據(jù)的描述.ppt_第3頁
統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論(人大吳喜之老師課件)03數(shù)據(jù)的描述.ppt_第4頁
統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論(人大吳喜之老師課件)03數(shù)據(jù)的描述.ppt_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學(xué),從數(shù)據(jù)到結(jié)論,第三章數(shù)據(jù)的描述,在對數(shù)據(jù)進行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象。 可以借助于圖形和簡單的運算,來了解數(shù)據(jù)的一些特征。 由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述。,3.1 如何用圖來表示數(shù)據(jù)?,3.1.1 定量變量的圖表示:1.直方圖,對于一個定量變量,比如某個地區(qū)(地區(qū)1)測量了163個高三男生的身高(S3height1.txt)。 用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”的一個辦法是畫直方圖(histogram)。 圖3.1就是利用這個數(shù)據(jù)由SPSS軟件所畫的直方圖。,該圖的橫坐標是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而縱坐標為各種身高區(qū)間的身高的頻數(shù)。,直方圖,3.1.1 定量變量的圖表示:2.盒型圖,簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。 圖3.2的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)2)的高三學(xué)生的身高(height.txt,height.sav,第三章例.xls)。,盒型圖,盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點);按照SPSS的默認選項,如果所有樣本中的數(shù)目都在離四分位點1.5倍盒子長度之內(nèi),則線的端點為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出,3.1.1 定量變量的圖表示:3.莖葉圖,在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leaf plots)可以恢復(fù)數(shù)據(jù) 以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。,莖葉圖,其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數(shù)字001223344代表九個數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數(shù))。,3.1.1 定量變量的圖表示:4.散點圖,數(shù)據(jù)會有兩個變量,如美國男士和女士初婚年限數(shù)據(jù)(marriage.txt)。 該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時間。 這里年份是一個變量,婚姻延續(xù)時間是第二個變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取了一個中間的值(中位數(shù))作為代表。,散點圖,3.1.2 定性變量的圖表示:餅圖,定性變量(或?qū)傩宰兞?,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例。 下面用SPSS繪的圖3.5(餅圖,pie chart)表示了說世界各種主要語言人數(shù)的比例(language.txt).,餅圖,3.1.2 定性變量的圖表示:條形圖,而用同樣數(shù)據(jù)畫的圖3.6稱為條形圖(bar chart)。 從每一條可以看出講各種語言的實際人數(shù),而且分別給出了每個語種中母語和日常使用的人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀。,條形圖,3.2 如何用少量數(shù)字來概括數(shù)據(jù)?,大量的數(shù)字既繁瑣又不直觀;需要對數(shù)據(jù)做人們時間和耐心所允許的簡化 我們可以用 “平均”,“差距”或百分比等來概括大量數(shù)字。 由于定性變量主要是計數(shù),比較簡單,常用的概括就是比例或百分比。下面主要介紹關(guān)于定量變量的數(shù)字描述。,3.2 如何用少量數(shù)字來概括數(shù)據(jù)?,可用少量所謂匯總統(tǒng)計量或概括統(tǒng)計量(summary statistic)來描述定量變量的數(shù)據(jù)。 這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù), 任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計量(statistic)。 樣本的隨機性決定統(tǒng)計量的隨機性(統(tǒng)計量也是隨機變量),3.2 如何用少量數(shù)字來概括數(shù)據(jù)?,概括統(tǒng)計量經(jīng)常對應(yīng)于總體的無法觀測到的某些參數(shù)。 這時,統(tǒng)計量可作為這些參數(shù)的估計。一些統(tǒng)計量還可以用來檢驗樣本和假設(shè)的總體是否一致。,3.2 如何用少量數(shù)字來概括數(shù)據(jù)?,注:一些統(tǒng)計量前面有時加上“樣本”二字,以區(qū)別于總體的同名參數(shù)。如“樣本均值”和“樣本標準差”,以區(qū)別于總體均值和總體標準差;但在不會混淆時可以只說“均值”和“標準差”。,3.2.1 數(shù)據(jù)的“位置”,數(shù)據(jù)有位置嗎?,這里三個數(shù)據(jù)的位置一樣嗎?,3.2.1 數(shù)據(jù)的“位置”,“位置”一般是關(guān)于數(shù)據(jù)中某變量觀測值的“中心位置”或者數(shù)據(jù)分布的中心(center或center tendency)。 和這種“位置”有關(guān)的統(tǒng)計量就稱為位置統(tǒng)計量(location statistic)。 位置統(tǒng)計量當然不一定都是描述“中心”了,比如后面要講的k百分位數(shù)(或k分位數(shù))。,3.2.1 數(shù)據(jù)的“位置”,最常用的位置統(tǒng)計量就是小學(xué)時所學(xué)到的算術(shù)平均數(shù),它在統(tǒng)計中叫做均值(mean);嚴格地說叫做樣本均值(sample mean),以區(qū)別于總體均值。 如果記樣本中的觀測值為x1,xn,則樣本均值定義為,(樣本)中位數(shù)(median) 是數(shù)據(jù)按照大小排列之后位于中間的那個數(shù)(如果樣本量為奇數(shù)),或者中間兩個數(shù)目的平均(如果樣本量為偶數(shù))。 由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)。,3.2.1 數(shù)據(jù)的“位置”,上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),first quantile, third quantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方。,3.2.1 數(shù)據(jù)的“位置”,3.2.1 數(shù)據(jù)的“位置”,一般地還稱上四分位數(shù)為75百分位數(shù)(75 pecentile,有75的觀測值小于它),下四分位數(shù)為25百分位數(shù)(有25的觀測值小于它)。 一般地,k百分位數(shù)(k-pecentile)意味著有k的觀測值小于它。 如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。 樣本中出現(xiàn)最多的數(shù)目,稱為眾數(shù)(mode),3.2.2 數(shù)據(jù)的“尺度”,這兩個數(shù)據(jù)“胖瘦”一樣嗎?,3.2.2 數(shù)據(jù)的“尺度”,數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計量(scale statistic)來描述。 尺度統(tǒng)計量是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)的度量。,3.2.2 數(shù)據(jù)的“尺度”,從前面兩個高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。,統(tǒng)計中有許多尺度統(tǒng)計量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計量的值越大。,3.2.2 數(shù)據(jù)的“尺度”,極差(range);就是極大值和極小值之間的差。 前面兩個高三男生身高數(shù)據(jù)的極差分別為50cm和32cm。 盒形圖盒子的長度為兩個四分位數(shù)之差,稱為四分位數(shù)極差或四分位間距(interquantile range);它描述了中間半數(shù)觀測值的散布情況。極差和四分位極差實際上各自只依賴于兩個值,信息量太少。,3.2.2 數(shù)據(jù)的“尺度”,另一個常用的尺度統(tǒng)計量為(樣本)標準差(standard deviation)。度量樣本中各數(shù)值到均值距離的一種平均。 標準差實際上是方差(variance)的平方根。如果記樣本中的觀測值為x1,xn,則樣本方差為,3.2.2 數(shù)據(jù)的“尺度”,兩個均值一樣,但右邊的要“胖”些,方差為左邊的一倍,3.2.3 數(shù)據(jù)的標準得分,假定兩個水平類似的班級(一班和二班)上同一門課, 但是由于兩個任課老師的評分標準不同,使得兩個班成績的均值和標準差都不一樣(數(shù)據(jù):grade.txt)。,3.2.3 數(shù)據(jù)的標準得分,一班分數(shù)的均值和標準差分別為78.53和9.43,而二班的均值和標準差分別為70.19和7.00。 那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢?怎么比較才能合理呢?,3.2.3 數(shù)據(jù)的標準得分,雖然這種均值和標準差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進行標準化,再比較標準化后的數(shù)據(jù)。 一個標準化的方法是把某樣本原始觀測值(亦稱得分,score)和該樣本均值之差除以該樣本的標準差;得到的度量稱為標準得分(standard score,又稱為z-score)。,3.2.3 數(shù)據(jù)的標準得分,即,某觀測值xi的標準得分定義為,3.2.3 數(shù)據(jù)的標準得分,在我們的例子中,張穎的標準得分為(90-78.53)/9.431.22,而劉疏的標準得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論