《數(shù)據(jù)的基本分析》PPT課件.ppt_第1頁
《數(shù)據(jù)的基本分析》PPT課件.ppt_第2頁
《數(shù)據(jù)的基本分析》PPT課件.ppt_第3頁
《數(shù)據(jù)的基本分析》PPT課件.ppt_第4頁
《數(shù)據(jù)的基本分析》PPT課件.ppt_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章數(shù)據(jù)的基本分析,本章提要,算術(shù)平均數(shù)和幾何平均數(shù)的計(jì)算 算術(shù)平均數(shù)的性質(zhì) 極差、方差和標(biāo)準(zhǔn)差的計(jì)算 方差與標(biāo)準(zhǔn)差之間的關(guān)系 標(biāo)準(zhǔn)差的性質(zhì),第一節(jié) 平均數(shù)的計(jì)算,平均值(mean、average)觀測(cè)值的平均水平和集中趨勢(shì)的表示 常用的平均值有: 算術(shù)平均數(shù) 幾何平均數(shù) 調(diào)和平均數(shù) 眾數(shù) 中位數(shù) 百分位數(shù) 在本專業(yè)的統(tǒng)計(jì)和日常工作中,以算術(shù)平均值和幾何平均值最為常見,使用最頻繁 調(diào)和平均數(shù)一般用在速度類問題方面 眾數(shù)、中位數(shù)由于計(jì)算工具的改進(jìn)已用得不多,算術(shù)平均數(shù)(arithmetic mean)是最常用的平均值,簡(jiǎn)稱為平均值,或均值 算術(shù)平均數(shù)有兩種計(jì)算方法: 1、直接法,2、加權(quán)法 在

2、次數(shù)分布表或資料分類的基礎(chǔ)上進(jìn)行計(jì)算,用加權(quán)法計(jì)算得的算術(shù)平均值稱加權(quán)平均值(weighted mean) 或: 加權(quán)法第二式中的 是頻數(shù): 而,加權(quán)平均值用 表示,在很多情況下, 與算術(shù)平均值 不一定相等,特別是當(dāng)我們用組距式分組法中每一組的組中值作為每一組的組平均值 時(shí)更是如此 直接法所得到的平均值有兩個(gè)基本性質(zhì): 1、離均差之和為零,用公式表示,即 2、離均差平方和為最小,即 其中, 為不等于 的任意一個(gè)數(shù):,用直接法所得到的算術(shù)平均值的這兩個(gè)基本性質(zhì)很重要,同學(xué)們可以自己加以證明 需要指出的是,加權(quán)平均值不具有這兩個(gè)基本性質(zhì) 對(duì)于總體來說,我們通常用 表示其平均數(shù) 當(dāng)總體為有限,且總體

3、容量為 時(shí),總體平均值的計(jì)算公式為: 但一般情況下,總體平均值總是未知的,需要用樣本平均值來進(jìn)行估計(jì),因此,樣本的代表性就顯得尤為重要,幾何平均值(geometric mean)主要用于非線性數(shù)據(jù)的統(tǒng)計(jì)分析,如增長(zhǎng)率、疫病的潛伏期、藥物效價(jià)、抗體滴度等的平均值 幾何平均值用 表示: 在實(shí)際計(jì)算時(shí)可將其轉(zhuǎn)換為對(duì)數(shù)形式進(jìn)行計(jì)算: 分組資料幾何平均值的計(jì)算公式為:,算術(shù)平均數(shù)一般用在加性(additive)資料、或稱線性(linear)資料中 所謂加性資料或線性資料是指這些資料是可加的,或每一個(gè)數(shù)據(jù)可分解成若干個(gè)可加的部分,如人體和動(dòng)物體的身高、體重等外形性狀,人類和家畜的生理、生化數(shù)值等,這些資料

4、一般服從或近似服從正態(tài)分布 幾何平均數(shù)一般用在非加性(non-additive)或非線性(non-linear)資料中,如平均增長(zhǎng)率、藥物或疫苗的平均效價(jià)、抗體滴度等,調(diào)和平均值(harmonic mean)一般用在平均速度、“有效群體”、平均樣本量等方面 其公式為:,第二節(jié) 變異數(shù)的概念及計(jì)算,用一個(gè)平均值作為資料特征值進(jìn)行統(tǒng)計(jì)描述是不夠的,還需要有表示數(shù)據(jù)離散程度描述的統(tǒng)計(jì)量 常用來表示變異數(shù)的計(jì)算 變異數(shù)(variable)觀測(cè)值離散程度的表示,用來表示平均值代表性的強(qiáng)弱 變異數(shù)大,說明數(shù)據(jù)離散程度大,平均值的代表性差;反之,變異數(shù)小,說明數(shù)據(jù)離散程度小,平均值的代表性好 因此,僅數(shù)據(jù)離

5、散性的變異數(shù)有以下幾個(gè): 極差 方差 標(biāo)準(zhǔn)差,極差(range R ) 將資料中的最大值數(shù)據(jù)減去最小值數(shù)據(jù),即為極差 顯然,一批數(shù)據(jù)不管其樣本量有多大,計(jì)算極差總是只用兩個(gè)值,一個(gè)最大值,一個(gè)最小值,其余數(shù)據(jù)都沒有用上,因此這是不合理的,也沒有統(tǒng)計(jì)學(xué)意義,樣本與樣本的離散程度也無法進(jìn)行比較,如以下兩個(gè)樣本: 23,25,26,31,45,47,48 其極差為 25 23,32,32,34,36,36,48 其極差為 25,顯然第一個(gè)樣本的離散程度比第二個(gè)樣本要來得大,但僅從極差上是看不出來的,因?yàn)閮蓚€(gè)樣本的極差都等于25,方差(variance V s2 ) 合理的方法應(yīng)當(dāng)使某一個(gè)數(shù)據(jù)都參與到

6、計(jì)算離差的過程中去,將某一個(gè)數(shù)據(jù)均與平均值相比較,即某一個(gè)數(shù)據(jù)均與平均值相減 顯然有多少個(gè)數(shù)據(jù),就有多少個(gè)差值,且這些差值之和必為 0(算術(shù)平均數(shù)的第一個(gè)性質(zhì)) 將這些差值平方以后再相加,得到一個(gè)值 這個(gè)值不會(huì)等于 0,且由于各個(gè)差值都平方了,其中離平均值較遠(yuǎn)的數(shù)值在表現(xiàn)離差時(shí)的作用更明顯了,但由于每個(gè)樣本在很多情況下不會(huì)一樣大,因此應(yīng)將這一平方和(SS)平均一下,以利于比較 如上例的兩批數(shù)據(jù): 23,25,26,31,45,47,48 其平均值為 35 離均差平方和為 SS754,用自由度平均一下,得125.667 23,32,34,34,37,37,48 其平均值為35 離均差平方和為 S

7、S332,用自由度平均一下,得55.333 顯然第二個(gè)樣本較第一個(gè)樣本要集中一些,125.667 為第一個(gè)樣本的方差值(S2) 55.333 為第二個(gè)樣本的方差值(S2) 方差值是平方以后的值,因此使用中不太方便,標(biāo)準(zhǔn)差(standard deviation) 將方差開一下平方根,得 上例中,第一個(gè)樣本的標(biāo)準(zhǔn)差為 11.21 第二個(gè)樣本的標(biāo)準(zhǔn)差為 7.44 標(biāo)準(zhǔn)差由于已經(jīng)過了開平方,其單位與平均數(shù)是一致的,因此標(biāo)準(zhǔn)差是統(tǒng)計(jì)學(xué)中經(jīng)常使用的一個(gè)值 得到平均值和標(biāo)準(zhǔn)差后,這批數(shù)據(jù)可以用下式來表示: 總體: 樣本: 是參數(shù) 是統(tǒng)計(jì)量,總體標(biāo)準(zhǔn)差: 樣本標(biāo)準(zhǔn)差: 上面兩個(gè)式子中,每一個(gè)公式的后面部分是如

8、何從前面部分變來的,請(qǐng)同學(xué)們作為作業(yè)自行推導(dǎo) 比較兩個(gè)標(biāo)準(zhǔn)差的計(jì)算公式,我們會(huì)發(fā)現(xiàn),這兩個(gè)公式是不同的: 總體標(biāo)準(zhǔn)差用總體含量 N 來得到,而樣本標(biāo)準(zhǔn)差則用 n-1 來得到 n-1 在這里稱為自由度(degree of freedom df),自由度的含義和說明 對(duì)于樣本容量為 n的樣本來說,每一個(gè)觀測(cè)值都有一個(gè)離均差,即 n個(gè)離均差,由于受 的限制,因此只有 n-1個(gè)離均差是自由的,有一個(gè)離均差失去了“自由” 在統(tǒng)計(jì)學(xué)中,若某個(gè)統(tǒng)計(jì)量的計(jì)算受到 k個(gè)條件的限制,則其自由度就為 n-k,在估計(jì)樣本方差時(shí)受到了平均數(shù)的限制,因此樣本方差的自由度就是 n-1;估計(jì)平均數(shù)時(shí)沒有限制條件,因此平均數(shù)的

9、自由度就是 n,樣本方差有一個(gè)十分重要的作用,就是用來估計(jì)總體方差,由于 ,根據(jù)平均數(shù)的第二個(gè)性質(zhì)可知, 必小于 ,因此如用 必定偏小 將分母改為 n-1,則可適當(dāng)增大 值,使樣本方差的數(shù)學(xué)期望更接近于總體方差 因此使用自由度的目的就是為了能用樣本方差更好地、無偏(unbias)地估計(jì)總體方差,小樣本資料必須用 n-1來計(jì)算方差,即標(biāo)準(zhǔn)差,大樣本時(shí) n與 n-1相差無幾,因此大樣本時(shí)也可用 n代替 n-1 由于大小樣本的界限沒有嚴(yán)格的規(guī)定,因此在一般狀況下仍宜使用 n-1 在一般情況下,樣本方差通常也稱為均方(Mean of square),用 或 表示之 加權(quán)平均數(shù)的標(biāo)準(zhǔn)差公式:,有了平均數(shù)

10、和標(biāo)準(zhǔn)差,我們就可以用一個(gè)比較簡(jiǎn)單的方法來表示一個(gè)樣本或一批資料: 標(biāo)準(zhǔn)差的特性: 變量越離散,標(biāo)準(zhǔn)差越大;反之,標(biāo)準(zhǔn)差越大,表示數(shù)據(jù)越離散,資料的變異程度越大 各變量加減一個(gè)常數(shù),標(biāo)準(zhǔn)差不變 各變量乘一個(gè)常數(shù) a,標(biāo)準(zhǔn)差將擴(kuò)大 a倍,資料服從正態(tài)分布時(shí),觀測(cè)值的分布為: 68.27的數(shù)據(jù)分布在 的范圍內(nèi) 95.45的數(shù)據(jù)分布在 的范圍內(nèi) 99.73的數(shù)據(jù)分布在 的范圍內(nèi) 另外還有兩個(gè)十分重要的分布范圍: 內(nèi)包含了95的變量 內(nèi)包含了99的變量,標(biāo)準(zhǔn)差還有一個(gè)用途就是檢查資料中是否有異常數(shù)據(jù),一般認(rèn)為,超出平均數(shù)兩倍(實(shí)際應(yīng)為 1.96倍)標(biāo)準(zhǔn)差以外的數(shù)據(jù)即為異常數(shù)據(jù),發(fā)現(xiàn)這種數(shù)據(jù)后應(yīng)對(duì)資料進(jìn)

11、行復(fù)查、校核和追溯,必要時(shí)應(yīng)進(jìn)行更正,有人認(rèn)為應(yīng)將其從資料中剔除 例:有一批大銀魚體重資料為:4.0、3.4、3.8、3.5、3.9、4.6、7.0g,現(xiàn)懷疑 7.0 這一數(shù)值可能是異常數(shù)據(jù),經(jīng)計(jì)算,得: 顯然,7.0 已超出 4.31+1.961.25 = 6.76 7.0 為一異常值,在無法追溯的情況下應(yīng)將其舍去,舍去 7.0 這一異常值后,重新計(jì)算這批資料的平均數(shù)和標(biāo)準(zhǔn)差,得: 再檢查這批數(shù)據(jù),發(fā)現(xiàn)已沒有超出 1.96 倍標(biāo)準(zhǔn)差的數(shù)據(jù)了,即所有的數(shù)據(jù)均為正常值了,變異系數(shù)(coefficient of variation c.v.) 不同單位的資料很難比較其變異程度,因此應(yīng)將標(biāo)準(zhǔn)差相對(duì)化

12、,變異系數(shù)就是相對(duì)化的標(biāo)準(zhǔn)差: 變異系數(shù)的大小既受標(biāo)準(zhǔn)差的影響,同時(shí)還受平均數(shù)的影響,因此變異系數(shù)不能單獨(dú)使用,在計(jì)算變異系數(shù)時(shí)必須將平均值和標(biāo)準(zhǔn)差同時(shí)標(biāo)出 變異系數(shù)只有在資料間相互比較時(shí)才使用,思考與習(xí)題: 1、算術(shù)平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)各自的計(jì)算法則是什么? 2、用直接法計(jì)算得到的算術(shù)平均數(shù)的兩個(gè)重要性質(zhì)是什么?試證明之。 3、方差、標(biāo)準(zhǔn)差、變異系數(shù)有何關(guān)系?對(duì)于一批資料來說,平均數(shù)和變異數(shù)各起什么作用??jī)烧哂泻温?lián)系? 4、從兩個(gè)魚池中各隨機(jī)捕撈10尾青魚,測(cè)量其體重,得如下數(shù)據(jù),試分別計(jì)算兩批魚的平均數(shù)、標(biāo)準(zhǔn)差和變異系數(shù),并進(jìn)行比較,魚池1:0.90 1.10 1.00 1.00 0.80 0.90 1.20 1.10 1.10 0.90 魚池2:0.70 1.10 1.20 0.80 1.10 0.80 1.00 0.90 1.20 0.90 5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論