版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據分析
(方法與案例)
作者賈俊平統(tǒng)計學基礎
FundamentalStatistics2010年第3章數據的概括性度量3.1
集中趨勢的度量3.2離散程度的度量3.3偏態(tài)與峰態(tài)的度量Statistic2010年學習目標度量集中趨勢的統(tǒng)計量度量離散程度的統(tǒng)計量度量偏態(tài)與峰態(tài)的統(tǒng)計量各統(tǒng)計量的的特點及應用場合用Excel計算描述統(tǒng)計量2010年統(tǒng)計應用
一種測量的平均數比單個的測量更可靠
即使用一種很準確、很可靠的儀器對同一物體進行重復測量,由于一些無法控制的因素的影響,每次得到的結果也不見得一樣(美國)國家標準與技術協(xié)會(NIST—NationalInstituteofStandardsandTechnology)的原子鐘非常準確,它的準確程度是每600萬年誤差1秒,但也并不是百分之百準確世界標準時間是世界協(xié)調時間(UniversalCoordinatedTime),它是由位于法國的塞夫爾的國際計量局(BIPM)所“編輯”的。BIPM并沒有比NIST更好的鐘,它給出的時間是根據世界各地200個原子鐘的平均時間得來的2010年統(tǒng)計應用
一種測量的平均數比單個的測量更可靠下面是NIST的時間與正確時間的10個誤差數據(秒)長期來講,對時間的度量并沒有偏差。NIST的秒有時比BIPM的短,有時比BIPM的長,并不是都較短或較長。盡管NIST的測量很準確,但從上面的數字還是可以看出有些差異。世界上沒有百分之百可靠的度量,但用多次測量的平均數比只用一次測量的結果可靠程度會更高。這就是BIPM要結合很多原子鐘的時間的原因0.0000000070.0000000000.0000000020.000000005-0.000000003-0.0000000010.000000006-0.000000005-0.0000000010.0000000002010年數據分布的特征數據水平(位置)分布形狀(偏態(tài)和峰態(tài))數據差異
(分散程度)2010年3.1集中趨勢的度量
3.1.1平均數
3.1.2中位數和分位數
3.1.3各度量值的比較第3章數據的概括性度量2010年集中趨勢
(centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據2010年3.1.1平均數3.1集中趨勢的度量2010年
x
x平均數
(mean)也稱為均值,常用的統(tǒng)計量之一消除了觀測值的隨機波動易受極端值的影響根據總體數據計算的,稱為平均數,記為
;根據樣本數據計算的,稱為樣本平均數,記為
x2010年簡單算數平均
(Simplemean)設一組數據為:x1,x2,…,xn(總體數據xN)樣本平均數總體平均數統(tǒng)計函數—AVERAGEExcel2010年加權平均數
(Weightedmean)設各組的組中值為:M1,M2,…,Mk
相應的頻數為:
f1,f2,…,fk樣本加權平均:總體加權平均:2010年加權平均數
(例題分析)
某電腦公司銷售量數據分組表按銷售量分組組中值(Mi)頻數(fi)Mifi
140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235
491627201710845
58013952640472537003315205017209001175合計—120222002010年3.1.2中位數和四分位數3.1集中趨勢的度量2010年中位數
(median)排序后處于中間位置上的值。不受極端值影響Me50%50%2.
位置確定3.
數值確定2010年中位數的計算
(數據個數為奇數)【例3.3】9個家庭的人均月收入數據原始數據:15007507801080850960200012501630
排
序:7507808509601080
1250
150016302000
位置:123456789中位數
1080
2010年中位數的計算
(數據個數為偶數)【例3.3】10個家庭的人均月收入數據排
序:
660
75078085096010801250150016302000
位置:1234
5678910
統(tǒng)計函數—MEDIANExcel2010年四分位數—用3個點等分數據
(quartile)排序后處于25%和75%位置上的值不受極端值的影響QLQMQU25%25%25%25%2010年四分位數的計算
(位置的確定)方法2:較準確算法(SPSS的算法)方法1:定義算法2010年四分位數的計算
(位置的確定)方法3Excel給出的四分位數位置的確定方法
如果位置不是整數,則按比例分攤位置兩側數值的差值2010年四分位數的計算
(數據個數為奇數)【例3.4】9個家庭的人均月收入數據(4種方法計算)
原始數據:15007507801080850960200012501630
排
序:75078085096010801250150016302000
位置:1234
5
6
7
89
方法1—定義公式2010年四分位數的計算
(數據個數為奇數)【例3.4】9個家庭的人均月收入數據原始數據:15007507801080850960200012501630
排
序:75078085096010801250150016302000
位置:1234
5
6789
方法2—SPSS公式2010年四分位數的計算
(數據個數為奇數)【例3.4】9個家庭的人均月收入數據原始數據:15007507801080850960200012501630
排序:75078085096010801250150016302000
位置:12
3
4
5
67
89
方法3—Excel公式統(tǒng)計函數—QUARTILEExcel2010年眾數
(mode)一組數據中出現次數最多的變量值適合于數據量較多時使用不受極端值的影響一組數據可能沒有眾數或有幾個眾數mo統(tǒng)計函數—MODEExcel2010年3.1.3各度量值的比較3.1集中趨勢的度量2010年眾數、中位數和平均數的關系左偏分布均值
中位數
眾數對稱分布
均值=
中位數=
眾數右偏分布眾數
中位數均值2010年眾數、中位數、平均數的特點和應用平均數易受極端值影響數學性質優(yōu)良,實際中最常用數據對稱分布或接近對稱分布時代表性較好中位數不受極端值影響數據分布偏斜程度較大時代表性接好眾數不受極端值影響具有不惟一性數據分布偏斜程度較大且有明顯峰值時代表性較好2010年3.2離散程度的度量
3.2.1極差和四分位差
3.2.2平均差
3.2.3方差和標準差
3.2.4離散系數:比較幾組數據的離散程度第3章數據的概括性度量2010年離中趨勢數據分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值2010年3.2.1極差和四分位差3.2離散程度的度量2010年極差
(range)一組數據的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數據的分布計算公式為:R=max(xi)-min(xi)2010年四分位差
(quartiledeviation)也稱為內距或四分間距上四分位數與下四分位數之差:Qd=QU
–QL反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性25%75%2010年3.2.2平均差3.2離散程度的度量2010年平均差
(meandeviation)各變量值與其平均數離差絕對值的平均數能全面反映一組數據的離散程度數學性質較差,實際中應用較少計算公式為未分組數據組距分組數據2010年平均差
(例題分析)某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235
49162720171084540302010010203040501602703202700170200240160250合計—120—20402010年平均差
(例題分析)
含義:每一天的銷售量平均數相比,平均相差17臺
統(tǒng)計函數—AVEDEV2010年3.2.3方差和標準差3.2離散程度的度量2010年方差和標準差
(varianceandstandarddeviation)數據離散程度的最常用測度值反映各變量值與均值的平均差異根據總體數據計算的,稱為總體方差(標準差),記為
2();根據樣本數據計算的,稱為樣本方差(標準差),記為s2(s)2010年樣本方差和標準差
(samplevarianceandstandarddeviation)未分組數據組距分組數據未分組數據組距分組數據方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!2010年總體方差和標準差
(PopulationvarianceandStandarddeviation)未分組數據組距分組數據未分組數據組距分組數據方差的計算公式標準差的計算公式2010年樣本標準差
(例題分析)【例3.6】計算計算9名員工的月工資收入的方差和標準差
15007507801080850960200012501630方差標準差統(tǒng)計函數—STDEVExcel2010年樣本標準差
(例題分析)某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235
49162720171084540302010010203040501602703202700170200240160250合計—120—554002010年樣本標準差
(例題分析)
含義:每一天的銷售量與平均數相比,平均相差21.58臺
2010年標準分數
(standardscore)1.也稱標準化值2. 對某一個值在一組數據中相對位置的度量3. 可用于判斷一組數據是否有離群點(outlier)用于對變量的標準化處理均值等于0,方差等于1計算公式為2010年標準分數
(用于數據變換)
z分數只是將原始數據進行了線性變換,它并沒有改變一個數據在該組數據中的位置,也沒有改變該組數分布的形狀,而只是使該組數據均值為0,標準差為1
2010年用SPSS對數據進行標準化第1步:選擇【Analyze】下拉菜單,并選擇
【Descriptivestatistics-Descriptive】
選項進入主對話框第2步:在主對話框中將變量選入【Variables】,然后選中【Savestandardizedvaluesasvariables】。點擊【OK】(SPSS會將標準化后的變量以“Z”開頭存放在原始變量工作表中)
對數據標準化SPSS2010年標準分數
(例題分析)【例3.8】9個家庭人均月收入標準化值計算表
家庭編號人均月收入(元)標準化值z
12345678915007507801080850960200012501630
0.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.9962010年經驗法則
經驗法則表明:當一組數據對稱分布時約有68%的數據在平均數加減1個標準差的范圍之內約有95%的數據在平均數加減2個標準差的范圍之內約有99%的數據在平均數加減3個標準差的范圍之內2010年經驗法則
(例題分析)2010年經驗法則
(例題分析)
9名員工月工資收入的經驗法則2010年切比雪夫不等式
(Chebyshev’sinequality)如果一組數據不是對稱分布,經驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分布形狀的數據都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對于任意分布形態(tài)的數據,根據切比雪夫不等式,至少有1-1/k2的數據落在平均數加減k個標準差之內。其中k是大于1的任意值,但不一定是整數2010年切比雪夫不等式
(Chebyshev’sinequality)
對于k=2,3,4,該不等式的含義是至少有75%的數據落在平均數加減2個標準差的范圍之內至少有89%的數據落在平均數加減3個標準差的范圍之內至少有94%的數據落在平均數加減4個標準差的范圍之內2010年3.2.4離散系數:比較幾組數據的
離散程度3.2離散程度的度量2010年離散系數
(coefficientofvariation)1. 標準差與其相應的均值之比對數據相對離散程度的測度消除了數據水平高低和計量單位的影響4. 用于對不同組別數據離散程度的比較5.計算公式為2010年離散系數
(例題分析)【例3.9】評價哪名運動員的發(fā)揮更穩(wěn)定發(fā)揮比較穩(wěn)定的運動員是塞爾維亞的亞斯娜·舍卡里奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運動員蒙古的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢2010年3.3偏態(tài)與峰態(tài)的度量
3.3.1偏態(tài)及其測度
3.3.2峰態(tài)及其測度第3章數據的概括性度量2010年數據分布的形狀—偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標準正態(tài)分布比較!2010年3.3.1偏態(tài)及其測度3.3偏態(tài)與峰態(tài)的度量2010年偏態(tài)
(skewness)統(tǒng)計學家K.Pearson于1895年首次提出。是指數據分布的不對稱性測度統(tǒng)計量是偏態(tài)系數(coefficientofskewness)2. 偏態(tài)系數=0為對稱分布;>0為右偏分布;<0為左偏分布偏態(tài)系數大于1或小于-1,為高度偏態(tài)分布;偏態(tài)系數在0.5~1或-1~-0.5之間,為是中等偏態(tài)分布;偏態(tài)系數越接近0,偏斜程度就越低2010年偏態(tài)系數
(coefficientofskewness)根據原始數據計算根據分組數據計算統(tǒng)計函數—SKEWExcel2010年偏態(tài)系數
(例題分析)
某電腦公司銷售量偏態(tài)及峰度計算表按銷售量份組(臺)組中值(Mi)頻數
fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235
491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店餐飲安全與衛(wèi)生管理制度
- 濟寧設計培訓班
- 流調溯源培訓
- 2024-2025學年山西省運城市高二上學期期末調研測試歷史試題(解析版)
- 2026年心理咨詢師青少年心理方向理論測試題
- 2026年英文寫作與翻譯專業(yè)能力測試題
- 2026年法律實務民法典要點解析與案例分析題庫
- 2026年外語能力水平測試預測試題及答案
- 2026年政治常識與國家治理能力題集
- 2026年物流管理專業(yè)考試供應鏈優(yōu)化與成本控制操作題
- 文第19課《井岡翠竹》教學設計+2024-2025學年統(tǒng)編版語文七年級下冊
- 干部教育培訓行業(yè)跨境出海戰(zhàn)略研究報告
- 車庫使用協(xié)議合同
- 組件設計文檔-MBOM構型管理
- 《不在網絡中迷失》課件
- 山東省泰安市2024-2025學年高一物理下學期期末考試試題含解析
- 竹子產業(yè)發(fā)展策略
- 【可行性報告】2023年硫精砂項目可行性研究分析報告
- 2024-2025年上海中考英語真題及答案解析
- 2023年內蒙古呼倫貝爾市海拉爾區(qū)公開招聘公辦幼兒園控制數人員80名高頻筆試、歷年難易點考題(共500題含答案解析)模擬試卷
- 一年級數學質量分析強桂英
評論
0/150
提交評論