版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)分析(方法與案例),統(tǒng)計(jì)學(xué)基礎(chǔ),Fundamental Statistics,第 2 章 數(shù)據(jù)的圖表展示,2.1 數(shù)據(jù)的預(yù)處理 2.2 品質(zhì)數(shù)據(jù)的整理與展示 2.3 數(shù)值型數(shù)據(jù)的整理與展示 2.4 合理使用圖表,Display,為什么要預(yù)處理,調(diào)查收集到的原始統(tǒng)計(jì)資料常常是大量的。它必須經(jīng)過加工整理,如分類歸并匯總,按時(shí)間前后或按數(shù)值大小重新排列等,才容易發(fā)現(xiàn)數(shù)據(jù)的規(guī)律性,并便于做進(jìn)一步的統(tǒng)計(jì)分析。,加工整理, 歸并匯總, 重新排列,調(diào)查得到 的原始 統(tǒng)計(jì)資料,發(fā)現(xiàn)數(shù)據(jù) 的規(guī)律性, 作進(jìn)一步的 統(tǒng)計(jì)分析,學(xué)習(xí)目標(biāo),數(shù)據(jù)預(yù)處理的內(nèi)容和目的 分類和順序數(shù)據(jù)的整理與顯示方法 數(shù)值型數(shù)據(jù)的整理與顯
2、示方法 用Excel作頻數(shù)分布表和形圖 合理使用圖表,2010年,統(tǒng)計(jì)應(yīng)用把數(shù)據(jù)畫圖之后,要用用腦袋,沃德(Abraham Wald)和許多統(tǒng)計(jì)學(xué)家一樣,在第二次世界大戰(zhàn)時(shí)也處理了戰(zhàn)爭與相關(guān)的問題。他發(fā)明的一些統(tǒng)計(jì)方法在戰(zhàn)時(shí)被視為軍事機(jī)密。以下是他提出的概念中較簡單的一種 沃德被咨詢飛機(jī)上什么部位應(yīng)該加強(qiáng)鋼板時(shí),開始研究從戰(zhàn)役中返航的軍機(jī)上受敵軍創(chuàng)傷的彈孔位置。他畫了飛機(jī)的輪廓,并且標(biāo)識(shí)出彈孔的位置。資料累積一段時(shí)間后,幾乎把機(jī)身各部位都填滿了。于是沃德建議,把剩下少數(shù)幾個(gè)沒有彈孔的部位補(bǔ)強(qiáng)。因?yàn)檫@些部位被擊中的飛機(jī)都沒有返航,2010年,2.1 數(shù)據(jù)的預(yù)處理 2.1.1 數(shù)據(jù)審核 2.1.2
3、 數(shù)據(jù)排序 2.1.3 數(shù)據(jù)篩選 2.1.4 數(shù)據(jù)透視表,第 2 章 數(shù)據(jù)的圖表展示,數(shù)據(jù)的預(yù)處理,數(shù)據(jù)審核 檢查數(shù)據(jù)中的錯(cuò)誤 數(shù)據(jù)篩選 找出符合條件的數(shù)據(jù) 數(shù)據(jù)排序 升序和降序 尋找數(shù)據(jù)的基本特征 數(shù)據(jù)透視 按需要匯總,2010年,2.1.1 數(shù)據(jù)審核,2.1 數(shù)據(jù)的預(yù)處理,數(shù)據(jù)審核原始數(shù)據(jù)(raw data),完整性審核 應(yīng)調(diào)查的單位或個(gè)體是否有遺漏 所有的調(diào)查項(xiàng)目或變量是否填寫齊全 準(zhǔn)確性審核 數(shù)據(jù)是否真實(shí)反映實(shí)際情況,內(nèi)容是否符合實(shí)際 數(shù)據(jù)是否有錯(cuò)誤,計(jì)算是否正確等,2010年,數(shù)據(jù)的審核二手?jǐn)?shù)據(jù)(second hand data),適用性審核 弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背
4、景材料 確定數(shù)據(jù)是否符合自己分析研究的需要 時(shí)效性審核 盡可能使用最新的數(shù)據(jù) 確認(rèn)是否有必要做進(jìn)一步的加工整理,2010年,2.1.2 數(shù)據(jù)排序,2.1 數(shù)據(jù)的預(yù)處理,數(shù)據(jù)排序 (data rank),按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索 排序有助于對數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組等提供依據(jù) 在某些場合,排序本身就是分析的目的之一 排序可借助于計(jì)算機(jī)完成,2010年,數(shù)據(jù)排序 (方法),分類數(shù)據(jù)的排序 字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序 漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分 數(shù)值型數(shù)據(jù)的排序 遞增
5、排序:設(shè)一組數(shù)據(jù)為x1,x2,xn,遞增排序后可表示為:x(1)x(2)x(n),2010年,2.1.3 數(shù)據(jù)篩選,2.1 數(shù)據(jù)的預(yù)處理,數(shù)據(jù)篩選(data filter),當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),需要對數(shù)據(jù)進(jìn)行篩選 數(shù)據(jù)篩選的內(nèi)容 將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除 將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除,2010年,數(shù)據(jù)篩選(data filter),用Excel進(jìn)行數(shù)據(jù)篩選,2010年,8名學(xué)生的考試成績數(shù)據(jù),【例2.1】8名學(xué)生4門課程的考試成績數(shù)據(jù)。找出統(tǒng)計(jì)學(xué)成績等于75分的學(xué)生,英語成績最高的前
6、3名學(xué)生,4門課程成績都大于70分的學(xué)生,2.1.4 數(shù)據(jù)透視表,2.1 數(shù)據(jù)的預(yù)處理,數(shù)據(jù)透視表(pivot table ),可以從復(fù)雜的數(shù)據(jù)中提取有用的信息 可以對數(shù)據(jù)表的重要信息按使用者的習(xí)慣或分析要求進(jìn)行匯總和作圖 形成一個(gè)符合需要的交叉表(列聯(lián)表) 在利用數(shù)據(jù)透視表時(shí),數(shù)據(jù)源表中的首行必須有列標(biāo)題,2010年,數(shù)據(jù)透視表(pivot table ),【例2.2】在某大學(xué)隨機(jī)抽取30名學(xué)生,調(diào)查他們的性別、家庭所在地、平均月生活費(fèi)支出、平均每月購買衣物支出和購買衣物時(shí)所考慮的首要因素等,得到的數(shù)據(jù)如表24所示。試建立一個(gè)數(shù)據(jù)透視表,在表的行變量中給出性別和購買衣物首選因素,在列變量中給
7、出學(xué)生的家庭所在地,對平均月生活費(fèi)支出和月平均購買衣物支出進(jìn)行交叉匯總。,2010年,數(shù)據(jù)透視表(用Excel創(chuàng)建數(shù)據(jù)透視表),第1步:在Excel工作表中建立數(shù)據(jù)清單 第2步:選中數(shù)據(jù)清單中的任意單元格,并選擇【數(shù)據(jù)】菜單 中的【數(shù)據(jù)透視表和數(shù)據(jù)透視圖】 第3步:確定數(shù)據(jù)源區(qū)域 第4步:在【向?qū)?步驟之3】中選擇數(shù)據(jù)透視表的輸出位置 。然后選擇【布局】 第5步:在【向?qū)Р季帧繉υ捒蛑?,依次將”分類變量“拖?左邊的“行”區(qū)域,上邊的“列”區(qū)域,將需要匯總的“變 量” 拖至“數(shù)據(jù)區(qū)域” 第6步:然后單擊【確定】,自動(dòng)返回【向?qū)?步驟之3】對 話框。然后單擊【完成】,即可輸出數(shù)據(jù)透視表,2010
8、年, 用Excel創(chuàng)建數(shù)據(jù)透視表,第 2 章 數(shù)據(jù)的圖表展示,2.1 數(shù)據(jù)的預(yù)處理 2.2 品質(zhì)數(shù)據(jù)的整理與展示 2.3 數(shù)值型數(shù)據(jù)的整理與展示 2.4 合理使用圖表,Display,2.2 品質(zhì)數(shù)據(jù)的整理與展示 2.2.1 分類數(shù)據(jù)的整理與圖示 2.2.2 數(shù)值型數(shù)據(jù)的整理與圖示,第 2 章 數(shù)據(jù)的圖表展示,數(shù)據(jù)的整理與顯示(基本問題),要弄清所面對的數(shù)據(jù)類型 不同類型的數(shù)據(jù),采取不同的處理方式和方法 對分類數(shù)據(jù)和順序數(shù)據(jù)主要是作分類整理 對數(shù)值型數(shù)據(jù)則主要是作分組整理 適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù),2010年
9、,2.2.1 分類數(shù)據(jù)的整理與圖示,2.2 品質(zhì)數(shù)據(jù)的整理與展示,分類數(shù)據(jù)的描述統(tǒng)計(jì)量,頻數(shù)(frequency) :落在各類別中的數(shù)據(jù)個(gè)數(shù) 比例(proportion) :某一類別數(shù)據(jù)個(gè)數(shù)占全部數(shù)據(jù)個(gè)數(shù)的比值 百分比(percentage) :將對比的基數(shù)作為100而計(jì)算的比值 比率(ratio) :不同類別數(shù)值個(gè)數(shù)的比值,2010年,生成頻數(shù)分布表(分類數(shù)據(jù)),1.列出各類別,2010年,3. 生成頻數(shù)分布表,生成頻數(shù)分布表(定性數(shù)據(jù)),2010年,【例2.3】為研究不同類型的軟飲料的市場銷售情況,一家市場調(diào)查公司對隨機(jī)抽取的一家超市進(jìn)行調(diào)查。下面的表21是調(diào)查員隨機(jī)觀察的50名顧客購買的
10、飲料類型及購買者性別的記錄。生成頻數(shù)分布表,觀察飲料類型和消費(fèi)者性別的分布狀況,并進(jìn)行描述性分析,制作頻數(shù)分布表,Excel,分類數(shù)據(jù)的圖示條形圖(bar Chart),用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù) 各類別可放在縱軸,稱為條形圖,可以放在橫軸,稱為柱形圖(column chart),2010年,分類數(shù)據(jù)的圖示復(fù)式條形圖(bar Chart),飲料類型和顧客性別的條形圖 (SPSS的輸出),2010年,分類數(shù)據(jù)的圖示帕累托圖(pareto chart),按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的柱形圖 用于展示分類數(shù)據(jù)的分布,2010年,分類數(shù)據(jù)的圖示簡單餅圖 (pie Chart)
11、,2010年,用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,主要用于表示一個(gè)樣本(或總體)中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例用于研究結(jié)構(gòu)問題,2.2.2 順序數(shù)據(jù)的整理與圖示,2.2 品質(zhì)數(shù)據(jù)的整理與展示,順序數(shù)據(jù)的整理(可計(jì)算的統(tǒng)計(jì)量),1. 累積頻數(shù)(cumulative frequencies):各類別頻數(shù)的逐級累加 2. 累積頻率(cumulative percentages):各類別頻率(百分比)的逐級累加,2010年,順序數(shù)據(jù)的頻數(shù)分布表(例題分析),2010年,【例2.4】在一項(xiàng)城市住房問題的研究中,研究人員在甲乙兩個(gè)城市各抽樣調(diào)查300戶,其中的一個(gè)問題是:“您對您家庭目前的住房
12、狀況是否滿意?” 1非常不滿意;2不滿意;3一般;4滿意;5非常滿意。,順序數(shù)據(jù)的頻數(shù)分布表 (例題分析),2010年,順序數(shù)據(jù)的圖示累計(jì)頻數(shù)分布圖 (例題分析),2010年,甲城市家庭對住房狀況評價(jià)的累積頻數(shù)分布,環(huán)形圖(doughnut chart),環(huán)形圖中間有一個(gè)“空洞”,樣本或總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示 與餅圖類似,但又有區(qū)別 餅圖只能顯示一個(gè)總體各部分所占的比例 環(huán)形圖則可以同時(shí)繪制多個(gè)樣本或總體的數(shù)據(jù)系列,每一個(gè)樣本或總體的數(shù)據(jù)系列為一個(gè)環(huán) 用于結(jié)構(gòu)比較研究 用于展示分類和順序數(shù)據(jù),2010年,環(huán)形圖 (例題分析),2010年,2.3 數(shù)值型數(shù)據(jù)的整理與展示 2.3.1
13、 數(shù)據(jù)分組 2.3.2 數(shù)值型數(shù)據(jù)的圖示,第 2 章 數(shù)據(jù)的圖表展示,2.3.1 數(shù)據(jù)分組,2.3 數(shù)值型數(shù)據(jù)的整理與展示數(shù)據(jù),數(shù)據(jù)分組,2010年,分組方法,2010年,分組方法,單變量值分組(要點(diǎn)),1. 將一個(gè)變量值作為一組 2. 適合于離散變量 3. 適合于變量值較少的情況,2010年,組距分組 (要點(diǎn)),將變量值的一個(gè)區(qū)間作為一組 適合于連續(xù)變量 適合于變量值較多的情況 需要遵循“不重不漏”的原則 可采用等距分組,也可采用不等距分組,2010年,組距分組(幾個(gè)概念),1. 下限(low limit) :一個(gè)組的最小值 2. 上限(upper limit) :一個(gè)組的最大值 3. 組距
14、(class width) :上限與下限之差 4. 組中值(class midpoint) :下限與上限之間的中點(diǎn)值,2010年,頻數(shù)分布表的編制(例題分析),2010年,【例2.5】某電腦公司2005年前四個(gè)月各天的銷售量數(shù)據(jù)(單位:臺(tái))。試對數(shù)據(jù)進(jìn)行分組,生成頻數(shù)分布表(例題分析),確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征為目的。在實(shí)際分組時(shí),組數(shù)一般為5K 15。本例中由于數(shù)據(jù)較多,可考慮分為10組 確定組距:組距(Class Width)是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即 組距( 最大值 - 最小值) 組數(shù) 例如,本例最大值為237,最
15、小值為141,組距=(237-141)109.6。為便于計(jì)算,組距宜取5或10的倍數(shù),且第一組的下限應(yīng)低于最小變量值,最后一組的上限應(yīng)高于最大變量值,因此組距可取10 統(tǒng)計(jì)出各組的頻數(shù)。每個(gè)組的數(shù)據(jù)滿足axb(上限值不在內(nèi)(Excel的計(jì)數(shù)規(guī)則是axb),2010年,制作頻數(shù)分布,Excel,等距分組表(上下組限重疊),2010年,等距分組表(上下組限間斷),2010年,等距分組表(使用開口組),2010年,2.3.2 數(shù)值型數(shù)據(jù)的圖示,2.3 數(shù)值型數(shù)據(jù)的整理與展示數(shù)據(jù),分組數(shù)據(jù)直方圖(histogram),用于展示分組數(shù)據(jù)分布的一種圖形 用矩形的寬度和高度來表示頻數(shù)分布 本質(zhì)上是用矩形的面
16、積來表示頻數(shù)分布 在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖 直方圖下的總面積等于1,2010年,分組數(shù)據(jù)的圖示(直方圖的繪制),2010年,某電腦公司銷售量分布的直方圖,我一眼就看出來了,銷售量在170180之間的天數(shù)最多!,分組數(shù)據(jù)直方圖(直方圖與條形圖的區(qū)別),條形圖是用條形的長度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的 直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義 直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列 條形圖主要用于展示分類數(shù)據(jù),直方
17、圖則主要用于展示數(shù)值型數(shù)據(jù),2010年,未分組數(shù)據(jù)莖葉圖(stem-and-leaf plot),用于顯示未分組的原始數(shù)據(jù)的分布 由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的 以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉 樹葉上只保留最后一位數(shù)字 6. 莖葉圖類似于橫置的直方圖,但又有區(qū)別 直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值 莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息 直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù),2010年,未分組數(shù)據(jù)莖葉圖(例題分析),2010年,某電腦公司銷售量分布的莖葉圖,未分組數(shù)據(jù)莖葉圖(擴(kuò)展的莖葉圖),2010年
18、,未分組數(shù)據(jù)箱線圖(box plot),用于顯示未分組的原始數(shù)據(jù)的分布 箱線圖是由一組數(shù)據(jù)的最大值(maximum)、最小值(minimum)、中位數(shù)(median)、兩個(gè)四分位數(shù)(quartiles)這5個(gè)值繪制而成的 中位數(shù)是一組數(shù)據(jù)排序后處于中間位置上的變量值 四分位數(shù)是一組數(shù)據(jù)排序后處在數(shù)據(jù)25%位置和75%位置上的兩個(gè)分位數(shù)值 繪制方法 首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me和兩個(gè)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU) 連接兩個(gè)四分位數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接,2010年,未分組數(shù)據(jù)箱線圖(箱線圖的構(gòu)成),2010年,中位數(shù),4,6,8,10,12,Median/Quart./Range箱線圖,未分組數(shù)據(jù)箱線圖(例題分析),2010年,最小值 141,最大值 237,中位數(shù) 182,25%四分位數(shù) 170.25,75%四分位數(shù) 197,140 150 160 170 180 190 200 210 220 230 240,某電腦公司銷售額數(shù)據(jù)的Median/Quart./Rang箱線圖,分布的形狀與箱線圖,2010年,不同分布的箱線圖,對稱分布
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒童呼吸道合胞病毒(RSV)指南應(yīng)對指導(dǎo)
- 2025 小學(xué)四年級思想品德上冊文明上網(wǎng)承諾書課件
- 2026年劇本殺運(yùn)營公司禮品采購管理制度
- 云浮行政管理培訓(xùn)課件
- 北京市房山區(qū)2024-2025學(xué)年八年級上學(xué)期期末生物試題(含答案)
- 生態(tài)農(nóng)業(yè)科普教育基地建設(shè)2025年項(xiàng)目技術(shù)創(chuàng)新與農(nóng)業(yè)人才培養(yǎng)計(jì)劃報(bào)告
- 2026年制造科技工業(yè)機(jī)器人報(bào)告
- 新能源汽車充電樁運(yùn)營管理平臺(tái)2025年充電樁能源管理效率提升可行性報(bào)告
- 2026年及未來5年中國化工泵行業(yè)競爭格局分析及投資戰(zhàn)略咨詢報(bào)告
- 2026年及未來5年中國馬口鐵包裝容器行業(yè)市場運(yùn)營現(xiàn)狀及投資規(guī)劃研究建議報(bào)告
- 2026年1月福建廈門市集美區(qū)后溪鎮(zhèn)衛(wèi)生院補(bǔ)充編外人員招聘16人筆試模擬試題及答案解析
- 2026年長治職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫附答案解析
- 新華資產(chǎn)招聘筆試題庫2026
- 2026年丹東市人力資源和社會(huì)保障局公開選聘法律顧問備考題庫及完整答案詳解一套
- 2026年干部綜合能力高頻知識(shí)點(diǎn)測試題附解析
- GB/T 46544-2025航空航天用螺栓連接橫向振動(dòng)防松試驗(yàn)方法
- 炎德·英才大聯(lián)考長沙市一中2026屆高三月考(五)歷史試卷(含答案詳解)
- 零售行業(yè)采購經(jīng)理商品采購與庫存管理績效考核表
- 2025年語文合格考試題庫及答案
- 小米銷售新人培訓(xùn)
評論
0/150
提交評論