《統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用》第3章 分類(lèi)數(shù)據(jù)的描述分析.pptx_第1頁(yè)
《統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用》第3章 分類(lèi)數(shù)據(jù)的描述分析.pptx_第2頁(yè)
《統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用》第3章 分類(lèi)數(shù)據(jù)的描述分析.pptx_第3頁(yè)
《統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用》第3章 分類(lèi)數(shù)據(jù)的描述分析.pptx_第4頁(yè)
《統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用》第3章 分類(lèi)數(shù)據(jù)的描述分析.pptx_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一張好圖勝過(guò)千言萬(wàn)語(yǔ),10:29,1,第 3 章 分類(lèi)數(shù)據(jù)的描述分析,3.1 數(shù)據(jù)的預(yù)處理 3.2 頻數(shù)表 3.3 統(tǒng)計(jì)圖 3.4 列聯(lián)表,Display,10:29,2,學(xué)習(xí)目標(biāo),用頻數(shù)表描述數(shù)據(jù)的分布; 用條形圖、餅圖、百分條圖等圖形來(lái)展示數(shù)據(jù); 用列聯(lián)表分析兩個(gè)分類(lèi)指標(biāo)之間的關(guān)系; 相關(guān)理論在統(tǒng)計(jì)軟件中的應(yīng)用; 相應(yīng)統(tǒng)計(jì)分析結(jié)果的解讀。,10:29,3,用哪些圖形展示獎(jiǎng)牌?,在2012年倫敦奧運(yùn)會(huì)上,中國(guó)隊(duì)以38金27銀22銅位列奧運(yùn)金牌榜和獎(jiǎng)牌榜第二位,這也是中國(guó)境外參賽以來(lái)取得的最好成績(jī),美國(guó)隊(duì)以46金29銀29銅104獎(jiǎng)牌高居榜首。 東道主英國(guó)位居第三,10:29,4,用哪些圖形展

2、示獎(jiǎng)牌?,根據(jù)上面的數(shù)據(jù),你認(rèn)為可以選擇哪些圖形來(lái)展示三個(gè)國(guó)家所獲得的獎(jiǎng)牌情況?學(xué)完本章的圖表展示技術(shù),這樣的問(wèn)題就會(huì)迎刃而解,10:29,5,數(shù)據(jù)分析包括三種形式,為數(shù)據(jù)畫(huà)一個(gè)圖 制作一個(gè)表 計(jì)算一些我們感興趣的東西,10:29,6,3.1數(shù)據(jù)的預(yù)處理,主要包括:數(shù)據(jù)的審核、篩選、排隊(duì) (1)數(shù)據(jù)的審核與篩選 a、審核: 對(duì) 第一手資料(直接調(diào)查或試驗(yàn)取得):審核其完整性與準(zhǔn)確性 完整性審核:應(yīng)調(diào)查的單位或個(gè)體是否有遺漏;所調(diào)查的項(xiàng)目是否填齊全。 準(zhǔn)確性審核:內(nèi)容是否符合實(shí)際;計(jì)算是否正確。 如:文化程度:小學(xué) 職業(yè):大學(xué)教師 對(duì)第二手資料(獲取他人的資料):審核其完整性、準(zhǔn)確性、適用性、時(shí)

3、效性,10:29,7,b、篩選:,剔除不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù); 將符合特定條件的數(shù)據(jù)篩選出來(lái)。,10:29,8,(2)數(shù)據(jù)的排序,數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列。,排序方式: 數(shù)字型數(shù)據(jù)/字母型數(shù)據(jù)升序或降序 漢字型數(shù)據(jù)多種,排序目的: a、通過(guò)瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征趨勢(shì)或解決問(wèn)題的線索; b、有助于數(shù)據(jù)的檢查糾錯(cuò); c、為分組提供依據(jù)。,10:29,9,統(tǒng)計(jì)分組是將預(yù)處理過(guò)的數(shù)據(jù)按照某種特征或標(biāo)準(zhǔn)分成不同的組別。 統(tǒng)計(jì)分組變量:分組時(shí)所依據(jù)的特征或標(biāo)準(zhǔn),有定性變量和定量變量。 頻數(shù)分布表:對(duì)分組后的數(shù)據(jù),計(jì)算各組中數(shù)據(jù)出現(xiàn)的次數(shù)或頻數(shù)所形成的匯總表。,預(yù)處理數(shù)據(jù),分組,計(jì)算頻

4、數(shù),描述統(tǒng)計(jì),3.2 頻數(shù)分布表,10:29,10,3.2 頻數(shù)分布表(定性數(shù)據(jù)),1. 列出各類(lèi)別,3. 計(jì)算各類(lèi)別的頻數(shù),3. 生成頻數(shù)分布表,不重不漏,定義:選擇一個(gè)變量對(duì)總體分組,并計(jì)算落在各組中的頻數(shù)所形成的分布。,分組,頻數(shù),10:29,11,頻數(shù)分布表,頻數(shù)(frequency) :落在各類(lèi)別中的數(shù)據(jù)個(gè)數(shù) 比例(proportion) :某一類(lèi)別數(shù)據(jù)個(gè)數(shù)占全部數(shù)據(jù)個(gè)數(shù)的比值 百分比(percentage) :將對(duì)比的基數(shù)作為100而計(jì)算的比值,10:29,12,用Excel生成頻數(shù)分布表,10:29,13,使用數(shù)據(jù)透視表 (實(shí)例),3.3 統(tǒng)計(jì)圖,如果想獲得更生動(dòng)的展示,我們可以

5、使用統(tǒng)計(jì)圖。 統(tǒng)計(jì)圖是用幾何圖形或具體事物的形象來(lái)表現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的一種形式。 統(tǒng)計(jì)圖既可以節(jié)省大量文字?jǐn)⑹?,又可便于?shù)據(jù)的對(duì)比分析與積累。利用統(tǒng)計(jì)圖表現(xiàn)統(tǒng)計(jì)數(shù)據(jù),能更為鮮明醒目、一目了然、形象具體地顯示現(xiàn)象之間的相互關(guān)系。 按照?qǐng)D形的形式,統(tǒng)計(jì)圖大體上可以分為幾何圖、象形圖和統(tǒng)計(jì)地圖三種。,10:29,14,3.3 統(tǒng)計(jì)圖,(1)幾何圖。幾何圖是利用幾何的形和線來(lái)表明統(tǒng)計(jì)數(shù)據(jù)的圖形,包括條形圖、餅圖等。 (2)象形圖。象形圖是以表示現(xiàn)象本身形象的長(zhǎng)度、大小、多少來(lái)表示數(shù)值大小的一種圖形。 (3)統(tǒng)計(jì)地圖。統(tǒng)計(jì)地圖是用不同的顏色或紋理表示變量或某種指標(biāo)在地域上的分布特征及規(guī)律,用以顯示不同地域事物

6、數(shù)量的分布情況。例如可以利用顏色的深淺來(lái)表示某地區(qū)各縣某種產(chǎn)品的生產(chǎn)情況。如右圖所示:,10:29,15,條形圖,用寬度相同的條形的高度或長(zhǎng)短來(lái)表示各類(lèi)別數(shù)據(jù) 各類(lèi)別可放在縱軸,稱為條形圖,可以放在橫軸,稱為柱形圖(column chart),10:29,16,復(fù)式條形圖,10:29,17,百分條圖多組百分比的比較,10:29,18,帕累托圖-關(guān)鍵的少數(shù)和次要的多數(shù),按各類(lèi)別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的柱形圖 用于展示分類(lèi)數(shù)據(jù)的分布,該帕累托圖表明:對(duì)網(wǎng)站的訪問(wèn)主要途徑依靠Google和Direct,KEEN公司需要在這兩個(gè)途徑上進(jìn)行加強(qiáng)和改進(jìn)。,圖3.8 不同類(lèi)型搜索引擎的頻數(shù)分布表繪制的

7、帕累托圖,10:29,19,關(guān)鍵的少數(shù),次要的多數(shù),簡(jiǎn)單餅圖,用圓形及圓內(nèi)扇形的角度來(lái)表示數(shù)值大小的圖形,主要用于表示一個(gè)樣本(或總體)中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例 用于研究結(jié)構(gòu)問(wèn)題,10:29,20,復(fù)合餅圖(示例),環(huán)形圖,環(huán)形圖中間有一個(gè)“空洞”,樣本或總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示 與餅圖類(lèi)似,但又有區(qū)別 餅圖只能顯示一個(gè)總體各部分所占的比例 環(huán)形圖則可以同時(shí)繪制多個(gè)樣本或總體的數(shù)據(jù)系列,每一個(gè)樣本或總體的數(shù)據(jù)系列為一個(gè)環(huán) 用于結(jié)構(gòu)比較研究,10:29,21,環(huán)形圖多個(gè)總體的結(jié)構(gòu),10:29,22,多變量數(shù)據(jù)雷達(dá)圖(實(shí)例),【例】甲乙兩班成績(jī)?nèi)缦?。試?yán)L制雷達(dá)圖。,10:29

8、,23,多變量數(shù)據(jù)雷達(dá)圖,10:29,24,3.4 列聯(lián)表 之初始數(shù)據(jù),一般,若總體中的個(gè)體可按兩個(gè)屬性A與B分類(lèi),A有r個(gè)等級(jí)A1,A2,,Ar;B有個(gè)等級(jí)B1,B2,,Bc,從總體中抽取大小為n的樣本,設(shè)其中有nij個(gè)屬于等級(jí)Ai和Bj,nij稱為頻數(shù),將r個(gè)nij(i=1,2,,r;j=1,2,,)排列為一個(gè)r行列的二維列聯(lián)表,簡(jiǎn)稱r表,10:29,25,3.4 列聯(lián)表 之初始數(shù)據(jù),為了解不同地區(qū)或市場(chǎng)對(duì)一款新涼鞋款式的接受程度, 調(diào)查了5個(gè)國(guó)家772名顧客 收集兩個(gè)變量:態(tài)度和國(guó)家 態(tài)度有“完全贊成、有些贊成、既不反對(duì)也不贊成、有些不贊成、完全不贊成、不知道”6個(gè)水平 國(guó)家類(lèi)別有5個(gè)國(guó)

9、家,表示該變量有5個(gè)水平,10:29,26,見(jiàn)練習(xí)(初始數(shù)據(jù)),【例2-1】對(duì)初始數(shù)據(jù)前面數(shù)據(jù)生成頻數(shù)分布表,觀察不同國(guó)家的顧客及態(tài)度分布狀況,并進(jìn)行描述性分析,3.4 列聯(lián)表 之頻數(shù)分布表,10:29,27,能否看出不同國(guó)家的人態(tài)度是否不同?,使用數(shù)據(jù)透視表(例),3.4 列聯(lián)表,表3.7 對(duì)新涼鞋的接受態(tài)度的調(diào)查數(shù)據(jù)表(列聯(lián)表),列聯(lián)表(contingency table)是由兩個(gè)或兩個(gè)以上變量進(jìn)行交叉分類(lèi)得到的頻數(shù)分布表。 列聯(lián)表中間的各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。 構(gòu)成列聯(lián)表的變量都是分類(lèi)變量或順序變量。一個(gè) r 行 c 列的列聯(lián)表稱為 rc

10、 列聯(lián)表,一般的把22的二維列聯(lián)表又稱為交叉表。 列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。,10:29,28,能否看出不同國(guó)家的人態(tài)度是否不同?,用SPSS生成定性數(shù)據(jù)的列聯(lián)表 (Crosstabulation交叉表),第1步:選擇【Analyze】【Descriptive Statistics- Crosstabs】進(jìn)入主對(duì)話框 第2步:將“國(guó)家”選入【Row(s)】,將“態(tài)度”選 入【Column(s)】(行列可以互換) 第3步: (若需要對(duì)列聯(lián)表進(jìn)行描述性分析)點(diǎn)擊 【Cells】,在【Percentages】下選中需要的統(tǒng)計(jì) 量,如【Row】、【Column】、【Total】等;(

11、若 需要圖形)點(diǎn)擊【Display clustered bar chart】。 點(diǎn)擊【OK】,生成交叉頻數(shù)分布表,SPSS,10:29,29,3.4 列聯(lián)表之總的百分?jǐn)?shù),為了更便于理解,我們可以把對(duì)應(yīng)于總的百分?jǐn)?shù)的這部分?jǐn)?shù)據(jù)單獨(dú)拿出來(lái),見(jiàn)表3.9。 表3.9 展示總的百分?jǐn)?shù)的列聯(lián)表,3.4 列聯(lián)表,使用列聯(lián)表更感興趣的問(wèn)題是了解變量之間有沒(méi)有關(guān)聯(lián)。 比如,我們希望知道中國(guó)人完全贊成新款式的比例與美國(guó)人完全贊成新款式的比例有沒(méi)有區(qū)別,換句話說(shuō),被調(diào)查者對(duì)新款式的贊成是否依賴于被調(diào)查者所在的國(guó)家。 可以從兩方面看這個(gè)問(wèn)題。首先,每個(gè)國(guó)家的對(duì)新涼鞋態(tài)度的分布是怎樣的,這需要看表3.8的行百分?jǐn)?shù),于是

12、得到表3.10。,10:29,31,3.4 列聯(lián)表之條件分布,表3.10 兩個(gè)國(guó)家對(duì)新涼鞋態(tài)度的條件分布,10:29,32,10:29,33,中美態(tài)度條形對(duì)比圖,10:29,34,10:29,35,哪個(gè)環(huán)代表中國(guó)/美國(guó)?,中美態(tài)度環(huán)形對(duì)比圖,3.4 列聯(lián)表之案例,列聯(lián)表中的一個(gè)經(jīng)典例子就是著名的泰坦尼克號(hào)郵輪的海難數(shù)據(jù)。 該數(shù)據(jù)有4個(gè)定性變量: (1) 倉(cāng)位等級(jí)(Class):分一等艙(1st)、二等艙(2nd)、三等艙(3rd)、船員(Crew)四個(gè)水平; (2) 性別(Sex):有男(Male)、女(Female) 兩個(gè)水平; (3) 年齡:有兒童(Child)、成年人(Adult)兩個(gè)水平; (4) 是否生還(Survived):分否(No)、是(Yes)兩個(gè)水平。,10:29,36,該數(shù)據(jù)最簡(jiǎn)單的表格是兩維的表格。下面是基于性別與否生還兩個(gè)變量得到的22表格。,從表中可以看出男性生還的人數(shù)比女性多23個(gè),但男性死亡的比女性多1138個(gè)。,10:29,37,3.4 列聯(lián)表之案例,如果把四個(gè)變量都選入,就得到4222表。顯然這樣的表格看起來(lái)就羅唆多了。,10

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論