《數(shù)據(jù)可視化分析-基于R語(yǔ)言》(第 4 版)課件 第5章 展示數(shù)據(jù)分布_第1頁(yè)
《數(shù)據(jù)可視化分析-基于R語(yǔ)言》(第 4 版)課件 第5章 展示數(shù)據(jù)分布_第2頁(yè)
《數(shù)據(jù)可視化分析-基于R語(yǔ)言》(第 4 版)課件 第5章 展示數(shù)據(jù)分布_第3頁(yè)
《數(shù)據(jù)可視化分析-基于R語(yǔ)言》(第 4 版)課件 第5章 展示數(shù)據(jù)分布_第4頁(yè)
《數(shù)據(jù)可視化分析-基于R語(yǔ)言》(第 4 版)課件 第5章 展示數(shù)據(jù)分布_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

R語(yǔ)言數(shù)據(jù)可視化分析賈俊平2026/1/26基于R語(yǔ)言數(shù)據(jù)可視化分析賈俊平2026/1/26本書特色新穎的寫作視角嚴(yán)謹(jǐn)?shù)慕M織結(jié)構(gòu)完備的繪制代碼詳盡的圖形解讀賈俊平2026/1/265.1

展示分布形狀5.2展示分布位置和范圍5.3檢驗(yàn)數(shù)據(jù)分布5.4展示推斷信息第5章展示數(shù)據(jù)分布

概要數(shù)據(jù)分布主要是指數(shù)值數(shù)據(jù)(變量)分布的形狀、點(diǎn)的分布位置和范圍等特征展示數(shù)據(jù)分布特征的圖形有多種,本章主要介紹三類分布圖形展示數(shù)據(jù)分布形狀的圖形,如直方圖、核密度圖、箱線圖、小提琴圖等展示數(shù)據(jù)在數(shù)軸上分布位置和范圍的圖形,如帶狀圖、威爾金森點(diǎn)圖及其變種、極差圖等展示數(shù)據(jù)分布特性的圖形,如Q-Q或P-P圖等本章最后介紹如何在分布圖形中添加推斷信息的方法

本章導(dǎo)讀直方圖(histogram)是觀察數(shù)據(jù)分布特征的常用圖形,它們可以直觀地展示數(shù)據(jù)分布的形狀是否對(duì)稱、偏斜的方向和程度等將數(shù)據(jù)分組后,在X軸上用矩形的寬度表示每個(gè)組的組距,在Y軸上用矩形的高度表示每個(gè)組的頻數(shù)或密度,多個(gè)矩形并列在一起就是直方圖直方圖——普通直方圖【例5-1】—空氣質(zhì)量指數(shù)(AirQualityIndex,AQI)數(shù)據(jù)5.1

展示分布形狀直方圖——為直方圖添加信息在用直方圖觀察數(shù)據(jù)分布特征的同時(shí),也可以在直方圖上添加地毯圖、核密度曲線、理論正態(tài)分布曲線、描述統(tǒng)計(jì)量等可以在一幅圖中提供更多的數(shù)據(jù)分布特征的信息【例5-1】

—添加不同信息的AQI的直方圖5.1

展示分布形狀直方圖——鏡像直方圖如果要比較不同變量的分布特征,可以將直方圖疊加在一起,但疊加的變量不宜太多如果只對(duì)兩個(gè)變量進(jìn)行比較,也可繪制成鏡像直方圖,它是將一個(gè)變量繪制在上方,另一個(gè)變量以鏡像方式繪制在下方【例5-1】—AQI和PM2.5的疊加直方圖和鏡像直方圖5.1

展示分布形狀直方圖——分組分組直方圖:如果數(shù)據(jù)框中除數(shù)值變量外,還有其他類別變量(因子),則可以按因子分組繪制直方圖【例5-1】

—按質(zhì)量等級(jí)分組的AQI的直方圖5.1

展示分布形狀直方圖——分面當(dāng)因子的類別(水平)較多時(shí),按因子分組的直方圖會(huì)出現(xiàn)疊加,不宜解讀,此時(shí)可采用分面處理,單獨(dú)繪制出按因子分組的直方圖【例5-1】—按指標(biāo)分面的直方圖5.1

展示分布形狀核密度圖——核密度曲線與帶寬核密度圖(kerneldensityplot)是用于核密度估計(jì)的一種圖形,它使用一定的核函數(shù)(通常默認(rèn)核函數(shù)為gaussian)和帶寬(bandwidth,bw)為數(shù)據(jù)的分布提供了一種平滑曲線,從中可以看出數(shù)據(jù)分布的大致形狀。核密度圖可以替代直方圖來(lái)觀察數(shù)據(jù)的分布【例5-1】

—按質(zhì)量等級(jí)分面的AQI的直方圖5.1

展示分布形狀核密度圖——比較核密度圖當(dāng)有多個(gè)變量時(shí),可以將不同變量的核密度曲線繪制在同一個(gè)坐標(biāo)中進(jìn)行比較分析【例5-1】

—4項(xiàng)空氣污染指標(biāo)的核密度比較曲線5.1

展示分布形狀核密度圖——鏡像核密度圖如果只比較兩個(gè)變量,可以將核密度圖繪制成鏡像的形式【例5-1】

—按質(zhì)量等級(jí)分組的AQI和PM2.5的鏡像核密度圖5.1

展示分布形狀核密度圖——分組核密度圖當(dāng)數(shù)值變量的觀測(cè)數(shù)是在一個(gè)或多個(gè)因子的不同水平下獲得的,可以將數(shù)值變量按因子的水平分類繪制分組核密度圖【例5-1】

—按質(zhì)量等級(jí)分組的AQI和PM2.5的核密度曲線5.1

展示分布形狀核密度圖——分組核密度圖如果有多個(gè)變量,可以在按因子分組的同時(shí)按變量分面【例5-1】

—按質(zhì)量等級(jí)分組、按指標(biāo)分面的核密度圖5.1

展示分布形狀核密度圖——添加平行坐標(biāo)的分組核密度圖在按質(zhì)量等級(jí)繪制分組核密度圖的同時(shí),還可以將各指標(biāo)在同一天的數(shù)據(jù)連線,繪制平行坐標(biāo)圖,以觀察同一天各指標(biāo)的數(shù)值變化【例5-1】

—按質(zhì)量等級(jí)分組4項(xiàng)指標(biāo)的核密度圖與平行坐標(biāo)圖5.1

展示分布形狀核密度脊線圖脊線圖(ridgelinediagram)也稱山巒圖,它是核密度估計(jì)圖的一種表現(xiàn)形式,可用于多數(shù)據(jù)系列或按因子分類的核密度估計(jì)的可視化脊線圖繪制的數(shù)據(jù)通常是相同的x軸(如同一個(gè)變量)和不同的y軸(如不同的分類),它將多個(gè)分類下的同一個(gè)數(shù)據(jù)系列的核密度估計(jì)圖以交錯(cuò)堆疊的方式繪制在一幅圖中,看起來(lái)像山巒起伏,從而有利于比較不同數(shù)據(jù)系列的分布特征5.1

展示分布形狀核密度脊線圖當(dāng)數(shù)據(jù)集中各變量的數(shù)值差異較大時(shí),為便于比較,可以先對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理,然后再繪圖【例5-1】—原始數(shù)據(jù)和標(biāo)準(zhǔn)化后數(shù)據(jù)的脊線圖5.1

展示分布形狀核密度脊線圖如果數(shù)據(jù)是按因子分類的,可以按因子分組繪制脊線圖【例5-1】—按空氣質(zhì)量等級(jí)分組的AQI和PM10的脊線圖5.1

展示分布形狀核密度脊線圖如果數(shù)據(jù)是按一年的每一天采集的,也可以將月份作為因子,繪制按月份分組的脊線圖【例5-1】—各月份AQI、PM2.5和PM10的脊線圖5.1

展示分布形狀箱線圖——箱線圖繪制原理和解讀箱線圖(boxplot)不僅可以反映一組數(shù)據(jù)分布的特征,還可以在比較多組數(shù)據(jù)分布特征的同時(shí),比較各組數(shù)據(jù)的水平(在箱線圖中,用中位數(shù)表示數(shù)據(jù)的水平,統(tǒng)計(jì)中常用的描述數(shù)據(jù)水平的統(tǒng)計(jì)量還有平均數(shù)等)繪制箱線圖的步驟:用中位數(shù)(median)和兩個(gè)四分位數(shù)(quartiles)畫出箱子;并畫出須線;圖中單獨(dú)標(biāo)出5.1

展示分布形狀箱線圖——箱線圖的繪制原理和解讀不同分布的直方圖對(duì)應(yīng)的箱線圖5.1

展示分布形狀箱線圖——箱線圖及其變換如果數(shù)據(jù)集中多個(gè)變量的數(shù)值差異不大,可以使用原始數(shù)據(jù)繪制箱線圖,當(dāng)數(shù)值差異較大時(shí),則需要對(duì)數(shù)據(jù)做變換,以便于比較【例5-1】—6項(xiàng)空氣污染指標(biāo)的箱線圖5.1

展示分布形狀箱線圖——箱線圖及其變換【例5-1】對(duì)數(shù)變換和標(biāo)準(zhǔn)化變換后的6項(xiàng)空氣污染指標(biāo)的箱線圖5.1

展示分布形狀箱線圖——分組箱線圖要分析不同質(zhì)量等級(jí)條件下某項(xiàng)指標(biāo)的分布,可以繪制按因子分組的箱線圖。當(dāng)樣本量不同時(shí)為在箱線圖中反映出樣本量信息,可以繪制不等寬箱線圖【例5-1】按空氣質(zhì)量等級(jí)分組的PM10和臭氧濃度的不等寬箱線圖5.1

展示分布形狀箱線圖——分組箱線圖【例5-1】

按月份分組和按中位數(shù)排序的箱線圖5.1

展示分布形狀箱線圖——分組箱線圖【例5-1】按質(zhì)量等級(jí)分組的P二氧化氮和臭氧濃度的箱線圖5.1

展示分布形狀小提琴圖——小提琴圖及其變換小提琴圖(violinplot)將分布的核密度圖與箱線圖結(jié)合在一起,在箱線圖上以鏡像方式疊加上核密度圖,以展示數(shù)據(jù)分布的大致形狀當(dāng)多個(gè)變量的數(shù)值差異較大時(shí),小提琴圖難以觀察分布形狀,此時(shí),可以先對(duì)數(shù)據(jù)做對(duì)數(shù)變換或標(biāo)準(zhǔn)化變換,然后再繪制小提琴圖【例5-1】6項(xiàng)空氣污染指標(biāo)的小提琴圖5.1

展示分布形狀小提琴圖——分組小提琴圖對(duì)于按因子分類的數(shù)據(jù),可以繪制分組小提琴圖對(duì)于多個(gè)數(shù)值變量,可以繪制按因子分組、按變量分面的小提琴圖【例5-1】

6項(xiàng)空氣污染指標(biāo)的小提琴圖5.1

展示分布形狀小提琴圖——半小提琴圖小提琴圖是以鏡像方式繪制的核密度圖,只需要觀察一半就可以分析數(shù)據(jù)的分布特征,另一半是冗余的可以將小提琴圖繪制成一半,稱為半小提琴圖(half-violinplot)半小提琴圖可以與箱線圖或半箱線圖、點(diǎn)圖等結(jié)合繪制,從而提供更多的分布信息【例5-1】PM10的半小提琴圖5.1

展示分布形狀小提琴圖——半小提琴圖【例5-1】

按質(zhì)量等級(jí)分組的AQI和PM2.5的半小提琴圖5.1

展示分布形狀小提琴圖——對(duì)置小提琴圖或分割或分置小提琴圖它是將兩個(gè)變量或樣本的半小提琴圖以鏡像方式繪制類似于鏡像核密度,主要用于比較兩個(gè)變量或樣本的分布方,對(duì)置方式可以是水平的,也可以是垂直的【例5-1】

按質(zhì)量等級(jí)分組的AQI與PM2.5、PM2.5與PM10的對(duì)置小提琴圖5.1

展示分布形狀數(shù)據(jù)分布位置和范圍數(shù)據(jù)分布位置是指一組數(shù)據(jù)在數(shù)軸上的點(diǎn)分布展示這類特征的圖形主要有點(diǎn)圖(dotchart)及其變種。它是將數(shù)據(jù)用點(diǎn)的形式繪制在數(shù)軸上,用于展示數(shù)據(jù)在數(shù)軸上分布的位置點(diǎn)圖有多種形式,除最基本的帶狀圖外,還有威爾金森點(diǎn)圖、蜂群圖、云雨圖等變種5.2

展示分布位置和范圍數(shù)據(jù)分布位置——帶狀圖帶狀圖(stripchart)又稱平行散點(diǎn)圖(parallelscatterplot)或一維散點(diǎn)圖(One-dimensionalscatterplot),它將一組數(shù)據(jù)的各個(gè)點(diǎn)繪制在水平或垂直軸上帶狀圖是點(diǎn)圖的最基本形式,其他點(diǎn)圖均可視為其變種帶狀圖很少單獨(dú)使用,通常與箱線圖、小提琴圖等結(jié)合繪制【例5-1】1~6月份AQI的帶狀圖5.2

展示分布位置和范圍數(shù)據(jù)分布位置——威爾金森點(diǎn)圖威爾金森點(diǎn)圖(Wilkinsondotchart)是一種不同排列方式的點(diǎn)圖,它是將數(shù)據(jù)用點(diǎn)的形式沿著數(shù)軸排列,用于反映數(shù)據(jù)分布的位置特征點(diǎn)的默認(rèn)排列方向是向上(

up)排列,也可以向下(down)排列、居中(center)排列、整體居中(centerwhole)排列(居中但點(diǎn)對(duì)齊)可以按因子分組后繪制,也可以將點(diǎn)圖與箱線圖和小提琴圖等結(jié)合繪制5.2

展示分布位置和范圍數(shù)據(jù)分布位置——威爾金森點(diǎn)圖【例5-1】

AQI和4項(xiàng)空氣污染指標(biāo)【例5-1】

質(zhì)量等級(jí)和月份分組的AQI5.2

展示分布位置和范圍數(shù)據(jù)分布位置——蜂群圖蜂群圖(beeswarmchart)與威爾金森點(diǎn)圖很類似,它是通過對(duì)數(shù)據(jù)的輕微擾動(dòng)(jitter)將各個(gè)點(diǎn)在垂線兩側(cè)向上展開排列成蜂群的形式,擾動(dòng)的目的是使各個(gè)點(diǎn)不重疊如果我們想展示單個(gè)的數(shù)據(jù)點(diǎn),而不是分布的形狀,則可以使用蜂群圖。蜂群圖可以與箱線圖、小提琴圖等結(jié)合使用,利用箱線圖或小提琴圖展示數(shù)據(jù)分布的形狀,用蜂群圖展示個(gè)數(shù)據(jù)點(diǎn)。蜂群圖也可以用于展示時(shí)間序列數(shù)據(jù)5.2

展示分布位置和范圍數(shù)據(jù)分布位置——云雨圖云雨圖(raincloudplot)是繪制一半的小提琴圖,在小提琴圖的一側(cè)或下方繪制出點(diǎn)圖,形狀類似云和雨組成,由于它上是將半個(gè)小提琴圖和向下堆疊的點(diǎn)圖結(jié)合在一起繪制的,也稱為半小提琴半點(diǎn)圖(half-violinHalf-dotplot)云雨圖同時(shí)提供了小提琴圖和點(diǎn)圖的信息,它用小提琴圖展示數(shù)據(jù)分布的形狀,用點(diǎn)圖展示數(shù)據(jù)點(diǎn)的分布位置5.2

展示分布位置和范圍數(shù)據(jù)分布位置和范圍在實(shí)際數(shù)據(jù)分析中,通常關(guān)心最大值和最小值及其變化范圍(極差)數(shù)據(jù)分布范圍主要是指一組數(shù)據(jù)的最大值和最小值之差,也就是極差范圍也可以是中間50%數(shù)據(jù)的分布范圍,也就是四分位差范圍本書將根據(jù)數(shù)據(jù)分布范圍繪制的圖形稱為極差圖(rangechart),它是用最小值和最大值來(lái)可視化數(shù)據(jù)變化范圍的圖形,也可以繪制出最小值、25%分位數(shù)、中位數(shù)、75%分位數(shù)、最大值的變化范圍,其可視化圖形可稱為五數(shù)概括圖5.2

展示分布位置和范圍數(shù)據(jù)分布范圍——極差圖用最小值和最大值來(lái)可視化數(shù)據(jù)變化范圍的圖形可繪制成線條和圖像等形式【例5-1】—AQI和6項(xiàng)空氣污染指標(biāo)的極差圖5.2

展示分布位置和范圍數(shù)據(jù)分布范圍——五數(shù)概括圖最小值、25%分位數(shù)、中位數(shù)、75%分位數(shù)、最大值在統(tǒng)計(jì)上稱為五數(shù)概括(five-numbersummary)它們簡(jiǎn)要概括了一組數(shù)據(jù)的數(shù)值特征,其中最大值和最小值的范圍就是極差圖,25%分位數(shù)和75%分位數(shù)之差就是四分位差范圍,它反映了中間50%數(shù)據(jù)的離散程度,本書將展示五數(shù)概括變化范圍的圖形稱為五數(shù)概括圖【例5-1】—AQI和6項(xiàng)空氣污染指標(biāo)的五數(shù)概括圖5.2

展示分布位置和范圍正態(tài)概率圖正態(tài)概率圖——檢驗(yàn)正態(tài)性假定是否成立,這就是正態(tài)性檢驗(yàn)(mormalitytest)正態(tài)概率圖有兩種畫法,一種稱為Q-Q圖(Quantile-Quantileplot),一種稱為P-P圖(Probability-Probabilityplot)Q-Q圖是樣本數(shù)據(jù)的分位數(shù)與理論分布(如正態(tài)分布)的分位數(shù)的符合程度繪制的,有時(shí)也稱為分位數(shù)-分位數(shù)圖P-P圖則是根據(jù)樣本數(shù)據(jù)的累積概率與理論分布(如正態(tài)分布)的累積概率的符合程度繪制的5.3

檢驗(yàn)數(shù)據(jù)分布正態(tài)性檢驗(yàn)——正態(tài)Q-Q和PP圖的解讀圖不同分布的直方圖與正態(tài)Q-Q圖的比較【例5-1】—AQI的正態(tài)Q-Q圖和P-P圖5.3

檢驗(yàn)數(shù)據(jù)分布正態(tài)性檢驗(yàn)——正態(tài)Q-Q和PP圖的解讀圖【例5-1】—6項(xiàng)空氣污染指標(biāo)的正態(tài)Q-Q圖和P-P圖添加Shapiro-Wilk正態(tài)性檢驗(yàn)的P值5.3

檢驗(yàn)數(shù)據(jù)分布展示推斷信息在數(shù)據(jù)分析中,如果有多個(gè)樣本或某個(gè)數(shù)值變量的觀測(cè)值是在因子的多個(gè)水平下獲得的,可以檢驗(yàn)不同樣本或因子水平(組)下的均值是否有顯著差異當(dāng)因子只有兩個(gè)水平(組)時(shí),可以做t檢驗(yàn)(ttest,參數(shù))或威爾科克森檢驗(yàn)(Wilcoxtest,非參數(shù))當(dāng)因子有兩個(gè)以上水平時(shí),可以做方差分析(ANOVA,參數(shù))或克魯斯卡爾檢驗(yàn)(Kruskaltest,非參數(shù))箱線圖或小提琴圖是展示這類信息的有效工具,將檢驗(yàn)或估計(jì)信息添加在箱線圖或小提琴圖中,可以得出更多的分析結(jié)論5.4

展示推斷信息展示推斷信息【例5-1】—帶有方差分析和配對(duì)檢驗(yàn)P值的小提琴圖和和多重比較字母的箱線圖【例5-1】—帶有多種統(tǒng)計(jì)信息的臭氧濃度的箱線圖和小提琴圖5.4

展示推斷信息展示推斷信息海盜圖(pirateplot):展示數(shù)據(jù)多種特征的一種圖形,它提供了原始數(shù)據(jù)、描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)等多方面的信息海盜圖中含有4個(gè)主要元素:一是用于表示原始數(shù)據(jù)的水平擾動(dòng)點(diǎn)(points);二是用于表示中心趨勢(shì)(如平均數(shù))的水平條(bar);三是表示平滑密度的豆(bean);四是表示推斷(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論