版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
R語言數(shù)據(jù)可視化分析賈俊平2026/1/26基于R語言數(shù)據(jù)可視化分析賈俊平2026/1/26本書特色新穎的寫作視角嚴謹?shù)慕M織結(jié)構(gòu)完備的繪制代碼詳盡的圖形解讀賈俊平2026/1/267.1
比較整體相似性7.2比較樣本間差異7.3對樣本進行分類第7章比較樣本相似性概要本章介紹的樣本相似性的可視化圖形包括比較整體相似性的圖形,如平行坐標圖、雷達圖等比較樣本間差異的圖形,如星圖、臉譜圖等對樣本進行分類的圖形,如聚類圖、聚類熱圖等
本章導讀假定想要比較北京、上海、天津3個地區(qū)在食品煙酒、衣著、居住、生活用品及服務、交通通信、教育文化娛樂、醫(yī)療保健、其他用品及服務等8項支出方面是否有相似性,這里的3個地區(qū)就是樣本,8項消費支出是8個變量,這就是多樣本在多個變量上取值的相似性問題如果關心3個地區(qū)是否相似,就是樣本相似性問題;如果關心8個變量之間是否相似,就是變量相似性問題。變量間的相似性可以使用散點圖和相關系數(shù)進行分析平行坐標圖平行坐標圖(outlineplot)也稱輪廓圖或多線圖用X軸表示各樣本,用Y軸表示每個樣本的多個變量的數(shù)值(X軸和Y軸可以互換),將同一樣本在不同變量上的觀測值用折線連接起來觀察平行坐標圖中各折線的形狀及其排列方式,可以比較各樣本在多個變量上取值的相似性及差異【例7-1】—2023年全國31個地區(qū)的人均消費支出7.1
比較整體相似性地區(qū)地帶劃分區(qū)域劃分食品煙酒衣著居住生活用品及服務交通通信教育文化娛樂醫(yī)療保健其他用品及服務北京東部地帶華北1014220531866823524858379942761438天津東部地帶華北98151796777219274698367339371296河北東部地帶華北6739153449641459312923092174613…………………………………………………………青海西部地帶西北6361145836311072350415512174576寧夏西部地帶西北6150136639411397330124692455549新疆西部地帶西北6261143235851106275317252173679平行坐標圖【例7-1】—2023年全國31個地區(qū)的人均消費支出的平行坐標圖7.1
比較整體相似性平行坐標圖——按因子分面【例7-1】—按區(qū)域劃分和地帶劃分分面的31個地區(qū)8項人均消費支出的平行坐標圖7.1
比較整體相似性平行坐標圖——分析兩個特定的變量【例7-1】—按地帶劃分和區(qū)域分組的31個地區(qū)食品煙酒支出和居住支出的平行坐標圖7.1
比較整體相似性平行坐標圖——添加節(jié)點的直方圖與核密度圖【例7-1】—按地帶劃分分組的31個地區(qū)的平行坐標圖7.1
比較整體相似性雷達圖雷達圖(radarchart)也稱為蜘蛛圖(spiderchart)它是從一個點出發(fā),每個變量用一條射線表示,P個變量形成P條射線(P個坐標軸),每個樣本在P個變量上的取值連接成線,即圍成一個區(qū)域,多個樣本圍成多個區(qū)域,就是雷達圖P個變量的計量單位可能不同,數(shù)值的量級往往差異很大,每條坐標軸的刻度需要根據(jù)每個變量單獨確定,因此,不同坐標軸的刻度是不可比的利用雷達圖也可以研究多個樣本之間的相似程度7.1
比較整體相似性雷達圖【例7-1】—北京、天津和上海8項人均消費支出的雷達圖7.1
比較整體相似性雷達圖【例7-1】—中南地區(qū)8項人均消費支出的分面雷達圖7.1
比較整體相似性雷達圖【例7-1】—按區(qū)域劃分和地帶劃分分組的8項人均消費支出的雷達圖7.1
比較整體相似性星圖星圖(starplot)也被稱為雷達圖它用P個變量將圓P等分,并將P個半徑與圓心連接,再將一個樣本的P個變量的取值連接成一個P邊形,n個樣本形成n個獨立的P邊形,即為星圖利用星圖可根據(jù)n個P邊形比較n個樣本的相似性。繪制星圖時,因各樣本的計量單位可能不同,或不同變量的數(shù)值差異可能很大,因此需要先對變量做標準化處理,之后再繪制星圖繪制星圖時,因各樣本的計量單位可能不同,或不同變量的數(shù)值差異可能很大,因此需要先對變量做標準化處理,之后再繪制星圖7.2
比較樣本間差異星圖【例7-1】—全國31個地區(qū)的人均消費支出的星圖7.2
比較樣本間差異星圖——散點星圖首先繪制出兩個變量的散點圖,然后將每個樣本的所有變量將制成星圖。這樣,就可以在分析所關注的兩個變量之間關系的同時,比較各樣本在多個變量上的相似性【例7-1】—全國31個地區(qū)人均消費支出的星圖7.2
比較樣本間差異臉譜圖臉譜圖(facesplot)由美國統(tǒng)計學家Chernoff(1973)首先提出,也稱為Chernoff臉譜(Chernofffaces)臉譜圖將P個變量(P個維度的數(shù)據(jù))用人臉部位的形狀或大小來表征通過對臉譜的分析,可根據(jù)P個變量對樣本進行歸類或比較研究按照Chernoff提出的畫法,由15個變量決定臉部的特征,若實際變量更多,多出的將被忽略;若實際變量較少,變量將被重復使用15個變量代表的面部特征變量面部特征變量面部特征變量面部特征1臉的高度(heightofface)6笑容曲線(curveofsmile)11發(fā)型(stylingofhair)2臉的寬度(widthofface)7眼睛高度(heightofeyes)12鼻子高度(heightofnose)3臉的形狀(shapeofface)8眼睛寬度(widthofeyes)13鼻子寬度(widthofnose)4嘴的高度(heightofmouth)9頭發(fā)高度(heightofhair)14耳朵寬度(widthofears)5嘴的寬度(widthofmouth)10頭發(fā)寬度(widthofhair)15耳朵高度(heightofears)7.2
比較樣本間差異臉譜圖【例7-1】—全國31個地區(qū)的人均消費支出的臉譜圖7.2
比較樣本間差異臉譜圖——散點臉譜圖【例7-1】—食品煙酒支出和醫(yī)療保健支出的臉譜圖散點圖7.2
比較樣本間差異散點餅圖將多個樣本的餅圖繪制成散點餅圖(scatterpieplot)用餅圖代替散點圖中的各個點,并用餅的大小比較各樣本總數(shù)值多少,用餅的構(gòu)成分析各樣本數(shù)值構(gòu)成的差異或相似性7.2
比較樣本間差異聚類圖層次聚類(hierarchicalcluster)事先不確定要分多少類,而是先把每一個樣本作為一類,然后按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成k-1個類別再計算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則重復這一步上述步驟,直到所有的類別都合并成一類為止K-均值聚類(K-meanscluster)不是把所有可能的聚類結(jié)果都列出來,使用者需要先指定要劃分的類別個數(shù),然后確定各聚類中心,再計算出各樣本到聚類中心的距離,最后按距離的遠近進行分類K-均值聚類中的“K”就是指事先指定要分的類別個數(shù),而“均值”則是指聚類的中心7.3
對樣本進行分類層次聚類圖【例7-1】—全國31個地區(qū)的人均消費支出的層次聚類樹狀圖7.3
對樣本進行分類【例7-1】—31個地區(qū)層次聚類的圓形樹狀圖和植物形樹狀圖7.3
對樣本進行分類層次聚類圖【例7-1】—31個地區(qū)層次聚類的網(wǎng)絡形樹狀圖7.3
對樣本進行分類層次聚類圖【例7-1】—31個地區(qū)層次聚類結(jié)果(分成4類)類別地區(qū)地區(qū)數(shù)第1類北京,上海2第2類浙江,天津,江蘇3第3類福建,廣東,內(nèi)蒙古,湖北,湖南,山東,重慶7第4類遼寧,黑龍江,吉林,青海,新疆,安徽,河北,四川,陜西,寧夏,山西,河南,西藏,海南,廣西,江西,甘肅,貴州,云南,197.3
對樣本進行分類層次聚類圖
K-均值聚類圖【例7-1】—31個地區(qū)分成4類的K-均值聚類圖7.3
對樣本進行分類【例7-1】—31個地區(qū)分成4類的K-均值聚類結(jié)果分成4類分成3類類別地區(qū)地區(qū)數(shù)類別地區(qū)地區(qū)數(shù)第1類北京,上海2第1類北京,上海2第2類天津,浙江,江蘇,福建,廣東5第2類天津,浙江,江蘇,福建,廣東5第3類內(nèi)蒙古,重慶,山東,四川,遼寧,湖北,湖南,安徽,江西,海南10第3類新疆,青海,黑龍江,河北,山西,陜西,吉林,西藏,河南,寧夏,甘肅,云南,貴州,廣西,內(nèi)蒙古,遼寧,四川,重慶,安徽,湖北,江西,山東,湖南,海南24
第4類新疆,青海,黑龍江,西藏,陜西,山西,河北,吉林,河南,寧夏,甘肅,云南,貴州,廣西147.3
對樣本進行分類
K-均值聚類圖熱圖(heatmap)是將矩陣中的每個數(shù)值轉(zhuǎn)化成一個顏色矩形,用顏色表示數(shù)值的近似大小或強度熱圖在很多領域都有應用,比如基因組數(shù)據(jù)的可視化熱圖可以在聚類的基礎上同時用顏色表示出數(shù)據(jù)的大小繪制熱圖時要求數(shù)據(jù)必須是矩陣。由于各變量間的數(shù)值差異,一般需要做中心化或標準化處理。當數(shù)據(jù)量很大時,通常會將數(shù)據(jù)歸類后再繪制熱圖7.3
對樣本進行分類
K-均值聚類圖聚類熱圖——可視化數(shù)值大小【例7-1】—31個地區(qū)居民人均消費支出的2D熱圖和3D熱圖7.3
對樣本進行分類聚類熱圖——可視化數(shù)據(jù)分布【例7-1】—31個地區(qū)居民人均消費支出的頻數(shù)分布直方圖7.3
對樣本進行分類聚類熱圖——可視化數(shù)據(jù)分布【例7-1】—31個地區(qū)居民人均消費支出的密度分布熱圖7.3
對樣本進行分類聚類熱圖——可視化數(shù)據(jù)分布【例7-1】—31個地區(qū)居民人均消費支出的聚類熱圖7.3
對樣本進行分類聚類熱圖——對樣本或變量分類【例7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 峽江縣2025年度縣直事業(yè)單位公開選調(diào)工作人員改報 考試備考題庫附答案
- 招1人!西寧康泰物業(yè)經(jīng)營有限公司 2025年(總)經(jīng)理助理崗位社會化招聘參考題庫附答案
- 江西省軍工集團所屬子公司招聘(70人-高中可報)參考題庫附答案
- 西充縣2025年下半年部分縣級事業(yè)單位公開考調(diào)工作人員(15人)參考題庫附答案
- 2026年陜西公務員試題庫附答案
- 2026年錢塘區(qū)社區(qū)招聘考試題庫附答案
- 紀檢委員培訓教學課件
- 紀委監(jiān)委培訓
- 八年級數(shù)學上冊z04-3 勾股定理的應用
- 浙江銀行招聘2025年湖州銀行招聘若干人招聘筆試歷年典型考題及考點剖析附帶答案詳解
- 政治審查表(模板)
- 《最奇妙的蛋》完整版
- 三年級科學上冊蘇教版教學工作總結(jié)共3篇(蘇教版三年級科學上冊知識點整理)
- 種子室內(nèi)檢驗技術-種子純度鑒定(種子質(zhì)量檢測技術課件)
- SEMI S1-1107原版完整文檔
- 心電監(jiān)測技術操作考核評分標準
- 2023年中級財務會計各章作業(yè)練習題
- 金屬罐三片罐成型方法與罐型
- 大疆植保無人機考試試題及答案
- 《LED顯示屏基礎知識培訓》
- 高校宿舍樓建筑結(jié)構(gòu)畢業(yè)設計論文原創(chuàng)
評論
0/150
提交評論