版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第Python數(shù)據(jù)可視化繪圖實(shí)例詳解目錄利用可視化探索圖表1.數(shù)據(jù)可視化與探索圖2.常見的圖表實(shí)例數(shù)據(jù)探索實(shí)戰(zhàn)分享1.2013年美國社區(qū)調(diào)查2.波士頓房屋數(shù)據(jù)集
利用可視化探索圖表
1.數(shù)據(jù)可視化與探索圖
數(shù)據(jù)可視化是指用圖形或表格的方式來呈現(xiàn)數(shù)據(jù)。圖表能夠清楚地呈現(xiàn)數(shù)據(jù)性質(zhì),以及數(shù)據(jù)間或?qū)傩蚤g的關(guān)系,可以輕易地讓人看圖釋義。用戶通過探索圖(ExploratoryGraph)可以了解數(shù)據(jù)的特性、尋找數(shù)據(jù)的趨勢、降低數(shù)據(jù)的理解門檻。
2.常見的圖表實(shí)例
本章主要采用Pandas的方式來畫圖,而不是使用Matplotlib模塊。其實(shí)Pandas已經(jīng)把Matplotlib的畫圖方法整合到DataFrame中,因此在實(shí)際應(yīng)用中,用戶不需要直接引用Matplotlib也可以完成畫圖的工作。
1.折線圖
折線圖(linechart)是最基本的圖表,可以用來呈現(xiàn)不同欄位連續(xù)數(shù)據(jù)之間的關(guān)系。繪制折線圖使用的是plot.line()的方法,可以設(shè)置顏色、形狀等參數(shù)。在使用上,拆線圖繪制方法完全繼承了Matplotlib的用法,所以程序最后也必須調(diào)用plt.show()產(chǎn)生圖,如圖8.4所示。
df_iris[['sepal
length
(cm)']].plot.line()
plt.show()
ax
=
df[['sepal
length
(cm)']].plot.line(color='green',title="Demo",)
ax.set(xlabel="index",
ylabel="length")
plt.show()
2.散布圖
散布圖(ScatterChart)用于檢視不同欄位離散數(shù)據(jù)之間的關(guān)系。繪制散布圖使用的是df.plot.scatter(),如圖8.5所示。
df
=
df_iris
df.plot.scatter(x='sepal
length
(cm)',
y='sepal
width
(cm)')
from
matplotlib
import
cm
cmap
=
cm.get_cmap('Spectral')
df.plot.scatter(x='sepal
length
(cm)',
y='sepal
width
(cm)',
s=df[['petal
length
(cm)']]*20,
c=df['target'],
cmap=cmap,
title='different
circle
size
by
petal
length
(cm)')
3.直方圖、長條圖
直方圖(HistogramChart)通常用于同一欄位,呈現(xiàn)連續(xù)數(shù)據(jù)的分布狀況,與直方圖類似的另一種圖是長條圖(BarChart),用于檢視同一欄位,如圖8.6所示。
df[['sepal
length
(cm)',
'sepal
width
(cm)',
'petal
length
(cm)','petal
width
(cm)']].plot.hist()
2
df.target.value_counts().plot.bar()
4.圓餅圖、箱形圖
圓餅圖(PieChart)可以用于檢視同一欄位各類別所占的比例,而箱形圖(BoxChart)則用于檢視同一欄位或比較不同欄位數(shù)據(jù)的分布差異,如圖8.7所示。
df.target.value_counts().plot.pie(legend=True)
df.boxplot(column=['target'],?gsize=(10,5))
數(shù)據(jù)探索實(shí)戰(zhàn)分享
本節(jié)利用兩個(gè)真實(shí)的數(shù)據(jù)集實(shí)際展示數(shù)據(jù)探索的幾種手法。
1.2013年美國社區(qū)調(diào)查
在美國社區(qū)調(diào)查(AmericanCommunitySurvey)中,每年約有350萬個(gè)家庭被問到關(guān)于他們是誰及他們?nèi)绾紊畹脑敿?xì)問題。調(diào)查的內(nèi)容涵蓋了許多主題,包括祖先、教育、工作、交通、互聯(lián)網(wǎng)使用和居住。
數(shù)據(jù)來源
數(shù)據(jù)名稱:2013AmericanCommunitySurvey。
先觀察數(shù)據(jù)的樣子與特性,以及每個(gè)欄位代表的意義、種類和范圍。
#
讀取數(shù)據(jù)
df
=
pd.read_csv("./ss13husa.csv")
#
欄位種類數(shù)量
df.shape
#
(756065,231)
#
欄位數(shù)值范圍
df.describe()
先將兩個(gè)ss13pusa.csv串連起來,這份數(shù)據(jù)總共包含30萬筆數(shù)據(jù),3個(gè)欄位:SCHL(學(xué)歷,SchoolLevel)、PINCP(收入,Income)和ESR(工作狀態(tài),WorkStatus)。
pusa
=
pd.read_csv("ss13pusa.csv")
pusb
=
pd.read_csv("ss13pusb.csv")
#
串接兩份數(shù)據(jù)
col
=
['SCHL','PINCP','ESR']
df['ac_survey']
=
pd.concat([pusa[col],pusb[col],axis=0)
依據(jù)學(xué)歷對數(shù)據(jù)進(jìn)行分群,觀察不同學(xué)歷的數(shù)量比例,接著計(jì)算他們的平均收入。
group
=
df['ac_survey'].groupby(by=['SCHL'])
print('學(xué)歷分布:'
+
group.size())
group
=
ac_survey.groupby(by=['SCHL'])
print('平均收入:'
+group.mean())
2.波士頓房屋數(shù)據(jù)集
波士頓房屋數(shù)據(jù)集(BostonHousePriceDataset)包含有關(guān)波士頓地區(qū)的房屋信息,包506個(gè)數(shù)據(jù)樣本和13個(gè)特征維度。
數(shù)據(jù)來源
數(shù)據(jù)名稱:BostonHousePriceDataset。
先觀察數(shù)據(jù)的樣子與特性,以及每個(gè)欄位代表的意義、種類和范圍。
可以用直方圖的方式畫出房價(jià)(MEDV)的分布,如圖8.8所示。
df
=
pd.read_csv("./housing.data")
#
欄位種類數(shù)量
df.shape
#
(506,
14)
#欄位數(shù)值范圍df.describe()
import
matplotlib.pyplot
as
plt
df[['MEDV']].plot.hist()
plt.show()
注:圖中英文對應(yīng)筆者在代碼中或數(shù)據(jù)中指定的名字,實(shí)踐中讀者可將它們替換成自己需要的文字。
接下來需要知道的是哪些維度與房價(jià)關(guān)系明顯。先用散布圖的方式來觀察,如圖8.9所示。
#
draw
scatter
chart
df.plot.scatter(x='MEDV',
y='RM')
.
plt.show()
最后,計(jì)算相關(guān)系數(shù)并用聚類熱圖(Heatmap)來進(jìn)行視覺呈現(xiàn),如圖8.10所示。
#
compute
pearson
correlation
corr
=
df.corr()
#
draw
heatmap
import
seaborn
as
sns
corr
=
df.corr()
sns.heatmap(corr)
plt.show()
顏色為紅色,表示正向關(guān)系;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026山東事業(yè)單位統(tǒng)考濰坊市寒亭區(qū)招聘初級綜合類崗位7人備考題庫及1套參考答案詳解
- 2026四川達(dá)州市嘉祥外國語學(xué)校招聘備考題庫及答案詳解參考
- 2026寧夏公務(wù)員考試備考題庫(984人)及參考答案詳解
- 2025至2030中國電子商務(wù)平臺用戶畫像與營銷策略研究報(bào)告
- 2026四川德陽市什邡市人民醫(yī)院招聘臨床護(hù)士、藥房藥師、康復(fù)技師4人備考題庫參考答案詳解
- 2025環(huán)球時(shí)報(bào)新媒體部實(shí)習(xí)生招聘備考題庫附答案詳解
- ???025年??谑忻捞m區(qū)疾病預(yù)防控制中心招聘9人(第一號)筆試歷年參考題庫附帶答案詳解
- 海南2025年海南省地質(zhì)環(huán)境監(jiān)測總站招聘筆試歷年參考題庫附帶答案詳解
- 濟(jì)寧2025年曲阜師范大學(xué)招聘8人(博士輔導(dǎo)員)筆試歷年參考題庫附帶答案詳解
- 2026中醫(yī)藥廣東省實(shí)驗(yàn)室誠聘科研、管理、工程技術(shù)、產(chǎn)業(yè)發(fā)展各領(lǐng)域英才117人備考題庫及答案詳解(考點(diǎn)梳理)
- 河堤植草護(hù)坡施工方案
- 2025中國氫能源產(chǎn)業(yè)發(fā)展現(xiàn)狀分析及技術(shù)突破與投資可行性報(bào)告
- 高校行政管理流程及案例分析
- 高效節(jié)水灌溉方式課件
- 基坑安全工程題庫及答案解析
- 《人間充質(zhì)基質(zhì)細(xì)胞來源細(xì)胞外囊泡凍干粉質(zhì)量要求》(征求意見稿)
- 2025年海南省中級經(jīng)濟(jì)師考試(工商管理專業(yè)知識和實(shí)務(wù))能力提高訓(xùn)練試題庫及答案
- 鄉(xiāng)鎮(zhèn)村監(jiān)會(huì)培訓(xùn)課件
- 入團(tuán)申請書教學(xué)課件
- 松下微波爐NN-DS581M使用說明書
- 2025年江蘇省招聘警務(wù)輔助人員考試真題及答案
評論
0/150
提交評論