Python數(shù)據(jù)可視化繪圖實(shí)例詳解_第1頁
Python數(shù)據(jù)可視化繪圖實(shí)例詳解_第2頁
Python數(shù)據(jù)可視化繪圖實(shí)例詳解_第3頁
Python數(shù)據(jù)可視化繪圖實(shí)例詳解_第4頁
Python數(shù)據(jù)可視化繪圖實(shí)例詳解_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第Python數(shù)據(jù)可視化繪圖實(shí)例詳解目錄利用可視化探索圖表1.數(shù)據(jù)可視化與探索圖2.常見的圖表實(shí)例數(shù)據(jù)探索實(shí)戰(zhàn)分享1.2013年美國社區(qū)調(diào)查2.波士頓房屋數(shù)據(jù)集

利用可視化探索圖表

1.數(shù)據(jù)可視化與探索圖

數(shù)據(jù)可視化是指用圖形或表格的方式來呈現(xiàn)數(shù)據(jù)。圖表能夠清楚地呈現(xiàn)數(shù)據(jù)性質(zhì),以及數(shù)據(jù)間或?qū)傩蚤g的關(guān)系,可以輕易地讓人看圖釋義。用戶通過探索圖(ExploratoryGraph)可以了解數(shù)據(jù)的特性、尋找數(shù)據(jù)的趨勢、降低數(shù)據(jù)的理解門檻。

2.常見的圖表實(shí)例

本章主要采用Pandas的方式來畫圖,而不是使用Matplotlib模塊。其實(shí)Pandas已經(jīng)把Matplotlib的畫圖方法整合到DataFrame中,因此在實(shí)際應(yīng)用中,用戶不需要直接引用Matplotlib也可以完成畫圖的工作。

1.折線圖

折線圖(linechart)是最基本的圖表,可以用來呈現(xiàn)不同欄位連續(xù)數(shù)據(jù)之間的關(guān)系。繪制折線圖使用的是plot.line()的方法,可以設(shè)置顏色、形狀等參數(shù)。在使用上,拆線圖繪制方法完全繼承了Matplotlib的用法,所以程序最后也必須調(diào)用plt.show()產(chǎn)生圖,如圖8.4所示。

df_iris[['sepal

length

(cm)']].plot.line()

plt.show()

ax

=

df[['sepal

length

(cm)']].plot.line(color='green',title="Demo",)

ax.set(xlabel="index",

ylabel="length")

plt.show()

2.散布圖

散布圖(ScatterChart)用于檢視不同欄位離散數(shù)據(jù)之間的關(guān)系。繪制散布圖使用的是df.plot.scatter(),如圖8.5所示。

df

=

df_iris

df.plot.scatter(x='sepal

length

(cm)',

y='sepal

width

(cm)')

from

matplotlib

import

cm

cmap

=

cm.get_cmap('Spectral')

df.plot.scatter(x='sepal

length

(cm)',

y='sepal

width

(cm)',

s=df[['petal

length

(cm)']]*20,

c=df['target'],

cmap=cmap,

title='different

circle

size

by

petal

length

(cm)')

3.直方圖、長條圖

直方圖(HistogramChart)通常用于同一欄位,呈現(xiàn)連續(xù)數(shù)據(jù)的分布狀況,與直方圖類似的另一種圖是長條圖(BarChart),用于檢視同一欄位,如圖8.6所示。

df[['sepal

length

(cm)',

'sepal

width

(cm)',

'petal

length

(cm)','petal

width

(cm)']].plot.hist()

2

df.target.value_counts().plot.bar()

4.圓餅圖、箱形圖

圓餅圖(PieChart)可以用于檢視同一欄位各類別所占的比例,而箱形圖(BoxChart)則用于檢視同一欄位或比較不同欄位數(shù)據(jù)的分布差異,如圖8.7所示。

df.target.value_counts().plot.pie(legend=True)

df.boxplot(column=['target'],?gsize=(10,5))

數(shù)據(jù)探索實(shí)戰(zhàn)分享

本節(jié)利用兩個(gè)真實(shí)的數(shù)據(jù)集實(shí)際展示數(shù)據(jù)探索的幾種手法。

1.2013年美國社區(qū)調(diào)查

在美國社區(qū)調(diào)查(AmericanCommunitySurvey)中,每年約有350萬個(gè)家庭被問到關(guān)于他們是誰及他們?nèi)绾紊畹脑敿?xì)問題。調(diào)查的內(nèi)容涵蓋了許多主題,包括祖先、教育、工作、交通、互聯(lián)網(wǎng)使用和居住。

數(shù)據(jù)來源

數(shù)據(jù)名稱:2013AmericanCommunitySurvey。

先觀察數(shù)據(jù)的樣子與特性,以及每個(gè)欄位代表的意義、種類和范圍。

#

讀取數(shù)據(jù)

df

=

pd.read_csv("./ss13husa.csv")

#

欄位種類數(shù)量

df.shape

#

(756065,231)

#

欄位數(shù)值范圍

df.describe()

先將兩個(gè)ss13pusa.csv串連起來,這份數(shù)據(jù)總共包含30萬筆數(shù)據(jù),3個(gè)欄位:SCHL(學(xué)歷,SchoolLevel)、PINCP(收入,Income)和ESR(工作狀態(tài),WorkStatus)。

pusa

=

pd.read_csv("ss13pusa.csv")

pusb

=

pd.read_csv("ss13pusb.csv")

#

串接兩份數(shù)據(jù)

col

=

['SCHL','PINCP','ESR']

df['ac_survey']

=

pd.concat([pusa[col],pusb[col],axis=0)

依據(jù)學(xué)歷對數(shù)據(jù)進(jìn)行分群,觀察不同學(xué)歷的數(shù)量比例,接著計(jì)算他們的平均收入。

group

=

df['ac_survey'].groupby(by=['SCHL'])

print('學(xué)歷分布:'

+

group.size())

group

=

ac_survey.groupby(by=['SCHL'])

print('平均收入:'

+group.mean())

2.波士頓房屋數(shù)據(jù)集

波士頓房屋數(shù)據(jù)集(BostonHousePriceDataset)包含有關(guān)波士頓地區(qū)的房屋信息,包506個(gè)數(shù)據(jù)樣本和13個(gè)特征維度。

數(shù)據(jù)來源

數(shù)據(jù)名稱:BostonHousePriceDataset。

先觀察數(shù)據(jù)的樣子與特性,以及每個(gè)欄位代表的意義、種類和范圍。

可以用直方圖的方式畫出房價(jià)(MEDV)的分布,如圖8.8所示。

df

=

pd.read_csv("./housing.data")

#

欄位種類數(shù)量

df.shape

#

(506,

14)

#欄位數(shù)值范圍df.describe()

import

matplotlib.pyplot

as

plt

df[['MEDV']].plot.hist()

plt.show()

注:圖中英文對應(yīng)筆者在代碼中或數(shù)據(jù)中指定的名字,實(shí)踐中讀者可將它們替換成自己需要的文字。

接下來需要知道的是哪些維度與房價(jià)關(guān)系明顯。先用散布圖的方式來觀察,如圖8.9所示。

#

draw

scatter

chart

df.plot.scatter(x='MEDV',

y='RM')

.

plt.show()

最后,計(jì)算相關(guān)系數(shù)并用聚類熱圖(Heatmap)來進(jìn)行視覺呈現(xiàn),如圖8.10所示。

#

compute

pearson

correlation

corr

=

df.corr()

#

draw

heatmap

import

seaborn

as

sns

corr

=

df.corr()

sns.heatmap(corr)

plt.show()

顏色為紅色,表示正向關(guān)系;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論