數據科學與大數據技術導論-第4章-數據可視化_第1頁
數據科學與大數據技術導論-第4章-數據可視化_第2頁
數據科學與大數據技術導論-第4章-數據可視化_第3頁
數據科學與大數據技術導論-第4章-數據可視化_第4頁
數據科學與大數據技術導論-第4章-數據可視化_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據科學與大數據技術導論第4章數據可視化4.1可視化的定義

數據可視化是指利用計算機圖形學等技術,將數據通過圖形化的方式展示出來,直觀地表達數據中蘊含的信息、規(guī)律和邏輯,便于用戶進行觀察和理解。數據可視化是數據探索以及發(fā)現有價值的知識的手段。

數據可視化的優(yōu)點如下。(1)數據可視化用更直觀的圖形化的表現形式進行信息摘要。(2)數據可視化通過交互的方式,幫助用戶對數據進行探索,發(fā)現數據里面隱藏的模式,獲得對數據的洞察力和理解。4.2可視化發(fā)展歷程

在19世紀,隨著計算機圖形學技術的發(fā)展,以及社會對數據應用和分析需求的增加,加速了以統(tǒng)計圖表等為特征的現代數據可視化的誕生。這個時期的數據可視化圖表包括散點圖、直方圖、極坐標圖以及時間序列圖等統(tǒng)計圖表,以及以主題地圖為代表的主題圖,其中的典型代表是JohnSnow醫(yī)生制作的用于展示1854年倫敦霍亂爆發(fā)的主題地圖,如圖4.1所示。圖4.11854年倫敦霍亂地圖

隨著各行各業(yè)對數據的重視程度與日俱增,隨之而來的是對數據進行一站式整合、挖掘、分析、可視化的需求日益強烈,因此也誕生了一批以數據可視化分析為主要業(yè)務的公司。如2003年成立的Tableau公司,其愿景是使用可視化工具與其他工具,讓數據能夠更好地被理解,讓企業(yè)能夠把握不斷增長的數據流,促進數據發(fā)現,進而幫助人們進行更加合理的決策。

Tableau公司網站的主頁如圖4.2所示。圖4.2Tableau公司網站的主頁4.3可視化的意義和價值

可視化的特點是直觀、美觀、可交互。圖4.3ManuCornet繪制的國際知名公司的組織結構圖圖4.4某院校部分課程的學生平均成績與課程教學評估的分數及其散點圖4.4數據可視化的流程

圖4.5所示的原始數據中包含一批互聯網新聞,每篇新聞中包含幾百至幾千字的報道內容。對于這些內容,很難直接進行可視化。在可視化之前,可以先通過命名實體抽取和話題挖掘,統(tǒng)計分析出這些新聞中包含的熱門話題及其相應的頻度,然后采用合適的圖表對挖掘出來的這些結果和知識進行可視化。圖4.5互聯網新聞及其可視化4.5常見可視化圖表

常見的統(tǒng)計圖表有柱狀圖、折線圖、餅圖、散點圖、氣泡圖、雷達圖等,此外還有漏斗圖、樹圖、熱力圖、關系圖、詞云圖、事件河流圖、日歷圖等。圖4.6開課班級數年度對比4.5.1柱狀圖

柱狀圖適用于二維數據集(每個數據點包括兩個值:x和y),但只有一個維度需要比較,用于顯示一段時間內的數據變化或各項之間的比較情況。圖4.7是一個實例的柱狀圖,從該圖中可以很容易看出副教授的教學工作量(授課門數)要高于教授和講師。圖4.7示例柱形圖4.5.2折線圖

折線圖一般在按照時間序列分析數據的變化趨勢時使用,適用于較大的數據集。在通常情況下,折線圖的x軸設定為時間(或者有大小意義的其他值),y軸設定為其他指標值。分析數量、比例等指標整體變化趨勢時多用折線圖。圖4.8示例折線圖4.5.3餅圖

餅圖一般在指定一個分析軸進行所占比例的比較時使用,只適用于反應部分與整體之間的關系,部分之間的對比不強烈,如圖4.6所示。4.5.4散點圖

散點圖主要用于當數據中有兩個以上維度需要比較的時候使用。散點圖有時也用來展示數據中兩個維度之間的關聯關系。圖4.4中展示了一個散點圖。4.5.5雷達圖

雷達圖可以從不同角度對比數據之間的差異,一般來說,雷達圖中實際展示的數據點不超過6個,否則各數據點之間重疊會導致不容易觀察到數據之間的差異。圖4.9所示為兩個學者的行為畫像。從該圖中可以很容易看出學者一和學者二的差異。學者一的社交性和多樣性高于學者二,而學者二的核心學術成果(論文數、引用數等)明顯高于學者一。圖4.9某兩個學者的學術畫像雷達圖4.6可視化圖表工具

傳統(tǒng)的可視化工具包括微軟公司的Excel,新一代的支持互聯網數據可視化的工具有ECharts、HighChart、D3、GoogleCharts等。Python的第三方庫matplotlib是通過代碼進行可視化圖表制作的另一種選擇。1.Excel

利用Excel可以制作簡單的折線圖、柱狀圖等。在Excel中選擇需要進行可視化的數據,單擊“插入”選項卡中的“圖表”按鈕,從“圖表”中選擇一個合適的圖表樣式,或者從“所有圖表”中選擇一個自己喜歡的圖表即可創(chuàng)建圖表,如圖4.10所示。Excel提供了非常靈活多樣的配置功能,圖表中的線條、文字、填充等樣式都可以進行修改。圖4.10Excel提供的圖表2.ECharts

ECharts源自百度,目前是由Apache孵化器贊助的Apache開源基金會孵化項目。ECharts是一個使用JavaScript實現的開源可視化庫,可以流暢地運行在PC和移動智能設備上,兼容當前絕大部分瀏覽器(IE8/9/10/11、Chrome、Firefox、Safari等),底層依賴矢量圖形庫ZRender,提供直觀、交互豐富、可高度個性化定制的數據可視化圖表。

ECharts的界面如圖4.11所示。圖4.11ECharts的界面3.matplotlib

matplotlib是Python下2D繪圖中使用最廣泛的套件之一。它能讓用戶輕松地將數據圖形化,并且提供多樣化的輸出格式。matplotlib以各種硬拷貝格式和跨平臺的交互式環(huán)境生成出版物質量級別的圖形,支持繪制折線圖、散點圖、等高線圖、條形圖、柱狀圖、3D圖形等。關于matplotl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論