版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章大數(shù)據(jù)可視化提綱5.1大數(shù)據(jù)可視化技術(shù)概述5.2大數(shù)據(jù)可視化技術(shù)基礎(chǔ)5.3大數(shù)據(jù)可視化應(yīng)用5.4大數(shù)據(jù)可視化軟件和工具
本章首先從數(shù)據(jù)可視化簡(jiǎn)史和功能角度出發(fā),對(duì)大數(shù)據(jù)可視化技術(shù)的基本概念、可視化流程、可視化編碼和可視化設(shè)計(jì)進(jìn)行了簡(jiǎn)要介紹。然后介紹了一些大數(shù)據(jù)可視化的應(yīng)用領(lǐng)域,包括文本可視化、社交網(wǎng)絡(luò)可視化、日志數(shù)據(jù)可視化、地理信息可視化和數(shù)據(jù)可視化交互等應(yīng)用。最后介紹了大數(shù)據(jù)可視化的一些軟件和工具,例如VTK、3DSlicer、Python和R語言等。第5章內(nèi)容概述5.1大數(shù)據(jù)可視化技術(shù)概述5.1.1數(shù)據(jù)可視化簡(jiǎn)史1)16世紀(jì)之前:圖表萌芽2)17世紀(jì):物理測(cè)量數(shù)據(jù)可視化3)18世紀(jì):圖形符號(hào)4)19世紀(jì):數(shù)據(jù)圖形5)1900-1949年:現(xiàn)代啟蒙6)1950-1974年:多維信息的可視編碼7)1975-1987年:多維統(tǒng)計(jì)圖形8)1987-2004年:交互可視化9)2005年至今:可視分析學(xué)5.1.2數(shù)據(jù)可視化的功能從宏觀的角度看,可視化有3個(gè)功能:(1)信息記錄:將大規(guī)模的數(shù)據(jù)記錄下來,最有效的方式就是將信息成像或采用草圖記載。不僅如此,可視化呈現(xiàn)還能激發(fā)人的洞察力,幫助驗(yàn)證科學(xué)假設(shè)。(2)信息推理與分析:數(shù)據(jù)分析的任務(wù)通常包括定位、識(shí)別、區(qū)分、分類、聚類、分布、排列、比較、內(nèi)外連接比較、關(guān)聯(lián)和關(guān)系等。(3)信息傳播與協(xié)同:將復(fù)雜信息傳播與發(fā)布給公眾的最有效途徑就是將數(shù)據(jù)進(jìn)行可視化,達(dá)到信息共享、信息協(xié)作、信息修正和信息過濾等目的。5.1.2數(shù)據(jù)可視化的功能(1)信息記錄
20世紀(jì)的三大發(fā)現(xiàn)之一DNA分子結(jié)構(gòu)就起源于對(duì)DNA結(jié)構(gòu)的X射線衍射照片的分析。如下圖5-1所示。圖中左邊是DNA的B形51號(hào)X射線衍射照片;右邊是DNA的X射線衍射照片與雙螺旋結(jié)構(gòu)的晶體學(xué)解釋。5.1.2數(shù)據(jù)可視化的功能(2)信息推理與分析將信息以可視化的方式呈獻(xiàn)給用戶,使得用戶可以從可視化結(jié)果分析和推理出有效的信息,提高認(rèn)識(shí)信息的效率。數(shù)據(jù)可視化在對(duì)上下文的理解和數(shù)據(jù)推理有獨(dú)到的作用。19世紀(jì)歐洲霍亂大流行的時(shí)候,英國(guó)醫(yī)生JohnSnow繪制了一張倫敦的街區(qū)地圖如圖所示,該圖標(biāo)記了每個(gè)水井的位置和霍亂致死的病例地點(diǎn)。該圖清晰顯示有73個(gè)病例集中分布在布拉德街的水井附近,這就是著名的倫敦鬼圖。在拆除布拉德街水井搖把之后不久,霍亂就平息了。5.1.2數(shù)據(jù)可視化的功能(3)信息傳播與協(xié)同視覺感知是人類最主要的信息通道,人靠視覺獲取了70%以上的信息。俗話說的“一圖勝千言”或“百聞不如一見”就是這個(gè)意思。將復(fù)雜信息傳播與發(fā)布給公眾的最有效途徑就是將數(shù)據(jù)進(jìn)行可視化,達(dá)到信息共享、信息協(xié)作、信息修正和信息過濾等目的。以發(fā)生在1986年美國(guó)“挑戰(zhàn)者”號(hào)航天飛機(jī)失事為例說明數(shù)據(jù)可視化在信息傳播中的重要性?!疤魬?zhàn)者”號(hào)航天飛機(jī)事故的直接原因是兩個(gè)密封圈的故障,在航天飛機(jī)配件生產(chǎn)商提交給NASA的圖表上,工程師只列出了密封圈爆裂的相關(guān)數(shù)據(jù)表格,沒有足夠的說服力。如果采用清晰的可視化圖表,或許事故就不會(huì)發(fā)生。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介數(shù)據(jù)可視化與大數(shù)據(jù)可視化
數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)的視覺表現(xiàn)形式的科學(xué)技術(shù)研究。其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。
大數(shù)據(jù)可視化可以理解為數(shù)據(jù)量更加龐大,結(jié)構(gòu)更加復(fù)雜的數(shù)據(jù)可視化。大數(shù)據(jù)可視化側(cè)重于發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律特征,表現(xiàn)形式也多種多樣。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介2.大數(shù)據(jù)可視化的表達(dá)1)數(shù)據(jù)的可視化
數(shù)據(jù)的可視化的核心的是對(duì)原始數(shù)據(jù)采用什么樣的可視化元素來表達(dá)。下圖呈現(xiàn)的是中國(guó)電信區(qū)域人群檢測(cè)系統(tǒng)。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(2)指標(biāo)的可視化在大數(shù)據(jù)可視化過程中,采用可視化元素的方式將指標(biāo)可視化,會(huì)將可視化的效果增彩很多。下圖是對(duì)QQ群大數(shù)據(jù)資料進(jìn)行可視化分析。圖中顯示的是將近100G的QQ群數(shù)據(jù),其中企鵝圖標(biāo)的節(jié)點(diǎn)代表QQ,群圖標(biāo)的節(jié)點(diǎn)代表群。每條線代表一個(gè)關(guān)系,一個(gè)QQ可以加入N個(gè)群,一個(gè)群也可以有N個(gè)QQ加入。線的顏色分別代表:黃色為群主;綠色為群管理員;藍(lán)色為群成員。群主和管理員的關(guān)系線也比普通的群成員長(zhǎng)一些,這是為了突出群內(nèi)的重要成員的關(guān)系。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(3)數(shù)據(jù)關(guān)系的可視化數(shù)據(jù)關(guān)系往往也是可視化數(shù)據(jù)核心表達(dá)的主題宗旨。下圖是對(duì)自然科學(xué)領(lǐng)域1431種雜志的文章之間的217287個(gè)相互引用關(guān)系網(wǎng)絡(luò)的聚類可視化結(jié)果。所有1431個(gè)結(jié)點(diǎn)被分割聚合為54個(gè)模塊,每個(gè)模塊結(jié)點(diǎn)是一個(gè)聚類,而模塊的大小則對(duì)應(yīng)聚類中原來結(jié)點(diǎn)的數(shù)目。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(4)背景數(shù)據(jù)的可視化
很多時(shí)候光有原始數(shù)據(jù)是不夠的,因?yàn)閿?shù)據(jù)沒有價(jià)值,信息才有價(jià)值。設(shè)計(jì)師馬特·羅賓森和湯姆·維格勒沃斯用不同的圓珠筆和字體寫“Sample”這個(gè)單詞。因?yàn)椴煌煮w使用墨水量不同,所以每支筆所剩的墨水也不同。于是就產(chǎn)生了這幅很有趣的圖。在這幅圖中不再需要標(biāo)注坐標(biāo)系,因?yàn)椴煌墓P及其墨水含量已經(jīng)包含了這個(gè)信息。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(5)轉(zhuǎn)換成便于接受的形式
大數(shù)據(jù)可視化完成基本功能后可能還需要優(yōu)化。優(yōu)化包括按照人的接受模式、習(xí)慣和能力,甚至還需要考慮顯示設(shè)備的能力,然后進(jìn)行綜合改進(jìn),這樣才能更好地達(dá)到被接受的效果。例如做一個(gè)關(guān)于“銷售計(jì)劃”的可視化產(chǎn)品,原始數(shù)據(jù)是銷售額列表,采用柱狀圖來表達(dá);在圖表中增加一條銷售計(jì)劃線來表示銷售計(jì)劃數(shù)據(jù);最后在銷售計(jì)劃線上增加勾和叉的符號(hào),來表示完成和未完成計(jì)劃,如此看圖表的人更容易接受。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(6)強(qiáng)化大數(shù)據(jù)就必須要講一講強(qiáng)化。因?yàn)槭谴髷?shù)據(jù),所以很多時(shí)候數(shù)據(jù)、信息、符號(hào)對(duì)于接受者而言是過載的,可能就分辨不出來了,這時(shí)我們就需要在原來的可視化結(jié)果基礎(chǔ)上再進(jìn)行優(yōu)化。例如在上述的“銷售計(jì)劃”中,假設(shè)這個(gè)圖表重點(diǎn)是針對(duì)沒有完成計(jì)劃的銷售員的,那么我們可以強(qiáng)化叉是紅色的。如果柱狀圖中的柱是黑色,勾也是黑色,那么紅色的叉更為顯眼。(7)集中展示對(duì)這個(gè)“銷售計(jì)劃”可視化產(chǎn)品來說,還有很大的完善空間,例如為了讓管理者更好地掌握情況,我們可以增加一張沒有完成計(jì)劃的銷售人員數(shù)據(jù)表,這樣管理者在掌控全局的基礎(chǔ)上,還可以很容易抓住所有焦點(diǎn),進(jìn)行逐一處理。5.1.3大數(shù)據(jù)可視化簡(jiǎn)介(8)修飾
修飾是為了讓可視化的細(xì)節(jié)更為精準(zhǔn)、甚至優(yōu)美,比較典型的工作包括設(shè)置標(biāo)題,表明數(shù)據(jù)來源,對(duì)過長(zhǎng)的柱子進(jìn)行縮略處理,進(jìn)行表格線的顏色設(shè)置,各種字體、圖素粗細(xì)、顏色設(shè)置等。(9)完美風(fēng)格化
所謂風(fēng)格化就是標(biāo)準(zhǔn)化基礎(chǔ)上的特色化,最典型的例如增加企業(yè)、個(gè)人的LOGO,讓人們知道這個(gè)可視化產(chǎn)品屬于哪個(gè)企業(yè)、哪個(gè)人。而要做到真正完美的風(fēng)格化,還需要很多不同的操作。例如布局、顏色、圖標(biāo)、標(biāo)注、線型,甚至動(dòng)畫的時(shí)間、過渡等方面,從而讓人們更直觀地理解和接受。
5.2大數(shù)據(jù)可視化技術(shù)基礎(chǔ)
5.2.1數(shù)據(jù)可視化流程數(shù)據(jù)可視化流程一般以數(shù)據(jù)流向?yàn)橹骶€,主要分為數(shù)據(jù)采集、數(shù)據(jù)處理、可視化映射和用戶感知這四大模塊。整個(gè)數(shù)據(jù)可視化流程可以看成數(shù)據(jù)流經(jīng)過一系列處理模塊并得到轉(zhuǎn)換的過程。用戶可以通過可視化交互與其他模塊進(jìn)行互動(dòng),向前面模塊反饋而提高數(shù)據(jù)可視化的效果。具體的數(shù)據(jù)可視化流程有很多種,下圖是一個(gè)數(shù)據(jù)可視化流程的概念模型。
5.2.1數(shù)據(jù)可視化流程
數(shù)據(jù)采集數(shù)據(jù)處理和變換可視化映射用戶感知
數(shù)據(jù)可視化流程中的各個(gè)模塊之間的聯(lián)系并不是依照順序的線性聯(lián)系,而是任意兩個(gè)模塊之間都存在聯(lián)系。例如,可視化交互是數(shù)據(jù)可視化過程中,用戶控制修改數(shù)據(jù)采集、數(shù)據(jù)處理和變換、可視化映射各模塊而產(chǎn)生新的可視化結(jié)果,并反饋給用戶的過程。5.2.2數(shù)據(jù)可視化編碼
可視化編碼(visualencoding)是數(shù)據(jù)可視化的核心內(nèi)容。指將數(shù)據(jù)信息映射成可視化元素,映射結(jié)果通常具有表達(dá)直觀、易于理解和記憶等特性??梢暬赜煽梢暬臻g、標(biāo)記和視覺通道等三方面組成。標(biāo)記和視覺通道
標(biāo)記通常是一些幾何圖形元素,如點(diǎn)、線、面、體等,如圖所示。
5.2.2數(shù)據(jù)可視化編碼
視覺通道用于控制標(biāo)記的視覺特征,通??捎玫囊曈X通道包括標(biāo)記的位置、大小、形狀、顏色、方向、色調(diào)、飽和度、亮度等,如圖所示。
標(biāo)記的選擇通?;谌藗儗?duì)于事物理解的直覺。然而,不同的視覺通道在表達(dá)信息的作用和能力可能具有截然不同的特性。
5.2.2數(shù)據(jù)可視化編碼
2.可視化編碼元素的優(yōu)先級(jí)數(shù)據(jù)可視化的有效性取決于用戶的感知。盡管不同用戶的感知能力會(huì)有一定的差別,仍然可以假設(shè)大多數(shù)人對(duì)可視化元素有規(guī)律可循。Cleveland等研究人員發(fā)現(xiàn),當(dāng)數(shù)據(jù)映射為不同的可視化元素時(shí),人對(duì)不同可視化元素的感知準(zhǔn)確性是不同的。如圖給出了可視化元素在數(shù)值型數(shù)據(jù)可視化中編碼優(yōu)先級(jí)。
5.2.2數(shù)據(jù)可視化編碼
數(shù)據(jù)可視化的對(duì)象不僅包含數(shù)值型數(shù)據(jù),也包括非數(shù)值型數(shù)據(jù)。如圖優(yōu)先級(jí)自上而下的基本數(shù)據(jù)類型適用的可視化編碼方式。
5.2.2數(shù)據(jù)可視化編碼
3.統(tǒng)計(jì)圖表的可視化柱狀圖直方圖餅圖散點(diǎn)圖等值線圖熱力圖走勢(shì)圖顏色映射圖
5.2.2數(shù)據(jù)可視化編碼
根據(jù)不同的數(shù)據(jù)可視化分析需求可以歸納出采用的基本統(tǒng)計(jì)圖表可視化方法。如圖所示。
5.2.3數(shù)據(jù)可視化設(shè)計(jì)
1.數(shù)據(jù)可視化設(shè)計(jì)標(biāo)準(zhǔn)在進(jìn)行數(shù)據(jù)可視化設(shè)計(jì)時(shí)有適合大多數(shù)可視化設(shè)計(jì)的標(biāo)準(zhǔn)可以幫助設(shè)計(jì)者實(shí)現(xiàn)不同風(fēng)格可視化設(shè)計(jì)以及尋求最佳設(shè)計(jì)這些目標(biāo)。下面列出常見的一部分標(biāo)準(zhǔn)。1)強(qiáng)表達(dá)力2)強(qiáng)有效性有效性代表用戶對(duì)可視化顯示信息的理解效率。3)簡(jiǎn)潔性4)易用性5)美感數(shù)據(jù)可視化設(shè)計(jì)的側(cè)重點(diǎn)雖然不是視覺美感,但視覺上的美感可以讓用戶更易于理解可視化表達(dá)的內(nèi)容,更專注于對(duì)數(shù)據(jù)的考察和度量,從而提高數(shù)據(jù)可視化的效率。
5.2.3數(shù)據(jù)可視化設(shè)計(jì)
2.數(shù)據(jù)可視化設(shè)計(jì)的步驟(1)確定數(shù)據(jù)到圖形元素和視覺通道的映射;(2)視圖的選擇與用戶交互控制的設(shè)計(jì);(3)數(shù)據(jù)的篩選即確定在有限的可視化視圖空間中選擇適量的信息進(jìn)行編碼,以避免在數(shù)據(jù)量很大的情況下產(chǎn)生視覺混亂。
5.2.3數(shù)據(jù)可視化設(shè)計(jì)
3.數(shù)據(jù)可視化設(shè)計(jì)的直觀性
數(shù)據(jù)到可視化元素的映射需要充分利用人們已有的先驗(yàn)知識(shí),從而降低人們對(duì)信息的感知和認(rèn)識(shí)所需要的時(shí)間。如圖所示的數(shù)據(jù)可視化設(shè)計(jì)實(shí)際上是一個(gè)散點(diǎn)圖的可視化技術(shù)應(yīng)用。
5.2.3數(shù)據(jù)可視化設(shè)計(jì)
4.網(wǎng)格及其標(biāo)注的使用設(shè)計(jì)者可通過在水平和豎直方向加均勻網(wǎng)格線提高用戶對(duì)可視化中點(diǎn)的數(shù)值進(jìn)行比較時(shí)的精度。下圖展示了網(wǎng)格及其標(biāo)注是否被合理使用的例子。從左至右分別是網(wǎng)格的過多使用、合理使用和過少使用??梢钥闯龊侠硎褂镁W(wǎng)格及其標(biāo)注才能讓數(shù)據(jù)所映射的點(diǎn)被用戶很好地理解。
5.3大數(shù)據(jù)可視化應(yīng)用
本節(jié)主要介紹跨媒體數(shù)據(jù)中的文本數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、日志數(shù)據(jù)和地理信息數(shù)據(jù)的大數(shù)據(jù)可視化應(yīng)用以及大數(shù)據(jù)可視化的交互應(yīng)用。5.3.1文本可視化
文本是人類信息交流的主要傳播媒體之一,文本信息在人們?nèi)粘I钪袔缀鯚o處不在,如新聞、郵件、微博、小說和書籍等。
文本可視化基本流程包括三個(gè)主要步驟:即文本處理、可視化映射和交互操作。整個(gè)過程應(yīng)該圍繞用戶分析的需求設(shè)計(jì)。下面根據(jù)文本的模式或結(jié)構(gòu)、文檔的主題或主題分布、文本中的關(guān)聯(lián)等特征方面闡述一些文本數(shù)據(jù)可視化的經(jīng)典案例和應(yīng)用。5.3.1文本可視化標(biāo)簽云
標(biāo)簽云(tagcloud)又稱文本云(textcloud)或單詞云,是最直觀、最常見的對(duì)文本關(guān)鍵字進(jìn)行可視化的方法。標(biāo)簽云一般使用字體的大小與顏色對(duì)關(guān)鍵字的重要性進(jìn)行編碼。
如圖(來源于)是通過改進(jìn)標(biāo)簽云的布局對(duì)泰戈?duì)柕摹癟heFurthestDistanceInTheWorld”的內(nèi)容進(jìn)行可視化的結(jié)果。
5.3.1文本可視化
2. 小說視圖小說視圖(NovelViews)方法是使用簡(jiǎn)單的圖形將小說中的主要人物在小說中的分布情況進(jìn)行可視化。下圖(來源于/2013/NovelViews.html)的示例展示了小說《悲慘世界》中主要人物在各個(gè)章節(jié)的出現(xiàn)情況。
5.3.1文本可視化
3. 主題山地主題山地(themescapes)方法使用了抽象的三維山地景觀視圖隱喻文檔集合中各個(gè)文檔主題的分布,其中高度和顏色用來編碼主題相似的文檔的密度。如下圖所示。
4. 主題河流主題河流(themeriver)是用于時(shí)序型文本數(shù)據(jù)可視化的經(jīng)典方法。時(shí)序型文本通常是指具有內(nèi)在順序的文檔集合,例如一段時(shí)間內(nèi)的新聞報(bào)道、一套叢書等。由于時(shí)間軸是時(shí)序型文本的重要屬性,需要重點(diǎn)考慮時(shí)間軸的表示及可視化。如圖所示。
5.3.1文本可視化
5.3.2社交網(wǎng)絡(luò)可視化
社交網(wǎng)絡(luò)服務(wù)是指基于互聯(lián)網(wǎng)的人與人之間相互聯(lián)系、信息溝通和互動(dòng)娛樂的運(yùn)作平臺(tái)。Facebook、Twitter、微信、新浪微博、人人網(wǎng)、豆瓣等都是當(dāng)前普及的社交網(wǎng)站。基于這些社交網(wǎng)站提供的服務(wù)建立起來的虛擬化的網(wǎng)絡(luò)就是社交網(wǎng)絡(luò)。社交網(wǎng)絡(luò)是一個(gè)網(wǎng)絡(luò)型結(jié)構(gòu),由結(jié)點(diǎn)和結(jié)點(diǎn)之間連接組成。這些結(jié)點(diǎn)通常是指?jìng)€(gè)人或者組織,結(jié)點(diǎn)之間的連接關(guān)系有朋友關(guān)系、親屬關(guān)系、關(guān)注或轉(zhuǎn)發(fā)關(guān)系、支持或反對(duì)關(guān)系,擁有共同的興趣愛好等。社交網(wǎng)絡(luò)可視化是人們了解社交網(wǎng)絡(luò)的結(jié)構(gòu)、動(dòng)態(tài)、語義等方面的重要工具。不同用戶期待獲取不同的信息,所以可視化結(jié)果需要呈現(xiàn)出社交網(wǎng)絡(luò)不同方面的內(nèi)容。下面根據(jù)可視化所需揭示的內(nèi)容,闡述一些社交網(wǎng)絡(luò)可視化的經(jīng)典案例和應(yīng)用。
1. 結(jié)構(gòu)型結(jié)構(gòu)型可視化著重于展示社交網(wǎng)絡(luò)的結(jié)構(gòu),即體現(xiàn)社交網(wǎng)絡(luò)中參與者和他們之間的拓?fù)潢P(guān)系結(jié)構(gòu)。如圖顯示了運(yùn)用Nexus軟件對(duì)Facebook中某用戶的社交網(wǎng)絡(luò)可視化結(jié)果,可以看出該用戶若干個(gè)不同的朋友社交圈。
5.3.2社交網(wǎng)絡(luò)可視化
2. 時(shí)序型社交網(wǎng)絡(luò)中用戶的行為具有時(shí)間信息,將時(shí)間信息作為屬性融入社交網(wǎng)絡(luò)的可視化可以反映社交網(wǎng)絡(luò)的動(dòng)態(tài)變化情況。如圖顯示了本拉登的死亡消息在Twitter上的傳播折線圖。
5.3.2社交網(wǎng)絡(luò)可視化
3. 基于位置信息的可視化基于微博參與者位置信息的可視化對(duì)分析不同地區(qū)差異、交通梳理等有重要價(jià)值。如圖是將Twitter數(shù)據(jù)與地理位置結(jié)合的可視化結(jié)果。
5.3.2社交網(wǎng)絡(luò)可視化
5.3.3日志數(shù)據(jù)可視化
日志數(shù)據(jù)可以理解為一種記錄所觀察對(duì)象的行為信息的數(shù)據(jù)。日志數(shù)據(jù)的來源多種多樣,例如:電子商務(wù)網(wǎng)站的海量交易記錄、銀行系統(tǒng)的財(cái)務(wù)記錄、集群網(wǎng)絡(luò)產(chǎn)生的大量系統(tǒng)日志數(shù)據(jù)、GPS和移動(dòng)通信設(shè)備記錄的記錄等。下面根據(jù)可視化數(shù)據(jù)來源的差異,闡述一些日志數(shù)據(jù)可視化的經(jīng)典案例和應(yīng)用。商業(yè)交易數(shù)據(jù)可視化淘寶、京東、亞馬遜等電子商務(wù)交易平臺(tái)每時(shí)每刻產(chǎn)生用戶購買商品的交易信息。這些信息包括用戶登記的姓名、年齡、職業(yè)、郵寄地址、累計(jì)花銷、成交商品、成交金額、成交時(shí)間等屬性。這些個(gè)人信息與交易記錄具有巨大的數(shù)據(jù)分析價(jià)值。對(duì)商業(yè)交易數(shù)據(jù)進(jìn)行可視化可以直觀形象地展示數(shù)據(jù),提高數(shù)據(jù)分析和數(shù)據(jù)挖掘效率,從而帶來可觀的經(jīng)濟(jì)和社會(huì)效益。
5.3.3日志數(shù)據(jù)可視化
2. 用戶點(diǎn)擊流可視化用戶在網(wǎng)頁上的點(diǎn)擊流記錄了用戶在網(wǎng)頁上的每一次點(diǎn)擊動(dòng)作,用戶點(diǎn)擊流可用于分析用戶在線行為模式,高頻點(diǎn)擊流序列和特定行為模式的一類用戶的統(tǒng)計(jì)特征。下圖是用戶點(diǎn)擊流可視化示例。
5.3.4地理信息可視化
地理信息包含地球表面、地上、地下的所有與地理有關(guān)的信息。由于人類活動(dòng)的主要空間是地球,因此很多工程實(shí)踐、社會(huì)活動(dòng)和科學(xué)研究所產(chǎn)生的數(shù)據(jù)都含有地理信息。對(duì)這些地理數(shù)據(jù)進(jìn)行采集、描述、儲(chǔ)存、運(yùn)算、管理、分析和可視化的系統(tǒng)稱為地理信息系統(tǒng)(GIS)。地理信息數(shù)據(jù)的可視化是GIS的核心功能,在日常生活中應(yīng)用十分廣泛,例如高德地圖、凱立德地圖、GPS導(dǎo)航、用戶手機(jī)信息跟蹤、汽車軌跡查詢等。下面根據(jù)地理信息可視化數(shù)據(jù)映射形式的差異,闡述一些地理信息可視化的經(jīng)典案例和應(yīng)用。
5.3.4地理信息可視化
1. 點(diǎn)地圖可視化點(diǎn)數(shù)據(jù)的基本手段是在地圖的相應(yīng)位置擺放標(biāo)記或改變?cè)擖c(diǎn)的顏色,形成的結(jié)果稱為點(diǎn)地圖。點(diǎn)地圖不僅可以表現(xiàn)數(shù)據(jù)的位置,也可以根據(jù)數(shù)據(jù)的某種變量調(diào)整可視化元素的大小,例如圓圈和方塊的大小或者矩形的高度。2. 網(wǎng)絡(luò)地圖
網(wǎng)絡(luò)地圖是一種以地圖為定義域的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中的線段表達(dá)數(shù)據(jù)中的鏈接關(guān)系與特征。3. 等值區(qū)間地圖等值區(qū)間地圖是最常用的區(qū)域地圖方法。該方法假定地圖上每個(gè)區(qū)域內(nèi)的數(shù)據(jù)分布均勻,將區(qū)域內(nèi)相應(yīng)數(shù)據(jù)的統(tǒng)計(jì)值直接映射為該區(qū)域的顏色。每個(gè)區(qū)域的邊界是封閉的曲線。等值區(qū)間地圖可視化的重點(diǎn)是數(shù)據(jù)的歸一化處理和顏色映射的方法。
5.3.5數(shù)據(jù)可視化交互
大數(shù)據(jù)可視化幫助用戶洞悉數(shù)據(jù)內(nèi)涵的主要方式有兩種:顯示和交互。這兩種方式互相補(bǔ)充并處于一個(gè)反饋的循環(huán)中??梢暬@示是指數(shù)據(jù)經(jīng)過處理和可視化映射轉(zhuǎn)換成可視化元素并且呈現(xiàn)。可視化交互是指將用戶探索數(shù)據(jù)的意圖傳達(dá)到可視化系統(tǒng)中以改變可視化顯示。數(shù)據(jù)可視化用戶界面設(shè)計(jì)中,可取多種可視化交互方式,但其核心思路是:先看全局,放大并過濾信息,繼而按要求提供細(xì)節(jié)。在實(shí)際設(shè)計(jì)中,這個(gè)模型是設(shè)計(jì)的起點(diǎn),需要根據(jù)數(shù)據(jù)和任務(wù)進(jìn)行補(bǔ)充和拓展。下面根據(jù)可視化交互方法的差異,闡述一些數(shù)據(jù)可視化交互的經(jīng)典案例和應(yīng)用。
5.3.5數(shù)據(jù)可視化交互
1. 探索可視化交互中的探索操作讓用戶主動(dòng)尋找并調(diào)動(dòng)可視化程序去尋找感興趣的數(shù)據(jù)。探索過程中通常需要在可視化中加入新數(shù)據(jù)或去除不相關(guān)的數(shù)據(jù)。如圖是一個(gè)用戶可變換視點(diǎn)從不同角度觀察目標(biāo)的三維數(shù)據(jù)的探索過程。
5.3.5數(shù)據(jù)可視化交互
2. 簡(jiǎn)化或具體面對(duì)超大規(guī)模的數(shù)據(jù)可視化需要先簡(jiǎn)化數(shù)據(jù)再進(jìn)行顯示。簡(jiǎn)化或具體程度可以分成不同的等級(jí)。常用的得方法有下面三種。第一種,通過用戶交互改變數(shù)據(jù)的簡(jiǎn)化程度并且在不同的層次上顯示是可視化交互中廣泛應(yīng)用的方法;第二種也是最直觀的調(diào)整數(shù)據(jù)簡(jiǎn)化程度的方法是可視化視圖的放大或縮小操作;第三種是通過改變數(shù)據(jù)結(jié)構(gòu)或者調(diào)整繪制方法來實(shí)現(xiàn)簡(jiǎn)化操作。如圖是同一個(gè)三維數(shù)據(jù)在不同簡(jiǎn)化級(jí)別上的結(jié)果。
5.3.5數(shù)據(jù)可視化交互
3. 數(shù)據(jù)過濾數(shù)據(jù)過濾可以選取滿足某些性質(zhì)和條件的數(shù)據(jù),而濾除其他數(shù)據(jù)。在過濾交互過程中,除了現(xiàn)實(shí)的對(duì)象在改變外,可視化的其他元素(例如視角和顏色)均保持不變。如圖是兩個(gè)過濾操作在平行坐標(biāo)上的效果。5.4大數(shù)據(jù)可視化軟件和工具
本節(jié)首先介紹大數(shù)據(jù)可視化軟件的分類,然后具體介紹科學(xué)可視化、可視化分析和信息可視化領(lǐng)域的一些比較典型的可視化軟件系統(tǒng)。通過有限的例子讓用戶對(duì)可視化軟件系統(tǒng)的設(shè)計(jì)與性質(zhì)有一個(gè)大致的認(rèn)識(shí),幫助用戶按照需求選取合適的軟件。5.4.1大數(shù)據(jù)可視化軟件分類(1)適用用戶大數(shù)據(jù)可視化軟件從結(jié)構(gòu)上來一般可以分為開發(fā)軟件和應(yīng)用軟件。(2)適用領(lǐng)域大數(shù)據(jù)可視化軟件一般可以分為科學(xué)可視化、可視分析和信息可視化三個(gè)領(lǐng)域。(3)發(fā)布模式大數(shù)據(jù)可視化軟件可以分為開源軟件和商務(wù)軟件兩種。5.4.2科學(xué)可視化軟件和工具
1.VTKVTK(VisualizationToolkit)是一個(gè)開源、免費(fèi)、跨平臺(tái)的軟件系統(tǒng),主要用于三維計(jì)算機(jī)圖形學(xué)、圖像處理和數(shù)據(jù)可視化。它屏蔽了數(shù)據(jù)可視化開發(fā)過程中常用的算法,以C++類庫和眾多的翻譯接口層(Java、Python類)的形式提供數(shù)據(jù)可視化開發(fā)功能。它以用戶使用的方便性和靈活性為主要原則,具有如下的特點(diǎn):1)具有強(qiáng)大的三維圖形和數(shù)據(jù)可視化。2)VTK的體系結(jié)構(gòu)使其具有很好的流處理和高速緩存能力,適合于大數(shù)據(jù)可視化場(chǎng)合。3)VTK能夠更好的支持基于網(wǎng)絡(luò)的工具例如Java。4)VTK既可以工作于Windows又可以工作于Unix。5)VTK具有更豐富的數(shù)據(jù)類型。6)VTK中定義了許多宏。7)VTK支持并行處理超大規(guī)模數(shù)據(jù)。5.4.2科學(xué)可視化軟件和工具
2. 3DSlicer3DSlicer是一個(gè)免費(fèi)的、開源的、跨平臺(tái)的醫(yī)學(xué)圖像分析和可視化軟件,廣泛應(yīng)用于科學(xué)研究和醫(yī)學(xué)教育領(lǐng)域。3DSlicer支持Windows、Linux和MacOSX等操作系統(tǒng),支持醫(yī)學(xué)圖像分割、數(shù)據(jù)配準(zhǔn)等多項(xiàng)功能,具有如下的特點(diǎn):1)支持三維體數(shù)據(jù)、幾何網(wǎng)格數(shù)據(jù)的交互式可視化。2)支持手動(dòng)編輯、數(shù)據(jù)配準(zhǔn)與融合以及圖像的自動(dòng)分割。3)支持DICOM圖像和其他格式圖像的讀寫。4)支持功能磁共振成像和彌散張量成像的分析和可視化,提供圖像引導(dǎo)放射治療分析和圖像引導(dǎo)手術(shù)的功能。5.4.2科學(xué)可視化軟件和工具
3. GoogleEarthGoogleEarth是一款Google公司開發(fā)的虛擬地球儀軟件。最新版本GoogleEarth6針對(duì)桌面計(jì)算機(jī)系統(tǒng)推出了三種針對(duì)不同目標(biāo)用戶的版本:GoogleEarth、GoogleEarth專業(yè)版、GoogleEarth企業(yè)版。GoogleEarth向用戶提供了查看衛(wèi)星圖像、三維樹木、地形、三維建筑、街景視圖、行星等不同數(shù)據(jù)的視圖。支持計(jì)算機(jī)、移動(dòng)終端、瀏覽器等瀏覽應(yīng)用。5.4.3可視化分析軟件和工具
1. PythonPython是一款通用的編程語言,它原本并不是針對(duì)圖形設(shè)計(jì)的,但還是被廣泛地應(yīng)用于數(shù)據(jù)處理分析和Web應(yīng)用。因此,如果你已經(jīng)熟悉了這門語言,通過它來可視化探索數(shù)據(jù)就是合情合理的。盡管Python在可視化方面的支持并不是很全面,但你還是可以從學(xué)習(xí)Matplotlib庫和NumPy庫入手,這是個(gè)進(jìn)行大數(shù)據(jù)可視化繪制和分析方面很好的起點(diǎn)。下面舉一個(gè)簡(jiǎn)單的Python數(shù)據(jù)可視化的例子:如果有兩個(gè)變量,并且想標(biāo)記出它們之間的相關(guān)關(guān)系,散點(diǎn)圖是一種很好的解決方案。這種類型的圖形非常有用,可以作為更高級(jí)的多維大數(shù)據(jù)可視化的基礎(chǔ)。5.4.3可視化分析軟件和工具
啟動(dòng)Python的集成開發(fā)環(huán)境Anaconda的Spyder中運(yùn)行下面不相關(guān)數(shù)據(jù)和正強(qiáng)相關(guān)數(shù)據(jù)圖表的程序。importmatplotlib.pyplotaspltimportnumpyasnp#generatexvaluesx=np.random.randn(1000)#randommeasurements,nocorrelationy1=np.random.randn(len(x))#strongcorrelationy2=1.2+np.exp(x)ax1=plt.subplot(121)plt.scatter(x,y1,color='indigo',alpha=0.3,edgecolors='white',label='nocorrel')plt.xlabel('nocorrelation')plt.grid(True)plt.legend()ax2=plt.subplot(122,sharey=ax1,sharex=ax1)plt.scatter(x,y2,color='green',alpha=0.3,edgecolors='grey',label='correl')plt.xlabel('strongcorrelation')plt.grid(True)plt.legend()plt.show()5.4.3可視化分析軟件和工具
上面的Python生成的不相關(guān)數(shù)據(jù)和正強(qiáng)相關(guān)數(shù)據(jù)散點(diǎn)圖:5.4.3可視化分析軟件和工具
2. Palantir2004年成立的Palantir是美國(guó)硅谷一家大數(shù)據(jù)科技公司。Palantir名字的靈感來自當(dāng)時(shí)的電影《指環(huán)王》,在電影中Palantir是一個(gè)可以穿越時(shí)空、看到一切的水晶球,它可以幫助劇中人物和其它水晶球建立聯(lián)系,從而可以看到附近的圖像。Palantir作為大數(shù)據(jù)可視分析領(lǐng)域的標(biāo)桿性軟件,為政府機(jī)構(gòu)和經(jīng)融機(jī)構(gòu)提供高級(jí)數(shù)據(jù)分析服務(wù)。它的主要功能是鏈接網(wǎng)絡(luò)各類數(shù)據(jù)源,提供交互式的可視化界面,輔助用戶發(fā)現(xiàn)數(shù)據(jù)間的關(guān)鍵聯(lián)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 備課經(jīng)驗(yàn)精粹分享
- 《GBT 32514.2-2016 電阻焊 焊接電流的測(cè)量 第 2 部分:帶電流感應(yīng)線圈的焊接電流測(cè)量?jī)x》專題研究報(bào)告
- 《GB-T 25505-2010海洋漁業(yè)船舶系泊、航行及捕撈試驗(yàn)通則》專題研究報(bào)告
- 2026年甘肅省金昌市單招職業(yè)傾向性考試題庫帶答案詳解
- 《正常人體功能》課件-能量代謝與生物氧化
- 藥枕制作配方教程無水印版
- 跨境貿(mào)易信用證履約擔(dān)保協(xié)議
- 中藥材種植技術(shù)員崗位招聘考試試卷及答案
- 2026年農(nóng)村小學(xué)心理健康教育工作計(jì)劃(2篇)
- 2025年帶電作業(yè)技術(shù)會(huì)議:絕緣桿(板)類工具在配網(wǎng)絕緣手套作業(yè)法中的輔助應(yīng)用
- 鉗工知識(shí)基礎(chǔ)考試題庫及答案
- 2025年大學(xué)《區(qū)域國(guó)別學(xué)》專業(yè)題庫- 北京大學(xué)的非洲社會(huì)與文化研究
- 智算中心項(xiàng)目施工方案
- SF-36健康調(diào)查簡(jiǎn)表標(biāo)準(zhǔn)化操作手冊(cè)(2025年更新版)
- 餐飲業(yè)安全生產(chǎn)責(zé)任制
- 2025年西藏公務(wù)員考試試題真題
- 蛋雞買賣合同(標(biāo)準(zhǔn)版)
- 1.3.1細(xì)胞通過分裂產(chǎn)生新細(xì)胞說課稿-2024-2025學(xué)年人教版生物七年級(jí)上冊(cè)
- 大學(xué)生(英語專業(yè))生涯發(fā)展展示 適用于職業(yè)規(guī)劃模板1
- 2025至2030中國(guó)醫(yī)用多參數(shù)監(jiān)護(hù)儀行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 重要客戶開發(fā)匯報(bào)
評(píng)論
0/150
提交評(píng)論