大數(shù)據(jù)可視化 第2版 課件全套1-14 第1章 數(shù)據(jù)可視化基礎(chǔ) - 第14章 數(shù)據(jù)可視化評(píng)測(cè)_第1頁(yè)
大數(shù)據(jù)可視化 第2版 課件全套1-14 第1章 數(shù)據(jù)可視化基礎(chǔ) - 第14章 數(shù)據(jù)可視化評(píng)測(cè)_第2頁(yè)
大數(shù)據(jù)可視化 第2版 課件全套1-14 第1章 數(shù)據(jù)可視化基礎(chǔ) - 第14章 數(shù)據(jù)可視化評(píng)測(cè)_第3頁(yè)
大數(shù)據(jù)可視化 第2版 課件全套1-14 第1章 數(shù)據(jù)可視化基礎(chǔ) - 第14章 數(shù)據(jù)可視化評(píng)測(cè)_第4頁(yè)
大數(shù)據(jù)可視化 第2版 課件全套1-14 第1章 數(shù)據(jù)可視化基礎(chǔ) - 第14章 數(shù)據(jù)可視化評(píng)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩1272頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

面向新工科高等院校大數(shù)據(jù)專(zhuān)業(yè)系列教材大數(shù)據(jù)可視化(第2版)大數(shù)據(jù)可視化(第2版)第1章數(shù)據(jù)可視化基礎(chǔ)弗洛倫斯·南丁格爾(1820年5月12日~1910年8月13日)是世界上第一個(gè)真正意義上的女護(hù)士,被譽(yù)為現(xiàn)代護(hù)理業(yè)之母,每年5.12國(guó)際護(hù)士節(jié)就是南丁格爾的生日。南丁格爾“極區(qū)圖”是作為統(tǒng)計(jì)學(xué)家的南

丁格爾對(duì)利用圖形來(lái)展示數(shù)據(jù)進(jìn)行的早期

探索,充分說(shuō)明了數(shù)據(jù)可視化的價(jià)值,特

別是在公共領(lǐng)域的價(jià)值?!緦?dǎo)讀案例】南丁格爾“極區(qū)圖”數(shù)據(jù)是什么?大部分人會(huì)含糊地回答說(shuō),數(shù)據(jù)是一種類(lèi)似電子表格的東西或者一大堆數(shù)字。有點(diǎn)兒技術(shù)背景的人會(huì)提及數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)。然而,這些回答只說(shuō)明了獲取數(shù)據(jù)的格式和存儲(chǔ)數(shù)據(jù)的方式,并未說(shuō)明數(shù)據(jù)的本質(zhì)是什么,以及特定的數(shù)據(jù)集代表著什么。第1章數(shù)據(jù)可視化基礎(chǔ)當(dāng)你可視化數(shù)據(jù)的時(shí)候,其實(shí)是在可視化現(xiàn)實(shí)世界的抽象表達(dá),或至少是將其細(xì)微方面可視化??梢暬軒椭銖莫?dú)立的數(shù)據(jù)點(diǎn)中解脫出來(lái),從一個(gè)不同的角度去探索它們。圖1-3杭州城市大腦20秒發(fā)現(xiàn)路面交通事件第1章數(shù)據(jù)可視化基礎(chǔ)01數(shù)據(jù)再認(rèn)識(shí)02數(shù)據(jù)的背景信息03數(shù)據(jù)預(yù)處理04數(shù)據(jù)組織與管理目錄/CONTENTS05數(shù)據(jù)分析與挖掘PART01數(shù)據(jù)再認(rèn)識(shí)要想把數(shù)據(jù)可視化,就必須知道它表達(dá)的是什么。數(shù)據(jù)是符號(hào)的集合,是表達(dá)客觀事物的未經(jīng)加工的原始素材。例如圖形、符號(hào)、數(shù)字、字母等都是數(shù)據(jù)的不同形式。數(shù)據(jù)模型是用來(lái)描述數(shù)據(jù)表達(dá)的底層描述模型,它包含數(shù)據(jù)的定義和類(lèi)型,以及不同類(lèi)型數(shù)據(jù)的操作功能,例如浮點(diǎn)數(shù)類(lèi)型可以配備加、減、乘、除操作等。與數(shù)據(jù)模型對(duì)應(yīng)的是概念模型,它對(duì)目標(biāo)事物的狀態(tài)和行為進(jìn)行抽象的語(yǔ)義描述,并提供構(gòu)建、推理支持等操作。例如,一維浮點(diǎn)數(shù)可以描述溫度,三維浮點(diǎn)數(shù)向量可以描述空間的風(fēng)向等。1.1數(shù)據(jù)再認(rèn)識(shí)數(shù)據(jù)是數(shù)據(jù)對(duì)象和其屬性的集合,屬性可以是變量、值域、特征或特性,如人類(lèi)頭發(fā)的顏色、人類(lèi)的體溫等。單個(gè)數(shù)據(jù)對(duì)象可以由一組屬性描述,稱(chēng)為記錄、點(diǎn)、實(shí)例、采樣、實(shí)體等。屬性值可以是表達(dá)屬性的任意數(shù)值或符號(hào),同一類(lèi)屬性可以具有不同的屬性值,例如,長(zhǎng)度的度量單位可以是英尺或米。不同的屬性也可能具有相同的取值和不同的含義,例如,年份和年齡都是整數(shù)型數(shù)值,而年齡通常有取值區(qū)間。1.1數(shù)據(jù)再認(rèn)識(shí)數(shù)據(jù)是現(xiàn)實(shí)世界的一個(gè)快照,會(huì)傳遞給我們大量的信息。一個(gè)數(shù)據(jù)點(diǎn)可以包含時(shí)間、地點(diǎn)、人物、事件、起因等因素。因此,一個(gè)數(shù)字不再只是滄海一粟??墒牵瑥囊粋€(gè)數(shù)據(jù)點(diǎn)中提取信息并不像一張照片那么簡(jiǎn)單。你需要觀察數(shù)據(jù)產(chǎn)生的來(lái)龍去脈,并把數(shù)據(jù)集作為一個(gè)整體來(lái)理解。關(guān)注全貌,比只注意到局部時(shí)更容易做出準(zhǔn)確的判斷。1.1數(shù)據(jù)再認(rèn)識(shí)通常在實(shí)施記錄時(shí),由于成本太高或者缺少人力,人們只能獲取零碎的信息,然后尋找其中的模式和關(guān)聯(lián),憑經(jīng)驗(yàn)猜測(cè)數(shù)據(jù)所表達(dá)的含義。數(shù)據(jù)和它所代表的事物之間的關(guān)聯(lián)既是把數(shù)據(jù)可視化的關(guān)鍵,也是全面分析數(shù)據(jù)的關(guān)鍵,同樣還是深層次理解數(shù)據(jù)的關(guān)鍵。計(jì)算機(jī)可以把數(shù)字批量轉(zhuǎn)換成不同的形狀和顏色,但是你必須建立起數(shù)據(jù)和現(xiàn)實(shí)世界的聯(lián)系,以便使用圖表的人能夠從中得到有價(jià)值的信息。1.1數(shù)據(jù)再認(rèn)識(shí)數(shù)據(jù)的分類(lèi)和信息與知識(shí)的分類(lèi)相關(guān)。從關(guān)系模型的角度講,數(shù)據(jù)可被分為實(shí)體和關(guān)系兩部分。實(shí)體是被可視化的對(duì)象;關(guān)系定義了實(shí)體與其他實(shí)體之間關(guān)系的結(jié)構(gòu)和模式。關(guān)系可被顯式地定義,也可在可視化過(guò)程中逐步挖掘。實(shí)體或關(guān)系可以配備屬性,實(shí)體、關(guān)系和屬性在數(shù)據(jù)庫(kù)設(shè)計(jì)中被廣泛使用,形成關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)。1.1.1數(shù)據(jù)分類(lèi)實(shí)體關(guān)系模型能描述數(shù)據(jù)之間的結(jié)構(gòu),但不考慮基于實(shí)體、關(guān)系和屬性的操作。常規(guī)的數(shù)據(jù)操作包括:數(shù)值計(jì)算;數(shù)據(jù)列表的插入、融合與刪除;取反;生成新的實(shí)體或關(guān)系;實(shí)體的變換;從其他對(duì)象中形成新對(duì)象;單個(gè)實(shí)體拆分成組件。1.1.1數(shù)據(jù)分類(lèi)數(shù)據(jù)屬性分為離散屬性和連續(xù)屬性。離散屬性的取值來(lái)自有限或可數(shù)的集合,例如郵政編碼、等級(jí)、文檔單詞等;連續(xù)屬性則對(duì)應(yīng)于實(shí)數(shù)域,例如溫度、高度和濕度等。在測(cè)量和計(jì)算機(jī)表示時(shí),實(shí)數(shù)精度受限于所采用的數(shù)值精度。針對(duì)這些基本數(shù)據(jù)類(lèi)型的交互方法有;概括、縮放、過(guò)濾、查看細(xì)節(jié)、關(guān)聯(lián)、查看歷史和提取等,這些基本任務(wù)構(gòu)成了可視化設(shè)計(jì)的基礎(chǔ)。1.1.1數(shù)據(jù)分類(lèi)數(shù)據(jù)集是數(shù)據(jù)的實(shí)例。常見(jiàn)的數(shù)據(jù)集的表達(dá)形式有三類(lèi)。(1)數(shù)據(jù)記錄集。由一組包含固定屬性值的數(shù)據(jù)元素組成。數(shù)據(jù)記錄主要有三種形式:數(shù)據(jù)矩陣、文檔向量表示和事務(wù)處理數(shù)據(jù)。如果數(shù)據(jù)對(duì)象具有一組固定的數(shù)值屬性,則數(shù)據(jù)對(duì)象可視為高維空間的點(diǎn)集,每個(gè)維度對(duì)應(yīng)單個(gè)屬性,這種數(shù)據(jù)集可以表達(dá)為一個(gè)m×n的矩陣,其中矩陣的每行代表一個(gè)對(duì)象,每列代表單個(gè)屬性在數(shù)據(jù)集中的分布。這種表示方法稱(chēng)為數(shù)據(jù)矩陣,它通常呈現(xiàn)為表格形式(見(jiàn)圖1-4)。1.1.2數(shù)據(jù)集圖1-4各過(guò)程之間順序及相互關(guān)系矩陣圖1.1.2數(shù)據(jù)集文檔是單詞的集合。如果統(tǒng)計(jì)文檔中所有單詞出現(xiàn)的頻率,則一個(gè)文檔可以被表示為一個(gè)向量,其長(zhǎng)度是單詞集的個(gè)數(shù),每個(gè)分量記錄單詞集中每個(gè)單詞在該文檔中的頻率。事務(wù)處理數(shù)據(jù)是一類(lèi)特殊的數(shù)據(jù)記錄,每條記錄都包含一組數(shù)據(jù)項(xiàng)。例如,一組超市購(gòu)物的事務(wù)處理數(shù)據(jù)是(西瓜,梨子,蘋(píng)果)、(洗發(fā)水,蘋(píng)果,核桃,香蕉)、(香煙,西瓜,口香糖,筆記本,臉盆)。事務(wù)處理數(shù)據(jù)與數(shù)據(jù)矩陣的差別在于,事務(wù)處理數(shù)據(jù)的每條記錄包含的個(gè)數(shù)和屬性不固定,因此無(wú)法用矩陣方式來(lái)表達(dá)。1.1.2數(shù)據(jù)集(2)圖數(shù)據(jù)集。這是一種非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),由一組節(jié)點(diǎn)和一組連接兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊組成。常見(jiàn)的圖數(shù)據(jù)有表達(dá)城市之間航空路線(xiàn)的世界航線(xiàn)圖、萬(wàn)維網(wǎng)鏈接圖、化學(xué)分子式等。樹(shù)是一種沒(méi)有回路的連通圖,是任意兩個(gè)頂點(diǎn)間有且只有一條路徑的圖。(3)有序數(shù)據(jù)集。這是具有某種順序的數(shù)據(jù)集,常見(jiàn)的有空間數(shù)據(jù)、時(shí)間數(shù)據(jù)、時(shí)空數(shù)據(jù)、順序數(shù)據(jù)和基因測(cè)序數(shù)據(jù)等。某些場(chǎng)合中,數(shù)據(jù)可以根據(jù)其維度進(jìn)行分類(lèi),如標(biāo)量(一維)、向量(多維)、張量(矩陣)等。1.1.2數(shù)據(jù)集相似度是衡量多個(gè)數(shù)據(jù)對(duì)象之間相似的數(shù)值,通常位于0和1之間。與之對(duì)應(yīng)的測(cè)度是相異度,其下限是0,上限與數(shù)據(jù)集有關(guān),可能超過(guò)1。鄰近度是相似度和相異度的統(tǒng)一描述。計(jì)算相似度有很多種方法,常用的距離和相似度定義有歐幾里得距離、明科夫斯基距離(歐幾里得距離的推廣)、余弦距離和Jaccard(杰卡德)相似度。如果數(shù)據(jù)對(duì)象的屬性具有多種類(lèi)型,則可為每個(gè)屬性計(jì)算相似度,再進(jìn)行加權(quán)平均。1.1.3相似度與密度在基于密度的數(shù)據(jù)聚類(lèi)時(shí),需要衡量數(shù)據(jù)的密度,通常定義有三類(lèi):(1)歐幾里得密度(單位區(qū)域內(nèi)點(diǎn)的數(shù)目)。其中最簡(jiǎn)單方法是將區(qū)域等分,統(tǒng)計(jì)每個(gè)部分包含的點(diǎn)的數(shù)目。另一種基于中心的歐幾里得密度定義為該點(diǎn)固定尺寸鄰域內(nèi)的點(diǎn)的數(shù)目。(2)基于圖結(jié)構(gòu)的密度。(3)概率密度。圖1-5使用Excel繪制F分布概率密度函數(shù)圖1.1.3相似度與密度德國(guó)物理學(xué)家兼業(yè)余攝影師克里斯蒂安·克維塞克經(jīng)常晚上帶著相機(jī)到小鎮(zhèn)的森林里,用長(zhǎng)時(shí)間曝光攝影,抓拍螢火蟲(chóng)在樹(shù)叢中飛舞的情景。螢火蟲(chóng)特別小,在白天幾乎看不見(jiàn),但是在晚上,除了樹(shù)林里,又很難在別的地方看到。雖然對(duì)觀察者來(lái)說(shuō),螢火蟲(chóng)飛行中的每個(gè)時(shí)刻都像是空間中隨機(jī)的點(diǎn),但在克維塞克的照片中還是出現(xiàn)了一個(gè)模式。1.1.4數(shù)據(jù)的可變性如圖1-6所示,看上去螢火蟲(chóng)們好像沿著小徑,環(huán)繞著大樹(shù),朝既定的方向飛舞。然而,這些依然是隨機(jī)的。下一次你可以根據(jù)這條飛行路線(xiàn)圖猜測(cè)螢火蟲(chóng)會(huì)往哪兒飛嗎?

圖1-6螢火蟲(chóng)之路1.1.4數(shù)據(jù)的可變性一只螢火蟲(chóng)隨時(shí)上下左右地飛竄,它的每次飛行都是獨(dú)一無(wú)二的。也正因?yàn)榇耍^察螢火蟲(chóng)才那么有趣,拍出來(lái)的照片才那么漂亮。你關(guān)心的是螢火蟲(chóng)飛行的路徑,而它的起點(diǎn)、終點(diǎn)和平均位置并沒(méi)有那么重要。從這些數(shù)據(jù)中,我們可以發(fā)現(xiàn)一些模式、趨勢(shì)和周期,但從A點(diǎn)到B點(diǎn)往往都不是一條平滑的線(xiàn)路??倲?shù)、平均值和聚合測(cè)量可能很有趣,但它們都只揭示了冰山一角而已。數(shù)據(jù)中的波動(dòng)才是最有趣、最重要的部分。1.1.4數(shù)據(jù)的可變性以美國(guó)國(guó)家公路交通安全管理局發(fā)布的公路交通事故數(shù)據(jù)為例,我們來(lái)了解數(shù)據(jù)的可變性。從2001年到2010年,根據(jù)美國(guó)國(guó)家公路交通安全管理局發(fā)布的數(shù)據(jù),全美共發(fā)生了363839起致命的公路交通事故。這個(gè)總數(shù)代表著那部分逝去的生命,把所有注意力放在這個(gè)數(shù)字上,能讓你深思,甚至反省自己的一生。然而,從這個(gè)數(shù)據(jù)中你能了解到什么呢?圖1-72001年~2010年全美公路

致命交通事故總數(shù)1.1.4數(shù)據(jù)的可變性美國(guó)國(guó)家公路交通安全管理局提供的數(shù)據(jù)具體到了每一起事故及其發(fā)生的時(shí)間和地點(diǎn),我們可以從中了解到更多的信息。如果在地圖中畫(huà)出2001年~2010年間全美國(guó)發(fā)生的每一起致命的交通事故,用一個(gè)點(diǎn)代表一起事故,就可以看到事故多集中發(fā)生在大城市和高速公路主干道上。這樣,這幅圖除了提醒我們重視交通安全之外,還告訴了我們美國(guó)公路網(wǎng)絡(luò)的情況。1.1.4數(shù)據(jù)的可變性觀察這些年里發(fā)生的交通事故,人們會(huì)把關(guān)注焦點(diǎn)切換到具體的事故上。圖1-8顯示了每年發(fā)生的交通事故數(shù),所表達(dá)的內(nèi)容與簡(jiǎn)單告訴你一個(gè)總數(shù)完全不同。雖然每年仍會(huì)發(fā)生成千上萬(wàn)起交通事故,但通過(guò)觀察可以看到,2006年到2010年間事故顯著呈下降趨勢(shì)。圖1-8每年的致命交通事故數(shù)1.1.4數(shù)據(jù)的可變性從圖1-9中可以看出,交通事故發(fā)生的季節(jié)性周期很明顯。夏季是事故多發(fā)期,因?yàn)榇藭r(shí)外出旅游的人較多。而在冬季,開(kāi)車(chē)出門(mén)旅行的人相對(duì)較少,事故就會(huì)少很多。每年都是如此。同時(shí),也可以看到2006年到2010年呈下降趨勢(shì)。圖1-9月度致命交通事故數(shù)1.1.4數(shù)據(jù)的可變性如果比較那些年的具體月份,還有一些變化。例如,在2001年,8月份的事故最多,9月份相對(duì)回落。從2002年到2004年每年都是這樣。從2005年到2007年,每年7月份的事故最多。從2008年到2010年又變成了8月份。另一方面,因?yàn)槊磕?月份的天數(shù)最少,事故數(shù)也就最少,只有2008年例外。因此,這里存在著不同季節(jié)的變化和季節(jié)內(nèi)的變化。1.1.4數(shù)據(jù)的可變性我們還可以更加詳細(xì)地觀察每日的交通事故數(shù),例如看出高峰和低谷模式,可以看出周循環(huán)周期,就是周末比周中事故多,每周的高峰日在周五、周六和周日間的波動(dòng)??梢岳^續(xù)增加數(shù)據(jù)的粒度,即觀察每小時(shí)的數(shù)據(jù)。重要的是,查看這些數(shù)據(jù)比查看平均數(shù)、中位數(shù)和總數(shù)更有價(jià)值。大多數(shù)時(shí)候總數(shù)或中值只告訴了你分布的中間在哪里,而未能顯示出應(yīng)該關(guān)注的細(xì)節(jié)。1.1.4數(shù)據(jù)的可變性一個(gè)獨(dú)立的離群值可能需要修正或特別注意,也許在你的體系中隨著時(shí)間推移其變化預(yù)示有好事(或壞事)將要發(fā)生。周期性或規(guī)律性的事件可以幫助你為將來(lái)做好準(zhǔn)備,但面對(duì)那么多的變化,它往往就失效了,這時(shí)應(yīng)該退回到整體和分布的粒度來(lái)進(jìn)行觀察。1.1.4數(shù)據(jù)的可變性人們可以輕松地識(shí)別可視物體,這種輕松正是計(jì)算機(jī)識(shí)別的難處。主要挑戰(zhàn)就是圖像的多變性——例如物體的位置、大小、方位、姿勢(shì)、亮度等,任何一個(gè)物體都可以在視網(wǎng)膜上投射下無(wú)數(shù)個(gè)不同的圖像。圖像變化多端,因此很難分辨不同的圖片是否包含了相同的人或物。而且,圖案識(shí)別也更加困難。要在一個(gè)句子中找出“總統(tǒng)”這個(gè)單詞很容易,在上百萬(wàn)個(gè)句子中找出它來(lái)也相對(duì)簡(jiǎn)單,但要在圖片中找出擁有“總統(tǒng)”這個(gè)頭銜的人卻困難重重。1.1.4數(shù)據(jù)的可變性通常大部分?jǐn)?shù)據(jù)都是估算的,并不精確。分析師會(huì)研究一個(gè)樣本,并據(jù)此猜測(cè)整體的情況。人們會(huì)基于自己的知識(shí)和見(jiàn)聞來(lái)猜測(cè),即使大多數(shù)時(shí)候猜測(cè)是正確的,但仍然存在著不確定性。如果你的數(shù)據(jù)是一系列平均數(shù)和中位數(shù),或者是基于一個(gè)樣本群體的一些估算,就應(yīng)該同時(shí)考慮它所存在的不確定性。當(dāng)人們基于類(lèi)似全國(guó)人口或世界人口的預(yù)測(cè)數(shù)做影響廣泛的重大決定時(shí),這一點(diǎn)尤為重要,因?yàn)橐粋€(gè)很小的誤差可能會(huì)導(dǎo)致巨大的差異。1.1.5數(shù)據(jù)的不確定性換個(gè)角度,想象一下你有一罐彩虹糖,你想猜猜罐子里每種顏色的彩虹糖各有多少顆。如果把一罐彩虹糖統(tǒng)統(tǒng)倒在桌子上,一顆顆數(shù)過(guò)去,就不用估算了,你已經(jīng)得到了總數(shù)。但是如果你只能抓一把,然后基于手里的彩虹糖推測(cè)整罐的情況。這一把越大估計(jì)值就越接近整罐的情況,也就越容易猜測(cè)。相反,如果只能拿一顆彩虹糖,那你幾乎就無(wú)法推測(cè)罐子里的情況。1.1.5數(shù)據(jù)的不確定性只拿一顆彩虹糖,誤差會(huì)很大。而拿一大把彩虹糖,誤差會(huì)小很多。如果把整罐都數(shù)一遍,誤差就是零。當(dāng)有數(shù)百萬(wàn)個(gè)彩虹糖裝在上千個(gè)大小不同的罐子里時(shí),分布各不相同,每一把的大小也不一樣,估算就會(huì)變得更復(fù)雜了。接下來(lái),把彩虹糖換成人,把罐子換成城、鎮(zhèn)和縣,把那一把彩虹糖換成隨機(jī)分布的調(diào)查,誤差的含義就有分量多了。1.1.5數(shù)據(jù)的不確定性PART02數(shù)據(jù)的背景信息雖然數(shù)據(jù)會(huì)因其可變性和不確定性而變得復(fù)雜,但將其放入一個(gè)合適的背景信息中,也許就會(huì)變得容易理解了。仰望夜空,滿(mǎn)天繁星看上去就像平面上的一個(gè)個(gè)點(diǎn)。你感覺(jué)不到視覺(jué)深度,會(huì)覺(jué)得星星都離你一樣遠(yuǎn)。把星空直接搬到紙面上,于是星座也就不難想象了,把一個(gè)個(gè)點(diǎn)連接起來(lái)即可。然而,實(shí)際上不同的星星與你之間的距離可能相差許多光年。假如你能飛得比星星還遠(yuǎn),星座看起來(lái)又會(huì)是什么樣子呢?

圖1-10星空視圖1.2數(shù)據(jù)的背景信息如果切換到顯示實(shí)際距離的模式,星星的位置轉(zhuǎn)移了,原先容易辨別的星座就幾乎都認(rèn)不出來(lái)了。從新的視角出發(fā),數(shù)據(jù)看起來(lái)就不同,這就是背景信息的作用。背景信息可以完全改變你對(duì)某一個(gè)數(shù)據(jù)集的看法,它能幫助你確定數(shù)據(jù)代表著什么以及如何解釋。在確切了解了數(shù)據(jù)的含義之后,你的理解會(huì)幫你找出有趣的信息,從而帶來(lái)有價(jià)值的可視化效果。1.2數(shù)據(jù)的背景信息使用數(shù)據(jù)而不了解除數(shù)值本身之外的任何信息,就好比引用理解了斷章取義的文章片段。這樣做或許沒(méi)有問(wèn)題,但卻可能完全誤解說(shuō)話(huà)人的意思。你必須首先了解何人、如何、何事、何時(shí)、何地以及何因,即元數(shù)據(jù),或者說(shuō)關(guān)于數(shù)據(jù)的數(shù)據(jù),然后才能了解數(shù)據(jù)的本質(zhì)是什么。1.2數(shù)據(jù)的背景信息何人(who):“誰(shuí)收集了數(shù)據(jù)”和“數(shù)據(jù)是關(guān)于誰(shuí)的”同樣重要。如何(how):大致了解怎樣獲取你感興趣的數(shù)據(jù)。如果數(shù)據(jù)是從網(wǎng)上獲取的,你不需要知道每種數(shù)據(jù)集背后精確的統(tǒng)計(jì)模型,但要小心小樣本,樣本小,誤差率就高;也要小心不合適的假設(shè),比如包含不一致或不相關(guān)信息的指數(shù)或排名等。何事(what):還要知道自己的數(shù)據(jù)的背景,你應(yīng)該知道圍繞在數(shù)字周?chē)男畔⑹鞘裁础?.2數(shù)據(jù)的背景信息何時(shí)(when):數(shù)據(jù)大都以某種方式與時(shí)間關(guān)聯(lián)。數(shù)據(jù)可能是一個(gè)時(shí)間序列,或者是特定時(shí)期的一組快照。不論是哪一種,你都必須清楚地知道數(shù)據(jù)是什么時(shí)候采集的。由于只能得到舊數(shù)據(jù),于是很多人便把舊數(shù)據(jù)當(dāng)成現(xiàn)在的對(duì)付一下,這是一種常見(jiàn)的錯(cuò)誤。事在變,人在變,地點(diǎn)也在變,數(shù)據(jù)自然也會(huì)變。何地(where):事情也會(huì)隨著城市、地區(qū)和國(guó)家的不同而變化。例如,不要將來(lái)自少數(shù)幾個(gè)國(guó)家的數(shù)據(jù)推及整個(gè)世界。同樣的道理也適用于數(shù)字定位。來(lái)自微信之類(lèi)網(wǎng)站的數(shù)據(jù)能夠概括網(wǎng)站用戶(hù)的行為,但未必適用于物理世界。1.2數(shù)據(jù)的背景信息為何(why):最后,你必須了解收集數(shù)據(jù)的原因,通常這是為了檢查數(shù)據(jù)是否存在偏頗。有時(shí)人們收集甚至捏造數(shù)據(jù)只是為了應(yīng)付某項(xiàng)議程。數(shù)據(jù)是曲折的、旋轉(zhuǎn)的,也是波動(dòng)的、個(gè)性化的,甚至是富有詩(shī)意的。因此,你可以看到多種形式的可視化數(shù)據(jù)。1.2數(shù)據(jù)的背景信息PART03數(shù)據(jù)預(yù)處理通常,與處理數(shù)據(jù)相關(guān)的工作時(shí)間會(huì)占據(jù)整個(gè)分析項(xiàng)目的70%以上。數(shù)據(jù)的質(zhì)量直接決定了模型的預(yù)測(cè)和泛化能力的好壞,它涉及很多因素,包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性。實(shí)際情況下,人們拿到的數(shù)據(jù)可能包含了大量的缺失值,可能包含大量的噪音,也可能因?yàn)槿斯や浫脲e(cuò)誤導(dǎo)致有異常點(diǎn)存在,不利于算法模型的訓(xùn)練。1.3數(shù)據(jù)預(yù)處理大數(shù)據(jù)時(shí)代收集數(shù)據(jù)的途徑多種多樣,通常有實(shí)驗(yàn)測(cè)量、計(jì)算機(jī)仿真與網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)?。傳統(tǒng)的數(shù)據(jù)獲取方式以文件輸入/輸出為主。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,基于網(wǎng)絡(luò)的多源數(shù)據(jù)交換占據(jù)主流。數(shù)據(jù)獲取的挑戰(zhàn)主要有數(shù)據(jù)格式變換和異構(gòu)異質(zhì)數(shù)據(jù)的獲取協(xié)議兩部分。數(shù)據(jù)的多樣性導(dǎo)致不同的數(shù)據(jù)語(yǔ)義表述,這些差異來(lái)自不同的安全要求、不同的用戶(hù)類(lèi)型、不同的數(shù)據(jù)格式、不同的數(shù)據(jù)來(lái)源。1.3.1數(shù)據(jù)獲取在科研領(lǐng)域應(yīng)用,作為一種通用的數(shù)據(jù)獲取標(biāo)準(zhǔn),數(shù)據(jù)獲取協(xié)議通過(guò)定義基于網(wǎng)絡(luò)的數(shù)據(jù)獲取句法,以完善數(shù)據(jù)交換機(jī)制,維護(hù)、發(fā)展和提升數(shù)據(jù)獲取效率。理論上,數(shù)據(jù)獲取協(xié)議是一個(gè)中立的、不受限于任何規(guī)則的協(xié)議,它提供跨越規(guī)則的句法的互操作性,允許規(guī)則內(nèi)的語(yǔ)義互操作性。數(shù)據(jù)獲取協(xié)議以文件為基礎(chǔ),提供數(shù)據(jù)格式、位置和數(shù)據(jù)組織的透明度,并以純Web化的方式與網(wǎng)格FTP/FTP、HTTP、SRB(源路由網(wǎng)橋)、開(kāi)放地理空間聯(lián)盟(如WCS,WMS,WFS)、天文學(xué)(如SIAP,SSAP,STAP)等協(xié)議兼容。1.3.1數(shù)據(jù)獲取此外,互聯(lián)網(wǎng)上存在大量免費(fèi)的數(shù)據(jù)資源,這些資源通常由網(wǎng)站進(jìn)行維護(hù),并開(kāi)放專(zhuān)門(mén)的API使用戶(hù)得以訪問(wèn)。例如,谷歌提供了許多用于免費(fèi)數(shù)據(jù)獲取的API,用于獲取高級(jí)定制搜索結(jié)果的谷歌自定義搜索,以及用于獲取地理坐標(biāo)信息的谷歌地理編碼API等。一些社交網(wǎng)站也開(kāi)放了數(shù)據(jù)獲取API,用于獲取社交網(wǎng)絡(luò)相關(guān)信息。1.3.1數(shù)據(jù)獲取數(shù)據(jù)清洗的結(jié)果是處理各種臟數(shù)據(jù),得到標(biāo)準(zhǔn)、干凈、連續(xù)的數(shù)據(jù),以供數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘等使用。對(duì)于海量數(shù)據(jù)來(lái)說(shuō),未經(jīng)處理的原始數(shù)據(jù)中包含大量的無(wú)效數(shù)據(jù),這些數(shù)據(jù)在到達(dá)存儲(chǔ)過(guò)程之前就應(yīng)該被過(guò)濾掉。在原始數(shù)據(jù)中,常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題包括:噪聲和離群值、數(shù)值缺失、數(shù)值重復(fù)等。解決這些問(wèn)題的方法稱(chēng)為數(shù)據(jù)清洗。1.3.2數(shù)據(jù)清洗(1)噪聲是指對(duì)真實(shí)數(shù)據(jù)的修改;離群值是指與大多數(shù)數(shù)據(jù)偏離較大的數(shù)據(jù)。(2)非結(jié)構(gòu)化數(shù)據(jù)通常會(huì)存在低質(zhì)量數(shù)據(jù)項(xiàng)(例如從網(wǎng)頁(yè)和傳感器網(wǎng)絡(luò)獲得的數(shù)據(jù))。數(shù)值缺失的主要原因包括:信息未被記錄;某些屬性不適用于所有實(shí)例等。處理數(shù)據(jù)缺失的方法有:刪除該數(shù)據(jù)對(duì)象、插值計(jì)算補(bǔ)充缺失值、分析時(shí)忽略該缺失值、用概率模型估算補(bǔ)充該缺失值等。(3)數(shù)值重復(fù)的主要來(lái)源是異構(gòu)數(shù)據(jù)源的合并。1.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗的其他操作還包括:運(yùn)用匯總統(tǒng)計(jì)刪除、分辨或者修訂錯(cuò)誤或不精確的數(shù)據(jù);調(diào)整數(shù)據(jù)格式和測(cè)量單位;數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化等。1.3.2數(shù)據(jù)清洗在數(shù)據(jù)集成與清洗之后,我們能夠得到整合了多數(shù)據(jù)源,同時(shí)數(shù)據(jù)質(zhì)量完好的數(shù)據(jù)集。但是,集成與清洗無(wú)法改變(縮?。?shù)據(jù)集的規(guī)模。由高維性帶來(lái)的維度災(zāi)難、數(shù)據(jù)的稀疏性和特征的多尺度性是大數(shù)據(jù)時(shí)代中數(shù)據(jù)所特有的性質(zhì)。直接對(duì)海量高維數(shù)據(jù)集進(jìn)行可視化通常會(huì)產(chǎn)生雜亂無(wú)章的結(jié)果,這種現(xiàn)象被稱(chēng)為視覺(jué)混亂。為了能夠在有限的顯示空間內(nèi)表達(dá)比顯示空間尺寸大得多的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)精簡(jiǎn)。1.3.3數(shù)據(jù)規(guī)約在數(shù)據(jù)存儲(chǔ)、分析層面進(jìn)行的數(shù)據(jù)精簡(jiǎn)能降低數(shù)據(jù)復(fù)雜度,減少數(shù)據(jù)點(diǎn)數(shù)目并同時(shí)保留數(shù)據(jù)中的內(nèi)涵特征,從而減少查詢(xún)和處理時(shí)的資源開(kāi)銷(xiāo),提高查詢(xún)的響應(yīng)性能。在數(shù)據(jù)倉(cāng)庫(kù)或聯(lián)機(jī)分析處理系統(tǒng)應(yīng)用中,數(shù)據(jù)精簡(jiǎn)可用于提升大規(guī)模數(shù)據(jù)查詢(xún)和管理的交互性。由于分析和推理只需要定性的結(jié)果,所以可采用近似解提高針對(duì)大數(shù)據(jù)的精簡(jiǎn)效率。1.3.3數(shù)據(jù)規(guī)約以是否可視化為標(biāo)準(zhǔn),數(shù)據(jù)精簡(jiǎn)方法可分為兩類(lèi)。(1)使用質(zhì)量指標(biāo)優(yōu)化非視覺(jué)因素,如時(shí)間、空間等;(2)使用質(zhì)量指標(biāo)優(yōu)化數(shù)據(jù)可視化,稱(chēng)為可視化數(shù)據(jù)精簡(jiǎn)。可視化數(shù)據(jù)精簡(jiǎn)需要自動(dòng)分析數(shù)據(jù)以便選擇和衡量數(shù)據(jù)的不同特征,如關(guān)聯(lián)性、布局和密度,這些量度指導(dǎo)和評(píng)估數(shù)據(jù)精簡(jiǎn)的過(guò)程,向用戶(hù)呈現(xiàn)優(yōu)化的可視化結(jié)果,常用的可視化質(zhì)量指標(biāo)包括尺寸、視覺(jué)有效性和特征保留度。1.3.3數(shù)據(jù)規(guī)約尺寸是可量化的量度,如數(shù)據(jù)點(diǎn)的數(shù)量,構(gòu)成了其他計(jì)算的基礎(chǔ),視覺(jué)有效性用于衡量圖像退化(如沖突、模糊)或可視布局的美學(xué)愉悅程度,常見(jiàn)方法有數(shù)據(jù)密度和數(shù)據(jù)油墨比等特征。數(shù)據(jù)油墨比被定義為用于展現(xiàn)數(shù)據(jù)的像素?cái)?shù)目與全部油墨像素?cái)?shù)目的比值。

圖1-11數(shù)據(jù)油墨比:左圖顯示的數(shù)據(jù)油墨比遠(yuǎn)低于右圖1.3.3數(shù)據(jù)規(guī)約特征保留度是評(píng)估可視化質(zhì)量的核心,它衡量可視化結(jié)果在數(shù)據(jù)、可視化和認(rèn)知方面正確展現(xiàn)數(shù)據(jù)特性的程度。通過(guò)技術(shù)手段降低數(shù)據(jù)規(guī)模也叫數(shù)據(jù)規(guī)約,即縮小數(shù)據(jù)挖掘所需要的數(shù)據(jù)集規(guī)模,具體方式有維度規(guī)約與數(shù)量規(guī)約。數(shù)據(jù)規(guī)約采用編碼方案,通過(guò)小波變換或主成分分析有效的壓縮原始數(shù)據(jù),或者通過(guò)特征提取技術(shù)進(jìn)行屬性子集的選擇或重造。1.3.3數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約處理操作主要有:(1)合并。將兩個(gè)以上的屬性或?qū)ο蠛喜?。合并操作的效用包括:有效?jiǎn)化數(shù)據(jù);改變數(shù)據(jù)尺度(例如,從鄉(xiāng)村起逐級(jí)合并,形成城鎮(zhèn)、地區(qū)、州、國(guó)家等);減少數(shù)據(jù)的方差。1.3.3數(shù)據(jù)規(guī)約(2)采樣。是統(tǒng)計(jì)學(xué)的基本方法,也是對(duì)數(shù)據(jù)進(jìn)行選擇的主要手段,經(jīng)常在對(duì)數(shù)據(jù)的初步探索和最后的數(shù)據(jù)分析環(huán)節(jié)時(shí)采用。統(tǒng)計(jì)學(xué)家實(shí)施采樣操作的根本原因是獲取或處理全部數(shù)據(jù)集的代價(jià)太高,或者時(shí)間開(kāi)銷(xiāo)無(wú)法接受。如果采樣結(jié)果大致具備原始數(shù)據(jù)的特征,那么這個(gè)采樣是具有代表性的。最簡(jiǎn)單的隨機(jī)采樣可以按某種分布隨機(jī)從數(shù)據(jù)集中等概率地選擇數(shù)據(jù)項(xiàng)。當(dāng)某個(gè)數(shù)據(jù)項(xiàng)被選中后,它可以繼續(xù)保留在采樣對(duì)象中,也可以在后繼采樣過(guò)程中被剔除。采樣也可分層次地,將數(shù)據(jù)全集分為多份,然后在每份中隨機(jī)采樣。1.3.3數(shù)據(jù)規(guī)約(3)降維。維度越高,數(shù)據(jù)集在高維空間的分布越稀疏,從而減弱了數(shù)據(jù)集對(duì)數(shù)據(jù)聚類(lèi)和離群值檢測(cè)等操作的影響。降低數(shù)據(jù)屬性維度有助于解決維度災(zāi)難,減少數(shù)據(jù)處理的時(shí)間和內(nèi)存消耗;可以更為有效地可視化數(shù)據(jù);降低噪聲或消除無(wú)關(guān)特征等。降維常規(guī)的做法有主元分析、奇異值分解等。1.3.3數(shù)據(jù)規(guī)約(4)特征子集選擇。從數(shù)據(jù)集中選擇部分?jǐn)?shù)據(jù)屬性值可以消除冗余的以及與任務(wù)無(wú)關(guān)的特征。特征子集選擇可達(dá)到降維的效果,但不破壞原始的數(shù)據(jù)屬性結(jié)構(gòu)。選擇方法包括:暴力枚舉法、特征重要性選擇、壓縮感知理論的稀疏表達(dá)方法等。(5)特征生成??梢栽谠紨?shù)據(jù)集基礎(chǔ)上構(gòu)建新的能反映數(shù)據(jù)集重要信息的屬性。常用的方法是特征抽取、將數(shù)據(jù)應(yīng)用到新空間、基于特征融合與特征變換的特征構(gòu)造。1.3.3數(shù)據(jù)規(guī)約(6)離散化與二值化。將數(shù)據(jù)集根據(jù)其分布劃分為若干個(gè)子類(lèi),形成對(duì)數(shù)據(jù)集的離散表達(dá),稱(chēng)為離散化。將數(shù)據(jù)值映射為二值區(qū)間,是數(shù)據(jù)處理中的常見(jiàn)做法。將數(shù)據(jù)區(qū)間映射到[0,1]區(qū)間的方法稱(chēng)為歸一化。(7)屬性變換。將某個(gè)屬性的所有可能值一一映射到另一個(gè)空間的做法稱(chēng)為屬性變換,如指數(shù)變換、取絕對(duì)值等。標(biāo)準(zhǔn)化與歸一化是兩類(lèi)特殊的屬性變換,其中標(biāo)準(zhǔn)化將數(shù)據(jù)區(qū)間變換到某個(gè)統(tǒng)一的區(qū)間范圍,歸一化則變換到[0,1]區(qū)間。1.3.3數(shù)據(jù)規(guī)約來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)具有高度異構(gòu)的特點(diǎn):不同的數(shù)據(jù)模型、不同的數(shù)據(jù)類(lèi)型、不同的命名方法、不同的數(shù)據(jù)單元等,例如來(lái)自不同國(guó)家氣象檢測(cè)站的氣象數(shù)據(jù),或不同企業(yè)的客戶(hù)數(shù)據(jù)等。當(dāng)需要對(duì)這些異構(gòu)數(shù)據(jù)的集合進(jìn)行處理時(shí),首先需要有效的數(shù)據(jù)集成方法對(duì)這些數(shù)據(jù)進(jìn)行整合,將不同數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換后統(tǒng)一融合在一個(gè)數(shù)據(jù)集合中,并提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。

圖1-12異構(gòu)數(shù)據(jù)的可視化1.3.4數(shù)據(jù)整合與集成數(shù)據(jù)整合的需求來(lái)源于多個(gè)方面。從數(shù)據(jù)獲取的角度看,數(shù)據(jù)獲取的不精確、大范圍的不協(xié)調(diào)數(shù)據(jù)采集策略、商業(yè)競(jìng)爭(zhēng)和存儲(chǔ)空間限制,來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)可能具有不同的質(zhì)量等都是進(jìn)行多數(shù)據(jù)源數(shù)據(jù)整合的原因。交互分析和可視數(shù)據(jù)的基本解決方案是采用工具或中間件進(jìn)行數(shù)據(jù)源包裝和數(shù)據(jù)庫(kù)聯(lián)合,提供通用模型用于交換異構(gòu)數(shù)據(jù)和實(shí)現(xiàn)物理層透明,同時(shí)處理異構(gòu)性,保存數(shù)據(jù)源的自主性及保證可擴(kuò)展性。更好的方式是基于計(jì)算查詢(xún)理念的語(yǔ)義整合,利用應(yīng)用領(lǐng)域的概念視圖而不是數(shù)據(jù)源的普通描述以提供概念數(shù)據(jù)的透明性。1.3.4數(shù)據(jù)整合與集成數(shù)據(jù)集成指數(shù)據(jù)庫(kù)應(yīng)用中結(jié)合不同資源的數(shù)據(jù)并為用戶(hù)提供數(shù)據(jù)集合的統(tǒng)一訪問(wèn),其涵蓋范圍要比數(shù)據(jù)整合廣。此外,數(shù)據(jù)整合與數(shù)據(jù)聯(lián)邦也有所區(qū)別:數(shù)據(jù)整合關(guān)注對(duì)眾多獨(dú)立和異構(gòu)的數(shù)據(jù)源提供統(tǒng)一和透明的訪問(wèn),使得原本無(wú)法被單數(shù)據(jù)源支持的查詢(xún)表達(dá)獲得支持,因此需要一個(gè)實(shí)際的物理數(shù)據(jù)源作為統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)來(lái)源;數(shù)據(jù)聯(lián)邦則提供了一種邏輯上統(tǒng)一、實(shí)際物理位置分布在多個(gè)數(shù)據(jù)源中的數(shù)據(jù)的集成。1.3.4數(shù)據(jù)整合與集成面對(duì)海量數(shù)據(jù),大多數(shù)時(shí)候我們很難通過(guò)直接觀察數(shù)據(jù)本身,或者對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單統(tǒng)計(jì)分析后得到數(shù)據(jù)中蘊(yùn)含的信息。例如,我們無(wú)法通過(guò)查看海量的服務(wù)器日志來(lái)判斷系統(tǒng)是否遭到攻擊威脅,或者簡(jiǎn)單統(tǒng)計(jì)交友網(wǎng)站上所有的好友關(guān)系來(lái)發(fā)掘用戶(hù)的喜好等。海量的數(shù)據(jù)通過(guò)可視化方法變成形象、生動(dòng)的圖形,有助于人類(lèi)對(duì)數(shù)據(jù)中的屬性、關(guān)系進(jìn)行深入探究,利用人類(lèi)智慧來(lái)挖掘數(shù)據(jù)中蘊(yùn)含的信息,從表面雜亂無(wú)章的海量數(shù)據(jù)中探究隱藏的規(guī)律,為科學(xué)發(fā)現(xiàn)、工程開(kāi)發(fā)、醫(yī)學(xué)診療和商業(yè)決策等提供依據(jù)。1.3.5數(shù)據(jù)可視化如圖1-13所示,可視化可以作用于數(shù)據(jù)科學(xué)過(guò)程中不同的部分,作為一種人機(jī)交互手段,貫穿于整個(gè)數(shù)據(jù)過(guò)程。

圖1-13可視化作為人機(jī)交互手段,貫穿于整個(gè)數(shù)據(jù)科學(xué)過(guò)程1.3.5數(shù)據(jù)可視化PART04數(shù)據(jù)組織與管理在科學(xué)研究領(lǐng)域,傳統(tǒng)的科學(xué)探究模式正受到來(lái)自大數(shù)據(jù)的強(qiáng)烈沖擊。隨著技術(shù)的不斷推進(jìn),諸如衛(wèi)星上的遠(yuǎn)程傳感器、天空望遠(yuǎn)鏡、生物顯微鏡以及大規(guī)??茖W(xué)計(jì)算模擬等設(shè)備和實(shí)驗(yàn)都會(huì)實(shí)時(shí)產(chǎn)生出海量數(shù)據(jù)流,在科學(xué)探索中發(fā)揮著越來(lái)越大的作用。科學(xué)研究人員在擁有大型數(shù)據(jù)集的同時(shí),也需要應(yīng)對(duì)這種數(shù)據(jù)密度的軟件工具和高性能計(jì)算資源,以協(xié)助進(jìn)行基于數(shù)據(jù)的科學(xué)研究。

圖1-14超新星模擬數(shù)據(jù)的可視化1.4數(shù)據(jù)組織與管理數(shù)據(jù)在政府管理、國(guó)家安全等領(lǐng)域的價(jià)值也越來(lái)越明顯。從2009年起,美國(guó)政府就通過(guò)數(shù)據(jù)網(wǎng)站開(kāi)始向公眾提供各類(lèi)政府?dāng)?shù)據(jù)。幾乎同時(shí),聯(lián)合國(guó)推出了“全球脈動(dòng)”項(xiàng)目,期望利用大數(shù)據(jù)促進(jìn)全球經(jīng)濟(jì)發(fā)展。同時(shí),國(guó)家戰(zhàn)略政策方針的制定也開(kāi)始依賴(lài)大數(shù)據(jù)和數(shù)據(jù)科學(xué),期望從數(shù)據(jù)中能夠?qū)ふ业街С謬?guó)家決策的有效信息。2015年我國(guó)政府發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》提出了“政府?dāng)?shù)據(jù)資源共享開(kāi)放”“國(guó)家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程”和“政府治理大數(shù)據(jù)工程”等專(zhuān)項(xiàng)。1.4.1數(shù)據(jù)的價(jià)值在服務(wù)科學(xué)蓬勃發(fā)展的今天,社會(huì)已經(jīng)走向“數(shù)據(jù)即服務(wù)(DaaS)”的時(shí)代。用戶(hù)可以隨時(shí)隨地按需求獲取數(shù)據(jù)和信息。海量數(shù)據(jù)帶來(lái)了相應(yīng)的海量數(shù)據(jù)處理及分析需求。然而,傳統(tǒng)方法難以應(yīng)對(duì)海量原始數(shù)據(jù)的直接處理和分析,在很多情況下數(shù)據(jù)被淹沒(méi)于浩瀚的“數(shù)據(jù)海洋”中,這些被淹沒(méi)的數(shù)據(jù)中不乏能夠提供有價(jià)值信息的數(shù)據(jù),因此,我們?cè)诮鉀Q大數(shù)據(jù)獲取、存儲(chǔ)等問(wèn)題的同時(shí),急需能夠針對(duì)大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和信息提取的方法。1.4.1數(shù)據(jù)的價(jià)值近年來(lái),以數(shù)據(jù)為研究對(duì)象的電子科學(xué)、信息科學(xué)、語(yǔ)義網(wǎng)絡(luò)、數(shù)據(jù)組織與管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等手段,可以有效地提取隱藏在數(shù)據(jù)中有價(jià)值的信息,并且將數(shù)據(jù)利用率提高到傳統(tǒng)方法所不能及的高度,是提煉科學(xué)原理、驗(yàn)證科學(xué)假設(shè)、服務(wù)科學(xué)探索的新思路。研究這種綜合性方法的交叉學(xué)科被稱(chēng)為“數(shù)據(jù)科學(xué)”,它涵蓋了數(shù)據(jù)管理、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、視覺(jué)設(shè)計(jì)、可視化、人機(jī)交互以及基于架構(gòu)式和信息技術(shù)的物理科學(xué),它改變了所有學(xué)科個(gè)人和協(xié)作工作的模式,使得無(wú)論是商業(yè)還是科學(xué)數(shù)據(jù)分析處理都上升到一個(gè)新的“數(shù)據(jù)驅(qū)動(dòng)”的階段,幫助數(shù)據(jù)分析師和科學(xué)家解決尺度、復(fù)雜度超越已有的所有工具承受范圍的全局問(wèn)題。1.4.1數(shù)據(jù)的價(jià)值從應(yīng)用角度出發(fā),適合使用數(shù)據(jù)科學(xué)的研究領(lǐng)域包括:地球科學(xué)、生物、天文、環(huán)境與氣候、化學(xué)、物理、航空、環(huán)境工程、數(shù)據(jù)圖書(shū)館和科學(xué)出版、商業(yè)、社會(huì)學(xué)、經(jīng)濟(jì)等。1.4.1數(shù)據(jù)的價(jià)值數(shù)據(jù)管理包括對(duì)數(shù)據(jù)進(jìn)行有效的收集、存儲(chǔ)、處理和應(yīng)用的過(guò)程。在面向復(fù)雜數(shù)據(jù)的數(shù)據(jù)可視化過(guò)程中,還涉及面向應(yīng)用的數(shù)據(jù)管理,它的管理對(duì)象是數(shù)據(jù)生命周期所涉及的應(yīng)用過(guò)程中描述構(gòu)成應(yīng)用系統(tǒng)構(gòu)件屬性的元數(shù)據(jù),包括流程、文件、數(shù)據(jù)元、代碼、規(guī)則、腳本、檔案、模型、指標(biāo)、物理表、ETL(抽取-轉(zhuǎn)換-裝載)、運(yùn)行狀態(tài)等。1.4.2數(shù)據(jù)管理通常數(shù)據(jù)按照一定的組織形式和規(guī)則進(jìn)行存儲(chǔ)和處理,以實(shí)現(xiàn)有效的數(shù)據(jù)管理。從邏輯上看,數(shù)據(jù)組織具有一個(gè)層層相連的層次體系:位、字符、數(shù)據(jù)元、記錄、文件、數(shù)據(jù)庫(kù)。其中,記錄是邏輯上相關(guān)的數(shù)據(jù)元組合;文件是邏輯上相關(guān)的記錄集合;數(shù)據(jù)庫(kù)是一種作為計(jì)算機(jī)系統(tǒng)資源共享的數(shù)據(jù)集合。1.4.2數(shù)據(jù)管理與數(shù)據(jù)可視化有關(guān)的常用數(shù)據(jù)組織和管理形式如下:(1)文件存儲(chǔ)。這是最簡(jiǎn)單的數(shù)據(jù)組織形式。以文件作為數(shù)據(jù)存儲(chǔ)形式,數(shù)據(jù)可能出現(xiàn)冗余、不一致,數(shù)據(jù)訪問(wèn)繁瑣,難以添加數(shù)據(jù)約束,安全性不高等問(wèn)題。然而作為一種高度靈活的數(shù)據(jù)存儲(chǔ)形式,它允許使用者非常自由地進(jìn)行數(shù)據(jù)處理而不受過(guò)多的約束。電子表單是得到廣泛使用的多功能數(shù)據(jù)組織形式,其主要缺點(diǎn)是缺少類(lèi)型和元數(shù)據(jù),因而在使用時(shí)需要預(yù)先給出對(duì)每個(gè)數(shù)據(jù)項(xiàng)的語(yǔ)義解釋。1.4.2數(shù)據(jù)管理(2)結(jié)構(gòu)化文件格式。為方便數(shù)據(jù)存儲(chǔ)和交換,數(shù)據(jù)導(dǎo)向型的應(yīng)用程序采用標(biāo)記語(yǔ)言格式將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織,XML(可擴(kuò)展標(biāo)記語(yǔ)言)是其中的典型代表。除此之外,一些科學(xué)領(lǐng)域使用特定的結(jié)構(gòu)化文件記錄數(shù)據(jù),以滿(mǎn)足特殊領(lǐng)域知識(shí)的表達(dá)高性能處理的需求,這些科學(xué)數(shù)據(jù)格式充分考慮了實(shí)驗(yàn)或測(cè)量數(shù)據(jù)的性能需求,適用于高分辨率、高通量的傳感器數(shù)據(jù)。1.4.2數(shù)據(jù)管理(3)數(shù)據(jù)庫(kù)。即存儲(chǔ)在計(jì)算設(shè)備,有組織、共享、統(tǒng)一的數(shù)據(jù)集合。數(shù)據(jù)庫(kù)中保存的數(shù)據(jù)結(jié)構(gòu)既描述了數(shù)據(jù)間的內(nèi)在聯(lián)系,便于數(shù)據(jù)增加、更新與刪除,也保證了數(shù)據(jù)的獨(dú)立性、可靠性、安全性與完整性,提高了數(shù)據(jù)的共享程度和管理效率。關(guān)系數(shù)據(jù)庫(kù)是最為常用的數(shù)據(jù)模型。1.4.2數(shù)據(jù)管理數(shù)據(jù)庫(kù)作為信息存儲(chǔ)應(yīng)用已經(jīng)成為數(shù)據(jù)服務(wù)的基礎(chǔ)。對(duì)于能夠獲取到的信息,需要一種強(qiáng)大的、靈活的管理系統(tǒng)和理論有效地組織、存儲(chǔ)和管理大量的數(shù)據(jù),以進(jìn)一步發(fā)揮這些數(shù)據(jù)的價(jià)值。在這樣的背景下,數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)運(yùn)而生,擔(dān)當(dāng)起數(shù)據(jù)組織和存儲(chǔ)的角色。1.4.3數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)除了數(shù)據(jù)的集合,數(shù)據(jù)庫(kù)同時(shí)包含對(duì)數(shù)據(jù)的相關(guān)組織和操作。數(shù)據(jù)庫(kù)管理系統(tǒng)用來(lái)幫助維護(hù)大量數(shù)據(jù)集合,滿(mǎn)足對(duì)數(shù)據(jù)存儲(chǔ)、管理、維護(hù)以及提供查詢(xún)、分析等服務(wù)的需要。數(shù)據(jù)庫(kù)管理系統(tǒng)通常需要考慮的因素:數(shù)據(jù)庫(kù)模型設(shè)計(jì)、數(shù)據(jù)分析支持、并發(fā)和容錯(cuò)和速度和存儲(chǔ)容量。數(shù)據(jù)庫(kù)結(jié)構(gòu)的基礎(chǔ)是數(shù)據(jù)模型,它是數(shù)據(jù)描述、數(shù)據(jù)聯(lián)系、數(shù)據(jù)域以及一致性約束的集合?,F(xiàn)有的數(shù)據(jù)模型主要有基于對(duì)象和基于記錄的邏輯模型。1.4.3數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)作為一種最常見(jiàn)的基于記錄的邏輯模型,關(guān)系模型廣泛應(yīng)用在各種關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中。它借助于關(guān)系代數(shù)等數(shù)學(xué)概念和方法來(lái)處理數(shù)據(jù)庫(kù)中的數(shù)據(jù),由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成。在關(guān)系數(shù)據(jù)庫(kù)中,數(shù)據(jù)以表格的形式表現(xiàn),數(shù)據(jù)之間的聯(lián)系由屬性值表達(dá)。NoSQL數(shù)據(jù)庫(kù)被認(rèn)為是不同于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)的總稱(chēng),這種數(shù)據(jù)庫(kù)能夠滿(mǎn)足對(duì)數(shù)據(jù)的高并發(fā)讀寫(xiě)、高效存儲(chǔ)和訪問(wèn)、數(shù)據(jù)庫(kù)高擴(kuò)展性和高可用性等需求,為社交網(wǎng)站等規(guī)模大、并發(fā)數(shù)高的應(yīng)用提供了符合其性能標(biāo)準(zhǔn)的解決方案。1.4.3數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)指“面向主題的、集成的、與時(shí)間相關(guān)的、主要用于存儲(chǔ)的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程”,其目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為分析人員提供決策支持。區(qū)別于其他類(lèi)型的數(shù)據(jù)存儲(chǔ)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)通常有特定的應(yīng)用方向,并且能夠集成多個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)還具有時(shí)變性、非易失性等特點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源于外部,開(kāi)放給外部應(yīng)用,其基本架構(gòu)是數(shù)據(jù)流入/流出的過(guò)程,該過(guò)程可以分為三層:源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)應(yīng)用,即ETL(抽取-轉(zhuǎn)換-裝載)。1.4.3數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)PART05數(shù)據(jù)分析與挖掘所謂數(shù)據(jù)分析,是指組織有目的地采集數(shù)據(jù)、詳細(xì)研究和概括總結(jié)數(shù)據(jù),從中提取有用信息并形成結(jié)論的過(guò)程,其目的是從一堆雜亂無(wú)章的數(shù)據(jù)中,萃取和提煉出信息,探索數(shù)據(jù)對(duì)象的內(nèi)在規(guī)律。概念上,數(shù)據(jù)分析的任務(wù)分解為定位、識(shí)別、區(qū)分、分類(lèi)、聚類(lèi)、分布、排列、比較、內(nèi)外連接比較、關(guān)聯(lián)、關(guān)系等活動(dòng)?;跀?shù)據(jù)可視化的分析任務(wù)則包括識(shí)別、決定、可視化、比較、推理、配置和定位。基于數(shù)據(jù)的決策則可分解為確定目標(biāo)、評(píng)價(jià)可供選擇方案,選擇目標(biāo)方案、執(zhí)行方案等。1.5數(shù)據(jù)分析與挖掘數(shù)據(jù)分析從統(tǒng)計(jì)學(xué)中發(fā)展而來(lái),具有代表性的分析方法有描述性分析、探索式分析、驗(yàn)證性分析等,其中探索式分析主要強(qiáng)調(diào)從數(shù)據(jù)中尋找出之前沒(méi)有發(fā)現(xiàn)過(guò)的特征和信息,驗(yàn)證性分析則強(qiáng)調(diào)通過(guò)分析數(shù)據(jù)來(lái)驗(yàn)證或證偽已提出的假說(shuō)。統(tǒng)計(jì)分析中的傳統(tǒng)數(shù)據(jù)分析工具包括:排列圖、因果圖、分層法、調(diào)查表、散布圖、直方圖、控制圖等。面向復(fù)雜關(guān)系和任務(wù),又發(fā)展了新的分析手段,如關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、計(jì)劃評(píng)審技術(shù)、矩陣數(shù)據(jù)圖等。流行的統(tǒng)計(jì)分析軟件如R、SPSS、SAS都支持大量的統(tǒng)計(jì)分析方法。1.5.1數(shù)據(jù)分析方法從流程上看,數(shù)據(jù)分析以數(shù)據(jù)為輸入,處理完畢后提煉出對(duì)數(shù)據(jù)的理解。因此,在整個(gè)數(shù)據(jù)工作流中,數(shù)據(jù)分析建立在數(shù)據(jù)組織和管理基礎(chǔ)上,通過(guò)通信機(jī)制和其他應(yīng)用程序連接,并采用數(shù)據(jù)可視化方法呈現(xiàn)數(shù)據(jù)分析的中間結(jié)果或最終結(jié)論。面向大型或復(fù)雜的異構(gòu)數(shù)據(jù)集,數(shù)據(jù)分析的挑戰(zhàn)是結(jié)合數(shù)據(jù)組織和管理的特點(diǎn),考慮數(shù)據(jù)可視化的交互性和操控性要求需求。1.5.1數(shù)據(jù)分析方法數(shù)據(jù)挖掘被認(rèn)為是一種專(zhuān)門(mén)的數(shù)據(jù)分析方式,與傳統(tǒng)的數(shù)據(jù)分析(如統(tǒng)計(jì)分析、聯(lián)機(jī)分析處理)方法的本質(zhì)區(qū)別是,前者在沒(méi)有明確假設(shè)的前提下去挖掘知識(shí),所得到的信息具有未知、有效和實(shí)用三個(gè)特征,并且數(shù)據(jù)挖掘的任務(wù)往往是預(yù)測(cè)性的而非傳統(tǒng)的描述性任務(wù)。數(shù)據(jù)挖掘的輸入可以是數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),或者是其他的數(shù)據(jù)源類(lèi)型,例如網(wǎng)頁(yè)、文本、圖像、視頻、音頻等。1.5.1數(shù)據(jù)分析方法聯(lián)機(jī)分析處理是面向分析決策的方法。傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)和統(tǒng)計(jì)分析工具負(fù)責(zé)提供數(shù)據(jù)庫(kù)中的內(nèi)容信息,而聯(lián)機(jī)分析處理則提供基于數(shù)據(jù)的假設(shè)驗(yàn)證方法。這個(gè)過(guò)程是一個(gè)演繹推理的過(guò)程。與之相反的是,數(shù)據(jù)挖掘并不驗(yàn)證某個(gè)假定的模型的正確性,而是從數(shù)據(jù)中計(jì)算未知的模型,因此本質(zhì)上是一個(gè)歸納的過(guò)程,通過(guò)構(gòu)建模型對(duì)未來(lái)進(jìn)行預(yù)測(cè)。1.5.1數(shù)據(jù)分析方法數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理都致力于模式發(fā)現(xiàn)和預(yù)測(cè),具有一定的互補(bǔ)性。當(dāng)然,數(shù)據(jù)挖掘并不能替代傳統(tǒng)的統(tǒng)計(jì)分析和探索式數(shù)據(jù)分析技術(shù)。在實(shí)際應(yīng)用中,需要針對(duì)不同的問(wèn)題類(lèi)型采用不同的方法。特別需要指出的是,將數(shù)據(jù)可視化作為一種可視思考策略和解決方法,可以有效地提高統(tǒng)計(jì)分析、探索式數(shù)據(jù)分析、數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理的效率。1.5.1數(shù)據(jù)分析方法探索式分析是一種有別于統(tǒng)計(jì)分析的新思路,是統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析結(jié)合的產(chǎn)物。著名的統(tǒng)計(jì)學(xué)家、信息可視化先驅(qū)約翰·圖基將探索式分析定義為一種以數(shù)據(jù)可視化為主的數(shù)據(jù)分析方法,其主要目的包括:洞悉數(shù)據(jù)的原理、發(fā)現(xiàn)潛在的數(shù)據(jù)結(jié)構(gòu)、抽取重要變量、檢測(cè)離群值和異常值、測(cè)試假設(shè)、發(fā)展數(shù)據(jù)精簡(jiǎn)模型、確定優(yōu)化因子設(shè)置等。大多數(shù)探索式分析關(guān)注數(shù)據(jù)本身,包括結(jié)構(gòu)、離群值、異常值和數(shù)據(jù)導(dǎo)出的模型。而傳統(tǒng)的統(tǒng)計(jì)分析關(guān)注模型,即估計(jì)模型的參數(shù),從模型生成預(yù)測(cè)值。1.5.2探索式分析從數(shù)據(jù)處理的流程上看,探索式分析和統(tǒng)計(jì)分析、貝葉斯分析也有很大不同。統(tǒng)計(jì)分析的流程是:?jiǎn)栴},數(shù)據(jù),模型,分析,結(jié)論;探索式分析的流程是:?jiǎn)栴},數(shù)據(jù),分析,模型,結(jié)論;貝葉斯分析的流程則是:?jiǎn)栴},數(shù)據(jù),模型,先驗(yàn)分布,分析,結(jié)論。探索式分析與數(shù)據(jù)挖掘也有很大差別。前者將聚類(lèi)和異常檢測(cè)看成探索式過(guò)程,而后者則關(guān)注模型的選擇和參數(shù)的調(diào)節(jié)。1.5.2探索式分析聯(lián)機(jī)分析處理(OLAP)是一種交互式探索大規(guī)模多維數(shù)據(jù)集的方法。關(guān)系數(shù)據(jù)庫(kù)將數(shù)據(jù)表示為表格中的行,而聯(lián)機(jī)分析處理則關(guān)注統(tǒng)計(jì)學(xué)意義上的多維數(shù)組。將表單數(shù)據(jù)轉(zhuǎn)換為多維數(shù)組需要兩個(gè)步驟。首先,確定作為多維數(shù)組索引項(xiàng)的屬性集合,以及作為多維數(shù)組數(shù)據(jù)項(xiàng)的屬性。作為索引項(xiàng)的屬性必須具有離散值,而對(duì)應(yīng)數(shù)據(jù)項(xiàng)的屬性通常是一個(gè)數(shù)值。然后,根據(jù)確定的索引項(xiàng)生成多維數(shù)組表示。1.5.3聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理的核心表達(dá)是多維數(shù)據(jù)模型,它可表達(dá)為多維數(shù)組的數(shù)據(jù)。數(shù)據(jù)立方是數(shù)據(jù)的一個(gè)各種聚合操作的多維表示,用于記錄包含數(shù)十個(gè)維度、數(shù)百萬(wàn)數(shù)據(jù)項(xiàng)的數(shù)據(jù)集,并在其基礎(chǔ)上構(gòu)建維度的層次結(jié)構(gòu)。通過(guò)對(duì)數(shù)據(jù)立方不同維度的聚合、檢索和數(shù)值計(jì)算等操作,可從不同角度完成對(duì)數(shù)據(jù)集的理解。由于數(shù)據(jù)立方的高維和大尺度,聯(lián)機(jī)分析處理面臨著設(shè)計(jì)高度交互性方法的挑戰(zhàn)。一種方案是預(yù)計(jì)算并存儲(chǔ)不同層級(jí)的聚合值,以減小數(shù)據(jù)尺度;另一種方案是從系統(tǒng)的可用性出發(fā),將任一時(shí)刻的處理對(duì)象限制在部分維度,從而減少處理的數(shù)據(jù)內(nèi)容。1.5.3聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理是交互式統(tǒng)計(jì)分析的高級(jí)形式,被廣泛看成是一種支持策略分析和決策制定過(guò)程的方法,與數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和數(shù)據(jù)可視化的目標(biāo)有很強(qiáng)的相關(guān)性。聯(lián)機(jī)分析處理面向復(fù)雜數(shù)據(jù),聯(lián)機(jī)分析處理方法的發(fā)展趨勢(shì)是融合數(shù)據(jù)可視化與數(shù)據(jù)挖掘方法,轉(zhuǎn)變?yōu)閿?shù)據(jù)的在線(xiàn)可視分析方法。例如,聯(lián)機(jī)分析處理將數(shù)據(jù)聚合后的結(jié)果存儲(chǔ)在另一張維度更低的數(shù)據(jù)表單中,并對(duì)該數(shù)據(jù)表單進(jìn)行排序以便呈現(xiàn)數(shù)據(jù)的規(guī)律。1.5.3聯(lián)機(jī)分析處理這種聚合-排序-布局的思路允許用戶(hù)結(jié)合數(shù)據(jù)可視化的方法(如時(shí)序圖、散點(diǎn)圖、地圖、樹(shù)圖和矩陣等)理解高維的數(shù)據(jù)立方表示。特別地,當(dāng)需要分析的數(shù)據(jù)集的維度高達(dá)數(shù)十維時(shí),采用聯(lián)機(jī)分析處理手工分析力不從心,數(shù)據(jù)可視化則可以快速地降低數(shù)據(jù)復(fù)雜度,提升分析效率和準(zhǔn)確度。1.5.3聯(lián)機(jī)分析處理數(shù)據(jù)挖掘指設(shè)計(jì)特定算法,從大量的數(shù)據(jù)集中去探索發(fā)現(xiàn)知識(shí)或者模式的理論和方法,是知識(shí)工程學(xué)科中知識(shí)發(fā)現(xiàn)的關(guān)鍵步驟。面向不同的數(shù)據(jù)類(lèi)型可以設(shè)計(jì)特定的數(shù)據(jù)挖掘方法,如數(shù)值型數(shù)據(jù)、文本數(shù)據(jù)、關(guān)系型數(shù)據(jù)、流數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)和多媒體數(shù)據(jù)等。1.5.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘的直觀定義是,通過(guò)自動(dòng)或半自動(dòng)的方法探索與分析數(shù)據(jù),從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,潛在有用的信息和知識(shí)的過(guò)程。不同于數(shù)據(jù)查詢(xún)或網(wǎng)頁(yè)搜索,數(shù)據(jù)挖掘融合統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)中的思路,特別關(guān)注異常數(shù)據(jù)、高維數(shù)據(jù)、異構(gòu)和異地?cái)?shù)據(jù)的處理等挑戰(zhàn)性問(wèn)題。1.5.4數(shù)據(jù)挖掘數(shù)據(jù)可視化是將數(shù)據(jù)以形象直觀方式展現(xiàn),讓用戶(hù)以視覺(jué)理解方式獲取數(shù)據(jù)中蘊(yùn)含的信息。數(shù)據(jù)挖掘則是從大量數(shù)據(jù)中識(shí)別有效、新穎、潛在有用、最終可理解的規(guī)律和知識(shí)。

圖1-15數(shù)據(jù)挖掘與信息可視化的流程對(duì)比1.5.4數(shù)據(jù)挖掘基本的數(shù)據(jù)挖掘任務(wù)分為兩類(lèi):基于某些變量的預(yù)測(cè)或未來(lái)值,即預(yù)測(cè)性方法(例如分類(lèi)、回歸),以人類(lèi)可解釋的模式描述數(shù)據(jù)(如聚類(lèi)、模式挖掘、關(guān)聯(lián)規(guī)則發(fā)現(xiàn))。在預(yù)測(cè)性方法中,對(duì)數(shù)據(jù)進(jìn)行分析的結(jié)論可構(gòu)建全局模型,并且將這種全局模型應(yīng)用于觀察值可預(yù)測(cè)目標(biāo)屬性的值。而描述性任務(wù)的目標(biāo)是使用能反映隱含關(guān)系和特征的局部模式,以對(duì)數(shù)據(jù)進(jìn)行總結(jié)。1.5.4數(shù)據(jù)挖掘數(shù)據(jù)工作流的定義是:多個(gè)用戶(hù)之間按照某種預(yù)定義的規(guī)則傳遞文檔、信息或任務(wù)的自動(dòng)過(guò)程。工作流概念起源于生產(chǎn)組織和辦公自動(dòng)化領(lǐng)域,用于描述一個(gè)特定的、實(shí)際的過(guò)程步驟,在計(jì)算機(jī)應(yīng)用環(huán)境下屬于計(jì)算機(jī)支持的協(xié)同工作的研究范疇。定義和遵循工作流有助于以標(biāo)準(zhǔn)化、自動(dòng)化的方式實(shí)現(xiàn)某個(gè)預(yù)期的業(yè)務(wù)目標(biāo),便于協(xié)同、分享、發(fā)布和傳播有效的工作模式。1.5.5數(shù)據(jù)工作流圖1-16呈現(xiàn)了一個(gè)工作流實(shí)例,其中每個(gè)方塊代表工作流中的一個(gè)步驟,每個(gè)步驟由一系列的活動(dòng)組成,步驟之間的連接代表數(shù)據(jù)流動(dòng),箭頭指向代表數(shù)據(jù)流動(dòng)的方向。

圖1-16工作流實(shí)例1.5.5數(shù)據(jù)工作流工作流常見(jiàn)的兩種形式有:面向商業(yè)流程和商業(yè)數(shù)據(jù)處理的商業(yè)工作流;面向科學(xué)研究過(guò)程控制和數(shù)據(jù)處理流程控制的科學(xué)工作流。而數(shù)據(jù)工作流特指為數(shù)據(jù)處理和分析流程定義的自動(dòng)過(guò)程,其本質(zhì)是計(jì)算業(yè)務(wù)過(guò)程的部分或整體在計(jì)算機(jī)應(yīng)用環(huán)境下的自動(dòng)化,與自動(dòng)化工程學(xué)科密切相關(guān)。將工作流應(yīng)用于科學(xué)研究是一個(gè)新興的研究方向。1.5.5數(shù)據(jù)工作流可視化在工作流系統(tǒng)中的應(yīng)用非常廣泛。在處理復(fù)雜數(shù)據(jù)和任務(wù)時(shí),數(shù)據(jù)的中間結(jié)果是工作流的一個(gè)環(huán)節(jié)。將數(shù)據(jù)可視化理念融合到數(shù)據(jù)工作流中,帶來(lái)的一些新的特點(diǎn)包括:圖形化、可視化設(shè)計(jì)流程圖;支持各種復(fù)雜流程;B/S結(jié)構(gòu);表單功能強(qiáng)大,擴(kuò)展便捷;處理過(guò)程可視化管理;統(tǒng)計(jì)、查詢(xún)和報(bào)表功能。隨著機(jī)器學(xué)習(xí)等領(lǐng)域的迅猛發(fā)展,以機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?yàn)橹饕獢?shù)據(jù)分析方法的數(shù)據(jù)科學(xué)工作流系統(tǒng)也蓬勃興起。這些系統(tǒng)主要以數(shù)據(jù)處理和分析模塊作為數(shù)據(jù)流的基本組成單元,通過(guò)拖曳等交互來(lái)構(gòu)建定制整個(gè)數(shù)據(jù)分析流程。1.5.5數(shù)據(jù)工作流01數(shù)據(jù)再認(rèn)識(shí)02數(shù)據(jù)的背景信息03數(shù)據(jù)預(yù)處理04數(shù)據(jù)組織與管理目錄/CONTENTS05數(shù)據(jù)分析與挖掘大數(shù)據(jù)可視化(第2版)周蘇教授QQ:81505050第1章數(shù)據(jù)可視化基礎(chǔ)面向新工科高等院校大數(shù)據(jù)專(zhuān)業(yè)系列教材大數(shù)據(jù)可視化(第2版)大數(shù)據(jù)可視化(第2版)第2章數(shù)據(jù)可視化之美在數(shù)據(jù)可視化中,多變量數(shù)據(jù)的描述一直是一個(gè)富有挑戰(zhàn)的課題,刺激著新技術(shù)的不斷產(chǎn)生,如坐標(biāo)圖、散點(diǎn)圖矩陣、關(guān)聯(lián)直方圖、鑲嵌圖等。這里,我們通過(guò)泰坦尼克號(hào)的例子來(lái)解釋鑲嵌圖的概念。【導(dǎo)讀案例】關(guān)于泰坦尼克號(hào)的“鑲嵌圖”人們可以依據(jù)數(shù)據(jù)來(lái)做出更好的決策。事實(shí)上,我們擁有的數(shù)據(jù)越多,從數(shù)據(jù)中提取出具有實(shí)踐意義的見(jiàn)解就顯得越發(fā)重要??梢暬蛿?shù)據(jù)是相伴而生的,數(shù)據(jù)可視化是指將數(shù)據(jù)以視覺(jué)的形式來(lái)呈現(xiàn),如圖表或地圖,以幫助人們了解這些數(shù)據(jù)的意義。但是,通過(guò)觀察數(shù)字、統(tǒng)計(jì)數(shù)據(jù)的轉(zhuǎn)換以獲得清晰的結(jié)論并不是一件容易的事。而人類(lèi)大腦對(duì)視覺(jué)信息的處理優(yōu)于對(duì)文本的處理,因此,使用圖表、圖形和設(shè)計(jì)元素,數(shù)據(jù)可視化可以幫助人們更容易地解釋數(shù)據(jù)模式、趨勢(shì)、統(tǒng)計(jì)數(shù)據(jù)和數(shù)據(jù)相關(guān)性,而這些內(nèi)容在其他呈現(xiàn)方式下可能難以被發(fā)現(xiàn)。第2章數(shù)據(jù)可視化之美可視化可以將事實(shí)融入數(shù)據(jù)并引起情感反應(yīng),它可以將大量數(shù)據(jù)壓縮成便于使用的知識(shí)。因此,可視化不僅是一種傳遞大量信息的有效途徑,它還和大腦直接聯(lián)系在一起,能觸動(dòng)情感,引起化學(xué)反應(yīng),它可能是傳遞數(shù)據(jù)信息最有效的方法之一。研究表明,不僅可視化本身很重要,何時(shí)、何地、以何種形式呈現(xiàn)對(duì)可視化來(lái)說(shuō)也至關(guān)重要。通過(guò)設(shè)置正確的場(chǎng)景,選擇恰當(dāng)?shù)念伾踔吝x擇一天中合適的時(shí)間,可視化可以更有效地傳達(dá)隱藏在大量數(shù)據(jù)中的真知灼見(jiàn)。科學(xué)證據(jù)證明了在傳遞信息時(shí)環(huán)境和傳輸?shù)闹匾?。?章數(shù)據(jù)可視化之美01數(shù)據(jù)與圖形02視覺(jué)信息的科學(xué)解釋03數(shù)據(jù)可視化方法04數(shù)據(jù)藝術(shù)世界目錄/CONTENTS05數(shù)據(jù)視覺(jué)分析PART01數(shù)據(jù)與圖形有的信息如果通過(guò)單純的數(shù)字和文字來(lái)傳達(dá),可能需要花費(fèi)數(shù)分鐘甚至幾小時(shí),甚至可能無(wú)法傳達(dá);但是通過(guò)顏色、布局、標(biāo)記和其他元素的融合,圖形卻能夠在幾秒鐘之內(nèi)就把這些信息傳達(dá)給我們。將信息可視化能有效地抓住人們的注意力。2.1數(shù)據(jù)與圖形人們?cè)谥朴啗Q策的時(shí)候了解事物的變化走勢(shì)至關(guān)重要。不管是討論銷(xiāo)售數(shù)據(jù)還是健康數(shù)據(jù),一個(gè)簡(jiǎn)單的數(shù)據(jù)點(diǎn)通常不足以告訴我們事情的整個(gè)變化走勢(shì)。我們?cè)谑褂秒娮颖砀褴浖幚頂?shù)據(jù)時(shí)會(huì)發(fā)現(xiàn),要從填滿(mǎn)數(shù)字的單元格中發(fā)現(xiàn)走勢(shì)是困難的。這就是諸如微軟電子表格軟件這類(lèi)程序內(nèi)置圖表生成功能的原因之一。一般來(lái)說(shuō),觀察一個(gè)折線(xiàn)圖、餅圖或條形圖的時(shí)候,更容易發(fā)現(xiàn)事物的變化走勢(shì)。圖2-3美國(guó)2015年7月非農(nóng)就業(yè)人口走勢(shì)2.1.1數(shù)據(jù)與走勢(shì)投資者常常要試著評(píng)估一個(gè)公司的業(yè)績(jī),一種方法就是及時(shí)查看公司在某一特定時(shí)刻的數(shù)據(jù)。比方說(shuō),管理團(tuán)隊(duì)在評(píng)估某一特定季度的銷(xiāo)售業(yè)績(jī)和利潤(rùn)時(shí),若沒(méi)有將之前幾個(gè)季度的情況考慮進(jìn)去的話(huà),他們可能會(huì)總結(jié)說(shuō)公司運(yùn)營(yíng)狀況良好。但實(shí)際上,投資者沒(méi)有從數(shù)據(jù)中看出公司每個(gè)季度的業(yè)績(jī)?cè)龇荚跍p少。表面上看銷(xiāo)售業(yè)績(jī)和利潤(rùn)似乎還不錯(cuò),而事實(shí)上如果不想辦法來(lái)增加銷(xiāo)量,公司甚至很快就會(huì)走向破產(chǎn)。2.1.1數(shù)據(jù)與走勢(shì)管理者或投資者在了解公司業(yè)務(wù)發(fā)展趨勢(shì)的時(shí)候,內(nèi)部環(huán)境信息是重要指標(biāo)之一。但他們同時(shí)也要了解外部環(huán)境,因?yàn)橥獠凯h(huán)境能了解該公司相對(duì)于其他公司運(yùn)營(yíng)情況如何。2.1.1數(shù)據(jù)與走勢(shì)外部環(huán)境是指同行業(yè)的其他公司在同一段時(shí)間內(nèi)的運(yùn)營(yíng)情況。不了解外部環(huán)境,管理者就很難洞悉究竟是什么導(dǎo)致了公司的業(yè)務(wù)受損。管理者有可能會(huì)錯(cuò)誤地認(rèn)為公司的運(yùn)營(yíng)情況不好??墒聦?shí)上,銷(xiāo)售業(yè)績(jī)下滑的原因可能是由大的行業(yè)問(wèn)題引起的,例如,房地產(chǎn)行業(yè)受政策調(diào)控的影響,航空業(yè)受出行減少的影響等。但是,即使管理者了解了內(nèi)部環(huán)境和外部環(huán)境,要想僅通過(guò)抽象的數(shù)字來(lái)看出端倪還是困難的,而圖形可以幫助解決這一問(wèn)題。2.1.1數(shù)據(jù)與走勢(shì)“可視化是壓縮知識(shí)的一種方式”。減少數(shù)據(jù)量是一種壓縮方式,如采用速記、簡(jiǎn)寫(xiě)的方式來(lái)表示一個(gè)詞或者一組詞。但是,數(shù)據(jù)經(jīng)過(guò)壓縮之后雖然更容易存儲(chǔ),卻讓人難以理解。圖片不僅可以容納大量信息,還是一種便于理解的表現(xiàn)方式。大數(shù)據(jù)里這樣的圖片就叫做“可視化”。地鐵圖、餅圖和條形圖都是可視化的表現(xiàn)方式。不過(guò),數(shù)據(jù)信息可能存儲(chǔ)在兩個(gè)不同的地方,數(shù)據(jù)信息不統(tǒng)一的表達(dá)方式也使人們難以理解數(shù)據(jù)真正想傳達(dá)的信息。但是,通過(guò)獲取所有這些數(shù)據(jù)信息,并將之繪制成圖表,數(shù)據(jù)就不再是簡(jiǎn)單的數(shù)據(jù),它變成了知識(shí)。2.1.1數(shù)據(jù)與走勢(shì)假設(shè)你是第一次來(lái)到杭州,你很興奮,激動(dòng)地想?yún)⒂^杭州的西湖名勝古跡、博物館以及2023亞運(yùn)場(chǎng)館等,從一個(gè)地方趕到另一個(gè)地方。為此,你需要利用當(dāng)?shù)氐陌l(fā)達(dá)的交通系統(tǒng)——地鐵,幸運(yùn)的是,杭州地鐵圖可以傳達(dá)你所需要的數(shù)據(jù)信息。圖2-4杭州地鐵運(yùn)營(yíng)線(xiàn)路圖2.1.2地圖傳遞信息地圖上每條線(xiàn)路都按照順序用不同顏色標(biāo)記出來(lái)的。你可以在上面看到線(xiàn)路交叉的站點(diǎn),這樣一來(lái),要知道在哪里換乘,就很容易了??梢哉f(shuō)突然之間,弄清楚如何搭乘地鐵變成了輕而易舉的事情。地鐵圖呈獻(xiàn)給你的不僅是數(shù)據(jù)信息,更是清晰的認(rèn)知。2.1.2地圖傳遞信息你不僅知道該搭乘哪條線(xiàn)路,還大概知道了到達(dá)目的地需要花多長(zhǎng)時(shí)間。無(wú)須多想,你就知道到達(dá)目的地有8個(gè)站,每個(gè)站之間大概需要幾分鐘,因而可以計(jì)算出從你所在位置到“大運(yùn)河博物館”要花多少分鐘。此外,地鐵圖上的路線(xiàn)還用不同顏色來(lái)幫助辨認(rèn)。如此一來(lái),不管是在地圖上還是地鐵外的墻壁上,只要你想查找地鐵線(xiàn)路,都能通過(guò)顏色快速辨別。2.1.2地圖傳遞信息將信息可視化能有效地抓住人們的注意力。有的信息如果通過(guò)單純的數(shù)字和文字來(lái)傳達(dá)可能需要花費(fèi)較長(zhǎng)時(shí)間,甚至也許無(wú)法傳達(dá);但是通過(guò)顏色、布局、標(biāo)記和其他元素的融合,圖形卻能夠在幾秒鐘之內(nèi)就把這些信息傳達(dá)給我們。2.1.2地圖傳遞信息PART02視覺(jué)信息的科學(xué)解釋在數(shù)據(jù)可視化領(lǐng)域,耶魯大學(xué)的愛(ài)德華·塔夫特被譽(yù)為“數(shù)據(jù)界的列奧納多·達(dá)·芬奇”。他聚焦于將每一個(gè)數(shù)據(jù)都做成圖示物——無(wú)一例外。塔夫特指出,可視化不僅能作為商業(yè)工具發(fā)揮作用,還能以一種視覺(jué)上引人入勝的方式傳達(dá)數(shù)據(jù)信息。2.2視覺(jué)信息的科學(xué)解釋塔夫特在其著作《出色的證據(jù)》中提出的關(guān)于分析圖形設(shè)計(jì)的基本原則是:(1)體現(xiàn)出比較、對(duì)比、差異。(2)體現(xiàn)出因果關(guān)系、機(jī)制、理由、體統(tǒng)結(jié)構(gòu)。(3)體現(xiàn)出多元數(shù)據(jù),即體現(xiàn)出1個(gè)或2個(gè)變量。(4)將文字、數(shù)字、圖片、圖形全面結(jié)合起來(lái)。(5)充分描述證據(jù)。(6)數(shù)據(jù)分析報(bào)告的成敗在于報(bào)告內(nèi)容的質(zhì)量、相關(guān)性和整體性。2.2視覺(jué)信息的科學(xué)解釋根據(jù)美國(guó)賓夕法尼亞大學(xué)醫(yī)學(xué)院的研究估計(jì),通常情況下,人類(lèi)視網(wǎng)膜“視覺(jué)輸入(信息)的速度可以和以太網(wǎng)的傳輸速度相媲美”。在研究中,研究者將一只取自豚鼠的完好視網(wǎng)膜和一臺(tái)叫作“多電極陣列”的設(shè)備連接起來(lái),該設(shè)備可以測(cè)量神經(jīng)節(jié)細(xì)胞中的電脈沖峰值。神經(jīng)節(jié)細(xì)胞將信息從視網(wǎng)膜傳達(dá)到大腦。基于這一研究,科學(xué)家們能夠估算出所有神經(jīng)節(jié)細(xì)胞傳遞信息的速度。其中,一只豚鼠視網(wǎng)膜含有大概100000個(gè)神經(jīng)節(jié)細(xì)胞。然后,相應(yīng)地,科學(xué)家們就能夠計(jì)算出人類(lèi)視網(wǎng)膜中的細(xì)胞每秒能傳遞多少數(shù)據(jù)。2.2.1人類(lèi)視覺(jué)的接受能力人類(lèi)視網(wǎng)膜中大約包含1000000個(gè)神經(jīng)節(jié)細(xì)胞,算上所有的細(xì)胞,人類(lèi)視網(wǎng)膜能以大約每秒10兆的速度傳達(dá)信息。丹麥的著名科學(xué)作家陶?諾瑞錢(qián)德證明了人們通過(guò)視覺(jué)接收的信息比其他任何一種感官都多。如果人們通過(guò)視覺(jué)接收信息的速度和計(jì)算機(jī)網(wǎng)絡(luò)相當(dāng),那么通過(guò)觸覺(jué)接受信息的速度就只有它的1/10。人們的嗅覺(jué)和聽(tīng)覺(jué)接收信息的速度更慢,大約是觸覺(jué)接收速度的1/10。同樣,我們通過(guò)味蕾接收信息的速度也很慢。2.2.1人類(lèi)視覺(jué)的接受能力換句話(huà)說(shuō),人們通過(guò)視覺(jué)接收信息的速度比其他感官接收信息的速度快了10~100倍。因此,可視化能傳達(dá)龐大的信息量也就容易理解了。如果包含大量數(shù)據(jù)的信息被壓縮成了充滿(mǎn)知識(shí)的圖片,那我們接收這些信息的速度會(huì)更快。但這并不是可視化數(shù)據(jù)表示法如此強(qiáng)大的唯一原因。另一個(gè)原因是我們喜歡分享,尤其喜歡分享圖片。2.2.1人類(lèi)視覺(jué)的接受能力人們喜歡照片(圖片)的主要原因之一,是現(xiàn)在拍照很容易。數(shù)碼相機(jī)、智能手機(jī)和便宜的存儲(chǔ)設(shè)備使人們可以拍攝多得數(shù)不清的數(shù)碼照片,幾乎每部智能手機(jī)都有內(nèi)置攝像頭。這就意味著不但可以隨意拍照,還可以輕松地上傳或分享這些照片。這種輕松、自在的拍攝和分享圖片的過(guò)程充滿(mǎn)了樂(lè)趣和價(jià)值,自然想要分享它們。2.2.2圖片和分享的力量和照片一樣,如今制作信息圖也要比以前容易得多(見(jiàn)圖2-5)。公司制作這類(lèi)信息圖的動(dòng)機(jī)也多了。公司的營(yíng)銷(xiāo)人員發(fā)現(xiàn),一個(gè)擁有有限信息資源的營(yíng)銷(xiāo)人員該做些什么來(lái)讓搜索更加吸引人呢?答案是制作一張信息圖。信息圖可以吸納廣泛的數(shù)據(jù)資源,使這些數(shù)據(jù)相互吻合,甚至編造一個(gè)引人入勝的故事。博主和記者們想方設(shè)法地在自己的文章中加進(jìn)類(lèi)似的圖片,因?yàn)樽x者喜歡看圖片,同時(shí)也樂(lè)于分享這些圖片。2.2.2圖片和分享的力量

圖2-5信息圖示例2.2.2圖片和分享的力量最有效的信息圖還是被不斷重復(fù)分享的圖片。其中有一些圖片在網(wǎng)上瘋傳,它們?cè)谏缃痪W(wǎng)站如臉書(shū)、推特、領(lǐng)英、微信以及我們傳統(tǒng)但實(shí)用的郵件里,被分享了數(shù)千次甚至上百萬(wàn)次。由于信息圖制作需求的增加,幫助制作這類(lèi)圖形的公司和服務(wù)也隨之增多。2.2.2圖片和分享的力量很多信息圖提供的信息從本質(zhì)上看是靜態(tài)的。通常制作信息圖需要花費(fèi)很長(zhǎng)的時(shí)間和精力:它需要數(shù)據(jù),需要展示有趣的故事,還需要以圖標(biāo)將數(shù)據(jù)以一種吸引人的方式呈現(xiàn)出來(lái)。但圖表只有經(jīng)過(guò)加工、發(fā)布、分享之后才具有真正的價(jià)值。當(dāng)然,到那時(shí),數(shù)據(jù)已經(jīng)成了幾周或幾個(gè)月前的舊數(shù)據(jù)了。那么,在展示可視化數(shù)據(jù)時(shí)要怎樣在吸引人的同時(shí)又保證其時(shí)效性呢?2.2.3實(shí)時(shí)可視化數(shù)據(jù)要具有實(shí)時(shí)性?xún)r(jià)值,必須滿(mǎn)足以下三個(gè)條件:(1)數(shù)據(jù)本身必須要有價(jià)值;(2)必須有足夠的存儲(chǔ)空間和計(jì)算機(jī)處理能力來(lái)存儲(chǔ)和分析數(shù)據(jù);(3)必須要有一種巧妙的方法及時(shí)將數(shù)據(jù)可視化,而不用花費(fèi)幾天或幾周的時(shí)間。想了解數(shù)百萬(wàn)人是如何看待實(shí)時(shí)性事件,并將他們的想法以可視化的形式展示出來(lái)的想法看似遙不可及,但其實(shí)很容易達(dá)成。2.2.3實(shí)時(shí)可視化在過(guò)去的幾十年,美國(guó)總統(tǒng)選舉過(guò)程中的投票民意測(cè)試,需要測(cè)試者打電話(huà)或親自詢(xún)問(wèn)每個(gè)選民的意見(jiàn)。通過(guò)將少數(shù)選民的投票和統(tǒng)計(jì)抽樣方法結(jié)合起來(lái),民意測(cè)試者就能預(yù)測(cè)選舉的結(jié)果,并總結(jié)出人們對(duì)重要政治事件的看法。但今天,大數(shù)據(jù)正改變著我們的調(diào)查方法。2.2.3實(shí)時(shí)可視化但信息實(shí)時(shí)可視化并不只是在網(wǎng)上不停地展示實(shí)時(shí)信息而已。例如“谷歌眼鏡”,我們不僅可以在計(jì)算機(jī)和手機(jī)上看可視化呈現(xiàn)的數(shù)據(jù),還能四處走動(dòng)設(shè)想或理解物質(zhì)世界。圖2-6谷歌眼鏡2.2.3實(shí)時(shí)可視化PART03數(shù)據(jù)可視化方法數(shù)據(jù)可視化可以是靜態(tài)的或交互的。幾個(gè)世紀(jì)以來(lái),人們一直在使用靜態(tài)數(shù)據(jù)可視化,如圖表和地圖。交互式的數(shù)據(jù)可視化則相對(duì)更為先進(jìn):人們能夠使用電腦和移動(dòng)設(shè)備深入到這些圖表和圖形的具體細(xì)節(jié),然后用交互的方式改變他們看到的數(shù)據(jù)及數(shù)據(jù)的處理方式。2.3數(shù)據(jù)可視化方法我們必須用一個(gè)合乎邏輯的、易于理解的方式來(lái)呈現(xiàn)數(shù)據(jù)。但是,并非所有數(shù)據(jù)可視化作品的效果都一樣好。人類(lèi)對(duì)圖形的理解能力非常獨(dú)到,往往能夠從圖形當(dāng)中發(fā)現(xiàn)數(shù)據(jù)的一些規(guī)律,而這些規(guī)律用常規(guī)的方法是很難發(fā)現(xiàn)的。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量變得非常大,而且非常繁瑣,要想發(fā)現(xiàn)數(shù)據(jù)中包含的信息或者知識(shí),可視化是最有效的途徑之一。

圖2-7受大面積雷電影響,深圳某日18時(shí)至31日0時(shí)共記錄到9119次閃電2.3數(shù)據(jù)可視化方法數(shù)據(jù)可視化起源于圖形學(xué)、計(jì)算機(jī)圖形學(xué)、人工智能、科學(xué)可視化以及用戶(hù)界面等領(lǐng)域的相互促進(jìn)和發(fā)展,是計(jì)算機(jī)科學(xué)的一個(gè)重要研究方向,它利用計(jì)算機(jī)對(duì)抽象信息進(jìn)行直觀地表示,以利于快速檢索信息和增強(qiáng)認(rèn)知能力。數(shù)據(jù)可視化要根據(jù)數(shù)據(jù)的特性,如時(shí)間信息和空間信息等,找到合適的可視化方式,例如圖表、圖和地圖等,將數(shù)據(jù)直觀地展現(xiàn)出來(lái),以幫助人們理解數(shù)據(jù),同時(shí)找出包含在海量數(shù)據(jù)中的規(guī)律或者信息。數(shù)據(jù)可視化是大數(shù)據(jù)生命周期管理的最后一步,也是最重要一步。2.3.1數(shù)據(jù)可視化場(chǎng)景數(shù)據(jù)可視化并不是為了展示用戶(hù)的已知的數(shù)據(jù)之間的規(guī)律,而是為了幫助用戶(hù)通過(guò)認(rèn)知數(shù)據(jù),有新的發(fā)現(xiàn),發(fā)現(xiàn)這些數(shù)據(jù)所反映的實(shí)質(zhì)。如圖2-8所示,CLARITY成像技術(shù)使科學(xué)家們不需要切片就能夠看穿整個(gè)大腦。

圖2-8CLARITY成像技術(shù)2.3.1數(shù)據(jù)可視化場(chǎng)景斯坦福大學(xué)生物工程和精神病學(xué)負(fù)責(zé)人卡爾·戴瑟羅特說(shuō):“以分子水平和全局范圍觀察整個(gè)大腦系統(tǒng),曾經(jīng)一直都是生物學(xué)領(lǐng)域一個(gè)無(wú)法實(shí)現(xiàn)的重大目標(biāo)”。也就是說(shuō),用戶(hù)在使用信息可視化系統(tǒng)之前往往是沒(méi)有明確的目標(biāo)。信息可視化系統(tǒng)在探索性任務(wù)(例如包含大數(shù)據(jù)量信息)中有突出的表現(xiàn),它可以幫助用戶(hù)從大量的數(shù)據(jù)空間中找到關(guān)注的信息來(lái)進(jìn)行詳細(xì)的分析。2.3.1數(shù)據(jù)可視化場(chǎng)景數(shù)據(jù)可視化主要應(yīng)用于下面幾種情況:(1)當(dāng)存在相似的底層結(jié)構(gòu),相似的數(shù)據(jù)可以進(jìn)行歸類(lèi)時(shí)。(2)當(dāng)用戶(hù)處理自己不熟悉的數(shù)據(jù)內(nèi)容時(shí)。(3)當(dāng)用戶(hù)對(duì)系統(tǒng)的認(rèn)知有限時(shí),并且喜歡用擴(kuò)展性的認(rèn)知方法時(shí)。(4)當(dāng)用戶(hù)難以了解底層信息時(shí)。(5)當(dāng)數(shù)據(jù)更適合感知時(shí)。2.3.1數(shù)據(jù)可視化場(chǎng)景按任務(wù)分類(lèi)的數(shù)據(jù)類(lèi)型有助于組織我們對(duì)問(wèn)題范圍的理解,但為了創(chuàng)建成功的工具,信息可視化的研究人員仍有很多挑戰(zhàn)需要去面對(duì)。這些挑戰(zhàn)包括:(1)導(dǎo)入和清理數(shù)據(jù)。決定如何組織輸入數(shù)據(jù)以獲得期望的結(jié)果,它所需要的思考和工作經(jīng)常比預(yù)期的多。使數(shù)據(jù)有正確的格式、濾掉不正確的條目、使屬性值規(guī)格化和處理丟失的數(shù)據(jù)也能夠是繁重的任務(wù)。(2)把視覺(jué)表示與文本標(biāo)簽結(jié)合在一起。視覺(jué)表示是強(qiáng)有力的,但有意義的文本標(biāo)簽起到很重要的作用。標(biāo)簽應(yīng)該是可見(jiàn)的,不應(yīng)遮蓋顯示或使用戶(hù)困惑。屏幕提示和偏心標(biāo)簽等用戶(hù)控制的方法經(jīng)常能夠提供幫助。2.3.1數(shù)據(jù)可視化場(chǎng)景(3)查找相關(guān)信息。經(jīng)常需要多個(gè)信息源來(lái)做出有意義的判斷。專(zhuān)利律師想要看到相關(guān)的專(zhuān)利、基因組學(xué)研究人員想要看到基因簇在細(xì)胞過(guò)程的各個(gè)階段如何一致地工作,等等。在發(fā)現(xiàn)過(guò)程中對(duì)意義的追尋需要對(duì)豐富的相關(guān)信息源進(jìn)行快速訪問(wèn),這需要對(duì)來(lái)自多個(gè)源的數(shù)據(jù)進(jìn)行整合。2.3.1數(shù)據(jù)可視化場(chǎng)景(4)查看大量數(shù)據(jù)。信息可視化的一般挑戰(zhàn)是處理大量的數(shù)據(jù)。很多創(chuàng)新的原型僅能處理幾千個(gè)條目,或者當(dāng)處理數(shù)量更大的條目時(shí)難以保持實(shí)時(shí)交互性。顯示數(shù)百萬(wàn)條目的動(dòng)態(tài)可視化證明,信息可視化尚未接近于達(dá)到人類(lèi)視覺(jué)能力的極限,用戶(hù)控制的聚合機(jī)制將進(jìn)一步突破性能極限。較大的顯示器能夠有幫助,因?yàn)轭~外的像素使用戶(hù)能夠看到更多的細(xì)節(jié)同時(shí)保持合理的概覽。2.3.1數(shù)據(jù)可視化場(chǎng)景(5)集成數(shù)據(jù)挖掘。信息可視化和數(shù)據(jù)挖掘起源于兩條獨(dú)立的研究路線(xiàn)。信息可視化的研究人員相信讓用戶(hù)的視覺(jué)系統(tǒng)引導(dǎo)他們形成假設(shè)的重要性,而數(shù)據(jù)挖掘的研究人員則相信能夠依賴(lài)統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)來(lái)發(fā)現(xiàn)有趣的模式。一些消費(fèi)者的購(gòu)買(mǎi)模式,諸如商品選擇之間的相關(guān)性,適當(dāng)可視化就會(huì)突顯出來(lái)。然而,統(tǒng)計(jì)試驗(yàn)有助于發(fā)現(xiàn)在產(chǎn)品購(gòu)買(mǎi)的顧客需要或人口統(tǒng)計(jì)的連接方面的更微妙趨勢(shì)。研究人員正在逐漸把這兩種方法結(jié)合在一起。就其客觀本性來(lái)說(shuō),統(tǒng)計(jì)匯總是有吸引力的,但它們能夠隱藏異常值或不連續(xù)性(像冰點(diǎn)或沸點(diǎn))。另一方面,數(shù)據(jù)挖掘可能把用戶(hù)引導(dǎo)到數(shù)據(jù)的更有趣部分,然后它們能夠在視覺(jué)上被檢查。2.3.1數(shù)據(jù)可視化場(chǎng)景(6)與分析推理技術(shù)集成。為了支持評(píng)估、計(jì)劃和決策,視覺(jué)分析領(lǐng)域強(qiáng)調(diào)信息可視化與分析推理工具的集成。業(yè)務(wù)與智能分析師使用來(lái)自搜索和可視化的數(shù)據(jù)和洞察力作為支持或否認(rèn)有競(jìng)爭(zhēng)性的假設(shè)的證據(jù)。他們還需要工具來(lái)快速產(chǎn)生他們分析的概要和與決策者交流他們的推理,決策者可能需要追溯證據(jù)的起源。2.3.1數(shù)據(jù)可視化場(chǎng)景(7)與他人協(xié)同。發(fā)現(xiàn)是一個(gè)復(fù)雜的過(guò)程,它依賴(lài)于知道要尋找什么、通過(guò)與他人協(xié)同來(lái)驗(yàn)證假設(shè)、注意異常和使其他人相信發(fā)現(xiàn)的意義。因?yàn)閷?duì)社交過(guò)程的支持對(duì)信息可視化是至關(guān)重要的,所以軟件工具應(yīng)該使記錄當(dāng)前狀態(tài)、帶注釋和數(shù)據(jù)把它發(fā)送給同事或張貼到網(wǎng)站上更容易。(8)實(shí)現(xiàn)普遍可用性。當(dāng)可視化工具打算被公眾使用時(shí),必須使該工具可被多種多樣的用戶(hù)使用而不管他們的生活背景、工作背景、學(xué)習(xí)背景或技術(shù)背景如何,但它仍是對(duì)設(shè)計(jì)人員的巨大挑戰(zhàn)。2.3.1數(shù)據(jù)可視化場(chǎng)景(9)評(píng)估。信息可視化系統(tǒng)能夠是十分復(fù)雜的。分析很少是一個(gè)孤立的短期過(guò)程,用戶(hù)可能需要長(zhǎng)期地從不同視角察看相同的數(shù)據(jù)。他們或許還能闡述和回答他們?cè)诓榭纯梢暬拔搭A(yù)料會(huì)有的問(wèn)題(使得難以使用典型的實(shí)證研究技術(shù)),而受試者被征募來(lái)短期從事所承擔(dān)的任務(wù)。雖然最后發(fā)現(xiàn)能夠產(chǎn)生巨大的影響,但它們極少發(fā)生且不太可能在研究過(guò)程中被觀察到。2.3.1數(shù)據(jù)可視化場(chǎng)景基于洞察力的研究是第一步。案例研究報(bào)告在其自然環(huán)境中完成真實(shí)任務(wù)的用戶(hù)。他們能夠描述發(fā)現(xiàn)、用戶(hù)之間的協(xié)同、數(shù)據(jù)清理的挫折和數(shù)據(jù)探索的興奮,并且他們能報(bào)告使用頻率和獲得的收益。案例研究的不足是,它們非常耗費(fèi)時(shí)間且可能不是可重復(fù)的或可應(yīng)用于其他領(lǐng)域。2.3.1數(shù)據(jù)可視化場(chǎng)景一般情況下,對(duì)于小數(shù)據(jù),企業(yè)很可能已經(jīng)在使用至少一種報(bào)表應(yīng)用并實(shí)現(xiàn)了一定程度的數(shù)據(jù)可視化。當(dāng)前,基于搜索的數(shù)據(jù)發(fā)現(xiàn)工具還遠(yuǎn)沒(méi)有達(dá)到成熟的程度,大數(shù)據(jù)也并不意味著傳統(tǒng)報(bào)表的廢除,許多傳統(tǒng)工具仍然可用,甚至還能發(fā)揮出更大價(jià)值。

圖2-9可視化數(shù)據(jù)分析2.3.2數(shù)據(jù)分析圖表但是,大數(shù)據(jù)需要新的數(shù)據(jù)發(fā)現(xiàn)工具,其中自然很多是有關(guān)可視化的。雖然軟件廠商會(huì)繼續(xù)完善傳統(tǒng)報(bào)表和數(shù)據(jù)可視工具并推出新的產(chǎn)品,但企業(yè)已經(jīng)意識(shí)到,要制訂更好的決策,需要的不僅僅是一套標(biāo)準(zhǔn)報(bào)表、即席查詢(xún)能力、儀表盤(pán)、分析及KPI工具,實(shí)時(shí)數(shù)據(jù)發(fā)現(xiàn)應(yīng)用的匱乏,已經(jīng)阻礙了很多企業(yè)及其員工在其生產(chǎn)力、客戶(hù)、供應(yīng)鏈和業(yè)務(wù)方面發(fā)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的隱性新洞見(jiàn)。報(bào)表、分析和數(shù)據(jù)可視化等不同工具存在著本質(zhì)的不同(見(jiàn)表2-2)。2.3.2數(shù)據(jù)分析圖表表2-2報(bào)表、分析和數(shù)據(jù)可視三者的比較2.3.2數(shù)據(jù)分析圖表從表2-2可以看出,傳統(tǒng)報(bào)表和分析工具仍然有用,并且支持著大量基本商業(yè)職能。但要有效處理和理解大數(shù)據(jù),需要實(shí)時(shí)性且交互式的數(shù)據(jù)可視應(yīng)用,而原有的工具對(duì)此卻無(wú)能為力。最好的數(shù)據(jù)可視化方式,就是用直觀和美麗的方式傳達(dá)信息。圖2-10對(duì)2014年推特上最受關(guān)注的新聞——1億8450萬(wàn)條推文,進(jìn)行了可視化處理,結(jié)果呈現(xiàn)出一副“藝術(shù)品”。

圖2-102014年度新聞2.3.2數(shù)據(jù)分析圖表我們今天使用的許多傳統(tǒng)圖表,如折線(xiàn)圖、條形圖和餅圖等都是蘇格蘭工程師、經(jīng)濟(jì)學(xué)家威廉姆·普萊菲爾發(fā)明的。他在1786年出版的《商業(yè)和政治圖解》一書(shū)中,用44個(gè)圖表記錄了1700~1782年期間英國(guó)貿(mào)易和債務(wù),展示出這段時(shí)期的商業(yè)事件。這些手工繪制在紙上的圖表是對(duì)當(dāng)時(shí)通行表格的重大改進(jìn)。2.3.3數(shù)據(jù)研究方法直到20世紀(jì)70年代,約翰·圖基在1977年出版了其開(kāi)創(chuàng)性的著作《探索性數(shù)據(jù)分析》,他在書(shū)中描述了如何用鋼筆而不是鉛筆加深線(xiàn)條的顏色。技術(shù)的進(jìn)步也讓數(shù)據(jù)的量和可用性得到了極大的改善,這反過(guò)來(lái)給了人們以新的可視化素材,以及新的工作和研究領(lǐng)域。沒(méi)有數(shù)據(jù),就沒(méi)有可視化。世界銀行以易于下載的方式提供了各個(gè)國(guó)家的某些全國(guó)性數(shù)據(jù),可幫助用戶(hù)了解整個(gè)世界的發(fā)展?fàn)顩r。2.3.3數(shù)據(jù)研究方法利用這些數(shù)據(jù)研究歷年來(lái)各國(guó)人口的平均壽命,圖2-11(交互圖)顯示出大多數(shù)地區(qū)的平均壽命總體在增加(2009年全球平均預(yù)期壽命為67歲);其中的大回落表示某些地區(qū)發(fā)生了戰(zhàn)爭(zhēng)和沖突。平均壽命圖是調(diào)整過(guò)的多重時(shí)序圖,是數(shù)據(jù)讓它變得有意義了。但在互聯(lián)網(wǎng)時(shí)代之前,這些數(shù)據(jù)即使存在也很難收集。圖2-11世界各地平均壽命(http:///datafl.ws/24w)2.3.3數(shù)據(jù)研究方法斯蒂芬·馮·沃利用一份現(xiàn)成的、逗號(hào)分隔的文檔算出了全美國(guó)48個(gè)州中任何一個(gè)地點(diǎn)到最近麥當(dāng)勞的距離,并在地圖上標(biāo)注了出來(lái)。如圖2-12所示,一個(gè)區(qū)域的顏色越亮,就意味著越能盡快吃到巨無(wú)霸。圖2-12到麥當(dāng)勞的距離2.3.3數(shù)據(jù)研究方法從太空這一更廣闊的視角來(lái)看NASA(美國(guó)國(guó)家航空航天局)使用衛(wèi)星數(shù)據(jù)監(jiān)視地球上的活動(dòng)。圖2-13是NASA戈達(dá)德航天飛行中心繪制的顯示水循環(huán)構(gòu)成動(dòng)畫(huà)的一幅快照,包括蒸發(fā)、水蒸氣上升和降水的過(guò)程。根據(jù)這些數(shù)據(jù)建立的大氣模型可以讓人們觀察到地球的重大變化。圖2-13水循環(huán)平面圖2.3.3數(shù)據(jù)研究方法圖2-14所示“永恒的海洋”同樣由NASA繪制,它使用了類(lèi)似的數(shù)據(jù)和模型來(lái)評(píng)估洋流。這是多么地神奇!大量的數(shù)據(jù)使這一切成為可能。當(dāng)然,不斷增長(zhǎng)的新數(shù)據(jù)類(lèi)型需要比紙筆更強(qiáng)大的新工具來(lái)幫助探索研究。圖2-14永恒的海洋2.3.3數(shù)據(jù)研究方法電腦的引入改變了人們分析和研究數(shù)據(jù)的方式。借助

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論