大數(shù)據(jù)可視化技術與應用 課件 第1、2章 數(shù)據(jù)可視化概述、拓展;數(shù)據(jù)可視化基礎、拓展_第1頁
大數(shù)據(jù)可視化技術與應用 課件 第1、2章 數(shù)據(jù)可視化概述、拓展;數(shù)據(jù)可視化基礎、拓展_第2頁
大數(shù)據(jù)可視化技術與應用 課件 第1、2章 數(shù)據(jù)可視化概述、拓展;數(shù)據(jù)可視化基礎、拓展_第3頁
大數(shù)據(jù)可視化技術與應用 課件 第1、2章 數(shù)據(jù)可視化概述、拓展;數(shù)據(jù)可視化基礎、拓展_第4頁
大數(shù)據(jù)可視化技術與應用 課件 第1、2章 數(shù)據(jù)可視化概述、拓展;數(shù)據(jù)可視化基礎、拓展_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章數(shù)據(jù)可視化概述主要內容什么是數(shù)據(jù)可視化數(shù)據(jù)可視化的發(fā)展歷史大數(shù)據(jù)可視化的分類大數(shù)據(jù)可視化作用大數(shù)據(jù)可視化發(fā)展方向什么是數(shù)據(jù)(泛指)數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,主要記載客觀事物的性質、狀態(tài)以及相互關系。它是可識別的、抽象的符號。

數(shù)據(jù)不僅指狹義上的數(shù)字,還可以是具有一定意義的文字、字母、數(shù)字符號的組合、圖形、圖像、視頻、音頻等,也是客觀事物的屬性、數(shù)量、位置及其相互關系的抽象表示。什么是數(shù)據(jù)(特指)在計算機科學中,數(shù)據(jù)是指所有能輸入到計算機并被計算機程序處理的符號的介質的總稱,是用于輸入電子計算機進行處理,具有一定意義的數(shù)字、字母、符號和模擬量等的通稱。計算機存儲和處理的對象十分廣泛,表示這些對象的數(shù)據(jù)也隨之變得越來越復雜。什么是信息數(shù)據(jù)經(jīng)過加工后就成為信息。兩者既有聯(lián)系,又有區(qū)別。數(shù)據(jù)是信息的表現(xiàn)形式和載體,而信息是數(shù)據(jù)的內涵,信息是加載于數(shù)據(jù)之上,對數(shù)據(jù)作具有含義的解釋。數(shù)據(jù)和信息是不可分離的,信息依賴數(shù)據(jù)來表達,數(shù)據(jù)則生動具體表達出信息。數(shù)據(jù)是符號,是物理性的,信息是對數(shù)據(jù)進行加工處理之后所得到的并對決策產(chǎn)生影響的數(shù)據(jù),是邏輯性和觀念性的;數(shù)據(jù)是信息的表現(xiàn)形式,信息是數(shù)據(jù)有意義的表示。數(shù)據(jù)本身沒有意義,數(shù)據(jù)只有對實體行為產(chǎn)生影響時才成為信息。信息可視化數(shù)據(jù)可視化就是數(shù)據(jù)中信息的可視化。人類對圖形、圖像等可視化符號的處理效率要比對數(shù)字、文本的處理效率高很多。經(jīng)過可視化的數(shù)據(jù),可以讓人更直觀、清晰的了解到數(shù)據(jù)中蘊含的信息,從而最大化數(shù)據(jù)的價值。數(shù)據(jù)可視化是一門科學。它主要借助圖形化的手段,達到有效傳達與溝通信息的目的。它與信息圖形化、信息可視化、科學可視化和統(tǒng)計圖形化等領域密切相關。近些年,數(shù)據(jù)可視化已經(jīng)在商業(yè)中發(fā)揮了巨大的價值,是商務智能重要的一部分,其主要形式包括報表、圖表,以及各種用于制作計分卡(scorecards)和儀表盤(dashboards)的可視化元素。數(shù)據(jù)可視化又是一門藝術。它需要在功能與美學形式之間達到一種平衡。太注重實現(xiàn)復雜的功能會令可視化結果枯燥乏味,太注重美學形式會將信息埋沒在絢麗多彩的圖形中,讓人難以捕捉。三個主要方面模式:指數(shù)據(jù)中的規(guī)律。比如,城市交通流量在不同時刻差異很大,而流量變化的規(guī)律就蘊含在海量傳感器源源不斷的傳來的數(shù)據(jù)中。如果能及時從中發(fā)現(xiàn)交通運行模式,就可以為交通的管理和調控提供依據(jù),進而減輕堵塞現(xiàn)象。三個主要方面關系:指數(shù)據(jù)之間的相關性。統(tǒng)計學中,通常代表關聯(lián)性和因果關系。無論數(shù)據(jù)的總量和復雜程度如何大,數(shù)據(jù)間的關系大多可分為三類:數(shù)據(jù)間的比較、數(shù)據(jù)的構成,以及數(shù)據(jù)的分布或聯(lián)系。比如,收入水平與幸福感之間的關系是否成正比,經(jīng)統(tǒng)計,對于月收入在1萬元以下的人來說,一旦收入増加,幸福感會隨之提升,但對于月收入水平在1萬元以上的人來說,幸福感并不會隨著收入水平的提高而提升,這種非線性關系也是一種關系。三個主要方面異常:指有問題的數(shù)據(jù)。異常的數(shù)據(jù)不一定都是錯誤的數(shù)據(jù),有些異常數(shù)據(jù)可能是設備出錯或者人為錯誤輸入,有些可能就是正確的數(shù)據(jù)。通過異常分析,用戶可以及時發(fā)現(xiàn)各種異常情況。如右圖所示,圖中大部分點都集中在一個區(qū)域,極少數(shù)點分散在其他區(qū)域,這些點可能會影響對數(shù)據(jù)相關性的判斷,通過可視化可以初步將其識別出來。數(shù)據(jù)可視化的發(fā)展歷史數(shù)據(jù)可視化的起源可追溯到公元2世紀,但是在之后的很長一段時間并沒有特別大的發(fā)展。數(shù)據(jù)可視化的主要進展都是在最近兩個半世紀才出現(xiàn),尤其是近四十年。雖然可視化作為一門學科很晚才被廣泛認可,但是目前最熱門的可視化形式可以追溯到17世紀,那時的地質探索、數(shù)學和歷史的普及促進了早期的地圖、圖表和時間線的出現(xiàn)。現(xiàn)代圖表的發(fā)明者威廉?普萊費爾(WilliamPlayfair)在1786年出版了《商業(yè)和政治地圖集》(CommercialandPoliticalAtlas)中發(fā)明了廣泛流傳的折線圖和柱狀圖,在1801年出版的《統(tǒng)計摘要》(StatisticalBreviary)中發(fā)明了餅狀圖,如右圖所示。數(shù)據(jù)可視化的發(fā)展歷史隨著工藝技術的完善,到19世紀上半葉,人們已經(jīng)掌握了整套統(tǒng)計數(shù)據(jù)可視化工具(包括柱狀圖、餅圖、直方圖、折線圖、時間線、輪廓線等),關于社會、地理、醫(yī)學和基金的統(tǒng)計數(shù)據(jù)越來越多。將國家的統(tǒng)計數(shù)據(jù)與其可視表達放在地圖上,從而產(chǎn)生了概念制圖的方式。這種方式開始體現(xiàn)在政府規(guī)劃和運營中。人們在采用統(tǒng)計圖表來輔助思考的同時衍生了可視化思考的新方式:圖表用于表達數(shù)據(jù)證明和函數(shù),列線圖用于輔助計算,各類可視化顯示用于表達數(shù)據(jù)的趨勢和分布。這些方式便于人們進行交流、數(shù)據(jù)獲取和可視化觀察。數(shù)據(jù)可視化的發(fā)展歷史到19世紀下半葉,系統(tǒng)構建可視化方法的條件日漸成熟,人類社會進入了統(tǒng)計圖形學的黃金時期。其中,法國人查爾斯?約瑟夫·密納德(CharlesJosephMinard)是將可視化應用于工程和統(tǒng)計的先驅。他用圖形描繪了1812年拿破侖的軍隊在俄國戰(zhàn)役中遭受的損失,如右圖所示。開始在波蘭與俄國,粗帶狀圖形代表了每個地點上軍隊的規(guī)模。拿破侖軍隊在苦寒的冬天從莫斯科撤退的路徑則用下方較暗的帶狀圖形表示,圖中標注了對應的溫度和時間。著名的可視化專家、作家和評論家愛德華?塔夫特(EdwardTufte)評論該圖說:“這是迄今為止最好的統(tǒng)計圖?!痹谶@張圖中,密納德用一種藝術的方式,詳盡地表達了多個數(shù)據(jù)的維度(軍隊的規(guī)模、行軍方向、軍隊匯聚、分散和重聚的時間與地點、軍隊減員過程、地理位置和溫度等)。19世紀出現(xiàn)了許多偉大的可視化作品,其中許多都記載在塔夫特的網(wǎng)站和可視化書籍中。數(shù)據(jù)可視化的發(fā)展歷史到了20世紀上半葉,政府、商業(yè)機構和科研部門開始大量使用可視化統(tǒng)計圖形。同時,可視化在航空、物理、天文和生物等科學與工程領域的應用也取得突破性進展??梢暬膹V泛應用讓人們意識到圖形可視化的巨大潛力。這個時期的一個重要特點是多維數(shù)據(jù)可視化和心理學的引入,人們要求可視化更加嚴謹和實用,更傾向于關注圖表的顏色、數(shù)值比例和標簽。20世紀中期,制圖師和理論家賈可?伯金(JacquesBergin)出版了《圖形符號學》(SémiologieGraphique),在某種程度上可以認為該書是現(xiàn)代信息可視化的理論基礎。注:現(xiàn)已不適用于數(shù)字媒體數(shù)據(jù)可視化的發(fā)展歷史進入21世紀,新的可視化媒介互聯(lián)網(wǎng)出現(xiàn),這催生了許多新的可視化技術和功能。隨著互聯(lián)網(wǎng)的普及,數(shù)據(jù)和可視化傳播的受眾越來越大,許多數(shù)據(jù)有著全球范圍的可視化傳播需求,進一步促進了各種新形式的可視化快速發(fā)展?,F(xiàn)在的屏幕媒體中大多融入了各種交互、動畫和圖像渲染技術,并加入了實時的數(shù)據(jù)反饋,可以創(chuàng)建出沉浸式(immersive)的數(shù)據(jù)交流和實用環(huán)境。除了商業(yè)機構、科研部門和政府外,普羅大眾每天也要在自己的屏幕上接觸大量的經(jīng)過可視化的數(shù)據(jù),可以說可視化已經(jīng)滲透到了互聯(lián)網(wǎng)上每個人的生活。數(shù)據(jù)可視化的發(fā)展歷史在媒體的推波助瀾的宣傳下,現(xiàn)在似乎所有企業(yè)和個人都對數(shù)據(jù)非常感興趣,這激發(fā)了使用可視化工具更好地理解數(shù)據(jù)的需求。廉價的硬件傳感器和自己動手創(chuàng)建系統(tǒng)的框架降低了收集與處理數(shù)據(jù)的成本。出現(xiàn)了數(shù)不勝數(shù)的應用、軟件工具和底層代碼庫,幫助人們收集、組織、操作、可視化和理解各種來源的數(shù)據(jù)?;ヂ?lián)網(wǎng)還扮演了可視化的傳播通道,來自不同社區(qū)的設計師、程序員、制圖師、游戲設計者和數(shù)據(jù)分析師聚在一起,分享各種處理數(shù)據(jù)的新思路和新工具,包含可視化與非可視化方法。數(shù)據(jù)可視化的發(fā)展歷史直到現(xiàn)在,可視化技術的發(fā)展也不曾停下。谷歌地圖使界面操作的習慣(點擊平移、雙擊縮放)和交互式地圖的顯示技術變得大眾化,這使得大部分人在面對在線地圖時都知道如何使用。Flash已作為一種跨瀏覽器的平臺,在上面可以開發(fā)豐富、漂亮的應用,融入可交互的數(shù)據(jù)可視化和地圖?,F(xiàn)在,出現(xiàn)了新型的瀏覽器顯示技術,例如canvas和SVG(有時統(tǒng)稱HTML5技術),正在挑戰(zhàn)Flash的主導地位,同時也將動態(tài)的可視化界面擴展到移動設備上。大數(shù)據(jù)可視化的分類數(shù)據(jù)可視化的處理對象是數(shù)據(jù)。根據(jù)所處理的數(shù)據(jù)對象的不同,數(shù)據(jù)可視化可分為科學可視化與信息可視化??茖W可視化面向科學和工程領域數(shù)據(jù),如三維空間測量數(shù)據(jù)、計算模擬數(shù)據(jù)和醫(yī)學影像數(shù)據(jù)等,重點探索如何以幾何、拓撲和形狀特征來呈現(xiàn)數(shù)據(jù)中蘊含的規(guī)律;信息可視化的處理對象則是非結構化的數(shù)據(jù),如金融交易、社交網(wǎng)絡和文本數(shù)據(jù),其核心挑戰(zhàn)是如何從大規(guī)模高維復雜數(shù)據(jù)中提取出有用信息。由于數(shù)據(jù)分析的重要性,將可視化與數(shù)據(jù)分析結合,可形成一個新的學科:可視分析學(VisualAnalytics)??茖W可視化科學可視化是可視化領域發(fā)展最早、最成熟的一個學科,其應用領域包括物理、化學、氣象氣候、航空航天、醫(yī)學、生物學等各個學科,涉及對這些學科中數(shù)據(jù)和模型的解釋、操作與處理,旨在尋找其中的模式、特點、關系以及異常情況。科學可視化的基礎理論與方法已經(jīng)相對成熟,其中有一些方法已廣泛應用于各個領域。最簡單的科學可視化方法是顏色映射法,它將不同的值映射成不同的顏色,熱力圖就是其中一種??茖W可視化方法還包括輪廓法(Contouring),輪廓法是將數(shù)值等于某一指定閾值的點連接起來的可視化方法,地圖上的等高線,天氣預報中的等溫線都是典型的輪廓可視化的例子。信息可視化與科學可視化相比,信息可視化的數(shù)據(jù)更貼近我們的生活與工作,包括地理信息可視化、時變數(shù)據(jù)可視化、層次數(shù)據(jù)可視化、網(wǎng)絡數(shù)據(jù)可視化、非結構化數(shù)據(jù)可視化等我們常見的地圖是地理信息數(shù)據(jù),屬于信息可視化的范疇?,F(xiàn)在很多地圖不僅僅有地理信息,還有很多其他信息,如交通流量數(shù)據(jù)等。信息可視化時變數(shù)據(jù)可視化采用多視角、數(shù)據(jù)比較等方法體現(xiàn)數(shù)據(jù)隨時間變化的趨勢和規(guī)律。在層次數(shù)據(jù)可視化中,層次數(shù)據(jù)表達各個個體之間的層次關系。樹圖是層次數(shù)據(jù)可視化的典型案例,樹圖是對現(xiàn)實世界事物關系的抽象,其數(shù)據(jù)本身具有層次結構的信息。在網(wǎng)絡結構數(shù)據(jù)可視化中,網(wǎng)絡數(shù)據(jù)不具備層次結構,關系更加復雜和自由,如人與人之間的關系、城市道路連接、科研論文的引用等。非結構化數(shù)據(jù)可視化通常是將非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)再進行可視化顯示??梢暦治鰧W可視分析學被定義為一門以可視交互界面為基礎的分析推理科學,綜合了圖形學、數(shù)據(jù)挖掘和人機交互等技術??梢暦治鰧W是一門綜合性學科,與多個領域相關:在可視化領域,與信息可視化、科學可視化、計算機圖形學相關;在數(shù)據(jù)分析相關的領域,與信息獲取、數(shù)據(jù)處理、數(shù)據(jù)挖掘相關;在交互領域,則與人機交互、認知科學和感知等學科融合??梢暦治鰧W可視分析學所包含的研究內容非常廣泛,其中,感知與認知科學研究在可視化分析學起到重要作用;數(shù)據(jù)管理和知識表達是可視分析構建數(shù)據(jù)到知識轉換的基礎理論;地理分析、信息分析、科學分析、統(tǒng)計分析、知識發(fā)現(xiàn)等是可視分析學的核心分析方法;在整個可視分析過程中,人機交互必不可少,用于控制模型構建、分析推理和信息呈現(xiàn)等整個過程;可視分析流程中推導出的結論與知識最終需要由用戶傳播和應用??梢暦治鰧W可視化分析的含義包括可視化和預測性分析兩部分。信息可視化的目的是回答“發(fā)生了什么”和“正在發(fā)生什么”,這與商務智能(日常報表、計分卡、儀表盤)有密切聯(lián)系。而可視化分析主要回答“為什么會發(fā)生”和“將來可能發(fā)生什么”,與業(yè)務分析(預測、分割、關聯(lián)分析)有關。許多數(shù)據(jù)可視化供應商都在產(chǎn)品中加入了相關功能,使它們可以被稱為可視化分析供應商。比如,最著名的、創(chuàng)立最久的數(shù)據(jù)分析提供商SAS,將分析技術嵌入一個高性能數(shù)據(jù)可視化環(huán)境中,稱之為可視化分析。數(shù)據(jù)可視化作用記錄信息分析推理信息傳播與協(xié)同記錄信息用圖形的方式描述各種具體或抽象的事物是最早的可視化,這種可視化的目的就是將抽象的事物和信息記錄下來。例如,古代將觀察到的星象信息記錄下來,用以推算歷法,如右圖所示。分析推理數(shù)據(jù)可視化極大地降低了數(shù)據(jù)理解的復雜度,有效地提升了信息認知的效率,從而有助于人們更快地分析和推理出有效信息。1854年,倫敦爆發(fā)了一場霍亂,英國醫(yī)生JohnSnow繪制了一張街區(qū)地圖,如右圖所示,這就是著名的“倫敦鬼圖”。該圖分析了霍亂患者的分布與水井分布之間的關系,發(fā)現(xiàn)在一口井的供水范圍內患者明顯偏多,據(jù)此找到了霍亂爆發(fā)的根源個被污染的水泵。信息傳播與協(xié)同一張好的可視化圖可以讓人留下深刻印象,更好的理解數(shù)據(jù)中的信息,進而帶來更多傳播流量,這對互聯(lián)網(wǎng)時代的媒體尤為重要。右圖是對某一售賣熱干面店鋪評論的可視化。對于消費者來說,這樣一張圖能夠更好的幫助其了解店鋪的情況。即使是時間緊張的人也可以一眼從這張圖中大致了解到這家店鋪的特色,不需要逐條的閱讀大量評論。在信息碎片化的時代,這就能帶來更快的傳播與關注。這樣一張圖也有助于老板快速發(fā)現(xiàn)自己店鋪的優(yōu)勢和劣勢,對自己的營銷策略做出調整,在市場競爭中搶占先機。大數(shù)據(jù)產(chǎn)生的問題隨著計算機技術的普及,數(shù)據(jù)無論從數(shù)量上還是從維度層次上都變得日益繁雜。面對海量而又復雜的數(shù)據(jù),各個科研機構和商業(yè)組織普遍遇到以下問題。1.大量數(shù)據(jù)不能有效利用,棄之可惜,想用卻不知如何下手。2.數(shù)據(jù)展示模式繁雜晦澀,無法快速甄別有效信息。數(shù)據(jù)可視化就是將海量數(shù)據(jù)經(jīng)過抽取、加工、提煉,通過可視化方式展示出來,改變傳統(tǒng)的文字描述識別模式,達到更高效地掌握重要信息和了解重要細節(jié)的目的。數(shù)據(jù)可視化的優(yōu)勢動作更快。使用圖表來總結復雜的數(shù)據(jù),可以確保對關系的理解要比那些混亂的報告或電子表格更快。可視化提供了一種非常清晰的交互方式,從而能夠使用戶更快地理解和處理這些信息。數(shù)據(jù)可視化的優(yōu)勢以建設性方式提供結果。大數(shù)據(jù)可視化工具能夠用一些簡短的圖形描述復雜的信息。通過可交互的圖表界面,輕松地理解各種不同類型的數(shù)據(jù)。例如,許多企業(yè)通過收集消費者行為數(shù)據(jù),再使用大數(shù)據(jù)可視化來監(jiān)控關鍵指標,從而更容易發(fā)現(xiàn)各種市場變化和趨勢。例如,一家服裝企業(yè)發(fā)現(xiàn),在西南地區(qū),深色西裝和領帶的銷量正在上升,這促使該企業(yè)在全國范圍內推銷這兩類產(chǎn)品。通過這種策略,這家企業(yè)的產(chǎn)品銷量遠遠領先于那些尚未注意到這一潮流的競爭對手。數(shù)據(jù)可視化的優(yōu)勢理解數(shù)據(jù)之間的聯(lián)系。在市場競爭環(huán)境中,找到業(yè)務和市場之間的相關性是至關重要的。例如,一家軟件公司的銷售總監(jiān)在條形圖中看到,他們的旗艦產(chǎn)品在西南地區(qū)的銷售額下降了8%,銷售總監(jiān)可以深入了解問題出現(xiàn)在哪里,并著手制訂改進計劃。通過這種方式,數(shù)據(jù)可視化可以讓管理人員立即發(fā)現(xiàn)問題并采取行動。1.數(shù)據(jù)規(guī)模大,已超越單機、外存模型甚至小型計算集群處理能力的極限,而當前軟件和工具運行效率不高,需探索全新思路解決該問題。2.在數(shù)據(jù)獲取與分析處理過程中,易產(chǎn)生數(shù)據(jù)質量問題,需特別關注數(shù)據(jù)的不確定性。3.數(shù)據(jù)快速動態(tài)變化,常以流式數(shù)據(jù)形式存在,需要尋找流數(shù)據(jù)的實時分析與可視化方法。4.面臨復雜高維數(shù)據(jù),當前的軟件系統(tǒng)以統(tǒng)計和基本分析為主,分析能力不足。5.多來源數(shù)據(jù)的類型和結構各異,已有方法難以滿足非結構化、異構數(shù)據(jù)方面的處理需求。大數(shù)據(jù)可視化面臨的挑戰(zhàn)可視化技術與數(shù)據(jù)挖掘技術的緊密結合。數(shù)據(jù)可視化可以幫助人類洞察出數(shù)據(jù)背后隱藏的潛在規(guī)律,進而提高數(shù)據(jù)挖掘的效率,因此,可視化與數(shù)據(jù)挖掘緊密結合是可視化研究的一個重要方向。大數(shù)據(jù)可視化的發(fā)展可視化技術與人機交互技術的緊密結合。用戶有自行地探索動態(tài)數(shù)據(jù),創(chuàng)建報表,以及分享自己信息的需求。更好地實現(xiàn)人機交互、方便的控制數(shù)據(jù)是人類一直追求的目標。因此,可視化與人機交互相結合是可視化研究的重要發(fā)展方向。而且近些年移動終端的快速發(fā)展,隨時隨地提供可視化數(shù)據(jù)訪問與交互已經(jīng)成為了商業(yè)可視化產(chǎn)品的一大賣點。大數(shù)據(jù)可視化的發(fā)展可視化技術廣泛應用于大規(guī)模、高維度、非結構化數(shù)據(jù)的處理與分析。目前,我們處在大數(shù)據(jù)時代,大規(guī)模、高維度、非結構化數(shù)據(jù)層出不窮,若將這些數(shù)據(jù)以可視化形式完美地展示出來,將提高可視化技術展示抽象信息、解決復雜決策問題的能力。因此,可視化與大規(guī)模、高維度、非結構化數(shù)據(jù)結合是可視化研究的一個重要發(fā)展方向。大數(shù)據(jù)可視化的發(fā)展TheEnd謝謝!第1章數(shù)據(jù)可視化拓展主要內容數(shù)據(jù)可視化的基本流程數(shù)據(jù)可視化身邊案例優(yōu)秀案例展示一、數(shù)據(jù)可視化的基本流程1、數(shù)據(jù)采集2、數(shù)據(jù)處理和變換3、可視化映射4、人機交互5、用戶感知1、數(shù)據(jù)采集數(shù)據(jù)采集是數(shù)據(jù)分析和可視化的第一步,俗話說“巧婦難為無米之炊”,數(shù)據(jù)采集的方法和質量,很大程度上就決定了數(shù)據(jù)可視化的最終效果。數(shù)據(jù)采集的分類方法有很多,從數(shù)據(jù)的來源來看,可以分為內部數(shù)據(jù)采集和外部數(shù)據(jù)采集。1、數(shù)據(jù)采集(1)內部數(shù)據(jù)采集:指的是采集企業(yè)內部經(jīng)營活動的數(shù)據(jù),通常數(shù)據(jù)來源于業(yè)務數(shù)據(jù)庫,如訂單的交易情況。如果要分析用戶的行為數(shù)據(jù)、APP的使用情況,還需要一部分行為日志數(shù)據(jù),這個時候就需要用「埋點」這種方法來進行APP或Web的數(shù)據(jù)采集。(2)外部數(shù)據(jù)采集:指的數(shù)通過一些方法獲取企業(yè)外部的一些數(shù)據(jù),具體目的包括,獲取競品的數(shù)據(jù)、獲取官方機構官網(wǎng)公布的一些行業(yè)數(shù)據(jù)等。獲取外部數(shù)據(jù),通常采用的數(shù)據(jù)采集方法為「網(wǎng)絡爬蟲」。1、數(shù)據(jù)采集以上的兩類數(shù)據(jù)采集方法得來的數(shù)據(jù),都是二手數(shù)據(jù)。而在市場調研和科學研究中,常常需要一手數(shù)據(jù),需要通過調查和實驗來采集數(shù)據(jù)。2、數(shù)據(jù)處理和變換數(shù)據(jù)處理和數(shù)據(jù)變換,是進行數(shù)據(jù)可視化的前提條件,包括數(shù)據(jù)預處理和數(shù)據(jù)挖掘兩個過程。一方面,通過前期的數(shù)據(jù)采集得到的數(shù)據(jù),不可避免的含有噪聲和誤差,數(shù)據(jù)質量較低;另一方面,數(shù)據(jù)的特征、模式往往隱藏在海量的數(shù)據(jù)中,需要進一步的數(shù)據(jù)挖掘才能提取出來。2、數(shù)據(jù)的處理和變換常見的數(shù)據(jù)質量問題包括:(1)數(shù)據(jù)收集錯誤,遺漏了數(shù)據(jù)對象,或者包含了本不應包含的其他數(shù)據(jù)對象。(2)數(shù)據(jù)中的離群點,即不同于數(shù)據(jù)集中其他大部分數(shù)據(jù)對象特征的數(shù)據(jù)對象。(3)存在遺漏值,數(shù)據(jù)對象的一個或多個屬性值缺失,導致數(shù)據(jù)收集不全。(4)數(shù)據(jù)不一致,收集到的數(shù)據(jù)明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數(shù),或者所填的郵政編碼和城市之間并沒有對應關系。(5)重復值的存在,數(shù)據(jù)集中包含完全重復或幾乎重復的數(shù)據(jù)。2、數(shù)據(jù)的處理和變換正是因為有以上問題的存在,直接拿采集的數(shù)據(jù)進行分析or可視化,得出的結論往往會誤導用戶做出錯誤的決策。因此,對采集到的原始數(shù)據(jù)進行數(shù)據(jù)清洗和規(guī)范化,是數(shù)據(jù)可視化流程中不可缺少的在大數(shù)據(jù)時代,我們所采集到的數(shù)據(jù)通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數(shù)據(jù)中,挖掘有價值的信息來支持決策,除了需要對數(shù)據(jù)進行清洗、去除噪聲之外,還需要依據(jù)業(yè)務目的對數(shù)據(jù)進行二次處理。常用的數(shù)據(jù)處理方法包括:降維、數(shù)據(jù)聚類和切分、抽樣等統(tǒng)計學和機器學習中的方法。一環(huán)。3、可視化映射對數(shù)據(jù)進行清洗、去噪,并按照業(yè)務目的進行數(shù)據(jù)處理之后,接下來就到了可視化映射環(huán)節(jié)??梢暬成涫钦麄€數(shù)據(jù)可視化流程的核心,是指將處理后的數(shù)據(jù)信息映射成可視化元素的過程??梢暬赜?部分組成:可視化空間+標記+視覺通道3、可視化映射-可視化空間數(shù)據(jù)可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪制技術,解決了在二維平面顯示的問題,如3D環(huán)形圖、3D地圖等。標記,是數(shù)據(jù)屬性到可視化幾何圖形元素的映射,用來代表數(shù)據(jù)屬性的歸類。根據(jù)空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別采用了點、線、面、體這四種不同類型的標記。3、可視化映射-標記數(shù)據(jù)屬性的值到標記的視覺呈現(xiàn)參數(shù)的映射,叫做視覺通道,通常用于展示數(shù)據(jù)屬性的定量信息。常用的視覺通道包括:標記的位置、大?。ㄩL度、面積、體積...)、形狀(三角形、圓、立方體...)、方向、顏色(色調、飽和度、亮度、透明度...)等?!笜擞洝埂ⅰ敢曈X通道」是可視化編碼元素的兩個方面,兩者的結合,可以完整的將數(shù)據(jù)信息進行可視化表達,從而完成可視化映射這一過程。3、可視化映射-視覺通道4、人機交互可視化的目的,是為了反映數(shù)據(jù)的數(shù)值、特征和模式,以更加直觀、易于理解的方式,將數(shù)據(jù)背后的信息呈現(xiàn)給目標用戶,輔助其作出正確的決策。但是通常,我們面對的數(shù)據(jù)是復雜的,數(shù)據(jù)所蘊含的信息是豐富的。如果在可視化圖形中,將所有的信息不經(jīng)過組織和篩選,全部機械的擺放出來,不僅會讓整個頁面顯得特別臃腫和混亂,缺乏美感;而且模糊了重點,分散用戶的注意力,降低用戶單位時間獲取信息的能力。常見的交互方式包括:(1)滾動和縮放:當數(shù)據(jù)在當前分辨率的設備上無法完整展示時,滾動和縮放是一種非常有效的交互方式,比如地圖、折線圖的信息細節(jié)等。但是,滾動與縮放的具體效果,除了與頁面布局有關系外,還與具體的顯示設備有關。(2)顏色映射的控制:一些可視化的開源工具,會提供調色板,如D3。用戶可以根據(jù)自己的喜好,去進行可視化圖形顏色的配置。這個在自助分析等平臺型工具中,會相對多一點,但是對一些自研的可視化產(chǎn)品中,一般有專業(yè)的設計師來負責這項工作,從而使可視化的視覺傳達具有美感。4、人機交互(3)數(shù)據(jù)映射方式的控制:這個是指用戶對數(shù)據(jù)可視化映射元素的選擇,一般一個數(shù)據(jù)集,是具有多組特征的,提供靈活的數(shù)據(jù)映射方式給用戶,可以方便用戶按照自己感興趣的維度去探索數(shù)據(jù)背后的信息。這個在常用的可視化分析工具中都有提供,如tableau、PowerBI等。(4)數(shù)據(jù)細節(jié)層次控制:比如隱藏數(shù)據(jù)細節(jié),hover或點擊才出現(xiàn)。4、人機交互5、用戶感知可視化的結果,只有被用戶感知之后,才可以轉化為知識和靈感。用戶在感知過程,除了被動接受可視化的圖形之外,還通過與可視化各模塊之間的交互,主動獲取信息。如何讓用戶更好的感知可視化的結果,將結果轉化為有價值的信息用來指導決策,這個里面涉及到的影響因素太多了,心理學、統(tǒng)計學、人機交互等多個學科的知識。二、數(shù)據(jù)可視化案例分析數(shù)據(jù)可視化聽起來距離我們很遙遠,但是其實經(jīng)過上面的介紹,我們能夠發(fā)現(xiàn),數(shù)據(jù)可視化其實就在我們身邊。二、數(shù)據(jù)可視化案例分析——身邊的案例籃球賽的投籃點統(tǒng)計:實驗的數(shù)據(jù)處理:Origin,matlab等軟件作圖二、數(shù)據(jù)可視化案例分析——身邊的案例約翰霍普金斯大學的新冠疫情可視化統(tǒng)計:二、數(shù)據(jù)可視化案例分析——身邊的案例三、案例展示——優(yōu)秀案例按年齡組劃分的美國人口百分比這是如何以令人信服的方式呈現(xiàn)單個數(shù)據(jù)集的好例子。PewResearch創(chuàng)建了這個動畫,以顯示人口統(tǒng)計數(shù)據(jù)隨時間的變化。這種類型的微內容很容易在社交上分享或嵌入到博客中,從而擴展了內容的傳播范圍。美國風圖:它實時顯示了美國所有當前的風速和方向。這是直觀設計的一個很好的例子:速度由緩慢或快速移動的線條表示,方向由線條移動的方向表示。三、案例展示——優(yōu)秀案例谷歌感恩節(jié)航班:這是一種在給定時間內,將太空中移動的東西進行可視化的好方法。這個由Google趨勢提供支持,該趨勢跟蹤了感恩節(jié)前一天飛往美國的航班。從第一天開始,隨著時間的推移像電影一樣播放,顯示在全國各地移動的航班。在沒有顯示任何數(shù)字的情況下,觀眾可以看到一天中哪些時段更適合國際航班,國內航班以及往返全國不同樞紐的航班。三、案例展示——優(yōu)秀案例U.S.GunDeaths:在這個案例中,每一條線的灰色代表是一個人原來可以活到多少歲,但因為槍支卻提前死亡了,死之前用桔色表現(xiàn)。一開始只是一兩條線來讓用戶說明線條的含義,然后突然加快速度若干線線條一起出現(xiàn),每條線條的顏色匯集在一起,從而直觀的表現(xiàn)出因為槍支死亡的是中青年。三、案例展示——優(yōu)秀案例“ListentoWikipedia”是對維基百科最近更新數(shù)據(jù)的視覺和聲音展示網(wǎng)站。用聲音表示增加或刪除詞,不同的音調代表不同的編輯量。綠色圓圈表示未注冊的貢獻者在編輯,紫色圓圈表示自動機器人在編輯。所有的用戶都會產(chǎn)生一些小噪音,而每個編輯者會有一個特別的聲音。三、案例展示——優(yōu)秀案例“TheRefugeeProject”是闡述難民問題的網(wǎng)站,展示難民的時間和地點,以及他們背后政治、經(jīng)濟和社會的復雜故事。通過將歷史背景融入到到移民的數(shù)據(jù)變化中,表達每次危機對人類生活的影響。通過一開始的數(shù)據(jù)變化,我們可以發(fā)現(xiàn)難民數(shù)據(jù)竟然是上升的,僅2000年到2006年數(shù)據(jù)下降了,這說明這個世界并不太平。通過點擊我們可以發(fā)現(xiàn)為了避難,有的人甚至跨過了半個地球。三、案例展示——優(yōu)秀案例第2章數(shù)據(jù)可視化基礎可視化流程原始數(shù)據(jù)數(shù)據(jù)分析準備好的數(shù)據(jù)過濾重點數(shù)據(jù)可視映射幾何數(shù)據(jù)渲染繪制圖像數(shù)據(jù)可視化流程數(shù)據(jù)采集可視化的對象是數(shù)據(jù),而采集的數(shù)據(jù)涉及數(shù)據(jù)格式、維度、分辨率和精確度等重要特性,這些都決定了可視化的效果。數(shù)據(jù)處理和變換原始數(shù)據(jù)中含有噪聲和誤差,還會有一些信息被隱藏。可視化之前需要將原始數(shù)據(jù)轉換成用戶可以理解的模式和特征并顯示出來??梢暬鞒炭梢暬成渥層脩敉ㄟ^可視化結果去理解數(shù)據(jù)信息以及數(shù)據(jù)背后隱含的規(guī)律。將數(shù)據(jù)的數(shù)值、空間坐標、不同位置數(shù)據(jù)間的聯(lián)系等映射為可視化視覺通道的不同元素,如標記、位置、形狀、大小和顏色等。因此可視化映射是與數(shù)據(jù)、感知、人機交互等方面相互依托,共同實現(xiàn)的。用戶感知可視化映射后的結果只有通過用戶感知才能轉換成知識和靈感。用戶從數(shù)據(jù)的可視化結果中進行信息融合、提煉、總結知識和獲得靈感。數(shù)據(jù)可視化可讓用戶從數(shù)據(jù)中探索新的信息,也可證實自己的想法是否與數(shù)據(jù)所展示的信息相符合??梢暬O計工具和原則可視化數(shù)據(jù)組織與管理工具可視化設計原則可視化數(shù)據(jù)組織與管理工具分布式文件系統(tǒng)分布式文件系統(tǒng)是指文件在物理上可能被分散存儲在不同地點的節(jié)點上,各節(jié)點通過計算機網(wǎng)絡進行通信和數(shù)據(jù)傳輸,但在邏輯上仍然是一個完整的文件。用戶在使用分布式文件系統(tǒng)時,無須知道數(shù)據(jù)存儲在哪個具體的節(jié)點上,只需像操作本地文件系統(tǒng)一樣進行管理和存儲數(shù)據(jù)即可。文檔存儲文檔存儲支持對結構化數(shù)據(jù)的訪問,一般以鍵值對的方式進行存儲。文檔存儲模型支持嵌套結構。例如,文檔存儲模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲其他文檔。Mongodb數(shù)據(jù)庫通過支持在查詢中指定JSON字段路徑實現(xiàn)類似的功能??梢暬瘮?shù)據(jù)組織與管理工具列式存儲列式存儲是指以流的方式在列中存儲所有的數(shù)據(jù)。列式數(shù)據(jù)庫把一列中的數(shù)據(jù)值串在一起存儲,然后再存儲下一列的數(shù)據(jù),以此類推。列式數(shù)據(jù)庫由于查詢時需要讀取的數(shù)據(jù)塊少,所以查詢速度快。因為同一類型的列存儲在一起,所以數(shù)據(jù)壓縮比高,簡化了數(shù)據(jù)建模的復雜性。但它是按列存儲的,插入更新的速度比較慢,不太適合用于數(shù)據(jù)頻繁變化的數(shù)據(jù)庫。它適合用于決策支持系統(tǒng)、數(shù)據(jù)集市、數(shù)據(jù)倉庫,不適合用于聯(lián)機事務處理(OLTP)鍵值存儲鍵值存儲,即Key-value存儲,簡稱KV存儲。它是NOSQL存儲的一種方式。它的數(shù)據(jù)按照鍵值對的形式進行組織、索引和存儲。鍵值存儲能有效地減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫存儲擁有更好的讀寫性能??梢暬瘮?shù)據(jù)組織與管理工具圖形數(shù)據(jù)庫當事物與事物之間呈現(xiàn)復雜的網(wǎng)絡關系(這些關系可以簡單地稱為圖形數(shù)據(jù))時,最常見例子就是社會網(wǎng)絡中人與人之間的關系,用關系型數(shù)據(jù)庫存儲這種“關系型”數(shù)據(jù)的效果并不好,其查詢復雜、緩慢,并超出預期,而圖形數(shù)據(jù)庫的出現(xiàn)則彌補了這個缺陷。關系數(shù)據(jù)庫關系模型是最傳統(tǒng)的數(shù)據(jù)存儲模型,數(shù)據(jù)按行存儲在有架構界定的表中。表中的每個列都有名稱和類型,表中的所有記錄都要符合表的定義。用戶可使用基于關系代數(shù)演算的結構化查詢語言(StructuredQueryLanguage,SQL)提供相應的語法查找符合條件的記錄,通過表連接在多表之間查詢記錄,表中的記錄可以被創(chuàng)建和除,記錄中的字段也可以單獨更新??梢暬瘮?shù)據(jù)組織與管理工具內存數(shù)據(jù)庫內存數(shù)據(jù)庫(MainMemoryDatabase,MMDB)就是將數(shù)據(jù)放在內存中直接操作的數(shù)據(jù)庫。相對于磁盤數(shù)據(jù),內存數(shù)據(jù)的讀寫速度要高出幾個數(shù)量級。MMDB的最大特點是其數(shù)據(jù)常駐內存,即活動事務只與實時內存數(shù)據(jù)庫的內存數(shù)據(jù)“打交道”,所處理的數(shù)據(jù)通常是“短暫”的,有一定的有效時間,過時則有新的數(shù)據(jù)產(chǎn)生。所以,實際應用中采用內存數(shù)據(jù)庫來處理實時性強的業(yè)務邏輯??梢暬O計原則數(shù)據(jù)篩選原則可視化展示的信息要適度,以保證用戶獲取數(shù)據(jù)信息的效率。數(shù)據(jù)到可視化的直觀映射原則設計者能夠在可視化設計時預測用戶在使用可視化結果時的行為和期望,就可以提高可視化設計的可用性和功能性,有助于幫助用戶理解可視化結果。設計者利用已有的先驗知識可以減少用戶對信息的感知和認知所需的時間。視圖選擇與交互設計原則簡單的數(shù)據(jù)可以使用基本的可視化視圖,復雜的數(shù)據(jù)則需要使用或開發(fā)新的較為復雜的可視化視圖。可視化設計原則美學原則可視化設計者在完成可視化的基本功能后,需要對其形式表達(可視化的美學)方面進行設計。有美感的可視化設計會更加吸引用戶的注意,促使其進行更深入的探索。適當運用隱喻原則用一種事物去理解和表達另一種事物的方法稱為隱喻(metaphor),隱喻作為一種認知方式,參與人對外界的認知過程。顏色與透明度選擇原則顏色在數(shù)據(jù)可視化領域通常被用于編碼數(shù)據(jù)的分類或定序屬性。有時,為了便于用戶在觀察和探索數(shù)據(jù)可視化時從整體進行把握,可以給顏色增加一個表示不透明度的分量通道,用于表示離觀察者更近的顏色對背景顏色的透過程度。謝謝大家第2章數(shù)據(jù)可視化拓展主要內容空間場數(shù)據(jù)可視化地理數(shù)據(jù)可視化時變數(shù)據(jù)可視化樹結構可視化圖結構可視化空間場數(shù)據(jù)可視化

空間場數(shù)據(jù)根據(jù)空間的維度與屬性值的特征共同命名多元結構→屬性值多維結構→空間的維度濕度數(shù)據(jù)——三維標量場風場數(shù)據(jù)——三維矢量場

核磁數(shù)據(jù)——三維張量場空間數(shù)據(jù)可視化單元格結構與在空間中進行采樣的方法息息相關,進行采樣時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論