大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5-7章 關(guān)系數(shù)據(jù)可視化、拓展;文本數(shù)據(jù)可視化、拓展;復(fù)雜數(shù)據(jù)可視化、拓展_第1頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5-7章 關(guān)系數(shù)據(jù)可視化、拓展;文本數(shù)據(jù)可視化、拓展;復(fù)雜數(shù)據(jù)可視化、拓展_第2頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5-7章 關(guān)系數(shù)據(jù)可視化、拓展;文本數(shù)據(jù)可視化、拓展;復(fù)雜數(shù)據(jù)可視化、拓展_第3頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5-7章 關(guān)系數(shù)據(jù)可視化、拓展;文本數(shù)據(jù)可視化、拓展;復(fù)雜數(shù)據(jù)可視化、拓展_第4頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5-7章 關(guān)系數(shù)據(jù)可視化、拓展;文本數(shù)據(jù)可視化、拓展;復(fù)雜數(shù)據(jù)可視化、拓展_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章關(guān)系數(shù)據(jù)可視化主要內(nèi)容1.關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用2.數(shù)據(jù)的關(guān)聯(lián)性3.數(shù)據(jù)的分布性1.關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用大數(shù)據(jù)的一個(gè)重要價(jià)值是可以幫助我們找到變量之間的聯(lián)系,發(fā)掘事物背后的因果。在進(jìn)行大數(shù)據(jù)挖掘前的重要一步就是探索變量的相關(guān)關(guān)系,進(jìn)而才能探索背后可能隱藏著的因果關(guān)系。分析數(shù)據(jù)時(shí),我們不僅可以從整體進(jìn)行觀察,還可以關(guān)注數(shù)據(jù)的分布,如數(shù)據(jù)間是否存在重疊或者是否毫不相干?還可以從更寬泛的角度觀察各個(gè)分布數(shù)據(jù)的相關(guān)關(guān)系。其實(shí)最重要的點(diǎn),就是數(shù)據(jù)在進(jìn)行可視化處理后,呈現(xiàn)在讀者眼前的圖表所表達(dá)的意義是什么。關(guān)系數(shù)據(jù)具有關(guān)聯(lián)性和分布性。下面通過實(shí)例具體講解關(guān)系數(shù)據(jù),以及如何觀察數(shù)據(jù)間的相關(guān)關(guān)系。2.數(shù)據(jù)的關(guān)聯(lián)性事物之間的關(guān)聯(lián)性是比較容易被發(fā)現(xiàn)的,但是關(guān)聯(lián)并不代表存在因果關(guān)系。比如,大豆的價(jià)格上漲,豬肉的價(jià)格可能也會上漲,但是大豆的價(jià)格上漲可能不是豬肉上漲的原因。盡管如此,關(guān)聯(lián)性還是能給我?guī)砭薮蟮膬r(jià)值的,比如大豆的價(jià)格已經(jīng)上漲了,那我們就可以抓緊時(shí)間囤一些豬肉,這樣往往能省下一筆錢,至于背后是否存在因果關(guān)系,就沒那么重要了。大數(shù)據(jù)可視化就是在告訴我們分析結(jié)果是“什么”,而不是“為什么”.2.數(shù)據(jù)的關(guān)聯(lián)性數(shù)據(jù)的關(guān)聯(lián)性,其核心就是指量化的兩個(gè)數(shù)據(jù)間的數(shù)理關(guān)系。關(guān)聯(lián)性強(qiáng),是指當(dāng)一個(gè)數(shù)值變化時(shí),另一個(gè)數(shù)值也會隨之相應(yīng)地發(fā)生變化。相反地,關(guān)聯(lián)性弱,就是指當(dāng)一個(gè)數(shù)值變化時(shí)另一個(gè)數(shù)值幾乎沒有發(fā)生變化。通過數(shù)據(jù)關(guān)聯(lián)性,就可以根據(jù)一個(gè)已知的數(shù)值變化來預(yù)測另個(gè)數(shù)值的變化。下面通過散點(diǎn)圖、散點(diǎn)圖矩陣、氣泡圖等來研究這類關(guān)系。2.1散點(diǎn)圖變量間一般有三種關(guān)系:正相關(guān)、負(fù)相關(guān)和不相關(guān),如圖所示。正相關(guān)時(shí),橫軸數(shù)據(jù)和縱軸數(shù)據(jù)變化趨勢相同;負(fù)相關(guān)時(shí),橫軸數(shù)據(jù)和縱軸數(shù)據(jù)變化趨勢相反;不相關(guān)時(shí)散點(diǎn)的排列則是雜亂無章的。在統(tǒng)計(jì)學(xué)中有更科學(xué)的方法(比如相關(guān)系數(shù))衡量兩個(gè)變量的相關(guān)性,但是散點(diǎn)圖往往是判斷相關(guān)性的最簡單、直觀的方法,在計(jì)算相關(guān)系數(shù)前通常依靠散點(diǎn)圖作出初步判斷。2.2散點(diǎn)圖矩陣前面講解的散點(diǎn)圖,是用兩組數(shù)據(jù)構(gòu)成多個(gè)坐標(biāo)點(diǎn),再通過觀察坐標(biāo)點(diǎn)的分布,判斷兩個(gè)變量之間是否存在某種關(guān)聯(lián),或總結(jié)坐標(biāo)點(diǎn)的分布模式。但很多時(shí)候變量不止兩個(gè),因此,應(yīng)同時(shí)考察多個(gè)(超過兩個(gè))變量間的相互關(guān)系,但是若一一繪制它們之間的簡單散點(diǎn)圖就十分繁瑣。此時(shí)就可以利用散點(diǎn)圖矩陣來同時(shí)繪制多個(gè)變量問的散點(diǎn)圖,這樣就可以快速發(fā)現(xiàn)哪些變量之間的相關(guān)性更高。這種方法在數(shù)據(jù)探索階段十分有用,其基本框架如圖所示。2.3氣泡圖氣泡圖和散點(diǎn)圖相比,多了一個(gè)維度的數(shù)據(jù)。氣泡圖就是將散點(diǎn)圖中沒有大小的“點(diǎn)“變成有大小的“圓”,圓的大小就可以用來表示多出的那一維數(shù)據(jù)的大小。氣泡圖讓我們可以同時(shí)比較三個(gè)變量,其基本框架如圖所示。一個(gè)具體的例子如圖5-4所示。二手車的價(jià)格由車齡和里程來決定,可以看出,兩個(gè)指標(biāo)越小,氣泡越大,代表價(jià)格越高,反之則反。3.1莖葉圖莖葉圖又稱“枝葉圖”,是由20世紀(jì)早期的英國統(tǒng)計(jì)學(xué)家阿瑟?鮑利(ArthurBowley)設(shè)計(jì)。1997年統(tǒng)計(jì)學(xué)家約翰托奇(JohnTukey)在其著作《探索性數(shù)據(jù)分析》(exploratorydataanalysis)中將這種繪圖方法介紹給大家,從此這種作圖方法變得流行起來。莖葉圖的思路是將數(shù)組中的數(shù)按位數(shù)進(jìn)行比較,將數(shù)的大小基本不變或變化不大的位作為一主干(莖),將變化大的位的數(shù)作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個(gè)主干后面的幾數(shù),每個(gè)數(shù)具體是多少。莖葉圖是一個(gè)與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留原始資料的資訊,直方圖則失去原始資料的訊息。將莖葉圖莖和葉逆時(shí)針方向旋轉(zhuǎn)90度,實(shí)際上就是一個(gè)直方圖,可以從中統(tǒng)計(jì)出次數(shù),計(jì)算出各數(shù)據(jù)段的頻率或百分比。從而看出分布是否與正態(tài)分布或單峰偏態(tài)分布逼近。3.2直方圖直方圖與莖葉圖類似,若逆時(shí)針翻轉(zhuǎn)莖葉圖,則行就變成列;若是把每一列的數(shù)字改成柱形,則得到了一個(gè)直方圖。直方圖又稱質(zhì)量分布圖,是數(shù)值數(shù)據(jù)分布的精確圖形表示。直方圖中的柱形高度表示的是數(shù)值頻率,柱形的寬度是取值區(qū)間。水平軸和垂直軸與一般的柱形圖不同,它是連續(xù)的;一般的柱形圖的水平軸是分離的3.3密度圖直方圖反映的是一組數(shù)據(jù)的分布情況,直方圖的水平軸是連續(xù)性的,整個(gè)圖表呈現(xiàn)的是柱形,用戶無法獲知每個(gè)柱形的內(nèi)部變化。而在莖葉圖中,用戶可以看到具體數(shù)字,但是要求比較數(shù)值間的差距大小并不是很明確。為了呈現(xiàn)更多的細(xì)節(jié),人們提出了密度圖,可用它對分布的細(xì)節(jié)變化進(jìn)行可視化處理。當(dāng)直方圖分段放大時(shí),分段之間的組距就會縮短,此時(shí)依著直方圖畫出的折線就會逐漸變成一條光滑的曲線,這條曲線就稱為總體的密度分布曲線。這條曲線可以反映數(shù)據(jù)分布的密度情況,其基本框架如圖所示。第5章關(guān)系數(shù)據(jù)可視化3.4扇形圖扇形圖,又稱扇形統(tǒng)計(jì)圖,它是用整個(gè)圓表示總數(shù),用圓內(nèi)各個(gè)扇形的大小表示各部分?jǐn)?shù)量占總數(shù)的百分?jǐn)?shù)。通過扇形統(tǒng)計(jì)圖可以很清楚地表示出各部分?jǐn)?shù)量同總數(shù)之間的關(guān)系。它擅長表達(dá)某一占比較大的類別。但是不擅長對比。30%和35%在扇形圖上憑肉眼是難以分辨出區(qū)別的。當(dāng)類別過多,也不適宜在扇形圖上表達(dá)。3.5雷達(dá)圖雷達(dá)圖是以從同一點(diǎn)開始的軸上表示的三個(gè)或更多個(gè)定量變量的二維圖表的形式顯示多變量數(shù)據(jù)的圖形方法。軸的相對位置和角度通常是無信息的。雷達(dá)圖也稱為網(wǎng)絡(luò)圖,蜘蛛圖,星圖,蜘蛛網(wǎng)圖,不規(guī)則多邊形,極坐標(biāo)圖。它在商務(wù)、財(cái)務(wù)領(lǐng)域應(yīng)用較大,適合用在固定的框架內(nèi)表達(dá)某種已知的結(jié)果。常見于經(jīng)營狀況,財(cái)務(wù)健康程度。

比如對企業(yè)財(cái)務(wù)進(jìn)行分析,劃分出六大類:銷售、市場、研發(fā)、客服、技術(shù)、管理。通過雷達(dá)圖繪制出預(yù)算和實(shí)際開銷的維度對比,會很清晰。如圖所示:3.6熱力圖以特殊高亮的形式顯示訪客熱衷的頁面區(qū)域和訪客所在的地理區(qū)域的圖示?,F(xiàn)今熱力圖在網(wǎng)頁分析、業(yè)務(wù)數(shù)據(jù)分析等其他領(lǐng)域有較為廣泛的應(yīng)用。3.6熱力圖目前百度地圖、高德地圖、谷歌地圖、騰訊微信等都會提供如上類似的地圖熱力圖。這種熱力圖是利用獲取的手機(jī)基站定位該區(qū)域的用戶數(shù)量,通過用戶數(shù)量渲染地圖顏色。主要顯示一個(gè)城市的某個(gè)地方人員比較集中甚至擁擠程度。顏色越深表示人員越多,顏色淺代表人比較少。熱力圖可以很直觀的反映區(qū)域內(nèi)的人群流量,便于人們進(jìn)行出行規(guī)劃,也可以幫助政府進(jìn)行城市規(guī)劃和城市管理。3.6熱力圖對于網(wǎng)頁、App的熱力圖來說,常見的熱力圖可以分為三種:按鼠標(biāo)點(diǎn)擊位置的熱力圖、按鼠標(biāo)移動軌跡的熱力圖、按內(nèi)容點(diǎn)擊的熱力圖。這些熱力圖將用戶的每一次鼠標(biāo)點(diǎn)擊、滾動、視野停留都轉(zhuǎn)作了數(shù)據(jù)化的色彩繪制出來。它作為一款好用的用戶行為分析工具,可以直觀清楚地看到頁面上每一個(gè)區(qū)域的訪客興趣焦點(diǎn),通過用戶在頁面上的瀏覽軌跡,點(diǎn)擊熱區(qū)來找到網(wǎng)站內(nèi)對用戶有價(jià)值的信息,并且優(yōu)化網(wǎng)站死角來更加豐富和滿足用戶體驗(yàn)。網(wǎng)頁、App的熱力圖在推廣營銷、轉(zhuǎn)化漏斗、流量細(xì)分等方面也有其獨(dú)特應(yīng)用。4.數(shù)據(jù)可視化的意義圖表以可視化形式來輔助大腦快速處理信息當(dāng)我們在使用數(shù)據(jù)可視化時(shí),就是在發(fā)揮人腦對視覺信息快速處理的優(yōu)勢。簡而言之,很多科學(xué)家也已經(jīng)針對可視化對于數(shù)據(jù)的重要性,進(jìn)行了許多研究,發(fā)現(xiàn)可視化對我們大腦感知視覺效果的有效性。在這方面,數(shù)據(jù)可視化不僅僅是一個(gè)道具,它還提供了一個(gè)更高效的學(xué)習(xí)環(huán)境。4.數(shù)據(jù)可視化的意義圖表提供干凈易于理解的數(shù)據(jù)信息圖表是不僅僅涉及創(chuàng)建數(shù)據(jù)可視化,還涉及如何利用圖表去有效的傳遞數(shù)據(jù)信息。數(shù)據(jù)可視化很有用,因?yàn)樗偨Y(jié)并指出了關(guān)鍵指標(biāo),當(dāng)你需要局部數(shù)據(jù)信息時(shí),選擇針對性的圖表數(shù)據(jù),能夠快速獲取你想要的數(shù)據(jù)趨勢和效果。對很多職場人士而言,時(shí)間就是金錢,效率就是生命,因此必須在數(shù)據(jù)信息當(dāng)中快速建立清晰的認(rèn)識,從而使你的業(yè)務(wù)省時(shí)、高效。4.數(shù)據(jù)可視化的意義大腦記憶能力的限制在觀察物體的時(shí)候,人類的大腦和計(jì)算機(jī)一樣有長期的記憶和短期的記憶的區(qū)分。為了將短期記憶轉(zhuǎn)化為長期記憶,我們往往要經(jīng)歷多次重復(fù)。很多研究表明,在進(jìn)行理解和學(xué)習(xí)的任務(wù)的時(shí)候,圖文結(jié)合的方式能夠幫助讀者更好的了解所要學(xué)習(xí)的內(nèi)容,圖像更容易理解,更有趣,也更容易讓人們記住。第6章文本數(shù)據(jù)可視化文本數(shù)據(jù)可視化概述

綜合多種學(xué)科,幫助人們理解復(fù)雜文本內(nèi)容、結(jié)構(gòu)、和內(nèi)在規(guī)律,提取出最能代表文本的信息,并進(jìn)行可視化。本章要點(diǎn)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)關(guān)鍵詞可視化時(shí)序文本可視化文本分布可視化文本關(guān)系可視化未來文本可視化主題文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取海量的文本數(shù)據(jù)

人類社會不斷積累文本信息,在計(jì)算機(jī)時(shí)代大量數(shù)據(jù)可以存儲在一塊很小的硬盤中。在互聯(lián)網(wǎng)上,每天都有海量的“用戶生成內(nèi)容”。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取面臨的難題人們接收信息的速度已經(jīng)小于信息產(chǎn)生的速度,尤其是文本信息海量信息使人們處理和理解的難度日益增大傳統(tǒng)的文本分析技術(shù)提取的信息仍然無法滿足人們利用瀏覽及篩選等方式對其進(jìn)行合理的分析理解和應(yīng)用。簡單實(shí)用的文本可視化文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的重要作用通過視覺符號的形式表達(dá)文本內(nèi)容,便于人們快速理解文本信息將無結(jié)構(gòu)的文本信息自動轉(zhuǎn)換為可視的有結(jié)構(gòu)信息。使人類視覺認(rèn)知、關(guān)聯(lián)、推理的能力得到充分的發(fā)揮。結(jié)合機(jī)器智能和人工智能,為人們更好的理解文本和發(fā)現(xiàn)知識聽過了新的有效途徑。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的應(yīng)用從人文研究到政府決策,從精準(zhǔn)醫(yī)療到量化金融,從客戶管理到市場營銷,這些海量的文本作為最重要的信息載體之一,處處發(fā)揮著舉足輕重的作用情報(bào)分析人員、網(wǎng)絡(luò)內(nèi)容分析人員、情感分析或文學(xué)研究者等相關(guān)職業(yè)更需要文本可視化。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取大數(shù)據(jù)中文本可視化基本流程原始文本文本分析文本預(yù)處理文本特征抽取文本特征度量可視化呈現(xiàn)圖元設(shè)計(jì)圖元布局用戶認(rèn)知交互設(shè)計(jì)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本分析內(nèi)容文本可視化依賴于自然語言處理,因此詞袋模型、命名實(shí)體識別、關(guān)鍵詞抽取、主題分析、情感分析等是較常用的文本分析技術(shù)。過程主要包括:文本數(shù)據(jù)預(yù)處理,過濾無效信息特征提取,提取出文本詞匯及的內(nèi)容以靈活有文本特征的度量,分析分本間相似性、文本聚類等表示這些過程處理過的數(shù)據(jù)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取可視化呈現(xiàn)及用戶感知(1)信息圖

1.文本內(nèi)容的視覺編碼主要涉及尺寸、顏色、形狀、方位、文理等

2.文本間關(guān)系的視覺編碼主要涉及網(wǎng)絡(luò)圖、維恩圖、樹狀圖、坐標(biāo)軸等。 3.選擇合適的視覺編碼呈現(xiàn)文本信息的各種特征(2)交互

高亮、縮放、動態(tài)轉(zhuǎn)換、關(guān)聯(lián)更新等文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本理解需求等級及對應(yīng)挖掘方法詞匯級(LexicalLevel)——各類分詞算法語法級(SyntacticLevel)——語句分析算法語義級(SemanticLevel)——主題提取算法文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本數(shù)據(jù)單文本文檔集合時(shí)序文本數(shù)據(jù)文本可視化文本內(nèi)容的可視化文本關(guān)系的可視化文本多層面信息的可視化文本數(shù)據(jù)大致可分為三種:單文本、文檔集合和時(shí)序文本數(shù)據(jù)。對應(yīng)的文本可視化也可分為三類:文本內(nèi)容可視化文本關(guān)系可視化文本多層面信息的可視化使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)網(wǎng)絡(luò)爬蟲(WebCrawler)是指一類能夠自動化訪問網(wǎng)絡(luò)并抓取某些信息的程序,有時(shí)候也被稱為“網(wǎng)絡(luò)機(jī)器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲可以按一定邏輯大批量采集目標(biāo)頁面內(nèi)容,并對數(shù)據(jù)做進(jìn)一步的處理,人們借此能夠更好更快的獲得并使用他們感興趣的信息,從而方便地完成很多有價(jià)值的工作。使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)大部分編程語言都可以實(shí)現(xiàn)爬蟲程序的編寫,也有部分商業(yè)軟件提供爬蟲服務(wù)。目前比較流行的就是用Python編寫爬蟲,有大量的第三方庫可以使用,常見的有Request、urlib、Scrapy等。其中Scrapy庫提供了比較完善的爬蟲框架,如圖所示,可以省去很多麻煩。文本內(nèi)容可視化一段文本的內(nèi)容可以用高頻詞、短語、句子、主題等代表,但是文本可視化遇到的任務(wù)通常是對有海量文本的集合進(jìn)行可視化分析,針對不同類型的文本集合,我們有不同的方法來進(jìn)行可視化分析。關(guān)鍵詞可視化

關(guān)鍵詞可視化標(biāo)簽云按照一定規(guī)律將這些詞展示出來,可以用顏色透明度的高低、字體的大小來區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低關(guān)鍵詞可視化文檔散文檔散使用詞匯庫中的結(jié)構(gòu)關(guān)系來布局關(guān)鍵詞,同時(shí)使用詞語關(guān)系網(wǎng)中具有上下語義關(guān)系的詞語來布局關(guān)鍵詞,從而揭示文本內(nèi)容。上下語義關(guān)系是指詞語之間往往存在語義層級的關(guān)系,也就是說,一些詞語是某些詞語的下義詞。而在一篇文章中,具有上下語義關(guān)系的詞語一般是同時(shí)存在的。時(shí)序文本可視化

時(shí)序文本具有時(shí)間性和順序性,比如,新聞會隨著時(shí)間變化,小說的故事情節(jié)會隨著時(shí)間變化,網(wǎng)絡(luò)上對某一新聞事件的評論會隨著真相的逐步揭露而變化。對具有明顯時(shí)序信息的文本進(jìn)行可視化時(shí),需要在結(jié)果中體現(xiàn)這種變化。時(shí)序文本可視化主題河流法主題河流(Themeriver)是由SusanHavre等學(xué)者于2000年提出的一種時(shí)序數(shù)據(jù)可視化方法,主要用于反映文本主題強(qiáng)弱變化的過程。右圖所示的主題河流可視化示例,橫軸表示時(shí)間,河流中的不同顏色的涌流表示不同的主題,涌流的流動表示主題的變化。在任意時(shí)間點(diǎn)上,涌流的垂直寬度表示主題的強(qiáng)弱。文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。文本關(guān)系可視化基于圖的文本關(guān)系可視化詞語樹是使用樹形圖展示詞語在文本中的出現(xiàn)情況,可以直觀地呈現(xiàn)出一個(gè)詞語和其前后的詞語。用戶可自定義感興趣的詞語作為中心節(jié)點(diǎn)。中心節(jié)點(diǎn)向前擴(kuò)展,就是文本中處于該詞語前面的詞語;中心節(jié)點(diǎn)向后擴(kuò)展,就是文本中處于該詞語后面的詞語。字號大小代表了詞語在文本中出現(xiàn)的頻率。如圖所示,圖中采用了詞語樹的方法來呈現(xiàn)一個(gè)文本中Child這個(gè)詞與其相連的前后所有的詞語。文本關(guān)系可視化基于圖的文本關(guān)系可視化短語網(wǎng)絡(luò)包括以下兩種屬性。節(jié)點(diǎn),代表一個(gè)詞語或短語。帶箭頭的連線,表示節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,這個(gè)關(guān)系需要用戶定義,比如,“AisB“,其中的is用連線表示,A和B是is前后的兩個(gè)節(jié)點(diǎn)詞語。A在is前面,B在is后面,那么箭頭就由A指向B。連線的寬度越寬,就說明這個(gè)短語在文中出現(xiàn)的頻率越高。圖中使用短語網(wǎng)絡(luò)對某小說中的“*the*”關(guān)系進(jìn)行可視化。文本關(guān)系可視化文檔間關(guān)系可視化

當(dāng)對多個(gè)文檔進(jìn)行可視化展示時(shí),針對文本內(nèi)容進(jìn)行可視化的方法就不適合了。此時(shí)可以引人向量空間模型來計(jì)算出各個(gè)文檔之間的相似性,單個(gè)文檔被定義成單個(gè)特征向量,最終以投影等方式來呈現(xiàn)各文檔之間的關(guān)系。文檔間關(guān)系可視化星系視圖星系視圖(GalaxyView)可用于表征多個(gè)文檔之間的相似性。假設(shè)一篇文檔是一顆星星,每篇文檔都有其主題,將所有文檔按照主題投影到二維平面上,就如同星星在星系中一樣。文檔的主題越相似,星星之間的距離就越近;文檔的主題相差越大,星星之間的距離就越遠(yuǎn)。星星聚集得越多,就表示這些文檔的主題越相近,并且數(shù)量較多;若存在多個(gè)聚集點(diǎn)則說明文檔集合中包含多種主題的文檔。文檔間關(guān)系可視化文檔集抽樣投影當(dāng)一個(gè)文檔集中包含的文檔數(shù)量過大時(shí),投影出來的星系視圖中就會產(chǎn)生很多重疊的星星。為了避免這種重疊情況的出現(xiàn),用戶可以對文檔集進(jìn)行抽樣,有選擇性地抽取部分文檔進(jìn)行投影,這樣可以更加清晰地顯示每個(gè)樣本。未來文本可視化主題交互式增量文本分析多層次可視文本總結(jié)(關(guān)鍵詞+句子)多方面的文本分析(例如,總結(jié)+情感分析)多媒體文檔摘要(文本+圖像+視頻)

互動、可視的社交媒體分析第6章文本數(shù)據(jù)可視化本章要點(diǎn)1、文本可視化的定義2、文本可視化的基本流程3、文本數(shù)據(jù)的提取4、文本內(nèi)容的可視化5、文本關(guān)系的可視化1什么是文本數(shù)據(jù)可視化

文本數(shù)據(jù)可視化就是將一篇文本尤其是數(shù)據(jù)信息密度較低的文本進(jìn)行一定的處理,從中提取出最能代表文本所表達(dá)內(nèi)容的信息,并將這些信息進(jìn)行可視化的處理,簡而言之就是:將復(fù)雜的文本數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,以方便人們洞悉。2.1文本數(shù)據(jù)可視化的基本流程原始文本文本預(yù)處理文本特征抽取文本特征度量圖元設(shè)計(jì)圖元布局交互設(shè)計(jì)2.2.1文本可視化的分類根據(jù)對文本的理解需求分類詞匯級(LexicalLevel)

詞匯級使用各類分詞算法語法級(SyntacticLevel)

語法級使用一些句法分析算法語義級(SemanticLevel)

語義級則使用主題提取算法2.2.2文本可視化的分類根據(jù)文本數(shù)據(jù)分類單文本——文本內(nèi)容的可視化

文本內(nèi)容可視化是對文本內(nèi)的關(guān)鍵信息分析后的展示文檔集合——文本關(guān)系的可視化

文本關(guān)系的可視化既可以對單個(gè)文本進(jìn)行內(nèi)部的關(guān)系展示,也可以對多個(gè)文本進(jìn)行文本之間的關(guān)系展示時(shí)序文本數(shù)據(jù)——文本多層面信息的可視化

文本多特征信息的可視化,是結(jié)合文本的多個(gè)特征進(jìn)行全方位的可視化展示。3文本數(shù)據(jù)的提取

——網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebCrawler)是指一類能夠自動化訪問網(wǎng)絡(luò)并抓取某些信息的程序,有時(shí)候也被稱為“網(wǎng)絡(luò)機(jī)器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲可以按一定邏輯大批量采集目標(biāo)頁面內(nèi)容,并對數(shù)據(jù)做進(jìn)一步的處理。大部分編程語言都可以實(shí)現(xiàn)爬蟲程序的編寫,也有部分商業(yè)軟件提供爬蟲服務(wù)。目前比較流行的就是用Python編寫爬蟲,有大量的第三方庫可以使用,常見的有Request、urlib、Scrapy等。其中Scrapy庫提供了比較完善的爬蟲框架,可以省去很多麻煩。4.1關(guān)鍵詞可視化一個(gè)詞語若在一個(gè)文本中出現(xiàn)頻率較高,那么這個(gè)詞語可能就是這個(gè)文本的關(guān)鍵詞。在實(shí)際應(yīng)用當(dāng)中還要考慮到這些詞是否在其他文本中也經(jīng)常出現(xiàn),例如“的”等詞語。一般做法是構(gòu)建一個(gè)停用詞表,在分詞階段就將這些詞去除。還可以進(jìn)一步采用TF-IDF(TermFrequency-InverseDocumentFrequency)方法來計(jì)算詞語對表達(dá)文本信息的重要程度。4.1.1關(guān)鍵詞可視化——標(biāo)簽云

1、統(tǒng)計(jì)文本中詞語出現(xiàn)頻率、TF-IDF等指標(biāo)來衡量詞語的重要程度,提取出權(quán)重較高關(guān)鍵詞;2、按照一定規(guī)律將這些詞展示出來,可以用顏色透明度的高低、字體的大小來區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低。4.1.2關(guān)鍵詞可視化——文檔散文檔散使用詞匯庫中的結(jié)構(gòu)關(guān)系來布局關(guān)鍵詞,同時(shí)使用詞語關(guān)系網(wǎng)中具有上下語義關(guān)系的詞語來布局關(guān)鍵詞,從而揭示文本內(nèi)容。1、將一個(gè)單詞作為中心點(diǎn)。中心點(diǎn)的詞匯可以由用戶指定,選擇不同的中心點(diǎn)詞匯呈現(xiàn)出的可視化結(jié)果將大不相同;2、將整個(gè)文章內(nèi)的詞語呈現(xiàn)在一個(gè)放射式層次圓環(huán)中,外層的詞是內(nèi)層詞的下義詞。顏色飽和度的深淺用來體現(xiàn)詞頻的高低。標(biāo)簽云文檔散4.2時(shí)序文本可視化時(shí)序文本具有時(shí)間性和順序性,比如,新聞會隨著時(shí)間變化,小說的故事情節(jié)會隨著時(shí)間變化,網(wǎng)絡(luò)上對某一新聞事件的評論會隨著真相的逐步揭露而變化。對具有明顯時(shí)序信息的文本進(jìn)行可視化時(shí),需要在結(jié)果中體現(xiàn)這種變化。我們主要通過以下三種“流圖來”來滿足這種可視化需求。主題河流文本流故事流經(jīng)典的主題河流模型包括以下兩個(gè)屬性。(1)顏色。顏色用以區(qū)分主題的類型,相同主題用相同顏色的涌流表示。主題過多時(shí)顏色可能無法滿足需求,因?yàn)槿菀讌^(qū)分的顏色種類并不是很多。一個(gè)解決方法是將主題也進(jìn)行分類,一種顏色表示某一大類主題;(2)寬度,表示主題的數(shù)量(或強(qiáng)度),涌流的狀態(tài)隨著主題的變化,可能擴(kuò)展、收縮或者保持不變。文本流是主題河流的又一種變形,可以表達(dá)主題變化,以及隨著時(shí)間流動,各個(gè)主題之間的分裂和合并信息。故事流則可以表達(dá)文本的情節(jié)或者電影中的情節(jié)。

通過使用主題河流圖,時(shí)序文本內(nèi)容整體的變化趨勢就能很容易地被用戶獲取??梢钥闯?,主題河流存在一定局限性,該做法將每個(gè)時(shí)間刻度上的主題高度概括為一個(gè)數(shù)值,省略了主題的特性,無法滿足用戶再進(jìn)一步的信息需求。一個(gè)較好的做法是為主題引入標(biāo)簽云,每個(gè)主題用一組關(guān)鍵詞描述,讓用戶更好理解主題內(nèi)容。

圖所示的主題河流可視化示例,橫軸表示時(shí)間,河流中的不同顏色的涌流表示不同的主題,涌流的流動表示主題的變化。在任意時(shí)間點(diǎn)上,涌流的垂直寬度表示主題的強(qiáng)弱。4.3文本分布可視化文本分布可視化實(shí)際上是引入了詞語在文本當(dāng)中的位置、句子長度等信息,這些信息常被制作成文本弧。文本弧特性如下:(1)用一條螺旋線表示一篇文章,螺旋線的首尾對應(yīng)著文章的首尾,文章的詞語有序地分布在螺旋線上;(2)若詞語在整篇文章中出現(xiàn)得比較頻繁,則靠近畫布的中心區(qū)域分布;(3)若詞語只是在局部出現(xiàn)得比較頻繁,則靠近螺旋線分布;(4)字體的大小和顏色深度代表著詞語的出現(xiàn)頻率。4文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。4.1.1基于圖的文本關(guān)系可視化

——詞語樹

詞語樹(WordTree)使用樹形圖展示詞語在文本中的出現(xiàn)情況,可以直觀地呈現(xiàn)出一個(gè)詞語和其前后的詞語。用戶可自定義感興趣的詞語作為中心節(jié)點(diǎn)。中心節(jié)點(diǎn)向前擴(kuò)展,就是文本中處于該詞語前面的詞語;中心節(jié)點(diǎn)向后擴(kuò)展,就是文本中處于該詞語后面的詞語。字號大小代表了詞語在文本中出現(xiàn)的頻率。4.1.2基于圖的文本關(guān)系可視化

——短語網(wǎng)絡(luò)

節(jié)點(diǎn)是從文本中挖掘出的詞匯級或語法級的語義單元,邊代表語義單元的聯(lián)系,邊的方向即短語的方向,邊的寬度是短語在文本中出現(xiàn)的頻率。4.2文檔間關(guān)系可視化當(dāng)對多個(gè)文檔進(jìn)行可視化展示時(shí),針對文本內(nèi)容進(jìn)行可視化的方法就不適合了。此時(shí)可以引人向量空間模型來計(jì)算出各個(gè)文檔之間的相似性,單個(gè)文檔被定義成單個(gè)特征向量,最終以投影等方式來呈現(xiàn)各文檔之間的關(guān)系。4.2.1星系視圖星系視圖(GalaxyView)可用于表征多個(gè)文檔之間的相似性。假設(shè)一篇文檔是一顆星星,每篇文檔都有其主題,將所有文檔按照主題投影到二維平面上,就如同星星在星系中一樣。文檔的主題越相似,星星之間的距離就越近;文檔的主題相差越大,星星之間的距離就越遠(yuǎn)。星星聚集得越多,就表示這些文檔的主題越相近,并且數(shù)量較多;若存在多個(gè)聚集點(diǎn)則說明文檔集合中包含多種主題的文檔。4.2.2文檔集抽樣投影當(dāng)一個(gè)文檔集中包含的文檔數(shù)量過大時(shí),投影出來的星系視圖中就會產(chǎn)生很多重疊的星星。為了避免這種重疊情況的出現(xiàn),用戶可以對文檔集進(jìn)行抽樣,有選擇性地抽取部分文檔進(jìn)行投影,這樣可以更加清晰地顯示每個(gè)樣本。第7章

復(fù)雜數(shù)據(jù)可視化復(fù)雜數(shù)據(jù)可視化背景《IDC全球大數(shù)據(jù)支出指南》

龐大的產(chǎn)業(yè)推動著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領(lǐng)域信息的產(chǎn)生和流動,越來越多復(fù)雜且瞬息萬變的數(shù)據(jù)被記錄和研究,如視頻影像數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)的時(shí)空數(shù)據(jù)等。對此類具有高復(fù)雜度的高維多元數(shù)據(jù)進(jìn)行解析、呈現(xiàn)和應(yīng)用是數(shù)據(jù)可視化面臨的新挑戰(zhàn)。面臨的困難數(shù)據(jù)復(fù)雜度大大增加。數(shù)據(jù)的量級大大增加。數(shù)據(jù)質(zhì)量的問題。實(shí)時(shí)分析與可視化技術(shù)存在一定問題常規(guī)的可視化方法散點(diǎn)圖:將各屬性的值映射到不同的坐標(biāo)軸,并確定數(shù)據(jù)點(diǎn)在坐標(biāo)系中的位置。當(dāng)維度超過三維后,就需要增加更多視覺編碼來表示其他維度的數(shù)據(jù),如顏色、大小、形狀等。視覺編碼的增多會使可視化的效果變差,而且能增加的表示維度有限,這種方法還是有局限性。高維多元數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用高維多元數(shù)據(jù)指每個(gè)數(shù)據(jù)對象有兩個(gè)或兩個(gè)以上獨(dú)立或者有相關(guān)屬性的數(shù)據(jù)。高維(Multidimensional)指數(shù)據(jù)具有多個(gè)獨(dú)立屬性,多元(Multivariate)指數(shù)據(jù)具有多個(gè)相關(guān)屬性。若要科學(xué)、準(zhǔn)確地描述高維多元數(shù)據(jù),則需要數(shù)據(jù)同時(shí)具備獨(dú)立性和相關(guān)性。在很多情況,數(shù)據(jù)的獨(dú)立性很難判斷,所以一般簡單的稱之為多元數(shù)據(jù)。例如:筆記本電腦的屏幕、CPU、內(nèi)存、顯卡等配置信息就是一個(gè)多元數(shù)據(jù),每個(gè)數(shù)據(jù)都描述了筆記本電腦的一方面的屬性??梢暬夹g(shù)常被用于多元數(shù)據(jù)的理解,進(jìn)而輔助分析和決策。高維多元數(shù)據(jù)在大數(shù)據(jù)中的可視化方法空間映射法散點(diǎn)圖表格透鏡平行坐標(biāo)降維圖標(biāo)法空間映射法——散點(diǎn)圖散點(diǎn)圖:本質(zhì)是將抽象的數(shù)據(jù)對象映射到二維坐標(biāo)表示的空間。若處理的是多元數(shù)據(jù),散點(diǎn)圖的概念可理解成:在二維的平面空間中,采用不同的空間映射方法對高維數(shù)據(jù)進(jìn)行布局,這些數(shù)據(jù)的關(guān)聯(lián)以及數(shù)據(jù)自身的屬性在不同位置得到了展示,而整個(gè)數(shù)據(jù)集在空間中的分布則反映了各維度間的關(guān)系及數(shù)據(jù)集的整體特性??臻g映射法——散點(diǎn)圖散點(diǎn)圖矩陣是散點(diǎn)圖的擴(kuò)展。對于N維數(shù)據(jù),采用N^2個(gè)散點(diǎn)圖逐一表示N個(gè)屬性之間的兩兩關(guān)系,這些散點(diǎn)圖根據(jù)它們所表示的屬性,沿橫軸和縱軸按一定順序排列,進(jìn)而組成一個(gè)NxN的矩陣??臻g映射法——散點(diǎn)圖隨著數(shù)據(jù)維度的不斷擴(kuò)展,所需散點(diǎn)圖的數(shù)量將呈幾何級數(shù)的增長,而將過多的散點(diǎn)圖顯示在有限的屏幕空間中則會極大地降低可視化圖表的可讀性。目前比較常見的方法就是交互式地選取用戶關(guān)注的屬性數(shù)據(jù)進(jìn)行分析和可視化。通過歸納散點(diǎn)圖特征,優(yōu)先顯示重要性較高的散點(diǎn)圖,也可以在一定程度上緩解空間的局限。空間映射法——表格透鏡表格透鏡(TableLens)是對使用表格呈現(xiàn)多元數(shù)據(jù)(如Excel等軟件)方法的擴(kuò)展。該方法并不直接列出數(shù)據(jù)在每個(gè)維度上的值,而是將這些數(shù)值用水平橫條或者點(diǎn)表示。空間映射法——表格透鏡表格透鏡允許用戶對行(數(shù)據(jù)對象)和列(屬性)進(jìn)行排序,用戶也可以選擇某一個(gè)數(shù)據(jù)對象的實(shí)際數(shù)值。如圖所示,表格透鏡清晰地呈現(xiàn)了數(shù)據(jù)在每個(gè)屬性上的分布和屬性之間的相互關(guān)系??臻g映射法——平行坐標(biāo)平行坐標(biāo)能夠在二維空間中顯示更高維度的數(shù)據(jù)、它以平行坐標(biāo)替代垂直坐標(biāo),是一種重要的多元數(shù)據(jù)可視化分析工具。平行坐標(biāo)不僅能夠揭示數(shù)據(jù)在每個(gè)屬性上的分布,還可描述相鄰兩個(gè)屬性之間的關(guān)系。平行坐標(biāo)很難同時(shí)表現(xiàn)多個(gè)維度間的關(guān)系,因?yàn)槠渥鴺?biāo)軸是順序排列的,不適合于表現(xiàn)非相鄰屬性之間的關(guān)系??臻g映射法——平行坐標(biāo)一般地,交互地選取部分感興趣的數(shù)據(jù)對象并將其高亮顯示,是一種常見的解決方法。另外,為了便于用戶理解各數(shù)據(jù)維度間的關(guān)系,也可更改坐標(biāo)軸的排列順序??臻g映射法——降維當(dāng)數(shù)據(jù)維度非常高時(shí)(如超過50維),目前的各類可視方法都無法將所有的數(shù)據(jù)細(xì)節(jié)清晰地呈現(xiàn)出來。在這種情況下,我們可通過線性/非線性變換將多元數(shù)據(jù)投影或嵌入低維空間(通常為二維或三維)中,并保持?jǐn)?shù)據(jù)在多元空間中的特征,這種方法被稱為降維(DimensionReduction)。降維后得到的數(shù)據(jù)即可用常規(guī)的可視化方法進(jìn)行信息呈現(xiàn)。圖標(biāo)法圖標(biāo)法的典型代表是星形圖(Starplots),也稱雷達(dá)圖(RadarChart)星形圖可以看成平行坐標(biāo)的極坐標(biāo)形式,數(shù)據(jù)對象的各屬性值與各屬性最大值的比例決定了每個(gè)坐標(biāo)軸上點(diǎn)的位置,將這些坐標(biāo)軸上的點(diǎn)折線連接圍成一個(gè)星形區(qū)域,其大小形狀則反映了數(shù)據(jù)對象的屬性。圖標(biāo)法非結(jié)構(gòu)化數(shù)據(jù)可視化基于并行的大尺度數(shù)據(jù)高分辨率可視化分而治之的大尺度數(shù)據(jù)分析與可視化統(tǒng)計(jì)分析層的分而重組條件變量分割法重復(fù)分割法數(shù)據(jù)挖掘?qū)拥姆侄沃當(dāng)?shù)據(jù)可視化的分而治之基于并行的大尺度數(shù)據(jù)高分辨率可視化復(fù)雜數(shù)據(jù)并不只有高維度數(shù)據(jù)。還包括異構(gòu)數(shù)據(jù)等。異構(gòu)數(shù)據(jù)是指在同一個(gè)數(shù)據(jù)集中存在的如結(jié)構(gòu)或者屬性不同的數(shù)據(jù)。存在多個(gè)不同種類節(jié)點(diǎn)和連接的網(wǎng)絡(luò)被稱為異構(gòu)網(wǎng)絡(luò)。異構(gòu)數(shù)據(jù)通常可采用網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行表達(dá)?;诓⑿械拇蟪叨葦?shù)據(jù)高分辨率可視化基于異構(gòu)社交網(wǎng)絡(luò)的本體拓?fù)浣Y(jié)構(gòu)表達(dá)了某組織網(wǎng)絡(luò)中的多種不同類別的節(jié)點(diǎn)。由于數(shù)據(jù)量大并且復(fù)雜度高,不能直接使用網(wǎng)絡(luò)點(diǎn)線圖進(jìn)行可視化。我們可以采用從異構(gòu)網(wǎng)絡(luò)中提煉出本體拓?fù)浣Y(jié)構(gòu)的策略,其中的節(jié)點(diǎn)是原來網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)類型,連接相互之間存在關(guān)聯(lián)的類別?;诓⑿械拇蟪叨葦?shù)據(jù)高分辨率可視化產(chǎn)生數(shù)據(jù)的異構(gòu)性的主要原因是數(shù)據(jù)源的獲取方式的不同。合理地整合底層的數(shù)據(jù)至關(guān)重要。基本技術(shù)路線就是構(gòu)建大規(guī)模計(jì)算集群。例如,美國的馬里蘭大學(xué)構(gòu)建了一個(gè)GPU和CPU混合式高性能計(jì)算和可視化集群分而治之的大尺度數(shù)據(jù)分析與可視化可視化領(lǐng)域以及計(jì)算機(jī)圖形學(xué)有一種標(biāo)準(zhǔn)方法叫作分治(DivideandConquer)法,如二叉樹、四叉樹等空間管理結(jié)構(gòu)等。本節(jié)將從統(tǒng)計(jì)、數(shù)據(jù)挖掘和可視化等幾個(gè)領(lǐng)域介紹分而治之的概念。統(tǒng)計(jì)分析層的分而重組R語言面向統(tǒng)計(jì)分析的底層,是一門開源語言。將數(shù)據(jù)劃分為多個(gè)子集,對這些子集使用相應(yīng)的方法來進(jìn)行可視化的操作,最后再合并總體結(jié)果,這種方式就稱為分而重組。分而重組的核心思想包含拆分(Divide)和重合(Recombine)。統(tǒng)計(jì)分析層的分而重組拆分條件變量分割法:一部分變量被選為條件變量,并且被分配到每個(gè)子集里。BSV(BetweenSubset-Variables)在不同子集中的取值各異,且一個(gè)子集在同一時(shí)間只能有一個(gè)BSV變量:WSV(Within-SubsetVariables)則在同一個(gè)子集里取值。技術(shù)人員通過分析WSV伴隨BSV的變化以及WSV之間的關(guān)系來確保分割的準(zhǔn)確性。統(tǒng)計(jì)分析層的分而重組拆分重復(fù)分割法:重復(fù)分割法中的數(shù)據(jù)被看作是包含r個(gè)変量的n個(gè)觀察值,被認(rèn)為是重復(fù)數(shù)。如果采用隨機(jī)重復(fù)分割法對隨機(jī)觀察值不替換地產(chǎn)生子集,這種做法雖然處理速度快,但是各子集缺乏代表性。如果采用近鄰別除重復(fù)分割法,則n個(gè)觀察值將被分割成擁有近乎相同觀測值的鄰居集合。統(tǒng)計(jì)分析層的分而重組重合統(tǒng)計(jì)重合法:合成各個(gè)子集的統(tǒng)計(jì)值,通常,我們根據(jù)不同的分割算法如近鄰剔除重復(fù)分割法等方法的效果對比,選擇最優(yōu)的重合方案分析重合法:觀察、分析和評估計(jì)算結(jié)果可視化重合法:以小粒度觀察數(shù)據(jù)的方法,并使用了多種抽樣策略,包括聚焦抽樣和代表性抽樣。數(shù)據(jù)挖掘?qū)拥姆侄沃褂梅侄蠛系姆椒▽?shù)據(jù)進(jìn)行分類大體分為三個(gè)步驟:首先,輸入數(shù)據(jù)或者文本信息,將輸入數(shù)據(jù)等份成n份或者按規(guī)則劃分;然后,對每份數(shù)據(jù)使用最適合的分類器進(jìn)行分類,并將分類結(jié)果融合;最后,通過一個(gè)強(qiáng)分類器計(jì)算獲取最終結(jié)果。數(shù)據(jù)可視化的分而治之大規(guī)??茖W(xué)計(jì)算的結(jié)果之所以適合采用多核并行模式和分而治之法進(jìn)行處理,是因其通常體現(xiàn)為規(guī)則的空間型數(shù)據(jù)。標(biāo)準(zhǔn)的科學(xué)計(jì)算數(shù)據(jù)的并行可視化可采用計(jì)算密集型的超級計(jì)算機(jī)、計(jì)算集群和GPU集群等模式。目前比較流行的Hadoop和Mapreduce等處理框架通常被用來處理非空間型數(shù)據(jù),Mapreduce框架應(yīng)用于科學(xué)計(jì)算的空間型數(shù)據(jù),這就意味著使用統(tǒng)一的分而治之的框架可以處理科學(xué)計(jì)算的空間型數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。第7章復(fù)雜數(shù)據(jù)可視化主要內(nèi)容:什么是數(shù)據(jù)可視化數(shù)據(jù)可視化流程數(shù)據(jù)的可視化呈現(xiàn)用戶交互什么是數(shù)據(jù)可視化“可視化”或它的全稱“科學(xué)計(jì)算可視化”(VisualizationinScientificComputing,ViSC)一詞是在1987年根據(jù)美國國家科學(xué)基金會召開的“科學(xué)計(jì)算可視化研討會”內(nèi)容撰寫的一份報(bào)告中正式提出的。在短短20余年歷史中,科學(xué)計(jì)算可視化發(fā)展成為一個(gè)十分活躍的研究領(lǐng)域,新的研究分支不斷涌現(xiàn),如出現(xiàn)了用于表示海量數(shù)據(jù)不同類型及其邏輯關(guān)系的信息可視化技術(shù),以及將可視化與分析相結(jié)合的可視分析學(xué)研究方向?,F(xiàn)在又有了把“科學(xué)計(jì)算可視化”、“信息可視化”和“可視分析學(xué)”這三個(gè)分支整合在一起的新學(xué)科“數(shù)據(jù)可視化”。——石教英浙江大學(xué)計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國家重點(diǎn)實(shí)驗(yàn)室在計(jì)算機(jī)學(xué)科的分類中,利用人眼的感知能力對數(shù)據(jù)進(jìn)行交互的可視表達(dá)以增強(qiáng)認(rèn)知的技術(shù),稱為可視化。它將不可見或難以直接顯示的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號、顏色、紋理等,增強(qiáng)數(shù)據(jù)識別效率,傳遞有效信息。——唐澤圣、陳為.可視化條目.中國計(jì)算機(jī)大百科全書,2011年修訂版可視化通常被理解為一個(gè)生成圖形圖像的過程。更深刻的認(rèn)識是,可視化是認(rèn)知的過程,即形成某個(gè)物體的感知圖像,強(qiáng)化認(rèn)知理解。因此,可視化的終極目的是對事物規(guī)律的洞悉,而非所繪制的可視化結(jié)果本身。這包含多重含義:發(fā)現(xiàn)、決策、解釋、分析、探索和學(xué)習(xí)。因此,可視化可簡明地定義為“通過可視表達(dá)增強(qiáng)人們完成某些任務(wù)的效率”?!狹atthewWard,GeorgesGrinstein,DanielKeim.InteractiveDataVisualization:Foundations,Techniques,andApplications.May,2010什么是數(shù)據(jù)可視化科學(xué)可視化、信息可視化和可視分析三者之間沒有清晰邊界??茖W(xué)可視化的研究重點(diǎn)是帶有空間坐標(biāo)和幾何信息的醫(yī)學(xué)影像數(shù)據(jù)、三維空間信息測量數(shù)據(jù)、流體計(jì)算模擬數(shù)據(jù)等。信息可視化的核心問題主要有高維數(shù)據(jù)的可視化、數(shù)據(jù)間各種抽象關(guān)系的可視化、用戶的敏捷交互和可視化有效性的評斷等。可視分析偏重于從各類數(shù)據(jù)綜合、意會和推理出知識,其實(shí)質(zhì)是可視地完成機(jī)器智能和人腦智能的雙向轉(zhuǎn)換,整個(gè)探索過程是迭代的、螺旋式上升的過程。左圖:詮釋了可視分析學(xué)包含的研究內(nèi)容右圖:綜合了圖形學(xué)、數(shù)據(jù)挖掘和人機(jī)交互等技術(shù)圖3歐洲學(xué)者DanielKeim等人提出的可視分析學(xué)標(biāo)準(zhǔn)流程數(shù)據(jù)可視化流程數(shù)據(jù)可視化不僅是一門包含各種算法的技術(shù),還是一個(gè)具有方法論的學(xué)科。因此,在實(shí)際應(yīng)用中需要采用系統(tǒng)化的思維設(shè)計(jì)數(shù)據(jù)可視化方法與工具。圖1科學(xué)可視化的早期可視化流水線圖2由Card,Mackinlay和Shneiderman等人提出的信息可視化參考流程數(shù)據(jù)可視化流程數(shù)據(jù)可視化流程中的核心要素包括三個(gè)方面。數(shù)據(jù)表示與變換

數(shù)據(jù)可視化的基礎(chǔ)是數(shù)據(jù)表示和變換。為了允許有效的可視化、分析和記錄,輸入數(shù)據(jù)必須從原始狀態(tài)變換到一種便于計(jì)算機(jī)處理的結(jié)構(gòu)化數(shù)據(jù)表示形式。數(shù)據(jù)的可視化呈現(xiàn)

數(shù)據(jù)可視化向用戶傳播了信息,而同一個(gè)數(shù)據(jù)集可能對應(yīng)多種視覺呈現(xiàn)形式,即視覺編碼。數(shù)據(jù)可視化的核心內(nèi)容是從巨大的呈現(xiàn)多樣性空間中選擇最合適的編碼形式。

大量的數(shù)據(jù)采集通常是以流的形式實(shí)時(shí)獲取的,針對靜態(tài)數(shù)據(jù)發(fā)展起來的可視化顯示方法不能直接拓展到動態(tài)數(shù)據(jù)。這不僅要求可視化結(jié)果有一定的時(shí)間連貫性,還要求可視化方法達(dá)到高效以便給出實(shí)時(shí)反饋。因此不僅需要研究新的軟件算法,還需要更強(qiáng)大的計(jì)算平臺(如分布式計(jì)算或云計(jì)算)、顯示平臺(如一億像素顯示器或大屏幕拼接)和交互模式(如體感交互、可穿戴式交互)。用戶交互

交互是通過可視的手段輔助分析決策的直接推動力。有關(guān)人機(jī)交互的探索已經(jīng)持續(xù)很長時(shí)間,但智能、適用于海量數(shù)據(jù)可視化的交互技術(shù),如任務(wù)導(dǎo)向的、基于假設(shè)的方法還是一個(gè)未解難題,其核心挑戰(zhàn)是新型的可支持用戶分析決策的交互方法。這些交互方法涵蓋底層的交互方式與硬件、復(fù)雜的交互理念與流程,更需要克服不同類型的顯示環(huán)境和不同任務(wù)帶來的可擴(kuò)充性難點(diǎn)。數(shù)據(jù)可視化設(shè)計(jì)數(shù)據(jù)可視化的設(shè)計(jì)簡化為四個(gè)級聯(lián)的層次(見圖1)。簡而言之,最外層(第一層)是刻畫真實(shí)用戶的問題,稱為問題刻畫層。第二層是抽象層,將特定領(lǐng)域的任務(wù)和數(shù)據(jù)映射到抽象且通用的任務(wù)及數(shù)據(jù)類型。第三層是編碼層,設(shè)計(jì)與數(shù)據(jù)類型相關(guān)的視覺編碼及交互方法。最內(nèi)層(第四層)的任務(wù)是創(chuàng)建正確完成系統(tǒng)設(shè)計(jì)的算法。

圖1可視化設(shè)計(jì)的層次嵌套模型數(shù)據(jù)的可視化呈現(xiàn)(基本圖表)統(tǒng)計(jì)圖表是最早的數(shù)據(jù)可視化形式之一,作為基本的可視化元素仍然被非常廣泛地使用。對于很多復(fù)雜的大型可視化系統(tǒng)來說,這類圖表更是作為基本的組成元素而不可缺少。圖1單變量數(shù)據(jù)軌跡。股票K線圖,時(shí)間是自變量,股指是因變量圖2左:標(biāo)準(zhǔn)的柱狀圖(BarChart);右:增強(qiáng)版柱狀圖(也稱堆疊圖),編碼對比了幾個(gè)國家不同年齡段人口數(shù)量。圖3不同的直方圖(Histogram)分布形態(tài)。直方圖的各個(gè)部分之和等于單位整體,而柱狀圖的各個(gè)部分之和沒有限制,這是兩者的主要區(qū)別。圖4餅圖(PieChart)實(shí)例,展示了某產(chǎn)品在各省的銷售比例情況數(shù)據(jù)的可視化呈現(xiàn)(基本圖表)散點(diǎn)圖(ScatterPlot)和散點(diǎn)圖矩陣(ScatterPlotMatrix)散點(diǎn)圖是表示二維數(shù)據(jù)的標(biāo)準(zhǔn)方法。在散點(diǎn)圖中,所有數(shù)據(jù)以點(diǎn)的形式出現(xiàn)在笛卡爾坐標(biāo)系中,每個(gè)點(diǎn)所對應(yīng)的橫縱坐標(biāo)即代表該數(shù)據(jù)在坐標(biāo)軸所表示維度上的屬性值大小。散點(diǎn)圖矩陣是散點(diǎn)圖的高維擴(kuò)展,用來展現(xiàn)高維(大于二維)數(shù)據(jù)屬性分布??梢酝ㄟ^采用尺寸、形狀和顏色等來編碼數(shù)據(jù)點(diǎn)的其他信息。對不同屬性進(jìn)行兩兩組合,生成一組散點(diǎn)圖,來緊湊地表達(dá)屬性對之間的關(guān)系,如圖1所示。圖1四維數(shù)據(jù)的散點(diǎn)圖矩陣表示。左圖為單個(gè)散點(diǎn)圖區(qū)域的放大效果。熱力圖(HeatMap)熱力圖使用顏色來表達(dá)位置相關(guān)的二維數(shù)值數(shù)據(jù)大小。這些數(shù)據(jù)常以矩陣或方格形式整齊排列,或在地圖上按一定的位置關(guān)系排列,每個(gè)數(shù)據(jù)點(diǎn)的顏色編碼數(shù)值大小,如圖2所示。圖2使用熱力圖展示出租車的繁忙程度數(shù)據(jù)的可視化呈現(xiàn)(基本圖表)多視圖協(xié)調(diào)關(guān)聯(lián)(MultipleCoordinatedViews)將不同種類的繪圖組合起來,每個(gè)繪圖單元可以展現(xiàn)數(shù)據(jù)某個(gè)方面的屬性,并且通常允許用戶進(jìn)行交互分析,提升用戶對數(shù)據(jù)的模式識別能力。圖2用于比較多尺度線粒體的基因數(shù)據(jù)的可視化系統(tǒng)MizBee的界面盒須圖它的基本形式是用一個(gè)長方形盒子表示數(shù)據(jù)的大致范圍(數(shù)據(jù)值范圍的25%~75%),并在盒子中用橫線標(biāo)明均值的位置。同時(shí),在盒子上部和下部分別用兩根橫線標(biāo)注最大值和最小值。圖1盒須圖的標(biāo)準(zhǔn)表示(左圖)及其若干變種數(shù)據(jù)的可視化呈現(xiàn)(時(shí)變數(shù)據(jù)可視化)線性和周期時(shí)間可視化不同類別的時(shí)變型數(shù)據(jù)需采用不同的可視方法來表達(dá)。標(biāo)準(zhǔn)的顯示方法將時(shí)間數(shù)據(jù)作為二維的線圖顯示,x軸表示時(shí)間,y軸表示其他的變量,如圖1。為了體現(xiàn)時(shí)變型數(shù)據(jù)的周期結(jié)構(gòu),可以采用環(huán)狀表示某時(shí)間段內(nèi)的時(shí)間結(jié)構(gòu),如圖2所示。圖2采用環(huán)狀表示一周(左)和一天(右)中手機(jī)用戶活動的時(shí)間分布圖1時(shí)序數(shù)據(jù)的線性表達(dá)--標(biāo)準(zhǔn)的單軸序列圖數(shù)據(jù)的可視化呈現(xiàn)(時(shí)變數(shù)據(jù)可視化)時(shí)變型數(shù)據(jù)中的其他屬性可以采用不同的可視化通道表達(dá)。例如,圖中華盛頓郵報(bào)發(fā)布的可視化作品展現(xiàn)了過去的30年里,電子產(chǎn)品的價(jià)格變化趨勢。其中,使用圓點(diǎn)的大小和顏色來分別表示電子產(chǎn)品的價(jià)格和類別。圖部分電子產(chǎn)品在1980—2010年價(jià)格和銷量的變化趨勢。橫軸表示年份,縱軸表示銷量。圓點(diǎn)的大小表示價(jià)格,顏色表示產(chǎn)品類別。數(shù)據(jù)的可視化呈現(xiàn)(時(shí)變數(shù)據(jù)可視化)日歷時(shí)間可視化對于日歷時(shí)間的可視化,在表達(dá)維度上一般采用表格映射的方式對時(shí)間軸進(jìn)行處理。圖1和圖2分別展示了三種日歷視圖。圖2采用d3.js軟件可視化2006—2009年美國道瓊斯股票指數(shù)??梢暬Y(jié)果清晰地展現(xiàn)了2008年10月金融危機(jī)爆發(fā)前后美國股市的激烈狀況。圖1不同的日歷視圖。左:12邊形日歷,右:螺旋形日歷。數(shù)據(jù)的可視化呈現(xiàn)(時(shí)變數(shù)據(jù)可視化)流數(shù)據(jù)可視化-文本流數(shù)據(jù)-FluxFlowFluxFlow是一個(gè)分析社交媒體中異常信息擴(kuò)散的可視分析系統(tǒng)。該系統(tǒng)首先對時(shí)序文本進(jìn)行聚類,然后利用類似于文本流的可視化設(shè)計(jì)對每個(gè)聚類中的帖子進(jìn)行可視化。如圖所示,每個(gè)圓點(diǎn)都代表一個(gè)帖子以及這個(gè)帖子的所有回復(fù),圓點(diǎn)的大小編碼了參與這個(gè)帖子的用戶數(shù)量,圓點(diǎn)的顏色則編碼了異常分?jǐn)?shù),顏色越偏紫則帖子的內(nèi)容越異常。利用這樣的可視化設(shè)計(jì),人們在社交媒體上的討論內(nèi)容隨時(shí)間的變化便被直觀地展現(xiàn)出來。圖

FluxFlow系統(tǒng)主要視圖,對一個(gè)聚類中的所有帖子進(jìn)行可視化數(shù)據(jù)的可視化呈現(xiàn)(時(shí)變數(shù)據(jù)可視化)流數(shù)據(jù)可視化-文本流數(shù)據(jù)-D-Map利用地圖的隱喻來對時(shí)序文本進(jìn)行可視化。如圖所示為D-Map系統(tǒng)概覽。這個(gè)系統(tǒng)主要是為了展示信息擴(kuò)散模式以及重要社交媒體用戶在信息擴(kuò)散過程中發(fā)揮的作用。在信息擴(kuò)散地圖中,用戶被抽象為六邊形節(jié)點(diǎn),核心用戶用黑色框進(jìn)行高亮顯示。顏色用來編碼用戶所屬的社團(tuán)。用戶可以通過選擇不同的時(shí)刻來對某個(gè)時(shí)刻的信息擴(kuò)散進(jìn)行分析,同時(shí)系統(tǒng)還支持對多個(gè)不同時(shí)刻的地圖進(jìn)行比較。圖

D-Map系統(tǒng)概覽數(shù)據(jù)的可視化呈現(xiàn)(層次和網(wǎng)絡(luò)數(shù)據(jù)可視化)層次數(shù)據(jù)層次數(shù)據(jù)是一種常見的數(shù)據(jù)類型,著重表達(dá)個(gè)體之間的層次關(guān)系。這種關(guān)系主要表現(xiàn)為兩類:包含和從屬1.節(jié)點(diǎn)-鏈接(Node-link)法:將單個(gè)個(gè)體繪制成一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)之間的連線表示個(gè)體之間的層次關(guān)系。這種方法直觀清晰,特別擅長于表示承接的層次關(guān)系。但是,當(dāng)個(gè)體數(shù)目太多,特別是廣度和深度相差較大時(shí),節(jié)點(diǎn)-鏈接方法的可讀性較差——大量數(shù)據(jù)點(diǎn)聚集在屏幕局部范圍,難以高效地利用有限的屏幕空間。圖1單詞樹可視化設(shè)計(jì)數(shù)據(jù)的可視化呈現(xiàn)(層次和網(wǎng)絡(luò)數(shù)據(jù)可視化)2.空間填充(Space-filling)法:用空間中的分塊區(qū)域表示數(shù)據(jù)中的個(gè)體,并用外層區(qū)域?qū)?nèi)層區(qū)域的包圍表示彼此之間的層次關(guān)系。其中的代表方法是樹圖。和節(jié)點(diǎn)-鏈接法相比,這種方法更適合于顯示包含和從屬的關(guān)系,且具有高效的屏幕空間利用率,可呈現(xiàn)更多的數(shù)據(jù)。此方法的缺點(diǎn)在于數(shù)據(jù)中的層次信息表達(dá)不如節(jié)點(diǎn)-鏈接法清晰。樹圖由Johnson和Schneiderman在20世紀(jì)90年代初發(fā)明的樹圖(Treemap)從空間填充的角度實(shí)現(xiàn)層次數(shù)據(jù)的可視化。樹圖法采用矩形表示層次結(jié)構(gòu)里的節(jié)點(diǎn),父子節(jié)點(diǎn)之間的層次關(guān)系用矩形之間的相互嵌套隱喻來表達(dá)。此方法可以充分利用所有的屏幕空間。圖1基于樹圖法的新聞分類可視化系統(tǒng)Newsmap數(shù)據(jù)的可視化呈現(xiàn)(層次和網(wǎng)絡(luò)數(shù)據(jù)可視化)網(wǎng)絡(luò)(Network)數(shù)據(jù)與樹型數(shù)據(jù)中明顯的層次結(jié)構(gòu)不同,網(wǎng)絡(luò)數(shù)據(jù)并不具有自底向上或自頂向下的層次結(jié)構(gòu),表達(dá)的關(guān)系更加自由和復(fù)雜。網(wǎng)絡(luò)通常用圖(Graph)表示。圖的繪制包括三個(gè)方面:網(wǎng)絡(luò)布局、網(wǎng)絡(luò)屬性可視化和用戶交互,其中布局確定圖的結(jié)構(gòu)關(guān)系,是最核心要素。最常用的布局方法有節(jié)點(diǎn)-鏈接法和相鄰矩陣兩類。兩者之間沒有絕對的優(yōu)劣,在實(shí)際應(yīng)用中針對不同的數(shù)據(jù)特征以及可視化需求選擇不同的可視化表達(dá)方式,或采用混合表達(dá)方式。數(shù)據(jù)的可視化呈現(xiàn)(層次和網(wǎng)絡(luò)數(shù)據(jù)可視化)1.節(jié)點(diǎn)-鏈接法力引導(dǎo)布局(Force-directedLayout)節(jié)點(diǎn)-鏈接布局方法主要有力引導(dǎo)布局(Force-directedLayout)。力引導(dǎo)布局可廣泛地應(yīng)用于各類無方向圖,很多可視化工具包都實(shí)現(xiàn)了這個(gè)算法,只要在調(diào)用工具包中的布局之前定義好點(diǎn)、邊和權(quán)重,就能快速地實(shí)現(xiàn)一個(gè)力引導(dǎo)布局圖1力引導(dǎo)布局算法實(shí)例。法國作家維克多·雨果的小說《悲慘世界》的人物圖譜。節(jié)點(diǎn)顏色編碼了通過子群劃分算法計(jì)算的人物分類類別,邊的粗細(xì)編碼了兩個(gè)節(jié)點(diǎn)代表的人物之間共同出現(xiàn)的頻率。數(shù)據(jù)的可視化呈現(xiàn)(層次和網(wǎng)絡(luò)數(shù)據(jù)可視化)2.相鄰矩陣法與節(jié)點(diǎn)-鏈接法相比,相鄰矩陣能很好地表達(dá)一個(gè)兩兩關(guān)聯(lián)的網(wǎng)絡(luò)數(shù)據(jù)(即完全圖),而節(jié)點(diǎn)-鏈接圖不可避免地會造成極大的邊交叉,造成視覺混亂3.混合布局方法如果單獨(dú)采用任何一種布局都不能很好地表達(dá)數(shù)據(jù),可混合兩者的布局設(shè)計(jì)。圖1相鄰矩陣法的排序?qū)嵗?。法國作家維克多·雨果的小說《悲慘世界》的人物圖譜。圖例中,采用子群聚類算法獲得的人物分類結(jié)果對相鄰矩陣的行和列進(jìn)行排序。用戶交互(七類基本交互技術(shù))1.選擇:標(biāo)記感興趣的數(shù)據(jù)對象、區(qū)域或特征。根據(jù)交互目的和交互延時(shí)的不同,選擇方式大致可以分為(1)鼠標(biāo)懸浮選擇(2)鼠標(biāo)點(diǎn)擊選擇(3)刷選/框選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論