大數(shù)據(jù)可視化技術(shù)-復(fù)雜數(shù)據(jù)可視化_第1頁(yè)
大數(shù)據(jù)可視化技術(shù)-復(fù)雜數(shù)據(jù)可視化_第2頁(yè)
大數(shù)據(jù)可視化技術(shù)-復(fù)雜數(shù)據(jù)可視化_第3頁(yè)
大數(shù)據(jù)可視化技術(shù)-復(fù)雜數(shù)據(jù)可視化_第4頁(yè)
大數(shù)據(jù)可視化技術(shù)-復(fù)雜數(shù)據(jù)可視化_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

復(fù)雜數(shù)據(jù)可視化復(fù)雜數(shù)據(jù)可視化背景《IDC全球大數(shù)據(jù)支出指南》

龐大的產(chǎn)業(yè)推動(dòng)著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領(lǐng)域信息的產(chǎn)生和流動(dòng),越來(lái)越多復(fù)雜且瞬息萬(wàn)變的數(shù)據(jù)被記錄和研究,如視頻影像數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)的時(shí)空數(shù)據(jù)等。對(duì)此類具有高復(fù)雜度的高維多元數(shù)據(jù)進(jìn)行解析、呈現(xiàn)和應(yīng)用是數(shù)據(jù)可視化面臨的新挑戰(zhàn)。面臨的困難數(shù)據(jù)復(fù)雜度大大增加。數(shù)據(jù)的量級(jí)大大增加。數(shù)據(jù)質(zhì)量的問(wèn)題。實(shí)時(shí)分析與可視化技術(shù)存在一定問(wèn)題常規(guī)的可視化方法散點(diǎn)圖:將各屬性的值映射到不同的坐標(biāo)軸,并確定數(shù)據(jù)點(diǎn)在坐標(biāo)系中的位置。當(dāng)維度超過(guò)三維后,就需要增加更多視覺(jué)編碼來(lái)表示其他維度的數(shù)據(jù),如顏色、大小、形狀等。視覺(jué)編碼的增多會(huì)使可視化的效果變差,而且能增加的表示維度有限,這種方法還是有局限性。高維多元數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用高維多元數(shù)據(jù)指每個(gè)數(shù)據(jù)對(duì)象有兩個(gè)或兩個(gè)以上獨(dú)立或者有相關(guān)屬性的數(shù)據(jù)。高維(Multidimensional)指數(shù)據(jù)具有多個(gè)獨(dú)立屬性,多元(Multivariate)指數(shù)據(jù)具有多個(gè)相關(guān)屬性。若要科學(xué)、準(zhǔn)確地描述高維多元數(shù)據(jù),則需要數(shù)據(jù)同時(shí)具備獨(dú)立性和相關(guān)性。在很多情況,數(shù)據(jù)的獨(dú)立性很難判斷,所以一般簡(jiǎn)單的稱之為多元數(shù)據(jù)。例如:筆記本電腦的屏幕、CPU、內(nèi)存、顯卡等配置信息就是一個(gè)多元數(shù)據(jù),每個(gè)數(shù)據(jù)都描述了筆記本電腦的一方面的屬性??梢暬夹g(shù)常被用于多元數(shù)據(jù)的理解,進(jìn)而輔助分析和決策。高維多元數(shù)據(jù)在大數(shù)據(jù)中的可視化方法空間映射法散點(diǎn)圖表格透鏡平行坐標(biāo)降維圖標(biāo)法空間映射法——散點(diǎn)圖散點(diǎn)圖:本質(zhì)是將抽象的數(shù)據(jù)對(duì)象映射到二維坐標(biāo)表示的空間。若處理的是多元數(shù)據(jù),散點(diǎn)圖的概念可理解成:在二維的平面空間中,采用不同的空間映射方法對(duì)高維數(shù)據(jù)進(jìn)行布局,這些數(shù)據(jù)的關(guān)聯(lián)以及數(shù)據(jù)自身的屬性在不同位置得到了展示,而整個(gè)數(shù)據(jù)集在空間中的分布則反映了各維度間的關(guān)系及數(shù)據(jù)集的整體特性??臻g映射法——散點(diǎn)圖散點(diǎn)圖矩陣是散點(diǎn)圖的擴(kuò)展。對(duì)于N維數(shù)據(jù),采用N^2個(gè)散點(diǎn)圖逐一表示N個(gè)屬性之間的兩兩關(guān)系,這些散點(diǎn)圖根據(jù)它們所表示的屬性,沿橫軸和縱軸按一定順序排列,進(jìn)而組成一個(gè)NxN的矩陣??臻g映射法——散點(diǎn)圖隨著數(shù)據(jù)維度的不斷擴(kuò)展,所需散點(diǎn)圖的數(shù)量將呈幾何級(jí)數(shù)的增長(zhǎng),而將過(guò)多的散點(diǎn)圖顯示在有限的屏幕空間中則會(huì)極大地降低可視化圖表的可讀性。目前比較常見的方法就是交互式地選取用戶關(guān)注的屬性數(shù)據(jù)進(jìn)行分析和可視化。通過(guò)歸納散點(diǎn)圖特征,優(yōu)先顯示重要性較高的散點(diǎn)圖,也可以在一定程度上緩解空間的局限??臻g映射法——表格透鏡表格透鏡(TableLens)是對(duì)使用表格呈現(xiàn)多元數(shù)據(jù)(如Excel等軟件)方法的擴(kuò)展。該方法并不直接列出數(shù)據(jù)在每個(gè)維度上的值,而是將這些數(shù)值用水平橫條或者點(diǎn)表示。空間映射法——表格透鏡表格透鏡允許用戶對(duì)行(數(shù)據(jù)對(duì)象)和列(屬性)進(jìn)行排序,用戶也可以選擇某一個(gè)數(shù)據(jù)對(duì)象的實(shí)際數(shù)值。如圖所示,表格透鏡清晰地呈現(xiàn)了數(shù)據(jù)在每個(gè)屬性上的分布和屬性之間的相互關(guān)系??臻g映射法——平行坐標(biāo)平行坐標(biāo)能夠在二維空間中顯示更高維度的數(shù)據(jù)、它以平行坐標(biāo)替代垂直坐標(biāo),是一種重要的多元數(shù)據(jù)可視化分析工具。平行坐標(biāo)不僅能夠揭示數(shù)據(jù)在每個(gè)屬性上的分布,還可描述相鄰兩個(gè)屬性之間的關(guān)系。平行坐標(biāo)很難同時(shí)表現(xiàn)多個(gè)維度間的關(guān)系,因?yàn)槠渥鴺?biāo)軸是順序排列的,不適合于表現(xiàn)非相鄰屬性之間的關(guān)系??臻g映射法——平行坐標(biāo)一般地,交互地選取部分感興趣的數(shù)據(jù)對(duì)象并將其高亮顯示,是一種常見的解決方法。另外,為了便于用戶理解各數(shù)據(jù)維度間的關(guān)系,也可更改坐標(biāo)軸的排列順序??臻g映射法——降維當(dāng)數(shù)據(jù)維度非常高時(shí)(如超過(guò)50維),目前的各類可視方法都無(wú)法將所有的數(shù)據(jù)細(xì)節(jié)清晰地呈現(xiàn)出來(lái)。在這種情況下,我們可通過(guò)線性/非線性變換將多元數(shù)據(jù)投影或嵌入低維空間(通常為二維或三維)中,并保持?jǐn)?shù)據(jù)在多元空間中的特征,這種方法被稱為降維(DimensionReduction)。降維后得到的數(shù)據(jù)即可用常規(guī)的可視化方法進(jìn)行信息呈現(xiàn)。圖標(biāo)法圖標(biāo)法的典型代表是星形圖(Starplots),也稱雷達(dá)圖(RadarChart)星形圖可以看成平行坐標(biāo)的極坐標(biāo)形式,數(shù)據(jù)對(duì)象的各屬性值與各屬性最大值的比例決定了每個(gè)坐標(biāo)軸上點(diǎn)的位置,將這些坐標(biāo)軸上的點(diǎn)折線連接圍成一個(gè)星形區(qū)域,其大小形狀則反映了數(shù)據(jù)對(duì)象的屬性。圖標(biāo)法非結(jié)構(gòu)化數(shù)據(jù)可視化基于并行的大尺度數(shù)據(jù)高分辨率可視化分而治之的大尺度數(shù)據(jù)分析與可視化統(tǒng)計(jì)分析層的分而重組條件變量分割法重復(fù)分割法數(shù)據(jù)挖掘?qū)拥姆侄沃當(dāng)?shù)據(jù)可視化的分而治之基于并行的大尺度數(shù)據(jù)高分辨率可視化復(fù)雜數(shù)據(jù)并不只有高維度數(shù)據(jù)。還包括異構(gòu)數(shù)據(jù)等。異構(gòu)數(shù)據(jù)是指在同一個(gè)數(shù)據(jù)集中存在的如結(jié)構(gòu)或者屬性不同的數(shù)據(jù)。存在多個(gè)不同種類節(jié)點(diǎn)和連接的網(wǎng)絡(luò)被稱為異構(gòu)網(wǎng)絡(luò)。異構(gòu)數(shù)據(jù)通??刹捎镁W(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行表達(dá)。基于并行的大尺度數(shù)據(jù)高分辨率可視化基于異構(gòu)社交網(wǎng)絡(luò)的本體拓?fù)浣Y(jié)構(gòu)表達(dá)了某組織網(wǎng)絡(luò)中的多種不同類別的節(jié)點(diǎn)。由于數(shù)據(jù)量大并且復(fù)雜度高,不能直接使用網(wǎng)絡(luò)點(diǎn)線圖進(jìn)行可視化。我們可以采用從異構(gòu)網(wǎng)絡(luò)中提煉出本體拓?fù)浣Y(jié)構(gòu)的策略,其中的節(jié)點(diǎn)是原來(lái)網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)類型,連接相互之間存在關(guān)聯(lián)的類別?;诓⑿械拇蟪叨葦?shù)據(jù)高分辨率可視化產(chǎn)生數(shù)據(jù)的異構(gòu)性的主要原因是數(shù)據(jù)源的獲取方式的不同。合理地整合底層的數(shù)據(jù)至關(guān)重要?;炯夹g(shù)路線就是構(gòu)建大規(guī)模計(jì)算集群。例如,美國(guó)的馬里蘭大學(xué)構(gòu)建了一個(gè)GPU和CPU混合式高性能計(jì)算和可視化集群分而治之的大尺度數(shù)據(jù)分析與可視化可視化領(lǐng)域以及計(jì)算機(jī)圖形學(xué)有一種標(biāo)準(zhǔn)方法叫作分治(DivideandConquer)法,如二叉樹、四叉樹等空間管理結(jié)構(gòu)等。本節(jié)將從統(tǒng)計(jì)、數(shù)據(jù)挖掘和可視化等幾個(gè)領(lǐng)域介紹分而治之的概念。統(tǒng)計(jì)分析層的分而重組R語(yǔ)言面向統(tǒng)計(jì)分析的底層,是一門開源語(yǔ)言。將數(shù)據(jù)劃分為多個(gè)子集,對(duì)這些子集使用相應(yīng)的方法來(lái)進(jìn)行可視化的操作,最后再合并總體結(jié)果,這種方式就稱為分而重組。分而重組的核心思想包含拆分(Divide)和重合(Recombine)。統(tǒng)計(jì)分析層的分而重組拆分條件變量分割法:一部分變量被選為條件變量,并且被分配到每個(gè)子集里。BSV(BetweenSubset-Variables)在不同子集中的取值各異,且一個(gè)子集在同一時(shí)間只能有一個(gè)BSV變量:WSV(Within-SubsetVariables)則在同一個(gè)子集里取值。技術(shù)人員通過(guò)分析WSV伴隨BSV的變化以及WSV之間的關(guān)系來(lái)確保分割的準(zhǔn)確性。統(tǒng)計(jì)分析層的分而重組拆分重復(fù)分割法:重復(fù)分割法中的數(shù)據(jù)被看作是包含r個(gè)変量的n個(gè)觀察值,被認(rèn)為是重復(fù)數(shù)。如果采用隨機(jī)重復(fù)分割法對(duì)隨機(jī)觀察值不替換地產(chǎn)生子集,這種做法雖然處理速度快,但是各子集缺乏代表性。如果采用近鄰別除重復(fù)分割法,則n個(gè)觀察值將被分割成擁有近乎相同觀測(cè)值的鄰居集合。統(tǒng)計(jì)分析層的分而重組重合統(tǒng)計(jì)重合法:合成各個(gè)子集的統(tǒng)計(jì)值,通常,我們根據(jù)不同的分割算法如近鄰剔除重復(fù)分割法等方法的效果對(duì)比,選擇最優(yōu)的重合方案分析重合法:觀察、分析和評(píng)估計(jì)算結(jié)果可視化重合法:以小粒度觀察數(shù)據(jù)的方法,并使用了多種抽樣策略,包括聚焦抽樣和代表性抽樣。數(shù)據(jù)挖掘?qū)拥姆侄沃褂梅侄蠛系姆椒▽?duì)數(shù)據(jù)進(jìn)行分類大體分為三個(gè)步驟:首先,輸入數(shù)據(jù)或者文本信息,將輸入數(shù)據(jù)等份成n份或者按規(guī)則劃分;然后,對(duì)每份數(shù)據(jù)使用最適合的分類器進(jìn)行分類,并將分類結(jié)果融合;最后,通過(guò)一個(gè)強(qiáng)分類器計(jì)算獲取最終結(jié)果。數(shù)據(jù)可視化的分而治之大規(guī)??茖W(xué)計(jì)算的結(jié)果之所以適合采用多核并行模式和分而治之法進(jìn)行處理,是因其通常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論