傳播學(xué)研究方法 課件 ch18-大數(shù)據(jù)的分析與可視化-用圖表勾勒網(wǎng)絡(luò)關(guān)系_第1頁
傳播學(xué)研究方法 課件 ch18-大數(shù)據(jù)的分析與可視化-用圖表勾勒網(wǎng)絡(luò)關(guān)系_第2頁
傳播學(xué)研究方法 課件 ch18-大數(shù)據(jù)的分析與可視化-用圖表勾勒網(wǎng)絡(luò)關(guān)系_第3頁
傳播學(xué)研究方法 課件 ch18-大數(shù)據(jù)的分析與可視化-用圖表勾勒網(wǎng)絡(luò)關(guān)系_第4頁
傳播學(xué)研究方法 課件 ch18-大數(shù)據(jù)的分析與可視化-用圖表勾勒網(wǎng)絡(luò)關(guān)系_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第十八章大數(shù)據(jù)的分析與可視化—用圖表勾勒網(wǎng)絡(luò)關(guān)系學(xué)習(xí)目標(biāo)2理解大數(shù)據(jù)的特點,及其給傳播學(xué)研究帶來的機遇與挑戰(zhàn)了解大數(shù)據(jù)的時間信息的特點及其在傳播學(xué)研究中的價值與應(yīng)用理解大數(shù)據(jù)的文本數(shù)據(jù)的特點了解處理文本數(shù)據(jù)的基本步驟和方法及其在傳播學(xué)研究重點應(yīng)用理解大數(shù)據(jù)的關(guān)系數(shù)據(jù)的特點和網(wǎng)絡(luò)分析的基本概念了解關(guān)系數(shù)據(jù)在傳播學(xué)研究中的應(yīng)用理解數(shù)據(jù)可視化和可視分析的基本概念和原理了解數(shù)據(jù)可視化和科室分析在傳播學(xué)研究中應(yīng)用本章知識框架3第十八章大數(shù)據(jù)的分析與可視化—用圖表勾勒網(wǎng)絡(luò)關(guān)系18-1大數(shù)據(jù)的特點極其機遇與挑戰(zhàn)大數(shù)據(jù)的特點大數(shù)據(jù)給傳播學(xué)研究帶來的機遇大數(shù)據(jù)給社會科學(xué)研究帶來的挑戰(zhàn)大數(shù)據(jù)里的時間信息被作為理論變量的測量工具大數(shù)據(jù)里的時間信息是解析傳播現(xiàn)象背后動態(tài)機制的重要載體文本挖掘簡介文本預(yù)處理與詞匯分析文本分類與情感分析文本聚類與主題模型情感分析的案例18-2大數(shù)據(jù)里的時間18-3大數(shù)據(jù)里的文本18-4大數(shù)據(jù)里的關(guān)系18-5大數(shù)據(jù)的可視化和可視分析什么是社會網(wǎng)絡(luò)分析網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)表征網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量可視化的基本原理大數(shù)據(jù)的可視化大數(shù)據(jù)的可視分析418-1

大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)大數(shù)據(jù)的特點大數(shù)據(jù)給社會科學(xué)研究帶來的挑戰(zhàn)大數(shù)據(jù)給傳播學(xué)研究帶來的機遇大數(shù)據(jù)為觀察、測量傳播現(xiàn)象提供了新的工具大數(shù)據(jù)為傳播學(xué)研究提供了新的平臺大數(shù)據(jù)推動傳播學(xué)者采用新的分析方法來理解傳播現(xiàn)象大數(shù)據(jù)研究需要傳播學(xué)者采用新的工作模式數(shù)據(jù)驅(qū)動與理論驅(qū)動的爭論交叉驗證的必要性18-1大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)一、大數(shù)據(jù)的特點5首先,大數(shù)據(jù)最廣為人知的特點就是其所囊括的海量的信息或用戶。第二,大數(shù)據(jù)中的絕大部分記錄都是用戶自發(fā)的行為,而不是傳統(tǒng)的社會科學(xué)研究中由某種測量工具或?qū)嶒灤碳にl(fā)的態(tài)度或者行為。第三,絕大部分的大數(shù)據(jù)都不是針對某個研究問題或研究領(lǐng)域“事先訂制”的數(shù)據(jù),而是被研究者“事后發(fā)現(xiàn)”的數(shù)據(jù)。研究人員應(yīng)該仔細(xì)評估大數(shù)據(jù)的質(zhì)量,例如噪聲,特異值,缺失值等,同時應(yīng)該謹(jǐn)慎評估從“事后發(fā)現(xiàn)”的大數(shù)據(jù)得出的結(jié)果的可靠性和有效性。18-1大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)二、大數(shù)據(jù)給傳播學(xué)研究帶來的機遇6為傳播學(xué)研究帶來了新的研究范式。至少從以下四種方式改變著傳播學(xué)研究:(一)大數(shù)據(jù)為觀察、測量傳播現(xiàn)象提供了新的工具大數(shù)據(jù)里豐富的數(shù)據(jù)類型和用戶自發(fā)的數(shù)據(jù)本質(zhì),能夠激發(fā)研究者的想象力,為研究者對理論變量進行操作化提供了更廣闊的空間。(二)大數(shù)據(jù)為傳播學(xué)研究提供了新的平臺社交和移動媒體的勃興極大地促進和便利了實驗研究的設(shè)計和實施。首先,社交媒體上的眾包平臺降低了研究對象招募的障礙。18-1大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)二、大數(shù)據(jù)給傳播學(xué)研究帶來的機遇7(三)推動傳播學(xué)者采用新的分析方法來理解傳播現(xiàn)象大數(shù)據(jù)中的時間戳、文本數(shù)據(jù)、關(guān)系數(shù)據(jù)等數(shù)據(jù)形式,需要傳播學(xué)者采納前沿的分析方法,才能準(zhǔn)確、充分地挖掘大數(shù)據(jù)中的信息。(四)大數(shù)據(jù)研究需要傳播學(xué)者采用新的工作模式跨學(xué)科合作和開放科學(xué)將成為日益主流的工作模式。18-1大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)三、大數(shù)據(jù)給社會科學(xué)研究帶來的挑戰(zhàn)8(一)數(shù)據(jù)驅(qū)動與理論驅(qū)動的爭論在大數(shù)據(jù)分析中,因果關(guān)系仍然應(yīng)該是社會科學(xué)研究的核心。理論驅(qū)動的因果關(guān)系檢驗可以使實證結(jié)果更加清晰明了和可解釋。數(shù)據(jù)的海量并不能保證數(shù)據(jù)的質(zhì)量。隨著數(shù)據(jù)規(guī)模的增加,質(zhì)量問題可能變得更加嚴(yán)重,大數(shù)據(jù)會比小數(shù)據(jù)導(dǎo)致更多的偏向推理。海量數(shù)據(jù)并不等同與有代表性的數(shù)據(jù)。我們不僅僅要關(guān)心數(shù)據(jù)規(guī)模,而且還要知道大數(shù)據(jù)來自產(chǎn)生和獲得的。18-1大數(shù)據(jù)的特點及其帶來的機遇與挑戰(zhàn)三、大數(shù)據(jù)給社會科學(xué)研究帶來的挑戰(zhàn)9(二)交叉驗證的必要性大數(shù)據(jù)分析中變得日益需要的一個研究方式,目的是增強研究結(jié)果的穩(wěn)健性。研究者應(yīng)該充分利用海量的數(shù)據(jù)規(guī)模進行交叉驗證,將數(shù)據(jù)分為幾個子集,并測試模型在子樣本之間的穩(wěn)健性。在機器學(xué)習(xí)中,交叉驗證被廣泛采用,確保當(dāng)使用不同的訓(xùn)練和測試數(shù)據(jù)集時,機器學(xué)習(xí)產(chǎn)生一致的結(jié)果。交叉驗證的第二個應(yīng)用是評估不同度量和不同算法之間的一致性。在數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)分析、數(shù)據(jù)解讀和可視化等各方面會面臨許多已知或未知的挑戰(zhàn)。1018-2大數(shù)據(jù)里的時間大數(shù)據(jù)里的時間大數(shù)據(jù)里的時間信息被作為理論變量的測量工具大數(shù)據(jù)里的時間信息是解析傳播現(xiàn)象背后動態(tài)機制的重要工具1118-2大數(shù)據(jù)里的時間時間是傳播學(xué)研究中重要的原生概念。一、大數(shù)據(jù)里的時間信息被作為理論變量的測量工具大數(shù)據(jù)能夠?qū)崟r地記錄用戶的各種行為,所以大數(shù)據(jù)里帶有時間戳的信息比傳統(tǒng)的自我報告數(shù)據(jù)能更準(zhǔn)確地測量理論概念。二、大數(shù)據(jù)里的時間信息是解析傳播現(xiàn)象背后動態(tài)機制的重要

工具大數(shù)據(jù)里的時間信息還為傳播學(xué)者探索傳播領(lǐng)域中未知的動力演化機制提供了新的契機。最具代表性的就是個體軌跡研究的興起。1218-3

大數(shù)據(jù)里的文本大數(shù)據(jù)里的文本文本挖掘簡介文本預(yù)處理與詞匯分析文本分類與情感分析文本聚類與主題模型情感分析案例文本挖掘的方法詞匯分析18-3大數(shù)據(jù)里的文本一、文本挖掘簡介13文本挖掘指的是對大規(guī)模文本數(shù)據(jù)進行的計算輔助式分析,以求從中加工出高質(zhì)量的信息。文本挖掘是傳統(tǒng)文本分析的一種延伸,它有助于質(zhì)與量的分析。18-3大數(shù)據(jù)里的文本二、文本預(yù)處理與詞匯分析14(一)文本挖掘的方法文本挖掘的基礎(chǔ)是將文本變成可供測量比較的單元的集合。這個過程稱為詞匯提取,或者文本預(yù)處理。18-3大數(shù)據(jù)里的文本二、文本預(yù)處理與詞匯分析15表18-1文本預(yù)處理的步驟步驟解釋實例1.除去非文本部分非文本部分包括標(biāo)點符號、數(shù)字、字母等?!啊督鸪崛浮肥敲绹骷姨颇取に厮囊徊啃≌f,出版于2013年,是塔特的第三部長篇小說?!薄敖鸪崛甘敲绹骷姨颇人厮囊徊啃≌f出版于年是塔特的第三部長篇小說”分詞針對中文等沒有自然邊界的詞句,將連續(xù)的文字劃分出詞、句的邊界。“金翅雀是美國作家唐娜塔特所著的一部小說出版于年是塔特的第三部長篇小說”→“金翅雀是美國作家唐娜塔特所著的一部小說出版于年是塔特的第三部長篇小說”3.去除停用詞去除文本中沒有實際含義的功能詞(如“的”,“是”,the,of)和運用比較廣泛的實詞(如“我們”,“今天”)。以減少冗余信息,降低后續(xù)分析的復(fù)雜度。需要注意的是有時功能詞也具有分析的意義,如用“我們”的詞頻變化來探索個體的社會卷入水平,需依據(jù)研究問題考慮是否去除?!敖鸪崛甘敲绹骷姨颇人厮囊徊啃≌f出版于年是塔特的第三部長篇小說”→

“金翅雀美國作家唐娜塔特小說出版塔特第三部長篇小說”4.詞干提取提取詞匯的主干部分。通常解決單復(fù)數(shù)、時態(tài)、陰陽性等問題。fishing/fished/fishes/fisher→fishwolves→wolv5.詞形還原將詞匯還原成一般形式。通常解決單復(fù)數(shù)、時態(tài)、陰陽性等問題。ate→eatwolves→wolf6.詞語標(biāo)注給每個詞標(biāo)注其詞性(如名詞、動詞)和實體(如人物、地點、時間)等?!敖鸪崛该绹骷姨颇人匦≌f出版塔特第三部長篇小說”

“金翅雀n美國作家l唐娜塔特nrt小說n出版v塔特nrt第三部m長篇小說l”(n:名詞;l:習(xí)用語;nrt:人名;v:動詞;m:數(shù)詞)18-3大數(shù)據(jù)里的文本二、文本預(yù)處理與詞匯分析16(二)詞匯分析詞匯可以用來描述特定群體的特征。詞匯也可以反映個體差異。詞匯分析的優(yōu)勢在于可以建立語義與詞匯的直接關(guān)聯(lián)。其劣勢在于詞匯與語義之間并非一一對應(yīng)的關(guān)系。18-3大數(shù)據(jù)里的文本三、文本分類與情感分析17情感分析,旨在識別人本中的意見、情感、態(tài)度。其任務(wù)包括情感分類、主觀度分類、意見總結(jié)、意見提取等。情感分析的技術(shù)主要分為2個大類。一是基于詞匯的方法。二是機器學(xué)習(xí)的方法。基于詞匯的方法關(guān)注每個詞匯所對應(yīng)的情感。18-3大數(shù)據(jù)里的文本三、文本分類與情感分析18機器學(xué)習(xí)的方法中比較廣泛使用的是有監(jiān)督的情感分類方法。有監(jiān)督的機器學(xué)習(xí)是機器學(xué)習(xí)中的一大類。其任務(wù)是讓機器“學(xué)習(xí)”已經(jīng)建立輸入–期望輸出關(guān)系的范例,并依此去推測新輸入的案例所對應(yīng)的輸出是什么。舉例而言,在中文一詞典內(nèi),詞性種類指詞匯的語法屬性,包括成語(idom)、形容詞(adj)等;情感分類包含快樂(PA)、贊揚(PH)、煩悶(NE)、貶責(zé)(NN)等20種情感類別;強度指包含某一情感的程度等級;極性指褒貶程度。18-3大數(shù)據(jù)里的文本四、文本聚類與主題模型19主題模型屬于無監(jiān)督式學(xué)習(xí)。無監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中的一大類。其任務(wù)是不給定訓(xùn)練范例,讓機器自動構(gòu)建模型,將輸入的數(shù)據(jù)分群。這樣的方法可以用來挖掘用戶興趣、探索行為特征等18-3大數(shù)據(jù)里的文本五、情感分析案例20在2012年倫敦奧運會時,澳大利亞等地的學(xué)者分析了當(dāng)?shù)鼐用衽c游客是如何在社交媒體上評價倫敦這個城市的。他們抓取了社交媒體中包含“倫敦2012”話題的帖子,統(tǒng)計帖子中的積極消極詞匯,并使用主題模型的方法挖掘帖子所描述的具體地點。通過對照文本情感與地理位置,他們發(fā)現(xiàn)游客與居民關(guān)注的地點與評價存在不同。而游客對奧林匹克公園有更多的關(guān)注(見圖18-5)。18-3大數(shù)據(jù)里的文本五、情感分析案例21圖18-5積極性帖子與地理位置熱度對照圖2218-4

大數(shù)據(jù)里的關(guān)系大數(shù)據(jù)里的關(guān)系什么是社會網(wǎng)絡(luò)分析網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)表征網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量度和度分布密度聚集系數(shù)中心度模塊化距離與平均路徑長度社會網(wǎng)絡(luò)可以從三個層次進行觀察社會網(wǎng)絡(luò)分析為解釋社會現(xiàn)象提供獨特的視角社會網(wǎng)絡(luò)分析為行為的干預(yù)提供指導(dǎo)18-4大數(shù)據(jù)里的關(guān)系一、什么是社會網(wǎng)絡(luò)分析23結(jié)合人類學(xué)、社會學(xué)、管理學(xué)、數(shù)學(xué)等學(xué)科發(fā)展出來的研究范式。它將關(guān)系抽象成節(jié)點與連接節(jié)點的邊的組合結(jié)構(gòu)。由此去描述關(guān)系的結(jié)構(gòu),解釋關(guān)系變化的原因以及理解關(guān)系結(jié)構(gòu)的影響。(一)社會網(wǎng)絡(luò)可以從三個層次進行觀察第一是宏觀層次,觀察整個社群的結(jié)構(gòu)特性及其影響。第二是區(qū)域?qū)哟危诰蜃由缛?,比如尋找社交網(wǎng)站上的傳銷網(wǎng)絡(luò),觀察大的社會關(guān)系網(wǎng)絡(luò)是如何分裂成小的組群的。第三是節(jié)點層次,描述個體在這樣社群中所承擔(dān)的角色。18-4大數(shù)據(jù)里的關(guān)系一、什么是社會網(wǎng)絡(luò)分析24(二)社會網(wǎng)絡(luò)分析為解釋社會現(xiàn)象提供獨特的視角個體所處的關(guān)系網(wǎng)絡(luò)能夠給與個體社會支持,提供個體以社會參與和獲取資源的機會。它也使得個體暴露在某一信息、觀點或行為之下的可能性增加。(三)社會網(wǎng)絡(luò)分析為行為的干預(yù)提供指導(dǎo)18-4大數(shù)據(jù)里的關(guān)系二、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)表征25即把具體的事物抽象成點線關(guān)系。社會網(wǎng)絡(luò)最基本的元素是節(jié)點與邊。節(jié)點是網(wǎng)絡(luò)中的實體,邊代表節(jié)點與節(jié)點之間的聯(lián)系。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量26網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)的衡量值有助于我們描述網(wǎng)絡(luò)的結(jié)構(gòu),同時它們也具有社會意義,對個體的認(rèn)知、情感與行為產(chǎn)生影響。(一)度和度分布度指的是一個節(jié)點一共擁有多少條邊。它是節(jié)點層面的計量指標(biāo)。在有向網(wǎng)絡(luò)中,度可以進一步分為入度與出度。入度–指的是一個節(jié)點有多少條邊指向自己。人際網(wǎng)絡(luò)中的入度可代表一個個體的受歡迎程度。出度–指的是一個節(jié)點有多少條邊指向其他節(jié)點。在宏觀網(wǎng)絡(luò)層次,我們關(guān)注度的平均值以及度分布。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量27(二)密度密度(Density)指的是網(wǎng)絡(luò)所有可能的邊中,有多少比例是真實存在的。它用來衡量宏觀網(wǎng)絡(luò)的密集程度。密度會對群組的溝通效率產(chǎn)生影響。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量28(三)距離與平均路徑長度網(wǎng)絡(luò)中兩個點的距離是連接兩個節(jié)點最短路線的長度。在宏觀網(wǎng)絡(luò)層次,我們關(guān)注平均路徑長度。它是網(wǎng)絡(luò)中所有節(jié)點之間距離的平均值。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量29(四)聚集系數(shù)聚集系數(shù)描述的是節(jié)點與其相鄰點相互連接的程度。它是衡量整體網(wǎng)絡(luò)結(jié)構(gòu)的重要指標(biāo)之一。在人際網(wǎng)絡(luò)中,它關(guān)注的是一個人的任意兩個朋友也是朋友的可能性高低。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量30(五)中心度中心度是一個節(jié)點層面的指標(biāo)。它用來衡量一個節(jié)點在整個網(wǎng)絡(luò)中的位置。依據(jù)對中心不同的定義,中心度有不同的衡量方法。一個節(jié)點的中心度越高,它在網(wǎng)絡(luò)中越處于核心位置。18-4大數(shù)據(jù)里的關(guān)系三、網(wǎng)絡(luò)拓?fù)鋵W(xué)結(jié)構(gòu)統(tǒng)計量31(六)模塊化模塊化描述的是一個網(wǎng)絡(luò)內(nèi)不同組群的分割狀態(tài)。一個模塊化的網(wǎng)絡(luò)意味著其不同組群內(nèi)部聯(lián)系緊密,而組群間聯(lián)系稀疏。這一指標(biāo)可以用來衡量社群挖掘的好壞。3218-5大數(shù)據(jù)的可視化和可視分析大數(shù)據(jù)的可視化和可視分析可視化的基本原理大數(shù)據(jù)的可視化大數(shù)據(jù)的可視分析對圖形的感知對圖形的問詢對圖形的交互經(jīng)典的可視化視圖–統(tǒng)計圖新興可視化技術(shù)可視分析系統(tǒng)中的主要元素可視分析系統(tǒng)應(yīng)用實例3318-5大數(shù)據(jù)的可視化和可視分析從產(chǎn)品的角度說,可視化是一張數(shù)據(jù)圖作品,比如一張文字云或者一張疊加流圖。從科學(xué)的角度上說,可視化也可以是一套圖形感知理論,研究將數(shù)據(jù)映射成怎樣的圖能夠讓人容易理解。從服務(wù)于大數(shù)據(jù)分析或者是傳播學(xué)研究的方法的角度上來說,可視化是一種方法,即幫助我們從數(shù)據(jù)中獲取洞見的方法。18-5大數(shù)據(jù)的可視化和可視分析一、可視化的基本原理34(一)對圖形的感知人使用可視化的過程,通過視覺系統(tǒng)對視覺通道和它們組成的模式的偏好自然而然地覺知和理解信息,還包含主動地進行問詢。(二)對圖形的問詢交互式可視化用來豐富可視化的表達能力。(三)與圖形的交互18-5大數(shù)據(jù)的可視化和可視分析二、大數(shù)據(jù)的可視化35(一)經(jīng)典的可視化視圖-統(tǒng)計圖如何使用靜態(tài)可視化對數(shù)據(jù)分析進行幫助有具體的認(rèn)識。餅圖:常被用作單變量分析,主要用于展示在實體集中該變量不同值的值頻率。直方圖、條形圖和折線圖:也常被用作單變量分析。其中直方圖被用作定距變量的分析,條形圖被用作定類或者定序。疊加條形圖和疊加流圖:疊加流圖增加了一個定類變量,并根據(jù)新的定類變量將折線和橫軸之間的區(qū)域劃分為子流。散點圖:常用作雙變量分析,其縱軸和橫軸分別用位置編碼一個定距變量。換言之,散點圖中每個點的橫軸、縱軸坐標(biāo)表示一個實體在兩個定距變量上的值。18-5大數(shù)據(jù)的可視化和可視分析二、大數(shù)據(jù)的可視化36經(jīng)典的可視化視圖編碼變量適用數(shù)據(jù)分析任務(wù)常見問題單變量分析餅圖定類或定序變量(顏色和區(qū)域),頻率(面積和角度)展示定類或定序變量的各個值頻率比較不同值頻數(shù)(而不用條形圖)直方圖定距變量(橫軸),頻數(shù)(縱軸)縱覽定距變量不同值區(qū)間上的頻數(shù)分布條形圖定類或定序變量(橫軸),頻數(shù)(縱軸)比較定類或定序變量不同值頻數(shù)大小縱軸起始不從0開始折線圖定序變量(橫軸),頻數(shù)(縱軸)展示定序變量值頻數(shù)變化趨勢折線圖的橫軸編碼定類變量表18-11經(jīng)典的可視化視圖18-5大數(shù)據(jù)的可視化和可視分析二、大數(shù)據(jù)的可視化37經(jīng)典的可視化視圖編碼變量適用數(shù)據(jù)分析任務(wù)常見問題雙變量分析迭加條形圖定類或定序變量(橫軸),頻數(shù)(縱軸),定類(顏色或紋理)展示各組內(nèi)不同子組頻數(shù)占組頻數(shù)的比例直接比較不同組的子組頻數(shù)迭加流圖定序變量(橫軸),頻數(shù)(縱軸),定類變量(顏色或紋理)展視各個時間點不同子組頻數(shù)占組頻數(shù)的比例直接比較不同時間點的子組頻數(shù)散點圖定距變量(橫軸),定距變量(縱軸)展示兩個定距變量的相關(guān)性,展視聚類模式和異常點編碼了太多的點表18-11經(jīng)典的可視化視圖(續(xù))18-5大數(shù)據(jù)的可視化和可視分析二、大數(shù)據(jù)的可視化38(二)新興可視化技術(shù)比較常見的有?;鲌D、平行坐標(biāo)、散點圖矩陣、樹圖、力導(dǎo)向圖、文字云、矩陣熱力圖等等。下面我們主要有對比地介紹平行坐標(biāo)和散點圖矩陣。圖18-11平行坐標(biāo)軸與散點圖矩陣18-5大數(shù)據(jù)的可視化和可視分析三、大數(shù)據(jù)的可視分析39(一)可視分析系統(tǒng)中的主要元素可視分析系統(tǒng)的視圖布局從界面上看,可視分析系統(tǒng)包含多個視圖。一般來說,這些視圖分為概覽視圖,主視圖和詳細(xì)視圖。可視化領(lǐng)域著名的可視分析交互邏輯:先看概覽視圖。概覽視圖:分析的最開始。分析者往往要在開始需要獲取一些概括性的信息來幫助選擇探索的對象。主視圖:分析的主要部分。分析者往往在主視圖中結(jié)合多樣的數(shù)據(jù)信息完成多個數(shù)據(jù)分析任務(wù),找出數(shù)據(jù)中的主要模式。詳細(xì)視圖:有些在主視圖中發(fā)現(xiàn)的模式,是可以使用進一步的詳細(xì)信息來確認(rèn)和解釋的。18-5大數(shù)據(jù)的可視化和可視分析三、大數(shù)據(jù)的可視分析40(一)可視分析系統(tǒng)中的主要元素(續(xù))可視分析系統(tǒng)的算法模型可視分析技術(shù)已經(jīng)不再僅僅是直接展示原始數(shù)據(jù),而是展示經(jīng)由模型處理得到的數(shù)據(jù)。模型強大的數(shù)據(jù)處理能力與可視化強大的信息表達能力結(jié)合,能夠幫助數(shù)據(jù)分析者統(tǒng)合綜效地進行數(shù)據(jù)分析。18-5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論