下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)分析與可視化技術(shù)綜述目錄TOC\o"1-3"\h\u27486數(shù)據(jù)分析與可視化技術(shù)綜述 118931.1.1大數(shù)據(jù)分析技術(shù) 132381.1.2大數(shù)據(jù)可視化技術(shù) 266121.1.3自然語義處理技術(shù) 3大數(shù)據(jù)分析技術(shù)多源異構(gòu)數(shù)據(jù)治理后最終的目的是為了人才數(shù)據(jù)的最大化應(yīng)用。而在數(shù)據(jù)應(yīng)用過程中,需要對數(shù)據(jù)進(jìn)行全面且深入的分析。目前數(shù)據(jù)分析的三種形態(tài)有:查詢、固定報表,OLAP分析,數(shù)據(jù)統(tǒng)計與挖掘[27]。這三種形態(tài)中,以傳統(tǒng)的查詢、固定報表形態(tài)居多。但是,由于大量多源異構(gòu)數(shù)據(jù)(特別是非結(jié)構(gòu)化數(shù)據(jù))進(jìn)入大數(shù)據(jù)平臺,并實(shí)現(xiàn)了數(shù)據(jù)融合,從而導(dǎo)致OLAP分析和數(shù)據(jù)統(tǒng)計與挖掘形態(tài)也迅速增加。因此,通常采用分析挖掘流程來對接現(xiàn)有的業(yè)務(wù)分析系統(tǒng)(比如ACRM)[28]。并通過對外的數(shù)據(jù)服務(wù)接口,滿足逐漸增多的分析類應(yīng)用需求,提升數(shù)據(jù)分析效率。如圖2-3所示,描述了某大數(shù)據(jù)平臺的數(shù)據(jù)分析流程。圖2.SEQ圖2.\*ARABIC3大數(shù)據(jù)平臺數(shù)據(jù)分析流程在數(shù)據(jù)分析流程中,提供了各種數(shù)據(jù)挖掘算法:可通過SQL引擎讀寫報表數(shù)據(jù),實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)分析;也可進(jìn)行自然語言處理和文本挖掘,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)分析。(1)數(shù)據(jù)挖掘R算法:通過并行化機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的分類、聚類、回歸等功能。比如,K-Means聚類算法、HMM時間序列算法、基于用戶的協(xié)同過濾算法、線性回歸算法等。(2)自然語言處理和文本挖掘:自然語言處理和文本挖掘是大數(shù)據(jù)分析中比較復(fù)雜的一類場景,需要結(jié)合分布式系統(tǒng)的計算能力和分析師建立有效的模型共同作用。目前比較常用的是樸素貝葉斯分類算法,文本分類。該分類器基于一個簡單的假定:給定目標(biāo)值時屬性之間相互條件獨(dú)立。該模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單實(shí)用。此外,還包含其他多種算法如SVM都是常用在文本分析場景中的。(3)實(shí)時分析:通過分布式隊列加載入TDH時,TDH利用小批量實(shí)時流處理系統(tǒng),可以對這些數(shù)據(jù)進(jìn)行基于SQL或者R的算法分析,并實(shí)時反饋給用戶實(shí)現(xiàn)實(shí)時分析需求。大數(shù)據(jù)可視化技術(shù)可視化技術(shù)定義為:針對由n維屬性和m個元素組成的數(shù)據(jù)集構(gòu)成的多維信息空間,采用一定的算法和工具對數(shù)據(jù)進(jìn)行定量的推演和計算,并通過切片、塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù),最后借助于圖形化的手段清晰、快捷、有效的傳達(dá)出數(shù)據(jù)信息。數(shù)據(jù)可視化能讓用戶和管理者直觀的抓住重點(diǎn)數(shù)據(jù)信息。因此,數(shù)據(jù)可視化技術(shù)具有準(zhǔn)確性、創(chuàng)新性和簡潔性三大特征。數(shù)據(jù)可視化已經(jīng)提出了許多方法,這些方法根據(jù)其可視化的原理不同被劃分為以下類型[29]:(1)面積&尺寸可視化對同一類圖形(如柱狀、圓環(huán)和蜘蛛圖等)的長度、高度或面積加以區(qū)別,來清晰的表達(dá)不同指標(biāo)對應(yīng)的指標(biāo)值之間的對比。這種方法使得數(shù)據(jù)及其之間的對比一目了然。制作這類數(shù)據(jù)可視化圖形時,要用數(shù)學(xué)公式計算,來表達(dá)準(zhǔn)確的尺度和比例。(2)顏色可視化通過顏色的深淺來表達(dá)指標(biāo)值的強(qiáng)弱和大小,是數(shù)據(jù)可視化設(shè)計的常用方法,用戶可整體的看出哪一部分指標(biāo)的數(shù)據(jù)值更突出。(3)圖形可視化使用有對應(yīng)實(shí)際含義的圖形來結(jié)合呈現(xiàn),會使數(shù)據(jù)圖表更加生動的被展現(xiàn),更便于用戶理解圖表要表達(dá)的主題。目前較為常用的圖形有排列圖、直方圖、散點(diǎn)圖、魚骨圖等形式。排列圖:排列圖是分析和尋找影響質(zhì)量主原因素的一種工具。其形式用雙直角坐標(biāo)圖,左邊縱坐標(biāo)表示頻數(shù)(如件數(shù)金額等),右邊縱坐標(biāo)表示頻率(如百分比表示)。分折線表示累積頻率,橫坐標(biāo)表示影響質(zhì)量的各項因素,按影響程度的大?。闯霈F(xiàn)頻數(shù)多少)從左向右排列。通過對排列圖的觀察分析可抓住影響質(zhì)量的主原因素。直方圖:直方圖又稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計報告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。將一個變量的不同等級的相對頻數(shù)用矩形塊標(biāo)繪的圖表(每一矩形的面積對應(yīng)于頻數(shù))。散點(diǎn)圖:散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢。可以選擇合適的函數(shù)對數(shù)據(jù)點(diǎn)進(jìn)行擬合,用兩組數(shù)據(jù)構(gòu)成多個坐標(biāo)點(diǎn)。通過考察坐標(biāo)點(diǎn)的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標(biāo)點(diǎn)的分布模式。魚骨圖:魚骨圖是一種發(fā)現(xiàn)問題“根本原因”的方法,它也可以稱之為“因果圖”。其特點(diǎn)是簡捷實(shí)用,深入直觀。它看上去有些像魚骨,問題或缺陷(即后果)標(biāo)在"魚頭"外。(4)地域空間可視化當(dāng)指標(biāo)數(shù)據(jù)要表達(dá)的主題跟地域有關(guān)聯(lián)時,一般采用地圖為大背景。這樣用戶可以直觀的了解整體的數(shù)據(jù)情況,同時也可以根據(jù)地理位置快速的定位到某一地區(qū)來查看詳細(xì)數(shù)據(jù)。(5)概念可視化通過將抽象的指標(biāo)數(shù)據(jù)轉(zhuǎn)換成比較熟悉且容易感知的數(shù)據(jù)時,用戶便更容易理解圖形要表達(dá)的意義。自然語義處理技術(shù)由于人才的非結(jié)構(gòu)化數(shù)據(jù)以“文本”形式呈現(xiàn)的數(shù)據(jù)居多,因此本文對多源異構(gòu)數(shù)據(jù)分析的時候主要采用自然語義處理方法。目前自然語義處理主要包含了分詞法、主題模型、句子相似度[30]。(1)分詞法分詞法是指采用詞典、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)等方式將文檔中的字序列切分為合理的詞序列的過程?;谠~典的分詞方法基于一個現(xiàn)有的詞典,把待分詞的文檔看作一個字符串,按照一定的策略將字符串和詞典中的詞進(jìn)行查詢,識別出查詢成功的詞。常見的基于詞典的分詞算法有最大匹配法、逆向最大匹配法、雙向最大匹配法[31]?;谠~典的分詞算法是應(yīng)用范圍最廣、分詞速度最快的中文分詞方法。但是,分詞效果嚴(yán)重依賴詞典和匹配方法且分詞準(zhǔn)確率不高,無法很好的處理詞典中未錄入的詞和有歧義的詞。因此,一般會采用基于機(jī)器學(xué)習(xí)的模型(如隱馬爾可夫模型(HiddenMarkovModel,HMM)提高分詞的效率與精度。相比于基于詞典的分詞方法,基于機(jī)器學(xué)習(xí)的分詞方法可以充分利用統(tǒng)計特性來增強(qiáng)分詞的效果,比如結(jié)合詞典的HMM[32]。通過使用非常復(fù)雜的特征進(jìn)行訓(xùn)練和推理,不僅可以采集相鄰的字作為特征,還能采集上下文中的信息作為特征。而且還可以任意地添加其他外部特征,比如外部詞典中詞與字的統(tǒng)計特征等,以提高對詞的識別效果。結(jié)合詞典的HMM分詞方法基本思想是:當(dāng)從i時刻進(jìn)入i+1時刻時,首先尋找從起始點(diǎn)S到i時刻上各個狀態(tài)的最短路徑(最大概率路徑),然后計算每一個狀態(tài)到i+1的各個時刻的狀態(tài)的距離,取最短距離即可并記錄在狀態(tài)節(jié)點(diǎn)上。通過觀察序列O1,O2,… (2.9) (2.10)通過公式(2.9)和(2.10)的歸納計算,就可以得出隱藏狀態(tài)序列S1在將HMM用于分詞中,一般設(shè)置隱藏狀態(tài)集合為{B,M,E,S},每個狀態(tài)表示字在詞中位置的信息,B(Begin)表示字處于詞的開始位置,M(Middle)表示字處于詞的中間位置,E(End)代表字處于詞的結(jié)束位置,S(Single)表示單字成詞的情況??捎^察狀態(tài)為所有不同的字組成的集合。通過人工標(biāo)注好字所屬狀態(tài)的文檔集,可以得到訓(xùn)練好的HMM模型,用于新文檔的分詞。(2)主題模型主題模型認(rèn)為一個文檔反映若干個主題,其中每個主題是一系列的詞的概率分布[33]。以一定的概率選取某個主題,然后在這個主題下以一定的概率選取某一個詞,這樣就生成了這個文檔的第一個詞,即文檔到主題和主題到詞的雙重隨機(jī)過程。不斷重復(fù)這個雙重隨機(jī)過程,就生成了整個文檔。常用的有貝葉斯LDA主題模型。假設(shè)生成文檔的詞袋為d={w1,w2,…,wN (2.11)其中,Pzk表示生成文檔中第k個主題的概率,Pwn|zk表示在第k (2.12)統(tǒng)計訓(xùn)練文檔集D中每一個文檔的詞袋中詞的出現(xiàn)概率,再使用期望最大化(Expectation-maximization,EM)算法對LDA中的兩個狄利克雷過程中的參數(shù)α、β進(jìn)行估計,如公式(2.13)所示。 (2.13)其中Iα,β是最大似然估計,p(di|α,β)表示文檔 (2.14)因此,為了得到LDA主題模型的狄利克雷分布的參數(shù)α和β,需要使用采樣方法近似采樣得到主題集合Z中所有主題下的詞的概率分布矩陣?和文檔集合D中所有文檔下的主題的概率分布矩陣θ。(3)句子相似度多源異構(gòu)數(shù)據(jù)進(jìn)行融合處理時,一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)學(xué)六年級下冊《平面圖形的認(rèn)知與應(yīng)用》網(wǎng)課教學(xué)設(shè)計
- 2025年初級會計(經(jīng)濟(jì)基礎(chǔ))考試真題及答案
- 網(wǎng)絡(luò)信息安全風(fēng)險評估與防范策略(標(biāo)準(zhǔn)版)
- 高中語文寫作五步法難點(diǎn)突破策略8
- 小學(xué)健康教育學(xué)《健康生活方式的構(gòu)建與實(shí)踐》教學(xué)設(shè)計
- 小學(xué)數(shù)字素養(yǎng)評價在學(xué)校數(shù)字化轉(zhuǎn)型中促進(jìn)教師專業(yè)發(fā)展的實(shí)踐探索教學(xué)研究課題報告
- 初中生物教學(xué)中生態(tài)農(nóng)場實(shí)踐課程設(shè)計課題報告教學(xué)研究課題報告
- 2026年電氣節(jié)能技術(shù)的成本效益分析
- 護(hù)理安全管理中的領(lǐng)導(dǎo)力作用
- 2026年電氣火災(zāi)及其撲救常識
- DB35T 2136-2023 茶樹病害測報與綠色防控技術(shù)規(guī)程
- 蓋板涵蓋板計算
- 運(yùn)輸工具服務(wù)企業(yè)備案表
- 醫(yī)院藥房醫(yī)療廢物處置方案
- 天塔之光模擬控制PLC課程設(shè)計
- 金屬眼鏡架拋光等工藝【省一等獎】
- 《藥品經(jīng)營質(zhì)量管理規(guī)范》的五個附錄
- ASMEBPE介紹專題知識
- 八年級上冊地理期末復(fù)習(xí)計劃通用5篇
- 初中日語人教版七年級第一冊單詞表講義
- GB/T 9065.5-2010液壓軟管接頭第5部分:37°擴(kuò)口端軟管接頭
評論
0/150
提交評論