版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章
數(shù)據(jù)分析與挖掘大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第5章
數(shù)據(jù)分析與挖掘基于數(shù)字經(jīng)濟(jì)的大數(shù)據(jù)時代,數(shù)據(jù)扮演者越來越重要的角色,但是數(shù)據(jù)通常不能直接使用,創(chuàng)造價值。如何從大量看似無章的數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在規(guī)律、發(fā)掘出有用的知識,指導(dǎo)人們進(jìn)行科學(xué)的推斷與決策,并對這些數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析將是數(shù)據(jù)轉(zhuǎn)化為價值的最關(guān)鍵的一步。在數(shù)據(jù)處理與分析環(huán)節(jié),可以利用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)校和數(shù)據(jù)挖掘方法,結(jié)合數(shù)據(jù)處理與分析技術(shù),對數(shù)據(jù)進(jìn)行處理與分析,得到有價值的結(jié)果。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法并非大數(shù)據(jù)時代的新生事物,但是在大數(shù)據(jù)時代得到了新的發(fā)展,充分利用計(jì)算機(jī)集群的并行處理能力。目錄CONTENTS概述5.1機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法5.2大數(shù)據(jù)分析技術(shù)5.3拓展實(shí)訓(xùn)5.4本章小結(jié)5.5習(xí)題5.6
數(shù)據(jù)分析分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析是指采用恰當(dāng)?shù)姆治龇椒ǎū热缃y(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等),對采集到的數(shù)據(jù)進(jìn)行分析,提取有用的信息并形成結(jié)論的過程。概
述PART015.1
概述數(shù)據(jù)分析分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析是指采用恰當(dāng)?shù)姆治龇椒ǎū热缃y(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等),對采集到的數(shù)據(jù)進(jìn)行分析,提取有用的信息并形成結(jié)論的過程。在廣義的數(shù)據(jù)分析過程中,可以使用復(fù)雜的算法,也可以使用簡單的統(tǒng)計(jì)分析方法。狹義的數(shù)據(jù)分析是根據(jù)分析目的,選用使用的統(tǒng)計(jì)方法和工具,對采集到的數(shù)據(jù)進(jìn)行處理與分析,提取到有價值的信息,從而發(fā)揮數(shù)據(jù)的作用。本節(jié)介紹數(shù)據(jù)分析的基礎(chǔ)知識和關(guān)聯(lián)技術(shù)。5.1.1
數(shù)據(jù)分析的基礎(chǔ)知識隨著數(shù)據(jù)類型越來越多樣化,對數(shù)據(jù)分析技術(shù)的要求也越來越高。當(dāng)下,數(shù)據(jù)分析技術(shù)主要包括數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲與管理、計(jì)算出來、查詢與分析以及可視化展現(xiàn)。如圖5-1,數(shù)據(jù)分析可分為分析技術(shù)、數(shù)據(jù)存儲和基礎(chǔ)架構(gòu)三大類,融合了諸多技術(shù)的優(yōu)點(diǎn)。圖5-1
數(shù)據(jù)分析5.1.1
數(shù)據(jù)分析的基礎(chǔ)知識目前,數(shù)據(jù)分析技術(shù)發(fā)生了以下巨大的變化:(1)更快。根據(jù)相關(guān)研究追蹤表明,Spark已成為大數(shù)據(jù)生態(tài)的計(jì)算框架,內(nèi)存計(jì)算帶來計(jì)算性能的大幅提高,此外,還提供了底層計(jì)算引擎來支持批量、SQL分析、機(jī)器學(xué)習(xí)、實(shí)時圖像處理等多種能力。(2)決策與分析。數(shù)據(jù)分析的價值取決于公司或國家所面臨的的獨(dú)特決策,反之,決策的類型、頻率、速度和復(fù)雜性也推動了數(shù)據(jù)分析的部署方式。同時也必須采用先進(jìn)的分析方法,如自然語言出來、模擬建模、神經(jīng)網(wǎng)絡(luò)等。(3)深度學(xué)習(xí)的支持。深度學(xué)習(xí)是在人工智能的演化下,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的一種有效方法。目前被廣泛應(yīng)用于圖像識別、語音處理、文本情感分析等領(lǐng)域。以Python為基礎(chǔ)的平臺開始基金探索如何支持深度學(xué)習(xí)。5.1.2
數(shù)據(jù)分析關(guān)聯(lián)技術(shù)1.數(shù)據(jù)挖掘我們可以從如下四個方面了解數(shù)據(jù)挖掘:(1)定義層面上。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能等方法,挖掘出未知的、且有價值的信息和知識的過程。(2)作用層面上。數(shù)據(jù)挖掘主要解決四類問題:分類、聚類、關(guān)聯(lián)和預(yù)測。重點(diǎn)在于尋找未知的模式與規(guī)律;比如經(jīng)典的超市購物案例--啤酒魚尿布,就是事先未知,但又是非常有價值的信息。(3)方法層面上。數(shù)據(jù)挖掘主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析等統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法進(jìn)行挖掘。(4)結(jié)果層面上。數(shù)據(jù)挖掘主要是輸出模型或規(guī)則,并且可相應(yīng)的得到模型得分或標(biāo)簽。模型得分如流失概率值、總和得分、預(yù)測值等,標(biāo)簽如信用優(yōu)良中、流失與非流失等。5.1.2
數(shù)據(jù)分析關(guān)聯(lián)技術(shù)2.數(shù)據(jù)處理數(shù)據(jù)分析過程一般都會伴隨著數(shù)據(jù)處理的發(fā)生,數(shù)據(jù)分析和數(shù)據(jù)處理是一對關(guān)系緊密的概念,通常,二者是融合在一起的。換個角度來說,當(dāng)用戶進(jìn)行數(shù)據(jù)分析的時候,計(jì)算機(jī)系統(tǒng)會根據(jù)分析任務(wù)的要求,使用恰當(dāng)?shù)某绦蜻M(jìn)行大量的數(shù)據(jù)處理。例如,當(dāng)用戶需要進(jìn)行決策樹分析時,需要先根據(jù)決策樹算法編寫分析程序,當(dāng)分析開始以后,決策樹分析程序?qū)ψx取到的數(shù)據(jù)進(jìn)行大量計(jì)算出來,最終給出結(jié)果。5.1.2
數(shù)據(jù)分析關(guān)聯(lián)技術(shù)3.大數(shù)據(jù)處理與分析數(shù)據(jù)分析包含兩個要素,理論和技術(shù)。在理論層面上,需要統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘等知識。在技術(shù)層面上,包括單機(jī)分析工具以及大數(shù)據(jù)處理與分析技術(shù)等。在大數(shù)據(jù)時代,數(shù)據(jù)量爆炸式的增長,面對的都是規(guī)模巨大的海量數(shù)據(jù)進(jìn)行分析,傳統(tǒng)的的單機(jī)分析工具已經(jīng)“無能為力”了,分布式的分析程序就順勢而生,這些分布式分析程序,借助于集群的多臺機(jī)器進(jìn)行并行數(shù)據(jù)出分析,這個過程稱之為“大數(shù)據(jù)處理與分析”。PART02機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法
本節(jié)主要介紹及常用的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘算法。5.2.1概述機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、算法復(fù)雜度理論等多門學(xué)科,專門研究計(jì)算機(jī)怎么模擬或者實(shí)現(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)不斷的提高自身的性能。它是人工智能的核心,是具有智能化的根本途徑,其應(yīng)用遍及人工智能發(fā)展的各個領(lǐng)域。按照機(jī)器學(xué)習(xí)的方法,可將其分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三大類。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。數(shù)據(jù)挖掘主要是利用機(jī)器學(xué)習(xí)提供的算法來分析海量數(shù)據(jù),利用數(shù)據(jù)庫存儲管理海量,從某種程度上來說,是機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉。從知識來源角度看,數(shù)據(jù)挖掘領(lǐng)域的知識很多來源于統(tǒng)計(jì)學(xué),統(tǒng)計(jì)學(xué)中的技術(shù)在機(jī)器學(xué)習(xí)的過程中進(jìn)行驗(yàn)證和實(shí)踐,變成有效的機(jī)器學(xué)習(xí)算法后,再對海量數(shù)據(jù)進(jìn)行挖掘,得到有價值的信息。5.2.1概述目前常用的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法包括分類、聚類、回歸分析和預(yù)測等。(1)分類。分類是監(jiān)督學(xué)習(xí)中一個核心問題,在模型中輸入樣本的屬性,即可輸出對應(yīng)的分類類別。也就是說分類是指找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn),并按照分類模式將其劃分為不同的類,目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)映射到某個給定的類別。(2)聚類。聚類是無監(jiān)督學(xué)習(xí)中研究最多并且應(yīng)用最廣的。聚類是根據(jù)數(shù)據(jù)的差異性和相似性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性比較大,不同類別的數(shù)據(jù)間的相似性就小,跨類的數(shù)據(jù)關(guān)聯(lián)性就就低。(3)回歸分析?;貧w分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)以及進(jìn)行預(yù)測和相關(guān)關(guān)系的研究。(4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是挖掘出數(shù)據(jù)之間隱藏的關(guān)聯(lián)或相互關(guān)系,也就是說可以根據(jù)一個數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。目前在網(wǎng)上商城體現(xiàn)的淋漓盡致。5.2.2
分類
分類是一種重要的數(shù)據(jù)分析形式,用于找出一組數(shù)據(jù)的共同特點(diǎn)并按照一定的模式劃分為不同的類。分類的目的是分析輸入數(shù)據(jù),通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性構(gòu)造一個分類函數(shù)或者分類模型,這個模型通常叫作分類器,能把未知類別的數(shù)據(jù)數(shù)據(jù)映射到給定的類別中。分類分析的過程一般是:首先,需要一個訓(xùn)練集,訓(xùn)練集由訓(xùn)練數(shù)據(jù)記錄及關(guān)聯(lián)的類標(biāo)簽組成,用于建立分類模型。其次,將該模型運(yùn)用于測試集,測試集由獨(dú)立訓(xùn)練數(shù)據(jù)的測試數(shù)據(jù)記錄和他們相關(guān)聯(lián)的類標(biāo)簽組成,用于評估分類器性能。最后,應(yīng)用最終模型對新的或未知類標(biāo)簽的數(shù)據(jù)進(jìn)行分類。分類分析的過程可以分為兩個階段:第一階段,學(xué)習(xí)/訓(xùn)練階段(構(gòu)建分類模型),訓(xùn)練集-->特征選取-->訓(xùn)練-->分類器。也就是說,先建立描述預(yù)先定義的數(shù)據(jù)或概念集的分類器,通過分析或從訓(xùn)練集“學(xué)習(xí)”的分類算法來構(gòu)造分類器,同時通過對訓(xùn)練數(shù)據(jù)中各數(shù)據(jù)行的內(nèi)容進(jìn)行分析,確定每一行數(shù)據(jù)屬于一個特定的類別,類別值是有一個類標(biāo)簽進(jìn)行標(biāo)記。第二階段,分類階段(使用模型預(yù)測給定數(shù)據(jù)的類標(biāo)簽),新樣本-->特征選取-->分類-->判決。也就是說,首先評估分類器的預(yù)測準(zhǔn)確率,選取獨(dú)立與訓(xùn)練集數(shù)據(jù)的測試集,通過第一階段構(gòu)造出的分類器對給定測試集的數(shù)據(jù)進(jìn)行分類。然后將分類出的媒體測試記錄的類標(biāo)簽與學(xué)習(xí)模型進(jìn)行類預(yù)測比較,如果分類器的性能達(dá)到預(yù)定要求,則用該模型對類標(biāo)簽未知的數(shù)據(jù)進(jìn)行分類。5.2.2
分類
典型的分類分析方法包括決策樹、貝葉斯、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等。決策樹是一種逼近離散函數(shù)值的方法,是一種樹狀分類結(jié)構(gòu)模型,通過對變量值拆分建立分類規(guī)則,又利用樹形圖分割成概念路徑的數(shù)據(jù)分析技術(shù)。決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,著眼于從一組無次序、無規(guī)則的數(shù)據(jù)中推理出以樹形結(jié)構(gòu)表示的分類規(guī)則,找出屬性和類別之間的關(guān)系,是直觀運(yùn)用概率分析的一種圖解方法。它的主要優(yōu)點(diǎn)是分類精度高,操作簡單,并且對噪聲數(shù)據(jù)有很好的穩(wěn)健性。貝葉斯分類算法一種基于統(tǒng)計(jì)學(xué)的分類方法,以貝葉斯定理為基礎(chǔ),利用概率推理的方式對樣本數(shù)據(jù)進(jìn)行分類。它的主要優(yōu)點(diǎn)是模型具有可解釋、精度高等特點(diǎn),并且能夠有效地避免過擬合。5.2.2
分類
典型的分類分析方法包括決策樹、貝葉斯、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等。人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸了解的結(jié)構(gòu)進(jìn)行分布式并行信息處理的算法數(shù)據(jù)模型。它是由大量處理單元組成的非線性、自適應(yīng)信息處理系統(tǒng)。它由眾多的連接權(quán)值可調(diào)的神經(jīng)元鏈接構(gòu)成的,能夠像人腦一樣從外部環(huán)境“獲得知識”,然后通過自己的學(xué)習(xí)過程將這些“知識”不斷“消化”,從而找到一定的規(guī)律,以實(shí)現(xiàn)對“知識”的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)模型是由神經(jīng)元特性、拓?fù)浣Y(jié)構(gòu)和學(xué)習(xí)規(guī)則來確定。它的主要優(yōu)點(diǎn)是具有大規(guī)模并行處理、分布式信息存儲及良好的自適應(yīng)和學(xué)習(xí)能力。并且在優(yōu)化、信號處理與模式識別、智能控制、故障診斷等領(lǐng)域都有著廣泛的應(yīng)用。5.2.2
分類
5.2.3
聚類
聚類是無監(jiān)督學(xué)習(xí)中研究最多且應(yīng)用最廣的一種算法。它是將數(shù)據(jù)集劃分為若干不同的子集,每一個子集成為“簇”。其目的是使同一個組內(nèi)的對象具有很強(qiáng)的相似性,而不同組間的對象存在很大差異性。通過聚類生成的簇是一組數(shù)據(jù)對象的集合,需滿足以下兩個條件:(1)每個簇至少包含一個數(shù)據(jù)對象;(2)每個數(shù)據(jù)對象僅屬于一個簇。常見的聚類算法有k均值(k-means)、劃分法(PartitioningMethod)、層次法(HierarchicalMethod)、基于密度的方法(Density-basedMethod)、基于網(wǎng)格的方法(Grid-basedMethod)、基于模型的的方法(Model-basedMethod)等。這些方法沒有統(tǒng)一的評價指標(biāo),因?yàn)椴煌木垲愃惴ǖ哪繕?biāo)函數(shù)相差很大。聚類算法應(yīng)該嵌入問題中進(jìn)行評價。5.2.3
聚類
下面詳細(xì)介紹下k均值算法。k均值算法是最經(jīng)典也最常用的一種基于劃分的方法。它是典型的基于距離的聚類算法,通常采用歐式距離衡量數(shù)據(jù)對象與聚類中心之間的相似度。根據(jù)應(yīng)用場合的不同,可以選擇其他的相似性度量方法,比如對于文本,采用余弦相似度或者Jaccard系數(shù)的效果更好。k均值算法的處理過程如下:首先指定需要劃分的簇的個數(shù)k,然后在數(shù)據(jù)集中任意選擇k個數(shù)據(jù)點(diǎn)作為初始的聚類中心,依次計(jì)算其余各個數(shù)據(jù)對象到這些聚類中心的距離,并將數(shù)據(jù)對象劃歸到最近的那個中心所處的簇中,接著重新計(jì)算調(diào)整后的每個簇的中心,循環(huán)往復(fù)執(zhí)行,直到前后兩次計(jì)算出來的聚類中心不再發(fā)生變化位置。圖5-3顯示的K均值算法的工作流程。圖5-3K均值算法的工作流程5.2.3
聚類
目前聚類分析法常見的應(yīng)用場景有以下幾個:(1)不同產(chǎn)品的價值組合。企業(yè)可以按照不同的商業(yè)目的,依照特定的指標(biāo)對眾多產(chǎn)品種類進(jìn)行聚類分析,把企業(yè)的產(chǎn)品體系進(jìn)一步細(xì)分成具有不同價值、不同目標(biāo)的多維度的產(chǎn)品組合,在此基礎(chǔ)上分別制定相應(yīng)的運(yùn)營計(jì)劃、生產(chǎn)計(jì)劃以及服務(wù)規(guī)劃等。(2)目標(biāo)用戶的群體分類。通過對特定的運(yùn)營目標(biāo)和商業(yè)目標(biāo)所挑選的指標(biāo)變量進(jìn)行聚類分析,把目標(biāo)群體劃分成幾個具有明顯特征區(qū)別的細(xì)分群體,從而在運(yùn)營活動中采取精細(xì)化、個性化的運(yùn)營和服務(wù),最終提升運(yùn)營效率和提高商業(yè)效果,滿足利潤最大化。(3)探測發(fā)現(xiàn)離群點(diǎn)和異常值。離群點(diǎn)是指相對于整體數(shù)據(jù)對象而言的少數(shù)數(shù)據(jù)對象,這些對象的行為特征與整體的數(shù)據(jù)行為特征差別很大。例如,某B2C的電商平臺上,比較昂貴、頻繁的教育,就有啃隱含欺詐的風(fēng)險,需要風(fēng)險控制部門提前關(guān)注。5.2.4
回歸分析
回歸分析是通過建立模型來研究變量之間的相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)以及預(yù)測的一種有效方法。回歸分析是基于數(shù)據(jù)統(tǒng)計(jì)的原理,對經(jīng)過預(yù)處理后的大數(shù)據(jù)進(jìn)行數(shù)學(xué)建模,確定一個或者多個獨(dú)立自變量與因變量之間的相互依賴的定量關(guān)系,建立相關(guān)性較好的回歸方程,通過數(shù)據(jù)模型進(jìn)行描述和解釋,并用作預(yù)測未來響應(yīng)變量變化的統(tǒng)計(jì)分析方法。其中自變量是數(shù)值預(yù)測中感興趣的數(shù)值屬性,取值是已知的,而因變量就是在建立好的回歸方程中可以得到的預(yù)測數(shù)據(jù)?;貧w分析一般適用于預(yù)測連續(xù)性數(shù)據(jù)。在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù)。這種技術(shù)通常用于預(yù)測分析、時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系,比如,司機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系,最好的研究方法就是回歸。5.2.4
回歸分析
回歸分析的主要內(nèi)容如下:(1)從一組數(shù)據(jù)出發(fā),確定某些變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型并估計(jì)其中的未知參數(shù)。估計(jì)參數(shù)的常用方法是最小二乘法。(2)對這些關(guān)系式的可信程度進(jìn)行檢驗(yàn)。(3)在許多自變量共同影響著一個因變量的關(guān)系中,判斷哪個(或哪些)自變量的影響是最顯著的,哪個(或哪些)自變量的的影響是不影響不顯著,將影響顯著的自變量加入模型中,剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。5.2.4
回歸分析
回歸分析的主要內(nèi)容如下:(4)利用所求的關(guān)系是對某一生產(chǎn)過程進(jìn)行預(yù)測或控制。應(yīng)用回歸分析的前提是變量之間存在一定的相關(guān)關(guān)系,否則就會從建立的模型張得出錯誤的結(jié)論;另外,需要評估回歸分析模型的預(yù)測精度,確認(rèn)其有效性,然后才能應(yīng)用于實(shí)際預(yù)測中,基本步驟如圖5-4所示。圖5-4回歸分析基本步驟5.2.5
關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則算法最典型的應(yīng)用就是購物車分析,最初也是針對這一應(yīng)用提出的。商家通過分析購物車了解顧客的購物習(xí)慣,哪些商品會被頻繁的同時購買,一旦發(fā)現(xiàn)頻繁項(xiàng)集,就可以從提取出管理規(guī)則,即兩個項(xiàng)集共同發(fā)生或有條件發(fā)生的可能性。從而也能夠分析出不同商品之間的關(guān)聯(lián),顧客的購物習(xí)慣,最終能夠幫助商家制定更好的營銷策略,創(chuàng)造更大的利潤。關(guān)聯(lián)規(guī)則的定義:假設(shè)I={I1,I2,I3,...Im}是項(xiàng)目的集合,給定的數(shù)據(jù)庫是D,其中每個事務(wù)t是I的非空子集,即每一個交易都與一個唯一的標(biāo)識符TID對應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度是D中事務(wù)同時包含X、Y的百分比,也就是概率;置信度是在D中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比,也就是條件概率。如果滿足最小支持度閾值和最小值置信度閾值,則任務(wù)關(guān)聯(lián)規(guī)則是可信度。這些閾值是根據(jù)挖掘的需要人為自行設(shè)置的。PART03大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)時代,數(shù)據(jù)紛繁復(fù)雜,如何從大量看似雜亂無章的數(shù)據(jù)中揭示其中隱含的內(nèi)在規(guī)律,發(fā)掘有用的知識來指導(dǎo)進(jìn)行科學(xué)的推斷與決策,那么如何能夠高效的進(jìn)行數(shù)據(jù)分析將是數(shù)據(jù)轉(zhuǎn)化為知識最關(guān)鍵的步驟之一。選擇合適的數(shù)據(jù)分析技術(shù)將是至關(guān)重要的。5.3
大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)對我們來說其實(shí)并不陌生。我們常用的新浪微博就是擁有海量數(shù)據(jù)的資訊平臺。截止2021年底,新浪擁有5.73億的活躍用戶,內(nèi)容存量超千億?!按骎”的一舉一動和社會熱點(diǎn)話題都會掀起一股“數(shù)據(jù)風(fēng)暴”。比如2017年5月27日,當(dāng)時的世界圍棋第一人柯潔九段對戰(zhàn)AlphaGo的三番棋落下帷幕,柯潔以0:3慘敗,這一事件也使得“人工智能”瞬間成為微博上熱議的話題,引發(fā)了千萬級別的評論與轉(zhuǎn)發(fā),那么到底是那些人對人工智能感興趣呢?為了形象地了解關(guān)注者的群體,需要對數(shù)據(jù)進(jìn)行描述性分析,也就是關(guān)注者群體的年齡、性別比例、職業(yè)等。在關(guān)注度上,很多人僅僅是轉(zhuǎn)發(fā),同時也有很多人是有感而發(fā),年齡、職業(yè)是否會影響對該話題的關(guān)注度呢?回歸分析、方差分析等方法可以解決這個問題,這些方法統(tǒng)稱為統(tǒng)計(jì)分析方法。5.3
大數(shù)據(jù)分析技術(shù)簡單的統(tǒng)計(jì)分析方法可以幫助人員了解數(shù)據(jù),但是如果希望進(jìn)行更深層次的探索,總結(jié)出規(guī)律和模型,就需要更加智能的基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析方法。比如,柯潔與AlphaGo的對戰(zhàn)引起了圍棋和人工智能兩類群體的密切關(guān)注,針對人工智能,樂觀派認(rèn)為會使得人類生活更加美好,悲觀派則認(rèn)為技術(shù)失控則高度危險。這種情況下,一些聚類分析的方法就可以高效準(zhǔn)確地進(jìn)行精準(zhǔn)分類。微博的關(guān)注網(wǎng)絡(luò)就是典型的社會網(wǎng)絡(luò)。許多高效算法可以很好的處理上億用戶的大規(guī)模網(wǎng)絡(luò),此時基于圖的數(shù)據(jù)分析方法就滿足了這一訴求,盡管圖是數(shù)據(jù)分析領(lǐng)域最為棘手的結(jié)構(gòu)之一。微博上每個用戶的言論、轉(zhuǎn)發(fā)內(nèi)容等都蘊(yùn)藏這用戶個人的興趣、話題等信息,對文字內(nèi)容本身的智能分析理解也是數(shù)據(jù)分析領(lǐng)域一直追求的高級目標(biāo)。在微博中出現(xiàn)的“神經(jīng)網(wǎng)絡(luò)”、“強(qiáng)化學(xué)習(xí)”等詞語可以幫助人員迅速認(rèn)定這條微博大概率屬于“人工智能”話題,這種分析方法稱之為基于自然語言的數(shù)據(jù)分析。此外,圖像、音頻、視頻等種類可以實(shí)時采集、實(shí)時計(jì)算和實(shí)時查詢等,可以采用流計(jì)算的數(shù)據(jù)分析方法。5.3.1
技術(shù)分類根據(jù)數(shù)據(jù)源的多樣性和數(shù)據(jù)價值應(yīng)用的情況,目前大數(shù)據(jù)分析技術(shù)主要包括統(tǒng)計(jì)分析、基于機(jī)器學(xué)習(xí)的分析、圖的數(shù)據(jù)分析、基于自然語言的分析、流計(jì)算等。表5-2列示了大數(shù)據(jù)分析技術(shù)的應(yīng)用領(lǐng)域。1、統(tǒng)計(jì)數(shù)據(jù)分析統(tǒng)計(jì)數(shù)據(jù)分析,最簡單直接的方式是對數(shù)據(jù)進(jìn)行宏觀層面的數(shù)據(jù)描述性分析,例如均值、方差等。而對于在含有多個變量的數(shù)據(jù)分析過程中,對變量之間的作用關(guān)系可以用回歸分析來判斷。常用的統(tǒng)計(jì)數(shù)據(jù)分析包括數(shù)據(jù)描述性分析和回歸分析。在大數(shù)據(jù)分析中,獲取到數(shù)據(jù)后,第一時間想到的往往是從一個相對宏觀的角度來觀察一下子這些數(shù)據(jù)長什么樣子,也就是分析一下它們的特征。這些能夠概況數(shù)據(jù)位置特性,分散性、關(guān)聯(lián)性等數(shù)字特征,以及能夠反映出數(shù)據(jù)整體分布特征的分析方法,稱之為數(shù)據(jù)描述性分析。在大數(shù)據(jù)分析過程中,往往會涉及到多個變量,有時候會對這些變量之間的作用關(guān)系感興趣。比如房價問題,在一個時間區(qū)間內(nèi),一個房子的價格會受到其空間大小、臥室數(shù)量、衛(wèi)生間數(shù)量、所處層數(shù)等數(shù)值變量的影響,還有朝向、地理位置等其他變量的影響。通常,人們直觀上會認(rèn)為,越大的房間會越貴,擁有越多臥室的房間越貴。那么這些因素是如何綜合影響房價的呢?可以通過簡單地建立特定的模型來分析,這種方式稱作線性回歸模型,這種分析方法稱之為回歸分析。5.3.1
技術(shù)分類2、基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析一般來說,統(tǒng)計(jì)特征只能反映數(shù)據(jù)的極少量信息,當(dāng)數(shù)據(jù)量極大的時候,就會產(chǎn)生巨大的偏差。這時候,就需要借助更精確的方法來區(qū)分這些情況。所謂的“機(jī)器學(xué)習(xí)”,是基于數(shù)據(jù)本身的,自動構(gòu)建解決問題的規(guī)則與方法。常用的機(jī)器學(xué)習(xí)的算法包含非監(jiān)督學(xué)習(xí)方法和監(jiān)督學(xué)習(xí)方法。非監(jiān)督學(xué)習(xí)方法是建立在所有數(shù)據(jù)標(biāo)簽,即數(shù)據(jù)所屬的類別都是未知的情況下使用的分類方法。也就是說,有很多數(shù)據(jù),但是不知道這些數(shù)據(jù)應(yīng)該分為哪幾類,也不知道這些類別本來應(yīng)該有怎樣的特征,只知道每個數(shù)據(jù)的特征向量,然后根據(jù)把這些數(shù)據(jù)按照他們的相關(guān)程度分成很多類別。非監(jiān)督學(xué)習(xí)方法的具體算法,在這里不做詳細(xì)描述。監(jiān)督學(xué)習(xí)方法不同于非監(jiān)督學(xué)習(xí)方法,它是在知道了一些數(shù)據(jù)上的真實(shí)分類情況,現(xiàn)在要對新的未知數(shù)據(jù)進(jìn)行分類。這樣利用已知的分類信息,則可以得到一些更將其的分類方法,這就是監(jiān)督學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)方法的具體算法,在這里不做詳細(xì)描述。5.3.1
技術(shù)分類3、圖的數(shù)據(jù)分析圖數(shù)據(jù)不同于簡單的連續(xù)性或離散型數(shù)據(jù)類型,其節(jié)點(diǎn)之間的關(guān)系由于圖的拓補(bǔ)結(jié)構(gòu)而變得復(fù)雜。圖數(shù)據(jù)的來源主要是基于Web的社交網(wǎng)絡(luò)的產(chǎn)生的,這些數(shù)據(jù)包括數(shù)十億用戶的所言所行,用戶之間的種類繁多的社會關(guān)系,用戶產(chǎn)生的海量網(wǎng)絡(luò)信息的傳播軌跡。這些社會活動的真實(shí)記錄為研究社交網(wǎng)絡(luò)的形成及其上的信息傳播規(guī)律提供了可能。圖的數(shù)據(jù)分析算法主要是針對社交網(wǎng)絡(luò)上的算法,常用的有行為分析算法和社區(qū)發(fā)現(xiàn)算法。行為分析算法最典型的應(yīng)用是用戶行為的傳播,常用的影響力傳播模型包括線性閾值模型和獨(dú)立級聯(lián)模型,來模擬影響在社會網(wǎng)絡(luò)中的傳播過程。社區(qū)發(fā)現(xiàn)算法是指給定一個表征網(wǎng)絡(luò)的圖數(shù)據(jù),社區(qū)代表不同集合的節(jié)點(diǎn),其中同一社區(qū)的節(jié)點(diǎn)之間的連通性往往高于不同的社區(qū)間的節(jié)點(diǎn)。常用的算法包括Girvan-Newman算法、標(biāo)簽傳播算法以及Louvain算法,來模擬真實(shí)社區(qū)的表征影響。5.3.1
技術(shù)分類4、自然語言分析自然語言分析處理體現(xiàn)了人工智能的最高任務(wù)與境界。目前,自然語言處理的發(fā)展與真正的語義理解仍然相差甚遠(yuǎn)。但是如果采取有效的分析方法,仍然可以從中獲得知識來幫助人們。在前面章節(jié)提到的,微博上每個用戶的言論、轉(zhuǎn)發(fā)內(nèi)容都隱藏著用戶個人的興趣、話題等信息,比如微博中出現(xiàn)的“強(qiáng)化學(xué)習(xí)”“神經(jīng)網(wǎng)絡(luò)”等詞語可以幫助人員快速判斷這條微博大概率屬于“人工智能”話題。常用的自然語言分析的基本方法是從從詞、句、話題三個層體現(xiàn)出來。詞的表示學(xué)習(xí)是指為每個單詞(文本中的單詞是自然語言的基本結(jié)構(gòu))找到一個向量表示,理想狀況下向量之間的距離和線性關(guān)系可以反映單詞之間的語義聯(lián)系。通過詞向量,可以使用可視化分析詞的關(guān)聯(lián),也有利于進(jìn)一步分析。最常見的三種詞表示方法包括詞袋模型、語言模型和話題模型。詞袋模型是最簡單的詞向量表示方法。該模型忽略掉文本的語法和語序等要素,將其僅僅看作是若干個詞匯的集合,文檔中每個詞的出現(xiàn)都是獨(dú)立的。詞袋模型使用一組無序的單詞來表達(dá)一段文字或者一個文檔。5.3.1
技術(shù)分類5、流計(jì)算流計(jì)算是對來自不同平臺實(shí)時獲取的海量數(shù)據(jù)進(jìn)行實(shí)時分析處理,獲得有價值的信息。對于流計(jì)算來說秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低,也就是當(dāng)事件出現(xiàn)時就應(yīng)該立即進(jìn)行處理,而不是緩存起來進(jìn)行批量處理。圖5-5展示了流計(jì)算的處理流程。5.3.1
技術(shù)分類圖5-5流計(jì)算處理流程5.3.2
大數(shù)據(jù)分析的代表性作品本節(jié)簡單介紹數(shù)據(jù)分析領(lǐng)域具有代表性的幾款產(chǎn)品,包括機(jī)器學(xué)習(xí)框架TensorFlowOnSpark、大數(shù)據(jù)編程框架Beam和查詢分析系統(tǒng)Dremel等。關(guān)于這些產(chǎn)品的詳細(xì)介紹,可以參考更多的書籍和資料。本節(jié)只做簡要闡述。1.機(jī)器學(xué)習(xí)框架TensorFlowOnSparkTensorFlow是一個開源的、基于Python的機(jī)器學(xué)習(xí)框架,它是由谷歌公司開發(fā)的,并在圖形分類、音頻處理、推薦系統(tǒng)和自然語言處理等場景下有著豐富的應(yīng)用,是目前最熱門的機(jī)器學(xué)習(xí)框架。2.大數(shù)據(jù)編程框架Beam在大數(shù)據(jù)處理領(lǐng)域,開發(fā)者經(jīng)常要用到很多不同的技術(shù)、框架、API、開發(fā)語言和SDK。Beam是由谷歌貢獻(xiàn)的Apache頂級項(xiàng)目,它是一個開源的統(tǒng)一的編程模型,開發(fā)者可以使用BeamSDK來創(chuàng)建數(shù)據(jù)處理管道。5.3.2
大數(shù)據(jù)分析的代表性作品3.查詢分析系統(tǒng)DremelDremel是一種可擴(kuò)展的、交互式的實(shí)時查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。通過結(jié)合多級樹狀執(zhí)行過程和列式數(shù)據(jù)結(jié)構(gòu),它能做到幾秒內(nèi)完成對萬億張表的聚合查詢。系統(tǒng)可以擴(kuò)展到成千上萬的CPU上,滿足谷歌公司上萬用戶操作PB級的數(shù)據(jù),可以在2到3秒內(nèi)完成PB級別數(shù)據(jù)的查詢。Dremel具有以下幾個主要的特點(diǎn):(1)Dremel是一個大規(guī)模、穩(wěn)定的系統(tǒng)。(2)Dremel是MapReduce交互式查詢能力不足的補(bǔ)充。(3)Dremel的數(shù)據(jù)模型是嵌套的。(4)Dremel中的數(shù)據(jù)是用列式存儲的。(5)Dremel結(jié)合了Web搜索和并行DBMS(DatabaseManagementSystem)
數(shù)據(jù)分析-基于決策樹算法的供應(yīng)商選擇拓展實(shí)訓(xùn)PART04數(shù)據(jù)分析-基于決策樹算法的供應(yīng)商選擇
案例介紹:
H公司是一家建筑類企業(yè),成立于1967年。企業(yè)為了減少因供應(yīng)商的問題引起的項(xiàng)目質(zhì)量、安全以及進(jìn)度問題,H公司對合作多年關(guān)系的供應(yīng)商,根據(jù)現(xiàn)有評估指標(biāo)與實(shí)際合作情況,對供應(yīng)商進(jìn)行能力分級,據(jù)此選擇合適的供應(yīng)商。5.4
拓展實(shí)訓(xùn)案例實(shí)驗(yàn)步驟一(樣本數(shù)據(jù)收集)供應(yīng)商資產(chǎn)信息表(1)創(chuàng)建數(shù)據(jù)模型參照表實(shí)5-1,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】”路徑下新建主題域和主題,通過“創(chuàng)建自定義模型(全部字段需要手動定義)”的方式創(chuàng)建指定名稱的表。【操作步驟】第一步,執(zhí)行【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】,右鍵點(diǎn)擊“ODS數(shù)據(jù)”。第二步,在第一步新建的ODS層下,右鍵點(diǎn)擊“新建主題域”。第三步,選中第二步新建的主題域,右擊“新建主題”。第四步:在第三步新建的主題下,點(diǎn)擊“模型管理”模塊,點(diǎn)擊“添加模型”,在彈出的“請選擇一種創(chuàng)建方式”窗口中,選擇“創(chuàng)建自定義模型(全部字段需要手動定義)”,如圖實(shí)5-1所示。5.4
拓展實(shí)訓(xùn)(2)數(shù)據(jù)抽取參照表實(shí)5-3,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】-【ETL轉(zhuǎn)換】”路徑下創(chuàng)建指定名稱的ETL轉(zhuǎn)換。【操作步驟】第一步,按照順序依次進(jìn)行如下操作,“新建ETL轉(zhuǎn)換節(jié)點(diǎn)”-“新建分組”-新建“決策樹算法”ETL分組-“新建ETL轉(zhuǎn)換”-“進(jìn)行連接”-“查看模型轉(zhuǎn)換結(jié)果”,如圖實(shí)5-2所示。第二步,查看轉(zhuǎn)換結(jié)果。依次展開“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】-【ETL轉(zhuǎn)換】-【“決策樹算法”主題域】-【“基于決策樹算法的供應(yīng)商選擇”主題】,點(diǎn)擊“模型”,點(diǎn)擊“新供應(yīng)商調(diào)研表”的數(shù)據(jù)庫表名,即可查看轉(zhuǎn)換結(jié)果,如圖實(shí)5-3所示。5.4
拓展實(shí)訓(xùn)案例實(shí)驗(yàn)步驟二(樣本數(shù)據(jù)處理)(1)創(chuàng)建數(shù)據(jù)模型參照表實(shí)5-5,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【DW數(shù)據(jù)倉庫】”路徑下主題,通過“創(chuàng)建自定義模型(全部字段需要手動定義)”方式創(chuàng)建指定名稱的模型。【操作步驟】參照同第3章企業(yè)員工360度信息整合案例實(shí)驗(yàn)步驟二相同,此處不在介紹。查看轉(zhuǎn)換結(jié)果,如圖實(shí)5-4所示。5.4
拓展實(shí)訓(xùn)案例實(shí)驗(yàn)步驟三(構(gòu)建預(yù)測模型)參照下表實(shí)5-7,在DMP“【聚數(shù)】-【ETL轉(zhuǎn)換】”路徑下新建分組和ETL轉(zhuǎn)換,通過新建ETL轉(zhuǎn)換實(shí)現(xiàn)完成分類算法模型的創(chuàng)建?!静僮鞑襟E】第一步,執(zhí)行【聚數(shù)】-【ETL轉(zhuǎn)換】,右鍵點(diǎn)擊“新建分組”。第二步,“新建分組”。第三步,“新建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026 年中職精細(xì)化工技術(shù)(精細(xì)化學(xué)品分析)試題及答案
- 辦公環(huán)境裝修合同協(xié)議2025年
- 外星生命探測
- 2025年河北省公需課學(xué)習(xí)-城市體檢評估制度
- 冰箱的課件教學(xué)課件
- 2025年預(yù)防艾滋病知識競賽試題及答案(合集)
- 江蘇教編學(xué)科真題及答案
- 第七單元 微專題 圖形的折疊
- 海陸水循環(huán)考試題及答案
- 福清城投筆試真題及答案
- 杜國楹小罐茶的創(chuàng)業(yè)講稿
- 2025-2026學(xué)年統(tǒng)編版九年級歷史上冊(全冊)知識點(diǎn)梳理歸納
- 滬教版(新版)一年級下學(xué)期數(shù)學(xué)第4單元100以內(nèi)的加減法單元試卷(附答案)
- 放射科CT檢查注意事項(xiàng)
- 物流運(yùn)輸服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 產(chǎn)業(yè)園招商培訓(xùn)
- 2026年齊齊哈爾高等師范??茖W(xué)校單招綜合素質(zhì)考試題庫必考題
- 2018版公路工程質(zhì)量檢驗(yàn)評定標(biāo)準(zhǔn)分項(xiàng)工程質(zhì)量檢驗(yàn)評定表路基土石方工程
- 導(dǎo)尿管相關(guān)尿路感染(CAUTI)防控最佳護(hù)理實(shí)踐專家共識解讀
- 2025年廣東深圳高中中考自主招生數(shù)學(xué)試卷試題(含答案詳解)
- SMETA員工公平職業(yè)發(fā)展管理程序-SEDEX驗(yàn)廠專用文件(可編輯)
評論
0/150
提交評論