大數(shù)據(jù)技術(shù)基礎(chǔ)教程 課件 第1章 緒論_第1頁
大數(shù)據(jù)技術(shù)基礎(chǔ)教程 課件 第1章 緒論_第2頁
大數(shù)據(jù)技術(shù)基礎(chǔ)教程 課件 第1章 緒論_第3頁
大數(shù)據(jù)技術(shù)基礎(chǔ)教程 課件 第1章 緒論_第4頁
大數(shù)據(jù)技術(shù)基礎(chǔ)教程 課件 第1章 緒論_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章緒論《大數(shù)據(jù)技術(shù)基礎(chǔ)教程》學(xué)習(xí)目標(biāo)/Target掌握大數(shù)據(jù)技術(shù)的基本理論和方法了解大數(shù)據(jù)的概念、特點(diǎn)、應(yīng)用場景等了解大數(shù)據(jù)處理的相關(guān)流程和技術(shù)章節(jié)概述/

Summary大約從2009年開始,隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在不斷的增長和累積,大數(shù)據(jù)時(shí)代已經(jīng)來到,“大數(shù)據(jù)”才真正成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。本章將簡要介紹大數(shù)據(jù)處理相關(guān)的基本概念、技術(shù)、發(fā)展?fàn)顩r、應(yīng)用及大數(shù)據(jù)面臨的挑戰(zhàn)。目錄/Contents01020304大數(shù)據(jù)發(fā)展歷程大數(shù)據(jù)的概念大數(shù)據(jù)的特征大數(shù)據(jù)的應(yīng)用05大數(shù)據(jù)分析與處理方法簡介06大數(shù)據(jù)面臨的挑戰(zhàn)大數(shù)據(jù)發(fā)展歷程1.11.1大數(shù)據(jù)發(fā)展歷程1.1.1萌芽階段(1997-2006)1997年10月,邁克爾·考克斯和大衛(wèi)·埃爾斯沃思發(fā)表了《為外存模型可視化而應(yīng)用控制程序請求頁面調(diào)度》的文章1999年8月,史蒂夫·布賴森、大衛(wèi)·肯懷特等發(fā)表了《千兆字節(jié)數(shù)據(jù)集的實(shí)時(shí)性可視化探索》2000年10月,彼得·萊曼與哈爾·R·瓦里安在加州大學(xué)伯克利分校網(wǎng)站上發(fā)布了一項(xiàng)研究成果:《信息知多少?》2001年2月,梅塔集團(tuán)分析師道格·萊尼發(fā)布了一份研究報(bào)告《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》2005年9月,蒂姆·奧萊利發(fā)表了《什么是Web2.0》1.1大數(shù)據(jù)發(fā)展歷程1.1.2成熟階段(2006-2012)2007年3月,約翰·F·甘茨、大衛(wèi)·萊茵澤爾及互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)《膨脹的數(shù)字宇宙:2010年世界信息增長預(yù)測》。2008年6月,思科發(fā)布了《思科視覺網(wǎng)絡(luò)指數(shù)——預(yù)測與方法,2007-2012》2010年2月,肯尼斯·庫克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表了一份關(guān)于管理信息的特別報(bào)告《數(shù)據(jù),無所不在的數(shù)據(jù)》

2011年2月,馬丁·希爾伯特和普里西拉·洛佩茲在《科學(xué)》雜志上發(fā)表了《世界存儲(chǔ)、傳輸與計(jì)算信息的技術(shù)能力》一文1.1大數(shù)據(jù)發(fā)展歷程1.1.2成熟階段(2006-2012)2011年5月,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)發(fā)布了——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)新領(lǐng)域》2012年7月,聯(lián)合國在紐約發(fā)布了關(guān)于大數(shù)據(jù)政務(wù)的白皮書1.1大數(shù)據(jù)發(fā)展歷程1.1.3應(yīng)用發(fā)展階段(2012-至今)2012年,牛津大學(xué)教授維克托·邁爾-舍恩伯格(Viktor?Mayer-Schnberger)在其暢銷著作《Big?Data:?A?Revolution?That?Will?Transform?How?We?Live,Work,and?Think》2014年,Spark逐漸替代Mapreduce的地位,受到業(yè)界追捧。由于實(shí)時(shí)計(jì)算的需求,流式計(jì)算引擎開始出現(xiàn),包括Storm、Flink、SparkStreaming。大數(shù)據(jù)存儲(chǔ)和處理技術(shù)的發(fā)展同時(shí)也帶動(dòng)了數(shù)據(jù)分析、機(jī)器學(xué)習(xí)的蓬勃發(fā)展,也促使了新興產(chǎn)業(yè)的不斷涌現(xiàn)。大數(shù)據(jù)的概念1.21.2大數(shù)據(jù)的概念MervAdrian:大數(shù)據(jù)是一種在正常的時(shí)間和空間范圍內(nèi),常規(guī)的軟件工具難以計(jì)算、提出相關(guān)數(shù)據(jù)分析的能力。麥肯錫研究院:大數(shù)據(jù)指的是規(guī)模已經(jīng)超出了傳統(tǒng)的數(shù)據(jù)庫軟件工具收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。美國國家標(biāo)準(zhǔn)技術(shù)研究(NIST):具有規(guī)模巨大(Volume)、種類繁多(Variety)、增長速度快(Velocity)和變化頻率(Variability)的特征,且需要一個(gè)可擴(kuò)展體系結(jié)構(gòu)來有效存儲(chǔ)、處理和分析的廣泛的數(shù)據(jù)集。維基百科:巨量數(shù)據(jù),或稱為大數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過當(dāng)前的技術(shù)軟件和工具在一定的時(shí)間內(nèi)進(jìn)行截取、管理、處理,并整理成為需求者所需要的信息進(jìn)行決策1.2大數(shù)據(jù)的概念通過對關(guān)于大數(shù)據(jù)的定義進(jìn)行梳理可以發(fā)現(xiàn),大多研究機(jī)構(gòu)和學(xué)者對大數(shù)據(jù)的定義普遍從數(shù)據(jù)的規(guī)模量,以及對于數(shù)據(jù)的處理方式來進(jìn)行定義的,其基本共識(shí)為:大數(shù)據(jù)泛指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合,具有海量性、多樣性、時(shí)效性及可變性等特征,需要可伸縮的計(jì)算體系結(jié)構(gòu)以支持其存儲(chǔ)、處理和分析。大數(shù)據(jù)的特征1.31.3大數(shù)據(jù)的特征離線分析系統(tǒng)目前來說,大數(shù)據(jù)的特征還存在一定的爭議。但按照普遍被接受的4V,即規(guī)模性(volume)、多樣性(variety)、價(jià)值密度(value)和高速性(velocity)1.3大數(shù)據(jù)的特征離線分析系統(tǒng)1.3.1數(shù)據(jù)規(guī)模大(Volume)2012年12月IDC報(bào)告顯示:2007年全球數(shù)據(jù)量為0.49ZB,2010年為1.3ZB,人類正式進(jìn)入ZB時(shí)代。此外,在其報(bào)告對2005—2020年的數(shù)據(jù)進(jìn)行了預(yù)測。指出在這其間,數(shù)字宇宙的規(guī)模將以350倍的量進(jìn)行增長。預(yù)計(jì)2020年將突破35ZB,是2008年的70倍、2011年的29倍1.3大數(shù)據(jù)的特征離線分析系統(tǒng)1.3.2數(shù)據(jù)種類繁多(Variety)大數(shù)據(jù)種類更加復(fù)雜,其包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。其中,10%是結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫中;90%是非結(jié)構(gòu)化數(shù)據(jù),與人類信息密切相關(guān)。1.3大數(shù)據(jù)的特征離線分析系統(tǒng)1.3.4數(shù)據(jù)價(jià)值密度低(Value)如果將大數(shù)據(jù)比喻為石油行業(yè)的話,那么在大數(shù)據(jù)時(shí)代,重要的不是如何進(jìn)行如何煉油(分析數(shù)據(jù)),而是如何獲得優(yōu)質(zhì)原油(優(yōu)質(zhì)元數(shù)據(jù))價(jià)值密度低,商業(yè)價(jià)值高大數(shù)據(jù)的應(yīng)用1.41.4大數(shù)據(jù)的應(yīng)用1.4.1互聯(lián)網(wǎng)與電子商務(wù)行業(yè)用戶信息記錄用戶行為分析基于大數(shù)據(jù)相關(guān)性分析的推薦系統(tǒng)網(wǎng)絡(luò)營銷分析網(wǎng)絡(luò)運(yùn)營分析1.4大數(shù)據(jù)的應(yīng)用1.4.2大數(shù)據(jù)精準(zhǔn)扶貧精準(zhǔn)扶貧大數(shù)據(jù)平臺(tái)以信息資源整合、比對、共享為重點(diǎn),實(shí)現(xiàn)了地區(qū)多層級扶貧部門數(shù)據(jù)和管理的互通互聯(lián),是一個(gè)集輔助決策、計(jì)劃、施策、監(jiān)管、反饋于一體的動(dòng)態(tài)平臺(tái)系統(tǒng),全面提升地區(qū)脫貧攻堅(jiān)信息化建設(shè)水平。1.4大數(shù)據(jù)的應(yīng)用1.4.3交通業(yè)交通流量分析與預(yù)測交通安全水平分析與預(yù)測道路環(huán)境監(jiān)測與分析大數(shù)據(jù)分析與處理方法簡介1.51.5大數(shù)據(jù)分析與處理方法簡介1.5.1大數(shù)據(jù)分析的五個(gè)基本方面可視化分析(AnalyticVisualizations)數(shù)據(jù)挖掘算法(DataMiningAlgorithms)預(yù)測性分析能力(PredictiveAnalyticCapabilities)語義引擎(SemanticEngines)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理(DataQualityandMasterDataManagement)1.5項(xiàng)目開發(fā)流程數(shù)據(jù)采集數(shù)據(jù)導(dǎo)入/預(yù)處理12數(shù)據(jù)統(tǒng)計(jì)/分析3數(shù)據(jù)挖掘41.5.2大數(shù)據(jù)處理流程大數(shù)據(jù)面臨的挑戰(zhàn)1.61.6大數(shù)據(jù)面臨的挑戰(zhàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論