第八章-大數(shù)據(jù)課件_第1頁
第八章-大數(shù)據(jù)課件_第2頁
第八章-大數(shù)據(jù)課件_第3頁
第八章-大數(shù)據(jù)課件_第4頁
第八章-大數(shù)據(jù)課件_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第八章大數(shù)據(jù)8.1大數(shù)據(jù)概述麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。特征IBM公司認(rèn)為大數(shù)據(jù)具有3V特點(diǎn),即規(guī)模性(Volume)、多樣性(Variety)、和實(shí)時(shí)性(Velocity),但是這沒有體現(xiàn)出大數(shù)據(jù)的巨大價(jià)值。而以IDC為代表的業(yè)界則認(rèn)為大數(shù)據(jù)具備4V特點(diǎn),即在3V的基礎(chǔ)上增加價(jià)值性(Value),表示大數(shù)據(jù)雖然價(jià)值總量高但其價(jià)值密度低。目前,大家公認(rèn)的是大數(shù)據(jù)具有四個(gè)基本特征:數(shù)據(jù)規(guī)模大、數(shù)據(jù)種類多、處理速度快以及數(shù)據(jù)價(jià)值密度低,即所謂的4V特性。應(yīng)用1.宏觀經(jīng)濟(jì)領(lǐng)域2.農(nóng)業(yè)領(lǐng)域3.商業(yè)領(lǐng)域4.金融領(lǐng)域5.醫(yī)療保健領(lǐng)域6.社會(huì)安全領(lǐng)域8.2數(shù)據(jù)獲?。?)網(wǎng)絡(luò)爬蟲(2)RSS8.2.1網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或腳本。另外一些不經(jīng)常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲。它的定義有廣義和狹義之分。狹義上指遵循標(biāo)準(zhǔn)的http協(xié)議,利用超鏈接和Web文檔檢索方法遍歷萬維網(wǎng)的軟件程序;而廣義的定義則是能遵循h(huán)ttp協(xié)議,檢索Web文檔的軟件都稱之為網(wǎng)路爬蟲?;窘Y(jié)構(gòu)在網(wǎng)絡(luò)爬蟲的系統(tǒng)架構(gòu)中,主過程由控制器,解析器,資源庫三部分組成。1)控制器的主要工作是負(fù)責(zé)給多線程的各個(gè)爬蟲線程分配工作任務(wù)。2)解析器的主要工作是下載網(wǎng)頁,進(jìn)行頁面的處理,主要是將一些JS腳本標(biāo)簽,CSS代碼內(nèi)容、空格字符、HTML標(biāo)簽等內(nèi)容處理掉,爬蟲的基本工作是由解析器完成。3)資源庫是用來存放下載到的網(wǎng)頁資源,一般都采用大型的數(shù)據(jù)庫存儲(chǔ),如Oracle數(shù)據(jù)庫,并對(duì)其建立索引。一個(gè)通用的網(wǎng)絡(luò)爬蟲的框架如圖:3.工作流程1)首先選取一部分精心挑選的種子URL;2)將這些URL放入待抓取URL隊(duì)列;3)從待抓取URL隊(duì)列中取出待抓取的URL,解析DNS,并且得到主機(jī)的ip,并將URL對(duì)應(yīng)的網(wǎng)頁下載下來,存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列;4)分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。其各個(gè)部分的主要功能介紹如下:1)頁面采集模塊:該模塊是爬蟲和因特網(wǎng)的接口,主要作用是通過各種

web協(xié)議(一般以

HTTP、FTP為主)來完成對(duì)網(wǎng)頁數(shù)據(jù)的采集,保存后將采集到的頁面交由后續(xù)模塊作進(jìn)一步處理。其過程類似于用戶使用瀏覽器打開網(wǎng)頁,保存的網(wǎng)頁供其它后續(xù)模塊處理,例如,頁面分析、鏈接抽取。2)頁面分析模塊:該模塊的主要功能是將頁面采集模塊采集下來的頁面進(jìn)行分析,提取其中滿足用戶要求的超鏈接,加入到超鏈接隊(duì)列中。頁面鏈接中給出的

URL一般是多種格式的,可能是完整的包括協(xié)議、站點(diǎn)和路徑的,也可能是省略了部分內(nèi)容的,或者是一個(gè)相對(duì)路徑。所以為處理方便,一般進(jìn)行規(guī)范化處理,先將其轉(zhuǎn)化成統(tǒng)一的格式。3)鏈接過濾模塊:該模塊主要是用于對(duì)重復(fù)鏈接和循環(huán)鏈接的過濾。例如,相對(duì)路徑需要補(bǔ)全

URL,然后加入到待采集

URL隊(duì)列中。此時(shí),一般會(huì)過濾掉隊(duì)列中已經(jīng)包含的

URL,以及循環(huán)鏈接的URL。4)頁面庫:用來存放已經(jīng)采集下來的頁面,以備后期處理。5)待采集

URL隊(duì)列:從采集網(wǎng)頁中抽取并作相應(yīng)處理后得到的

URL,當(dāng)

URL為空時(shí)爬蟲程序終止。6)初始

URL:提供

URL種子,以啟動(dòng)爬蟲。4.抓取對(duì)象網(wǎng)絡(luò)爬蟲抓取對(duì)象可以分為以下四類:1)靜態(tài)網(wǎng)頁網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)上從一個(gè)網(wǎng)站初始網(wǎng)頁開始,獲得網(wǎng)頁上的鏈接,在抓取過程中,不斷獲得新的鏈接,直到達(dá)到系統(tǒng)指定的方式才會(huì)停止。2)動(dòng)態(tài)網(wǎng)頁先通過程序分析一些非靜態(tài)網(wǎng)頁的參數(shù),按一定的規(guī)則,將所有需要被抓取頁面的鏈接進(jìn)行整理,程序只會(huì)抓取這些特別范圍內(nèi)的網(wǎng)頁。3)特殊內(nèi)容比如

RSS、XML數(shù)據(jù),情況特殊需特殊處理。如新聞的滾動(dòng)頁面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進(jìn)行抓取。4)文件對(duì)象目前網(wǎng)頁上會(huì)有各種類型的文件,比方說圖片,MP3、Flash、視頻等文件,這些都需要經(jīng)過系統(tǒng)經(jīng)過一定方式的處理。比較說視頻抓取后,要知道視頻的類型、視頻文件的大小、視頻的分辨率等。4.抓取策略1)深度優(yōu)先策略2)廣度優(yōu)先策略3)聚焦搜索策略8.2.2RSS1.什么是RSS維基百科對(duì)RSS的定義如下:RSS(簡易咨詢聚合)是一種消息來源格式規(guī)范,用以發(fā)布經(jīng)常更新資料的網(wǎng)站,例如部落格文章、新聞、音訊或視訊的網(wǎng)摘。網(wǎng)絡(luò)摘要專業(yè)層面能夠使網(wǎng)站自動(dòng)地發(fā)布他們的資料,同時(shí)也是讀者能夠定期更新他們喜歡的網(wǎng)站或視劇和不同網(wǎng)站的網(wǎng)摘。RSS簡稱聚合內(nèi)容

(ReallySimpleSyndication),目前廣泛應(yīng)用于各類型網(wǎng)站.功能一般為最新信息的輸出。

8.2.2.1RSS可以做什么1)訂閱BLOG可以訂閱工作中所需的技術(shù)文章,也可以訂閱與你有共同愛好的作者的Blog,總之,對(duì)什么感興趣就可以訂什么。2)訂閱新聞無論是奇聞怪事、明星消息、體壇風(fēng)云,只要你想知道的,都可以訂閱。你再也不用一個(gè)網(wǎng)站一個(gè)網(wǎng)站,一個(gè)網(wǎng)頁一個(gè)網(wǎng)頁去逛了。只要這將你需要的內(nèi)容訂閱在一個(gè)RSS閱讀器中,這些內(nèi)容就會(huì)自動(dòng)出現(xiàn)你的閱讀器里,你也不必為了一個(gè)急切想知道的消息而不斷的刷新網(wǎng)頁,因?yàn)橐坏┯辛烁?,RSS閱讀器就會(huì)自己通知你。你再也不用一個(gè)網(wǎng)站一個(gè)網(wǎng)站去逛了。只要這將你喜歡的內(nèi)容訂閱在一個(gè)RSS閱讀器中,這些內(nèi)容就會(huì)自動(dòng)出現(xiàn)你的閱讀器里,一旦有了更新,RSS閱讀器就會(huì)自己通知你。3)訂閱雜志文章你再也不用一個(gè)雜志一個(gè)雜志的去查看有沒有新發(fā)表的論文了,只要將你喜歡的雜志訂閱在一個(gè)RSS閱讀器中,每篇新出版的文章(甚至是剛接受的文章)就會(huì)自動(dòng)地出現(xiàn)在你的閱讀器中。1)訂閱最新搜索結(jié)果訂閱你感興趣的研究方向的最新論文的搜索結(jié)果,當(dāng)該方向有了新論文后,會(huì)自動(dòng)地出現(xiàn)在你的RSS閱讀器中。2)快速、高效地瀏覽每一個(gè)條目都是以標(biāo)題和摘要的形式出現(xiàn),方便你快速瀏覽,使你可以在最短的時(shí)間內(nèi)瀏覽海量信息,然后快速地從中找出自己感興趣的內(nèi)容。8.2.2.2RSS訂閱RSS閱讀器基本可以分為三類。第一類大多數(shù)閱讀器是運(yùn)行在計(jì)算機(jī)桌面上的應(yīng)用程序,通過所訂閱網(wǎng)站的新聞供應(yīng),可自動(dòng)、定時(shí)地更新新聞標(biāo)題。在該類閱讀器中,有Awasu、FeedDemon和RSSReader這三款流行的閱讀器,都提供免費(fèi)試用版和付費(fèi)高級(jí)版。第二類新聞閱讀器通常是內(nèi)嵌于已在計(jì)算機(jī)中運(yùn)行的應(yīng)用程序中。例如,NewsGator內(nèi)嵌在微軟的Outlook中,所訂閱的新聞標(biāo)題位于Outlook的收件箱文件夾中。另外,Pluck內(nèi)嵌在InternetExplorer瀏覽器中。第三類則是在線的WEBRSS閱讀器,其優(yōu)勢(shì)在于不需要安裝任何軟件就可以獲得RSS閱讀的便利,并且可以保存閱讀狀態(tài),推薦和收藏自己感興趣的文章。提供此服務(wù)的有兩類網(wǎng)站,一種是專門提供RSS閱讀器的網(wǎng)站,例如國外的feedly,國內(nèi)的有道、鮮果、抓蝦;另一種是提供個(gè)性化首頁的網(wǎng)站,例如國外的netvibes、pageflakes,國內(nèi)的雅蛙、闊地。Rss訂閱的步驟是:第一次使用,先下載安裝RSS閱讀軟件;清理RSS閱讀軟件不必要的內(nèi)置頻道;右鍵點(diǎn)擊“RSS信息訂閱”,復(fù)制品頻道的鏈接地址(URL);運(yùn)行RSS閱讀軟件,從文件菜單中選擇“添加新頻道”,將鏈接地址(URL)粘貼到輸入框中,再按照提示操作,即完成了一個(gè)頻道的定制;點(diǎn)擊頻道名即可查閱隨時(shí)更新的信息。8.3數(shù)據(jù)挖掘8.3.1概述從技術(shù)角度,數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。與數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這一定義包括好幾層含義,即數(shù)據(jù)源必須是真實(shí)的、海量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。

8.3.2數(shù)據(jù)挖掘工具目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括:EnterpriseMiner(

SAS公司)、IntelligentMiner(

IBM公司)、SetMiner(

SGI公司)、Clementine(

SPSS公司)、WarehouseStudio(

Sybase公司)、See5(

RuleQuestResearch公司)、CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。數(shù)據(jù)挖掘典型工具,主要介紹下面Amdocs和PredictiveCRM。1)Amdocs在多年前電信行業(yè)已經(jīng)開始利用數(shù)據(jù)挖掘技術(shù)進(jìn)行網(wǎng)絡(luò)出錯(cuò)預(yù)測(cè)等方面的工作,而近年來隨著CRM理念的盛行,數(shù)據(jù)挖掘技術(shù)開始在市場分析和決策支持等方面得到廣泛應(yīng)用。市場上更出現(xiàn)了針對(duì)電信行業(yè)的包含數(shù)據(jù)挖掘功能的軟件產(chǎn)品。比較典型的有Amdocs和SlpInfoware。

Amdocs提供了整個(gè)電信運(yùn)營企業(yè)的軟件支撐平臺(tái)。在其ClarifyCRM產(chǎn)品組件中,利用數(shù)據(jù)挖掘技術(shù)支持以下應(yīng)用:客戶流失管理(churnmanagement)、終身價(jià)值分析(lifetimevalueanalysis)、產(chǎn)品分析(productanalysis)、欺詐甄別(frauddetection)。Amdocs產(chǎn)品中的數(shù)據(jù)分析和數(shù)據(jù)分析應(yīng)用曾獲得三屆KDD杯獎(jiǎng)。

2)PredictiveCRMSlpInfoware開發(fā)的PredictiveCRM軟件是一個(gè)面向電信行業(yè)的CRM平臺(tái)軟件,其中應(yīng)用了大量的數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)技術(shù)。其數(shù)據(jù)挖掘部分實(shí)際上是把SASInstitute、SPSS和UNICA等公司的數(shù)據(jù)挖掘產(chǎn)品加以二次開發(fā)以適應(yīng)電信行業(yè)的需要。數(shù)據(jù)挖掘在P-CRM中的應(yīng)用包括客戶保持、交叉銷售、客戶流失管理、欺詐甄別等方面。

8.4數(shù)據(jù)分析8.4.1概述數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期,包括從市場調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。例如J.開普勒通過分析行星角位置的觀測(cè)數(shù)據(jù),找出了行星運(yùn)動(dòng)規(guī)律。又如,一個(gè)企業(yè)的領(lǐng)導(dǎo)人要通過市場調(diào)查,分析所得數(shù)據(jù)以判定市場動(dòng)向,從而制定合適的生產(chǎn)及銷售計(jì)劃。因此數(shù)據(jù)分析有極廣泛的應(yīng)用范圍8.4.2數(shù)據(jù)分析流程數(shù)據(jù)分析過程概括起來主要包括:明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報(bào)告等6個(gè)階段。1)明確分析目的與框架明確分析目的與框架是進(jìn)行數(shù)據(jù)分析的先決條件,為數(shù)據(jù)分析提供了方向。一個(gè)分析項(xiàng)目,你的數(shù)據(jù)對(duì)象是誰?商業(yè)目的是什么?要解決什么業(yè)務(wù)問題?對(duì)這都要了然于心。要基于商業(yè)的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優(yōu)化活動(dòng)效果、提高客戶響應(yīng)率等等。不同的項(xiàng)目對(duì)數(shù)據(jù)的要求,使用的分析手段也是不一樣的。2)數(shù)據(jù)收集數(shù)據(jù)收集是通過數(shù)據(jù)庫和其他媒介按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的的收集、整合相關(guān)數(shù)據(jù)的一個(gè)過程,它是數(shù)據(jù)分析的一個(gè)基礎(chǔ)。3)數(shù)據(jù)處理數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工、整理,以便開展數(shù)據(jù)分析,它是數(shù)據(jù)分析前必不可少的階段。這個(gè)過程是數(shù)據(jù)分析整個(gè)過程中最占據(jù)時(shí)間的,也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、提取、計(jì)算等處理方法。4)數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索、分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目提供決策參考。5)數(shù)據(jù)展現(xiàn)

一般情況下,數(shù)據(jù)分析的結(jié)果都是通過圖表、表格、文字的方式來呈現(xiàn)。借助數(shù)據(jù)展現(xiàn)手段,能更直觀的表述想要呈現(xiàn)的信息、觀點(diǎn)和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點(diǎn)圖、雷達(dá)圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6)撰寫報(bào)告最后階段,就是撰寫數(shù)據(jù)分析報(bào)告,這是對(duì)整個(gè)數(shù)據(jù)分析成果的一個(gè)呈現(xiàn)。通過分析報(bào)告,把數(shù)據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來,以供商業(yè)目的提供參考。8.4.3數(shù)據(jù)分析方法常用數(shù)據(jù)分析方法有:1)聚類分析(ClusterAnalysis)3)因子分析(FactorAnalysis)5)相關(guān)分析(CorrelationAnalysis)6)對(duì)應(yīng)分析(CorrespondenceAnalysis)4)回歸分析2)方差分析(ANOVA/AnalysisofVariance)8.5體系架構(gòu):Hadoop8.5.1簡介Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop設(shè)計(jì)理念之一是擴(kuò)展單一的服務(wù)器為成千上萬機(jī)器的集群,且集群中每一個(gè)機(jī)器同時(shí)提供本地計(jì)算力和存儲(chǔ)力。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)??梢杂肕ap和Reduce方法來處理分布式計(jì)算問題時(shí),盡可能的實(shí)現(xiàn)數(shù)據(jù)處理的本地化,降低由數(shù)據(jù)移動(dòng)而產(chǎn)生的代價(jià)。每一個(gè)Map操作都是相對(duì)獨(dú)立的,所有的Maps都是并行運(yùn)行的,雖然實(shí)踐中會(huì)受到數(shù)據(jù)源和CPU個(gè)數(shù)的影響。同樣的,用一個(gè)Reduce集合來執(zhí)行Reduce操作,所有帶有相同key的Map輸出會(huì)聚集到同一個(gè)Reduce。能夠處理一般服務(wù)器不能處理的大數(shù)據(jù)量處理問題。Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為ApacheNutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFS是ApacheHadoopCore項(xiàng)目的一部分。大數(shù)據(jù)數(shù)據(jù)的本質(zhì)數(shù)據(jù)本質(zhì)是生產(chǎn)資料和資產(chǎn)數(shù)據(jù)生產(chǎn)資料資產(chǎn)大數(shù)據(jù)的提出在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,明確提出“數(shù)據(jù)就是財(cái)富”,將大數(shù)據(jù)稱為“第三次浪潮的華彩樂章”。第二次浪潮第三次浪潮第一次浪潮農(nóng)業(yè)階段,約1萬年前開始工業(yè)階段,17世紀(jì)末開始信息化階段,20世紀(jì)50年代后期開始“如果說IBM的主機(jī)拉開了信息化革命的大幕,那么大數(shù)據(jù)才是第三次浪潮的華彩樂章?!睆摹皵?shù)據(jù)”到“大數(shù)據(jù)”事件一事件二事件三時(shí)至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大的時(shí)代轉(zhuǎn)型”“大數(shù)據(jù)”這一概念的形成,有三個(gè)標(biāo)志性事件:2008年9月,美國《自然》(Nature)雜志專刊——Thenextgoogle,第一次正式提出“大數(shù)據(jù)”概念。2011年2月1日,《科學(xué)》(Science)雜志??狣ealingwithdata,通過社會(huì)調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對(duì)人們生活造成的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”。2011年5月,麥肯錫研究院發(fā)布報(bào)告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次給大數(shù)據(jù)做出相對(duì)清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集。”大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的來源隨著智能手機(jī)的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機(jī)應(yīng)用的程度越來越深,用戶的行為、位置、甚至身體生理等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB=2^50字節(jié)1EB=2^60字節(jié)1ZB=2^70字節(jié)TBPBEB ZB在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。GB數(shù)據(jù)大爆炸大數(shù)據(jù)的來源互聯(lián)網(wǎng)每天產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費(fèi)234億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不停地讀5.5年每天會(huì)有2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)ouTube,足夠一個(gè)人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息,假設(shè)10秒就瀏覽一條消息,足夠一個(gè)人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大?

以上一組互聯(lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)的來源來自大量傳感器的機(jī)器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)隨著人類活動(dòng)的進(jìn)一步擴(kuò)展,數(shù)據(jù)規(guī)模會(huì)急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個(gè)概念才會(huì)應(yīng)運(yùn)而生。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對(duì)海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以告訴我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。注:大數(shù)據(jù)不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜大交易數(shù)據(jù)大交互數(shù)據(jù)大數(shù)據(jù)處理大數(shù)據(jù)集成大數(shù)據(jù)4V特征4V特征種類多(Variety)速度快(Velocity)價(jià)值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種機(jī)器儀表在自動(dòng)產(chǎn)生數(shù)據(jù)的同時(shí),人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。隨著現(xiàn)代感測(cè)、互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)生成、儲(chǔ)存、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價(jià)值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對(duì)象或模塊數(shù)據(jù)的價(jià)值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴(kuò)大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長到44萬億GB,相當(dāng)于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍,且每18個(gè)月翻一番。大數(shù)據(jù)4V特征—價(jià)值高(Value)大數(shù)據(jù)有巨大的潛在價(jià)值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對(duì)象或模塊數(shù)據(jù)的價(jià)值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息;價(jià)值密度低,是大數(shù)據(jù)的一個(gè)典型特征;大數(shù)據(jù)4V特征—體量大(Volume)從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴(kuò)大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長到44萬億GB,相當(dāng)于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍,且每18個(gè)月翻一番。1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當(dāng)于50%的全美學(xué)術(shù)研究圖書館藏書信息內(nèi)容5EB相當(dāng)于至今全世界人類所講過的話語1ZB如同全世界海灘上的沙子數(shù)量總和1YB相當(dāng)于7000位人類體內(nèi)的微細(xì)胞總和一般情況下,大數(shù)據(jù)是以PB、EB、ZB為單位進(jìn)行計(jì)量的大數(shù)據(jù)4V特征—速度快(Velocity)82254132215327源自英國Coda研究咨詢公司大數(shù)據(jù)的增長速度快大數(shù)據(jù)的處理速度快實(shí)時(shí)數(shù)據(jù)流處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù),BI技術(shù)的關(guān)鍵差別之一;1s是臨界點(diǎn),對(duì)于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時(shí)和無效的;現(xiàn)在及未來幾年內(nèi)美國的移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)流量增長(PB/月)大數(shù)據(jù)4V特征—種類多(Variety)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種機(jī)器儀表在自動(dòng)產(chǎn)生數(shù)據(jù)的同時(shí),人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。數(shù)據(jù)來源多企業(yè)內(nèi)部多個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起,帶來了微博、社交網(wǎng)站、傳感器等多種來源。數(shù)據(jù)類型多保存在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)只占少數(shù),70~80%的數(shù)據(jù)是如圖片、音頻、視頻、模型、連接信息、文檔等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。關(guān)聯(lián)性強(qiáng)數(shù)據(jù)之間頻繁交互,比如游客在旅行途中上傳的圖片和日志,就與游客的位置、行程等信息有了很強(qiáng)的關(guān)聯(lián)性。物聯(lián)網(wǎng)數(shù)據(jù)行業(yè)/企業(yè)內(nèi)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)大數(shù)據(jù)帶來的思維變革大數(shù)據(jù)大數(shù)據(jù)的核心代表著我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法更多更雜更好更多不是隨機(jī)樣本,而是全體數(shù)據(jù)更好不是因果關(guān)系,而是相關(guān)關(guān)系更雜不是精確性,而是混雜性大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式是指在國家統(tǒng)一規(guī)定的時(shí)間內(nèi),按照統(tǒng)一的方法、統(tǒng)一的項(xiàng)目、統(tǒng)一的調(diào)查表和統(tǒng)一的標(biāo)準(zhǔn)時(shí)點(diǎn),對(duì)全國人口普遍地、逐戶逐人地進(jìn)行的一次性調(diào)查登記;主要特點(diǎn)是調(diào)查組織高度集中性,普查對(duì)象的全面完整性;人口大普查耗時(shí)耗費(fèi),一般來講是十年一次,新中國成立以來共進(jìn)行了6次人口大普查;人口大普查是一種典型的全數(shù)據(jù)模式;大數(shù)據(jù)時(shí)代小數(shù)據(jù)時(shí)代大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式人口大普查是一種耗時(shí)耗費(fèi)的工程,一般是以十年為單位;各國每年需要進(jìn)行幾百次的小規(guī)模人口調(diào)查,采取隨機(jī)采樣分析的方式,這是一種樣本模式;源于實(shí)用并且很好的創(chuàng)新!隨機(jī)采樣分析是小數(shù)據(jù)時(shí)代的產(chǎn)物;大數(shù)據(jù)時(shí)代小數(shù)據(jù)時(shí)代大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式我們已具備了大數(shù)據(jù)的各種技術(shù)能力,思維需要轉(zhuǎn)換到大數(shù)據(jù)的全數(shù)據(jù)模式:樣本=全部;大數(shù)據(jù)不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法;這里的“大”是相對(duì)的——相撲比賽所有數(shù)據(jù)存儲(chǔ)還不需要一個(gè)TB,但是是所有的數(shù)據(jù)!在大數(shù)據(jù)時(shí)代采用隨機(jī)采樣法,就像在汽車時(shí)代騎馬一樣,雖然特定情況下仍可采樣隨機(jī)采樣法,但是慢慢地我們會(huì)放棄它;大數(shù)據(jù)時(shí)代小數(shù)據(jù)時(shí)代大數(shù)據(jù)帶來的思維變革—更好佛教《三世因果經(jīng)》主要講:一是人的命是自己造

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論