大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展_第1頁
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展_第2頁
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展_第3頁
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展_第4頁
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展汪東升清華大學(xué)

引言早在20世紀,瑞士心理學(xué)家榮格就發(fā)現(xiàn)了《易經(jīng)》筮法中蘊涵的一種不同于因果原理的普遍聯(lián)系法則,這同大數(shù)據(jù)技術(shù)的復(fù)雜相關(guān)性有著相似的地方。2012年3月,奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,并且定義為“未來的新石油”,希望增強政府收集、分析和萃取海量數(shù)據(jù)的能力。2大數(shù)據(jù)挖掘與利用尿布&啤酒—沃爾瑪在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。智能交通---交通蝴蝶效應(yīng)英國布里斯托爾大學(xué)埃迪·威爾遜博士的一項研究結(jié)果顯示,適當(dāng)條件下,一名司機急剎車或超車可能引發(fā)一場“交通海嘯”,受影響路段長達80公里。GOOGLE提前一個月預(yù)測電影上映首周的票房收入,準(zhǔn)確度高達94%根據(jù)麥肯錫的估計,如果零售商能夠充分發(fā)揮大數(shù)據(jù)的優(yōu)勢,其營運利潤率就會有年均60%的增長空間,生產(chǎn)效率將會實現(xiàn)年均0.5%~1%的增長幅度。3關(guān)于大數(shù)據(jù)4沒有標(biāo)準(zhǔn)的定義…“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit…計算模型發(fā)展以人為本!6技術(shù)演進歷史揭示未來是大數(shù)據(jù)驅(qū)動的智慧型經(jīng)濟模式大數(shù)據(jù)的特點8Bankingand

SecuritiesCommunications,MediaandServicesEducationGovernmentHealthcare

ProvidersInsuranceManufacturingandNaturalResourcesRetailTransportationUtilitiesWholesaleTradeVolume

ofDataVelocity

ofDataVariety

ofDataUnderutilized

"DarkData"Potentialbigdataopportunityoneachdimensionis:Veryhot(comparedwithotherindustries)HotModerateLowVerylow(comparedwithotherindustries)大數(shù)據(jù)的3V特性之于存儲Volume---經(jīng)濟存儲Velocity---層次存儲Variety---策略存儲BigData:3V’s94V特性10Sina的抑郁郁癥研研究11存在抑抑郁傾傾向的的微博博用戶戶與普普通用用戶發(fā)發(fā)博時時間有有明顯顯差異異,這這部分分人群群發(fā)博博高峰峰在23點,其其夜間間活躍躍度比比普通通用戶戶平均均約高高出30%。該群群體微微博關(guān)關(guān)鍵詞詞為::死、、抑郁郁癥、、生命命、痛痛苦、、自殺殺。有有60%為女性性,40%為男性性,女女性比比例比比男性性略高高大數(shù)據(jù)據(jù)之于于色情情業(yè)12陳坤VS黃曉明明:用用大數(shù)數(shù)據(jù)解解讀大大明星星13知其然然而不不知其其所以以然《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》關(guān)注““是什什么((關(guān)聯(lián)聯(lián))””,而而不是是“為為什么么(因因果))”“龍王王”蕭蕭勁騰騰,83.3%–2012年7月21日,北北京演演唱會會–8月8日,上上海演演唱會會50年最大大臺風(fēng)風(fēng)–10月31日,紐紐約,,颶風(fēng)風(fēng)“桑桑迪””–11月5日,天天津演演唱會會雨太太大延延期14科學(xué)研研究的的第四四范式式科學(xué)實實驗理論科科學(xué)(開普普勒定定律牛牛頓頓定律律…)計算科科學(xué)大數(shù)據(jù)據(jù)完整的的科學(xué)學(xué)研究究周期期數(shù)數(shù)據(jù)采采集數(shù)數(shù)據(jù)據(jù)整理理數(shù)數(shù)據(jù)分分析和和數(shù)據(jù)據(jù)可視視化。。1516數(shù)據(jù)處處理的的變遷遷OLTP:OnlineTransactionProcessing(DBMSs)OLAP:OnlineAnalyticalProcessing(DataWarehousing)RTAP:Real-TimeAnalyticsProcessing(BigDataArchitecture&technology)17大數(shù)據(jù)據(jù)的源源頭Socialmediaandnetworks(allofusaregeneratingdata)Scientificinstruments(collectingallsortsofdata)Mobiledevices(trackingallobjectsallthetime)Sensortechnologyandnetworks(measuringallkindsofdata)TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion18生產(chǎn)/消費數(shù)數(shù)據(jù)模模型發(fā)發(fā)生了了變化化…OldModel:Fewcompaniesaregeneratingdata,allothersareconsumingdataNewModel:allofusaregeneratingdata,andallofusareconsumingdata19IDC公司發(fā)發(fā)布的的數(shù)字字宇宙宙研究究報告告稱:全球信息總總量每兩年年就會會增長長一倍倍,2011年全球球被創(chuàng)創(chuàng)建和和被被復(fù)制制的數(shù)數(shù)據(jù)總總量為為1.8ZB(1021)。IDC認為,到下一一個十十年(2020年),全球所所有IT部門門擁擁有有服服務(wù)務(wù)器器的的總總量量將將會會比比現(xiàn)現(xiàn)在在多多出出10倍,所管管理理的數(shù)數(shù)據(jù)據(jù)將將會會比比現(xiàn)現(xiàn)在在多多出出50倍。。預(yù)預(yù)計計到到2020年,全球球?qū)⒖偪偣补矒頁碛杏?5ZB的數(shù)數(shù)據(jù)據(jù)量量2011年企企業(yè)業(yè)創(chuàng)創(chuàng)造造、、采采集集、、管管理理和和儲儲存存信信息息的的成成本本已已經(jīng)經(jīng)下下降降到到2005年的的1/6,而同同期期企企業(yè)業(yè)關(guān)關(guān)于于數(shù)數(shù)據(jù)據(jù)的的總總投投資資自自2005年以以來來卻卻反反而而上上升升了了50%。數(shù)據(jù)據(jù)成成本本的下下降降助助推推了了數(shù)據(jù)據(jù)量量的增增長長,而新新的的數(shù)據(jù)據(jù)源源和數(shù)數(shù)據(jù)據(jù)采采集集技技術(shù)術(shù)的的出出現(xiàn)現(xiàn)則則大大大大增增加加了了未未來來數(shù)據(jù)的類型,數(shù)據(jù)類型的增增加導(dǎo)致現(xiàn)有有數(shù)據(jù)空間維度增加,極大地增加了了未來大數(shù)據(jù)的復(fù)雜度度。20超越BI-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time21大數(shù)據(jù)分析的的價值Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps22大數(shù)據(jù)的挑戰(zhàn)戰(zhàn)TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata23利用用戶”行為指紋”創(chuàng)造新商機用戶在線的每每一次點擊,,每一次評論論,每一個視視頻點播,就就是大數(shù)據(jù)的的典型來源。?;ヂ?lián)網(wǎng)企業(yè)業(yè)之所以取得得令人矚目的的成績,其核核心的本質(zhì)就就是包括用戶戶網(wǎng)絡(luò)操作的的大數(shù)據(jù),進進行記錄和分分析,形成用用戶“行為指指紋”,從而而洞悉用戶的的潛在的、真真實的需求,,形成預(yù)判。這是傳統(tǒng)企企業(yè)花費重重金都難以以企及的夢夢想。所有有傳統(tǒng)的產(chǎn)產(chǎn)品公司都都只能淪為為這種新型型用戶平臺臺級公司的的附庸。大數(shù)據(jù)的構(gòu)成成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的的經(jīng)營交易易信息主要要包括聯(lián)機機交易數(shù)據(jù)據(jù)和聯(lián)機分分析數(shù)據(jù),,是結(jié)構(gòu)化的、通過關(guān)關(guān)系數(shù)據(jù)庫庫進行管理理和訪問的的靜態(tài)、歷歷史數(shù)據(jù)。。通過這些些數(shù)據(jù),我我們能了解過去發(fā)生了什么么。大數(shù)據(jù)包括:交易數(shù)據(jù)和和交互數(shù)據(jù)集在內(nèi)內(nèi)的所有數(shù)數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源源的社交媒媒體數(shù)據(jù)構(gòu)構(gòu)成。它包包括了呼叫叫詳細記錄CDR、設(shè)備和傳感感器信息、、GPS和地理定位位映射數(shù)據(jù)據(jù)、通過管管理文件傳輸ManageFileTransfer協(xié)議傳送的海量量圖像文件件、Web文本和點擊擊流數(shù)據(jù)、、科學(xué)信息息、電子郵郵件等等??梢砸灶A(yù)測未來。海量數(shù)據(jù)處理::大數(shù)據(jù)的涌現(xiàn)現(xiàn)已經(jīng)催生生出了設(shè)計計用于數(shù)據(jù)據(jù)密集型處處理的架構(gòu)。例如如具有開放源源碼、在商商品硬件群群中運行的的ApacheHadoop。2627Gartner2013年技術(shù)成熟熟度曲線28BD2013年技術(shù)成熟度度曲線解讀讀大數(shù)據(jù)正在由過熱熱期轉(zhuǎn)向低谷期物聯(lián)網(wǎng)將成成為新的熱點話話題云計算、內(nèi)內(nèi)存分析和和企業(yè)3D打印日益成成熟29Gartner總結(jié)2014年十大科技趨勢勢-第一、移動設(shè)備的的多樣性和和管理Gartner暗示從現(xiàn)在在起直到2018年,自發(fā)形形成的“自自帶設(shè)備””辦公(BYOD)引發(fā)種類類繁多的移移動設(shè)備層層出不窮,,不同的用用戶環(huán)境和和交互模式式將導(dǎo)致““任一設(shè)備備、任一地地點”的戰(zhàn)戰(zhàn)略無法實實現(xiàn)。引發(fā)的新問題便便是企業(yè)如如何針對自自帶設(shè)備制制定新的政政策,以便便平衡好靈靈活性與保保密和隱私私需求。第二、移動應(yīng)用和和應(yīng)用程序序第三、萬物互聯(lián)((InternetofEverything)互聯(lián)網(wǎng)的四個基本本應(yīng)用模型型分別為管管理、貨幣幣化、操作作和擴展。。這些模型型可以應(yīng)用用于任何人人、物、信信息和場所所,因此,,“物聯(lián)網(wǎng)網(wǎng)”終將會會被“萬物物互聯(lián)”所所取代。第四、混合合云和IT成為服務(wù)經(jīng)經(jīng)紀人Gartner暗示個人云云和外部私私有云服務(wù)務(wù)整合勢在在必行。第五、云/客戶端架構(gòu)構(gòu)第六、個人人云時代個人云技術(shù)術(shù)的發(fā)展將導(dǎo)導(dǎo)致設(shè)備向向服務(wù)轉(zhuǎn)移移。在此情情況下,設(shè)設(shè)備的特性性將不再重重要,個人人云數(shù)據(jù)可可以在多種種設(shè)備上訪訪問,并將將會取代傳傳統(tǒng)設(shè)備所所具有的部部分功能。。第七、軟件定義一切第八、Web-scaleIT。第九、智能能機器第十、3D打印30Gartner發(fā)布2014年及未來十十大預(yù)測數(shù)字產(chǎn)業(yè)革命數(shù)字業(yè)務(wù)到2020年,數(shù)字化化帶來的勞勞動力縮減減將導(dǎo)致社社會不穩(wěn)定定,數(shù)個成成熟經(jīng)濟體體也將需要要新經(jīng)濟模模型。短期期關(guān)注點::到2014年底,將會會出現(xiàn)更大大規(guī)模的““占領(lǐng)華爾爾街”型的的運動,意意味著社會會動蕩將開開始推動政政治討論。。到2017年,80%的消費者將將收集、追追蹤和交易易其個人信信息,以實實現(xiàn)成本節(jié)節(jié)約、方便便以及定制制化。短期期關(guān)注點::到2014年,基于Kickstarter的個人數(shù)據(jù)據(jù)的拍賣數(shù)數(shù)量將以三三位數(shù)增長長。到2020年,企業(yè)和和政府將無無法保護75%的敏感數(shù)據(jù)據(jù),并會取取消保密等等級,允許許大范圍人人群/公眾訪問。。短期關(guān)注注點:到2015年,至少會會出現(xiàn)一個個斯諾登或或維基泄密密事件,意意味著企業(yè)業(yè)和政府對對于他們不不能保護所所有敏感信信息這一事事實的情況況呈上升趨趨勢。企業(yè)和政府府存儲和使用的數(shù)據(jù)據(jù)量在大規(guī)規(guī)模地增加加,要保護護所有這些些數(shù)據(jù)是不不現(xiàn)實的。。相比較承承擔(dān)保護所所有數(shù)據(jù)這這一無底的的任務(wù),企企業(yè)和政府府會更專注注于保護其其中一小部部分,并且且要保護得得很好。智能機器物聯(lián)網(wǎng)在當(dāng)代社會,物聯(lián)聯(lián)網(wǎng)結(jié)合了了機器、人人類和商業(yè)業(yè)之間的互互聯(lián)。讓“參與”這個詞成成為真正有有價值的資資產(chǎn)。2020年,從可穿穿戴設(shè)備獲獲取的消費費者數(shù)據(jù)將將推動來自自全球1000強的5%的銷售。短短期關(guān)注點點:到到2015年,分享消費者者數(shù)據(jù)的智能手機機應(yīng)用數(shù)量量將增長兩兩倍,意味味著想要獲獲取消費者者個人數(shù)據(jù)據(jù)的營銷人人員或所有有者的數(shù)目目在增加。。五年內(nèi)內(nèi),消費者者可穿戴產(chǎn)產(chǎn)品將變得得更加先進進,他們可可以捕捉用用戶所見,,甚至通過過生物響應(yīng)應(yīng)進行傾聽聽或感知。。31智慧城市保增長長智慧電網(wǎng)智能交通智慧金融智慧通訊食品安全醫(yī)療保障水源水質(zhì)智能樓宇公共安全工作就業(yè)政府服務(wù)指揮中心保民生生保穩(wěn)定定---IBM33云計算算-物聯(lián)網(wǎng)網(wǎng)-大數(shù)據(jù)據(jù)“云”、““物”的核核心是是“大數(shù)據(jù)據(jù)”云計算算—計算/業(yè)務(wù)模模式物聯(lián)網(wǎng)網(wǎng)—應(yīng)用模模式大數(shù)據(jù)據(jù)—財富、、資產(chǎn)產(chǎn)隱隱性貨貨幣34商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動3536分析技技術(shù)::數(shù)據(jù)處處理:自然然語言言處理理技術(shù)術(shù)統(tǒng)計和分析析:A/Btest;topN排行榜榜;地地域占占比;;文本本情感感分析析數(shù)據(jù)挖挖掘::關(guān)聯(lián)聯(lián)規(guī)則則分析析;分分類;;聚類類模型預(yù)預(yù)測::預(yù)測測模型型;機機器學(xué)學(xué)習(xí);;建模模仿真真大數(shù)據(jù)技術(shù)::數(shù)據(jù)采采集:ETL工具數(shù)據(jù)存?。海宏P(guān)系系數(shù)據(jù)據(jù)庫;;NoSQL;SQL等基礎(chǔ)架構(gòu)支支持::云存存儲;;分布布式文文件系系統(tǒng)等等計算結(jié)果展展現(xiàn)::云計計算;;標(biāo)簽簽云;;關(guān)系系圖等等一些相相關(guān)技術(shù)存儲結(jié)構(gòu)化化數(shù)據(jù)::海量數(shù)據(jù)的的查詢詢、統(tǒng)統(tǒng)計、、更新新等操操作效效率低非結(jié)構(gòu)化化數(shù)據(jù)據(jù)圖片、視頻頻、word、pdf、ppt等文件件存儲儲不利于于檢索、、查詢詢和存儲半結(jié)構(gòu)化化數(shù)據(jù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)構(gòu)化存存儲按照非結(jié)構(gòu)構(gòu)化存存儲解決方方案::Hadoop(MapReduce技術(shù)))流計算((twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘大數(shù)據(jù)據(jù)大大機會會大大挑戰(zhàn)戰(zhàn)Bigdata,biganalysisGreatchallenges,mostopportunitiesBigstore,parallelcomputingSafetyismoreimportant……38大數(shù)據(jù)據(jù)帶來來的問問題核心技技術(shù)人才數(shù)據(jù)科科學(xué)家家工工程師師統(tǒng)計學(xué)學(xué)人才才((小樣樣本概概率率統(tǒng)計計)數(shù)據(jù)挖挖掘人人才((多多變量量統(tǒng)計計)信息資資源保保護意意識的的缺失失造成成的極極大安安全隱隱患—國家安安全大數(shù)據(jù)據(jù)利用用的不不開放放性會會帶來來新的壟壟斷和和社會會資源源浪費費數(shù)據(jù)共共享大數(shù)據(jù)據(jù)對思維方方式、、商業(yè)業(yè)模式式、個個人的影響響大數(shù)據(jù)據(jù)時代代的個人隱隱私394V的再次次解讀讀Volume---數(shù)據(jù)的的高效效管理理存存儲&壓縮Velocity---1s界限數(shù)數(shù)據(jù)的的高效效組織織管理理Variety多樣性性組合運運用結(jié)結(jié)構(gòu)化化和非非結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)來來尋找找問題題的答答案,,是成成功進進行預(yù)預(yù)測分分析的的基礎(chǔ)礎(chǔ)。但但只有有利用用全部部可用用數(shù)據(jù)據(jù)構(gòu)建建一幅幅完整整的圖圖景,,才有有可能能做出出精確確預(yù)測測Varacity誠信大數(shù)據(jù)時代代成立的基基本假定是是“基本數(shù)數(shù)據(jù)是準(zhǔn)確確、可靠、、值得信賴賴的,來龍龍去脈清楚楚,并且具具有一致性性40建議和意見見自然科學(xué)研研究、環(huán)境境保護、生生物醫(yī)藥研研究、教育育以及國家家安全等領(lǐng)領(lǐng)域才是大大數(shù)據(jù)技術(shù)術(shù)突破的重重點建立數(shù)據(jù)生生態(tài)系統(tǒng)政府--引領(lǐng)者和催催化劑科研院所-機構(gòu)-企業(yè)-政府制定法律法法規(guī)建立開放數(shù)數(shù)據(jù)共享平平臺(組織織)-數(shù)據(jù)慈善事事業(yè)商業(yè)模式-鼓勵企業(yè)為為社會效益益而分享和和使用數(shù)據(jù)據(jù)(搜搜索社會會網(wǎng)絡(luò)—免費—行為指紋—價值)鼓勵發(fā)展技技術(shù)基礎(chǔ)設(shè)設(shè)施和訓(xùn)練練個人分析析大數(shù)據(jù)的的能力公共數(shù)據(jù)::人口普查查醫(yī)療衛(wèi)衛(wèi)生記錄稅稅收支出出設(shè)施數(shù)數(shù)據(jù)由公公共部門保保護的的敏敏感群眾的的不記名數(shù)數(shù)據(jù)眾包包數(shù)據(jù)開放數(shù)據(jù)共共享平臺隱私標(biāo)準(zhǔn)和和安全個性化數(shù)據(jù)據(jù)數(shù)據(jù)共享激激勵機制退退出人力資本41引用專家的的話從國家高度度重視未來來大數(shù)據(jù)的的作用,盡盡早制定國國家大數(shù)據(jù)據(jù)研究與產(chǎn)產(chǎn)業(yè)發(fā)展規(guī)規(guī)劃。充分分考考慮慮統(tǒng)統(tǒng)籌籌物物聯(lián)聯(lián)網(wǎng)網(wǎng)、、云云計計算算以以及及智智慧慧城城市市建建設(shè)設(shè)的的發(fā)發(fā)展展趨趨勢勢,,加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論