版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)交流提綱順序題目側(cè)重點講解人時間1大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹大數(shù)據(jù)發(fā)展、熱點應(yīng)用、架構(gòu)黃紹輝9:00~10:002化工銷售大數(shù)據(jù)應(yīng)用設(shè)想大數(shù)據(jù)價值、數(shù)據(jù)資源分析、應(yīng)用展望索寒生10:00~10:30講解和時間安排如下:大數(shù)據(jù)交流提綱順序題目側(cè)重點講解人時間1大數(shù)據(jù)研究現(xiàn)狀及熱點大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹2014年5月石化盈科信息技術(shù)有限責(zé)任公司MES事業(yè)部大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹2014年5月石化盈科信息技術(shù)有目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)3一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)一、大數(shù)據(jù)的研究現(xiàn)狀4《世界存儲、傳輸與計算信息的技術(shù)能力》馬丁·希爾伯特,普里西拉·洛佩茲隨著數(shù)字化信息的發(fā)展,人類產(chǎn)生和儲存的數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長,全球的總存儲數(shù)據(jù)量的量級已突破艾字節(jié)(EB)甚至澤字節(jié)(ZB)(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)2000年,數(shù)字存儲信息只占全球數(shù)據(jù)量的25%,75%的信息存儲在報紙、書籍、膠片、磁帶上。到2007年,人類共存儲超過300EB的數(shù)據(jù),其中數(shù)字?jǐn)?shù)據(jù)占到93%。到2013年,全球總存儲數(shù)據(jù)量達(dá)到1.2ZB,其中數(shù)字?jǐn)?shù)據(jù)占比將超過98%。數(shù)字?jǐn)?shù)據(jù)的存儲量維持每三年增長一倍的高速增長信息數(shù)據(jù)化程度的大幅提升,推動了大數(shù)據(jù)的商業(yè)價值顯現(xiàn)數(shù)字?jǐn)?shù)據(jù)93%數(shù)字?jǐn)?shù)據(jù)98%2000數(shù)字?jǐn)?shù)據(jù)25%2007300EB20131.2ZB一、大數(shù)據(jù)的研究現(xiàn)狀4《世界存儲、傳輸與計算信息的技術(shù)能力》一、大數(shù)據(jù)的研究現(xiàn)狀5數(shù)字化信息的處理,以容量為標(biāo)準(zhǔn)的劃分1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB一、大數(shù)據(jù)的研究現(xiàn)狀5數(shù)字化信息的處理,以容量為標(biāo)準(zhǔn)的劃分1一、大數(shù)據(jù)的研究現(xiàn)狀6據(jù)Wikibon公司測算,2012年全球大數(shù)據(jù)產(chǎn)值已經(jīng)達(dá)到51億美元。預(yù)計到2017年將達(dá)到534億美元,年均增速達(dá)到58%,是同期IT產(chǎn)業(yè)增速的7倍來源:Wikibon公司,2012年一、大數(shù)據(jù)的研究現(xiàn)狀6據(jù)Wikibon公司測算,2012年全722012年各行業(yè)大數(shù)據(jù)市場規(guī)模計世資訊預(yù)測,2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。一、大數(shù)據(jù)的研究現(xiàn)狀12011年-2016年中國大數(shù)據(jù)市場規(guī)模計世資訊認(rèn)為,2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展計世資訊預(yù)測,2013年大數(shù)據(jù)市場迎來增速為138.3%的飛躍,2016年整個市場規(guī)模逼近百億0%81%138%107%110%92%90%0%30%60%120%150%020406080100市場規(guī)模增長率CCWResearch2012/04互聯(lián)網(wǎng)15%電信11%流通4%金融11%醫(yī)療9%制造9%教育4%零售6%能源8%交通4%政府15%其他4%CCWResearch2012/04722012年各行業(yè)大數(shù)據(jù)市場規(guī)模計世資訊預(yù)測,2012年一、豌豆實驗-大數(shù)據(jù)的應(yīng)用之道8孟德爾(GregorJohannMendel)(1822~1884)奧地利人,是遺傳學(xué)的奠基人。1856年,孟德爾就開始了長達(dá)8年的豌豆實驗。從不同種子供應(yīng)商買來34個品種的豌豆,從中挑選出22個品種用于實驗。它們都具有某種可以相互區(qū)分的穩(wěn)定性狀,例如高莖或矮莖、圓料或皺料、灰色種皮或白色種皮等。
通過人工培植這些豌豆,對不同代的豌豆的性狀和數(shù)目進(jìn)行細(xì)致入微的觀察、計數(shù)和分析。運用這樣的實驗方法需要極大的耐心和嚴(yán)謹(jǐn)?shù)膽B(tài)度。起初,孟德爾豌豆實驗并不是有意為探索遺傳規(guī)律而進(jìn)行的。初衷是希望獲得優(yōu)良品種,只是在試驗的過程中,逐步把重點轉(zhuǎn)向了探索遺傳規(guī)律。除了豌豆以外,孟德爾還對其他植物作了大量的類似研究,其中包括玉米、紫羅蘭和紫茉莉等,以證明1865年發(fā)現(xiàn)的遺傳規(guī)律對大多數(shù)植物都適用。一、豌豆實驗-大數(shù)據(jù)的應(yīng)用之道8孟德爾(GregorJ一、曹沖稱象-大數(shù)據(jù)的分布處理之道9工具(秤)的處理能力有限,當(dāng)超出其能力范圍之后,應(yīng)當(dāng)如何處理?是造更大的工具(超級的大秤),還是智慧地將要稱的物(大象)拆分成對等的物(石塊)?“分而治之”是處理大事物的解決之道,只需將大事物分解到小工具能處理的大小,復(fù)制更多的小工具來同時處理,最后將每一個部分的結(jié)果匯總起來,就是對大事物的處理結(jié)果一、曹沖稱象-大數(shù)據(jù)的分布處理之道9工具(秤)的處理能力10Google大數(shù)據(jù)的誕生Google云計算MapReduceBigTableGFSChubby一、Google大數(shù)據(jù)-大數(shù)據(jù)的平臺搭建之道1998年,斯坦福大學(xué)的博士生拉里·佩奇和謝爾蓋·布林在車庫中創(chuàng)辦了Google公司。兩位年輕人沒有找到大筆的投資,不得不用廉價PC和自己動手做的小軟件來構(gòu)建網(wǎng)站,所依靠的最核心的3項技術(shù)就是Google的分布式文件系統(tǒng)GFS、MapReduce編程模式和分布式數(shù)據(jù)庫BigTable。經(jīng)過15年的發(fā)展,Google在全球部署了大約200萬臺服務(wù)器,每天處理數(shù)以億計的搜索請求,存儲每天新增的24PB數(shù)據(jù)10Google大數(shù)據(jù)的誕生Google云計算MapRedu一、諾蘭模型11美國管理信息系統(tǒng)專家諾蘭(Richard·L·Nolan)通過對200多個公司、部門發(fā)展信息系統(tǒng)的實踐和經(jīng)驗的總結(jié),提出了著名的信息系統(tǒng)進(jìn)化的階段模型,即諾蘭模型。起步:只有個別人具有使用計算機的能力;一般發(fā)生在一個組織的財務(wù)部門蔓延:數(shù)據(jù)處理能力迅速發(fā)展;出現(xiàn)數(shù)據(jù)冗余、不一致性、難以共享等問題;計算機使用效率不高控制:成立了領(lǐng)導(dǎo)小組;采用了數(shù)據(jù)庫技術(shù);這一階段是計算機管理變?yōu)閿?shù)據(jù)管理的關(guān)鍵
集成:建立集中的DB及相應(yīng)的IS;增加大量硬件,預(yù)算費用迅速增長數(shù)據(jù)管理:開始選定統(tǒng)一的數(shù)據(jù)庫平臺、數(shù)據(jù)管理體系和信息管理平臺,統(tǒng)一數(shù)據(jù)的管理和使用,各部門、各系統(tǒng)基本實現(xiàn)資源整合、信息共享。IT系統(tǒng)的規(guī)劃及資源利用更加高效成熟:信息系統(tǒng)可以滿足企業(yè)各個層次的需求,從事務(wù)處理到高層管理的決策。企業(yè)真正把IT同管理過程結(jié)合起來,將組織內(nèi)部、外部的資源充分整合和利用,提升了企業(yè)的競爭力和發(fā)展?jié)摿σ?、諾蘭模型11美國管理信息系統(tǒng)專家諾蘭(Richard·L一、諾蘭模型的總結(jié)12數(shù)據(jù)管理階段,企業(yè)管理高層已經(jīng)意識到企業(yè)信息戰(zhàn)略的重要性,開始著手企業(yè)信息資源的統(tǒng)一規(guī)劃數(shù)據(jù)成熟階段,企業(yè)和數(shù)據(jù)同步發(fā)展,數(shù)據(jù)是企業(yè)整體面貌的鏡像,企業(yè)“以數(shù)據(jù)為鏡”做出發(fā)展決策盡管諾蘭提出這一模型的時間是20世紀(jì)80年代,但在30多年后的今天,人們不難發(fā)現(xiàn)他預(yù)見的準(zhǔn)確性。企業(yè)的信息化建設(shè)必然會走到以數(shù)據(jù)為中心的發(fā)展階段,無論是否愿意,這條規(guī)律都是不可違背一、諾蘭模型的總結(jié)12數(shù)據(jù)管理階段,企業(yè)管理高層已經(jīng)意識到企一、大數(shù)據(jù)的研究現(xiàn)狀132004年--最初的版本由DougCutting和MikeCafarella開始實施2006年1月--DougCutting加入雅虎2006年2月--ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展2006年2月--雅虎的網(wǎng)格計算團隊采用Hadoop2011年12月–Cloudera授權(quán)培訓(xùn)認(rèn)證正式進(jìn)入中國2012年5月28日--ApacheHadoop2.0Alpha版本發(fā)布2013年12月--除了社區(qū)的Apachehadoop發(fā)行版以外,cloudera、hortonworks、mapR、EMC、IBM、INTEL、華為等都提供了hadoop商業(yè)版本
發(fā)展過程一、大數(shù)據(jù)的研究現(xiàn)狀132004年--最初的版本由Doug一、大數(shù)據(jù)的研究現(xiàn)狀14Gartner2012技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀14Gartner2012技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀15Gartner2013技術(shù)成熟度曲線近幾年大數(shù)據(jù)不斷加溫,很多企業(yè)也的確面臨數(shù)據(jù)量激增的現(xiàn)實困境,但大數(shù)據(jù)絕非僅僅是數(shù)據(jù)量大的挑戰(zhàn),核心問題還是取決于數(shù)據(jù)挖掘背后所能產(chǎn)生的價值。在經(jīng)歷了一段熱潮之后,大數(shù)據(jù)開始實實在在的為企業(yè)解決問題。一、大數(shù)據(jù)的研究現(xiàn)狀15Gartner2013技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀16應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)?縱軸契合度:表示該用戶的IT應(yīng)用特點與大數(shù)據(jù)特性的契合程度;?橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造大數(shù)據(jù)存在于各個行業(yè)領(lǐng)域,根基市場的關(guān)注度和技術(shù)成熟度將陸續(xù)應(yīng)用不同行業(yè)不同應(yīng)用會使用不同的產(chǎn)品和方案來滿足自身的實際需要一、大數(shù)據(jù)的研究現(xiàn)狀16應(yīng)用可能性電信政府(公共事業(yè))交通金一、大數(shù)據(jù)的研究現(xiàn)狀17國外業(yè)界對大數(shù)據(jù)寬泛的認(rèn)知第一,數(shù)據(jù)體量巨大,根據(jù)IDC的研究數(shù)據(jù)顯示,預(yù)計到2015年全世界將會有8萬億GB的信息量第二,數(shù)據(jù)類型繁多,包括以往文本為主的結(jié)構(gòu)化數(shù)據(jù),也包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等大量的非結(jié)構(gòu)化數(shù)據(jù)第三,處理速度快,1秒定律第四,大數(shù)據(jù)的3V構(gòu)成也導(dǎo)致其數(shù)據(jù)價值高但價值密度低的特點,也被稱為大數(shù)據(jù)特點的第4個V,即數(shù)據(jù)價值Value8萬億GB2015全球信息量1s數(shù)據(jù)處理速度85%非結(jié)構(gòu)化數(shù)據(jù)占比數(shù)據(jù)價值Volume數(shù)據(jù)體量大Variety數(shù)據(jù)類型多Velocity處理速度快Value一、大數(shù)據(jù)的研究現(xiàn)狀17國外業(yè)界對大數(shù)據(jù)寬泛的認(rèn)知第一,數(shù)據(jù)大量用戶群體海量計算大量數(shù)據(jù)管理數(shù)據(jù)分析一、大數(shù)據(jù)的研究現(xiàn)狀18國內(nèi)業(yè)內(nèi)人士對大數(shù)據(jù)的認(rèn)知數(shù)據(jù)在線“知著、見微、曉意”-大數(shù)據(jù)的解決之道大量用戶群體海量計算大量數(shù)據(jù)管理數(shù)據(jù)分析一、大數(shù)據(jù)的研究現(xiàn)目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)19一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)20
誕生Google云計算MapReduceBigTableGFSChubbyMapReduce→ MapReduceGFS → HDFSBigTable→ HbaseChubby → ZooKeeper二、大數(shù)據(jù)的技術(shù)實現(xiàn)20二、大數(shù)據(jù)的技術(shù)實現(xiàn)21大數(shù)據(jù)處理的平臺解決方案大數(shù)據(jù)儲存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計算框架分布式存儲橫向擴容(Scale-out)架構(gòu)二、大數(shù)據(jù)的技術(shù)實現(xiàn)21大數(shù)據(jù)處理的平臺解決方案大數(shù)據(jù)儲存大二、大數(shù)據(jù)的技術(shù)實現(xiàn)22Hadoop是個體系HIVEBigDataApplicationsPig!ZooKeeperSQLRAW二、大數(shù)據(jù)的技術(shù)實現(xiàn)22Hadoop是個體系HIVEBig二、大數(shù)據(jù)的技術(shù)實現(xiàn)23大數(shù)據(jù)處理的平臺解決方案傳統(tǒng)并行計算架構(gòu)并行計算
+
分布式存儲運算儲存?zhèn)鹘y(tǒng)儲存架構(gòu)計算與存儲一體,計算向數(shù)據(jù)靠攏,高效專用存儲模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)。二、大數(shù)據(jù)的技術(shù)實現(xiàn)23大數(shù)據(jù)處理的平臺解決方案傳統(tǒng)并行計算二、大數(shù)據(jù)的技術(shù)實現(xiàn)24HadoopVSRDBMSRDBMSHadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴充性非線性線性二、大數(shù)據(jù)的技術(shù)實現(xiàn)24HadoopVSRDBMSRDB二、大數(shù)據(jù)的技術(shù)實現(xiàn)25Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJob二、大數(shù)據(jù)的技術(shù)實現(xiàn)25Hive–SQLlikeHa二、大數(shù)據(jù)的技術(shù)實現(xiàn)26Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasks二、大數(shù)據(jù)的技術(shù)實現(xiàn)26Sqoop–SQLtoHad二、大數(shù)據(jù)的技術(shù)實現(xiàn)27傳統(tǒng)數(shù)據(jù)處理流程運營信息物料信息工藝參數(shù)操作信息數(shù)據(jù)倉庫其他信息大部份刪除ETL部份資料二、大數(shù)據(jù)的技術(shù)實現(xiàn)27傳統(tǒng)數(shù)據(jù)處理流程運營信息物料信息工藝二、大數(shù)據(jù)的技術(shù)實現(xiàn)28探索的數(shù)據(jù)處理流程物料信息工藝參數(shù)操作信息效益分析?工藝分析?報警分析?運營信息數(shù)據(jù)倉庫二、大數(shù)據(jù)的技術(shù)實現(xiàn)28探索的數(shù)據(jù)處理流程物料信息工藝參數(shù)操二、大數(shù)據(jù)的技術(shù)實現(xiàn)29Spark:大數(shù)據(jù)的“電光石火”Spark是發(fā)源于美國加州大學(xué)伯克利分校AMPLab的集群計算平臺。立足于內(nèi)存計算,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,罕見的全能型選手輕:Spark0.6核心代碼有2萬行,Hadoop1.0為9萬行,2.0為22萬行。一方面,感謝Scala語言的簡潔和豐富表達(dá)力;另一方面,Spark很好地利用了Hadoop和Mesos的基礎(chǔ)設(shè)施。雖然很輕,但在容錯設(shè)計上不打折扣快:Spark對小數(shù)據(jù)集能達(dá)到亞秒級的延遲,這對于HadoopMapReduce是無法想象的。就大數(shù)據(jù)集而言,對典型的迭代機器學(xué)習(xí)、即席查詢、圖計算等應(yīng)用,Spark版本比基于MapReduce、Hive和Pregel的實現(xiàn)快上十倍到百倍靈:Spark提供了不同層面的靈活性。在實現(xiàn)層,完美演繹了Scalatrait動態(tài)混入策略;在原語層,它允許擴展新的數(shù)據(jù)算子、新的數(shù)據(jù)源、新的languagebindings;在范式層,Spark支持內(nèi)存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種范式巧:Spark借Hadoop之勢,與Hadoop無縫結(jié)合;無論是語法還是API,在實現(xiàn)上又能靈巧借力。缺點:不能很好地支持細(xì)粒度、異步的數(shù)據(jù)處理二、大數(shù)據(jù)的技術(shù)實現(xiàn)29Spark:大數(shù)據(jù)的“電光石火”Sp二、大數(shù)據(jù)的技術(shù)實現(xiàn)30Storm:高速處理流式數(shù)據(jù)Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的Storm帶著流式計算的標(biāo)簽華麗地出場了:分布式系統(tǒng)、運維簡單、高度容錯、無數(shù)據(jù)丟失、多語言Storm物理拓?fù)浣Y(jié)構(gòu)
Nimbus服務(wù)器將拓?fù)涠?、大?shù)據(jù)的技術(shù)實現(xiàn)30Storm:高速處理流式數(shù)據(jù)Stor二、大數(shù)據(jù)的技術(shù)實現(xiàn)312012-2013中國IT技術(shù)趨勢大調(diào)查-數(shù)據(jù)管理的新技術(shù)預(yù)測如上圖所示,分布式存儲與計算成為最受關(guān)注的數(shù)據(jù)管理新技術(shù),比例達(dá)到29.86%;其次是內(nèi)存數(shù)據(jù)庫技術(shù),占到23.30%;云數(shù)據(jù)庫排名第三,比例為16.29%。此外,列式數(shù)據(jù)庫技術(shù)、NoSQL也獲得較多關(guān)注。從調(diào)查結(jié)果來看,以Hadoop為代表的分布式存儲與計算已成為人們心目中大數(shù)據(jù)的關(guān)鍵技術(shù)。以SAPHANA為代表的內(nèi)存數(shù)據(jù)庫技術(shù)和以SQLAzure為代表的云數(shù)據(jù)庫技術(shù),也將成為占據(jù)重要地位的數(shù)據(jù)管理創(chuàng)新平臺二、大數(shù)據(jù)的技術(shù)實現(xiàn)312012-2013中國IT技術(shù)趨勢大二、大數(shù)據(jù)的技術(shù)實現(xiàn)322012-2013中國IT技術(shù)趨勢大調(diào)查-商業(yè)智能的發(fā)展趨勢對于商業(yè)智能未來的趨勢預(yù)測,調(diào)查顯示排在前三位的是豐富的挖掘模型、實時的分析、精準(zhǔn)的特定目的分析。其后是社交網(wǎng)絡(luò)分析、云端服務(wù)和移動BI。由此看出人們期待商業(yè)智能應(yīng)用能夠在這些方面做出改變。以上趨勢不難看出,在大數(shù)據(jù)時代,人們把焦點放在那些能快速改變現(xiàn)狀的顛覆性技術(shù)上,大數(shù)據(jù)存儲與計算、數(shù)據(jù)挖掘與分析,以及商業(yè)智能等應(yīng)用將在未來大放異彩二、大數(shù)據(jù)的技術(shù)實現(xiàn)322012-2013中國IT技術(shù)趨勢大二、大數(shù)據(jù)時代的技術(shù)特點33大數(shù)據(jù)背景下IT解決方案變化特點二、大數(shù)據(jù)時代的技術(shù)特點33大數(shù)據(jù)背景下IT解決方案變化特點二、大數(shù)據(jù)的挑戰(zhàn)34大數(shù)據(jù)的角色和技能無論什么樣的IT技術(shù),說到底都是對人才的需求數(shù)據(jù)科學(xué)家行業(yè)知識分析技能商業(yè)智能專業(yè)人員Hadoop、.Net關(guān)系型數(shù)據(jù)庫業(yè)務(wù)分析BusinessAnalysts010101010101010101101010101010101001010101010101101010101010二、大數(shù)據(jù)的挑戰(zhàn)34大數(shù)據(jù)的角色和技能無論什么樣的IT技術(shù),二、大數(shù)據(jù)時代的算法35數(shù)據(jù)挖掘算法十大經(jīng)典算法說明其他八種算法說明1C4.5分類決策樹算法1FP-Tree關(guān)聯(lián)分析算法2K-Means聚類算法2HITS鏈接挖掘3SVM支持向量機3BIRCH聚類算法4Apriori布爾關(guān)聯(lián)規(guī)則算法4GSP序列模式算法5EM概率模型5PrefixSpan序列模式算法6PageRankGoogle專利算法6CBA關(guān)聯(lián)規(guī)則分類算法7Adaboost迭代算法7Findingreduct粗集類算法8KNNK最近鄰分類算法8gSpan頻繁子圖挖掘算法9NaiveBayes樸素貝葉斯模型10CART分類與回歸樹TheIEEEInternationalConferenceonDataMining(ICDM國際數(shù)據(jù)挖掘)2006年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法。其實參加評選的所有18種算法都是經(jīng)典算法,在數(shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠(yuǎn)的影響。二、大數(shù)據(jù)時代的算法35數(shù)據(jù)挖掘算法十大經(jīng)典算法說明其他八種二、大數(shù)據(jù)與云計算的關(guān)系36大數(shù)據(jù)與云計算是同一件事云計算模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)前端云是計算資源的調(diào)度,后端大數(shù)據(jù)是存儲和分析資源的調(diào)度數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算盤活數(shù)據(jù)資產(chǎn),使其為國家和企業(yè)決策、個人生活服務(wù),是大數(shù)據(jù)核心議題,也是云計算的最終方向三分虛擬化、七分分布式、十二分大數(shù)據(jù)二、大數(shù)據(jù)與云計算的關(guān)系36大數(shù)據(jù)與云計算是同一件事云計算模目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)37一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)三、大數(shù)據(jù)的熱點應(yīng)用38Google案例前瞻來看,隨著互聯(lián)網(wǎng)對網(wǎng)民的理解,網(wǎng)民對網(wǎng)絡(luò)的反作用,互聯(lián)網(wǎng)將變得越來越智能。在滿足你需求的同時,也在創(chuàng)造新的需求。前者的代表是Google,后者的典型則是Facebook谷歌的盈利在于所有的軟件應(yīng)用都是在線的。用戶在免費使用這些產(chǎn)品的同時,把個人的行為、喜好等信息也免費地送給了Google。因此Google的產(chǎn)品線越豐富,他對用戶的理解就越深入,他的廣告就越精準(zhǔn)。廣告價值就越高這是正向的循環(huán),谷歌好用的、免費得軟件產(chǎn)品,換取對用戶的理解;通過精準(zhǔn)的廣告,找到生財之道。顛覆了賣軟件拷貝賺錢的模式。成為互聯(lián)網(wǎng)的巨擘互聯(lián)網(wǎng)越來越智能Google精確掌握用戶行為、獲取需求三、大數(shù)據(jù)的熱點應(yīng)用38Google案例前瞻來看,隨著互聯(lián)三、大數(shù)據(jù)的熱點應(yīng)用39Google案例2008年前,Google推出了一個單獨的小產(chǎn)品--流感疫情地圖,里面將從世界各國衛(wèi)生組織收集到的流感信息用可視化的方式呈現(xiàn)出來,這樣你在出差的時候,就知道是否應(yīng)該帶藥品了2010年后,當(dāng)H1N1病毒肆虐的時候,Google已經(jīng)能將患病高發(fā)區(qū)整合進(jìn)自己的地圖應(yīng)用三、大數(shù)據(jù)的熱點應(yīng)用39Google案例2008年前,Go三、大數(shù)據(jù)的熱點應(yīng)用40美國超過25個州的交通部使用大數(shù)據(jù)技術(shù)據(jù)Inrix官方網(wǎng)站介紹,這是一款致力于為全球交通問題帶來智能數(shù)據(jù)和先進(jìn)的分析方法的交通智能化平臺,截至2012年底已經(jīng)為全球32個國家的企業(yè)提供了服務(wù)Inrix利用安裝在公路上的數(shù)十萬個接受器每小時能收集數(shù)百萬條數(shù)據(jù),這些數(shù)據(jù)綜合起來后能為當(dāng)前甚至未來的交通狀況提供一個完整的模式圖,可以幫助政府建立綜合性立體的交通信息體系,更好地管理其轄區(qū)范圍內(nèi)路網(wǎng)的交通擁堵狀況,目前,這些賣給GPS生產(chǎn)商和各國的交通規(guī)劃部門的產(chǎn)品已經(jīng)成為了Inrix主要盈利的來源InrixDriveTime依靠的是Inrix交通智能平臺提供的實時交通信息,它能給購房顧客最精準(zhǔn)的購房數(shù)據(jù):實時交通信息每1分鐘更新一次,每90天就能分析和編譯成一個歷史數(shù)據(jù)庫在大風(fēng)暴襲擊后的三小時之內(nèi),交通部門必須清理國道路面,而INRIX交通速度數(shù)據(jù)技術(shù)和云分析可決定重建路面與交通狀況恢復(fù)的所需時間分析駕駛模式和道路對交通事故的相關(guān)性影響,與保險公司進(jìn)行數(shù)據(jù)合作三、大數(shù)據(jù)的熱點應(yīng)用40美國超過25個州的交通部使用大數(shù)據(jù)技三、大數(shù)據(jù)的熱點應(yīng)用41百度案例百度:依托搜索數(shù)據(jù)實現(xiàn)精準(zhǔn)營銷百度的數(shù)據(jù)以搜索數(shù)據(jù)為主。其對于數(shù)據(jù)的分析主要在于根據(jù)歷史搜索和瀏覽行為的周期和頻次,歷史點擊及訪問過的鏈接和頁面,以及當(dāng)下的搜索關(guān)鍵詞和瀏覽行為來推斷用戶的需求。其數(shù)據(jù)的特點在于數(shù)量龐大,類型較為單一,以及與網(wǎng)民當(dāng)下的需求較為貼近,比較前端。基于網(wǎng)民歷史搜索的周期和頻次興趣定向基于網(wǎng)民歷史瀏覽行為的周期和頻次基于搜索過指定關(guān)鍵詞的人群關(guān)鍵詞定向基于網(wǎng)民當(dāng)下的瀏覽行為基于點擊過企業(yè)搜索推廣鏈接到訪定向基于訪問過企業(yè)網(wǎng)站特定頁面地域定向基于網(wǎng)民的地域特征4.2億月度覆蓋人數(shù)517億月度瀏覽頁面183億月度搜索請求量2013.4數(shù)據(jù)來源:iUserTracker.家庭辦公版2013,6?;趯?0萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。三、大數(shù)據(jù)的熱點應(yīng)用41百度案例百度:依托搜索數(shù)據(jù)實現(xiàn)精準(zhǔn)營三、大數(shù)據(jù)的熱點應(yīng)用42百度案例數(shù)據(jù)解讀,2014年1月26日上午十點,在過去八小時內(nèi)最熱的遷入城市前三名是北京重慶和贛州,無論重慶和贛州,都是勞務(wù)輸出的重點地區(qū),排名前三理所應(yīng)當(dāng)。北京為什么位居遷入城市第一?點開北京的路線詳情就能看到,遷入北京的大部分是廊坊、天津、葫蘆島等地的人,只是把北京當(dāng)做一個交通中轉(zhuǎn)站而已。這也就是北京能在遷出城市和遷入城市都能名列第一的原因了鐵道部看完這個圖,希望他們知道下一步的高鐵線路應(yīng)該怎么鋪設(shè)三、大數(shù)據(jù)的熱點應(yīng)用42百度案例數(shù)據(jù)解讀,2014年1月26三、大數(shù)據(jù)的熱點應(yīng)用43阿里巴巴:多角度挖掘大數(shù)據(jù)價值,構(gòu)筑數(shù)據(jù)交易平臺阿里巴巴擁有的數(shù)據(jù)主要是交易數(shù)據(jù)以及信用數(shù)據(jù),其特點在于數(shù)據(jù)覆蓋了從瀏覽到購物到支付的整個行為鏈,對于電商營銷具有較強的針對性和指導(dǎo)性。阿里對于大數(shù)據(jù)的應(yīng)用在金融方面取得了良好的效果,在營銷方面也陸續(xù)推出數(shù)據(jù)魔方、淘寶指數(shù)、聚石塔等數(shù)據(jù)產(chǎn)品,從不同維度對數(shù)據(jù)進(jìn)行挖掘和分析,其最終目的在于建立起數(shù)據(jù)交易平臺DataExchange,使阿里成為數(shù)據(jù)集散中心。聚石塔是由阿里旗下天貓與萬網(wǎng)、阿里云聯(lián)合推出的商業(yè)數(shù)據(jù)云平臺,為天貓、淘寶平臺上的電商及電商服務(wù)商提供IT基礎(chǔ)設(shè)施和數(shù)據(jù)云服務(wù)。當(dāng)前,聚石塔主要提供彈性托管服務(wù)、數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)同步服務(wù)、數(shù)據(jù)集成服務(wù),以及云監(jiān)控服務(wù)等數(shù)據(jù)云服務(wù)。但阿里的野心在于通過聚石塔整合阿里旗下各個平臺的數(shù)據(jù)資源,匯集整個電商生態(tài)鏈所有環(huán)節(jié)的數(shù)據(jù)信息,最終將其打造成為數(shù)據(jù)交換平臺,實現(xiàn)阿里生態(tài)系統(tǒng)內(nèi)各個服務(wù)商的數(shù)據(jù)互通和交換。淘寶指數(shù)是淘寶推出的免費消費者數(shù)據(jù)研究平臺。其數(shù)據(jù)來源為用戶在淘寶網(wǎng)、天貓上的搜索行為以及淘寶網(wǎng)、天貓的后臺成交明細(xì)數(shù)據(jù)。淘寶指數(shù)提供市場趨勢分析(包括搜索詞的搜索、成交趨勢,及其人群特征)、市場細(xì)分分析(包括搜索詞的類目分布,近一個月成交人群的特征,以及特定人群的購物偏好),以及類目、子類目及品牌排行榜。淘寶指數(shù)從消費者角度分析數(shù)據(jù),協(xié)助賣家了解淘寶搜索熱點,查詢成交走勢,定位消費人群,研究細(xì)分市場。數(shù)據(jù)魔方是淘寶面向賣家開放的交易數(shù)據(jù)分析產(chǎn)品。數(shù)據(jù)魔方為賣家提供每分鐘更新一次的實時數(shù)據(jù),并提供行業(yè)分析、品牌分析(包括熱銷排行及品牌詳情)、產(chǎn)品分析(包括產(chǎn)品熱銷排行及產(chǎn)品詳情)、屬性分析(包括屬性組合排行、屬性熱銷排行及屬性詳情)、淘詞分析(包括行業(yè)熱詞榜、全網(wǎng)熱銷詞查詢以及寶貝標(biāo)題診斷)、流失顧客分析以及自有店鋪分析。數(shù)據(jù)魔方產(chǎn)品使淘寶交易數(shù)據(jù)以標(biāo)準(zhǔn)化、定制化的方式呈現(xiàn),為賣家制定營銷策略提供支持。2010.32012.42012.7數(shù)據(jù)來源:iUserTracker.家庭辦公版2013,6?;趯?0萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。EcommercePlus,家庭辦公版2013.6,基于對40萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。三、大數(shù)據(jù)的熱點應(yīng)用43阿里巴巴:多角度挖掘大數(shù)據(jù)價值,構(gòu)筑三、大數(shù)據(jù)的熱點應(yīng)用44淘寶案例10億商品、交易額過萬億每天30億瀏覽、數(shù)千萬交易集群規(guī)模30萬臺,每年擴大50%100PB數(shù)據(jù)交易數(shù)據(jù)用戶數(shù)據(jù)商品數(shù)據(jù)社交數(shù)據(jù)數(shù)據(jù):系統(tǒng):我要買關(guān)鍵詞搜索語音搜索語音理解關(guān)鍵詞匹配挑選物品索引數(shù)據(jù)評論/交易商家信譽用戶行為數(shù)據(jù)商戶行為數(shù)據(jù)購買推薦其他你歷史數(shù)據(jù)買家服務(wù)行業(yè)分析店鋪基礎(chǔ)經(jīng)營分析商品優(yōu)化分析買家分析營銷效果分析售后/運營支撐分析需求挖掘訂單分析供應(yīng)鏈分析信用評估賣什么怎么賣賣給誰我要進(jìn)貨我要貸款賣家服務(wù)衍生服務(wù):金融、保險…搜索、電商、廣告、SNS等數(shù)據(jù)驅(qū)動的互聯(lián)網(wǎng)服務(wù)取得巨大成功,激發(fā)了大數(shù)據(jù)應(yīng)用的想象力!三、大數(shù)據(jù)的熱點應(yīng)用44淘寶案例10億商品、交易額過萬億集群三、大數(shù)據(jù)的熱點應(yīng)用45阿里巴巴:整合新浪微博獲取前瞻價值數(shù)據(jù)與新浪微博的合作不僅使阿里獲得了一個重量級的廣告平臺,新浪微博所擁有的社交關(guān)系數(shù)據(jù)也彌補了阿里數(shù)據(jù)鏈中的短板。此前,阿里對于大數(shù)據(jù)的挖掘主要是針對瀏覽和購物信息的歷史數(shù)據(jù)進(jìn)行總結(jié)性分析,其重點是針對已產(chǎn)生的需求進(jìn)行營銷。而新浪微博帶來的社交數(shù)據(jù)使得阿里對于興趣信息、關(guān)系信息等具有前瞻性價值數(shù)據(jù)的挖掘成為可能,從而將有可能實現(xiàn)針對未產(chǎn)生的需求的營銷2.8億月度覆蓋人數(shù)60億月度訪問次數(shù)4.4億月度下單筆數(shù)1.9億月度覆蓋人數(shù)93億月度瀏覽頁面183億微博發(fā)送數(shù)量2012年11月基于歷史數(shù)據(jù)的總結(jié)性分析興趣分析人際關(guān)系分析行為分析基于興趣偏好的預(yù)測性分析針對已產(chǎn)生的需求進(jìn)行營銷針對可能會產(chǎn)生的需求營銷2013.42013.4來源:iUserTracker.家庭辦公版2013,6?;趯?0萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。EcommercePlus,家庭辦公版2013.6,基于對40萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。三、大數(shù)據(jù)的熱點應(yīng)用45阿里巴巴:整合新浪微博獲取前瞻價值數(shù)三、大數(shù)據(jù)的熱點應(yīng)用46國內(nèi)幾大網(wǎng)商數(shù)據(jù)來源對比百度搜索搜索數(shù)據(jù)以搜索為主,數(shù)據(jù)較前端數(shù)據(jù)從訪問到支付,形成深度的交易鏈條用戶數(shù)據(jù)較全面強弱關(guān)系鏈結(jié)合實現(xiàn)個性化營銷交易數(shù)據(jù)信用數(shù)據(jù)社交數(shù)據(jù)用戶關(guān)系數(shù)據(jù)社交數(shù)據(jù)淘寶天貓新浪微博QQ賬號QQ空間騰訊微博主要數(shù)據(jù)來源數(shù)據(jù)轉(zhuǎn)化特點主要數(shù)據(jù)類型三、大數(shù)據(jù)的熱點應(yīng)用46國內(nèi)幾大網(wǎng)商數(shù)據(jù)來源對比百度搜索搜索三、大數(shù)據(jù)的熱點應(yīng)用47大數(shù)據(jù)的“紙牌屋”大數(shù)據(jù)平臺:Cinematch時下最火的一部美劇《紙牌屋》,讓全世界的文化產(chǎn)業(yè)界都意識到了大數(shù)據(jù)的力量。《紙牌屋》的數(shù)據(jù)庫包含了3000萬用戶的收視選擇、400萬條評論、300萬次主題搜索。最終,拍什么、誰來拍、誰來演、怎么播,都由數(shù)千萬觀眾的客觀喜好統(tǒng)計決定。從受眾洞察、受眾定位、受眾接觸到受眾轉(zhuǎn)化,每一步都由精準(zhǔn)細(xì)致、高效經(jīng)濟的數(shù)據(jù)引導(dǎo),從而實現(xiàn)大眾創(chuàng)造的電視劇三、大數(shù)據(jù)的熱點應(yīng)用47大數(shù)據(jù)的“紙牌屋”大數(shù)據(jù)平臺:Cin三、大數(shù)據(jù)的熱點應(yīng)用48電影里的大數(shù)據(jù)三、大數(shù)據(jù)的熱點應(yīng)用48電影里的大數(shù)據(jù)三、大數(shù)據(jù)的熱點應(yīng)用49大數(shù)據(jù)能預(yù)測電影票房嗎?2013年Google在《QuantifyingMovieMagicwithGoogleSearch》(5)的白皮書中公布了電影票房預(yù)測模型,宣布預(yù)測票房與真實票房的吻合程度達(dá)到了94%搜狗公司借助“深思”系統(tǒng),建立了更為復(fù)雜的模型,用于預(yù)測國內(nèi)電影票房,并在新浪微博上提前發(fā)布了2013年12月國內(nèi)上映電影的首周票房預(yù)測結(jié)果。預(yù)測結(jié)果與真實數(shù)據(jù)非常接近,同時,模型還可以用于對影響票房的因素進(jìn)行定量分析三、大數(shù)據(jù)的熱點應(yīng)用49大數(shù)據(jù)能預(yù)測電影票房嗎?2013年G三、大數(shù)據(jù)的熱點應(yīng)用50大數(shù)據(jù)就是金礦,誰挖掘得好就可以成為競爭壁壘。而今天最好的大數(shù)據(jù)都在大公司。我的預(yù)測:互聯(lián)網(wǎng)大公司大部分會學(xué)會駕馭大數(shù)據(jù),越做越強;而大部分非互聯(lián)網(wǎng)公司(電信、銀行、保險)雖擁有大數(shù)據(jù),卻不知其珍貴,或用之不當(dāng)。
——李開復(fù)三、大數(shù)據(jù)的熱點應(yīng)用50大數(shù)據(jù)就是金礦,誰挖掘得好就可以成為目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)51一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)52六、大數(shù)據(jù)的邏輯架構(gòu)Hive交互式數(shù)據(jù)倉庫大數(shù)據(jù)業(yè)務(wù)應(yīng)用Zookeeper分布式協(xié)作服務(wù)
Pig數(shù)據(jù)流處理語言Mahout數(shù)據(jù)挖掘Map/Reduce分布式計算框架HBase實時、分布式、高維數(shù)據(jù)庫HDFS分布式文件系統(tǒng)
R統(tǒng)計語言52六、大數(shù)據(jù)的邏輯架構(gòu)Hive大數(shù)據(jù)業(yè)務(wù)應(yīng)用Zookeep六、大數(shù)據(jù)的技術(shù)架構(gòu)53企業(yè)的Hadoop應(yīng)用策略DataWarehouseSensorsDevicesTAPERTDBERPCRMMESHSEConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop六、大數(shù)據(jù)的技術(shù)架構(gòu)53企業(yè)的Hadoop應(yīng)用策略Dat54六、大數(shù)據(jù)的技術(shù)架構(gòu)企業(yè)大數(shù)據(jù)應(yīng)用模式-混合架構(gòu)MPP-DBMPP-DB架構(gòu)模式:Hadoop+MPPRDB/SMPRDB;處理方式:Hadoop處理非結(jié)構(gòu)化,為輔;RDB處理結(jié)構(gòu)化,為主;非結(jié)構(gòu)化:Hadoop方案,對服務(wù)器和存儲無特殊要求,廉價為主;結(jié)構(gòu)化:MPPRDB/SMPRDB+Hadoop(只負(fù)責(zé)存儲計算需做重大修改)或用新分布式文件系統(tǒng)來替代,對計算和存儲有要求(可靠性,高性能,增值應(yīng)用等)54六、大數(shù)據(jù)的技術(shù)架構(gòu)企業(yè)大數(shù)據(jù)應(yīng)用模式-混合架構(gòu)MPP-55六、大數(shù)據(jù)的技術(shù)架構(gòu)信息源MES設(shè)備工程ERP視頻數(shù)據(jù)HSE電子商務(wù)實時數(shù)據(jù)庫質(zhì)量數(shù)據(jù)管理知識和模型庫文檔報表交互式分析靈活組態(tài)...交互可視化分析實時智能分析在線質(zhì)量分析效益與成本分析投入產(chǎn)出預(yù)測能源結(jié)構(gòu)分析設(shè)備預(yù)警維護(hù)工藝指標(biāo)分析移動智能幀視頻主動式規(guī)則文本模型機理模型經(jīng)驗?zāi)P汀ぁぁど窠?jīng)網(wǎng)絡(luò)模型搜索線性判別分析...Hadoop非結(jié)構(gòu)化數(shù)據(jù)知識搜索文本挖掘趨勢和模式檢測上下文抽取...挖掘模型算法模型TextEnergyEntityExtraction生產(chǎn)質(zhì)量設(shè)備銷售HSE工程把大數(shù)據(jù)分析平臺與關(guān)系數(shù)據(jù)庫結(jié)合起來,各取所長,支持業(yè)務(wù)系統(tǒng)的各類分析應(yīng)用。同時,采用云計算搭建環(huán)境,保證資源動態(tài)分配,軟件部署彈性可擴展。ODS供應(yīng)鏈優(yōu)化模型校正文本類數(shù)據(jù)多媒體圖片文檔數(shù)據(jù)庫HTMLXML函數(shù)擬合經(jīng)驗公式數(shù)字降噪算法庫55六、大數(shù)據(jù)的技術(shù)架構(gòu)信息源MES設(shè)備工程ERP視頻數(shù)據(jù)H56六、大數(shù)據(jù)的服務(wù)器配置類型數(shù)量名稱配置IP安裝內(nèi)容備注分布式應(yīng)用3MR-Pig主頻2.4G內(nèi)存16G硬盤500GMR系統(tǒng)、Pig系統(tǒng)兩個系統(tǒng)共用一臺機器Hive-ChukwaHive系統(tǒng)、Chukwa系統(tǒng)兩個系統(tǒng)共用一臺機器MySQLMySQL數(shù)據(jù)庫系統(tǒng)存放Hive系統(tǒng)和Chukwa系統(tǒng)的元數(shù)據(jù)信息HDFS集群主節(jié)點2NameNodeHDFS系統(tǒng)
JobTrackerSecondNameNode同時作為
SecondNameNodeHDFS集群從節(jié)點3DataNode1
DataNode2
DataNode3
HBase集群主節(jié)點1HMasterHBase系統(tǒng)
HBase集群從節(jié)點1HRegionServer
ZooKeeper集群1ZooKeeperZookeeper系統(tǒng)
11臺服務(wù)器構(gòu)成的大數(shù)據(jù)分析平臺序號類型軟件名稱版本1虛擬機JavaJDK1.7forLinux2分布式系統(tǒng)Hadoop0.20.03Hbase0.90.34Zookerper3.3.35分布式應(yīng)用Pig0.9.06Hive0.7.17Chukwa0.4.08數(shù)據(jù)庫系統(tǒng)MySQLforLinux5.1.631硬件安裝2軟件版本56六、大數(shù)據(jù)的服務(wù)器配置類型數(shù)量名稱配置IP安裝內(nèi)容備注分謝謝!謝謝!大數(shù)據(jù)交流提綱順序題目側(cè)重點講解人時間1大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹大數(shù)據(jù)發(fā)展、熱點應(yīng)用、架構(gòu)黃紹輝9:00~10:002化工銷售大數(shù)據(jù)應(yīng)用設(shè)想大數(shù)據(jù)價值、數(shù)據(jù)資源分析、應(yīng)用展望索寒生10:00~10:30講解和時間安排如下:大數(shù)據(jù)交流提綱順序題目側(cè)重點講解人時間1大數(shù)據(jù)研究現(xiàn)狀及熱點大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹2014年5月石化盈科信息技術(shù)有限責(zé)任公司MES事業(yè)部大數(shù)據(jù)研究現(xiàn)狀及熱點應(yīng)用介紹2014年5月石化盈科信息技術(shù)有目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)60一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)一、大數(shù)據(jù)的研究現(xiàn)狀61《世界存儲、傳輸與計算信息的技術(shù)能力》馬丁·希爾伯特,普里西拉·洛佩茲隨著數(shù)字化信息的發(fā)展,人類產(chǎn)生和儲存的數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長,全球的總存儲數(shù)據(jù)量的量級已突破艾字節(jié)(EB)甚至澤字節(jié)(ZB)(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)2000年,數(shù)字存儲信息只占全球數(shù)據(jù)量的25%,75%的信息存儲在報紙、書籍、膠片、磁帶上。到2007年,人類共存儲超過300EB的數(shù)據(jù),其中數(shù)字?jǐn)?shù)據(jù)占到93%。到2013年,全球總存儲數(shù)據(jù)量達(dá)到1.2ZB,其中數(shù)字?jǐn)?shù)據(jù)占比將超過98%。數(shù)字?jǐn)?shù)據(jù)的存儲量維持每三年增長一倍的高速增長信息數(shù)據(jù)化程度的大幅提升,推動了大數(shù)據(jù)的商業(yè)價值顯現(xiàn)數(shù)字?jǐn)?shù)據(jù)93%數(shù)字?jǐn)?shù)據(jù)98%2000數(shù)字?jǐn)?shù)據(jù)25%2007300EB20131.2ZB一、大數(shù)據(jù)的研究現(xiàn)狀4《世界存儲、傳輸與計算信息的技術(shù)能力》一、大數(shù)據(jù)的研究現(xiàn)狀62數(shù)字化信息的處理,以容量為標(biāo)準(zhǔn)的劃分1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB一、大數(shù)據(jù)的研究現(xiàn)狀5數(shù)字化信息的處理,以容量為標(biāo)準(zhǔn)的劃分1一、大數(shù)據(jù)的研究現(xiàn)狀63據(jù)Wikibon公司測算,2012年全球大數(shù)據(jù)產(chǎn)值已經(jīng)達(dá)到51億美元。預(yù)計到2017年將達(dá)到534億美元,年均增速達(dá)到58%,是同期IT產(chǎn)業(yè)增速的7倍來源:Wikibon公司,2012年一、大數(shù)據(jù)的研究現(xiàn)狀6據(jù)Wikibon公司測算,2012年全6422012年各行業(yè)大數(shù)據(jù)市場規(guī)模計世資訊預(yù)測,2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。一、大數(shù)據(jù)的研究現(xiàn)狀12011年-2016年中國大數(shù)據(jù)市場規(guī)模計世資訊認(rèn)為,2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展計世資訊預(yù)測,2013年大數(shù)據(jù)市場迎來增速為138.3%的飛躍,2016年整個市場規(guī)模逼近百億0%81%138%107%110%92%90%0%30%60%120%150%020406080100市場規(guī)模增長率CCWResearch2012/04互聯(lián)網(wǎng)15%電信11%流通4%金融11%醫(yī)療9%制造9%教育4%零售6%能源8%交通4%政府15%其他4%CCWResearch2012/04722012年各行業(yè)大數(shù)據(jù)市場規(guī)模計世資訊預(yù)測,2012年一、豌豆實驗-大數(shù)據(jù)的應(yīng)用之道65孟德爾(GregorJohannMendel)(1822~1884)奧地利人,是遺傳學(xué)的奠基人。1856年,孟德爾就開始了長達(dá)8年的豌豆實驗。從不同種子供應(yīng)商買來34個品種的豌豆,從中挑選出22個品種用于實驗。它們都具有某種可以相互區(qū)分的穩(wěn)定性狀,例如高莖或矮莖、圓料或皺料、灰色種皮或白色種皮等。
通過人工培植這些豌豆,對不同代的豌豆的性狀和數(shù)目進(jìn)行細(xì)致入微的觀察、計數(shù)和分析。運用這樣的實驗方法需要極大的耐心和嚴(yán)謹(jǐn)?shù)膽B(tài)度。起初,孟德爾豌豆實驗并不是有意為探索遺傳規(guī)律而進(jìn)行的。初衷是希望獲得優(yōu)良品種,只是在試驗的過程中,逐步把重點轉(zhuǎn)向了探索遺傳規(guī)律。除了豌豆以外,孟德爾還對其他植物作了大量的類似研究,其中包括玉米、紫羅蘭和紫茉莉等,以證明1865年發(fā)現(xiàn)的遺傳規(guī)律對大多數(shù)植物都適用。一、豌豆實驗-大數(shù)據(jù)的應(yīng)用之道8孟德爾(GregorJ一、曹沖稱象-大數(shù)據(jù)的分布處理之道66工具(秤)的處理能力有限,當(dāng)超出其能力范圍之后,應(yīng)當(dāng)如何處理?是造更大的工具(超級的大秤),還是智慧地將要稱的物(大象)拆分成對等的物(石塊)?“分而治之”是處理大事物的解決之道,只需將大事物分解到小工具能處理的大小,復(fù)制更多的小工具來同時處理,最后將每一個部分的結(jié)果匯總起來,就是對大事物的處理結(jié)果一、曹沖稱象-大數(shù)據(jù)的分布處理之道9工具(秤)的處理能力67Google大數(shù)據(jù)的誕生Google云計算MapReduceBigTableGFSChubby一、Google大數(shù)據(jù)-大數(shù)據(jù)的平臺搭建之道1998年,斯坦福大學(xué)的博士生拉里·佩奇和謝爾蓋·布林在車庫中創(chuàng)辦了Google公司。兩位年輕人沒有找到大筆的投資,不得不用廉價PC和自己動手做的小軟件來構(gòu)建網(wǎng)站,所依靠的最核心的3項技術(shù)就是Google的分布式文件系統(tǒng)GFS、MapReduce編程模式和分布式數(shù)據(jù)庫BigTable。經(jīng)過15年的發(fā)展,Google在全球部署了大約200萬臺服務(wù)器,每天處理數(shù)以億計的搜索請求,存儲每天新增的24PB數(shù)據(jù)10Google大數(shù)據(jù)的誕生Google云計算MapRedu一、諾蘭模型68美國管理信息系統(tǒng)專家諾蘭(Richard·L·Nolan)通過對200多個公司、部門發(fā)展信息系統(tǒng)的實踐和經(jīng)驗的總結(jié),提出了著名的信息系統(tǒng)進(jìn)化的階段模型,即諾蘭模型。起步:只有個別人具有使用計算機的能力;一般發(fā)生在一個組織的財務(wù)部門蔓延:數(shù)據(jù)處理能力迅速發(fā)展;出現(xiàn)數(shù)據(jù)冗余、不一致性、難以共享等問題;計算機使用效率不高控制:成立了領(lǐng)導(dǎo)小組;采用了數(shù)據(jù)庫技術(shù);這一階段是計算機管理變?yōu)閿?shù)據(jù)管理的關(guān)鍵
集成:建立集中的DB及相應(yīng)的IS;增加大量硬件,預(yù)算費用迅速增長數(shù)據(jù)管理:開始選定統(tǒng)一的數(shù)據(jù)庫平臺、數(shù)據(jù)管理體系和信息管理平臺,統(tǒng)一數(shù)據(jù)的管理和使用,各部門、各系統(tǒng)基本實現(xiàn)資源整合、信息共享。IT系統(tǒng)的規(guī)劃及資源利用更加高效成熟:信息系統(tǒng)可以滿足企業(yè)各個層次的需求,從事務(wù)處理到高層管理的決策。企業(yè)真正把IT同管理過程結(jié)合起來,將組織內(nèi)部、外部的資源充分整合和利用,提升了企業(yè)的競爭力和發(fā)展?jié)摿σ弧⒅Z蘭模型11美國管理信息系統(tǒng)專家諾蘭(Richard·L一、諾蘭模型的總結(jié)69數(shù)據(jù)管理階段,企業(yè)管理高層已經(jīng)意識到企業(yè)信息戰(zhàn)略的重要性,開始著手企業(yè)信息資源的統(tǒng)一規(guī)劃數(shù)據(jù)成熟階段,企業(yè)和數(shù)據(jù)同步發(fā)展,數(shù)據(jù)是企業(yè)整體面貌的鏡像,企業(yè)“以數(shù)據(jù)為鏡”做出發(fā)展決策盡管諾蘭提出這一模型的時間是20世紀(jì)80年代,但在30多年后的今天,人們不難發(fā)現(xiàn)他預(yù)見的準(zhǔn)確性。企業(yè)的信息化建設(shè)必然會走到以數(shù)據(jù)為中心的發(fā)展階段,無論是否愿意,這條規(guī)律都是不可違背一、諾蘭模型的總結(jié)12數(shù)據(jù)管理階段,企業(yè)管理高層已經(jīng)意識到企一、大數(shù)據(jù)的研究現(xiàn)狀702004年--最初的版本由DougCutting和MikeCafarella開始實施2006年1月--DougCutting加入雅虎2006年2月--ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展2006年2月--雅虎的網(wǎng)格計算團隊采用Hadoop2011年12月–Cloudera授權(quán)培訓(xùn)認(rèn)證正式進(jìn)入中國2012年5月28日--ApacheHadoop2.0Alpha版本發(fā)布2013年12月--除了社區(qū)的Apachehadoop發(fā)行版以外,cloudera、hortonworks、mapR、EMC、IBM、INTEL、華為等都提供了hadoop商業(yè)版本
發(fā)展過程一、大數(shù)據(jù)的研究現(xiàn)狀132004年--最初的版本由Doug一、大數(shù)據(jù)的研究現(xiàn)狀71Gartner2012技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀14Gartner2012技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀72Gartner2013技術(shù)成熟度曲線近幾年大數(shù)據(jù)不斷加溫,很多企業(yè)也的確面臨數(shù)據(jù)量激增的現(xiàn)實困境,但大數(shù)據(jù)絕非僅僅是數(shù)據(jù)量大的挑戰(zhàn),核心問題還是取決于數(shù)據(jù)挖掘背后所能產(chǎn)生的價值。在經(jīng)歷了一段熱潮之后,大數(shù)據(jù)開始實實在在的為企業(yè)解決問題。一、大數(shù)據(jù)的研究現(xiàn)狀15Gartner2013技術(shù)成熟度曲線一、大數(shù)據(jù)的研究現(xiàn)狀73應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)?縱軸契合度:表示該用戶的IT應(yīng)用特點與大數(shù)據(jù)特性的契合程度;?橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造大數(shù)據(jù)存在于各個行業(yè)領(lǐng)域,根基市場的關(guān)注度和技術(shù)成熟度將陸續(xù)應(yīng)用不同行業(yè)不同應(yīng)用會使用不同的產(chǎn)品和方案來滿足自身的實際需要一、大數(shù)據(jù)的研究現(xiàn)狀16應(yīng)用可能性電信政府(公共事業(yè))交通金一、大數(shù)據(jù)的研究現(xiàn)狀74國外業(yè)界對大數(shù)據(jù)寬泛的認(rèn)知第一,數(shù)據(jù)體量巨大,根據(jù)IDC的研究數(shù)據(jù)顯示,預(yù)計到2015年全世界將會有8萬億GB的信息量第二,數(shù)據(jù)類型繁多,包括以往文本為主的結(jié)構(gòu)化數(shù)據(jù),也包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等大量的非結(jié)構(gòu)化數(shù)據(jù)第三,處理速度快,1秒定律第四,大數(shù)據(jù)的3V構(gòu)成也導(dǎo)致其數(shù)據(jù)價值高但價值密度低的特點,也被稱為大數(shù)據(jù)特點的第4個V,即數(shù)據(jù)價值Value8萬億GB2015全球信息量1s數(shù)據(jù)處理速度85%非結(jié)構(gòu)化數(shù)據(jù)占比數(shù)據(jù)價值Volume數(shù)據(jù)體量大Variety數(shù)據(jù)類型多Velocity處理速度快Value一、大數(shù)據(jù)的研究現(xiàn)狀17國外業(yè)界對大數(shù)據(jù)寬泛的認(rèn)知第一,數(shù)據(jù)大量用戶群體海量計算大量數(shù)據(jù)管理數(shù)據(jù)分析一、大數(shù)據(jù)的研究現(xiàn)狀75國內(nèi)業(yè)內(nèi)人士對大數(shù)據(jù)的認(rèn)知數(shù)據(jù)在線“知著、見微、曉意”-大數(shù)據(jù)的解決之道大量用戶群體海量計算大量數(shù)據(jù)管理數(shù)據(jù)分析一、大數(shù)據(jù)的研究現(xiàn)目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)76一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)77
誕生Google云計算MapReduceBigTableGFSChubbyMapReduce→ MapReduceGFS → HDFSBigTable→ HbaseChubby → ZooKeeper二、大數(shù)據(jù)的技術(shù)實現(xiàn)20二、大數(shù)據(jù)的技術(shù)實現(xiàn)78大數(shù)據(jù)處理的平臺解決方案大數(shù)據(jù)儲存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計算框架分布式存儲橫向擴容(Scale-out)架構(gòu)二、大數(shù)據(jù)的技術(shù)實現(xiàn)21大數(shù)據(jù)處理的平臺解決方案大數(shù)據(jù)儲存大二、大數(shù)據(jù)的技術(shù)實現(xiàn)79Hadoop是個體系HIVEBigDataApplicationsPig!ZooKeeperSQLRAW二、大數(shù)據(jù)的技術(shù)實現(xiàn)22Hadoop是個體系HIVEBig二、大數(shù)據(jù)的技術(shù)實現(xiàn)80大數(shù)據(jù)處理的平臺解決方案傳統(tǒng)并行計算架構(gòu)并行計算
+
分布式存儲運算儲存?zhèn)鹘y(tǒng)儲存架構(gòu)計算與存儲一體,計算向數(shù)據(jù)靠攏,高效專用存儲模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)。二、大數(shù)據(jù)的技術(shù)實現(xiàn)23大數(shù)據(jù)處理的平臺解決方案傳統(tǒng)并行計算二、大數(shù)據(jù)的技術(shù)實現(xiàn)81HadoopVSRDBMSRDBMSHadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴充性非線性線性二、大數(shù)據(jù)的技術(shù)實現(xiàn)24HadoopVSRDBMSRDB二、大數(shù)據(jù)的技術(shù)實現(xiàn)82Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJob二、大數(shù)據(jù)的技術(shù)實現(xiàn)25Hive–SQLlikeHa二、大數(shù)據(jù)的技術(shù)實現(xiàn)83Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasks二、大數(shù)據(jù)的技術(shù)實現(xiàn)26Sqoop–SQLtoHad二、大數(shù)據(jù)的技術(shù)實現(xiàn)84傳統(tǒng)數(shù)據(jù)處理流程運營信息物料信息工藝參數(shù)操作信息數(shù)據(jù)倉庫其他信息大部份刪除ETL部份資料二、大數(shù)據(jù)的技術(shù)實現(xiàn)27傳統(tǒng)數(shù)據(jù)處理流程運營信息物料信息工藝二、大數(shù)據(jù)的技術(shù)實現(xiàn)85探索的數(shù)據(jù)處理流程物料信息工藝參數(shù)操作信息效益分析?工藝分析?報警分析?運營信息數(shù)據(jù)倉庫二、大數(shù)據(jù)的技術(shù)實現(xiàn)28探索的數(shù)據(jù)處理流程物料信息工藝參數(shù)操二、大數(shù)據(jù)的技術(shù)實現(xiàn)86Spark:大數(shù)據(jù)的“電光石火”Spark是發(fā)源于美國加州大學(xué)伯克利分校AMPLab的集群計算平臺。立足于內(nèi)存計算,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,罕見的全能型選手輕:Spark0.6核心代碼有2萬行,Hadoop1.0為9萬行,2.0為22萬行。一方面,感謝Scala語言的簡潔和豐富表達(dá)力;另一方面,Spark很好地利用了Hadoop和Mesos的基礎(chǔ)設(shè)施。雖然很輕,但在容錯設(shè)計上不打折扣快:Spark對小數(shù)據(jù)集能達(dá)到亞秒級的延遲,這對于HadoopMapReduce是無法想象的。就大數(shù)據(jù)集而言,對典型的迭代機器學(xué)習(xí)、即席查詢、圖計算等應(yīng)用,Spark版本比基于MapReduce、Hive和Pregel的實現(xiàn)快上十倍到百倍靈:Spark提供了不同層面的靈活性。在實現(xiàn)層,完美演繹了Scalatrait動態(tài)混入策略;在原語層,它允許擴展新的數(shù)據(jù)算子、新的數(shù)據(jù)源、新的languagebindings;在范式層,Spark支持內(nèi)存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種范式巧:Spark借Hadoop之勢,與Hadoop無縫結(jié)合;無論是語法還是API,在實現(xiàn)上又能靈巧借力。缺點:不能很好地支持細(xì)粒度、異步的數(shù)據(jù)處理二、大數(shù)據(jù)的技術(shù)實現(xiàn)29Spark:大數(shù)據(jù)的“電光石火”Sp二、大數(shù)據(jù)的技術(shù)實現(xiàn)87Storm:高速處理流式數(shù)據(jù)Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的Storm帶著流式計算的標(biāo)簽華麗地出場了:分布式系統(tǒng)、運維簡單、高度容錯、無數(shù)據(jù)丟失、多語言Storm物理拓?fù)浣Y(jié)構(gòu)
Nimbus服務(wù)器將拓?fù)涠?、大?shù)據(jù)的技術(shù)實現(xiàn)30Storm:高速處理流式數(shù)據(jù)Stor二、大數(shù)據(jù)的技術(shù)實現(xiàn)882012-2013中國IT技術(shù)趨勢大調(diào)查-數(shù)據(jù)管理的新技術(shù)預(yù)測如上圖所示,分布式存儲與計算成為最受關(guān)注的數(shù)據(jù)管理新技術(shù),比例達(dá)到29.86%;其次是內(nèi)存數(shù)據(jù)庫技術(shù),占到23.30%;云數(shù)據(jù)庫排名第三,比例為16.29%。此外,列式數(shù)據(jù)庫技術(shù)、NoSQL也獲得較多關(guān)注。從調(diào)查結(jié)果來看,以Hadoop為代表的分布式存儲與計算已成為人們心目中大數(shù)據(jù)的關(guān)鍵技術(shù)。以SAPHANA為代表的內(nèi)存數(shù)據(jù)庫技術(shù)和以SQLAzure為代表的云數(shù)據(jù)庫技術(shù),也將成為占據(jù)重要地位的數(shù)據(jù)管理創(chuàng)新平臺二、大數(shù)據(jù)的技術(shù)實現(xiàn)312012-2013中國IT技術(shù)趨勢大二、大數(shù)據(jù)的技術(shù)實現(xiàn)892012-2013中國IT技術(shù)趨勢大調(diào)查-商業(yè)智能的發(fā)展趨勢對于商業(yè)智能未來的趨勢預(yù)測,調(diào)查顯示排在前三位的是豐富的挖掘模型、實時的分析、精準(zhǔn)的特定目的分析。其后是社交網(wǎng)絡(luò)分析、云端服務(wù)和移動BI。由此看出人們期待商業(yè)智能應(yīng)用能夠在這些方面做出改變。以上趨勢不難看出,在大數(shù)據(jù)時代,人們把焦點放在那些能快速改變現(xiàn)狀的顛覆性技術(shù)上,大數(shù)據(jù)存儲與計算、數(shù)據(jù)挖掘與分析,以及商業(yè)智能等應(yīng)用將在未來大放異彩二、大數(shù)據(jù)的技術(shù)實現(xiàn)322012-2013中國IT技術(shù)趨勢大二、大數(shù)據(jù)時代的技術(shù)特點90大數(shù)據(jù)背景下IT解決方案變化特點二、大數(shù)據(jù)時代的技術(shù)特點33大數(shù)據(jù)背景下IT解決方案變化特點二、大數(shù)據(jù)的挑戰(zhàn)91大數(shù)據(jù)的角色和技能無論什么樣的IT技術(shù),說到底都是對人才的需求數(shù)據(jù)科學(xué)家行業(yè)知識分析技能商業(yè)智能專業(yè)人員Hadoop、.Net關(guān)系型數(shù)據(jù)庫業(yè)務(wù)分析BusinessAnalysts010101010101010101101010101010101001010101010101101010101010二、大數(shù)據(jù)的挑戰(zhàn)34大數(shù)據(jù)的角色和技能無論什么樣的IT技術(shù),二、大數(shù)據(jù)時代的算法92數(shù)據(jù)挖掘算法十大經(jīng)典算法說明其他八種算法說明1C4.5分類決策樹算法1FP-Tree關(guān)聯(lián)分析算法2K-Means聚類算法2HITS鏈接挖掘3SVM支持向量機3BIRCH聚類算法4Apriori布爾關(guān)聯(lián)規(guī)則算法4GSP序列模式算法5EM概率模型5PrefixSpan序列模式算法6PageRankGoogle專利算法6CBA關(guān)聯(lián)規(guī)則分類算法7Adaboost迭代算法7Findingreduct粗集類算法8KNNK最近鄰分類算法8gSpan頻繁子圖挖掘算法9NaiveBayes樸素貝葉斯模型10CART分類與回歸樹TheIEEEInternationalConferenceonDataMining(ICDM國際數(shù)據(jù)挖掘)2006年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法。其實參加評選的所有18種算法都是經(jīng)典算法,在數(shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠(yuǎn)的影響。二、大數(shù)據(jù)時代的算法35數(shù)據(jù)挖掘算法十大經(jīng)典算法說明其他八種二、大數(shù)據(jù)與云計算的關(guān)系93大數(shù)據(jù)與云計算是同一件事云計算模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)前端云是計算資源的調(diào)度,后端大數(shù)據(jù)是存儲和分析資源的調(diào)度數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算盤活數(shù)據(jù)資產(chǎn),使其為國家和企業(yè)決策、個人生活服務(wù),是大數(shù)據(jù)核心議題,也是云計算的最終方向三分虛擬化、七分分布式、十二分大數(shù)據(jù)二、大數(shù)據(jù)與云計算的關(guān)系36大數(shù)據(jù)與云計算是同一件事云計算模目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)用架構(gòu)和技術(shù)架構(gòu)94一、大數(shù)據(jù)的研究現(xiàn)狀目錄目錄二、大數(shù)據(jù)的技術(shù)實現(xiàn)三、大數(shù)據(jù)的熱點應(yīng)用四、大數(shù)據(jù)應(yīng)三、大數(shù)據(jù)的熱點應(yīng)用95Google案例前瞻來看,隨著互聯(lián)網(wǎng)對網(wǎng)民的理解,網(wǎng)民對網(wǎng)絡(luò)的反作用,互聯(lián)網(wǎng)將變得越來越智能。在滿足你需求的同時,也在創(chuàng)造新的需求。前者的代表是Google,后者的典型則是Facebook谷歌的盈利在于所有的軟件應(yīng)用都是在線的。用戶在免費使用這些產(chǎn)品的同時,把個人的行為、喜好等信息也免費地送給了Google。因此Google的產(chǎn)品線越豐富,他對用戶的理解就越深入,他的廣告就越精準(zhǔn)。廣告價值就越高這是正向的循環(huán),谷歌好用的、免費得軟件產(chǎn)品,換取對用戶的理解;通過精準(zhǔn)的廣告,找到生財之道。顛覆了賣軟件拷貝賺錢的模式。成為互聯(lián)網(wǎng)的巨擘互聯(lián)網(wǎng)越來越智能Google精確掌握用戶行為、獲取需求三、大數(shù)據(jù)的熱點應(yīng)用38Google案例前瞻來看,隨著互聯(lián)三、大數(shù)據(jù)的熱點應(yīng)用96Google案例2008年前,Google推出了一個單獨的小產(chǎn)品--流感疫情地圖,里面將從世界各國衛(wèi)生組織收集到的流感信息用可視化的方式呈現(xiàn)出來,這樣你在出差的時候,就知道是否應(yīng)該帶藥品了2010年后,當(dāng)H1N1病毒肆虐的時候,Google已經(jīng)能將患病高發(fā)區(qū)整合進(jìn)自己的地圖應(yīng)用三、大數(shù)據(jù)的熱點應(yīng)用39Google案例2008年前,Go三、大數(shù)據(jù)的熱點應(yīng)用97美國超過25個州的交通部使用大數(shù)據(jù)技術(shù)據(jù)Inrix官方網(wǎng)站介紹,這是一款致力于為全球交通問題帶來智能數(shù)據(jù)和先進(jìn)的分析方法的交通智能化平臺,截至2012年底已經(jīng)為全球32個國家的企業(yè)提供了服務(wù)Inrix利用安裝在公路上的數(shù)十萬個接受器每小時能收集數(shù)百萬條數(shù)據(jù),這些數(shù)據(jù)綜合起來后能為當(dāng)前甚至未來的交通狀況提供一個完整的模式圖,可以幫助政府建立綜合性立體的交通信息體系,更好地管理其轄區(qū)范圍內(nèi)路網(wǎng)的交通擁堵狀況,目前,這些賣給GPS生產(chǎn)商和各國的交通規(guī)劃部門的產(chǎn)品已經(jīng)成為了Inrix主要盈利的來源InrixDriveTime依靠的是Inrix交通智能平臺提供的實時交通信息,它能給購房顧客最精準(zhǔn)的購房數(shù)據(jù):實時交通信息每1分鐘更新一次,每90天就能分析和編譯成一個歷史數(shù)據(jù)庫在大風(fēng)暴襲擊后的三小時之內(nèi),交通部門必須清理國道路面,而INRIX交通速度數(shù)據(jù)技術(shù)和云分析可決定重建路面與交通狀況恢復(fù)的所需時間分析駕駛模式和道路對交通事故的相關(guān)性影響,與保險公司進(jìn)行數(shù)據(jù)合作三、大數(shù)據(jù)的熱點應(yīng)用40美國超過25個州的交通部使用大數(shù)據(jù)技三、大數(shù)據(jù)的熱點應(yīng)用98百度案例百度:依托搜索數(shù)據(jù)實現(xiàn)精準(zhǔn)營銷百度的數(shù)據(jù)以搜索數(shù)據(jù)為主。其對于數(shù)據(jù)的分析主要在于根據(jù)歷史搜索和瀏覽行為的周期和頻次,歷史點擊及訪問過的鏈接和頁面,以及當(dāng)下的搜索關(guān)鍵詞和瀏覽行為來推斷用戶的需求。其數(shù)據(jù)的特點在于數(shù)量龐大,類型較為單一,以及與網(wǎng)民當(dāng)下的需求較為貼近,比較前端。基于網(wǎng)民歷史搜索的周期和頻次興趣定向基于網(wǎng)民歷史瀏覽行為的周期和頻次基于搜索過指定關(guān)鍵詞的人群關(guān)鍵詞定向基于網(wǎng)民當(dāng)下的瀏覽行為基于點擊過企業(yè)搜索推廣鏈接到訪定向基于訪問過企業(yè)網(wǎng)站特定頁面地域定向基于網(wǎng)民的地域特征4.2億月度覆蓋人數(shù)517億月度瀏覽頁面183億月度搜索請求量2013.4數(shù)據(jù)來源:iUserTracker.家庭辦公版2013,6。基于對40萬名家庭及辦公(不含公共上網(wǎng)地點)樣本網(wǎng)絡(luò)行為的長期監(jiān)測數(shù)據(jù)獲得。三、大數(shù)據(jù)的熱點應(yīng)用41百度案例百度:依托搜索數(shù)據(jù)實現(xiàn)精準(zhǔn)營三、大數(shù)據(jù)的熱點應(yīng)用99百度案例數(shù)據(jù)解讀,2014年1月26日上午十點,在過去八小時內(nèi)最熱的遷入城市前三名是北京重慶和贛州,無論重慶和贛州,都是勞務(wù)輸出的重點地區(qū),排名前三理所應(yīng)當(dāng)。北京為什么位居遷入城市第一?點開北京的路線詳情就能看到,遷入北京的大部分是廊坊、天津、葫蘆島等地的人,只是把北京當(dāng)做一個交通中轉(zhuǎn)站而已。這也就是北京能在遷出城市和遷入城市都能名列第一的原因了鐵道部看完這個圖,希望他們知道下一步的高鐵線路應(yīng)該怎么鋪設(shè)三、大數(shù)據(jù)的熱點應(yīng)用42百度案例數(shù)據(jù)解讀,2014年1月26三、大數(shù)據(jù)的熱點應(yīng)用100阿里巴巴:多角度挖掘大數(shù)據(jù)價值,構(gòu)筑數(shù)據(jù)交易平臺阿里巴巴擁有的數(shù)據(jù)主要是交易數(shù)據(jù)以及信用數(shù)據(jù),其特點在于數(shù)據(jù)覆蓋了從瀏覽到購物到支付的整個行為鏈,對于電商營銷具有較強的針對性和指導(dǎo)性。阿里對于大數(shù)據(jù)的應(yīng)用在金融方面取得了良好的效果,在營銷方面也陸續(xù)推出數(shù)據(jù)魔方、淘寶指數(shù)、聚石塔等數(shù)據(jù)產(chǎn)品,從不同維度對數(shù)據(jù)進(jìn)行挖掘和分析,其最終目的在于建立起數(shù)據(jù)交易平臺DataExchange,使阿里成為數(shù)據(jù)集散中心。聚石塔是由阿里旗下天貓與萬網(wǎng)、阿里云聯(lián)合推出的商業(yè)數(shù)據(jù)云平臺,為天貓、淘寶平臺上的電商及電商服務(wù)商提供IT基礎(chǔ)設(shè)施和數(shù)據(jù)云服務(wù)。當(dāng)前,聚石塔主要提供彈性托管服務(wù)、數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)同步服務(wù)、數(shù)據(jù)集成服務(wù),以及云監(jiān)控服務(wù)等數(shù)據(jù)云服務(wù)。但阿里的野心在于通過聚石塔整合阿里旗下各個平臺的數(shù)據(jù)資源,匯集整個電商生態(tài)鏈所有環(huán)節(jié)的數(shù)據(jù)信息,最終將其打造成為數(shù)據(jù)交換平臺,實現(xiàn)阿里生態(tài)系統(tǒng)內(nèi)各個服務(wù)商的數(shù)據(jù)互通和交換。淘寶指數(shù)是淘寶推出的免費消費者數(shù)據(jù)研究平臺。其數(shù)據(jù)來源為用戶在淘寶網(wǎng)、天貓上的搜索行為以及淘寶網(wǎng)、天貓的后臺成交明細(xì)數(shù)據(jù)。淘寶指數(shù)提供市場趨勢分析(包括搜索詞的搜索、成交趨勢,及其人群特征)、市場細(xì)分分析(包括搜索詞的類目分布,近一個月成交人群的特征,以及特定人群的購物偏好),以及類目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 落實發(fā)文會簽制度
- 2026中冶堃元(重慶)金屬材料研究院有限公司招聘40人備考考試試題附答案解析
- 2026浙江溫州市平陽縣順溪鎮(zhèn)招聘編外人員1人參考考試試題附答案解析
- 第8章 拓展:管理主義的復(fù)歸與政策科學(xué)的興起
- 2026年度威海經(jīng)濟技術(shù)開發(fā)區(qū)鎮(zhèn)街所屬事業(yè)單位公開招聘初級綜合類崗位人員(15人)參考考試試題附答案解析
- 2026重慶飛駛特人力資源管理有限公司外派至中鐵建重慶石化銷售有限公司廚師崗招聘1人參考考試題庫附答案解析
- 2026陜西西安交通大學(xué)聚變科學(xué)與技術(shù)聯(lián)合研究院科研助理招聘1人備考考試試題附答案解析
- 2026麗水職業(yè)技術(shù)學(xué)院招聘專業(yè)技術(shù)人員19人(一)備考考試試題附答案解析
- 2026廣東深圳市何香凝美術(shù)館應(yīng)屆高校畢業(yè)生招聘1人備考考試試題附答案解析
- 2026中鐵西北科學(xué)研究院有限公司招聘隧道超前地質(zhì)預(yù)報巖土工程設(shè)計人員參考考試題庫附答案解析
- 2025年海管水平定向鉆穿越方案研究
- 全國網(wǎng)絡(luò)安全行業(yè)職業(yè)技能大賽(網(wǎng)絡(luò)安全管理員)考試題及答案
- 攝影家協(xié)會作品評選打分細(xì)則
- 電子產(chǎn)品三維建模設(shè)計細(xì)則
- 2025年中國道路交通毫米波雷達(dá)市場研究報告
- 設(shè)計交付:10kV及以下配網(wǎng)工程的標(biāo)準(zhǔn)與實踐
- 大學(xué)高數(shù)基礎(chǔ)講解課件
- hop安全培訓(xùn)課件
- 固井質(zhì)量監(jiān)督制度
- 中華人民共和國職業(yè)分類大典是(專業(yè)職業(yè)分類明細(xì))
- 2025年中考英語復(fù)習(xí)必背1600課標(biāo)詞匯(30天記背)
評論
0/150
提交評論