交通基礎(chǔ)設(shè)施智能化基礎(chǔ)課件 第三章 大數(shù)據(jù)概述_第1頁
交通基礎(chǔ)設(shè)施智能化基礎(chǔ)課件 第三章 大數(shù)據(jù)概述_第2頁
交通基礎(chǔ)設(shè)施智能化基礎(chǔ)課件 第三章 大數(shù)據(jù)概述_第3頁
交通基礎(chǔ)設(shè)施智能化基礎(chǔ)課件 第三章 大數(shù)據(jù)概述_第4頁
交通基礎(chǔ)設(shè)施智能化基礎(chǔ)課件 第三章 大數(shù)據(jù)概述_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章大數(shù)據(jù)概述本章重點(diǎn)大數(shù)據(jù)基本概念大數(shù)據(jù)的發(fā)展與意義大數(shù)據(jù)應(yīng)用大數(shù)據(jù)關(guān)鍵技術(shù)本章重點(diǎn)大數(shù)據(jù)基本概念大數(shù)據(jù)的發(fā)展與意義大數(shù)據(jù)應(yīng)用大數(shù)據(jù)關(guān)鍵技術(shù)什么是“大數(shù)據(jù)”

大數(shù)據(jù)概念形成的標(biāo)志性事件《科學(xué)》(Science)雜志??狣ealingwithdata第一次綜合分析了大數(shù)據(jù)對(duì)人們生活的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”麥肯錫研究院發(fā)布報(bào)告《BigData:Thenextfrontierforinnovation,competition,andproductivity》,第一次清晰地定義了大數(shù)據(jù)2008.092011.022011.05

大數(shù)據(jù)是指大小超過經(jīng)典數(shù)據(jù)庫系統(tǒng)收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集,是基于經(jīng)典數(shù)據(jù)庫的處理能力進(jìn)行的定義。

大數(shù)據(jù)是規(guī)模龐大,結(jié)構(gòu)復(fù)雜,難以通過現(xiàn)有商業(yè)工具和技術(shù)在可容忍的時(shí)間內(nèi)獲取、管理和處理的數(shù)據(jù)集。

大數(shù)據(jù)是具有規(guī)模巨大、種類繁多、增長(zhǎng)速度快和變化頻繁的特征,且需要一個(gè)可擴(kuò)展體系結(jié)構(gòu)來有效存儲(chǔ)、處理和分析的廣泛的數(shù)據(jù)集。

給出了大數(shù)據(jù)“4V特征”的定義強(qiáng)調(diào)了大數(shù)據(jù)的數(shù)量、多樣性、速度和真實(shí)性等方面,后來也引進(jìn)數(shù)據(jù)價(jià)值,成為大數(shù)據(jù)的“5V特性”。美國(guó)《自然》(Nature)雜志??猅heNextGoogle第一次正式提出“大數(shù)據(jù)”概念大數(shù)據(jù)基本概念大數(shù)據(jù)(BigData):是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新的處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?;ヂ?lián)網(wǎng)每天產(chǎn)生的全部?jī)?nèi)容可以刻滿6.4億張DVD網(wǎng)民每天在Facbook上要花費(fèi)234億分鐘,所產(chǎn)生的數(shù)據(jù)量高達(dá)44PB每天會(huì)有2.88萬小時(shí)的視頻上傳到Y(jié)ouTube,夠一個(gè)人晝夜不停地看3.3年Google每天要處理24PB的數(shù)據(jù)全球每秒發(fā)送290萬封電子郵件,以1篇/min的速度夠一個(gè)人晝夜不停地讀5.5年Twitter上每天發(fā)布5000萬條消息,以10s/條的速度夠一個(gè)人晝夜不停地瀏覽16年世界每天產(chǎn)生大數(shù)據(jù)大數(shù)據(jù)基本概念大數(shù)據(jù)(BigData):是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新的處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。符號(hào)名稱容量符號(hào)名稱容量B字節(jié)8BitPB拍字節(jié)1024TBKB千字節(jié)1024BEB艾字節(jié)1024PBMB兆字節(jié)1024KBZB澤字節(jié)1024EBGB吉字節(jié)1024MBYB堯字節(jié)1024ZBTB太字節(jié)1024GBBB-1024YB大數(shù)據(jù)分類按數(shù)據(jù)來源分機(jī)器產(chǎn)生的數(shù)據(jù)人類活動(dòng)產(chǎn)生的數(shù)據(jù)按數(shù)據(jù)格式分結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)感知設(shè)備、計(jì)算機(jī)等網(wǎng)絡(luò)日志、聊天記錄等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫等XML、HTML類,自描述,數(shù)據(jù)結(jié)構(gòu)與內(nèi)容混雜的數(shù)據(jù)文檔、圖片、視頻、音頻等數(shù)據(jù)的計(jì)量單位大數(shù)據(jù)發(fā)展歷程萌芽期成熟期大規(guī)模應(yīng)用

上世紀(jì)90年代至本世紀(jì)初2010年以后

大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高。本世紀(jì)前十年

Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對(duì),帶動(dòng)大數(shù)據(jù)技術(shù)走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù)。隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。大數(shù)據(jù)的基本特征Veracity數(shù)據(jù)體量大5V

特征VolumeVelocityValueVariety真實(shí)有效性傳輸速度快數(shù)據(jù)種類多潛在價(jià)值高采集量大存儲(chǔ)量大計(jì)算量大增長(zhǎng)速度快處理速度快時(shí)效性要求高來源廣維度多類型雜隱含知識(shí)價(jià)值高但價(jià)值密度低需要數(shù)據(jù)挖掘本章重點(diǎn)大數(shù)據(jù)基本概念大數(shù)據(jù)的發(fā)展與意義大數(shù)據(jù)應(yīng)用大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)的發(fā)展動(dòng)力需求的驅(qū)動(dòng)數(shù)據(jù)量劇增儲(chǔ)存成本下降運(yùn)行計(jì)算能力提高人工智能發(fā)展新經(jīng)濟(jì)時(shí)代...需求數(shù)據(jù)資源數(shù)據(jù)處理和存儲(chǔ)使機(jī)器理解數(shù)據(jù)數(shù)據(jù)資源分析應(yīng)用數(shù)據(jù)來源計(jì)算方法應(yīng)用空間“用數(shù)據(jù)說話”,“讓數(shù)據(jù)發(fā)聲”已然成為一種新的方法論(一)大數(shù)據(jù)成為推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力(二)大數(shù)據(jù)成為重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇(三)大數(shù)據(jù)成為提升政府治理能力的新途徑2015年9月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》系統(tǒng)部署大數(shù)據(jù)發(fā)展工作,指出數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,要堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用。同時(shí),也指出大數(shù)據(jù)的發(fā)展形勢(shì)和重要意義。以國(guó)家戰(zhàn)略應(yīng)對(duì)大數(shù)據(jù)時(shí)代大數(shù)據(jù)的發(fā)展動(dòng)力國(guó)家的發(fā)展戰(zhàn)略大數(shù)據(jù)的價(jià)值核心價(jià)值在各應(yīng)用領(lǐng)域價(jià)值1發(fā)現(xiàn)客戶需求規(guī)律2解釋現(xiàn)象發(fā)生原因3預(yù)測(cè)未來發(fā)展態(tài)勢(shì)4提高科學(xué)決策水平5優(yōu)化社會(huì)資源配置,激發(fā)商業(yè)模式創(chuàng)新天氣實(shí)時(shí)預(yù)測(cè)醫(yī)療精準(zhǔn)診斷改善生物基因量化農(nóng)牧生產(chǎn)優(yōu)化商業(yè)布局了解社會(huì)輿論改進(jìn)社會(huì)服務(wù)...大數(shù)據(jù)的發(fā)展趨勢(shì)大數(shù)據(jù)發(fā)展趨勢(shì)可總結(jié)為“融合、跨界、基礎(chǔ)、突破”。1.大力發(fā)展跨學(xué)科、跨領(lǐng)域交叉的數(shù)據(jù)分析應(yīng)用;2.建立系統(tǒng)全面的大數(shù)據(jù)治理體系,如隱私保護(hù)、數(shù)據(jù)安全與共享管理機(jī)制等3.以開源為基礎(chǔ)構(gòu)建自主可控的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)4.積極推動(dòng)國(guó)際合作并籌劃布局跨國(guó)數(shù)據(jù)共享機(jī)制互聯(lián)網(wǎng)+物聯(lián)網(wǎng)通信網(wǎng)車聯(lián)網(wǎng)電視網(wǎng)連接泛在化......計(jì)算多元化機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘流式計(jì)算批量計(jì)算量子計(jì)算......數(shù)據(jù)產(chǎn)業(yè)化工業(yè)大數(shù)據(jù)政府大數(shù)據(jù)商業(yè)大數(shù)據(jù)教育大數(shù)據(jù)科學(xué)大數(shù)據(jù)......應(yīng)用智能化智慧城市智能家居智能制造智慧醫(yī)療智慧交通......創(chuàng)新生態(tài)化跨界融合創(chuàng)新產(chǎn)業(yè)協(xié)同創(chuàng)新技術(shù)集成創(chuàng)新......本章重點(diǎn)大數(shù)據(jù)基本概念大數(shù)據(jù)的發(fā)展與意義大數(shù)據(jù)應(yīng)用大數(shù)據(jù)關(guān)鍵技術(shù)數(shù)據(jù)采集從現(xiàn)實(shí)世界中采集的(非)結(jié)構(gòu)化海量數(shù)據(jù),對(duì)其進(jìn)行清洗、過濾、校驗(yàn)、轉(zhuǎn)換、集成,最后輸入到數(shù)據(jù)倉庫或數(shù)據(jù)集市數(shù)據(jù)存儲(chǔ)與管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的讀取、分類、編碼、存儲(chǔ)、索引和查詢數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理與分析數(shù)據(jù)可視化與應(yīng)用基于海量數(shù)據(jù)建立多維可視化圖形,并進(jìn)行交互處理與應(yīng)用,深入洞察海量數(shù)據(jù)中隱藏的關(guān)鍵信息和規(guī)律大數(shù)據(jù)的關(guān)鍵技術(shù)大數(shù)據(jù)采集大數(shù)據(jù)采集與預(yù)處理是獲取有效數(shù)據(jù)的重要途徑,也是大數(shù)據(jù)應(yīng)用的重要支撐。數(shù)據(jù)采集方法采集物理世界信息的傳感器采集設(shè)備運(yùn)行狀態(tài)的日志文件采集互聯(lián)網(wǎng)信息的網(wǎng)絡(luò)爬蟲外包和眾包系統(tǒng)日志狀態(tài)用戶交互行為診斷系統(tǒng)錯(cuò)誤發(fā)現(xiàn)用戶偏好優(yōu)化運(yùn)行效率WEB初始化URL下載網(wǎng)頁網(wǎng)頁URL初始URL待訪問URL已訪問URL數(shù)據(jù)庫數(shù)據(jù)采集工具ChukwaFlumeScribleKafkaCrowdsourcing-眾包

一大群不固定的志愿者參與

Outsouring-外包

已知的雇員大數(shù)據(jù)管理Hadoop系統(tǒng)由Apache基金會(huì)所開發(fā)的,一種利用集群的方式進(jìn)行高效數(shù)據(jù)存儲(chǔ)、處理的一種分布式系統(tǒng)基礎(chǔ)框架。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)處理與分析數(shù)據(jù)應(yīng)用Hadoop核心分布式存儲(chǔ)HDFS分布式處理MapReduceHDFS分布式文件系統(tǒng)MapReduce分布式計(jì)算框架Hive數(shù)據(jù)倉庫Pig數(shù)據(jù)流處理Mahout數(shù)據(jù)挖掘庫Ambari(安裝、部署、配置和管理工具)Zookeeper分布式協(xié)作服務(wù)HBase實(shí)時(shí)分布數(shù)據(jù)庫SqoopETL工具Flume日志收集大數(shù)據(jù)管理分布式文件系統(tǒng)(DistributedFileSystem,DFS)文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)(可簡(jiǎn)單的理解為一臺(tái)計(jì)算機(jī))相連;或是若干不同的邏輯磁盤分區(qū)或卷標(biāo)組合在一起而形成的完整的有層次的文件系統(tǒng)。網(wǎng)絡(luò)文件系統(tǒng)NetworkFileSystem,NFS通用并行文件系統(tǒng)GeneralParallelFileSystem,GPFSGoogle文件系統(tǒng)GoogleFileSystem,GFSHadoop分布式文件系統(tǒng)HadoopDistributedFileSystem,HDFS

HDFS特性:主從體系結(jié)構(gòu)支持大文件儲(chǔ)存容錯(cuò)能力強(qiáng)分塊并行性流式數(shù)據(jù)訪問可擴(kuò)展性一致模型大數(shù)據(jù)管理HDFS分布式文件系統(tǒng)被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng),適合部署在廉價(jià)的機(jī)器上及超大數(shù)據(jù)集的應(yīng)用程序,以提供高吞吐量訪問應(yīng)用程序的數(shù)據(jù)。

HDFS架構(gòu)大數(shù)據(jù)管理關(guān)系數(shù)據(jù)庫一種基于關(guān)系模型的數(shù)據(jù)庫,常以行和列的二維表形式存儲(chǔ)數(shù)據(jù),具有易于讀取、結(jié)構(gòu)性好、獨(dú)立性高、共享性好、冗余度小等特點(diǎn)。NoSQL數(shù)據(jù)庫泛指非關(guān)系型的數(shù)據(jù)庫,具有高擴(kuò)展性、高讀寫性能、數(shù)據(jù)模型靈活及較好的容災(zāi)能力。關(guān)系數(shù)據(jù)庫NoSQL鍵值數(shù)據(jù)庫圖數(shù)據(jù)庫文檔數(shù)據(jù)庫CouchDBMongoDBRavenDBCouchbaseCloudant列式數(shù)據(jù)庫BigTableHypertableHBaseCassandraRiakRedisBekeleyDBMembrainVoldemortInfinitedGraphNeo4JGraphDBOrientDBOldSQLTeradataNetezzaParAccelEMCCalpontSOLServerMySQLOracleIBMInfoSphere云數(shù)據(jù)庫DatastoreAPPEngineSimpleDBNewSQLHandlerSocketMySQLClustrixAmazonRDSSQLAzureFathomDBXeroundDAkibanScaleBaseCodeFuturesSchoonerMySQL大數(shù)據(jù)分析大數(shù)據(jù)分析包括描述性分析、預(yù)測(cè)性分析和規(guī)范性分析。大數(shù)據(jù)計(jì)算模式包括批處理計(jì)算流計(jì)算圖計(jì)算查詢分析計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量、離線處理針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理針對(duì)大規(guī)模數(shù)據(jù)的儲(chǔ)存管理與查詢分析圖、表、數(shù)值等描述性分析預(yù)測(cè)未來事件發(fā)展趨勢(shì)提供具體的應(yīng)對(duì)措施MapReduce工作原理圖大數(shù)據(jù)分析批量計(jì)算系統(tǒng)

一種面向大規(guī)模數(shù)據(jù)集(>1TB)并行處理的計(jì)算模型,具有可靠性、可擴(kuò)展性、高容錯(cuò)等特點(diǎn),適用于大規(guī)模、離線的算法圖形處理、文字處理。數(shù)據(jù)切片Map計(jì)算產(chǎn)生中間結(jié)果Reduce計(jì)算產(chǎn)生最終結(jié)果數(shù)據(jù)應(yīng)用中間結(jié)果交換大數(shù)據(jù)分析流式計(jì)算系統(tǒng)

一種針對(duì)具有實(shí)時(shí)性、易失性、突發(fā)性、無序性、無限性等特征的數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理及反饋的計(jì)算模型,適用于對(duì)信息時(shí)效性要求較高的場(chǎng)景。常見流式框架包括Storm,SparkStreaming,S4,Samza,Flink,Timestream。Storm基本概念:計(jì)算流程:大數(shù)據(jù)分析數(shù)據(jù)挖掘

從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,通常被視為數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryInDatabase,KDD),后者包括從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理等一系列過程。數(shù)據(jù)輸入數(shù)據(jù)預(yù)處理結(jié)果分析展示數(shù)據(jù)挖掘?qū)嵤┻^程數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘算法:神經(jīng)網(wǎng)絡(luò)法分類決策樹法遺傳算法粗糙算法模糊算法關(guān)聯(lián)規(guī)則法大數(shù)據(jù)可視化運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將大型數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換為圖形或圖像顯示,并進(jìn)行交互處理的理論、方法和技術(shù)。文本可視化時(shí)空數(shù)據(jù)可視化網(wǎng)絡(luò)數(shù)據(jù)可視化高維數(shù)據(jù)可視化層次化數(shù)據(jù)可視化本章重點(diǎn)大數(shù)據(jù)基本概念大數(shù)據(jù)的發(fā)展與意義大數(shù)據(jù)應(yīng)用大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論