版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)基本概念與行業(yè)發(fā)展當前1頁,總共41頁。大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展當前2頁,總共41頁?;跉v史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同球員特點,合理搭配,重新組隊;打破傳統(tǒng)思維,通過分析比賽數(shù)據(jù),尋找“性價比”最高球員,運用數(shù)據(jù)取得成功;布拉德?皮特主演的《點球成金》是一部美國奧斯卡獲獎影片,所講述的是皮特扮演的棒球隊總經(jīng)理利用計算機數(shù)據(jù)分析,對球隊進行了翻天覆地的改造,讓一家不起眼的小球隊能夠取得巨大的成功。電影《點球成金》當前3頁,總共41頁。僅供開采162年僅供開采45年僅供開采60年2013年,10分鐘的信息總量將達1.8ZB2010年全球數(shù)據(jù)總量1.2ZB,年增長50%數(shù)據(jù)不再是社會生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大價值,它變成了生產(chǎn)資料。不可再生資源VS數(shù)據(jù)2020年全球數(shù)據(jù)總量將達到40ZB當前4頁,總共41頁。數(shù)據(jù)爆炸式增長(每分鐘……)Twitter上發(fā)布98000+新微博13000+個iPhone應(yīng)用下載Skype上37萬+分鐘的語音通話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個新訂單12306出票1840+張當前5頁,總共41頁。傳統(tǒng)處理方式所無法解決的挑戰(zhàn)12345挑戰(zhàn)數(shù)據(jù)體量越來越大非結(jié)構(gòu)半結(jié)構(gòu)混雜處理速度要求越來越快數(shù)據(jù)應(yīng)用模式創(chuàng)新更豐富的視覺元素當前6頁,總共41頁。需要性價比更高的儲存方式數(shù)據(jù)庫數(shù)據(jù)倉庫當前7頁,總共41頁。85%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile
需要不同的數(shù)據(jù)管理策略當我們想要擴充時,才發(fā)覺:架構(gòu)只能scale-up,scale-out不易處理時間過長,time-to-value受限成本過高,cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺當前8頁,總共41頁。需要更高效的計算方式規(guī)模時間傳統(tǒng)大數(shù)據(jù)當前9頁,總共41頁。什么是大數(shù)據(jù)?維基百科:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)就是“未來的新石油”當前10頁,總共41頁。容量Volume多樣Variety價值Value速度Velocity數(shù)據(jù)體量巨大。從TB級別,躍升到PB級以上。數(shù)據(jù)類型繁多。日志、視頻、圖片、GIS等。秒級定律。一般要求在秒級內(nèi)給出分析結(jié)果。利用低價值密度數(shù)據(jù),可以帶來高價值回報。大數(shù)據(jù)的“4V”特征當前11頁,總共41頁。更多的“V”可變性Variability真實性Veracity可視化Visualization數(shù)據(jù)的含義總是在快速變化的。要考慮具體的上下文。確保數(shù)據(jù)的真實性,才能保證數(shù)據(jù)分析的正確性。只有正確的可視化,原始數(shù)據(jù)才可被投入使用。當前12頁,總共41頁。大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展當前13頁,總共41頁。數(shù)據(jù)概述在人類發(fā)展歷程中,數(shù)據(jù)表現(xiàn)方式分為兩類:模擬數(shù)據(jù)(聲音,文件,圖像,視頻)數(shù)字數(shù)據(jù)(文字,符號)自從計算機發(fā)明以來,數(shù)據(jù)在計算機中都是以二進制0和1的形式進行保存。鑒于對數(shù)據(jù)的分類管理需要,隨之而來各種各種的數(shù)據(jù)管理軟件應(yīng)運而生。當前14頁,總共41頁。當前15頁,總共41頁。數(shù)據(jù)倉庫NoSQLNewSQL關(guān)系型數(shù)據(jù)庫集群化大數(shù)據(jù)數(shù)據(jù)發(fā)展的五個階段當前16頁,總共41頁。第一階段關(guān)系型數(shù)據(jù)庫當前17頁,總共41頁。第二階段數(shù)據(jù)倉庫DW-DataWarehouse面向主題數(shù)據(jù)是按照一定的主題域進行組織,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。集成的必須保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。相對穩(wěn)定某個數(shù)據(jù)進入數(shù)據(jù)倉庫之后,一般情況下將被長期保留,修改和刪除操作很少。反映歷史變化倉庫中的數(shù)據(jù)通常包含歷史信息,反映過去某一時點到目前的各個階段的信息。用于支持管理決策當前18頁,總共41頁。當前19頁,總共41頁。ETLBI當前20頁,總共41頁。第三階段NoSQL、NewSQL事務(wù)分析互聯(lián)網(wǎng)OldSQL大數(shù)據(jù)時代架構(gòu)多元化NewSQL分析OldSQL事務(wù)NoSQL互聯(lián)網(wǎng)當前21頁,總共41頁。鍵值存儲數(shù)據(jù)庫NoSQL互聯(lián)網(wǎng)列式存儲數(shù)據(jù)庫文檔存儲數(shù)據(jù)庫圖像存儲數(shù)據(jù)庫文件存儲數(shù)據(jù)庫消息隊列系統(tǒng)當前22頁,總共41頁。NewSQL分析當前23頁,總共41頁。第四階段集群化高可用通常采用Master-Slave或者P2P模式,保障數(shù)據(jù)的災(zāi)備。分片將大規(guī)模數(shù)據(jù)按照一定規(guī)則拆分,不同的分片存儲在不同的結(jié)點。復(fù)制數(shù)據(jù)通常會在集群的多個結(jié)點中留存多個數(shù)據(jù)副本,以保證可靠?;旌蠎?yīng)用不同的業(yè)務(wù)場景,會混合使用多種不同的數(shù)據(jù)存儲系統(tǒng)。當前24頁,總共41頁。服務(wù)器1分片處理前分片處理后片服務(wù)器1片服務(wù)器2片服務(wù)器3當前25頁,總共41頁。服務(wù)器1復(fù)制前復(fù)制后服務(wù)器1服務(wù)器2服務(wù)器3主從復(fù)制or對等復(fù)制當前26頁,總共41頁。第五階段大數(shù)據(jù)讓大象跳舞當前27頁,總共41頁。Hadoop2.0生態(tài)當前28頁,總共41頁。流式計算框架當前29頁,總共41頁。搜索引擎框架當前30頁,總共41頁。某政務(wù)大數(shù)據(jù)項目架構(gòu)當前31頁,總共41頁。大數(shù)據(jù)的起源12數(shù)據(jù)發(fā)展簡史3國內(nèi)行業(yè)發(fā)展當前32頁,總共41頁。大數(shù)據(jù)是如何成為網(wǎng)紅的?2005年2008年2011年2015年2016年2012年2014年第一款商用Hadoop項目誕生在美國發(fā)表第一個關(guān)于大數(shù)據(jù)的白皮書國家工信部發(fā)布物聯(lián)網(wǎng)十二五規(guī)劃成為世界經(jīng)濟論壇重要主題之一在我國政府報告中大數(shù)據(jù)首次出現(xiàn)國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》大數(shù)據(jù)“十三五”規(guī)劃出臺當前33頁,總共41頁。我國大數(shù)據(jù)的發(fā)展階段時間探索起步期快速推進器規(guī)模發(fā)展期產(chǎn)業(yè)消化期應(yīng)用成熟期市場認可度1)大數(shù)據(jù)產(chǎn)業(yè)在中國出現(xiàn),并逐步受到關(guān)注,互聯(lián)網(wǎng)企業(yè)率先將應(yīng)用落地2)2015年我國提出《大數(shù)據(jù)發(fā)展行動綱要》大力支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,并于2016年提升為國家戰(zhàn)略3)大數(shù)據(jù)概念廣泛普及,企業(yè)用戶不斷提升,資本市場高度關(guān)注,大數(shù)據(jù)企業(yè)規(guī)?;l(fā)展4)大數(shù)據(jù)市場相對成熟,市場熱度逐漸消化,大數(shù)據(jù)企業(yè)整合5)行業(yè)標準建立、監(jiān)管規(guī)范完善,被廣泛應(yīng)用,行業(yè)將趨于穩(wěn)定發(fā)展當前34頁,總共41頁。我國大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模2017年我國大數(shù)據(jù)市場規(guī)模已達358億元,年增速達到47.3%。預(yù)計2020年,我國大數(shù)據(jù)市場規(guī)模將達到731億元。當前35頁,總共41頁。我國大數(shù)據(jù)主要應(yīng)用領(lǐng)域市場吸引力應(yīng)用成熟度教育物流電信交通醫(yī)療政府公共服務(wù)金融電子商務(wù)當前36頁,總共41頁。我國大數(shù)據(jù)區(qū)域分布京津冀地區(qū)依托北京,培育了一大批大數(shù)據(jù)企業(yè),是目前我國大數(shù)據(jù)企業(yè)集聚最多的地方。珠三角地區(qū)依托廣州和深圳兩個國家超級計算中心的集聚作用,在騰訊、華為、中興等一批骨干企業(yè)的帶動下,逐漸形成了大數(shù)據(jù)集聚發(fā)展的趨勢。長三角地區(qū)依托上海、杭州、南京,吸引了大批大數(shù)據(jù)企業(yè),上海發(fā)布《上海推進大數(shù)據(jù)研究與發(fā)展三年行動計劃》,推動大數(shù)據(jù)在城市管理和民生服務(wù)領(lǐng)域應(yīng)用。大西南地區(qū)以貴州、重慶為代表城市,通過積極吸引國內(nèi)外龍頭骨干企業(yè),實現(xiàn)大數(shù)據(jù)產(chǎn)業(yè)在當?shù)氐目焖侔l(fā)展。當前37頁,總共41頁?;A(chǔ)資源/云平臺數(shù)據(jù)存儲數(shù)據(jù)采集數(shù)據(jù)處理數(shù)據(jù)分析展示應(yīng)用管理工具實時接入、海量堆積多種結(jié)構(gòu)、海量存儲離線統(tǒng)計、實時計算數(shù)據(jù)倉庫、機器學(xué)習(xí)圖形、報表等工具庫高可用、高性能集群數(shù)據(jù)安全大數(shù)據(jù)的一般利用過程(生命周期)當前38頁,總共41頁。大數(shù)據(jù)產(chǎn)業(yè)鏈及細分領(lǐng)域數(shù)據(jù)采集基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)分子生物學(xué)(基因表達調(diào)控)試題及答案
- 2025年大學(xué)本科(工商管理)企業(yè)管理案例分析階段測試題及答案
- 2025年高職城市軌道交通通信信號技術(shù)(城市軌道交通信號系統(tǒng))試題及答案
- 2025年高職化工儀表技術(shù)(化工儀表校準)試題及答案
- 2025年中職人工智能技術(shù)應(yīng)用(AI技術(shù)基礎(chǔ)原理)試題及答案
- 2025年大學(xué)大四(林產(chǎn)化工)林產(chǎn)精細化學(xué)品工藝學(xué)階段測試試題及答案
- 2025年高職(工商企業(yè)管理)企業(yè)管理試題及答案
- 2025年大學(xué)舞蹈學(xué)(舞蹈教育心理學(xué))試題及答案
- 2025年高職(助產(chǎn))婦科護理綜合測試題及答案
- 2025年高職(建設(shè)工程監(jiān)理)建設(shè)工程合同管理試題及答案
- 漢字魚的講解課件
- 內(nèi)蒙古電力招聘考試真題2024
- 知道智慧樹知識產(chǎn)權(quán)信息檢索與利用滿分測試答案
- 火電廠消防知識培訓(xùn)課件
- 醫(yī)院三合理一規(guī)范培訓(xùn)
- 解讀《重癥監(jiān)護病房臨終關(guān)懷與姑息治療指南》
- 關(guān)鍵物料管理辦法
- 禁毒講師團管理辦法
- 《室內(nèi)空氣 第9部分:建材產(chǎn)品和裝飾材料中揮發(fā)性有機化合物釋放量的測試 環(huán)境測試艙法》標準化發(fā)展報告
- 《2025-2026中國房地產(chǎn)市場報告》
- 校園安全教育論文3000字
評論
0/150
提交評論