版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行業(yè)大數(shù)據(jù)部署思路淺析大數(shù)據(jù)的特點(diǎn)理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用什么是大大數(shù)據(jù)??海量數(shù)據(jù)據(jù)本身+處理方法法*大數(shù)據(jù)的的4V特征體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效*1、密不可可分的大大數(shù)據(jù)與與云計(jì)算算商業(yè)模式式驅(qū)動(dòng)應(yīng)用需求求驅(qū)動(dòng)云計(jì)算本本身也是是大數(shù)據(jù)據(jù)的一種種業(yè)務(wù)模模式大數(shù)據(jù)是是落地的的云云計(jì)算的的模式是是業(yè)務(wù)模模式,本本質(zhì)是數(shù)數(shù)據(jù)處理理技術(shù)。。數(shù)據(jù)是資資產(chǎn),云云為數(shù)據(jù)據(jù)資產(chǎn)提提供存儲(chǔ)儲(chǔ)、訪問問和計(jì)算算。當(dāng)前云計(jì)計(jì)算更偏偏重海量量存儲(chǔ)和和計(jì)算,,以及提提供的云云服務(wù),,運(yùn)行云云應(yīng)用,,但是缺缺乏盤活活數(shù)據(jù)資資產(chǎn)的能能力,挖挖掘價(jià)值值性信息息和預(yù)測測性分析析,為國國家、企企業(yè)、個(gè)個(gè)人提供供決策和和服務(wù),,是大數(shù)數(shù)據(jù)核心心議題,,也是云云計(jì)算的的最終方方向。*2、大數(shù)據(jù)據(jù)不僅僅僅是“大大”多大?至少PB級比大更重重要的是是數(shù)據(jù)的的復(fù)雜性性,有時(shí)時(shí)甚至大大數(shù)據(jù)中中的小數(shù)數(shù)據(jù)如一一條微博博就具有有顛覆性性的價(jià)值值*4、大數(shù)據(jù)據(jù)的應(yīng)用用不僅僅僅是精準(zhǔn)準(zhǔn)營銷通過用戶戶行為分分析實(shí)現(xiàn)現(xiàn)精準(zhǔn)營營銷是大大數(shù)據(jù)的的典型應(yīng)應(yīng)用,但但是大數(shù)數(shù)據(jù)在各各行各業(yè)業(yè)特別是是公共服服務(wù)領(lǐng)域域具有廣廣闊的應(yīng)應(yīng)用前景景消費(fèi)行業(yè)業(yè)金融服務(wù)務(wù)食品安全全醫(yī)療衛(wèi)生生軍事交通環(huán)保保電子商務(wù)務(wù)氣象*5、管理大大數(shù)據(jù)““易”理理解大數(shù)數(shù)據(jù)“難難”雖然大數(shù)數(shù)據(jù)是一一個(gè)重大大問題,,真正的的問題是是讓大數(shù)數(shù)據(jù)更有有意義目前大數(shù)數(shù)據(jù)管理理多從架架構(gòu)和并并行等方方面考慮慮,解決決高并發(fā)發(fā)數(shù)據(jù)存存取的性性能要求求及數(shù)據(jù)據(jù)存儲(chǔ)的的橫向擴(kuò)擴(kuò)展,但但對非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)的內(nèi)內(nèi)容理解解仍缺乏乏實(shí)質(zhì)性性的突破破和進(jìn)展展,這是是實(shí)現(xiàn)大大數(shù)據(jù)資資源化、、知識化化、普適適化的核核心非結(jié)構(gòu)化化海量信信息的智智能化處處理:自自然語言言理解、、多媒體體內(nèi)容理理解、機(jī)機(jī)器學(xué)習(xí)習(xí)等挖掘內(nèi)部部需求經(jīng)過大數(shù)數(shù)據(jù)改造造的IT不再是一一個(gè)冷冰冰冰的系系統(tǒng),而而變成了了推動(dòng)業(yè)業(yè)務(wù)發(fā)展展,挖掘掘客戶內(nèi)內(nèi)心需求求的真正正推動(dòng)劑劑;大數(shù)數(shù)據(jù)將催催生更多多的應(yīng)用用領(lǐng)域需需求。數(shù)據(jù)源內(nèi)部結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)外部其他他渠道網(wǎng)絡(luò)/應(yīng)用日日志EDW(內(nèi)外部部結(jié)構(gòu)化化數(shù)據(jù)))用戶基本本信息數(shù)據(jù)庫Hadoop(內(nèi)外部部非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù))Hadoop/GPFSClusterMapReduce&Analytics網(wǎng)絡(luò)日志志分析內(nèi)容分析析交互數(shù)據(jù)據(jù)分析個(gè)體分析析用戶購買買記錄數(shù)數(shù)據(jù)庫用戶維修修記錄數(shù)數(shù)據(jù)庫內(nèi)部非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)社會(huì)化媒體數(shù)據(jù)生產(chǎn)、銷售、服務(wù)、售后數(shù)據(jù)數(shù)據(jù)應(yīng)用用倉庫用戶在線線瀏覽據(jù)據(jù)庫用戶安裝裝配送數(shù)數(shù)據(jù)庫。。。。。。其他數(shù)據(jù)據(jù)集清洗整合用戶數(shù)據(jù)清洗整合規(guī)則確定ETLDQ數(shù)據(jù)清洗、整合、轉(zhuǎn)換開發(fā)清洗整合規(guī)則自動(dòng)調(diào)度規(guī)則與標(biāo)準(zhǔn)制定用戶信息歸屬規(guī)則確定用戶數(shù)據(jù)使用權(quán)限與流程確定用戶數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)確定數(shù)據(jù)應(yīng)用用/服務(wù)營銷/關(guān)懷活動(dòng)動(dòng)自動(dòng)化化管理商業(yè)智能能管理駕駛駛艙業(yè)務(wù)報(bào)表表專題分析析嵌入運(yùn)營營系統(tǒng)的的大數(shù)據(jù)據(jù)應(yīng)用信息可視視化工具具CRMSCMMESPLM平臺(tái)化企企業(yè),需需要大數(shù)數(shù)據(jù)架構(gòu)構(gòu)的支撐撐大數(shù)據(jù)時(shí)代的企業(yè)發(fā)展更高一層層數(shù)據(jù)層層面整合合企業(yè)內(nèi)內(nèi)外部*數(shù)據(jù)的再再利用::由于在信信息價(jià)值值鏈中的的特殊位位置,有有些公司司可能會(huì)會(huì)收集到到大量的的數(shù)據(jù),,但他們們并不急急需使用用也不擅擅長再次次利用這這些數(shù)據(jù)據(jù)。例如如,移動(dòng)動(dòng)電話運(yùn)運(yùn)營商手手機(jī)用戶戶的位置置信息來來傳輸電電話信號號,這對對以他們們來說,,數(shù)據(jù)只只有狹窄窄的技術(shù)術(shù)用途。。但當(dāng)它它被一些些發(fā)布個(gè)個(gè)性化位位置廣告告服務(wù)和和促銷活活動(dòng)的公公司再次次利用時(shí)時(shí),則變變得更有有價(jià)值。。大數(shù)據(jù)價(jià)價(jià)值鏈的的3大構(gòu)成::數(shù)據(jù)本本身、技技能與思思維谷歌公司司三者兼兼具,在在剛開始始收集數(shù)數(shù)據(jù)的時(shí)時(shí)候就已已經(jīng)有多多次使用用數(shù)據(jù)的的想法。。比方說說,它的的街景采采集車手手機(jī)全球球定位系系統(tǒng)數(shù)據(jù)據(jù)不光是是為了創(chuàng)創(chuàng)建谷歌歌地圖,,也是為為了制成成全自動(dòng)動(dòng)汽車以以及谷歌歌眼鏡等等與實(shí)景景交匯的的產(chǎn)品。。未來,企企業(yè)會(huì)依依靠洞悉悉數(shù)據(jù)中中的信息息更加了了解自己己,也更更加了解解客戶。?!洞髷?shù)據(jù)時(shí)時(shí)代》傳統(tǒng)行業(yè)業(yè)最終都都會(huì)轉(zhuǎn)變變?yōu)榇髷?shù)數(shù)據(jù)行業(yè)業(yè),無論論是金融融服務(wù)也也、醫(yī)藥藥還是制制造業(yè)。。大數(shù)據(jù)的未來和機(jī)遇大數(shù)據(jù)相關(guān)技術(shù)分析技術(shù)術(shù):數(shù)據(jù)處理理:自然然語言處處理技術(shù)術(shù)統(tǒng)計(jì)和分分析:A/Btest;topN排行榜;;地域占占比;文文本情感感分析數(shù)據(jù)挖掘掘:關(guān)聯(lián)聯(lián)規(guī)則分分析;分分類;聚聚類模型預(yù)測測:預(yù)測測模型;;機(jī)器學(xué)學(xué)習(xí);建建模仿真真大數(shù)據(jù)技技術(shù):數(shù)據(jù)采集集:ETL工具數(shù)據(jù)存取?。宏P(guān)系系數(shù)據(jù)庫庫;NoSQL;SQL等基礎(chǔ)架構(gòu)構(gòu)支持::云存儲(chǔ)儲(chǔ);分布布式文件件系統(tǒng)等等計(jì)算結(jié)果果展現(xiàn)::云計(jì)算算;標(biāo)簽簽云;關(guān)關(guān)系圖等等存儲(chǔ)結(jié)構(gòu)化數(shù)數(shù)據(jù):海量數(shù)據(jù)據(jù)的查詢詢、統(tǒng)計(jì)計(jì)、更新新等操作作效率低低非結(jié)構(gòu)化化數(shù)據(jù)圖片、視視頻、word、pdf、ppt等文件存存儲(chǔ)不利于檢檢索、查查詢和存存儲(chǔ)半結(jié)構(gòu)化化數(shù)據(jù)轉(zhuǎn)換為結(jié)結(jié)構(gòu)化存存儲(chǔ)按照非結(jié)結(jié)構(gòu)化存存儲(chǔ)解決方案案:Hadoop(MapReduce技術(shù))流計(jì)算((twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘什么是hadoop開源Apache項(xiàng)項(xiàng)目,靈靈感來源源于Google的MapReduce白白皮書和和Google文件系系(GFS),,Yahoo完成成了絕大大部分初初始設(shè)計(jì)計(jì)和開發(fā)發(fā)Hadoop核核心組組件包括括:-分布式式文件系系統(tǒng)-Map/Reduce––分布式式計(jì)算用Java編寫寫運(yùn)行平臺(tái)臺(tái):?Linux,,MacOS/X,Solaris,Windows?普通的的X86硬件平平臺(tái)為什么hadoop很很重要非結(jié)構(gòu)化化數(shù)據(jù)暴暴增:–估計(jì)未來來5年,企業(yè)業(yè)的數(shù)據(jù)據(jù)將增長長650%%,其中80%都是非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)–比如FACEBOOK每天收集集100TB的數(shù)據(jù),,Twitter會(huì)有每天產(chǎn)生生3500億的tweets非結(jié)構(gòu)化化的數(shù)據(jù)據(jù)同樣蘊(yùn)蘊(yùn)藏巨大大價(jià)值需要新方方法利用用所有數(shù)數(shù)據(jù)進(jìn)行行業(yè)務(wù)分分析–ApacheHadoop作為一個(gè)個(gè)分析存存儲(chǔ)大量量數(shù)據(jù)的的關(guān)鍵數(shù)據(jù)平臺(tái)臺(tái)出現(xiàn)hadoop與與大數(shù)據(jù)據(jù)Hadoop是致力于于“大數(shù)數(shù)據(jù)”處處理的最最重要平平臺(tái)之一一–能夠輕松松擴(kuò)展到到PB級別的數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ),處理理規(guī)模–帶有高度度容錯(cuò)能能力的并并行處理理架構(gòu)–基于普通通的X86平臺(tái)硬件件架構(gòu),,硬件成成本低廉廉–用內(nèi)置格格式存儲(chǔ)儲(chǔ)/處理數(shù)據(jù)據(jù)–基于開源源項(xiàng)目,,擁有當(dāng)當(dāng)量的代代碼來源源,并且且傳統(tǒng)廠廠商也日日益重視視對其的的支持,,它已經(jīng)經(jīng)成為重重要的并并行處理理架構(gòu)標(biāo)標(biāo)準(zhǔn)之一一企業(yè)級Hadoop堆棧數(shù)據(jù)存儲(chǔ)儲(chǔ)與訪問問方式大數(shù)據(jù)與與應(yīng)用總總體設(shè)計(jì)計(jì)行業(yè)大數(shù)數(shù)據(jù)建設(shè)設(shè)思考1.思考的問問題使用當(dāng)前前數(shù)據(jù)資資源建設(shè)設(shè)大數(shù)據(jù)據(jù)平臺(tái)能能做什么么?實(shí)現(xiàn)以前前無法實(shí)實(shí)現(xiàn)的應(yīng)應(yīng)用需求求針對當(dāng)前前業(yè)務(wù)狀狀況,為為什么需需要建設(shè)設(shè)大數(shù)據(jù)據(jù)平臺(tái)改善現(xiàn)狀狀,為未未來發(fā)展展奠定基基礎(chǔ)具備什么么樣的條條件才能能建設(shè)大大數(shù)據(jù)平平臺(tái)?硬件和網(wǎng)網(wǎng)絡(luò)資源源具備了了嗎?數(shù)據(jù)應(yīng)用用業(yè)務(wù)需需求明確確了嗎??已有業(yè)務(wù)遷移移到大數(shù)數(shù)據(jù)平臺(tái)臺(tái)可行嗎嗎?2.建設(shè)步驟驟分析當(dāng)前前及未來來數(shù)據(jù)量量及數(shù)據(jù)據(jù)類型((不止是是原始數(shù)數(shù)據(jù)哦,,還有新新產(chǎn)生的的大數(shù)據(jù)據(jù)應(yīng)用中中間及結(jié)結(jié)果數(shù)據(jù)據(jù))明確大數(shù)數(shù)據(jù)應(yīng)用用業(yè)務(wù)需需求(包包括已有有業(yè)務(wù)遷遷移和未未來面對對海量數(shù)數(shù)據(jù)進(jìn)行行的以前前無法做做到的新新型業(yè)務(wù)務(wù)需求和和模式))根據(jù)需求求確定數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)模式及及結(jié)構(gòu)((與應(yīng)用用相關(guān)))根據(jù)需求求確定大大數(shù)據(jù)應(yīng)應(yīng)用建設(shè)設(shè)技術(shù)路路線●批處處理模式式●●實(shí)實(shí)時(shí)訪訪問技術(shù)術(shù)●●流式式計(jì)算●●大規(guī)規(guī)模并行行計(jì)算●統(tǒng)計(jì)分分析●●OLAP分析●●數(shù)據(jù)挖挖掘●●智智能搜索索●。。。。搭建系統(tǒng)統(tǒng)運(yùn)行及及監(jiān)控
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院工作人員獎(jiǎng)懲制度
- 企業(yè)員工培訓(xùn)與職業(yè)發(fā)展路徑制度
- 2026河北邯鄲市曲周縣醫(yī)院招聘人事代理人員26人備考題庫附答案
- 交通宣傳教育材料制作與發(fā)放制度
- 2026湖北省定向天津大學(xué)選調(diào)生招錄考試備考題庫附答案
- 2026甘肅銀行股份有限公司招聘校園考試備考題庫附答案
- 2026福建福州市馬尾海關(guān)單證資料管理崗位輔助人員招聘1人參考題庫附答案
- 2026西藏日喀則市亞東縣糧食公司人員招聘1人參考題庫附答案
- 公共交通服務(wù)質(zhì)量投訴處理制度
- 2026重慶大學(xué)附屬涪陵醫(yī)院年衛(wèi)生專業(yè)技術(shù)人員招聘22人參考題庫附答案
- 2025年度精神科護(hù)士述職報(bào)告
- 上海市徐匯區(qū)2026屆初三一模物理試題(含答案)
- 2026陜西省森林資源管理局局屬企業(yè)招聘(55人)參考題庫及答案1套
- 2026年遼寧機(jī)電職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫附答案解析
- 春節(jié)前安全教育培訓(xùn)課件
- 免疫治療相關(guān)甲狀腺功能亢進(jìn)的分級
- 工業(yè)AI《2025年》機(jī)器視覺應(yīng)用測試題
- 2024-2025學(xué)年七上期末數(shù)學(xué)試卷(原卷版)
- new共青團(tuán)中央所屬單位2026年度高校畢業(yè)生公開招聘66人備考題庫及完整答案詳解
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期期末學(xué)業(yè)質(zhì)量陽光指標(biāo)調(diào)研物理試題(含答案)
- 2025-2026學(xué)年蘇教版五年級上冊數(shù)學(xué)期末必考題檢測卷(含答案)
評論
0/150
提交評論