版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)應(yīng)用實例與方案2015LenovoInternal.Allrightsreserved.大數(shù)據(jù)2015LENOVORESTRICTED.Allrightsreserved.3大數(shù)據(jù)技術(shù)講解與對比2聯(lián)想大數(shù)據(jù)方案與生態(tài)系統(tǒng)1大數(shù)據(jù)應(yīng)用案例與前沿研究2015LenovoInternal.Allrightsreserved.大數(shù)據(jù)發(fā)展概述如果不知道遠溯古希臘各代前輩所建立和發(fā)展的概念、方法和結(jié)果,我們就不可能理解近50年來數(shù)學(xué)的目標,也不可能理解它的成就?!鉅?ClaudeHugoHermannWeyl1885-1955)2015LenovoInternal.Allrightsreserved.技術(shù)發(fā)展和概述三個行業(yè)&三個熱點大數(shù)據(jù)應(yīng)用在各行各業(yè)的發(fā)展呈現(xiàn)“階梯式”格局:互聯(lián)網(wǎng)行業(yè)是大數(shù)據(jù)應(yīng)用的領(lǐng)跑者,金融、零售、電信、公共管理、醫(yī)療衛(wèi)生等領(lǐng)域嘗試當(dāng)中電商實時競價廣告DSP
&
精準營銷.提高服務(wù)
金融互聯(lián)網(wǎng)金融&
行為預(yù)測,風(fēng)控,實時授信,信貸政府政府監(jiān)管
&征信
稅務(wù)
統(tǒng)計輿情犯罪預(yù)防交警卡口AIPlus:研究類熱點硬件演進,使機器學(xué)習(xí)(ML)重獲生機,反饋給現(xiàn)在的業(yè)務(wù)端,用于不可枚舉型的分析查詢ML級別的集群:Google(GoogleBrain),Facebook(DeepFace2014),Baidu(image,face-百度識圖)Tecent(Mariana語音,翻譯-微信,
Ali(天池,快的打車,
)難點:算法收斂when節(jié)點數(shù)量>20聯(lián)想內(nèi)部使用大數(shù)據(jù)分析做產(chǎn)品設(shè)計的決策支持2015LenovoInternal.Allrightsreserved.聯(lián)想爬蟲與自然語言技術(shù)可以理解用戶反饋,0距離理解用戶2015LenovoInternal.Allrightsreserved.聯(lián)想應(yīng)用案例-用戶畫像Example:Genderidentificationwords
automaticallygeneratedbasedonWeibomalefemale2015LenovoInternal.Allrightsreserved.聯(lián)想應(yīng)用案例-視頻推薦typecountrytimedirectoractorpolaritycontentagea11,a12,a13,…,a1na21,a22,a23,…,a2n:am1,am2,am3,…,amnb11,b12,b13,…,b1nb21,b22,b23,…,b2n:bm1,bm2,bm3,…,bmnContentTopicsTextContentComedyteenageContentCategorySportsSoccerFigureActorsSinger…2015LenovoInternal.Allrightsreserved.聯(lián)想應(yīng)用案例-網(wǎng)絡(luò)監(jiān)測UnifiedITDashboard.Multi-Layer.Multi-Dimension.Autoscroll/pageflip.CustomizationfixfocusareaSiteMonitoring.BandwidthUtil..Whatwasrunningonitandhow.Whowillconnectit,andcounttheclientsApplicationMonitoring.Deploysiteanditsbandwidthutil..Whoconsumestheapplicationandhow?.Whowillconnectit,andcounttheclients2015LenovoInternal.Allrightsreserved.應(yīng)用舉例-業(yè)務(wù)問題總是可抽象為數(shù)學(xué)來解決根據(jù)給出的FeatureX,給出符合其最終興趣的標簽集合LF:X->L模型訓(xùn)練:從數(shù)據(jù)集D={(x1,l1),…(xm,lm)}∈X×L通過降低HammingLoss的方式推斷出一個向量值函數(shù)
F:X->L過擬合問題的解決:減少特征(模型選擇算法or人工)&正則化弱分類器集合的多數(shù)表決
向量化2015LenovoInternal.Allrightsreserved.算法應(yīng)用舉例-使用邏輯回歸進行企業(yè)分類R算法編寫
窗口命令行和輸
出窗口R變量查看窗
口圖形展示窗
口???模型查準率(precision)為92%。也就是說,模型評估出偷稅漏稅嫌疑者100個人中有92個確實存在偷稅漏稅行為。模型查全率(recall)為87%,如果有100個偷稅漏稅者,通過模型可以查出87個。模型的準確率遠遠高于人工選案20%的準確率。2015LenovoInternal.Allrightsreserved.聯(lián)想大數(shù)據(jù)解決方案挖掘服務(wù)物聯(lián)網(wǎng)加密技術(shù)爬蟲技術(shù)數(shù)據(jù)處理存儲平臺大數(shù)據(jù)聯(lián)盟互聯(lián)網(wǎng)+大數(shù)據(jù)技術(shù)平臺2015LenovoInternal.Allrightsreserved.架構(gòu)概述MapReduce,Hive展示/交互ServiceMonitoringAutomationIntegration集群運維AmbariAccessManagementAuditAuthorizationRealTimeAlert安全方案Sentry領(lǐng)域模型客戶畫像數(shù)據(jù)平臺商業(yè)智能DataIntegration:Sqoop,Flume,KafkaFileSystem:HDFSOnlineNoSQL:HBaseWorkloadManagement:YARN(withdocker)ElasticSearchImpala,SparkSQLSparkMllib,GraphXSparkStreaming,Storm關(guān)系型數(shù)據(jù)流式數(shù)據(jù)API接口多媒體數(shù)據(jù)塊式數(shù)據(jù)流式計算機器學(xué)習(xí)全量索引批量計算Sql查詢關(guān)聯(lián)分析2015LenovoInternal.Allrightsreserved.聯(lián)想大數(shù)據(jù)生態(tài)系統(tǒng)大數(shù)據(jù)與分析基本設(shè)施自然語言業(yè)務(wù)實現(xiàn)模式識別建設(shè)策略和建模規(guī)劃服務(wù)提供了明顯的差別發(fā)現(xiàn)新的見解實時操作明顯優(yōu)于傳統(tǒng)架構(gòu)的ROI性能優(yōu)異業(yè)務(wù)目標梳理:理解業(yè)務(wù)需求,梳理建模目標,提供現(xiàn)場規(guī)劃并訓(xùn)練樣例模型定制軟件架構(gòu)功能需求分析,性能需求分析,兼容性分析,搭建POC測試環(huán)境。整合軟件伙伴定制硬件架構(gòu)計算界限分析,計算密集型分析
(例如.,數(shù)據(jù)分類,文本挖掘,或先進的運算法則)I/O界限分析,I/O密集度分析(例如.,索引、搜索、數(shù)據(jù)排序)數(shù)據(jù)攝入的要求可靠的基礎(chǔ)設(shè)施與智能優(yōu)化部署高可用定制化
聯(lián)想解決方案團隊數(shù)據(jù)專家Hadoop軟件硬件平臺基礎(chǔ)BI分析平臺決策支持分類,聚類分析探索與發(fā)現(xiàn)商業(yè)智能和分析預(yù)測宏觀分析信息整合與導(dǎo)入數(shù)倉內(nèi)存數(shù)據(jù)庫流處理NoSQL數(shù)據(jù)庫數(shù)據(jù)整合平臺分析與展現(xiàn)平臺垂直行業(yè)方案平臺
數(shù)模團隊(分類多樣)軟件服務(wù)團隊行業(yè)ISV風(fēng)控欺詐推薦系統(tǒng)計算機視覺客戶忠誠度用戶畫像語音識別價格預(yù)測行為因果數(shù)據(jù)資產(chǎn)治理軟件行業(yè)方案分析軟件服務(wù)團隊平臺軟件服務(wù)團隊模型運維服務(wù)團隊可視化展現(xiàn)團隊2015LenovoInternal.Allrightsreserved.數(shù)據(jù)如何處理2015LENOVORESTRICTED.Allrightsreserved.
深度分析
敏捷開發(fā)
大規(guī)??蓴U展性
實時結(jié)果處理決策分析
高吞吐量
實時就緒
所有的數(shù)據(jù)源/數(shù)據(jù)結(jié)構(gòu)低延遲/可預(yù)期的延遲
高并發(fā)/頻度的交易統(tǒng)計
數(shù)據(jù)結(jié)構(gòu)的多樣性數(shù)據(jù)獲取數(shù)據(jù)處理數(shù)據(jù)分析2015LenovoInternal.Allrightsreserved.大數(shù)據(jù)解決方案vs傳統(tǒng)解決方案2015LENOVORESTRICTED.Allrightsreserved.AcquireAnalyzeOrganizeMapReduce/Spark
SolutionsDBMS
(DW)DBMS
(OLTP)BI/AdvancedAnalyticsDistributed
FileSystemsTransaction(Key-Value)
StoresETLNoSQL
Flexible
Specialized
Developer
CentricSQL
Trusted
Secure
AdministeredData
Variety“HighDensity”Information
Density“LowDensity”2015LenovoInternal.Allrightsreserved.Hadoop架構(gòu)體系2015LENOVORESTRICTED.Allrightsreserved.1.分布式存儲層HDFS2.分布式資源管理調(diào)度層Yarn/Mesos3.分布式計算框架層MapReduce/Tez/Spark等4.分布式數(shù)據(jù)庫層HBase/Hive/Cassandra等2015LenovoInternal.Allrightsreserved.NoSQL
Database2015LENOVORESTRICTED.Allrightsreserved.鍵/值數(shù)據(jù)庫(Key/ValueStores)Pros:SimplicityandscalabilityCons:Lackmoreadvancedfeaturesandquerying列簇數(shù)據(jù)庫(ColumnStores)Pros:ScalabilityandflexibilityCons:Complexity文檔數(shù)據(jù)庫(DocumentStores)Pros:Ease-of-useCons:Scalability圖數(shù)據(jù)庫(GraphStores)Pros:GraphJoinsCons:FlexibilityOver150NoSQLDatabase
in
Market2015LenovoInternal.Allrightsreserved.CAP簡介2015LENOVORESTRICTED.Allrightsreserved.一致性(Consistency)可用性(Availability)擴展性(Partitiontolerance)CA-單點集群,滿足一致性,可用性的系統(tǒng),通常在可擴展性上不太強大。CP-滿足一致性,分區(qū)容忍性的系統(tǒng),通常性能不是特別高。AP-滿足可用性,分區(qū)容忍性的系統(tǒng),通??赡軐σ恢滦砸蟮鸵恍?。2015LenovoInternal.Allrightsreserved.BDAS
-
Base
on
Spark2015LENOVORESTRICTED.Allrightsreserved.Spark的核心RDD/Scala(Resilient
Distributed
Datasets)具備像MapReduce等數(shù)據(jù)流模型的容錯特性,并且允許開發(fā)人員在大型集群上執(zhí)行基于內(nèi)存的計算。適合如下場景:迭代式計算交互式計算實時性計算2015LenovoInternal.Allrightsreserved.聯(lián)想大數(shù)據(jù)平臺
-
企業(yè)大數(shù)據(jù)采集、存儲、處理、展現(xiàn)整體解決方案Hadoop/Spark最佳數(shù)據(jù)存儲處理方案Hadoop/Spark流行、易用ETL工具采用圖形化技術(shù)是的大量工作無需MR編程易用ETL工具靈活可定制的大數(shù)據(jù)展示工具,支持對接Spark/Hadoop,輿情分析大數(shù)據(jù)展示方案集成的分布式爬蟲技術(shù),自然語言分析模塊將互聯(lián)網(wǎng)文字結(jié)構(gòu)化分析爬蟲與自然語言技術(shù)一體化集成的Android/WindowsSDK直接獲取用戶大數(shù)據(jù)進行分析SDK采集與處理技術(shù)支持端到端的解決方案可以單獨抽取獨立模塊售賣存儲、ETL、展示、爬蟲、SDK既可以集成使用,也可以單獨使用通過Portal集成權(quán)限控制系統(tǒng)2015LenovoInternal.Allrightsreserved.系統(tǒng)底層采集SDK平臺全球30多個國家,聯(lián)想8000多款機器數(shù)據(jù),每天超過6千萬設(shè)備數(shù)據(jù)通過SDK及O+平臺完成處理支持Android/Windows架構(gòu)(IOS需APP定制)采集硬件/軟件數(shù)據(jù)動態(tài)SDK采集方案數(shù)據(jù)壓縮提升存儲/處理效率
動態(tài)格式
無限制用戶自定義集成功能控制Portal爬蟲平臺網(wǎng)絡(luò)上大量用戶發(fā)布數(shù)據(jù)可以輔助以用戶為中心的企業(yè)轉(zhuǎn)型產(chǎn)品信息價格用戶評論論壇/微博百度搜索…關(guān)鍵技術(shù)網(wǎng)頁解析與模板集成技術(shù)多類型網(wǎng)頁任務(wù)爬取:網(wǎng)頁、評論、微博、論壇…多項專利技術(shù)確保爬取任務(wù)順利進行多用戶/用戶行為擬合不間斷的任務(wù)執(zhí)行:任務(wù)自動重啟技術(shù)、監(jiān)控…靈活配置橫向擴展支持分布式部署中國區(qū)包括京東、淘寶、亞馬遜、Pconline、百度貼吧等等9200萬條3C記錄,包括2000品牌,24萬種3C產(chǎn)品數(shù)據(jù),自然語言超過200種語言屬性2015LenovoInternal.Allrightsreserved.2015LenovoInternal.Allrightsreserved.集成易用的大數(shù)據(jù)處理工具易用的大數(shù)據(jù)處理用戶界面,像處理普通ETL任務(wù)一樣設(shè)計、開發(fā)、調(diào)度大數(shù)據(jù)任務(wù)HA與多集群數(shù)據(jù)并行處理支持任務(wù)遠程發(fā)布/管理詳細的Log日志方便用戶統(tǒng)一任務(wù)調(diào)度器監(jiān)控與處理大數(shù)據(jù)任務(wù)提供API對接第三方平臺提供任務(wù)提交、刪除、任務(wù)調(diào)度與更改2015LenovoInternal.Allrightsreserved.新一代的Spark處理集群,急速提升大數(shù)據(jù)處理速度測試節(jié)電:4nodes128Core172GMemory數(shù)據(jù)量:1.46billionrows,100G結(jié)果比對:Qurey1.AggregationQueryQurey2.JoinQueryQurey3.DistinctQueryMedianResponseTime(s)Query1Query2Query3Spark-1.4-Mem213446Spark-1.4-Disk18017496Hive-0.13329.998513.8265
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 登革熱傳播動力學(xué)模型的時空參數(shù)校準策略
- 癲癇持續(xù)狀態(tài)顱內(nèi)壓監(jiān)測的管理
- 癌痛全程規(guī)范化管理實踐指南
- 瘢痕疙瘩的序貫治療方案設(shè)計
- 瘢痕疙瘩5-FU聯(lián)合治療復(fù)發(fā)預(yù)防策略
- 病毒感染中免疫細胞耗竭的分子機制與逆轉(zhuǎn)策略
- 病歷質(zhì)控與績效獎懲結(jié)合
- 1.2哲學(xué)的基本問題 課件 2025-2026學(xué)年統(tǒng)編版高中政治必修四哲學(xué)與文化
- 聯(lián)誼活動策劃方案
- 電子病歷區(qū)塊鏈存儲的安全迭代策略
- 塔吉克斯坦共和國公共行政樓的建筑標準和規(guī)范譯文
- 電站設(shè)備管理和檢修及維修制度
- 浙江省高級法院公布十大民間借貸典型案例
- GA 1809-2022城市供水系統(tǒng)反恐怖防范要求
- YS/T 1148-2016鎢基高比重合金
- JJF 1143-2006混響室聲學(xué)特性校準規(guī)范
- GB/T 39597-2020出租汽車綜合服務(wù)區(qū)規(guī)范
- GB/T 12060.3-2011聲系統(tǒng)設(shè)備第3部分:聲頻放大器測量方法
- 四年級數(shù)學(xué)下冊解決問題練習(xí)題
- 《康復(fù)評定技術(shù)》考試復(fù)習(xí)題庫(含答案)
- 幼兒園四季交替課件
評論
0/150
提交評論