版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
AnalyticsandBigDataonPower方案及案例分享目錄大數(shù)據(jù)與與分析概概述高性能運運算Symphony解決方案案DB2BLU助力高性性能數(shù)據(jù)據(jù)集市大數(shù)據(jù)案案例分析析大數(shù)據(jù)與與分析概概述“上個月在在瑞士達達沃斯舉舉行的世世界經(jīng)濟濟論壇上上,大數(shù)數(shù)據(jù)是一一個熱點點話題。。在論壇壇的一份份報告《《大數(shù)據(jù)據(jù),大影影響》中中聲明::數(shù)據(jù)已成成為一類類新的經(jīng)經(jīng)濟資產(chǎn)產(chǎn),就像像貨幣或或黃金一一樣.“公司被數(shù)數(shù)據(jù)淹沒沒了—從客戶的的習慣到到供應(yīng)鏈鏈的效率率。但是是許多經(jīng)經(jīng)理卻不不能理解解這些數(shù)數(shù)據(jù)的意意義.”“越來越多多的企業(yè)業(yè)使用大大眾媒體體去分析析公眾對對產(chǎn)品的的反饋,,例如Facebook或Twitter,也有使用用網(wǎng)站資資源試著著“了解解客戶,,是什么么讓他們們選擇他他們想要要的東西西”負負責IBM預(yù)測測分析項項目的迪迪阿德瓦瓦說。""“大數(shù)據(jù)已已抵達Seton醫(yī)療療保健家家庭,幸幸運的是是,通過使用用這個分分析工具具,每年年超過200萬萬復(fù)雜病病例的患患者得到到了幫助助…”“數(shù)據(jù)是新新型石油油”未開采的的石油,,沒有什什么價值值。加加工工及提煉煉后,將將助力世世界。“…現(xiàn)在,沃森正正投入到到工作中中,消化化了數(shù)百百萬頁的的研究,結(jié)合最佳佳的臨床床實踐和和監(jiān)測結(jié)結(jié)果,以以協(xié)助醫(yī)醫(yī)生治療療癌癥患患者.”奧斯卡情情感測量量—一一種工具具,是由由洛杉磯磯時報、、IBM和南加加州大學學安創(chuàng)新新實驗室室共同開開發(fā)的——分析意見見,“主主要針對對Twitter上共共享的百百萬條奧奧斯卡獎獎項比賽賽的公共共信息做做出的分分析意見見.”“數(shù)據(jù)是新型石油.”CliveHumby大數(shù)據(jù)來來自哪里里?截至2011年末網(wǎng)絡(luò)上有超過20
億人現(xiàn)在有300億個RFID記
(2005年時有13億)全球有46億臺照相手機每年售出數(shù)億臺支持GPS的設(shè)備在2009年有7600萬臺智能儀表……
至2014年將達到2億臺每天有超超過3億活躍用戶戶每天有超超過25TB日志數(shù)據(jù)據(jù)每天有超超過1億條消息大數(shù)據(jù)的的特點綜合分析析覆蓋面面越來越越寬的種類應(yīng)對日益益增長的的速度有效地處處理日益益增長的的數(shù)量建立大數(shù)數(shù)據(jù)來源源的真實性三分之一一商界領(lǐng)袖袖感到無無法信任任那些幫幫助他們們做決策策的信息息50x35ZB20202010300億RFID傳感器和和計數(shù)器器世界上80%的數(shù)據(jù)是是非結(jié)構(gòu)構(gòu)化的大數(shù)據(jù)會會影響到到您業(yè)務(wù)務(wù)的方方方面面了解關(guān)于于您客戶戶的一切切從渠道交交互到社社交媒體體,通過過分析所所有數(shù)據(jù)據(jù)來源幫幫助您了了解您的的每位客客戶零延遲操操作分析所有有可用的的操作數(shù)數(shù)據(jù)并且且實時做做出反應(yīng)應(yīng),從而而優(yōu)化流流程。通通過成本本效益技技術(shù)降低低IT成本。在速度和和規(guī)模上上實現(xiàn)新新產(chǎn)品創(chuàng)創(chuàng)新捕獲所有有來源的的反饋,,分析龐龐大的市市場環(huán)境境,研究究大量的的數(shù)據(jù),,從而推推動創(chuàng)新新。即時的欺欺詐和風風險意識識通過分析析所有可可用數(shù)據(jù)據(jù)來打造造更好的的欺詐/風險模型型,用流流數(shù)據(jù)交交易分析析來實時時監(jiān)測欺欺詐利用儀表表化資產(chǎn)產(chǎn)監(jiān)控資產(chǎn)產(chǎn)通過實實時數(shù)據(jù)據(jù)反饋來來預(yù)測和和預(yù)防維維修問題題,并且且開發(fā)新新產(chǎn)品和和新服務(wù)務(wù)。大數(shù)據(jù)主主要與大大型數(shù)據(jù)據(jù)集相關(guān)關(guān)在大數(shù)據(jù)據(jù)的新世世界中,,我們必必須更換換所有陳陳舊系統(tǒng)統(tǒng)大數(shù)據(jù)就就是Hadoop較為陳舊舊的事務(wù)務(wù)數(shù)據(jù)已已經(jīng)不再再重要數(shù)據(jù)倉庫庫已是昨昨日黃花花大數(shù)據(jù)適適合熟知知互聯(lián)網(wǎng)網(wǎng)的企業(yè)業(yè)。傳統(tǒng)統(tǒng)業(yè)務(wù)與與大數(shù)據(jù)據(jù)毫無關(guān)關(guān)系我們不具具備相應(yīng)應(yīng)的需求求、預(yù)算算或者技技能,因因此我們們不必為為此擔心心人們對于大大數(shù)據(jù)的的觀點是是怎樣的的研究顯示示了實施施大數(shù)據(jù)據(jù)的4個階段大數(shù)據(jù)采采用當基于當當前的大大數(shù)據(jù)活活動級別別而劃分分為4個小組時時,受調(diào)調(diào)查者在在組織行行為上表表現(xiàn)出顯顯著的一一致性受調(diào)查者者總數(shù)n=1061由于舍入入原因,,各個比比例總和和不等于于100%%6%部署兩個個或更多多大數(shù)據(jù)據(jù)計劃,,繼續(xù)應(yīng)應(yīng)用高級級分析占總受調(diào)調(diào)查者的的百分比比執(zhí)行22%試點大數(shù)數(shù)據(jù)計劃劃,以驗驗證價值值和需求求占總受調(diào)調(diào)查者的的百分比比試點47%基于業(yè)務(wù)務(wù)需求和和挑戰(zhàn)開開發(fā)戰(zhàn)略略和路線線圖占總受調(diào)調(diào)查者的的百分比比探索24%專注于知知識收集集和市場場觀察占總受調(diào)調(diào)查者的的百分比比學習智慧分析析數(shù)據(jù)倉庫大數(shù)據(jù)平臺加速器流
計算數(shù)據(jù)倉庫Hadoop
系統(tǒng)信息整合合與治理理應(yīng)用開發(fā)發(fā)現(xiàn)系統(tǒng)管理內(nèi)容管理理數(shù)據(jù)倉庫庫流計算Hadoop系統(tǒng)信息整合合與治理理大數(shù)據(jù)平平臺系統(tǒng)、存存儲和云云業(yè)務(wù)分析析內(nèi)容分析決策管理理風險分析績效管理理商業(yè)智能能與預(yù)測測分析大數(shù)據(jù)分析內(nèi)容
分析預(yù)測分析決策管理社交媒體分析分析整合與治理IBM提供了全全面的、、整合化化的大數(shù)數(shù)據(jù)和分分析方法法Hadoop系統(tǒng)管理多樣樣化海量量數(shù)據(jù)企業(yè)級應(yīng)應(yīng)用增強強了開源源Hadoop能力流計算用于分析析流動的的數(shù)據(jù)能夠處理理分析多多種數(shù)據(jù)據(jù)–通過高級級分析運運算符來來支持結(jié)結(jié)構(gòu)化,,非結(jié)構(gòu)構(gòu)化,視視頻,音音頻等數(shù)據(jù)倉庫庫工作負載載均衡的的MPP架構(gòu),支支持高性性能的OLAP及混合型的的操作和和分析負負載數(shù)據(jù)可視視化企業(yè)級搜搜索引擎擎圖形展現(xiàn)現(xiàn)海量分分析結(jié)果果IBM大數(shù)據(jù)平臺
BAO方案整體體技術(shù)架架構(gòu)從哪里來來?是誰?到哪里去去?大數(shù)據(jù)解解決方案案出現(xiàn)之之前傳統(tǒng)統(tǒng)的計算算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報
ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報
ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載電商、微微博、社社交網(wǎng)站站、平安安城市等等產(chǎn)生大大量社交交數(shù)據(jù)、、日志、、圖片、、視音頻頻數(shù)據(jù)….海量數(shù)據(jù)據(jù)匯總、、統(tǒng)計耗耗時太長長,滿足足不了業(yè)業(yè)務(wù)部門門的時效效性需求求;傳統(tǒng)計算算模式遇遇到的困困難某些業(yè)務(wù)務(wù)部門需需要實時時數(shù)據(jù)分分析,數(shù)數(shù)據(jù)一邊邊產(chǎn)生,,一邊進進行分析析,以應(yīng)應(yīng)對市場場壓力數(shù)據(jù)產(chǎn)生生速度快快,數(shù)據(jù)據(jù)量巨大大,種類類繁多,,非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)占了80%以上Hadoop并行計算算模式HDFS—HadoopDistributedFileSystem。HDFS為了做到到可靠性性(reliability)創(chuàng)建了多多份數(shù)據(jù)據(jù)塊(datablocks)的復(fù)制((replicas),并將它們們放置在在服務(wù)器器群的計計算節(jié)點點中(computenodes),MapReduce就可以在在它們所所在的節(jié)節(jié)點上處處理這些些數(shù)據(jù)了了。MapReduce大數(shù)據(jù)技技術(shù)與傳傳統(tǒng)數(shù)據(jù)據(jù)處理技技術(shù)的關(guān)關(guān)系超越和補補充傳統(tǒng)統(tǒng)數(shù)據(jù)處處理技術(shù)術(shù)實時數(shù)據(jù)處理理Internet級別海量數(shù)據(jù)據(jù)存儲與分分析傳統(tǒng)數(shù)據(jù)倉庫庫In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights傳統(tǒng)/關(guān)系型數(shù)數(shù)據(jù)源源傳統(tǒng)/非關(guān)系型型數(shù)據(jù)源源傳統(tǒng)/關(guān)系型數(shù)數(shù)據(jù)源源傳統(tǒng)/非關(guān)系型型數(shù)據(jù)源源高性能運運算Symphony解決方案案大數(shù)據(jù)常常見應(yīng)用用場景舉舉例影像管理理(各類類單據(jù)的的掃描件件、地圖圖影像)),非結(jié)結(jié)構(gòu)化/半結(jié)構(gòu)化化數(shù)據(jù)存存儲和分分析(XML文件、文文本日志志文件))典型應(yīng)用用:測測繪行業(yè)業(yè)系統(tǒng)、、地圖服服務(wù)提供供商產(chǎn)品品、公安安部、銀銀行/稅務(wù)票據(jù)據(jù)管理、、電信詳詳單日志志分析、、各類終終端采集集數(shù)據(jù)分分析……常見痛點點:存儲儲成本/性能,關(guān)關(guān)系型數(shù)數(shù)據(jù)庫性性能/功能問題題。業(yè)務(wù)/產(chǎn)品/服務(wù)創(chuàng)新新典型應(yīng)用用:CDR分析,輿輿情分析析,LBS,廣告精精準投放放,移動動終端服服務(wù)/智慧XX(電表數(shù)數(shù)據(jù)分析析、HIS,電子支支付),,精益生生產(chǎn)、反反洗錢……常見痛點點:實時時性、數(shù)數(shù)據(jù)來源源多樣、、數(shù)據(jù)量量大計算密集集型應(yīng)用用高性能計計算技術(shù)術(shù)非常適適用典型應(yīng)用用:保險險精算、、銀行風風險分析析、信用用卡欺詐詐分析……常見痛點點:實實時性、、多種數(shù)數(shù)據(jù)源要要形成統(tǒng)統(tǒng)一視圖圖IBM大數(shù)據(jù)平平臺優(yōu)勢1-高性能能國內(nèi)運營營商進行行的基于于Hbase的數(shù)據(jù)查查詢測試試,取得得3~15倍的性能能優(yōu)勢國內(nèi)運營商商進行的的基于Hive的數(shù)據(jù)分分析測試試,取得9~11倍的性能優(yōu)優(yōu)勢數(shù)據(jù)加載載場景每每核加載速速度為x86核的11.18倍數(shù)據(jù)分析場景每核核分析速速度為x86核的9.63倍為什么Symphony更快?JobTracker/TaskTracker用C++//C編寫資源管理理和任務(wù)務(wù)管理解解耦.支持300并發(fā)jobtrackers;;1000并發(fā)jobs/jobtrackerSOA架構(gòu),共享服服務(wù)(reuseJVMacrossmanytasks)使用TCP原語和二二進制編編碼,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval專利的asynchronouspersistencyprotocol以保證可可靠性和和性能Note:HadoopResultswerepublishedbyClouderaatHadoopWorldeventDec,2011.Hadoopjarexample..jarsleep–mt1–rt1–m5000–r1Testedon10hosts21IBM大數(shù)據(jù)平平臺優(yōu)勢勢2-高可靠靠從硬件、文文件系統(tǒng)統(tǒng)和分布布式計算算框架所所有層面面采用高可可靠設(shè)計計架構(gòu),,杜絕基基于開源源產(chǎn)品的的不可靠靠問題Symphony計算框架:經(jīng)經(jīng)過接近近20年全球成成功企業(yè)業(yè)應(yīng)用考考驗的高高可靠性性框架,,不僅本本身可靠性高高,不存存在單點點故障,而且通通過對下下層硬件件資源的的先進管管理功能能,實現(xiàn)現(xiàn)物理資資源與邏邏輯資源源的解耦耦,實現(xiàn)現(xiàn)資源的動動態(tài)加減減和黑名名單等機制,,徹底解解決硬件件故障的的透明failover問題GPFS-FPO文件系統(tǒng)統(tǒng):經(jīng)過過20多年全球球無數(shù)應(yīng)應(yīng)用驗證證的分布布式文件件系統(tǒng),,成熟、、可靠,,GPFS-FPO采用去中心化化設(shè)計(元數(shù)據(jù)據(jù)分散存存儲),天生不不存在NameNode的單點故故障和可可靠性瓶瓶頸問題題PowerLinux在RAS特性方面面全面領(lǐng)先先X86平臺IBM大數(shù)據(jù)平臺優(yōu)勢勢3-好維護IBM大數(shù)據(jù)平平臺優(yōu)勢4-高度兼兼容性Symphony和GPFS具有最廣廣泛的兼兼容性,,只要是是基于Hadoop架構(gòu)標準準接口開開發(fā)的軟軟件都可可以100%%兼容,如HadoopHbase,,Pig,Hive,JavaMR,Oozie等各種知知名的Hadoop開源方案案不僅兼容容開源方方案,還還支持各各種商業(yè)分析析軟件,如SAS、SPSS、Murex,Algorithmics,,Sugard,Calypso,TillingHast等兼容各種種Java、R、C/C+++等各種開發(fā)發(fā)語言,兼容各種文件件系統(tǒng)及及數(shù)據(jù)庫庫,如HDFS,GPFS-FPO,RDMBS,MPP等,兼容容Linux、Windows、AIX等各種OS平臺,兼容X86、Power等各種硬件件平臺,支持虛虛擬機和和物理機機混合組組網(wǎng)使用用IBM大數(shù)據(jù)平平臺優(yōu)勢5-技術(shù)支支持核心產(chǎn)品由IBM自主開發(fā)發(fā),擁有有完全的的技術(shù)研研發(fā)與支支持力量量全球26個研發(fā)和和銷售機構(gòu),300+的研發(fā)團團隊分布布在北京京和西安安兩地強大的QA和服務(wù)支支持團隊,強強大的本本地售后后支持力力量專業(yè)的定定制化開開發(fā)團隊業(yè)界公認認的大型型網(wǎng)格/工作負載載管理的的領(lǐng)導者者全方位的技術(shù)支支持服務(wù)務(wù)評估規(guī)劃與咨咨詢服務(wù)務(wù)建設(shè)設(shè)計與實實施服務(wù)務(wù)管理管理與維維護支持持服務(wù)IBM大數(shù)據(jù)平平臺優(yōu)勢勢6-高效可可靠文件件系統(tǒng)GPFS-FPO替換HDFS,更可靠靠、更高高效對于需要要隨機I/O的SQL查詢,JAQL查詢等對于需要要線性排排序的sort操作來說說BigInsights提供2至3倍與開源源Hadoop技術(shù)的性性能文件索引引等查找找效率17倍于開源源Hadoop技術(shù),得益于ClientCache能力HadoopIndexing((HDFS)DatabaseUpload((ext3))WebServiceLayerCopyFetchHDFS:Extracopyoverheadandnetworkfetch,separateclustersforanalyticsanddatabaseHadoopIndexing+DatabaseUpload((GPFS)WebServiceLayerCacheGPFS:Singleclusterforanalyticsanddatabase,nocopyingrequired,,cachingforweblayerWorkloadIsolationProvendataintegrityReplicatedmetadataservicesYahookeeps3copiesof3versionsofHDFSbecauseofunknowndataintegrity[1]QuantcastdeletesfilesonceHDFSis50%%full[2][1]CareandFeedingofHadoopClusters,,MarcNicosia,Usenix2009[2]TheKomosDistributedFileSystem,SriramRao,QuantcastInc.GPFS-FPOKeytechnologyLocalityawarenessWriteAffinityMetablocksPipelinedreplicationDistributedrecovery超過20年發(fā)展的的成熟的的企業(yè)級級文件系系統(tǒng)vsHDFS4年發(fā)展歷歷史IBM企業(yè)級支支持的商商用軟件件vsHDFS開源軟件件POSIX兼容,同同時支持持傳統(tǒng)文文件訪問問和Hadoop應(yīng)用vsHDFS不兼容POSIX內(nèi)建的安安全特性性和高可可用性(集群管理理節(jié)點e.g..)vsHDFSnamenode單點跨數(shù)據(jù)中中心復(fù)制制容災(zāi)vsHDFS無遠程復(fù)復(fù)制GPFS-FPO去中心化設(shè)設(shè)計,高高性能與與高可靠靠可擴展的的IBMSystemsConfiguration初始配置半機柜配置1stThru4th
滿機柜附加滿機柜UsableStorageUpto108TBUpto324TBUpto684TBperrackUpto720TBperrackUserspaceUpto36TBUpto108TBUpto228TBperrackUpto240TBperrack可擴展得得多個入入門方式式從很小的的規(guī)模起起步逐步步擴大支持多種種工作負負載的靈靈活的CPU,,內(nèi)存,存儲和網(wǎng)網(wǎng)絡(luò)選項IBMPowerLinux7R1––便捷、高高效的入入門級產(chǎn)產(chǎn)品可靠設(shè)計計Singlesocket,2Urack8-core3.55GHzPOWER7processorUpto128GBmemorywith8/16/32GBDIMMsFirst32GBincludedinbasepackage高擴展性性和強大大虛擬化化能力Upto24SFFharddrivesper2Ustorageexpansiondrawer((L1S)PowerVM?exploitingintegratedhypervisor8246-L1C//8246--L1SGAonAugustVirtualization&&ManagementOperatingSystemsLinuxonlyPOWER7Onesocket,2UrackIBMPowerLinux7R2--高性能、、靈活配配置OperatingSystemsVirtualization&&Management高系統(tǒng)密密度TwoSocket,2URack16-cores3.3GHzand3.55GHzPOWER7processor256GBmaximummemorywith2/4//8GBDIMMs-First32GBincludedin3..55GHzprocessorbasepackage-First64GBincludedin3.3GHzprocessorbasepackageUpto207R2sinasingle42Urack強大的I/O和硬盤擴擴展性Upto24SFFharddrivesper2UstorageexpansiondrawerPCIe(Gen1)ExpansionDrawers––4U––twoflavors(L2Sonly))高效的虛虛擬化能能力PowerVM?exploitingintegratedhypervisorSupportupto10VMs//core,,160VMs//serverLinuxonlyPOWER7Twosocket,2Urack8246-L2C/8246-L2SGAonJuneIBMStorwizeV7000––在單一系系統(tǒng)整合合了塊和和文件存存儲自動存儲儲分層基于實時時應(yīng)用分分析模式式的先進進的技術(shù)術(shù),可以以自動在在存儲層層之間遷遷移數(shù)據(jù)據(jù)新一代圖圖形化界界面(GUI)易于使用用的數(shù)據(jù)據(jù)管理圖圖形化用用戶界面面,擁有有極其簡簡便的““點選式式”系統(tǒng)統(tǒng)管理功功能性能針對在線線備份、、測試和和數(shù)據(jù)挖挖掘,支支持更快快和更高高效的數(shù)數(shù)據(jù)拷貝貝VirtualizedStorageSystem300%%PerformanceImprovementAutomaticmigrationtohigh-performingSSD’sXIV系列為應(yīng)應(yīng)用程序序提供頂頂級的性性能OracleDataWarehouse((IOPS))OracleDHWWorkloadWatchthevideo::XIVGen3““StraightTalkonPerformance””SASBusinessAnalyticsWorkloadAnalyticsreportscreatedFlash無處不在在的優(yōu)化化和調(diào)節(jié)節(jié)是解決決方案的的主題Flash將被同時時部署在在整體架架構(gòu)的每每一層存儲子系系統(tǒng)網(wǎng)絡(luò)設(shè)備備PCIe設(shè)備ApplicationServerApplicationServerStoragesystemNetworkStoragebasedRemotereplicationSSDSSDVMVMVMVMVMVMEphemeralStorageHighperf,workingsetDataMoverEasyTierCoordinationDRAMSSDWhy?性能敏感感的應(yīng)用用程序HDD的性能優(yōu)優(yōu)勢Flash超越內(nèi)存存的性價價比優(yōu)勢勢分離的緩緩存和分分層的協(xié)協(xié)調(diào)是至至關(guān)重要要的效率數(shù)據(jù)完整整性/緩存一致致性DRAMDB2BLU助力高性性能數(shù)據(jù)據(jù)集市使用DB2BLUonPower構(gòu)建高效效內(nèi)存數(shù)數(shù)據(jù)集市市DB2BLU是一種能能極大提提高OLAP業(yè)務(wù)性能能的新技技術(shù)DB2BLU為DB2數(shù)據(jù)庫添添加列式存儲儲功能充分利用CPU架構(gòu)的新新運行時技術(shù),直直接內(nèi)置在DB2內(nèi)核中高達10倍的壓縮縮比極大提升升OLAP查詢性能能DB2BLU利用SIMD處理指令令獲得更更好的性性能CognosBI,帶有BLUAcceleration多平臺軟件分析
數(shù)據(jù)集市
(BLU表)Oracle或Teradata倉庫的性性能較差差創(chuàng)建表,,加載并啟啟動!即時性能能提高處理TB級數(shù)據(jù)無需創(chuàng)建建和調(diào)優(yōu)優(yōu)索引/聚合多平臺軟軟件的靈靈活性CognosBI,帶有BLUAccelerationDB2BLUonPower用例1–企業(yè)數(shù)據(jù)據(jù)倉庫卸卸載數(shù)據(jù)集市市加速EDW應(yīng)用程序序OLAP應(yīng)用程序序輕松創(chuàng)建建和加載載BLUAcceleration內(nèi)存中集集市多平臺軟件分析
數(shù)據(jù)集市
(BLU表)ERP或其他事事務(wù)性系系統(tǒng)輕松創(chuàng)建建和加載載BLUAcceleration內(nèi)存中集集市事務(wù)性數(shù)據(jù)庫DB2BLUonPower用例2–分析數(shù)據(jù)據(jù)集市從事務(wù)性性數(shù)據(jù)庫庫創(chuàng)建表,,加載并啟啟動!即時性能能提高處理TB級數(shù)據(jù)無需創(chuàng)建建和調(diào)優(yōu)優(yōu)索引/聚合多平臺軟軟件的靈靈活性業(yè)務(wù)線分分析數(shù)據(jù)據(jù)集市
運營只需加載載數(shù)據(jù)就就可以啟啟動像所宣稱稱的那樣樣易于評評估和執(zhí)執(zhí)行BI開發(fā)人員員和DBA--更快地交交付成果果無需配置置或物理理建模無需索引引或調(diào)優(yōu)優(yōu)-開箱即用用的性能能數(shù)據(jù)架構(gòu)構(gòu)師/DBA可專注于于業(yè)務(wù)價價值,而而不是物物理設(shè)計計ETL開發(fā)人員員無需聚合合各個表表-更簡單的的ETL邏輯更快的加加載和轉(zhuǎn)轉(zhuǎn)換速度度業(yè)務(wù)分析析師真正的即即席查詢詢-無調(diào)優(yōu),,無索引引針對大型型數(shù)據(jù)集集提出復(fù)復(fù)雜的查查詢DB2BLU七大特點點之一:簡單易易用?2013IBMCorporationDB2BLU七大特點點之二:卓越的的壓縮更少的數(shù)數(shù)據(jù)存儲儲空間同未壓縮縮數(shù)據(jù)比比較,平平均可以以節(jié)省95%的數(shù)據(jù)存存儲空間間只需要存存儲表數(shù)數(shù)據(jù),不不需要額額外空間間來存儲儲索引等等其它類類型數(shù)據(jù)據(jù)應(yīng)用了多多種壓縮縮技術(shù)所有操作作都在壓壓縮數(shù)據(jù)據(jù)上進行行針對不同同數(shù)據(jù)類類型應(yīng)用用最優(yōu)的的壓縮算算法更多的細細節(jié)參考考后面的的內(nèi)容42沒用SIMD技術(shù)的CPU每條指令令職能處處理一個個數(shù)據(jù)DB2BLU七大特點點之三:充分利利用CPU的SIMD特性利用SingleInstructionMultipleData((SIMD)特性增加加性能DB2BLU能夠在一一個指令令中同時時對多個個數(shù)據(jù)進進行操作作包括比較較,Join,分組和數(shù)數(shù)學計算算Compare=2005Compare=2005Compare=20052001指令結(jié)果數(shù)據(jù)200220032004200520052006200720082009201020112012Processor
CoreCompare=20052001指令結(jié)果數(shù)據(jù)200220032004200520062007Compare=2005Compare=2005Compare=2005Compare=2005Compare=2005Compare=20052005Processor
CoreDB2BLU七大特點點之四:內(nèi)核友好好的并行行化更加關(guān)注注于服務(wù)務(wù)器的硬硬件設(shè)計計因素DB2BLU中對表的的查詢將將自動以以并行化化的方式式處理將CPU緩存,高高速緩存存塊(cacheline)的效率率最大化化QUADCORECPUQUADCORECPUQUADCORECPUQUADCORECPU?2013IBMCorporation44DB2BLU七大特點點之五:列式存儲儲?2013IBMCorporation44?2013IBMCorporation44減少I/O只處理查查詢關(guān)注注的列中中的數(shù)據(jù)據(jù)直接對相相關(guān)列進進行運算算所有的運運算,Join僅對關(guān)注注列進行行在必須返返回結(jié)果果集前,,數(shù)據(jù)將將不會組組合成行行的形式式提高內(nèi)存存中的數(shù)數(shù)據(jù)密度度列中的數(shù)數(shù)據(jù)在內(nèi)內(nèi)存和存存儲中始始終保持持著壓縮縮的形態(tài)態(tài)卓越的壓壓縮提供更高高的壓縮縮比10:1(DB2BLU))高效的緩緩存數(shù)據(jù)被組組合成利利于緩存存和寄存存器處理理的格式式?2013IBMCorporationDB2BLU七大特點點之六:優(yōu)化內(nèi)存存/緩存管理理?2013IBMCorporation?2013IBMCorporation全新的緩緩存算法法使內(nèi)存存使用更更高效更高的內(nèi)內(nèi)存命中中率新算法盡盡量保證證熱點數(shù)數(shù)據(jù)保存存在內(nèi)存存中數(shù)據(jù)可以以大于內(nèi)內(nèi)存空間間不同于常常見的內(nèi)內(nèi)存數(shù)據(jù)據(jù)庫,數(shù)數(shù)據(jù)不必必完全在在內(nèi)存中中優(yōu)化以減減少內(nèi)存存和存儲儲的I/O交互RAMDISKSNearoptimalcaching?2013IBMCorporationDB2BLU七大特點點之七:數(shù)據(jù)跳跳過?2013IBMCorporation自動監(jiān)測測一段數(shù)數(shù)據(jù)是否否符合查查詢的忽忽略條件件能夠節(jié)省省大量的的I/O,內(nèi)存和和CPU資源不需要數(shù)數(shù)據(jù)庫管管理員進進行任何何定義大數(shù)據(jù)案案例分析析大數(shù)據(jù)實實施案例例:某國外大大型汽車車制造企企業(yè)大數(shù)數(shù)據(jù)平臺臺某市智能能交通項項目50IBMPlatformComputing支持多種種不同金金融應(yīng)用用類型工作負載載MurexMicrosoftExcelSungardFrontArena,AdaptivAlgorithmicsAlgoRiskMillimanHedge,AlfaPolysysMoodys//FermatCalypsoSASEnterpriseMiner//DataMinerSophis//MisysRisqueGGYAxisOpenlinkKondor++RevolutionRISV應(yīng)用軟件件風險估值值VaR(valueatrisk)信用值調(diào)調(diào)整CVA(creditvalueadjustmentsforCCR))資產(chǎn)負債債建模ALM(assetliabilitymodeling)靈敏度分分析信用等級級評分抵押分析析可變年金金建模模型回溯溯測試投資組合合壓力測測試數(shù)據(jù)的提提取,轉(zhuǎn)換和加加載ETL策略提取取Strategymining精算分析析在愛Citi分析網(wǎng)格格Citi–計算和數(shù)數(shù)據(jù)結(jié)合合型網(wǎng)格格系統(tǒng),主要為風風險分析析在一個共共享的網(wǎng)網(wǎng)格資源源里運行行著200以上不同同的BI和零售分分析應(yīng)用用全球動態(tài)態(tài)共享的的40,000cores能夠持續(xù)續(xù)維持70%以上的利利用率超強的管管理效率率–管理者與與主機的的比為1:400作業(yè)吞吐吐量–400,,000,000作業(yè)/天14條不同的的業(yè)務(wù)線線共享著著全球的的HPC資源為每個商商業(yè)業(yè)務(wù)務(wù)單元確確保SLAs時間指標標,實現(xiàn)廣泛泛的資源源共享4個數(shù)據(jù)中中心包含含了異構(gòu)構(gòu)的Linux&&Windows主機,一處在倫倫敦,一處在香香港,還有兩處處在美國國處理國內(nèi)內(nèi)增長的的風險,定價應(yīng)用用和其他他的商務(wù)務(wù)應(yīng)用,與SAS,,Murex等集成.異構(gòu)的工工作內(nèi)容容(批處理,SOA,計劃部署署MapReduce)自定義服服務(wù),報表和退退款實時的監(jiān)監(jiān)控和管管理主機機,所有全球球資產(chǎn)的的完全可可視化針對整個個企業(yè)相相關(guān)應(yīng)用用和風險險控制的的全球資資源分配配方案在數(shù)據(jù)中中心和功功能域基基礎(chǔ)上的的有關(guān)LOBs和應(yīng)用的的彈性的的資源分分配模式式橫跨整個個地域的的有關(guān)LOBs和應(yīng)用的的全球資資源共享享視圖案例分析析–花旗銀行行根據(jù)銀監(jiān)監(jiān)會的要要求,國國內(nèi)商業(yè)業(yè)銀行需需要2015年前滿足足中國版巴巴塞爾協(xié)協(xié)議III對銀行業(yè)業(yè)風險控控制的要要求,國國內(nèi)目前前已經(jīng)有有多家銀銀行使用用Algo風險管理理模塊流動性風風險管理理模型屬屬于計算密集集型,RiskWatch階段占任任務(wù)的95%以上,可可以通過過Symphony將RW作業(yè)并行行化隨著銀行行業(yè)務(wù)及及數(shù)據(jù)量量的增加加,提高高計算效效率只需需要增加加Symphony的計算節(jié)節(jié)點數(shù)目目,可擴擴展性強強銀行業(yè)有有很多計計算模型型都可以以通過Symphony來解決問問題,比比如MOSES,CALYPSO,RMATLAB,RLanguage業(yè)務(wù)場景景FinancialRisks1.選擇感興興趣的地地理區(qū)域域客戶挑戰(zhàn)戰(zhàn):目前基于Algo流動性風風險分析析系統(tǒng)風風險管理理應(yīng)用每每周運行行一次,,每次計計算需要要100++小時,不不能滿足足未來應(yīng)應(yīng)用擴展展和可靠靠性需求求,不能能及時得得出風險險分析結(jié)結(jié)果XX銀行風險險管理系系統(tǒng)-業(yè)務(wù)描述述1/3AlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceSymComputeHosts:6nodes**32cores=192coresSymMasterSchedule,Monitor,ManagementSymMasterCandidateShareStorageSchedule,Monitor,ManagementSchedule,Monitor,ManagementAlgoEngineSymServiceScaleout53AlgoBatchCITICRWAnalysisAlgoEngineClientRequestSingleComputing“使用了PlatformSymphony軟件,計計算機資資源的利利用率大大幅提高高,Algo計算時間間大幅縮縮短,達達到了預(yù)預(yù)期的技技術(shù)指標標,且且Symphony軟件有豐豐富的API接口,易易于集成成其他軟軟件,為為以后的的業(yè)務(wù)拓拓展和升升級留下下了巨大大空間。?!?--客戶證言言方案優(yōu)勢勢:單節(jié)點情情況下客客戶的任任務(wù)需要要100++小時完成成,使用用Symphony后業(yè)務(wù)計計算可以在10小時以內(nèi)內(nèi)完成,,速度提提高10倍以上上;例如::晚上運運行風險險分析任任務(wù),次次日凌晨晨可得到到分析結(jié)結(jié)果,滿滿足業(yè)務(wù)務(wù)需求;可靠性大大大提高高,單一一節(jié)點故故障不影影響整體體系統(tǒng)運運行;銀行業(yè)務(wù)務(wù)數(shù)據(jù)增增加、業(yè)業(yè)務(wù)計算算時間要要求縮短短,可以以通過增增加Symphony的節(jié)點來來完成銀行風險險管理系系統(tǒng)-方案結(jié)構(gòu)構(gòu)2/3CustomerCaseandPainPointSolutionsResultDemoPointsClientuseAlgofortheriskmanagement.It’sbasedonC//SarchitecturerunningSinglenode.Withthebusinessgrowth,,theprocesscyclereached100+hoursperweek.Managementcouldnotgetthereportintheabusinessday.SymphonyScal-outtheAlgoapplicationfromsinglenodeto192nodes.SymphonyactingasmiddlewarerolesgettheAlgoclientinputandschedulethetaskinadistributedgrid..Thetaskscanbeprocessedinthegridconcurrently.SymphonyresponsetoAlgoclientoncethetaskfinished.Showthesingleserverprocessandsayitcannotbefinishedin10hoursandstopit.ShowthesimilarapplicationprocesswithsamedatainSymphonyGridandfinishedin10hours..SeetaskprogressontheGUISeethehostmanagerfromGUISeetheCPU,I/OandshowthefinishtimeClientcangettheresultin10hours.ThetimecanbecontrolledbyaddingmoreserverintheAlgogridwithbusinessgrowthandprocesstimeispredicable..Besides,Symphonyactingasgeneralmiddlewarecanscale-outapplicationlikeMurex,Moses,,Calypso,,Matlab,Retc..銀行風險險管理系系統(tǒng)-案例總結(jié)結(jié)3/3某市人民民檢察院院客戶行為為分析-業(yè)務(wù)流程程說明北京電信信互聯(lián)網(wǎng)網(wǎng)行為標標簽系統(tǒng)統(tǒng),是匯匯聚電信信用戶通通信、終終端等上上網(wǎng)數(shù)據(jù)據(jù),解析析用戶移移動互聯(lián)聯(lián)網(wǎng)流量量行為,,全角度度刻畫用用戶,為為用戶畫畫像,細細分客戶戶群的分分析系統(tǒng),其輸入數(shù)據(jù)據(jù)為北京電電信用戶戶DPI上網(wǎng)基礎(chǔ)礎(chǔ)數(shù)據(jù),,輸出為為用戶行行為分析析統(tǒng)計報報表。主要功能能模塊APP數(shù)據(jù)采集集:根據(jù)目前前各市場場及各省省手機應(yīng)應(yīng)用下載情況,選擇建立立標準APP庫。站點信息息采集::站點信息息定期爬爬取及更更新,建建立標準準URL庫用戶行為為解析識識別:將用戶的的上網(wǎng)訪訪問信息息與app庫進行比比對匹配配,對用用戶日志志進行處處理,解解析用戶戶下載和和使用應(yīng)應(yīng)用產(chǎn)生生的記錄分析統(tǒng)計計輸出::根據(jù)用戶戶的應(yīng)用用下載、、使用行行為,輸輸出滿足足客戶需需求的各各項報表表,并上上傳數(shù)據(jù)據(jù)。性能案例例:(來自文文獻:CloudBurst:highlysensitivereadmappingwithMapReduce):輸入數(shù)據(jù)據(jù):測序序數(shù)據(jù)7.06minllion條36bpreads,人基因因組genome(2.87G)軟件環(huán)境境:Hadoop0.15.3,CloudBurst硬件環(huán)境境:12nodes,24cores(3.2GHzIntelXeon),250G硬盤測試結(jié)果果:如下下圖,橫橫坐標為為reads數(shù),縱坐坐標為運運行時間間,“0、1、2、3、4”為容錯數(shù)數(shù)。
DNA測序分析析平臺::Cloudburst數(shù)據(jù)過濾濾插入/缺缺失識別別基因組學學-SNP分析流程程FastQ-Progressing(MR))FastQC(Single)Crossbow(MR))CloudBurst(MR))Soap2(Single)Crossbow(MR))Soapsnp(Single)融合基因因發(fā)現(xiàn)結(jié)構(gòu)變異異發(fā)現(xiàn)全基因組組關(guān)聯(lián)研研究BlueSNP(MR))輸入文件件用戶期望望和挑戰(zhàn)戰(zhàn):性能案例例中的數(shù)數(shù)據(jù)量((7.06minllion條36bpreads,人基因因組genome,2.87G)在日常常分析的的數(shù)據(jù)量量中算一一般大小小。一般般對兩個個生物學學樣品進進行對照照分析,,每個樣樣品進行行三次重重復(fù),產(chǎn)產(chǎn)生6倍于性能能案例中中的數(shù)據(jù)據(jù)量。而而CloudBurst所做的map工作,僅僅為分析析流程中中的一步步,用戶戶希望盡盡快得到到結(jié)果進進行下一一步工作作,故6倍數(shù)據(jù)的的期望運運行時間間為2-3h。reads比比對SNP識識別質(zhì)量控制制DNA測序:確定序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年化學工程高級職稱評審資料與模擬題庫
- 客服專員培訓內(nèi)容
- 2026年北京社會管理職業(yè)學院單招綜合素質(zhì)筆試參考題庫含詳細答案解析
- 2026年安徽糧食工程職業(yè)學院高職單招職業(yè)適應(yīng)性測試備考試題及答案詳細解析
- 2026年常州工程職業(yè)技術(shù)學院單招綜合素質(zhì)筆試參考題庫含詳細答案解析
- 2026年江西藝術(shù)職業(yè)學院單招綜合素質(zhì)筆試參考題庫含詳細答案解析
- 2026年寧夏建設(shè)職業(yè)技術(shù)學院單招綜合素質(zhì)筆試模擬試題含詳細答案解析
- 2026紹興理工學院招聘32人考試重點題庫及答案解析
- 2026年安徽醫(yī)學高等專科學校單招職業(yè)技能考試參考題庫含詳細答案解析
- 2026年江西應(yīng)用工程職業(yè)學院單招職業(yè)技能考試備考試題含詳細答案解析
- 床上運動及轉(zhuǎn)移技術(shù)課件
- 子宮腺肌癥術(shù)后護理
- 獨資股東協(xié)議書范本
- 2024-2025蘇教版小學數(shù)學二年級上冊期末考試測試卷及答案(共3套)
- 光伏發(fā)電項目風險
- 風力發(fā)電項目分包合同施工合同
- GB/T 8607-2024專用小麥粉
- 新版外國人永久居住身份證考試試題
- 2024年中考數(shù)學復(fù)習:瓜豆原理講解練習
- 高一歷史期末試題中國近現(xiàn)代史
- (高清版)DZT 0210-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硫鐵礦
評論
0/150
提交評論