大數據技術專題研究_第1頁
大數據技術專題研究_第2頁
大數據技術專題研究_第3頁
大數據技術專題研究_第4頁
大數據技術專題研究_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術專題研究2017.3.3大數據概述1大數據主要技術、廠商、產品2目錄能力儲備分析3討論4大數據概述大數據概念大數據(bigdata)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據概述體量大Volume類型多Variety價值密度低Value速度快Velocity非結構化數據的超大規(guī)模和增長總數據量的80~90%比結構化數據增長快10倍到50倍是傳統(tǒng)數據倉庫的10倍到50倍大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效大數據的4V特性文件存儲數據分析數據計算數據存儲平臺管理數據集成數據源Database

Web

Log…現代數據處理

能力組件現代數據處理框架

計算存儲}容錯}}大數據概述大數據的三大關鍵問題——存儲、計算、容錯大數據概述大數據產業(yè)大數據產業(yè)是指一切與支撐大數據組織管理和價值發(fā)現相關的企業(yè)經濟活動的集合產業(yè)鏈環(huán)節(jié)包含內容IT基礎設施層包括提供硬件、軟件、網絡等基礎設施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務的企業(yè),比如,提供數據中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數據源層大數據生態(tài)圈里的數據提供者,是生物大數據(生物信息學領域的各類研究機構)、交通大數據(交通主管部門)、醫(yī)療大數據(各大醫(yī)院、體檢機構)、政務大數據(政府部門)、電商大數據(淘寶、天貓、蘇寧云商、京東等電商)、社交網絡大數據(微博、微信、人人網等)、搜索引擎大數據(百度、谷歌等)等各種數據的來源數據管理層包括數據抽取、轉換、存儲和管理等服務的各類企業(yè)或產品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數據庫和數據倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數據分析層包括提供分布式計算、數據挖掘、統(tǒng)計分析等服務的各類企業(yè)或產品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數據挖掘工具Weka、數據可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數據平臺層包括提供數據分享平臺、數據分析平臺、數據租售平臺等服務的企業(yè)或產品,比如阿里巴巴、谷歌、中國電信、百度等數據應用層提供智能交通、智慧醫(yī)療、智能物流、智能電網等行業(yè)應用的企業(yè)、機構或政府部門,比如交通主管部門、各大醫(yī)療機構、菜鳥網絡、國家電網等大數據概述大數據與云計算、物聯網的關系云計算、大數據和物聯網代表了IT領域最新的技術發(fā)展趨勢,三者相輔相成,既有聯系又有區(qū)別云計算實現了通過網絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。云計算關鍵技術包括:虛擬化、分布式存儲、分布式計算、多租戶等。云計算大數據概述大數據與云計算、物聯網的關系云計算、大數據和物聯網代表了IT領域最新的技術發(fā)展趨勢,三者相輔相成,既有聯系又有區(qū)別物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯在一起,形成人與物、物與物相聯,實現信息化和遠程管理控制。物聯網中的關鍵技術包括識別和感知技術(二維碼、RFID、傳感器等)、網絡與通信技術、數據挖掘與融合技術等。物聯網大數據概述大數據與云計算、物聯網的關系大數據概述1大數據主要技術、廠商、產品2目錄能力儲備分析3討論4大數據主要技術技術體系數據安全技術系統(tǒng)運維技術大數據主要技術主要技術說明數據采集技術通過ETL抽取、文件適配器、網絡抓取、實時數據采集等多種技術從外部數據源導入結構化數據(關系庫記錄)、半結構化數據(日志、郵件等)、非結構化數據(文件、視頻、音頻、網絡數據流等)及實時數據。數據存儲技術負責進行大數據的存儲,針對全數據類型和多樣計算需求,以海量規(guī)模存儲、快速查詢讀取為特征,存儲來自外部數據源的各類數據,支撐數據處理層的高級應用。數據處理技術對多樣化的大數據進行加工、處理、分析、挖掘,產生新的業(yè)務價值,發(fā)現業(yè)務發(fā)展方向,提供業(yè)務決策依據。數據可視化技術是關于數據之視覺表現形式的研究,主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息數據安全技術解決從大數據環(huán)境下的數據采集、存儲、分析、應用等過程中產生的諸如身份驗證、授權過程和輸入驗證等大量安全問題。由于在數據分析、挖掘過程中涉及企業(yè)各業(yè)務的核心數據,防止數據泄露,控制訪問權限等安全措施在大數據應用中尤為關鍵。系統(tǒng)運維技術全面監(jiān)測大數據處理全過程中各參與方的整體狀態(tài),支持大數據應用功能的配置化定義,可快速擴展應用功能。技術分類大數據主要技術兩大核心技術分布式存儲分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數據庫)NewSQL(如:SQLAzure)MapReduce大數據大數據主要技術hadoopHDFS(HadoopDistributedFileSystem)sparkopenstackMapReduceStormHPCCNoSqlgfsApacheDrillRapidMinerPentahoBIZookeeper關鍵技術介紹大數據主要技術關鍵技術介紹-Hadoop一個分布式系統(tǒng)基礎架構,由Apache基金會所開發(fā)。Hadoop實現了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統(tǒng)中的數據。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。大數據主要技術關鍵技術介紹-HDFSHadoopDistributedFileSystem,簡稱HDFS[1],是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerant)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現流的形式訪問(streamingaccess)文件系統(tǒng)中的數據。HDFS開始是為開源的apache項目nutch的基礎結構而創(chuàng)建,HDFS是hadoop項目的一部分,而hadoop又是lucene的一部分。大數據主要技術關鍵技術介紹-NoSQLNoSQL(NoSQL=NotOnlySQL),意即“不僅僅是SQL”,是一項全新的數據庫革命性運動,早期就有人提出,發(fā)展至2009年趨勢越發(fā)高漲NoSQL的擁護者們提倡運用非關系型的數據存儲,相對于鋪天蓋地的關系型數據庫運用,這一概念無疑是一種全新的思維的注入。可以處理超大量的數據。NoSQL對大型企業(yè)來說還不是主流。大數據主要技術關鍵技術介紹–其他大數據廠商及產品大數據廠商及產品1.大數據基礎設施類1)硬件類主要廠商有華為、中興、聯想、浪潮、IBM、HP、戴爾等。2)軟件類基于大數據基礎設施提供云服務的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等。軟件類主要廠商有達夢、南大通用、人大金倉、博曉通等。大數據廠商及產品2.大數據分析類1)分析解決方案在這里,最耀眼的明星當屬Hadoop,Hadoop已被公認為是新一代的大數據處理平臺,Cloudera、Hortonworks、MapR、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。其他還包括HP的Vertica、EMC的GreenplumHD、IBM的BigInsights、用友、久其、永洪科技、星

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論