大數據技術的發(fā)展35_第1頁
大數據技術的發(fā)展35_第2頁
大數據技術的發(fā)展35_第3頁
大數據技術的發(fā)展35_第4頁
大數據技術的發(fā)展35_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術發(fā)展數據庫技術發(fā)展歷史無庫時代層次狀數據庫網狀數據庫關系型數據庫分布式數據庫層次型數據庫

關系型數據庫之父:E.F.Codd關系型數據庫

1970年,Codd劃時代的論文《用于大型共享數據庫的關系數據模型》關系與關系代數

SQL之父唐·錢伯林(DonChamberlin),是IBMFellow,ACM及IEEE特別會員。

他是SQL關系數據庫語言的發(fā)明人之一,也是XQuery語言的設計基礎Quilt

語言的發(fā)明人之一。Don擁有加利福尼亞大學博士學位。他目前在

IBMAlmaden研究中心工作,在過去幾年中,他代表IBM參與W3CXMLQuery

工作組的工作。左起EdOates、BruceScott、BobMiner、LarryEllison

Oracle

CEOLarryEllison變化來了之一:數據量爆炸增長全球每秒鐘發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產生6.3百萬筆訂單…每個月網民在Facebook上要花費7千億分鐘,被移動互聯(lián)網使用者發(fā)送和接收的數據高達1.3EBGoogle上每天需要處理24PB的數據…大數據時代到來變化來只二:非結構化類型增加成主流大數據來源TBPBZBEB大量新數據源的出現(xiàn)則導致了非結構化、半結構化數據爆發(fā)式的增長根據IDC監(jiān)測,人類產生的數據量正在呈指數級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量數據量增加數據結構日趨復雜這些由我們創(chuàng)造的信息背后產生的這些數據早已經遠遠超越了目前人力所能處理的范疇大數據時代已經來臨..大數據的興起“大數據或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規(guī)模巨大到無法通過人工在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息?!保ňS基百科)“大數據是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊?!保ò俣劝倏疲按髷祿侨藗儷@得新認知、創(chuàng)造新價值的源泉,還是改變市場組織機構,以及政府與公民關系的方法

?!保ā洞髷祿r代》)“大數據是數據量在10TB以上、需要采用新興的大數據技術加以收集、處理和應用,以展現(xiàn)更多社會、商業(yè)價值的數據?!保▊€人總結)大數據的詮釋非結構化處理案例(BigTable)數據變革的現(xiàn)實驅動力數據量爆炸性增長

需要分布式存儲數據類型增加需要半結構化存儲數據模型日漸復雜弱化關聯(lián)的需求PC服務器成本下降PC服務器大行其道數據變革的理論驅動力-CAP理論CAP(Consistency,Availability,Patitiontolerance)又叫做布魯爾定理(Brewer'stheorem),它指出對于一個分布式計算系統(tǒng)來說,不可能同時滿足以下三點理論論述的是在任何分布式系統(tǒng)中,只可能滿足一致性,可用性及分區(qū)容忍性三者中的兩者,不可能全部都滿足。所以不用花時間精力在如何滿足所有三者上面。對于分布式數據系統(tǒng),分區(qū)容忍性是基本要求對于大多數web應用,犧牲一致性而換取高可用性,是目前多數分布式數據庫產品的方向。變革的方向NOSQL?NEWSQL?Nosql是notonlysql,并不是沒有sql,是一種菲關系型數據庫Nosql希望從內核與理念上打破關系模型、設計出一套更適合分布式存儲,支持多樣化數據的存儲體系。

MongoDB

Hbase

RedisNEWSQL希望以盡可能兼容原有體系的基礎上,逐漸過渡到分布式存儲VoltDB

MEMsql變革方法縱向擴展(很難分布式部署、無Master架構)

---

橫向擴展分庫分表—分片行式存儲----列式存儲ACID-BASE無需預定義模式、不需建立確定的列NoSQL數據模型及分類NoSQL運動兩個核心理論基礎:Google的BigTable

BigTable提出了一種很有趣的數據模型,它將各列數據進行排序存儲。數據值按范圍分布在多臺機器,數據更新操作有嚴格的一致性保證。Amazon的Dynamo Dynamo使用的是另外一種分布式模型。Dynamo的模型更簡單,它將數據按key進行hash存儲。其數據分片模型有比較強的容災性,因此它實現(xiàn)的是相對松散的弱一致性:最終一致性。NoSQL數據模型及分類

類型部分代表特點列存儲HbaseCassandraHypertable顧名思義,是按列存儲數據的。最大的特點是方便存儲結構化和半結構化數據,方便做數據壓縮,對針對某一列或者某幾列的查詢有非常大的IO優(yōu)勢。文檔存儲MongoDBCouchDB文檔存儲一般用類似json的格式存儲,存儲的內容是文檔型的。這樣也就有有機會對某些字段建立索引,實現(xiàn)關系數據庫的某些功能。key-value存儲TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通過key快速查詢到其value。一般來說,存儲不管value的格式,照單全收。(Redis包含了其他功能)圖存儲Neo4JFlockDBInfoGrid圖形關系的最佳存儲。使用傳統(tǒng)關系數據庫來解決的話性能低下,而且設計使用不方便。對象存儲db4oVersant通過類似面向對象語言的語法操作數據庫,通過對象的方式存取數據。xml數據庫BerkeleyDBXMLBaseX高效的存儲XML數據,并支持XML的內部查詢語法,比如XQuery,Xpath。NoSQL應用現(xiàn)狀

大數據應用領域29綜合來看,未來幾年大數據在商業(yè)智能,公共服務和市場營銷三個領域的應用非常值得看好,大多數大數據案例和預算將發(fā)生在這三個領域。數據來源:CCWResearch,2012/4制造行業(yè)最關注的大數據應用場景大數據應用前景在河北廊坊郊區(qū),農田里安裝了內置攝像頭的傳感器,通過傳感器、攝像頭等終端應用收集、采集農產品的各項指標,并將數據匯聚到云端進行實時監(jiān)測、分析和管理,比如每天的氣溫、濕度、雨量等信息,還向農民發(fā)放智能手機和平板電腦,讓大家隨時記錄工作成果和現(xiàn)場注意到的問題。農業(yè)管理采用條形碼及RFID技術進行記錄、監(jiān)督,從而實現(xiàn)針對生產、收獲、庫存、流通和食品安全等的管理,再根據不同地區(qū)、不同作物類型進行相應的數據信息調整,以便監(jiān)控管理軟件能夠很好地幫助農戶種植和管理作物。糧食安全、農業(yè)結構調整等方面的管理問題,都可通過大數據研究預測和解決。兩會期間,通過“網友熱搜的兩會關鍵詞”,了解老百姓關注的熱點、精神和解讀,為制定工作目標提供決策依據。創(chuàng)建環(huán)境監(jiān)控物聯(lián)網系統(tǒng),利用大數據手段監(jiān)控、評估、分析誘因(地域氣象條件、生產生活方式、植被治理模式,城市建設方式),找到解決方案。政府治理大數據提高政府社會治理水平2009年,Google不借助任何醫(yī)療手段,僅通過5000萬條用戶檢索關鍵詞,比美國疾控中心提前數周預測H1N1流感的爆發(fā)!中英人壽保險有限公司分析客戶多種生活數據(愛好、常瀏覽網站、??垂?jié)目等),找出更有可能患高血壓、糖尿病和抑郁癥的人。醫(yī)療健康通過大數據預測疾病,定位患者商業(yè)營銷淘寶、亞馬遜等電商企業(yè),通過客戶商品瀏覽與購買行為,進行偏好分析,并準確的預測客戶的產品購買意向,進行相關推送。精準營銷:北美折扣零售商Target在完全不和準媽媽對話的前提下,僅分析顧客的購買習慣,并進行“懷孕趨勢”評分,能較準確地預測預產期,以便在孕期寄送相應的優(yōu)惠券。通過客戶行為特征分析,進行產品推薦,實現(xiàn)精準營銷。交易風險監(jiān)控:交易所對于實時交易數據進行及時撲捉,對金融期貨等異常交易行為、持倉、資金、行情風險進行監(jiān)控,及時制止擾亂市場的行為。同時通過對海量交易數據的存儲進行交易反演,旨在挖掘風險監(jiān)控的最優(yōu)閥值,提升風控可靠性。風險溢價計量:在小微企業(yè)業(yè)務方面,銀行可以在準確計量風險溢價的基礎上,構建自動審批模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論