大數(shù)據(jù)的時代已經(jīng)到來_第1頁
大數(shù)據(jù)的時代已經(jīng)到來_第2頁
大數(shù)據(jù)的時代已經(jīng)到來_第3頁
大數(shù)據(jù)的時代已經(jīng)到來_第4頁
大數(shù)據(jù)的時代已經(jīng)到來_第5頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)的時代已經(jīng)到來1、11月4日下午科學會堂,我參加了由上??茖W技術協(xié)會主辦的講座,主題為“大數(shù)據(jù)新技術應用與展望”,這次講座由上海交通大學教授、博導、上海市計算機學會副理事長傅育熙先生主持,演講的嘉賓有三位,他們分別是原中國工程院副院長、中國工程院院士鄔賀銓先生、澳大利亞科學院院士、澳大利亞工程院院士、澳大利亞研究委員會桂冠教授,顧敏先生和德國國家科學工程院院士、德國IT首席科學家、德國波茨坦大學哈索-普拉特納研究院院長,梅內(nèi)爾先生。6、在了解講座的內(nèi)容之前,我們先來了解一下什么是大數(shù)據(jù)?大數(shù)據(jù)技術(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,

2、在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。(在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的大數(shù)據(jù)時代中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。)大數(shù)據(jù)的4V特點,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”Volume(大

3、量)、Velocity(高速)、Variety(多樣)、value(價值)。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。7、大數(shù)據(jù)最核心的價值大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進行存儲和分析。相比起現(xiàn)有的其他技術而言,大數(shù)據(jù)的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。 8、關于大數(shù)據(jù)的歷史早在1980年,著名未來學家阿爾文托夫勒便在第三次浪潮一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“163大數(shù)據(jù)”才成為互

4、聯(lián)網(wǎng)信息技術行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。 9、大數(shù)據(jù)的意義對于“大數(shù)據(jù)”(Big data)研究機構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于

5、對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。 從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。 9、大數(shù)據(jù)需要特殊的技術,以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。

6、 最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算: 8 bit = 1 Byte 1 KB = 1,024 Bytes 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,0

7、48,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB 12、大數(shù)據(jù)的用途大數(shù)據(jù)可分成大數(shù)據(jù)技術、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、

8、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。有些例子包括網(wǎng)絡日志,RFID,傳感器網(wǎng)絡,社會網(wǎng)絡,社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。13、大數(shù)據(jù)的應用洛杉磯警察局和加利福尼亞大學合作利用大數(shù)據(jù)預測犯罪的發(fā)生。Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。統(tǒng)計學家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預測2012美國選

9、舉結(jié)果。麻省理工學院利用手機定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調(diào)價。PredPol Inc. 公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數(shù)據(jù)來預測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。利用起互聯(lián)網(wǎng)大數(shù)據(jù),對消費者的喜好進行判定。商戶可以為消費者定制相應的獨特的個性服務,甚至可以在一些商品或者服務上匹配用戶心情等等。商家還可以根據(jù)大數(shù)據(jù)為消費者提供其可能會喜好的特色產(chǎn)品,活動,小而美

10、的小眾商品等等 。地產(chǎn)業(yè)的升級改造,具有令人興奮的商業(yè)前景。一個Shopping Mall的投資往往高達數(shù)十億元,設想一下,如果智能化升級能夠讓一個Shopping Mall的顧客數(shù)量和人均消費提升30%-50%,為此投入幾百萬元甚至上千萬元對于投資方來說非常劃算,那么僅僅針對國內(nèi)Shopping Mall的智能化升級就是一個千億元級別的市場?!按髷?shù)據(jù)”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個行業(yè)自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業(yè)務的快速。大數(shù)據(jù)已經(jīng)出現(xiàn),因為我們生

11、活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯(lián)網(wǎng)?;旧?,人們比以往任何時候都與數(shù)據(jù)或信息交互。 1990年至2005年,全球超過1億人進入中產(chǎn)階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的信息增長。思科公司預計,到2013年,在互聯(lián)網(wǎng)上流動的交通量將達到每年667艾字節(jié)。大數(shù)據(jù),其影響除了經(jīng)濟方面的,它同時也能在政治、文化等方面產(chǎn)生深遠的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當下“大社會”的集中體現(xiàn),三分技術,七分數(shù)據(jù),得數(shù)據(jù)者得天下。大數(shù)據(jù)時代可以給我們帶來什么便利呢?在講座中,這三位院士向我們介紹了大數(shù)據(jù)技術發(fā)展趨勢和前景。當今社會,計

12、算機和網(wǎng)絡等技術的迅猛發(fā)展,信息量急遽增長,人類社會已進入一個大數(shù)據(jù)時代,大數(shù)據(jù)產(chǎn)業(yè)面臨著不同的機遇和挑戰(zhàn)。為滿足大數(shù)據(jù)的PB(百萬GB)容量的需求,通常大數(shù)據(jù)中心占地龐大,能源消耗巨大。這個時候就要靠新技術讓大數(shù)據(jù)派上用場。從1950年首臺巨無霸型計算機問世,到如今人們掌上的手機,計算機技術發(fā)展突飛猛進,計算機中的軟件也從單機到復雜。這些終端每天產(chǎn)生的數(shù)據(jù)也從早年阿波羅分析器的4k,到如今智能手機的上百萬行,計算機能力飛速演進標志著大數(shù)據(jù)時代的到來。馬路上的攝像頭日以繼夜在拍攝,這些沒有起點也沒有終點的“活”數(shù)據(jù)如何為人所用?鄔賀銓說,信息融合與信息抽取的技術可以讓人們不再大海撈針。比如,以

13、色列特拉維夫?qū)崟r路況信息傳輸?shù)今{駛員的手機上,將整個城市攝像頭的大數(shù)據(jù)可視化,讓數(shù)據(jù)派上了用場。在很多行業(yè),大數(shù)據(jù)都得到了應用,鄔賀銓舉了一個大數(shù)據(jù)推動生產(chǎn)個性化的例子。某服裝公司累積了超過200萬名顧客個性化定制的版型數(shù)據(jù),包括款式(領型、袖型、扣型、口袋、衣片組合等)和工藝數(shù)據(jù),用這些數(shù)據(jù)建立了個性化量身定制服裝數(shù)據(jù)系統(tǒng)。只需將顧客的數(shù)據(jù)輸入系統(tǒng)自動建模,就能形成專屬于該顧客的版型,并將成衣數(shù)據(jù)分解到各個工序,跟隨電子標簽流轉(zhuǎn)到車間每個工位。GE公司在每一個飛機引擎上安裝了20個傳感器,在飛行過程中通過衛(wèi)星回傳收集到引擎狀態(tài)的數(shù)據(jù),每個引擎飛行1小時就會產(chǎn)生20TB的數(shù)據(jù),通過對數(shù)據(jù)的分

14、析,就能提前1個月預測引擎的維護需求。美國雷神公司的導彈工廠自動保留了每個導彈的數(shù)據(jù),包括配件和操作員,濕度及溫度,當發(fā)生錯誤時,有助于找出究竟是哪個環(huán)節(jié)出了問題。梅內(nèi)爾也介紹說,德國將大數(shù)據(jù)應用到癌癥病人的治療中,用內(nèi)存技術可以將原本需要花上幾周時間的基因分析縮短到幾秒內(nèi)完成,讓癌癥病人盡快得到救治。大數(shù)據(jù)很有用,但是這么龐大的數(shù)據(jù),我們怎么來存儲呢?院士們說:拯救大數(shù)據(jù)時代靠光盤。用光盤存儲大數(shù)據(jù)?這或許不是天方夜譚。如今存放高清電影的藍光DVD光盤,通常容量規(guī)格是20個GB,而納米層面的超級光盤可以達到100萬個 GB的容量,刻錄下原先5萬倍的內(nèi)容。顧敏在報告中說,數(shù)據(jù)產(chǎn)業(yè)巨頭建設的P級數(shù)據(jù)中心,總面積足有一個足球場大小。在數(shù)據(jù)中心成百上千的服務器機柜內(nèi),存儲介質(zhì)與常用硬盤一樣,都是磁盤。他說,美國全國用電量的3%是花在存儲大數(shù)據(jù)上的,而磁盤的壽命通常也就三五年,到第3年,就要用新的盤重新存儲一次,并且這個過程會流失20%的資料,沒有可持續(xù)性。光盤的存儲密度已到極限,無法與時俱進?顧敏解釋說,光盤靠光點存儲數(shù)據(jù),激光刻錄的光點越多越密,存儲數(shù)據(jù)就越多。一根頭發(fā)絲直徑約10萬個納米,“藍光碟”的光點直徑只有250納米,而運用今年獲諾貝爾獎的項目“超分辨率熒光顯微技術”超級

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論