大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析_第1頁
大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析_第2頁
大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析_第3頁
大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析_第4頁
大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

K2MG-E《專業(yè)技術人員績效管理與業(yè)務能力提升》練習與答案K2MG-E《專業(yè)技術人員績效管理與業(yè)務能力提升》練習與答案大數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析大數(shù)據(jù)的概念產(chǎn)生的背景與意義上世紀60年代到80年代早期,企業(yè)在大型機上部署財務、銀行等關鍵應用系統(tǒng),存儲介質(zhì)包括磁盤、磁帶、光盤等。盡管當時人們稱其為大數(shù)據(jù),但以今日的數(shù)據(jù)量來看,這些數(shù)據(jù)無疑是非常有限的。隨著PC的出現(xiàn)和應用增多,企業(yè)內(nèi)部出現(xiàn)了很多以公文檔為主要形式的數(shù)據(jù),包括Word、Excel文檔,以及后來岀現(xiàn)的圖片、圖像、影像和音頻等。此時企業(yè)內(nèi)部生產(chǎn)數(shù)據(jù)的已不僅是企業(yè)的財務人員,還包括大量的辦公人員,這極大地促進了數(shù)據(jù)量的增長?;ヂ?lián)網(wǎng)的興起則促成了數(shù)據(jù)量的第三次大規(guī)模增長,在互聯(lián)網(wǎng)的時代,幾乎全民都在制造數(shù)據(jù)。而與此同時,數(shù)據(jù)的形式也極其豐富,既有社交網(wǎng)絡、多媒體等應用所主動產(chǎn)生的數(shù)據(jù),也有搜索引擎、網(wǎng)頁瀏覽等被動行為過程中被記錄、搜集的數(shù)據(jù)。時至今日,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算應用的進一步豐富,數(shù)據(jù)已呈指數(shù)級的增長,企業(yè)所處理的數(shù)據(jù)已經(jīng)達到PB級,而全球每年所產(chǎn)生的數(shù)據(jù)量更是到了驚人的ZB級。在數(shù)據(jù)的這種爆炸式增長的背景下,“大數(shù)據(jù)”的槪念逐漸在科技界、學術界、產(chǎn)業(yè)界引起熱議。在大數(shù)據(jù)時代,我們分析的數(shù)據(jù)因為“大”,擺脫了傳統(tǒng)對隨機采樣的依賴,而是而對全體數(shù)據(jù);因為所有信息都是“數(shù)”,可以不再糾結具體數(shù)據(jù)的精確度,而是坦然而對信息的混雜:信息之“大”之“雜”,讓我們分析的“據(jù)”也由傳統(tǒng)的因果關系變?yōu)橄嚓P關系。大數(shù)拯熱潮的掀起讓中國期待“彎道超越”的機會,創(chuàng)造中國IT企業(yè)從在紅海領域苦苦掙扎轉(zhuǎn)向在藍海領域奮起直追的戰(zhàn)略機遇。傳統(tǒng)IT行業(yè)對于底層設備、基礎技術的要求非常髙,企業(yè)在起點落后的情況下始終疲于追趕。每當企業(yè)在耗費大量人力、物力、財力取得技術突破時,IT革命早已將核心設備或元件推進至下一階段。這種一步落后、處處受制于人的狀態(tài)在大數(shù)據(jù)時代有望得到改變。大數(shù)據(jù)對于硬件基礎設施的要求相對較低,不會受困于基礎設備核心元件的相對落后。與在傳統(tǒng)數(shù)拯庫操作層面的技術差距相比,大數(shù)據(jù)分析應用的中外技術差距要小得多。而且,美國等傳統(tǒng)IT強國的大數(shù)據(jù)戰(zhàn)略也都處于摸著石頭過河的試錯階段。中國市場的規(guī)模之大也為這一產(chǎn)業(yè)發(fā)展提供了大空間、大平臺。大數(shù)據(jù)對于中國企業(yè)不僅僅是信息技術的更新,更是企業(yè)發(fā)展戰(zhàn)略的變革。隨著對大數(shù)據(jù)的獲取、處理、管理等各個角度研究的開展,企業(yè)逐漸認識數(shù)據(jù)已經(jīng)逐漸演變成“數(shù)拯資產(chǎn)”。任何硬件、軟件及服務都會隨著技術發(fā)展和需求變化逐漸被淘汰,只有數(shù)據(jù)才具有長期可用性,值得積累。數(shù)拯是企業(yè)的核心資產(chǎn),可以是也應該是獨立于軟硬件系統(tǒng)及應用需求而存在的。大數(shù)據(jù)是信息技術演化的最新產(chǎn)物,確立了數(shù)據(jù)這一信息技術元素的獨立地位。正因為數(shù)據(jù)不再是軟硬件及應用的附屬產(chǎn)物,才有了今天爆炸式的數(shù)據(jù)增長,從而奠圧了大數(shù)據(jù)的基礎。為了充分利用數(shù)據(jù)資產(chǎn),大數(shù)據(jù)產(chǎn)業(yè)也呼之欲出。大數(shù)拯時代來臨,使商業(yè)智能、信息安全和云計算具有更大潛力。大數(shù)據(jù)產(chǎn)業(yè)鏈按產(chǎn)品形態(tài)分為硬件、基礎軟件和應用軟件三大領域,商業(yè)智能、信息安全和云計算主橫跨三大領域,將構成產(chǎn)業(yè)鏈中快速發(fā)展的三駕馬車。就國內(nèi)而言,商業(yè)智能市場已步入成長期,預il?未來3年復合年均增長率(CAGR)為35%,“十二五”期間潛在產(chǎn)值將超300億元;信息安全預計未來3年CAGR有望保持35%?40%的快速增長,“十二五”期間潛在產(chǎn)值將超4000億元云計算剛進入成長期,預計未來5年CAGR將超50%,2015年產(chǎn)業(yè)規(guī)模預計將達1萬億元。大數(shù)擄處理的基礎設施數(shù)1據(jù)倉庫、以物聯(lián)網(wǎng)為代表的數(shù)據(jù)收集環(huán)肖、實時性強的在線數(shù)據(jù)分析工具,以及數(shù)據(jù)可視化的產(chǎn)品呈現(xiàn),數(shù)據(jù)挖掘的應用在營銷、銷售、人力資源、電子商務等各個商業(yè)領域廣泛開展,大數(shù)據(jù)為個性化營銷和精準化推薦提供了充足的養(yǎng)分和可持續(xù)發(fā)展的沃土。同時大數(shù)據(jù)研究會給企業(yè)管理變革帶來巨大沖擊。對現(xiàn)代企業(yè)的管理運作理念、組織業(yè)務流程、市場營銷決策以及消費者行為模式等產(chǎn)生巨大影響,使得企業(yè)商務管理決策越來越依賴于數(shù)據(jù)分析而非經(jīng)驗甚至直覺。大數(shù)據(jù)將催生由信息驅(qū)動的的商業(yè)模式,在企業(yè)的價值鏈中發(fā)揮中間作用,通過商業(yè)交易創(chuàng)建極具價值的“排岀數(shù)據(jù)”:數(shù)據(jù)驅(qū)動的決策制定,利用可控實驗,企業(yè)能夠驗證假設、分析結果以指導投資決策及運作改變;利用大數(shù)據(jù)進一步提高算法和機器分析的作用,避免成本髙昂的人工干預,肖約成本,提高效益。國內(nèi)外研究進展“大數(shù)據(jù)”這個概念早在上個世紀的1980年,著名未來學家阿爾文?托夫勒便在《第三次浪潮》一書中,

就將“大數(shù)拯”熱情地贊頌為“第三次浪潮的華彩樂章”。2008年9月《科學》(Science)雜志發(fā)表了一篇文章**BigData:ScienceinthePetabyteEra"大數(shù)據(jù)"這個詞開始被廣泛傳播。目前國內(nèi)外的專家學者對大數(shù)據(jù)只是在數(shù)拯規(guī)模上達成共識:“超大規(guī)?!北硎镜氖荊B級別的數(shù)據(jù),“海呈:”表示的是TB級的數(shù)據(jù),而“大數(shù)據(jù)”則是PB級別及其以上的數(shù)據(jù)。但對其的準確泄義給出的結論不一。美國國家科學基金會(NSF)則將大數(shù)據(jù)左義為“由科學儀器、傳感設備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡點擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復雜、長期的分布式數(shù)據(jù)集”。Wiki對大數(shù)據(jù)的左義為:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。麥肯錫全球數(shù)據(jù)分析研究所在2011年5月發(fā)表的一篇論文中所說:"大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫工具收集、存儲、管理和分析能力的數(shù)據(jù)集?!钡瑫r指出'‘大數(shù)據(jù)”并非總是說有數(shù)百個TB才算得上。根據(jù)實際使用情況,有時候數(shù)百個GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個維度,也就是速度或者時間維度。權威IT研究與顧問咨詢公司Gartner將大數(shù)據(jù)定義為“在一個或多個維度上超出傳統(tǒng)信息技術的處理能力的極端信息管理和處理問題”。IBM公司把大數(shù)據(jù)概括為規(guī)模Volume快速Velocity和多樣Variety,即3V,而4V則是3V的基礎上多一個Value價值。具體來講,Volume指數(shù)據(jù)量極大并仍在持續(xù)增大:Velocity指所需的處理速度快,響應時間短;Variety指數(shù)據(jù)類型繁多,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)甚至是非結構化數(shù)據(jù)(以此區(qū)分大數(shù)據(jù)與海量數(shù)據(jù)兩個概念);Value指價值密度低,以視頻為例,不間斷的監(jiān)控錄像中,有用的數(shù)據(jù)長度可能僅有一兩秒。由以上概念的差異可以看岀目前主要從數(shù)據(jù)來源和數(shù)據(jù)的處理工具與處理難度兩個方而對大數(shù)據(jù)進行怎義。但是這種左義方式會和期一個詞發(fā)生混淆一一海量數(shù)據(jù)。有文獻指岀大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù),這一公式是否成立還待進一步討論。如今“海量數(shù)據(jù)”研究方向主要考慮各種非結構化數(shù)據(jù)的有效管理、多數(shù)拯源的集成問題。由此看來能區(qū)別兩次還需要借助IBM關于大數(shù)拯4V特征,尤其是其中的Velocityo強調(diào)數(shù)據(jù)是快速動態(tài)變化的,形成流式數(shù)拯則是大數(shù)據(jù)區(qū)別于其他槪念的最重要的特征。國外除在大數(shù)據(jù)的概念上的研究外,重點放在技術研究。美國政府六個部門啟動的大數(shù)據(jù)研究訃劃中,除了2K2MG-E畫匕業(yè)技術人員績效管理L業(yè)務能力捉升》練習「答案國家科學基金會的研究內(nèi)容提到要“形成一個包括數(shù)學、統(tǒng)計基礎和計算機算法的獨特學科”夕卜,絕大多數(shù)研究項目都是應對大數(shù)據(jù)帶來的技術挑戰(zhàn),重視的是數(shù)據(jù)工程而不是數(shù)據(jù)科學,主要考慮大數(shù)據(jù)分析算法和系統(tǒng)的效率。在國內(nèi),“大數(shù)據(jù)”尚未直接以專有名詞被我國政府提出并給予政策支持。因此國內(nèi)學者關于大數(shù)據(jù)概念上的研究并不充分,大多是引用以上立義進行闡釋。同時在國內(nèi)對"海量數(shù)據(jù)”這一說法認同度較高,更習慣將“大數(shù)據(jù)”稱為“海量數(shù)據(jù),并沒有將兩個詞進行明確的區(qū)分。國內(nèi)在大數(shù)據(jù)研究領域的重點在大數(shù)據(jù)與云訃算、數(shù)據(jù)挖掘,并行計算和分布式處理,應用式主要集中在地理信息系統(tǒng)。發(fā)展動態(tài)(1) 資源的管理與利用。數(shù)據(jù)作為一種重要的資源,對它價值的挖掘利用具有非常重要的意義,因此一直是該領域的研究重點。研究主要涉及到數(shù)字處理、數(shù)據(jù)分析以及數(shù)據(jù)挖掘,尤其是從海量、復雜、實時的大數(shù)據(jù)中挖掘知識,可見,對海量數(shù)據(jù)價值的挖掘、發(fā)現(xiàn)和創(chuàng)造價值一直是當前的研究熱點。同時為了更好地建設數(shù)據(jù)資源,對數(shù)拯的組織和存儲顯得尤為重點,于是相應地也成為研究熱點,如元數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)拯存儲等。(2) 信息服務。數(shù)據(jù)組織和建設的主要目的便是開展服務。相關研究主要涉及到地理信息系統(tǒng)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、遙感、數(shù)字城帀、商業(yè)智能等方面。而物聯(lián)網(wǎng)一直是重點關注的新產(chǎn)業(yè),對于數(shù)字城市及智蔥城市的謀劃建設更強調(diào)數(shù)據(jù)的價值。此外,統(tǒng)計還發(fā)現(xiàn),中國移動、中國電信以及金融領域更注重從數(shù)據(jù)分析挖掘中獲得智慧價值的利用。(3) 行業(yè)調(diào)整。Hadoop邁向商業(yè)化,開源軟件帶來更多相關市場機會,將促使一批新型開放平臺的誕生。同時大數(shù)據(jù)將由網(wǎng)絡數(shù)拯處理走向企業(yè)級應用,企業(yè)逐漸了解到大數(shù)據(jù)并不僅僅指處理網(wǎng)絡數(shù)據(jù),行業(yè)對大數(shù)據(jù)處理的需求也會增加,包括數(shù)據(jù)流檢測和分析。大數(shù)據(jù)將創(chuàng)造出新的細分市場<4)關鍵技術。數(shù)據(jù)的管理和利用離不開技術的支撐,服務質(zhì)量的提髙更禽不開技術的保障。近幾年的研究主要涉及到云計算、Hadoop、MapReduce.并行、分布式、多線程、網(wǎng)格、可視化等技術。尤貝是云計算、MapReduce以及Hadoop帶來的分布式、并行式算法與“海量數(shù)據(jù)”有著密切的關系,而事實上這三者針對的具體目標本來就是大規(guī)模的數(shù)據(jù)。目前存在的主要問題分析(1)研究方法問題大數(shù)拯研究開創(chuàng)了科研的第四范式,與傳統(tǒng)的邏輯推理研究不同,大數(shù)據(jù)研究是對數(shù)量巨大的數(shù)拯做統(tǒng)計性的搜索、比較、聚類和分類等分析歸納,因此繼承了統(tǒng)訃科學的一些特點。統(tǒng)訃學關注數(shù)據(jù)的相關性或稱關聯(lián)性,所謂“相關性”是指兩個或兩個以上變量的取值之間存在某種規(guī)律性,而不再關注因果關系。因果關系的研究曾經(jīng)引發(fā)了科學體系的建立,近代科學體系獲得的成就已經(jīng)證明,科學是研究因果關系最重要的手段。對于相關性研究是可以替代因果分析的科學新發(fā)展還只是因果分析的補充,這是一個大數(shù)據(jù)學術界討論比較激烈的問題。<2)領域融合問題當前大數(shù)據(jù)研究的局而是各個學科的科學家都以自己為主處理本領域的海呈數(shù)據(jù),信息領域的科學家只能尼3K2MG?K2MG?E纟七業(yè)技術人員績效管理U"?務能力提升》練Alt答案44到助手的作用。也就是說,各領域的科學問題還掌握在%學科的科學家手里,計算機科學家所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論