大數(shù)據(jù)技術(shù)與應(yīng)用項目教程 課件 項目1 大數(shù)據(jù)與數(shù)據(jù)治理_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目教程 課件 項目1 大數(shù)據(jù)與數(shù)據(jù)治理_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目教程 課件 項目1 大數(shù)據(jù)與數(shù)據(jù)治理_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目教程 課件 項目1 大數(shù)據(jù)與數(shù)據(jù)治理_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目教程 課件 項目1 大數(shù)據(jù)與數(shù)據(jù)治理_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

知識目標1)熟悉大數(shù)據(jù)發(fā)展與數(shù)字文明時代的概念。2)熟悉大數(shù)據(jù)的狹義定義與廣義定義,熟悉大數(shù)據(jù)3V特征。3)熟悉數(shù)據(jù)結(jié)構(gòu)類型,熟悉數(shù)字化、數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟概念。素養(yǎng)目標1)學習領(lǐng)會習近平同志關(guān)于“數(shù)字文明”的重要論述。2)大數(shù)據(jù)時代,企業(yè)重視數(shù)據(jù)治理,關(guān)注保護隱私,建立長效持續(xù)運營機制。學習目標學習難點1)大數(shù)據(jù)結(jié)構(gòu)類型。2)廣義的大數(shù)據(jù)定義。學習目標如今,人們不再認為數(shù)據(jù)是靜止和陳舊的。數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項重要的經(jīng)濟投入,可以創(chuàng)造新的經(jīng)濟利益。事實上,一旦思維轉(zhuǎn)變過來,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新型服務(wù)。數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知。項目1大數(shù)據(jù)與數(shù)據(jù)治理01智能時代的數(shù)字文明02什么是大數(shù)據(jù)03大數(shù)據(jù)結(jié)構(gòu)類型04數(shù)據(jù)治理及其內(nèi)涵目錄/CONTENTS05大數(shù)據(jù)的由來PART01智能時代的數(shù)字文明生產(chǎn)資料是人類文明的核心。農(nóng)業(yè)時代生產(chǎn)資料是土地,工業(yè)時代生產(chǎn)資料是機器,數(shù)字時代生產(chǎn)資料是數(shù)據(jù)。勞動方式是人類文明的重要表征。漁獵農(nóng)耕時代形成的是以手工勞動為主要方式的“手工文明”,工業(yè)時代發(fā)展為以機器勞動為主要方式的“機器文明”,智能時代則基于數(shù)字勞動而不斷推動和豐富著“數(shù)字文明”。1.1智能時代的數(shù)字文明2021年9月26日,國家主席習近平在向2021年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會致賀信時指出:“中國愿同世界各國一道,共同擔起為人類謀進步的歷史責任,激發(fā)數(shù)字經(jīng)濟活力,增強數(shù)字政府效能,優(yōu)化數(shù)字社會環(huán)境,構(gòu)建數(shù)字合作格局,筑牢數(shù)字安全屏障,讓數(shù)字文明造福各國人民,推動構(gòu)建人類命運共同體?!边@里,“數(shù)字文明”折射出以大數(shù)據(jù)、人工智能等為代表的數(shù)字技術(shù)對世界和人類的影響,在廣度和深度上有了質(zhì)的飛躍,到了塑造一種人類文明新形態(tài)的高度。1.1智能時代的數(shù)字文明習近平主席在賀信中對此有高屋建瓴的解讀:“數(shù)字技術(shù)正以新理念、新業(yè)態(tài)、新模式全面融入人類經(jīng)濟、政治、文化、社會、生態(tài)文明建設(shè)各領(lǐng)域和全過程,給人類生產(chǎn)生活帶來廣泛而深刻的影響?!币詳?shù)字技術(shù)為基座的互聯(lián)網(wǎng),促進交流、提高效率,也在重塑制度、催生變革,更影響社會思潮和人類文明進程。這是不可逆轉(zhuǎn)的時代趨勢。1.1智能時代的數(shù)字文明PART02什么是大數(shù)據(jù)信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機,每個辦公桌上都放著一臺電腦,每間辦公室內(nèi)都連接到局域網(wǎng)甚至互聯(lián)網(wǎng)。半個世紀以來,隨著計算機技術(shù)全面和深度地融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導致了信息形態(tài)的變化——量變引起了質(zhì)變。最先經(jīng)歷信息爆炸的學科,如天文學和基因?qū)W,創(chuàng)造出“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。1.2什么是大數(shù)據(jù)綜合觀察社會各個方面的變化趨勢,我們能真正意識到信息爆炸或者說大數(shù)據(jù)的時代已經(jīng)到來。以天文學為例,2000年斯隆數(shù)字巡天項目啟動的時候,位于新墨西哥州的望遠鏡在短短幾周內(nèi)收集到的數(shù)據(jù),就比世界天文學歷史上總共收集的數(shù)據(jù)還要多。到了2010年,信息檔案已經(jīng)高達1.4×242B。2016年在智利投入使用的大型視場全景巡天望遠鏡能在五天之內(nèi)就獲得同樣多的信息。圖1-1美國斯隆數(shù)字巡天望遠鏡1.2.1信息爆炸的起源天文學領(lǐng)域發(fā)生的變化在社會各個領(lǐng)域都在發(fā)生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了10年才完成30億對堿基對的排序。大約10年之后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數(shù)學模型和算法之上的計算機程序自動完成的,這些程序運用海量數(shù)據(jù)來預(yù)測利益和降低風險。1.2.1信息爆炸的起源互聯(lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒了。谷歌公司每天要處理超過24拍字節(jié)(PB,250B)的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國國家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。臉書(Facebook,2021年10月正式更名為Meta)每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點擊“喜歡”(Like)按鈕或者寫評論大約有30億次,這就為臉書公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。1.2.1信息爆炸的起源YouTube成立于2005年2月15日,2006年11月為谷歌公司收購,是世界上最大的視頻網(wǎng)站之一,每月接待多達8億的訪客,平均每秒就會有一段長度在1h以上的視頻上傳。美國社交網(wǎng)絡(luò)及微博客服務(wù)的網(wǎng)站,也是互聯(lián)網(wǎng)上訪問量最大的十個網(wǎng)站之一的推特(Twitter),其信息量幾乎每年翻一番,每天都會發(fā)布超過4億條微博。從科學研究到醫(yī)療保險,從銀行業(yè)到互聯(lián)網(wǎng),各個不同的領(lǐng)域都在講述著一個類似的故事,那就是爆發(fā)式增長的數(shù)據(jù)量。這種增長超過了人們創(chuàng)造機器的速度,甚至超過了人們的想象。1.2.1信息爆炸的起源我們周圍到底有多少數(shù)據(jù)?增長的速度有多快?許多人試圖測量出一個確切的數(shù)字。盡管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學安能(或納)伯格通信學院的馬丁?希爾伯特進行了一個比較全面的研究,他試圖得出人類所創(chuàng)造、存儲和傳播的一切信息的確切數(shù)目。他的研究范圍不僅包括書籍、圖畫、電子郵件、照片、音樂、視頻(模擬和數(shù)字),還包括電子游戲、電話、汽車導航和信件。馬丁?希爾伯特還以收視率和收聽率為基礎(chǔ),對電視、電臺這些廣播媒體進行了研究,他指出,僅在2007年,人類存儲的數(shù)據(jù)就超過了300EB(1EB=260B)。1.2.1信息爆炸的起源下面這個比喻應(yīng)該可以幫助人們更容易地理解這意味著什么:一部完整的數(shù)字電影可以壓縮成一個GB級大小的文件,而1EB相當于10億GB,1ZB(1ZB=270B)則相當于1024EB??傊?,這是一個非常龐大的數(shù)量。有趣的是,在2007年的數(shù)據(jù)中,只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字數(shù)據(jù)。但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時代”和“數(shù)字村鎮(zhèn)”的概念,在2000年的時候,數(shù)字存儲信息仍只占全球數(shù)據(jù)量的四分之一,當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。1.2.1信息爆炸的起源模擬數(shù)據(jù)也稱為模擬量,相對于數(shù)字量而言,指的是取值范圍是連續(xù)的變量或者數(shù)值,如聲音、圖像、溫度、壓力等。模擬數(shù)據(jù)一般采用模擬信號,例如用一系列連續(xù)變化的電磁波或電壓信號來表示。數(shù)字數(shù)據(jù)也稱為數(shù)字量,相對于模擬量而言,指的是取值范圍是離散的變量或者數(shù)值。數(shù)字數(shù)據(jù)則采用數(shù)字信號或光脈沖來表示,例如用一系列斷續(xù)變化的電壓脈沖(如用恒定的正電壓表示二進制數(shù)1,用恒定的負電壓表示二進制數(shù)0)或光脈沖來表示。早期數(shù)字信息的數(shù)量并不多。1.2.1信息爆炸的起源事實上,在1986年的時候,世界上約40%的計算能力都在袖珍計算器上運行,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計算器處理能力之和高。但是因為數(shù)字數(shù)據(jù)的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數(shù)字數(shù)據(jù)的數(shù)量每三年多就會翻一倍。相反,模擬數(shù)據(jù)的數(shù)量則基本上沒有增加。1.2.1信息爆炸的起源到2013年,世界上存儲的數(shù)據(jù)達到約1.2ZB,其中非數(shù)字數(shù)據(jù)只占不到2%。這樣大的數(shù)據(jù)量意味著什么?如果把這些數(shù)據(jù)全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光盤上,把這些光盤堆成五堆,每一堆都可以伸到月球。1.2.1信息爆炸的起源公元前3世紀,埃及的托勒密二世竭力收集了當時所有的書寫作品,所以偉大的亞歷山大圖書館可以代表世界上所有的知識量。亞歷山大圖書館藏書豐富,有據(jù)可考的超過50000卷(紙草卷),包括《荷馬史詩》《幾何原本》等。但是,當數(shù)字數(shù)據(jù)洪流席卷世界之后,每個地球人都可以獲得大量的數(shù)據(jù)信息,相當于當時亞歷山大圖書館存儲的數(shù)據(jù)總量的320倍之多。信息存儲量在快速增長。人類存儲信息量的增長速度比世界經(jīng)濟的增長速度快4倍,而計算機數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發(fā)展的沖擊。1.2.1信息爆炸的起源歷史學家伊麗莎白?愛森斯坦發(fā)現(xiàn),1453~1503年,這50年之間大約印刷了800萬本書籍,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還占據(jù)了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。這種增長意味著什么呢?1.2.1信息爆炸的起源彼特?諾維格是谷歌的人工智能專家,也曾任職于美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。他首先想到來自法國拉斯科洞穴壁畫上的標志性的馬。這些畫可以追溯到17000年之前的舊石器時代。然后,再想到畢加索畫的馬,看起來和那些洞穴壁畫沒有多大的差別。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以后,我們就再也沒有創(chuàng)造出什么東西了。”圖1-2拉斯科洞穴壁畫1.2.1信息爆炸的起源回想一下壁畫上的那匹馬。當時畫一幅馬需要花費很久的時間,而現(xiàn)在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是彼得·諾維格說,想象一下,現(xiàn)在我們能每秒鐘播放24幅不同形態(tài)的馬的圖片,這就是一種由量變導致的質(zhì)變:一部電影與一幅靜態(tài)的畫有本質(zhì)上的區(qū)別!大數(shù)據(jù)也一樣,量變導致質(zhì)變。物理學和生物學都告訴我們,當我們改變規(guī)模時,事物的狀態(tài)有時也會發(fā)生改變。1.2.1信息爆炸的起源以納米技術(shù)為例。納米技術(shù)專注于把東西變小而不是變大。其原理就是當事物到達分子級別時,它的物理性質(zhì)就會發(fā)生改變。一旦知道這些新的性質(zhì),你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質(zhì),但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質(zhì)就會消失。一旦到達納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數(shù)據(jù)量時,也就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無法完成的事情。1.2.1信息爆炸的起源有時候,我們認為約束自己生活的那些限制,對于世間萬物都有著同樣的約束力。事實上,盡管規(guī)律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對于人類來說,最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控制著我們。但對于細小的昆蟲來說,重力是無關(guān)緊要的。對它們而言,物理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對于表面張力毫不在意。1.2.1信息爆炸的起源大數(shù)據(jù)的科學價值和社會價值正是體現(xiàn)在這里。一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟價值的來源。另一方面,大數(shù)據(jù)已經(jīng)撼動了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟、人文以及社會的其他各個領(lǐng)域。盡管我們還處在大數(shù)據(jù)時代的初期,但我們的日常生活已經(jīng)離不開它了。1.2.1信息爆炸的起源所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對大量數(shù)據(jù)進行分析,并從中獲得有用觀點,這種做法在一部分研究機構(gòu)和大企業(yè)中已經(jīng)存在了。現(xiàn)在的大數(shù)據(jù)和過去相比,主要有三點區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲、處理成本大幅下降;第三,隨著云計算的興起,大數(shù)據(jù)的存儲、處理環(huán)境已經(jīng)不需要自行搭建了。1.2.2大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,指的是用目前在企業(yè)數(shù)據(jù)庫占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫無法進行管理的、具有復雜結(jié)構(gòu)的數(shù)據(jù)。或者是指由于數(shù)據(jù)量的增大,導致對數(shù)據(jù)的查詢響應(yīng)時間超出允許范圍的龐大數(shù)據(jù)。研究機構(gòu)高德納給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。1.2.2大數(shù)據(jù)的定義麥肯錫公司指出:大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力。這是一個被故意設(shè)計成主觀性的定義,并且是一個關(guān)于多大的數(shù)據(jù)集才能被認為是大數(shù)據(jù)的可變定義,即并不定義大于一個特定數(shù)字的TB才叫大數(shù)據(jù)。因為隨著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標準的數(shù)據(jù)集容量也會增長;并且定義隨不同的行業(yè)也有變化,這依賴于在一個特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB。1.2.2大數(shù)據(jù)的定義隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價值的利用正逐漸成為行業(yè)人士爭相追捧的利潤焦點,在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。1.2.2大數(shù)據(jù)的定義從字面來看,“大數(shù)據(jù)”這個詞可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量,就無法深入理解當前圍繞大數(shù)據(jù)所進行的討論。因為“用現(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。1.2.3用3V描述大數(shù)據(jù)特征IBM說:可以用3個特征相結(jié)合來定義大數(shù)據(jù):即數(shù)量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),簡稱為3V,即龐大容量、種類豐富和極快速度的數(shù)據(jù)。1.2.3用3V描述大數(shù)據(jù)特征1.數(shù)量用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當然,隨著技術(shù)的進步,這個數(shù)值也會不斷變化。如今,存儲的數(shù)據(jù)數(shù)量在急劇增長,人們存儲所有事物,包括環(huán)境、財務(wù)、醫(yī)療、監(jiān)控等數(shù)據(jù)。有關(guān)數(shù)據(jù)量的對話已從TB級別轉(zhuǎn)向PB級別,并且不可避免地會轉(zhuǎn)向ZB級別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻在不斷下降。1.2.3用3V描述大數(shù)據(jù)特征2.種類隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復雜,因為它不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括點擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類表示所有的數(shù)據(jù)類型。其中爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。1.2.3用3V描述大數(shù)據(jù)特征當然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數(shù)據(jù)進行分析,并從中獲得有用的信息。例如監(jiān)控攝像機中的視頻數(shù)據(jù)。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機,最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控攝像機的視頻數(shù)據(jù)來分析顧客購買行為的案例。1.2.3用3V描述大數(shù)據(jù)特征例如,美國高級文具制造商萬寶龍過去是憑經(jīng)驗和直覺來決定商品陳列布局的,現(xiàn)在利用監(jiān)控攝像頭對顧客在店內(nèi)的行為進行分析。通過分析監(jiān)控攝像機的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。美國移動運營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控攝像機,可以統(tǒng)計來店人數(shù),還可以追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機、試用了多長時間等,對顧客在店內(nèi)的購買行為進行分析。1.2.3用3V描述大數(shù)據(jù)特征3.速度數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。就像我們收集和存儲的數(shù)據(jù)量和種類發(fā)生了變化一樣,生成和處理數(shù)據(jù)的速度也在變化。不要將速度的概念限定為與數(shù)據(jù)存儲相關(guān)的增長速率,應(yīng)動態(tài)地將此定義應(yīng)用到數(shù)據(jù),即數(shù)據(jù)流動的速度。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。1.2.3用3V描述大數(shù)據(jù)特征例如,遍布全國的便利店在24h內(nèi)產(chǎn)生的POS機數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點擊流數(shù)據(jù),高峰時達到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。1.2.3用3V描述大數(shù)據(jù)特征4.其他定義IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個V一一Veracity(真實和準確)。IBN認為:只有真實而準確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實性及安全性。1.2.3用3V描述大數(shù)據(jù)特征IDC(國際數(shù)據(jù)公司)認為:大數(shù)據(jù)并不是新生事物。廉價的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動著大數(shù)據(jù)。大數(shù)據(jù)不是一個“事物”,而是一個跨多個信息技術(shù)領(lǐng)域的動力/活動。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計用于通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟地提取價值(Value)?!边@個定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即Volume、Variety和Velocity,還增添了一個新特征:Value。1.2.3用3V描述大數(shù)據(jù)特征大數(shù)據(jù)實現(xiàn)的主要價值可以基于下面3個評價準則中的一個或多個進行評判:1)它提供了更有用的信息嗎?2)它改進了信息的精確性嗎?3)它改進了響應(yīng)的及時性嗎?總之,大數(shù)據(jù)是個動態(tài)的定義,不同行業(yè)根據(jù)應(yīng)用的不同有著不同的理解,其衡量標準也在隨著技術(shù)的進步而改變。1.2.3用3V描述大數(shù)據(jù)特征狹義上,大數(shù)據(jù)的定義著眼于數(shù)據(jù)的性質(zhì)上,而廣義層面上的大數(shù)據(jù)定義為:“所謂大數(shù)據(jù),是一個綜合性概念,它包括因具備3V特征而難以進行管理的數(shù)據(jù),對這些數(shù)據(jù)進行存儲、處理、分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織。”1.2.4廣義的大數(shù)據(jù)“存儲、處理、分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴展性的NoSQL數(shù)據(jù)庫,以及機器學習和統(tǒng)計分析等;“能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進行有效運用的組織。1.2.4廣義的大數(shù)據(jù)PART03大數(shù)據(jù)結(jié)構(gòu)類型大數(shù)據(jù)具有多種形式,從高度結(jié)構(gòu)化的財務(wù)數(shù)據(jù),到文本文件、多媒體文件和基因定位圖的任何數(shù)據(jù),都可以稱為大數(shù)據(jù)。數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。由于數(shù)據(jù)自身的復雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計算的環(huán)境中進行大規(guī)模并行處理,這使得同時發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來處理和分析。1.3大數(shù)據(jù)結(jié)構(gòu)類型大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。圖1-5顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢,由圖1-5可知,未來數(shù)據(jù)增長的80%~90%將來自于不是結(jié)構(gòu)化的數(shù)據(jù)類型(半、準和非結(jié)構(gòu)化)。

圖1-5不同結(jié)構(gòu)類型數(shù)據(jù)增長的增長趨勢1.3大數(shù)據(jù)結(jié)構(gòu)類型雖然圖1-5顯示了4種不同的、相分離的數(shù)據(jù)類型,實際上,這些數(shù)據(jù)類型有時是可以被混合在一起的。例如,有一個傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)保存著一個軟件支持呼叫中心的通話日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時間戳、機器類型、問題類型、操作系統(tǒng),這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術(shù)問題和解決方案的實際通話描述。1.3大數(shù)據(jù)結(jié)構(gòu)類型還有一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實際通話的語音日志或者音頻文字實錄。即使是現(xiàn)在,大多數(shù)分析人員還無法分析這種通話日志歷史數(shù)據(jù)庫中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現(xiàn)自動化。人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來分析。1.3大數(shù)據(jù)結(jié)構(gòu)類型PART04數(shù)字治理及其內(nèi)涵在人們的生活和工作中,數(shù)據(jù)無處不在。通常對企業(yè)來講,數(shù)據(jù)治理的對象是其重要的,關(guān)乎企業(yè)重大商業(yè)利益的數(shù)據(jù)資源,被稱為數(shù)據(jù)資產(chǎn)。本質(zhì)上,數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)的治理,是對數(shù)據(jù)資產(chǎn)所有相關(guān)方利益的協(xié)調(diào)與規(guī)范。1.4數(shù)據(jù)治理及其內(nèi)涵理論上,數(shù)據(jù)資產(chǎn)是指企業(yè)過去的交易或者事項形成的,由企業(yè)擁有或者控制的,預(yù)期會給企業(yè)帶來經(jīng)濟利益的數(shù)據(jù)資源??梢?,數(shù)據(jù)要成為資產(chǎn),至少要滿足3個核心條件:1)數(shù)據(jù)資產(chǎn)應(yīng)該是企業(yè)的交易或者事項形成的。2)企業(yè)擁有或者控制。3)預(yù)期會給企業(yè)帶來經(jīng)濟利益。1.4.1什么是數(shù)據(jù)資產(chǎn)因此,數(shù)據(jù)資產(chǎn)的利益相關(guān)方包括:1)數(shù)據(jù)的生產(chǎn)者,即通過業(yè)務(wù)交易或事項產(chǎn)生數(shù)據(jù)的人或組織。2)數(shù)據(jù)的擁有或控制者,生產(chǎn)數(shù)據(jù)的人不一定是擁有數(shù)據(jù),就像我們每天上網(wǎng)產(chǎn)生的各種數(shù)據(jù)并不歸我們自己所有,而是掌握在了互聯(lián)網(wǎng)公司的數(shù)據(jù)庫中。3)數(shù)據(jù)價值和經(jīng)濟利益的受益者。1.4.1什么是數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理就是對數(shù)據(jù)生產(chǎn)者、擁有或控制者,數(shù)據(jù)價值獲益者的規(guī)范和協(xié)調(diào)。1)數(shù)據(jù)的標準化,定義統(tǒng)一數(shù)據(jù)標準,讓數(shù)據(jù)資產(chǎn)相關(guān)利益各方在同一“頻道”下溝通。數(shù)據(jù)標準化包含:①數(shù)據(jù)模型標準化,②核心數(shù)據(jù)實體的標準化,③關(guān)鍵指標的標準化。1.4.2數(shù)據(jù)治理的內(nèi)涵2)數(shù)據(jù)的確權(quán)。數(shù)據(jù)一旦成為資產(chǎn),就一定有擁有方,或者實際控制人,可以把他們統(tǒng)稱產(chǎn)權(quán)人。與實物不同的是,實物的產(chǎn)權(quán)是比較明確的,數(shù)據(jù)則比較復雜。產(chǎn)品在生產(chǎn)制造過程中,沒有與消費者交易之前,制造商擁有完全產(chǎn)權(quán)。產(chǎn)品生產(chǎn)出來后,消費者通過購買支付相應(yīng)的貨幣,便擁有了產(chǎn)品的產(chǎn)權(quán)。而數(shù)據(jù)的生產(chǎn)過程就不一樣了,我們的各種上網(wǎng)行為每天都會產(chǎn)生大量的數(shù)據(jù),如網(wǎng)上購物、瀏覽網(wǎng)頁、使用地圖、評論/評價……。這些數(shù)據(jù)歸誰?控制權(quán)該如何治理?這是擺在面前的一個難題。近幾年來,一些不良商家利用人們的上網(wǎng)數(shù)據(jù),導致安全隱私泄密的事件層出不窮。希望隨著技術(shù)和商業(yè)的進步,能夠盡快找到解決方案。1.4.2數(shù)據(jù)治理的內(nèi)涵3)流程的優(yōu)化。數(shù)據(jù)治理的兩個目標:一個是提質(zhì)量,一個是控安全。互聯(lián)網(wǎng)數(shù)據(jù)的確權(quán)是個世界難題,做好企業(yè)業(yè)務(wù)流程的優(yōu)化可以對隱私保護起到一定的作用。通過業(yè)務(wù)流程優(yōu)化,規(guī)范數(shù)據(jù)從產(chǎn)生、處理、使用到銷毀的整個生命周期,使得數(shù)據(jù)在各階段、各流程環(huán)節(jié)安全可控,合規(guī)使用。另外,通過一定的流程優(yōu)化,對相關(guān)流程進行監(jiān)管,按照數(shù)據(jù)的質(zhì)量規(guī)則進行數(shù)據(jù)校驗,提升數(shù)據(jù)治理,賦能業(yè)務(wù)應(yīng)用。1.4.2數(shù)據(jù)治理的內(nèi)涵在大數(shù)據(jù)時代,得益于大數(shù)據(jù)技術(shù)的突破,大量的結(jié)構(gòu)化、非結(jié)構(gòu)化、異構(gòu)化的數(shù)據(jù)能夠得到存儲、處理、計算和分析,提升了人們從海量數(shù)據(jù)中獲取知識和洞見的能力。對于大數(shù)據(jù)的治理,傳統(tǒng)的一味追求精確的思維受到了挑戰(zhàn),允許一定程度上的容錯,反而可以擁有更好的知識和洞察力。對于大數(shù)據(jù)的治理更多采用AI技術(shù),如知識圖譜、語音識別等,對大數(shù)據(jù)的采集、處理、使用過程加以控制,使其能夠合規(guī)使用。所以,大數(shù)據(jù)的治理放在中臺似乎更為合適。這里,中臺是一個互聯(lián)網(wǎng)術(shù)語,作為平臺型組織的一部分,中臺是在前臺作戰(zhàn)單元和后臺資源部門之間的組織模塊。1.4.2數(shù)據(jù)治理的內(nèi)涵企業(yè)的數(shù)據(jù)治理是一個螺旋式上升模型,需要不斷的迭代和優(yōu)化。數(shù)據(jù)治理不能一蹴而就,需要建立起長效的持續(xù)運營機制,使其變成企業(yè)的一種文化、一種習慣,而數(shù)據(jù)治理的每一次迭代優(yōu)化都預(yù)示著企業(yè)數(shù)據(jù)戰(zhàn)略目標的再出發(fā)。1.4.2數(shù)據(jù)治理的內(nèi)涵PART05大數(shù)據(jù)的由來如果僅僅是從數(shù)據(jù)量的角度來看的話,大數(shù)據(jù)在過去就已經(jīng)存在了。例如,波音的噴氣發(fā)動機每30分鐘就會產(chǎn)生10TB的運行數(shù)據(jù),安裝有4臺發(fā)動機的大型客機每次飛越大西洋就會產(chǎn)生640TB的數(shù)據(jù)。世界各地每天有超過2.5萬架的飛機在工作,其數(shù)據(jù)量是何等龐大。生物技術(shù)領(lǐng)域中的基因組分析,以及以NASA(美國國家航空航天局)為中心的太空開發(fā)領(lǐng)域,從很早就開始使用十分昂貴的超級計算機來對龐大的數(shù)據(jù)進行分析和處理了。1.5大數(shù)據(jù)的由來現(xiàn)在和過去的區(qū)別之一,就是大數(shù)據(jù)不僅產(chǎn)生于特定領(lǐng)域中,而且還產(chǎn)生于人們每天的日常生活中,臉書、推特、領(lǐng)英、微信、QQ等社交媒體上的文本數(shù)據(jù)就是最好的例子。盡管人們無法得到全部數(shù)據(jù),但大部分數(shù)據(jù)可以通過公開的API(應(yīng)用程序編程接口)相對容易地進行采集。在B2C(商家對顧客)企業(yè)中,使用文本挖掘和情感分析等技術(shù),就可以獲得消費者對于自家產(chǎn)品的評價。1.5大數(shù)據(jù)的由來計算機性價比的提高,磁盤價格的下降,利用通用服務(wù)器對大量數(shù)據(jù)進行高速處理的軟件技術(shù)Hadoop的誕生,以及隨著云計算的興起使得無須自行搭建大規(guī)模環(huán)境等因素,大幅降低了大數(shù)據(jù)存儲和處理的門檻。因此,過去只有像NASA這樣的研究機構(gòu)以及屈指可數(shù)的幾家特大企業(yè)才能做到的對大量數(shù)據(jù)的深入分析,現(xiàn)在只需要極小的成本和時間就可以完成。無論是剛剛創(chuàng)業(yè)的公司還是存在多年的公司,也無論是中小企業(yè)還是大企業(yè),都可以對大數(shù)據(jù)進行充分的利用。1.5.1硬件性價比提高與軟件技術(shù)進步1)計算機性價比的提高。承擔數(shù)據(jù)處理任務(wù)的計算機,其處理能力遵循摩爾定律,一直在不斷進化。所謂摩爾定律,是英特爾公司共同創(chuàng)始人之一的戈登?摩爾(1929—2023)于1965年提出的一個觀點,即“半導體芯片的集成度,大約每18個月會翻一番”。從家電賣場中所陳列的電腦規(guī)格指標就可以一目了然地看出,現(xiàn)在以同樣的價格能夠買到的計算機,其處理能力已經(jīng)和過去不可同日而語了。1.5.1硬件性價比提高與軟件技術(shù)進步2)磁盤價格的下降。除了CPU性能的提高,硬盤等存儲器的價格也明顯下降。2000年的硬盤驅(qū)動器平均每GB容量的單價約為16~19美元,而10年后卻只有7美分(換算成人民幣的話,就相當于4角~5角)。變化的不僅僅是價格,存儲器在質(zhì)量方面也發(fā)生了巨大的進步。1982年日立最早開發(fā)的超1GB級硬盤驅(qū)動器(容量為1.2GB),質(zhì)量約為250磅(約合113kg)。而現(xiàn)在,32GB的微型SD卡質(zhì)量卻只有0.5g左右,技術(shù)進步的速度相當驚人。1.5.1硬件性價比提高與軟件技術(shù)進步3)大規(guī)模數(shù)據(jù)分布式處理技術(shù)Hadoop的誕生。Hadoop是一種可以在通用服務(wù)器上運行的開源分布式處理技術(shù),它的誕生成為目前大數(shù)據(jù)浪潮的第一推動力。如果只是結(jié)構(gòu)化數(shù)據(jù)不斷增長,用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫,或者是其衍生技術(shù),就可以進行存儲和處理了,但這樣的技術(shù)無法對非結(jié)構(gòu)化數(shù)據(jù)進行處理。Hadoop的最大特征,就是能夠?qū)Υ罅糠墙Y(jié)構(gòu)化數(shù)據(jù)進行高速處理。1.5.1硬件性價比提高與軟件技術(shù)進步大數(shù)據(jù)的處理環(huán)境在很多情況下并不一定要自行搭建。例如,使用亞馬遜的彈性計算云服務(wù)(EC2)和簡單倉儲服務(wù)(S3),就可以在無須自行搭建大規(guī)模數(shù)據(jù)處理環(huán)境的前提下,以按用量付費的方式,來使用由計算機集群組成的計算處理環(huán)境和大規(guī)模數(shù)據(jù)存儲環(huán)境。此外,在EC2和S3上還利用預(yù)先配置的Hadoop工作環(huán)境提供的服務(wù),即使是資金不太充裕的創(chuàng)業(yè)型公司,也可以進行大數(shù)據(jù)的分析。1.5.2云計算的普及新的IT創(chuàng)業(yè)公司如雨后春筍般不斷出現(xiàn),它們通過利用亞馬遜等的云計算環(huán)境,對大數(shù)據(jù)進行處理,從而催生出新型的服務(wù)。這些公司如網(wǎng)絡(luò)廣告公司Razorfish、提供預(yù)測航班起飛晚點等“航班預(yù)報”服務(wù)的“非常準”、對消費電子產(chǎn)品價格走勢進行預(yù)測的D等。1.5.2云計算的普及認識大數(shù)據(jù),我們還需要理解BI(商業(yè)智能)和大數(shù)據(jù)之間的關(guān)系。對企業(yè)內(nèi)外所存儲的數(shù)據(jù)進行組織性、系統(tǒng)性的集中、整理和分析,從而獲得對各種商務(wù)決策有價值的知識和觀點,這樣的概念、技術(shù)及行為稱為BI。大數(shù)據(jù)作為BI的進化形式,充分利用后不僅能夠高效地預(yù)測未來,也能夠提高預(yù)測的準確率。1.5.3大數(shù)據(jù)作為BI的進化形式BI這個概念,是1989年由時任美國高德納咨詢公司的分析師霍華德·德雷斯納所提出的。德雷斯納當時提出的觀點是,應(yīng)該將過去100%依賴信息系統(tǒng)部門來完成的銷售分析、客戶分析等業(yè)務(wù),通過讓作為數(shù)據(jù)使用者的管理人員以及一般商務(wù)人員等最終用戶來親自參與,從而實現(xiàn)決策的迅速化以及生產(chǎn)效率的提高。BI的主要目的是分析從過去到現(xiàn)在發(fā)生了什么、為什么會發(fā)生,并做出報告。也就是說,BI是將過去和現(xiàn)在進行可視化的一種方式。例如,過去一年中商品A的銷售額如何,它在各個門店中的銷售額又分別如何。1.5.3大數(shù)據(jù)作為BI的進化形式然而,現(xiàn)在的商業(yè)環(huán)境變化十分劇烈。對于企業(yè)今后的活動來說,在將過去和現(xiàn)在進行可視化的基礎(chǔ)上,預(yù)測出接下來會發(fā)生什么顯得更為重要。也就是說,從看到現(xiàn)在到預(yù)測未來,BI也正在經(jīng)歷著不斷的進化。1.5.3大數(shù)據(jù)作為BI的進化形式要對未來進行預(yù)測,從龐大的數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)則和模式的數(shù)據(jù)挖掘是一種非常有用的手段。為了讓數(shù)據(jù)挖掘的執(zhí)行更加高效,就要使用能夠從大量數(shù)據(jù)中自動學習知識和有用規(guī)則的機器學習技術(shù)。從特性上來說,機器學習對數(shù)據(jù)的要求是越多越好。也就是說,它和大數(shù)據(jù)可謂是天生一對。一直以來,機器學習的瓶頸在于如何存儲并高效處理學習所需的大量數(shù)據(jù)。然而,隨著硬盤單價的大幅下降、Hadoop的誕生,以及云計算的普及,這些問題正逐步得以解決?,F(xiàn)實中,對大數(shù)據(jù)應(yīng)用機器學習的實例正在不斷涌現(xiàn)。1.5.3大數(shù)據(jù)作為BI的進化形式對從像“賣出了一件商品”“一位客戶解除了合同”這樣的交易數(shù)據(jù)中得到的“點”信息進行統(tǒng)計還不夠,我們想要得到的是“為什么賣出了這件商品”“為什么這個客戶離開了”這樣的上下文(背景)信息。而這樣的信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論