大數(shù)據(jù)安全與應(yīng)用_第1頁
大數(shù)據(jù)安全與應(yīng)用_第2頁
大數(shù)據(jù)安全與應(yīng)用_第3頁
大數(shù)據(jù)安全與應(yīng)用_第4頁
大數(shù)據(jù)安全與應(yīng)用_第5頁
已閱讀5頁,還剩134頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)安全與應(yīng)用第1頁 目錄一、大數(shù)據(jù)起源四、成功案例五、大數(shù)據(jù)安全二、什么是大數(shù)據(jù)三、大數(shù)據(jù)應(yīng)用第2頁 引言 電影永無止境庫珀能在短時間掌握無數(shù)企業(yè)資料和背景,也就是將世界上已經(jīng)存在海量數(shù)據(jù)(包含企業(yè)財報、電視、幾十年前報紙、互聯(lián)網(wǎng)、小道消 息等)挖掘出來,串聯(lián)起來,甚至將Face Book、Twitter海量社交數(shù)據(jù)挖掘得到普通大眾對某種股票感情傾向,經(jīng)過海量信息挖掘、分析,使一切內(nèi)幕都不是內(nèi)幕,使一切趨勢都在眼前, 結(jié)果在10天內(nèi)他就贏得了200萬美元。這部電影簡直是展現(xiàn)大數(shù)據(jù)魔力教材性電影,推薦沒有看過IT人士看一看。在企業(yè)、行業(yè)和國家管理中,通常只有效使用了不到20%數(shù)據(jù)(甚至更少)

2、,假如剩下80%數(shù)據(jù)價值激發(fā)起來,世界會變得怎么樣呢?永無止境是由尼爾博格執(zhí)導(dǎo)懸疑電影,由布萊德利庫珀、羅伯特德尼羅和安娜弗萊爾等聯(lián)袂出演,所講述是一位落魄作家?guī)扃?,服用了一個能夠快速提升智力神奇藍(lán)色藥品,然后他將這種高智商用于炒股。第3頁 數(shù)據(jù)本質(zhì)是生產(chǎn)資料和資產(chǎn)僅供開采162年僅供開采45年僅供開采60年不可再生資源VS數(shù)據(jù)過去3年數(shù)據(jù)總量比以往4萬年還多,全球信息量將超出40ZB全球數(shù)據(jù)增加速度在每年40%左右數(shù)據(jù)不再是社會生產(chǎn)“副產(chǎn)物”,而是可被二次乃至屢次加工原料,從中能夠探索更大價值,它變成了生產(chǎn)資料。第4頁 數(shù)據(jù)爆炸式增加(每分鐘)Twitter上公布98000+新微博13000

3、+個iPhone應(yīng)用下載Skype上37萬+分鐘語音通話上傳6600張新照片到flickr發(fā)出1.68億+條EmailYouTube上上傳600+新視頻淘寶光棍節(jié)10680+個新訂單Facebook上更新69.5萬+條新狀態(tài)12306出票1840+張第5頁 需要不一樣“看”數(shù)據(jù)方式可視:結(jié)構(gòu)化資料 15%未視:半/非結(jié)構(gòu)化數(shù)據(jù) 85%DB/DW主管們看戰(zhàn)情數(shù)位儀表板,其實是殘缺第6頁10萬 GB10萬 TB 需要更高性價比數(shù)據(jù)計算與儲存方式數(shù)據(jù)庫DB數(shù)據(jù)倉庫DW計算更加快 存放更省第7頁85%半/非結(jié)構(gòu)化Log / Web page / Email / PDF / Image / Full-t

4、ext / MS-Office file 7 需要不一樣數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時,才發(fā)覺:架構(gòu)只能 scale-up, scale-out 不易處理時間過長, time-to-value 受限成本過高, cost-efficiency 受限15% 結(jié)構(gòu)化 DB/DW遺憾殘缺第8頁天天幾百 GB、 幾 TB 資料,且連續(xù)成長中儲存Storing 在收數(shù)據(jù)同時做必要前置處理 (pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理優(yōu)先等級 (prioritizing)計算Processing怎樣有效防止因硬件毀壞所造成資料損毀管理Managing怎樣從中挖掘出所關(guān)注事件 pattern 或 behav

5、ior分析Analyzing 超越企業(yè)現(xiàn)有 IT 數(shù)據(jù)處理能力第9頁 大數(shù)據(jù)起源適應(yīng)新時代,處理新問題第10頁 目錄二、什么是大數(shù)據(jù)一、大數(shù)據(jù)起源四、成功案例五、大數(shù)據(jù)安全三、大數(shù)據(jù)應(yīng)用第11頁更結(jié)構(gòu)化 沒有固定結(jié)構(gòu)數(shù)據(jù),通常保留成不一樣類型文件 舉例:文本文檔、PDF文檔、圖像和視頻 含有不規(guī)則數(shù)據(jù)格式文本數(shù)據(jù),經(jīng)過使用工具能夠使之格式化 舉例:包含不一致數(shù)據(jù)值和格式網(wǎng)站點擊數(shù)據(jù) 含有可識別模式并能夠解析文本數(shù)據(jù)文件 舉例:自描述和含有定義模式XML數(shù)據(jù)文件包含預(yù)定義數(shù)據(jù)類型、格式和結(jié)構(gòu)數(shù)據(jù)舉例:事務(wù)性數(shù)據(jù)和聯(lián)機(jī)分析處理 什么是數(shù)據(jù)?結(jié)構(gòu)化半結(jié)構(gòu)化“準(zhǔn)”結(jié)構(gòu)化非結(jié)構(gòu)化第12頁12Social

6、 MediaMachine / SensorDOC / MediaWeb ClickstreamAppsCall LogLog 什么是數(shù)據(jù)?半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)第13頁3/13/4 什么是大數(shù)據(jù)?第14頁何為大?數(shù)據(jù)度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,04

7、8,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes3/13/6 什么是大數(shù)據(jù)?第15頁紅樓夢含標(biāo)點87萬字(不含標(biāo)點853509字)每個漢字占兩個字節(jié):1漢字=16bit = 2*8位=2bytes1GB 約等于 671部紅樓夢1TB

8、 約等于 631,903 部1PB 約等于 647,068,911部美國國會圖書館藏書(151,785,778冊)(年4月:收錄數(shù)據(jù)235TB )中國國家圖書館:2631萬冊1EB = 4000倍 美國國會圖書館存放信息量600美元硬盤就能夠存放全世界全部歌曲MGI預(yù)計,全球企業(yè) 2010 年在硬盤上存放了超出 7EB(1EB 等于 10 億 GB)新數(shù)據(jù),同時,消費(fèi)者在 PC 和筆記本等設(shè)備上存放了超出 6EB 新數(shù)據(jù)3/13/7數(shù)據(jù)沒有方法在可容忍時間下使用常規(guī)軟件方法完成存放、管理和處理任務(wù) 什么是大數(shù)據(jù)?第16頁對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這么定義:“

9、大數(shù)據(jù)”是需要新處理模式才能含有更強(qiáng)決議力、洞察發(fā)覺力和流程優(yōu)化能力來適應(yīng)海量、高增加率和多樣化信息資產(chǎn)。麥肯錫全球研究所給出定義:一個規(guī)模大到在獲取、存放、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍數(shù)據(jù)集合,含有海量數(shù)據(jù)規(guī)模、快速數(shù)據(jù)流轉(zhuǎn)、多樣數(shù)據(jù)類型和價值密度低四大特征. 大數(shù)據(jù)定義第17頁 大數(shù)據(jù)帶來思維變革更加好不是因果關(guān)系而是相關(guān)關(guān)系更多不是隨機(jī)樣本而是全部數(shù)據(jù)更雜不是準(zhǔn)確性而是混雜性第18頁 大數(shù)據(jù)帶來思維變革(更多)人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式是指在國家統(tǒng)一要求時間內(nèi),按照統(tǒng)一方法、統(tǒng)一項目、統(tǒng)一調(diào)查表和統(tǒng)一標(biāo)按時點,對全國人口普遍地、逐戶逐人

10、地進(jìn)行一次性調(diào)查登記;主要特點是調(diào)查組織高度集中性,普查對象全方面完整性;人口大普查耗時花費(fèi),一般來講是十年一次,新中國成立以來共進(jìn)行了6次人口大普查;人口大普查是一種經(jīng)典全數(shù)據(jù)模式;大數(shù)據(jù)時代小數(shù)據(jù)時代第19頁人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式人口大普查是一個耗時花費(fèi)工程,普通是以十年為單位;各國每年需要進(jìn)行幾百次小規(guī)模人口調(diào)查,采取隨機(jī)采樣分析方式,這是一個樣本模式;源于實用而且很好創(chuàng)新!隨機(jī)采樣分析是小數(shù)據(jù)時代產(chǎn)物;大數(shù)據(jù)時代小數(shù)據(jù)時代 大數(shù)據(jù)帶來思維變革(更多)第20頁人口大普查全數(shù)據(jù)模式隨機(jī)采樣樣本模式大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式我們已具備了大數(shù)據(jù)各種技術(shù)能力,思維需要

11、轉(zhuǎn)換到大數(shù)據(jù)全數(shù)據(jù)模式:樣本=全部;大數(shù)據(jù)不用隨機(jī)分析法這么捷徑,而采取全部數(shù)據(jù)方法;這里“大”是相正確相撲比賽全部數(shù)據(jù)存放還不需要一個TB,不過是全部數(shù)據(jù)!在大數(shù)據(jù)時代采取隨機(jī)采樣法,就像在汽車時代騎馬一樣,即使特定情況下仍可采樣隨機(jī)采樣法,不過慢慢地我們會放棄它;大數(shù)據(jù)時代小數(shù)據(jù)時代 大數(shù)據(jù)帶來思維變革(更多)第21頁 大數(shù)據(jù)帶來思維變革(更多)Google利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測流感基于全數(shù)據(jù)進(jìn)行相撲比賽作弊分析埃齊奧尼Farecast有10萬億條數(shù)據(jù)預(yù)測機(jī)票價格喬布斯癌癥抗?fàn)?,本身全部DNA和腫瘤DNA排序第22頁 大數(shù)據(jù)帶來思維變革(更雜)從皮尺到哈勃望遠(yuǎn)鏡,人類一直在追求測量準(zhǔn)確性,首先

12、源于對未知世界認(rèn)知;首先也源于搜集信息有限性;大數(shù)據(jù)簡單算法比小數(shù)據(jù)復(fù)雜算法更有效;IBM機(jī)器翻譯 VS Google機(jī)器翻譯;紛繁數(shù)據(jù)越多越好;大數(shù)據(jù)時代要求我們重新審閱數(shù)據(jù)準(zhǔn)確性優(yōu)略;大數(shù)據(jù)不但讓我們不再期待準(zhǔn)確性,也讓我們無法實現(xiàn)準(zhǔn)確性;錯誤不是大數(shù)據(jù)固有問題,而是一個需要我們?nèi)ヌ幚韱栴},而且會將長久存在;混雜性,不是盡力防止,而是標(biāo)準(zhǔn)路徑;第23頁 大數(shù)據(jù)帶來思維變革(更加好)佛教三世因果經(jīng)主要講:一是人命是自己造就;二是怎樣為自己造一個好命;三是行善積德與行兇作惡干壞事因果循環(huán)報應(yīng)規(guī)律。佛教關(guān)于因果報應(yīng)解釋原因和結(jié)果是揭示客觀世界中普遍聯(lián)絡(luò)著事物含有先后相繼、彼此制約一對范圍。原因是

13、指導(dǎo)起一定現(xiàn)象現(xiàn)象,結(jié)果是指因為原因作用而引發(fā)現(xiàn)象。哲學(xué)范圍因果關(guān)系大數(shù)據(jù)相關(guān)關(guān)系,而不強(qiáng)調(diào)因果關(guān)系;(舍恩伯格),其實這個只是一個對無法探究因果妥協(xié),人類應(yīng)該去探尋因果,因為世界存在客觀運(yùn)轉(zhuǎn)規(guī)律;舍恩伯格對大數(shù)據(jù)相關(guān)性解釋Kaggle,一個為全部些人提供數(shù)據(jù)挖掘競賽企業(yè),在一次關(guān)于二手車數(shù)據(jù)分析比賽中得到,橙色汽車有質(zhì)量問題可能性是其它顏色汽車二分之一。為何?探尋事物因果關(guān)系是人類本性,不過大數(shù)據(jù)時代能夠做某種程度妥協(xié),能夠只需要關(guān)注“是什么”,而忽略“為何?”第24頁 大數(shù)據(jù)組成大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部經(jīng)營交易信息主要包含聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)

14、構(gòu)化、經(jīng)過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問靜態(tài)、歷史數(shù)據(jù)。經(jīng)過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包含:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)全部數(shù)據(jù)集海量交互數(shù)據(jù):源于各種網(wǎng)絡(luò)和社交媒體。它包含了呼叫詳細(xì)統(tǒng)計、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、經(jīng)過管理文件傳輸協(xié)議傳送海量圖像文件、Web文本和點擊流數(shù)據(jù)、評價數(shù)據(jù)、科學(xué)信息、電子郵件等等。能夠告訴我們未來會發(fā)生什么。第25頁 大數(shù)據(jù)4V特征Volume非結(jié)構(gòu)化數(shù)據(jù)超大規(guī)模和增加總數(shù)據(jù)量8090%比結(jié)構(gòu)化數(shù)據(jù)增加快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫10倍到50倍Value大量不相關(guān)信息對未來趨勢與模式可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智

15、能) Velocity實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效 Variety大數(shù)據(jù)異構(gòu)和多樣性很多不一樣形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不顯著不連貫語法或句義Big Data大數(shù)據(jù)TBPBEBStreamsReal timeNear timeBatchStructuredUnstructured Semi-structuredAll the above第26頁 大數(shù)據(jù)4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當(dāng)于50%全美學(xué)術(shù)研究圖書館藏書信息內(nèi)容5EB相當(dāng)于至今全世界人類所講過話語1ZB如同全世界海灘上沙

16、子數(shù)量總和1YB相當(dāng)于7000位人類體內(nèi)微細(xì)胞總和普通情況下,大數(shù)據(jù)是以PB、EB、ZB為單位進(jìn)行計量第27頁 大數(shù)據(jù)4V特征(Velocity)82254132215327現(xiàn)在及未來幾年內(nèi)美國移動網(wǎng)絡(luò)數(shù)據(jù)流量增加(PB/月)源自英國Coda研究咨詢企業(yè)大數(shù)據(jù)增加速度快大數(shù)據(jù)處理速度快實時數(shù)據(jù)流處理要求,是區(qū)分大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù),BI技術(shù)關(guān)鍵差異之一;1s 是臨界點,對于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,不然處理結(jié)果就是過時和無效;第28頁行業(yè)/企業(yè)內(nèi)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)起源多企業(yè)內(nèi)部多個應(yīng)用系統(tǒng)數(shù)據(jù)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)興起,帶來了微博、社交網(wǎng)站、傳感器等各種起源。

17、數(shù)據(jù)類型多保留在關(guān)系數(shù)據(jù)庫中結(jié)構(gòu)化數(shù)據(jù)只占少數(shù),7080%數(shù)據(jù)是如圖片、音頻、視頻、模型、連接信息、文檔等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。關(guān)聯(lián)性強(qiáng)數(shù)據(jù)之間頻繁交互,比如游客在旅行途中上傳圖片和日志,就與游客位置、行程等信息有了很強(qiáng)關(guān)聯(lián)性。 大數(shù)據(jù)4V特征(Variety)第29頁 大數(shù)據(jù)4V特征(Value)挖掘大數(shù)據(jù)價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但寶貴信息;價值密度低,是大數(shù)據(jù)一個經(jīng)典特征;大數(shù)據(jù)不但僅是技術(shù),關(guān)鍵是產(chǎn)生價值能夠從各個層面進(jìn)行優(yōu)化,更要考慮整體第30頁行業(yè)數(shù)據(jù)處理方式價值銀行/金融貸款、保險、發(fā)卡等多業(yè)務(wù)線數(shù)據(jù)集成份析、市場評定新產(chǎn)品風(fēng)險評定股票等投資組合趨勢分析增加市場份額

18、提升客戶忠誠度提升整體收入降低金融風(fēng)險醫(yī)療共享電子病歷及醫(yī)療統(tǒng)計,幫助快速診療穿戴式設(shè)備遠(yuǎn)程醫(yī)療改進(jìn)診療質(zhì)量加緊診療速度制造/高科技產(chǎn)品故障、失效綜合分析專利統(tǒng)計檢索智能設(shè)備全球定位,位置服務(wù)優(yōu)化產(chǎn)品設(shè)計、制造降低保修成本加緊問題處理能源勘探、鉆井等傳感器陣列數(shù)據(jù)集中分析降低工程事故風(fēng)險優(yōu)化勘探過程互聯(lián)網(wǎng)/Web2.0在線廣告投放商品評分、排名社交網(wǎng)絡(luò)自動匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠度改進(jìn)社交網(wǎng)絡(luò)體驗向目標(biāo)用戶提供有針對性商品與服務(wù)政府/公用事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤等公共數(shù)據(jù)搜集、研究公共安全信息集中處理、智能分析愈加好地對外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂

19、收視率統(tǒng)計、熱點信息統(tǒng)計、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評定廣告效用零售基于用戶位置信息準(zhǔn)確促銷社交網(wǎng)絡(luò)購置行為分析促進(jìn)客戶購置熱情順應(yīng)客戶購置行為習(xí)慣13 大數(shù)據(jù)商業(yè)價值第31頁Volume海量數(shù)據(jù)規(guī)模Variety多樣數(shù)據(jù)類型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速數(shù)據(jù)流轉(zhuǎn)發(fā)覺數(shù)據(jù)價值 大數(shù)據(jù)技術(shù)要處理問題第32頁大數(shù)據(jù)技術(shù)被設(shè)計用于在成本可承受條件下,經(jīng)過非??焖伲╲elocity)地采集、發(fā)覺和分析,從大量(volumes

20、)、多類別(variety)數(shù)據(jù)中提取價值(value),將是IT 領(lǐng)域新一代技術(shù)與架構(gòu)。企業(yè)用以分析數(shù)據(jù)越全方面,分析結(jié)果就越靠近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新數(shù)據(jù)中獲取新洞察力,并將其與已知業(yè)務(wù)各個細(xì)節(jié)相融合。 大數(shù)據(jù)技術(shù)要處理問題大數(shù)據(jù)產(chǎn)品RDBMSAnalytical DBNoSQL DBERP/CRMSaaSSocial MediaWeb AnalyticsLog FilesRFIDCall Data RecordsSensorsMachine-Generated大數(shù)據(jù)管理存儲處理過濾大數(shù)據(jù)終端使用挖掘分析搜索擴(kuò)充第33頁 軟件是大數(shù)據(jù)引擎和數(shù)據(jù)中心(Data Center

21、) 一樣,軟件是大數(shù)據(jù)驅(qū)動力.軟件改變世界!第34頁IBM C&P Industry需求海量數(shù)據(jù)存放技術(shù)實時數(shù)據(jù)處理技術(shù)數(shù)據(jù)高速傳輸技術(shù)搜索技術(shù)描述分布式文件系統(tǒng)流計算引擎服務(wù)器/存放間高速通信文本檢索、智能搜索、實時搜索技術(shù)Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch數(shù)據(jù)分析技術(shù)Text Analytics Engine 自然語言處理、文本情感分析、Visual Data Modeling 機(jī)器學(xué)習(xí)、聚類關(guān)聯(lián)、數(shù)據(jù)模型 大數(shù)據(jù)包括關(guān)鍵技術(shù)第35頁基于SQL語言: 面對OLAP傳統(tǒng)行和列不基于SQL或map-

22、reduce: 由谷歌率先發(fā)起數(shù)據(jù)流: 基于運(yùn)行商數(shù)據(jù)直接生成任意圖形新平臺技術(shù)數(shù)據(jù)入口/匯聚數(shù)據(jù)平臺分析不一樣范圍服務(wù)傳統(tǒng)交付模式-單片或基于設(shè)備處理方案云: 能夠充分利用物理設(shè)施彈性,以實現(xiàn)處理快速增加數(shù)據(jù)能力“數(shù)據(jù)庫將演變成一個虛擬,基于云計算,超級可擴(kuò)展分布式平臺?!? Forrester analyst Jim Kobielus新傳輸方案 大數(shù)據(jù)包括關(guān)鍵技術(shù)第36頁大數(shù)據(jù)(Hadoop)NoSQL數(shù)據(jù)庫數(shù)據(jù)倉庫布署架構(gòu)水平擴(kuò)展水平擴(kuò)展大部分垂直擴(kuò)展,少數(shù)水平擴(kuò)展大部分水平擴(kuò)展數(shù)據(jù)類型文件存放,沒有數(shù)據(jù)類型 簡單數(shù)據(jù)類型豐富數(shù)據(jù)類型豐富數(shù)據(jù)類型數(shù)據(jù)模型非常簡陋數(shù)據(jù)模型簡單靈活數(shù)據(jù)模型豐

23、富數(shù)據(jù)模型完善豐富數(shù)據(jù)模型數(shù)據(jù)關(guān)系沒有數(shù)據(jù)關(guān)系描述非常簡單數(shù)據(jù)關(guān)系描述數(shù)據(jù)關(guān)系完善數(shù)據(jù)關(guān)系完善數(shù)據(jù)一致無一致性弱一致性強(qiáng)一致性強(qiáng)一致性數(shù)據(jù)安全安全性很弱安全性很弱安全性很高安全性很高計算類型離線批量處理,只讀,低并發(fā)實時CRUD操作,海量并發(fā)實時CRUD操作,高并發(fā)離線批量處理,只讀,低并發(fā)適用場景低密度數(shù)據(jù)海量存放,數(shù)據(jù)預(yù)處理,預(yù)計算高并發(fā)實時在線交易,查詢,報表高價值數(shù)據(jù)統(tǒng)一存放和計算平臺常見用例日志處理,用戶行為分析,搜索引擎用戶資料,微博,金融反欺詐金融賬戶,電信計費(fèi),稅務(wù)等企業(yè)數(shù)據(jù)倉庫11 大數(shù)據(jù)包括關(guān)鍵技術(shù)第37頁數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結(jié)果展示ETL數(shù)據(jù)眾包(Cr

24、owdSouring) 大數(shù)據(jù)包括關(guān)鍵技術(shù)第38頁數(shù)據(jù)眾包是一個新數(shù)據(jù)采集方式,由企業(yè)方經(jīng)過平臺把數(shù)據(jù)采集任務(wù)外包給非特定大眾網(wǎng)絡(luò)。 大數(shù)據(jù)包括關(guān)鍵技術(shù)數(shù)據(jù)眾包第39頁數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結(jié)果展示ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存放實時流處理 大數(shù)據(jù)包括關(guān)鍵技術(shù)第40頁分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理物理存放資源不一定直接連接在當(dāng)?shù)毓?jié)點上,而是經(jīng)過計算機(jī)網(wǎng)絡(luò)與節(jié)點相連。 大數(shù)據(jù)包括關(guān)鍵技術(shù)分布式文件系統(tǒng)第41頁Googl

25、e文件系統(tǒng)(Google File System,GFS)是一個可擴(kuò)展分布式文件系統(tǒng),用于大型、分布式、對大量數(shù)據(jù)進(jìn)行訪問應(yīng)用。它運(yùn)行于廉價普通硬件上,將服務(wù)器故障視為正常現(xiàn)象,經(jīng)過軟件方式自動容錯,在確保系統(tǒng)可靠性和可用性同時,大大降低了系統(tǒng)成本。 大數(shù)據(jù)包括關(guān)鍵技術(shù)分布式文件系統(tǒng)第42頁GFS將整個系統(tǒng)分為三類角色:Client(客戶端)、Master(主服務(wù)器)、Chunk Server(數(shù)據(jù)塊服務(wù)器)。C0C1C5C2C1C5C3C0C5C2GFS MasterGFS MasterClientClientClientClientClient ReplicasMasterChunkser

26、ver 2Chunkserver NChunkserver 1GFS Architecture 大數(shù)據(jù)包括關(guān)鍵技術(shù)分布式文件系統(tǒng)第43頁關(guān)系型數(shù)據(jù)庫不足難以滿足高并發(fā)讀寫需求難以滿足對海量數(shù)據(jù)高效率存放和訪問需求難以滿足對數(shù)據(jù)庫高可擴(kuò)展性和高可用性需求NoSQL= 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQL第44頁NoSQL 數(shù)據(jù)存放不需要固定表結(jié)構(gòu),通常也不存在連接操作。在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫無法比擬性能優(yōu)勢。關(guān)系型數(shù)據(jù)庫中表都是存放一些格式化數(shù)據(jù)結(jié)構(gòu),每個元組字段組成都一樣,即使不是每個元組都需要全部字段,但數(shù)據(jù)庫會為每個元組分配全部字段。非關(guān)系型數(shù)據(jù)庫以鍵值對存放,它結(jié)構(gòu)不固定,

27、每一個元組能夠有不一樣字段,每個元組能夠依據(jù)需要增加一些自己鍵值對,這么就不會局限于固定結(jié)構(gòu),能夠降低一些時間和空間開銷。 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQL第45頁 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQL第46頁Bigtable設(shè)計目標(biāo)是可靠地處理PB級別數(shù)據(jù),而且能夠布署到上千臺機(jī)器上。Bigtable已經(jīng)在超出60個Google產(chǎn)品和項目上得到了應(yīng)用,包含 Google Analytics、GoogleEarth等。 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQLCassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存收件箱等簡單格式數(shù)據(jù),集

28、Google BigTable數(shù)據(jù)模型與Amazon Dynamo完全分布式架構(gòu)于一身。Facebook于將 Cassandra 開源,今后被Digg、Twitter等著名Web 2.0網(wǎng)站所采納,成為了一個流行分布式結(jié)構(gòu)化數(shù)據(jù)存放方案。第47頁 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQLDynamoDB是Amazon提供共享式數(shù)據(jù)庫云服務(wù),可用性和擴(kuò)展性都很好,性能也不錯:讀寫訪問中99.9%響應(yīng)時間都在300ms內(nèi)。DynamoDB經(jīng)過服務(wù)器把全部數(shù)據(jù)存放在固態(tài)硬盤(SSD)上三個不一樣區(qū)域。假如有更高傳輸需求,DynamoDB也能夠在后臺添加更多服務(wù)器。HBase Hadoop Data

29、base,是一個分布式、面向列開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable能力,是Hadoop項目標(biāo)子項目。第48頁 大數(shù)據(jù)包括關(guān)鍵技術(shù)非關(guān)系型數(shù)據(jù)庫NoSQLMongoDB是一個基于分布式文件存放數(shù)據(jù)庫。由C+語言編寫,是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功效最豐富,最像關(guān)系數(shù)據(jù)庫。它 支持?jǐn)?shù)據(jù)結(jié)構(gòu)非常渙散,能夠存放比較復(fù)雜數(shù)據(jù)類型。它支持查詢語言非常強(qiáng)大,其語法有點類似于面向?qū)ο蟛樵冋Z言,幾乎能夠?qū)崿F(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢絕大部分功效,而且還支持對數(shù)據(jù)建立索引。第49頁云計算(cloud computing),是分布式計算技術(shù)一個,其最基本

30、概念,是透過網(wǎng)絡(luò)將龐大計算處理程序自動分拆成無數(shù)個較小子程序,再交由多部服務(wù)器所組成龐大系統(tǒng)經(jīng)搜尋、計算分析之后將處理結(jié)果回傳給用戶。透過這項技術(shù),網(wǎng)絡(luò)服務(wù)提供者能夠在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計甚至億計信息,到達(dá)和“超級計算機(jī)”一樣強(qiáng)大效能網(wǎng)絡(luò)服務(wù)。云計算是一個資源交付和使用模式,指經(jīng)過網(wǎng)絡(luò)取得應(yīng)用所需資源(硬件、平臺、軟件)。提供資源網(wǎng)絡(luò)被稱為“云”。 大數(shù)據(jù)包括關(guān)鍵技術(shù)云計算和云存放第50頁白云下面數(shù)據(jù)跑藍(lán)藍(lán)天上白云飄假如數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏,而云計算就是挖掘和利用寶藏利器。沒有強(qiáng)大計算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)積淀,云計算也只能是殺雞用宰牛刀。 大數(shù)據(jù)包括關(guān)鍵技術(shù)

31、云計算和云存放第51頁云存放是在云計算(cloud computing)概念上延伸和發(fā)展出來一個新概念,是指經(jīng)過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功效,將網(wǎng)絡(luò)中大量各種不一樣類型存放設(shè)備經(jīng)過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存放和業(yè)務(wù)訪問功效一個系統(tǒng)。當(dāng)云計算系統(tǒng)運(yùn)算和處理關(guān)鍵是大量數(shù)據(jù)存放和管理時,云計算系統(tǒng)中就需要配置大量存放設(shè)備,那么云計算系統(tǒng)就轉(zhuǎn)變成為一個云存放系統(tǒng),所以云存放是一個以數(shù)據(jù)存放和管理為關(guān)鍵云計算系統(tǒng)。 大數(shù)據(jù)包括關(guān)鍵技術(shù)云計算和云存放第52頁數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結(jié)果展示ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)

32、分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存放實時流處理A/B Testing關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會網(wǎng)絡(luò)分析自然語言分析MapReduceR語言 大數(shù)據(jù)包括關(guān)鍵技術(shù)第53頁A/B測試是可用性測試一個方法,其關(guān)鍵為:同時試驗兩個元素或版本(A和B),確定哪個更加好。注冊按鈕由綠色改成紅色提升轉(zhuǎn)化率34%人性化表格提升11%轉(zhuǎn)化率。 大數(shù)據(jù)包括關(guān)鍵技術(shù)A/B Testing第54頁數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結(jié)果展示ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)

33、構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存放實時流處理A/B Testing關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會網(wǎng)絡(luò)分析自然語言分析MapReduceR語言標(biāo)簽云(Tag Cloud)聚類圖(Clustergram)空間信息流(Spatial information flow)熱圖(Heatmap) 大數(shù)據(jù)包括關(guān)鍵技術(shù)第55頁標(biāo)簽云(Tag Cloud)是一套相關(guān)標(biāo)簽以及與此對應(yīng)權(quán)重。權(quán)值影響標(biāo)簽字體大小、顏色或其它視覺效果。經(jīng)典標(biāo)簽云有30至150個標(biāo)簽,用以表示一個網(wǎng)站中內(nèi)容及其熱門程度

34、。標(biāo)簽通常是超鏈接,指向分類頁面。 大數(shù)據(jù)包括關(guān)鍵技術(shù)標(biāo)簽云第56頁聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果技術(shù),能夠有利于判斷簇數(shù)量不一樣時聚類效果。 大數(shù)據(jù)包括關(guān)鍵技術(shù)聚類圖第57頁空間信息流(Spatial information flow)是展示信息空間狀態(tài)一個可視化技術(shù)。熱圖(Heatmap)是一項數(shù)據(jù)展示技術(shù),將變量值用不一樣顏色或高亮形式描繪出來。能夠非常直觀展現(xiàn)一些原本不易了解或表示數(shù)據(jù),比如密度、頻率、溫度等。 大數(shù)據(jù)包括關(guān)鍵技術(shù)空間信息流與熱圖第58頁 目錄一、大數(shù)據(jù)起源四、成功案例五、大數(shù)據(jù)安全三、大數(shù)據(jù)應(yīng)用二、什么是大數(shù)據(jù)第59頁59亞馬遜 “預(yù)測

35、式發(fā)貨”新專利,能夠經(jīng)過對用戶數(shù)據(jù)分析,在他們還沒有下單購物前,提前發(fā)出包裹。這項技術(shù)能夠縮短發(fā)貨時間,從而降低消費(fèi)者前往實體店沖動。從下單到收貨之間時間延遲可能會降低人們購物意愿,造成他們放棄網(wǎng)上購物。所以,亞馬遜可能會依據(jù)之前訂單和其它原因,預(yù)測用戶購物習(xí)慣,從而在他們實際下單前便將包裹發(fā)出。依據(jù)該專利文件,即使包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞企業(yè)轉(zhuǎn)運(yùn)中心或卡車?yán)?。亞馬遜為了決定要運(yùn)輸哪些貨物,亞馬遜可能會參考之前訂單、商品搜索統(tǒng)計、愿望清單、購物車,甚至包含用戶鼠標(biāo)在某件商品上懸停時間。 消費(fèi)大數(shù)據(jù)第60頁60 在籌備過程中,奧巴馬背后數(shù)據(jù)分析團(tuán)體一直在

36、搜集、存放和分析選民數(shù)據(jù)。在這次大選中,奧巴馬競選陣營高級助理們決定將參考這一團(tuán)體所得出數(shù)據(jù)分析結(jié)果來制訂下一步競選方案。利用在競選中可取得選民行動、行為、支持偏向方面大量數(shù)據(jù)。比如,在東海岸找到一位對女性群體具備相同號召力名人,從而復(fù)制“克魯尼效應(yīng)”并為奧巴馬籌集競選資金?!癟witter政治指數(shù)”提供了一個衡量社會化媒體平臺用戶怎樣評價候選人方式。奧巴馬主動情緒指數(shù)是59,而羅姆尼只有53 政治大數(shù)據(jù)第61頁61回顧“老鼠倉”查處過程,在馬樂一案中,“大數(shù)據(jù)”首次介入。深交所以前經(jīng)過“大數(shù)據(jù)”查出可疑賬戶高達(dá)300個。實際上,早在,上交所曾經(jīng)有過利用“大數(shù)據(jù)”設(shè)置“捕鼠器”構(gòu)想。經(jīng)過建立相

37、關(guān)模型,設(shè)定一定指標(biāo)預(yù)警,即相關(guān)指標(biāo)到達(dá)某個預(yù)警點時監(jiān)控系統(tǒng)會自動報警。而此次在馬樂案中亮相深交所“大數(shù)據(jù)” 監(jiān)測系統(tǒng),更是引發(fā)了廣泛關(guān)注。深交全部幾十人監(jiān)控室,設(shè)置了200多個指標(biāo)用于監(jiān)測預(yù)計,一旦出現(xiàn)股價偏離大盤走勢,深交所利用大數(shù)據(jù)查探異動背后是哪些人或機(jī)構(gòu)在參加。 證監(jiān)會大數(shù)據(jù)第62頁62量化交易,程序化交易,高頻交易是大數(shù)據(jù)應(yīng)用比較多領(lǐng)域。全球2/3股票交易量是由高頻交易所創(chuàng)造,參加者總收益每年高達(dá)80億美元。其中,大數(shù)據(jù)算法被用來作出交易決定。現(xiàn)在,大多數(shù)股權(quán)交易都是經(jīng)過大數(shù)據(jù)算法進(jìn)行,這些算法越來越多地開始考慮社交媒體網(wǎng)絡(luò)和新聞網(wǎng)站信息來在幾秒內(nèi)做出買入和賣出決定。當(dāng)一個產(chǎn)品能夠

38、在多個交易所交易時,會形成不一樣定價,在這當(dāng)中,誰能夠最快地捕捉到同一個產(chǎn)品在不一樣交易所之間顯著價差,誰就能捕捉到瞬間套利機(jī)會,技術(shù)成為了主要原因 金融大數(shù)據(jù)第63頁63在摩托車生產(chǎn)廠商哈雷戴維森企業(yè)位于賓尼法尼亞州約克市新翻新摩托車制造廠,軟件不停在統(tǒng)計著微小制造數(shù)據(jù),如噴漆室風(fēng)扇速度等等。當(dāng)軟件覺察風(fēng)扇速度、溫度、濕度或其它變量脫離要求數(shù)值,它就會自動調(diào)整機(jī)械。哈雷戴維森同時還使用軟件,還尋找制約企業(yè)每86秒完成一臺摩托車制造工作瓶頸。最近,這家企業(yè)管理者經(jīng)過研究數(shù)據(jù),認(rèn)為安裝后擋泥板時間過長。經(jīng)過調(diào)整工廠配置,哈雷戴維森提升了安裝該配件速度。美國一些紡織及化工生產(chǎn)商,依據(jù)從不一樣百貨企

39、業(yè)POS機(jī)上搜集產(chǎn)品銷售速度信息,將原來18周送貨速度降低到3周,這對百貨企業(yè)分銷商來說,能以更加快速度拿到貨物,降低倉儲。對生產(chǎn)商來說,積攢材料倉儲也能降低很多。 制造業(yè)大數(shù)據(jù)第64頁64谷歌基于天天來自全球30 多億條搜索指令設(shè)置了一個系統(tǒng),這個系統(tǒng)在 年甲流暴發(fā)之前就開始對美國各地域進(jìn)行“流感預(yù)報”,并推出了“谷歌流感趨勢”服務(wù)。谷歌在這項服務(wù)產(chǎn)品介紹中寫道:搜索流感相關(guān)主題人數(shù)與實際患有流感癥狀人數(shù)之間存在著親密關(guān)系。即使并非每個搜索“流感”人都患有流感,但谷歌發(fā)覺了一些檢索詞條組合并用特定數(shù)學(xué)模型對其進(jìn)行分析后發(fā)覺,這些分析結(jié)果與傳統(tǒng)流感監(jiān)測系統(tǒng)監(jiān)測結(jié)果相關(guān)性高達(dá)97%。這也就表示,

40、谷歌企業(yè)能做出與疾控部門一樣準(zhǔn)確傳染源位置判斷,而且在時間上提前了一到兩周?!?醫(yī)療大數(shù)據(jù)第65頁65國際大石油企業(yè)一直都非常重視數(shù)據(jù)管理。如雪佛龍企業(yè)將5萬臺桌面系統(tǒng)與1800個企業(yè)站點連接,消除煉油、銷售與運(yùn)輸“下游系統(tǒng)”中重復(fù)流程和系統(tǒng),每年節(jié)約5000萬美元,過去4年已取得了凈現(xiàn)值約為2億美元回報。準(zhǔn)確預(yù)測太陽能和風(fēng)能需要分析大量數(shù)據(jù),包含風(fēng)速、云層等氣象數(shù)據(jù)。丹麥風(fēng)輪機(jī)制造商維斯塔斯( Vestas Wind Systems),經(jīng)過在世界上最大超級計算機(jī)上布署IBM大數(shù)據(jù)處理方案,得以經(jīng)過分析包含PB量級氣象匯報潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化海量數(shù)據(jù),優(yōu)化風(fēng)力渦輪機(jī)布

41、局,有效提升風(fēng)力渦輪機(jī)性能,為客戶提供準(zhǔn)確和優(yōu)化風(fēng)力渦輪機(jī)配置方案不但幫助客戶降低每千瓦時成本,而且提升了客戶投資回報預(yù)計準(zhǔn)確度,同時它將業(yè)務(wù)用戶請求響應(yīng)時間從幾星期縮短到幾小時。 能源大數(shù)據(jù)第66頁66UPS最新大數(shù)據(jù)起源是安裝在企業(yè)4.6萬多輛卡車上遠(yuǎn)程通信傳感器,這些傳感器能夠傳回車速、方向、剎車和動力性能等方面數(shù)據(jù)。搜集到數(shù)據(jù)流不但能說明車輛日常性能,還能幫助企業(yè)重新設(shè)計物流路線。大量在線地圖數(shù)據(jù)和優(yōu)化算法,最終能幫助UPS實時地調(diào)配駕駛員收貨和配送路線。該系統(tǒng)為UPS降低了8500萬英里物流里程,由此節(jié)約了840萬加侖汽油。 交通大數(shù)據(jù)第67頁67與傳統(tǒng)電視劇有別,紙牌屋是一部依據(jù)“

42、大數(shù)據(jù)”制作作品。制作方Netflix是美國最具影響力影視網(wǎng)站之一,在美國本土有約2900萬訂閱用戶。Netflix成功之處于于其強(qiáng)大推薦系統(tǒng)Cinematch,該系統(tǒng)基于用戶視頻點播基礎(chǔ)數(shù)據(jù)如評分、播放、快進(jìn)、時間、地點、終端等,儲存在數(shù)據(jù)庫后經(jīng)過數(shù)據(jù)分析,計算出用戶可能喜愛影片,并為他提供定制化推薦。Netflix公布數(shù)據(jù)顯示,用戶在Netflix上天天產(chǎn)生3000多萬個行為,比如暫停、回放或者快進(jìn),同時,用戶天天還會給出400萬個評分,以及300萬次搜索請求。Netflix遂決定用這些數(shù)據(jù)來制作一部電視劇,投資過億美元制作出紙牌屋。Netflix發(fā)覺,其用戶中有很多人仍在點播1991年B

43、BC經(jīng)典老片紙牌屋,這些觀眾中許多人喜歡大衛(wèi)芬奇,觀眾大多愛看奧斯卡得主凱文史派西電影,由此Netflix邀請大衛(wèi)芬奇為導(dǎo)演,凱文史派西為主演翻拍了紙牌屋這一政治題材劇。2月紙牌屋上線后,用戶數(shù)增加了300萬,到達(dá)2920萬。 文化傳媒大數(shù)據(jù)第68頁基于大數(shù)據(jù)應(yīng)用威脅發(fā)覺技術(shù)認(rèn)證技術(shù)數(shù)據(jù)真實性分析安全-即-服務(wù) 大數(shù)據(jù)應(yīng)用技術(shù)第69頁基于大數(shù)據(jù),企業(yè)能夠更主動發(fā)覺潛在安全威脅相較于傳統(tǒng)技術(shù)方案,大數(shù)據(jù)威脅發(fā)覺技術(shù)有以下優(yōu)點:1、分析內(nèi)容范圍更大2、分析內(nèi)容時間跨度更長3、攻擊威脅預(yù)測性4、對未知威脅檢測 大數(shù)據(jù)應(yīng)用基于大數(shù)據(jù)威脅發(fā)覺技術(shù)第70頁身份認(rèn)證:信息系統(tǒng)或網(wǎng)絡(luò)中確認(rèn)操作者身份過程,傳統(tǒng)

44、認(rèn)證技術(shù)只要經(jīng)過用戶所知口令或者持有憑證來判別用戶傳統(tǒng)技術(shù)面臨問題:1、攻擊者總能找到方法來騙取用戶所知秘密,或竊取用戶憑證2、傳統(tǒng)認(rèn)證技術(shù)中認(rèn)證方式越安全往往意味著用戶負(fù)擔(dān)越重 大數(shù)據(jù)應(yīng)用基于大數(shù)據(jù)認(rèn)證技術(shù)第71頁基于大數(shù)據(jù)認(rèn)證技術(shù):搜集用戶行為和設(shè)備行為數(shù)據(jù),對這些數(shù)據(jù)分析,取得用戶行為和設(shè)備行為特征,進(jìn)而確定其身份。1、攻擊者極難模擬用戶行為經(jīng)過認(rèn)證2、減小用戶負(fù)擔(dān)3、更加好支持各系統(tǒng)認(rèn)證機(jī)制統(tǒng)一1、初始階段認(rèn)證,因為缺乏大量數(shù)據(jù),認(rèn)證分析不準(zhǔn)確2、用戶隱私問題優(yōu)點缺點 大數(shù)據(jù)應(yīng)用基于大數(shù)據(jù)認(rèn)證技術(shù)第72頁基于大數(shù)據(jù)數(shù)據(jù)真實性分析被廣泛認(rèn)為是最為有效方法優(yōu)勢:1、引入大數(shù)據(jù)分析能夠取得更

45、高識別準(zhǔn)確率2、在進(jìn)行大數(shù)據(jù)分析時,經(jīng)過機(jī)器學(xué)習(xí)技術(shù),能夠發(fā)覺更多含有新特征垃圾信息面臨困難:虛假信息定義、分析模型構(gòu)建等 大數(shù)據(jù)應(yīng)用基于大數(shù)據(jù)數(shù)據(jù)真實性分析第73頁關(guān)鍵問題:怎樣搜集、存放和管理大數(shù)據(jù)對信息安全企業(yè)來說,現(xiàn)實方式是經(jīng)過某種方式取得大數(shù)據(jù)服務(wù),結(jié)合自己技術(shù)特色,對外提供安全服務(wù)前景:以底層大數(shù)據(jù)服務(wù)為基礎(chǔ),各個企業(yè)之間組成相互依賴、相互支撐信息安全服務(wù)體系,形成信息安全產(chǎn)業(yè)界良好生態(tài)環(huán)境 大數(shù)據(jù)應(yīng)用大數(shù)據(jù)與“安全-即-服務(wù)”第74頁一、大數(shù)據(jù)起源四、成功案例五、大數(shù)據(jù)安全三、大數(shù)據(jù)應(yīng)用二、什么是大數(shù)據(jù) 目錄第75頁塔吉特:比父親更早知道女兒懷孕曾經(jīng)有一位男性用戶到一家塔吉特超市

46、店中投訴,商店竟然給他還在讀書女兒寄嬰兒用具優(yōu)惠券。這家全美第二大零售商,會搞出如此大烏龍?但經(jīng)過這位父親與女兒深入溝通,才發(fā)覺自己女兒真已經(jīng)懷孕了。提問:為何塔吉特能知道這個用戶懷孕了?必須有哪幾個關(guān)鍵步驟A:用戶數(shù)據(jù)搜集 B:懷孕特征庫 C:懷孕潛在用戶篩選 塔吉特在和用戶溝經(jīng)過程中采取了哪種營銷方式A:電子郵件 B:直郵 C:電話營銷 D:數(shù)據(jù)庫營銷 成功案例大數(shù)據(jù)營銷第76頁關(guān)鍵步驟一:數(shù)據(jù)信息統(tǒng)計一家零售商是怎樣比一位女孩親生父親更早得知其懷孕消息呢?每位用戶首次到塔吉特刷卡消費(fèi)時,都會取得一組用戶識別編號,內(nèi)含用戶姓名、信用卡卡號及電子郵件等個人資料。日后凡是用戶在塔吉特消費(fèi),計算

47、機(jī)系統(tǒng)就會自動統(tǒng)計消費(fèi)內(nèi)容、時間等信息。再加上從其它管道取得統(tǒng)計資料,塔吉特便能形成一個龐大數(shù)據(jù)庫,利用于分析用戶喜好與需求。每個ID號還會對號入座統(tǒng)計下你人口統(tǒng)計信息:年紀(jì)、是否已婚、是否有兒女、所住市區(qū)、住址離Target車程、薪水情況、最近是否搬過家、錢包里信用卡情況、常訪問網(wǎng)址等等。Target還能夠從其它相關(guān)機(jī)構(gòu)那里購置你其它信息:種族、就業(yè)史、喜歡讀雜志、破產(chǎn)統(tǒng)計、婚姻史、購房統(tǒng)計、求學(xué)統(tǒng)計、閱讀習(xí)慣等等。乍一看,你會以為這些數(shù)據(jù)毫無意義,但在Andrew Pole和用戶數(shù)據(jù)分析部手里,這些看似無用數(shù)據(jù)便暴發(fā)了前述強(qiáng)勁威力 成功案例大數(shù)據(jù)營銷第77頁關(guān)鍵步驟二:數(shù)據(jù)模型建立Andr

48、ew Pole想到了Target有一個迎嬰聚會(baby shower)記錄表。Andrew Pole開始對這些記錄表里用戶消費(fèi)數(shù)據(jù)進(jìn)行建模分析,很快就發(fā)覺了許多非常有用數(shù)據(jù)模式。比如模型發(fā)覺,許多孕婦在第2個妊娠期開始會買許多大包裝無香味護(hù)手霜;在懷孕最初20周大量購置補(bǔ)充鈣、鎂、鋅善存片之類保健品。最終Andrew Pole選出了25種經(jīng)典商品消費(fèi)數(shù)據(jù)構(gòu)建了“懷孕預(yù)測指數(shù)”,經(jīng)過這個指數(shù),Target能夠在很小誤差范圍內(nèi)預(yù)測到用戶懷孕情況,所以Target就能早早地把孕婦優(yōu)惠廣告寄發(fā)給用戶。 成功案例大數(shù)據(jù)營銷第78頁關(guān)鍵步驟三:建立和用戶溝通渠道那么,用戶收到這么廣告會不會嚇壞了呢?Ta

49、rget很聰明地防止了這種情況,它把孕婦用具優(yōu)惠廣告夾雜在其它一大堆與懷孕不相關(guān)商品優(yōu)惠廣告當(dāng)中,這么用戶就不知道Target知道她懷孕了 成功案例大數(shù)據(jù)營銷Target取得成就:依據(jù)Andrew Pole大數(shù)據(jù)模型,Target制訂了全新廣告營銷方案,結(jié)果Target孕期用具銷售展現(xiàn)了爆炸性增加。Andrew Pole大數(shù)據(jù)分析技術(shù)從孕婦這個細(xì)分用戶群開始向其它各種細(xì)分客戶群推廣,從Andrew Pole加入Target到年間,Target銷售額從440億美元增加到了670億美元。第79頁 目錄一、大數(shù)據(jù)起源五、大數(shù)據(jù)安全四、成功案例三、大數(shù)據(jù)應(yīng)用二、什么是大數(shù)據(jù)第80頁1.大數(shù)據(jù)成為網(wǎng)絡(luò)攻

50、擊顯著目標(biāo)在網(wǎng)絡(luò)空間中,大數(shù)據(jù)成為更輕易被“發(fā)現(xiàn)”大目標(biāo),承載著越來越多關(guān)注度。一方面,大數(shù)據(jù)不僅意味著海量數(shù)據(jù),也意味著更復(fù)雜、更敏感數(shù)據(jù),這些數(shù)據(jù)會引更多潛在攻擊者,成為更具吸引力目標(biāo)。其次,數(shù)據(jù)大量聚集,使得黑客一次成功攻擊能夠獲得更多數(shù)據(jù),無形中降低了黑客進(jìn)攻成本,增加了“收益率”。 大數(shù)據(jù)面臨挑戰(zhàn)第81頁2.大數(shù)據(jù)加大隱私泄露風(fēng)險網(wǎng)絡(luò)空間中數(shù)據(jù)來源涵蓋非常廣闊范圍,例如傳感器、社交網(wǎng)絡(luò)、記錄存檔、電子郵件等,大量數(shù)據(jù)劇集不可防止加大了用戶隱私泄露風(fēng)險。一方面,大量數(shù)據(jù)匯集,包括大量企業(yè)運(yùn)營數(shù)據(jù)、客戶信息、個人隱私和各種行為細(xì)節(jié)記錄。這些數(shù)據(jù)集中存儲增加了數(shù)據(jù)泄露風(fēng)險,而這些數(shù)據(jù)不被濫

51、用,也成為人身安全一部分。其次,一些敏感數(shù)據(jù)全部權(quán)和使用權(quán)并沒有明確界定,很多基于大數(shù)據(jù)分析都未考慮到其中涉及到個體隱私問題。 大數(shù)據(jù)面臨挑戰(zhàn)第82頁 大數(shù)據(jù)面臨挑戰(zhàn)3.大數(shù)據(jù)對現(xiàn)有存放和安防辦法提出挑戰(zhàn)大數(shù)據(jù)存放帶來新安全問題。數(shù)據(jù)大集中后果是復(fù)雜多樣數(shù)據(jù)存放在一起,比如開發(fā)數(shù)據(jù)、客戶資料和經(jīng)營數(shù)據(jù)存放在一起,可能會出現(xiàn)違規(guī)地將一些生產(chǎn)數(shù)據(jù)放在經(jīng)營數(shù)據(jù)存放位置情況,造成企業(yè)安全管理不合規(guī)。大數(shù)據(jù)大小影響到安全控制辦法能否正確運(yùn)行。對于海量數(shù)據(jù),常規(guī)安全掃描伎倆需要花費(fèi)過多地時間,已經(jīng)無法滿足安全需求。安全防護(hù)伎倆更新升級速度無法跟上數(shù)據(jù)量非線性增加步伐,大數(shù)據(jù)安全防護(hù)存在漏洞。第83頁 大數(shù)

52、據(jù)面臨挑戰(zhàn)4.大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊伎倆中在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價值同時,黑客也正在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客最大程度地搜集更多有用信息,比如社交網(wǎng)絡(luò)、郵件、微博、電子商務(wù)、電話和家庭住址等信息,為發(fā)起攻擊做準(zhǔn)備,大數(shù)據(jù)分析讓黑客攻擊更精準(zhǔn)。另外,大數(shù)據(jù)為黑客發(fā)起攻擊提供了更多機(jī)會。黑客利用大數(shù)據(jù)發(fā)起僵尸網(wǎng)絡(luò)攻擊,可能會同時控制上百萬臺傀儡機(jī)并發(fā)起攻擊,這個數(shù)量級是傳統(tǒng)單點攻擊不具備。第84頁 大數(shù)據(jù)面臨挑戰(zhàn)5.大數(shù)據(jù)成為高級可連續(xù)攻擊載體黑客利用大數(shù)據(jù)將攻擊很好地隱藏起來,使傳統(tǒng)防護(hù)策略難以檢測出來。傳統(tǒng)檢測是基于單個時間點進(jìn)行基于威脅特征實時匹配檢測,而

53、高級可連續(xù)攻擊(APT)是一個實施過程,并不含有能夠被實時檢測出來顯著特征,無法被實時檢測。同時,APT攻擊代碼隱藏在大量數(shù)據(jù)中,讓其極難被發(fā)覺。另外,大數(shù)據(jù)價值低密度性,讓安全分析工具極難聚焦在價值點上,黑客能夠?qū)⒐綦[藏在大數(shù)據(jù)中,給安全服務(wù)提供商分析制造了很大困難。黑客設(shè)置任何一個會誤導(dǎo)安全廠商目標(biāo)信息提取和檢索攻擊,都會造成安全監(jiān)測偏離應(yīng)有方向。第85頁大數(shù)據(jù)安全威脅大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅大數(shù)據(jù)存放安全威脅隱私泄露問題針對大數(shù)據(jù)高級連續(xù)性攻擊其它安全威脅 大數(shù)據(jù)安全威脅第86頁非授權(quán)訪問信息泄露或丟失網(wǎng)絡(luò)基礎(chǔ)設(shè)施傳輸過程中破壞數(shù)據(jù)完整性拒絕服務(wù)攻擊網(wǎng)絡(luò)傳輸病毒攻擊者能夠經(jīng)過實施嗅探、中

54、止人攻擊、重放攻擊來竊取或篡改數(shù)據(jù)。 經(jīng)過干擾網(wǎng)絡(luò),改變其正常作業(yè)流程或執(zhí)行武官程序,造成系統(tǒng)響應(yīng)遲緩,影響正當(dāng)用戶正常使用,甚至使正當(dāng)用戶遭到排斥,不能得到響應(yīng)服務(wù)。沒有預(yù)先經(jīng)過同意,就使用網(wǎng)絡(luò)或計算機(jī)資源 ,主要形式有 假冒、身份攻擊、非法用戶進(jìn)入網(wǎng)絡(luò)系統(tǒng)進(jìn)行違法操作,以及正當(dāng)用戶以未授權(quán)方式進(jìn)行操作等。經(jīng)過信息網(wǎng)絡(luò)傳輸計算機(jī)病毒 。 如攻擊者經(jīng)過建立隱蔽隧道竊取 敏感信息,最經(jīng)典有美國棱鏡門(竊取世界各地公民信息)、阿桑奇事件、斯諾登事件。 大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅第87頁 大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅普通用戶安全意識微弱,移動智能終端,網(wǎng)絡(luò)平臺被攻陷,數(shù)據(jù)丟失及泄露風(fēng)險極大第88頁模式成熟度不

55、夠:系統(tǒng)成熟度不夠:代碼輕易產(chǎn)生漏洞:數(shù)據(jù)冗余和分散問題:當(dāng)前標(biāo)準(zhǔn)sql技術(shù)包含嚴(yán)格訪問控制和隱私管理工具,而NoSQL沒有。NoSQL含有較多漏洞。這是計算機(jī)誕生時起就一直存在問題,至今無法處理,只能不停打漏洞補(bǔ)丁。NoSQL模式下數(shù)據(jù)分散在不一樣地理位置、不一樣服務(wù)器中,以實現(xiàn)數(shù)據(jù)優(yōu)化查詢和備份。在這種情況下,難以定位數(shù)據(jù)并進(jìn)行保護(hù)。 大數(shù)據(jù)存放安全威脅以上主要指NoSQL非關(guān)系型數(shù)據(jù)庫存放安全威脅第89頁基于云計算架構(gòu)大數(shù)據(jù),數(shù)據(jù)存放和操作都是以服務(wù)形式提供。當(dāng)前,大數(shù)據(jù)安全存放采取虛擬化海量存放技術(shù)來存放數(shù)據(jù)資源,包括數(shù)據(jù)傳輸、隔離、恢復(fù)等問題。處理大數(shù)據(jù)安全存放:1.數(shù)據(jù)加密。在大數(shù)

56、據(jù)安全服務(wù)設(shè)計中,大數(shù)據(jù)能夠按照數(shù)據(jù)安全存放需求,被存放在數(shù)據(jù)集任何存放空間,經(jīng)過SSL(安全套接層)加密,實現(xiàn)數(shù)據(jù)集節(jié)點和應(yīng)用程序之間移動保護(hù)大數(shù)據(jù)。在大數(shù)據(jù)傳輸服務(wù)過程中,加密為數(shù)據(jù)流上傳與下載提供有效保護(hù)。應(yīng)用隱私保護(hù)和外包數(shù)據(jù)計算,屏蔽網(wǎng)絡(luò)攻擊。當(dāng)前,PGP和TrueCrypt等程序都提供了強(qiáng)大加密功效。 大數(shù)據(jù)存放安全策略第90頁 2.分離密鑰和加密數(shù)據(jù)。使用加密把數(shù)據(jù)使用與數(shù)據(jù)保管分離,把密鑰與要保護(hù)數(shù)據(jù)隔離開。同時,定義產(chǎn)生、存放、備份、恢復(fù)等密鑰管理生命周期。3.使用過濾器。經(jīng)過過濾器監(jiān)控,一旦發(fā)覺數(shù)據(jù)離開了用戶網(wǎng)絡(luò),就自動阻止數(shù)據(jù)再次傳輸。4.數(shù)據(jù)備份。經(jīng)過系統(tǒng)容災(zāi)、敏感信息

57、集中管控和數(shù)據(jù)管理等產(chǎn)品,實現(xiàn)端對端數(shù)據(jù)保護(hù),確保大數(shù)據(jù)損壞情況下有備無患和安全管控。 大數(shù)據(jù)存放安全策略第91頁 大數(shù)據(jù)中用戶無法知道數(shù)據(jù)確實切存放位置,用戶對其個人數(shù)據(jù)采集、存放、使用、分享無法有效控制。比如實名注冊一個社交網(wǎng)站后,用戶信息將不再受用戶本人支配,攻擊者可經(jīng)過攻擊社交網(wǎng)站竊取用戶信息。 大數(shù)據(jù)隱私泄露第92頁 大數(shù)據(jù)隱私泄露隱私泄露,就是讓你不想被他人知道事情(這件事情主體是你)能夠被人在你不允許情況下知道第93頁 大數(shù)據(jù)隱私泄露大數(shù)據(jù)分析,方便了我們同時也侵犯了我們隱私。第94頁其它安全威脅網(wǎng)絡(luò)化社會使大數(shù)據(jù)易成為攻擊目標(biāo)大數(shù)據(jù)濫用風(fēng)險大數(shù)據(jù)誤用風(fēng)險如論壇、博客、微博等為黑

58、客竊取個人信息提供了平臺。如黑客能夠利 用大數(shù)據(jù)技術(shù)最大程度地搜集用戶敏感信息。如從社交網(wǎng)站獲取 個人信息準(zhǔn)確性, 基本資料比如年紀(jì)、婚姻情況等都是為經(jīng)驗證,分析結(jié)果可信度不高。 大數(shù)據(jù)其它安全威脅第95頁 大數(shù)據(jù)安全大數(shù)據(jù)中用戶隱私保護(hù)大數(shù)據(jù)可信性怎樣實現(xiàn)大數(shù)據(jù)訪問控制大數(shù)據(jù)帶來安全挑戰(zhàn)第96頁用戶隱私保護(hù)大數(shù)據(jù)可信性怎樣實現(xiàn)大數(shù)據(jù)訪問控制不但限于個人隱私泄漏,還在于基于大數(shù)據(jù)對人們狀態(tài)和行為預(yù)測。當(dāng)前用戶數(shù)據(jù)搜集、管理和使用缺乏監(jiān)管,主要依靠企業(yè)自律威脅之一是偽造或刻意制造數(shù)據(jù),而錯誤數(shù)據(jù)往往會造成錯誤結(jié)論。威脅之二是數(shù)據(jù)在傳輸中逐步失真。(1)難以預(yù)設(shè)角色,實現(xiàn)角色劃分;(2)難以預(yù)知每

59、個角色實際權(quán)限。 大數(shù)據(jù)安全第97頁 大數(shù)據(jù)安全與隱私保護(hù)用戶隱私保護(hù)數(shù)據(jù)采集時的隱私保護(hù),如數(shù)據(jù)精度處理數(shù)據(jù)發(fā)布、共享時的隱私保護(hù),如數(shù)據(jù)的匿名處理、人工加擾等數(shù)據(jù)分析及數(shù)據(jù)生命周期的隱私保護(hù)第98頁 大數(shù)據(jù)安全與隱私保護(hù)傳統(tǒng)三大隱私保護(hù)法都沒有用1、隱私保護(hù)相關(guān)法律數(shù)據(jù)搜集者必須通知個人,他們搜集了哪些數(shù)據(jù)、作何用途,也必須在搜集工作開始之前征得個人同意通知許可不可能做到,限制大數(shù)據(jù)潛在價值挖掘太空乏且 無法真正地保護(hù)個人隱私谷歌要使用檢索詞預(yù)測流感,必須一一征得數(shù)億用戶同意一開始要用戶同意全部可能用途實際上第99頁 大數(shù)據(jù)安全與隱私保護(hù)傳統(tǒng)三大隱私保護(hù)法都沒有用2、數(shù)據(jù)含糊化有意識避開一

60、些關(guān)鍵數(shù)據(jù)Too young too simple谷歌街景谷歌圖像采集車在很多國家采集了道路和房屋圖像,當(dāng)?shù)孛襟w和民眾強(qiáng)烈地抗議了谷歌行為。他們認(rèn)為這些圖片會幫助黑幫盜賊選擇有利可圖目標(biāo)。谷歌同意將他們房屋影像含糊化。第100頁 大數(shù)據(jù)安全與隱私保護(hù)傳統(tǒng)三大隱私保護(hù)法都沒有用3、數(shù)據(jù)匿名化讓全部揭示個人情況信息都不出現(xiàn)在數(shù)據(jù)集里,比如說名字、生日、住址、信用卡號等等你想太多了大數(shù)據(jù)促進(jìn)了數(shù)據(jù)內(nèi)容交叉檢驗。有心找你一定找到。第101頁數(shù)據(jù)公布匿名保護(hù)技術(shù)1社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)2數(shù)據(jù)水印技術(shù)3數(shù)據(jù)溯源技術(shù)4角色挖掘技術(shù)5風(fēng)險自適應(yīng)訪問控制6 大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)第102頁數(shù)據(jù)公布匿名保護(hù)技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論