版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)xxx公司大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)文件編號:文件日期:修訂次數(shù):第1.0次更改批準(zhǔn)審核制定方案設(shè)計,管理制度4大數(shù)據(jù)參考架構(gòu)和關(guān)鍵技術(shù)大數(shù)據(jù)參考架構(gòu)大數(shù)據(jù)作為一種新興技術(shù),目前尚未形成完善、達(dá)成共識的技術(shù)標(biāo)準(zhǔn)體系。本章結(jié)合NIST和JTC1/SC32的研究成果,結(jié)合我們對大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(gòu)(見圖5)。圖5大數(shù)據(jù)參考架構(gòu)圖大數(shù)據(jù)參考架構(gòu)總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用的概念提供了一個構(gòu)件層級分類體系,即“角色—活動—功能組件”,用于描述參考架構(gòu)中的邏輯構(gòu)件及其關(guān)系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對IT技術(shù)產(chǎn)生的新需求所帶來的價值,“信息價值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法論對數(shù)據(jù)到知識的處理過程中所實現(xiàn)的信息流價值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。大數(shù)據(jù)參考架構(gòu)是一個通用的大數(shù)據(jù)系統(tǒng)概念模型。它表示了通用的、技術(shù)無關(guān)的大數(shù)據(jù)系統(tǒng)的邏輯功能構(gòu)件及構(gòu)件之間的互操作接口,可以作為開發(fā)各種具體類型大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)的通用技術(shù)參考框架。其目標(biāo)是建立一個開放的大數(shù)據(jù)技術(shù)參考架構(gòu),使系統(tǒng)工程師、數(shù)據(jù)科學(xué)家、軟件開發(fā)人員、數(shù)據(jù)架構(gòu)師和高級決策者,能夠在可以互操作的大數(shù)據(jù)生態(tài)系統(tǒng)中制定一個解決方案,解決由各種大數(shù)據(jù)特征融合而帶來的需要使用多種方法的問題。它提供了一個通用的大數(shù)據(jù)應(yīng)用系統(tǒng)框架,支持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè),有助于理解大數(shù)據(jù)系統(tǒng)如何補(bǔ)充并有別于已有的分析、商業(yè)智能、數(shù)據(jù)庫等傳統(tǒng)的數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)參考架構(gòu)采用構(gòu)件層級結(jié)構(gòu)來表達(dá)大數(shù)據(jù)系統(tǒng)的高層概念和通用的構(gòu)件分類法。從構(gòu)成上看,大數(shù)據(jù)參考架構(gòu)是由一系列在不同概念層級上的邏輯構(gòu)件組成的。這些邏輯構(gòu)件被劃分為三個層級,從高到低依次為角色、活動和功能組件。最頂層級的邏輯構(gòu)件是角色,包括系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、數(shù)據(jù)消費者、安全和隱私、管理。第二層級的邏輯構(gòu)件是每個角色執(zhí)行的活動。第三層級的邏輯構(gòu)件是執(zhí)行每個活動需要的功能組件。大數(shù)據(jù)參考架構(gòu)圖的整體布局按照代表大數(shù)據(jù)價值鏈的兩個維度來組織,即信息價值鏈(水平軸)和IT價值鏈(垂直軸)。在信息價值鏈維度上,大數(shù)據(jù)的價值通過數(shù)據(jù)的收集、預(yù)處理、分析、可視化和訪問等活動來實現(xiàn)。在IT價值鏈維度上,大數(shù)據(jù)價值通過為大數(shù)據(jù)應(yīng)用提供存放和運行大數(shù)據(jù)的網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺、應(yīng)用工具以及其他IT服務(wù)來實現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處在兩個維的交叉點上,表明大數(shù)據(jù)分析及其實施為兩個價值鏈上的大數(shù)據(jù)利益相關(guān)者提供了價值。五個主要的模型構(gòu)件代表在每個大數(shù)據(jù)系統(tǒng)中存在的不同技術(shù)角色:系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和數(shù)據(jù)消費者。另外兩個非常重要的模型構(gòu)件是安全隱私與管理,代表能為大數(shù)據(jù)系統(tǒng)其他五個主要模型構(gòu)件提供服務(wù)和功能的構(gòu)件。這兩個關(guān)鍵模型構(gòu)件的功能極其重要,因此也被集成在任何大數(shù)據(jù)解決方案中。參考架構(gòu)可以用于多個大數(shù)據(jù)系統(tǒng)組成的復(fù)雜系統(tǒng)(如堆疊式或鏈?zhǔn)较到y(tǒng)),這樣其中一個系統(tǒng)的大數(shù)據(jù)使用者可以作為另外一個系統(tǒng)的大數(shù)據(jù)提供者。參考架構(gòu)邏輯構(gòu)件之間的關(guān)系用箭頭表示,包括三類關(guān)系:“數(shù)據(jù)”、“軟件”和“服務(wù)使用”。“數(shù)據(jù)”表明在系統(tǒng)主要構(gòu)件之間流動的數(shù)據(jù),可以是實際數(shù)值或引用地址?!败浖北砻髟诖髷?shù)據(jù)處理過程中的支撐軟件工具。“服務(wù)使用”代表軟件程序接口。雖然此參考架構(gòu)主要用于描述大數(shù)據(jù)實時運行環(huán)境,但也可用于配置階段。大數(shù)據(jù)系統(tǒng)中涉及的人工協(xié)議和人工交互沒有被包含在此參考架構(gòu)中。(1)系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)必須滿足的整體要求,包括政策、治理、架構(gòu)、資源和業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而進(jìn)行的監(jiān)控和審計活動。系統(tǒng)協(xié)調(diào)者角色的扮演者包括業(yè)務(wù)領(lǐng)導(dǎo)、咨詢師、數(shù)據(jù)科學(xué)家、信息架構(gòu)師、軟件架構(gòu)師、安全和隱私架構(gòu)師、網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義和整合所需的數(shù)據(jù)應(yīng)用活動到運行的垂直系統(tǒng)中。系統(tǒng)協(xié)調(diào)者通常會涉及到更多具體角色,由一個或多個角色扮演者管理和協(xié)調(diào)大數(shù)據(jù)系統(tǒng)的運行。這些角色扮演者可以是人,軟件或二者的結(jié)合。系統(tǒng)協(xié)調(diào)者的功能是配置和管理大數(shù)據(jù)架構(gòu)的其他組件,來執(zhí)行一個或多個工作負(fù)載。這些由系統(tǒng)協(xié)調(diào)者管理的工作負(fù)載,在較低層可以是把框架組件分配或調(diào)配到個別物理或虛擬節(jié)點上,在較高層可以是提供一個圖形用戶界面來支持連接多個應(yīng)用程序和組件的工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也可以通過管理角色監(jiān)控工作負(fù)載和系統(tǒng),以確認(rèn)每個工作負(fù)載都達(dá)到了特定的服務(wù)質(zhì)量要求,還可能彈性地分配和提供額外的物理或虛擬資源,以滿足由變化/激增的數(shù)據(jù)或用戶/交易數(shù)量而帶來的工作負(fù)載需求。(2)數(shù)據(jù)提供者數(shù)據(jù)提供者角色為大數(shù)據(jù)系統(tǒng)提供可用的數(shù)據(jù)。數(shù)據(jù)提供者角色的扮演者包括企業(yè)、公共代理機(jī)構(gòu)、研究人員和科學(xué)家、搜索引擎、Web/FTP和其他應(yīng)用、網(wǎng)絡(luò)運營商、終端用戶等。在一個大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)提供者的活動通常包括采集數(shù)據(jù)、持久化數(shù)據(jù)、對敏感信息進(jìn)行轉(zhuǎn)換和清洗、創(chuàng)建數(shù)據(jù)源的元數(shù)據(jù)及訪問策略、訪問控制、通過軟件的可編程接口接口實現(xiàn)推或拉式的數(shù)據(jù)訪問、發(fā)布數(shù)據(jù)可用及訪問方法的信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預(yù)先轉(zhuǎn)換的數(shù)據(jù))創(chuàng)建一個抽象的數(shù)據(jù)源,通過不同的接口提供發(fā)現(xiàn)和訪問數(shù)據(jù)功能。這些接口通常包括一個注冊表,使得大數(shù)據(jù)應(yīng)用程序能夠找到數(shù)據(jù)提供者、確定包含感興趣的數(shù)據(jù)、理解允許訪問的類型、了解所支持的分析類型、定位數(shù)據(jù)源、確定數(shù)據(jù)訪問方法、識別數(shù)據(jù)安全要求、識別數(shù)據(jù)保密要求以及其他相關(guān)信息。因此,該接口將提供注冊數(shù)據(jù)源、查詢注冊表、識別注冊表中包含標(biāo)準(zhǔn)數(shù)據(jù)集等功能。針對大數(shù)據(jù)的4V特性和系統(tǒng)設(shè)計方面的考慮,暴露和訪問數(shù)據(jù)的接口需要根據(jù)變化的復(fù)雜性采用推和拉兩種軟件機(jī)制。這兩種軟件機(jī)制包括訂閱事件、監(jiān)聽數(shù)據(jù)饋送、查詢特定數(shù)據(jù)屬性或內(nèi)容,以及提交一段代碼來執(zhí)行數(shù)據(jù)處理功能。由于需要考慮大數(shù)據(jù)量跨網(wǎng)絡(luò)移動的經(jīng)濟(jì)性,接口還可以允許提交分析請求(例如,執(zhí)行一段實現(xiàn)特定算法的軟件代碼),只把結(jié)果返回給請求者。數(shù)據(jù)訪問可能不總是自動進(jìn)行,可以讓人類角色登錄到系統(tǒng)提供新數(shù)據(jù)應(yīng)傳送的方式(例如,基于數(shù)據(jù)饋送建立訂閱電子郵件)。(3)大數(shù)據(jù)應(yīng)用提供者大數(shù)據(jù)應(yīng)用提供者在數(shù)據(jù)的生命周期中執(zhí)行一系列操作,以滿足系統(tǒng)協(xié)調(diào)者建立的系統(tǒng)要求及安全和隱私要求。大數(shù)據(jù)應(yīng)用提供者通過把大數(shù)據(jù)框架中的一般性資源和服務(wù)能力相結(jié)合,把業(yè)務(wù)邏輯和功能封裝成架構(gòu)組件,構(gòu)造出特定的大數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)應(yīng)用提供者角色的扮演者包括應(yīng)用程序?qū)<?、平臺專家、咨詢師等。大數(shù)據(jù)應(yīng)用提供者角色執(zhí)行的活動包括數(shù)據(jù)的收集、預(yù)處理、分析、可視化和訪問。大數(shù)據(jù)應(yīng)用程序提供者可以是單個實例,也可以是一組更細(xì)粒度大數(shù)據(jù)應(yīng)用提供者實例的集合,集合中的每個實例執(zhí)行數(shù)據(jù)生命周期中的不同活動。每個大數(shù)據(jù)應(yīng)用提供者的活動可能是由系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者或數(shù)據(jù)消費者調(diào)用的一般服務(wù),如Web服務(wù)器、文件服務(wù)器、一個或多個應(yīng)用程序的集合或組合。每個活動可以由多個不同實例執(zhí)行,或者單個程序也可能執(zhí)行多個活動。每個活動都能夠與大數(shù)據(jù)框架提供者、數(shù)據(jù)提供者以及數(shù)據(jù)消費者交互。這些活動可以并行執(zhí)行,也可以按照任意的數(shù)字順序執(zhí)行,活動之間經(jīng)常需要通過大數(shù)據(jù)框架提供者的消息和通信框架進(jìn)行通信。大數(shù)據(jù)應(yīng)用提供者執(zhí)行的活動和功能,特別是數(shù)據(jù)收集和數(shù)據(jù)訪問活動,需要與安全和隱私角色進(jìn)行交互,執(zhí)行認(rèn)證/授權(quán)并記錄或維護(hù)數(shù)據(jù)的出處。收集活動用于處理與數(shù)據(jù)提供者的接口。它可以是一般服務(wù),如由系統(tǒng)協(xié)調(diào)者配置的用于接收或執(zhí)行數(shù)據(jù)收集任務(wù)的文件服務(wù)器或Web服務(wù)器;也可以是特定于應(yīng)用的服務(wù),如用來從數(shù)據(jù)提供者拉數(shù)據(jù)或接收數(shù)據(jù)提供者推送數(shù)據(jù)的服務(wù)。收集活動執(zhí)行的任務(wù)類似于ETL的抽?。╡xtraction)環(huán)節(jié)。收集活動接收到的數(shù)據(jù)通常需要大數(shù)據(jù)框架提供者的處理框架來執(zhí)行內(nèi)存隊列緩存或其他數(shù)據(jù)持久化服務(wù)。預(yù)處理活動執(zhí)行的任務(wù)類似于ETL的轉(zhuǎn)換(transformation)環(huán)節(jié),包括數(shù)據(jù)驗證、清洗、去除異常值、標(biāo)準(zhǔn)化、格式化或封裝。預(yù)處理活動也是大數(shù)據(jù)框架提供者歸檔存儲的數(shù)據(jù)來源,這些數(shù)據(jù)的出處信息一般也要被驗證并附加到數(shù)據(jù)存儲中。預(yù)處理活動也可能聚集來自不同的數(shù)據(jù)提供者的數(shù)據(jù),利用元數(shù)據(jù)鍵來創(chuàng)建一個擴(kuò)展的和增強(qiáng)的數(shù)據(jù)集。分析活動的任務(wù)是實現(xiàn)從數(shù)據(jù)中提取出知識。這需要有特定的數(shù)據(jù)處理算法對數(shù)據(jù)進(jìn)行處理,以便從數(shù)據(jù)中得出能夠解決技術(shù)目標(biāo)的新洞察。分析活動包括對大數(shù)據(jù)系統(tǒng)低級別的業(yè)務(wù)邏輯進(jìn)行編碼(更高級別的業(yè)務(wù)流程邏輯由系統(tǒng)協(xié)調(diào)者進(jìn)行編碼),它利用大數(shù)據(jù)框架提供者的處理框架來實現(xiàn)這些關(guān)聯(lián)的邏輯,通常會涉及到在批處理或流處理組件上實現(xiàn)分析邏輯的軟件。分析活動還可以使用大數(shù)據(jù)框架提供者的消息和通信框架在應(yīng)用邏輯中傳遞數(shù)據(jù)和控制功能??梢暬顒拥娜蝿?wù)是將分析活動結(jié)果以最利于溝通和理解知識的方式展現(xiàn)給數(shù)據(jù)消費者??梢暬墓δ馨ㄉ苫谖谋镜膱蟾婊蛘咭詧D形方式渲染分析結(jié)果??梢暬慕Y(jié)果可以是靜態(tài)的,存儲在大數(shù)據(jù)框架提供者中供以后訪問。更多的情況下,可視化活動經(jīng)常要與數(shù)據(jù)消費者、大數(shù)據(jù)分析活動以及大數(shù)據(jù)提供者的處理框架和平臺進(jìn)行交互,這就需要基于數(shù)據(jù)消費者設(shè)置的數(shù)據(jù)訪問參數(shù)來提供交互式可視化手段。可視化活動可以完全由應(yīng)用程序?qū)崿F(xiàn),也可以使用大數(shù)據(jù)框架提供者提供的專門的可視化處理框架實現(xiàn)。訪問活動主要集中在與數(shù)據(jù)消費者的通信和交互。與數(shù)據(jù)收集活動類似,訪問活動可以是由系統(tǒng)協(xié)調(diào)者配置的一般服務(wù),如Web服務(wù)器或應(yīng)用服務(wù)器,用于接受數(shù)據(jù)消費者請求。訪問活動還可以作為可視化活動、分析活動的界面來響應(yīng)數(shù)據(jù)消費者的請求,并使用大數(shù)據(jù)框架提供者的處理框架和平臺來檢索數(shù)據(jù),向數(shù)據(jù)消費者請求作出響應(yīng)。此外,訪問活動還要確保為數(shù)據(jù)消費者提供描述性和管理性元數(shù)據(jù),并把這些元數(shù)據(jù)作為數(shù)據(jù)傳送給數(shù)據(jù)消費者。訪問活動與數(shù)據(jù)消費者的接口可以是同步或異步的,也可以使用拉或推軟件機(jī)制進(jìn)行數(shù)據(jù)傳輸。(4)大數(shù)據(jù)框架提供者大數(shù)據(jù)框架提供者角色為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建特定的大數(shù)據(jù)應(yīng)用系統(tǒng)時提供一般資源和服務(wù)能力。大數(shù)據(jù)框架提供者的角色扮演者包括數(shù)據(jù)中心、云提供商、自建服務(wù)器集群等。大數(shù)據(jù)框架提供者執(zhí)行的活動和功能包括提供基礎(chǔ)設(shè)施(物理資源、虛擬資源)、數(shù)據(jù)平臺(文件存儲、索引存儲)、處理框架(批處理、交互、流處理)、消息和通信框架、資源管理等?;A(chǔ)設(shè)施為其他角色執(zhí)行活動提供存放和運行大數(shù)據(jù)系統(tǒng)所需要的資源。通常情況下,這些資源是物理資源的某種組合,用來支持相似的虛擬資源。資源一般可以分為網(wǎng)絡(luò)、計算、存儲和環(huán)境。網(wǎng)絡(luò)資源負(fù)責(zé)數(shù)據(jù)在基礎(chǔ)設(shè)施組件之間的傳送;計算資源包括物理處理器和內(nèi)存,負(fù)責(zé)執(zhí)行和保持大數(shù)據(jù)系統(tǒng)其他組件的軟件;存儲資源為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)持久化能力;環(huán)境資源是在考慮建立大數(shù)據(jù)系統(tǒng)時需要的實體工廠資源,如供電、制冷等。數(shù)據(jù)平臺通過相關(guān)的應(yīng)用編程接口(API)或其他方式,提供數(shù)據(jù)的邏輯組織和分發(fā)服務(wù)。它也可能提供數(shù)據(jù)注冊、元數(shù)據(jù)以及語義數(shù)據(jù)描述等服務(wù)。邏輯數(shù)據(jù)組織的范圍涵蓋從簡單的分隔符平面文件到完全分布式的關(guān)系存儲或列存儲。數(shù)據(jù)訪問方式可以是文件存取API或查詢語言(如SQL)。通常情況下,實現(xiàn)的大數(shù)據(jù)系統(tǒng)既能支持任何基本的文件系統(tǒng)存儲,也支持內(nèi)存存儲、索引文件存儲等方式。處理框架提供必要的基礎(chǔ)軟件以支持實現(xiàn)的應(yīng)用能夠處理具有4V特征的大數(shù)據(jù)。處理框架定義了數(shù)據(jù)的計算和處理是如何組織的。大數(shù)據(jù)應(yīng)用依賴于各種平臺和技術(shù),以應(yīng)對可擴(kuò)展的數(shù)據(jù)處理和分析的挑戰(zhàn)。處理框架一般可以分為批處理(batch)、流處理(streaming)和交互式(interactive)三種類型。消息和通信框架為可水平伸縮的集群的結(jié)點之間提供可靠隊列、傳輸、數(shù)據(jù)接收等功能。它通常有2種實現(xiàn)模式,即點對點(point-to-point)模式和存儲-轉(zhuǎn)發(fā)(store-and-forward)模式。點對點模式不考慮消息的恢復(fù)問題,數(shù)據(jù)直接從發(fā)送者傳送給接收者。存儲-轉(zhuǎn)發(fā)模式提供消息持久化和恢復(fù)機(jī)制,發(fā)送者把數(shù)據(jù)發(fā)送給中介代理,中介代理先存儲消息然后再轉(zhuǎn)發(fā)給接收者。資源管理活動負(fù)責(zé)解決由于大數(shù)據(jù)的數(shù)據(jù)量和速度特征而帶來的對CPU、內(nèi)存、I/O等資源管理問題。有兩種不同的資源管理方式,分別是框架內(nèi)(intra-framework)資源管理和框架間(inter-framework)資源管理。框架內(nèi)資源管理負(fù)責(zé)框架自身內(nèi)部各組件之間的資源分配,由框架負(fù)載驅(qū)動,通常會為了最小化框架整體需求或降低運行成本而關(guān)閉不需要的資源??蚣荛g資源管理負(fù)責(zé)大數(shù)據(jù)系統(tǒng)多個存儲框架和處理框架之間的資源調(diào)度和優(yōu)化管理,通常包括管理框架的資源請求、監(jiān)控框架資源使用,以及在某些情況下對申請使用資源的應(yīng)用隊列進(jìn)行管理等。特別的,針對大數(shù)據(jù)系統(tǒng)負(fù)載多變、用戶多樣、規(guī)模較大的特點,應(yīng)采用更加經(jīng)濟(jì)有效的資源構(gòu)架和管理方案。目前的大數(shù)據(jù)軟件框架,其亮點在于高可擴(kuò)展性,而本質(zhì)訴求仍然是如何實現(xiàn)并行化,即對數(shù)據(jù)進(jìn)行分片、并為每一個分片分配相應(yīng)的本地計算資源。因此,對于基礎(chǔ)架構(gòu)而言,為了支持大數(shù)據(jù)軟件框架,最直接的實現(xiàn)方式就是將一份計算資源和一份存儲資源進(jìn)行綁定,構(gòu)成一個資源單位(如,服務(wù)器),以獲得盡可能高的本地數(shù)據(jù)訪問性能。但是,這種基礎(chǔ)架構(gòu)由于計算同存儲之間緊耦合且比例固定,逐漸暴露出資源利用率低、重構(gòu)時靈活性差等問題。因此,未來應(yīng)通過硬件及軟件各方面的技術(shù)創(chuàng)新,在保證本地數(shù)據(jù)訪問性能的同時,實現(xiàn)計算與存儲資源之間的松耦合,即:可以按需調(diào)配整個大數(shù)據(jù)系統(tǒng)中的資源比例,及時適應(yīng)當(dāng)前業(yè)務(wù)對計算和存儲的真實需要;同時,可以對系統(tǒng)的計算部分進(jìn)行快速切換,真正滿足數(shù)據(jù)技術(shù)(DT)時代對“以數(shù)據(jù)為中心、按需投入計算”的業(yè)務(wù)要求。(5)數(shù)據(jù)消費者數(shù)據(jù)消費者角色接收大數(shù)據(jù)系統(tǒng)的輸出。與數(shù)據(jù)提供者類似,數(shù)據(jù)消費者可以是終端用戶或者其它應(yīng)用系統(tǒng)。數(shù)據(jù)消費者執(zhí)行的活動通常包括搜索/檢索、下載、本地分析、生成報告、可視化等。數(shù)據(jù)消費者利用大數(shù)據(jù)應(yīng)用提供者提供的界面或服務(wù)訪問他感興趣的信息,這些界面包括數(shù)據(jù)報表、數(shù)據(jù)檢索、數(shù)據(jù)渲染等。數(shù)據(jù)消費者角色也會通過數(shù)據(jù)訪問活動與大數(shù)據(jù)應(yīng)用提供者交互,執(zhí)行其提供的數(shù)據(jù)分析和可視化功能。交互可以是基于需要(demand-based)的,包括交互式可視化、創(chuàng)建報告,或者利用大數(shù)據(jù)提供者提供的商務(wù)智能(BI)工具對數(shù)據(jù)進(jìn)行鉆?。╠rill-down)操作等。交互功能也可以是基于流處理(streaming-based)或推(push-based)機(jī)制的,這種情況下消費者只需要訂閱大數(shù)據(jù)應(yīng)用系統(tǒng)的輸出即可。(6)安全和隱私在大數(shù)據(jù)參考架構(gòu)圖中,安全和隱私角色覆蓋了其它五個主要角色,即系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費者,表明這五個主要角色的活動都要受到安全和隱私角色的影響。安全和隱私角色處于管理角色之中,也意味著安全和隱私角色與大數(shù)據(jù)參考架構(gòu)中的全部活動和功能都相互關(guān)聯(lián)。在安全和隱私管理模塊,通過不同的技術(shù)手段和安全措施,構(gòu)筑大數(shù)據(jù)系統(tǒng)全方位、立體的安全防護(hù)體系,同時應(yīng)提供一個合理的災(zāi)備框架,提升災(zāi)備恢復(fù)能力,實現(xiàn)數(shù)據(jù)的實時異地容災(zāi)功能。大數(shù)據(jù)安全和隱私的詳細(xì)討論見。(7)管理管理角色包括二個活動組:系統(tǒng)管理和大數(shù)據(jù)生命周期管理。系統(tǒng)管理活動組包括調(diào)配、配置、軟件包管理、軟件管理、備份管理、能力管理、資源管理和大數(shù)據(jù)基礎(chǔ)設(shè)施的性能管理等活動。大數(shù)據(jù)生命周期管理涵蓋了大數(shù)據(jù)生命周期中所有的處理過程,其活動和功能是驗證數(shù)據(jù)在生命周期的每個過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理。由于大數(shù)據(jù)基礎(chǔ)設(shè)施的分布式和復(fù)雜性,系統(tǒng)管理依賴于兩點:使用標(biāo)準(zhǔn)的協(xié)議如SNMP把資源狀態(tài)和出錯信息傳送給管理組件;通過可部署的代理或管理連接子(connector)允許管理角色監(jiān)視甚至控制大數(shù)據(jù)處理框架元素。系統(tǒng)管理的功能是監(jiān)視各種計算資源的運行狀況,應(yīng)對出現(xiàn)的性能或故障事件,從而能夠滿足大數(shù)據(jù)應(yīng)用提供者的服務(wù)質(zhì)量(QoS)需求。在云服務(wù)提供商提供能力管理接口時,通過管理連接子對云基礎(chǔ)設(shè)施提供的自助服務(wù)、自我調(diào)整、自我修復(fù)等能力進(jìn)行利用和管理。大型基礎(chǔ)設(shè)施通常包括數(shù)以千計的計算和存儲節(jié)點,因此應(yīng)用程序和工具的調(diào)配應(yīng)盡可能自動化。軟件安裝、應(yīng)用配置以及補(bǔ)丁維護(hù)也應(yīng)該以自動的方式推送到各結(jié)點并實現(xiàn)自動地跨結(jié)點復(fù)制。還可以利用虛擬化技術(shù)的虛擬映像,加快恢復(fù)進(jìn)程和提供有效的系統(tǒng)修補(bǔ),以最大限度地減少定期維護(hù)時的停機(jī)時間。系統(tǒng)管理模塊應(yīng)能夠提供統(tǒng)一的運維管理,能夠?qū)Π〝?shù)據(jù)中心、基礎(chǔ)硬件、平臺軟件(存儲、計算)和應(yīng)用軟件進(jìn)行集中運維、統(tǒng)一管理,實現(xiàn)安裝部署、參數(shù)配置、系統(tǒng)監(jiān)控等功能。應(yīng)提供自動化運維的能力,通過對多個數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理,合理的分配和調(diào)度業(yè)務(wù)所需要的資源,做到自動化按需分配。同時提供對多個數(shù)據(jù)中心的IT基礎(chǔ)設(shè)施進(jìn)行集中運維的能力,自動化監(jiān)控數(shù)據(jù)中心內(nèi)各種IT設(shè)備的事件、告警、性能,實現(xiàn)從業(yè)務(wù)維度來進(jìn)行運維的能力。大數(shù)據(jù)生命周期管理活動負(fù)責(zé)驗證數(shù)據(jù)在生命周期中的每個過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理,它覆蓋了數(shù)據(jù)從數(shù)據(jù)提供者那里被攝取到系統(tǒng),一直到數(shù)據(jù)被處理或從系統(tǒng)中刪除的整個生命周期。由于大數(shù)據(jù)生命周期管理的任務(wù)可以分布在大數(shù)據(jù)計算環(huán)境中的不同組織和個體,從遵循政策、法規(guī)和安全要求的視角,大數(shù)據(jù)生命周期管理包括以下活動或功能:政策管理(數(shù)據(jù)遷移及處置策略)、元數(shù)據(jù)管理(管理數(shù)據(jù)標(biāo)識、質(zhì)量、訪問權(quán)限等元數(shù)據(jù)信息)、可訪問管理(依據(jù)時間改變數(shù)據(jù)的可訪問性)、數(shù)據(jù)恢復(fù)(災(zāi)難或系統(tǒng)出錯時對數(shù)據(jù)進(jìn)行恢復(fù))、保護(hù)管理(維護(hù)數(shù)據(jù)完整性)。從大數(shù)據(jù)系統(tǒng)要應(yīng)對大數(shù)據(jù)的4V特征來看,大數(shù)據(jù)生命周期管理活動和功能還包括與系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費者以及安全和隱私角色之間的交互。大數(shù)據(jù)關(guān)鍵技術(shù)數(shù)據(jù)收集大數(shù)據(jù)時代,數(shù)據(jù)的來源極其廣泛,數(shù)據(jù)有不同的類型和格式,同時呈現(xiàn)爆發(fā)性增長的態(tài)勢,這些特性對數(shù)據(jù)收集技術(shù)也提出了更高的要求。數(shù)據(jù)收集需要從不同的數(shù)據(jù)源實時的或及時的收集不同類型的數(shù)據(jù)并發(fā)送給存儲系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)收集一般可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩類,常常用的數(shù)據(jù)收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等。數(shù)據(jù)預(yù)處理數(shù)據(jù)的質(zhì)量對數(shù)據(jù)的價值大小有直接影響,低質(zhì)量數(shù)據(jù)將導(dǎo)致低質(zhì)量的分析和挖掘結(jié)果。廣義的數(shù)據(jù)質(zhì)量涉及許多因素,如數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時效性、可信性與可解釋性等。大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)通常具有一個或多個數(shù)據(jù)源,這些數(shù)據(jù)源可以包括同構(gòu)/異構(gòu)的(大)數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等。這些數(shù)據(jù)源中的數(shù)據(jù)來源現(xiàn)實世界,容易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等的影響。此外數(shù)據(jù)處理、分析、可視化過程中的算法與實現(xiàn)技術(shù)復(fù)雜多樣,往往需要對數(shù)據(jù)的組織、數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)的位置等進(jìn)行一些前置處理。數(shù)據(jù)預(yù)處理的引入,將有助于提升數(shù)據(jù)質(zhì)量,并使得后繼數(shù)據(jù)處理、分析、可視化過程更加容易、有效,有利于獲得更好的用戶體驗。數(shù)據(jù)預(yù)處理形式上包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等階段。數(shù)據(jù)清理技術(shù)包括數(shù)據(jù)不一致性檢測技術(shù)、臟數(shù)據(jù)識別技術(shù)、數(shù)據(jù)過濾技術(shù)、數(shù)據(jù)修正技術(shù)、數(shù)據(jù)噪聲的識別與平滑技術(shù)等。數(shù)據(jù)集成把來自多個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,縮短數(shù)據(jù)之間的物理距離,形成一個集中統(tǒng)一的(同構(gòu)/異構(gòu))數(shù)據(jù)庫、數(shù)據(jù)立方體、數(shù)據(jù)寬表與文件等。數(shù)據(jù)歸約技術(shù)可以在不損害挖掘結(jié)果準(zhǔn)確性的前提下,降低數(shù)據(jù)集的規(guī)模,得到簡化的數(shù)據(jù)集。歸約策略與技術(shù)包括維歸約技術(shù)、數(shù)值歸約技術(shù)、數(shù)據(jù)抽樣技術(shù)等。經(jīng)過數(shù)據(jù)轉(zhuǎn)換處理后,數(shù)據(jù)被變換或統(tǒng)一。數(shù)據(jù)轉(zhuǎn)換不僅簡化處理與分析過程、提升時效性,也使得分析挖掘的模式更容易被理解。數(shù)據(jù)轉(zhuǎn)換處理技術(shù)包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。數(shù)據(jù)存儲分布式存儲與訪問是大數(shù)據(jù)存儲的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯好等特點。分布式存儲技術(shù)與數(shù)據(jù)存儲介質(zhì)的類型和數(shù)據(jù)的組織管理形式直接相關(guān)。目前的主要數(shù)據(jù)存儲介質(zhì)類型包括內(nèi)存、磁盤、磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織、按列組織、按鍵值組織和按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級組織、文件級組織以及數(shù)據(jù)庫級組織等。不同的存儲介質(zhì)和組織管理形式對應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用特點。(1)分布式文件系統(tǒng)分布式文件系統(tǒng)是由多個網(wǎng)絡(luò)節(jié)點組成的向上層應(yīng)用提供統(tǒng)一的文件服務(wù)的文件系統(tǒng)。分布式文件系統(tǒng)中的每個節(jié)點可以分布在不同的地點,通過網(wǎng)絡(luò)進(jìn)行節(jié)點間的通信和數(shù)據(jù)傳輸。分布式文件系統(tǒng)中的文件在物理上可能被分散存儲在不同的節(jié)點上,在邏輯上仍然是一個完整的文件。使用分布式文件系統(tǒng)時,無需關(guān)心數(shù)據(jù)存儲在哪個節(jié)點上,只需像本地文件系統(tǒng)一樣管理和存儲文件系統(tǒng)的數(shù)據(jù)。分布式文件系統(tǒng)的性能與成本是線性增長的關(guān)系,它能夠在信息爆炸時代有的效解決數(shù)據(jù)的存儲和管理。分布式文件系統(tǒng)在大數(shù)據(jù)領(lǐng)域是最基礎(chǔ)的,最核心的功能組件之一,如何實現(xiàn)一個高擴(kuò)展,高性能,高可用的分布式文件系統(tǒng)是大數(shù)據(jù)領(lǐng)域最關(guān)鍵的問題之一。目前常用的分布式磁盤文件系統(tǒng)有HDFS(Hadoop分布式文件系統(tǒng))、GFS(Goolge分布式文件系統(tǒng))、KFS(Kosmosdistributedfilesystem)等;常用的分布式內(nèi)存文件系統(tǒng)有Tachyon等。(2)文檔存儲文檔存儲支持對結(jié)構(gòu)化數(shù)據(jù)的訪問,不同于關(guān)系模型的是,文檔存儲沒有強(qiáng)制的架構(gòu)。事實上,文檔存儲以封包鍵值對的方式進(jìn)行存儲。在這種情況下,應(yīng)用對要檢索的封包采取一些約定,或者利用存儲引擎的能力將不同的文檔劃分成不同的集合,以管理數(shù)據(jù)。與關(guān)系模型不同的是,文檔存儲模型支持嵌套結(jié)構(gòu)。例如,文檔存儲模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲其它文檔。文檔存儲模型也支持?jǐn)?shù)組和列值鍵。與鍵值存儲不同的是,文檔存儲關(guān)心文檔的內(nèi)部結(jié)構(gòu)。這使得存儲引擎可以直接支持二級索引,從而允許對任意字段進(jìn)行高效查詢。支持文檔嵌套存儲的能力,使得查詢語言具有搜索嵌套對象的能力,XQuery就是一個例子。主流的文檔數(shù)據(jù)庫有MongoDB、CouchDB、Terrastore、RavenDB等。(3)列式存儲列式存儲將數(shù)據(jù)按行排序,按列存儲,將相同字段的數(shù)據(jù)作為一個列族來聚合存儲。當(dāng)只查詢少數(shù)列族數(shù)據(jù)時,列式數(shù)據(jù)庫可以減少讀取數(shù)據(jù)量,減少數(shù)據(jù)裝載和讀入讀出的時間,提高數(shù)據(jù)處理效率。按列存儲還可以承載更大的數(shù)據(jù)量,獲得高效的垂直數(shù)據(jù)壓縮能力,降低數(shù)據(jù)存儲開銷。使用列式存儲的數(shù)據(jù)庫產(chǎn)品有傳統(tǒng)的數(shù)據(jù)倉庫產(chǎn)品,如SybaseIQ、InfiniDB、Vertica等,也有開源的數(shù)據(jù)庫產(chǎn)品,如HadoopHbase、Infobright等。(4)鍵值存儲鍵值存儲,即Key-Value存儲,簡稱KV存儲,它是NoSQL存儲的一種方式。它的數(shù)據(jù)按照鍵值對的形式進(jìn)行組織、索引和存儲。KV存儲非常適合不涉及過多數(shù)據(jù)關(guān)系和業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù),同時能有效減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫存儲擁有更好的讀寫性能。鍵值存儲一般不提供事務(wù)處理機(jī)制。主流的鍵值數(shù)據(jù)庫產(chǎn)品有Redis、ApacheCassandra、GoogleBigtable等。(5)圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是主要用于存儲事物及事物之間的相關(guān)關(guān)系,這些事物整體上呈現(xiàn)復(fù)雜的網(wǎng)絡(luò)關(guān)系,可以簡單的稱之為圖形數(shù)據(jù)。使用傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)已經(jīng)無法很好的滿足超大量圖形數(shù)據(jù)的存儲、查詢等需求,比如上百萬或上千萬個節(jié)點的圖形關(guān)系,而圖形數(shù)據(jù)庫采用不同的技術(shù)來很好的解決圖形數(shù)據(jù)的查詢,遍歷,求最短路徑等需求。在圖形數(shù)據(jù)庫領(lǐng)域,有不同的圖模型來映射這些網(wǎng)絡(luò)關(guān)系,比如超圖模型,以及包含節(jié)點、關(guān)系及屬性信息的屬性圖模型等。圖形數(shù)據(jù)庫可用于對真實世界的各種對象進(jìn)行建模,如社交圖譜,以反應(yīng)這些事物之間的相互關(guān)系。主流的圖形數(shù)據(jù)庫有GooglePregel、Neo4j、InfiniteGraph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。(6)關(guān)系數(shù)據(jù)庫關(guān)系模型是最傳統(tǒng)的數(shù)據(jù)存儲模型,它使用記錄(由元組組成)按行進(jìn)行存儲,記錄存儲在表中,表由架構(gòu)界定。表中的每個列都有名稱和類型,表中的所有記錄都要符合表的定義。SQL是專門的查詢語言,提供相應(yīng)的語法查找符合條件的記錄,如表聯(lián)接(Join)。表聯(lián)接可以基于表之間的關(guān)系在多表之間查詢記錄。表中的記錄可以被創(chuàng)建和刪除,記錄中的字段也可以單獨更新。關(guān)系模型數(shù)據(jù)庫通常提供事務(wù)處理機(jī)制,這為涉及多條記錄的自動化處理提供了解決方案。對不同的編程語言而言,表可以被看成數(shù)組、記錄列表或者結(jié)構(gòu)。表可以使用B樹和哈希表進(jìn)行索引,以應(yīng)對高性能訪問。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫廠商結(jié)合其它技術(shù)改進(jìn)關(guān)系型數(shù)據(jù)庫,比如分布式集群、列式存儲,支持XML,Json等數(shù)據(jù)的存儲。(7)內(nèi)存存儲內(nèi)存存儲是指內(nèi)存數(shù)據(jù)庫(MMDB)將數(shù)據(jù)庫的工作版本放在內(nèi)存中,由于數(shù)據(jù)庫的操作都在內(nèi)存中進(jìn)行,從而磁盤I/O不再是性能瓶頸,內(nèi)存數(shù)據(jù)庫系統(tǒng)的設(shè)計目標(biāo)是提高數(shù)據(jù)庫的效率和存儲空間的利用率。內(nèi)存存儲的核心是內(nèi)存存儲管理模塊,其管理策略的優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫系統(tǒng)的性能?;趦?nèi)存存儲的內(nèi)存數(shù)據(jù)庫產(chǎn)品有OracleTimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等產(chǎn)品。數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)。目前主要的數(shù)據(jù)處理計算模型包括MapReduce計算模型、DAG計算模型、BSP計算模型等。(1)MapReduce分布式計算框架MapReduce是一個高性能的批處理分布式計算框架,用于對海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce適合處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為TB和PB級別的超大規(guī)模數(shù)據(jù)。MapReduce分布式計算框架將計算任務(wù)分為大量的并行Map和Reduce兩類任務(wù),并將Map任務(wù)部署到分布式集群中的不同計算機(jī)節(jié)點上并發(fā)運行,然后由Reduce任務(wù)對所有Map任務(wù)的執(zhí)行結(jié)果進(jìn)行匯總,得到最后的分析結(jié)果。MapReduce分布式計算框架可動態(tài)增加或減少計算節(jié)點,具有很高的計算彈性,并且具備很好的任務(wù)調(diào)度能力和資源分配能力,具有很好的擴(kuò)展性和容錯性。MapReduce分布式計算框架是大數(shù)據(jù)時代最為典型的,應(yīng)用最廣泛的分布式運行框架之一。最流行的MapReduce分布式計算框架是由Hadoop實現(xiàn)的MapReduce框架。HadoopMapReduce基于HDFS和HBase等存儲技術(shù)確保數(shù)據(jù)存儲的有效性,計算任務(wù)會被安排在離數(shù)據(jù)最近的節(jié)點上運行,減少數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸開銷,同時還能夠重新運行失敗的任務(wù)。HadoopMapReduce已經(jīng)在各個行業(yè)得到了廣泛的應(yīng)用,是最成熟和最流行的大數(shù)據(jù)處理技術(shù)。(2)分布式內(nèi)存計算系統(tǒng)使用分布式共享內(nèi)存進(jìn)行計算可以有效的減少數(shù)據(jù)讀寫和移動的開銷,極大的提高數(shù)據(jù)處理的性能。支持基于內(nèi)存的數(shù)據(jù)計算,兼容多種分布式計算框架的通用計算平臺是大數(shù)據(jù)領(lǐng)域所必需的重要關(guān)鍵技術(shù)。除了支持內(nèi)存計算的商業(yè)工具(如SAPHANA、OracleBigDataAppliance等),Spark則是此種技術(shù)的開源實現(xiàn)代表,它是當(dāng)今大數(shù)據(jù)領(lǐng)域最熱門的基于內(nèi)存計算的分布式計算系統(tǒng)。相比傳統(tǒng)的HadoopMapReduce批量計算模型,Spark使用DAG、迭代計算和內(nèi)存計算的方式可以帶來一到兩個數(shù)量級的效率提升。(3)分布式流計算系統(tǒng)在大數(shù)據(jù)時代,數(shù)據(jù)的增長速度超過了存儲容量的增長,在不遠(yuǎn)的將來,人們將無法存儲所有的數(shù)據(jù),同時,數(shù)據(jù)的價值會隨著時間的流逝而不斷減少,此外,很多數(shù)據(jù)涉及用戶的隱私無法進(jìn)行存儲。對數(shù)據(jù)流進(jìn)行實時處理的技術(shù)獲得了人們越來越多的關(guān)注。數(shù)據(jù)的實時處理是一個很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點,所以需要分布式的流計算技術(shù)對數(shù)據(jù)流進(jìn)行實時處理。數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點。當(dāng)前得到廣泛應(yīng)用的很多系統(tǒng)多數(shù)為支持分布式、并行處理的流計算系統(tǒng),比較代表性的商用軟件包括IBMStreamBase和InfoSphereStreams,開源系統(tǒng)則包括TwitterStorm、YahooS4、SparkStreaming等。數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包括已有數(shù)據(jù)信息的分布式統(tǒng)計分析技術(shù),以及未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計分析技術(shù)基本都可藉由數(shù)據(jù)處理技術(shù)直接完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則可以進(jìn)一步細(xì)分為:(1)聚類聚類指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類是數(shù)據(jù)挖掘的主要任務(wù)之一。聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。聚類是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域,傳統(tǒng)的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問題時,現(xiàn)有的算法經(jīng)常失效,特別是對于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。數(shù)據(jù)挖掘中的聚類研究主要集中在針對海量數(shù)據(jù)的有效和實用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性數(shù)據(jù)聚類、具有混合屬性數(shù)據(jù)的聚類和非距離模糊聚類等問題是目前數(shù)據(jù)挖掘研究人員最為感興趣的方向。(2)分類分類是指在一定的有監(jiān)督的學(xué)習(xí)前提下,將物體或抽象對象的集合分成多個類的過程。也可以認(rèn)為,分類是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外的樣本數(shù)據(jù)標(biāo)簽的過程,即另外的樣本數(shù)據(jù)應(yīng)該如何貼標(biāo)簽。用于解決分類問題的方法非常多,常用的分類方法主要有決策樹,貝葉斯,人工神經(jīng)網(wǎng)絡(luò),K-近鄰,支持向量機(jī),邏輯回歸,隨機(jī)森林等方法。決策樹是用于分類和預(yù)測的主要技術(shù)之一,決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論。貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(或稱“神經(jīng)元”,或“單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點的連接權(quán)的值使其具有分類的功能,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就可用于對象的識別。目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同的模型,常見的有BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī))、競爭神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。但是當(dāng)前的神經(jīng)網(wǎng)絡(luò)仍普遍存在收斂速度慢、計算量大、訓(xùn)練時間長和不可解釋等缺點。k-近鄰(kNN,k-NearestNeighbors)算法是一種基于實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓(xùn)練樣本,看這k個樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時才進(jìn)行分類,如果樣本集比較復(fù)雜,可能會導(dǎo)致很大的計算開銷,因此無法應(yīng)用到實時性很強(qiáng)的場合。支持向量機(jī)(SVM,SupportVectorMachine)是Vapnik根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點是根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點等問題。對于分類問題,支持向量機(jī)算法根據(jù)區(qū)域中的樣本計算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。邏輯回歸是一種利用預(yù)測變量(數(shù)值型或離散型)來預(yù)測事件出現(xiàn)概率的模型,主要應(yīng)用于生產(chǎn)欺詐檢測,廣告質(zhì)量估計,以及定位產(chǎn)品預(yù)測等。(3)關(guān)聯(lián)分析關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也稱為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計、商品促銷、商品的排放和基于購買模式的顧客劃分。關(guān)聯(lián)分析的算法主要分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類。應(yīng)用最廣泛的廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等算法。主要的深度優(yōu)先算法有FP-growth,Eclat(EquivalenceCLAssTransformation),H-Mine等算法。Apriori算法是一種廣度優(yōu)先的挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。FP-growth算法是一種深度優(yōu)先的關(guān)聯(lián)分析算法,于2000年由HanJiawei等人提出,F(xiàn)P-growth算法基于頻繁模式樹(FrequentPatternTree,簡稱為FP-tree)發(fā)現(xiàn)頻繁模式。(4)深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)的實質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。深度學(xué)習(xí)(DL,DeepLearning)的概念由Hinton等人于2006年提出,是一種使用深層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型。深層神經(jīng)網(wǎng)絡(luò)是指包含很多隱層的人工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分。不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,簡稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(DeepBeliefNets,簡稱DBNs)就是一種無監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。當(dāng)前深度學(xué)習(xí)被用于計算機(jī)視覺,語音識別,自然語言處理等領(lǐng)域,并取得了大量突破性的成果。運用深度學(xué)習(xí)技術(shù),我們能夠從大數(shù)據(jù)中發(fā)掘出更多有價值的信息和知識。數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)運用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理。它涉及到計算機(jī)圖形學(xué)、圖像處理、計算機(jī)輔助設(shè)計、計算機(jī)視覺及人機(jī)交互等多個技術(shù)領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計算可視化(VisualizationinScientificComputing),科學(xué)家們不僅需要通過圖形圖像來分析由計算機(jī)算出的數(shù)據(jù),而且需要了解在計算過程中數(shù)據(jù)的變化。隨著計算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)可視化概念已大大擴(kuò)展,它不僅包括科學(xué)計算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測量數(shù)據(jù)的可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)的可視化稱為體視化(VolumeVisualization)技術(shù)。近年來,隨著網(wǎng)絡(luò)技術(shù)和電子商務(wù)的發(fā)展,提出了信息可視化(InformationVisualization)的要求。通過數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融、通信和商業(yè)數(shù)據(jù)中隱含的規(guī)律信息,從而為決策提供依據(jù)。這已成為數(shù)據(jù)可視化技術(shù)中新的熱點。清晰而有效地在大數(shù)據(jù)與用戶之間傳遞和溝通信息是數(shù)據(jù)可視化的重要目標(biāo),數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進(jìn)行更深入的觀察和分析。數(shù)據(jù)可視化的關(guān)鍵技術(shù)包括:(1)數(shù)據(jù)信息的符號表達(dá)技術(shù)。除了常規(guī)的文字符號和幾何圖形符號,各類坐標(biāo)、圖像陣列、圖像動畫等符號技術(shù)都可以用來表達(dá)數(shù)據(jù)信息。特別是多樣符號的綜合使用,往往能讓用戶獲得不一樣的溝通體驗。各數(shù)據(jù)類型具體的符號表達(dá)技術(shù)形式包括各類報表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等。(2)數(shù)據(jù)渲染技術(shù)。例如各類符號到屏幕圖形陣列的2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和具體媒介相關(guān),例如手機(jī)等移動終端上的渲染技術(shù)等。(3)數(shù)據(jù)交互技術(shù)。除了各類PC設(shè)備和移動終端上的鼠標(biāo)、鍵盤與屏幕的交互技術(shù)形式,可能還包括語音、指紋等交互技術(shù)。(4)數(shù)據(jù)表達(dá)模型技術(shù)。數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶所需要的語言文字和圖形圖像等符號信息,以及符號表達(dá)的邏輯信息和數(shù)據(jù)交互方式信息等。其中數(shù)據(jù)矢量從多維信息空間到視覺符號空間的映射與轉(zhuǎn)換關(guān)系,是表達(dá)模型最重要的內(nèi)容。此外,除了數(shù)據(jù)值的表達(dá)技術(shù),數(shù)據(jù)趨勢、數(shù)據(jù)對比、數(shù)據(jù)關(guān)系等表達(dá)技術(shù)都是表達(dá)模型中的重要內(nèi)容。大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)和軟件工具(如BI)通常對數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽取、歸納和組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)信息。而大數(shù)據(jù)時代的數(shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類型、大體量、高速率、易變化等特征,能夠快速的收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,支持交互式可視化分析,并根據(jù)新增的數(shù)據(jù)進(jìn)行實時更新。數(shù)據(jù)可視化技術(shù)在當(dāng)前是一個正在迅速發(fā)展的新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多的數(shù)據(jù)可視化軟件和工具,如Tableau、Datawatch、Platfora、R、、、Gephi、ECharts、大數(shù)據(jù)魔鏡等。許多商業(yè)的大數(shù)據(jù)挖掘和分析軟件也包括了數(shù)據(jù)可視化功能,如IBMSPSS、SASEnterpriseMiner等。大數(shù)據(jù)安全與隱私大數(shù)據(jù)時代面臨的挑戰(zhàn)大數(shù)據(jù)的應(yīng)用會帶來巨大社會價值和商業(yè)利益,受價值利益驅(qū)動,大數(shù)據(jù)系統(tǒng)也必然會面臨大量而且復(fù)雜的風(fēng)險。舉例來說,如果某一大數(shù)據(jù)系統(tǒng)產(chǎn)生的價值足以左右公司的發(fā)展,那么它所面臨的風(fēng)險就可能是一個公司層面價值的角力,小至個人、大至國家也是如此。大數(shù)據(jù)系統(tǒng)同時是復(fù)雜的,由傳統(tǒng)的信息存儲檢索變?yōu)閺?fù)雜的信息技術(shù)系統(tǒng),進(jìn)而可能是龐大的社會工程,由此也帶來了諸多安全及隱私方面的挑戰(zhàn)。大數(shù)據(jù)的安全性已上升到國家戰(zhàn)略層面。在大數(shù)據(jù)時代,信息化已完全深入到國民經(jīng)濟(jì)與國防建設(shè)的方方面面,從智能家居、智慧城市甚至到智慧地球,個人、企業(yè)、團(tuán)體等的海量數(shù)據(jù)為國家建設(shè)和決策提供了宏觀的數(shù)據(jù)依據(jù),大數(shù)據(jù)的安全問題將會越來越多地對國家戰(zhàn)略產(chǎn)生直接或間接的影響。大數(shù)據(jù)的價值體現(xiàn)是一個從隱性價值到顯性價值的動態(tài)過程。有兩個關(guān)鍵性因素影響大數(shù)據(jù)的價值體現(xiàn):數(shù)據(jù)“由量變到質(zhì)變”的動態(tài)演變以及相關(guān)數(shù)據(jù)處理技術(shù)的不斷升級。單個的數(shù)據(jù)記錄對大數(shù)據(jù)結(jié)果并無太大影響,只有數(shù)據(jù)記錄集合的數(shù)據(jù)量積累到一定程度時,數(shù)據(jù)才有可能“被挖掘”從而體現(xiàn)其價值。隨著數(shù)據(jù)處理技術(shù)的不斷發(fā)展,當(dāng)今看似“雜亂無序”的數(shù)據(jù),將來會變成一座“金礦”?,F(xiàn)有的信息安全管理體系重點保護(hù)數(shù)據(jù)的顯性價值,對數(shù)據(jù)的隱形價值及動態(tài)性管理及防護(hù)不足。大數(shù)據(jù)的信息竊取手段更加隱蔽和多元化。不法分子從大量的公開數(shù)據(jù)中通過數(shù)據(jù)關(guān)聯(lián)手段可以獲取相關(guān)個體的隱性數(shù)據(jù),從而導(dǎo)致個人的隱私泄露。通過分析金融交易數(shù)據(jù)、交通運輸信息包含軌跡信息,可以得知一個城市或地區(qū)的經(jīng)濟(jì)活動狀態(tài)和趨勢。大數(shù)據(jù)獨有的“數(shù)據(jù)污染”問題會造成嚴(yán)重的社會資源浪費。一些惡意攻擊型的“數(shù)據(jù)污染”會影響到企業(yè)、團(tuán)體乃至國家政治及經(jīng)濟(jì)方面的決策,從而導(dǎo)致嚴(yán)重的后果。針對安全和隱私的考慮大數(shù)據(jù)的商業(yè)價值是毋庸置疑的。通過大數(shù)據(jù)挖掘,企業(yè)所表現(xiàn)出控制力量遠(yuǎn)超以往。數(shù)據(jù)開始成為企業(yè)的核心資產(chǎn),甚至企業(yè)的金礦就蘊含在數(shù)據(jù)之中,而數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為企業(yè)掘金的重要手段和工具,是企業(yè)能否把握大數(shù)據(jù)機(jī)遇的重要抓手。然而,數(shù)據(jù)質(zhì)量的提升和數(shù)據(jù)治理的優(yōu)化,又不完全取決于企業(yè)自身的努力。大數(shù)據(jù)商業(yè)價值在于不斷開發(fā),而大數(shù)據(jù)應(yīng)用作為新業(yè)態(tài)、新模式、新應(yīng)用,痛點和難點不僅在于技術(shù),更重要的是無論是數(shù)據(jù)采集、整理和挖掘,還是數(shù)據(jù)產(chǎn)品的推廣、應(yīng)用,企業(yè)都將面臨法律的天花板,而隱私問題無疑是諸多法律問題中的重要一環(huán)。在互聯(lián)網(wǎng)時代人們似乎是覺得自己的隱私受到了威脅,而移動互聯(lián)網(wǎng)與大數(shù)據(jù)時代無疑加深了這種威脅。大數(shù)據(jù)時代,數(shù)據(jù)被奉為一切服務(wù)的起點與終點。人們似乎生活在一個360度無死角監(jiān)控的環(huán)境里,周邊仿佛有千萬雙眼睛在盯著你,以全景式方式洞察著你,同時又有從四面八方涌來的信息將你完全淹沒其中。對于置身其中的用戶而言,一方面渴望大數(shù)據(jù)時代,給自己帶來更為貼心便捷的服務(wù);另一方面,又時刻擔(dān)憂著自己的隱私安全遭受侵犯。這種焦慮從前年谷歌眼鏡在發(fā)布過程中屢屢受挫就能體現(xiàn),即使谷歌眼鏡事實上什么也沒有做,還是無法阻擋人們對數(shù)據(jù)安全的擔(dān)憂。對于政府管理部門而言,一方面政府已經(jīng)意識到數(shù)據(jù)保護(hù)和隱私保護(hù)方面的制度不完善,并開始不斷強(qiáng)調(diào)個人信息和隱私保護(hù)的重要性,另一方面政府似乎仍然沒有從傳統(tǒng)社會的治理方式與管控思維中解脫出來,制度上的滯后帶來的不僅是灰色地帶,還有風(fēng)險。于大數(shù)據(jù)時代而言,這在本質(zhì)上,就是一場商家與商家之間,用戶與商家之間、政府與商家之間的隱私之戰(zhàn)。對于商家來說,誰更靠近用戶的隱私,誰就占據(jù)更多的機(jī)會;于用戶而言,保護(hù)隱私,似乎從一開始就是個偽命題;于政府而言,安全與發(fā)展似乎總是難以抉擇。普林斯頓大學(xué)的計算機(jī)科學(xué)家阿爾文德?納拉亞南(ArvindNarayanan)稱,只要有合理的商業(yè)動機(jī)來推動數(shù)據(jù)挖掘的進(jìn)程,任何形式的隱私都是“算法上不可能”(algorithmicallyimpossible)的。我們無法回避這樣的事實,即數(shù)據(jù)絕不是中立的,它很難保持匿名。大數(shù)據(jù)與隱私之間的關(guān)系,如何進(jìn)行平衡,如何把握尺度,這已成為各國立法、司法和執(zhí)法部門面臨的共同難題,當(dāng)然也是企業(yè)不得不思考的問題。目前歐盟模式和美國模式是個人數(shù)據(jù)保護(hù)方面全球最有影響的兩種模式。歐盟模式是由國家主導(dǎo)的立法模式,國家通過立法確定個人數(shù)據(jù)保護(hù)的各項基本原則和具體法律規(guī)定。早在1981年歐盟理事會通過了《有關(guān)個人數(shù)據(jù)自動化處理的個人保護(hù)協(xié)定》,1995年歐盟通過了《關(guān)于與個人數(shù)據(jù)處理相關(guān)的個人數(shù)據(jù)保護(hù)及此類數(shù)據(jù)自由流動的指令》,歐盟后來又制定了一系列個人數(shù)據(jù)保護(hù)相關(guān)的法律法規(guī)。美國是行業(yè)自律模式的倡導(dǎo)者,通過行業(yè)內(nèi)部的行為規(guī)則、規(guī)范、標(biāo)準(zhǔn)和行業(yè)協(xié)會的監(jiān)督,實現(xiàn)行業(yè)內(nèi)個人數(shù)據(jù)保護(hù)的自我約束。行業(yè)自律模式是在充分保證個人數(shù)據(jù)自由流動的基礎(chǔ)上保護(hù)個人數(shù)據(jù),從而保護(hù)行業(yè)利益。我國對于個人數(shù)據(jù)保護(hù)的立法起步較晚,目前還沒有專門的《個人信息保護(hù)法》。目前國內(nèi)關(guān)于個人數(shù)據(jù)相關(guān)的法律法規(guī)主要是2012年后頒布的三部:①2012年全國人大常委會發(fā)布的《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》;②2013年工信部發(fā)布的《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南》(這份標(biāo)準(zhǔn)不具有法律約束力);③2013年工信部發(fā)布的《電信和互聯(lián)網(wǎng)用戶個人信息保護(hù)規(guī)定》。在立法缺位的情況下,容易出現(xiàn)“守法成本高、違法成本低”的怪相。今年國家在個人數(shù)據(jù)保護(hù)立法方面有很多新舉措,國內(nèi)個人數(shù)據(jù)保護(hù)的立法在逐步加強(qiáng)。3月15日生效的《網(wǎng)絡(luò)交易管理辦法》進(jìn)一步規(guī)定了網(wǎng)絡(luò)交易中個人信息保護(hù)的要求。3月15日生效的新《消費者權(quán)益保費法》授予工商部門對“侵害消費者個人信息依法得到保護(hù)的權(quán)利”的執(zhí)法權(quán)。10月10日最高人民法院發(fā)布的《關(guān)于審理利用信息網(wǎng)絡(luò)侵害人身權(quán)益民事糾紛案件適用法律若干問題的規(guī)定》明確了用戶個人信息及隱私被侵犯的訴權(quán)。10月27國家網(wǎng)信辦表示將出臺App應(yīng)用程序發(fā)展管理辦法,監(jiān)管移動應(yīng)用行業(yè)的各種亂象。11月3日全國人大常委會初次審議《中華人民共和國刑法修正案(九)(草案)》,并向社會公開征求意見;《草案》包括出售、非法提供公民個人信息罪的修正案。11月4日工信部發(fā)布《通信短信息服務(wù)管理規(guī)定(征求意見稿)》向社會公開征求意見?!兑庖姼濉芬?guī)定,任何組織或者個人不得將采用人工收集、在線自動收集、數(shù)字任意組合等手段獲得的他人的電話號碼用于出售、共享和交換,或者向通過上述方式獲得的電話號碼發(fā)送短信息。從大數(shù)據(jù)關(guān)鍵技術(shù)來看,其數(shù)據(jù)的收集、存儲、處理分析、可視化呈現(xiàn)等環(huán)節(jié)面臨著不同的風(fēng)險、安全和隱私需求。(1)數(shù)據(jù)收集根據(jù)數(shù)據(jù)來源不同,大體可分為兩類,一是社會團(tuán)體對自身數(shù)據(jù)的采集,如企業(yè)自己的生產(chǎn)、運營等數(shù)據(jù);二是社會團(tuán)體對他人數(shù)據(jù)的采集,如本企業(yè)對其它企業(yè)、社會公眾、第三方系統(tǒng)等的數(shù)據(jù)采集。對于前者,企業(yè)擁有正當(dāng)?shù)夭杉?、處置?quán)利,但對于后者,牽涉到他方甚至多方,數(shù)據(jù)對企業(yè)存在潛在價值而進(jìn)行采集的同時,是否會影響他方的利益應(yīng)在考慮范圍之內(nèi)。尤其在雙方不對等的情況下,如企業(yè)對個人,被采集方應(yīng)保留被告知甚至授權(quán)的權(quán)利,數(shù)據(jù)采集行為應(yīng)該接受社會公信力量(如政府、行業(yè)協(xié)會等)的監(jiān)管和公示,以保證被采集方的利益不受侵害,限制企業(yè)不收集、統(tǒng)計敏感信息以保護(hù)被采集方的隱私信息不受侵犯。同時,數(shù)據(jù)收集過程中,應(yīng)注意對數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公共交通車輛更新淘汰制度
- 2026年永修縣總醫(yī)院面向社會公開招聘工作人員備考題庫及答案詳解一套
- 2026年數(shù)據(jù)通信科學(xué)技術(shù)研究所招聘備考題庫及參考答案詳解一套
- 2026年西安高新一中灃東中學(xué)招聘備考題庫帶答案詳解
- 2026年杭州市丁蕙第二小學(xué)編外人員招聘備考題庫完整參考答案詳解
- 企業(yè)員工績效考核評價制度
- 2026年用友數(shù)智化應(yīng)用工程師招聘備考題庫附答案詳解
- 大理護(hù)理職業(yè)學(xué)院關(guān)于招募2026年春季學(xué)期職業(yè)教育銀齡教師的備考題庫附答案詳解
- 企業(yè)員工培訓(xùn)與考核評估制度
- 企業(yè)內(nèi)部審計制度
- (正式版)新建標(biāo) 001-2019 《自治區(qū)農(nóng)村安居工程建設(shè)標(biāo)準(zhǔn)》
- 禁毒社工知識培訓(xùn)課件
- 家具展廳管理方案(3篇)
- 半成品擺放管理辦法
- 周圍性癱瘓的護(hù)理常規(guī)
- 電能質(zhì)量技術(shù)監(jiān)督培訓(xùn)課件
- 電子制造行業(yè)數(shù)字化轉(zhuǎn)型白皮書
- 腫瘤患者雙向轉(zhuǎn)診管理職責(zé)
- 福建省漳州市2024-2025學(xué)年高一上學(xué)期期末教學(xué)質(zhì)量檢測歷史試卷(含答案)
- 管道穿越高速橋梁施工方案
- 2024版《中醫(yī)基礎(chǔ)理論經(jīng)絡(luò)》課件完整版
評論
0/150
提交評論