網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理_第1頁
網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理_第2頁
網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理_第3頁
網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理_第4頁
網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理.docx

前言

本文提出了一個(gè)大數(shù)據(jù)治理框架,指導(dǎo)組織在相關(guān)的規(guī)則框架內(nèi)做出更好的基于數(shù)據(jù)的業(yè)務(wù)決

策,并密切關(guān)注數(shù)據(jù)安全性、隱私性和可訪問性。

大數(shù)據(jù)是指大型復(fù)雜的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。大數(shù)據(jù)技術(shù)使組織能夠生成、收集、管理、

分析和可視化大數(shù)據(jù)集,并為診斷、預(yù)測或其他決策任務(wù)提供見解。處理大數(shù)據(jù)的關(guān)鍵問題之一是

采用適當(dāng)?shù)拇髷?shù)據(jù)治理框架,這樣可以:

①以所需的方式管理大數(shù)據(jù),以支持有效機(jī)器學(xué)習(xí)的高質(zhì)量數(shù)據(jù)訪問;

②確保該框架規(guī)范存儲和處理在相關(guān)監(jiān)管框架內(nèi)以可信賴的方式收集來自供應(yīng)商和用戶的數(shù)

據(jù)。

提出了一個(gè)大數(shù)據(jù)治理框架,指導(dǎo)組織在相關(guān)的規(guī)則框架內(nèi)做出更好的基于數(shù)據(jù)的業(yè)務(wù)決策,

并密切關(guān)注數(shù)據(jù)安全性、隱私性和可訪問性。為了說明這一過程,以網(wǎng)絡(luò)安全大數(shù)據(jù)治理為例,給

出了該框架的一個(gè)實(shí)現(xiàn)實(shí)例。該框架有可能指導(dǎo)不同組織的大數(shù)據(jù)管理,實(shí)現(xiàn)信息共享和協(xié)同決

策。

內(nèi)容目錄

前言..................................................................................................1

內(nèi)容目錄..............................................................................................1

圖表目錄..............................................................................................2

引言.................................................................................................2

1.研究背景.........................................................................................3

1.1.大數(shù)據(jù).......................................................................................3

1.2.網(wǎng)絡(luò)安全......................................................................................5

1.3.數(shù)據(jù)治理......................................................................................6

2.數(shù)據(jù)安全:數(shù)據(jù)治理概述..........................................................................7

2.1.數(shù)據(jù).........................................................................................7

2.2.治理........................................................................................10

2.3.數(shù)據(jù)治理....................................................................................10

3.大數(shù)據(jù)治理......................................................................................14

3.1.挑戰(zhàn).........................................................................................14

3.2.擬議的框架...................................................................................15

第1頁共23頁

3.2.1.目標(biāo)....................................................................................16

3.2.2.促成因素...............................................................................16

3.2.3.指導(dǎo)原則...............................................................................17

3.2.4.治理域.................................................................................17

3.2.5.應(yīng)對新挑戰(zhàn).............................................................................18

4.網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理...........................................................................19

4.1.規(guī)劃........................................................................................20

4.2.治理實(shí)施....................................................................................20

4.3.評價(jià)與優(yōu)化..................................................................................23

5.結(jié)語.............................................................................................23

圖表目錄

圖1大數(shù)據(jù)的3V:海量、多樣性和速度.............................................4

圖2數(shù)據(jù)治理的范圍.............................................................11

圖3宏觀層面的數(shù)據(jù)治理.........................................................13

圖4微觀層面的數(shù)據(jù)治理.........................................................14

表1現(xiàn)有數(shù)據(jù)治理的主要挑戰(zhàn).....................................................14

圖5大數(shù)據(jù)治理框架.............................................................16

圖6面臨新挑戰(zhàn).................................................................19

圖7網(wǎng)絡(luò)安全大數(shù)據(jù)治理框架.....................................................20

圖8Hadoop框架................................................................22

引言

互聯(lián)網(wǎng)絡(luò)和設(shè)備數(shù)量的增長導(dǎo)致了組織中數(shù)據(jù)的爆炸性增長。這些數(shù)據(jù)越來越多地被用來通過

分析提供見解,從而為關(guān)鍵業(yè)務(wù)決策提供信息。商業(yè)和非商業(yè)組織正在進(jìn)行的數(shù)字化促進(jìn)了這一增

長,物聯(lián)網(wǎng)(IoT)的日益廣泛使用也是如此。物聯(lián)網(wǎng)設(shè)備收集來自各個(gè)領(lǐng)域的信息,如健康、能源、

天氣、商業(yè)、交通、教育和制造業(yè),并打算對社會和環(huán)境產(chǎn)生積極的影響。大量的信息通常被稱為

“大數(shù)據(jù)”,即收集、挖掘、分析和可視化,以發(fā)現(xiàn)行為趨勢和模式,為決策提供信息。

與大數(shù)據(jù)相關(guān)的常見挑戰(zhàn)是存儲和分析收集的數(shù)據(jù)集,及時(shí)提供見解,從而加快和改進(jìn)決策過

程,支持實(shí)現(xiàn)組織目標(biāo)。作為一種常見的副作用,安全性和隱私性已經(jīng)成為組織內(nèi)部與數(shù)據(jù)存儲和

使用相關(guān)的關(guān)鍵問題之一。這是由于道德背景、法律背景的變化、網(wǎng)絡(luò)犯罪的擴(kuò)散、惡意內(nèi)部人員

第2頁共23頁

的增加以及近年來導(dǎo)致大規(guī)模安全漏洞傳播的新攻擊技術(shù)。由于意外信息泄露和對電網(wǎng)、衛(wèi)生、教

育等各種自動化系統(tǒng)的有組織黑客攻擊,這種機(jī)器和互聯(lián)的增加將導(dǎo)致銀行、政府和其他私人及公

共系統(tǒng)的網(wǎng)絡(luò)安全問題大幅增加。

當(dāng)在利用大數(shù)據(jù)集進(jìn)行決策的組織中不應(yīng)用數(shù)據(jù)治理時(shí),上述挑戰(zhàn)就變得至關(guān)重要。這些挑戰(zhàn)

共同推動了開發(fā)大數(shù)據(jù)治理框架的需求,以指導(dǎo)大數(shù)據(jù)在當(dāng)前決策中的使用,并確保大數(shù)據(jù)的質(zhì)量

和可用性可供未來使用。大數(shù)據(jù)治理涉及人員、政策、流程、戰(zhàn)略、標(biāo)準(zhǔn)和技術(shù)的協(xié)調(diào),使組織能

夠利用數(shù)據(jù)作為其關(guān)鍵業(yè)務(wù)資產(chǎn)之一,同時(shí)確保一致性、可用性、完整性、可靠性和安全性,以及

大數(shù)據(jù)整個(gè)生命周期的可審計(jì)性。

本文提出了一個(gè)大數(shù)據(jù)治理的框架,以便對大數(shù)據(jù)進(jìn)行適當(dāng)?shù)氖占⒐芾?、存儲、傳輸和?/p>

用。簡單地說,該框架以治理目標(biāo)為指導(dǎo),并使用EvaluateDirectMonitor(EDM)循環(huán)模型作為治

理原則來增強(qiáng)和支持?jǐn)?shù)據(jù)體系結(jié)構(gòu)。因此,該框架不僅可以指導(dǎo)組織做出更好的數(shù)據(jù)驅(qū)動決策,而

且可以支持組織在大數(shù)據(jù)的指導(dǎo)下有效地實(shí)現(xiàn)其組織成果。該框架使組織能夠正確管理數(shù)據(jù)資產(chǎn),

并最大限度地實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值,從而支持和鼓勵有關(guān)數(shù)據(jù)的良好實(shí)踐。

本文還提出了一個(gè)在網(wǎng)絡(luò)安全領(lǐng)域?qū)嵤┐髷?shù)據(jù)治理框架的實(shí)例。采用大數(shù)據(jù)和相應(yīng)技術(shù)的數(shù)據(jù)

分析工具越來越多地被用于支持網(wǎng)絡(luò)安全。鑒于這類數(shù)據(jù)在網(wǎng)絡(luò)空間的廣泛可用性,開發(fā)和使用這

類工具的機(jī)會很多。網(wǎng)絡(luò)安全涉及數(shù)據(jù)和網(wǎng)絡(luò)的方方面面,網(wǎng)絡(luò)入侵檢測是確保網(wǎng)絡(luò)安全的常用方

法之一。因此,本文探討了如何將所提出的大數(shù)據(jù)治理框架集成到保護(hù)數(shù)據(jù)存儲、流和處理的網(wǎng)絡(luò)

入侵檢測系統(tǒng)中。

論文的其余部分組織如下。"研究背景"部分簡要回顧了大數(shù)據(jù)、網(wǎng)絡(luò)安全和數(shù)據(jù)治理作為這項(xiàng)

工作的基礎(chǔ)。“大數(shù)據(jù)治理”部分介紹并討論了提出的大數(shù)據(jù)治理框架。"網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理”

部分以網(wǎng)絡(luò)入侵檢測的一個(gè)特殊案例為例,介紹了所提出的網(wǎng)絡(luò)安全領(lǐng)域大數(shù)據(jù)治理框架的實(shí)現(xiàn)。

“結(jié)語”部分總結(jié)了這項(xiàng)研究,并探討了未來可能的研究方向。

1.研究背景

該部分回顧了大數(shù)據(jù)的特點(diǎn)、現(xiàn)有的相關(guān)網(wǎng)絡(luò)安全方法、通用數(shù)據(jù)治理框架、原則,并為提出

的大數(shù)據(jù)治理框架奠定了基礎(chǔ)。

1.1.大數(shù)據(jù)

大數(shù)據(jù)是一個(gè)與大數(shù)據(jù)集相關(guān)的術(shù)語,大數(shù)據(jù)集具有更大、更多樣和更復(fù)雜的結(jié)構(gòu),難以使用

傳統(tǒng)的數(shù)據(jù)處理技術(shù)進(jìn)行存儲、分析和可視化。大數(shù)據(jù)不僅是指數(shù)據(jù)量,還包括與大數(shù)據(jù)量的收集

和利用相關(guān)的其他方面。大數(shù)據(jù)通常用3V來描述,如圖1所示。

第3頁共23頁

Velocity

圖1大數(shù)據(jù)的3V:海量、多樣性和速度

(1)海量:大數(shù)據(jù)最明顯的特點(diǎn)是生成和存儲的數(shù)據(jù)量大,這通常被稱為數(shù)據(jù)的縱向可伸縮性。

目前,估計(jì)全世界每天會產(chǎn)生25億字節(jié)的數(shù)據(jù),這一數(shù)據(jù)量比2005年增加了300倍,通常遠(yuǎn)遠(yuǎn)

超過傳統(tǒng)列和行合理數(shù)據(jù)庫的限制,因此需要新的存儲技術(shù)來適應(yīng)大數(shù)據(jù)。

(2)多樣性:多樣性表示數(shù)據(jù)可以來自多個(gè)領(lǐng)域,有三種典型類型:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)

化。這種多樣性增加了數(shù)據(jù)的橫向可伸縮性。與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)通常已經(jīng)被標(biāo)記,

并且可以很容易地映射到預(yù)先設(shè)計(jì)的字段(例如電子表格或數(shù)據(jù)庫中的表),它顯得更隨機(jī),更難排

序和分析。非結(jié)構(gòu)化數(shù)據(jù)的典型示例包括電子郵件、視頻、照片和音頻文件。半結(jié)構(gòu)化數(shù)據(jù)集通常

不駐留在關(guān)系數(shù)據(jù)庫或表中,但它們確實(shí)包含用于分隔數(shù)據(jù)元素的標(biāo)記。JSON和XML文檔通常屬

第4頁共23頁

于這種數(shù)據(jù)類型。

(3)速度:表示數(shù)據(jù)生成和需要處理以滿足應(yīng)用需求的速度。速度本質(zhì)上是衡量數(shù)據(jù)創(chuàng)建、存

儲、分析和可視化的速度。人們期望大數(shù)據(jù)技術(shù)能夠?qū)崟r(shí)或近似實(shí)時(shí)地生成和處理數(shù)據(jù),而傳統(tǒng)的

數(shù)據(jù)處理方法只能使用數(shù)據(jù)快照批量處理數(shù)據(jù)。因此,大數(shù)據(jù)需要更強(qiáng)大的數(shù)據(jù)處理機(jī)制來實(shí)時(shí)處

理數(shù)據(jù)流。

3V被廣泛用于描述大數(shù)據(jù),即大數(shù)據(jù)集具有高容量、高變化、高速度的特點(diǎn)。此外,最近還

提出了大數(shù)據(jù)的第四個(gè)V,即真實(shí)性。真實(shí)性是指數(shù)據(jù)的可信程度,表明數(shù)據(jù)在多大程度上可以被

組織確信地用于做出關(guān)鍵決策。大數(shù)據(jù)仍然是一個(gè)快速發(fā)展的領(lǐng)域,涉及非常活躍的研究和越來越

多的應(yīng)用。因此,毫不奇怪,大數(shù)據(jù)的定義也在不斷演變。盡管如此,大多數(shù)定義都類似于“大數(shù)

據(jù)代表的信息資產(chǎn)具有如此高的數(shù)量、速度、多樣性和真實(shí)性,需要特定的技術(shù)和分析方法才能將

其轉(zhuǎn)化為價(jià)值”。在此基礎(chǔ)上,大數(shù)據(jù)的廣義定義被擴(kuò)展到包括實(shí)現(xiàn)或提取大數(shù)據(jù)價(jià)值的大數(shù)據(jù)處

理技術(shù)。

1.2.網(wǎng)絡(luò)安全

隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的設(shè)備被網(wǎng)絡(luò)化,形成物聯(lián)網(wǎng)。從本質(zhì)上講,大量用于捕獲

廣泛數(shù)據(jù)的設(shè)備利用各種網(wǎng)絡(luò)和云提供的無處不在的連接性在互聯(lián)網(wǎng)上共享數(shù)據(jù)。如果適當(dāng)?shù)丶右?/p>

利用,這種共享數(shù)據(jù)可能對組織很有價(jià)值。為了保護(hù)網(wǎng)絡(luò)空間中的數(shù)據(jù)共享,網(wǎng)絡(luò)安全已成為影響

企業(yè)、政府、其他組織和個(gè)人家庭設(shè)備的最緊迫問題之一。

數(shù)據(jù)治理在這些解決方案中扮演著重要的角色,它不僅幫助組織了解需要保護(hù)哪些數(shù)據(jù),而且

引導(dǎo)組織實(shí)現(xiàn)目標(biāo),具體表現(xiàn)在以下兩個(gè)方面:

(1)識別數(shù)據(jù)風(fēng)險(xiǎn):個(gè)人識別信息和個(gè)人健康信息構(gòu)成敏感數(shù)據(jù),可能給組織帶來聲譽(yù)和財(cái)務(wù)風(fēng)

險(xiǎn)。數(shù)據(jù)治理工具支持識別敏感數(shù)據(jù)。

(2)控制更安全的訪問:數(shù)據(jù)用戶并不總是需要查看或訪問日常使用的敏感數(shù)據(jù)。重要的是要控

制這些敏感數(shù)據(jù)只有在需要和必要時(shí)才能訪問。通過正確應(yīng)用數(shù)據(jù)治理工具,可以有效控制權(quán)限數(shù)

據(jù)訪問。

傳統(tǒng)上,數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)安全解決方案,如網(wǎng)絡(luò)入侵檢測系統(tǒng)(IDS)和安全信息與事件管理

(SIEM),通過分析事務(wù)日志和網(wǎng)絡(luò)流量數(shù)據(jù)來識別異常和可疑活動,從而保護(hù)組織免受網(wǎng)絡(luò)威脅。

然而,基于以下兩個(gè)原因,此類工具越來越難以處理與使用物聯(lián)網(wǎng)進(jìn)行大數(shù)據(jù)收集相關(guān)的越來越大

的流量數(shù)據(jù)集:

(1)傳統(tǒng)技術(shù)并不是用來處理和管理任何半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的,但這在大數(shù)據(jù)中非常常

見。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化表示是可能的,以滿足傳統(tǒng)工具的需求。但是,這是一個(gè)額外且

第5頁共23頁

耗時(shí)的過程,成本非常高昂。

(2)傳統(tǒng)技術(shù)在存儲、保留、檢索、訪問和處理大數(shù)據(jù)隱含的大量信息方面效率相對較低。這些

工具沒有與大數(shù)據(jù)技術(shù)集成。

應(yīng)用大數(shù)據(jù)技術(shù)可以很容易地解決傳統(tǒng)工具的問題。例如,大數(shù)據(jù)工具(如Piglatin腳本和正則

表達(dá)式)可以以靈活的格式查詢數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。止匕外,大數(shù)據(jù)及其分布式

系統(tǒng)提供了高性能的計(jì)算模型,使得存儲和分析大型異構(gòu)數(shù)據(jù)集的規(guī)模和速度前所未有。因此,與

大數(shù)據(jù)相關(guān)的網(wǎng)絡(luò)安全問題可以通過以下方法解決:①收集大規(guī)模的流量數(shù)據(jù);

②對數(shù)據(jù)進(jìn)行更深入的分析;

③生成并提供網(wǎng)絡(luò)安全相關(guān)模型;

④基于該模型實(shí)現(xiàn)大規(guī)模流媒體流量數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)分析。

1.3.數(shù)據(jù)治理

數(shù)字時(shí)代為公共和私營部門以及組織提供了前所未有的機(jī)會來收集、存儲、處理和交換大量數(shù)

據(jù);

因此,它們在數(shù)據(jù)安全、數(shù)據(jù)結(jié)構(gòu)管理、數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)質(zhì)量管理等方面面臨著越來越大

的挑戰(zhàn)。數(shù)據(jù)治理是一個(gè)概念或框架,組織可以使用它來解決管理數(shù)字資產(chǎn)處理過程中的此類挑

戰(zhàn)。

數(shù)據(jù)治理包括使組織能夠?qū)?shù)據(jù)作為數(shù)字資產(chǎn)加以利用的人員、流程、過程和技術(shù)。它提供了

管理和維護(hù)數(shù)據(jù)質(zhì)量、安全性、可用性、相關(guān)性和完整性的通用框架。它還確保真實(shí)的數(shù)據(jù)被適當(dāng)

地用于設(shè)定業(yè)務(wù)目標(biāo)、維護(hù)業(yè)務(wù)流程和做出關(guān)鍵決策。數(shù)據(jù)治理通常需要一個(gè)連續(xù)的過程來強(qiáng)制清

理和存儲由組織生成或來自第三方的大量數(shù)據(jù)。應(yīng)用數(shù)據(jù)治理的動機(jī)是確保有一種可持續(xù)的方法利

用數(shù)據(jù)來實(shí)現(xiàn)組織的業(yè)務(wù)目標(biāo)和目的。信息技術(shù)。T)和其他業(yè)務(wù)部門必須共同定義管理數(shù)據(jù)的規(guī)則

和策略,并定義從獲取、管理和存儲到利用和可視化的數(shù)據(jù)元素。

數(shù)據(jù)治理策略確定了數(shù)據(jù)使用的角色和職責(zé),建立了數(shù)據(jù)保護(hù)計(jì)劃的最佳實(shí)踐,并確保數(shù)據(jù)在

組織內(nèi)得到適當(dāng)?shù)挠涗?。與組織的任何其他資產(chǎn)一樣,數(shù)據(jù)需要一個(gè)適當(dāng)?shù)墓芾聿呗?。?shù)據(jù)治理定

義了數(shù)據(jù)的訪問、數(shù)據(jù)的安全級別、數(shù)據(jù)的質(zhì)量以及組織對數(shù)據(jù)使用的目標(biāo)。數(shù)據(jù)治理策略可以由

組織內(nèi)的團(tuán)隊(duì)或組織外的專家編寫。

數(shù)據(jù)治理策略是另一個(gè)關(guān)鍵因素,它定義了如何共享從數(shù)據(jù)中提取的信息,加強(qiáng)了使用數(shù)據(jù)的

文化,并揭示了數(shù)據(jù)治理可能面臨的缺點(diǎn)和所需的預(yù)算。更具體地說,它闡明了誰對數(shù)據(jù)負(fù)責(zé)和知

情,以及如何從數(shù)據(jù)中做出決策。它為整個(gè)組織遵循的數(shù)據(jù)管理過程提供了基礎(chǔ)。它也是克服數(shù)據(jù)

治理限制的一個(gè)組成部分,有助于實(shí)現(xiàn)預(yù)期的業(yè)務(wù)目標(biāo)和價(jià)值。

第6頁共23頁

數(shù)據(jù)治理實(shí)踐通常由用于數(shù)據(jù)收集、管理、存儲和利用的框架指導(dǎo)。該框架旨在確保數(shù)據(jù)的機(jī)

密性、可用性、可訪問性、質(zhì)量和完整性。它必須支持組織內(nèi)的數(shù)據(jù)流和業(yè)務(wù)流程以及組織的文化

和結(jié)構(gòu)。它有助于指導(dǎo)員工在數(shù)據(jù)管理中發(fā)揮作用。一個(gè)完善的數(shù)據(jù)治理框架通常包括數(shù)據(jù)管理策

略、公司驅(qū)動因素、數(shù)據(jù)管理結(jié)構(gòu)、技術(shù)和方法。

2.數(shù)據(jù)安全:數(shù)據(jù)治理概述

隨著大數(shù)據(jù)時(shí)代的到來,流動的數(shù)據(jù)已成為連接全世界的載體,也成為促進(jìn)經(jīng)濟(jì)社會發(fā)展、便

利人們生產(chǎn)生活的源動力。伴隨著數(shù)據(jù)流動,尤其是為了解決流動過程中產(chǎn)生的一系列問題,"數(shù)

據(jù)治理”一詞逐漸興起。而要了解數(shù)據(jù)治理,還得從數(shù)據(jù)、治理這些基本概念說起。

2.1.數(shù)據(jù)

什么是數(shù)據(jù)?傳統(tǒng)意義上,數(shù)據(jù)是指人類對事物進(jìn)行測量的結(jié)果。如今,數(shù)據(jù)的概念有了很多

延展。一般而言,數(shù)據(jù)是指對客觀事件進(jìn)行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以

及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合。這些物理符號具有抽象、非隨機(jī)的特

點(diǎn)。

從數(shù)據(jù)的定義來看,數(shù)據(jù)具有兩個(gè)特征,一個(gè)是差異性,另一個(gè)是規(guī)律性。差異性主要體現(xiàn)為

數(shù)據(jù)多數(shù)描述的是事物的數(shù)量特征,現(xiàn)實(shí)世界中每件事、每個(gè)人、每種物都有不同的特征,因此反

映于數(shù)據(jù)也會有各種不同的表現(xiàn),甚至從表面看起來可能是雜亂無章的。規(guī)律性則主要體現(xiàn)為,數(shù)

據(jù)是具有一定規(guī)律的,對數(shù)據(jù)進(jìn)行分析研究,很重要的目的就是從數(shù)據(jù)中找出某種規(guī)律和關(guān)聯(lián)。簡

而言之,正因?yàn)閿?shù)據(jù)具有差異性,才有必要對數(shù)據(jù)進(jìn)行研究與分析;也正因?yàn)閿?shù)據(jù)存在規(guī)律性,對

其研究才有價(jià)值。

時(shí)下,人們往往容易將數(shù)據(jù)與大數(shù)據(jù)混淆。實(shí)際上,兩者是有區(qū)別的。

對于大數(shù)據(jù),麥肯錫全球研究所給出的定義如下:大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管

理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合;高德納(Gartner)咨詢公司給出

的定義如下:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)

海量、高增長率和多樣化的信息資產(chǎn)。維克托?邁爾?舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中提出,大

數(shù)據(jù)不能用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而要對所有數(shù)據(jù)進(jìn)行分析處理。

業(yè)界普遍認(rèn)為,大數(shù)據(jù)具有數(shù)據(jù)規(guī)模海量(Volume)、數(shù)據(jù)流轉(zhuǎn)快速(Velocity)、數(shù)據(jù)類型多樣

(Variety)和數(shù)據(jù)價(jià)值巨大(Vaiue)四大特征。

(1)數(shù)據(jù)規(guī)模海量

當(dāng)前,以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為核心特征的數(shù)字化浪潮正席卷全球,全世界每時(shí)每刻都

第7頁共23頁

在產(chǎn)生大量的數(shù)據(jù)。從1956年IBM發(fā)明世界上第一個(gè)機(jī)械硬盤,兩臺冰箱大小卻只有5MB容

量,到現(xiàn)在淘寶網(wǎng)4億用戶每天產(chǎn)生幾十TB的數(shù)據(jù),數(shù)據(jù)總量呈指數(shù)級增長。衡量數(shù)據(jù)大小的單

位也從MB到GB,到TB,再到PB、EB,相信后面還會不斷出現(xiàn)新的記錄單位。當(dāng)數(shù)據(jù)數(shù)量和規(guī)

模發(fā)展到一定程度時(shí),現(xiàn)有的數(shù)據(jù)存儲、分析、計(jì)算的方案和技術(shù)勢必不能滿足現(xiàn)實(shí)需求,迫切需

要更智能的算法、更強(qiáng)大的數(shù)據(jù)處理平臺和更新的數(shù)據(jù)處理技術(shù)來挖掘數(shù)據(jù)價(jià)值。

(2)數(shù)據(jù)流轉(zhuǎn)快速

與傳統(tǒng)的圖書、報(bào)紙、廣播等數(shù)據(jù)載體不同,數(shù)據(jù)產(chǎn)生和傳播的速度非???,數(shù)據(jù)被高速地創(chuàng)

建、移動、匯集到服務(wù)器?;诖?,大數(shù)據(jù)對數(shù)據(jù)處理有著非常嚴(yán)格的要求。大數(shù)據(jù)的處理需符合

秒級定律,一般要在秒級時(shí)間范圍內(nèi)給出對數(shù)據(jù)的分析結(jié)果。響應(yīng)時(shí)間過長,數(shù)據(jù)就失去了價(jià)值。

換言之,誰的數(shù)據(jù)處理速度快,誰在大數(shù)據(jù)時(shí)代就具備優(yōu)勢。

(3)數(shù)據(jù)類型多樣

傳感器、智能設(shè)備及移動互聯(lián)網(wǎng)的飛速發(fā)展使數(shù)據(jù)變得更加復(fù)雜,除了傳統(tǒng)的關(guān)系型數(shù)據(jù),還

包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)時(shí)代,需要處理的數(shù)據(jù)不僅是海量的,而且是不同

種類、不同格式和不同來源的,因此需要一套專門的格式、標(biāo)準(zhǔn)來進(jìn)行處理。

(4)數(shù)據(jù)價(jià)值巨大

大數(shù)據(jù)最大的特點(diǎn)在于通過各種數(shù)據(jù)分析和挖掘方法,發(fā)現(xiàn)諸多看似無關(guān)的數(shù)據(jù)之間暗含的規(guī)

律和關(guān)聯(lián)。例如,阿里巴巴集團(tuán)每天擁有幾億人的購物數(shù)據(jù),通過分析這些數(shù)據(jù)就可以知道各種產(chǎn)

品和市場發(fā)展的走勢,也可以知道不同用戶的愛好和需求,從而進(jìn)行針對性的推薦,以提高平臺的

交易量。不過,我們也要看到,雖然大數(shù)據(jù)的價(jià)值巨大,但并不是所有數(shù)據(jù)都擁有這樣的價(jià)值。如

果把大數(shù)據(jù)比作一座金礦,有價(jià)值的數(shù)據(jù)就是其中的黃金,這種價(jià)值需要一系列加工和處理才可能

得到釋放。

在數(shù)字經(jīng)濟(jì)的發(fā)展歷程中,數(shù)據(jù)起到了核心和關(guān)鍵作用,人們對數(shù)據(jù)價(jià)值的認(rèn)識也是由淺入

深、由簡單趨向復(fù)雜??傮w來看,數(shù)據(jù)價(jià)值的發(fā)展主要分為三個(gè)階段:第一階段是數(shù)據(jù)資源階段,

數(shù)據(jù)是記錄、反映現(xiàn)實(shí)世界的一種資源;第二階段是數(shù)據(jù)資產(chǎn)階段,數(shù)據(jù)不僅是一種資源,還是一

種資產(chǎn),是個(gè)人或企業(yè)資產(chǎn)的重要組成部分,是創(chuàng)造財(cái)富的基礎(chǔ);第三階段是數(shù)據(jù)資本階段,數(shù)據(jù)

的資源和資產(chǎn)的特性得到進(jìn)一步發(fā)揮,與價(jià)值進(jìn)行結(jié)合,通過交易等各種流動方式,最終變?yōu)橘Y

本。

(5)數(shù)據(jù)資源

與傳統(tǒng)的農(nóng)業(yè)經(jīng)濟(jì)和工業(yè)經(jīng)濟(jì)不同,數(shù)字經(jīng)濟(jì)得以發(fā)展的基礎(chǔ)是信息技術(shù)和海量數(shù)據(jù)。隨著信

息技術(shù)與經(jīng)濟(jì)社會的交匯融合,數(shù)據(jù)成為國家的基礎(chǔ)性戰(zhàn)略資源,成為驅(qū)動經(jīng)濟(jì)社會發(fā)展的新興生

產(chǎn)要素,與勞動、土地、資本等其他生產(chǎn)要素一同為經(jīng)濟(jì)社會的發(fā)展創(chuàng)造價(jià)值。

第8頁共23頁

但是,數(shù)據(jù)與這些傳統(tǒng)生產(chǎn)要素不同,它具有可再生、無污染、無限性的特征??稍偕侵笖?shù)

據(jù)資源不是從大自然獲得的,而是人類自己生產(chǎn)出來的,通過加工處理后的數(shù)據(jù)還可以成為新的數(shù)

據(jù)資源;無污染是指數(shù)據(jù)在獲得與使用的過程中不會污染環(huán)境;無限性是指數(shù)據(jù)在使用過程中不會

變少,而是越變越多。因此,傳統(tǒng)資源越用越少,但數(shù)據(jù)資源是越用越多。

數(shù)據(jù)成為資源,也是發(fā)現(xiàn)和利用數(shù)據(jù)價(jià)值的一個(gè)過程,這一點(diǎn)與傳統(tǒng)資源如石油比較相似。首

先,要發(fā)現(xiàn)各種有用數(shù)據(jù)的來源,如同勘探油礦;其次,要采集滿足特定需求的數(shù)據(jù),如同采油;

然后,要把采集到的數(shù)據(jù)按應(yīng)用需求進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化處理,如同煉油;最后,將加工處理后形

成的數(shù)據(jù)與實(shí)際應(yīng)用相結(jié)合,最大程度地發(fā)揮數(shù)據(jù)的作用。因此,在這個(gè)階段,數(shù)據(jù)是作為一種具

有使用價(jià)值的資源幫助管理者決策,從而實(shí)現(xiàn)其經(jīng)濟(jì)效益,同時(shí)也成為數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要

素。

(6)數(shù)據(jù)資產(chǎn)

隨著數(shù)字經(jīng)濟(jì)的發(fā)展,人們發(fā)現(xiàn),數(shù)據(jù)不僅僅是資源,還具備資產(chǎn)的特質(zhì)。所謂資產(chǎn),是指由

企業(yè)過去經(jīng)營交易或由各項(xiàng)事項(xiàng)形成的、被企業(yè)擁有或控制的、預(yù)期會給企業(yè)帶來經(jīng)濟(jì)利益的資

源。從資產(chǎn)的界定來看,它具有現(xiàn)實(shí)性、可控性和經(jīng)濟(jì)性三個(gè)基本特征。現(xiàn)實(shí)性是指資產(chǎn)必須是現(xiàn)

實(shí)已經(jīng)存在的,還未發(fā)生的事物不能稱為資產(chǎn);可控性是指對企業(yè)的資產(chǎn)要有所有權(quán)或控制權(quán);經(jīng)

濟(jì)性是指資產(chǎn)預(yù)期能給企業(yè)帶來經(jīng)濟(jì)效益。結(jié)合資產(chǎn)的特征,數(shù)據(jù)資產(chǎn)便是指企業(yè)在生產(chǎn)經(jīng)營管理

活動中形成的,可擁有或可控制其產(chǎn)生及應(yīng)用全過程的、可量化的、預(yù)期能給企業(yè)帶來經(jīng)濟(jì)效益的

數(shù)據(jù)。實(shí)現(xiàn)數(shù)據(jù)可控制、可量化與可變現(xiàn)屬性,體現(xiàn)數(shù)據(jù)價(jià)值的過程,就是數(shù)據(jù)資產(chǎn)化過程。當(dāng)

前,數(shù)據(jù)已經(jīng)滲入各行各業(yè),逐步成為企業(yè)不可或缺的戰(zhàn)略資產(chǎn),企業(yè)所掌握的數(shù)據(jù)規(guī)模、數(shù)據(jù)的

鮮活程度,以及采集、分析、處理、挖掘數(shù)據(jù)的能力決定了企業(yè)的核心競爭力。

(7)數(shù)據(jù)資本

2016年3月,麻省理工科技評論與甲骨文公司聯(lián)合發(fā)布了名為《數(shù)據(jù)資本的興起》的研究報(bào)

告。報(bào)告指出,數(shù)據(jù)已經(jīng)成為一種資本,和金融資本一樣,能夠產(chǎn)生新的產(chǎn)品和服務(wù)。但是,與實(shí)

物資本不同,數(shù)據(jù)資本也有自身的特性。例如,非競爭性,即實(shí)物資本不能多人同時(shí)使用,但是數(shù)

據(jù)資本由于數(shù)據(jù)的易復(fù)制拷貝特點(diǎn),其使用方可以無限多;不可替代性,即實(shí)物資本是可以替換

的,人們可以用一桶石油替換另一桶石油,而數(shù)據(jù)資本則不行,因?yàn)椴煌臄?shù)據(jù)包含不同的信息,

其所包含的價(jià)值也是不同的。數(shù)據(jù)資本化的過程,就是將數(shù)據(jù)資產(chǎn)的價(jià)值和使用價(jià)值折算成股份或

出資比例,通過數(shù)據(jù)交易和數(shù)據(jù)流動變?yōu)橘Y本的過程。換句話說,數(shù)據(jù)作為資本的價(jià)值要在數(shù)據(jù)交

易和流動中才能得到充分體現(xiàn)。這也引發(fā)了當(dāng)前業(yè)界的一大難題,即數(shù)據(jù)產(chǎn)權(quán)問題。只有確定了數(shù)

據(jù)產(chǎn)權(quán)問題,數(shù)據(jù)交易才具備順利開展的前提基礎(chǔ)。

第9頁共23頁

2.2.治理

對于對大數(shù)據(jù)感興趣的人來說,“數(shù)據(jù)治理”這個(gè)詞并不陌生。但要全面深刻地理解數(shù)據(jù)治理,

還應(yīng)該從“治理"說起。在英語中,“治理”一詞源自拉丁文“gubernare",原意是控制、引導(dǎo)和操縱,

后來逐漸演化成'governor"及"government"。

治理的概念是20世紀(jì)90年代在全球范圍內(nèi)逐步興起的。治理理論的主要創(chuàng)始人之一詹姆

斯?N.羅西瑙認(rèn)為,治理是通行于規(guī)制空隙之間的那些制度安排,當(dāng)兩個(gè)或更多規(guī)制出現(xiàn)重疊、沖

突時(shí)或者在相互競爭的利益之間需要調(diào)解時(shí)發(fā)揮作用的原則、規(guī)范、規(guī)則和決策程序。另一位治理

研究專家格里?斯托克指出,治理的本質(zhì)在于它所偏重的統(tǒng)治機(jī)制并不依靠政府的權(quán)威和制裁;它所

要創(chuàng)造的結(jié)構(gòu)和秩序不能從外部強(qiáng)加;它發(fā)揮作用是要依靠多種進(jìn)行統(tǒng)治的以及互相發(fā)生影響的行

為者的互動。

國內(nèi)學(xué)者俞可平提出,治理具有四個(gè)特征:1)治理不是一套規(guī)則條例,也不是一種活動,而是

一個(gè)過程;2)治理的建立不以支配為基礎(chǔ),而以調(diào)和為基礎(chǔ);3)治理同時(shí)涉及公共和私營部門;4)

治理并不意味著一種正式制度,而有賴于持續(xù)的相互作用。

國際組織對治理也有各自的理解。世界銀行認(rèn)為,治理是“為發(fā)展而管理一個(gè)國家經(jīng)濟(jì)和社會

資源的權(quán)力”。聯(lián)合國全球治理委員會將治理界定為"個(gè)人和各種公共或私營的機(jī)構(gòu)管理共同事務(wù)的

諸多方式之總和,一種使相互沖突的利益得以調(diào)和并采取聯(lián)合行動的持續(xù)過程”。

綜上所述,治理就是政府、企業(yè)、個(gè)人以及非政府組織等主體為了管理共同事務(wù),以正式制

度、規(guī)則和非正式安排的方式相互協(xié)調(diào)并持續(xù)互動的一個(gè)過程。

2.3.數(shù)據(jù)治理

數(shù)據(jù)治理具有治理的很多特征。例如,需要政府、企業(yè)、個(gè)人以及非政府組織等共同努力,也

需要建立一套立法、規(guī)章、制度和規(guī)則。然而,由于治理的是數(shù)據(jù),它又有很多自身的特點(diǎn)。目

前,關(guān)于數(shù)據(jù)治理的定義亦是眾說紛紜。

根據(jù)國際標(biāo)準(zhǔn)化組織IT服務(wù)管理與IT治理分技術(shù)委員會、國際數(shù)據(jù)治理研究所(DGI)、IBM數(shù)

據(jù)治理委員會等機(jī)構(gòu)的觀點(diǎn),數(shù)據(jù)治理意指建立在數(shù)據(jù)存儲、訪問、驗(yàn)證、保護(hù)和使用之上的一系

列程序、標(biāo)準(zhǔn)、角色和指標(biāo),以期通過持續(xù)的評估、指導(dǎo)和監(jiān)督,確保富有成效且高效的數(shù)據(jù)利

用,實(shí)現(xiàn)企業(yè)價(jià)值。數(shù)據(jù)治理的范圍如圖2所示。

第10頁共23頁

數(shù)據(jù)架構(gòu)、分析和設(shè)計(jì)

?企業(yè)數(shù)據(jù)建模

?價(jià)值鏈分析

?相關(guān)數(shù)據(jù)架構(gòu)

元數(shù)據(jù)轉(zhuǎn)理數(shù)據(jù)庫管理

?邏輯建模

用戶和需求數(shù)據(jù)庫設(shè)計(jì)

?物理建模,

架構(gòu)和標(biāo)準(zhǔn)數(shù)據(jù)庫執(zhí)行

?建模標(biāo)準(zhǔn)/

抓取和整合?模型管理/支持和恢復(fù)

知識庫管理績效和優(yōu)化

詢問和報(bào)告歸檔和清除

分配和發(fā)送數(shù)據(jù)治理\技術(shù)管理

?角色和組織

數(shù)據(jù)安全管理

?數(shù)據(jù)線路

數(shù)據(jù)隱私標(biāo)準(zhǔn)

文件、記錄和內(nèi)容管理?政策和霸打粵黑。*

?保密分類

?電子文件管理

?密碼實(shí)務(wù)

?物理記錄和文檔管理

?用戶、小組和觀點(diǎn)管理

?信息內(nèi)容管理

?用戶身份驗(yàn)證

?項(xiàng)目和服務(wù)

?數(shù)據(jù)安全審計(jì)

?數(shù)據(jù)資產(chǎn)評估

,交流

數(shù)據(jù)倉庫和企業(yè)情報(bào)管理

數(shù)據(jù)質(zhì)量管理

?數(shù)據(jù)倉庫/企業(yè)情報(bào)架構(gòu)

?數(shù)據(jù)倉庫/集市執(zhí)行?質(zhì)量要求規(guī)范

?企業(yè)情報(bào)執(zhí)行/?質(zhì)量側(cè)寫和分析

參考和主數(shù)據(jù)管理

?企業(yè)情報(bào)培訓(xùn)和支持卜?數(shù)據(jù)質(zhì)量提升

?數(shù)據(jù)整合架構(gòu)

?監(jiān)測和優(yōu)化\?數(shù)據(jù)認(rèn)證和審計(jì)

?參考數(shù)據(jù)管理

?用戶數(shù)據(jù)整合

?產(chǎn)品數(shù)據(jù)整合

?維度管理

訐計(jì)算機(jī)與網(wǎng)絡(luò)安全

圖2數(shù)據(jù)治理的范圍

中國在國際場合首次提出“數(shù)據(jù)治理”的概念,是2014年6月在悉尼召開的ISO/IEC

JTCl/SC40(IT治理和IT服務(wù)管理分技術(shù)委員會)第一次全會上。這個(gè)概念一經(jīng)提出,即引發(fā)了國際

同行的興趣和持續(xù)研討。

2014年11月,在荷蘭召開的SC40/WGl(IT治理工作組)第二次工作組會議上,中國代表提出

了《數(shù)據(jù)治理白皮書》的框架設(shè)想,分析了世界上包括國際數(shù)據(jù)管理協(xié)會(DAMA)、國際數(shù)據(jù)治理

研究所、IBM、高德納咨詢公司等組織在內(nèi)的主流的數(shù)據(jù)治理方法論、模型,獲得了國際IT治理工

作組專家的一致認(rèn)可。2015年3月,中國信息技術(shù)服務(wù)標(biāo)準(zhǔn)。TSS)數(shù)據(jù)治理研究小組通過走訪調(diào)

研,形成了金融、移動通信、央企能源、互聯(lián)網(wǎng)企業(yè)在數(shù)據(jù)治理方面的典型案例,進(jìn)一步明確了數(shù)

第11頁共23頁

據(jù)治理的定義和范圍,并于2015年5月在巴西圣保羅召開的SC40/WG1第三次工作組會議上正式

提交了《數(shù)據(jù)治理白皮書》國際標(biāo)準(zhǔn)研究報(bào)告。報(bào)告認(rèn)為,數(shù)據(jù)是資產(chǎn),通過服務(wù)產(chǎn)生價(jià)值。數(shù)據(jù)

治理主要是在數(shù)據(jù)產(chǎn)生價(jià)值的過程中,治理團(tuán)隊(duì)對其做出的評價(jià)、指導(dǎo)、控制。

上述幾個(gè)關(guān)于數(shù)據(jù)治理的界定,內(nèi)涵已經(jīng)十分豐富,要義也得到了明確的體現(xiàn),但還是未能囊

括數(shù)據(jù)治理的全部。

首先,數(shù)據(jù)不僅僅是企業(yè)或機(jī)構(gòu)的資產(chǎn),更是現(xiàn)代國家的一種基礎(chǔ)戰(zhàn)略資源。曾有人提出,大

數(shù)據(jù)時(shí)代世界上最有價(jià)值的資源不再是石油,而是數(shù)據(jù)。這種提法絲毫未夸大數(shù)據(jù)的重要作用。煤

炭和石油等傳統(tǒng)資源是有限的,而大數(shù)據(jù)作為新型資源,由于具有可復(fù)制、遞增、共享等特性,其

開發(fā)和增長是無限的。更重要的是它改變了傳統(tǒng)要素格局,新知識和新技術(shù)替代資本成為經(jīng)濟(jì)發(fā)展

的主導(dǎo)因素,符合智慧、綠色、共享和低成本的可持續(xù)發(fā)展理念,將助力實(shí)現(xiàn)發(fā)展方式的真正轉(zhuǎn)

變。

其次,數(shù)據(jù)治理的目的不僅僅是確保數(shù)據(jù)的高效利用和實(shí)現(xiàn)企業(yè)價(jià)值,更是為了提升政府公共

管理能力和國家治理能力。正如《數(shù)據(jù)治理白皮書》所描述的,企業(yè)開展有效的數(shù)據(jù)治理,會通過

改進(jìn)決策、縮減成本、降低風(fēng)險(xiǎn)和提高安全合規(guī)等方式將價(jià)值回饋于業(yè)務(wù),并最終體現(xiàn)為增加收入

和利潤。但是,擁有數(shù)據(jù)的往往并不只是企業(yè)。有統(tǒng)計(jì)顯示,政府擁有全社會80%的數(shù)據(jù)資源,通

過運(yùn)用大數(shù)據(jù)、云計(jì)算等現(xiàn)代信息技術(shù),形成“用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)服務(wù)”的公共管理

與服務(wù)機(jī)制,能夠有效提升政府公共管理能力和國家治理能力,促進(jìn)經(jīng)濟(jì)社會的快速健康發(fā)展。

再次,開展數(shù)據(jù)治理不僅僅局限于企業(yè),政府和個(gè)人更是數(shù)據(jù)治理的重要主體。當(dāng)前,無論國

際、國內(nèi),提到數(shù)據(jù)治理基本都是指企業(yè)行為,但實(shí)際上政府在數(shù)據(jù)治理中能夠發(fā)揮更主動的作

用。例如,開展數(shù)據(jù)治理頂層設(shè)計(jì)、推動政務(wù)數(shù)據(jù)開放共享、建立完善的數(shù)據(jù)權(quán)責(zé)體系等。個(gè)人也

應(yīng)該積極參與數(shù)據(jù)治理。由于政府和企業(yè)收集的信息中有相當(dāng)大的部分是個(gè)人信息和數(shù)據(jù),而近年

來泄露、濫用和非法買賣個(gè)人信息的現(xiàn)象十分嚴(yán)重,給部分民眾造成了巨大的經(jīng)濟(jì)損失和精神傷

害。所以,個(gè)人參與數(shù)據(jù)治理主要是積極保護(hù)個(gè)人信息和維護(hù)個(gè)人權(quán)益。

最后,數(shù)據(jù)治理不僅僅依靠模型和框架,還要采用法律、行政、教育、道德倫理等方法和手

段。當(dāng)前,圍繞對數(shù)據(jù)的采集、分析、挖掘、應(yīng)用、共享和保護(hù)等出現(xiàn)了諸多問題,亟需通過出臺

數(shù)據(jù)立法和行政規(guī)章制度加以明確和規(guī)范。針對數(shù)據(jù)利用過程中出現(xiàn)的一系列安全隱患,要加強(qiáng)網(wǎng)

絡(luò)安全教育和培訓(xùn),提升從業(yè)人員的專業(yè)素質(zhì)和普通民眾的意識技能。對于那些倒買倒賣生物特征

信息等敏感數(shù)據(jù)的行為,要輔之以倫理和道德方面的分析和教化,必要時(shí)可在立法中加大處罰力

度。

綜上所述,從宏觀層面看,數(shù)據(jù)治理是指政府等公共機(jī)構(gòu)、企業(yè)等私營機(jī)構(gòu)以及個(gè)人,為了最

大程度地挖掘和釋放數(shù)據(jù)價(jià)值,推動數(shù)據(jù)安全、有序流動而采取政策、法律、標(biāo)準(zhǔn)、技術(shù)等一系列

第12頁共23頁

措施的過程,如圖3所示。從微觀層面看,數(shù)據(jù)治理是不同的機(jī)構(gòu)對各種各樣的元數(shù)據(jù)進(jìn)行處理和

分析的過程,如圖4所示。換句話說,無論何種主體以何種方式,只要圍繞數(shù)據(jù)安全、有序流動所

采取的行動,就是數(shù)據(jù)治理的范疇。

數(shù)據(jù)治理工一.計(jì)算機(jī)與網(wǎng)絡(luò)熨全

圖3宏觀層面的數(shù)據(jù)治理

第13頁共23頁

3.大數(shù)據(jù)治理

本部分討論數(shù)據(jù)治理挑戰(zhàn),以及為應(yīng)對這些挑戰(zhàn)而提出的大數(shù)據(jù)治理框架。

3.1.挑戰(zhàn)

傳統(tǒng)的數(shù)據(jù)治理框架在“數(shù)據(jù)治理”部分中通常只考慮數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理,而不

是高容量、高變化、高速度的實(shí)時(shí)數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,組織內(nèi)部或外部處理的大量數(shù)據(jù)需要對

數(shù)據(jù)質(zhì)量、安全性和道德規(guī)范進(jìn)行額外的管理。此外,大數(shù)據(jù)和業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄

露的風(fēng)險(xiǎn)更加頻繁和更高。此外,大數(shù)據(jù)與業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄露的頻率更高、風(fēng)險(xiǎn)

級別更高。表1總結(jié)了現(xiàn)有數(shù)據(jù)治理框架在大數(shù)據(jù)方面面臨的主要挑戰(zhàn)。

表1現(xiàn)有數(shù)據(jù)治理的主要挑戰(zhàn)

第14頁共23頁

序號挑戰(zhàn)

1缺乏大數(shù)據(jù)治理框架

2缺乏大數(shù)據(jù)治理所需的技術(shù)人才

3大數(shù)據(jù)安全與隱私

4缺乏及時(shí)從數(shù)據(jù)中產(chǎn)生洞察力所需的工具

5組織在目標(biāo)設(shè)定和決策中使用數(shù)據(jù)的阻力

6業(yè)務(wù)經(jīng)理對大數(shù)據(jù)的認(rèn)識不足

7企業(yè)的數(shù)字化仍然是大多數(shù)組織面臨的挑戰(zhàn)

8收集和存儲的數(shù)據(jù)的復(fù)雜性(如非結(jié)構(gòu)化數(shù)據(jù))

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)治理主要集中在以下三個(gè)方面:

(1)數(shù)據(jù)體系結(jié)構(gòu):大數(shù)據(jù)是從各種各樣的數(shù)據(jù)源中獲取的,這些數(shù)據(jù)源可以是結(jié)構(gòu)化的、半結(jié)

構(gòu)化的或非結(jié)構(gòu)化的。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)通常是隨機(jī)的,難以處理。這種數(shù)據(jù)結(jié)構(gòu)的多樣性

增加了數(shù)據(jù)管理的難度。另外,不同的組織保持著各自的數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化,阻礙了不同組織之間跨

系統(tǒng)的信息共享,從而大大降低了信息開發(fā)利用的效率。

(2)數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量可能是大數(shù)據(jù)管理的一個(gè)問題,因?yàn)榇蠖鄶?shù)現(xiàn)有措施不能直接應(yīng)用于大

數(shù)據(jù)。例如,大數(shù)據(jù)的實(shí)時(shí)性要求組織提高數(shù)據(jù)訪問效率,從而減少數(shù)據(jù)傳輸?shù)难舆t。此外,有時(shí)

可能需要組織將相同或具有沖突的數(shù)據(jù)存儲在不同的系統(tǒng)中,這往往會導(dǎo)致同步或沖突解決問題,

從而相應(yīng)地降低數(shù)據(jù)質(zhì)量。

(3)數(shù)據(jù)安全、隱私和道德考慮:數(shù)據(jù)共享和分析過程可以有效地提高數(shù)據(jù)的價(jià)值,使組織具有

更好的數(shù)據(jù)透明度,但同時(shí)也可能不適當(dāng)?shù)乇┞睹舾袛?shù)據(jù),或讓黑客進(jìn)行未經(jīng)授權(quán)的數(shù)據(jù)操縱。實(shí)

際上,大數(shù)據(jù)安全和隱私是大數(shù)據(jù)時(shí)代數(shù)據(jù)治理面臨的最大挑戰(zhàn)之一。除此之外,隨著數(shù)據(jù)提供者

的日益關(guān)注和數(shù)據(jù)捐贈的更廣泛參與,數(shù)據(jù)處理的道德方面已成為一個(gè)越來越重要的問題。

3.2.擬議的框架

在數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私方面存在的問題是設(shè)計(jì)和開發(fā)有效的大數(shù)

據(jù)治理框架的主要挑戰(zhàn)。本文從大數(shù)據(jù)應(yīng)用和創(chuàng)新的角度,通過考慮目標(biāo)、數(shù)據(jù)保護(hù)賦能因素、治

理領(lǐng)域和原則,提出了一個(gè)大數(shù)據(jù)治理框架,如圖2所示。該框架以治理目標(biāo)為指導(dǎo),根據(jù)組織的

戰(zhàn)略數(shù)據(jù)相關(guān)目標(biāo),采用實(shí)體數(shù)據(jù)模型(EDM)循環(huán)模型作為治理原則,有效地增強(qiáng)數(shù)據(jù)架構(gòu)、數(shù)據(jù)

質(zhì)量、數(shù)據(jù)安全和隱私。

第15頁共23頁

Goals

Outcomes

IJ

GovernanceDomain

Enablers

4-u>A

DistributedData

(vE3

3Processing£

Datariskd」

cuo

Managementue

le

/DistributedDataoAa

l\l

AStore

Policiest

--zmz

e

na

Integration&s

c2fe

StewardshipeMetadatael

QManagement。

y

圖5大數(shù)據(jù)治理框架

3.2.1.目標(biāo)

擬議的大數(shù)據(jù)治理框架允許組織保護(hù)大數(shù)據(jù),同時(shí)從大數(shù)據(jù)中獲取最大價(jià)值,從而支持和鼓勵

有關(guān)數(shù)據(jù)利用的良好做法。換言之,該框架的目標(biāo)不僅是指導(dǎo)組織根據(jù)其關(guān)鍵績效指標(biāo)圍繞數(shù)據(jù)使

用做出更好的決策,而且還幫助組織有效地實(shí)現(xiàn)數(shù)據(jù)創(chuàng)新利用的成果,這往往導(dǎo)致組織的文化變

革,以實(shí)現(xiàn)深層次的數(shù)據(jù)驅(qū)動過程。這些目標(biāo)通常是組織戰(zhàn)略目標(biāo)的核心,可以通過利用現(xiàn)代信息

和通信技術(shù)開發(fā)大數(shù)據(jù)來實(shí)現(xiàn)。

3.2.2.促成因素

賦能者通過管理來定義程序、規(guī)則以及這些程序和規(guī)則的相關(guān)實(shí)施,共同建立基礎(chǔ)實(shí)踐標(biāo)準(zhǔn),

以限制風(fēng)險(xiǎn)并最大化大數(shù)據(jù)及其利用的價(jià)值。這些程序和規(guī)則涵蓋了數(shù)據(jù)處理的所有關(guān)鍵方面和領(lǐng)

域,從數(shù)據(jù)收集到存儲和傳輸、利用和最終歸檔。例如,數(shù)據(jù)可能會泄漏或通過各種方式被非正式

訪問和操縱,從意外丟失的設(shè)備或釋放的密碼到專門的有組織的網(wǎng)絡(luò)攻擊。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)

源的多樣性和數(shù)據(jù)的存儲位置使得這種情況更具挑戰(zhàn)性。在這個(gè)例子中,需要根據(jù)此類潛在風(fēng)險(xiǎn)制

定風(fēng)險(xiǎn)預(yù)防和緩解程序及規(guī)則,以盡量減少風(fēng)險(xiǎn)。

為了確保所定義的規(guī)則和程序適用于組織的數(shù)據(jù)處理實(shí)踐,通常由數(shù)據(jù)管理員在執(zhí)行框架內(nèi)進(jìn)

行管理。數(shù)據(jù)管理員是對數(shù)據(jù)處理有顧慮的其他人的組織代表。數(shù)據(jù)管理者可以是數(shù)據(jù)管理委員會

第16頁共23頁

或獨(dú)立個(gè)人的形式,具體取決于組織。管理委員會還與程序和規(guī)則制定者密切合作,就程序和規(guī)則

的有效性和效率提供反饋和見解。這些輸入,除了來自數(shù)據(jù)提供者、保管者和操縱者的輸入,在對

數(shù)據(jù)處理程序和規(guī)則進(jìn)行定期審查和修訂時(shí),都要加以考慮。

3.2.3.指導(dǎo)原則

大數(shù)據(jù)治理原則支持組織管理和處理大數(shù)據(jù),為上一小節(jié)中討論的數(shù)據(jù)處理程序和規(guī)則中未提

及的任何方面提供補(bǔ)充指導(dǎo),這些程序和規(guī)則定義了數(shù)據(jù)處理關(guān)鍵方面的實(shí)用標(biāo)準(zhǔn)。這些程序和規(guī)

則是強(qiáng)制性的,由管理工作組監(jiān)督。本小節(jié)中討論的原則僅提出了良好做法,根據(jù)情況可能不會在

實(shí)踐中采用。這項(xiàng)工作的指導(dǎo)原則集中在圖2所示的數(shù)據(jù)責(zé)任、完整性、可審計(jì)性和透明度上。為

了使其有效,指導(dǎo)原則應(yīng)保持簡單易懂。

組織應(yīng)持續(xù)評估數(shù)據(jù)在一段時(shí)間內(nèi)可能發(fā)生的任何更改,以確保數(shù)據(jù)完整性,這對于有效使用

數(shù)據(jù)來說至關(guān)重要。數(shù)據(jù)完整性將通過確保數(shù)據(jù)在組織內(nèi)得到明確定義、適當(dāng)控制和適當(dāng)訪問來實(shí)

現(xiàn)。由于遵循了這些原則,數(shù)據(jù)可以更好地與組織策略以及跨業(yè)務(wù)需求保持一致。數(shù)據(jù)處理程序需

要透明,以保護(hù)組織免受潛在的數(shù)據(jù)泄露事件的影響,同時(shí)允許戰(zhàn)略性地使用數(shù)據(jù)。透明度有助于

揭示評估過程中如何處理敏感數(shù)據(jù),以便內(nèi)部或第三方審計(jì)師或任何其他數(shù)據(jù)利益相關(guān)者能夠理解

與數(shù)據(jù)相關(guān)的程序。

此外,與數(shù)據(jù)相關(guān)的決策、流程和行動應(yīng)是可審計(jì)的,這些決策、流程和行動應(yīng)得到基于合規(guī)

性和運(yùn)營審計(jì)要求的適當(dāng)文檔的支持。問責(zé)通常定義了數(shù)據(jù)的可訪問性和數(shù)據(jù)操作員的可信性。為

了促進(jìn)對數(shù)據(jù)的訪問控制,一個(gè)組織的所有部門需要合作來增強(qiáng)數(shù)據(jù)所有權(quán)和問責(zé)制。如果所有部

門都對數(shù)據(jù)負(fù)責(zé),那么在一個(gè)組織內(nèi),數(shù)據(jù)泄露就不那么令人擔(dān)心了。

3.2.4.治理域

治理域描述了組織在進(jìn)行數(shù)據(jù)治理活動時(shí)應(yīng)關(guān)注的數(shù)據(jù)治理目標(biāo),主要包括五個(gè)組成部分,如

圖2所示。在這五個(gè)組成部分中,數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私貫穿于所有治理域,保證了大數(shù)

據(jù)的有用性和有效性,以及大數(shù)據(jù)在使用過程中的適當(dāng)保護(hù)和隱私保護(hù)。

(1)數(shù)據(jù)質(zhì)量管理:大數(shù)據(jù)的使用會產(chǎn)生與動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)相關(guān)的數(shù)據(jù)質(zhì)量問題,因?yàn)橥ǔ?/p>

不可避免地會生成和收集質(zhì)量較差的數(shù)據(jù),這可能會增加對組織運(yùn)營和決策的負(fù)面影響。數(shù)據(jù)質(zhì)量

管理旨在測量、改進(jìn)和認(rèn)證生產(chǎn)、測試和存檔數(shù)據(jù)的質(zhì)量和完整性??梢允褂酶鞣N方法進(jìn)行大數(shù)據(jù)

質(zhì)量管理,以解決沖突的數(shù)據(jù)實(shí)例、處理不平衡的大數(shù)據(jù)集以及消除噪聲等。

(2)數(shù)據(jù)安全、隱私和道德:在收集、傳輸、存儲和利用大數(shù)據(jù)時(shí),數(shù)據(jù)安全、隱私和其他道德

含義是首要考慮的問題。大數(shù)據(jù)通常從各種來源收集,并且通常包含敏感信息。例如,推斷出的行

為數(shù)據(jù),如工作地點(diǎn)、好友列表等,可能被歸類為私有數(shù)據(jù);

第17頁共23頁

在一些更敏感的人口統(tǒng)計(jì)數(shù)據(jù)分析過程中,用戶名、電話號碼和信用卡信息是非常典型的。最

近出臺的《歐盟通用數(shù)據(jù)保護(hù)條例》(GDPR)是近20年來數(shù)據(jù)隱私保護(hù)條例中最重要的變化,它為

數(shù)據(jù)處理的組織提供了詳細(xì)的指導(dǎo)方針。在這個(gè)重要的領(lǐng)域中,所有的數(shù)據(jù)處理機(jī)制都是基于

GDPR和其他政策、程序、規(guī)則和原則來設(shè)計(jì)的,以減輕風(fēng)險(xiǎn)和保護(hù)數(shù)據(jù)資產(chǎn)。

(3)集成和元數(shù)據(jù)管理:這個(gè)域位于治理域的底部,可以被認(rèn)為是一個(gè)數(shù)據(jù)登錄區(qū),鏈接數(shù)據(jù)連

接器和治理域。在這個(gè)域中,經(jīng)常集成多種方法和工具來幫助理解數(shù)據(jù)上下文和內(nèi)容。一旦確定了

數(shù)據(jù)的上下文和內(nèi)容,它們就被傳遞到上層進(jìn)行存儲。因此,大數(shù)據(jù)治理使用集成和元數(shù)據(jù)管理來

對數(shù)據(jù)的收集和控制施加管理規(guī)則。

(4)分布式數(shù)據(jù)存儲管理:在傳統(tǒng)方法中,高性能計(jì)算組件(如專用服務(wù)器)用于數(shù)據(jù)存儲和數(shù)據(jù)

復(fù)制。由于大數(shù)據(jù)環(huán)境中通常會產(chǎn)生和收集大量的數(shù)據(jù),這些高性能的專用服務(wù)器往往無法滿足大

數(shù)據(jù)帶來的性能要求。因此,該域旨在提供允許通過通常分布式架構(gòu)(例如動態(tài)可伸縮存儲管理

DSSM)來存儲和傳輸大量數(shù)據(jù)的方法。

(5)分布式數(shù)據(jù)處理管理:隨著社交媒體和基于傳感器的網(wǎng)絡(luò)應(yīng)用等新興應(yīng)用的快速增長,需要

對各種數(shù)據(jù)進(jìn)行持續(xù)處理。顯然,傳統(tǒng)的獨(dú)立解決方案不再適用于這些有時(shí)間限制的實(shí)時(shí)流程。分

布式數(shù)據(jù)處理管理域則為大數(shù)據(jù)處理提供了一個(gè)高效的框架,允許以合理且通??山邮艿臅r(shí)間線分

析大量數(shù)據(jù)。此類任務(wù)的典型平臺包括Spark、MapReduce和Hadoop等。

3.2.5.應(yīng)對新挑戰(zhàn)

由于各種支持?jǐn)?shù)字技術(shù)的格局發(fā)生了快速變化,大數(shù)據(jù)的定義也在不斷發(fā)展。越來越多的大數(shù)

據(jù)模型被引入,例如數(shù)量、多樣性、速度、真實(shí)性、有效性、價(jià)值、可變性、地點(diǎn)、詞匯和模糊

性。大數(shù)據(jù)的這些新挑戰(zhàn)通常要求提議的框架具有可擴(kuò)展性以應(yīng)對這些挑戰(zhàn)。一般來說,新的挑戰(zhàn)

通??梢苑譃槿齻€(gè)方面,即數(shù)據(jù)挑戰(zhàn)、流程挑戰(zhàn)和管理挑戰(zhàn)。尤其是數(shù)據(jù)挑戰(zhàn)與數(shù)據(jù)本身的特性有

關(guān);

流程挑戰(zhàn)通常與一組大數(shù)據(jù)處理技術(shù)相關(guān);

管理挑戰(zhàn)涵蓋所有隱私和安全問題。這三個(gè)組件相互關(guān)聯(lián),形成一個(gè)數(shù)據(jù)生命周期,如圖6所

ZJSo

第18頁共23頁

◎□u

圖6面臨新挑戰(zhàn)

4.網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理

大數(shù)據(jù)通常是通過不同的數(shù)據(jù)捕獲設(shè)備從多個(gè)來源收集,如物聯(lián)網(wǎng)和其他專業(yè)設(shè)備。其結(jié)果是

圍繞數(shù)據(jù)安全和隱私的關(guān)鍵問題,因?yàn)榇祟愒O(shè)備的設(shè)計(jì)通常沒有充分考慮數(shù)據(jù)安全。因此,隨著大

數(shù)據(jù)應(yīng)用的日益廣泛,網(wǎng)絡(luò)安全已成為填補(bǔ)此類安全空白的一個(gè)越來越重要和不可忽視的研究領(lǐng)

域。本節(jié)討論上一節(jié)介紹的大數(shù)據(jù)治理框架的實(shí)施,以支持在該領(lǐng)域安全和合乎道德地使用大數(shù)

據(jù)。

網(wǎng)絡(luò)安全是指保護(hù)計(jì)算機(jī)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施、運(yùn)行在基礎(chǔ)設(shè)施上的操作系統(tǒng)、軟件程序以及通過

基礎(chǔ)設(shè)施存儲或傳輸?shù)乃袛?shù)據(jù)免受數(shù)字攻擊和任何其他濫用的做法,如“網(wǎng)絡(luò)安全”一節(jié)所述。因

此,網(wǎng)絡(luò)安全涉及數(shù)字信息處理的硬件和軟件系統(tǒng)的范圍非常廣泛,其中網(wǎng)絡(luò)安全是最常見的方

面。此外,網(wǎng)絡(luò)入侵檢測是實(shí)現(xiàn)網(wǎng)絡(luò)安全最常用的手段。因此,在不失一般性的前提下,本文以網(wǎng)

絡(luò)安全為例,討論了所提出的大數(shù)據(jù)治理框架的實(shí)現(xiàn),如圖7所示。

第19頁共23頁

業(yè)務(wù)支撐平臺(中間件平臺)

處理層服務(wù)支撐網(wǎng)絡(luò)管理信息處理信息安全

平臺平臺平臺平臺

網(wǎng)絡(luò)層電信網(wǎng)廣電網(wǎng)其他網(wǎng)

(RF1D網(wǎng)絡(luò))(傳感器網(wǎng)絡(luò))

感知層(RFID標(biāo)簽

二維碼

M2M終端導(dǎo)航定位傳感器攝像頭

和讀寫器標(biāo)簽

圖7網(wǎng)絡(luò)安全大數(shù)據(jù)治理框架

4.1.規(guī)劃

網(wǎng)絡(luò)安全數(shù)據(jù)治理框架的實(shí)施需要仔細(xì)規(guī)劃,以滿足組織中與數(shù)據(jù)相關(guān)的戰(zhàn)略目標(biāo)。在這種情

況下,系統(tǒng)需要通過實(shí)施大數(shù)據(jù)網(wǎng)絡(luò)安全項(xiàng)目來實(shí)現(xiàn),以實(shí)現(xiàn)項(xiàng)目和治理目標(biāo),這是通過評估系統(tǒng)

的當(dāng)前環(huán)境和組織的關(guān)鍵績效指標(biāo)來確定的。如前所述,本文使用入侵檢測系統(tǒng)作為運(yùn)行實(shí)例來討

論所提出的方法。基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論