版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理.docx
前言
本文提出了一個(gè)大數(shù)據(jù)治理框架,指導(dǎo)組織在相關(guān)的規(guī)則框架內(nèi)做出更好的基于數(shù)據(jù)的業(yè)務(wù)決
策,并密切關(guān)注數(shù)據(jù)安全性、隱私性和可訪問性。
大數(shù)據(jù)是指大型復(fù)雜的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。大數(shù)據(jù)技術(shù)使組織能夠生成、收集、管理、
分析和可視化大數(shù)據(jù)集,并為診斷、預(yù)測或其他決策任務(wù)提供見解。處理大數(shù)據(jù)的關(guān)鍵問題之一是
采用適當(dāng)?shù)拇髷?shù)據(jù)治理框架,這樣可以:
①以所需的方式管理大數(shù)據(jù),以支持有效機(jī)器學(xué)習(xí)的高質(zhì)量數(shù)據(jù)訪問;
②確保該框架規(guī)范存儲和處理在相關(guān)監(jiān)管框架內(nèi)以可信賴的方式收集來自供應(yīng)商和用戶的數(shù)
據(jù)。
提出了一個(gè)大數(shù)據(jù)治理框架,指導(dǎo)組織在相關(guān)的規(guī)則框架內(nèi)做出更好的基于數(shù)據(jù)的業(yè)務(wù)決策,
并密切關(guān)注數(shù)據(jù)安全性、隱私性和可訪問性。為了說明這一過程,以網(wǎng)絡(luò)安全大數(shù)據(jù)治理為例,給
出了該框架的一個(gè)實(shí)現(xiàn)實(shí)例。該框架有可能指導(dǎo)不同組織的大數(shù)據(jù)管理,實(shí)現(xiàn)信息共享和協(xié)同決
策。
內(nèi)容目錄
前言..................................................................................................1
內(nèi)容目錄..............................................................................................1
圖表目錄..............................................................................................2
引言.................................................................................................2
1.研究背景.........................................................................................3
1.1.大數(shù)據(jù).......................................................................................3
1.2.網(wǎng)絡(luò)安全......................................................................................5
1.3.數(shù)據(jù)治理......................................................................................6
2.數(shù)據(jù)安全:數(shù)據(jù)治理概述..........................................................................7
2.1.數(shù)據(jù).........................................................................................7
2.2.治理........................................................................................10
2.3.數(shù)據(jù)治理....................................................................................10
3.大數(shù)據(jù)治理......................................................................................14
3.1.挑戰(zhàn).........................................................................................14
3.2.擬議的框架...................................................................................15
第1頁共23頁
3.2.1.目標(biāo)....................................................................................16
3.2.2.促成因素...............................................................................16
3.2.3.指導(dǎo)原則...............................................................................17
3.2.4.治理域.................................................................................17
3.2.5.應(yīng)對新挑戰(zhàn).............................................................................18
4.網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理...........................................................................19
4.1.規(guī)劃........................................................................................20
4.2.治理實(shí)施....................................................................................20
4.3.評價(jià)與優(yōu)化..................................................................................23
5.結(jié)語.............................................................................................23
圖表目錄
圖1大數(shù)據(jù)的3V:海量、多樣性和速度.............................................4
圖2數(shù)據(jù)治理的范圍.............................................................11
圖3宏觀層面的數(shù)據(jù)治理.........................................................13
圖4微觀層面的數(shù)據(jù)治理.........................................................14
表1現(xiàn)有數(shù)據(jù)治理的主要挑戰(zhàn).....................................................14
圖5大數(shù)據(jù)治理框架.............................................................16
圖6面臨新挑戰(zhàn).................................................................19
圖7網(wǎng)絡(luò)安全大數(shù)據(jù)治理框架.....................................................20
圖8Hadoop框架................................................................22
引言
互聯(lián)網(wǎng)絡(luò)和設(shè)備數(shù)量的增長導(dǎo)致了組織中數(shù)據(jù)的爆炸性增長。這些數(shù)據(jù)越來越多地被用來通過
分析提供見解,從而為關(guān)鍵業(yè)務(wù)決策提供信息。商業(yè)和非商業(yè)組織正在進(jìn)行的數(shù)字化促進(jìn)了這一增
長,物聯(lián)網(wǎng)(IoT)的日益廣泛使用也是如此。物聯(lián)網(wǎng)設(shè)備收集來自各個(gè)領(lǐng)域的信息,如健康、能源、
天氣、商業(yè)、交通、教育和制造業(yè),并打算對社會和環(huán)境產(chǎn)生積極的影響。大量的信息通常被稱為
“大數(shù)據(jù)”,即收集、挖掘、分析和可視化,以發(fā)現(xiàn)行為趨勢和模式,為決策提供信息。
與大數(shù)據(jù)相關(guān)的常見挑戰(zhàn)是存儲和分析收集的數(shù)據(jù)集,及時(shí)提供見解,從而加快和改進(jìn)決策過
程,支持實(shí)現(xiàn)組織目標(biāo)。作為一種常見的副作用,安全性和隱私性已經(jīng)成為組織內(nèi)部與數(shù)據(jù)存儲和
使用相關(guān)的關(guān)鍵問題之一。這是由于道德背景、法律背景的變化、網(wǎng)絡(luò)犯罪的擴(kuò)散、惡意內(nèi)部人員
第2頁共23頁
的增加以及近年來導(dǎo)致大規(guī)模安全漏洞傳播的新攻擊技術(shù)。由于意外信息泄露和對電網(wǎng)、衛(wèi)生、教
育等各種自動化系統(tǒng)的有組織黑客攻擊,這種機(jī)器和互聯(lián)的增加將導(dǎo)致銀行、政府和其他私人及公
共系統(tǒng)的網(wǎng)絡(luò)安全問題大幅增加。
當(dāng)在利用大數(shù)據(jù)集進(jìn)行決策的組織中不應(yīng)用數(shù)據(jù)治理時(shí),上述挑戰(zhàn)就變得至關(guān)重要。這些挑戰(zhàn)
共同推動了開發(fā)大數(shù)據(jù)治理框架的需求,以指導(dǎo)大數(shù)據(jù)在當(dāng)前決策中的使用,并確保大數(shù)據(jù)的質(zhì)量
和可用性可供未來使用。大數(shù)據(jù)治理涉及人員、政策、流程、戰(zhàn)略、標(biāo)準(zhǔn)和技術(shù)的協(xié)調(diào),使組織能
夠利用數(shù)據(jù)作為其關(guān)鍵業(yè)務(wù)資產(chǎn)之一,同時(shí)確保一致性、可用性、完整性、可靠性和安全性,以及
大數(shù)據(jù)整個(gè)生命周期的可審計(jì)性。
本文提出了一個(gè)大數(shù)據(jù)治理的框架,以便對大數(shù)據(jù)進(jìn)行適當(dāng)?shù)氖占⒐芾?、存儲、傳輸和?/p>
用。簡單地說,該框架以治理目標(biāo)為指導(dǎo),并使用EvaluateDirectMonitor(EDM)循環(huán)模型作為治
理原則來增強(qiáng)和支持?jǐn)?shù)據(jù)體系結(jié)構(gòu)。因此,該框架不僅可以指導(dǎo)組織做出更好的數(shù)據(jù)驅(qū)動決策,而
且可以支持組織在大數(shù)據(jù)的指導(dǎo)下有效地實(shí)現(xiàn)其組織成果。該框架使組織能夠正確管理數(shù)據(jù)資產(chǎn),
并最大限度地實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值,從而支持和鼓勵有關(guān)數(shù)據(jù)的良好實(shí)踐。
本文還提出了一個(gè)在網(wǎng)絡(luò)安全領(lǐng)域?qū)嵤┐髷?shù)據(jù)治理框架的實(shí)例。采用大數(shù)據(jù)和相應(yīng)技術(shù)的數(shù)據(jù)
分析工具越來越多地被用于支持網(wǎng)絡(luò)安全。鑒于這類數(shù)據(jù)在網(wǎng)絡(luò)空間的廣泛可用性,開發(fā)和使用這
類工具的機(jī)會很多。網(wǎng)絡(luò)安全涉及數(shù)據(jù)和網(wǎng)絡(luò)的方方面面,網(wǎng)絡(luò)入侵檢測是確保網(wǎng)絡(luò)安全的常用方
法之一。因此,本文探討了如何將所提出的大數(shù)據(jù)治理框架集成到保護(hù)數(shù)據(jù)存儲、流和處理的網(wǎng)絡(luò)
入侵檢測系統(tǒng)中。
論文的其余部分組織如下。"研究背景"部分簡要回顧了大數(shù)據(jù)、網(wǎng)絡(luò)安全和數(shù)據(jù)治理作為這項(xiàng)
工作的基礎(chǔ)。“大數(shù)據(jù)治理”部分介紹并討論了提出的大數(shù)據(jù)治理框架。"網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理”
部分以網(wǎng)絡(luò)入侵檢測的一個(gè)特殊案例為例,介紹了所提出的網(wǎng)絡(luò)安全領(lǐng)域大數(shù)據(jù)治理框架的實(shí)現(xiàn)。
“結(jié)語”部分總結(jié)了這項(xiàng)研究,并探討了未來可能的研究方向。
1.研究背景
該部分回顧了大數(shù)據(jù)的特點(diǎn)、現(xiàn)有的相關(guān)網(wǎng)絡(luò)安全方法、通用數(shù)據(jù)治理框架、原則,并為提出
的大數(shù)據(jù)治理框架奠定了基礎(chǔ)。
1.1.大數(shù)據(jù)
大數(shù)據(jù)是一個(gè)與大數(shù)據(jù)集相關(guān)的術(shù)語,大數(shù)據(jù)集具有更大、更多樣和更復(fù)雜的結(jié)構(gòu),難以使用
傳統(tǒng)的數(shù)據(jù)處理技術(shù)進(jìn)行存儲、分析和可視化。大數(shù)據(jù)不僅是指數(shù)據(jù)量,還包括與大數(shù)據(jù)量的收集
和利用相關(guān)的其他方面。大數(shù)據(jù)通常用3V來描述,如圖1所示。
第3頁共23頁
Velocity
圖1大數(shù)據(jù)的3V:海量、多樣性和速度
(1)海量:大數(shù)據(jù)最明顯的特點(diǎn)是生成和存儲的數(shù)據(jù)量大,這通常被稱為數(shù)據(jù)的縱向可伸縮性。
目前,估計(jì)全世界每天會產(chǎn)生25億字節(jié)的數(shù)據(jù),這一數(shù)據(jù)量比2005年增加了300倍,通常遠(yuǎn)遠(yuǎn)
超過傳統(tǒng)列和行合理數(shù)據(jù)庫的限制,因此需要新的存儲技術(shù)來適應(yīng)大數(shù)據(jù)。
(2)多樣性:多樣性表示數(shù)據(jù)可以來自多個(gè)領(lǐng)域,有三種典型類型:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)
化。這種多樣性增加了數(shù)據(jù)的橫向可伸縮性。與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)通常已經(jīng)被標(biāo)記,
并且可以很容易地映射到預(yù)先設(shè)計(jì)的字段(例如電子表格或數(shù)據(jù)庫中的表),它顯得更隨機(jī),更難排
序和分析。非結(jié)構(gòu)化數(shù)據(jù)的典型示例包括電子郵件、視頻、照片和音頻文件。半結(jié)構(gòu)化數(shù)據(jù)集通常
不駐留在關(guān)系數(shù)據(jù)庫或表中,但它們確實(shí)包含用于分隔數(shù)據(jù)元素的標(biāo)記。JSON和XML文檔通常屬
第4頁共23頁
于這種數(shù)據(jù)類型。
(3)速度:表示數(shù)據(jù)生成和需要處理以滿足應(yīng)用需求的速度。速度本質(zhì)上是衡量數(shù)據(jù)創(chuàng)建、存
儲、分析和可視化的速度。人們期望大數(shù)據(jù)技術(shù)能夠?qū)崟r(shí)或近似實(shí)時(shí)地生成和處理數(shù)據(jù),而傳統(tǒng)的
數(shù)據(jù)處理方法只能使用數(shù)據(jù)快照批量處理數(shù)據(jù)。因此,大數(shù)據(jù)需要更強(qiáng)大的數(shù)據(jù)處理機(jī)制來實(shí)時(shí)處
理數(shù)據(jù)流。
3V被廣泛用于描述大數(shù)據(jù),即大數(shù)據(jù)集具有高容量、高變化、高速度的特點(diǎn)。此外,最近還
提出了大數(shù)據(jù)的第四個(gè)V,即真實(shí)性。真實(shí)性是指數(shù)據(jù)的可信程度,表明數(shù)據(jù)在多大程度上可以被
組織確信地用于做出關(guān)鍵決策。大數(shù)據(jù)仍然是一個(gè)快速發(fā)展的領(lǐng)域,涉及非常活躍的研究和越來越
多的應(yīng)用。因此,毫不奇怪,大數(shù)據(jù)的定義也在不斷演變。盡管如此,大多數(shù)定義都類似于“大數(shù)
據(jù)代表的信息資產(chǎn)具有如此高的數(shù)量、速度、多樣性和真實(shí)性,需要特定的技術(shù)和分析方法才能將
其轉(zhuǎn)化為價(jià)值”。在此基礎(chǔ)上,大數(shù)據(jù)的廣義定義被擴(kuò)展到包括實(shí)現(xiàn)或提取大數(shù)據(jù)價(jià)值的大數(shù)據(jù)處
理技術(shù)。
1.2.網(wǎng)絡(luò)安全
隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的設(shè)備被網(wǎng)絡(luò)化,形成物聯(lián)網(wǎng)。從本質(zhì)上講,大量用于捕獲
廣泛數(shù)據(jù)的設(shè)備利用各種網(wǎng)絡(luò)和云提供的無處不在的連接性在互聯(lián)網(wǎng)上共享數(shù)據(jù)。如果適當(dāng)?shù)丶右?/p>
利用,這種共享數(shù)據(jù)可能對組織很有價(jià)值。為了保護(hù)網(wǎng)絡(luò)空間中的數(shù)據(jù)共享,網(wǎng)絡(luò)安全已成為影響
企業(yè)、政府、其他組織和個(gè)人家庭設(shè)備的最緊迫問題之一。
數(shù)據(jù)治理在這些解決方案中扮演著重要的角色,它不僅幫助組織了解需要保護(hù)哪些數(shù)據(jù),而且
引導(dǎo)組織實(shí)現(xiàn)目標(biāo),具體表現(xiàn)在以下兩個(gè)方面:
(1)識別數(shù)據(jù)風(fēng)險(xiǎn):個(gè)人識別信息和個(gè)人健康信息構(gòu)成敏感數(shù)據(jù),可能給組織帶來聲譽(yù)和財(cái)務(wù)風(fēng)
險(xiǎn)。數(shù)據(jù)治理工具支持識別敏感數(shù)據(jù)。
(2)控制更安全的訪問:數(shù)據(jù)用戶并不總是需要查看或訪問日常使用的敏感數(shù)據(jù)。重要的是要控
制這些敏感數(shù)據(jù)只有在需要和必要時(shí)才能訪問。通過正確應(yīng)用數(shù)據(jù)治理工具,可以有效控制權(quán)限數(shù)
據(jù)訪問。
傳統(tǒng)上,數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)安全解決方案,如網(wǎng)絡(luò)入侵檢測系統(tǒng)(IDS)和安全信息與事件管理
(SIEM),通過分析事務(wù)日志和網(wǎng)絡(luò)流量數(shù)據(jù)來識別異常和可疑活動,從而保護(hù)組織免受網(wǎng)絡(luò)威脅。
然而,基于以下兩個(gè)原因,此類工具越來越難以處理與使用物聯(lián)網(wǎng)進(jìn)行大數(shù)據(jù)收集相關(guān)的越來越大
的流量數(shù)據(jù)集:
(1)傳統(tǒng)技術(shù)并不是用來處理和管理任何半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的,但這在大數(shù)據(jù)中非常常
見。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化表示是可能的,以滿足傳統(tǒng)工具的需求。但是,這是一個(gè)額外且
第5頁共23頁
耗時(shí)的過程,成本非常高昂。
(2)傳統(tǒng)技術(shù)在存儲、保留、檢索、訪問和處理大數(shù)據(jù)隱含的大量信息方面效率相對較低。這些
工具沒有與大數(shù)據(jù)技術(shù)集成。
應(yīng)用大數(shù)據(jù)技術(shù)可以很容易地解決傳統(tǒng)工具的問題。例如,大數(shù)據(jù)工具(如Piglatin腳本和正則
表達(dá)式)可以以靈活的格式查詢數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。止匕外,大數(shù)據(jù)及其分布式
系統(tǒng)提供了高性能的計(jì)算模型,使得存儲和分析大型異構(gòu)數(shù)據(jù)集的規(guī)模和速度前所未有。因此,與
大數(shù)據(jù)相關(guān)的網(wǎng)絡(luò)安全問題可以通過以下方法解決:①收集大規(guī)模的流量數(shù)據(jù);
②對數(shù)據(jù)進(jìn)行更深入的分析;
③生成并提供網(wǎng)絡(luò)安全相關(guān)模型;
④基于該模型實(shí)現(xiàn)大規(guī)模流媒體流量數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)分析。
1.3.數(shù)據(jù)治理
數(shù)字時(shí)代為公共和私營部門以及組織提供了前所未有的機(jī)會來收集、存儲、處理和交換大量數(shù)
據(jù);
因此,它們在數(shù)據(jù)安全、數(shù)據(jù)結(jié)構(gòu)管理、數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)質(zhì)量管理等方面面臨著越來越大
的挑戰(zhàn)。數(shù)據(jù)治理是一個(gè)概念或框架,組織可以使用它來解決管理數(shù)字資產(chǎn)處理過程中的此類挑
戰(zhàn)。
數(shù)據(jù)治理包括使組織能夠?qū)?shù)據(jù)作為數(shù)字資產(chǎn)加以利用的人員、流程、過程和技術(shù)。它提供了
管理和維護(hù)數(shù)據(jù)質(zhì)量、安全性、可用性、相關(guān)性和完整性的通用框架。它還確保真實(shí)的數(shù)據(jù)被適當(dāng)
地用于設(shè)定業(yè)務(wù)目標(biāo)、維護(hù)業(yè)務(wù)流程和做出關(guān)鍵決策。數(shù)據(jù)治理通常需要一個(gè)連續(xù)的過程來強(qiáng)制清
理和存儲由組織生成或來自第三方的大量數(shù)據(jù)。應(yīng)用數(shù)據(jù)治理的動機(jī)是確保有一種可持續(xù)的方法利
用數(shù)據(jù)來實(shí)現(xiàn)組織的業(yè)務(wù)目標(biāo)和目的。信息技術(shù)。T)和其他業(yè)務(wù)部門必須共同定義管理數(shù)據(jù)的規(guī)則
和策略,并定義從獲取、管理和存儲到利用和可視化的數(shù)據(jù)元素。
數(shù)據(jù)治理策略確定了數(shù)據(jù)使用的角色和職責(zé),建立了數(shù)據(jù)保護(hù)計(jì)劃的最佳實(shí)踐,并確保數(shù)據(jù)在
組織內(nèi)得到適當(dāng)?shù)挠涗?。與組織的任何其他資產(chǎn)一樣,數(shù)據(jù)需要一個(gè)適當(dāng)?shù)墓芾聿呗?。?shù)據(jù)治理定
義了數(shù)據(jù)的訪問、數(shù)據(jù)的安全級別、數(shù)據(jù)的質(zhì)量以及組織對數(shù)據(jù)使用的目標(biāo)。數(shù)據(jù)治理策略可以由
組織內(nèi)的團(tuán)隊(duì)或組織外的專家編寫。
數(shù)據(jù)治理策略是另一個(gè)關(guān)鍵因素,它定義了如何共享從數(shù)據(jù)中提取的信息,加強(qiáng)了使用數(shù)據(jù)的
文化,并揭示了數(shù)據(jù)治理可能面臨的缺點(diǎn)和所需的預(yù)算。更具體地說,它闡明了誰對數(shù)據(jù)負(fù)責(zé)和知
情,以及如何從數(shù)據(jù)中做出決策。它為整個(gè)組織遵循的數(shù)據(jù)管理過程提供了基礎(chǔ)。它也是克服數(shù)據(jù)
治理限制的一個(gè)組成部分,有助于實(shí)現(xiàn)預(yù)期的業(yè)務(wù)目標(biāo)和價(jià)值。
第6頁共23頁
數(shù)據(jù)治理實(shí)踐通常由用于數(shù)據(jù)收集、管理、存儲和利用的框架指導(dǎo)。該框架旨在確保數(shù)據(jù)的機(jī)
密性、可用性、可訪問性、質(zhì)量和完整性。它必須支持組織內(nèi)的數(shù)據(jù)流和業(yè)務(wù)流程以及組織的文化
和結(jié)構(gòu)。它有助于指導(dǎo)員工在數(shù)據(jù)管理中發(fā)揮作用。一個(gè)完善的數(shù)據(jù)治理框架通常包括數(shù)據(jù)管理策
略、公司驅(qū)動因素、數(shù)據(jù)管理結(jié)構(gòu)、技術(shù)和方法。
2.數(shù)據(jù)安全:數(shù)據(jù)治理概述
隨著大數(shù)據(jù)時(shí)代的到來,流動的數(shù)據(jù)已成為連接全世界的載體,也成為促進(jìn)經(jīng)濟(jì)社會發(fā)展、便
利人們生產(chǎn)生活的源動力。伴隨著數(shù)據(jù)流動,尤其是為了解決流動過程中產(chǎn)生的一系列問題,"數(shù)
據(jù)治理”一詞逐漸興起。而要了解數(shù)據(jù)治理,還得從數(shù)據(jù)、治理這些基本概念說起。
2.1.數(shù)據(jù)
什么是數(shù)據(jù)?傳統(tǒng)意義上,數(shù)據(jù)是指人類對事物進(jìn)行測量的結(jié)果。如今,數(shù)據(jù)的概念有了很多
延展。一般而言,數(shù)據(jù)是指對客觀事件進(jìn)行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以
及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合。這些物理符號具有抽象、非隨機(jī)的特
點(diǎn)。
從數(shù)據(jù)的定義來看,數(shù)據(jù)具有兩個(gè)特征,一個(gè)是差異性,另一個(gè)是規(guī)律性。差異性主要體現(xiàn)為
數(shù)據(jù)多數(shù)描述的是事物的數(shù)量特征,現(xiàn)實(shí)世界中每件事、每個(gè)人、每種物都有不同的特征,因此反
映于數(shù)據(jù)也會有各種不同的表現(xiàn),甚至從表面看起來可能是雜亂無章的。規(guī)律性則主要體現(xiàn)為,數(shù)
據(jù)是具有一定規(guī)律的,對數(shù)據(jù)進(jìn)行分析研究,很重要的目的就是從數(shù)據(jù)中找出某種規(guī)律和關(guān)聯(lián)。簡
而言之,正因?yàn)閿?shù)據(jù)具有差異性,才有必要對數(shù)據(jù)進(jìn)行研究與分析;也正因?yàn)閿?shù)據(jù)存在規(guī)律性,對
其研究才有價(jià)值。
時(shí)下,人們往往容易將數(shù)據(jù)與大數(shù)據(jù)混淆。實(shí)際上,兩者是有區(qū)別的。
對于大數(shù)據(jù),麥肯錫全球研究所給出的定義如下:大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管
理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合;高德納(Gartner)咨詢公司給出
的定義如下:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)
海量、高增長率和多樣化的信息資產(chǎn)。維克托?邁爾?舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中提出,大
數(shù)據(jù)不能用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而要對所有數(shù)據(jù)進(jìn)行分析處理。
業(yè)界普遍認(rèn)為,大數(shù)據(jù)具有數(shù)據(jù)規(guī)模海量(Volume)、數(shù)據(jù)流轉(zhuǎn)快速(Velocity)、數(shù)據(jù)類型多樣
(Variety)和數(shù)據(jù)價(jià)值巨大(Vaiue)四大特征。
(1)數(shù)據(jù)規(guī)模海量
當(dāng)前,以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為核心特征的數(shù)字化浪潮正席卷全球,全世界每時(shí)每刻都
第7頁共23頁
在產(chǎn)生大量的數(shù)據(jù)。從1956年IBM發(fā)明世界上第一個(gè)機(jī)械硬盤,兩臺冰箱大小卻只有5MB容
量,到現(xiàn)在淘寶網(wǎng)4億用戶每天產(chǎn)生幾十TB的數(shù)據(jù),數(shù)據(jù)總量呈指數(shù)級增長。衡量數(shù)據(jù)大小的單
位也從MB到GB,到TB,再到PB、EB,相信后面還會不斷出現(xiàn)新的記錄單位。當(dāng)數(shù)據(jù)數(shù)量和規(guī)
模發(fā)展到一定程度時(shí),現(xiàn)有的數(shù)據(jù)存儲、分析、計(jì)算的方案和技術(shù)勢必不能滿足現(xiàn)實(shí)需求,迫切需
要更智能的算法、更強(qiáng)大的數(shù)據(jù)處理平臺和更新的數(shù)據(jù)處理技術(shù)來挖掘數(shù)據(jù)價(jià)值。
(2)數(shù)據(jù)流轉(zhuǎn)快速
與傳統(tǒng)的圖書、報(bào)紙、廣播等數(shù)據(jù)載體不同,數(shù)據(jù)產(chǎn)生和傳播的速度非???,數(shù)據(jù)被高速地創(chuàng)
建、移動、匯集到服務(wù)器?;诖?,大數(shù)據(jù)對數(shù)據(jù)處理有著非常嚴(yán)格的要求。大數(shù)據(jù)的處理需符合
秒級定律,一般要在秒級時(shí)間范圍內(nèi)給出對數(shù)據(jù)的分析結(jié)果。響應(yīng)時(shí)間過長,數(shù)據(jù)就失去了價(jià)值。
換言之,誰的數(shù)據(jù)處理速度快,誰在大數(shù)據(jù)時(shí)代就具備優(yōu)勢。
(3)數(shù)據(jù)類型多樣
傳感器、智能設(shè)備及移動互聯(lián)網(wǎng)的飛速發(fā)展使數(shù)據(jù)變得更加復(fù)雜,除了傳統(tǒng)的關(guān)系型數(shù)據(jù),還
包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)時(shí)代,需要處理的數(shù)據(jù)不僅是海量的,而且是不同
種類、不同格式和不同來源的,因此需要一套專門的格式、標(biāo)準(zhǔn)來進(jìn)行處理。
(4)數(shù)據(jù)價(jià)值巨大
大數(shù)據(jù)最大的特點(diǎn)在于通過各種數(shù)據(jù)分析和挖掘方法,發(fā)現(xiàn)諸多看似無關(guān)的數(shù)據(jù)之間暗含的規(guī)
律和關(guān)聯(lián)。例如,阿里巴巴集團(tuán)每天擁有幾億人的購物數(shù)據(jù),通過分析這些數(shù)據(jù)就可以知道各種產(chǎn)
品和市場發(fā)展的走勢,也可以知道不同用戶的愛好和需求,從而進(jìn)行針對性的推薦,以提高平臺的
交易量。不過,我們也要看到,雖然大數(shù)據(jù)的價(jià)值巨大,但并不是所有數(shù)據(jù)都擁有這樣的價(jià)值。如
果把大數(shù)據(jù)比作一座金礦,有價(jià)值的數(shù)據(jù)就是其中的黃金,這種價(jià)值需要一系列加工和處理才可能
得到釋放。
在數(shù)字經(jīng)濟(jì)的發(fā)展歷程中,數(shù)據(jù)起到了核心和關(guān)鍵作用,人們對數(shù)據(jù)價(jià)值的認(rèn)識也是由淺入
深、由簡單趨向復(fù)雜??傮w來看,數(shù)據(jù)價(jià)值的發(fā)展主要分為三個(gè)階段:第一階段是數(shù)據(jù)資源階段,
數(shù)據(jù)是記錄、反映現(xiàn)實(shí)世界的一種資源;第二階段是數(shù)據(jù)資產(chǎn)階段,數(shù)據(jù)不僅是一種資源,還是一
種資產(chǎn),是個(gè)人或企業(yè)資產(chǎn)的重要組成部分,是創(chuàng)造財(cái)富的基礎(chǔ);第三階段是數(shù)據(jù)資本階段,數(shù)據(jù)
的資源和資產(chǎn)的特性得到進(jìn)一步發(fā)揮,與價(jià)值進(jìn)行結(jié)合,通過交易等各種流動方式,最終變?yōu)橘Y
本。
(5)數(shù)據(jù)資源
與傳統(tǒng)的農(nóng)業(yè)經(jīng)濟(jì)和工業(yè)經(jīng)濟(jì)不同,數(shù)字經(jīng)濟(jì)得以發(fā)展的基礎(chǔ)是信息技術(shù)和海量數(shù)據(jù)。隨著信
息技術(shù)與經(jīng)濟(jì)社會的交匯融合,數(shù)據(jù)成為國家的基礎(chǔ)性戰(zhàn)略資源,成為驅(qū)動經(jīng)濟(jì)社會發(fā)展的新興生
產(chǎn)要素,與勞動、土地、資本等其他生產(chǎn)要素一同為經(jīng)濟(jì)社會的發(fā)展創(chuàng)造價(jià)值。
第8頁共23頁
但是,數(shù)據(jù)與這些傳統(tǒng)生產(chǎn)要素不同,它具有可再生、無污染、無限性的特征??稍偕侵笖?shù)
據(jù)資源不是從大自然獲得的,而是人類自己生產(chǎn)出來的,通過加工處理后的數(shù)據(jù)還可以成為新的數(shù)
據(jù)資源;無污染是指數(shù)據(jù)在獲得與使用的過程中不會污染環(huán)境;無限性是指數(shù)據(jù)在使用過程中不會
變少,而是越變越多。因此,傳統(tǒng)資源越用越少,但數(shù)據(jù)資源是越用越多。
數(shù)據(jù)成為資源,也是發(fā)現(xiàn)和利用數(shù)據(jù)價(jià)值的一個(gè)過程,這一點(diǎn)與傳統(tǒng)資源如石油比較相似。首
先,要發(fā)現(xiàn)各種有用數(shù)據(jù)的來源,如同勘探油礦;其次,要采集滿足特定需求的數(shù)據(jù),如同采油;
然后,要把采集到的數(shù)據(jù)按應(yīng)用需求進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化處理,如同煉油;最后,將加工處理后形
成的數(shù)據(jù)與實(shí)際應(yīng)用相結(jié)合,最大程度地發(fā)揮數(shù)據(jù)的作用。因此,在這個(gè)階段,數(shù)據(jù)是作為一種具
有使用價(jià)值的資源幫助管理者決策,從而實(shí)現(xiàn)其經(jīng)濟(jì)效益,同時(shí)也成為數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要
素。
(6)數(shù)據(jù)資產(chǎn)
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,人們發(fā)現(xiàn),數(shù)據(jù)不僅僅是資源,還具備資產(chǎn)的特質(zhì)。所謂資產(chǎn),是指由
企業(yè)過去經(jīng)營交易或由各項(xiàng)事項(xiàng)形成的、被企業(yè)擁有或控制的、預(yù)期會給企業(yè)帶來經(jīng)濟(jì)利益的資
源。從資產(chǎn)的界定來看,它具有現(xiàn)實(shí)性、可控性和經(jīng)濟(jì)性三個(gè)基本特征。現(xiàn)實(shí)性是指資產(chǎn)必須是現(xiàn)
實(shí)已經(jīng)存在的,還未發(fā)生的事物不能稱為資產(chǎn);可控性是指對企業(yè)的資產(chǎn)要有所有權(quán)或控制權(quán);經(jīng)
濟(jì)性是指資產(chǎn)預(yù)期能給企業(yè)帶來經(jīng)濟(jì)效益。結(jié)合資產(chǎn)的特征,數(shù)據(jù)資產(chǎn)便是指企業(yè)在生產(chǎn)經(jīng)營管理
活動中形成的,可擁有或可控制其產(chǎn)生及應(yīng)用全過程的、可量化的、預(yù)期能給企業(yè)帶來經(jīng)濟(jì)效益的
數(shù)據(jù)。實(shí)現(xiàn)數(shù)據(jù)可控制、可量化與可變現(xiàn)屬性,體現(xiàn)數(shù)據(jù)價(jià)值的過程,就是數(shù)據(jù)資產(chǎn)化過程。當(dāng)
前,數(shù)據(jù)已經(jīng)滲入各行各業(yè),逐步成為企業(yè)不可或缺的戰(zhàn)略資產(chǎn),企業(yè)所掌握的數(shù)據(jù)規(guī)模、數(shù)據(jù)的
鮮活程度,以及采集、分析、處理、挖掘數(shù)據(jù)的能力決定了企業(yè)的核心競爭力。
(7)數(shù)據(jù)資本
2016年3月,麻省理工科技評論與甲骨文公司聯(lián)合發(fā)布了名為《數(shù)據(jù)資本的興起》的研究報(bào)
告。報(bào)告指出,數(shù)據(jù)已經(jīng)成為一種資本,和金融資本一樣,能夠產(chǎn)生新的產(chǎn)品和服務(wù)。但是,與實(shí)
物資本不同,數(shù)據(jù)資本也有自身的特性。例如,非競爭性,即實(shí)物資本不能多人同時(shí)使用,但是數(shù)
據(jù)資本由于數(shù)據(jù)的易復(fù)制拷貝特點(diǎn),其使用方可以無限多;不可替代性,即實(shí)物資本是可以替換
的,人們可以用一桶石油替換另一桶石油,而數(shù)據(jù)資本則不行,因?yàn)椴煌臄?shù)據(jù)包含不同的信息,
其所包含的價(jià)值也是不同的。數(shù)據(jù)資本化的過程,就是將數(shù)據(jù)資產(chǎn)的價(jià)值和使用價(jià)值折算成股份或
出資比例,通過數(shù)據(jù)交易和數(shù)據(jù)流動變?yōu)橘Y本的過程。換句話說,數(shù)據(jù)作為資本的價(jià)值要在數(shù)據(jù)交
易和流動中才能得到充分體現(xiàn)。這也引發(fā)了當(dāng)前業(yè)界的一大難題,即數(shù)據(jù)產(chǎn)權(quán)問題。只有確定了數(shù)
據(jù)產(chǎn)權(quán)問題,數(shù)據(jù)交易才具備順利開展的前提基礎(chǔ)。
第9頁共23頁
2.2.治理
對于對大數(shù)據(jù)感興趣的人來說,“數(shù)據(jù)治理”這個(gè)詞并不陌生。但要全面深刻地理解數(shù)據(jù)治理,
還應(yīng)該從“治理"說起。在英語中,“治理”一詞源自拉丁文“gubernare",原意是控制、引導(dǎo)和操縱,
后來逐漸演化成'governor"及"government"。
治理的概念是20世紀(jì)90年代在全球范圍內(nèi)逐步興起的。治理理論的主要創(chuàng)始人之一詹姆
斯?N.羅西瑙認(rèn)為,治理是通行于規(guī)制空隙之間的那些制度安排,當(dāng)兩個(gè)或更多規(guī)制出現(xiàn)重疊、沖
突時(shí)或者在相互競爭的利益之間需要調(diào)解時(shí)發(fā)揮作用的原則、規(guī)范、規(guī)則和決策程序。另一位治理
研究專家格里?斯托克指出,治理的本質(zhì)在于它所偏重的統(tǒng)治機(jī)制并不依靠政府的權(quán)威和制裁;它所
要創(chuàng)造的結(jié)構(gòu)和秩序不能從外部強(qiáng)加;它發(fā)揮作用是要依靠多種進(jìn)行統(tǒng)治的以及互相發(fā)生影響的行
為者的互動。
國內(nèi)學(xué)者俞可平提出,治理具有四個(gè)特征:1)治理不是一套規(guī)則條例,也不是一種活動,而是
一個(gè)過程;2)治理的建立不以支配為基礎(chǔ),而以調(diào)和為基礎(chǔ);3)治理同時(shí)涉及公共和私營部門;4)
治理并不意味著一種正式制度,而有賴于持續(xù)的相互作用。
國際組織對治理也有各自的理解。世界銀行認(rèn)為,治理是“為發(fā)展而管理一個(gè)國家經(jīng)濟(jì)和社會
資源的權(quán)力”。聯(lián)合國全球治理委員會將治理界定為"個(gè)人和各種公共或私營的機(jī)構(gòu)管理共同事務(wù)的
諸多方式之總和,一種使相互沖突的利益得以調(diào)和并采取聯(lián)合行動的持續(xù)過程”。
綜上所述,治理就是政府、企業(yè)、個(gè)人以及非政府組織等主體為了管理共同事務(wù),以正式制
度、規(guī)則和非正式安排的方式相互協(xié)調(diào)并持續(xù)互動的一個(gè)過程。
2.3.數(shù)據(jù)治理
數(shù)據(jù)治理具有治理的很多特征。例如,需要政府、企業(yè)、個(gè)人以及非政府組織等共同努力,也
需要建立一套立法、規(guī)章、制度和規(guī)則。然而,由于治理的是數(shù)據(jù),它又有很多自身的特點(diǎn)。目
前,關(guān)于數(shù)據(jù)治理的定義亦是眾說紛紜。
根據(jù)國際標(biāo)準(zhǔn)化組織IT服務(wù)管理與IT治理分技術(shù)委員會、國際數(shù)據(jù)治理研究所(DGI)、IBM數(shù)
據(jù)治理委員會等機(jī)構(gòu)的觀點(diǎn),數(shù)據(jù)治理意指建立在數(shù)據(jù)存儲、訪問、驗(yàn)證、保護(hù)和使用之上的一系
列程序、標(biāo)準(zhǔn)、角色和指標(biāo),以期通過持續(xù)的評估、指導(dǎo)和監(jiān)督,確保富有成效且高效的數(shù)據(jù)利
用,實(shí)現(xiàn)企業(yè)價(jià)值。數(shù)據(jù)治理的范圍如圖2所示。
第10頁共23頁
數(shù)據(jù)架構(gòu)、分析和設(shè)計(jì)
?企業(yè)數(shù)據(jù)建模
?價(jià)值鏈分析
?相關(guān)數(shù)據(jù)架構(gòu)
元數(shù)據(jù)轉(zhuǎn)理數(shù)據(jù)庫管理
?邏輯建模
用戶和需求數(shù)據(jù)庫設(shè)計(jì)
?物理建模,
架構(gòu)和標(biāo)準(zhǔn)數(shù)據(jù)庫執(zhí)行
?建模標(biāo)準(zhǔn)/
抓取和整合?模型管理/支持和恢復(fù)
知識庫管理績效和優(yōu)化
詢問和報(bào)告歸檔和清除
分配和發(fā)送數(shù)據(jù)治理\技術(shù)管理
?角色和組織
數(shù)據(jù)安全管理
?數(shù)據(jù)線路
數(shù)據(jù)隱私標(biāo)準(zhǔn)
文件、記錄和內(nèi)容管理?政策和霸打粵黑。*
?保密分類
?電子文件管理
?密碼實(shí)務(wù)
?物理記錄和文檔管理
?用戶、小組和觀點(diǎn)管理
?信息內(nèi)容管理
?用戶身份驗(yàn)證
?項(xiàng)目和服務(wù)
?數(shù)據(jù)安全審計(jì)
?數(shù)據(jù)資產(chǎn)評估
,交流
數(shù)據(jù)倉庫和企業(yè)情報(bào)管理
數(shù)據(jù)質(zhì)量管理
?數(shù)據(jù)倉庫/企業(yè)情報(bào)架構(gòu)
?數(shù)據(jù)倉庫/集市執(zhí)行?質(zhì)量要求規(guī)范
?企業(yè)情報(bào)執(zhí)行/?質(zhì)量側(cè)寫和分析
參考和主數(shù)據(jù)管理
?企業(yè)情報(bào)培訓(xùn)和支持卜?數(shù)據(jù)質(zhì)量提升
?數(shù)據(jù)整合架構(gòu)
?監(jiān)測和優(yōu)化\?數(shù)據(jù)認(rèn)證和審計(jì)
?參考數(shù)據(jù)管理
?用戶數(shù)據(jù)整合
?產(chǎn)品數(shù)據(jù)整合
?維度管理
訐計(jì)算機(jī)與網(wǎng)絡(luò)安全
圖2數(shù)據(jù)治理的范圍
中國在國際場合首次提出“數(shù)據(jù)治理”的概念,是2014年6月在悉尼召開的ISO/IEC
JTCl/SC40(IT治理和IT服務(wù)管理分技術(shù)委員會)第一次全會上。這個(gè)概念一經(jīng)提出,即引發(fā)了國際
同行的興趣和持續(xù)研討。
2014年11月,在荷蘭召開的SC40/WGl(IT治理工作組)第二次工作組會議上,中國代表提出
了《數(shù)據(jù)治理白皮書》的框架設(shè)想,分析了世界上包括國際數(shù)據(jù)管理協(xié)會(DAMA)、國際數(shù)據(jù)治理
研究所、IBM、高德納咨詢公司等組織在內(nèi)的主流的數(shù)據(jù)治理方法論、模型,獲得了國際IT治理工
作組專家的一致認(rèn)可。2015年3月,中國信息技術(shù)服務(wù)標(biāo)準(zhǔn)。TSS)數(shù)據(jù)治理研究小組通過走訪調(diào)
研,形成了金融、移動通信、央企能源、互聯(lián)網(wǎng)企業(yè)在數(shù)據(jù)治理方面的典型案例,進(jìn)一步明確了數(shù)
第11頁共23頁
據(jù)治理的定義和范圍,并于2015年5月在巴西圣保羅召開的SC40/WG1第三次工作組會議上正式
提交了《數(shù)據(jù)治理白皮書》國際標(biāo)準(zhǔn)研究報(bào)告。報(bào)告認(rèn)為,數(shù)據(jù)是資產(chǎn),通過服務(wù)產(chǎn)生價(jià)值。數(shù)據(jù)
治理主要是在數(shù)據(jù)產(chǎn)生價(jià)值的過程中,治理團(tuán)隊(duì)對其做出的評價(jià)、指導(dǎo)、控制。
上述幾個(gè)關(guān)于數(shù)據(jù)治理的界定,內(nèi)涵已經(jīng)十分豐富,要義也得到了明確的體現(xiàn),但還是未能囊
括數(shù)據(jù)治理的全部。
首先,數(shù)據(jù)不僅僅是企業(yè)或機(jī)構(gòu)的資產(chǎn),更是現(xiàn)代國家的一種基礎(chǔ)戰(zhàn)略資源。曾有人提出,大
數(shù)據(jù)時(shí)代世界上最有價(jià)值的資源不再是石油,而是數(shù)據(jù)。這種提法絲毫未夸大數(shù)據(jù)的重要作用。煤
炭和石油等傳統(tǒng)資源是有限的,而大數(shù)據(jù)作為新型資源,由于具有可復(fù)制、遞增、共享等特性,其
開發(fā)和增長是無限的。更重要的是它改變了傳統(tǒng)要素格局,新知識和新技術(shù)替代資本成為經(jīng)濟(jì)發(fā)展
的主導(dǎo)因素,符合智慧、綠色、共享和低成本的可持續(xù)發(fā)展理念,將助力實(shí)現(xiàn)發(fā)展方式的真正轉(zhuǎn)
變。
其次,數(shù)據(jù)治理的目的不僅僅是確保數(shù)據(jù)的高效利用和實(shí)現(xiàn)企業(yè)價(jià)值,更是為了提升政府公共
管理能力和國家治理能力。正如《數(shù)據(jù)治理白皮書》所描述的,企業(yè)開展有效的數(shù)據(jù)治理,會通過
改進(jìn)決策、縮減成本、降低風(fēng)險(xiǎn)和提高安全合規(guī)等方式將價(jià)值回饋于業(yè)務(wù),并最終體現(xiàn)為增加收入
和利潤。但是,擁有數(shù)據(jù)的往往并不只是企業(yè)。有統(tǒng)計(jì)顯示,政府擁有全社會80%的數(shù)據(jù)資源,通
過運(yùn)用大數(shù)據(jù)、云計(jì)算等現(xiàn)代信息技術(shù),形成“用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)服務(wù)”的公共管理
與服務(wù)機(jī)制,能夠有效提升政府公共管理能力和國家治理能力,促進(jìn)經(jīng)濟(jì)社會的快速健康發(fā)展。
再次,開展數(shù)據(jù)治理不僅僅局限于企業(yè),政府和個(gè)人更是數(shù)據(jù)治理的重要主體。當(dāng)前,無論國
際、國內(nèi),提到數(shù)據(jù)治理基本都是指企業(yè)行為,但實(shí)際上政府在數(shù)據(jù)治理中能夠發(fā)揮更主動的作
用。例如,開展數(shù)據(jù)治理頂層設(shè)計(jì)、推動政務(wù)數(shù)據(jù)開放共享、建立完善的數(shù)據(jù)權(quán)責(zé)體系等。個(gè)人也
應(yīng)該積極參與數(shù)據(jù)治理。由于政府和企業(yè)收集的信息中有相當(dāng)大的部分是個(gè)人信息和數(shù)據(jù),而近年
來泄露、濫用和非法買賣個(gè)人信息的現(xiàn)象十分嚴(yán)重,給部分民眾造成了巨大的經(jīng)濟(jì)損失和精神傷
害。所以,個(gè)人參與數(shù)據(jù)治理主要是積極保護(hù)個(gè)人信息和維護(hù)個(gè)人權(quán)益。
最后,數(shù)據(jù)治理不僅僅依靠模型和框架,還要采用法律、行政、教育、道德倫理等方法和手
段。當(dāng)前,圍繞對數(shù)據(jù)的采集、分析、挖掘、應(yīng)用、共享和保護(hù)等出現(xiàn)了諸多問題,亟需通過出臺
數(shù)據(jù)立法和行政規(guī)章制度加以明確和規(guī)范。針對數(shù)據(jù)利用過程中出現(xiàn)的一系列安全隱患,要加強(qiáng)網(wǎng)
絡(luò)安全教育和培訓(xùn),提升從業(yè)人員的專業(yè)素質(zhì)和普通民眾的意識技能。對于那些倒買倒賣生物特征
信息等敏感數(shù)據(jù)的行為,要輔之以倫理和道德方面的分析和教化,必要時(shí)可在立法中加大處罰力
度。
綜上所述,從宏觀層面看,數(shù)據(jù)治理是指政府等公共機(jī)構(gòu)、企業(yè)等私營機(jī)構(gòu)以及個(gè)人,為了最
大程度地挖掘和釋放數(shù)據(jù)價(jià)值,推動數(shù)據(jù)安全、有序流動而采取政策、法律、標(biāo)準(zhǔn)、技術(shù)等一系列
第12頁共23頁
措施的過程,如圖3所示。從微觀層面看,數(shù)據(jù)治理是不同的機(jī)構(gòu)對各種各樣的元數(shù)據(jù)進(jìn)行處理和
分析的過程,如圖4所示。換句話說,無論何種主體以何種方式,只要圍繞數(shù)據(jù)安全、有序流動所
采取的行動,就是數(shù)據(jù)治理的范疇。
數(shù)據(jù)治理工一.計(jì)算機(jī)與網(wǎng)絡(luò)熨全
圖3宏觀層面的數(shù)據(jù)治理
第13頁共23頁
3.大數(shù)據(jù)治理
本部分討論數(shù)據(jù)治理挑戰(zhàn),以及為應(yīng)對這些挑戰(zhàn)而提出的大數(shù)據(jù)治理框架。
3.1.挑戰(zhàn)
傳統(tǒng)的數(shù)據(jù)治理框架在“數(shù)據(jù)治理”部分中通常只考慮數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理,而不
是高容量、高變化、高速度的實(shí)時(shí)數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,組織內(nèi)部或外部處理的大量數(shù)據(jù)需要對
數(shù)據(jù)質(zhì)量、安全性和道德規(guī)范進(jìn)行額外的管理。此外,大數(shù)據(jù)和業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄
露的風(fēng)險(xiǎn)更加頻繁和更高。此外,大數(shù)據(jù)與業(yè)務(wù)任務(wù)的結(jié)合可能會導(dǎo)致數(shù)據(jù)泄露的頻率更高、風(fēng)險(xiǎn)
級別更高。表1總結(jié)了現(xiàn)有數(shù)據(jù)治理框架在大數(shù)據(jù)方面面臨的主要挑戰(zhàn)。
表1現(xiàn)有數(shù)據(jù)治理的主要挑戰(zhàn)
第14頁共23頁
序號挑戰(zhàn)
1缺乏大數(shù)據(jù)治理框架
2缺乏大數(shù)據(jù)治理所需的技術(shù)人才
3大數(shù)據(jù)安全與隱私
4缺乏及時(shí)從數(shù)據(jù)中產(chǎn)生洞察力所需的工具
5組織在目標(biāo)設(shè)定和決策中使用數(shù)據(jù)的阻力
6業(yè)務(wù)經(jīng)理對大數(shù)據(jù)的認(rèn)識不足
7企業(yè)的數(shù)字化仍然是大多數(shù)組織面臨的挑戰(zhàn)
8收集和存儲的數(shù)據(jù)的復(fù)雜性(如非結(jié)構(gòu)化數(shù)據(jù))
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)治理主要集中在以下三個(gè)方面:
(1)數(shù)據(jù)體系結(jié)構(gòu):大數(shù)據(jù)是從各種各樣的數(shù)據(jù)源中獲取的,這些數(shù)據(jù)源可以是結(jié)構(gòu)化的、半結(jié)
構(gòu)化的或非結(jié)構(gòu)化的。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)通常是隨機(jī)的,難以處理。這種數(shù)據(jù)結(jié)構(gòu)的多樣性
增加了數(shù)據(jù)管理的難度。另外,不同的組織保持著各自的數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化,阻礙了不同組織之間跨
系統(tǒng)的信息共享,從而大大降低了信息開發(fā)利用的效率。
(2)數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量可能是大數(shù)據(jù)管理的一個(gè)問題,因?yàn)榇蠖鄶?shù)現(xiàn)有措施不能直接應(yīng)用于大
數(shù)據(jù)。例如,大數(shù)據(jù)的實(shí)時(shí)性要求組織提高數(shù)據(jù)訪問效率,從而減少數(shù)據(jù)傳輸?shù)难舆t。此外,有時(shí)
可能需要組織將相同或具有沖突的數(shù)據(jù)存儲在不同的系統(tǒng)中,這往往會導(dǎo)致同步或沖突解決問題,
從而相應(yīng)地降低數(shù)據(jù)質(zhì)量。
(3)數(shù)據(jù)安全、隱私和道德考慮:數(shù)據(jù)共享和分析過程可以有效地提高數(shù)據(jù)的價(jià)值,使組織具有
更好的數(shù)據(jù)透明度,但同時(shí)也可能不適當(dāng)?shù)乇┞睹舾袛?shù)據(jù),或讓黑客進(jìn)行未經(jīng)授權(quán)的數(shù)據(jù)操縱。實(shí)
際上,大數(shù)據(jù)安全和隱私是大數(shù)據(jù)時(shí)代數(shù)據(jù)治理面臨的最大挑戰(zhàn)之一。除此之外,隨著數(shù)據(jù)提供者
的日益關(guān)注和數(shù)據(jù)捐贈的更廣泛參與,數(shù)據(jù)處理的道德方面已成為一個(gè)越來越重要的問題。
3.2.擬議的框架
在數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私方面存在的問題是設(shè)計(jì)和開發(fā)有效的大數(shù)
據(jù)治理框架的主要挑戰(zhàn)。本文從大數(shù)據(jù)應(yīng)用和創(chuàng)新的角度,通過考慮目標(biāo)、數(shù)據(jù)保護(hù)賦能因素、治
理領(lǐng)域和原則,提出了一個(gè)大數(shù)據(jù)治理框架,如圖2所示。該框架以治理目標(biāo)為指導(dǎo),根據(jù)組織的
戰(zhàn)略數(shù)據(jù)相關(guān)目標(biāo),采用實(shí)體數(shù)據(jù)模型(EDM)循環(huán)模型作為治理原則,有效地增強(qiáng)數(shù)據(jù)架構(gòu)、數(shù)據(jù)
質(zhì)量、數(shù)據(jù)安全和隱私。
第15頁共23頁
Goals
Outcomes
IJ
GovernanceDomain
Enablers
4-u>A
DistributedData
(vE3
3Processing£
Datariskd」
cuo
Managementue
le
/DistributedDataoAa
l\l
AStore
Policiest
--zmz
e
na
Integration&s
c2fe
StewardshipeMetadatael
QManagement。
y
圖5大數(shù)據(jù)治理框架
3.2.1.目標(biāo)
擬議的大數(shù)據(jù)治理框架允許組織保護(hù)大數(shù)據(jù),同時(shí)從大數(shù)據(jù)中獲取最大價(jià)值,從而支持和鼓勵
有關(guān)數(shù)據(jù)利用的良好做法。換言之,該框架的目標(biāo)不僅是指導(dǎo)組織根據(jù)其關(guān)鍵績效指標(biāo)圍繞數(shù)據(jù)使
用做出更好的決策,而且還幫助組織有效地實(shí)現(xiàn)數(shù)據(jù)創(chuàng)新利用的成果,這往往導(dǎo)致組織的文化變
革,以實(shí)現(xiàn)深層次的數(shù)據(jù)驅(qū)動過程。這些目標(biāo)通常是組織戰(zhàn)略目標(biāo)的核心,可以通過利用現(xiàn)代信息
和通信技術(shù)開發(fā)大數(shù)據(jù)來實(shí)現(xiàn)。
3.2.2.促成因素
賦能者通過管理來定義程序、規(guī)則以及這些程序和規(guī)則的相關(guān)實(shí)施,共同建立基礎(chǔ)實(shí)踐標(biāo)準(zhǔn),
以限制風(fēng)險(xiǎn)并最大化大數(shù)據(jù)及其利用的價(jià)值。這些程序和規(guī)則涵蓋了數(shù)據(jù)處理的所有關(guān)鍵方面和領(lǐng)
域,從數(shù)據(jù)收集到存儲和傳輸、利用和最終歸檔。例如,數(shù)據(jù)可能會泄漏或通過各種方式被非正式
訪問和操縱,從意外丟失的設(shè)備或釋放的密碼到專門的有組織的網(wǎng)絡(luò)攻擊。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)
源的多樣性和數(shù)據(jù)的存儲位置使得這種情況更具挑戰(zhàn)性。在這個(gè)例子中,需要根據(jù)此類潛在風(fēng)險(xiǎn)制
定風(fēng)險(xiǎn)預(yù)防和緩解程序及規(guī)則,以盡量減少風(fēng)險(xiǎn)。
為了確保所定義的規(guī)則和程序適用于組織的數(shù)據(jù)處理實(shí)踐,通常由數(shù)據(jù)管理員在執(zhí)行框架內(nèi)進(jìn)
行管理。數(shù)據(jù)管理員是對數(shù)據(jù)處理有顧慮的其他人的組織代表。數(shù)據(jù)管理者可以是數(shù)據(jù)管理委員會
第16頁共23頁
或獨(dú)立個(gè)人的形式,具體取決于組織。管理委員會還與程序和規(guī)則制定者密切合作,就程序和規(guī)則
的有效性和效率提供反饋和見解。這些輸入,除了來自數(shù)據(jù)提供者、保管者和操縱者的輸入,在對
數(shù)據(jù)處理程序和規(guī)則進(jìn)行定期審查和修訂時(shí),都要加以考慮。
3.2.3.指導(dǎo)原則
大數(shù)據(jù)治理原則支持組織管理和處理大數(shù)據(jù),為上一小節(jié)中討論的數(shù)據(jù)處理程序和規(guī)則中未提
及的任何方面提供補(bǔ)充指導(dǎo),這些程序和規(guī)則定義了數(shù)據(jù)處理關(guān)鍵方面的實(shí)用標(biāo)準(zhǔn)。這些程序和規(guī)
則是強(qiáng)制性的,由管理工作組監(jiān)督。本小節(jié)中討論的原則僅提出了良好做法,根據(jù)情況可能不會在
實(shí)踐中采用。這項(xiàng)工作的指導(dǎo)原則集中在圖2所示的數(shù)據(jù)責(zé)任、完整性、可審計(jì)性和透明度上。為
了使其有效,指導(dǎo)原則應(yīng)保持簡單易懂。
組織應(yīng)持續(xù)評估數(shù)據(jù)在一段時(shí)間內(nèi)可能發(fā)生的任何更改,以確保數(shù)據(jù)完整性,這對于有效使用
數(shù)據(jù)來說至關(guān)重要。數(shù)據(jù)完整性將通過確保數(shù)據(jù)在組織內(nèi)得到明確定義、適當(dāng)控制和適當(dāng)訪問來實(shí)
現(xiàn)。由于遵循了這些原則,數(shù)據(jù)可以更好地與組織策略以及跨業(yè)務(wù)需求保持一致。數(shù)據(jù)處理程序需
要透明,以保護(hù)組織免受潛在的數(shù)據(jù)泄露事件的影響,同時(shí)允許戰(zhàn)略性地使用數(shù)據(jù)。透明度有助于
揭示評估過程中如何處理敏感數(shù)據(jù),以便內(nèi)部或第三方審計(jì)師或任何其他數(shù)據(jù)利益相關(guān)者能夠理解
與數(shù)據(jù)相關(guān)的程序。
此外,與數(shù)據(jù)相關(guān)的決策、流程和行動應(yīng)是可審計(jì)的,這些決策、流程和行動應(yīng)得到基于合規(guī)
性和運(yùn)營審計(jì)要求的適當(dāng)文檔的支持。問責(zé)通常定義了數(shù)據(jù)的可訪問性和數(shù)據(jù)操作員的可信性。為
了促進(jìn)對數(shù)據(jù)的訪問控制,一個(gè)組織的所有部門需要合作來增強(qiáng)數(shù)據(jù)所有權(quán)和問責(zé)制。如果所有部
門都對數(shù)據(jù)負(fù)責(zé),那么在一個(gè)組織內(nèi),數(shù)據(jù)泄露就不那么令人擔(dān)心了。
3.2.4.治理域
治理域描述了組織在進(jìn)行數(shù)據(jù)治理活動時(shí)應(yīng)關(guān)注的數(shù)據(jù)治理目標(biāo),主要包括五個(gè)組成部分,如
圖2所示。在這五個(gè)組成部分中,數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全和隱私貫穿于所有治理域,保證了大數(shù)
據(jù)的有用性和有效性,以及大數(shù)據(jù)在使用過程中的適當(dāng)保護(hù)和隱私保護(hù)。
(1)數(shù)據(jù)質(zhì)量管理:大數(shù)據(jù)的使用會產(chǎn)生與動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)相關(guān)的數(shù)據(jù)質(zhì)量問題,因?yàn)橥ǔ?/p>
不可避免地會生成和收集質(zhì)量較差的數(shù)據(jù),這可能會增加對組織運(yùn)營和決策的負(fù)面影響。數(shù)據(jù)質(zhì)量
管理旨在測量、改進(jìn)和認(rèn)證生產(chǎn)、測試和存檔數(shù)據(jù)的質(zhì)量和完整性??梢允褂酶鞣N方法進(jìn)行大數(shù)據(jù)
質(zhì)量管理,以解決沖突的數(shù)據(jù)實(shí)例、處理不平衡的大數(shù)據(jù)集以及消除噪聲等。
(2)數(shù)據(jù)安全、隱私和道德:在收集、傳輸、存儲和利用大數(shù)據(jù)時(shí),數(shù)據(jù)安全、隱私和其他道德
含義是首要考慮的問題。大數(shù)據(jù)通常從各種來源收集,并且通常包含敏感信息。例如,推斷出的行
為數(shù)據(jù),如工作地點(diǎn)、好友列表等,可能被歸類為私有數(shù)據(jù);
第17頁共23頁
在一些更敏感的人口統(tǒng)計(jì)數(shù)據(jù)分析過程中,用戶名、電話號碼和信用卡信息是非常典型的。最
近出臺的《歐盟通用數(shù)據(jù)保護(hù)條例》(GDPR)是近20年來數(shù)據(jù)隱私保護(hù)條例中最重要的變化,它為
數(shù)據(jù)處理的組織提供了詳細(xì)的指導(dǎo)方針。在這個(gè)重要的領(lǐng)域中,所有的數(shù)據(jù)處理機(jī)制都是基于
GDPR和其他政策、程序、規(guī)則和原則來設(shè)計(jì)的,以減輕風(fēng)險(xiǎn)和保護(hù)數(shù)據(jù)資產(chǎn)。
(3)集成和元數(shù)據(jù)管理:這個(gè)域位于治理域的底部,可以被認(rèn)為是一個(gè)數(shù)據(jù)登錄區(qū),鏈接數(shù)據(jù)連
接器和治理域。在這個(gè)域中,經(jīng)常集成多種方法和工具來幫助理解數(shù)據(jù)上下文和內(nèi)容。一旦確定了
數(shù)據(jù)的上下文和內(nèi)容,它們就被傳遞到上層進(jìn)行存儲。因此,大數(shù)據(jù)治理使用集成和元數(shù)據(jù)管理來
對數(shù)據(jù)的收集和控制施加管理規(guī)則。
(4)分布式數(shù)據(jù)存儲管理:在傳統(tǒng)方法中,高性能計(jì)算組件(如專用服務(wù)器)用于數(shù)據(jù)存儲和數(shù)據(jù)
復(fù)制。由于大數(shù)據(jù)環(huán)境中通常會產(chǎn)生和收集大量的數(shù)據(jù),這些高性能的專用服務(wù)器往往無法滿足大
數(shù)據(jù)帶來的性能要求。因此,該域旨在提供允許通過通常分布式架構(gòu)(例如動態(tài)可伸縮存儲管理
DSSM)來存儲和傳輸大量數(shù)據(jù)的方法。
(5)分布式數(shù)據(jù)處理管理:隨著社交媒體和基于傳感器的網(wǎng)絡(luò)應(yīng)用等新興應(yīng)用的快速增長,需要
對各種數(shù)據(jù)進(jìn)行持續(xù)處理。顯然,傳統(tǒng)的獨(dú)立解決方案不再適用于這些有時(shí)間限制的實(shí)時(shí)流程。分
布式數(shù)據(jù)處理管理域則為大數(shù)據(jù)處理提供了一個(gè)高效的框架,允許以合理且通??山邮艿臅r(shí)間線分
析大量數(shù)據(jù)。此類任務(wù)的典型平臺包括Spark、MapReduce和Hadoop等。
3.2.5.應(yīng)對新挑戰(zhàn)
由于各種支持?jǐn)?shù)字技術(shù)的格局發(fā)生了快速變化,大數(shù)據(jù)的定義也在不斷發(fā)展。越來越多的大數(shù)
據(jù)模型被引入,例如數(shù)量、多樣性、速度、真實(shí)性、有效性、價(jià)值、可變性、地點(diǎn)、詞匯和模糊
性。大數(shù)據(jù)的這些新挑戰(zhàn)通常要求提議的框架具有可擴(kuò)展性以應(yīng)對這些挑戰(zhàn)。一般來說,新的挑戰(zhàn)
通??梢苑譃槿齻€(gè)方面,即數(shù)據(jù)挑戰(zhàn)、流程挑戰(zhàn)和管理挑戰(zhàn)。尤其是數(shù)據(jù)挑戰(zhàn)與數(shù)據(jù)本身的特性有
關(guān);
流程挑戰(zhàn)通常與一組大數(shù)據(jù)處理技術(shù)相關(guān);
管理挑戰(zhàn)涵蓋所有隱私和安全問題。這三個(gè)組件相互關(guān)聯(lián),形成一個(gè)數(shù)據(jù)生命周期,如圖6所
ZJSo
第18頁共23頁
◎□u
圖6面臨新挑戰(zhàn)
4.網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理
大數(shù)據(jù)通常是通過不同的數(shù)據(jù)捕獲設(shè)備從多個(gè)來源收集,如物聯(lián)網(wǎng)和其他專業(yè)設(shè)備。其結(jié)果是
圍繞數(shù)據(jù)安全和隱私的關(guān)鍵問題,因?yàn)榇祟愒O(shè)備的設(shè)計(jì)通常沒有充分考慮數(shù)據(jù)安全。因此,隨著大
數(shù)據(jù)應(yīng)用的日益廣泛,網(wǎng)絡(luò)安全已成為填補(bǔ)此類安全空白的一個(gè)越來越重要和不可忽視的研究領(lǐng)
域。本節(jié)討論上一節(jié)介紹的大數(shù)據(jù)治理框架的實(shí)施,以支持在該領(lǐng)域安全和合乎道德地使用大數(shù)
據(jù)。
網(wǎng)絡(luò)安全是指保護(hù)計(jì)算機(jī)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施、運(yùn)行在基礎(chǔ)設(shè)施上的操作系統(tǒng)、軟件程序以及通過
基礎(chǔ)設(shè)施存儲或傳輸?shù)乃袛?shù)據(jù)免受數(shù)字攻擊和任何其他濫用的做法,如“網(wǎng)絡(luò)安全”一節(jié)所述。因
此,網(wǎng)絡(luò)安全涉及數(shù)字信息處理的硬件和軟件系統(tǒng)的范圍非常廣泛,其中網(wǎng)絡(luò)安全是最常見的方
面。此外,網(wǎng)絡(luò)入侵檢測是實(shí)現(xiàn)網(wǎng)絡(luò)安全最常用的手段。因此,在不失一般性的前提下,本文以網(wǎng)
絡(luò)安全為例,討論了所提出的大數(shù)據(jù)治理框架的實(shí)現(xiàn),如圖7所示。
第19頁共23頁
業(yè)務(wù)支撐平臺(中間件平臺)
處理層服務(wù)支撐網(wǎng)絡(luò)管理信息處理信息安全
平臺平臺平臺平臺
網(wǎng)絡(luò)層電信網(wǎng)廣電網(wǎng)其他網(wǎng)
(RF1D網(wǎng)絡(luò))(傳感器網(wǎng)絡(luò))
感知層(RFID標(biāo)簽
二維碼
M2M終端導(dǎo)航定位傳感器攝像頭
和讀寫器標(biāo)簽
圖7網(wǎng)絡(luò)安全大數(shù)據(jù)治理框架
4.1.規(guī)劃
網(wǎng)絡(luò)安全數(shù)據(jù)治理框架的實(shí)施需要仔細(xì)規(guī)劃,以滿足組織中與數(shù)據(jù)相關(guān)的戰(zhàn)略目標(biāo)。在這種情
況下,系統(tǒng)需要通過實(shí)施大數(shù)據(jù)網(wǎng)絡(luò)安全項(xiàng)目來實(shí)現(xiàn),以實(shí)現(xiàn)項(xiàng)目和治理目標(biāo),這是通過評估系統(tǒng)
的當(dāng)前環(huán)境和組織的關(guān)鍵績效指標(biāo)來確定的。如前所述,本文使用入侵檢測系統(tǒng)作為運(yùn)行實(shí)例來討
論所提出的方法。基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學(xué)二年級道德與法治上冊公共場合不趴欄桿課件
- 2026年英語能力測試商務(wù)英語閱讀理解模擬題
- 2026年會計(jì)基礎(chǔ)與財(cái)務(wù)管理知識模擬試題
- 2026貴州省林業(yè)局直屬事業(yè)單位招聘20人備考考試試題及答案解析
- 2026年河南應(yīng)用技術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題及答案詳細(xì)解析
- 2026年貴州盛華職業(yè)學(xué)院單招綜合素質(zhì)筆試參考題庫含詳細(xì)答案解析
- 2026年青島酒店管理職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年昭通市事業(yè)單位公開招聘工作人員(1169人)參考考試試題及答案解析
- 2026年南充電影工業(yè)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫及答案詳細(xì)解析
- 2026年西南交通大學(xué)希望學(xué)院單招綜合素質(zhì)筆試參考題庫含詳細(xì)答案解析
- 廣東省佛山市2024-2025學(xué)年高二上學(xué)期期末考試 語文 含解析
- 中藥材及中藥飲片知識培訓(xùn)
- 2024年臺州三門農(nóng)商銀行招聘筆試真題
- 高一政治必修1、必修2基礎(chǔ)知識必背資料
- 垃圾處理設(shè)備維修合同
- DB4114T 105-2019 黃河故道地區(qū)蘋果化學(xué)疏花疏果技術(shù)規(guī)程
- 如何高效向GPT提問
- JT-T-969-2015路面裂縫貼縫膠
- 無抗養(yǎng)殖模式可行性分析
- 《常見疾病康復(fù)》課程教學(xué)大綱
- 飼料廠HACCP計(jì)劃書
評論
0/150
提交評論