2023數(shù)據(jù)脫敏規(guī)程數(shù)據(jù)清洗、去標識化、匿名化_第1頁
2023數(shù)據(jù)脫敏規(guī)程數(shù)據(jù)清洗、去標識化、匿名化_第2頁
2023數(shù)據(jù)脫敏規(guī)程數(shù)據(jù)清洗、去標識化、匿名化_第3頁
2023數(shù)據(jù)脫敏規(guī)程數(shù)據(jù)清洗、去標識化、匿名化_第4頁
2023數(shù)據(jù)脫敏規(guī)程數(shù)據(jù)清洗、去標識化、匿名化_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)脫敏規(guī)程

數(shù)據(jù)清洗、去標識化、匿名化

2023.11

目錄

一、處理目標及相互關(guān)系................................................1

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障....................................1

(二)去標識化是數(shù)據(jù)脫敏的關(guān)鍵....................................1

(三)匿名化是去標識化的強化......................................2

二、數(shù)據(jù)處理原則......................................................4

(一)合法合規(guī)....................................................4

(二)安全優(yōu)先....................................................4

(三)平衡效用....................................................4

(四)技管結(jié)合....................................................4

(五)有效溯源....................................................5

三、數(shù)據(jù)清洗規(guī)程......................................................5

(一)處理目的....................................................5

(二)處理流程....................................................6

(三)常見技術(shù)方法................................................9

四、數(shù)據(jù)去標識化規(guī)程.................................................12

(一)處理目的....................................................12

(二)處理流程....................................................13

(三)常見技術(shù)方法...............................................18

五、數(shù)據(jù)匿名化規(guī)程...................................................21

(一)處理目的...................................................21

(二)處理流程...................................................21

(三)常見技術(shù)方法...............................................25

六、數(shù)據(jù)處理環(huán)境要求.................................................29

(一)管理制度要求...............................................29

(二)技術(shù)能力要求...............................................30

(三)人員能力要求...............................................30

(四)過程控制要求...............................................30

(五)事故管理要求...............................................31

附件一:常見直接標識符和準標識符示例................................32

附件二:常見標識符的去標識化或匿名化參考............................36

附件三:部分數(shù)據(jù)處理技術(shù)方法應(yīng)用建議................................40

參考資料.............................................................43

表目錄

表1數(shù)據(jù)清洗、去標識化、匿名化處理的技術(shù)特點和差異.................3

一、處理目標及相互關(guān)系

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障

數(shù)據(jù)清洗是運用一定方法修正識別到的數(shù)據(jù)問題,實現(xiàn)數(shù)據(jù)的規(guī)范

性、完整性、一致性、準確性和可溯源性,提高數(shù)據(jù)質(zhì)量的過程。數(shù)據(jù)

清洗旨在滿足數(shù)據(jù)的可用性要求,是數(shù)據(jù)資源預(yù)處理的第一步,也是保

證后續(xù)處理結(jié)果準確、科學、有效的重要一環(huán)。數(shù)據(jù)清洗作為數(shù)據(jù)后續(xù)

開發(fā)利用的基礎(chǔ),是數(shù)據(jù)去標識化和匿名化處理的前置步驟。

(二)去標識化是數(shù)據(jù)脫敏的關(guān)鍵

數(shù)據(jù)去標識化是指數(shù)據(jù)經(jīng)過處理,使其在不借助額外信息的情況下

無法識別特定自然人或相關(guān)標識符的過程。數(shù)據(jù)去標識化處理強調(diào)標識

符的“不可識別性”,即對數(shù)據(jù)內(nèi)含的相關(guān)敏感信息內(nèi)容進行脫敏處理,

通過去除、替換、模糊等方法,達到不借助額外信息的情況下無法識別

特定自然人或相關(guān)標識符的效果。

數(shù)據(jù)去標識化與在先的標識形成過程分屬數(shù)據(jù)處理的不同階段

及場景。標識形成是產(chǎn)生數(shù)據(jù)的過程,使得被標識對象據(jù)此可以被組織

進行有效管理和開發(fā)利用。數(shù)據(jù)去標識化是標識數(shù)據(jù)產(chǎn)生后的加工處

理過程,旨在提升標識信息的安全防護水平,確保敏感的標識內(nèi)容不

被未經(jīng)授權(quán)的主體獲取和利用。去標識化處理是強化標識數(shù)據(jù)安全性

的重要保障。例如,制造業(yè)企業(yè)通過對產(chǎn)品、零部件、設(shè)備進行標識,

形成了可精準定位產(chǎn)品和設(shè)備的數(shù)據(jù)資源,在委托外部第三方技術(shù)開

發(fā)商進行相關(guān)應(yīng)用系統(tǒng)開發(fā)時,需要對含有敏感內(nèi)容或涉及商業(yè)秘密

4

的數(shù)據(jù)進行去標識化處理。

數(shù)據(jù)去標識化處理暗含了相關(guān)標識符具有“復原”的可能,去標

識化無法單獨實現(xiàn)匿名化的法律效力。例如,對個人信息進行去標識

化處理后的數(shù)據(jù),仍屬于個人信息范疇。

(三)匿名化是去標識化的強化

數(shù)據(jù)匿名化是指數(shù)據(jù)經(jīng)過處理,無法識別特定自然人或相關(guān)標識符

且不能復原的過程。數(shù)據(jù)匿名化處理在強調(diào)標識符的“不可識別性”

基礎(chǔ)上,要求標識符同時滿足“難以復原性”標準,是數(shù)據(jù)去標識化的

進一步處理,即數(shù)據(jù)去標識化后應(yīng)用相關(guān)技術(shù)使相關(guān)標識符難以復原的

過程。經(jīng)匿名化處理后數(shù)據(jù)的初始效用將受到較大程度的改變。

5

與數(shù)據(jù)去標識化相比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信

息也難以識別特定自然人和被處理的標識符。例如,對個人信息進行

匿名化處理后的數(shù)據(jù),不再屬于個人信息范疇。但匿名化處理僅是描

述應(yīng)用匿名化技術(shù)的過程,并非描述數(shù)據(jù)達到絕對匿名化的狀態(tài),完

滿、絕對的不可復原狀態(tài)無法100%確定。

表1數(shù)據(jù)清洗、去標識化、匿名化處理的技術(shù)特點和差異

加工后數(shù)據(jù)改造程度數(shù)據(jù)有用性數(shù)據(jù)安全性

(相對原始數(shù)據(jù))(針對個體記錄)(脫敏程度)

清洗后數(shù)據(jù)低高

(單獨可識別)

去標識化數(shù)據(jù)中中(不借助額外信息不可

識別)

匿名化數(shù)據(jù)高低(借助額外信息也難以

復原的不可識別)

來源:中國信息通信研究院

去標識化技術(shù)和匿名化技術(shù)沒有嚴格界分,二者核心都是通過技

術(shù)手段對標識信息進行脫敏處理,實現(xiàn)對敏感數(shù)據(jù)內(nèi)容的保護,實踐中

兩類技術(shù)通??梢越M合使用實現(xiàn)預(yù)期處理效果。本報告根據(jù)抗重新識

別的風險能力大小和對敏感內(nèi)容安全防護程度的差異,將相關(guān)技術(shù)劃

分為去標識化技術(shù)和匿名化技術(shù)。仍保留原始數(shù)據(jù)個體顆粒度的,

納入去標識化技術(shù)方法范疇;不再保留原始數(shù)據(jù)個體顆粒度,或原始

數(shù)據(jù)記錄的真實性已受到顯著減損,或原始數(shù)據(jù)記錄不對外披露的,

納入匿名化技術(shù)方法范疇。

6

二、數(shù)據(jù)處理原則

(一)合法合規(guī)

組織開展數(shù)據(jù)清洗、去標識化和匿名化處理,應(yīng)滿足我國法律、

法規(guī)、規(guī)章和標準規(guī)范對數(shù)據(jù)安全和個人信息保護的有關(guān)規(guī)定,不得不

當損害國家、社會和第三方組織及個人的合法正當權(quán)益。

(二)安全優(yōu)先

組織應(yīng)采取相應(yīng)的管理和技術(shù)措施,保證數(shù)據(jù)加工處理過程的安

全性。數(shù)據(jù)的安全性考慮是組織開展數(shù)據(jù)去標識化、匿名化處理活動

的首要目的,以降低數(shù)據(jù)在后續(xù)流通、應(yīng)用環(huán)節(jié)的安全風險,降低數(shù)

據(jù)安全事故發(fā)生概宓。

(三)平衡效用

組織應(yīng)根據(jù)業(yè)務(wù)目標和安全保護要求,面向場景化應(yīng)用需求,選

擇恰當?shù)那逑?、去標識化和匿名化處理路徑和技術(shù),在確保安全的前

提下,強調(diào)數(shù)據(jù)質(zhì)量要求,盡可能滿足預(yù)期效用,促進數(shù)據(jù)安全性和

可用性的有效平衡。

(四)技管結(jié)合

組織應(yīng)綜合利用技術(shù)和管理兩方面措施實現(xiàn)數(shù)據(jù)處理的最佳效

果,根據(jù)工作目標和數(shù)據(jù)安全要求制定適當?shù)牟呗裕x擇合適的模型

和技術(shù),建立完善的管理架構(gòu)、操作權(quán)限和責任機制,將技術(shù)和管理

措施嵌入數(shù)據(jù)清洗、去標識化、匿名化處理全流程,并定期跟蹤評估

和持續(xù)改進。

7

(五)有效溯源

組織應(yīng)明確各環(huán)節(jié)的數(shù)據(jù)處理權(quán)限和流程,對數(shù)據(jù)清洗、去標識

化、匿名化設(shè)置訪問控制程序,采取措施清晰記錄數(shù)據(jù)處理過程的細

節(jié)、使用的參數(shù)和控制措施,及時發(fā)現(xiàn)已經(jīng)出現(xiàn)或可能出現(xiàn)的偏差或

不當操作,支撐后續(xù)對數(shù)據(jù)處理過程進行維護、審計和追溯。

三、數(shù)據(jù)清洗規(guī)程

(一)處理目的

組織實施數(shù)據(jù)清洗活動,應(yīng)保證清洗加工過程和輸出結(jié)果符合以

下要求:

1.規(guī)范性

數(shù)據(jù)來源合法,數(shù)據(jù)的格式、質(zhì)量及存儲標準應(yīng)統(tǒng)一,應(yīng)使用相

同度量單位描述同一場景下的同類數(shù)據(jù),滿足數(shù)據(jù)互聯(lián)互通要求,不

存在空值、無效值,響應(yīng)依據(jù)規(guī)范標準的各種查詢和各種計算。

2.準確性

應(yīng)對數(shù)據(jù)所指向的內(nèi)容客觀、真實、準確描述,可對清洗前后的

數(shù)據(jù)進行內(nèi)外部比對校驗,并對具有時效要求的數(shù)據(jù)根據(jù)時間特性及

時更新,確保清洗加工不造成數(shù)據(jù)失真、錯漏。

3.完整性

清洗后的數(shù)據(jù)應(yīng)保證數(shù)據(jù)的連續(xù)性、完整性,源數(shù)據(jù)應(yīng)在源頭或

備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復值。

4.一致性

8

各字段內(nèi)的數(shù)據(jù)應(yīng)與字段描述一致,同一個數(shù)據(jù)在同一時刻在不

同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)保持一致。

5.可溯源性

應(yīng)在數(shù)據(jù)清洗轉(zhuǎn)換前對原始數(shù)據(jù)進行備份,對清洗過程所使用的

方法、參數(shù)和路徑進行記錄,保證原始數(shù)據(jù)可溯源,便于后續(xù)查證或

重新使用。

(二)處理流程

數(shù)據(jù)清洗的流程通常包括抽取清洗對象、明確清洗規(guī)則、標識錯

誤數(shù)據(jù)、數(shù)據(jù)修正處理、數(shù)據(jù)轉(zhuǎn)換檢驗、評估清洗結(jié)果六個步驟。

1.抽取清洗對象

(1)明確清洗對象

選取需要進行清洗處理的數(shù)據(jù),明確清洗的數(shù)據(jù)范圍、類型、性

質(zhì)、體量、內(nèi)容、關(guān)系、質(zhì)量等信息,全面分析清洗標的的情況,對

清洗數(shù)據(jù)進行分類分級。

(2)對清洗對象進行抽取

清洗對象的抽取應(yīng)當允許對結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等不同類型數(shù)

據(jù)進行抽取,包括對數(shù)據(jù)的全量抽取和增量抽取,數(shù)據(jù)抽取后的表結(jié)

構(gòu)應(yīng)與抽取來源的表結(jié)構(gòu)保持一致。

2.定義清洗規(guī)則

(1)確定清洗效果和目標

根據(jù)清洗的必要性,分析對應(yīng)數(shù)據(jù)資源的特點和清洗復雜程度,

9

結(jié)合業(yè)務(wù)要求或用戶和其他相關(guān)方的需求,明確清洗的程度和需要達

到的質(zhì)量效果。

(2)確定清洗邏輯規(guī)則

結(jié)合所抽取的清洗對象的數(shù)據(jù)特點,以需求為導向,以應(yīng)用為目

標,以數(shù)據(jù)的可用性為評價標準,明確各數(shù)據(jù)錯誤類型的判斷標準及

相應(yīng)的修正處理方式。

3.標識錯誤數(shù)據(jù)

(1)篩選錯誤數(shù)據(jù)

分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問題和對應(yīng)的數(shù)據(jù)。按照常見

錯誤數(shù)據(jù)的類型,對數(shù)據(jù)問題進行分類,針對性進行錯誤標識,并支

持對已標識的錯誤數(shù)據(jù)進行查詢定位。可采用統(tǒng)計學、關(guān)聯(lián)規(guī)則、業(yè)

務(wù)區(qū)分等方法來對目標數(shù)據(jù)進行錯誤檢測,識別出數(shù)據(jù)的錯誤類型并

進行標識例如,通過使用統(tǒng)計學方法(例如均值、標準差、范圍或

分位數(shù))對數(shù)據(jù)進行分析和可視化,發(fā)現(xiàn)異常值或離群值,從而標識

錯誤數(shù)據(jù)。

(2)常見錯誤類型

殘缺數(shù)據(jù):數(shù)據(jù)中缺失一些記錄,或一條記錄中缺失一些值,或

兩者都缺失。

偏差數(shù)據(jù):數(shù)據(jù)沒有嚴格按照要求記錄,包括格式內(nèi)容錯誤、邏

輯錯誤、不合規(guī)數(shù)據(jù)等。

重復數(shù)據(jù):數(shù)據(jù)中出現(xiàn)多條相同記錄,或多條記錄反映同一內(nèi)容,

10

通常發(fā)生在數(shù)據(jù)來自不同來源、數(shù)據(jù)多次采集、瑕疵數(shù)據(jù)更正備份等

情形。

其他錯誤:數(shù)據(jù)未能準確反映所描述的對象的其他情形,如非結(jié)

構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、無意義數(shù)據(jù)、不相關(guān)數(shù)據(jù)等。

4.數(shù)據(jù)修正處理

對已標識的殘缺數(shù)據(jù)、偏差數(shù)據(jù)、重復數(shù)據(jù)和其他錯誤數(shù)據(jù)分別采

用針對性的方法和工具進行處理。常見的數(shù)據(jù)清洗工具包括軟件工具、

腳本等類型。選擇清洗方法和策略時,應(yīng)根據(jù)清洗目標和業(yè)務(wù)需要,結(jié)

合數(shù)據(jù)錯誤類型,采取刪除、填充、更換等不同的方式處理,具體

可參考本節(jié)“(三)常見技術(shù)方法

5.數(shù)據(jù)轉(zhuǎn)換檢驗

(1)錯誤數(shù)據(jù)轉(zhuǎn)換

對錯誤數(shù)據(jù)的格式、信息代碼、值的沖突進行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換前

應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。

(2)轉(zhuǎn)換結(jié)果檢驗

一是內(nèi)容檢驗,即對轉(zhuǎn)換后數(shù)據(jù)內(nèi)容的完整性、全面性進行檢驗,

包括非空檢驗和數(shù)據(jù)量檢驗。

二是格式檢驗,即對照數(shù)據(jù)格式樣例或相關(guān)標準對轉(zhuǎn)換后數(shù)據(jù)格

式的規(guī)范性、一致性進行檢驗。

三是邏輯檢驗,即結(jié)合相關(guān)聯(lián)數(shù)據(jù)對轉(zhuǎn)換后數(shù)據(jù)邏輯是否符合預(yù)先

設(shè)定的范圍、區(qū)間、大小、數(shù)值關(guān)系等規(guī)則的約束性要求進行檢驗。

it

四是合規(guī)檢驗,即結(jié)合業(yè)務(wù)場景的合規(guī)要求對轉(zhuǎn)換后數(shù)據(jù)內(nèi)容是

否符合法律法規(guī)和強制性標準的要求進行檢驗。

6.評估清洗結(jié)果

數(shù)據(jù)清洗后及時評價輸出結(jié)果是否符合事先設(shè)定清洗規(guī)則和規(guī)

范性、準確性、完整性、一致性、可溯源性等目標要求,并從業(yè)務(wù)角度

評估清洗后數(shù)據(jù)的有用性,判斷是否可以支撐后續(xù)加工處理活動。

(三)常見技術(shù)方法

1.殘缺數(shù)據(jù)處理

組織應(yīng)當按照所需處理數(shù)據(jù)的字段缺失比例和重要性,采取差異

化的策略進行處理。重要性高,缺失率低的字段,可以通過計算結(jié)果

填充并進行核驗;重要性高,缺失率高的字段,重新采集獲取或通過其

他渠道取數(shù)補全;重要性低,缺失率低的字段,不做處理或簡單填充;

重要性低,缺失率高的字段,可以選擇刪除該字段。

(1)刪除缺失值

當樣本數(shù)量充足,且出現(xiàn)缺失值的樣本占比相對較小時,可以備

份當前數(shù)據(jù)后,直接刪除后期加工處理不需要的字段和缺失值。

(2)填充缺失內(nèi)容

存在缺失率較低但相對重要的數(shù)據(jù)項時,可以通過計算填充并進

行核驗的方式進行補全,包括不同指標的計算結(jié)果填充和同一指標的

計算結(jié)果填充。

不同指標的計算結(jié)果填充:即通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)

12

系,采取相應(yīng)的計算方法得到缺失內(nèi)容。包括熱卡填補法、最近距離

決定填補法、回歸填補法、多重填補方法、K-最近鄰法、有序最近鄰

法等。例如,數(shù)據(jù)中年齡字段缺失,可以從公民身份證號中提取年齡

字段。

同一指標的計算結(jié)果填充:即通過對同一指標列的數(shù)據(jù)采取均值、

中位數(shù)、眾數(shù)等方式進行計算,將相應(yīng)結(jié)果進行填充,多用于數(shù)值型數(shù)

據(jù)。例如,某一記錄的身高數(shù)據(jù)缺失,可以使用該字段的均值進行填充。

(3)重新采集數(shù)據(jù)補全

存在缺失率較高且相對重要的數(shù)據(jù)項時,可以通過線下補充收集、

業(yè)務(wù)知識或經(jīng)驗推測、新增抽取其他數(shù)據(jù)源數(shù)據(jù)等方式,進行關(guān)聯(lián)對比

后填補。

2.偏差(異常)數(shù)據(jù)處理

組織應(yīng)當對未符合規(guī)范要求,存在格式、邏輯及內(nèi)容不匹配等方

面偏差的數(shù)據(jù)進行處理。

(1)格式不規(guī)范數(shù)據(jù)

對存在格式不規(guī)范等問題的數(shù)據(jù)進行處理,包括全、半角處理和

無效字符處理。按照事先定義的規(guī)則進行全、半角符號統(tǒng)一,以半自動

校驗結(jié)合半人工方式發(fā)現(xiàn)錯誤字符,進行自動化修正或人工修正。

(2)邏輯沖突數(shù)據(jù)

對存在不符合邏輯約束要求、相互間存在沖突的數(shù)據(jù)進行處理,

13

可通過直接推理、關(guān)聯(lián)修正和邏輯重構(gòu)等方式進行,并再次進行校驗。直

接推理:了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接處

理簡單邏輯錯誤的數(shù)據(jù)。

關(guān)聯(lián)修正:借助分箱、聚類、回歸等方法識別邏輯錯誤數(shù)據(jù),通

過相互驗證的方法修正矛盾內(nèi)容。

邏輯重構(gòu):對于重要性較高的不合理數(shù)據(jù)進行人工干預(yù),或重新

采集數(shù)據(jù),引入更多數(shù)據(jù)源進行邏輯的重新梳理并再次進行校驗。

(3)內(nèi)容不匹配數(shù)據(jù)

對存在噪聲數(shù)據(jù)、超出明確取值范圍,以及數(shù)據(jù)中存在敏感信息

或內(nèi)容不符合要求等數(shù)據(jù)進行處理。通過設(shè)定判定規(guī)則,借助自動化

手段判斷數(shù)據(jù)是否在規(guī)則范圍內(nèi),不在規(guī)則范圍內(nèi)的,進行警告及人

工處理。

噪聲數(shù)據(jù):對噪聲值進行平滑處理,或在不影響數(shù)據(jù)結(jié)構(gòu)和后續(xù)

使用情況下,將噪聲數(shù)據(jù)進行刪除處理。

離群值數(shù)據(jù):判斷超出明確取值范圍數(shù)據(jù)的來源是否可靠,數(shù)據(jù)

的存在是否合理,合理的數(shù)據(jù)予以保留,不合理數(shù)據(jù)予以調(diào)整。

內(nèi)容不對應(yīng)數(shù)據(jù):識別內(nèi)容與字段要求不匹配的問題類型,如人

工填寫錯誤、導入數(shù)據(jù)時沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,通過

關(guān)聯(lián)、修正或重新采集等方式匹配相應(yīng)字段進行填補。

3.重復數(shù)據(jù)處理

將具有相同含義的數(shù)據(jù)判定為重復數(shù)據(jù),包括相同數(shù)據(jù)和相似數(shù)

據(jù)。

14

相同數(shù)據(jù):形式、含義和內(nèi)容均相同的數(shù)據(jù),根據(jù)來源權(quán)威性和

應(yīng)用場合,選擇最恰當渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度知完

整性的情況下進行合并處理。

相似數(shù)據(jù):識別相似數(shù)據(jù)的各自含義,判斷數(shù)據(jù)的實質(zhì)含義上是

否存在差異,實質(zhì)含義相同的數(shù)據(jù)按照相同數(shù)據(jù)進行處理,實質(zhì)含義

有差異的數(shù)據(jù),不能界定為重復數(shù)據(jù),應(yīng)分別保留。

4.其他錯誤數(shù)據(jù)處理

針對數(shù)據(jù)未能準確反映所描述的對象的其他情形,可以采取以下

通用方式進行處理:

將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);將無意義數(shù)據(jù)、

不相關(guān)數(shù)據(jù)在進行必要性和相關(guān)性評估后進行刪除,提升后續(xù)數(shù)據(jù)處

理效率;對仍存在問題未處理的錯誤數(shù)據(jù)存入問題數(shù)據(jù)庫,便于后續(xù)查

證或重新使用。

四、數(shù)據(jù)去標識化規(guī)程

(一)處理目的

組織實施數(shù)據(jù)去標識化,應(yīng)當確保經(jīng)過處理的數(shù)據(jù)達到以下效果:

1.標識不可識別

對數(shù)據(jù)中的直接標識符和準標識符進行處理,避免未經(jīng)授權(quán)的主

體無需借助其他額外信息,直接根據(jù)這些標識內(nèi)容便可以識別出原始

信息主體或相關(guān)標識符。

2.控制被識別風險

15

將去標識化后的數(shù)據(jù)可能被未經(jīng)授權(quán)的主體再次識別的風險控

制在可接受的范圍內(nèi),確保標識符暴露的風險不會因數(shù)據(jù)接收方之間

的潛在串通或新數(shù)據(jù)的增加而增加。

3.兼顧數(shù)據(jù)效用目標

有效平衡數(shù)據(jù)的安全性和可用性,選擇合適的去標識化模型和技術(shù),

確保去標識化后的數(shù)據(jù)盡量滿足數(shù)據(jù)開發(fā)利用的預(yù)期目的和效用,在數(shù)

據(jù)安全前提下最大發(fā)揮去標識化數(shù)據(jù)應(yīng)用價值。

(二)處理流程

數(shù)據(jù)去標識化的流程通常包括確定去標識化對象、制定去標識化

目標和計劃、識別相關(guān)標識符、對標識符進行處理、驗證審核處理結(jié)

果、評估重新標識風險六個步驟。

1.確定去標識化對象

組織對于自身令法取得、合法持有,并實際控制的數(shù)據(jù),應(yīng)當基

于外部和內(nèi)部的多方面因素的考量確定需要進行去標識處理的數(shù)據(jù)

范圍。

(1)法規(guī)標準要求

根據(jù)國家、地區(qū)或行業(yè)的相關(guān)政策、法律、法規(guī)等的強制性規(guī)定,

判斷待收集、存儲、使用、加工或向第三方提供的數(shù)據(jù)是否涉及去標識

化的相關(guān)要求。例如,《個人信息保護法》第51條要求,個人信息處理

者應(yīng)當采取加密、去標識化等安全技術(shù)措施,防止未經(jīng)授權(quán)的訪問以及

個人信息泄露、篡改、丟失。

16

(2)組織策略要求

根據(jù)自身數(shù)據(jù)管理要求,或者按照與相關(guān)合作方約定,判斷數(shù)據(jù)

進行內(nèi)外部應(yīng)用時是否需要進行去標識化處理。例如,將個人信息對

外展示時,參考《GB/T35273—2020信息安全技術(shù)個人信息安全規(guī)

范》,涉及通過界面展示個人信息的(如顯示屏幕、紙面),個人信息

控制者宜對需展示的個人信息采取去標識化處理等措施,降低個人信

息在展示環(huán)節(jié)的泄露風險。

(3)數(shù)據(jù)來源方要求

根據(jù)數(shù)據(jù)采集時是否存在對數(shù)據(jù)來源方等作出了去標識化的相

關(guān)承諾或約定,判斷對數(shù)據(jù)進行加工或向第三方提供時是否需要進行去

標識化處理。例如,組織已在產(chǎn)品隱私政策中聲明,將用戶個人信息

用于對外提供學術(shù)研究或描述的結(jié)果時,承諾對結(jié)果中所包含的個人

信息進行去標識化處理。

2.制定去標識化目標

均衡數(shù)據(jù)安全性和可用性兩方面需求,確定數(shù)據(jù)去標識化處理需

要達到的效果。

(1)明確標識被識別風險的控制要求

分析數(shù)據(jù)的來源、性質(zhì)、類型,梳理待處理數(shù)據(jù)是否涉及法律法

規(guī)要求和相關(guān)承諾,結(jié)合去標識化后數(shù)據(jù)的主要用途和使用范圍,考

慮可能采用的去標識化模型和技術(shù)的應(yīng)用方向及能力,綜合評價組織

對相關(guān)標識符和準標識符被重新識別的風險的不可接受程度。

(2)明確滿足數(shù)據(jù)可用性的最低要求

17

結(jié)合數(shù)據(jù)去標識化后的用途,評估相關(guān)技術(shù)方法的應(yīng)用對初始數(shù)

據(jù)的改造程度,分析數(shù)據(jù)去標識化后對業(yè)務(wù)活動的可能影響,提出數(shù)

據(jù)有用性的最低要求。

3.識別相關(guān)標識符

根據(jù)去標識化的目標,針對需要去標識化的數(shù)據(jù),識別出需要進

行處理的直接標識符和準標識符。組織可以通過以下方法識別:

(1)查表識別

組織通過預(yù)先建立標識符元數(shù)據(jù)索引表,待具體識別時,將待識

別數(shù)據(jù)的各個屬性名稱或字段名稱,逐個與元數(shù)據(jù)表中的標識符進行

比對。標識符元數(shù)據(jù)索引表應(yīng)當包括標識符名稱、含義、格式要求、

常用數(shù)據(jù)類型、常用字段名稱等信息。查表識別法適用于數(shù)據(jù)集格式和

屬性相對明確的去標識化場景。

(2)規(guī)則判定

組織通過總結(jié)可能涉及直接標識符和準標識符的數(shù)據(jù)格式和規(guī)

律,確立相關(guān)標識符識別規(guī)則,然后通過運行軟件程序,自動化地從

數(shù)據(jù)集中識別出標識數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的標識識別均可適用規(guī)則判定法c如

通過建立身份證號識別規(guī)則,識別非結(jié)構(gòu)化存儲的司法判決書中的身

份證號。

(3)人工分析

在必要場景下,組織通過人工發(fā)現(xiàn)和瑜定數(shù)據(jù)集中的直接標識符

18

和準標識符。人工分析法適用性較強,當數(shù)據(jù)集中有特別含義的數(shù)據(jù),

或數(shù)據(jù)具有特殊值、容易引起注意的值,或者數(shù)據(jù)集中的多個不同數(shù)據(jù)

子集之間存在關(guān)聯(lián)、引用關(guān)系時,人工分析可以針對性地識別和分析。

4.對標識符進行處理

對數(shù)據(jù)集進行去標識化前,應(yīng)當先通過數(shù)據(jù)清洗,形成規(guī)范化或

滿足特定格式要求的數(shù)據(jù)。在此基礎(chǔ)上,針對不同特征和處理要求的

數(shù)據(jù)類型,考慮去標識化的影響,在可接受的被重新識別風險范圍內(nèi)

盡量滿足數(shù)據(jù)可用性的最低要求,選取有效的去標識化技術(shù)方法而模

型進行處理。具體可參考本節(jié)“(三)常見技術(shù)方法”。

技術(shù)選擇需要考量相關(guān)因素包括:數(shù)據(jù)是否可以刪除,是否需要保

留至少若干個類別的數(shù)據(jù)項;去標識后的數(shù)據(jù)是否需要保持唯一性、可

逆性,是否需要保持原有的數(shù)據(jù)格式、表達順序、統(tǒng)計特征等;是否可

以對屬性值實施隨機噪聲添加;以及運用該去標識化技術(shù)的成本考量、

可承受的重新標識風險范圍和業(yè)務(wù)影響等。

5.驗證數(shù)據(jù)處理結(jié)果

對數(shù)據(jù)去標識化結(jié)果進行驗證,確保處理后的數(shù)據(jù)在安全性和可

用性方面符合預(yù)設(shè)要求。

(1)安全性驗證

驗證經(jīng)去標識化處理后數(shù)據(jù)的安全性,確保所生成數(shù)據(jù)被重新識

別的風險在組織預(yù)設(shè)的可接受風險范圍內(nèi)。組織可以通過檢查生成的

數(shù)據(jù)結(jié)果、檢查去標識化過程及記錄、開展入侵者測試等方式驗證去

19

標識化數(shù)據(jù)的安全性。

(2)有用性驗證

分析去標識化后的數(shù)據(jù)對于預(yù)期應(yīng)用和業(yè)務(wù)的影響,判斷處理后

數(shù)據(jù)的質(zhì)量是否還能滿足預(yù)期業(yè)務(wù)用途。組織可以對原始數(shù)據(jù)和去標

識化后數(shù)據(jù)分別執(zhí)行統(tǒng)計計算,并對計算結(jié)果進行比較,判斷去標識

化后的計算結(jié)果是否仍可接受。

6.評估被識別風險

對去標識化后的數(shù)據(jù)進行標識符被識別的風險進行評估,與預(yù)期

可接受的風險閾值進行比較。若風險超出閾值,需繼續(xù)進行調(diào)整直到

滿足要求。標識符被識別風險評估常見的流程包括評估準備、定性評

估、定量評估、形成評估結(jié)論等環(huán)節(jié),組織可借鑒《GB/T42460-2023

信息安全技術(shù)個人信息去標識化效果評估指南》進行流程設(shè)計。

按照標識符被識別的風險從高到低,可以將相應(yīng)的風險閾值劃分

為高風險、較高風險、可控風險、低風險4個等級。

高風險(4級):能直接識別主體或敏感屬性的數(shù)據(jù),即包含直

接標識符的數(shù)據(jù);較高風險(3級):僅消除直接標識符的數(shù)據(jù),即

刪除了直接標識符,但仍包含準標識符的數(shù)據(jù);可控風險(2級):

消除直接標識符和準標識符的數(shù)據(jù),即對直接標識符和準標識符均進

行了處理,在不借助額外信息的情況下,無法識別或關(guān)聯(lián)識別個人信

息主體或特定標識內(nèi)容;低風險(1級),不再保留個體顆粒度的聚

合數(shù)據(jù),如總計數(shù)、最大值、最小值、平均值等。

20

(三)常見技術(shù)方法

本報告將仍保留原始數(shù)據(jù)個體顆粒度的技術(shù)類型,納入去標識化技

術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全技術(shù)

個人信息去標識化指南》。組織根據(jù)需要選擇相應(yīng)的去標識化技術(shù),常見

的去標識化技術(shù)包括數(shù)據(jù)抽樣技術(shù)、加解密技術(shù)、假名化技術(shù)、抑制遮

蓋技術(shù)等,不同技術(shù)之間可以結(jié)合使用。

1.數(shù)據(jù)抽樣技術(shù)

數(shù)據(jù)抽樣是通過選取數(shù)據(jù)集中有代表性的子集來對原始數(shù)據(jù)集

進行分析和評估。對數(shù)據(jù)集進行隨機抽樣能夠增加識別出特定標識符

的不確定性,可以作為后續(xù)應(yīng)用其他技術(shù)強化去標識化效果的初步處理。

數(shù)據(jù)抽樣的方式較多,需要根據(jù)數(shù)據(jù)集的特點和預(yù)期的使用場景

進行選擇,包括隨機抽樣、等距抽樣、分層抽樣、整群抽樣等。

2.加解密技術(shù)

加解密技術(shù)是指利用算法對數(shù)據(jù)進行加密和解密操作,以密碼學

為基礎(chǔ)構(gòu)建加密函數(shù),輸入敏感數(shù)據(jù)和相關(guān)標識符,輸出處理后的加

密隱藏數(shù)據(jù)。同時在有需要的時候,可以對數(shù)據(jù)進行解密操作,即在

擁有密鑰的條件下,可以對標識符進行復原。常見的數(shù)據(jù)加密方法包

括確定性加密、保序加密、保留格式加密、同態(tài)加密等。

確定性加密:指通過確定性加密結(jié)果替代數(shù)據(jù)中的標識符值°確

定性加密是一種非隨機加密方法,可以保證數(shù)據(jù)真實可用,一定程度

上保證數(shù)據(jù)在統(tǒng)計處理、隱私防挖掘方面的有用性,也可以生成用于

21

精準匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對確定性加密結(jié)果的分析

多用于檢查數(shù)據(jù)值是否相等。

保序加密:指通過保序加密值替代微數(shù)據(jù)中的標識符值。保序加

密同樣是一種非隨機加密方法,密文的排序與明文的排序相同。對保

序加密結(jié)果的分析多用于檢查數(shù)據(jù)是否相等和排序關(guān)系比較。

保留格式加密:指加密過程要求密文與明文具有相同的格式,可

用保留格式加密值替代微數(shù)據(jù)中的標識符值。保留格式加密可以保證

加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長度,有助于在不需要修

改應(yīng)用系統(tǒng)匹配格式的情況下實現(xiàn)去標識化。

同態(tài)加密:指將原始數(shù)據(jù)加密后,對得到的密文進行特定的運算,

得到的計算結(jié)果等價于基于原始明文數(shù)據(jù)直接進行相同計算所得到

的數(shù)據(jù)結(jié)果。同態(tài)加密是一種隨機加密,對經(jīng)過同態(tài)加密的數(shù)據(jù)進行處

理得到相同的輸出結(jié)果,處理過程不會泄露任何原始內(nèi)容。

3.假名化技術(shù)

假名化技術(shù)是指使用虛構(gòu)的名稱或數(shù)值,替換原始數(shù)據(jù)的直接標識

符或準標識符的過程。假名化技術(shù)保留了原始數(shù)據(jù)的唯一性特點,也

被稱為編碼。不同數(shù)據(jù)在假名化處理后依然可以進行關(guān)聯(lián),并且不會泄

露原始標識符。當需要唯一區(qū)分數(shù)據(jù)值并且沒有保留關(guān)于原始屬性的直

接標識符的字符或任何其他隱含信息時,可以使用假名化技術(shù)。假名可

以獨立生成或借助密鑰編碼生成。

獨立生成假名:即不依賴于被替代的原始值,生成獨立于標識符

的假名創(chuàng)建技術(shù),如使用隨機值代替標識符原始值。組織需要創(chuàng)建假

22

名與原始標識的分配表,并采取適當?shù)募夹g(shù)與管理措施限制和控制對

該分配表的訪問。

基于密鑰的假名編碼:即基于密碼技術(shù)的標識符派生假名創(chuàng)建技

術(shù),通過對屬性值采用加密或散列等密碼技術(shù)生成假名,也被稱為對

標識符進行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰

及對應(yīng)的算法解密。

4.抑制遮蓋技術(shù)

抑制遮蓋技術(shù)即對需要進行處理的標識符或數(shù)據(jù)項進行刪除或

屏蔽。抑制技術(shù)主要適用于分類數(shù)據(jù),可用于數(shù)值與非數(shù)值數(shù)據(jù)屬性,

執(zhí)行相對容易,通過直接刪除或屏蔽降低關(guān)聯(lián)識別的風險,且可以保持

數(shù)據(jù)的真實性,但會造成一定程度的信息缺失。但過多的抑制會影響數(shù)

據(jù)的效用,為保證數(shù)據(jù)的可用性,組織需要對抑制的數(shù)據(jù)項數(shù)量和范圍

設(shè)定上限。抑制遮蓋需要是永久性的,而不僅僅是“隱藏”功能,如果

底層數(shù)據(jù)仍然可訪問或編輯,則未達到抑制遮蓋效果。根據(jù)抑制方式的

差異,抑制遮蓋技犬可以分為直接刪除或字符掩碼屏蔽。

直接刪除:即從數(shù)據(jù)集中直接刪除相關(guān)標識符,或刪除標識符中

的部分屬性或內(nèi)容,或者刪除涉及特定屬性標識符的數(shù)據(jù)記錄。

字符掩碼:通過使用一致的符號(例如或“x")來替換原

數(shù)據(jù)標識符或標識符中的部分數(shù)值。區(qū)別于仍具有唯一性的假名,進

行同一屬性的數(shù)值所替換的字符掩碼均為相同,具有一致性。

23

五、數(shù)據(jù)匿名化規(guī)程

(一)處理目的

1.促使標識難以復原

數(shù)據(jù)匿名化處理是數(shù)據(jù)去標識化后應(yīng)用相關(guān)技術(shù)使相關(guān)標識符

難以復原的過程,是數(shù)據(jù)去標識化的進一步處理。與數(shù)據(jù)去標識化相

比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信息也難以識別特定自然

人和已被處理的標識符。

2.符合風險可接受水平

任何數(shù)據(jù)均有被復原的可能。數(shù)據(jù)匿名化處理并非追求完美、絕對

的匿名化狀態(tài),強調(diào)的是運用匿名化技術(shù)將原始數(shù)據(jù)相關(guān)標識符的可識

別性降低到監(jiān)管和組織可接受的風險水平。如果信息主體和相關(guān)標識符

的識別需要不合理的時間、努力或資源,則不視為是可復原的。

3.支持統(tǒng)計、訓練用途

經(jīng)匿名化處理的數(shù)據(jù),數(shù)據(jù)顆粒度、精確度受到影響,不再保留

個體數(shù)據(jù)記錄。例如,經(jīng)匿名化處理的個人信息,不再屬于個人信息范

疇。與基于個體特征識別的用戶畫像、設(shè)備定位等用途不同,對數(shù)據(jù)匿

名化處理主要為了支撐統(tǒng)計分析、算法訓練、科學研究等場景。

(二)處理流程

數(shù)據(jù)匿名化的流程通常包括明確匿名化處理對象、設(shè)定匿名化處理

目標、先行去標識化處理、實施數(shù)據(jù)匿名化處理、評估匿名化效果、定期

追蹤復原風險六個步躲。

24

1?確定匿名化對象

根據(jù)法律要求和業(yè)務(wù)用途,確定需要進行匿名化處理的數(shù)據(jù)類型

和范圍。

(1)按照監(jiān)管要求確定處理對象

例如,組織遵照《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》要求,因

保證行車安全需要,在無法征得個人同意采集到車外個人信息且需要向

車外提供時,對相關(guān)數(shù)據(jù)進行匿名化處理,包括刪除含有能夠識別自然

人的畫面,或者對畫面中的人臉信息等進行局部輪廓化處理等。

(2)遵循最小必要原則確定處理對象

例如,征信機構(gòu)按照《征信業(yè)務(wù)管理辦法》規(guī)定,在個人不良信

息保存期限屆滿時,將個人不良信息在對外服務(wù)和應(yīng)用中刪除;作為

樣本數(shù)據(jù)繼續(xù)使用的,進行匿名化處理。

(3)履行約定或承諾義務(wù)確定處理對象

例如,組織按照《GB”35273-2020信息安全技術(shù)個人信息安全

規(guī)范》規(guī)定,在相關(guān)數(shù)據(jù)超出個人信息約定的存儲期限或達成處理目的

后,以及組織停止運營其產(chǎn)品或服務(wù)時或用戶注銷賬戶時,對個人信

息進行刪除或匿名化處理。

(4)基于業(yè)務(wù)開展需要確定處理對象

例如,國家衛(wèi)生健康委等四部門發(fā)布的《涉及人的生命科學知醫(yī)

學研究倫理審查辦法》中,將“使用匿名化的信息數(shù)據(jù)開展研究”作為

“免除倫理審查”的情形之一,組織為減少科研業(yè)務(wù)不必要的合規(guī)負

擔,使用匿名化數(shù)據(jù)開展涉及人的生命科學和醫(yī)學研究。

25

2.設(shè)定匿名化目標

滿足安全性要求是數(shù)據(jù)匿名化處理的首要目標。組織應(yīng)結(jié)合業(yè)務(wù)

場景和安全防護管理要求,根據(jù)數(shù)據(jù)的性質(zhì)、使用環(huán)境和使用的匿名

化技術(shù)等,結(jié)合匿名化數(shù)據(jù)的主要用途和使用場景,對標識符被復原

的可能性進行分析,評估相應(yīng)的風險,設(shè)定可被組織和監(jiān)管部門接受

和認可的風險閾值。

3.先行去標識化處理

組織應(yīng)將去標識化作為匿名化處理的一部分執(zhí)行,結(jié)合前述數(shù)據(jù)

去標識化業(yè)務(wù)規(guī)程,識別相關(guān)直接標識符和準標識符,針對性進行去標

識化處理,先行滿足數(shù)據(jù)的“不可識別性”要求,達到數(shù)據(jù)在不借助額

外信息的情況下無法直接識別特定自然人或相關(guān)標識符的效果,為

后續(xù)的匿名化操作奠定基礎(chǔ)。

4.實施匿名化處理

組織針對已去標識化的數(shù)據(jù)應(yīng)用匿名化技術(shù),使未獲得授權(quán)主體不

能輕易地將該數(shù)據(jù)與可能包含額外信息的其他數(shù)據(jù)相結(jié)合,從而難以

復原特定自然人信息或相關(guān)標識符。不同匿名化技術(shù)的技術(shù)特點不同,

選擇處理技術(shù)時,應(yīng)當結(jié)合數(shù)據(jù)類型和性質(zhì)、業(yè)務(wù)場景、處理目的等進

行綜合考量,相關(guān)技術(shù)具體可參考本節(jié)“(三)常見技術(shù)方法”。選擇匿

名化技術(shù)過程中需要考慮以下因素:

一是考慮所采用的匿名化技術(shù)進行處理后數(shù)據(jù)是否仍滿足預(yù)期

效用。匿名化處理可能對原始數(shù)據(jù)格式、數(shù)值和表達方式進行較大變

動,將對原始數(shù)據(jù)的保真性、顆粒度形成較大影響。

26

二是考慮將相關(guān)匿名化技術(shù)和去標識化技術(shù)組合使用,形成系統(tǒng)

性匿名化處理方案。例如,如果某個屬性類別的數(shù)值直接刪除不會影

響數(shù)據(jù)效用,可以選擇抑制遮蓋技術(shù)對相關(guān)數(shù)據(jù)項予以刪除處理。

三是考慮不同匿名化技術(shù)的適用場景。結(jié)合技術(shù)特點和目標要求

選擇相應(yīng)技術(shù)。如針對連續(xù)值屬性的數(shù)據(jù)可以采用噪聲添加、數(shù)據(jù)擾

動等隨機化技術(shù),針對無需體現(xiàn)個體數(shù)據(jù)記錄的情形可以采用聚合統(tǒng)

計等技術(shù)。同時,針對同一場景或同一數(shù)據(jù)類型的匿名化處理,也可

多種匿名化技術(shù)結(jié)合使用。

5.評估匿名化效果

組織應(yīng)用適當?shù)哪涿夹g(shù)后,應(yīng)當對匿名化處理的效果進行分

析評估。計算標識符被復原或重新標識風險的方法需要綜合考慮數(shù)據(jù)

因素和環(huán)境因素。GB/T42460-2023信息安全技術(shù)個人信息去標識

化效果評估指南》提供了“基于K匿名模型的重標識風險計算方案

及評估事例”,可供組織借鑒參考。

k.匿名值是一種計算數(shù)據(jù)集重新識別風險水平的方法,指數(shù)據(jù)集

中可以分組在一起的相同記錄的最小數(shù)量。在評估數(shù)據(jù)集的總體重新識

別風險時,通常采用最小值來表示最壞情況。k?匿名值較高意味著重

新識別的風險較低,k匿名性值較低意味著風險較高。K-匿名值為1

表示記錄是唯一的,k-匿名值需要結(jié)合實際場景、處理目標和安全等

級要求進行具體設(shè)定。在可能的情況下,應(yīng)設(shè)置更高的k-匿名閾值,以

最小化任何重新識別風險。需注意,k.匿名可能不適用于所有類型的

數(shù)據(jù)集或其他復雜情形。

27

6.定期追蹤復原風險

組織應(yīng)當定期追蹤內(nèi)外部相關(guān)主體對匿名化處理數(shù)據(jù)的使用情

況,評估新技術(shù)、新數(shù)據(jù)、新主體的引入可能帶來的標識符被復原的新

隱患,考慮數(shù)據(jù)的流通范圍、可能的技術(shù)演變等,以及未知的跨庫數(shù)

據(jù)可能導致與匿名數(shù)據(jù)集匹配的情形,進而采取適當措施保護相關(guān)標

識符免受復原識別和披露的風險。

(三)常見技術(shù)方法

本報告將不再保留原始數(shù)據(jù)個體顆粒度,或原始數(shù)據(jù)記錄真實性

已受到顯著減損,或原始數(shù)據(jù)記錄不對外披露的技術(shù)類型,納入匿名

化技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全

技術(shù)個人信息去標識化指南》。組織可結(jié)合具體場景單獨或組合選用聚

合統(tǒng)計、泛化、隨機化、數(shù)據(jù)合成、隱私計算等技術(shù)進行處理。

L聚合統(tǒng)計技術(shù)

聚合統(tǒng)計技術(shù)指將數(shù)據(jù)集從記錄列表轉(zhuǎn)換為匯總值或相關(guān)統(tǒng)計

值的方法,可以視為求和、計數(shù)、平均、最大值與最小值等一系列統(tǒng)

計技術(shù)的集合。由于聚合統(tǒng)計技術(shù)的輸出是“統(tǒng)計值”,該值有利于

對數(shù)據(jù)進行整體報告或分析,產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所

有記錄,且不會披露任何個體記錄,很大程度上降低了個體的標識符被

重新識別的風險。當組織不需要單獨的數(shù)據(jù)記錄且聚合數(shù)據(jù)足以滿足

預(yù)期效用時可以采月聚合統(tǒng)計技術(shù)。

例如,2022年我國18-80歲女性平均體重59.8kg,如果以平均體

重來標識數(shù)據(jù)集中每個人的體重值,則未獲得授權(quán)主體尢法根據(jù)體重

28

屬性將某一條數(shù)據(jù)記錄(女,北京,1.63m,59.8kg,1990年9月1

日)關(guān)聯(lián)到特定個人。

使用聚合統(tǒng)計技術(shù)應(yīng)注意兩方面的應(yīng)用要求:一是數(shù)據(jù)聚合統(tǒng)計

可能會顯著改變數(shù)據(jù)的初始用途,因為輸出的結(jié)果為統(tǒng)計值,無法反

映每一單獨數(shù)據(jù)記錄的特征;二是應(yīng)用聚合統(tǒng)計技術(shù)對原始數(shù)據(jù)的樣

本量具有一定要求,若原始數(shù)據(jù)記錄的數(shù)量很少,則結(jié)合其他數(shù)據(jù)容

易推斷出其中具體的單獨數(shù)據(jù)記錄的特征。

2.泛化技術(shù)

泛化技術(shù)也是一種概括方法,又被稱為離散化處理,是通過降低

數(shù)據(jù)所選屬性的顆粒度、精度,對數(shù)據(jù)進行更概括、抽象描述的匿名

化技術(shù)。使用泛化技術(shù)的目標是減少屬性唯一值的數(shù)量,使得被泛化

后的值被數(shù)據(jù)集中多個記錄所共享,從而增加某個特定數(shù)據(jù)記錄被推

測出的難度。例如,將一個人的年齡轉(zhuǎn)換為年齡范圍,或?qū)⒕_位置

轉(zhuǎn)換為不太精確的位置。

數(shù)據(jù)泛化的程度需要均衡預(yù)期目的和風險控制兩方面要求。數(shù)據(jù)

范圍過大可能意味著數(shù)據(jù)效用的顯著損失,數(shù)據(jù)范圍過小可能意味著

幾乎不修改數(shù)據(jù),特定數(shù)據(jù)記錄仍然很容易重新識別。常見的泛化方

法包括取整、頂層與底層編碼等。

取整:即為數(shù)值型標識符選定一個取整基數(shù),然后將每個具體值

向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率

確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度C例

如,如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率

29

為0.7,若向下取整至0,概率為0.3o同時還可以按要求進行受控取

整,如確保取整值的求和結(jié)果與原始數(shù)據(jù)的求和取整值相同。

頂層與底層編碼:即為數(shù)值型標識符設(shè)定一個可能的取值范圍,

用高于或低于所設(shè)定的臨界值的描述替換某一特定數(shù)據(jù)記錄在該屬

性上的具體數(shù)值,主要適用于連續(xù)或分類有序的數(shù)據(jù)類型。例如,將

某一員工的薪水值設(shè)置為“高于10000元”,其中“10000”為高收入

值的界限,而不記錄準確的金額。

3.隨機化技術(shù)

隨機化技術(shù)指通過隨機修改數(shù)據(jù)屬性的值,使得隨機化處理后的值

區(qū)別于原來的真實值。隨機化技術(shù)降低了未經(jīng)授權(quán)主體從同一數(shù)據(jù)記錄

中根據(jù)其他屬性值推導出某一屬性值的能力,會對原始數(shù)據(jù)記錄的真實

性造成一定影響。常見的隨機化技術(shù)有數(shù)據(jù)擾動、數(shù)據(jù)置換等。

數(shù)據(jù)擾動:又稱噪聲添加,即通過添加隨機值來修改數(shù)據(jù)中的值,

同時盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計特性,包括屬性的分布、

平均值、方差、標準偏差、協(xié)方差以及相關(guān)性。數(shù)據(jù)擾動的程度應(yīng)當控

制在一定范圍內(nèi)容,如果擾動程度太小,匿名化效果較弱;如果擾動程

度太大,最終值將與原始值相差太大,數(shù)據(jù)集的效用可能會降低。數(shù)據(jù)擾

動通常用于數(shù)值型標識符,例如對日期前后隨機+/-3個自然日。

數(shù)據(jù)置換:相當于一種洗牌,即重新排列數(shù)據(jù)屬性中的標識符,

使之無法與原始記錄對應(yīng),但各個屬性的值仍在數(shù)據(jù)集中表示,保持了

原有數(shù)據(jù)集中所選屬性整體的準確統(tǒng)計分布。數(shù)值型標識符和非數(shù)值

型標識符均可使用數(shù)據(jù)置換技術(shù)。在保持所選屬性之間原有相關(guān)性

30

的情況下,置換算法可用于單個或多個屬性。例如,對姓名進行假名

化處理后,對職位、性別、年齡等進行亂序重排。

4.數(shù)據(jù)合成技術(shù)

數(shù)據(jù)合成技術(shù)是顯著修改原有數(shù)據(jù)的所有屬性,重新合成產(chǎn)生新

的微數(shù)據(jù)的方法。合成數(shù)據(jù)集與原始數(shù)據(jù)的特征相符,可根據(jù)所選的

統(tǒng)計特性隨機生成,但不會體現(xiàn)原始數(shù)據(jù)的任何特定記錄。但若是合

成后數(shù)據(jù)與原始數(shù)據(jù)的擬合度過高可能會存在被關(guān)聯(lián)識別風險。

通常合成數(shù)據(jù)的生成會在假名化的基礎(chǔ)上,采用隨機化技術(shù)與抽

樣技術(shù)對真實數(shù)據(jù)集進行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常適用于應(yīng)用

程序開發(fā)、測試和應(yīng)用,將其作為真實數(shù)據(jù)的替代項,幫助數(shù)據(jù)開發(fā)

主體獲得與基于真實數(shù)據(jù)的處理同樣的效果。

5.隱私計算技術(shù)

隱私計算技術(shù)是指在保護數(shù)據(jù)本身不對外泄露的前提下實現(xiàn)數(shù)

據(jù)分析計算的技術(shù)集合,通過對所涉及的隱私信息進行描述、度量、

評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱

私計算方法,達到對數(shù)據(jù)“可用不可見”的目的。目前主流的隱私計算

技術(shù)主要分為三大方向:一是以多方安全計算為代表的基于密碼學的隱

私計算技術(shù);二是以聯(lián)邦學習為代表的人工智能與隱私保護技術(shù)融合衍

生的技術(shù);三是以可信執(zhí)行環(huán)境為代表的基于可信硬件的隱私計算技術(shù)。

多方安全計算:是指在無可信第三方的情況下,多個參與方共同

計算一個目標函數(shù),在不泄露己方數(shù)據(jù)的同時完成數(shù)據(jù)計算,并且保

31

證每一方僅獲取自己的計算結(jié)果,無法通過計算過程中的交互數(shù)據(jù)推測

出其他任意一方的輸入數(shù)據(jù)。多方安全計算通常應(yīng)用于聯(lián)合數(shù)據(jù)分析、

數(shù)據(jù)可信交換、分布式投票、隱私競標和拍賣、黑名單安全查詢、數(shù)據(jù)庫

檢索等場景。

聯(lián)邦學習:是指實現(xiàn)在本地原始數(shù)據(jù)不出庫的情況下,各方通過對

中間加密數(shù)據(jù)的流通、參數(shù)交換和處理,共同建立虛擬的共有模型,完

成多方聯(lián)合的機器學習訓練。聯(lián)邦學習可以從技術(shù)上有效解決數(shù)據(jù)孤島

問題,讓參與方在不泄露各自擁有的用戶數(shù)據(jù)的基礎(chǔ)上,實現(xiàn)聯(lián)合建模

和AI協(xié)作,加速隱私計算在不同場景的應(yīng)用與落地。根據(jù)參與方的

數(shù)據(jù)分布和特征重疊情況的不同,可以分為橫向聯(lián)邦學習、縱向聯(lián)邦

學習和聯(lián)邦遷移學習。

可信執(zhí)行環(huán)境:是指將需要保護的數(shù)據(jù)和代碼存儲在可信執(zhí)行環(huán)

境中,即通過軟硬件方法在中央處理器中構(gòu)建一個安全的區(qū)域,對這些

數(shù)據(jù)和代碼的任何訪問都必須通過基于硬件的訪問控制,防止它們在使

用中未經(jīng)授權(quán)被訪問或修改,從而保證其內(nèi)部加載的程序和數(shù)據(jù)在機密

性和完整性上得到保護??尚艌?zhí)行環(huán)境是一種硬件解決方案,安全

性較高,但運維成本相應(yīng)上升,多用于本地和遠程驗證場景。

六、數(shù)據(jù)處理環(huán)境要求

(一)管理制度要求

組織應(yīng)當遵守法律法規(guī)及強制性標準的相關(guān)要求,銜接自身數(shù)據(jù)管

理制度,制定數(shù)據(jù)清洗、去標識化、匿名化處理各環(huán)節(jié)的審批流程,推

進數(shù)據(jù)分類分級管理,梳理特殊數(shù)據(jù)類型的內(nèi)、外部特別管理要求,

32

在此基礎(chǔ)上細化數(shù)據(jù)清洗、去標識化、匿名化處理的權(quán)限要求和操作

規(guī)范,并嵌入組織內(nèi)部管理機制。

(二)技術(shù)能力要求

組織應(yīng)當強化數(shù)據(jù)處理的基礎(chǔ)技術(shù)保障,具備數(shù)據(jù)收集、存儲、

加工、分析、挖掘和安全防護的各類技術(shù)工具,具有安全、便捷、高效

的技術(shù)應(yīng)用系統(tǒng)和可信環(huán)境,熟知數(shù)據(jù)清洗、去標識化、匿名化處理的

常見技術(shù)方法和應(yīng)用特點,結(jié)合業(yè)務(wù)場景和內(nèi)外部要求,統(tǒng)籌組合形成

平衡數(shù)據(jù)安全要求和業(yè)務(wù)應(yīng)用目的的有效數(shù)據(jù)處理技術(shù)方案。

(三)人員能力要求

組織應(yīng)當提升內(nèi)部人員的數(shù)據(jù)處理能力和安全防護水平,明確各

崗位數(shù)據(jù)合規(guī)職責和數(shù)據(jù)處理權(quán)限要求,定期組織數(shù)據(jù)處理技能培訓

和安全合規(guī)教育,要求參與數(shù)據(jù)清洗、去標識化、匿名化處理的人員

應(yīng)當具備相應(yīng)的數(shù)據(jù)處理能力,嚴格按照數(shù)據(jù)安全管理制度和流程進

行操作。必要情況下,組織可以尋求第三方技術(shù)服務(wù)機構(gòu)、法律服務(wù)

機構(gòu)、審計咨詢機構(gòu)、數(shù)據(jù)安全防護機構(gòu)、檢測認證機構(gòu)等協(xié)助提供

技術(shù)能力和業(yè)務(wù)合規(guī)支持。

(四)過程控制要求

組織應(yīng)當推進數(shù)據(jù)處理過程的實時可控和動態(tài)審計,采取措施清

晰記錄數(shù)據(jù)清洗、去標識化、匿名化處理過程的細節(jié)、使用的參數(shù)和

執(zhí)行情況,監(jiān)控審查去標識化各步驟實施過程,及時發(fā)現(xiàn)已經(jīng)出現(xiàn)或

可能出現(xiàn)的錯誤或偏差,有效采取措施進行糾正和防護,并對監(jiān)控審

查過程進行記錄,便于日后審查、維護、回溯和審計。同時加強對第

33

三方接收者的數(shù)據(jù)授權(quán)和授權(quán)跟蹤管理,采取技術(shù)保障措施和商業(yè)流

程防范去標識、匿名化數(shù)據(jù)的再識別和意外泄露。

(五)事故管理要求

組織應(yīng)當完善數(shù)據(jù)處理風險和安全事件管理機制,做好數(shù)據(jù)風險

識別、風險評估、風險處置等工作,制定并實施數(shù)據(jù)安全事件應(yīng)急預(yù)案,

針對不同等級的風險采取針對性的風險處置措施,關(guān)注涉及數(shù)據(jù)標識

符、數(shù)據(jù)映射表、匿名化處理記錄表等信息的泄露風險,防范惡意重

新標識行為。發(fā)生數(shù)據(jù)泄露、篡改、丟失等安全事件的,應(yīng)當立即采

取補救措施,及時通知管理機構(gòu)并按規(guī)定告知相關(guān)數(shù)據(jù)主體。

附件一:常見直接標識符和準標識符示例

附件二:常見標識符的去標識化或匿名化參考

附件三:部分數(shù)據(jù)處理技術(shù)方法應(yīng)用建議

34

附件一:常見直接標識符和準標識符示例

(一)直接標識符示例

直接標識符通常表現(xiàn)為在特定環(huán)境下可以單獨識別特定自然人

或數(shù)據(jù)所描述特定對象的識別號碼、特征或代碼。需注意,標識符的

識別難度并不與數(shù)據(jù)的敏感程度直接掛鉤。本報告分別列舉了個人數(shù)

據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的部分直接標識符示例,常見的直接標識

符包括但不限于:

類型序號常見直接標識符

1姓名

2公民身份號碼

3護照號

4工作學習編號,包括工號、學號等

5電話號碼

6傳真號碼

7銀行賬戶

8駕照號

個人9車牌號

數(shù)據(jù)10社會保障號碼

11健康卡號碼

12病歷號碼

13網(wǎng)絡(luò)賬號、昵稱等

14網(wǎng)絡(luò)身份標識號(ID)

15個人移動終端設(shè)備標識符

16詳細住址

17電子郵件地址

18個人行蹤軌跡

35

數(shù)據(jù)清洗、去標識化、匿名化業(yè)務(wù)規(guī)程(試行)

19生物識別碼,包括指紋和聲紋等識別碼

20全臉圖片圖像及其他任何可比對的圖像

1組織機構(gòu)名稱

2營業(yè)執(zhí)照編號

3統(tǒng)一社會信用代碼

4法定代表人姓名

5稅務(wù)登記證號

6社會保險登記證號碼

7統(tǒng)計登記證號碼

企業(yè)

8銀行賬戶信息

數(shù)據(jù)

9組織許可證號

10企業(yè)注冊地址

11網(wǎng)絡(luò)和系統(tǒng)賬號信息

12網(wǎng)站標識碼,互聯(lián)網(wǎng)協(xié)議(IP)地址號

13網(wǎng)絡(luò)通用資源定位符(URL)

14合同編號

15商業(yè)發(fā)票編號

1設(shè)備標識符和序列號

2設(shè)備位置信息

3設(shè)備使用記錄

4設(shè)備故障或警報記錄

物聯(lián)網(wǎng)5商品條碼

數(shù)據(jù)6貨運設(shè)備識別碼

7集裝箱識別代碼

8醫(yī)療器械唯一標識(UDI)

9數(shù)字版權(quán)唯一標識符(DCI)

10氣象數(shù)字對象標識符(MOID)

36

(二)準標識符示例

準標識符通常指在相應(yīng)環(huán)境下無法單獨識別特定自然人或數(shù)據(jù)

所描述的特定對象,但結(jié)合其它信息可以進行識別的屬性、號碼、特征

或代碼。本報告分別列舉了個人數(shù)據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的部分準

標識符示例,準標識符范圍較廣,常見的準標識符包括但不限于:

類型序號常見準標識符

1性別

2出生日期或年齡

3事件日期(例如入院、手術(shù)、出院、訪問相關(guān)日期)

4地理范圍(例如郵政編碼、建筑名稱、地區(qū))

5血型、身高、體重等體征

6疫苗接種狀態(tài)、病史等健康狀況

7國籍、籍貫

個人

8族裔血統(tǒng)、民族

數(shù)據(jù)

9宗教信仰

10語言

11職務(wù)、工作單位、部門等職業(yè)信息

12婚姻狀況

13受教育水平

14學習、工作年限

15收入狀況

1組織設(shè)立時間

2組織信用評級

企業(yè)3資產(chǎn)設(shè)備情況

數(shù)據(jù)4員工情況

5客戶分布

6產(chǎn)品類型

37

數(shù)據(jù)清洗、去標識化、匿名化業(yè)務(wù)規(guī)程(試行)

7供應(yīng)鏈渠道

8營收情況

9系統(tǒng)日志

10工藝參數(shù)

1傳感節(jié)點標識信息

2環(huán)境參數(shù)信息(溫度、濕度、氣壓、風速、光線等)

物聯(lián)網(wǎng)3設(shè)備規(guī)格信息

數(shù)據(jù)4設(shè)備健康狀態(tài)

5生產(chǎn)日期

6檢驗日期

38

附件二:常見標識符的去標識化或匿名化參考

去標識化和匿名化的相關(guān)技術(shù)和方法沒有嚴格界分,匿名化技術(shù)抗

重新識別的風險能力相對更高。組織可以根據(jù)相關(guān)技術(shù)特點統(tǒng)籌組合使

用,形成平衡數(shù)據(jù)安全要求和業(yè)務(wù)應(yīng)用目的的有效數(shù)據(jù)處理方案。本報

告借鑒《GB/T37964-2019信息安全技術(shù)個人信息去標識化指南》列

舉了部分標識符的去標識化或匿名化參考,更多標識符的處理方法組織

還可以參考該標準附錄C”去標識化模型和技術(shù)的選擇”。

標識符去標識化或匿名化方法參考

姓名假名化。構(gòu)建常用人名字典表,并從中選擇一個來表示,如先

構(gòu)建常用的人名字典表,包括龔小虹、黃益洪、龍家銳等,假

名化時根據(jù)按照順序或隨機選擇一個人名代替原名。如便用

“龔小虹”取代“張三豐”。

加解密技術(shù)。采用密碼或其他變換技術(shù),將姓名轉(zhuǎn)變成另外的

字符,并保持可逆特性。如使用密碼和字符編碼技術(shù),使用

“SGIHLIKHJ”代替“張三豐”,或使用“Fzf”代替“Bob”。

抑制遮蓋。直接刪除姓名或使用統(tǒng)一的“x”來表示。如明有

的姓名都使用“***”代替。

泛化編碼。使用概括、抽象的符號來表示,如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論