版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
CONTENTS
目錄
1、人工智能技術(shù)發(fā)展與數(shù)據(jù)需求-------------------------------------------04
2人工智育自數(shù)據(jù)安全風(fēng)險---------------------------------------------05
2.1人工智能與數(shù)據(jù)隱私……--……-.....-------------------------------06
2.2人工智能與數(shù)據(jù)質(zhì)量11
2.3人工智能與數(shù)據(jù)保護14
3、國內(nèi)外應(yīng)對與舉措18
3.1政策法規(guī)18
3.2技術(shù)發(fā)展...-......20
3.3當前存在的差距25
4、人工智能數(shù)據(jù)安全治理--27
4.1治理目標27
4.2治理框架28
4.3治理措施29
5、國內(nèi)外優(yōu)秀實踐案例...................................................37
5.1英特爾推出HE-Transformer用于處理加密隱私數(shù)據(jù)37
5.2谷歌推出TensorFlowPrivacy用于提升Al中的隱私保護38
5.3谷歌推出TensorFlowFederatedlearning在用戶設(shè)備上進行模型訓(xùn)練.....39
5.4Apple利用差分隱私技術(shù)保護用戶設(shè)備數(shù)據(jù)安全40
5.5舊M開發(fā)AlFairness360開源工具包檢測數(shù)據(jù)偏見41
5.6英偉達利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò).............................-41
5.7阿里巴巴運用機器流量防控體系對抗數(shù)據(jù)投毒攻擊42
5.8微眾銀行開發(fā)商用級開源項目FederatedAlTechnologyEnabler43
5.9IFAA通過安全隔離技術(shù)實現(xiàn)生物特征信息安全43
5.10觀安信息數(shù)據(jù)安全解決方案助力智能客服系統(tǒng)敏感數(shù)據(jù)防護44
6、結(jié)語----------------------------------------------……-----------------45
附錄1國內(nèi)外人工智能數(shù)據(jù)保護相關(guān)倡議.......-……-46
附錄2國內(nèi)外人工智能數(shù)據(jù)安全相關(guān)的標準及指南48
03
1、人工智能技術(shù)發(fā)展與數(shù)據(jù)需求
2006年,隨著深度學(xué)習(xí)模型的提出,人工智能引入了層次化學(xué)習(xí)的概念,通
過構(gòu)建較簡單的知識來學(xué)習(xí)更深、更復(fù)雜的知識,真正意義上實現(xiàn)了自我訓(xùn)練的
機器學(xué)習(xí)。深度學(xué)習(xí)可從大數(shù)據(jù)中發(fā)現(xiàn)復(fù)雜模式,具有強大的推理能力和極高的
靈活性,由此揭開了嶄新人工智能時代的序幕。在人工智能第三波發(fā)展熱潮中,
深度學(xué)習(xí)逐漸實現(xiàn)了在機器視覺、語音識別、自然語言理解等多個領(lǐng)域的普遍應(yīng)
用,也催生了強化學(xué)習(xí)、遷移學(xué)習(xí)、生成式對抗網(wǎng)絡(luò)等新型算法和技術(shù)方向,
然而,當前階段以機器學(xué)習(xí)為代表的人工智能技術(shù)需要海量數(shù)據(jù)作為支撐,
數(shù)據(jù)越多,訓(xùn)練得到的算法模型效果越好,模型的泛化能力越強。因此,現(xiàn)階段
的人工智能技術(shù)對數(shù)據(jù)的依賴性極強。同時,數(shù)據(jù)與人工智能是相互依存的關(guān)
系,人工智能為數(shù)據(jù)提供智能分析的手段,數(shù)據(jù)為人工智能提供輸入和學(xué)習(xí)資
料。由此,將導(dǎo)致在人工智能的發(fā)展進程中,數(shù)據(jù)安全將是一個極其關(guān)鍵的議
題,對人工智能的安全、健康、快速發(fā)展非常重要。
1(人工智能賦能網(wǎng)絡(luò)空間安全:模式與實踐》
04
2、人工智能數(shù)據(jù)安全風(fēng)險
人工智能導(dǎo)致的數(shù)據(jù)安全風(fēng)險由兩方面因素促成。一方面,人工智能技術(shù)和各
種智能化硬件帶來的生產(chǎn)和生活場景的智能化變革導(dǎo)致數(shù)據(jù)呈現(xiàn)井噴式增長,數(shù)據(jù)
的采集終端越來越多,傳輸速度越來越快,整個人類社會每時每刻都在產(chǎn)生著海量
數(shù)據(jù),這使數(shù)據(jù)安全風(fēng)險陡然增加。同時,數(shù)據(jù)作為機器學(xué)習(xí)等人工智能技術(shù)的根
基,在持續(xù)推動智能化技術(shù)的快速成熟與迭代,將帶來更廣泛的人工智能應(yīng)用,而
更廣泛的應(yīng)用又將采集和形成更大的數(shù)據(jù)資源庫。另一方面,隨著人工智能技術(shù)的
發(fā)展,對數(shù)據(jù)的分析和挖掘能力也在迅速增強,這將導(dǎo)致給個人隱私、社會安全以
及國家安全帶來風(fēng)險。
海?政雷---------
數(shù)老二集//'%IMHK
強大的感知人工新能模
百義09M能力型
日新讖HW
數(shù)據(jù)分析11
決策—
圖1人工智能與數(shù)據(jù)的關(guān)系
人工智能中的數(shù)據(jù)安全挑戰(zhàn)包括三個方面,分別為數(shù)據(jù)隱私問題、數(shù)據(jù)質(zhì)量問
題和數(shù)據(jù)保護問題。數(shù)據(jù)隱私問題指在人工智能的開發(fā)、測試、運行過程中存在的
隱私侵犯問題,這一類問題當前是人工智能應(yīng)用需要解決的關(guān)鍵問題之一;數(shù)據(jù)質(zhì)
量問題主要指用于人工智能的訓(xùn)練數(shù)據(jù)集以及采集的現(xiàn)場數(shù)據(jù)潛在存在的質(zhì)量問題,
以及可能導(dǎo)致的后果,這是人工智能特有的一類數(shù)據(jù)安全問題;數(shù)據(jù)保護問題主要
指人工智能開發(fā)及應(yīng)用企業(yè)對持有數(shù)據(jù)的安全保護問題,涉及數(shù)據(jù)采集、傳輸、存
儲、使用、流轉(zhuǎn)等全生命周期,以及人工智能開發(fā)和應(yīng)用等各個環(huán)節(jié)。
圖2人工智能中的數(shù)據(jù)安全風(fēng)險構(gòu)成
2.1人工智能與數(shù)據(jù)隱私
人工智能開發(fā)和應(yīng)用的不同環(huán)節(jié)有不同的數(shù)據(jù)種類,其中存在隱私問題的數(shù)據(jù)
包括:訓(xùn)練和測試數(shù)據(jù)、(訓(xùn)練成)的模型參數(shù)、應(yīng)用系統(tǒng)實際輸入數(shù)據(jù)(現(xiàn)場數(shù)
據(jù))、應(yīng)用系統(tǒng)實際分析結(jié)果數(shù)據(jù)等。每類數(shù)據(jù)存在的隱私風(fēng)險各不相同。
2.1.1訓(xùn)練、測試數(shù)據(jù)采集與隱私
深度學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù)作為學(xué)習(xí)資料,同時需要構(gòu)建測試數(shù)據(jù)集用于AI系
統(tǒng)的性能測試。當前,數(shù)據(jù)獲取成為企業(yè)發(fā)展人工智能技術(shù)的重要瓶頸之一,也是
企業(yè)競相爭奪的重要資源。目前,在數(shù)據(jù)獲取的方法和途徑方面出現(xiàn)了眾多可能侵
犯用戶隱私的事件,引發(fā)了公眾對個人數(shù)據(jù)被非法濫用的普遍擔憂。
06
?典型案例1:以人臉識別為例,美國學(xué)術(shù)研究人員通常通過谷歌圖片搜
索、圖片分享網(wǎng)站的授權(quán)公共
Flickr(CreativeCommonslicense)x
Instagram帳戶或者其他一些途徑獲取大量的圖片,以供訓(xùn)練或測試人臉識
別算法2.34,授權(quán)的協(xié)議顯示這些圖片數(shù)據(jù)僅用于學(xué)術(shù)研究。然而,隨著微軟、
IBM、Facebook和谷歌等公司將自己的未來押在人工智能上,人臉識別正
越來越多地走出實驗室,進入大型企業(yè)的領(lǐng)域。大量個人照片被用于商業(yè)領(lǐng)
域,將引發(fā)隱私?jīng)_突。例如,2019年3月,IBM被爆出使用互聯(lián)網(wǎng)上的照片
作為人臉識別的"養(yǎng)料”,其中包含了圖片分享網(wǎng)站Flickr上近100萬張照
片,但未獲得用戶許可,因此引發(fā)了國外媒體的高度關(guān)注和用戶對隱私的廣
泛擔憂)
?典型案例2:另一個典型案例是英國皇家自由信托基金會因在2016年將
160萬患者數(shù)據(jù)共享給谷歌的AI子公司DeepMind而遭到英國信息專員辦公
室(ICO)的調(diào)查,共享的數(shù)據(jù)主要用于一個智能醫(yī)療移動應(yīng)用程序Streams
的開發(fā)和測試,因未事先征得患者同意,這一數(shù)據(jù)共享行為被工。裁定為違
反了英國的數(shù)據(jù)保護法\
2.1.2現(xiàn)場數(shù)據(jù)采集與隱私
在無人駕駛、智能家居、智慧城市等人工智能應(yīng)用場景中,采集終端可能會過
度采集用戶敏感信息,違背個人信息安全規(guī)范中數(shù)據(jù)采集的最少必須原則,侵犯用
戶的合法權(quán)益。
2Ifyourimageisonline.itmightbe(rainingfacial-recognitionAI
https://www.cnn.com/2019/04/19/teclVai-facial-recognition/index.html
3IBMdidn'tinformpeoplewhenitusedtheirFlickrphotosforfacialrecognitiontraining
hltps:///2019/3/12/18262646/ibm-didnt-inform-people-when-it-used-their-flickr-photos*for-facial-recognition-training
4RoyalFreebreachedUKdatalawin1.6mpatientdealwithGoogle'sDeepMind
https://www./technology/2017/jul/03/google-deepmind-I6m-patient-royal-free-deal-data-protection-act
07
?典型案例1:亞馬遜公司近期被曝出雇傭了數(shù)千名員工,聆聽使用其智
能音箱Echo的用戶家中和辦公室捕捉到的錄音,以幫助改進Alexa語音助
手。智能音箱、智能電視、手機語音助手等智能硬件的"偷聽”能力也因此
引發(fā)公眾的普遍擔憂。
?典型案例2:當前在安防、身份核驗以及各類零售商店廣泛應(yīng)用的人臉
識別系統(tǒng),也在隨時隨地抓取公眾人臉信息,帶來了關(guān)于隱私問題的諸多爭
議。
更復(fù)雜的是,盡管對特定個人進行身份識別可能不是人工智能做出決策所必需
的,但在很多場景下人工智能可能仍然會采集個人數(shù)據(jù)。
?典型案例3:在自動駕駛場景中,為了避免撞到行人,自動駕駛車輛上
的傳感器會收集足夠的行人數(shù)據(jù)來識別他們,但識別特定的個人并不是系統(tǒng)
做出決策所必需的,人工智能只需要確定目標是否是行人即可,但在這種情
況下,行人的身份數(shù)據(jù)仍然被抓取了工
5CenterForInformationPolicyLeadership.ArtificialIntelligenceandDataProtectioninTension
https:///uploads/5/7/1/0/57104281/cipl_ai_first_report_-_artificial_intelligence_and_data_protection_in_te....pdf
08
2.1.3現(xiàn)場數(shù)據(jù)用于產(chǎn)品改進
對于許多智能產(chǎn)品和服務(wù)商而言,收集用戶數(shù)據(jù)的其中一個重要目的是優(yōu)化產(chǎn)
品性能和用戶體驗,使其更加智能。例如上述亞馬遜智能音箱的例子就是一個典型
案例,再如智能手機、Windows操作系統(tǒng)、辦公軟件也在普遍收集用戶數(shù)據(jù),用
于改進產(chǎn)品的智能水平。此類行為雖然是為了為用戶提供更加成熟的產(chǎn)品和服務(wù),
但若在用戶不知情的情況下收集數(shù)據(jù),則會對用戶的隱私構(gòu)成威脅。
2.1.4數(shù)據(jù)分析挖掘與隱私
隨著企業(yè)普遍意識到數(shù)據(jù)的可利用價值,對用戶的數(shù)據(jù)分析和挖掘變得無處不
在,數(shù)據(jù)成為企業(yè)競相爭奪的重要資源。同時,人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展
使得對數(shù)據(jù)的分析和挖掘能力也越來越強。
?典型案例1:在眾所周知的"Facebook數(shù)據(jù)泄露"丑聞中,劍橋分析公
司將來自Facebook上數(shù)千萬用戶的數(shù)據(jù),用于在2016年美國總統(tǒng)大選中針
對目標受眾進行政治廣告投放。劍橋分析公司使用的機器學(xué)習(xí)模型可以基于
種族、年齡、性別等人口特征來建立影響選民的方法。
?典型案例2:當前的人工智能技術(shù)已經(jīng)可以做到分析人的情緒、性格,
甚至性取向等特征工著名咨詢機構(gòu)Gartner曾預(yù)測,到2022年,用戶的個
人設(shè)備將比他的家人更加了解其情緒狀態(tài)\
6TheAlThatPredictsYourSexualOrientationSimplyByLookingAtYourFace
/sites/bemardmarr/2017/09/28/the-ai-(hat-predicts-your-sexual-orientation-simply-by-looking-at-your-face/#32068c943456
7GartnerSaysArtificialIntelligenceIsaGanicChangerfbrPersonalDevices
https://www.gartner.com/en/newsroom/press-releases/2018-01-08-gartner-says-artificial-intelligence-is-a-game-changer-for-personal-devices
09
同時,隨著數(shù)據(jù)分析和用戶畫像技術(shù)的快速發(fā)展,個性化服務(wù)變得越來越普
遍。然而,個性化服務(wù)建立在對用戶數(shù)據(jù)的分析之上,出于對隱私的擔憂,消費者
對個性化服務(wù)的態(tài)度正快速發(fā)生轉(zhuǎn)化,由之前的接受變?yōu)樵絹碓脚懦鈂同時,認為
"擁有更多用戶數(shù)據(jù)的公司能夠提供更好、更個性化的產(chǎn)品和服務(wù)"的用戶也越來
越少。這一趨勢表明,隱私問題已成為技術(shù)發(fā)展的嚴重阻礙。
此外,人工智能技術(shù)可以通過數(shù)據(jù)關(guān)聯(lián)分析和模式識別從非個人數(shù)據(jù)或匿名化
的數(shù)據(jù)中識別出特定的個人9.一方面,人工智能擴大了收集數(shù)據(jù)的類型和需求,
例如,從手機、汽車和其他設(shè)備的傳感器可以收集大量和類型多樣的數(shù)據(jù)。另一方
面,人工智能提供了越來越先進的計算能力來處理這些收集的數(shù)據(jù)。通過將分散
的、無意義的數(shù)據(jù)點組合在一起組成擴展數(shù)據(jù)集,可以實現(xiàn)對特定個體的識別。
2.1.5逆向攻擊與隱私
神經(jīng)網(wǎng)絡(luò)等人工智能算法可以記住訓(xùn)練數(shù)據(jù)集的細節(jié)信息,攻擊者可以利用
逆向攻擊方法,通過分析系統(tǒng)的輸入輸出和其他外部信息,推測系統(tǒng)模型的參數(shù)及
訓(xùn)練數(shù)據(jù)中的隱私信息”。其中對模型參數(shù)的竊取將對企業(yè)知識產(chǎn)權(quán)構(gòu)成安全威脅,
對訓(xùn)練數(shù)據(jù)隱私信息的竊取將對個人隱私構(gòu)成安全威脅。
8RSADataPrivacy&SecuritySurvey20I9:TheGrowingDatuDisconnectBetweenConsumersandBusinesses
9RethinkingDataPrivacy:TheImpactofMachineLearning
https:IImedium,com/luminovo/data-privacy-in-machine-learning-a-lechnical-deep-dive-17IX)365bI<160
ioPrivacy-PreservingMachineLearning2018:AYearinReview
https:///dropoutiabs/privacy-preserving-machine-learning-2018-a-year-in-review-b6345a95aeOf
“《AI安全白皮書》,華為
?典型案例1:美國斯蒂文斯理工學(xué)院的研究人員,2證明任何以隱私保護為
目的開發(fā)的聯(lián)合深度學(xué)習(xí)方法(collaborativedeeplearning)也是易于
被攻破的。他們開發(fā)了一種攻擊手段,利用學(xué)習(xí)過程的實時性,攻擊者可以
訓(xùn)練一個生成式對抗網(wǎng)絡(luò)(GAN),生成目標訓(xùn)練集的原型樣本,從而獲取原
數(shù)據(jù)集中的隱私數(shù)據(jù)。
?典型案例2:卡內(nèi)基梅隆大學(xué)的研究人員’3發(fā)現(xiàn)了一種逆向攻擊手段,針
對人臉識別模型,可以通過一些人臉圖片的標識符重構(gòu)訓(xùn)練數(shù)據(jù)集中的人臉
照片,從而造成隱私泄露。
2.2人工智能與數(shù)據(jù)質(zhì)量
高質(zhì)量的數(shù)據(jù)是人工智能發(fā)展的前提和基礎(chǔ)。據(jù)埃森哲研究發(fā)現(xiàn)'",在運用人工
智能技術(shù)面臨的一系列挑戰(zhàn)中,數(shù)據(jù)質(zhì)量被企業(yè)列為最突出的挑戰(zhàn),其次是數(shù)據(jù)安
全、網(wǎng)絡(luò)安全。當前,無論是對于人工智能研發(fā),還是人工智能實際應(yīng)用,數(shù)據(jù)質(zhì)
量都是極其關(guān)鍵的要素。
2.2.1訓(xùn)練數(shù)據(jù)質(zhì)量
訓(xùn)練數(shù)據(jù)集的質(zhì)量將對人工智能系統(tǒng)的可靠性和安全性起到至關(guān)重要的作用,
其中存在的問題包括":
1.數(shù)據(jù)集的規(guī)模不足:目前訓(xùn)練數(shù)據(jù)的獲取是企業(yè)開發(fā)AI系統(tǒng)遇到的重要瓶
頸之一,在機器學(xué)習(xí)算法中,監(jiān)督學(xué)習(xí)模型的性能很大程度上依賴于可用的訓(xùn)練數(shù)
據(jù)的規(guī)模,訓(xùn)練數(shù)據(jù)不足將導(dǎo)致AI系統(tǒng)的可靠性和安全性出現(xiàn)問題。
2.數(shù)據(jù)集的多樣性和均衡性不足:訓(xùn)練數(shù)據(jù)與真實數(shù)據(jù)的分布不一致將嚴重
影響AI系統(tǒng)的性能,并引入一定程度的偏見,甚至在某些場景下產(chǎn)生安全性問題。
I?DeepModelsUndertheGAN:InformationLeakagefromCollaborativeDeepLearning.BrilandHitaj.GiuseppeAteniese.FernandoPerez-Cruz.
13ModelInversionAttacksthatExploitConfidenceInformationandBasicCountermeasures,MattFredrikson,SomeshJha,ThomasRistenpart
14Alturnsordinaryproductsintoindustrygame-changers
https://www.accenture.com/us-en/insights/industry-x-0/ai-transfonns-products
15《人工智能深度學(xué)習(xí)算法評估規(guī)范》
11
?典型案例1:由算法正義聯(lián)盟發(fā)起的一項針對幾款主流人臉識別分析服
務(wù)(來自IBM、微軟、曠視科技等公司)的測試表明’6,這些算法針對白膚色
男性的識別率非常高,而針對黑膚色女性的識別率則要低很多,例如IBM和
曠視科技的算法針對黑人女性的錯誤率都高達35%。這種偏見部分是由于訓(xùn)
練數(shù)據(jù)中黑膚色人種的代表性不足造成的。
?典型案例2:谷歌翻譯被批評存在性別歧視,因為它會根據(jù)內(nèi)容自動劃
分語言的性別,例如在將土耳其短語"。birdoktor"和"。birhemgire"
翻譯成英語時,谷歌翻譯的返回結(jié)果分別為"他是一名醫(yī)生"和"她是一個護
士"。但"。"在土耳其語中僅是一個中性的第三人稱代詞:"醫(yī)生是男性,
護士是女性"的假設(shè)反映了文化偏見和醫(yī)學(xué)界性別的不平衡。谷歌翻譯記錄
了訓(xùn)練算法的數(shù)據(jù)中存在的人類文化偏見,最終導(dǎo)致翻譯系統(tǒng)也存在性別歧
視)
?典型案例3:Beauty.ai是一場完全由AI算法當裁判的國際選美比賽,在
2016年的第一屆比賽中,AI共選出了44位選美冠軍,其中黃色人種和黑色
人種分別只有6名和1名,其余的37張面孔都是白種人。Beauty.ai的CEO表
示,出現(xiàn)這種結(jié)果的原因是訓(xùn)練數(shù)據(jù)中缺乏足夠的種族多樣性,
3.數(shù)據(jù)集的標注質(zhì)量低:訓(xùn)練數(shù)據(jù)集的標注質(zhì)量(例如準確性和一致性)會
嚴重影響AI系統(tǒng)的性能。當數(shù)據(jù)標注質(zhì)量較低時,機器學(xué)習(xí)模型的學(xué)習(xí)過程會非常
困難。
16Photoalgorithmsidwhitemenfineblackwomen,notsomuch
https:IIwww.wired,com/storj'/photo-algorithms-id-white-men-fineblack-women-not-so-much/
17Whywe'llneedmorethandatadiversitytoavoidprejudicedAI
https:///@QuantumBlack/why-well-need-more-than-data-diversity-to-avoid-prejudiced-ai-20b7744el8ee
18WhyAlneedstolearntounderstandwhatwe'renotsaying
https://www./agenda/20I8/05/voice-control-why-ai-must-resist-our-bad-habit-o^stereotyping-human-speech
19Alackofdiversityislikeworkingwithbiaseddatainmachinelearning
https://www.leyton.coin/blog/?p=2041-lack-diversity-like-working-biased-data-machine-learning
4.數(shù)據(jù)集遭投毒攻擊:訓(xùn)練數(shù)據(jù)集可能被人為添加惡意數(shù)據(jù),導(dǎo)致數(shù)據(jù)集被污
染,進而影響AI系統(tǒng)的可靠性和安全性。訓(xùn)練出的模型參數(shù)看似正確高效,但對特
定現(xiàn)場數(shù)據(jù)將做出錯誤判斷,連續(xù)引發(fā)誤導(dǎo)性決策且難以在使用中被察覺和驗證,
在高度依賴人工智能的場景中將有可能造成重大損失。
?典型案例1:例如在惡意代碼識別算法建模階段,攻擊者向訓(xùn)練數(shù)據(jù)集
中注入惡意數(shù)據(jù),影響訓(xùn)練得到的模型,使得惡意代碼無法被模型所識別,
達到成功繞過安全防護系統(tǒng)的目的。
2.2.2現(xiàn)場數(shù)據(jù)質(zhì)量
現(xiàn)場數(shù)據(jù)的質(zhì)量也會對人工智能的安全運行產(chǎn)生重要影響,例如現(xiàn)場數(shù)據(jù)被篡
改產(chǎn)生對抗性樣本,將影響算法決策的輸出。若在實時性較高的場景(如自動駕
駛)中,當數(shù)據(jù)在進入人工智能核心模塊之前受到定向干擾將會導(dǎo)致即時錯誤判
斷,可能產(chǎn)生災(zāi)難性后果。
?典型案例1:攻擊者對交通標志做人類無法察覺的修飾,使得自動駕駛
的傳感器對其識別發(fā)生錯誤,影響駕駛安全。
?典型案例2:伯克利人工智能研究人員NicholasCaHini和David
Wagner發(fā)明了一種針對語音識別AI的新型攻擊方法,只需增加一些細微的
噪音,就可以欺騙語音識別系統(tǒng)產(chǎn)生任何攻擊者想要的輸出,從而實現(xiàn)身份
盜用、欺騙認證系統(tǒng)等非法行為T
20《智能音箱安全風(fēng)險淺析與發(fā)展建議》,龔文全,2019-03-20
13
2.3人工智能與數(shù)據(jù)保護
人工智能的開發(fā)和運行過程中不僅涉及個人數(shù)據(jù),還包括企業(yè)數(shù)據(jù)、工業(yè)數(shù)
據(jù)、商業(yè)秘密、知識產(chǎn)權(quán)以及涉及社會安全、國家安全的多種重要數(shù)據(jù),這些數(shù)據(jù)
的安全保護當前同樣面臨重大風(fēng)險。
在人工智能開發(fā)和應(yīng)用場景中,我們所要關(guān)注的數(shù)據(jù)安全保護問題并不僅僅是
"人工智能模塊"本身,而是包含人工智能模塊的整個應(yīng)用系統(tǒng)的數(shù)據(jù)安全問題,
以及人工智能產(chǎn)業(yè)鏈上下游中的數(shù)據(jù)安全問題,包括數(shù)據(jù)采集、傳輸、存儲、使用
以及流通等數(shù)據(jù)生命周期的各個環(huán)節(jié)。
前麗卻?安龕艮H底罐條安全風(fēng)岫.
后■數(shù)事存“安全M險ffKH9K19■安堂MA
匕tUt*曲安金RA
歐?■改M
圖3人工智能中的數(shù)據(jù)生命周期安全風(fēng)險
2.3.1數(shù)據(jù)采集安全風(fēng)險
在人工智能場景中數(shù)據(jù)采集環(huán)節(jié)的安全風(fēng)險主要涉及合規(guī)管控問題,例如訓(xùn)練
數(shù)據(jù)、測試數(shù)據(jù)、現(xiàn)場數(shù)據(jù)的采集行為的合規(guī)性。
2.3.2數(shù)據(jù)傳輸安全風(fēng)險
數(shù)據(jù)傳輸環(huán)節(jié)存在數(shù)據(jù)泄露、數(shù)據(jù)遭篡改等安全風(fēng)險。
?典型案例1:在智能音箱場景中,用戶的語音請求轉(zhuǎn)換成數(shù)字信號后需
將其傳回到云端,根據(jù)需求調(diào)用相關(guān)應(yīng)用程序服務(wù)后再將反饋的信息傳回智
能音箱和移動終端,在傳輸過程中可能發(fā)生數(shù)據(jù)泄露等風(fēng)險。
?典型案例2:在自動駕駛場景中,通過傳感器、激光雷達等傳感設(shè)備采
集的數(shù)據(jù)需通過車內(nèi)網(wǎng)絡(luò)(以太網(wǎng)等)進行數(shù)據(jù)傳輸,在此過程中,惡意攻
擊可能會對傳輸過程中的數(shù)據(jù)進行篡改,影響車輛行駛安全。
?典型案例3:在工業(yè)場景下,工業(yè)機器人的控制參數(shù)等數(shù)據(jù)在傳輸過程
中也可能遭到篡改,造成工業(yè)現(xiàn)場人員傷亡、設(shè)備損壞等安全風(fēng)險。
2.3.3數(shù)據(jù)存儲安全風(fēng)險
數(shù)據(jù)存儲分為本地現(xiàn)場存儲(前端)、后端數(shù)據(jù)存儲和云端存儲。在許多人工
智能應(yīng)用場景中,需要在現(xiàn)場對數(shù)據(jù)進行實時分析和處理,例如自動駕駛、人臉識
別安防系統(tǒng)等,也有許多場景會把數(shù)據(jù)傳回云端,在云端進行處理和存儲,此外在
有些場景下,既有存儲在現(xiàn)場和前端的數(shù)據(jù),也有存儲在云端的數(shù)據(jù)。當前,無論
是在前端還是后端,數(shù)據(jù)存儲的安全管控都面臨重大挑戰(zhàn)。一方面前端和設(shè)備終端
的數(shù)據(jù)存儲環(huán)境安全性差,安全防護能力弱,給數(shù)據(jù)存儲帶來安全風(fēng)險。另一方面
云端數(shù)據(jù)庫安全問題突出,數(shù)據(jù)泄露風(fēng)險大。
■典型案例1:2019年2月,國內(nèi)人臉識別公司深網(wǎng)視界被曝由于未對內(nèi)部
使用的一個MongoDB數(shù)據(jù)庫做訪問限制,并直接暴露在公網(wǎng)上,導(dǎo)致超過
250萬的公民個人信息數(shù)據(jù)能夠不受任何限制的被所有人訪問到。
?典型案例2:城市中的視頻監(jiān)控AI系統(tǒng)產(chǎn)生的數(shù)據(jù)量巨大且較為敏感,
易遭到惡意攻擊造成視頻數(shù)據(jù)泄露。此外設(shè)備宕機、斷網(wǎng)斷電等將造成重要
數(shù)據(jù)丟失,因此在該場景下針對大數(shù)據(jù)量的容災(zāi)備份能力對于數(shù)據(jù)安全存儲
極為重要。
2.3.4數(shù)據(jù)使用安全風(fēng)險
在人工智能的開發(fā)和應(yīng)用中,數(shù)據(jù)預(yù)處理、數(shù)據(jù)標注(人工)、模型訓(xùn)練、模
型測試、模型參數(shù)部署、實際數(shù)據(jù)處理等環(huán)節(jié)都涉及數(shù)據(jù)的使用(如圖3所示),
其中存在眾多安全問題。例如亞馬遜公司曾被爆出,用戶家中的智能音箱Echo
在未經(jīng)用戶授權(quán)的情況下,私自將家人間的聊天記錄發(fā)送給了聯(lián)系人列表中的人。
再如智能手機、智能音箱、智能汽車等智能設(shè)備回傳給企業(yè)的數(shù)據(jù)在處理和使用過
程中也存在敏感數(shù)據(jù)泄露問題。此外,數(shù)據(jù)挖掘分析過程中可能會分析得到危害國
家安全、企業(yè)安全和個人安全的結(jié)果,造成數(shù)據(jù)價值泄露風(fēng)險。這些都是人工智能
系統(tǒng)在使用數(shù)據(jù)過程中產(chǎn)生的安全問題。
2.3.5數(shù)據(jù)流通安全風(fēng)險
數(shù)據(jù)集的采集和標注是人工智能模型訓(xùn)練之前的重要步驟。當前,受人工智能
技術(shù)熱潮的驅(qū)動,國內(nèi)外涌現(xiàn)了眾多規(guī)模不等的數(shù)據(jù)采集、標注公司,以及一些眾
包平臺,人工智能企業(yè)多通過眾包市場的方式實現(xiàn)海量數(shù)據(jù)的采集和標注。然而,
在數(shù)據(jù)的采集、標注等環(huán)節(jié)中,數(shù)據(jù)鏈條中所涉及的多方主體的數(shù)據(jù)保護能力參差
不齊,當涉及敏感數(shù)據(jù)的處理和數(shù)據(jù)在多方主體之間流動時,面臨數(shù)據(jù)泄露等安全
風(fēng)險。此外,數(shù)據(jù)在流通、共享和開放過程中才能實現(xiàn)價值,各地都在積極推動數(shù)
據(jù)開放和共享,但數(shù)據(jù)安全是其中面臨的重要問題。如何保證數(shù)據(jù)在流通和共享過
程中的安全使用、安全存儲、安全銷毀將是一大挑戰(zhàn)。此外,涉及數(shù)據(jù)跨境流動的
場景也會對國家安全和個人信息保護造成不可控的安全風(fēng)險。例如在自動駕駛場景
下,車輛產(chǎn)生的路況、地圖、車主信息等大量數(shù)據(jù)可能回傳境外的汽車制造商,進
行處理和再利用,這將給重要數(shù)據(jù)和敏感數(shù)據(jù)帶來安全風(fēng)險。
3、國內(nèi)外應(yīng)對與舉措
3.1般趣
3.1.1倡議層面
目前,對于人工智能可能帶來的數(shù)據(jù)安全和隱私風(fēng)險,已經(jīng)引起了國際社會的
廣泛關(guān)注和擔憂。美、英、日、歐盟等國家和地區(qū)的政府機構(gòu)、相關(guān)社會組織及大
型科技公司都發(fā)出了在人工智能開發(fā)和應(yīng)用中保護個人數(shù)據(jù)和隱私的倡議(見附錄
1)o此外,由數(shù)據(jù)質(zhì)量導(dǎo)致的AI系統(tǒng)性能、偏見及歧視問題,也成為AI發(fā)展中受
到重點關(guān)注的問題,在國內(nèi)外各個AI倫理和安全發(fā)展倡議中都是首要提及的議題。
3.1.2法規(guī)層面
目前,為應(yīng)對人工智能新技術(shù)新應(yīng)用快速發(fā)展給現(xiàn)有數(shù)據(jù)安全和個人數(shù)據(jù)保護
法律制度帶來的挑戰(zhàn),部分國家和地區(qū)已經(jīng)開始針對某些人工智能特定應(yīng)用場景
(例如自動駕駛、人臉識別、用戶畫像等),制定相關(guān)法律。
■場景1:用戶畫像與自動化決策
在歐洲,2018年5月正式實施的歐盟《通用數(shù)據(jù)保護條例》(簡稱
GDPR)對包括用戶畫像在內(nèi)的自動化決策行為進行了規(guī)定21,提出數(shù)據(jù)主體
應(yīng)當有權(quán)隨時反對企業(yè)使用其個人數(shù)據(jù)對其進行畫像等自動化決策。
在美國,"Facebook數(shù)據(jù)泄露事件"爆發(fā)后,美國力口州于2018年6月
通過《2018加州消費者隱私法案》。該法案同GDPR類似,也對包括自動化
技術(shù)在內(nèi)的數(shù)據(jù)處理活動提出了嚴苛要求。
21REGULATION(EU)2016/679OFTHEEUROPEANPARLIAMENTANDOFTHECOUNCILof27April2016ontheprotectionofnaturalpersonswith
regardtotheprocessingo(personaldataandonthefreemovementofsuchdata,andrepealingDirective95/46/EC(GeneralDataProtectionRegulation)
?場景2:人臉識別
比利時政府在2018年7月出臺相應(yīng)法規(guī),禁止私人使用人臉識別或其他
基于生物特征的視頻分析攝像機,這一舉措有效地打擊了非警方使用人臉識
別攝像機帶來的隱私問題。
2019年5月,美國舊金山出臺法規(guī)禁止政府機構(gòu)使用人臉識別技術(shù)。
?場景3:自動駕駛
2017年7月出臺的《美國自動駕駛法案》方要求自動駕駛汽車制造商必
須制定隱私保護計劃,明確對車主和乘客信息的收集、使用、分享和存儲的
相關(guān)做法,包括在收集方式、數(shù)據(jù)最小化、去識別化以及數(shù)據(jù)留存等方面的
做法。
在我國,《網(wǎng)絡(luò)安全法》規(guī)定網(wǎng)絡(luò)運營者應(yīng)當按照網(wǎng)絡(luò)安全等級保護制度的要
求,采取數(shù)據(jù)分類、重要數(shù)據(jù)備份和加密等措施,防止網(wǎng)絡(luò)數(shù)據(jù)泄露或者被竊取、
篡改,并對個人信息保護提出了明確要求。此外,《個人信息保護法》、《數(shù)據(jù)安
全法》均已列入國家立法規(guī)劃,預(yù)計將囊括人工智能等新技術(shù)新應(yīng)用中的數(shù)據(jù)安全
問題。2019年5月,國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見
稿)》對“定向推送”服務(wù)做出了明確規(guī)定,要求"網(wǎng)絡(luò)運營者利用用戶數(shù)據(jù)和算
法推送新聞信息、商業(yè)廣告等,應(yīng)當以明顯方式標明‘定推’字樣,并為用戶提供
停止接收定向推送信息的功能。
當前,針對人工智能數(shù)據(jù)質(zhì)量以及由此導(dǎo)致的AI系統(tǒng)性能、倫理、偏見等問
題,國內(nèi)外法規(guī)仍處于空白階段。
22H.R.3388SELFDRIVEAct
https://www.congress,gov/115/bills/hr3388/BILLS-115hr3388eh.pdf
3.1.3標準指南
在標準指南制定方面,目前國內(nèi)外尚未有專門針對人工智能數(shù)據(jù)安全的通用性
標準或指南性文件,而是僅在某些特定領(lǐng)域的標準或指南中涉及某些場景的數(shù)據(jù)安
全要求(見附錄2),例如英國政府于2017年8月發(fā)布的《網(wǎng)聯(lián)汽車和自動駕駛汽
車的網(wǎng)絡(luò)安全關(guān)鍵原則》情,對數(shù)據(jù)和個人信息的安全存儲、傳輸、處理和刪除提出
了明確要求;歐盟網(wǎng)絡(luò)與信息安全局(ENISA)于2018年發(fā)布的《自動代理中的
安全和隱私——為網(wǎng)絡(luò)安全政策制定形成框架》“對人工智能和自動代理
(AutonomousAgents)中存在的數(shù)據(jù)安全和隱私問題進行了梳理,并提出了對
策建議。
目前,我國也在某些針對人工智能特定應(yīng)用場景的標準中明確了數(shù)據(jù)安全要
求,如《信息技術(shù)安全技術(shù)生物特征識別信息的保護要求》(征求意見稿)、
《信息安全技術(shù)智能家居安全通用技術(shù)要求》(征求意見稿)、《信息安全技術(shù)
個人信息安全規(guī)范》(征求意見稿)等。
3.2技術(shù)發(fā)展
除傳統(tǒng)的數(shù)據(jù)安全技術(shù)以外,目前,針對人工智能中的數(shù)據(jù)和隱私安全問題,
以及面向人工智能數(shù)據(jù)的惡意攻擊,已有技術(shù)層面的解決辦法和防御手段,在一定
程度上可緩解數(shù)據(jù)安全風(fēng)險。
3.2.1保護隱私的機器學(xué)習(xí)技術(shù)
基于隱私的機器學(xué)習(xí)技術(shù)可以從根本上解決人工智能發(fā)展中的隱私問題。目前
國際上致力于此類技術(shù)研究的行業(yè)實驗室主要包括VisaResearch.Vector
Institute,GoogleBrain、DeepMind、MicrosoftResearch.IntelAI、
ElementAI等,此外,斯坦福大學(xué)、麻省理工學(xué)院等學(xué)術(shù)機構(gòu)也在開展此類技術(shù)
研究。
23Thekeyprinciplesofvehiclecybersecurityforconnectedandautomatedvehicles
https://www.gov.uk/government/publications/principles-of-cyber-security-for-connected-and-automated-vehicles/the-key-principles-of-
vehicle-cyber-security-for-connected-and-automated-vehicles
24TowardsaframeworkforpolicydevelopmentincybersecuritySecurityandprivacyconsiderationsinautonomousagents.ENISA,2018.12
20
?基于同態(tài)加密的隱私保護技術(shù)
目前,在利用加密技術(shù)有效保護深度學(xué)習(xí)中的隱私和敏感數(shù)據(jù)方面已經(jīng)取得一
定的技術(shù)進展。例如,同態(tài)加密技術(shù)允許對加密訓(xùn)練數(shù)據(jù)進行計算,當應(yīng)用于機器
學(xué)習(xí)時,它能夠讓數(shù)據(jù)所有者在獲得數(shù)據(jù)價值信息的同時不暴露其基礎(chǔ)數(shù)據(jù),可有
效解決訓(xùn)練數(shù)據(jù)的隱私問題。當前已經(jīng)可以實現(xiàn)基于加密敏感訓(xùn)練數(shù)據(jù)集對深度學(xué)
習(xí)模型進行訓(xùn)練,在模型運行過程中,也可以基于加密的輸入數(shù)據(jù)進行決策,同時
反饋的結(jié)果也是密文,從而有效地保護用戶隱私:英特爾于2018年12月推出的開
源版HE-Transformer,即利用同態(tài)加密技術(shù),使得機器學(xué)習(xí)算法能夠處理加密隱
私數(shù)據(jù)。但目前該技術(shù)在應(yīng)用過程中面臨的挑戰(zhàn)是會大大延長計算時間,導(dǎo)致訓(xùn)練
過程低效2:
?基于差分隱私的隱私保護技術(shù)
在許多場景下機器學(xué)習(xí)涉及基于敏感數(shù)據(jù)進行學(xué)習(xí)和訓(xùn)練,例如個人照片、電
子郵件等。理想情況下,經(jīng)過訓(xùn)練的機器學(xué)習(xí)模型的參數(shù)代表的應(yīng)該是一般模式,
而不是關(guān)于特定訓(xùn)練示例的事實。為了確保訓(xùn)練數(shù)據(jù)中的隱私得到有效的保護,可
以使用差分隱私技術(shù)。差分隱私是一種被廣泛認可的隱私保護技術(shù),通過對數(shù)據(jù)添
加干擾噪聲的方式保護數(shù)據(jù)中的隱私信息。當對用戶數(shù)據(jù)進行訓(xùn)練時,差分隱私技
術(shù)能夠提供強大的數(shù)學(xué)保證,保證模型不會學(xué)習(xí)或記住任何特定用戶的細節(jié)。
2016年,研究者提出基于差分隱私的深度學(xué)習(xí)算法,利用隨機梯度下降過程中對
梯度增加擾動來保護訓(xùn)練敏感數(shù)據(jù)7但在某些情況下,由于添加了噪聲,差分隱
私技術(shù)可能會導(dǎo)致精度受到影響曾
*《深度學(xué)習(xí)中的隱私保護技術(shù)綜述》,唐鵬,黃征,邱衛(wèi)東,信息安全與通信保密,2019.
26(基于同態(tài)加密的機器學(xué)習(xí)研究綜述》,孟書海,電腦知識與技術(shù),2019.
27Deeplearningwithdifferentialprivacy(C]//2016ACMSigsacConferenceonComputerandCommunicationsSecurity.
28EvaluationofPrivacy-PreservingTechnologiesfbrMachineLearning
https://medium,com/outlier-ventures-io/evaluation-of-privacy-preserving-technologies-for-machine-learning-8d2e3c87828c
21
?安全多方計算
安全多方計算是密碼學(xué)的一個子領(lǐng)域,能夠支持非公開的分布式計算。它可以
解決一組互不信任的參與方之間保護隱私的協(xié)同計算問題,安全多方計算要確保輸
入的獨立性、計算的正確性、去中心化等特征,同時不將各輸入值泄露給參與計算
的其他成員:安全多方計算運用到機器學(xué)習(xí)中,可有效解決訓(xùn)練過程中的隱私保護
問題。使用非公開的多方機器學(xué)習(xí)(privatemulti-partymachinelearning),不
同的參與方可以相互發(fā)送加密數(shù)據(jù),并在不查看彼此數(shù)據(jù)的情況下獲得各方想要計
算的模型I目前該技術(shù)應(yīng)用的挑戰(zhàn)也是計算時間較長,并且需要多方通信。
?聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)允許基于分散數(shù)據(jù)對機器學(xué)習(xí)模型進行訓(xùn)練,以解決隱私保護的問
題。在聯(lián)邦學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)分散在每個節(jié)點上,然后由一個中央服務(wù)器協(xié)調(diào)各個
節(jié)點組成的網(wǎng)絡(luò)。每個節(jié)點都基于各自的數(shù)據(jù)訓(xùn)練一個本地模型,各個節(jié)點再將訓(xùn)
練得到的模型共享給中央服務(wù)器,數(shù)據(jù)則仍然保留在每個節(jié)點,不被共享。這種方
式可以有效解決數(shù)據(jù)被集中帶來的隱私和數(shù)據(jù)安全問題。2017年,谷歌發(fā)布了應(yīng)
用于移動設(shè)備的聯(lián)邦學(xué)習(xí)算法,可以將模型訓(xùn)練引入移動設(shè)備中,同時確保所有用
于模型訓(xùn)練的用戶數(shù)據(jù)保存在設(shè)備上(見5.3)。但目前聯(lián)邦學(xué)習(xí)應(yīng)用在移動設(shè)備
上還面臨通信帶寬的挑戰(zhàn),有限的通信帶寬會顯著延長聯(lián)邦學(xué)習(xí)過程的收斂時間I
29https://blog.csdn.net/fightingeagle/article/details/81535940
3。PrivacyEnhancingTechnologiesreport-RoyalSociety
https://royalsociety,org/-/media/policy/projects/privacy-enhancing-technologies/privacy-enhancing-technologies-report,pdf
3iFederatedLearning:TheFutureofDistributedMachineLearning
https://medium,com/syncedreview/federated-learning-the-future-of-distributed-machine-learning-eec95242d897
I22
3.2.2數(shù)據(jù)偏見檢測技術(shù)
訓(xùn)練數(shù)據(jù)的不足和偏見會導(dǎo)致AI系統(tǒng)產(chǎn)生偏見。當前,已有許多企業(yè)和學(xué)術(shù)機
構(gòu)開始研究如何檢測和解決訓(xùn)練數(shù)據(jù)中的偏見問題,并已取得了一定成果。例如,
麻省理工學(xué)院的研究人員”開發(fā)了一種算法來減輕訓(xùn)練數(shù)據(jù)中隱藏的、以及潛在未
知的偏見。這種算法將原始學(xué)習(xí)任務(wù)與變分自編碼器相融合,以學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中
的潛在結(jié)構(gòu),然后自適應(yīng)地使用所學(xué)習(xí)到的潛在分布,在訓(xùn)練過程中重新加權(quán)特定
數(shù)據(jù)點的重要性。通過無監(jiān)督的方式學(xué)習(xí)潛在的數(shù)據(jù)分布可以幫助發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中
隱藏的偏見,例如訓(xùn)練數(shù)據(jù)集中代表性不足的數(shù)據(jù)種類,再通過增加算法采樣這些
數(shù)據(jù)的概率來避免偏見被引入AI系統(tǒng)中。研究人員通過該技術(shù)有效解決了人臉識別
系統(tǒng)中的種族和性別偏見問題。此外,谷歌,IBM(見5.5)等公司也分別開發(fā)了
用于檢測AI偏見和數(shù)據(jù)偏見的工具。
3.2.3數(shù)據(jù)生成技術(shù)
?數(shù)據(jù)增強
數(shù)據(jù)增強技術(shù)是指通過多種方式增加訓(xùn)練數(shù)據(jù)樣本的數(shù)量以及多樣性。例如可
以通過旋轉(zhuǎn)原始圖像,調(diào)整亮度、對比度、飽和度和色調(diào),以及以不同的方式裁剪
圖片等方式,生成不同的子樣本數(shù)據(jù),以此方式來擴大數(shù)據(jù)集的大小。每個通過增
強得到的圖像都可以被認為是一個"新"圖像,因此可以為模型不斷提供新的訓(xùn)練
樣本。應(yīng)用數(shù)據(jù)增強技術(shù)還可以有助于減輕過擬合”提高模型的準確率。
32UncoveringandMitigatingAlgorithmicBiasthroughLearnedLatentStructure
http://www.aies-conference,com/wp-content/papers/main/AIES-19_paper_22O.pdf
"TheWhat-IfTool:Code-FreeProbingofMachineLearningModels
https:///2018/09/the-what-if-tool-code-free-probing-ofhtml
34DealingwiththeLackofDatainMachineLearning
https:///predict/dealing-with-the-lack-of-data-in-machine-learning-725f2ab<12b92
23
■合成數(shù)據(jù)
合成數(shù)據(jù)是由算法生成的數(shù)據(jù),而不是來自真實世界的數(shù)據(jù)。這些數(shù)據(jù)可以用
來訓(xùn)練機器學(xué)習(xí)模型,或者作為驗證模型的測試數(shù)據(jù)集。利用合成數(shù)據(jù)訓(xùn)練模型,
再將其應(yīng)用于真實的加密數(shù)據(jù),不僅可以更好地理解訓(xùn)練數(shù)據(jù)與模型之間的關(guān)系,
還可以避免隱私數(shù)據(jù)的使用。合成數(shù)據(jù)應(yīng)包含與真實數(shù)據(jù)相同的模式和統(tǒng)計特征。
合成少數(shù)類過采樣技術(shù)(SMOTE)和改進的SMOTE技術(shù)是產(chǎn)生合成數(shù)據(jù)的兩種技
術(shù)。目前,英偉達已開發(fā)了一種深度學(xué)習(xí)模型,用于自動合成訓(xùn)練數(shù)據(jù)(見5.6)。
3.2.4減少數(shù)據(jù)需求的技術(shù)
?遷移學(xué)習(xí)
遷移學(xué)習(xí)是指把為一個任務(wù)開發(fā)的模型作為起始點,重新用于為第二個任務(wù)開
發(fā)模型的過程3:這種機器學(xué)習(xí)方法使用從第一個學(xué)習(xí)任務(wù)中獲得的知識來改進該
模型在另一個相關(guān)任務(wù)上的性能。通過重用這些已開發(fā)模型的部分模塊,可以加快
開發(fā)和訓(xùn)練模型所需的時間。同時,遷移學(xué)習(xí)技術(shù)還可以減少模型開發(fā)所需的訓(xùn)練
數(shù)據(jù)數(shù)量。當訓(xùn)練數(shù)據(jù)不足時,可以考慮采用這種方法來獲得所需的模型。
?小數(shù)據(jù)
當前普遍使用的機器學(xué)習(xí)算法需要大量數(shù)據(jù)用于模型訓(xùn)練,并且數(shù)據(jù)的量越
多越好,這帶來了數(shù)據(jù)安全、隱私和偏見問題。目前已有許多研發(fā)人員開始研究基
于小數(shù)據(jù)的人工智能算法。這種方式不僅使得人工智能更加智能、決策更加準備、
算法更加具有可解釋性,同時也能解決數(shù)據(jù)難獲取和數(shù)據(jù)安全的問題。例如,通過
高斯過程構(gòu)建的概率模型可以基于少量數(shù)據(jù)模擬人類的推理過程,處理廣泛的不確
定性,并從經(jīng)驗中學(xué)習(xí)T谷歌的"ProjectLoon"氣球網(wǎng)絡(luò)計劃就在其導(dǎo)航系統(tǒng)
中利用高斯過程來預(yù)測氣球在分層且多變的風(fēng)向中的去向。這種技術(shù)不需要大量的
數(shù)據(jù)進行模式識別,其推理和學(xué)習(xí)所需的計算是相對簡單的,如果出了問題,它的
原因也是可追蹤的。
35AnIntroductiontoTransferLearninginMachineLearning.
https://medium.com/kansas-city-machine-learning-artificial-intelligen/an-introduction-to-transfer-learning-in-machine-learning-7efdl04b6026
36TheFutureofAlWillBeAboutLessData,NotMore
https://hbr.org/2019/01/the-future-of-ai-will-be-about-less-data-not-more
24
3.2.5針對數(shù)據(jù)投毒的防御技術(shù)
?防訓(xùn)練數(shù)據(jù)集污染
針對通過污染訓(xùn)練數(shù)據(jù)集以達到影響算法決策的攻擊類型,目前存在三種技術(shù)
可以防御此類攻擊,包括訓(xùn)練數(shù)據(jù)過濾、回歸分析和集成分析方法“其中訓(xùn)練數(shù)
據(jù)過濾是通過檢測和凈化的方法實現(xiàn)對訓(xùn)練數(shù)據(jù)集的控制,防止訓(xùn)練數(shù)據(jù)集被注入
惡意數(shù)據(jù);回歸分析是基于統(tǒng)計學(xué)方法,檢測數(shù)據(jù)集中的噪聲和異常值;集成分析
是通過采用多個獨立模型構(gòu)建綜合AI系統(tǒng),來減少綜合AI系統(tǒng)受數(shù)據(jù)污染的影響程
度。
?防對抗樣本攻擊
應(yīng)對針對現(xiàn)場數(shù)據(jù)的對抗樣本攻擊當前可采用的防御方法包括:網(wǎng)絡(luò)蒸憎、對
抗訓(xùn)練、對抗樣本檢測、輸入重構(gòu)、深度神經(jīng)網(wǎng)絡(luò)模型驗證等。其中對抗訓(xùn)練技術(shù)
可通過在模型訓(xùn)練階段,使用已知的攻擊方法生成的對抗樣本,對模型進行重訓(xùn)
練,改進模型的抗攻擊能力;對抗樣本檢測技術(shù)是在模型運行階段,通過特殊的檢
測模型對現(xiàn)場數(shù)據(jù)進行判斷,檢測現(xiàn)場數(shù)據(jù)是否包含對抗樣本;輸入重構(gòu)技術(shù)是指
在模型運行階段,對樣本進行重構(gòu)轉(zhuǎn)化,以抵消對抗樣本的影響。
3.3當前存在的差距
隨著人工智能的快速發(fā)展,相關(guān)數(shù)據(jù)安全事件的不斷曝光雖然已經(jīng)引發(fā)了各方
的擔憂和關(guān)切,并已逐步開始在法規(guī)、標準、技術(shù)層面提出解決方案,但距離有效
解決數(shù)據(jù)安全問題,仍存在較大差距。具體問題包括:
法如企量?圾
馬成演樽?倬在不?.L班I二,航王合■<£動「
標*“投索”
蝮乏人工胃全■用
京不電.
00?金標4
圖4當前人工智能數(shù)據(jù)安全能力差距
37《AI安全白皮書》,華為
25
1.法規(guī)層面:
?法律存在盲點:例如針對訓(xùn)練數(shù)據(jù)集的質(zhì)量問題,當前國內(nèi)外都缺乏相應(yīng)的法
規(guī)予以規(guī)范。此外,我國仍未推出《數(shù)據(jù)安全法》、《個人信息保護法》
等數(shù)據(jù)安全法規(guī),而既有法規(guī)無法對人工智能中涉及的數(shù)據(jù)隱私問題予以
全面、有效規(guī)制。
?法律存在不適用性:當前人工智能存在數(shù)據(jù)需求量大、算法可解釋性不
足、數(shù)據(jù)處理不可預(yù)測等特點,使得目前的數(shù)據(jù)保護法律中有許多條款在
人工智能場景下具有一定的不適用性,并且不利于人工智能技術(shù)的發(fā)展。
例如GDPR中的數(shù)據(jù)最小化、知情同意、收集限制、用途明確及使用限制等
原則,對人工智能企業(yè)來說具有一定的合規(guī)挑戰(zhàn)3;
2.標準層面:由于人工智能的應(yīng)用范圍及其廣泛,幾乎可以覆蓋到所有的行
業(yè),因此,需要針對各個應(yīng)用場景中的共同問題,制定通用的人工智能數(shù)據(jù)安全標
準,保障訓(xùn)練數(shù)據(jù)的質(zhì)量,保護個人和組織數(shù)據(jù)的安全采集、使用和存儲。止匕外,
由于在不同應(yīng)用場景中,數(shù)據(jù)的敏感程度、重要程度、以及人工智能的部署方式存
在差異,因此需要針對不同應(yīng)用場景的特異性,在通用標準的原則基礎(chǔ)上,制定相
應(yīng)的不同領(lǐng)域的數(shù)據(jù)安全標準。然而,當前在全球范圍內(nèi),無論是通用標準,還是
細分領(lǐng)域標準,都比較缺乏。
3.企業(yè)意識:由于人工智能相關(guān)技術(shù)發(fā)展處于早期階段,且發(fā)展迅速,全球范
圍內(nèi)無論是大型科技企業(yè),還是初創(chuàng)企業(yè),都在爭先恐后地開展人工智能技術(shù)的開
發(fā)和應(yīng)用研究,甚少有企業(yè)關(guān)注其中的數(shù)據(jù)安全問題,除非出現(xiàn)了相關(guān)的數(shù)據(jù)泄露
事件或隱私爭議性事件。當前,雖然谷歌、蘋果、Facebook、微軟等科技巨頭在
外界壓力下都開始致力于保護用戶數(shù)據(jù)、消除數(shù)據(jù)偏見,但絕大多數(shù)企業(yè),尤其是
初創(chuàng)小型企業(yè),都普遍缺乏對數(shù)據(jù)安全的關(guān)注。此外,由于法律的發(fā)展具有一定的
滯后性,當前的人工智能發(fā)展仍處于野蠻和不受規(guī)制的階段,雖然針對用戶數(shù)據(jù)保
護的倡議不斷,但企業(yè)不存在合規(guī)壓力,因此數(shù)據(jù)安全的風(fēng)險極其嚴峻。
3xCenterForInformationPolicyLeadership,ArtificialIntelligenceandDataProtectioninTension
https://wurw./uploads/5/7/1/0/57104281/cipl_ai_firsl_report.-_artificial_intel1igence_and_data_protection.in_te....pdf
26
4.技術(shù)層面:當
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河南鋼鐵集團數(shù)字應(yīng)用研究院招聘備考題庫及參考答案詳解一套
- 2025年現(xiàn)代中藥制劑教育部重點實驗室科研助理招聘補報通知備考題庫完整參考答案詳解
- 機器人輔助外科虛擬手術(shù)仿真系統(tǒng)開發(fā)
- 2025年南寧市西鄉(xiāng)塘區(qū)人民法院招聘司法輔助人員的備考題庫及1套完整答案詳解
- 2025年贛江新區(qū)儒樂湖第一幼兒園公開招聘管理崗位備考題庫及1套參考答案詳解
- 云南省阜外心血管病醫(yī)院開展2026年校園招聘19人備考題庫及1套完整答案詳解
- 2025年文山州檢驗檢測認證院事業(yè)單位緊缺崗位招聘備考題庫完整答案詳解
- 2025年深圳市南山區(qū)科技第二幼兒園招聘機動教師1名備考題庫及參考答案詳解
- 2025年無錫某醫(yī)院招聘備考題庫及一套完整答案詳解
- 粵規(guī)科技2026頂尖校園人才招聘備考題庫及參考答案詳解一套
- 2025下半年廣東珠海市紀委監(jiān)委招聘所屬事業(yè)單位工作人員12人考試筆試備考試題及答案解析
- 2025年中職物理(物理基礎(chǔ)知識)試題及答案
- “現(xiàn)代控制理論”教學(xué)改革與創(chuàng)新實踐
- (新教材)部編人教版三年級上冊語文全冊核心素養(yǎng)教案(教學(xué)反思無內(nèi)容+二次備課版)
- 能源轉(zhuǎn)型新探索-國網(wǎng)江蘇電力氣候行動解決方案
- 2025年榆林神木市信息產(chǎn)業(yè)發(fā)展集團招聘備考題庫(35人)附答案詳解(綜合題)
- 企業(yè)預(yù)算規(guī)劃及成本控制管理表控制成本
- 拆除鋼架安全協(xié)議書
- 捕撈作業(yè)安全協(xié)議書
- 小學(xué)人教版一年級語文拼音教學(xué)設(shè)計
- 水電站設(shè)備運行安全操作規(guī)程手冊
評論
0/150
提交評論