人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全

上傳人：q*** IP屬地：山東上傳時間：2025-09-13 格式：PPTX 頁數(shù)：579 大小：32.60MB 積分：15 舉報 版權(quán)申訴

人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全_第2頁

人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全_第3頁

人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全_第4頁

人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全_第5頁

已閱讀5頁，還剩574頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第一章人工智能安全概述人工智能安全簡介本章介紹本章從幾個經(jīng)典的人工智能（AI，ArtificialIntelligence）安全案例事件說起，引入人工智能安全的概念及框架，說明了人工智能安全現(xiàn)狀與治理方法。最后給出了使用本教材時可能會遇到的一些問題及解決方案。知識與能力目標了解人工智能安全的重要性。認知人工智能安全的概念。掌握人工智能安全的模型。了解人工智能安全現(xiàn)狀與治理方法。了解本教材的知識體系。內(nèi)容提綱1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法1.2人工智能安全的概念1.1人工智能安全的引入1.4人工智能安全現(xiàn)狀與治理1.5本書的使用方法1.1人工智能安全的引入當前，人類已經(jīng)進入了人工智能時代。各種人工智能技術(shù)如雨后春筍般爆發(fā)式出現(xiàn)，ChatGPT、Deepseek、Manus等人工智能大模型的應(yīng)用更是大大改變了人們原本的生活方式。另外，機器人的出現(xiàn)將在未來會替換到大多數(shù)人類的工作。如圖1-1所示為做煎餅果子的機器人，并且在獨立營業(yè)。1.1人工智能安全的引入

2016年11月18日，在中國深圳舉辦的“第十八屆中國國際高新技術(shù)成果交易會”上，一臺名為“小胖”的機器人引起了很多人的興趣。如圖所示為小胖機器人。1.1人工智能安全的引入小胖機器人原為4-12歲兒童研發(fā)，主要用于教育目的。然而在展示的過程中這臺機器人卻突發(fā)故障，在沒有任何指令的前提下自行打砸展臺的玻璃，最終導致部分展臺被破壞。更為嚴重的是，該機器人在破壞展臺的過程中還砸傷了一名路人。如圖所示為受傷的路人。該事件大概是國內(nèi)最早報道的機器人傷害人類的事件。以前類似事件多是在電影電視里才能看到的虛擬場景。從深圳這次安全事件可以看出，人工智能方法自身如果出現(xiàn)問題就可以威脅到人類的安全。1.1人工智能安全的引入當前，人工智能技術(shù)應(yīng)用最具新穎和挑戰(zhàn)性的場景之一就是自動駕駛技術(shù)，但是就是這樣一種技術(shù)處理不好的話，依然影響著人類的生命安全。例如，2018年3月23日，蘋果公司華裔工程師黃偉倫駕駛特斯拉ModelX在加利福尼亞州山景城附近的高速路上，撞上公路屏障不幸身亡。如圖所示為事故現(xiàn)場。1.1人工智能安全的引入美國國家運輸安全委員會（NTSB）的調(diào)查結(jié)果顯示，該車禍發(fā)生前，這輛特斯拉車的自動駕駛輔助系統(tǒng)被使用了近19分鐘，當時汽車以每小時71英里的速度偏離了高速公路。這場導致駕駛員死亡的車禍明顯是技術(shù)問題，而非人為因素。

從這次事件可以看出，就連特斯拉這樣的世界級頂流自動駕駛車企，在面臨人工智能安全問題時，依然會出重大安全問題。由此可見，人工智能技術(shù)的應(yīng)用處理不好，會導致人類的生命受到安全威脅。

以上兩個典型的與人工智能相關(guān)的安全事件，一個是人工智能系統(tǒng)自身的安全問題，也稱為人工智能原生安全；另一個是人工智能技術(shù)應(yīng)用出現(xiàn)的安全問題，也稱作人工智能衍生安全。以上兩種安全問題引起了國內(nèi)外的廣泛討論，人們紛紛提出一個問題：人工智能是否安全呢？1.1人工智能安全的引入

2025年2月28日，中共中央政治局就建設(shè)更高水平平安中國進行第十九次集體學習。中共中央總書記習近平在主持學習時強調(diào)“加強網(wǎng)絡(luò)安全、人工智能安全等方面工作，著力防范重點領(lǐng)域風險！”可見從我國國家層面非常重視人工智能安全。內(nèi)容提綱1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法1.2人工智能安全的概念1.1人工智能安全的引入1.4人工智能安全現(xiàn)狀與治理1.5本書的使用方法1.2人工智能安全的概念人工智能是指通過計算機科學、數(shù)學、統(tǒng)計學等多學科交叉融合的方法，開發(fā)出模擬人類智能的技術(shù)和算法。它通過模擬人類智能的學習、推理、感知和行動能力，實現(xiàn)機器自主的思考和決策，從而完成一系列復雜的任務(wù)和功能。人工智能安全是指通過釆取必要措施，防范對人工智能系統(tǒng)的攻擊、侵入、干擾、破壞和非法使用以及意外事故，使人工智能系統(tǒng)處于穩(wěn)定可靠運行的狀態(tài)，以及遵循人工智能以人為本、權(quán)責一致等安全原則，保障人工智能算法模型、數(shù)據(jù)、系統(tǒng)和產(chǎn)品應(yīng)用的完整性、保密性、可用性、魯棒性、透明性、公平性和隱私的能力。這個人工智能安全定義是全國信息安全標準化技術(shù)委員會在《人工智能安全標準化白皮書(2019年版)》上發(fā)布的。以上的對人工智能安全定義只是強調(diào)人工智能內(nèi)在的安全。更廣義上的講，人工智能安全還包括人工智能的應(yīng)用安全。內(nèi)容提綱1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法1.2人工智能安全的概念1.1人工智能安全的引入1.4人工智能安全現(xiàn)狀與治理1.5本書的使用方法1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法人工智能安全框架如圖1-3所示。包含安全目標、安全風險、安全評估和安全保障4大維度。1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法人工智能安全風險：1.數(shù)據(jù)安全風險2.算法模型安全風險3.機器學習框架安全風險4.人工智能系統(tǒng)應(yīng)用安全風險5.法律風險。1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法人工智能安全風險的應(yīng)對方法：1.建立完善的安全管理制度。2.人工智能系統(tǒng)風險評估。3.建立應(yīng)急響應(yīng)機制。4.加強法律法規(guī)的制定和執(zhí)行。內(nèi)容提綱1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法1.2人工智能安全的概念1.1人工智能安全的引入1.4人工智能安全現(xiàn)狀與治理1.5本書的使用方法1.4人工智能安全現(xiàn)狀與治理隨著人工智能技術(shù)的不斷進步，全球人工智能安全治理體系面臨著前所未有的挑戰(zhàn)！如何構(gòu)建一個安全、可靠、高效的人工智能安全治理體系，成為各國共同面臨的重要課題。人工智能的安全性甚至于關(guān)乎整個人類的命運。2024年3月21日，聯(lián)合國大會通過了首個關(guān)于人工智能安全的全球決議草案，倡議各國合作起來共同開發(fā)“安全、可靠和值得信賴的”人工智能系統(tǒng)，為全球各國合作制定并實施人工智能技術(shù)和安全應(yīng)用的標準奠定了堅實基礎(chǔ)。2024年3月13日歐盟通過了《人工智能法案》，該法案強調(diào)依照不同風險等級來對人工智能系統(tǒng)安全進行管理。2023年7月10日,中國國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務(wù)管理暫行辦法》。內(nèi)容提綱1.3人工智能安全的架構(gòu)、風險及應(yīng)對方法1.2人工智能安全的概念1.1人工智能安全的引入1.4人工智能安全現(xiàn)狀與治理1.5本書的使用方法1.5本書的使用方法1.本教材提供了許多Python編程的實踐內(nèi)容。這些Python編程實踐的源代碼都在本教材提供的網(wǎng)盤里，讀者可以聯(lián)系本教材的編輯，免費索取使用。

2.Python編程有句俗語“編程容易，配置難”。本教材所提供的Python編程實踐編程很容易，因為作者都已經(jīng)給出了源代碼，但是Python編程環(huán)境很難配置。3.教材中，部分實踐內(nèi)容需要大量的算力資源才能實現(xiàn)。但是有的讀者算力有限，實現(xiàn)起來有困難。這種情況下有兩種解決方案：

(1)在網(wǎng)上購買算力?，F(xiàn)在網(wǎng)上有專門賣算力的，價格也不貴。在讀者經(jīng)濟每件允許的情況下，可以通過購買算力來實現(xiàn)實踐內(nèi)容。

(2)使用網(wǎng)盤中作者已經(jīng)訓練好的模型來實現(xiàn)實踐內(nèi)容。小結(jié)人工智能安全很重要。世界各國都在積極發(fā)展人工智能安全技術(shù)！感謝同學們的收聽！致謝第二章生成對抗網(wǎng)絡(luò)攻擊與防護本章介紹本章深入探討生成對抗網(wǎng)絡(luò)（GenerativeAdversarialNetworks，GANs）在信息安全領(lǐng)域的攻擊與防護問題。知識要點：1）了解生成對抗網(wǎng)絡(luò)背景概述2）熟悉生成對抗網(wǎng)絡(luò)的基本原理與改進分類3）熟悉生成對抗網(wǎng)絡(luò)攻擊的問題定義、攻擊原理與攻擊分類4）掌握生成對抗網(wǎng)絡(luò)攻擊具體實施案例5）了解生成對抗網(wǎng)絡(luò)攻擊的防護措施內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.1生成對抗網(wǎng)絡(luò)概述生成對抗網(wǎng)絡(luò)（GANs）是由IanGoodfellow等人在2014年提出的一種創(chuàng)新性深度學習模型[1]，其獨特之處在于巧妙地引入了對抗機制，通過生成器和判別器這兩個核心組件的相互博弈，實現(xiàn)對復雜數(shù)據(jù)分布的學習和生成。生成器的目標是從隨機噪聲中生成盡可能逼真的數(shù)據(jù)樣本，而判別器則負責區(qū)分真實數(shù)據(jù)和生成器生成的假數(shù)據(jù)。2.1生成對抗網(wǎng)絡(luò)概述GANs的提出為人工智能領(lǐng)域帶來了巨大的變革，其應(yīng)用范圍廣泛，涵蓋了圖像生成、文本生成、視頻生成、數(shù)據(jù)增強等多個領(lǐng)域。在圖像生成方面，GANs可以生成高質(zhì)量、高分辨率的圖像，如逼真的人臉圖像、自然風景圖像等，這些生成的圖像在視覺上與真實圖像幾乎沒有差異，可用于藝術(shù)創(chuàng)作、圖像修復、虛擬現(xiàn)實等領(lǐng)域。內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.2.1基本原理生成對抗網(wǎng)絡(luò)（GANs）由生成器（Generator）和判別器（Discriminator）兩部分組成。其核心思想是通過生成器和判別器的對抗訓練，使生成器能夠生成與真實數(shù)據(jù)分布難以區(qū)分的假數(shù)據(jù)。生成對抗網(wǎng)絡(luò)的原理結(jié)構(gòu)如圖2-1所示。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.2.1基本原理生成對抗網(wǎng)絡(luò)（GANs）2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型標準生成對抗網(wǎng)絡(luò)訓練的一般步驟如圖2-2所示。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型第1步：初始化生成器和判別器的模型參數(shù)。第2步：判斷是否滿足訓練的迭代次數(shù)。如果“是”，則結(jié)束訓練；如果“否”則進行下一步。第3步：從隨機噪聲中采用生成器的輸入向量。第4步：從生成器生成一批偽造樣本。第5步：使用判別器對真實樣本和偽造樣本進行分類。第6步：計算判別器的分類損失，并更新判別器的參數(shù)，以提高對真實和偽造樣本的區(qū)分能力。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型第7步：固定判別器的參數(shù)通過生成器生成新的偽造樣本。第8步：使用判別器對新的偽造樣本進行分類。第9步：計算生成器的生成損失，并更新生成器的參數(shù)，以提高生成樣本的質(zhì)量。第10步：進一步判斷是否滿足觀察迭代次數(shù)。如果“否”則返回第2步。如果“是”，則進行下一步。第11步：繪制真實樣本和偽造樣本的對比散點圖。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.2.2改進模型1.DCGAN（DeepConvolutionalGAN）[12]改進點：（1）網(wǎng)絡(luò)結(jié)構(gòu)：DCGAN使用深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）代替了傳統(tǒng)的多層感知機（MLP），生成器使用轉(zhuǎn)置卷積層，判別器使用卷積層。這種結(jié)構(gòu)使得GAN在圖像生成任務(wù)中更加穩(wěn)定和高效。（2）訓練技巧：DCGAN引入了標簽平滑（LabelSmoothing）技術(shù)，使得訓練過程更加平穩(wěn)。應(yīng)用場景：圖像生成、圖像超分辨率、圖像到圖像的翻譯等。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.WGAN（WassersteinGAN）改進點：（1）損失函數(shù)：WGAN使用Wasserstein距離（也稱為EarthMover距離）作為損失函數(shù)，解決了傳統(tǒng)GAN訓練過程中梯度消失和模式崩潰的問題。WGAN的訓練更加穩(wěn)定，生成的樣本質(zhì)量更高。（2）訓練技巧：WGAN去掉了最后一層的Sigmoid激活函數(shù)，生成器和判別器的損失函數(shù)不取對數(shù)，限制更新后的權(quán)重的絕對值到一定范圍內(nèi)，使用RMSprop或SGD優(yōu)化器。應(yīng)用場景：圖像生成、文本生成、數(shù)據(jù)增強等。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型3.StyleGAN改進點：（1）樣式變換層：StyleGAN通過使用來自映射網(wǎng)絡(luò)的樣式信息來調(diào)整生成圖像的特征圖，從而實現(xiàn)對圖像各個部分的控制。例如，可以使用不同的樣式信息來控制圖像的背景、面部特征、顏色等，從而生成具有特定風格的圖像。（2）漸進式訓練：StyleGAN采用漸進式訓練方法，從較低的分辨率（例如4x4）開始訓練生成器，并逐漸增加分辨率，直到最終達到目標分辨率（例如1024x1024）。這種方法可以有效緩解高分辨率圖像生成時的訓練不穩(wěn)定性。（3）映射網(wǎng)絡(luò)：StyleGAN引入了映射網(wǎng)絡(luò)，將隨機噪聲映射到一個新的潛在空間（樣式空間），使得生成器可以從樣式空間中獲取更多有用的信息，從而生成更加多樣化且高質(zhì)量的圖像。應(yīng)用場景：高分辨率圖像生成、肖像風格遷移、視頻生成等。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型4.TransGAN改進點：（1）網(wǎng)絡(luò)結(jié)構(gòu)：TransGAN使用純Transformer結(jié)構(gòu)作為生成器和判別器，解決了傳統(tǒng)GAN中卷積神經(jīng)網(wǎng)絡(luò)的局限性。Transformer的全局感受野使得生成器能夠捕獲全局特征，從而提高生成樣本的質(zhì)量和多樣性。（2）數(shù)據(jù)增強：TransGAN通過Translation、Cutout和Color三種數(shù)據(jù)增強方法，顯著提高了模型的性能。（3）相對位置編碼：TransGAN引入了相對位置編碼，增強了模型對位置信息的捕獲能力，從而進一步提升了性能。應(yīng)用場景：圖像生成、文本生成、數(shù)據(jù)增強等。內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型基于生成對抗網(wǎng)絡(luò)（GANs）的對抗攻擊是一種利用生成器與判別器對抗機制自動生成隱蔽對抗樣本的方法。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型圖2-3展示了基于GANs的對抗攻擊流程：生成器與判別器通過交替訓練優(yōu)化，最終生成器輸出的擾動能夠以高隱蔽性欺騙目標模型。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型攻擊分類：

2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型1．基于攻擊目標的分類（1）欺騙模型：攻擊者生成對抗樣本，使模型對這些樣本產(chǎn)生錯誤的預測，從而降低模型的性能和可靠性。例如，攻擊者可以生成與真實圖像極為相似的對抗圖像，使圖像分類模型將其誤分類為其他類別。（2）提取模型：攻擊者通過訓練生成器來模擬目標模型的行為，從而竊取目標模型的內(nèi)部結(jié)構(gòu)和參數(shù)信息。例如，攻擊者可以利用生成器生成與目標模型輸入相似的樣本，獲取目標模型的輸出結(jié)果，進而推斷出目標模型的內(nèi)部結(jié)構(gòu)和參數(shù)。（3）拒絕服務(wù)：攻擊者通過生成大量的對抗樣本，使目標模型在處理這些樣本時消耗大量的計算資源，導致模型無法正常響應(yīng)其他請求。（4）隱私泄露：攻擊者利用GANs生成包含敏感信息的樣本，從而泄露模型訓練數(shù)據(jù)中的隱私信息。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型1．基于攻擊目標的分類（5）數(shù)據(jù)投毒：攻擊者在訓練數(shù)據(jù)中注入惡意樣本，從而影響模型的訓練過程，使模型在訓練后對特定的輸入產(chǎn)生錯誤的預測。（6）模型投毒：攻擊者在模型訓練過程中篡改模型的參數(shù)，從而破壞模型的正常功能。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.基于攻擊者知識的分類（1）白盒攻擊：攻擊者擁有目標模型的完整知識，包括模型的結(jié)構(gòu)、參數(shù)和訓練數(shù)據(jù)等。在這種情況下，攻擊者可以充分利用這些信息來設(shè)計更有效的攻擊策略。（2）黑盒攻擊：攻擊者對目標模型沒有任何先驗知識，只能通過查詢目標模型的輸入輸出來獲取信息。這種攻擊方式更具挑戰(zhàn)性，但通過生成對抗樣本等手段，攻擊者仍然可以對目標模型實施有效的攻擊。（3）灰盒攻擊：攻擊者擁有部分目標模型的知識，例如模型的結(jié)構(gòu)或部分參數(shù)。這種攻擊方式介于白盒攻擊和黑盒攻擊之間，攻擊者可以根據(jù)已知的信息來優(yōu)化攻擊策略。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型3.基于攻擊階段的分類（1）訓練階段攻擊：攻擊者在模型的訓練階段實施攻擊，例如通過數(shù)據(jù)投毒或模型投毒等方式，影響模型的訓練過程，使模型在訓練后具有特定的漏洞或弱點。（2）部署階段攻擊：攻擊者在模型部署后實施攻擊，例如通過生成對抗樣本或拒絕服務(wù)攻擊等方式，干擾模型的正常運行，使模型在實際應(yīng)用中無法正常工作。2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型4.基于攻擊方式的分類（1）逃避攻擊：攻擊者生成對抗樣本，使其能夠逃避模型的檢測。例如，在安全檢測系統(tǒng)中，攻擊者可以生成與惡意軟件行為相似的樣本，欺騙殺毒軟件的檢測，導致惡意軟件在系統(tǒng)中潛伏和傳播。（2）投毒攻擊：攻擊者在訓練數(shù)據(jù)中注入惡意樣本，從而影響模型的訓練過程，使模型在訓練后對特定的輸入產(chǎn)生錯誤的預測。（3）隱私攻擊：攻擊者利用GANs生成包含敏感信息的樣本，從而泄露模型訓練數(shù)據(jù)中的隱私信息。（4）濫用攻擊：攻擊者利用GANs的生成能力，生成大量的虛假數(shù)據(jù)，從而對模型進行濫用，例如生成虛假的用戶評論、新聞報道等，影響模型的正常運行。內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬本次實踐的目標是構(gòu)建一個簡單的GANs模型，生成能夠欺騙判別器的偽造樣本，使判別器難以區(qū)分真實樣本和偽造樣本。具體而言，攻擊旨在使判別器在真實樣本上的準確率和偽造樣本上的準確率均接近隨機猜測水平（約50%），從而實現(xiàn)對目標模型的有效干擾。本此實踐的目的如下：理解生成對抗網(wǎng)絡(luò)GANs的基本原理：通過構(gòu)建并訓練一個簡單的GANs模型，深入學習GANs的核心概念與運作機制，明確生成器負責樣本生成、判別器負責評估樣本真實性的職責分工，掌握GANs模型通過對抗訓練實現(xiàn)優(yōu)化的基本流程。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.4.2實踐環(huán)境 Python版本：3.10.12或以上版本

深度學習框架：tensorflow2.15.0，keras2.15.0

其他庫版本：numpy1.25.2，matplotlib3.7.1 keras官方文檔：https://keras-zh.readthedocs.io/why-use-keras/ tensorflow中的keras文檔：/guide/keras?hl=zh-cn2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.4.3實踐步驟本實踐例子要求編寫代碼實現(xiàn)簡單的GANs模型，用于生成偽造樣本，流程圖如圖2-4所示。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐核心代碼定義生成器模型。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐核心代碼定義判別器模型。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐核心代碼定義完整的生成對抗網(wǎng)絡(luò)模型。。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐核心代碼定義了summarize_performance函數(shù)，用于打印當前輪次和準確率，繪制真實樣本（紅色）和偽造樣本（藍色）的分布圖，構(gòu)造并保存繪圖結(jié)果的文件名。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐核心代碼定義了train函數(shù)，用于更新判別器的權(quán)重，訓練生成器以生成更逼真的偽造樣本，先用真實數(shù)據(jù)和生成數(shù)據(jù)訓練判別器，使其能區(qū)分真假；再用生成數(shù)據(jù)訓練生成器，讓生成器欺騙判別器。每n_eval輪調(diào)用summarize_performance()函數(shù)評估并總結(jié)生成器和判別器的性能。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐結(jié)果。2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬實踐結(jié)果。內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐概述:在現(xiàn)代機器學習應(yīng)用中，模型的訓練往往依賴于大量的真實數(shù)據(jù)。然而，在某些場景下，攻擊者可能無法獲取這些真實數(shù)據(jù)，但仍然希望對目標模型進行有效的對抗性攻擊。無數(shù)據(jù)替代訓練方法（DaST）應(yīng)運而生，它通過利用生成對抗網(wǎng)絡(luò)（GANs）來合成樣本，從而在無需真實數(shù)據(jù)的情況下訓練出能夠?qū)δ繕四Ｐ瓦M行有效攻擊的替代模型。

本次實踐的主要目標是驗證DaST方法在對抗性攻擊中的有效性。具體而言，通過使用DaST訓練的替代模型生成對抗樣本，并評估這些樣本在不同場景下的攻擊成功率。本實踐實踐目的：1.檢驗DaST方法的效能：將通過DaST訓練得到的替代模型與傳統(tǒng)預訓練模型在對抗攻擊中的表現(xiàn)進行對比，證明DaST方法在生成高效對抗樣本方面的能力。2.分析不同網(wǎng)絡(luò)架構(gòu)的影響：采用多種網(wǎng)絡(luò)架構(gòu)訓練替代模型，研究不同架構(gòu)對攻擊成功率的影響，從而確定DaST方法的靈活性和適應(yīng)性。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取3.測試在現(xiàn)實世界任務(wù)中的應(yīng)用性：通過對MicrosoftAzure平臺上的在線機器學習模型實施攻擊，驗證DaST方法在實際場景中的效果。4.探索無數(shù)據(jù)訓練的潛力：DaST方法能夠在無需真實訓練數(shù)據(jù)的情況下訓練替代模型，本次實踐將探索這種訓練方式在對抗攻擊中的優(yōu)勢和局限性。5.增強對抗樣本的泛化能力：訓練能夠生成具有高轉(zhuǎn)移性的對抗樣本的替代模型，并測試這些樣本在不同模型上的效果，以評估替代模型的泛化能力。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐環(huán)境：Python版本：3.9或者更高的版本Pytorch1.11.0Cuda:11.3.1GPU:A40（AUTODL云服務(wù)器，若無條件，可直接對本地已訓練好的模型進行評估）所需安裝庫：numpy1.21.5，matplotlib3.4.3，pyqt55.15.2數(shù)據(jù)集：MNIST、CIFAR-102.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐步驟：2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐核心代碼：第一個神經(jīng)網(wǎng)絡(luò)模型Net_s：包含兩個卷積層（分別用20和50個5x5過濾器）和兩個全連接層（500神經(jīng)元和10神經(jīng)元輸出），每個卷積層后接2x2最大池化，使用ReLU激活函數(shù)和F.log_softmax輸出。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐核心代碼：第二個神經(jīng)網(wǎng)絡(luò)模型Net_m：在Net_s基礎(chǔ)上增加一個卷積層（50個3x3過濾器，后接2x2最大池化），全連接層接收更深層次特征圖，前向傳播函數(shù)中有sign參數(shù)調(diào)節(jié)內(nèi)部計數(shù)，輸出使用F.log_softmax。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐核心代碼：第三個神經(jīng)網(wǎng)絡(luò)模型Net_l：比Net_m更復雜，增加第四個卷積層，共四個卷積層每層后跟最大池化，只有一個全連接層直接連接到輸出層，輸出為線性層結(jié)果，需外部應(yīng)用softmax獲取分類概率。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐核心代碼：進行訓練和評估。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐核心代碼：定義對抗性攻擊函數(shù)test_adver，用于在原始測試集上評估模型準確率，根據(jù)指定攻擊方法生成對抗樣本，并計算攻擊成功率。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐結(jié)果：實踐結(jié)果如圖2-7所示，模型準確率和攻擊成功率如圖2-8所示，竊取結(jié)果如圖2-9所示。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐結(jié)果：實踐結(jié)果如圖2-7所示，模型準確率和攻擊成功率如圖2-8所示，竊取結(jié)果如圖2-9所示。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取實踐結(jié)果：實踐結(jié)果如圖2-7所示，模型準確率和攻擊成功率如圖2-8所示，竊取結(jié)果如圖2-9所示。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取表2-2中，ASR：攻擊成功率。Query：評估階段的查詢數(shù)。Boundary：基于決策的攻擊。GLS：一種基于貪婪局部搜索的基于分數(shù)的黑盒攻擊。-：表示DaST在評估階段不需要查詢。本實踐中的DaST使用FGSM生成攻擊。2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.6生成對抗網(wǎng)絡(luò)攻擊的防護表2-2中，ASR：攻擊成功率。Query：評估階段的查詢數(shù)。Boundary：基于決策的攻擊。GLS：一種基于貪婪局部搜索的基于分數(shù)的黑盒攻擊。-：表示DaST在評估階段不需要查詢。本實踐中的DaST使用FGSM生成攻擊。2.6生成對抗網(wǎng)絡(luò)攻擊的防護生成對抗網(wǎng)絡(luò)（GANs）攻擊作為一種新興的網(wǎng)絡(luò)攻擊手段，其獨特性在于它可能會巧妙地利用GANs自身的特性來實施攻擊，這無疑給防御工作帶來了極大的挑戰(zhàn)。針對這一問題，主要存在兩個方面的隱患：其一，攻擊者可以利用GANs強大的生成能力，生成難以區(qū)分的惡意樣本。其二，GANs的對抗特性也可能被攻擊者所利用。2.6生成對抗網(wǎng)絡(luò)攻擊的防護除此之外，系統(tǒng)級的綜合防護措施也是必不可少的。1.可以構(gòu)建基于同態(tài)加密的分布式模型更新系統(tǒng)2.將關(guān)鍵檢測模塊部署在SGX（SoftwareGuardExtensions）等安全飛地中。3.可以將模型推理服務(wù)與特定硬件PUF（PhysicalUnclonableFunction）特征綁定。4.建立基于生成器梯度反演的攻擊溯源系統(tǒng)，并結(jié)合區(qū)塊鏈存證實現(xiàn)司法固證。2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.6.1針對惡意樣本生成的防護。面對基于GANs生成的惡意樣本，盡管技術(shù)進步使樣本區(qū)分難度增加，但仍可通過以下措施增強防護：1.增強檢測模型架構(gòu)2.時序行為建模3.生成樣本識別技術(shù)2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.6.2針對模型竊取攻擊的防護針對基于GAN的模型竊取攻擊的防護措施主要包括以下幾種：1.輸入擾動防御：核心思想是通過修改生成器的潛在代碼（latentcodes），生成多樣性受限或分布偏移的樣本，從而降低攻擊者提取高精度模型的能力。2.輸出擾動防御：核心思想是直接對生成圖像進行后處理，通過添加噪聲或進行壓縮等操作來降低樣本質(zhì)量，使攻擊者無法有效訓練替代模型。3.查詢控制防御：核心思想是通過限制攻擊者的查詢行為來防止數(shù)據(jù)泄露。4.模型結(jié)構(gòu)防御：核心思想是通過優(yōu)化模型的結(jié)構(gòu)和訓練過程來提高其對攻擊的魯棒性。2.6生成對抗網(wǎng)絡(luò)攻擊的防護5.數(shù)字水?。阂环N通過將具有特定意義的數(shù)字信號（如圖像、文本等）隱秘地嵌入到載體圖像中的技術(shù)，可以有效實施版權(quán)保護、所有權(quán)認證、內(nèi)容完整性驗證、篡改檢測及定位。這種方法可以在不影響圖像正常使用的情況下，為圖像添加不可見的水印信息，從而在發(fā)生侵權(quán)或篡改時提供有力的證據(jù)。6.差分隱私：一種通過為大型數(shù)據(jù)集添加隨機噪聲來防止攻擊者從統(tǒng)計結(jié)果中提取出任何個人的具體信息的技術(shù)。這種方法可以在保證數(shù)據(jù)的統(tǒng)計特性的同時，保護個體的隱私信息，從而防止攻擊者通過數(shù)據(jù)分析獲取敏感信息。內(nèi)容提綱2.3生成對抗網(wǎng)絡(luò)攻擊基礎(chǔ)知識2.2生成對抗網(wǎng)絡(luò)的基本原理與改進模型2.1生成對抗網(wǎng)絡(luò)概述2.4實踐案例：基于生成對抗網(wǎng)絡(luò)的sin曲線樣本模擬2.5實踐案例：基于生成對抗攻擊無數(shù)據(jù)替代訓練的模型竊取2.6生成對抗網(wǎng)絡(luò)攻擊的防護2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別小結(jié)2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別2.7.1實踐概述深度偽造（DeepFake）這一概念最早出現(xiàn)于2017年，隨著人工智能技術(shù)在網(wǎng)絡(luò)上的興起，深度偽造逐漸為大眾所熟知。深度偽造是“深度學習”和“偽造”的結(jié)合，是一種可以將目標人物的圖像或視頻疊加到另一個人身上的機器學習方法，從而創(chuàng)建目標人物做或說原人物所做或所說之事的新的“不真實”圖像或視頻。2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別本實踐實踐目的：1.驗證模型有效性：通過訓練DenseNet模型，驗證其在區(qū)分真實人臉和StyleGAN生成的虛假人臉方面的有效性。2.探索模型性能：評估DenseNet模型在不同閾值下的性能，確定其在實際應(yīng)用中的可行性和魯棒性。2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別2.7.2實踐環(huán)境? Python版本：3.9或者更高的版本? 實踐平臺：kaggle? 實踐數(shù)據(jù)集：kaggle平臺的140k-real-and-fake-faces數(shù)據(jù)集2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別2.7.4實踐核心代碼2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別實踐結(jié)果：模型測試結(jié)果如下所示，分別是分類報告如圖2-11所示，混淆矩陣如圖2-12所示，ROC曲線如圖2-13所示。2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別實踐結(jié)果：模型測試結(jié)果如下所示，分別是分類報告如圖2-11所示，混淆矩陣如圖2-12所示，ROC曲線如圖2-13所示。2.7防護案例：基于DenseNet對真實人臉和StyleGAN生成的虛假人臉進行識別實踐結(jié)果：模型測試結(jié)果如下所示，分別是分類報告如圖2-11所示，混淆矩陣如圖2-12所示，ROC曲線如圖2-13所示。小結(jié)本節(jié)介紹了生成對抗網(wǎng)絡(luò)攻擊與防護感謝同學們的收聽！致謝第3章數(shù)據(jù)投毒攻擊與防護本章介紹數(shù)據(jù)投毒攻擊（PoisoningAttack）通過篡改訓練數(shù)據(jù)的標簽或特征，使得模型在測試階段出現(xiàn)異常行為或性能下降。知識要點了解數(shù)據(jù)投毒攻擊的背景與動機熟悉數(shù)據(jù)投毒攻擊原理掌握數(shù)據(jù)投毒攻擊方法了解數(shù)據(jù)投毒攻擊實驗與案例分析掌握數(shù)據(jù)投毒防護策略了解數(shù)據(jù)投毒防護實驗與案例分析內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)3.1數(shù)據(jù)投毒攻擊概述數(shù)據(jù)投毒攻擊是指在數(shù)據(jù)收集階段，攻擊者通過篡改訓練數(shù)據(jù)，尤其是修改數(shù)據(jù)標簽或特征，從而影響機器學習模型的訓練過程，導致模型性能下降甚至出現(xiàn)錯誤預測。3.1數(shù)據(jù)投毒攻擊概述在機器學習和深度學習應(yīng)用中，數(shù)據(jù)投毒攻擊對模型的威脅尤為嚴重，因為大多數(shù)模型依賴大量訓練數(shù)據(jù)來提高準確性和泛化能力。如圖3-2所示，攻擊者通過篡改原始數(shù)據(jù)集中的數(shù)據(jù)，能夠在不引起注意的情況下影響模型的訓練和最終輸出，導致模型在實際應(yīng)用中的決策或預測能力受到干擾。3.1數(shù)據(jù)投毒攻擊概述在自動駕駛系統(tǒng)的計算機視覺模型中，它是依賴大量的圖像數(shù)據(jù)來識別不同道路標志的類別。如圖3-3所示攻擊者通過篡改一部分圖像數(shù)據(jù)的標簽，將“停車”篡改為“限速”，從而使得模型在訓練過程中學到錯誤的模式。內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊是一種針對機器學習模型的攻擊方式，其基本原理是通過故意篡改訓練數(shù)據(jù)的標簽或特征，誘使模型在訓練過程中學到錯誤的模式，從而在測試階段表現(xiàn)出異?；蛐阅茱@著下降。3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊形式：3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊形式：，標簽投毒攻擊是指攻擊者通過篡改訓練數(shù)據(jù)中的標簽（即目標變量），使得模型在學習過程中獲取錯誤的類別信息，從而導致模型產(chǎn)生誤分類。特征投毒攻擊則是指攻擊者通過修改數(shù)據(jù)樣本的特征（即輸入變量），使得模型無法從數(shù)據(jù)中提取有效的信息，導致其學習到錯誤的模式。3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊優(yōu)化公式：數(shù)據(jù)投毒攻擊的基本目標是通過篡改訓練數(shù)據(jù)，使得機器學習模型在面對新的數(shù)據(jù)時，產(chǎn)生誤分類或者錯誤預測。為了量化這種影響，可以使用如式（3.1）所示的攻擊優(yōu)化公式：3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊過程：

3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊過程：

3.2數(shù)據(jù)投毒攻擊原理數(shù)據(jù)投毒攻擊是一種通過篡改訓練數(shù)據(jù)或測試數(shù)據(jù)來誤導機器學習模型的攻擊方法。攻擊者通過操控數(shù)據(jù)的標簽或特征，迫使模型學習到錯誤的模式，從而在預測時產(chǎn)生誤分類。本節(jié)將介紹三種常見的數(shù)據(jù)投毒攻擊方法：基于標簽翻轉(zhuǎn)的數(shù)據(jù)投毒攻擊、基于優(yōu)化的數(shù)據(jù)投毒攻擊以及基于梯度的數(shù)據(jù)投毒攻擊。1、基于標簽翻轉(zhuǎn)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理2、基于優(yōu)化的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3、基于梯度的數(shù)據(jù)投毒攻擊內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐概述：人工智能模型在計算機視覺領(lǐng)域取得了顯著成效，并在圖像分類、目標檢測和語義分割等任務(wù)中得到了廣泛應(yīng)用。然而，這些模型在實際應(yīng)用中可能會受到多種攻擊威脅，其中數(shù)據(jù)投毒攻擊（PoisoningAttack）是一種極具破壞力的安全威脅。數(shù)據(jù)投毒攻擊通過篡改訓練數(shù)據(jù)的標簽或特征，使得模型在測試階段出現(xiàn)異常行為或性能下降。這種攻擊對依賴外部數(shù)據(jù)進行訓練的模型構(gòu)成了嚴重的安全挑戰(zhàn)。3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐環(huán)境：Python版本：3.10.0深度學習框架：Pytorch2.4.1運行平臺：PyCharm其他庫版本：numpy1.24.3，matplotlib3.7.2，torchvision0.15.2使用數(shù)據(jù)集：MNIST3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐步驟：3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐步驟：第1步：下載并處理數(shù)據(jù)集下載并預處理開源的MNIST數(shù)據(jù)集，確保數(shù)據(jù)格式符合模型訓練需求。第2步：執(zhí)行數(shù)據(jù)投毒攻擊采用特定的攻擊策略，在訓練集中注入惡意數(shù)據(jù)。這些惡意數(shù)據(jù)通常攜帶誤導性標簽或特征，目的是擾亂模型的學習過程，使其產(chǎn)生錯誤分類。第3步：定義損失函數(shù)和優(yōu)化器設(shè)定損失函數(shù)，并選擇Adam作為優(yōu)化器，為后續(xù)訓練做好準備。隨后初始化損失函數(shù)值和梯度，在訓練開始前，初始化模型的損失值和梯度。第4步：執(zhí)行前向傳播和反向傳播將輸入數(shù)據(jù)通過卷積神經(jīng)網(wǎng)絡(luò)進行前向傳播，計算模型的預測值。依據(jù)定義的損失函數(shù)，計算模型當前預測結(jié)果的損失。隨后計算梯度并更新模型參數(shù)，優(yōu)化模型以減少預測誤差。3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐步驟：第5步：檢查是否完成所有訓練數(shù)據(jù)的迭代若尚未完成，則繼續(xù)訓練，返回至前向傳播步驟。若已完成，則進入下一步。第6步：檢查訓練輪次是否達到設(shè)定的epoch若未達到設(shè)定的epoch，返回至前向傳播步驟，繼續(xù)訓練。若達到設(shè)定的epoch，則進入評估階段。第7步評估：模型在測試集上的準確率并可視化評估結(jié)果在測試集上運行模型，評估其分類性能。通過可視化工具分析模型的預測表現(xiàn)，以監(jiān)控投毒攻擊的影響。3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐核心代碼3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊實踐結(jié)果（一）實驗結(jié)果：當模型的學習率lr=0.001，投毒樣本比例為15%，投毒策略為將原有的標簽修改為該標簽的下一位數(shù)字（0->1,9->0），投毒前檢測結(jié)果和投毒后檢測結(jié)果示例如圖3-9、3-10所示：3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊（二）對比實驗3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊（二）對比實驗3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊（二）對比實驗3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊（二）對比實驗內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)3.4數(shù)據(jù)投毒防護3.4.1數(shù)據(jù)清洗數(shù)據(jù)清洗是一種通過去除異常值、噪聲數(shù)據(jù)和惡意數(shù)據(jù)來提高數(shù)據(jù)質(zhì)量的技術(shù)。在數(shù)據(jù)清洗過程中，首先需要識別并刪除那些明顯偏離正常模式的數(shù)據(jù)點，這些數(shù)據(jù)點通常是潛在的投毒數(shù)據(jù)。清洗方法可以基于統(tǒng)計學原理，也可以基于模型來實現(xiàn)。3.4數(shù)據(jù)投毒防護1、基于統(tǒng)計學的異常值檢測基于統(tǒng)計學的異常值檢測方法利用數(shù)據(jù)的分布特性來識別異常數(shù)據(jù)。其中Z-score方法是一種常見的統(tǒng)計方法，通過標準化數(shù)據(jù)，來判斷某個數(shù)據(jù)點是否偏離正常值。該的核心思想是計算每個數(shù)據(jù)點與數(shù)據(jù)均值之間的標準差距離。若數(shù)據(jù)點的Z-score值超過某個閾值，則認為該點為異常值。3.4數(shù)據(jù)投毒防護2、基于模型的異常值檢測除了基于統(tǒng)計學的方法，另一種常見的異常值檢測方法是基于模型的檢測，其中孤立森林（IsolationForest）是一種通過遞歸分割數(shù)據(jù)空間來檢測異常數(shù)據(jù)的技術(shù)。它能夠自動識別出偏離大多數(shù)樣本的數(shù)據(jù)點，尤其在高維數(shù)據(jù)中表現(xiàn)良好。3.4數(shù)據(jù)投毒防護2、基于模型的異常值檢測除了基于統(tǒng)計學的方法，另一種常見的異常值檢測方法是基于模型的檢測，其中孤立森林（IsolationForest）是一種通過遞歸分割數(shù)據(jù)空間來檢測異常數(shù)據(jù)的技術(shù)。它能夠自動識別出偏離大多數(shù)樣本的數(shù)據(jù)點，尤其在高維數(shù)據(jù)中表現(xiàn)良好。3.4數(shù)據(jù)投毒防護魯棒性訓練：魯棒性訓練是一種通過調(diào)整模型訓練過程，使模型對異常數(shù)據(jù)或惡意數(shù)據(jù)更加穩(wěn)健的方法。通過應(yīng)用正則化、數(shù)據(jù)增強等技術(shù)，可以增加模型對異常數(shù)據(jù)的容忍度，從而降低數(shù)據(jù)投毒的風險[9]。1、L2正則化3.4數(shù)據(jù)投毒防護2、數(shù)據(jù)增強數(shù)據(jù)增強是通過對訓練數(shù)據(jù)進行變換（如旋轉(zhuǎn)、平移、縮放等）來增加數(shù)據(jù)的多樣性，增強模型的泛化能力。數(shù)據(jù)增強不僅可以提高模型對新數(shù)據(jù)的適應(yīng)能力，還能使模型在面對投毒數(shù)據(jù)時更加穩(wěn)健。3.4數(shù)據(jù)投毒防護1、訓練階段的異常檢測在訓練階段，可以使用自編碼器（Autoencoder）進行異常檢測。自編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，它通過將輸入數(shù)據(jù)壓縮成一個低維的表示（編碼部分），然后再將其重構(gòu)為原始數(shù)據(jù)的近似值（解碼部分）。3.4數(shù)據(jù)投毒防護1、訓練階段的異常檢測在訓練階段，可以使用自編碼器（Autoencoder）進行異常檢測。自編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，它通過將輸入數(shù)據(jù)壓縮成一個低維的表示（編碼部分），然后再將其重構(gòu)為原始數(shù)據(jù)的近似值（解碼部分）。3.4數(shù)據(jù)投毒防護2、部署階段的異常檢測在部署階段，可以使用模型輸出的異常波動來檢測投毒行為。例如在基于集成學習的模型中，如果某一模型的輸出與其他模型的輸出存在較大偏差，則可能是數(shù)據(jù)或模型本身存在異常。常用的異常檢測方法包括基于加權(quán)平均的模型輸出檢測或基于離群點檢測的技術(shù)。3.4數(shù)據(jù)投毒防護3.4.4多模型驗證多模型驗證是通過使用多個獨立訓練的模型或不同的數(shù)據(jù)分區(qū)，來驗證數(shù)據(jù)的一致性和模型的可靠性。這種方法能夠有效減少單一模型或數(shù)據(jù)集被投毒攻擊的風險，并提高模型的整體穩(wěn)定性。3.4數(shù)據(jù)投毒防護1、集成學習集成學習通過訓練多個獨立的模型，并將它們的預測結(jié)果進行合并，從而提高模型的魯棒性。在集成學習中，每個模型都會根據(jù)輸入數(shù)據(jù)進行獨立的預測，隨后通過投票或加權(quán)平均的方式整合這些預測結(jié)果。常見的集成方法包括隨機森林（RandomForest）和梯度提升樹（GradientBoosting）等。這些方法通過投票或加權(quán)平均的方式整合多個模型的預測結(jié)果，從而減少單一模型在面對數(shù)據(jù)投毒攻擊時的表現(xiàn)不穩(wěn)定性3.4數(shù)據(jù)投毒防護1、集成學習

3.4數(shù)據(jù)投毒防護2、交叉驗證交叉驗證是一種常用的驗證方法，它通過將數(shù)據(jù)集劃分為多個子集，分別訓練模型并驗證其性能。

內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護3.5.1實踐概述數(shù)據(jù)投毒防護的核心目標是通過檢測和過濾掉訓練數(shù)據(jù)中的惡意樣本，確保模型的訓練過程不受干擾，從而提高模型的魯棒性和安全性。本節(jié)主要介紹基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的數(shù)據(jù)投毒防護案例。通過使用K近鄰（KNN）算法對訓練數(shù)據(jù)進行清洗，過濾掉被投毒的樣本，最終恢復模型的性能。實驗結(jié)果表明，該防護方法能夠有效抵御數(shù)據(jù)投毒攻擊，恢復模型的準確率。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護3.5.2實踐環(huán)境Python版本：3.10.0深度學習框架：Pytorch2.4.1運行平臺：PyCharm其他庫版本：numpy1.24.3，matplotlib3.7.2，torchvision0.15.2，sklearn使用數(shù)據(jù)集：MNIST3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護3.5.3實踐步驟數(shù)據(jù)投毒防護案例的實現(xiàn)流程圖如3-18所示。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護第1步：加載并預處理數(shù)據(jù)集下載并加載MNIST數(shù)據(jù)集，執(zhí)行數(shù)據(jù)預處理，確保數(shù)據(jù)格式適用于模型訓練。第2步：模擬數(shù)據(jù)投毒攻擊設(shè)計投毒策略，通過標簽翻轉(zhuǎn)規(guī)則修改部分訓練數(shù)據(jù)的標簽，生成受攻擊的訓練數(shù)據(jù)集。第3步：使用K近鄰（KNN）數(shù)據(jù)清洗采用KNN算法對受攻擊的數(shù)據(jù)進行清洗，移除與大多數(shù)鄰居標簽不一致的異常樣本，生成清洗后的訓練數(shù)據(jù)集。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護第4步：訓練模型首先訓練基準模型，在原始（未受攻擊）數(shù)據(jù)集上訓練卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型，以作為性能基準。隨后訓練投毒模型，使用受攻擊的數(shù)據(jù)集訓練CNN模型，以評估數(shù)據(jù)投毒攻擊對模型的影響。最后訓練防護模型，采用經(jīng)過KNN清洗后的數(shù)據(jù)集訓練CNN模型，以測試數(shù)據(jù)清洗方法的防護效果。第5步“模型評估并進行可視化結(jié)果展示在測試集上評估三個模型（基準模型、投毒模型、防護模型）的性能，分析它們的準確率和魯棒性。通過可視化工具對比投毒前、投毒后以及防護后模型的預測結(jié)果，展示投毒攻擊的影響及防護措施的有效性。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護3.4.4實踐核心代碼定義投毒攻擊實施規(guī)則函數(shù)實現(xiàn)了標簽翻轉(zhuǎn)（LabelFlipping）數(shù)據(jù)投毒攻擊，通過修改部分訓練數(shù)據(jù)的標簽來擾亂模型學習。該函數(shù)設(shè)定標簽翻轉(zhuǎn)規(guī)則flip_mapping，如1→8，2→7，并按flip_ratio隨機選擇部分樣本翻轉(zhuǎn)標簽，生成受攻擊的數(shù)據(jù)集。如下圖所示展示了該部分代碼內(nèi)容。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護該函數(shù)旨在通過多數(shù)投票機制識別并過濾掉潛在的異常數(shù)據(jù)。如下圖所示展示了該部分代碼內(nèi)容。3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護3.5.5實踐結(jié)果數(shù)據(jù)投毒防護實驗結(jié)果如圖3-19所示。其展示了10個樣本的預測結(jié)果，分為四行：第一行為真實標簽（GT），第二行為使用干凈數(shù)據(jù)訓練的模型預測結(jié)果（clean），第三行為使用受攻擊數(shù)據(jù)訓練的模型預測結(jié)果（attacked），第四行為使用防御后數(shù)據(jù)訓練的模型預測結(jié)果（defended）。內(nèi)容提綱3.3實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒攻擊3.2數(shù)據(jù)投毒攻擊原理3.1數(shù)據(jù)投毒攻擊概述3.4數(shù)據(jù)投毒防護3.5實踐案例：基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)投毒防護小結(jié)小結(jié)本章講述了“數(shù)據(jù)投毒攻擊與防護”知識。感謝同學們的收聽！致謝第4章對抗樣本攻擊與防護本章介紹對抗樣本生成算法主要用于生成能夠欺騙機器學習模型的輸入樣本。這些算法通過在原始輸入數(shù)據(jù)中添加微小的、難以察覺的擾動，使得模型做出錯誤的預測。知識要點：了解對抗樣本攻擊背景概述熟悉對抗樣本攻擊的問題定義與攻擊分類熟悉幾種常見對抗樣本攻擊算法掌握對抗樣本攻擊具體實施案例了解對抗樣本攻擊的防護措施內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)4.1對抗樣本攻擊概述

2013年，Szegedy等人[2]在研究圖像分類問題時，觀察到一個“反直覺”現(xiàn)象：通過對輸入圖像添加人類視覺難以察覺的細微擾動，即可使深度神經(jīng)網(wǎng)絡(luò)DNN以較高置信度輸出錯誤分類結(jié)果。研究者將這種現(xiàn)象稱為對抗樣本攻擊，將添加細微擾動后的原始樣本稱為對抗樣本。之后，越來越多的研究還發(fā)現(xiàn)強化學習模型、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN等深度學習模型也存在類似問題。自發(fā)現(xiàn)對抗樣本以來，對抗攻擊的執(zhí)行手段層出不窮。了解熟悉對抗樣本攻擊的實現(xiàn)原理，有助于對抗防護的施行。本章將對對抗樣本攻擊具體算法進行深入解析，并介紹一種對抗樣本攻擊的具體案例。內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)4.2對抗樣本攻擊基礎(chǔ)知識4.2.1問題定義對抗樣本攻擊是針對深度學習模型的一種惡意攻擊方法，其核心特征在于利用微小且難以察覺的擾動讓模型發(fā)生預測錯誤。4.2對抗樣本攻擊基礎(chǔ)知識4.2.1問題定義對抗樣本攻擊4.2對抗樣本攻擊基礎(chǔ)知識攻擊分類：

根據(jù)攻擊環(huán)境的不同，即攻擊者獲取先驗信息多少的不同，對抗樣本攻擊可以分為白盒攻擊（WhiteBoxAttack）和黑盒攻擊（BlackBoxAttack）[4]。白盒攻擊的攻擊者知曉攻擊模型的全部信息，包括訓練數(shù)據(jù)、超參數(shù)、模型架構(gòu)等。而黑盒攻擊的攻擊者無法獲取模型網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)等內(nèi)部信息，僅能控制輸入來獲取模型有限的輸出結(jié)果。相較于白盒攻擊，黑盒攻擊不需要獲取模型自身相關(guān)信息，更加符合實際應(yīng)用場景。根據(jù)擾動生成方法的不同，可以將對抗樣本攻擊分為基于梯度的攻擊、基于優(yōu)化的攻擊、基于遷移的攻擊和基于查詢的攻擊?；谔荻鹊墓粢蕾囉谀Ｐ偷奶荻刃畔?，通過計算損失函數(shù)關(guān)于輸入的梯度來生成擾動，常見的攻擊方法有快速梯度符號法、迭代梯度法和投影梯度下降法等。4.2對抗樣本攻擊基礎(chǔ)知識攻擊分類：內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)4.3對抗樣本攻擊算法4.3.1基于梯度的攻擊1.快速梯度符號法快速梯度符號法（FastGradientSignMethod,FGSM）是由Goodfellow等人在2014年研究神經(jīng)網(wǎng)絡(luò)模型對抗擾動干擾的脆弱性原因時提出的[4]。他們認為對抗樣本產(chǎn)生的主要原因不是非線性和過擬合，而是模型本身的線性特性，讓高維空間中的線性特性足以產(chǎn)生對抗樣本，并以此為基礎(chǔ)設(shè)計了一種簡易的對抗樣本生成方法FGSM。4.3對抗樣本攻擊算法4.3.1基于梯度的攻擊1.快速梯度符號法4.3對抗樣本攻擊算法4.3.1基于梯度的攻擊2.迭代梯度法：FGSM算法只需要計算一次梯度，生成對抗樣本的速度非?？?，適合做對抗攻擊的基準測試，但生成的對抗樣本可能并不總是最強的。迭代梯度法（IterativeFastGradientSignMethod,I-FGSM）算法便是采用迭代方法的FGSM擴展方法，也被稱為基礎(chǔ)迭代方法（BasicIterativeMethod,BIM）4.3對抗樣本攻擊算法4.3.1基于梯度的攻擊2.迭代梯度法：4.3對抗樣本攻擊算法3.MI-FGSM算法基于動量的快速梯度符號法（MomentumIterativeFastGradientSignMethod,MI-FGSM）通過引入動量加速迭代優(yōu)化過程，有助于穩(wěn)定對抗擾動更新方向和跳出局部最優(yōu)解，有利于增強對抗樣本的對抗遷移性。而動量法是一種通過在迭代過程中累積沿損失函數(shù)梯度方向的速度矢量，從而加速梯度下降的技術(shù)。記住之前的梯度信息可以幫助算法更順利地穿越狹窄的山谷、小的駝峰以及較差的局部最小值或最大值。4.3對抗樣本攻擊算法3.MI-FGSM算法基于動量的快速梯度符號法4.3對抗樣本攻擊算法3.MI-FGSM算法基于動量的快速梯度符號法4.3對抗樣本攻擊算法3.MI-FGSM算法:基于動量的快速梯度符號法4.3對抗樣本攻擊算法4.投影梯度下降法投影梯度下降法（ProjectedGradientDescent，PGD）[7]是由Madry等人在2017年提出的，它既是生成對抗樣本的算法，也是對抗訓練的防御算法。此外，Mardry等人的論文指出PGD是一階中的最強攻擊。這表明如果某一防御方法對該攻擊有很好的防御效果，那么應(yīng)對其攻擊也不在話下。4.3對抗樣本攻擊算法4.投影梯度下降法投影梯度下降法。4.3對抗樣本攻擊算法基于優(yōu)化的攻擊:C&W（Carlini&Wagner）[8]算法是由Carlini和Wagner在2017年提出的一種基于優(yōu)化的攻擊方式，它同時兼顧高攻擊準確率和低對抗擾動兩方面，旨在生成更難以防御的對抗樣本。與FGSM和PGD等算法生成的對抗樣本可能存在肉眼可見的模糊不同，C&W算法的對抗樣本幾乎無法人眼區(qū)分。該算法的核心思想是將對抗樣本視為一個優(yōu)化參數(shù)。為了確保攻擊成功，必須滿足兩個條件：（1）對抗樣本與原始樣本之間的差異越小越好；（2）對抗樣本應(yīng)使得模型分類錯誤，并且錯誤的概率越高越好。也就是說，該算法通過優(yōu)化方法生成對抗樣本，能夠確保在攻擊成功的前提下，盡可能減小擾動的幅度。4.3對抗樣本攻擊算法基于優(yōu)化的攻擊:C&W算法是目前最為優(yōu)秀的對抗攻擊之一，能夠生成幾乎不可察覺的對抗樣本，對許多經(jīng)典的防御手段都能起到有效的攻擊效果，并且能夠通過調(diào)節(jié)c與k的取值，來精細化調(diào)節(jié)擾動大小。4.3對抗樣本攻擊算法4.3.3基于遷移的攻擊:基于遷移的攻擊是一種黑盒攻擊，它允許攻擊者在無法直接訪問目標模型的內(nèi)部結(jié)構(gòu)或參數(shù)的情況下，通過借用與目標模型相似的源模型的信息來生成對抗擾動，并將這些擾動應(yīng)用到目標模型中。這一方法借鑒了“遷移學習”的思想，遷移學習指的是從一個任務(wù)中獲得的知識可以遷移到另一個相關(guān)任務(wù)。4.3對抗樣本攻擊算法4.3.4基于查詢的攻擊:

ZOO（ZerothOrderOptimizationBasedBlack-boxAttacks）[10]算法是一種針對深度神經(jīng)網(wǎng)絡(luò)的黑盒攻擊算法，其核心原理是在無法獲取目標模型內(nèi)部結(jié)構(gòu)和梯度信息的情況下，利用有限差分方法近似估計目標函數(shù)相對與輸入的梯度，并通過迭代優(yōu)化生成對抗樣本，從而實現(xiàn)對目標模型的攻擊。內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)4.4實踐案例：MNIST手寫數(shù)字識別4.4.1實踐概述MNIST手寫數(shù)字識別是一個經(jīng)典的機器學習任務(wù)和數(shù)據(jù)集。MNIST數(shù)據(jù)集包含7萬張28×28像素的灰度手寫數(shù)字圖像，以及每張圖像對應(yīng)的0-9數(shù)字標簽。該任務(wù)的目標是通過訓練模型學習圖像特征與數(shù)字標簽之間的映射關(guān)系，使模型能夠準確識別新的手寫數(shù)字圖像。該案例使用的LeNet模型作為MNIST手寫數(shù)字識別的目標模型，其為官方提供的一個示例模型。同時，采用FGSM和PGD兩種對抗樣本生成算法執(zhí)行白盒攻擊，以求幫助大家熟悉對抗樣本攻擊算法的實現(xiàn)步驟，以及比較FGSM和PGD兩種算法的效能區(qū)別。4.4實踐案例：MNIST手寫數(shù)字識別4.4.2實踐環(huán)境

Python版本：3.10.15或更高版本深度學習框架：torch2.5.1，CUDA12.5

其他庫版本：numpy1.26.4，matplotlib3.10.0

數(shù)據(jù)集：MNIST4.4實踐案例：MNIST手寫數(shù)字識別4.4.3實踐步驟該案例執(zhí)行白盒攻擊的一般步驟如圖4-8所示。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼首先，定義LeNet模型網(wǎng)絡(luò)結(jié)構(gòu)和定義攻擊函數(shù)。其中，目標模型網(wǎng)絡(luò)結(jié)構(gòu)定義為具有兩個卷積層、一個池化層和兩個全連接層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。模型定義與加載的具體代碼如下。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼第一個攻擊方法為FGSM，其攻擊函數(shù)代碼如下。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼第二個攻擊方法為PGD，其攻擊函數(shù)代碼如下。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼其次，定義白盒攻擊測試函數(shù)和執(zhí)行攻擊，其中攻擊測試函數(shù)的代碼如下。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼:加載MNIST數(shù)據(jù)集，并執(zhí)行攻擊，代碼如下。4.4實踐案例：MNIST手寫數(shù)字識別4.4.4實踐核心代碼:

最后，繪制圖像。繪制模型準確率隨epsilon變化的折線圖和所有eplison下導致模型分類錯誤的部分樣例圖，代碼如下（這里只給出了一種攻擊的代碼）。4.4實踐案例：MNIST手寫數(shù)字識別4.4.5實踐結(jié)果4.4實踐案例：MNIST手寫數(shù)字識別4.4.5實踐結(jié)果內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)4.5對抗樣本攻擊防護4.5.1數(shù)據(jù)層面1.數(shù)據(jù)轉(zhuǎn)換2.數(shù)據(jù)壓縮3.對抗性訓練4.5對抗樣本攻擊防護4.5.2模型層面1.防御蒸餾2.正則化3.附加網(wǎng)絡(luò)內(nèi)容提綱4.3對抗樣本攻擊算法4.2對抗樣本攻擊基礎(chǔ)知識4.1對抗樣本攻擊概述4.4實踐案例：MNIST手寫數(shù)字識別4.5對抗樣本攻擊防護小結(jié)小結(jié)本章節(jié)講述了對抗樣本攻擊與防護

感謝同學們的收聽！致謝第5章后門攻擊與防護本章介紹后門攻擊是一種針對深度學習模型的隱蔽性安全威脅，其核心在于通過特定手段在模型訓練階段植入惡意機制。本章主要講述概念、原理、分類以及常見的后門攻擊與防護方法。知識要點：

掌握后門攻擊的定義、核心目標及其潛在危害

掌握后門攻擊的通用實現(xiàn)流程

熟悉典型后門攻擊方法的實現(xiàn)邏輯與區(qū)別

了解后門攻擊的防護與檢測技術(shù)內(nèi)容提綱5.3實踐案例：基于BadNet模型的后門攻擊5.2后門攻擊的基礎(chǔ)知識5.1后門攻擊的概述5.4后門攻擊的防護小結(jié)5.1后門攻擊的概述5.1.1定義及背景這種攻擊的獨特之處在于，被植入后門的模型在絕大多數(shù)正常輸入下表現(xiàn)與未受攻擊的模型無異，但當輸入樣本包含攻擊者預設(shè)的觸發(fā)模式時，模型會執(zhí)行預先設(shè)定的異常行為。這種觸發(fā)模式可以是視覺可見的圖案，也可以是經(jīng)過精心設(shè)計的隱形擾動，甚至可能通過物理空間中的特定物體來實現(xiàn)。從技術(shù)實現(xiàn)層面來看，后門攻擊主要依托兩種途徑：其一是通過訓練數(shù)據(jù)投毒，攻擊者在原始數(shù)據(jù)集中混入攜帶觸發(fā)器的惡意樣本，并強制模型建立觸發(fā)器與目標錯誤分類之間的關(guān)聯(lián)；其二是繞過數(shù)據(jù)層面的干預，直接對模型參數(shù)或訓練過程進行篡改，例如通過權(quán)重擾動或硬件電路植入等手段。5.1后門攻擊的概述5.1.1定義及背景

5.1后門攻擊的概述5.1.2相關(guān)研究發(fā)展隨著人工智能技術(shù)的廣泛應(yīng)用，深度學習模型的安全性日益受到關(guān)注。后門攻擊作為數(shù)據(jù)投毒攻擊的特殊形式，因其隱蔽性和持久性成為研究熱點。近年來，研究者們在計算機視覺、自然語言處理和聯(lián)邦學習等不同場景下對后門攻擊進行了深入探索，揭示了新型攻擊手段與防御機制間的博弈關(guān)系。

內(nèi)容提綱5.3實踐案例：基于BadNet模型的后門攻擊5.2后門攻擊的基礎(chǔ)知識5.1后門攻擊的概述5.4后門攻擊的防護小結(jié)5.2后門攻擊的基礎(chǔ)知識5.2.1后門攻擊的原理

5.2后門攻擊的基礎(chǔ)知識攻擊的關(guān)鍵在于模型需同時滿足兩個看似矛盾的目標：一方面，在正常輸入下的預測精度需與干凈模型相當，以規(guī)避常規(guī)性能測試的檢測；另一方面，對攜帶觸發(fā)器的輸入必須穩(wěn)定輸出ytarget，從而為攻擊者提供可操控的入口。典型的后門攻擊流程如圖5-3所示。5.2后門攻擊的基礎(chǔ)知識5.2.2后門攻擊的分類后門攻擊作為深度學習中隱蔽性極強的威脅手段，其分類體系可從觸發(fā)器的形態(tài)特征、攻擊實施路徑、攻擊環(huán)境約束及生成邏輯等多個維度展開系統(tǒng)性剖析，分類示意如圖5-4所示。5.2后門攻擊的基礎(chǔ)知識5.2.3常見的后門攻擊方法本節(jié)將通過三個典型場景剖析后門攻擊的實現(xiàn)路徑與潛在危害，系統(tǒng)性揭示深度學習模型在開放生態(tài)下面臨的多維度安全威脅。1.BadNets方法在深度學習技術(shù)蓬勃發(fā)展的背景下，模型訓練的高昂計算成本催生了外包訓練與遷移學習的廣泛應(yīng)用，卻也悄然打開了安全威脅的閘門。BadNets作為這一領(lǐng)域的典型攻擊案例，揭示了機器學習供應(yīng)鏈中潛藏的致命漏洞——攻擊者通過精心設(shè)計的后門植入，使得模型在常規(guī)場景下表現(xiàn)優(yōu)異，卻在特定觸發(fā)條件下產(chǎn)生定向錯誤，如同在精密儀器中埋下定時炸彈。5.2后門攻擊的基礎(chǔ)知識2.TrojanNN方法在人工智能安全領(lǐng)域，神經(jīng)網(wǎng)絡(luò)木馬攻擊（TrojaningAttack）作為模型后門植入的典型案例，展現(xiàn)了深度學習模型在開放生態(tài)下面臨的新型安全威脅。5.2后門攻擊的基礎(chǔ)知識3.隱蔽觸發(fā)后門傳統(tǒng)后門攻擊方法如BadNets通過在訓練數(shù)據(jù)中植入帶有明顯觸發(fā)器的錯誤標簽樣本，使模型建立觸發(fā)器與目標類別的關(guān)聯(lián)。然而這類方法存在顯著缺陷。針對上述方法的局限性，馬里蘭大學團隊提出的"隱藏觸發(fā)后門攻擊"開創(chuàng)了新型攻擊范式，其核心突破在于實現(xiàn)了"雙隱"特性——毒化數(shù)據(jù)既保持視覺自然性又隱藏觸發(fā)機制，直到測試階段才由攻擊者激活。內(nèi)容提綱5.3實踐案例：基于BadNet模型的后門攻擊5.2后門攻擊的基礎(chǔ)知識5.1后門攻擊的概述5.4后門攻擊的防護小結(jié)5.3實踐案例：基于BadNet模型的后門攻擊5.3.1實踐概述攻擊目的：BadNets作為一種典型的神經(jīng)網(wǎng)絡(luò)后門攻擊方式，其核心目標在于通過篡改模型的訓練過程，使得模型在正常輸入下表現(xiàn)良好

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能安全 課件全套 1-11 人工智能安全概述 - 第11章 大語言模型安全

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能安全課件全套 1-11 人工智能安全概述 - 第11章大語言模型安全